論文の概要: FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets
- arxiv url: http://arxiv.org/abs/2509.20904v2
- Date: Fri, 26 Sep 2025 00:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.785482
- Title: FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets
- Title(参考訳): FORGE:産業データにおける生成検索のための意味的識別器の構築
- Authors: Kairui Fu, Tao Zhang, Shuwen Xiao, Ziyang Wang, Xinming Zhang, Chenchi Zhang, Yuliang Yan, Junjun Zheng, Yu Li, Zhihong Chen, Jian Wu, Xiangheng Kong, Shengyu Zhang, Kun Kuang, Yuning Jiang, Bo Zheng,
- Abstract要約: FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
- 参考スコア(独自算出の注目度): 64.51403245281547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic identifiers (SIDs) have gained increasing attention in generative retrieval (GR) due to their meaningful semantic discriminability. However, current research on SIDs faces three main challenges: (1) the absence of large-scale public datasets with multimodal features, (2) limited investigation into optimization strategies for SID generation, which typically rely on costly GR training for evaluation, and (3) slow online convergence in industrial deployment. To address these challenges, we propose FORGE, a comprehensive benchmark for FOrming semantic identifieR in Generative rEtrieval with industrial datasets. Specifically, FORGE is equipped with a dataset comprising 14 billion user interactions and multimodal features of 250 million items sampled from Taobao, one of the biggest e-commerce platforms in China. Leveraging this dataset, FORGE explores several optimizations to enhance the SID construction and validates their effectiveness via offline experiments across different settings and tasks. Further online analysis conducted on the "Guess You Like" section of Taobao's homepage shows a 0.35% increase in transaction count, highlighting the practical impact of our method. Regarding the expensive SID validation accompanied by the full training of GRs, we propose two novel metrics of SID that correlate positively with recommendation performance, enabling convenient evaluations without any GR training. For real-world applications, FORGE introduces an offline pretraining schema that reduces online convergence by half. The code and data are available at https://github.com/selous123/al_sid.
- Abstract(参考訳): セマンティック識別子 (SID) は、意味的な意味的識別性により、生成的検索 (GR) において注目を集めている。
しかし、SIDに関する現在の研究は、(1)マルチモーダルな特徴を持つ大規模パブリックデータセットの欠如、(2)コストのかかるGRトレーニングに依存するSID生成のための最適化戦略の限定的な調査、(3)産業展開におけるオンライン収束の遅さ、の3つの課題に直面している。
これらの課題に対処するため,産業データセットを用いたジェネレーティブrEtrievalにおける FOrming semantic identifiedr の総合ベンチマークである FORGE を提案する。
具体的には、中国最大のeコマースプラットフォームであるTaobaoから採取された2億5000万項目のユーザインタラクションとマルチモーダル特徴からなるデータセットを備えている。
このデータセットを活用して、FOGEはSID構築を強化するためにいくつかの最適化を検討し、さまざまな設定やタスクにわたるオフライン実験を通じてその有効性を検証する。
Taobao氏のホームページの"Guess You Like"セクションで実施されたオンライン分析では,トランザクション数が0.35%増加し,本手法の実践的影響が浮き彫りになっている。
GRの完全トレーニングに伴う高価なSID検証について,提案手法は推奨性能と正の相関関係を持ち,GRトレーニングを伴わない簡便な評価を可能にする2つの新しいSID指標を提案する。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
コードとデータはhttps://github.com/selous123/al_sid.comで公開されている。
関連論文リスト
- Adaptive Federated Distillation for Multi-Domain Non-IID Textual Data [6.819856310521865]
マルチドメイン非IIDシナリオの包括的セットを導入し、多様なデータを含む統一ベンチマークフレームワークを提案する。
実験結果から,本モデルがローカルクライアントの多様性を捉え,既存モデルと比較して性能が向上していることが示唆された。
論文 参考訳(メタデータ) (2025-08-28T08:51:14Z) - eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文 参考訳(メタデータ) (2025-07-13T11:41:44Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data [27.63411386396492]
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
論文 参考訳(メタデータ) (2023-05-24T09:03:18Z) - Optimizing Performance of Federated Person Re-identification:
Benchmarking and Analysis [14.545746907150436]
FedReIDは、新しい分散トレーニング手法であるフェデレーション学習を個人に対して実装する。
FedReIDは、クライアントから中央サーバへ、生のデータではなく、モデル更新を集約することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2022-05-24T15:20:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。