論文の概要: GRACE: Generative Representation Learning via Contrastive Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.04506v1
- Date: Mon, 06 Oct 2025 05:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.695565
- Title: GRACE: Generative Representation Learning via Contrastive Policy Optimization
- Title(参考訳): GRACE:コントラストポリシー最適化による生成表現学習
- Authors: Jiashuo Sun, Shixuan Liu, Zhaochen Su, Xianrui Zhong, Pengcheng Jiang, Bowen Jin, Peiran Li, Weijia Shi, Jiawei Han,
- Abstract要約: 生成ポリシーの報酬としてコントラスト信号を再定義するフレームワークであるGRACEを紹介する。
GRACEは明示的で人間の解釈可能な理性、構造化された自然言語の説明を生成する。
MTEBベンチマークでは、GRACEは幅広いクロスカテゴリゲインを得る。
- 参考スコア(独自算出の注目度): 44.40343928975602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prevailing methods for training Large Language Models (LLMs) as text encoders rely on contrastive losses that treat the model as a black box function, discarding its generative and reasoning capabilities in favor of static embeddings. We introduce GRACE (Generative Representation Learning via Contrastive Policy Optimization), a novel framework that reimagines contrastive signals not as losses to be minimized, but as rewards that guide a generative policy. In GRACE, the LLM acts as a policy that produces explicit, human-interpretable rationales--structured natural language explanations of its semantic understanding. These rationales are then encoded into high-quality embeddings via mean pooling. Using policy gradient optimization, we train the model with a multi-component reward function that maximizes similarity between query positive pairs and minimizes similarity with negatives. This transforms the LLM from an opaque encoder into an interpretable agent whose reasoning process is transparent and inspectable. On MTEB benchmark, GRACE yields broad cross category gains: averaged over four backbones, the supervised setting improves overall score by 11.5% over base models, and the unsupervised variant adds 6.9%, while preserving general capabilities. This work treats contrastive objectives as rewards over rationales, unifying representation learning with generation to produce stronger embeddings and transparent rationales. The model, data and code are available at https://github.com/GasolSun36/GRACE.
- Abstract(参考訳): テキストエンコーダとしてのLarge Language Models (LLM) をトレーニングする一般的な方法は、モデルをブラックボックス関数として扱う対照的な損失に依存し、その生成と推論能力を捨て、静的な埋め込みを好む。
比較政策最適化による生成表現学習(GRACE:Generative Representation Learning via Contrastive Policy Optimization)は、最小化すべき損失ではなく、生成ポリシーを導く報酬として、対照的な信号を再定義する新しいフレームワークである。
GRACEでは、LLMは明示的で人間の解釈可能な理性を生み出す政策として機能し、その意味的理解に関する自然言語の説明を構造化する。
これらの論理は、平均プールにより高品質な埋め込みに符号化される。
ポリシー勾配最適化を用いて、クエリ正ペア間の類似度を最大化し、負の類似度を最小化する多成分報酬関数を用いてモデルを訓練する。
これにより、LCMを不透明なエンコーダから、推論プロセスが透明で検査可能な解釈可能なエージェントに変換する。
MTEBベンチマークでは、GRACEは4つ以上のバックボーンを平均化し、教師なしの設定はベースモデルよりも11.5%、教師なしのバリエーションは6.9%向上し、一般的な機能を維持している。
この研究は、対照的な目的を合理性に対する報酬として扱い、表現学習を世代と統一し、より強力な埋め込みと透明な合理性を生み出す。
モデル、データ、コードはhttps://github.com/GasolSun36/GRACE.comで入手できる。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Positive-Negative Equal Contrastive Loss for Semantic Segmentation [8.664491798389662]
従来の作業では、グローバルコンテキストを効果的に抽出し集約するために、プラグアンドプレイモジュールと構造的損失を設計するのが一般的だった。
そこで我々は, 正負の負の正の負の負の正の負の正の負の正の負の負の負の正の負の負の正の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の負の
総合的な実験を行い、2つのベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-07-04T13:51:29Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。