論文の概要: Tailoring Self-Rationalizers with Multi-Reward Distillation
- arxiv url: http://arxiv.org/abs/2311.02805v2
- Date: Wed, 22 May 2024 19:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:23:38.026601
- Title: Tailoring Self-Rationalizers with Multi-Reward Distillation
- Title(参考訳): マルチリワード蒸留による自給自給自足装置の試作
- Authors: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren,
- Abstract要約: 大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
- 参考スコア(独自算出の注目度): 88.95781098418993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.
- Abstract(参考訳): 大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
しかし、前作
1) 有用な自己合理化は,大きなスケール(例えば,175Bパラメータ GPT-3)でのみ出現することが示唆される。
2) 主に下流のパフォーマンスに焦点を合わせ、理性自体の意味を無視する、例えば、それらが人間に忠実で、真実で、役に立つか?
本研究では,小型のLM(GPT-3より200倍小さい)を,下流タスク性能の向上だけでなく,より信頼性が高く,一貫性があり,多様であり,自動評価と人的評価の両方によって評価される合理性を生成する。
提案手法であるMaRio (Multi-rewArd RatIOnalization) は,確率性,多様性,整合性など,複数の異なる特性を最適化するマルチリワード条件付き自己有理化アルゴリズムである。
StrategyQA, QuaRel, OpenBookQA, NumerSense, QASCの5つの難しい質問回答データセットの結果から, MaRioはタスクの精度を向上するだけでなく,上述したような細調整(SFT)ベースラインよりも,小さなLMの自己調整品質を向上することが示された。
広範囲な人間の評価では、MaRioの合理性はSFTの合理性よりも好ましく、妥当性と一貫性の質的な改善も確認されている。
関連論文リスト
- CERET: Cost-Effective Extrinsic Refinement for Text Generation [14.43795791836198]
本研究では,意味的安定性,包含性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。
実験結果から, CERETは, 各種タスク設定下での自己整合性, 自己整合性, 自走性ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-08T22:17:52Z) - Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards [42.065997425172974]
大規模言語モデル(LLM)の推論能力向上には,大量の論理学(CoTファインチューニング)の訓練が有効である。
本稿では,LLMが論理学における最初の間違ったステップを探索し,より詳細な報奨などの信号を用いてさらなる改善を行うセルフエクスロアを提案する。
GSM8KとMATHテストセットでは、教師付き微調整(SFT)と比較して平均11.57%と2.89%の改善を達成した。
論文 参考訳(メタデータ) (2024-04-16T07:30:11Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - FRAME: Evaluating Simulatability Metrics for Free-Text Rationales [26.58948555913936]
自由文論理は、自然言語を通してより柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さと妥当性を測る指標を持つことが重要である。
本稿では,自由文論理的シミュラビリティ指標を評価するためのフレームワークFRAMEを提案する。
論文 参考訳(メタデータ) (2022-07-02T09:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。