論文の概要: Tailoring Self-Rationalizers with Multi-Reward Distillation
- arxiv url: http://arxiv.org/abs/2311.02805v1
- Date: Mon, 6 Nov 2023 00:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:53:32.165453
- Title: Tailoring Self-Rationalizers with Multi-Reward Distillation
- Title(参考訳): マルチリワード蒸留による自己合理化剤の調整
- Authors: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian
Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
- Abstract要約: 大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
- 参考スコア(独自算出の注目度): 92.30314799349617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LMs) are capable of generating free-text rationales to
aid question answering. However, prior work 1) suggests that useful
self-rationalization is emergent only at significant scales (e.g., 175B
parameter GPT-3); and 2) focuses largely on downstream performance, ignoring
the semantics of the rationales themselves, e.g., are they faithful, true, and
helpful for humans? In this work, we enable small-scale LMs (approx. 200x
smaller than GPT-3) to generate rationales that not only improve downstream
task performance, but are also more plausible, consistent, and diverse,
assessed both by automatic and human evaluation. Our method, MaRio
(Multi-rewArd RatIOnalization), is a multi-reward conditioned
self-rationalization algorithm that optimizes multiple distinct properties like
plausibility, diversity and consistency. Results on five difficult
question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC
show that not only does MaRio improve task accuracy, but it also improves the
self-rationalization quality of small LMs across the aforementioned axes better
than a supervised fine-tuning (SFT) baseline. Extensive human evaluations
confirm that MaRio rationales are preferred vs. SFT rationales, as well as
qualitative improvements in plausibility and consistency.
- Abstract(参考訳): 大規模言語モデル(LM)は質問応答を支援する自由文論理を生成することができる。
しかし 以前の仕事は
1) 有用な自己合理化は、大きなスケール(例えば、175Bパラメータ GPT-3)でのみ出現することが示唆される。
2) 主に下流のパフォーマンスに焦点が当てられ、理性自体の意味論を無視している。
本研究では,小型のLM(GPT-3より200倍小さい)を,下流タスク性能の向上だけでなく,より信頼性が高く,一貫性があり,多様であり,自動評価と人的評価の両方によって評価される合理性を生成する。
提案手法であるMaRio (Multi-rewArd RatIOnalization) は,確率性,多様性,一貫性など,複数の異なる特性を最適化するマルチリワード条件付き自己有理化アルゴリズムである。
StrategyQA, QuaRel, OpenBookQA, NumerSense, QASCの難解な問合せデータセットの結果から, MaRioはタスクの精度を向上するだけでなく,上述したような細調整(SFT)ベースラインよりも,小さなLMの自己調整品質を向上することが示された。
広範囲な人間の評価では、MaRioの合理性はSFTの合理性よりも好ましく、妥当性と一貫性の質的な改善も確認されている。
関連論文リスト
- Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [74.58403497789422]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training [55.07940036854454]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Evidence > Intuition: Transferability Estimation for Encoder Selection [16.490047604583882]
我々は、全ての候補を微調整することなく、目標タスクにおいてどのLMが最善を尽くすかを予測する定量的な証拠を生成する。
我々は,コンピュータビジョン(CV)のLogME(Logarithm Maximum of Evidence)尺度を採用し,94%のセットアップにおいて,最終的なLM性能と正の相関関係があることを見出した。
論文 参考訳(メタデータ) (2022-10-20T13:25:21Z) - FRAME: Evaluating Simulatability Metrics for Free-Text Rationales [26.58948555913936]
自由文論理は、自然言語を通してより柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さと妥当性を測る指標を持つことが重要である。
本稿では,自由文論理的シミュラビリティ指標を評価するためのフレームワークFRAMEを提案する。
論文 参考訳(メタデータ) (2022-07-02T09:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。