Fugu-MT 論文翻訳(概要): Tailoring Self-Rationalizers with Multi-Reward Distillation

論文の概要: Tailoring Self-Rationalizers with Multi-Reward Distillation

arxiv url: http://arxiv.org/abs/2311.02805v1
Date: Mon, 6 Nov 2023 00:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 15:53:32.165453
Title: Tailoring Self-Rationalizers with Multi-Reward Distillation
Title（参考訳）: マルチリワード蒸留による自己合理化剤の調整
Authors: Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren
Abstract要約: 大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
参考スコア（独自算出の注目度）: 92.30314799349617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.
Abstract（参考訳）: 大規模言語モデル(LM)は質問応答を支援する自由文論理を生成することができる。しかし以前の仕事は 1) 有用な自己合理化は、大きなスケール(例えば、175Bパラメータ GPT-3)でのみ出現することが示唆される。 2) 主に下流のパフォーマンスに焦点が当てられ、理性自体の意味論を無視している。本研究では,小型のLM(GPT-3より200倍小さい)を,下流タスク性能の向上だけでなく,より信頼性が高く,一貫性があり,多様であり,自動評価と人的評価の両方によって評価される合理性を生成する。提案手法であるMaRio (Multi-rewArd RatIOnalization) は,確率性,多様性,一貫性など,複数の異なる特性を最適化するマルチリワード条件付き自己有理化アルゴリズムである。 StrategyQA, QuaRel, OpenBookQA, NumerSense, QASCの難解な問合せデータセットの結果から, MaRioはタスクの精度を向上するだけでなく,上述したような細調整(SFT)ベースラインよりも,小さなLMの自己調整品質を向上することが示された。広範囲な人間の評価では、MaRioの合理性はSFTの合理性よりも好ましく、妥当性と一貫性の質的な改善も確認されている。

関連論文リスト

Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文参考訳（メタデータ） (2025-07-18T09:06:10Z)
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets [6.001837672951086]
モンテカルロ木探索を用いたプロセス・リワード・モデル(PRM)を提案する。次に、生成フローネットワーク(GFlowNets)を推論ステップレベルで運用するように適応します。経験的評価は、挑戦的な数学的ベンチマークにおいて、精度と解の多様性の両方が強く改善されていることを示している。
論文参考訳（メタデータ） (2025-04-28T16:56:41Z)
Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文参考訳（メタデータ） (2025-04-02T12:58:42Z)
R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。推論駆動プロセスリワードモデリング(R-PRM)を提案する。 R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文参考訳（メタデータ） (2025-03-27T09:23:08Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation [20.784944581469205]
COALITIONは、同じSLMの2つの変種間の相互作用を容易にするトレーニング可能なフレームワークである。エンドタスクに最適化された合理性を生成するように訓練する。我々のアブレーション研究は、2つの変種間の相互通信が、理論を自己定義するために単一のモデルを使用するよりも優れていることを示した。
論文参考訳（メタデータ） (2025-03-04T10:17:29Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。問題文の削除は報酬のスコアに最小限の影響を与える。数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文参考訳（メタデータ） (2025-02-20T14:57:14Z)
Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文参考訳（メタデータ） (2024-10-30T14:45:00Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization [17.26418974819275]
本稿では, 突発的特徴をプレーンノイズとして扱う新しい基準を開発する。実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間注釈の有理量との重なりによって測定される)を最大10.4%向上させることが示された。
論文参考訳（メタデータ） (2024-10-08T13:04:02Z)
CERET: Cost-Effective Extrinsic Refinement for Text Generation [14.43795791836198]
本研究では,意味的安定性,包含性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。実験結果から, CERETは, 各種タスク設定下での自己整合性, 自己整合性, 自走性ベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-08T22:17:52Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文参考訳（メタデータ） (2024-02-27T07:14:12Z)
ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。 ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文参考訳（メタデータ） (2023-05-12T10:07:12Z)
Are Machine Rationales (Not) Useful to Humans? Measuring and Improving Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文参考訳（メタデータ） (2023-05-11T19:01:13Z)
SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文参考訳（メタデータ） (2023-05-03T03:47:00Z)
FRAME: Evaluating Simulatability Metrics for Free-Text Rationales [26.58948555913936]
自由文論理は、自然言語を通してより柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。合理性の品質を確保するためには、合理性の忠実さと妥当性を測る指標を持つことが重要である。本稿では,自由文論理的シミュラビリティ指標を評価するためのフレームワークFRAMEを提案する。
論文参考訳（メタデータ） (2022-07-02T09:25:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。