Fugu-MT 論文翻訳(概要): What to Learn, and How: Toward Effective Learning from Rationales

論文の概要: What to Learn, and How: Toward Effective Learning from Rationales

arxiv url: http://arxiv.org/abs/2112.00071v1
Date: Tue, 30 Nov 2021 20:09:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 05:55:23.480542
Title: What to Learn, and How: Toward Effective Learning from Rationales
Title（参考訳）: 学ぶべきことと方法:―理性から効果的な学習へ―
Authors: Samuel Carton, Surya Kanoria and Chenhao Tan
Abstract要約: 合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性によるモデルトレーニングを強化することを目指している。我々の研究は、人間の説明の性質を理解し、モデルトレーニングでそれらを活用することの重要性を強調している。
参考スコア（独自算出の注目度）: 10.287185780246247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from rationales seeks to augment model training with human-provided rationales (i.e., a subset of input tokens) that justify those labels. While intuitive, this idea has proven elusive in practice. We make two observations about human rationales via empirical analyses: 1) maximizing predicted rationale accuracy is not necessarily the optimal objective for improving model performance; 2) human rationales vary in whether they provide sufficient information for the model to exploit for prediction, and we can use this variance to assess a dataset's potential improvement from learning from rationales. Building on these insights, we propose loss functions and learning strategies, and evaluate their effectiveness on three datasets with human rationales. Our results demonstrate consistent improvements over baselines in both label performance and rationale performance, including a 3% accuracy improvement on MultiRC. Our work highlights the importance of understanding properties of human explanations and exploiting them accordingly in model training.
Abstract（参考訳）: 合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性(すなわち入力トークンのサブセット)によるモデルトレーニングを強化することを目指している。直感的ではあるが、この考えは実際はわかりやすい。経験的分析を通して、人間の理性について2つの観察を行います。 1) 予測合理的精度の最大化は,必ずしもモデル性能を改善するための最適目標ではない。 2) 人的合理性は,モデルが予測を活用できる十分な情報を提供するかどうかによって異なり,この分散を用いて,理論から学習することによるデータセットの潜在的な改善を評価することができる。これらの知見に基づいて、損失関数と学習戦略を提案し、人間の有理性を持つ3つのデータセット上での有効性を評価する。その結果,MultiRCの精度3%の改善を含む,ラベル性能と合理的性能の両面において,ベースラインよりも一貫した改善が示された。我々の研究は、人間の説明の性質を理解し、それらをモデルトレーニングで活用することの重要性を強調している。

関連論文リスト

Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文参考訳（メタデータ） (2025-05-30T02:39:37Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文参考訳（メタデータ） (2024-10-31T18:33:39Z)
Data-Centric Human Preference with Rationales for Direct Preference Alignment [23.243583332894737]
本稿では,人間の嗜好の背景にある理由を説明する理屈による標準選好ペアの強化を提案する。包括的分析により,合理性を取り入れることで学習効率が向上することが示された。本研究は,優先学習における思慮深いデータ設計の可能性を示すものである。
論文参考訳（メタデータ） (2024-07-19T17:27:52Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文参考訳（メタデータ） (2024-03-27T16:39:28Z)
REFER: An End-to-end Rationale Extraction Framework for Explanation Regularization [12.409398096527829]
本稿では,理性抽出プロセスを通じてバックプロパゲーションを可能にする,微分可能な理性抽出器を用いたフレームワークであるREFERを提案する。課題モデルと有理抽出器を共同で訓練することにより,トレーニング中にヒトのハイライトを用いることによる影響を分析した。
論文参考訳（メタデータ） (2023-10-22T21:20:52Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文参考訳（メタデータ） (2022-10-24T19:54:57Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)
Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文参考訳（メタデータ） (2020-02-19T18:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。