論文の概要: What to Learn, and How: Toward Effective Learning from Rationales
- arxiv url: http://arxiv.org/abs/2112.00071v1
- Date: Tue, 30 Nov 2021 20:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 05:55:23.480542
- Title: What to Learn, and How: Toward Effective Learning from Rationales
- Title(参考訳): 学ぶべきことと方法:―理性から効果的な学習へ―
- Authors: Samuel Carton, Surya Kanoria and Chenhao Tan
- Abstract要約: 合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性によるモデルトレーニングを強化することを目指している。
我々の研究は、人間の説明の性質を理解し、モデルトレーニングでそれらを活用することの重要性を強調している。
- 参考スコア(独自算出の注目度): 10.287185780246247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from rationales seeks to augment model training with human-provided
rationales (i.e., a subset of input tokens) that justify those labels. While
intuitive, this idea has proven elusive in practice. We make two observations
about human rationales via empirical analyses: 1) maximizing predicted
rationale accuracy is not necessarily the optimal objective for improving model
performance; 2) human rationales vary in whether they provide sufficient
information for the model to exploit for prediction, and we can use this
variance to assess a dataset's potential improvement from learning from
rationales. Building on these insights, we propose loss functions and learning
strategies, and evaluate their effectiveness on three datasets with human
rationales. Our results demonstrate consistent improvements over baselines in
both label performance and rationale performance, including a 3% accuracy
improvement on MultiRC. Our work highlights the importance of understanding
properties of human explanations and exploiting them accordingly in model
training.
- Abstract(参考訳): 合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性(すなわち入力トークンのサブセット)によるモデルトレーニングを強化することを目指している。
直感的ではあるが、この考えは実際はわかりやすい。
経験的分析を通して、人間の理性について2つの観察を行います。
1) 予測合理的精度の最大化は,必ずしもモデル性能を改善するための最適目標ではない。
2) 人的合理性は,モデルが予測を活用できる十分な情報を提供するかどうかによって異なり,この分散を用いて,理論から学習することによるデータセットの潜在的な改善を評価することができる。
これらの知見に基づいて、損失関数と学習戦略を提案し、人間の有理性を持つ3つのデータセット上での有効性を評価する。
その結果,MultiRCの精度3%の改善を含む,ラベル性能と合理的性能の両面において,ベースラインよりも一貫した改善が示された。
我々の研究は、人間の説明の性質を理解し、それらをモデルトレーニングで活用することの重要性を強調している。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。
まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。
第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:33:39Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - REFER: An End-to-end Rationale Extraction Framework for Explanation
Regularization [12.409398096527829]
本稿では,理性抽出プロセスを通じてバックプロパゲーションを可能にする,微分可能な理性抽出器を用いたフレームワークであるREFERを提案する。
課題モデルと有理抽出器を共同で訓練することにより,トレーニング中にヒトのハイライトを用いることによる影響を分析した。
論文 参考訳(メタデータ) (2023-10-22T21:20:52Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。