論文の概要: Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks
- arxiv url: http://arxiv.org/abs/2307.02477v2
- Date: Tue, 1 Aug 2023 16:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:19:17.857963
- Title: Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks
- Title(参考訳): 推論かリサイティングか?
反事実的タスクによる言語モデルの能力と限界の検討
- Authors: Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Aky\"urek, Boyuan Chen,
Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim
- Abstract要約: 最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.939309284692406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive performance of recent language models across a wide range of
tasks suggests that they possess a degree of abstract reasoning skills. Are
these skills general and transferable, or specialized to specific tasks seen
during pretraining? To disentangle these effects, we propose an evaluation
framework based on "counterfactual" task variants that deviate from the default
assumptions underlying standard tasks. Across a suite of 11 tasks, we observe
nontrivial performance on the counterfactual variants, but nevertheless find
that performance substantially and consistently degrades compared to the
default conditions. This suggests that while current LMs may possess abstract
task-solving skills to a degree, they often also rely on narrow,
non-transferable procedures for task-solving. These results motivate a more
careful interpretation of language model performance that teases apart these
aspects of behavior.
- Abstract(参考訳): 幅広いタスクにわたる最近の言語モデルの印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。
これらのスキルは一般的に、移行可能か、あるいは事前トレーニング中に特定のタスクに特化しているか?
これらの効果を解消するために,標準タスクの既定の仮定から逸脱する"counterfactual"タスク変種に基づく評価フレームワークを提案する。
11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。
これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。
これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより注意深く解釈する動機となった。
関連論文リスト
- Invariant Test-Time Adaptation for Vision-Language Model Generalization [90.70743356588996]
学習可能なプロンプトを最適化するテスト時間プロンプトチューニングのパラダイムを導入し,真の因果不変性を活用できるようにモデルを説得する。
提案手法は,潜在的に誤解を招く可能性のあるタスク関連文脈情報への過度な依存を効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Supervised Bayesian Specification Inference from Demonstrations [11.855400596862275]
本稿では,時間論理式としてタスク仕様を推論する確率モデルを提案する。
提案手法は,提案仕様と基礎的真理との間に90%以上の類似性を観測し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-07-06T21:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。