論文の概要: Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks
- arxiv url: http://arxiv.org/abs/2307.02477v2
- Date: Tue, 1 Aug 2023 16:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:19:17.857963
- Title: Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks
- Title(参考訳): 推論かリサイティングか?
反事実的タスクによる言語モデルの能力と限界の検討
- Authors: Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Aky\"urek, Boyuan Chen,
Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim
- Abstract要約: 最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.939309284692406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive performance of recent language models across a wide range of
tasks suggests that they possess a degree of abstract reasoning skills. Are
these skills general and transferable, or specialized to specific tasks seen
during pretraining? To disentangle these effects, we propose an evaluation
framework based on "counterfactual" task variants that deviate from the default
assumptions underlying standard tasks. Across a suite of 11 tasks, we observe
nontrivial performance on the counterfactual variants, but nevertheless find
that performance substantially and consistently degrades compared to the
default conditions. This suggests that while current LMs may possess abstract
task-solving skills to a degree, they often also rely on narrow,
non-transferable procedures for task-solving. These results motivate a more
careful interpretation of language model performance that teases apart these
aspects of behavior.
- Abstract(参考訳): 幅広いタスクにわたる最近の言語モデルの印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。
これらのスキルは一般的に、移行可能か、あるいは事前トレーニング中に特定のタスクに特化しているか?
これらの効果を解消するために,標準タスクの既定の仮定から逸脱する"counterfactual"タスク変種に基づく評価フレームワークを提案する。
11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。
これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。
これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより注意深く解釈する動機となった。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Auxiliary task demands mask the capabilities of smaller language models [2.938889003635811]
タスク要求が大きい評価手法は、要求の少ない評価よりも性能が低いことを示す。
この結果から,LM性能はインテリジェンスの直接的な表示として解釈するべきではないことが示唆された。
論文 参考訳(メタデータ) (2024-04-03T02:56:52Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - Supervised Bayesian Specification Inference from Demonstrations [11.855400596862275]
本稿では,時間論理式としてタスク仕様を推論する確率モデルを提案する。
提案手法は,提案仕様と基礎的真理との間に90%以上の類似性を観測し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-07-06T21:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。