Fugu-MT 論文翻訳(概要): Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

論文の概要: Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks

arxiv url: http://arxiv.org/abs/2307.02477v2
Date: Tue, 1 Aug 2023 16:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 17:19:17.857963
Title: Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
Title（参考訳）: 推論かリサイティングか? 反事実的タスクによる言語モデルの能力と限界の検討
Authors: Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Aky\"urek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim
Abstract要約: 最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか? 本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 54.939309284692406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to a degree, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.
Abstract（参考訳）: 幅広いタスクにわたる最近の言語モデルの印象的なパフォーマンスは、それらが抽象的な推論スキルを持っていることを示唆している。これらのスキルは一般的に、移行可能か、あるいは事前トレーニング中に特定のタスクに特化しているか? これらの効果を解消するために,標準タスクの既定の仮定から逸脱する"counterfactual"タスク変種に基づく評価フレームワークを提案する。 11のタスクの組にわたって、反ファクトな変形に対して非自明なパフォーマンスを観察するが、しかしながら、パフォーマンスはデフォルト条件よりも大幅に、一貫して低下する。これは、現在のLMは抽象的なタスク解決スキルをある程度持っているが、タスク解決のための狭義の非参照可能な手順にも依存していることを示唆している。これらの結果は、これらの振る舞いの側面を区別する言語モデルのパフォーマンスをより注意深く解釈する動機となった。

関連論文リスト

When Prompts Go Wrong: Evaluating Code Model Robustness to Ambiguous, Contradictory, and Incomplete Task Descriptions [23.5858385520752]
LLM(Large Language Models)は、理想的な条件下でのコード生成タスクの性能を示す。実際には、タスク記述はしばしば曖昧さ、不完全性、内部矛盾を示す。このような不明瞭なタスク記述に直面した場合、最先端のコード生成モデルの堅牢性を検証した最初の実証的研究を示す。
論文参考訳（メタデータ） (2025-07-27T23:16:14Z)
Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm [9.577716124021029]
GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映している、と我々は主張する。これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
論文参考訳（メタデータ） (2024-12-24T03:06:52Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Auxiliary task demands mask the capabilities of smaller language models [2.938889003635811]
タスク要求が大きい評価手法は、要求の少ない評価よりも性能が低いことを示す。この結果から,LM性能はインテリジェンスの直接的な表示として解釈するべきではないことが示唆された。
論文参考訳（メタデータ） (2024-04-03T02:56:52Z)
Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。 ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文参考訳（メタデータ） (2023-11-01T04:40:05Z)
Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。 LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-31T04:50:29Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文参考訳（メタデータ） (2021-12-16T05:36:08Z)
Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文参考訳（メタデータ） (2021-10-15T22:01:16Z)
Supervised Bayesian Specification Inference from Demonstrations [11.855400596862275]
本稿では,時間論理式としてタスク仕様を推論する確率モデルを提案する。提案手法は,提案仕様と基礎的真理との間に90%以上の類似性を観測し,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2021-07-06T21:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。