論文の概要: Can In-context Learners Learn a Reasoning Concept from Demonstrations?
- arxiv url: http://arxiv.org/abs/2212.01692v3
- Date: Tue, 6 Jun 2023 12:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:26:53.246886
- Title: Can In-context Learners Learn a Reasoning Concept from Demonstrations?
- Title(参考訳): インコンテキスト学習者はデモから推論概念を学習できるか?
- Authors: Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik
- Abstract要約: 大規模な言語モデルでは,少数のインプット・アウトプット・デモから新しいタスクを学習できることを示す。
そこで本研究では,予測されたサンプルを用いて,潜在的に非形式的な概念を共有するデモを選択するための,数発の学習手法を提案する。
より小さなモデルの方が概念に敏感であることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models show an emergent ability to learn a new task from a
small number of input-output demonstrations. However, recent work shows that
in-context learners largely rely on their pre-trained knowledge, such as the
sentiment of the labels, instead of finding new associations in the input.
However, the commonly-used few-shot evaluation settings using a random
selection of in-context demonstrations can not disentangle models' ability to
learn a new skill from demonstrations, as most of the randomly-selected
demonstrations do not present relations informative for prediction beyond
exposing the new task distribution.
To disentangle models' in-context learning ability independent of models'
memory, we introduce a Conceptual few-shot learning method selecting the
demonstrations sharing a possibly-informative concept with the predicted
sample. We extract a set of such concepts from annotated explanations and
measure how much can models benefit from presenting these concepts in few-shot
demonstrations.
We find that smaller models are more sensitive to the presented concepts.
While some of the models are able to benefit from concept-presenting
demonstrations for each assessed concept, we find that none of the assessed
in-context learners can benefit from all presented reasoning concepts
consistently, leaving the in-context concept learning an open challenge.
- Abstract(参考訳): 大きな言語モデルは、少数の入出力デモから新しいタスクを学ぶための創発的な能力を示しています。
しかし、最近の研究は、インコンテキスト学習者は、入力に新しい関連を見出すのではなく、ラベルの感情のような事前学習された知識に大きく依存していることを示している。
しかし、無作為なインコンテキストのデモンストレーションをランダムに選択した場合、ランダムに選択されたデモの多くは、新しいタスク分布を露呈する以上の予測に有用な関係を示さないため、モデルがデモから新しいスキルを学ぶ能力を分かち合うことができない。
モデルの記憶に依存せず、モデルの文脈内学習能力を分断するために、予測したサンプルと潜在的にインフォーマティブな概念を共有するデモを選択する概念的少数ショット学習法を提案する。
このような概念のセットを注釈付き説明から抽出し、モデルがこれらの概念を提示してどの程度のメリットがあるかを測定する。
より小さなモデルの方が概念に敏感であることが分かりました。
評価された概念のコンセプト提示のデモンストレーションから恩恵を受けるモデルもいくつかあるが、評価されたインコンテキスト学習者はいずれも、常に提示されたすべての推論概念から利益を得ることはできないことが分かり、インコンテキスト概念学習はオープンチャレンジとなる。
関連論文リスト
- In-context Learning with Retrieved Demonstrations for Language Models: A Survey [23.24271704145876]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。
最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。
本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (2024-01-21T23:34:42Z) - CommonsenseVIS: Visualizing and Understanding Commonsense Reasoning
Capabilities of Natural Language Models [30.63276809199399]
本稿では,外部コモンセンス知識ベースを用いた視覚的説明システムであるCommonsenseVISについて述べる。
本システムでは,異なる概念とその基盤となる関係について,多段階の可視化とインタラクティブなモデル探索と編集を行う。
論文 参考訳(メタデータ) (2023-07-23T17:16:13Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。