論文の概要: Task Ambiguity in Humans and Language Models
- arxiv url: http://arxiv.org/abs/2212.10711v1
- Date: Tue, 20 Dec 2022 18:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:53:11.549707
- Title: Task Ambiguity in Humans and Language Models
- Title(参考訳): 人間と言語モデルにおけるタスクあいまいさ
- Authors: Alex Tamkin, Kunal Handa, Avash Shrestha, Noah Goodman
- Abstract要約: 本稿では,あいまいな分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクがどの程度うまく認識されているかを確認することで行う。
本研究では,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法について述べる。
- 参考スコア(独自算出の注目度): 7.033374427612259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have recently achieved strong performance across a wide range
of NLP benchmarks. However, unlike benchmarks, real world tasks are often
poorly specified, and agents must deduce the user's intended behavior from a
combination of context, instructions, and examples. We investigate how both
humans and models behave in the face of such task ambiguity by proposing
AmbiBench, a new benchmark of six ambiguously-specified classification tasks.
We evaluate humans and models on AmbiBench by seeing how well they identify the
intended task using 1) instructions with varying degrees of ambiguity, and 2)
different numbers of labeled examples. We find that the combination of model
scaling (to 175B parameters) and training with human feedback data enables
models to approach or exceed the accuracy of human participants across tasks,
but that either one alone is not sufficient. In addition, we show how to
dramatically improve the accuracy of language models trained without
large-scale human feedback training by finetuning on a small number of
ambiguous in-context examples, providing a promising direction for teaching
models to generalize well in the face of ambiguity.
- Abstract(参考訳): 言語モデルは、最近、幅広いNLPベンチマークで強力なパフォーマンスを達成した。
しかし、ベンチマークと異なり、現実世界のタスクはしばしば不明確であり、エージェントはユーザーの意図した振る舞いをコンテキスト、命令、例の組み合わせから推測しなければならない。
本研究では,これらのタスクのあいまいさに対して,人間とモデルの両方がどのように振る舞うかを,あいまいな6つの分類タスクのベンチマークであるAmbiBenchを提案する。
AmbiBench上での人間とモデルの評価は、意図したタスクをどの程度正確に識別するかを調べることで行う。
1)曖昧さの程度が異なる指示、及び
2) ラベル付き例の数が異なる。
モデルスケーリング(最大175Bパラメータ)と人間のフィードバックデータの組み合わせにより、モデルがタスク全体にわたって人間の参加者の正確さに近づいたり、超えたりすることができるが、どちらも不十分であることがわかった。
さらに,少数のあいまいなインコンテキストの例を微調整することで,大規模なフィードバックトレーニングを伴わずに学習した言語モデルの精度を劇的に向上させる方法を示し,あいまいさに直面してモデルを一般化するための有望な方向を提供する。
関連論文リスト
- DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Automatic Evaluation of Generative Models with Instruction Tuning [14.369719297698694]
特定の課題に対する人間の判断と評価基準をエミュレートするための,近年のパラダイムファインチューン事前訓練言語モデルについて検討した。
命令チューニングモデルの一般化能力に着想を得て,命令チューニングに基づく学習指標を提案する。
論文 参考訳(メタデータ) (2023-10-30T23:00:52Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - MiQA: A Benchmark for Inference on Metaphorical Questions [5.32836690371986]
本稿では,従来のメタファを用いた大規模言語モデルの推論能力を評価するためのベンチマークを提案する。
本稿では,バイナリ選択タスクにおける最先端の事前学習モデルの性能について検討する。
論文 参考訳(メタデータ) (2022-10-14T17:46:05Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。