論文の概要: TuringAdvice: A Generative and Dynamic Evaluation of Language Use
- arxiv url: http://arxiv.org/abs/2004.03607v2
- Date: Tue, 13 Apr 2021 01:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:08:39.772044
- Title: TuringAdvice: A Generative and Dynamic Evaluation of Language Use
- Title(参考訳): TuringAdvice: 言語使用の生成と動的評価
- Authors: Rowan Zellers, Ari Holtzman, Elizabeth Clark, Lianhui Qin, Ali
Farhadi, Yejin Choi
- Abstract要約: 言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
- 参考スコア(独自算出の注目度): 90.3029315711237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TuringAdvice, a new challenge task and dataset for language
understanding models. Given a written situation that a real person is currently
facing, a model must generate helpful advice in natural language. Our
evaluation framework tests a fundamental aspect of human language
understanding: our ability to use language to resolve open-ended situations by
communicating with each other.
Empirical results show that today's models struggle at TuringAdvice, even
multibillion parameter models finetuned on 600k in-domain training examples.
The best model, a finetuned T5, writes advice that is at least as helpful as
human-written advice in only 14% of cases; a much larger non-finetunable GPT3
model does even worse at 4%. This low performance reveals language
understanding errors that are hard to spot outside of a generative setting,
showing much room for progress.
- Abstract(参考訳): 言語理解モデルのための新しい課題課題とデータセットであるturingadviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
評価フレームワークは、人間の言語理解の基本的な側面、すなわち、言語を使って相互にコミュニケーションすることで、オープンな状況を解決する能力をテストする。
経験的な結果から、今日のモデルはチューリングアドスチャに苦しむこと、さらには600kのドメイン内トレーニング例で微調整された数十億のパラメータモデルさえも示している。
最良のモデルである微調整されたt5は、わずか14%のケースで人間によるアドバイスと同じくらい役に立つアドバイスを書いている。
この低いパフォーマンスは、ジェネレーティブな設定の外で見つけるのが難しい言語理解エラーを明らかにし、進捗の余地を多く示します。
関連論文リスト
- What Makes Language Models Good-enough? [11.763229353978321]
心理学的な研究は、人間が手元にあるタスクに「十分な」言語入力を表現できる可能性を示唆している。
本研究では,言語モデルにどのようなアーキテクチャ的特徴が与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:51:28Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Prompt Programming for Large Language Models: Beyond the Few-Shot
Paradigm [0.0]
自然言語のレンズを通してプロンプトを考えることの有用性を強調しながら,プロンプトプログラミングの手法について論じる。
モデルに種を付けて、さまざまなタスクのための独自の自然言語プロンプトを生成するメタプロンプトのアイデアを紹介します。
論文 参考訳(メタデータ) (2021-02-15T05:27:55Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。