論文の概要: Are Language Models Worse than Humans at Following Prompts? It's
Complicated
- arxiv url: http://arxiv.org/abs/2301.07085v2
- Date: Sat, 11 Nov 2023 19:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:27:19.137189
- Title: Are Language Models Worse than Humans at Following Prompts? It's
Complicated
- Title(参考訳): 言語モデルは後続のプロンプトで人間より悪いか?
複雑です
- Authors: Albert Webson, Alyssa Marie Loo, Qinan Yu, Ellie Pavlick
- Abstract要約: 最近の研究によると、意図的な無関係や誤解を招くプロンプトが与えられた場合、モデルは驚くほどうまく機能する。
人間は無関係な命令を確実に無視できるので、モデルのように、基礎となるタスクでうまく機能する。
- 参考スコア(独自算出の注目度): 26.007235944128936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompts have been the center of progress in advancing language models'
zero-shot and few-shot performance. However, recent work finds that models can
perform surprisingly well when given intentionally irrelevant or misleading
prompts. Such results may be interpreted as evidence that model behavior is not
"human like". In this study, we challenge a central assumption in such work:
that humans would perform badly when given pathological instructions. We find
that humans are able to reliably ignore irrelevant instructions and thus, like
models, perform well on the underlying task despite an apparent lack of signal
regarding the task they are being asked to do. However, when given deliberately
misleading instructions, humans follow the instructions faithfully, whereas
models do not. Our findings caution that future research should not idealize
human behaviors as a monolith and should not train or evaluate models to mimic
assumptions about these behaviors without first validating humans' behaviors
empirically.
- Abstract(参考訳): プロンプトは言語モデルのゼロショットと少数ショットのパフォーマンスの進歩の中心である。
しかし、最近の研究では、意図的な無関係や誤解を招くプロンプトが与えられた場合、モデルは驚くほどうまく機能することがわかった。
このような結果は、モデル行動が「人間らしくない」という証拠として解釈できる。
本研究は,病的指示が与えられた場合,人間は良く行動する,という研究の中心的な前提に挑戦する。
人間は無関係な指示を確実に無視することができ、従ってモデルのように、要求されるタスクに関する信号が明らかに不足しているにもかかわらず、基礎となるタスクでうまく機能する。
しかし、故意に誤解を招く指示を受けると、人間は忠実に指示に従うが、モデルは従わない。
今後の研究は、モノリスとしての人間の行動を理想化すべきではなく、人間の行動を実証的に検証することなく、これらの行動に関する仮定を模倣するモデルを訓練・評価すべきではない。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak
Supervision [55.196139002977525]
超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。
弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか?
弱いモデルが生成したラベルに強い事前訓練されたモデルを鼻で微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-12-14T23:07:33Z) - Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - A fine-grained comparison of pragmatic language understanding in humans
and language models [2.231167375820083]
言語モデルと人間を7つの現実的な現象で比較する。
最大のモデルでは精度が高く,人間の誤りパターンと一致していることがわかった。
モデルと人間が同様の言語的手がかりに敏感であるという予備的な証拠がある。
論文 参考訳(メタデータ) (2022-12-13T18:34:59Z) - On the Sensitivity of Reward Inference to Misspecified Human Models [27.94055657571769]
人間の振る舞いから報酬関数を推論することは、価値の整合の中心であり、AIの目標と私たち、人間、実際に望むものとを整合させる。
これらのモデルは、報酬の推測が正確になるために、どの程度正確なものが必要なのか?
提案手法は, 推定報酬において, 任意に大きな誤差を生じさせるような, 行動の小さな逆バイアスを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-09T08:16:20Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Humans are not Boltzmann Distributions: Challenges and Opportunities for
Modelling Human Feedback and Interaction in Reinforcement Learning [13.64577704565643]
これらのモデルは単純すぎるし、RLの研究者たちはアルゴリズムを設計し評価するために、より現実的な人間モデルを開発する必要がある、と我々は主張する。
本稿は、AIへのフィードバックの仕方や、より堅牢なループ内RLシステムの構築方法について、さまざまな分野からの研究を募集する。
論文 参考訳(メタデータ) (2022-06-27T13:58:51Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。