論文の概要: In-Context Impersonation Reveals Large Language Models' Strengths and
Biases
- arxiv url: http://arxiv.org/abs/2305.14930v2
- Date: Sun, 26 Nov 2023 18:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:08:35.976140
- Title: In-Context Impersonation Reveals Large Language Models' Strengths and
Biases
- Title(参考訳): 大規模言語モデルの強みとバイアスを明らかにするインコンテキスト・インフォメーション
- Authors: Leonard Salewski, Stephan Alaniz, Isabel Rio-Torto, Eric Schulz,
Zeynep Akata
- Abstract要約: 我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 56.61129643802483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In everyday conversations, humans can take on different roles and adapt their
vocabulary to their chosen roles. We explore whether LLMs can take on, that is
impersonate, different roles when they generate text in-context. We ask LLMs to
assume different personas before solving vision and language tasks. We do this
by prefixing the prompt with a persona that is associated either with a social
identity or domain expertise. In a multi-armed bandit task, we find that LLMs
pretending to be children of different ages recover human-like developmental
stages of exploration. In a language-based reasoning task, we find that LLMs
impersonating domain experts perform better than LLMs impersonating non-domain
experts. Finally, we test whether LLMs' impersonations are complementary to
visual information when describing different categories. We find that
impersonation can improve performance: an LLM prompted to be a bird expert
describes birds better than one prompted to be a car expert. However,
impersonation can also uncover LLMs' biases: an LLM prompted to be a man
describes cars better than one prompted to be a woman. These findings
demonstrate that LLMs are capable of taking on diverse roles and that this
in-context impersonation can be used to uncover their hidden strengths and
biases.
- Abstract(参考訳): 日常会話では、人間は異なる役割を担い、選択した役割に語彙を適応することができる。
LLMがテキスト・イン・コンテクストを生成する際に,その役割を異にするかどうかを検討する。
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
私たちは、プロンプトに社会的なアイデンティティまたはドメインの専門知識に関連付けられたペルソナをプレフィックスすることでこれを行います。
マルチアームバンディットタスクでは、異なる年齢の子どものふりをしたLSMが、人間のような発達段階の探索を回復する。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
最後に,異なるカテゴリを記述する際に,llmsの擬態が視覚情報に補完するかどうかを検証した。
鳥の専門家になるよう促されたLLMは、車の専門家になるよう促された鳥よりも鳥をうまく説明します。
男性であるように促されたLSMは、女性であるように促された車よりも、車を記述するのが得意である。
これらの結果から, LLMは多様な役割を担っており, この文脈内偽造は, 隠れた強みや偏見を明らかにするのに有効であることが示唆された。
関連論文リスト
- Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。
研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。
LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文 参考訳(メタデータ) (2025-01-19T07:09:11Z) - Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization [33.513689684998035]
対話文学で最初に採用されたペルソナの概念は、大きな言語モデルを特定の文脈に合わせるための有望な枠組みとして復活してきた。
ギャップを埋めるために、フィールドの現状を分類するための総合的な調査を提示する。
論文 参考訳(メタデータ) (2024-06-03T10:08:23Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong [35.64962031447787]
大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。
80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。
LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。
論文 参考訳(メタデータ) (2023-10-19T08:09:58Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。