Fugu-MT 論文翻訳(概要): In-Context Impersonation Reveals Large Language Models' Strengths and Biases

論文の概要: In-Context Impersonation Reveals Large Language Models' Strengths and Biases

arxiv url: http://arxiv.org/abs/2305.14930v1
Date: Wed, 24 May 2023 09:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:44:02.463379
Title: In-Context Impersonation Reveals Large Language Models' Strengths and Biases
Title（参考訳）: 大規模言語モデルの強みとバイアスを明らかにするインコンテキスト・インフォメーション
Authors: Leonard Salewski, Stephan Alaniz, Isabel Rio-Torto, Eric Schulz, Zeynep Akata
Abstract要約: 我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
参考スコア（独自算出の注目度）: 37.269869829034974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In everyday conversations, humans can take on different roles and adapt their vocabulary to their chosen roles. We explore whether LLMs can take on, that is impersonate, different roles when they generate text in-context. We ask LLMs to assume different personas before solving vision and language tasks. We do this by prefixing the prompt with a persona that is associated either with a social identity or domain expertise. In a multi-armed bandit task, we find that LLMs pretending to be children of different ages recover human-like developmental stages of exploration. In a language-based reasoning task, we find that LLMs impersonating domain experts perform better than LLMs impersonating non-domain experts. Finally, we test whether LLMs' impersonations are complementary to visual information when describing different categories. We find that impersonation can improve performance: an LLM prompted to be a bird expert describes birds better than one prompted to be a car expert. However, impersonation can also uncover LLMs' biases: an LLM prompted to be a man describes cars better than one prompted to be a woman. These findings demonstrate that LLMs are capable of taking on diverse roles and that this in-context impersonation can be used to uncover their hidden strengths and biases.
Abstract（参考訳）: 日常会話では、人間は異なる役割を担い、選択した役割に語彙を適応することができる。 LLMがテキスト・イン・コンテクストを生成する際に,その役割を異にするかどうかを検討する。我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。私たちは、プロンプトに社会的なアイデンティティまたはドメインの専門知識に関連付けられたペルソナをプレフィックスすることでこれを行います。マルチアームバンディットタスクでは、異なる年齢の子どものふりをしたLSMが、人間のような発達段階の探索を回復する。言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。最後に,異なるカテゴリを記述する際に,llmsの擬態が視覚情報に補完するかどうかを検証した。鳥の専門家になるよう促されたLLMは、車の専門家になるよう促された鳥よりも鳥をうまく説明します。男性であるように促されたLSMは、女性であるように促された車よりも、車を記述するのが得意である。これらの結果から, LLMは多様な役割を担っており, この文脈内偽造は, 隠れた強みや偏見を明らかにするのに有効であることが示唆された。

関連論文リスト

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。 LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文参考訳（メタデータ） (2025-01-19T07:09:11Z)
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization [33.513689684998035]
対話文学で最初に採用されたペルソナの概念は、大きな言語モデルを特定の文脈に合わせるための有望な枠組みとして復活してきた。ギャップを埋めるために、フィールドの現状を分類するための総合的な調査を提示する。
論文参考訳（メタデータ） (2024-06-03T10:08:23Z)
Identifying Multiple Personalities in Large Language Models with External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文参考訳（メタデータ） (2024-02-22T18:57:20Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Large Language Models: The Need for Nuance in Current Debates and a Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。本論文は,LLM能力の批判において再発する3点を批判的に評価する。 LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文参考訳（メタデータ） (2023-10-30T15:51:04Z)
Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong [35.64962031447787]
大規模言語モデル(LLM)は、Web上の情報へのアクセスにますます使われています。 80人のクラウドワーカーによる実験では,事実チェックを容易にするために,言語モデルと検索エンジン(情報検索システム)を比較した。 LLMの説明を読むユーザーは、類似の精度を保ちながら、検索エンジンを使用するものよりもはるかに効率的である。
論文参考訳（メタデータ） (2023-10-19T08:09:58Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。