Fugu-MT 論文翻訳(概要): How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

論文の概要: How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?

arxiv url: http://arxiv.org/abs/2402.07282v2
Date: Tue, 13 Feb 2024 14:21:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 12:08:23.989756
Title: How do Large Language Models Navigate Conflicts between Honesty and Helpfulness?
Title（参考訳）: 大規模言語モデルはどのようにして正直とヘルプフルネスの対立をナビゲートするか?
Authors: Ryan Liu, Theodore R. Sumers, Ishita Dasgupta, Thomas L. Griffiths
Abstract要約: 人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。 GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
参考スコア（独自算出の注目度）: 14.706111954807021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In day-to-day communication, people often approximate the truth - for example, rounding the time or omitting details - in order to be maximally helpful to the listener. How do large language models (LLMs) handle such nuanced trade-offs? To address this question, we use psychological models and experiments designed to characterize human behavior to analyze LLMs. We test a range of LLMs and explore how optimization for human preferences or inference-time reasoning affects these trade-offs. We find that reinforcement learning from human feedback improves both honesty and helpfulness, while chain-of-thought prompting skews LLMs towards helpfulness over honesty. Finally, GPT-4 Turbo demonstrates human-like response patterns including sensitivity to the conversational framing and listener's decision context. Our findings reveal the conversational values internalized by LLMs and suggest that even these abstract values can, to a degree, be steered by zero-shot prompting.
Abstract（参考訳）: 日々のコミュニケーションでは、聞き手にとって最大限に役に立つように、人々はしばしば真実(例えば時間を丸めたり、詳細を省略したりするなど)を近似する。大規模言語モデル(llm)はこのような微妙なトレードオフをどのように扱うのか? この問題に対処するために,人間の行動を特徴付ける心理的モデルと実験を用いてLLMを分析する。様々なLSMを検証し、人間の選好や推論時間推論の最適化がこれらのトレードオフにどのように影響するかを考察する。人間のフィードバックからの強化学習は、誠実さと援助性の両方を改善する一方、チェーン・オブ・シークレットは、誠実さよりも役に立つように、LSMを歪ませている。最後に、GPT-4 Turboは、会話のフレーミングやリスナーの決定コンテキストに対する感度を含む、人間のような応答パターンを示す。以上の結果から,LLMが内在する会話値が明らかとなり,抽象的な値であってもある程度はゼロショットプロンプトで判断できることが示唆された。

関連論文リスト

Shaping Shared Languages: Human and Large Language Models' Inductive Biases in Emergent Communication [0.09999629695552195]
ヒトと大言語モデル(LLM)の帰納バイアスに最適化された人工言語がどのように進化するかを検討する。我々は,人間とLLMが協力しながらも,すべての状況において信頼性の高いコミュニケーションを可能にする語彙が出現することを示す。
論文参考訳（メタデータ） (2025-03-06T12:47:54Z)
How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文参考訳（メタデータ） (2025-03-01T03:35:56Z)
Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。文脈特性が人間の信頼行動に大きく影響していることが判明した。これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文参考訳（メタデータ） (2024-07-10T18:00:05Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Large Language Models are as persuasive as humans, but how? About the cognitive effort and moral-emotional language of LLM arguments [0.0]
大型言語モデル(LLM)はすでに人間と同じくらい説得力がある。本稿では, LLMの説得戦略について, 人為的議論と比較し検討する。
論文参考訳（メタデータ） (2024-04-14T19:01:20Z)
DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback [61.28463542324576]
本稿では,大規模言語モデルから自然言語フィードバック(NLF)を革新的に活用する大規模視覚言語モデル(LVLM)であるDRESSを紹介する。我々は,NLFの新たな分類法を2つの重要なタイプに分類する。実験の結果、DRESSはより有用な(9.76%)、正直な(11.52%)、無害な(21.03%)を生成できることが示された。
論文参考訳（メタデータ） (2023-11-16T18:37:29Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文参考訳（メタデータ） (2023-10-16T05:19:02Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。