論文の概要: Probing the Lack of Stable Internal Beliefs in LLMs
- arxiv url: http://arxiv.org/abs/2603.25187v1
- Date: Thu, 26 Mar 2026 08:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.19611
- Title: Probing the Lack of Stable Internal Beliefs in LLMs
- Title(参考訳): LLMにおける安定な内部信念の欠如の証明
- Authors: Yifan Luo, Kangping Xu, Yanzhen Lu, Yang Yuan, Andrew Chi-Chih Yao,
- Abstract要約: ペルソナ駆動の大規模言語モデル(LLM)は、人間のような性格特性をシミュレートするために、相互作用間の一貫した行動傾向を必要とする。
この研究は、LLMがマルチターン相互作用において、未定のゴールへの永続的な執着として定義された「単純整合性」を維持することができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 15.229279758631137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persona-driven large language models (LLMs) require consistent behavioral tendencies across interactions to simulate human-like personality traits, such as persistence or reliability. However, current LLMs often lack stable internal representations that anchor their responses over extended dialogues. This work explores whether LLMs can maintain "implicit consistency", defined as persistent adherence to an unstated goal in multi-turn interactions. We designed a 20-question-style riddle game paradigm where an LLM is tasked with secretly selecting a target and responding to users' guesses with "yes/no" answers. Through evaluations, we find that LLMs struggle to preserve latent consistency: their implicit "goals" shift across turns unless explicitly provided their selected target in context. These findings highlight critical limitations in the building of persona-driven LLMs and underscore the need for mechanisms that anchor implicit goals over time, which is a key to realistic personality modeling in interactive applications such as dialogue systems.
- Abstract(参考訳): ペルソナ駆動の大規模言語モデル(LLM)は、永続性や信頼性などの人間のような性格特性をシミュレートするために、相互作用間の一貫した行動傾向を必要とする。
しかしながら、現在のLLMは、しばしば、その応答を拡張ダイアログに固定する安定した内部表現を欠いている。
この研究は、LLMがマルチターン相互作用において、未定のゴールへの永続的な執着として定義された「単純整合性」を維持することができるかどうかを考察する。
我々は、LLMが秘密裏にターゲットを選択し、"yes/no"回答でユーザの推測に応答する、20のクエストスタイルのゲームパラダイムを設計した。
評価の結果、LLMは遅延一貫性を維持するのに苦労していることがわかった。
これらの知見は、ペルソナ駆動型LLMの構築における重要な限界を強調し、対話システムのような対話型アプリケーションにおいて、現実的なパーソナリティモデリングの鍵となる暗黙の目標を時間とともに固定するメカニズムの必要性を強調している。
関連論文リスト
- ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models [32.099137908375546]
ClarifyMT-Benchは、大規模言語モデル(LLM)におけるマルチターン明確化のためのベンチマークである。
多様なあいまいさソースと相互作用パターンをキャプチャする6,120個のマルチターン対話を構築した。
textbfClarifyAgentは,認知,予測,追跡,計画に明確化を分解するエージェントアプローチである。
論文 参考訳(メタデータ) (2025-12-24T11:39:00Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。
IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文 参考訳(メタデータ) (2025-08-12T08:04:28Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - LLM Agents in Interaction: Measuring Personality Consistency and
Linguistic Alignment in Interacting Populations of Large Language Models [4.706971067968811]
簡単な変数誘導サンプリングアルゴリズムを用いて,大規模言語モデル (LLM) エージェントの2群集団を作成する。
人格検査を行ない、共同作業にエージェントを提出し、異なるプロファイルが会話相手に対して異なるレベルの人格整合性および言語的整合性を示すことを確認する。
論文 参考訳(メタデータ) (2024-02-05T11:05:20Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。