論文の概要: Accumulating Context Changes the Beliefs of Language Models
- arxiv url: http://arxiv.org/abs/2511.01805v2
- Date: Tue, 04 Nov 2025 17:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.361381
- Title: Accumulating Context Changes the Beliefs of Language Models
- Title(参考訳): 言語モデルにおける文脈変化の蓄積
- Authors: Jiayi Geng, Howard Chen, Ryan Liu, Manoel Horta Ribeiro, Robb Willer, Graham Neubig, Thomas L. Griffiths,
- Abstract要約: 言語モデルアシスタントは、ブレインストーミングや研究のようなアプリケーションでますます使われている。
本稿では,対話とテキスト処理による文脈の蓄積が,言語モデルの信念をどう変えるかを検討する。
これらの変化は,エージェントシステムにおける実際の行動に反映されることを示唆する信念シフトと一致している。
- 参考スコア(独自算出の注目度): 44.87674077524695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) assistants are increasingly used in applications such as brainstorming and research. Improvements in memory and context size have allowed these models to become more autonomous, which has also resulted in more text accumulation in their context windows without explicit user intervention. This comes with a latent risk: the belief profiles of models -- their understanding of the world as manifested in their responses or actions -- may silently change as context accumulates. This can lead to subtly inconsistent user experiences, or shifts in behavior that deviate from the original alignment of the models. In this paper, we explore how accumulating context by engaging in interactions and processing text -- talking and reading -- can change the beliefs of language models, as manifested in their responses and behaviors. Our results reveal that models' belief profiles are highly malleable: GPT-5 exhibits a 54.7% shift in its stated beliefs after 10 rounds of discussion about moral dilemmas and queries about safety, while Grok 4 shows a 27.2% shift on political issues after reading texts from the opposing position. We also examine models' behavioral changes by designing tasks that require tool use, where each tool selection corresponds to an implicit belief. We find that these changes align with stated belief shifts, suggesting that belief shifts will be reflected in actual behavior in agentic systems. Our analysis exposes the hidden risk of belief shift as models undergo extended sessions of talking or reading, rendering their opinions and actions unreliable.
- Abstract(参考訳): 言語モデル(LM)アシスタントは、ブレインストーミングや研究などの応用でますます使われている。
メモリとコンテキストサイズの改善により、これらのモデルはより自律的になり、明示的なユーザ介入なしにコンテキストウィンドウにテキストが蓄積されるようになる。
モデルの信念プロファイル — 反応や行動に現れる世界に対する理解 — は、コンテキストが蓄積するにつれて静かに変化する可能性がある。
これは、微妙に一貫性のないユーザーエクスペリエンスや、モデルの本来のアライメントから逸脱する振る舞いのシフトにつながる可能性がある。
本稿では,対話に携わる文脈を蓄積し,会話や読書といったテキストを処理することによって,言語モデルの信念をどう変えるかを検討する。
GPT-5は、道徳的ジレンマと安全に関する質問に関する10ラウンドの議論の後、その信念の54.7%が変化し、Grok 4は反対の立場からテキストを読み上げた後、政治的問題に27.2%が変化した。
また、各ツールの選択が暗黙の信念に対応するようなツールの使用を必要とするタスクを設計することで、モデルの行動変化についても検討する。
これらの変化は,エージェントシステムにおける実際の行動に反映されることを示唆する信念シフトと一致している。
我々の分析は、モデルが会話や読書のセッションを延長し、意見や行動が信頼できないという、信念シフトの隠れたリスクを露呈する。
関連論文リスト
- Counterfactual reasoning: an analysis of in-context emergence [57.118735341305786]
我々は、言語モデルが反実的推論が可能なことを示す。
自己注意、モデル深度、トレーニング済みデータの多様性によってパフォーマンスが向上することがわかった。
以上の結果から, SDE 動態下での反実的推論が可能となった。
論文 参考訳(メタデータ) (2025-06-05T16:02:07Z) - Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework [17.91981142492207]
本稿では,ユーザ行動に根ざした制御されたフレーズを生成するフレームワークであるAUGMENTを紹介する。
AUGMENTは言語的に情報を得た規則を活用し、命令の順守、意味的類似性、リアリズムのチェックを通じて品質を強制する。
ケーススタディでは、制御されたパラフレーズは、制約のない変動の下で隠されたままの系統的な弱点を明らかにする。
論文 参考訳(メタデータ) (2025-05-06T14:17:30Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Paraphrase Types Elicit Prompt Engineering Capabilities [9.311064293678154]
本研究は,言語的特徴がパラフレーズ型を通してモデルにどのような影響を及ぼすかを系統的,実証的に評価する。
120のタスクにまたがる5つのモデルと6種類のパラフレーズに対する行動変化を測定した。
この結果から,特定のパラフレーズ型にプロンプトを適用した場合に,言語モデルによるタスク改善の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-28T13:06:31Z) - MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions [4.747987317906765]
道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。
本稿では、社会談話における道徳的感情を捉えるために微調整された言語表現モデルであるMoralBERTを紹介する。
論文 参考訳(メタデータ) (2024-03-12T14:12:59Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - I Beg to Differ: A study of constructive disagreement in online
conversations [15.581515781839656]
コンテンツ論争を含む7,425のwikipediaトークページ会話のコーパスを構築した。
モデレーターによる調停に不一致がエスカレートされるかどうかを予測するタスクを定義します。
我々は,様々なニューラルモデルを開発し,会話の構造を考慮すれば予測精度が向上することを示す。
論文 参考訳(メタデータ) (2021-01-26T16:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。