論文の概要: Concept Incongruence: An Exploration of Time and Death in Role Playing
- arxiv url: http://arxiv.org/abs/2505.14905v1
- Date: Tue, 20 May 2025 20:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.753079
- Title: Concept Incongruence: An Exploration of Time and Death in Role Playing
- Title(参考訳): コンセプト・コングルーエンス : ロールプレイングにおける時間と死の探索
- Authors: Xiaoyan Bai, Ike Peng, Aditya Singh, Chenhao Tan,
- Abstract要約: 我々は、概念的矛盾の下でモデル行動を定義し、分析する第一歩を踏み出します。
非ロールプレイ設定と比較して、モデルが死亡後に停止せず、精度低下に悩まされることが示される。
- 参考スコア(独自算出の注目度): 20.847291173760567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider this prompt "Draw a unicorn with two horns". Should large language models (LLMs) recognize that a unicorn has only one horn by definition and ask users for clarifications, or proceed to generate something anyway? We introduce concept incongruence to capture such phenomena where concept boundaries clash with each other, either in user prompts or in model representations, often leading to under-specified or mis-specified behaviors. In this work, we take the first step towards defining and analyzing model behavior under concept incongruence. Focusing on temporal boundaries in the Role-Play setting, we propose three behavioral metrics--abstention rate, conditional accuracy, and answer rate--to quantify model behavior under incongruence due to the role's death. We show that models fail to abstain after death and suffer from an accuracy drop compared to the Non-Role-Play setting. Through probing experiments, we identify two main causes: (i) unreliable encoding of the "death" state across different years, leading to unsatisfactory abstention behavior, and (ii) role playing causes shifts in the model's temporal representations, resulting in accuracy drops. We leverage these insights to improve consistency in the model's abstention and answer behaviors. Our findings suggest that concept incongruence leads to unexpected model behaviors and point to future directions on improving model behavior under concept incongruence.
- Abstract(参考訳): このプロンプトを "Draw a unicorn with two horns" とする。
大規模言語モデル(LLM)は、ユニコーンが定義によって1つの角しか持たないことを認識して、ユーザに明確化を求めるか、あるいはいずれにせよ何かを生成する。
ユーザプロンプトやモデル表現において,概念境界が相互に衝突する現象を捉えるために,概念の矛盾を導入する。
本研究では,概念的矛盾の下でのモデル行動の定義と解析に向けた第一歩を踏み出す。
本稿では,ロールプレイ設定における時間的境界に着目し,役割死によるモデル行動の定量化のための3つの行動指標 – 保持率,条件精度,回答率 – を提案する。
非ロールプレイ設定と比較して、モデルが死亡後に停止せず、精度低下に悩まされることが示される。
探索実験を通じて、主な原因を2つ同定する。
一 様々な年月にわたって「死」状態の信頼できないエンコーディングにより、不満足な棄権行動に至り、
(II)ロールプレイングは、モデルの時間的表現の変化を引き起こし、精度が低下する。
これらの洞察を活用して、モデルの無視と回答の振る舞いの一貫性を改善します。
その結果,概念不一致は予期せぬモデル行動を引き起こすことが示唆され,概念不一致下でのモデル行動を改善するための今後の方向性が示唆された。
関連論文リスト
- Robustly identifying concepts introduced during chat fine-tuning using crosscoders [1.253890114209776]
クロスコーダは、ベースモデルと微調整モデルの両方において遅延方向として表される解釈可能な概念の共用辞書を学習する、最近のモデル微分法である。
両モデルに実際に存在するとき,概念を微調整モデルに固有のものと誤帰できるクロスコーダL1のトレーニング損失に起因する2つの問題を同定する。
BatchTopKの損失でクロスコーダをトレーニングし、これらの問題を大幅に軽減し、より真にチャット特化され、高度に解釈可能な概念を見つけます。
論文 参考訳(メタデータ) (2025-04-03T17:50:24Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Overthinking the Truth: Understanding how Language Models Process False
Demonstrations [32.29658741345911]
モデルの内部表現のレンズを通して有害な模倣を研究する。
我々は「過剰思考」と「偽誘導頭部」の2つの関連する現象を同定する。
論文 参考訳(メタデータ) (2023-07-18T17:56:50Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Shaking the foundations: delusions in sequence models for interaction
and control [45.34593341136043]
我々は、シーケンスモデルが「行動の原因と効果の理解を欠く」ことを示し、それらが自己提案的妄想によって誤った推論を引き出す結果となった。
教師付き学習では,実ミス信号と反実エラー信号とをそれぞれ学習することで,データに対する条件付けや介入をシステムに教えることができることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:31:05Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z) - Superdeterministic hidden-variables models I: nonequilibrium and
signalling [0.0]
まず、超決定論の概要を述べ、その文献における様々な批判について論じる。
ベルの直感的な批判は、これらのモデルは陰謀的だ」と述べた。
論文 参考訳(メタデータ) (2020-03-26T15:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。