論文の概要: Learning When to Trust in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2603.13356v1
- Date: Mon, 09 Mar 2026 01:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.118721
- Title: Learning When to Trust in Contextual Bandits
- Title(参考訳): コンテキスト帯の信頼をいつ学ぶか
- Authors: Majid Ghasemi, Mark Crowley,
- Abstract要約: 我々は、このモードをコンテキストシコファンシー(Contextual Sycophancy)と呼びます。
評価器の高次元信頼境界を学習するCESA-LinUCBを提案する。
我々はCESA-LinUCBが文脈的敵に対するサブ線形後悔$tildeO(sqrtT)$を達成できることを証明し、世界規模で評価者がいない場合でも基礎的真実を回復する。
- 参考スコア(独自算出の注目度): 1.3428344011390776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard approaches to Robust Reinforcement Learning assume that feedback sources are either globally trustworthy or globally adversarial. In this paper, we challenge this assumption and we identify a more subtle failure mode. We term this mode as Contextual Sycophancy, where evaluators are truthful in benign contexts but strategically biased in critical ones. We prove that standard robust methods fail in this setting, suffering from Contextual Objective Decoupling. To address this, we propose CESA-LinUCB, which learns a high-dimensional Trust Boundary for each evaluator. We prove that CESA-LinUCB achieves sublinear regret $\tilde{O}(\sqrt{T})$ against contextual adversaries, recovering the ground truth even when no evaluator is globally reliable.
- Abstract(参考訳): ロバスト強化学習の標準的なアプローチは、フィードバックソースが世界的な信頼に値するか、全世界の敵対的であることを前提としている。
本稿では、この仮定に挑戦し、より微妙な障害モードを特定する。
我々は、このモードをコンテキストシコファンシー(Contextual Sycophancy)と呼びます。
標準的なロバストなメソッドはこの設定で失敗し、コンテキストオブジェクトのデカップリングに悩まされていることを証明します。
そこで我々は,各評価器の高次元信頼境界を学習するCESA-LinUCBを提案する。
我々はCESA-LinUCBが文脈的敵に対するサブ線形後悔$\tilde{O}(\sqrt{T})$を達成することを証明し、評価器がグローバルに信頼性がない場合でも基礎的真実を回復する。
関連論文リスト
- Objective Decoupling in Social Reinforcement Learning: Recovering Ground Truth from Sycophantic Majorities [1.3428344011390776]
強化学習(Reinforcement Learning)のDogma 4は、評価者がサイコファン、怠け者、あるいは敵対的であるような社会環境では失敗することを示す。
本稿では、この問題を解決するために、疫学的ソースアライメント(ESA)を提案する。
ESAは、信号自体よりもフィードバックのソースを判断するために、スパース安全公理を利用する。
論文 参考訳(メタデータ) (2026-02-08T19:23:02Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - From Ground Trust to Truth: Disparities in Offensive Language Judgments on Contemporary Korean Political Discourse [19.382948880868522]
本研究は、現代政治談話の大規模なデータセットを構築し、真理を欠いた3つの洗練された判断を用いた。
我々は,各判断の異なるパターンを特定し,離脱戦略を用いてラベル合意の傾向を示した。
これは、本質的な制約のある現実世界の設定に適用可能なアプローチを示唆している。
論文 参考訳(メタデータ) (2025-09-18T07:57:18Z) - Context Engineering for Trustworthiness: Rescorla Wagner Steering Under Mixed and Inappropriate Contexts [55.70338710797578]
関連コンテンツと不適切なコンテンツを含む実世界のコンテキストとクエリをペアリングするPoisoned Context Testbedを紹介した。
動物における連想学習に触発されて、神経科学からRescorla-Wagner(RW)モデルを適用し、競合する文脈信号がLLM出力にどのように影響するかを定量化する。
RW-ステアリング(RW-Steering)は、2段階の微調整に基づくアプローチであり、モデルが不適切な信号を内部的に識別し無視することを可能にする。
論文 参考訳(メタデータ) (2025-09-02T00:40:34Z) - When to Trust Context: Self-Reflective Debates for Context Reliability [32.806602222335485]
SR-DCR(Self-Reflective Debate for Contextual Reliability)は、トークンレベルの自信と非対称なマルチエージェントの議論を統合する軽量フレームワークである。
ClashEvalベンチマークの実験では、SR-DCRは信頼に値する入力の精度を維持しながら、一貫してロバスト性を高めることが示されている。
論文 参考訳(メタデータ) (2025-06-06T12:09:34Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。