論文の概要: Translating the Rashomon Effect to Sequential Decision-Making Tasks
- arxiv url: http://arxiv.org/abs/2512.17470v1
- Date: Fri, 19 Dec 2025 11:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.362796
- Title: Translating the Rashomon Effect to Sequential Decision-Making Tasks
- Title(参考訳): 連続決定課題への羅生門効果の翻訳
- Authors: Dennis Gross, Jørn Eirik Betten, Helge Spieker,
- Abstract要約: 羅生門効果(らしょうもんえき)とは、複数のモデルが同一の予測を発生させながら、それらが内部で依存する特徴が異なる現象をいう。
この効果は分類タスクで広く研究されているが、逐次的な意思決定では研究されていない。
我々は、同じ行動を示し、同じ状態を訪れ、同じ行動を選択しながら、内部構造が異なる複数のポリシーとして定義する。
- 参考スコア(独自算出の注目度): 1.8548743271467671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Rashomon effect describes the phenomenon where multiple models trained on the same data produce identical predictions while differing in which features they rely on internally. This effect has been studied extensively in classification tasks, but not in sequential decision-making, where an agent learns a policy to achieve an objective by taking actions in an environment. In this paper, we translate the Rashomon effect to sequential decision-making. We define it as multiple policies that exhibit identical behavior, visiting the same states and selecting the same actions, while differing in their internal structure, such as feature attributions. Verifying identical behavior in sequential decision-making differs from classification. In classification, predictions can be directly compared to ground-truth labels. In sequential decision-making with stochastic transitions, the same policy may succeed or fail on any single trajectory due to randomness. We address this using formal verification methods that construct and compare the complete probabilistic behavior of each policy in the environment. Our experiments demonstrate that the Rashomon effect exists in sequential decision-making. We further show that ensembles constructed from the Rashomon set exhibit greater robustness to distribution shifts than individual policies. Additionally, permissive policies derived from the Rashomon set reduce computational requirements for verification while maintaining optimal performance.
- Abstract(参考訳): 羅生門効果は、同じデータで訓練された複数のモデルが同一の予測を生成する現象を記述し、それらが内部で依存する特徴が異なる。
この効果は、分類タスクにおいて広く研究されてきたが、逐次的な意思決定では研究されていない。
本稿では,ラショモン効果を逐次意思決定に変換する。
我々は、同一の行動を示し、同じ状態を訪れ、同じ行動を選択する複数のポリシーとして定義する。
シーケンシャルな意思決定における同一の振る舞いを検証することは、分類と異なる。
分類において、予測は接地木ラベルと直接比較することができる。
確率遷移を伴うシーケンシャルな意思決定において、同じ方針はランダム性によって任意の単一軌道で成功するか失敗する可能性がある。
本研究では,環境における各政策の完全な確率的行動の構築と比較を行う形式的検証手法を用いてこの問題に対処する。
実験により, 連続的な意思決定において, ラショウモン効果が存在することが示された。
さらに,ラーショモンセットから構築したアンサンブルは,個々の政策よりも分布変化に対して強い堅牢性を示すことを示す。
さらに、Rashomonセットから派生したパーミッシブポリシーは、最適な性能を維持しながら、検証のための計算要求を減らす。
関連論文リスト
- The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。