論文の概要: Learnable Game-theoretic Policy Optimization for Data-centric Self-explanation Rationalization
- arxiv url: http://arxiv.org/abs/2510.13393v1
- Date: Wed, 15 Oct 2025 10:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.625026
- Title: Learnable Game-theoretic Policy Optimization for Data-centric Self-explanation Rationalization
- Title(参考訳): データ中心型自己説明合理化のための学習可能なゲーム理論ポリシー最適化
- Authors: Yunxiao Zhao, Zhiqiang Wang, Xingtong Yu, Xiaoli Li, Jiye Liang, Ru Li,
- Abstract要約: 本研究では, 生成元が入力の最も人間的に理解可能な部分を生成し, 予測器が生成した論理に基づいて予測を行う協調ゲームモデルについて検討する。
従来の合理化法はモード崩壊と呼ばれる問題に悩まされており、予測器は正しい予測を生成するが、生成器は常に崩壊パターンで合理を出力する。
我々は,ゲーム均衡に対処するための政策介入を導入する,ゲーム理論政策最適化指向のRATionalizationという新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 39.7708117567249
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Rationalization, a data-centric framework, aims to build self-explanatory models to explain the prediction outcome by generating a subset of human-intelligible pieces of the input data. It involves a cooperative game model where a generator generates the most human-intelligible parts of the input (i.e., rationales), followed by a predictor that makes predictions based on these generated rationales. Conventional rationalization methods typically impose constraints via regularization terms to calibrate or penalize undesired generation. However, these methods are suffering from a problem called mode collapse, in which the predictor produces correct predictions yet the generator consistently outputs rationales with collapsed patterns. Moreover, existing studies are typically designed separately for specific collapsed patterns, lacking a unified consideration. In this paper, we systematically revisit cooperative rationalization from a novel game-theoretic perspective and identify the fundamental cause of this problem: the generator no longer tends to explore new strategies to uncover informative rationales, ultimately leading the system to converge to a suboptimal game equilibrium (correct predictions v.s collapsed rationales). To solve this problem, we then propose a novel approach, Game-theoretic Policy Optimization oriented RATionalization (PORAT), which progressively introduces policy interventions to address the game equilibrium in the cooperative game process, thereby guiding the model toward a more optimal solution state. We theoretically analyse the cause of such a suboptimal equilibrium and prove the feasibility of the proposed method. Furthermore, we validate our method on nine widely used real-world datasets and two synthetic settings, where PORAT achieves up to 8.1% performance improvements over existing state-of-the-art methods.
- Abstract(参考訳): データ中心のフレームワークである合理化(Rationalization)は,入力データのサブセットを生成することで,予測結果を説明するための自己探索モデルの構築を目的とする。
これは、ジェネレータが入力の最も人間的無知な部分(すなわち有理数)を生成するような協調ゲームモデルを含み、続いてこれらの生成された有理数に基づいて予測を行う予測器が続く。
従来の合理化法は典型的には、望ましくない世代を校正したり刑罰したりするために規則化用語による制約を課す。
しかし、これらの手法はモード崩壊と呼ばれる問題に悩まされており、予測器は正しい予測を生成するが、生成器は崩壊したパターンで一貫して有理を出力する。
さらに、既存の研究は通常、特定の崩壊パターンのために別々に設計され、統一された考察が欠如している。
本稿では,新たなゲーム理論の観点から協調的合理化を体系的に再検討し,問題の根本原因を特定する。
そこで我々は,協調ゲームプロセスにおけるゲーム平衡に対処する政策介入を段階的に導入し,より最適な解状態に向けてモデルを誘導する,ゲーム理論的政策最適化指向ラティナライゼーション(PORAT)という新しい手法を提案する。
理論的には、そのような準最適均衡の原因を分析し、提案手法の有効性を実証する。
さらに,PORATが既存の最先端手法よりも最大8.1%の性能向上を達成できるような,広範に使用されている実世界の9つのデータセットと2つの合成設定に対して,本手法の有効性を検証した。
関連論文リスト
- Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Enhancing the Rationale-Input Alignment for Self-explaining
Rationalization [22.74436500022893]
DAR(textbfDiscriminatively textbfAligned textbfRationalization)と呼ばれる新しい手法を導入する。
2つの実世界のベンチマーク実験により,提案手法は説明の質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-12-07T07:37:15Z) - Unsupervised Selective Rationalization with Noise Injection [7.17737088382948]
教師なし選択的合理化は、2つの共同訓練されたコンポーネント、有理生成器と予測器をチェーンすることで、予測と共に有理性を生成する。
本稿では,生成器と予測器との間にノイズを注入することにより,有理数生成を効果的に抑制する新しい訓練手法を提案する。
新しいベンチマークを含め、さまざまなタスクにおける最先端技術に対する合理的な妥当性とタスク精度の大幅な改善を実現しています。
論文 参考訳(メタデータ) (2023-05-27T17:34:36Z) - Decoupled Rationalization with Asymmetric Learning Rates: A Flexible
Lipschitz Restraint [16.54547887989801]
自己説明的合理化モデルは、一般的に、生成者が入力テキストから最も人間的な知性のある断片を論理として選択する協調ゲームによって構成され、次に選択された合理性に基づいて予測を行う予測器が続く。
そのような協調ゲームは、予測者がまだ十分に訓練されていないジェネレータによって生成される非形式的ピースに過度に適合する退化問題を生じさせ、それからジェネレータを無意味なピースを選択する傾向にある準最適モデルに収束させる。
我々は、自然かつ柔軟にリプシッツ定数を抑制できるDRという、単純で効果的な手法を実証的に提案する。
論文 参考訳(メタデータ) (2023-05-23T02:01:13Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。