論文の概要: Optimizing Decomposition for Optimal Claim Verification
- arxiv url: http://arxiv.org/abs/2503.15354v1
- Date: Wed, 19 Mar 2025 15:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:46.336072
- Title: Optimizing Decomposition for Optimal Claim Verification
- Title(参考訳): 最適クレーム検証のための最適分解法
- Authors: Yining Lu, Noah Ziems, Hy Dang, Meng Jiang,
- Abstract要約: 既存の分解ポリシー、通常は手作りのデモは、原子性の観点から下流の検証器とうまく一致しない。
本稿では,検証者からのフィードバックを利用して,検証者優先の原子性に対する要求を動的に分解する政策を学習する強化学習フレームワークである動的分解を提案する。
実験の結果、動的分解は既存の分解ポリシーより優れており、検証信頼度は0.07向上し、入力クレームの検証器、データセット、原子度の平均で0.12精度が向上していることがわかった。
- 参考スコア(独自算出の注目度): 15.68967195914405
- License:
- Abstract: Current research on the \textit{Decompose-Then-Verify} paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity -- a novel metric quantifying information density -- leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.
- Abstract(参考訳): 長文の事実性を評価するための「textit{Decompose-Then-Verify}」パラダイムに関する現在の研究は、典型的には、その相互作用や潜在的なミスアライメントを見越して、独立して分解と検証を扱う。
既存の分解ポリシー、通常は手作りのデモは、情報密度を定量化する新しい計量である原子性(Atomicity)の観点から下流の検証とうまく一致していないことが、最適以下の検証結果をもたらす。
両レベル最適化問題として最適検証のための最適分解ポリシーを定式化する。
この強いNP-ハード問題に対する解を近似するために,検証者フィードバックを活用する強化学習フレームワークである動的分解を提案し,検証者優先の原子性に対するクレームを動的に分解する政策を学習する。
実験の結果、動的分解は既存の分解ポリシーより優れており、信頼度0.07、信頼度0.12(0-1スケール)の精度が、入力クレームの検証器、データセット、原子度で平均的に向上していることがわかった。
関連論文リスト
- Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization [13.75709067982844]
因果発見のための信頼領域探索型クリッピングポリシー最適化手法を提案する。
また、SDGATと呼ばれる改良されたグラフアテンションエンコーダを提案し、効率よく変数を符号化する。
これらの改善により、提案手法は、合成データセットとベンチマークデータセットの両方において、以前のRL法よりも優れている。
論文 参考訳(メタデータ) (2024-12-27T10:50:43Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Search for Concepts: Discovering Visual Concepts Using Direct
Optimization [48.51514897866221]
直接最適化はより一般化可能であり、正しい分解を見逃し、典型的には償却推論に基づく手法よりも少ないデータを必要とすることを示す。
これは、より直接的な最適化要素を統合することで改善される可能性のある、償却推論を使用する現在の一般的なプラクティスの弱点を浮き彫りにしている。
論文 参考訳(メタデータ) (2022-10-25T15:55:24Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Extension of Dynamic Mode Decomposition for dynamic systems with
incomplete information based on t-model of optimal prediction [69.81996031777717]
動的モード分解は、動的データを研究するための非常に効率的な手法であることが証明された。
このアプローチの適用は、利用可能なデータが不完全である場合に問題となる。
本稿では,森-Zwanzig分解の1次近似を考察し,対応する最適化問題を記述し,勾配に基づく最適化法を用いて解く。
論文 参考訳(メタデータ) (2022-02-23T11:23:59Z) - Deviance Matrix Factorization [6.509665408765348]
偏差に基づくデータ損失に対する一般的な行列係数化について検討し、任意の特異値分解を2乗誤差損失を超えて拡張する。
本手法は,一般化線形モデル(GLM)から古典統計手法を応用し,入射重みによる構造零点の許容に十分柔軟な効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-10-12T01:27:55Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Optimally adaptive Bayesian spectral density estimation for stationary
and nonstationary processes [0.0]
本稿では、ガウス過程を仮定した定常時系列および非定常時系列のスペクトル密度を推定する既存の方法を改善する。
適切な固有分解を最適化することにより、簡単な周期構造と複雑な周期構造の両方でデータをより適切にモデル化する。
論文 参考訳(メタデータ) (2020-03-04T23:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。