論文の概要: EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
- arxiv url: http://arxiv.org/abs/2601.09142v1
- Date: Wed, 14 Jan 2026 04:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.262927
- Title: EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
- Title(参考訳): EvasionBench:Multi-Model ConsensusとLCM-as-Judgeによる財務Q&AにおけるEvasive Answerの検出
- Authors: Shijian Ma, Yan Lin, Yi Yang,
- Abstract要約: EvasionBenchを紹介します。3万のトレーニングサンプルと1,000人の人手によるテストサンプルで構成されています。
2つの強いアノテータが衝突し、審査員がラベルを解消する境界ケースを抽出する。
トレーニングされたモデルEva-4B(4Bパラメータ)は81.3%の精度でベースを25ポイント上回っている。
- 参考スコア(独自算出の注目度): 8.50639201265868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting evasive answers in earnings calls is critical for financial transparency, yet progress is hindered by the lack of large-scale benchmarks. We introduce EvasionBench, comprising 30,000 training samples and 1,000 human-annotated test samples (Cohen's Kappa 0.835) across three evasion levels. Our key contribution is a multi-model annotation framework leveraging a core insight: disagreement between frontier LLMs signals hard examples most valuable for training. We mine boundary cases where two strong annotators conflict, using a judge to resolve labels. This approach outperforms single-model distillation by 2.4 percent, with judge-resolved samples improving generalization despite higher training loss (0.421 vs 0.393) - evidence that disagreement mining acts as implicit regularization. Our trained model Eva-4B (4B parameters) achieves 81.3 percent accuracy, outperforming its base by 25 percentage points and approaching frontier LLM performance at a fraction of inference cost.
- Abstract(参考訳): 決算報告で回避的回答を検出することは、金融透明性にとって重要だが、大規模なベンチマークの欠如によって進歩が妨げられている。
EvasionBenchは3つの回避レベルにわたる3万のトレーニングサンプルと1,000人の人手による検査サンプル(Cohen's Kappa 0.835)から構成される。
私たちの重要な貢献は、コアインサイトを活用するマルチモデルアノテーションフレームワークです。
2つの強いアノテータが衝突し、審査員がラベルを解消する境界ケースを抽出する。
このアプローチは、より高いトレーニング損失(0.421対0.393)にもかかわらず、裁判官が解決したサンプルにより一般化が向上し、単一モデルの蒸留が2.4パーセント向上する。
トレーニングしたモデルEva-4B(4Bパラメータ)は81.3%の精度でベースを25ポイント上回り、推論コストの少ないフロンティアLLM性能に近づいた。
関連論文リスト
- Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - Bayesian Orchestration of Multi-LLM Agents for Cost-Aware Sequential Decision-Making [1.2691047660244335]
大規模言語モデル(LLM)は、非対称なエラーコストの設定において、自律的な決定エージェントとしてデプロイされることが増えている。
本稿では,LLMを近似的近似モデルとして扱う,ベイズ的かつコストに配慮したマルチLLMオーケストレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-04T13:19:27Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Batch-in-Batch: a new adversarial training framework for initial perturbation and sample selection [9.241737058291823]
適応学習法は, 単純な一様分布から, 対向サンプルに対する独立な初期摂動を生成する。
モデルを強化するため,Batch-in-Batchと呼ばれるシンプルで効果的なトレーニングフレームワークを提案する。
BBフレームワーク内でトレーニングされたモデルは、様々な対角的設定において、常に高い対角的精度を有することを示す。
論文 参考訳(メタデータ) (2024-06-06T13:34:43Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。