論文の概要: Reviewing the Reviewer: Graph-Enhanced LLMs for E-commerce Appeal Adjudication
- arxiv url: http://arxiv.org/abs/2603.19267v1
- Date: Fri, 27 Feb 2026 00:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.807985
- Title: Reviewing the Reviewer: Graph-Enhanced LLMs for E-commerce Appeal Adjudication
- Title(参考訳): 審査員のレビュー:Eコマース上訴判断のためのグラフ強化LDM
- Authors: Yuchen Du, Ashley Li, Zixi Huang,
- Abstract要約: 本稿では,手術場における幻覚を抑える適応推論のための最小限の表現を提案する。
我々は,新たな事例に対するトップダウン推論を行う,競合対応のグラフ推論フレームワークを開発した。
大規模電子商取引業者の控訴判決における枠組みを評価する。
- 参考スコア(独自算出の注目度): 0.7136933021609076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical review workflows, where a second-tier reviewer (Checker) corrects first-tier (Maker) decisions, generate valuable correction signals that encode why initial judgments failed. However, learning from these signals is hindered by information asymmetry: corrections often depend on verification actions unavailable to Makers or automated systems. We address this challenge by introducing explicit action modeling as an inferential constraint that grounds reasoning in verifiable operations rather than unconstrained text generation. We propose the Evidence-Action-Factor-Decision (EAFD) schema, a minimal representation for adjudication reasoning that prevents hallucination through operational grounding and enables learning from correction signals via explicit conflict modeling. Building on this schema, we develop a conflict-aware graph reasoning framework that: (1) constructs EAFD graphs from historical cases capturing Maker-Checker disagreements, (2) aggregates them into a retrievable knowledge base, and (3) performs top-down deductive reasoning for new cases by projecting validated resolution paths from precedents. A distinctive capability is the Request More Information (RMI) outcome: when evidence is insufficient, the system identifies precisely which verification actions remain unexecuted and generates targeted information requests. We evaluate the framework in large-scale e-commerce seller appeal adjudication. While a standard LLM-only baseline achieves only 70.8% alignment with human experts, incorporating action modeling with RMI improves alignment to 87.5%. Augmenting this with the retrieval-based knowledge graph yields the best offline performance of 95.8%. Following online deployment, the framework maintains robust performance, achieving a 96.3% alignment rate in production, demonstrating its real-world effectiveness.
- Abstract(参考訳): 階層的なレビューワークフローでは、第2階層のレビュア(Checker)が第1階層(Maker)の判断を修正し、最初の判断が失敗した理由をエンコードする価値のある修正信号を生成する。
しかし、これらの信号からの学習は情報非対称性によって妨げられている。
本稿では,制約のないテキスト生成ではなく,検証可能な操作の推論を根拠とした推論制約として,明示的なアクションモデリングを導入することで,この問題に対処する。
Evidence-Action-Factor-Decision (EAFD) スキーマは,適応推論の最小限の表現であり,操作的基盤による幻覚を防止し,明示的な競合モデリングによる補正信号からの学習を可能にする。
このスキーマに基づいて,(1) Maker-Checkerの不一致を捉えた歴史的事例からAEFDグラフを構築し,(2) それらを検索可能な知識ベースに集約し,(3) 先例から検証された解決パスを投影することで,新たな事例に対するトップダウン推論を行う。
証拠が不十分な場合、システムはどの検証アクションが実行されていないのかを正確に識別し、ターゲットとする情報要求を生成する。
大規模電子商取引業者の控訴判決における枠組みを評価する。
標準的なLDMのみのベースラインは、人間の専門家と70.8%のアライメントしか達成していないが、RMIにアクションモデリングを組み込むことで87.5%のアライメントが向上している。
これを検索ベースの知識グラフで拡張すると、最高のオフラインパフォーマンスが95.8%になる。
オンライン展開の後、このフレームワークは堅牢なパフォーマンスを維持し、96.3%のアライメント率を実現し、実世界の有効性を実証している。
関連論文リスト
- JARVIS: An Evidence-Grounded Retrieval System for Interpretable Deceptive Reviews Adjudication [4.797952842010917]
JARVIS は Augmented Retrieval と evidence graph Structures を通じて判断を提供するフレームワークである。
ハイブリッド密度スパースマルチモーダル検索により意味論的に類似したエビデンスを検索し、共有エンティティを通じてリレーショナル信号を拡張し、異種エビデンスグラフを構築する。
本フレームワークは,リコール量を27%増加させ,手動検査時間を75%短縮する。
論文 参考訳(メタデータ) (2026-02-13T13:57:45Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [30.15803409441136]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z) - TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation [9.221637941193606]
ホットスポット認識能力(HPA)とすべてのファクトチェックタスクを評価することができる最初のベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドプラットフォームとプロのファクトチェックデータセットから得られた7,643のキュレートされたサンプルで構成されている。
また、動的エビデンス強化と影響スコアに基づく反復的自己回帰を統合した推論フレームワークであるFactISRを提案する。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。