論文の概要: EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference
- arxiv url: http://arxiv.org/abs/2601.00850v1
- Date: Mon, 29 Dec 2025 14:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.787266
- Title: EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference
- Title(参考訳): EdgeJury: サーバレスエッジ推論に関する真剣な質問に対する、クロスレビューされた小さなモデルのアンサンブル
- Authors: Aayush Kumar,
- Abstract要約: EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations hinder reliable question answering, especially in resource-constrained deployments where frontier-scale models or retrieval pipelines may be impractical. We present EdgeJury, a lightweight ensemble framework that improves truthfulness and robustness using only small instruction-tuned language models (3B-8B) suitable for serverless edge inference. EdgeJury orchestrates four stages: (1) parallel role-specialized generation, (2) anonymized cross-review with structured critiques and rankings, (3) chairman synthesis that integrates the strongest content while addressing flagged issues, and (4) claim-level consistency labeling based on inter-model agreement. On TruthfulQA (MC1), EdgeJury achieves 76.2% accuracy (95% CI: 72.8-79.6%), a +21.4% relative improvement over a single 8B baseline (62.8%), and outperforms standard baselines including self-consistency and majority voting under transparent compute accounting (total tokens and platform cost reported). On a 200-question adversarial EdgeCases set, EdgeJury yields +48.2% relative gains (95% CI: 44.0-52.4%). Manual analysis on 100 incorrect answers shows an approximately 55% reduction in factual hallucination errors versus the single-model baseline. Deployed on Cloudflare Workers AI, EdgeJury achieves 8.4 s median end-to-end latency, demonstrating that coordinated small-model ensembles can improve truthfulness on misconception-heavy QA benchmarks without external retrieval or proprietary large-model APIs.
- Abstract(参考訳): 幻覚は、特にフロンティアスケールモデルや検索パイプラインが実用的でないようなリソース制約されたデプロイメントにおいて、信頼性の高い質問応答を妨げる。
We present EdgeJury, a lightweight ensemble framework that improve truthfulness and robustness using only small instruction-tuned language model (3B-8B) suitable forless edge inference。
EdgeJuryは,(1)並列な役割特化生成,(2)構造化された批判とランキングによる匿名化された相互レビュー,(3)フラグ付き問題に対処しながら最強のコンテンツを統合する議長合成,(4)モデル間合意に基づくクレームレベルの整合性ラベリングの4段階を編成する。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%(95% CI: 72.8-79.6%)で、1つの8Bベースライン(62.8%)に対して+21.4%向上し、透過的な計算会計の下での自己整合性や過半数投票など標準ベースラインを上回っている。
200-questionのEdgeCasesセットでは、EdgeJuryの相対利得は+48.2%(95% CI:44.0-52.4%)である。
誤答100件のマニュアル分析では, 単モデルベースラインに対して, 幻覚誤差が約55%減少している。
Cloudflare Workers AI上にデプロイされたEdgeJuryは、8.4秒の中央値のエンドツーエンドレイテンシを実現し、コーディネートされた小さなモデルアンサンブルが、外部検索やプロプライエタリな大規模モデルAPIを使わずに、誤解の多いQAベンチマークの真実性を向上できることを示した。
関連論文リスト
- Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - Fortytwo: Swarm Inference with Peer-Ranked Consensus [36.94429692322632]
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
論文 参考訳(メタデータ) (2025-10-27T23:19:48Z) - A Multimodal Approach to Heritage Preservation in the Context of Climate Change [0.0]
本稿では,センサデータ(温度,湿度)と視覚画像とを融合させて,遺産の重症度を予測する軽量なマルチモーダルアーキテクチャを提案する。
ストラスブール大聖堂からのデータでは、標準的なマルチモーダルアーキテクチャよりも43%向上した76.9%のアクク・レシーを達成した。
論文 参考訳(メタデータ) (2025-10-15T22:07:57Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - A Confidence-Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks [0.0]
信頼性の多様性の校正は、アクセス可能なコーディングタスクの品質評価フレームワークである。
8つの最先端のLCMから5,680のコーディング決定を分析すると、自信はモデル間の合意を密接に追跡する。
論文 参考訳(メタデータ) (2025-08-04T03:47:10Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。