論文の概要: Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds
- arxiv url: http://arxiv.org/abs/2604.11104v1
- Date: Mon, 13 Apr 2026 07:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.393968
- Title: Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds
- Title(参考訳): 局所LLMを用いたFrugal Knowledge Graph構築:ゼロショットパイプライン,自己整合性,人工群衆の知恵
- Authors: Pierre Jourlin,
- Abstract要約: 本稿では,知識グラフ構築と活用のためのゼロショットパイプラインの実証的研究について述べる。
外部ベンチマーク(DocRED、HotpotQA)、WebQuestionsSPスタイルの合成データ、RAGAS評価フレームワークを自動パイプラインに統合する。
文書レベルの関係では, ゼロショットで0.70$pm$0.041のF1を達成するのに対し, 教師付きDREEAMでは0.80となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an empirical study of a multi-model zero-shot pipeline for knowledge graph construction and exploitation, executed entirely through local inference on consumer-grade hardware. We propose a reproducible evaluation framework integrating two external benchmarks (DocRED, HotpotQA), WebQuestionsSP-style synthetic data, and the RAGAS evaluation framework in an automated pipeline. On 500 document-level relations, our system achieves an F1 of 0.70 $\pm$ 0.041 in zero-shot, compared to 0.80 for supervised DREEAM. Text-to-query achieves an accuracy of 0.80 $\pm$ 0.06 on 200 samples. Multi-hop reasoning achieves an Exact Match (EM) of 0.46$\pm$0.04 on 500 HotpotQA questions, with a RAGAS faithfulness of 0.96 $\pm$ 0.04 on 50 samples. Beyond the pipeline, we study diversity mechanisms for difficult multi-hop reasoning. On 181 questions unsolvable at zero temperature, self-consistency (k=5, T =0.7) recovers up to 23% EM with a single Mixture-of-Experts (MoE) model, but the cross-model oracle (3 architectures x 5 samples) reaches 46.4%. We highlight an agreement paradox: strong consensus among samples signals collective hallucination rather than a reliable answer, echoing the work of Moussa{ï}d et al. on the wisdom of crowds. Extending to the full pipeline (500 questions), self-consistency (k=3) raises EM from 0.46 to 0.48 $\pm$ 0.04. A confidence-routing cascade mechanism (Phi-4 $\rightarrow$ GPT-OSS, k=5) achieves an EM of 0.55 $\pm$ 0.04, the best result obtained, with 45.4% of questions rerouted. Finally, we show that V3 prompt engineering applied to other models does not reproduce the gains observed with Gemma-4, confirming the specific prompt/model interaction. The entire system runs in $\sim$5 h on a single RTX 3090, without any training, for an estimated carbon footprint of 0.09 kg CO2 eq.
- Abstract(参考訳): 本稿では,知識グラフ構築と活用のためのマルチモデルゼロショットパイプラインの実証的研究について述べる。
本稿では、2つの外部ベンチマーク(DocRED, HotpotQA)、WebQuestionsSPスタイルの合成データ、自動パイプラインにおけるRAGAS評価フレームワークを統合する再現性評価フレームワークを提案する。
また,500の文書レベルの関係では0ショットで0.70$\pm$0.041のF1を達成するのに対し,教師付きDREEAMでは0.80である。
テキスト・ツー・クエリは200サンプルに対して0.80$\pm$ 0.06の精度を達成する。
マルチホップ推論は500 HotpotQAの質問に対して0.46$\pm$0.04のエクサクトマッチ(EM)を達成する。
パイプラインの向こうでは、難しいマルチホップ推論のための多様性メカニズムについて研究している。
ゼロ温度では解けない181の質問では、自己整合性(k=5, T=0.7)は単一のMixture-of-Experts (MoE)モデルで最大23%のEMを回復するが、クロスモデルオラクル(3つのアーキテクチャ x 5 サンプル)は46.4%に達する。
我々は,合意のパラドックスを強調した: 標本間の強い合意は,群衆の知恵に基づいて,Moussa{a}d et alの業績を反映して,信頼性の高い回答よりも集団幻覚を示唆する。
完全なパイプライン(500の質問)に拡張することで、自己整合性(k=3)はEMを0.46から0.48$\pm$ 0.04に引き上げる。
自信に満ちたカスケード機構(Phi-4 $\rightarrow$ GPT-OSS, k=5)は0.55$\pm$ 0.04のEMを得る。
最後に、他のモデルに適用したV3プロンプトエンジニアリングはGemma-4で観測されたゲインを再現せず、特定のプロンプト/モデル相互作用を確認していることを示す。
全システムは1つのRTX 3090で$\sim$5 hで動作し、炭素フットプリントは0.09 kg CO2 eqと見積もられている。
関連論文リスト
- Topological Characterization of Churn Flow and Unsupervised Correction to the Wu Flow-Regime Map in Small-Diameter Vertical Pipes [0.0]
特徴曲面(ECS)を用いた最初のトポロジに基づく特徴評価手法を提案する。
この研究はチャーンフローの最初の数学的定義を提供し、教師なしトポロジカル記述子は機械学的なモデルに挑戦し修正できることを示した。
論文 参考訳(メタデータ) (2026-04-07T17:59:15Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines [0.0]
マルチエージェントLLMパイプラインは、チームの多様性がアウトプット品質を改善するかどうかという矛盾した証拠を生み出します。
多様性が役に立つか傷つくかを判断する選択ボトルネックを特定することで解決法を提案する。
この結果から, セレクタの品質は, 単ラウンドジェネレータ選択パイプラインにおけるジェネレータの多様性よりも, より影響の高い設計レバーである可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-20T00:50:53Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge [8.50639201265868]
EvasionBenchを紹介します。3万のトレーニングサンプルと1,000人の人手によるテストサンプルで構成されています。
2つの強いアノテータが衝突し、審査員がラベルを解消する境界ケースを抽出する。
トレーニングされたモデルEva-4B(4Bパラメータ)は81.3%の精度でベースを25ポイント上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:26:43Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning [46.81869577197105]
A$2$Searchはアノテーションのないエンドツーエンドのトレーニングフレームワークで、曖昧さを認識し、扱います。
8つのオープンドメインQAベンチマークの実験では、A$2$Searchが新しい最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-09T08:53:31Z) - IGNIS: A Robust Neural Network Framework for Constrained Parameter Estimation in Archimedean Copulas [0.0]
textbfIGNISは、データ駆動依存度からパラメータtheta$への直接的なロバストなマッピングを学習することで障壁をサイドステップする統合ニューラルネットワーク推定フレームワークである。
4つのファミリー(Gumbel、Joe、そして数値的に難しいA1/A2)でトレーニングされ、検証されたIGNISは、現実世界の財務および健康のデータセットに対して正確で安定した見積もりを提供する。
論文 参考訳(メタデータ) (2025-05-28T16:04:17Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。