Fugu-MT 論文翻訳(概要): JAF: Judge Agent Forest

論文の概要: JAF: Judge Agent Forest

arxiv url: http://arxiv.org/abs/2601.22269v1
Date: Thu, 29 Jan 2026 19:42:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-02 18:28:15.033452
Title: JAF: Judge Agent Forest
Title（参考訳）: JAF:ジャッジ・エージェント・フォレスト
Authors: Sahil Garg, Brad Cheezum, Sridhar Dutta, Vishal Agarwal,
Abstract要約: JAF:ジャッジエージェントフォレスト(JAF: Judge Agent Forest)は、判定エージェントがクエリ応答ペアのコホートを越えて共同推論を行うフレームワークである。セマンティックな埋め込みを組み込んで情報的バイナリコードを学ぶフレキシブルな局所性に敏感なハッシュアルゴリズムを開発した。我々は,大規模クラウド環境におけるクラウド構成ミストリアージの要求タスクに関する実証的研究により,JAFを検証した。
参考スコア（独自算出の注目度）: 8.150475950851359
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Judge agents are fundamental to agentic AI frameworks: they provide automated evaluation, and enable iterative self-refinement of reasoning processes. We introduce JAF: Judge Agent Forest, a framework in which the judge agent conducts joint inference across a cohort of query--response pairs generated by a primary agent, rather than evaluating each in isolation. This paradigm elevates the judge from a local evaluator to a holistic learner: by simultaneously assessing related responses, the judge discerns cross-instance patterns and inconsistencies, whose aggregate feedback enables the primary agent to improve by viewing its own outputs through the judge's collective perspective. Conceptually, JAF bridges belief propagation and ensemble-learning principles: overlapping in-context neighborhoods induce a knowledge-graph structure that facilitates propagation of critique, and repeated, randomized evaluations yield a robust ensemble of context-sensitive judgments. JAF can be instantiated entirely via ICL, with the judge prompted for each query using its associated primary-agent response plus a small, possibly noisy set of peer exemplars. While kNN in embedding space is a natural starting point for exemplars, this approach overlooks categorical structure, domain metadata, or nuanced distinctions accessible to modern LLMs. To overcome these limitations, we develop a flexible locality-sensitive hashing (LSH) algorithm that learns informative binary codes by integrating semantic embeddings, LLM-driven hash predicates, supervision from categorical labels, and relevant side information. These hash codes support efficient, interpretable, and relation-aware selection of diverse exemplars, and further optimize exploration of CoT reasoning paths. We validate JAF with an empirical study on the demanding task of cloud misconfigs triage in large-scale cloud environments.
Abstract（参考訳）: 判断エージェントはエージェントAIフレームワークの基本であり、自動評価を提供し、推論プロセスの反復的自己修正を可能にする。 JAF:ジャッジエージェントフォレスト(JAF: Judge Agent Forest)は、プライマリエージェントが生成するクエリ応答ペアのコホートをまたいだ共同推論を行うフレームワークである。このパラダイムは、裁判官を局所評価者から全体的学習者へ昇格させ、関連する応答を同時に評価することで、裁判官はクロスインスタンスパターンと不整合を識別する。文脈内近傍の重複は、批判の伝播を促進する知識グラフ構造を誘導し、繰り返しランダム化された評価は、文脈に敏感な判断の堅牢なアンサンブルをもたらす。 JAF は完全に ICL でインスタンス化でき、判事は関連するプライマリエージェント応答と、小さな、おそらくはノイズの多いピア例のセットを使用して、クエリ毎にプロンプトする。埋め込み空間におけるkNNは、経験者にとって自然な出発点であるが、このアプローチは、分類構造、ドメインメタデータ、あるいは現代のLLMにアクセスできるニュアンス付き区別を見落としている。これらの制限を克服するために、セマンティック埋め込み、LLM駆動のハッシュ述語、カテゴリラベルからの監視、関連するサイド情報を統合することで、情報的バイナリコードを学ぶ柔軟な局所性感応ハッシュ(LSH)アルゴリズムを開発した。これらのハッシュコードは、多種多様な例の効率的、解釈可能、および関係性を考慮した選択をサポートし、さらにCoT推論経路の探索を最適化する。我々は,大規模クラウド環境におけるクラウド構成ミストリアージの要求タスクに関する実証的研究により,JAFを検証した。

関連論文リスト

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文参考訳（メタデータ） (2026-03-02T04:11:18Z)
Empirical Cumulative Distribution Function Clustering for LLM-based Agent System Analysis [3.8908016393731533]
生成した応答と参照応答のコサイン類似性の経験的累積分布関数(ECDF)に基づく新しい評価フレームワークを提案する。 QAデータセットを用いた実験により、ECDFはエージェント設定を類似の最終的な精度で区別できるが、品質分布は異なることが示された。
論文参考訳（メタデータ） (2026-02-18T01:49:35Z)
Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
Revisiting Judge Decoding from First Principles via Training-Free Distributional Divergence [31.435770434219005]
ジャッジ・デコーディングは、投機的デコーディングの厳密な検証を緩和することで推論を加速する。本研究では、このパラダイムを第一原理から再考し、コストのかかる監督によって得られた臨界点のスコアが、本質的に、ドラフトターゲットの分散分散にエンコードされていることを明らかにした。
論文参考訳（メタデータ） (2026-01-08T09:34:54Z)
FeClustRE: Hierarchical Clustering and Semantic Tagging of App Features from User Reviews [0.0]
FeClustREは、ハイブリッド機能抽出、階層クラスタリング、自動チューニング、セマンティックラベリングを統合したフレームワークである。 FeClustREを,クラスタリングの品質,セマンティックコヒーレンス,解釈可能性に関するAIアシスタントアプリレビューのサンプル調査と,その正しさの抽出のための公開ベンチマークで評価した。
論文参考訳（メタデータ） (2025-10-21T16:54:21Z)
LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。 LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-10-15T07:05:17Z)
Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文参考訳（メタデータ） (2025-10-13T12:03:06Z)
Towards Open-World Retrieval-Augmented Generation on Knowledge Graph: A Multi-Agent Collaboration Framework [21.896955284099334]
大きな言語モデル(LLM)は、言語理解と推論において強力な能力を示している。 Retrieval-Augmented Generation (RAG)は、外部知識ソースを組み込むことによって、この制限に対処する。 AnchorRAGは,オープンワールドRAGのための,事前定義されたアンカーエンティティを持たない新しいマルチエージェント協調フレームワークである。
論文参考訳（メタデータ） (2025-09-01T08:26:12Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2025-05-15T14:05:15Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。