Fugu-MT 論文翻訳(概要): Routing to the Right Expertise: A Trustworthy Judge for Instruction-based Image Editing

論文の概要: Routing to the Right Expertise: A Trustworthy Judge for Instruction-based Image Editing

arxiv url: http://arxiv.org/abs/2504.07424v1
Date: Thu, 10 Apr 2025 03:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 21:37:38.808021
Title: Routing to the Right Expertise: A Trustworthy Judge for Instruction-based Image Editing
Title（参考訳）: 正しい専門家への道順:教育に基づく画像編集の信頼できる判断
Authors: Chenxi Sun, Hongzhi Zhang, Qi Wang, Fuzheng Zhang,
Abstract要約: 現在のIIE評価手法は、人間の判断と一致せず、説明性に欠けることが多い。我々はこれらの制約に対処するため、JUdgement through Routing of Expertise (JURE)を提案する。 JUREは2つの側面において信頼性が高い。まず、ルーティングされた専門家とそのフィードバックを調べることで、審査員に関する説明を徹底的に行うことができる。
参考スコア（独自算出の注目度）: 14.849899102012289
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Instruction-based Image Editing (IIE) models have made significantly improvement due to the progress of multimodal large language models (MLLMs) and diffusion models, which can understand and reason about complex editing instructions. In addition to advancing current IIE models, accurately evaluating their output has become increasingly critical and challenging. Current IIE evaluation methods and their evaluation procedures often fall short of aligning with human judgment and often lack explainability. To address these limitations, we propose JUdgement through Routing of Expertise (JURE). Each expert in JURE is a pre-selected model assumed to be equipped with an atomic expertise that can provide useful feedback to judge output, and the router dynamically routes the evaluation task of a given instruction and its output to appropriate experts, aggregating their feedback into a final judge. JURE is trustworthy in two aspects. First, it can effortlessly provide explanations about its judge by examining the routed experts and their feedback. Second, experimental results demonstrate that JURE is reliable by achieving superior alignment with human judgments, setting a new standard for automated IIE evaluation. Moreover, JURE's flexible design is future-proof - modular experts can be seamlessly replaced or expanded to accommodate advancements in IIE, maintaining consistently high evaluation quality. Our evaluation data and results are available at https://github.com/Cyyyyyrus/JURE.git.
Abstract（参考訳）: Instruction-based Image Editing (IIE) モデルは、複雑な編集命令の理解と推論が可能なマルチモーダル大言語モデル(MLLM)と拡散モデルの進歩により、大幅に改善されている。現在のIIEモデルの進歩に加えて、その出力を正確に評価することがますます重要で困難になっている。現在のIIE評価手法とその評価手順は、人間の判断と一致せず、説明性に欠けることが多い。これらの制約に対処するため、我々はJUdgement through Routing of Expertise (JURE)を提案する。 JUREの各専門家は、出力を判断するのに有用なフィードバックを提供する、原子的な専門知識を備えると仮定された事前選択されたモデルであり、ルータは与えられた命令とその出力の評価タスクを適切な専門家に動的にルーティングし、フィードバックを最終審査員に集約する。 JUREは2つの側面において信頼できる。まず、ルーティングされた専門家とそのフィードバックを調べることで、裁判官に関する説明を無駄に提供できる。第2に、JUREは人間の判断に優れた整合性を実現し、自動IIE評価のための新しい標準を設定できることを実験的に示した。さらに、JUREの柔軟な設計は将来性があり、モジュールの専門家はIIEの進歩に合わせてシームレスに置き換えたり拡張したりすることができ、高い評価品質を維持することができる。評価データと結果はhttps://github.com/Cyyyyrus/JURE.git.comで公開されています。

関連論文リスト

When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文参考訳（メタデータ） (2025-08-05T01:42:25Z)
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。 3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文参考訳（メタデータ） (2025-04-21T17:33:23Z)
AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models [3.092385483349516]
本稿では、AI審査員のレーティングが人間の専門家のレーティングと一致するかどうかを判断する厳密な統計枠組みを提案する。この枠組みを,VLMに基づく4人の審査員を主要な設計基準で評価するケーススタディに適用する。その結果,トップパフォーマンスのAI審査員は,一意性や描画品質に関する専門家レベルの合意を達成できることがわかった。
論文参考訳（メタデータ） (2025-04-01T16:20:29Z)
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [13.957207630090064]
ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。 ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。 ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文参考訳（メタデータ） (2025-03-09T10:55:51Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文参考訳（メタデータ） (2024-12-17T19:04:15Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。 I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文参考訳（メタデータ） (2024-08-26T11:08:44Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。