論文の概要: Flex-Judge: Think Once, Judge Anywhere
- arxiv url: http://arxiv.org/abs/2505.18601v1
- Date: Sat, 24 May 2025 08:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.535296
- Title: Flex-Judge: Think Once, Judge Anywhere
- Title(参考訳): Flex-Judge: 一度考えて、どこかで判断する
- Authors: Jongwoo Ko, Sungnyun Kim, Sungwoo Cho, Se-Young Yun,
- Abstract要約: Flex-Judgeは、最小のテキスト推論データを利用する推論誘導マルチモーダル判断モデルである。
我々のフレームワークは、従来のアノテーション集約アプローチに代わる強力で費用対効果の高いテキスト管理手法として、推論ベースのテキスト管理を強調している。
- 参考スコア(独自算出の注目度): 27.933608424893084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-generated reward signals are critical for aligning generative models with human preferences, guiding both training and inference-time evaluations. While large language models (LLMs) employed as proxy evaluators, i.e., LLM-as-a-Judge, significantly reduce the costs associated with manual annotations, they typically require extensive modality-specific training data and fail to generalize well across diverse multimodal tasks. In this paper, we propose Flex-Judge, a reasoning-guided multimodal judge model that leverages minimal textual reasoning data to robustly generalize across multiple modalities and evaluation formats. Our core intuition is that structured textual reasoning explanations inherently encode generalizable decision-making patterns, enabling an effective transfer to multimodal judgments, e.g., with images or videos. Empirical results demonstrate that Flex-Judge, despite being trained on significantly fewer text data, achieves competitive or superior performance compared to state-of-the-art commercial APIs and extensively trained multimodal evaluators. Notably, Flex-Judge presents broad impact in modalities like molecule, where comprehensive evaluation benchmarks are scarce, underscoring its practical value in resource-constrained domains. Our framework highlights reasoning-based text supervision as a powerful, cost-effective alternative to traditional annotation-intensive approaches, substantially advancing scalable multimodal model-as-a-judge.
- Abstract(参考訳): 人為的な報酬信号は、生成モデルと人間の嗜好を一致させ、トレーニングと推論時間の評価の両方を導くのに重要である。
大規模言語モデル (LLM) は代用評価器、すなわち LLM-as-a-Judge として採用され、手動アノテーションに関連するコストを大幅に削減するが、一般的には様々なマルチモーダルタスクにまたがる広範囲なモダリティ固有のトレーニングデータを必要とする。
本稿では,複数のモダリティと評価形式をまたいだ堅牢な一般化を実現するために,最小テキスト推論データを活用する推論誘導型マルチモーダル判断モデルFlex-Judgeを提案する。
我々の中核的な直感は、構造化されたテキスト推論の説明が本質的に一般化可能な意思決定パターンを符号化し、画像やビデオによるマルチモーダル判断への効果的な転送を可能にすることである。
実証的な結果は、Flex-Judgeが、テキストデータを大幅に少なく訓練されているにもかかわらず、最先端の商用APIや広範囲に訓練されたマルチモーダル評価ツールと比較して、競争力や優れたパフォーマンスを実現していることを示している。
特に、Flex-Judgeは、包括的な評価ベンチマークが不足している分子のようなモダリティに大きな影響を与え、リソース制約のあるドメインにおけるその実践的価値を強調します。
我々のフレームワークは、従来のアノテーション集約アプローチに代わる強力で費用対効果の高い代替手段として、推論ベースのテキスト管理を強調し、拡張性のあるマルチモーダル・モデル・アズ・ア・ジャッジを著しく前進させます。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。
我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文 参考訳(メタデータ) (2024-12-17T19:04:15Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。