論文の概要: Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered
- arxiv url: http://arxiv.org/abs/2603.00643v1
- Date: Sat, 28 Feb 2026 13:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.306106
- Title: Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered
- Title(参考訳): 位置: ビジュアル処理の評価は人間中心で、メトリック中心ではない
- Authors: Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu,
- Abstract要約: このポジションペーパーでは、現代の視覚処理システムの評価は、主にシングルメトリック画像品質評価ベンチマークによって行われるべきではないと論じている。
この論文は、メトリクスを完全に拒絶するのではなく、より人間中心でコンテキストを認識し、視覚モデルの結果を評価するためのきめ細かいアプローチを提唱する評価パラダイムの再バランスを訴える。
- 参考スコア(独自算出の注目度): 34.408989226550176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This position paper argues that the evaluation of modern visual processing systems should no longer be driven primarily by single-metric image quality assessment benchmarks, particularly in the era of generative and perception-oriented methods. Image restoration exemplifies this divergence: while objective IQA metrics enable reproducible, scalable evaluation, they have increasingly drifted apart from human perception and user preferences. We contend that this mismatch risks constraining innovation and misguiding research progress across visual processing tasks. Rather than rejecting metrics altogether, this paper calls for a rebalancing of evaluation paradigms, advocating a more human-centered, context-aware, and fine-grained approach to assessing the visual models' outcomes.
- Abstract(参考訳): 本稿では、現代の視覚処理システムの評価は、特に生成的・知覚的手法の時代において、主にシングルメトリック画像品質評価ベンチマークによって行われてはならないと論じる。
客観的IQAメトリクスは再現可能でスケーラブルな評価を可能にするが、人間の知覚やユーザの嗜好とはかけ離れている。
このミスマッチは、イノベーションを制約し、視覚処理タスクにおける研究の進歩を誤解させるリスクがある、と我々は主張する。
この論文は、メトリクスを完全に拒絶するのではなく、より人間中心でコンテキストを認識し、視覚モデルの結果を評価するためのきめ細かいアプローチを提唱する評価パラダイムの再バランスを訴える。
関連論文リスト
- Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach [0.0]
本稿では,人間の判断による結論の信頼性と妥当性を向上させるため,心理測定レーダモデルをAIパイプラインに統合する。
本研究では, レーダ重大度に対する調整が, 要約品質の補正された推定値をいかに生み出すかを示す。
この視点は、AI開発と評価のためのより堅牢で解釈可能な、構成整合したプラクティスへの道のりを強調している。
論文 参考訳(メタデータ) (2026-02-26T03:35:36Z) - Beyond Static Evaluation: Rethinking the Assessment of Personalized Agent Adaptability in Information Retrieval [12.058221341033835]
適応型パーソナライゼーションにおける評価を再考するための概念レンズを提案する。
このレンズは,(1)時間的に進化する嗜好モデルを用いたペルソナベースユーザシミュレーション,(2)参照インタビューに触発されてコンテキスト内での嗜好を抽出する構造化エリケーションプロトコル,(3)エージェントの行動がセッションやタスク間でどのように改善されるかを測定する適応型評価メカニズムの3つを中心に構成されている。
論文 参考訳(メタデータ) (2025-10-05T00:35:37Z) - A Picture is Worth a Thousand Prompts? Efficacy of Iterative Human-Driven Prompt Refinement in Image Regeneration Tasks [1.8563642867160601]
AI生成画像の作成はしばしば、望ましい視覚的な結果を達成するために、入力プロンプトを反復的に精細化する。
この研究は、AIを用いた画像再生という比較的未解明の概念に焦点を当てている。
本稿では,反復的プロンプトリファインメントが,再生画像の目標に対する類似性にどのように影響するかを,構造化されたユーザスタディで評価する。
論文 参考訳(メタデータ) (2025-04-29T01:21:16Z) - Towards Automatic Evaluation for Image Transcreation [52.71090829502756]
本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。
画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
論文 参考訳(メタデータ) (2024-12-18T10:55:58Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Pros and Cons of GAN Evaluation Measures: New Developments [53.10151901863263]
この作品は、数年前に発表された同じトピックに関する以前の論文の更新です。
モデル評価において重要になっている新しい次元について述べ、GAN評価とディープフェイクの関係について論じる。
論文 参考訳(メタデータ) (2021-03-17T01:48:34Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。