論文の概要: Modeling Image-Caption Rating from Comparative Judgments
- arxiv url: http://arxiv.org/abs/2602.00381v1
- Date: Fri, 30 Jan 2026 23:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.147906
- Title: Modeling Image-Caption Rating from Comparative Judgments
- Title(参考訳): 比較判断による画像キャプションレーティングのモデル化
- Authors: Kezia Minni, Qiang Zhang, Monoshiz Mahbub Khan, Zhe Yu,
- Abstract要約: 直接評価ではなく,このような比較判断をモデル化する機械学習フレームワークを提案する。
モデルを適用することで、直接評価に基づいてトレーニングされた回帰モデルと同じ方法で、目に見えない画像キャプチャペアをランク付けすることができる。
- 参考スコア(独自算出の注目度): 8.460083530922931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rating the accuracy of captions in describing images is time-consuming and subjective for humans. In contrast, it is often easier for people to compare two captions and decide which one better matches a given image. In this work, we propose a machine learning framework that models such comparative judgments instead of direct ratings. The model can then be applied to rank unseen image-caption pairs in the same way as a regression model trained on direct ratings. Using the VICR dataset, we extract visual features with ResNet-50 and text features with MiniLM, then train both a regression model and a comparative learning model. While the regression model achieves better performance (Pearson's $ρ$: 0.7609 and Spearman's $r_s$: 0.7089), the comparative learning model steadily improves with more data and approaches the regression baseline. In addition, a small-scale human evaluation study comparing absolute rating, pairwise comparison, and same-image comparison shows that comparative annotation yields faster results and has greater agreement among human annotators. These results suggest that comparative learning can effectively model human preferences while significantly reducing the cost of human annotations.
- Abstract(参考訳): 画像の記述におけるキャプションの精度を評価することは、人間にとって時間がかかり、主観的である。
対照的に、2つのキャプションを比較して、どのキャプションが良いかを決めるのは、しばしば容易である。
本研究では,直接評価ではなく,比較判断をモデル化する機械学習フレームワークを提案する。
モデルを適用することで、直接評価に基づいてトレーニングされた回帰モデルと同じ方法で、目に見えない画像キャプチャペアをランク付けすることができる。
VICRデータセットを用いて、ResNet-50とMiniLMで視覚的特徴を抽出し、回帰モデルと比較学習モデルの両方を訓練する。
回帰モデルはより良いパフォーマンスを達成する(ピアソンの$ρ$: 0.7609 とスピアマンの $r_s$: 0.7089)が、比較学習モデルはより多くのデータで着実に改善され、回帰ベースラインに近づく。
さらに, 絶対評価, 対比較, 同一画像比較を比較した小規模人間評価研究により, 比較アノテーションはより高速な結果を示し, 人体アノテータ間でより一致していることが示された。
これらの結果は、比較学習が人間の嗜好を効果的にモデル化し、人間のアノテーションのコストを大幅に削減できることを示している。
関連論文リスト
- Modeling Art Evaluations from Comparative Judgments: A Deep Learning Approach to Predicting Aesthetic Preferences [1.839031891198526]
比較判断法は、相対的な選択は直接的な得点よりも認知的負担と認知的一貫性が低いことを示唆している。
我々は、ディープニューラルネットワーク回帰モデルとデュアルブランチペアワイズ比較モデルを開発する。
人間の被験者による実験では、比較判断はアイテムあたりのアノテーション時間に60ドルもかからないことがわかった。
論文 参考訳(メタデータ) (2026-01-30T23:13:06Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - Spuriosity Rankings: Sorting Data to Measure and Mitigate Biases [62.54519787811138]
本稿では,突発的手がかりに依存したモデルバイアスを簡易かつ効果的に測定・緩和する手法を提案する。
我々は,解釈可能なネットワークの深部神経的特徴をベースとして,それらのクラス内の画像のランク付けを行う。
以上の結果から,素早い特徴依存によるモデルバイアスは,モデルがどのようにトレーニングされたかよりも,モデルがトレーニングされていることの影響がはるかに大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-05T23:15:43Z) - Content-Diverse Comparisons improve IQA [23.523537785599913]
画像品質評価(IQA)は人間にとって自然な作業であり、しばしば簡単な作業となるが、タスクの効果的な自動化は依然として困難である。
ディープラーニングコミュニティの最近のメトリクスは、トレーニング中のイメージペアを比較して、PSNRやSSIMといった従来のメトリクスを改善するのが一般的です。
これにより、トレーニング中にモデルが露出する画像ペアの多様性と数を制限する。
本稿では、これらの比較とコンテンツ多様性の強化に努め、まず、比較制約を緩和し、画像のペアを異なるコンテンツと比較する。
論文 参考訳(メタデータ) (2022-11-09T21:53:13Z) - A Relational Model for One-Shot Classification [80.77724423309184]
インダクティブバイアスを組み込んだディープラーニングモデルは,広範なデータ拡張に頼ることなく,サンプル効率のよい学習にメリットをもたらすことを示す。
提案するワンショット分類モデルは,一対の入力を局所的および対的注意の形で関係マッチングする。
論文 参考訳(メタデータ) (2021-11-08T07:53:12Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。