論文の概要: Towards Automatic Evaluation for Image Transcreation
- arxiv url: http://arxiv.org/abs/2412.13717v2
- Date: Fri, 10 Jan 2025 04:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:31.949337
- Title: Towards Automatic Evaluation for Image Transcreation
- Title(参考訳): 画像レクリエーションのための自動評価に向けて
- Authors: Simran Khanuja, Vivek Iyer, Claire He, Graham Neubig,
- Abstract要約: 本稿では,機械翻訳(MT)メトリクスにインスパイアされた自動評価指標群を提案する。
画像トランスクリエーションの3つの重要な側面として,文化的関連性,意味的等価性,視覚的類似性を挙げる。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
- 参考スコア(独自算出の注目度): 52.71090829502756
- License:
- Abstract: Beyond conventional paradigms of translating speech and text, recently, there has been interest in automated transcreation of images to facilitate localization of visual content across different cultures. Attempts to define this as a formal Machine Learning (ML) problem have been impeded by the lack of automatic evaluation mechanisms, with previous work relying solely on human evaluation. In this paper, we seek to close this gap by proposing a suite of automatic evaluation metrics inspired by machine translation (MT) metrics, categorized into: a) Object-based, b) Embedding-based, and c) VLM-based. Drawing on theories from translation studies and real-world transcreation practices, we identify three critical dimensions of image transcreation: cultural relevance, semantic equivalence and visual similarity, and design our metrics to evaluate systems along these axes. Our results show that proprietary VLMs best identify cultural relevance and semantic equivalence, while vision-encoder representations are adept at measuring visual similarity. Meta-evaluation across 7 countries shows our metrics agree strongly with human ratings, with average segment-level correlations ranging from 0.55-0.87. Finally, through a discussion of the merits and demerits of each metric, we offer a robust framework for automated image transcreation evaluation, grounded in both theoretical foundations and practical application. Our code can be found here: https://github.com/simran-khanuja/automatic-eval-transcreation
- Abstract(参考訳): 音声とテキストを翻訳する従来のパラダイム以外にも、近年、さまざまな文化にまたがる視覚的コンテンツのローカライゼーションを促進するために、画像の自動トランスクリエーションへの関心が高まっている。
これを正式な機械学習(ML)問題として定義しようとする試みは、自動評価機構の欠如によって妨げられている。
本稿では,機械翻訳(MT)メトリクスにインスパイアされた,一連の自動評価指標を提案することにより,このギャップを埋めようとしている。
a) オブジェクトベース、
b) 埋め込みベース,及び
c) VLM ベース。
翻訳研究と実世界におけるトランスクリエーションの実践からの理論に基づいて、文化的関連性、意味的等価性、視覚的類似性という3つの重要なイメージトランスクリエーションの次元を特定し、これらの軸に沿ったシステムを評価するためにメトリクスを設計する。
この結果から,視覚エンコーダの表現は視覚的類似度を測定するのに有効であるのに対し,プロプライエタリなVLMは文化的関連性と意味的等価性を最もよく認識していることがわかった。
7か国にわたるメタ評価は、我々の指標が人間の評価と強く一致していることを示し、平均セグメントレベルの相関は0.55~0.87である。
最後に,各メトリクスのメリットとデメリットについて議論し,理論的基礎と実用的応用の両面から,自動画像トランスクリエーション評価のための堅牢なフレームワークを提供する。
https://github.com/simran-khanuja/automatic-eval-transcreation
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images [0.7499722271664147]
GLIPS(Global-Local Image Perceptual Score)は、AI生成画像の写実的画像品質を評価するために設計された画像メトリクスである。
様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-15T15:19:23Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - Evaluating MT Systems: A Theoretical Framework [0.0]
本稿では,機械翻訳システムの評価のために,異なる自動メトリクスを設計できる理論的枠組みを概説する。
認識の容易さの概念は、共感の適切さと流感の欠如に依存している。
また、音声から音声への翻訳や談話の翻訳など、新しいタイプのMTシステムを評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-02-11T18:05:17Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。