Fugu-MT 論文翻訳(概要): RONA: Pragmatically Diverse Image Captioning with Coherence Relations

論文の概要: RONA: Pragmatically Diverse Image Captioning with Coherence Relations

arxiv url: http://arxiv.org/abs/2503.10997v1
Date: Fri, 14 Mar 2025 01:45:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.126985
Title: RONA: Pragmatically Diverse Image Captioning with Coherence Relations
Title（参考訳）: RONA:コヒーレンス関係による現実的な横画像キャプション
Authors: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee,
Abstract要約: RONAはマルチモーダル大規模言語モデルのための新しいプロンプト戦略である。 ronAは, 全体的な多様性と地道整合性を向上したキャプションを生成することを示した。
参考スコア（独自算出の注目度）: 5.246809683975664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Writing Assistants (e.g., Grammarly, Microsoft Copilot) traditionally generate diverse image captions by employing syntactic and semantic variations to describe image components. However, human-written captions prioritize conveying a central message alongside visual descriptions using pragmatic cues. To enhance pragmatic diversity, it is essential to explore alternative ways of communicating these messages in conjunction with visual content. To address this challenge, we propose RONA, a novel prompting strategy for Multi-modal Large Language Models (MLLM) that leverages Coherence Relations as an axis for variation. We demonstrate that RONA generates captions with better overall diversity and ground-truth alignment, compared to MLLM baselines across multiple domains. Our code is available at: https://github.com/aashish2000/RONA
Abstract（参考訳）: アシスタントを書く(例:Grammarly、Microsoft Copilot) 伝統的に、イメージコンポーネントを記述するために構文的および意味的なバリエーションを使用することで、多様なイメージキャプションを生成する。しかし、人書きのキャプションは、実用的手がかりを用いた視覚的記述と並行して、中心的なメッセージを伝えることを優先している。実用的多様性を高めるためには、これらのメッセージと視覚的コンテンツとの通信方法を検討することが不可欠である。この課題に対処するために,コヒーレンス関係を変動軸として活用するMLLM(Multi-modal Large Language Models)の新たな促進戦略であるRONAを提案する。本研究では,複数の領域にまたがるMLLMベースラインと比較して,全体的な多様性と地道整合性に優れたキャプションを生成することを示した。私たちのコードは、https://github.com/aashish2000/RONAで利用可能です。

関連論文リスト

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
OmniCaptioner: One Captioner to Rule Them All [33.983871557323226]
細かなテキスト記述を生成するための多目的視覚キャプションフレームワークを提案する。低レベルのピクセル情報を意味的にリッチなテキスト表現に変換することで、われわれのフレームワークは視覚とテキストのモダリティのギャップを埋める。 OmniCaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新たな視点を提供することができると信じています。
論文参考訳（メタデータ） (2025-04-09T17:58:58Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文参考訳（メタデータ） (2024-05-18T07:21:12Z)
Caption Anything: Interactive Image Description with Diverse Multimodal Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。 Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文参考訳（メタデータ） (2023-05-04T09:48:22Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)
MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning [46.4308182215488]
テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
論文参考訳（メタデータ） (2021-12-13T11:00:49Z)
Exploring Explicit and Implicit Visual Relationships for Image Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文参考訳（メタデータ） (2021-05-06T01:47:51Z)
Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。 12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文参考訳（メタデータ） (2020-12-30T09:11:50Z)
Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文参考訳（メタデータ） (2020-10-08T09:17:55Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。