Fugu-MT 論文翻訳(概要): ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis

論文の概要: ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis

arxiv url: http://arxiv.org/abs/2404.10141v1
Date: Mon, 15 Apr 2024 21:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:51:25.398352
Title: ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis
Title（参考訳）: ANCHOR: テキスト・画像合成のためのLLM駆動ニューズ・サブジェクト・コンディショニング
Authors: Aashish Anantha Ramakrishnan, Sharon X. Huang, Dongwon Lee,
Abstract要約: 我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
参考スコア（独自算出の注目度）: 6.066100464517522
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-Image (T2I) Synthesis has made tremendous strides in enhancing synthesized image quality, but current datasets evaluate model performance only on descriptive, instruction-based prompts. Real-world news image captions take a more pragmatic approach, providing high-level situational and Named-Entity (NE) information and limited physical object descriptions, making them abstractive. To evaluate the ability of T2I models to capture intended subjects from news captions, we introduce the Abstractive News Captions with High-level cOntext Representation (ANCHOR) dataset, containing 70K+ samples sourced from 5 different news media organizations. With Large Language Models (LLM) achieving success in language and commonsense reasoning tasks, we explore the ability of different LLMs to identify and understand key subjects from abstractive captions. Our proposed method Subject-Aware Finetuning (SAFE), selects and enhances the representation of key subjects in synthesized images by leveraging LLM-generated subject weights. It also adapts to the domain distribution of news images and captions through custom Domain Fine-tuning, outperforming current T2I baselines on ANCHOR. By launching the ANCHOR dataset, we hope to motivate research in furthering the Natural Language Understanding (NLU) capabilities of T2I models.
Abstract（参考訳）: テキスト・トゥ・イメージ(T2I)合成は、合成画像の品質向上に大きく貢献しているが、現在のデータセットは、記述的、命令ベースのプロンプトにのみモデル性能を評価する。実世界のニュース画像キャプションは、より現実的なアプローチをとり、高レベルな状況と名前付きエンティティ(NE)情報と限定された物理的オブジェクト記述を提供し、それらを抽象的にする。ニュースキャプションから対象物を抽出するT2Iモデルの有効性を評価するために,5つの異なるニュースメディア組織から得られた70K以上のサンプルを含む,高レベルcOntext Representation (ANCHOR)データセットを用いた抽象ニュースキャプションを導入した。本稿では,Large Language Models (LLM) が言語および常識推論タスクで成功を収めることによって,LLMが抽象的なキャプションから重要な主題を識別し,理解する能力について考察する。提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。 ANCHORデータセットをローンチすることで、T2Iモデルの自然言語理解(NLU)機能を強化する研究を動機付けたいと思っています。

関連論文リスト

Can Generated Images Serve as a Viable Modality for Text-Centric Multimodal Learning? [3.966028515034415]
本研究は,テキスト・トゥ・イメージ(T2I)モデルにより生成した画像が,テキスト中心のタスクにおいて重要な相補的モダリティとして機能するかどうかを体系的に検討する。
論文参考訳（メタデータ） (2025-06-21T07:32:09Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
Is Your Text-to-Image Model Robust to Caption Noise? [38.19377765665836]
テキスト・トゥ・イメージ(T2I)生成では、画像再カプセル化に視覚言語モデル(VLM)を用いることが一般的である。 VLMは幻覚を示すことで知られており、視覚的現実から逸脱する記述的内容を生成するが、そのような字幕幻覚がT2I世代のパフォーマンスに与える影響は未解明のままである。
論文参考訳（メタデータ） (2024-12-27T08:53:37Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。 SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文参考訳（メタデータ） (2024-03-11T17:35:33Z)
EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning [55.033327333250455]
ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。現在のMLLM(Multimodal Large Language Models)は、ニュース画像キャプションタスクのエンティティ情報を扱う場合に制限がある。提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
論文参考訳（メタデータ） (2024-02-29T18:03:00Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
Mini-DALLE3: Interactive Text to Image by Prompting Large Language Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文参考訳（メタデータ） (2023-10-11T16:53:40Z)
"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning [40.01197694624958]
我々は,One For All(OFA)モデルに基づく新しい統合ビジョンランゲージ(VL)モデルを提案する。我々のアプローチは、既存のアプローチの文脈に依存しない(画像とテキストは独立して扱われる)性質を克服することを目的としています。本システムは,ベンチマークニュース画像キャプションデータセットにおいて,最大8.34CIDErのスコアを向上し,最先端の結果を達成している。
論文参考訳（メタデータ） (2023-06-01T17:34:25Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [6.066100464517522]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文参考訳（メタデータ） (2023-01-05T17:19:01Z)
Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文参考訳（メタデータ） (2022-09-25T22:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。