Fugu-MT 論文翻訳(概要): Hijacking Context in Large Multi-modal Models

論文の概要: Hijacking Context in Large Multi-modal Models

arxiv url: http://arxiv.org/abs/2312.07553v1
Date: Thu, 7 Dec 2023 11:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 14:36:10.308677
Title: Hijacking Context in Large Multi-modal Models
Title（参考訳）: 大規模マルチモーダルモデルにおけるハイジャックコンテキスト
Authors: Joonhyun Jeong
Abstract要約: そこで本研究では,ごく少数の不整合画像がLMMを誤誘導し,ハイジャックされたコンテキストに関するバイアス出力のみを発生させる,オフザシェルフLMMの新たな制限を導入する。本稿では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連づけられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかを検討する。
参考スコア（独自算出の注目度）: 3.6411220072843866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, Large Multi-modal Models (LMMs) have demonstrated their ability to understand the visual contents of images given the instructions regarding the images. Built upon the Large Language Models (LLMs), LMMs also inherit their abilities and characteristics such as in-context learning where a coherent sequence of images and texts are given as the input prompt. However, we identify a new limitation of off-the-shelf LMMs where a small fraction of incoherent images or text descriptions mislead LMMs to only generate biased output about the hijacked context, not the originally intended context. To address this, we propose a pre-filtering method that removes irrelevant contexts via GPT-4V, based on its robustness towards distribution shift within the contexts. We further investigate whether replacing the hijacked visual and textual contexts with the correlated ones via GPT-4V and text-to-image models can help yield coherent responses.
Abstract（参考訳）: 近年,LMM (Large Multi-modal Models) は画像に関する指示から画像の視覚的内容を理解する能力を示した。 LMMはLarge Language Models (LLMs)に基づいて構築されており、入力プロンプトとして画像とテキストの一貫性のあるシーケンスが与えられるコンテキスト内学習のような能力や特徴を継承する。しかし,本研究では,意図されたコンテキストではなく,ハイジャックされたコンテキストに関するバイアス出力のみを生成するために,少数の不整合画像やテキスト記述を誤解させるような,既製のLMMの新たな制限を特定する。そこで本研究では,gpt-4vを介した無関係なコンテキストを,コンテキスト内の分布シフトに対するロバスト性に基づいて除去するプリフィルタ手法を提案する。さらに,gpt-4vとテキスト・ツー・イメージモデルを用いて,ハイジャックされた視覚とテキストのコンテキストを関連づけたコンテキストに置き換えることにより,コヒーレントな応答が得られるかどうかについても検討する。

関連論文リスト

Multimodal RAG Enhanced Visual Description [3.2771631221674333]
事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。 2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
論文参考訳（メタデータ） (2025-08-06T19:04:38Z)
Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression [2.9998889086656586]
本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
論文参考訳（メタデータ） (2025-07-20T15:05:24Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
Aligning Vision to Language: Text-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文参考訳（メタデータ） (2025-03-17T09:31:14Z)
Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。 StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。 GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文参考訳（メタデータ） (2025-02-19T18:04:44Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Debias your Large Multi-Modal Model at Test-Time with Non-Contrastive Visual Attribute Steering [7.471995248769638]
大規模マルチモーダルモデル(LMM)のための新しいデバイアス化フレームワークを提案する。提案手法は,1つの画像と対象属性のリストが与えられた場合,画像自体の勾配降下の1ステップで対応する表現をアブレーションすることができる。我々の実験は、LMMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、感情を改善し、単に合成データを使ってアブレーションを知らせることさえできることを示した。
論文参考訳（メタデータ） (2024-11-15T20:06:09Z)
EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文参考訳（メタデータ） (2024-10-23T12:12:56Z)
MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-08-26T19:26:50Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文参考訳（メタデータ） (2023-09-23T17:07:54Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。