論文の概要: Hijacking Context in Large Multi-modal Models
- arxiv url: http://arxiv.org/abs/2312.07553v2
- Date: Mon, 13 May 2024 10:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 00:53:00.169576
- Title: Hijacking Context in Large Multi-modal Models
- Title(参考訳): 大規模マルチモーダルモデルにおけるハイジャックコンテキスト
- Authors: Joonhyun Jeong,
- Abstract要約: そこで本研究では,ごく少数の不整合画像がLMMを誤誘導し,ハイジャックされたコンテキストに関するバイアス出力のみを発生させる,オフザシェルフLMMの新たな制限を導入する。
本稿では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。
ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連づけられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかを検討する。
- 参考スコア(独自算出の注目度): 3.6411220072843866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Large Multi-modal Models (LMMs) have demonstrated their ability to understand the visual contents of images given the instructions regarding the images. Built upon the Large Language Models (LLMs), LMMs also inherit their abilities and characteristics such as in-context learning where a coherent sequence of images and texts are given as the input prompt. However, we identify a new limitation of off-the-shelf LMMs where a small fraction of incoherent images or text descriptions mislead LMMs to only generate biased output about the hijacked context, not the originally intended context. To address this, we propose a pre-filtering method that removes irrelevant contexts via GPT-4V, based on its robustness towards distribution shift within the contexts. We further investigate whether replacing the hijacked visual and textual contexts with the correlated ones via GPT-4V and text-to-image models can help yield coherent responses.
- Abstract(参考訳): 近年,LMM (Large Multi-modal Models) は画像に関する指示から画像の視覚的内容を理解する能力を示した。
LMMはLarge Language Models (LLMs)に基づいて構築されており、入力プロンプトとして画像とテキストの一貫性のあるシーケンスが与えられるコンテキスト内学習のような能力や特徴を継承する。
しかし,本研究では,意図されたコンテキストではなく,ハイジャックされたコンテキストに関するバイアス出力のみを生成するために,少数の不整合画像やテキスト記述を誤解させるような,既製のLMMの新たな制限を特定する。
そこで本研究では,GPT-4Vによる無関係なコンテキストを除去する事前フィルタリング手法を提案する。
さらに、ハイジャックされた視覚的コンテキストとテキスト的コンテキストを、GPT-4Vおよびテキスト・ツー・イメージモデルを介して関連付けられたコンテキストに置き換えることで、コヒーレントな応答が得られるかどうかについても検討する。
関連論文リスト
- Beyond Single Frames: Can LMMs Comprehend Temporal and Contextual Narratives in Image Sequences? [32.61269125015993]
StripCipherはLMM(Large Multimodal Models)の機能を評価するために設計されたベンチマークである。
StripCipherは、人間の注釈付きデータセットと、視覚的物語理解、文脈的フレーム予測、時間的物語再構成という3つの挑戦的なサブタスクで構成されている。
GPT-4o や Qwen2.5VL など 16 ドルの最先端 LMM を評価した結果,人的能力と比較して大きな性能差がみられた。
論文 参考訳(メタデータ) (2025-02-19T18:04:44Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。