論文の概要: NeIn: Telling What You Don't Want
- arxiv url: http://arxiv.org/abs/2409.06481v1
- Date: Mon, 9 Sep 2024 04:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:48:44.197912
- Title: NeIn: Telling What You Don't Want
- Title(参考訳): NeIn: 望まないことを伝える
- Authors: Nhat-Tan Bui, Dinh-Hieu Hoang, Quoc-Huy Trinh, Minh-Triet Tran, Truong Nguyen, Susan Gauch,
- Abstract要約: 否定は、人間が望まない情報を伝達するために使用する基本的な言語概念である。
人間のレベルの知性を達成するための障壁の1つは、否定の研究を評価するための標準収集の欠如である。
本稿では,視覚言語領域内の否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。
- 参考スコア(独自算出の注目度): 6.666707176043472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Negation is a fundamental linguistic concept used by humans to convey information that they do not desire. Despite this, there has been minimal research specifically focused on negation within vision-language tasks. This lack of research means that vision-language models (VLMs) may struggle to understand negation, implying that they struggle to provide accurate results. One barrier to achieving human-level intelligence is the lack of a standard collection by which research into negation can be evaluated. This paper presents the first large-scale dataset, Negative Instruction (NeIn), for studying negation within the vision-language domain. Our dataset comprises 530,694 quadruples, i.e., source image, original caption, negative sentence, and target image in total, including 495,694 queries for training and 35,000 queries for benchmarking across multiple vision-language tasks. Specifically, we automatically generate NeIn based on a large, existing vision-language dataset, MS-COCO, via two steps: generation and filtering. During the generation phase, we leverage two VLMs, BLIP and MagicBrush, to generate the target image and a negative clause that expresses the content of the source image. In the subsequent filtering phase, we apply BLIP to remove erroneous samples. Additionally, we introduce an evaluation protocol for negation understanding of image editing models. Extensive experiments using our dataset across multiple VLMs for instruction-based image editing tasks demonstrate that even recent state-of-the-art VLMs struggle to understand negative queries. The project page is: https://tanbuinhat.github.io/NeIn/
- Abstract(参考訳): 否定は、人間が望まない情報を伝達するために使用する基本的な言語概念である。
それにもかかわらず、視覚言語タスクにおける否定に焦点を当てた最小限の研究がある。
この研究の欠如は、視覚言語モデル(VLM)が否定を理解するのに苦労し、正確な結果を提供するのに苦労していることを意味する。
人間のレベルの知性を達成するための障壁の1つは、否定の研究を評価するための標準収集の欠如である。
本稿では,視覚言語領域内の否定を研究するための,最初の大規模データセットNegative Instruction(NeIn)を提案する。
私たちのデータセットは、ソースイメージ、オリジナルキャプション、否定文、ターゲットイメージの合計で530,694の4倍、トレーニング用の495,694のクエリと、複数の視覚言語タスクのベンチマークのための35,000のクエリで構成されています。
具体的には、大規模なビジョン言語データセットであるMS-COCOに基づいて、生成とフィルタリングという2つのステップでNeInを自動的に生成する。
生成フェーズでは、BLIPとMagicBrushという2つのVLMを利用してターゲット画像を生成し、ソース画像の内容を表す負の節を生成する。
その後のフィルタリングでは、BLIPを用いて誤サンプルを除去する。
さらに,画像編集モデルの否定的理解のための評価プロトコルを導入する。
命令ベースの画像編集タスクに複数のVLMにまたがるデータセットを用いた大規模な実験により、最近の最先端のVLMでさえ負のクエリを理解するのに苦労していることが示された。
プロジェクトページは以下の通り。
関連論文リスト
- Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - How and where does CLIP process negation? [2.5600000778964294]
VALSEベンチマークからモデルによる否定の理解をテストするために,既存のタスクを構築した。
本稿では,モデル解釈可能性に関する文献からインスピレーションを得て,否定の理解におけるVLモデルの振る舞いを説明する。
論文 参考訳(メタデータ) (2024-07-15T07:20:06Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Learn to Understand Negation in Video Retrieval [9.929121517850204]
否定は、人間が望まないことを表現できる共通の言語スキルである。
ディープラーニングに基づくビデオ検索モデルは典型的には、否定的な記述を持たないビデオ記述データセットに基づいて訓練される。
ビデオ検索における否定を理解するための学習に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-04-30T02:22:18Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。