論文の概要: Edited Media Understanding: Reasoning About Implications of Manipulated
Images
- arxiv url: http://arxiv.org/abs/2012.04726v1
- Date: Tue, 8 Dec 2020 20:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 00:34:57.009601
- Title: Edited Media Understanding: Reasoning About Implications of Manipulated
Images
- Title(参考訳): 編集メディア理解:操作された画像の意味を推論する
- Authors: Jeff Da and Maxwell Forbes and Rowan Zellers and Anthony Zheng and
Jena D. Hwang and Antoine Bosselut and Yejin Choi
- Abstract要約: 画像編集の意図と意味を捉えたオープンエンドの質問に答えるためにモデルを必要とする編集メディア理解のタスクを提示します。
我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩を基盤とした新しいモデルPELICANを導入する。
我々のモデルはデータセット上で有望な結果を得ており、その答えを40.35%の正確さで評価している。
- 参考スコア(独自算出の注目度): 38.67475806191228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal disinformation, from `deepfakes' to simple edits that deceive, is
an important societal problem. Yet at the same time, the vast majority of media
edits are harmless -- such as a filtered vacation photo. The difference between
this example, and harmful edits that spread disinformation, is one of intent.
Recognizing and describing this intent is a major challenge for today's AI
systems.
We present the task of Edited Media Understanding, requiring models to answer
open-ended questions that capture the intent and implications of an image edit.
We introduce a dataset for our task, EMU, with 48k question-answer pairs
written in rich natural language. We evaluate a wide variety of
vision-and-language models for our task, and introduce a new model PELICAN,
which builds upon recent progress in pretrained multimodal representations. Our
model obtains promising results on our dataset, with humans rating its answers
as accurate 40.35% of the time. At the same time, there is still much work to
be done -- humans prefer human-annotated captions 93.56% of the time -- and we
provide analysis that highlights areas for further progress.
- Abstract(参考訳): ディープフェイクから単純な編集まで、マルチモーダルな偽情報が重要な社会問題である。
しかし同時に、メディア編集の大半は無害で、例えば休暇の写真のフィルターなどだ。
この例と、偽情報を拡散する有害な編集の違いは、意図の1つです。
この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
我々は編集メディア理解の課題を提示し、画像編集の意図と意味を捉えたオープンエンドな質問にモデルが答えるように要求する。
タスクのデータセットであるEMUを導入し,48kの質問応答ペアをリッチな自然言語で記述した。
我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩に基づく新しいモデルPELICANを導入する。
我々のモデルはデータセット上で有望な結果を得ており、その答えを40.35%の正確さで評価している。
同時に、まだやるべきことがたくさんある -- 人間は人間の注釈付きキャプションを好んで 93.56% であり、さらなる進歩を強調する分析を提供する。
関連論文リスト
- Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文 参考訳(メタデータ) (2023-06-16T17:58:58Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MM-Claims: A Dataset for Multimodal Claim Detection in Social Media [7.388174516838141]
我々は、COVID-19、気候変動、幅広い技術という3つのトピックについて、ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介した。
本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を解析する。
論文 参考訳(メタデータ) (2022-05-04T10:43:58Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。