論文の概要: Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation
- arxiv url: http://arxiv.org/abs/2012.04726v2
- Date: Wed, 26 Mar 2025 20:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 16:13:33.934717
- Title: Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation
- Title(参考訳): 編集メディア理解フレーム:視覚的誤報の含意と含意について
- Authors: Jeff Da, Maxwell Forbes, Rowan Zellers, Anthony Zheng, Jena D. Hwang, Antoine Bosselut, Yejin Choi,
- Abstract要約: ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。
この例と偽情報を広める有害な編集の違いは意図の1つである。
この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
- 参考スコア(独自算出の注目度): 62.68385635551825
- License:
- Abstract: Multimodal disinformation, from 'deepfakes' to simple edits that deceive, is an important societal problem. Yet at the same time, the vast majority of media edits are harmless -- such as a filtered vacation photo. The difference between this example, and harmful edits that spread disinformation, is one of intent. Recognizing and describing this intent is a major challenge for today's AI systems. We present the task of Edited Media Understanding, requiring models to answer open-ended questions that capture the intent and implications of an image edit. We introduce a dataset for our task, EMU, with 48k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 40.35% of the time. At the same time, there is still much work to be done -- humans prefer human-annotated captions 93.56% of the time -- and we provide analysis that highlights areas for further progress.
- Abstract(参考訳): ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。
しかし同時に、ほとんどのメディア編集は、フィルター付き休暇の写真など無害だ。
この例と偽情報を広める有害な編集の違いは意図の1つである。
この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
我々は編集メディア理解の課題を提示し、画像編集の意図と意味を捉えたオープンエンドな質問にモデルが答えるように要求する。
タスクのデータセットであるEMUを導入し,48kの質問応答ペアをリッチな自然言語で記述した。
我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩を基盤とした新しいモデルPELICANを導入する。
我々のモデルは我々のデータセットで有望な結果を得ており、人間が回答を正確な40.35%と評価している。
同時に、人間は人間に注釈を付けた字幕を93.56%好んで、まだやるべきことがたくさんある。
関連論文リスト
- HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images [4.468589513127865]
視覚質問回答(VQA)タスクは、重要な情報を伝えるために画像を使用し、テキストベースの質問に答える。
データセットとモデルも間もなくリリースされる予定です。
論文 参考訳(メタデータ) (2024-12-24T10:25:41Z) - Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution [43.07899102255169]
本稿では,高品質な質問や回答を自律的に生成することのできる,新しい多モード自己進化フレームワークを提案する。
まず、画像駆動型セルフクエスト機構を実装し、画像コンテンツに基づいた質問の作成と評価を可能にする。
第2に,画像キャプションから答えの質を向上させるための自己改善手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T08:06:00Z) - HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing [93.06156989757994]
HumanEditは5,751枚の画像で構成され、4段階にわたる2500時間以上の人的作業を必要とする。
データセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれている。
HumanEditは、さまざまなドメインから提供された、包括的な多様性と高解像度の1024倍の1024ドルのコンテンツを提供する。
論文 参考訳(メタデータ) (2024-12-05T16:00:59Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文 参考訳(メタデータ) (2023-06-16T17:58:58Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - MM-Claims: A Dataset for Multimodal Claim Detection in Social Media [7.388174516838141]
我々は、COVID-19、気候変動、幅広い技術という3つのトピックについて、ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介した。
本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を解析する。
論文 参考訳(メタデータ) (2022-05-04T10:43:58Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。