Fugu-MT 論文翻訳(概要): Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation

論文の概要: Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation

arxiv url: http://arxiv.org/abs/2012.04726v2
Date: Wed, 26 Mar 2025 20:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-30 16:29:08.83623
Title: Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation
Title（参考訳）: 編集メディア理解フレーム:視覚的誤報の含意と含意について
Authors: Jeff Da, Maxwell Forbes, Rowan Zellers, Anthony Zheng, Jena D. Hwang, Antoine Bosselut, Yejin Choi,
Abstract要約: ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。この例と偽情報を広める有害な編集の違いは意図の1つである。この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
参考スコア（独自算出の注目度）: 62.68385635551825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal disinformation, from 'deepfakes' to simple edits that deceive, is an important societal problem. Yet at the same time, the vast majority of media edits are harmless -- such as a filtered vacation photo. The difference between this example, and harmful edits that spread disinformation, is one of intent. Recognizing and describing this intent is a major challenge for today's AI systems. We present the task of Edited Media Understanding, requiring models to answer open-ended questions that capture the intent and implications of an image edit. We introduce a dataset for our task, EMU, with 48k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 40.35% of the time. At the same time, there is still much work to be done -- humans prefer human-annotated captions 93.56% of the time -- and we provide analysis that highlights areas for further progress.
Abstract（参考訳）: ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。しかし同時に、ほとんどのメディア編集は、フィルター付き休暇の写真など無害だ。この例と偽情報を広める有害な編集の違いは意図の1つである。この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。我々は編集メディア理解の課題を提示し、画像編集の意図と意味を捉えたオープンエンドな質問にモデルが答えるように要求する。タスクのデータセットであるEMUを導入し,48kの質問応答ペアをリッチな自然言語で記述した。我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩を基盤とした新しいモデルPELICANを導入する。我々のモデルは我々のデータセットで有望な結果を得ており、人間が回答を正確な40.35%と評価している。同時に、人間は人間に注釈を付けた字幕を93.56%好んで、まだやるべきことがたくさんある。

関連論文リスト

HAUR: Human Annotation Understanding and Recognition Through Text-Heavy Images [4.468589513127865]
視覚質問回答(VQA)タスクは、重要な情報を伝えるために画像を使用し、テキストベースの質問に答える。データセットとモデルも間もなくリリースされる予定です。
論文参考訳（メタデータ） (2024-12-24T10:25:41Z)
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing [93.06156989757994]
HumanEditは5,751枚の画像で構成され、4段階にわたる2500時間以上の人的作業を必要とする。データセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれている。 HumanEditは、さまざまなドメインから提供された、包括的な多様性と高解像度の1024倍の1024ドルのコンテンツを提供する。
論文参考訳（メタデータ） (2024-12-05T16:00:59Z)
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。 omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文参考訳（メタデータ） (2024-11-11T18:21:43Z)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文参考訳（メタデータ） (2024-07-03T19:36:33Z)
The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文参考訳（メタデータ） (2023-08-21T01:59:45Z)
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文参考訳（メタデータ） (2023-06-16T17:58:58Z)
Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文参考訳（メタデータ） (2023-04-15T21:11:55Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
MM-Claims: A Dataset for Multimodal Claim Detection in Social Media [7.388174516838141]
我々は、COVID-19、気候変動、幅広い技術という3つのトピックについて、ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介した。本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を解析する。
論文参考訳（メタデータ） (2022-05-04T10:43:58Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。