Fugu-MT 論文翻訳(概要): SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning

論文の概要: SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning

arxiv url: http://arxiv.org/abs/2009.09566v2
Date: Tue, 29 Sep 2020 00:24:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 04:59:25.420209
Title: SSCR: Iterative Language-Based Image Editing via Self-Supervised Counterfactual Reasoning
Title（参考訳）: SSCR:自己監督型逆推論による反復言語に基づく画像編集
Authors: Tsu-Jui Fu, Xin Eric Wang, Scott Grafton, Miguel Eckstein, William Yang Wang
Abstract要約: 反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
参考スコア（独自算出の注目度）: 79.30956389694184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Iterative Language-Based Image Editing (IL-BIE) tasks follow iterative instructions to edit images step by step. Data scarcity is a significant issue for ILBIE as it is challenging to collect large-scale examples of images before and after instruction-based changes. However, humans still accomplish these editing tasks even when presented with an unfamiliar image-instruction pair. Such ability results from counterfactual thinking and the ability to think about alternatives to events that have happened already. In this paper, we introduce a Self-Supervised Counterfactual Reasoning (SSCR) framework that incorporates counterfactual thinking to overcome data scarcity. SSCR allows the model to consider out-of-distribution instructions paired with previous images. With the help of cross-task consistency (CTC), we train these counterfactual instructions in a self-supervised scenario. Extensive results show that SSCR improves the correctness of ILBIE in terms of both object identity and position, establishing a new state of the art (SOTA) on two IBLIE datasets (i-CLEVR and CoDraw). Even with only 50% of the training data, SSCR achieves a comparable result to using complete data.
Abstract（参考訳）: 反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復命令に従う。データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。しかし、人間は慣れ親しんだ画像インストラクションペアで表示しても、これらの編集タスクを実行します。このような能力は、反現実的な思考と、すでに起こった出来事の代替案を考える能力から生まれる。本稿では,データ不足を克服する対実的思考を取り入れた,自己改善型対実的推論(SSCR)フレームワークを提案する。 sscrは、モデルが以前の画像とペアリングした分散命令を考慮できる。クロスタスク整合性 (CTC) の助けを借りて, 自己管理シナリオにおいて, 対実的命令を訓練する。 IBLIEデータセット(i-CLEVRとCoDraw)上に新たな技術(SOTA)を確立することにより,オブジェクトの同一性と位置の両方の観点から,SSCRがILBIEの正当性を向上することを示す。トレーニングデータのわずか50%でも、sscrは完全なデータを使用するのに匹敵する結果が得られる。

関連論文リスト

Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文参考訳（メタデータ） (2025-07-22T05:25:38Z)
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data [39.17652541259225]
Composed Image Retrieval (CIR)は、テキストに付加された参照画像と一致する画像を取得するタスクである。画像とテキストのモダリティを効果的に組み合わせた埋め込み型再構成アーキテクチャを提案する。 InstructCIRというモデルでは、CIRRおよびFashionIQデータセット上のゼロショット合成画像検索において、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-04-01T14:03:46Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。本稿では,両者の相違に対処するための2段階の枠組みを提案する。 MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文参考訳（メタデータ） (2024-09-07T21:52:58Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Exploring Text-Guided Single Image Editing for Remote Sensing Images [30.23541304590692]
本稿では,テキスト誘導型RSI編集手法を提案する。大規模なベンチマークデータセットのトレーニングを必要とせずに、一貫性を維持するために、マルチスケールのトレーニングアプローチを採用している。
論文参考訳（メタデータ） (2024-05-09T13:45:04Z)
Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。 Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文参考訳（メタデータ） (2024-05-01T15:19:54Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。大規模視覚言語モデル(VLM)を用いた最近の研究動向我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文参考訳（メタデータ） (2023-10-13T17:59:38Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。