論文の概要: VIRAL: Visual In-Context Reasoning via Analogy in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.03210v1
- Date: Tue, 03 Feb 2026 07:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.309139
- Title: VIRAL: Visual In-Context Reasoning via Analogy in Diffusion Transformers
- Title(参考訳): VIRAL:拡散変換器のアナロジーによる視覚的インテクスト推論
- Authors: Zhiwen Li, Zhongjie Duan, Jinyan Ye, Cen Chen, Daoyuan Chen, Yaliang Li, Yingda Chen,
- Abstract要約: VIRALは、事前訓練された画像編集モデルから視覚的推論を引き出すフレームワークである。
我々は,役割認識型マルチイメージコンディショニングを用いた凍結拡散変換器 (DiT) を適応し,勾配干渉を軽減するためにMixture-of-Experts LoRAを導入する。
実験により、VIRALは既存の手法よりも優れており、統一されたV-ICLパラダイムが視覚的タスクの大部分を処理できることが証明された。
- 参考スコア(独自算出の注目度): 45.717539734334906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Replicating In-Context Learning (ICL) in computer vision remains challenging due to task heterogeneity. We propose \textbf{VIRAL}, a framework that elicits visual reasoning from a pre-trained image editing model by formulating ICL as conditional generation via visual analogy ($x_s : x_t :: x_q : y_q$). We adapt a frozen Diffusion Transformer (DiT) using role-aware multi-image conditioning and introduce a Mixture-of-Experts LoRA to mitigate gradient interference across diverse tasks. Additionally, to bridge the gaps in current visual context datasets, we curate a large-scale dataset spanning perception, restoration, and editing. Experiments demonstrate that VIRAL outperforms existing methods, validating that a unified V-ICL paradigm can handle the majority of visual tasks, including open-domain editing. Our code is available at https://anonymous.4open.science/r/VIRAL-744A
- Abstract(参考訳): コンピュータビジョンにおけるインコンテキスト学習(ICL)の再現は、タスクの不均一性のため、依然として困難である。
視覚的アナロジー(x_s : x_t :: x_q : y_q$)を用いて、ICLを条件生成として定式化することにより、事前訓練された画像編集モデルから視覚的推論を引き出すフレームワークである。
役割認識型マルチイメージコンディショニングを用いて凍結拡散変換器(DiT)を適応し,Mixture-of-Experts LoRAを導入し,多様なタスク間の勾配干渉を軽減する。
さらに、現在の視覚的コンテキストデータセットのギャップを埋めるために、認識、復元、編集にまたがる大規模なデータセットをキュレートします。
実験の結果、VIRALは既存の手法よりも優れており、統一されたV-ICLパラダイムがオープンドメイン編集を含む視覚的タスクの大部分を処理可能であることが証明された。
私たちのコードはhttps://anonymous.4open.science/r/VIRAL-744Aで利用可能です。
関連論文リスト
- RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers [23.062860374441218]
本稿では、ソースターゲット画像のペアを利用して、新規なクエリ画像に対するコンテンツ認識編集意図を抽出し、転送する。
本稿では、Diffusion Transformer(DiT)ベースのモデルで視覚変換を効果的にキャプチャし、適用できる軽量モジュールであるRelationAdapterを紹介する。
Relation252Kの実験では、RelationAdapterはモデルの編集意図を理解し、転送する能力を大幅に改善し、生成品質と全体的な編集性能が顕著に向上した。
論文 参考訳(メタデータ) (2025-06-03T07:06:35Z) - DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。
オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。
DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文 参考訳(メタデータ) (2025-03-18T06:49:51Z) - Autonomous Imagination: Closed-Loop Decomposition of Visual-to-Textual Conversion in Visual Reasoning for Multimodal Large Language Models [31.485488631480745]
我々は、MLLMが入力シーンから知覚される視覚情報をテキスト情報に変換し、さらに推論し、回答を生成するという、視覚とテキストの変換能力に挑戦する。
本稿では,MLLMが視覚的入力を中間的な視覚状態に反復的に修正し,視覚からテキストへの変換をクローズドループの視覚的修正ステップに分解する手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T08:44:25Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Factored Neural Representation for Scene Understanding [39.66967677639173]
本稿では,モノクラーRGB-Dビデオから直接学習して,オブジェクトレベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。
我々は、合成データと実データの両方に対する一連のニューラルアプローチに対して、表現が効率的で、解釈可能で、編集可能であることを示す。
論文 参考訳(メタデータ) (2023-04-21T13:40:30Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。