Fugu-MT 論文翻訳(概要): MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation

論文の概要: MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation

arxiv url: http://arxiv.org/abs/2605.12134v1
Date: Tue, 12 May 2026 13:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.892292
Title: MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation
Title（参考訳）: Multi:新しい画像生成のための遠方レンズ、センサー、ビュー、ドメイン
Authors: Sonali Godavarthy, Matthias Neuwirth-Trapp, Tim-Felix Faasch, Maarten Bieshaar, Michael Moeller, Danda Pani Paudel,
Abstract要約: テキスト・インバージョン(MULTI)による多要素不整合の新たな手法を提案する。第1段階では一般的な因子を学習し,第2段階ではデータセット固有の要素を抽出する。これにより、既存のデータセットと新しい要素の組み合わせを拡張し、分散ギャップを減らすことができる。
参考スコア（独自算出の注目度）: 15.56039331132378
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent text-to-image models produce high-quality images, yet text ambiguity hinders precise control when specific styles or objects are required. There have been a number of recent works dealing with learning and composing multiple objects and patterns. However, current work focuses almost entirely on image content, overlooking imaging factors such as camera lens, sensor types, imaging viewpoints, and scenes' domain characteristics. We introduce this new challenge as Imaging Factor Disentanglement and show limitations of current approaches in the regime. We, therefore, propose the new method Multi-factor disentanglement through Textual Inversion (MULTI). It consists of two stages: in the first stage, we learn general factors, and in the second stage, we extract dataset-specific ones. This setup enables the extension of existing datasets and novel factor combinations, thereby reducing distribution gaps. It further supports modifications of specific factors and image-to-image generation via ControlNets. The evaluation on our new DF-RICO benchmark demonstrates the effectiveness of MULTI and highlights the importance of Factor Disentanglement as a new direction of research.
Abstract（参考訳）: 近年のテキスト・ツー・イメージ・モデルは高品質な画像を生成するが、テキストの曖昧さは特定のスタイルやオブジェクトが必要な場合の正確な制御を妨げる。最近では、複数のオブジェクトやパターンを学習し、構成する作業が数多く行われている。しかし、現在の研究はほとんどが画像の内容に焦点を当てており、カメラレンズ、センサータイプ、画像視点、シーンのドメイン特性といった画像要素を見渡している。我々は,この新たな課題をイメージファクター・ディアンタングメントとして紹介し,現在の体制におけるアプローチの限界を示す。そこで本研究では,テキスト・インバージョン(MULTI)を用いたマルチファクタ・ディコンタングルメント(Multi-factor disentanglement)を提案する。第1段階では一般的な因子を学習し,第2段階ではデータセット固有の要素を抽出する。このセットアップにより、既存のデータセットと新しいファクタの組み合わせを拡張し、分散ギャップを減らすことができる。特定の要素の修正や、ControlNetsによるイメージ・ツー・イメージ生成もサポートする。新しいDF-RICOベンチマークの評価は、Multiの有効性を示し、新しい研究の方向性としてFacter Disentanglementの重要性を強調している。

関連論文リスト

OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
ViewDelta: Scaling Scene Change Detection through Text-Conditioning [0.0]
SCD(Scene Change Detection)の一般的なフレームワークを導入し、「関連性」と「疑問性」を区別する中核的な曖昧さに対処する。テキスト条件付き変更検出フレームワークであるViewDeltaを提案し、関連する変更を定義するために自然言語プロンプトを使用する。私たちのコードとデータセットはhttps://joshuakgao.io/viewdelta/.com/で公開されています。
論文参考訳（メタデータ） (2024-12-10T15:51:17Z)
Retrieval-guided Cross-view Image Synthesis [3.7477511412024573]
クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
論文参考訳（メタデータ） (2024-11-29T07:04:44Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
TINYCD: A (Not So) Deep Learning Model For Change Detection [68.8204255655161]
変化検出(CD)の目的は、同じ領域で発生した変化を異なる時間に撮影された2つの画像を比較して検出することである。ディープラーニングの分野での最近の進歩により、研究者はこの分野で卓越した成果を得られるようになった。我々はTinyCDと呼ばれる新しいモデルを提案し、軽量かつ効果的であることを実証した。
論文参考訳（メタデータ） (2022-07-26T19:28:48Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。