論文の概要: Borrowing from anything: A generalizable framework for reference-guided instance editing
- arxiv url: http://arxiv.org/abs/2512.15138v1
- Date: Wed, 17 Dec 2025 06:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.881793
- Title: Borrowing from anything: A generalizable framework for reference-guided instance editing
- Title(参考訳): 何かから借用する: 参照誘導型インスタンス編集のための一般化可能なフレームワーク
- Authors: Shengxiao Zhou, Chenghua Li, Jianhao Huang, Qinghao Hu, Yifan Zhang,
- Abstract要約: 本稿では,明示的な絡み合いを実現する汎用的なインスタンス編集フレームワークGENIEを提案する。
挑戦的なAnyInsertionデータセットの実験は、GENIEが最先端の忠実性と堅牢性を達成することを示した。
- 参考スコア(独自算出の注目度): 18.721802260132396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-guided instance editing is fundamentally limited by semantic entanglement, where a reference's intrinsic appearance is intertwined with its extrinsic attributes. The key challenge lies in disentangling what information should be borrowed from the reference, and determining how to apply it appropriately to the target. To tackle this challenge, we propose GENIE, a Generalizable Instance Editing framework capable of achieving explicit disentanglement. GENIE first corrects spatial misalignments with a Spatial Alignment Module (SAM). Then, an Adaptive Residual Scaling Module (ARSM) learns what to borrow by amplifying salient intrinsic cues while suppressing extrinsic attributes, while a Progressive Attention Fusion (PAF) mechanism learns how to render this appearance onto the target, preserving its structure. Extensive experiments on the challenging AnyInsertion dataset demonstrate that GENIE achieves state-of-the-art fidelity and robustness, setting a new standard for disentanglement-based instance editing.
- Abstract(参考訳): 参照誘導型インスタンス編集は、基本的に意味的絡み合いによって制限される。
重要な課題は、どの情報を参照から借用すべきかを遠ざけ、ターゲットに適切に適用する方法を決定することである。
この課題に対処するために,明示的な絡み合いを実現する汎用インスタンス編集フレームワーク GENIE を提案する。
GENIEはまず、空間整合モジュール(SAM)で空間整合を補正する。
次に、適応Residual Scaling Module (ARSM) は、外部属性を抑えながら、有能な内在的キューを増幅することにより、何を借用するかを学習する一方、プログレッシブ・アテンション・フュージョン(PAF)メカニズムは、この外観をターゲットにレンダリングする方法を学び、その構造を保存する。
挑戦的なAnyInsertionデータセットに関する大規模な実験は、GENIEが最先端の忠実さと堅牢性を達成し、アンタングルメントベースのインスタンス編集の新しい標準を設定することを実証している。
関連論文リスト
- DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control [5.185018120081533]
DEIGはきめ細かな制御可能なマルチインスタンス生成のための新しいフレームワークである。
リッチでローカライズされたテキスト記述と正確に一致する、視覚的に一貫性のあるマルチインスタンスシーンを生成する。
DeIG-Benchは、地域レベルのアノテーションと、人間とオブジェクトの両方に対するマルチ属性プロンプトを備えた新しいベンチマークである。
論文 参考訳(メタデータ) (2026-02-20T15:11:04Z) - Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization [19.721857318111734]
指向性情報アロケーションを強制するための非対称階層的アンコリング(AHA)を提案する。
我々は、脆弱な相互情報推定装置を、意味的漏洩を明示的に抑制するGRLベースの逆分離器に置き換える。
AHAは、クロスモーダル移動において対称基底線を一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T14:14:03Z) - Representation Interventions Enable Lifelong Unstructured Knowledge Control [54.86207134539453]
大規模言語モデル(LLM)は、しばしば誤った、または時代遅れのコンテンツを生成します。その知識を効率的に正確に更新し、コストのかかる再トレーニングなしにするというのは、大きな課題です。
本稿では,モデル表現空間内の介入として知識制御を扱う,堅牢でスケーラブルな手法であるRILKEを紹介する。
トレーニング中、RILKEはパラフレーズロバストと編集局所化モジュールを学び、低次元のサブスペースへの更新を制限し、クロスディジット干渉を最小限に抑える。
推論において、クエリ適応ルータは、モデル生成をガイドする適切なモジュールを選択する。
論文 参考訳(メタデータ) (2025-11-25T22:15:00Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Decoupled Classifier-Free Guidance for Counterfactual Diffusion Models [14.792134583650787]
CFGはすべての属性に対してグローバルなガイダンス尺度を定めており、推論されたカウンターファクトの大幅な変更につながっている。
本稿では,因果グラフに従う属性ワイズ制御を可能にする,フレキシブルでモデルに依存しないガイダンス手法であるDecoupled-Free Guidance (DCFG)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:56:09Z) - Towards Generalized Range-View LiDAR Segmentation in Adverse Weather [65.22588361803942]
我々は、厳しい天候下でのLiDARセグメンテーションの一般化に影響を及ぼす固有の課題を特定し、分析する。
既存のモデルのコアアーキテクチャを変更することなく、ロバスト性を高めるモジュール式で軽量なフレームワークを提案する。
提案手法は,推定オーバーヘッドを最小限に抑え,悪天候への一般化を著しく改善する。
論文 参考訳(メタデータ) (2025-06-10T16:48:27Z) - MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - REACT: Representation Extraction And Controllable Tuning to Overcome Overfitting in LLM Knowledge Editing [42.89229070245538]
本稿では,正確かつ制御可能な知識編集のためのフレームワークであるREACTを紹介する。
最初の段階では、調整された刺激を用いて、潜在的な事実表現を抽出する。
第2段階では,大小スカラーのベクトルを用いて,制御可能な摂動を隠蔽状態に適用する。
論文 参考訳(メタデータ) (2025-05-25T01:57:06Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。