論文の概要: Negative Shanshui: Real-time Interactive Ink Painting Synthesis
- arxiv url: http://arxiv.org/abs/2508.16612v1
- Date: Wed, 13 Aug 2025 09:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.582873
- Title: Negative Shanshui: Real-time Interactive Ink Painting Synthesis
- Title(参考訳): Negative Shanshui:リアルタイムインタラクティブインク塗装合成
- Authors: Aven-Le Zhou,
- Abstract要約: 本稿では,中国古来の風景画,すなわちシャンシュイを再解釈する,リアルタイムな対話型AI合成手法であるNegative Shanshuiについて述べる。
負のシャンシュイは、リアルタイムな推論のために微調整の安定モデルを最適化し、それを視線駆動のインペインティング、フレーム拡散と統合する。
視聴者の視線に反応して動的モーフィングアニメーションを可能にし、インタラクティブなバーチャルリアリティ(VR)体験として提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Negative Shanshui, a real-time interactive AI synthesis approach that reinterprets classical Chinese landscape ink painting, i.e., shanshui, to engage with ecological crises in the Anthropocene. Negative Shanshui optimizes a fine-tuned Stable Diffusion model for real-time inferences and integrates it with gaze-driven inpainting, frame interpolation; it enables dynamic morphing animations in response to the viewer's gaze and presents as an interactive virtual reality (VR) experience. The paper describes the complete technical pipeline, covering the system framework, optimization strategies, gaze-based interaction, and multimodal deployment in an art festival. Further analysis of audience feedback collected during its public exhibition highlights how participants variously engaged with the work through empathy, ambivalence, and critical reflection.
- Abstract(参考訳): 本稿では,中国古来の風景画,すなわちシャンシュイを再解釈する,リアルタイムな対話型AI合成手法であるNegative Shanshuiについて述べる。
負のシャンシュイは、リアルタイムな推論のために微調整された安定拡散モデルを最適化し、それを視線駆動のインペイント、フレーム補間と統合する。
本稿では,システムフレームワーク,最適化戦略,視線に基づくインタラクション,アートフェスティバルにおけるマルチモーダルデプロイメントを網羅した,完全な技術パイプラインについて述べる。
公開展で収集された聴衆のフィードバックのさらなる分析は、参加者が共感、あいまいさ、批判的反映を通じて、どのように様々な作業に従事しているかを強調している。
関連論文リスト
- HUMOF: Human Motion Forecasting in Interactive Social Scenes [29.621970821619424]
複雑なシーンは、対話情報の豊富さによる人間の行動予測に重要な課題を示す。
対話型シーンにおける人間の動き予測に有効な手法を提案する。
提案手法は,4つの公開データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-04T09:21:54Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation [25.834500552609136]
I2V(Image-to-Video)合成により,実世界の静的絵画を生かしたトレーニングフリーフレームワークを提案する。
既存のI2V手法は、主に自然なビデオデータセットに基づいて訓練されており、静的な絵画から動的出力を生成するのに苦労することが多い。
我々のフレームワークは既存のI2V手法とプラグイン・アンド・プレイの統合を可能にし、現実世界の絵画をアニメーション化するのに理想的なソリューションとなる。
論文 参考訳(メタデータ) (2025-03-31T05:25:49Z) - Large Model Empowered Metaverse: State-of-the-Art, Challenges and Opportunities [28.81101395387858]
Metaverseは没入型で永続的なデジタルエコシステムであり、ユーザは3D仮想環境内で対話し、社交し、作業することができる。
本稿では,メタバースにおける大規模モデルの統合について検討する。
メタバースレンダリングを最適化するための生成AIベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-18T13:52:48Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z) - On the Real-World Adversarial Robustness of Real-Time Semantic
Segmentation Models for Autonomous Driving [59.33715889581687]
現実世界の敵対的な例(通常はパッチの形で)の存在は、安全クリティカルなコンピュータビジョンタスクにおけるディープラーニングモデルの使用に深刻な脅威をもたらす。
本稿では,異なる種類の対立パッチを攻撃した場合のセマンティックセグメンテーションモデルのロバスト性を評価する。
画素の誤分類を誘導する攻撃者の能力を改善するために, 新たな損失関数を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:33:43Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。