Fugu-MT 論文翻訳(概要): ShotCrop$^3$: Cropping Human-Centric Images into Cinematic Triple-Shot Compositions

論文の概要: ShotCrop$^3$: Cropping Human-Centric Images into Cinematic Triple-Shot Compositions

arxiv url: http://arxiv.org/abs/2606.05635v1
Date: Thu, 04 Jun 2026 03:01:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.5134
Title: ShotCrop$^3$: Cropping Human-Centric Images into Cinematic Triple-Shot Compositions
Title（参考訳）: ShotCrop$^3$: 人中心画像からシネマティックトリプルショット合成へ
Authors: Dehong Kong, Lina Lei, Lingtao Zheng, Chenyang Wu, Ailing Zhang, Xinran Qin, Teng Ma, Jiaqi Xu, Zhixin Wang, Zhikai Chen, Xuecheng Qi, Renjing Pei, Fan Li,
Abstract要約: textbfTriple-Shot compositions (TSC) は、単一の人中心画像から3ショットセットを生成する合成タスクである。 TSCを専門的なアノテーションで学習するために,3段階のトレーニングプロセスを行う textbfShotCrop を導入する。 ShotCropは、ショットローカライゼーション精度において、GPT-5よりもtextbf2.82倍の平均的な改善を実現している。
参考スコア（独自算出の注目度）: 26.108311837437583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prior work on aesthetic composition typically produces a single aesthetically pleasing crop, overlooking the narrative value of composing multiple shots from one scene. In practice, multi-shot composition is critical for downstream creative workflows: commercial posters often require multiple crops with different emphases (e.g., context, subject, and emotion/product details) to present key story beats. Therefore, we propose \textbf{Triple-Shot Compositions (TSC)}, a composition task that generates a three-shot set -- establishing, medium, and close-up -- from a single human-centric image, each paired with a brief shot description to support visual narration. To learn TSC with limited expert annotations, we introduce \textbf{ShotCrop} which undergoes a three-stage training process: it first applies Chain-of-Thought supervised fine-tuning to establish basic reasoning and aesthetic shot-cropping skills, then performs semi-supervised fine-tuning with high-confidence pseudo labels to further enhance aesthetic capability, and is finally optimized with Group Relative Policy Optimization for \textbf{ShotCrop} (GRPO-S) using a composite reward tailored for it. Specifically, our pseudo-labeling strategy combines MLLM-based scoring, aesthetic assessment, and CLIP similarity to retain high-confidence training signals. In addition, we present TSC-Bench, a benchmark of 1.2k expert-annotated test cases. Notably, ShotCrop achieves an average improvement of \textbf{2.82} times over GPT-5 in shot localization accuracy.
Abstract（参考訳）: 美的構成に関する先行研究は、通常、一つのシーンから複数のショットを合成する物語的価値を見越して、一つの美的喜ばしい作物を産み出す。商業ポスターは、重要なストーリーのビートを示すために、異なる段階(例えば、コンテキスト、主題、感情/製品の詳細)の複数の作物を必要とすることが多い。そこで我々は,1つの人中心画像から3つのショットセットを生成する合成タスクである「textbf{Triple-Shot compositions (TSC)」を提案し,それぞれに短いショット記述を加えて視覚的ナレーションを支援する。まず、基本的な推論と美的ショットクロッピングのスキルを確立するためにChain-of-Thoughtを教師付き微調整を行い、次に、高信頼の擬似ラベルを用いて半教師付き微調整を行い、さらに美的能力を向上させ、最終的には、合成報酬のチャーターを用いた「textbf{ShotCrop} (GRPO-S)」のためのグループ相対ポリシー最適化に最適化される。具体的には,MLLMに基づく評価,審美評価,CLIP類似性を組み合わせ,高信頼度トレーニング信号を維持する。さらに、1.2kのエキスパートアノテートテストケースのベンチマークであるTSC-Benchを紹介する。特にShotCropは、ショットのローカライゼーション精度において、GPT-5よりも平均で \textbf{2.82} 倍の改善を実現している。

関連論文リスト

STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。 ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文参考訳（メタデータ） (2025-12-13T15:57:29Z)
Cut2Next: Generating Next Shot via In-Context Tuning [93.14744132897428]
マルチショット生成には、目的があり、映画のような遷移と厳密な撮影連続性が必要である。現在の手法はしばしば基本的な視覚的一貫性を優先し、重要な編集パターンを無視している。我々は、プロの編集パターンを批判的に合成する、その後の高品質なショットであるNext Shot Generation (NSG)を紹介する。
論文参考訳（メタデータ） (2025-08-11T17:56:59Z)
Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation [3.4998703934432682]
Redemption Score(RS)は、3つの相補的な信号を三角測量することによって画像キャプションをランク付けする新しいフレームワークである。 Flickr8kベンチマークでは、RSはKendall-$tau$ 58.42を達成した。
論文参考訳（メタデータ） (2025-05-22T03:35:12Z)
CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文参考訳（メタデータ） (2025-05-16T12:23:58Z)
From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文参考訳（メタデータ） (2025-04-25T00:18:23Z)
SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval [7.248145893361865]
合成画像検索(CIR)は、クエリ画像をユーザが提供するテキスト修正と組み合わせてターゲット画像を取得するマルチモーダル学習タスクである。既存の方法は、FashionIQやCIRRといったラベル付き三重項のデータセットに基づいてモデルをトレーニングする、完全に教師付き学習に重点を置いている。本研究では,既存の大規模画像・テキスト・ペア・データセットと大規模言語モデルの生成機能を組み合わせて,組込み合成ネットワークを対照的に訓練するゼロショット合成事前学習戦略であるSCOTを提案する。
論文参考訳（メタデータ） (2025-01-12T07:23:49Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。 ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文参考訳（メタデータ） (2022-11-25T01:37:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。