論文の概要: CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning
- arxiv url: http://arxiv.org/abs/2507.01409v1
- Date: Wed, 02 Jul 2025 07:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.073229
- Title: CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning
- Title(参考訳): CaptionSmiths: 画像キャプションにおける言語パターンの柔軟制御
- Authors: Kuniaki Saito, Donghyun Kim, Kwanyong Park, Atsushi Hashimoto, Yoshitaka Ushiku,
- Abstract要約: 多様な言語パターンを扱える単一のキャプションモデルを得るための新しいアプローチであるCaptionSmithsを提案する。
提案手法は, 単語の字幕, 長さ, 記述性, 特異性の3つの特性を, 人間のアノテーションを使わずに連続的な値として定量化する。
実験結果から, 出力キャプションの特性をスムーズに変化させることができ, ベースラインよりも高い語彙アライメントを示すことがわかった。
- 参考スコア(独自算出の注目度): 29.201855758383036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An image captioning model flexibly switching its language pattern, e.g., descriptiveness and length, should be useful since it can be applied to diverse applications. However, despite the dramatic improvement in generative vision-language models, fine-grained control over the properties of generated captions is not easy due to two reasons: (i) existing models are not given the properties as a condition during training and (ii) existing models cannot smoothly transition its language pattern from one state to the other. Given this challenge, we propose a new approach, CaptionSmiths, to acquire a single captioning model that can handle diverse language patterns. First, our approach quantifies three properties of each caption, length, descriptiveness, and uniqueness of a word, as continuous scalar values, without human annotation. Given the values, we represent the conditioning via interpolation between two endpoint vectors corresponding to the extreme states, e.g., one for a very short caption and one for a very long caption. Empirical results demonstrate that the resulting model can smoothly change the properties of the output captions and show higher lexical alignment than baselines. For instance, CaptionSmiths reduces the error in controlling caption length by 506\% despite better lexical alignment. Code will be available on https://github.com/omron-sinicx/captionsmiths.
- Abstract(参考訳): 画像キャプションモデルはその言語パターン、例えば記述性や長さを柔軟に切り替えるのが有用である。
しかし、生成視覚言語モデルの劇的な改善にもかかわらず、生成されたキャプションの特性のきめ細かい制御は2つの理由から容易ではない。
(i)既存のモデルは、訓練中に条件としてプロパティを付与せず、
(ii)既存のモデルは、言語パターンをある状態から別の状態へスムーズに移行することはできない。
この課題から,多様な言語パターンを扱える単一のキャプションモデルを取得するために,CaptionSmithsという新しいアプローチを提案する。
まず, 単語の字幕, 長さ, 記述性, 特異性の3つの特性を, 人間のアノテーションを使わずに連続したスカラー値として定量化する。
この値が与えられた場合、極端状態に対応する2つの終端ベクトル間の補間、例えば、非常に短いキャプションと非常に長いキャプションの1つを条件として表現する。
実験結果から, 出力キャプションの特性をスムーズに変化させることができ, ベースラインよりも高い語彙アライメントを示すことがわかった。
例えば、CaptionSmithsは語彙アライメントが優れているにもかかわらずキャプション長を506\%削減する。
コードはhttps://github.com/omron-sinicx/captionsmithsで入手できる。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - ControlCap: Controllable Region-level Captioning [57.57406480228619]
地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
論文 参考訳(メタデータ) (2024-01-31T15:15:41Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。