論文の概要: Textual Aesthetics in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.02930v1
- Date: Tue, 05 Nov 2024 09:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:02.542717
- Title: Textual Aesthetics in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるテキスト美学
- Authors: Lingjie Jiang, Shaohan Huang, Xun Wu, Furu Wei,
- Abstract要約: 美学研磨のためのパイプラインを導入し,テキスト美学データセットTexAesの構築を支援する。
そこで本研究では,TAPOと呼ばれる直接選好最適化に基づくテキスト美学を利用した微調整手法を提案する。
本実験は,テキスト美学データとTAPOファインチューニング法を用いて,美学のスコアを改善するだけでなく,一般的な評価データセットの性能を向上させることを実証した。
- 参考スコア(独自算出の注目度): 80.09790024030525
- License:
- Abstract: Image aesthetics is a crucial metric in the field of image generation. However, textual aesthetics has not been sufficiently explored. With the widespread application of large language models (LLMs), previous work has primarily focused on the correctness of content and the helpfulness of responses. Nonetheless, providing responses with textual aesthetics is also an important factor for LLMs, which can offer a cleaner layout and ensure greater consistency and coherence in content. In this work, we introduce a pipeline for aesthetics polishing and help construct a textual aesthetics dataset named TexAes. We propose a textual aesthetics-powered fine-tuning method based on direct preference optimization, termed TAPO, which leverages textual aesthetics without compromising content correctness. Additionally, we develop two evaluation methods for textual aesthetics based on text and image analysis, respectively. Our experiments demonstrate that using textual aesthetics data and employing the TAPO fine-tuning method not only improves aesthetic scores but also enhances performance on general evaluation datasets such as AlpacalEval and Anera-hard.
- Abstract(参考訳): 画像美学は画像生成の分野で重要な指標である。
しかし、テクストの美学は十分に研究されていない。
大規模言語モデル(LLM)の広範な適用により、これまでの研究は主にコンテンツの正しさと応答の有用性に焦点を当ててきた。
それでも、テキスト美学による応答の提供は、LCMにとって重要な要素であり、よりクリーンなレイアウトを提供し、コンテンツの一貫性と一貫性を確保することができる。
本研究では,美学研磨のためのパイプラインを導入し,テキスト美学データセットTexAesの構築を支援する。
そこで,本論文では,コンテンツ精度を損なうことなくテキスト美学を活用するTAPOという,直接選好最適化に基づくテキスト美学を利用した微調整手法を提案する。
さらに,テキストと画像解析に基づくテキスト美学の2つの評価手法を開発した。
本実験は, テキスト美学データを用いてTAPOファインチューニング法を用いることで美的スコアを改善するだけでなく, AlpacalEval や Anera-hard などの一般的な評価データセットの性能を向上させることを実証した。
関連論文リスト
- Learning to Customize Text-to-Image Diffusion In Diverse Context [23.239646132590043]
殆どのテキスト・ツー・イメージのカスタマイズ技術は、最小限のコンテキストでキャプチャされた少数の人物のコンセプトイメージを微調整する。
我々は、文脈的にリッチなテキストプロンプトを単に作成することで、これらの個人概念のコンテキストを多様化する。
驚くべきことに、この単純で費用対効果の高い手法は、テキスト空間における意味的アライメントを大幅に改善する。
当社のアプローチではアーキテクチャの変更は一切必要とせず、既存のテキスト・ツー・イメージのカスタマイズ手法と互換性が高い。
論文 参考訳(メタデータ) (2024-10-14T00:53:59Z) - Intelligent Artistic Typography: A Comprehensive Review of Artistic Text Design and Generation [15.367944842667146]
アーティスティックテキスト生成は、可読性を維持しながら、テキストの美的品質を増幅することを目的としている。
芸術的なテキストスタイリングは、影、輪郭、色、光、テクスチャなど、テキスト上のテキスト効果に重点を置いている。
Stylistizationは文字の変形に焦点を当て、テキスト内の意味的理解を模倣することで視覚的表現を強化する。
論文 参考訳(メタデータ) (2024-07-20T06:45:09Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Image Aesthetics Assessment via Learnable Queries [59.313054821874864]
本稿では,IAA-LQを用いた画像美学評価手法を提案する。
フリーズされた画像エンコーダから得られた事前訓練された画像特徴から、学習可能なクエリを適応して美的特徴を抽出する。
実世界のデータに関する実験では、IAA-LQの利点が示され、SRCCとPLCCでそれぞれ2.2%、そして2.1%が最先端の手法に勝っている。
論文 参考訳(メタデータ) (2023-09-06T09:42:16Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - VILA: Learning Image Aesthetics from User Comments with Vision-Language
Pretraining [53.470662123170555]
ユーザからのコメントから画像美学を学習し、マルチモーダルな美学表現を学習するための視覚言語事前学習手法を提案する。
具体的には、コントラスト的および生成的目的を用いて、画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。
以上の結果から,AVA-Captionsデータセットを用いた画像の美的字幕化において,事前学習した美的視覚言語モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-03-24T23:57:28Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。