論文の概要: Style Extraction on Text Embeddings Using VAE and Parallel Dataset
- arxiv url: http://arxiv.org/abs/2502.08668v1
- Date: Wed, 12 Feb 2025 00:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:01.895605
- Title: Style Extraction on Text Embeddings Using VAE and Parallel Dataset
- Title(参考訳): VAEと並列データセットを用いたテキスト埋め込みのスタイル抽出
- Authors: InJin Kong, Shinyee Kang, Yuna Park, Sooyong Kim, Sanghyun Park,
- Abstract要約: 本研究の目的は,変分オートエンコーダ(VAE)モデルを用いて,翻訳間の文体的変動を検出し解析することである。
その結果、各翻訳は独自のスタイル分布を示し、VAEモデルを用いて効果的に識別できることを示した。
この研究は、AIベースのテキスト生成とスタイリスティック分析における、より広範な応用に対するモデルの可能性を強調している。
- 参考スコア(独自算出の注目度): 1.8067835669244101
- License:
- Abstract: This study investigates the stylistic differences among various Bible translations using a Variational Autoencoder (VAE) model. By embedding textual data into high-dimensional vectors, the study aims to detect and analyze stylistic variations between translations, with a specific focus on distinguishing the American Standard Version (ASV) from other translations. The results demonstrate that each translation exhibits a unique stylistic distribution, which can be effectively identified using the VAE model. These findings suggest that the VAE model is proficient in capturing and differentiating textual styles, although it is primarily optimized for distinguishing a single style. The study highlights the model's potential for broader applications in AI-based text generation and stylistic analysis, while also acknowledging the need for further model refinement to address the complexity of multi-dimensional stylistic relationships. Future research could extend this methodology to other text domains, offering deeper insights into the stylistic features embedded within various types of textual data.
- Abstract(参考訳): 本研究では,変分オートエンコーダ(VAE)モデルを用いて,様々な聖書翻訳の文体差について検討した。
この研究は、テキストデータを高次元ベクトルに埋め込むことで、アメリカ標準版(ASV)を他の翻訳と区別することに集中して、翻訳間のスタイリスティックなバリエーションを検出し、分析することを目的としている。
その結果、各翻訳は独自のスタイル分布を示し、VAEモデルを用いて効果的に識別できることを示した。
これらの結果から,VAEモデルはテキストスタイルの抽出と識別に長けていると考えられるが,主に単一スタイルの識別に最適化されている。
この研究は、AIベースのテキスト生成とスタイリスティック分析の幅広い応用に対するモデルの可能性を強調しながら、多次元スタイリスティック関係の複雑さに対処するためのさらなるモデル改良の必要性を認めている。
将来の研究は、この方法論を他のテキスト領域に拡張し、様々なタイプのテキストデータに埋め込まれたスタイリスティックな特徴についてより深い洞察を提供するだろう。
関連論文リスト
- A Comprehensive Framework for Semantic Similarity Analysis of Human and AI-Generated Text Using Transformer Architectures and Ensemble Techniques [40.704014941800594]
従来の手法では、人間と機械が生成したコンテンツ間の微妙な意味的差異を捉えられなかった。
本稿では,DeBERTa-v3-largeモデル,双方向LSTM,線形アテンションプールを併用して,局所的および大域的セマンティックパターンを抽出する手法を提案する。
実験の結果,本手法は従来の手法よりも有効であり,AIによるテキスト検出や他のテキスト比較タスクの有用性が証明された。
論文 参考訳(メタデータ) (2025-01-24T07:07:37Z) - Embedding Style Beyond Topics: Analyzing Dispersion Effects Across Different Language Models [0.0699049312989311]
本研究では, 組込み空間形成における書字スタイルの役割について検討した。
トピックとスタイルを交互に扱う文芸コーパスを用いて、フランス語と英語の言語モデルの感度を比較する。
論文 参考訳(メタデータ) (2025-01-01T13:17:16Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Document AI: A Comparative Study of Transformer-Based, Graph-Based
Models, and Convolutional Neural Networks For Document Layout Analysis [3.231170156689185]
Document AIは、自然言語処理とコンピュータビジョン技術を活用して、文書を自動的に分析することを目的としている。
Document AIの主要なタスクの1つはドキュメントレイアウト分析であり、レイアウト、画像、テキストの内容と空間的関係を解釈することでドキュメントページを構造化する。
論文 参考訳(メタデータ) (2023-08-29T16:58:03Z) - Reference-less Analysis of Context Specificity in Translation with
Personalised Language Models [3.527589066359829]
本研究は、リッチキャラクタとフィルムアノテーションがいかにパーソナライズ言語モデル(LM)に活用できるかを考察する。
非文脈モデルと比較して、難易度を最大6.5%削減するために、リッチな文脈情報を活用するLMを構築している。
我々の領域における専門翻訳の文脈特化度は、文脈機械翻訳モデルによりよりよく保存できることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:19:23Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。