Fugu-MT 論文翻訳(概要): Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models

論文の概要: Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models

arxiv url: http://arxiv.org/abs/2502.14734v2
Date: Tue, 25 Feb 2025 09:15:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 13:17:50.544629
Title: Sentence Smith: Formally Controllable Text Transformation and its Application to Evaluation of Text Embedding Models
Title（参考訳）: Sentence Smith:形式的に制御可能なテキスト変換とそのテキスト埋め込みモデル評価への応用
Authors: Hongji Li, Andrianos Michail, Reto Gubelmann, Simon Clematide, Juri Opitz,
Abstract要約: 本稿では,テキストの意味の制御と特定の操作を可能にするSentence Smithフレームワークを提案する。文をセマンティックグラフにパースし、人間の設計したセマンティックな操作ルールを適用し、操作されたグラフからテキストを生成する。
参考スコア（独自算出の注目度）: 6.26814217313749
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose the Sentence Smith framework that enables controlled and specified manipulation of text meaning. It consists of three main steps: 1. Parsing a sentence into a semantic graph, 2. Applying human-designed semantic manipulation rules, and 3. Generating text from the manipulated graph. A final filtering step (4.) ensures the validity of the applied transformation. To demonstrate the utility of Sentence Smith in an application study, we use it to generate hard negative pairs that challenge text embedding models. Since the controllable generation makes it possible to clearly isolate different types of semantic shifts, we can gain deeper insights into the specific strengths and weaknesses of widely used text embedding models, also addressing an issue in current benchmarking where linguistic phenomena remain opaque. Human validation confirms that the generations produced by Sentence Smith are highly accurate.
Abstract（参考訳）: 本稿では,テキストの意味の制御と特定の操作を可能にするSentence Smithフレームワークを提案する。主なステップは3つある。 1.文を意味グラフにパースする 2.人間設計のセマンティックな操作規則の適用、及び 3. 操作されたグラフからテキストを生成する。最終フィルタリングステップ(4.)は、適用された変換の有効性を保証する。アプリケーションスタディにおいて、Sentence Smithの実用性を実証するために、テキスト埋め込みモデルに挑戦する厳しい負のペアを生成するためにそれを使用します。制御可能な世代は、異なるタイプのセマンティックシフトを明確に分離できるようにするため、広く使用されているテキスト埋め込みモデルの強度と弱点についてより深い洞察を得ることができ、また、言語現象が不透明なままである現在のベンチマークにおける問題にも対処できる。人間の検証により、センテンス・スミスが生成した世代は極めて正確であることが確認される。

関連論文リスト

Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。 Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文参考訳（メタデータ） (2025-02-08T11:38:12Z)
Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。 AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文参考訳（メタデータ） (2024-12-19T17:51:49Z)
Explicating the Implicit: Argument Detection Beyond Sentence Boundaries [24.728886446551577]
本稿では,文境界を越えた意味的関係を捉えるために,文内包による議論検出の問題を再検討する。本手法は直接監視を必要としないが,データセット不足のため一般的には欠落している。近年の文書レベルのベンチマークでは、教師付き手法や現代言語モデルよりも優れています。
論文参考訳（メタデータ） (2024-08-08T06:18:24Z)
Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文参考訳（メタデータ） (2024-02-21T03:01:17Z)
Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文参考訳（メタデータ） (2024-02-13T02:46:45Z)
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [121.44909266398194]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。 SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-01-15T12:33:00Z)
Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-07-13T05:03:26Z)
MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。 WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文参考訳（メタデータ） (2022-12-16T17:36:23Z)
Towards Computationally Verifiable Semantic Grounding for Language Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。 LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文参考訳（メタデータ） (2022-11-16T17:35:52Z)
Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文参考訳（メタデータ） (2022-05-15T12:58:35Z)
Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文参考訳（メタデータ） (2022-04-15T07:38:08Z)
Language modeling via stochastic processes [30.796382023812022]
現代の言語モデルは高品質の短いテキストを生成することができるが、長いテキストを生成するときにはしばしばメランジェや不整合である。自己教師付き学習における最近の研究は、モデルが対照的な学習を通して優れた潜在表現を学習できることを示唆している。本稿では,時間制御と呼ばれる構成表現を活用する方法を提案する。
論文参考訳（メタデータ） (2022-03-21T22:13:53Z)
A Plug-and-Play Method for Controlled Text Generation [38.283313068622085]
制御言語生成のためのプラグイン・アンド・プレイ復号法を提案する。このアプローチの単純さにもかかわらず、実際に驚くほどうまく機能しているのが分かります。
論文参考訳（メタデータ） (2021-09-20T17:27:03Z)
Improving Paraphrase Detection with the Adversarial Paraphrasing Task [0.0]
パラフレーズデータセットは現在、単語の重複と構文に基づくパラフレーズの感覚に依存している。パラフレーズ識別のための新しいデータセット生成法: 逆パラフレーズ処理タスク(APT)について紹介する。 APTは参加者に意味論的に等価(相互に意味的)であるが、語彙的にも構文的にも異なるパラフレーズを生成するよう要求する。
論文参考訳（メタデータ） (2021-06-14T18:15:20Z)
Context-Sensitive Visualization of Deep Learning Natural Language Processing Models [9.694190108703229]
そこで我々は,新しいNLP変換器のコンテキスト依存可視化手法を提案する。アウトプットに最も影響を与えるトークン(単語)の最も重要なグループを見つけます。最も影響力のある単語の組み合わせはヒートマップで視覚化される。
論文参考訳（メタデータ） (2021-05-25T20:26:38Z)
Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文参考訳（メタデータ） (2020-12-28T06:48:04Z)
Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文参考訳（メタデータ） (2020-10-12T17:02:50Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。