Fugu-MT 論文翻訳(概要): Action Controlled Paraphrasing

論文の概要: Action Controlled Paraphrasing

arxiv url: http://arxiv.org/abs/2405.11277v2
Date: Mon, 1 Jul 2024 23:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:59:27.475763
Title: Action Controlled Paraphrasing
Title（参考訳）: パラフレージングによるアクション制御
Authors: Ning Shi, Zijun Wu,
Abstract要約: 具体的には、ユーザ意図をアクショントークンとして表現し、それらをテキスト埋め込みと結合する。提案手法では,ユーザの意図したアクションが提供されない場合に,モデルが適切なアクションを独立して決定することを奨励するプレースホルダーとして,任意のアクショントークンを導入する。
参考スコア（独自算出の注目度）: 3.332140622816069
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Recent studies have demonstrated the potential to control paraphrase generation, such as through syntax, which has broad applications in various downstream tasks. However, these methods often require detailed parse trees or syntactic exemplars, countering human-like paraphrasing behavior in language use. Furthermore, an inference gap exists, as control specifications are only available during training but not during inference. In this work, we propose a new setup for controlled paraphrase generation. Specifically, we represent user intent as action tokens, embedding and concatenating them with text embeddings, thus flowing together into a self-attention encoder for representation fusion. To address the inference gap, we introduce an optional action token as a placeholder that encourages the model to determine the appropriate action independently when users' intended actions are not provided. Experimental results show that our method successfully enables precise action-controlled paraphrasing and preserves or even enhances performance compared to conventional uncontrolled methods when actions are not given. Our findings promote the concept of action-controlled paraphrasing for a more user-centered design.
Abstract（参考訳）: 近年の研究では、様々な下流タスクに広く応用されている構文など、パラフレーズ生成を制御できることが実証されている。しかしながら、これらの手法は、言語使用における人間の様相の言い回しに対抗して、詳細な構文解析木や構文解析例を必要とすることが多い。さらに、制御仕様はトレーニング中のみ利用できるが、推論中は利用できないため、推論ギャップが存在する。本研究では,制御されたパラフレーズ生成のための新しいセットアップを提案する。具体的には、ユーザ意図をアクショントークンとして表現し、それらを埋め込み、テキスト埋め込みと結合し、表現融合のための自己注意エンコーダにまとめる。提案手法では,ユーザの意図したアクションが提供されない場合に,モデルが適切なアクションを独立して決定することを奨励するプレースホルダーとして,任意のアクショントークンを導入する。実験結果から,提案手法は,動作が与えられない場合の従来の制御不能な手法と比較して,正確な動作制御のパラフレージングを実現し,性能を保たせるか,さらに向上させることが可能であることが示唆された。本研究は,よりユーザ中心の設計に向けて,アクション制御パラフレージングの概念を推進している。

関連論文リスト

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文参考訳（メタデータ） (2026-02-02T17:04:36Z)
Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary [22.925582428795437]
BEATは、ユーザとアイテムの振る舞いを個別に解釈可能なシーケンスにトークン化するフレームワークです。 BEATは、一貫性のある情報的説明を生成しながら、ゼロショットレコメンデーション性能を改善していることを示す。
論文参考訳（メタデータ） (2025-12-17T17:24:24Z)
Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。 Instruct-Verify-and-Act(IVA)を提案する。実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文参考訳（メタデータ） (2025-08-22T10:54:33Z)
Motion-example-controlled Co-speech Gesture Generation Leveraging Large Language Models [33.614886497394785]
我々は,大規模言語モデル(LLM)を活用して,動きのサンプル制御による協調音声ジェスチャ生成のためのフレームワークMECoを提案する。本手法は,音声認識と動作例を同時に解釈するための微調整により,LLMの理解能力を活用する。我々のフレームワークは、個々の身体部分のきめ細かい制御を可能にし、モーションクリップ、静的ポーズ、ヒューマンビデオシーケンス、テキスト記述など、多様な入力モダリティに対応している。
論文参考訳（メタデータ） (2025-07-27T10:59:29Z)
Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文参考訳（メタデータ） (2024-10-07T12:01:32Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文参考訳（メタデータ） (2023-11-16T06:19:27Z)
STEER: Semantic Turn Extension-Expansion Recognition for Voice Assistants [8.457830882336332]
STEERは、従順方向がユーザの以前のコマンドを操る試みであるかどうかを予測するステアリング検出モデルである。実験の結果, サンプルデータに対して95%以上の精度で, 操舵意図の同定に有望な性能を示した。入力としてユーザ書き起こしのみに依存することに加えて,モデルの強化版であるSTEER+を導入する。
論文参考訳（メタデータ） (2023-10-25T20:41:30Z)
DiactTOD: Learning Generalizable Latent Dialogue Acts for Controllable Task-Oriented Dialogue Systems [15.087619144902776]
本稿では,潜在空間における対話行動を表現する対話行動モデル(DiactTOD)を提案する。大規模なコーパスで事前トレーニングを行うと、DiactTODは対話を予測し制御し、制御可能な応答を生成する。
論文参考訳（メタデータ） (2023-08-01T23:29:16Z)
Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文参考訳（メタデータ） (2023-05-24T14:06:27Z)
Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文参考訳（メタデータ） (2023-04-21T07:19:33Z)
Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。 Br-Promptは複数のベンチマークで最先端を達成する。
論文参考訳（メタデータ） (2022-03-26T15:52:27Z)
Predict and Use Latent Patterns for Short-Text Conversation [5.757975605648179]
そこで本研究では,より詳細なセマンティックフォーム(潜時応答や部分音声シーケンスなど)を制御可能なセマンティックスとして使用し,生成を導くことを提案する。以上の結果から,よりリッチなセマンティクスは情報的かつ多様な応答を提供するだけでなく,応答品質の全体的な性能を向上させることができることがわかった。
論文参考訳（メタデータ） (2020-10-27T01:31:42Z)
Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文参考訳（メタデータ） (2020-04-28T00:15:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。