Fugu-MT 論文翻訳(概要): Controlling High-Dimensional Data With Sparse Input

論文の概要: Controlling High-Dimensional Data With Sparse Input

arxiv url: http://arxiv.org/abs/2303.09446v1
Date: Tue, 14 Mar 2023 09:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 14:46:26.634983
Title: Controlling High-Dimensional Data With Sparse Input
Title（参考訳）: スパース入力による高次元データ制御
Authors: Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack Hodari
Abstract要約: 生成モデルの潜在空間に、疎い人間の解釈可能な制御空間をマッピングする新しい枠組みを導入する。実験により,MICVAEはスパース・イン・ザ・ループ制御機構の望ましい特性を示す。
参考スコア（独自算出の注目度）: 2.971749725643218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of human-in-the-loop control for generating highly-structured data. This task is challenging because existing generative models lack an efficient interface through which users can modify the output. Users have the option to either manually explore a non-interpretable latent space, or to laboriously annotate the data with conditioning labels. To solve this, we introduce a novel framework whereby an encoder maps a sparse, human interpretable control space onto the latent space of a generative model. We apply this framework to the task of controlling prosody in text-to-speech synthesis. We propose a model, called Multiple-Instance CVAE (MICVAE), that is specifically designed to encode sparse prosodic features and output complete waveforms. We show empirically that MICVAE displays desirable qualities of a sparse human-in-the-loop control mechanism: efficiency, robustness, and faithfulness. With even a very small number of input values (~4), MICVAE enables users to improve the quality of the output significantly, in terms of listener preference (4:1).
Abstract（参考訳）: 我々は,高度に構造化されたデータを生成するためのループ制御の問題に対処する。既存の生成モデルにはユーザが出力を変更できる効率的なインターフェースが欠けているため、このタスクは難しい。ユーザは、解釈不能な潜伏空間を手動で探索するか、あるいは条件付きラベルでデータを注記するオプションがある。この問題を解決するために,エンコーダが可読な人間の解釈可能な制御空間を生成モデルの潜在空間にマッピングする,新しい枠組みを提案する。この枠組みを音声合成における韻律制御の課題に適用する。本稿では,スパースな韻律特徴を符号化し,完全な波形を出力するMultiple-Instance CVAE (MICVAE) モデルを提案する。実験の結果,micvaeは,効率性,堅牢性,忠実性など,ループ内における少ない制御機構の望ましい性質を示すことがわかった。非常に少数の入力値 (~4) であっても、MICVAE はリスナーの好み (4:1) で出力の品質を大幅に改善することができる。

関連論文リスト

Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文参考訳（メタデータ） (2025-11-13T03:08:51Z)
RepeaTTS: Towards Feature Discovery through Repeated Fine-Tuning [11.547937373256921]
PromptベースのText-To-Speechモデルでは、自然言語による発話率や知覚性などの音声のさまざまな側面を制御できる。制御は訓練中にモデルに露出する音響的特徴に限られており、他方では柔軟すぎる:同じ入力はコーパス統計に反映される制御不能な変動をもたらす。制御不能なモデルの分散を利用して,これらの問題に同時に対処する新しい微調整方式について検討する。
論文参考訳（メタデータ） (2025-07-05T10:59:00Z)
Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models [54.85405423240165]
トピックの階層構造としてチェーンオブ思考出力を可視化するインタラクション設計であるInteractive Reasoningを導入する。私たちは、不確実なトレードオフに直面したAIによる意思決定のプロトタイプであるHippoで、インタラクティブな推論を実装しています。
論文参考訳（メタデータ） (2025-06-30T10:00:43Z)
SAEs Are Good for Steering -- If You Select the Right Features [45.47261543304217]
現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
論文参考訳（メタデータ） (2025-05-26T14:47:59Z)
ShuffleGate: An Efficient and Self-Polarizing Feature Selection Method for Large-Scale Deep Models in Industry [12.690406065558394]
ShuffleGateはインスタンス間ですべての機能を同時にシャッフルする。モデルを再トレーニングすることなく、適切に分離された重要なスコアを生成し、パフォーマンスを見積もることができます。様々なシナリオで、Bilibiliの検索モデルの日々のイテレーションにうまく統合されています。
論文参考訳（メタデータ） (2025-03-12T12:05:03Z)
OminiControl2: Efficient Conditioning for Diffusion Transformers [68.3243031301164]
我々は,効率的な画像条件生成を実現する効率的なフレームワークであるOminiControl2を提案する。 OminiControl2は、(1)生成時に最も意味のあるトークンだけを保存することによって条件入力を合理化する動的圧縮戦略、(2)条件トークンの特徴を1回だけ計算し、段階的に再利用する条件的特徴再利用機構である。
論文参考訳（メタデータ） (2025-03-11T10:50:14Z)
Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。 PEFT(Efficient Fine-Tuning)技術。提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文参考訳（メタデータ） (2024-05-07T08:50:25Z)
Improving Subject-Driven Image Synthesis with Subject-Agnostic Guidance [62.15866177242207]
主観的条件を構築することにより、与えられた主観的条件と入力テキストプロンプトの両方に整合した出力が得られることを示す。私たちのアプローチは概念的にはシンプルで、最小限のコード修正しか必要ありませんが、実質的な品質改善につながります。
論文参考訳（メタデータ） (2024-05-02T15:03:41Z)
PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文参考訳（メタデータ） (2024-02-25T05:04:51Z)
Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文参考訳（メタデータ） (2023-11-02T12:01:29Z)
Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。 SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文参考訳（メタデータ） (2023-06-01T19:04:17Z)
Double and Single Descent in Causal Inference with an Application to High-Dimensional Synthetic Control [2.3173485093942943]
機械学習では、非常に多くの自由パラメータがあり、モデルがトレーニングデータに完全に適合する。多数の制御ユニットを有する高次元合成制御推定器の性能について述べる。制御ユニットの追加は, 処理前適合が完璧である点を超えても, 計算性能の向上に有効であることがわかった。
論文参考訳（メタデータ） (2023-05-01T07:54:53Z)
Towards Efficient Dialogue Pre-training with Transferable and Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文参考訳（メタデータ） (2022-10-22T14:46:43Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Controllable Neural Prosody Synthesis [38.437243265743234]
音声合成のためのユーザ制御型コンテキスト認識型ニューラル韻律生成器を開発した。本モデルでは,ユーザが特定の時間フレームに対する韻律制約を入力し,入力テキストと文脈韻律から残りの時間フレームを生成する。合成音声の全体的な自然性を犠牲にすることなく,ユーザ制御を韻律生成モデルに組み込むことが可能であることを示す。
論文参考訳（メタデータ） (2020-08-07T22:11:58Z)
Improving Input-Output Linearizing Controllers for Bipedal Robots via Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文参考訳（メタデータ） (2020-04-15T18:15:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。