論文の概要: Embedding Alignment in Code Generation for Audio
- arxiv url: http://arxiv.org/abs/2508.05473v1
- Date: Thu, 07 Aug 2025 15:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.919796
- Title: Embedding Alignment in Code Generation for Audio
- Title(参考訳): オーディオのためのコード生成における埋め込みアライメント
- Authors: Sam Kouteili, Hiren Madhu, George Typaldos, Mark Santolucito,
- Abstract要約: LLMによるコード生成は、ライブコーディングのような創造的なコーディング努力に革命をもたらす可能性がある。
本稿では,コードオーディオ埋め込みアライメントマップを構築することで,出力オーディオの埋め込みを予測するモデルを提案する。
- 参考スコア(独自算出の注目度): 1.3870914906258829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-powered code generation has the potential to revolutionize creative coding endeavors, such as live-coding, by enabling users to focus on structural motifs over syntactic details. In such domains, when prompting an LLM, users may benefit from considering multiple varied code candidates to better realize their musical intentions. Code generation models, however, struggle to present unique and diverse code candidates, with no direct insight into the code's audio output. To better establish a relationship between code candidates and produced audio, we investigate the topology of the mapping between code and audio embedding spaces. We find that code and audio embeddings do not exhibit a simple linear relationship, but supplement this with a constructed predictive model that shows an embedding alignment map could be learned. Supplementing the aim for musically diverse output, we present a model that given code predicts output audio embedding, constructing a code-audio embedding alignment map.
- Abstract(参考訳): LLMによるコード生成は、ユーザーが構文上の詳細よりも構造的なモチーフに集中できるようにすることで、ライブコーディングのような創造的なコーディング努力に革命をもたらす可能性がある。
このようなドメインでは、LLMをプロンプトする場合、ユーザは複数の様々なコード候補を考えて、自分の音楽的意図をよりよく理解することができる。
しかし、コード生成モデルは、コードのオーディオ出力を直接知ることなく、ユニークで多様なコード候補を示すのに苦労している。
コード候補と生成されたオーディオの関係をよりよく確立するために,コードとオーディオの埋め込み空間のマッピングのトポロジについて検討する。
コードとオーディオの埋め込みは単純な線形関係を示さないが、埋め込みアライメントマップを学習可能な構築された予測モデルで補うことができる。
音楽的に多様な出力の目的を補うため,コードオーディオ埋め込みアライメントマップを構築し,出力音声の埋め込みを予測するモデルを提案する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Latent Granular Resynthesis using Neural Audio Codecs [0.0]
本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。
提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。
得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
論文 参考訳(メタデータ) (2025-07-25T12:14:12Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.73634905733589]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。
5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文 参考訳(メタデータ) (2024-04-24T04:25:04Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。
CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。
その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。