論文の概要: IASC: Interactive Agentic System for ConLangs
- arxiv url: http://arxiv.org/abs/2510.07591v1
- Date: Wed, 08 Oct 2025 22:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.759764
- Title: IASC: Interactive Agentic System for ConLangs
- Title(参考訳): IASC:コンラングのための対話型エージェントシステム
- Authors: Chihiro Taguchi, Richard Sproat,
- Abstract要約: 本稿では,LLMを構築言語開発のためのツールとして利用するシステムを提案する。
このシステムはエージェント的アプローチを用いて言語のためのターゲット音韻論を作成する。
音韻モデルと形態素の集合を用いてレキシコンを構築する。
このシステムは、さらに多くの文を対象の言語に翻訳することもできる。
- 参考スコア(独自算出の注目度): 4.567171631759881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a system that uses LLMs as a tool in the development of Constructed Languages. The system is modular in that one first creates a target phonology for the language using an agentic approach that refines its output at each step with commentary feedback on its previous attempt. Next, a set of sentences is 'translated' from their English original into a morphosyntactic markup that reflects the word order and morphosyntactic feature specifications of the desired target language, with affixes represented as morphosyntactic feature bundles. From this translated corpus, a lexicon is constructed using the phonological model and the set of morphemes (stems and affixes) extracted from the 'translated' sentences. The system is then instructed to provide an orthography for the language, using an existing script such as Latin or Cyrillic. Finally, the system writes a brief grammatical handbook of the language. The system can also translate further sentences into the target language. Our goal is twofold. First, we hope that these tools will be fun to use for creating artificially constructed languages. Second, we are interested in exploring what LLMs 'know' about language-not what they know about any particular language or linguistic phenomenon, but how much they know about and understand language and linguistic concepts. As we shall see, there is a fairly wide gulf in capabilities both among different LLMs and among different linguistic specifications, with it being notably easier for systems to deal with more common patterns than rarer ones. An additional avenue that we explore is the application of our approach to translating from high-resource into low-resource languages. While the results so far are mostly negative, we provide some evidence that an improved version of the present system could afford some real gains in such tasks. https://github.com/SakanaAI/IASC
- Abstract(参考訳): 本稿では,LLMを構築言語開発のためのツールとして利用するシステムを提案する。
このシステムは、まず、各ステップで出力を洗練させるエージェント的アプローチを用いて、以前の試みに対するコメントフィードバックを用いて、言語のためのターゲット音韻論を作成するというモジュラーである。
次に、文の集合を英語の原文からモルフォシンタクティックなマークアップに変換し、モルフォシンタクティックな特徴バンドルとして表現された接尾辞を所望のターゲット言語の語順とモルフォシンタクティックな特徴仕様を反映する。
この翻訳コーパスから、レキシコンは音韻モデルと「翻訳」文から抽出された形態素の集合を用いて構築される。
その後、ラテン文字やキリル文字などの既存のスクリプトを使用して、言語のための正書法を提供するよう指示される。
最後に、システムは言語に関する短い文法的なハンドブックを書く。
このシステムは、さらに多くの文を対象の言語に翻訳することもできる。
私たちの目標は2倍です。
まず、これらのツールが人工的に構築された言語を作るのに使えることを願っています。
第2に、LLMが言語や言語現象について知っていることではなく、言語や言語概念についてどの程度知っているか、どのように理解しているか、といったことに興味があります。
ご覧のように、異なるLLMと異なる言語仕様の両方に、かなり広い範囲の能力があり、システムは稀なパターンよりも、より一般的なパターンに対処しやすくなっている。
私たちが検討するもう1つの道は、高リソースから低リソース言語への変換に対する我々のアプローチの適用です。
これまでの結果は概ね否定的だが,本システムの改良版は,そのようなタスクにおいて真に利益をもたらす可能性があるという証拠がいくつか提示されている。
https://github.com/SakanaAI/IASC
関連論文リスト
- Task-Oriented Dialog Systems for the Senegalese Wolof Language [0.19238952496650968]
大型言語モデル(LLM)は幻覚のような重大なリスクをもたらす。
アフリカ語のような低リソース言語は、これらのシステムではいまだに不足している。
モジュール型タスク指向ダイアログシステム(ToDS)をベースとした,より古典的なアプローチを示す。
論文 参考訳(メタデータ) (2024-12-15T14:35:49Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - LangSAMP: Language-Script Aware Multilingual Pretraining [48.16511046793275]
我々はLangSAMP(Language-Script Aware Multilingual Pretraining)を提案する。
LangSAMPには言語とスクリプトの埋め込みが組み込まれており、表現学習が強化されている。
我々は500以上の言語をカバーする多言語コーパス上のXLM-Rの継続事前学習にLangSAMPを適用した。
論文 参考訳(メタデータ) (2024-09-26T18:29:10Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - How do lexical semantics affect translation? An empirical study [1.0152838128195467]
本稿では,ソースとターゲット言語間の単語の順序付けと語彙的類似性が翻訳性能に与える影響について検討する。
対象言語が英語に類似するほど、翻訳性能が向上することがわかった。
さらに、英単語列における単語(POS)の一部を含むNMTモデルの提供が与える影響について検討した。
論文 参考訳(メタデータ) (2021-12-31T23:28:28Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。