論文の概要: Input Conditioned Graph Generation for Language Agents
- arxiv url: http://arxiv.org/abs/2406.11555v1
- Date: Mon, 17 Jun 2024 13:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:32:20.249905
- Title: Input Conditioned Graph Generation for Language Agents
- Title(参考訳): 言語エージェントのための入力条件付きグラフ生成
- Authors: Lukas Vierling, Jie Fu, Kai Chen,
- Abstract要約: 言語エージェントをグラフとして抽象化する既存のフレームワークを用いて,学習可能な動的言語エージェントを開発する。
我々は与えられた入力に基づいて通信の流れを表すエッジを生成することを学び、それによって言語エージェントの内部通信を調整する。
提案手法は,MMLUとCMMLUを併用したデータセットにおいて,従来の静的アプローチを約6%の精度で上回り,疎度誘導損失のトレーニングでは10%以上の精度で適用できる。
- 参考スコア(独自算出の注目度): 31.2175071107555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in Large Language Models (LLMs) and language agents has demonstrated significant promise for various future applications across multiple disciplines. While traditional approaches to language agents often rely on fixed, handcrafted designs, our research aims to develop both learnable and dynamic agents. Our method uses an existing framework that abstracts language agents as graphs. Within this graph framework, we aim to learn a model that can generate edges for every given input to the language agent. This allows us to generate edges that represent the flow of communication within the graph based on the given input, thereby adjusting the internal communication of a language agent. We learn to generate these edges using a pretrained LLM that is fine-tuned with reinforcement learning. This LLM can be fine-tuned on several datasets simultaneously, and we hypothesize that the model learns to adapt to these different domains during training, achieving good overall performance when encountering data from different domains during deployment. We demonstrate that our approach surpasses the previous static approach by nearly 6% accuracy on a combined dataset of MMLU and CMMLU, and by more than 10% when trained with a sparsity-inducing loss. It also performs superior in additional experiments conducted with the MMLU and Mini Crossword Puzzles datasets. The code is available at https://github.com/lukasVierling/DynamicGPTSwarm.
- Abstract(参考訳): 近年のLarge Language Models(LLM)とLanguage Agentの進歩は、複数の分野にわたる様々な将来のアプリケーションに対して大きな可能性を証明している。
言語エージェントに対する従来のアプローチは、しばしば固定された手作りのデザインに依存していますが、我々の研究は学習可能なエージェントと動的エージェントの両方を開発することを目的としています。
我々の手法は、言語エージェントをグラフとして抽象化する既存のフレームワークを使用する。
このグラフフレームワークでは,言語エージェントへの入力毎にエッジを生成するモデルを学習することを目的としている。
これにより、与えられた入力に基づいて、グラフ内の通信の流れを表すエッジを生成し、言語エージェントの内部通信を調整することができる。
我々は、強化学習に精通したLLMを用いて、これらのエッジを生成することを学ぶ。
このLLMは複数のデータセット上で同時に微調整が可能で、トレーニング中にこれらの異なるドメインに適応することを学び、デプロイ中に異なるドメインからのデータに遭遇する際の全体的なパフォーマンスを良好に達成する、という仮説を立てる。
提案手法は,MMLUとCMMLUを併用したデータセットにおいて,従来の静的アプローチを約6%精度で上回り,疎度誘導損失をトレーニングした場合に10%以上の精度で適用できることを実証した。
また、MMLUとMini Crossword Puzzlesデータセットによる追加実験でも優れている。
コードはhttps://github.com/lukasVierling/DynamicGPTSwarm.comで公開されている。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Cross-lingual Editing in Multilingual Language Models [1.3062731746155414]
本稿では,言語間モデル編集(textbfXME)パラダイムを紹介し,事実を一つの言語で編集し,その後の更新伝搬を他の言語で観察する。
その結果,言語が2つの異なるスクリプトファミリーに属している場合を中心に,XME設定下での最先端のMETの性能制限が顕著に示された。
論文 参考訳(メタデータ) (2024-01-19T06:54:39Z) - Efficient End-to-end Language Model Fine-tuning on Graphs [21.23522552579571]
Text-Attributed Graphs (TAGs) からの学習は、その幅広い現実世界のアプリケーションのために大きな注目を集めている。
我々は,TAG上での言語モデルのエンドツーエンドな微調整のための,新規かつ効率的なアプローチであるLEAdingを紹介する。
提案手法は,Ogbn-arxiv のリーダーボード上で,最先端のSOTA(State-of-the-art)を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-07T22:35:16Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Language is All a Graph Needs [33.9836278881785]
InstructGLM (Instruction-finetuned Graph Language Model) を提案する。
我々の手法は、ogbn-arxiv, Cora, PubMedデータセット上のすべてのGNNベースラインを超える。
論文 参考訳(メタデータ) (2023-08-14T13:41:09Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。