論文の概要: Instructing the Architecture Search for Spatial-temporal Sequence Forecasting with LLM
- arxiv url: http://arxiv.org/abs/2503.17994v1
- Date: Sun, 23 Mar 2025 08:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:17.980871
- Title: Instructing the Architecture Search for Spatial-temporal Sequence Forecasting with LLM
- Title(参考訳): LLMを用いた時空間シーケンス予測のためのアーキテクチャ探索の指導
- Authors: Xin Xue, Haoyi Zhou, Tianyu Chen, Shuai Zhang, Yizhou Long, Jianxin Li,
- Abstract要約: 大規模言語モデル(LLM)に基づくSTSFのための新しいNAS手法を提案する。
提案手法は,STSFの既存のNAS法に対して,より優れた効率で競合効率を実現することができる。
- 参考スコア(独自算出の注目度): 18.649295352998546
- License:
- Abstract: Spatial-temporal sequence forecasting (STSF) is a long-standing research problem with widespread real-world applications. Neural architecture search (NAS), which automates the neural network design, has been shown effective in tackling the STSF problem. However, the existing NAS methods for STSF focus on generating architectures in a time-consuming data-driven fashion, which heavily limits their ability to use background knowledge and explore the complicated search trajectory. Large language models (LLMs) have shown remarkable ability in decision-making with comprehensive internal world knowledge, but how it could benefit NAS for STSF remains unexplored. In this paper, we propose a novel NAS method for STSF based on LLM. Instead of directly generate architectures with LLM, We inspire the LLM's capability with a multi-level enhancement mechanism. Specifically, on the step-level, we decompose the generation task into decision steps with powerful prompt engineering and inspire LLM to serve as instructor for architecture search based on its internal knowledge. On the instance-level, we utilize a one-step tuning framework to quickly evaluate the architecture instance and a memory bank to cumulate knowledge to improve LLM's search ability. On the task-level, we propose a two-stage architecture search, balancing the exploration stage and optimization stage, to reduce the possibility of being trapped in local optima. Extensive experimental results demonstrate that our method can achieve competitive effectiveness with superior efficiency against existing NAS methods for STSF.
- Abstract(参考訳): 時空間シークエンス予測(STSF)は、現実世界に広く応用されている長年の研究課題である。
ニューラルネットワーク設計を自動化するニューラルアーキテクチャサーチ(NAS)は,STSF問題に対処する上で有効であることが示されている。
しかし、STSFの既存のNASメソッドは、時間を要するデータ駆動方式でアーキテクチャを生成することに重点を置いている。
大規模言語モデル(LLM)は、包括的な内的知識を持つ意思決定において顕著な能力を示してきたが、それがSTSFのNASにどのような恩恵をもたらすかはまだ明らかになっていない。
本稿では,LSMに基づくSTSFのための新しいNAS手法を提案する。
LLMでアーキテクチャを直接生成する代わりに、マルチレベル拡張機構でLCMの能力を刺激する。
具体的には、ステップレベルでは、生成タスクを強力なプロンプトエンジニアリングで決定ステップに分解し、内部知識に基づくアーキテクチャ探索のインストラクターとしてLLMを刺激する。
インスタンスレベルでは、1段階のチューニングフレームワークを用いてアーキテクチャのインスタンスとメモリバンクを迅速に評価し、LLMの検索能力を向上させるために知識を蓄積する。
タスクレベルでは,探索段階と最適化段階のバランスをとる2段階アーキテクチャ探索を提案する。
実験結果から,STSFの既存のNAS法に対して,本手法が優れた効率で競争効率を達成できることが示唆された。
関連論文リスト
- NADER: Neural Architecture Design via Multi-Agent Collaboration [37.48197934228379]
ニューラルアーキテクチャ設計(NAD)を多エージェント協調問題として定式化する新しいフレームワークであるNADERを紹介する。
本稿では,即時フィードバックと長期経験から効果的に学習するリフレクタを提案する。
ニューラルアーキテクチャを表現するためにコードを使った従来のLCMベースの手法とは異なり、グラフベースの表現を用いる。
論文 参考訳(メタデータ) (2024-12-26T13:07:03Z) - Design Principle Transfer in Neural Architecture Search via Large Language Models [37.004026595537006]
トランスファーブルニューラルアーキテクチャサーチ(TNAS)は、複数のタスクのための効率的なニューラルアーキテクチャを設計するために導入された。
TNASでは、従来の検索プロセスに蓄積されたアーキテクチャ知識を再利用して、新しいタスクのアーキテクチャ検索を温める。
本研究は,新しい伝達パラダイム,すなわち設計原理伝達を提案する。
論文 参考訳(メタデータ) (2024-08-21T04:27:44Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Efficient Multi-Objective Neural Architecture Search via Pareto Dominance-based Novelty Search [0.0]
Neural Architecture Search (NAS)は、高性能なディープニューラルネットワークアーキテクチャの発見を自動化することを目的としている。
従来のNASアプローチは一般的に、興味深いネットワーク構成を含む可能性のあるアーキテクチャ検索空間の大部分を見下ろす特定のパフォーマンス指標(例えば予測精度)を最適化する。
本稿では,Multiple Training-Free Metrics (MTF-PDNS) を用いた多目的NASの新しい検索手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T08:52:10Z) - Structure-aware Domain Knowledge Injection for Large Language Models [38.08691252042949]
StructTuningは、大規模言語モデル(LLM)をドメインスペシャリストに変換する方法論である。
従来の知識注入性能の100パーセントを達成しながら、トレーニングコーパスに必要なトレーニングコーパスをわずか5%削減します。
論文 参考訳(メタデータ) (2024-07-23T12:38:48Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - Pretraining Neural Architecture Search Controllers with Locality-based
Self-Supervised Learning [0.0]
コントローラベースのNASに適用可能なプリトレーニング方式を提案する。
本手法は局所性に基づく自己教師付き分類タスクであり,ネットワークアーキテクチャの構造的類似性を活用し,優れたアーキテクチャ表現を得る。
論文 参考訳(メタデータ) (2021-03-15T06:30:36Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。