論文の概要: FDM-Bench: A Comprehensive Benchmark for Evaluating Large Language Models in Additive Manufacturing Tasks
- arxiv url: http://arxiv.org/abs/2412.09819v1
- Date: Fri, 13 Dec 2024 03:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:28.813246
- Title: FDM-Bench: A Comprehensive Benchmark for Evaluating Large Language Models in Additive Manufacturing Tasks
- Title(参考訳): FDM-Bench: 付加生産タスクにおける大規模言語モデル評価のための総合ベンチマーク
- Authors: Ahmadreza Eslaminia, Adrian Jackson, Beitong Tian, Avi Stern, Hallie Gordon, Rajiv Malhotra, Klara Nahrstedt, Chenhui Shao,
- Abstract要約: 複雑なパラメータの管理とFused Deposition Modelingにおける印刷欠陥の解決は依然として困難である。
大きな言語モデル(LLM)は、FDMにおけるこれらの課題に対処する可能性を提供します。
FDM-Benchは、FDM固有のタスク上でLLMを評価するために設計されたベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 2.473350840334717
- License:
- Abstract: Fused Deposition Modeling (FDM) is a widely used additive manufacturing (AM) technique valued for its flexibility and cost-efficiency, with applications in a variety of industries including healthcare and aerospace. Recent developments have made affordable FDM machines accessible and encouraged adoption among diverse users. However, the design, planning, and production process in FDM require specialized interdisciplinary knowledge. Managing the complex parameters and resolving print defects in FDM remain challenging. These technical complexities form the most critical barrier preventing individuals without technical backgrounds and even professional engineers without training in other domains from participating in AM design and manufacturing. Large Language Models (LLMs), with their advanced capabilities in text and code processing, offer the potential for addressing these challenges in FDM. However, existing research on LLM applications in this field is limited, typically focusing on specific use cases without providing comprehensive evaluations across multiple models and tasks. To this end, we introduce FDM-Bench, a benchmark dataset designed to evaluate LLMs on FDM-specific tasks. FDM-Bench enables a thorough assessment by including user queries across various experience levels and G-code samples that represent a range of anomalies. We evaluate two closed-source models (GPT-4o and Claude 3.5 Sonnet) and two open-source models (Llama-3.1-70B and Llama-3.1-405B) on FDM-Bench. A panel of FDM experts assess the models' responses to user queries in detail. Results indicate that closed-source models generally outperform open-source models in G-code anomaly detection, whereas Llama-3.1-405B demonstrates a slight advantage over other models in responding to user queries. These findings underscore FDM-Bench's potential as a foundational tool for advancing research on LLM capabilities in FDM.
- Abstract(参考訳): フューズド・デポジション・モデリング(Fused Deposition Modeling, FDM)は、医療や航空宇宙など様々な産業に応用され、その柔軟性とコスト効率が評価される付加的製造技術である。
近年、安価なFDMマシンが普及し、多様なユーザーの間で採用が促進されている。
しかし、FDMの設計、計画、生産プロセスには専門的な学際的知識が必要である。
FDMにおける複雑なパラメータの管理と印刷欠陥の解決は依然として困難である。
これらの技術的複雑さは、技術的背景を持たない個人や、他のドメインでトレーニングを受けていないプロのエンジニアがAM設計や製造に参加するのを防ぐ最も重要な障壁を形成します。
大きな言語モデル(LLM)は、テキストとコード処理の高度な機能を備えており、FDMにおけるこれらの課題に対処する可能性を秘めている。
しかし、この分野でのLLMアプリケーションに関する既存の研究は限定的であり、通常、複数のモデルやタスクにわたる包括的な評価を提供することなく、特定のユースケースに焦点を当てている。
この目的のために、FDM固有のタスク上でLLMを評価するために設計されたベンチマークデータセットであるFDM-Benchを紹介する。
FDM-Benchは、さまざまなエクスペリエンスレベルにわたるユーザクエリと、さまざまな異常を表すGコードサンプルを含む、徹底的な評価を可能にする。
我々はFDM-Bench上で2つのクローズドソースモデル(GPT-4oとClaude 3.5 Sonnet)と2つのオープンソースモデル(Llama-3.1-70BとLlama-3.1-405B)を評価する。
FDM専門家のパネルは、ユーザークエリに対するモデルのレスポンスを詳細に評価する。
結果として、クローズドソースモデルはGコード異常検出において一般的にオープンソースモデルよりも優れており、一方Llama-3.1-405Bはユーザクエリに応答する他のモデルよりもわずかに有利であることが示された。
これらの知見は、FDMにおけるLLM能力の研究を前進させるための基礎的ツールとしてのFDM-Benchの可能性を裏付けるものである。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - FMDLlama: Financial Misinformation Detection based on Large Language Models [35.487700542961136]
大規模言語モデル (LLM) は様々な分野で優れた性能を示している。
本研究では,FMDLlamaを提案する。FMDLlamaは,FMDタスクのための,命令データを含む微調整Llama3.1に基づく最初のオープンソース命令追従LLMである。
FMD-B 上の様々な LLM と比較し,ChatGPT だけでなく,他のオープンソース LLM よりも優れています。
論文 参考訳(メタデータ) (2024-09-24T20:44:30Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - LLaMA-Reviewer: Advancing Code Review Automation with Large Language
Models through Parameter-Efficient Fine-Tuning [13.616908697637665]
LLaMA-Reviewerは、コードレビューの領域において、人気のあるLLMであるLLaMAの機能を活用する革新的なフレームワークである。
このフレームワークはパラメータ効率のよい微調整(PEFT)方式を採用し、トレーニング可能なパラメータの1%未満を使用しながら高い性能を実現する。
この分野での継続的な進歩を促進するために、コードとすべてのPEFT軽量プラグインがオープンソース化された。
論文 参考訳(メタデータ) (2023-08-22T03:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。