Fugu-MT 論文翻訳(概要): Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities

論文の概要: Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities

arxiv url: http://arxiv.org/abs/2507.21790v1
Date: Tue, 29 Jul 2025 13:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:56.355089
Title: Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities
Title（参考訳）: 大規模言語モデルは選択モデリングを支援するか? : 戦略の促進と現在のモデル機能への視点
Authors: Georges Sfeir, Gabriel Nova, Stephane Hess, Sander van Cranenburgh,
Abstract要約: 大規模言語モデル(LLM)は様々な分野をサポートするために広く使われているが、その選択肢モデリングの可能性はいまだに解明されていない。本研究は, LLMの仕様における補助エージェントとしての可能性を検討するとともに, 技術的に実現可能なマルチノードロジットモデルの推定を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are widely used to support various workflows across different disciplines, yet their potential in choice modelling remains relatively unexplored. This work examines the potential of LLMs as assistive agents in the specification and, where technically feasible, estimation of Multinomial Logit models. We implement a systematic experimental framework involving thirteen versions of six leading LLMs (ChatGPT, Claude, DeepSeek, Gemini, Gemma, and Llama) evaluated under five experimental configurations. These configurations vary along three dimensions: modelling goal (suggesting vs. suggesting and estimating MNLs); prompting strategy (Zero-Shot vs. Chain-of-Thoughts); and information availability (full dataset vs. data dictionary only). Each LLM-suggested specification is implemented, estimated, and evaluated based on goodness-of-fit metrics, behavioural plausibility, and model complexity. Findings reveal that proprietary LLMs can generate valid and behaviourally sound utility specifications, particularly when guided by structured prompts. Open-weight models such as Llama and Gemma struggled to produce meaningful specifications. Claude 4 Sonnet consistently produced the best-fitting and most complex models, while GPT models suggested models with robust and stable modelling outcomes. Some LLMs performed better when provided with just data dictionary, suggesting that limiting raw data access may enhance internal reasoning capabilities. Among all LLMs, GPT o3 was uniquely capable of correctly estimating its own specifications by executing self-generated code. Overall, the results demonstrate both the promise and current limitations of LLMs as assistive agents in choice modelling, not only for model specification but also for supporting modelling decision and estimation, and provide practical guidance for integrating these tools into choice modellers' workflows.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な分野にわたる様々なワークフローをサポートするために広く使われているが、それらの選択モデリングの可能性はいまだに解明されていない。本研究は, LLMの仕様における補助エージェントとしての可能性を検討するとともに, 技術的に実現可能なマルチノードロジットモデルの推定を行う。我々は,6つの主要なLCM (ChatGPT, Claude, DeepSeek, Gemini, Gemma, Llama) の13バージョンを,5つの実験構成で評価した。これらの構成は、モデリング目標(MNLの提案と推定)、プロンプト戦略(Zero-Shot vs. Chain-of-Thoughts)、情報可用性(フルデータセット対データ辞書のみ)の3つの側面によって異なる。各LCM推奨仕様は、好適なメトリクス、振る舞いの妥当性、モデルの複雑さに基づいて実装、推定、評価される。プロプライエタリなLLMは、特に構造化プロンプトでガイドされた場合、有効で振る舞いのよいユーティリティ仕様を生成することができる。 LlamaやGemmaのようなオープンウェイトモデルは、有意義な仕様を作成するのに苦労した。クロード4 ソネットは一貫して最も適合し、最も複雑なモデルを生み出し、GPTモデルは堅牢で安定したモデリング結果を持つモデルを提案した。一部の LLM は、単にデータ辞書を提供することで性能が向上し、生データアクセスの制限により内部推論能力が向上する可能性があることを示唆している。すべてのLCMの中で、GPT o3は自己生成コードを実行することで、独自の仕様を正しく見積もることができる。全体として、モデル仕様だけでなく、モデル決定と推定をサポートするためだけでなく、これらのツールを選択モデル作成者のワークフローに統合するための実践的なガイダンスを提供するため、選択モデル作成における補助エージェントとしてのLLMの約束と現在の制限の両方を実証した。

関連論文リスト

ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。 3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文参考訳（メタデータ） (2025-05-18T08:55:46Z)
SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文参考訳（メタデータ） (2025-05-06T23:29:43Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
LLM-enabled Instance Model Generation [4.52634430160579]
本研究では,大規模言語モデル(LLM)を用いたインスタンスモデルの生成について検討する。まず、LLMを用いて、必要なすべてのインスタンスモデル情報を含む簡易な構造化出力を生成し、その中間表現を有効なXMIファイルにコンパイルする。提案手法は, 実例モデル生成タスクにおけるLCMのユーザビリティを著しく向上することを示す。
論文参考訳（メタデータ） (2025-03-28T16:34:29Z)
A Foundational individual Mobility Prediction Model based on Open-Source Large Language Models [1.124958340749622]
大規模言語モデル(LLM)はドメイン固有のタスクに広く適用されている。本稿では,基盤となるオープンソースのLCMに基づくモビリティ予測モデルをトレーニングするための,統一的な微調整フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T15:08:37Z)
Can LLMs Predict Citation Intent? An Experimental Analysis of In-context Learning and Fine-tuning on Open LLMs [0.464982780843177]
本研究では,Large Language Models (LLMs) を用いて,文脈内学習と微調整による引用意図の予測を行う。 0, 1-, few-, many-shot プロンプトを用いて, 5つの著名なオープン LLM ファミリーの12種類のモデル変動を評価した。次に、このモデルを微調整し、SciCiteデータセットで8%、ACL-ARCデータセットで4.3%の相対的なF1スコア改善を実現し、タスク固有適応の意義を実証する。
論文参考訳（メタデータ） (2025-02-20T13:45:42Z)
The Performance of the LSTM-based Code Generated by Large Language Models (LLMs) in Forecasting Time Series Data [0.3749861135832072]
本稿では,ChatGPT, PaLM, LLama, FalconなどのLLMの時系列データ解析のためのディープラーニングモデルの生成における性能について検討し, 比較する。その結果は、生成的AIを活用して、許容できる良さで優れた予測モデルを作成したいデータアナリストや実践者にとって有益である。
論文参考訳（メタデータ） (2024-11-27T20:18:36Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。