Fugu-MT 論文翻訳(概要): ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing

論文の概要: ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing

arxiv url: http://arxiv.org/abs/2309.09128v2
Date: Wed, 20 Dec 2023 16:46:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 21:48:44.857693
Title: ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing
Title（参考訳）: ChainForge: プロンプトエンジニアリングとLLM仮説テストのためのビジュアルツールキット
Authors: Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg, Elena Glassman
Abstract要約: ChainForgeは、大規模な言語モデルの迅速なエンジニアリングとオンデマンド仮説テストのためのオープンソースのビジュアルツールキットである。モデル選択、プロンプトテンプレート設計、仮説テストをサポートする。我々は,3つの素早いエンジニアリングと仮説テストのモードを同定する:機会探索,限られた評価,反復的改善である。
参考スコア（独自算出の注目度）: 7.090890008867909
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating outputs of large language models (LLMs) is challenging, requiring making -- and making sense of -- many responses. Yet tools that go beyond basic prompting tend to require knowledge of programming APIs, focus on narrow domains, or are closed-source. We present ChainForge, an open-source visual toolkit for prompt engineering and on-demand hypothesis testing of text generation LLMs. ChainForge provides a graphical interface for comparison of responses across models and prompt variations. Our system was designed to support three tasks: model selection, prompt template design, and hypothesis testing (e.g., auditing). We released ChainForge early in its development and iterated on its design with academics and online users. Through in-lab and interview studies, we find that a range of people could use ChainForge to investigate hypotheses that matter to them, including in real-world settings. We identify three modes of prompt engineering and LLM hypothesis testing: opportunistic exploration, limited evaluation, and iterative refinement.
Abstract（参考訳）: 大規模言語モデル(llm)のアウトプットの評価は困難であり、多くの応答を -- 理解し -- する必要がある。しかし、基本的なプロンプトを超えたツールは、プログラミングAPIの知識、狭いドメインにフォーカスしたり、クローズドソースになる傾向がある。テキスト生成llmのプロンプトエンジニアリングとオンデマンド仮説テストのための,オープンソースのビジュアルツールキットであるchainforgeを提案する。 chainforgeは、モデル間の応答とプロンプトのバリエーションを比較するためのグラフィカルなインターフェースを提供する。提案システムは,モデル選択,プロンプトテンプレート設計,仮説テスト(監査など)の3つのタスクをサポートするように設計された。当社は開発の初期段階にchainforgeをリリースし、アカデミックやオンラインユーザによる設計を繰り返し行いました。インラボやインタビュー研究を通じて、ChainForgeを使って、現実世界の設定を含む、自分たちにとって重要な仮説を調査できることがわかりました。我々は,3種類の即時エンジニアリングとLLM仮説テスト(機会探索,限られた評価,反復的改善)を同定した。

関連論文リスト

Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Trust but Verify! A Survey on Verification Design for Test-time Scaling [8.428618801719198]
テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
論文参考訳（メタデータ） (2025-08-20T22:27:21Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。 CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。 Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2025-02-13T15:07:20Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis [38.256412418893554]
視覚言語モデル(VLM)における多段階推論について検討する。まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
論文参考訳（メタデータ） (2024-06-28T14:04:10Z)
TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文参考訳（メタデータ） (2024-06-06T22:07:50Z)
Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文参考訳（メタデータ） (2024-05-28T08:01:26Z)
Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches [2.687757575672707]
我々は、分類、マッピング、分析を行うための新しい下流タスク分類法を開発した。主な分類基準は、タスクタイプの変動点を示しながら、共通点を強調することである。
論文参考訳（メタデータ） (2024-04-14T23:45:23Z)
Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2024-02-26T05:31:34Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Revisiting Prompt Engineering via Declarative Crowdsourcing [16.624577543520093]
大規模言語モデル(LLM)は、テキスト形式でデータを解釈し、生成するのに驚くほど強力ですが、脆弱でエラーを起こします。私たちは宣言的な急進的なエンジニアリングのビジョンを打ち出した。ソート、実体分解、計算に関する予備的ケーススタディは、我々のアプローチの可能性を実証している。
論文参考訳（メタデータ） (2023-08-07T18:04:12Z)
Chain-Of-Thought Prompting Under Streaming Batch: A Case Study [0.7106986689736827]
CoT(Chain-of-Thought)は、複雑な推論を行う上で、LLM(Large Language Models)を支援する方法として提案されている。本稿では,ストリーミング設定におけるバッチデータを用いたチェーン・オブ・ソート・プロンプトの構築と最適化に関するケーススタディを提案する。
論文参考訳（メタデータ） (2023-06-01T11:11:39Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。