論文の概要: ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis
Testing
- arxiv url: http://arxiv.org/abs/2309.09128v2
- Date: Wed, 20 Dec 2023 16:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 21:48:44.857693
- Title: ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis
Testing
- Title(参考訳): ChainForge: プロンプトエンジニアリングとLLM仮説テストのためのビジュアルツールキット
- Authors: Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg,
Elena Glassman
- Abstract要約: ChainForgeは、大規模な言語モデルの迅速なエンジニアリングとオンデマンド仮説テストのためのオープンソースのビジュアルツールキットである。
モデル選択、プロンプトテンプレート設計、仮説テストをサポートする。
我々は,3つの素早いエンジニアリングと仮説テストのモードを同定する:機会探索,限られた評価,反復的改善である。
- 参考スコア(独自算出の注目度): 7.090890008867909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating outputs of large language models (LLMs) is challenging, requiring
making -- and making sense of -- many responses. Yet tools that go beyond basic
prompting tend to require knowledge of programming APIs, focus on narrow
domains, or are closed-source. We present ChainForge, an open-source visual
toolkit for prompt engineering and on-demand hypothesis testing of text
generation LLMs. ChainForge provides a graphical interface for comparison of
responses across models and prompt variations. Our system was designed to
support three tasks: model selection, prompt template design, and hypothesis
testing (e.g., auditing). We released ChainForge early in its development and
iterated on its design with academics and online users. Through in-lab and
interview studies, we find that a range of people could use ChainForge to
investigate hypotheses that matter to them, including in real-world settings.
We identify three modes of prompt engineering and LLM hypothesis testing:
opportunistic exploration, limited evaluation, and iterative refinement.
- Abstract(参考訳): 大規模言語モデル(llm)のアウトプットの評価は困難であり、多くの応答を -- 理解し -- する必要がある。
しかし、基本的なプロンプトを超えたツールは、プログラミングAPIの知識、狭いドメインにフォーカスしたり、クローズドソースになる傾向がある。
テキスト生成llmのプロンプトエンジニアリングとオンデマンド仮説テストのための,オープンソースのビジュアルツールキットであるchainforgeを提案する。
chainforgeは、モデル間の応答とプロンプトのバリエーションを比較するためのグラフィカルなインターフェースを提供する。
提案システムは,モデル選択,プロンプトテンプレート設計,仮説テスト(監査など)の3つのタスクをサポートするように設計された。
当社は開発の初期段階にchainforgeをリリースし、アカデミックやオンラインユーザによる設計を繰り返し行いました。
インラボやインタビュー研究を通じて、ChainForgeを使って、現実世界の設定を含む、自分たちにとって重要な仮説を調査できることがわかりました。
我々は,3種類の即時エンジニアリングとLLM仮説テスト(機会探索,限られた評価,反復的改善)を同定した。
関連論文リスト
- Visual CoT: Unleashing Chain-of-Thought Reasoning in Multi-Modal Language Models [40.972648044298374]
本稿では,マルチモーダル大規模言語モデル (MLLM) の推論機能を利用した新しいパイプラインである Visual CoT について述べる。
373k の質問応答対からなる Visual CoT データセットを収集,導入した。
実験では、我々のフレームワークの有効性を実証し、より良い推論戦略に光を当てました。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based
Question Answering [62.14682452663157]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - Revisiting Prompt Engineering via Declarative Crowdsourcing [16.624577543520093]
大規模言語モデル(LLM)は、テキスト形式でデータを解釈し、生成するのに驚くほど強力ですが、脆弱でエラーを起こします。
私たちは宣言的な急進的なエンジニアリングのビジョンを打ち出した。
ソート、実体分解、計算に関する予備的ケーススタディは、我々のアプローチの可能性を実証している。
論文 参考訳(メタデータ) (2023-08-07T18:04:12Z) - Chain-Of-Thought Prompting Under Streaming Batch: A Case Study [0.7106986689736827]
CoT(Chain-of-Thought)は、複雑な推論を行う上で、LLM(Large Language Models)を支援する方法として提案されている。
本稿では,ストリーミング設定におけるバッチデータを用いたチェーン・オブ・ソート・プロンプトの構築と最適化に関するケーススタディを提案する。
論文 参考訳(メタデータ) (2023-06-01T11:11:39Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。