論文の概要: Assessing the Interpretability of Programmatic Policies with Large
Language Models
- arxiv url: http://arxiv.org/abs/2311.06979v2
- Date: Sat, 20 Jan 2024 09:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:18:54.643158
- Title: Assessing the Interpretability of Programmatic Policies with Large
Language Models
- Title(参考訳): 大規模言語モデルによるプログラムポリシーの解釈可能性の評価
- Authors: Zahra Bashir, Michael Bowling, Levi H. S. Lelis
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてプログラムポリシーの解釈可能性を評価する手法を提案する。
我々は,リアルタイム戦略ゲームを行うための,人工的かつ人為的なプログラムポリシーを用いて,我々のアプローチを検証する。
我々のLLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。
- 参考スコア(独自算出の注目度): 21.785049132732528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the synthesis of programs encoding policies often carries the
promise of interpretability, systematic evaluations were never performed to
assess the interpretability of these policies, likely because of the complexity
of such an evaluation. In this paper, we introduce a novel metric that uses
large-language models (LLM) to assess the interpretability of programmatic
policies. For our metric, an LLM is given both a program and a description of
its associated programming language. The LLM then formulates a natural language
explanation of the program. This explanation is subsequently fed into a second
LLM, which tries to reconstruct the program from the natural-language
explanation. Our metric then measures the behavioral similarity between the
reconstructed program and the original. We validate our approach with
synthesized and human-crafted programmatic policies for playing a real-time
strategy game, comparing the interpretability scores of these programmatic
policies to obfuscated versions of the same programs. Our LLM-based
interpretability score consistently ranks less interpretable programs lower and
more interpretable ones higher. These findings suggest that our metric could
serve as a reliable and inexpensive tool for evaluating the interpretability of
programmatic policies.
- Abstract(参考訳): ポリシーを符号化するプログラムの合成は、しばしば解釈可能性の約束をもたらすが、このような評価の複雑さのために、これらのポリシーの解釈可能性を評価する体系的な評価は行われなかった。
本稿では,大規模言語モデル(llm)を用いてプログラム政策の解釈可能性を評価する新しい指標を提案する。
我々のメトリクスでは、LLMはプログラムと関連するプログラミング言語の記述の両方を与えられる。
LLMはその後、プログラムの自然言語説明を定式化する。
この説明はその後第二のLSMに送られ、自然言語の説明からプログラムを再構築しようとする。
提案手法は,再構成プログラムとオリジナルとの動作類似度を測定する。
実時間戦略ゲームにおいて,本手法を人為的かつ人工的なプログラムポリシーを用いて検証し,これらのプログラムポリシーの解釈可能性スコアを同一プログラムの難読化バージョンと比較した。
LLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。
これらの結果は, プログラム政策の解釈可能性を評価する上で, 信頼性が高く安価なツールとなりうることを示唆する。
関連論文リスト
- Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Synthetic Programming Elicitation for Text-to-Code in Very Low-Resource Programming and Formal Languages [21.18996339478024]
SPEAC(emphsynthetic programming elicitation and compilation)を紹介する。
SPEACは、より頻繁に、意味的正しさを犠牲にすることなく、構文的に正しいプログラムを生成する。
UCLID5形式検証言語のケーススタディにおいて,SPEACの性能を実証的に評価した。
論文 参考訳(メタデータ) (2024-06-05T22:16:19Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU
Networks [20.2777559515384]
PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。
本稿では,プログラムポリシーを符号化する言語によって,PIRL固有のアルゴリズムは不要であることを示す。
我々は、ReLUニューラルネットワークと斜め決定木との接続を用いて、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
論文 参考訳(メタデータ) (2023-08-04T22:17:32Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Neuro-Symbolic Causal Language Planning with Commonsense Prompting [67.06667162430118]
言語プランニングは、より単純な低レベルステップに分解することで、複雑な高レベルな目標を実装することを目的としている。
以前の手法では、大規模な言語モデルからそのような能力を得るために、手動の例えか注釈付きプログラムが必要である。
本稿では,LLMからの手続き的知識をコモンセンス・インフュージョン・プロンプトにより引き起こすニューロシンボリック因果言語プランナー(CLAP)を提案する。
論文 参考訳(メタデータ) (2022-06-06T22:09:52Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Learning from Executions for Semantic Parsing [86.94309120789396]
注釈付きデータの限られた量が利用できる半教師付き学習の課題に焦点をあてる。
ラベルなし発話に対する実行可能プログラムを提案する。
論文 参考訳(メタデータ) (2021-04-12T21:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。