このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240209となっている論文です。

PDF登録状況(公開日: 20240209)

TitleAuthorsAbstract論文公表日・翻訳日
# 意識に基づく双方向リカレントニューラルネットワークによるReddit投稿からのオピオイドユーザ検出

Detection of Opioid Users from Reddit Posts via an Attention-based Bidirectional Recurrent Neural Network ( http://arxiv.org/abs/2403.15393v1 )

ライセンス: Link先を確認
Yuchen Wang, Zhengyu Fang, Wei Du, Shuai Xu, Rong Xu, Jing Li, (参考訳) オピオイドの流行は、オピオイドの使用と依存の過剰摂取による入院や死亡の増加を指しており、米国では深刻な健康問題となっている。 この危機に対処するために、連邦政府や地方自治体、医療コミュニティによって多くの戦略が開発されてきた。 そのうちの1つは、より良い健康監視を通じて、疫病に対する理解を深めることが最優先事項である。 直接テストに加えて、多くのオピオイドユーザーがテストを行わず、匿名でソーシャルメディアで経験を共有することができるため、オピオイドユーザーをソーシャルメディアから分析することで検出することもできる。 本稿では,オピオイドユーザを特定することを目的として,人気ソーシャルネットワークRedditのユーザ投稿を収集し,分析する機械学習の最近の進歩を活用する。 1ヶ月間に3つのサブレディットに投稿した1000人以上のユーザーからの投稿が収集された。 オピオイド、オピオイト、ヘロインなどのキーワードを含むものに加えて、黒やチョコレートなどのオピオイドのスラング語を含むポストも収集した。 我々は,オピオイドユーザを特定するために,注目に基づく双方向長短メモリモデルを適用した。 実験の結果,F1スコアでは競合アルゴリズムよりも有意に優れていた。 さらに、このモデルにより、注目層を介して投稿からオピエート、オピオイド、ブラックなどの最も情報に富んだ単語を抽出することが可能となり、この機械学習アルゴリズムがドラッグユーザーと非ドラッグユーザーを区別する方法についてより深い洞察が得られる。

The opioid epidemic, referring to the growing hospitalizations and deaths because of overdose of opioid usage and addiction, has become a severe health problem in the United States. Many strategies have been developed by the federal and local governments and health communities to combat this crisis. Among them, improving our understanding of the epidemic through better health surveillance is one of the top priorities. In addition to direct testing, machine learning approaches may also allow us to detect opioid users by analyzing data from social media because many opioid users may choose not to do the tests but may share their experiences on social media anonymously. In this paper, we take advantage of recent advances in machine learning, collect and analyze user posts from a popular social network Reddit with the goal to identify opioid users. Posts from more than 1,000 users who have posted on three sub-reddits over a period of one month have been collected. In addition to the ones that contain keywords such as opioid, opiate, or heroin, we have also collected posts that contain slang words of opioid such as black or chocolate. We apply an attention-based bidirectional long short memory model to identify opioid users. Experimental results show that the approaches significantly outperform competitive algorithms in terms of F1-score. Furthermore, the model allows us to extract most informative words, such as opiate, opioid, and black, from posts via the attention layer, which provides more insights on how the machine learning algorithm works in distinguishing drug users from non-drug users.
翻訳日:2024-04-01 03:13:49 公開日:2024-02-09
# CiFlow: 同型暗号化のためのキースイッチングのデータフロー解析と最適化

CiFlow: Dataflow Analysis and Optimization of Key Switching for Homomorphic Encryption ( http://arxiv.org/abs/2311.01598v2 )

ライセンス: Link先を確認
Negar Neda, Austin Ebel, Benedict Reynwar, Brandon Reagen, (参考訳) ホモモルフィック暗号化(HE)は、暗号化されたデータの計算を可能にするプライバシー保護計算技術である。 現在、HEのポテンシャルは非現実的であり、不可分に遅いため、実際のアプリケーションでの使用を妨げている。 HEの主な計算ボトルネックはキースイッチ操作であり、HEの実行時間の約70%を占め、入力、中間、キーに対する大量のデータを含む。 従来の研究では、HE性能を改善するハードウェアアクセラレータに重点を置いており、大容量のオンチップSRAMと大規模なデータを扱うためのオフチップ帯域幅が特徴である。 本稿では,そのデータフローを厳密に解析することでキースイッチング性能を向上させる新しい手法を提案する。 第一の目的は、オンチップメモリに制限のあるデータ再利用を最適化し、オフチップのデータ移動を最小限にすることです。 最大パラメータ(MP)、Digital-Centric(DC)、Output-Centric(OC)の3つの異なるデータフローを導入する。 本稿では,提案手法を用いて,中間鍵スイッチング作業セットを大幅に削減し,オフチップ帯域幅の大幅な削減を図り,データ再利用を効果的に行なえることを示す。 HEを含むリング処理アルゴリズムに適したベクトルプロセッサであるRPUを用いて,3つのデータフローを徹底的に評価した。 この評価は、帯域幅と計算スループットの網羅性、キーがチップ上でバッファリングされているか、あるいはストリーミングされているかを考慮する。 OCでは、MPデータフロー上で最大4.16倍のスピードアップを示し、OCが16倍のチップ上のSRAMをストリーミングキーで保存し、パフォーマンス上のペナルティを最小限に抑える方法を示している。

Homomorphic encryption (HE) is a privacy-preserving computation technique that enables computation on encrypted data. Today, the potential of HE remains largely unrealized as it is impractically slow, preventing it from being used in real applications. A major computational bottleneck in HE is the key-switching operation, accounting for approximately 70% of the overall HE execution time and involving a large amount of data for inputs, intermediates, and keys. Prior research has focused on hardware accelerators to improve HE performance, typically featuring large on-chip SRAMs and high off-chip bandwidth to deal with large scale data. In this paper, we present a novel approach to improve key-switching performance by rigorously analyzing its dataflow. Our primary goal is to optimize data reuse with limited on-chip memory to minimize off-chip data movement. We introduce three distinct dataflows: Max-Parallel (MP), Digit-Centric (DC), and Output-Centric (OC), each with unique scheduling approaches for key-switching computations. Through our analysis, we show how our proposed Output-Centric technique can effectively reuse data by significantly lowering the intermediate key-switching working set and alleviating the need for massive off-chip bandwidth. We thoroughly evaluate the three dataflows using the RPU, a recently published vector processor tailored for ring processing algorithms, which includes HE. This evaluation considers sweeps of bandwidth and computational throughput, and whether keys are buffered on-chip or streamed. With OC, we demonstrate up to 4.16x speedup over the MP dataflow and show how OC can save 16x on-chip SRAM by streaming keys for minimal performance penalty.
翻訳日:2024-03-25 13:45:54 公開日:2024-02-09
# 数理論変換におけるモジュールアルゴリズムとバタフライ演算について

On Modular Algorithms and Butterfly Operations in Number Theoretic Transform ( http://arxiv.org/abs/2402.00675v2 )

ライセンス: Link先を確認
Yanze Yang, Yiran Jia, Guangwu Xu, (参考訳) 数論変換(NTT)は数論、代数、暗号の計算において非常に有用なツールである。 その性能は量子後暗号システムに影響を及ぼす。 本稿ではNTTのバタフライ操作について論じる。 NTTの基本モジュールは、重いモジュラー演算を必要とする。 モンゴメリー還元はこの設定で一般的に使用される。 近年,NTTの高速化を目的としたモンゴメリーアルゴリズムの変種がいくつか提案されている。 我々は、中国の剰余定理(CRT)が自然かつ透明な方法でこの種のアルゴリズムに関わっていることを観察する。 論文の前半では、モンゴメリー型アルゴリズムをモデル化するためにCRTを使用するフレームワークについて述べる。 これらのアルゴリズムの導出と正確性は、すべてCRTフレームワークで扱われる。 提案手法では,モジュールリダクションアルゴリズム(IACR Transactions on Cryptographic Hardware and Embedded Systems, doi:10.46586/tches.v2022.i4.614-636 )のいくつかの問題を同定し,そのアルゴリズムが正しくないことを示す。 論文の第2部では、Scottによる蝶構造を組合わせるために、Planardのモジュラ乗算アルゴリズムを変更し、NTT用の蝶モジュールの計算を改良した。 実験の結果,従来のNTT方式と比較して性能がよいことがわかった。

Number theoretic transform (NTT) has been a very useful tool in computations for number theory, algebra and cryptography. Its performance affects some post-quantum cryptosystems. In this paper, we discuss the butterfly operation of NTT. This basic module of NTT requires heavy modular arithmetics. Montgomery reduction is commonly used in this setting. Recently several variants of Montgomery algorithm have been proposed for the purpose of speeding up NTT. We observe that the Chinese remainder theorem (CRT) can be involved in this type of algorithms in natural and transparent ways. In the first part of the paper, a framework of using CRT to model Montgomery type algorithms is described. The derivation of these algorithms as well as their correctness are all treated in the CRT framework. Under our approach, some problems of a modular reduction algorithm (published in IACR Transactions on Cryptographic Hardware and Embedded Systems, doi:10.46586/tches.v2022.i4.614-636 ) are identified, and a counterexample is generated to show that the algorithm is incorrect. In the second part of the paper, we modify a modular multiplication algorithm of Plantard to suite the butterfly structure by Scott, an improved computation of the butterfly module for NTT is obtained. Experiments show that the method performs better compared to NTT implementations using previous popular methods.
翻訳日:2024-03-25 12:08:11 公開日:2024-02-09
# パスワードは秘密になる:Webブラウザの安全なパスワード入力チャネル

Passwords Are Meant to Be Secret: A Practical Secure Password Entry Channel for Web Browsers ( http://arxiv.org/abs/2402.06159v1 )

ライセンス: Link先を確認
Anuj Gautam, Tarun Kumar Yadav, Kent Seamons, Scott Ruoti, (参考訳) パスワードベースの認証は、様々なセキュリティとユーザビリティの問題に直面している。 パスワードマネージャは、ユーザーがパスワードを効果的に管理できるようにすることで、これらの問題の一部を緩和するのに役立つ。 しかし、悪意のあるクライアントサイドスクリプトやブラウザ拡張機能は、管理者によってWebページにオートフィルされた後にパスワードを盗むことができる。 本稿では,パスワードマネージャがユーザ動作の変更を必要とせずに,自動記入証明書の盗難を防止する上で,どのような役割を果たせるかを検討する。 この目的のために,パスワード抽出の脅威モデルを特定し,この脅威モデルを用いてパスワードマネージャを用いて実装された安全なパスワード入力のための設計空間を探索する。 この問題に対処する5つの潜在的な設計を特定します。 我々の分析では、セキュリティとユーザビリティのバランスの最も良い設計は、管理者が偽パスワードをオートフィルし、Webリクエストがネットワーク経由で送信されるオペレーティングシステムに渡される直前に、偽パスワードを実際のパスワードに置き換えるためにブラウザに依存することである。 これにより、悪意のあるクライアントサイドスクリプトやブラウザ拡張機能が実際のパスワードにアクセスし、流出する機能を取り除くことができる。 私たちはFirefoxブラウザに設計を実装し、Alexaのトップ1000のWebサイトの97\%で悪意のあるスクリプトやエクステンションを回避し、残りのWebサイト上でデフォルトの動作に戻る機能を維持しながら、機能のレグレッションを回避したことを実証した実験を行っています。 最も重要なことは、このデザインがユーザにとって透過的であり、ユーザの振る舞いを変える必要はないことだ。

Password-based authentication faces various security and usability issues. Password managers help alleviate some of these issues by enabling users to manage their passwords effectively. However, malicious client-side scripts and browser extensions can steal passwords after they have been autofilled by the manager into the web page. In this paper, we explore what role the password manager can take in preventing the theft of autofilled credentials without requiring a change to user behavior. To this end, we identify a threat model for password exfiltration and then use this threat model to explore the design space for secure password entry implemented using a password manager. We identify five potential designs that address this issue, each with varying security and deployability tradeoffs. Our analysis shows the design that best balances security and usability is for the manager to autofill a fake password and then rely on the browser to replace the fake password with the actual password immediately before the web request is handed over to the operating system to be transmitted over the network. This removes the ability for malicious client-side scripts or browser extensions to access and exfiltrate the real password. We implement our design in the Firefox browser and conduct experiments, which show that it successfully thwarts malicious scripts and extensions on 97\% of the Alexa top 1000 websites, while also maintaining the capability to revert to default behavior on the remaining websites, avoiding functionality regressions. Most importantly, this design is transparent to users, requiring no change to user behavior.
翻訳日:2024-03-25 11:58:26 公開日:2024-02-09
# ブロックチェーン・ブリブリング・アタックとアンチインセンティブの有効性

Blockchain Bribing Attacks and the Efficacy of Counterincentives ( http://arxiv.org/abs/2402.06352v1 )

ライセンス: Link先を確認
Dimitris Karakostas, Aggelos Kiayias, Thomas Zacharias, (参考訳) ゲーム理論の観点から,分散台帳におけるブラビング攻撃を解析する。 ブルービング攻撃では、相手は保守者に対して、プロトコルのプロパティを攻撃することを目的として、行動の仕方を指示する代わりに、金銭的な報酬を提供する。 贈賄方法によっては2種類の贈賄が検討される。 一 贈賄は、贈賄当事者が指示どおりに振る舞う限り、贈賄する。 ii) 効果的な贈賄(bribes)は、攻撃の成功を条件に、w.r.t. well-definedのメトリクスである。 ゲーム理論設定における各種類の攻撃を分析し、関連する平衡を同定する。 誘導的ブレンビングでは、このプロトコルは平衡ではなく、攻撃が失敗する良い均衡と、攻撃が成功するように全ての当事者が編み出される負の均衡を記述している。 効果的なブレンビングでは、プロトコルと"オールブリブ"の設定が平衡であることが示される。 同定された平衡を用いて、安定性とアナーキーの価格のバウンダリを計算する。 以上の結果から, 洗浄・希釈というインセンティブに基づく緩和技術が本研究の結論となる。 ここでは、プロトコルを均衡させ、すべての当事者に対して最大限の福祉を達成するという2つの肯定的な結果と、台帳の市場価格に悪影響を及ぼすと攻撃がより妥当になるという負の結果を示す。

We analyze bribing attacks in distributed ledgers from a game theoretic perspective. In bribing attacks, an adversary offers to maintainers a financial reward, in exchange for instructing them on how to behave, with the goal of attacking the protocol's properties. We consider two types of bribing, depending on how the bribes are awarded: i) guided bribing, where the bribe is given as long as the bribed party behaves as instructed; ii) effective bribing, where bribes are conditional on the attack's success, w.r.t. well-defined metrics. We analyze each type of attack in a game theoretic setting and identify relevant equilibria. In guided bribing, we show that the protocol is not an equilibrium and then describe good equilibria, where the attack is unsuccessful, and a negative one, where all parties are bribed such that the attack succeeds. In effective bribing, we show that both the protocol and the "all bribed" setting are equilibria. Using the identified equilibria, we then compute bounds on the Prices of Stability and Anarchy. Our results indicate that additional mitigations are needed for guided bribing, so our analysis concludes with incentive-based mitigation techniques, namely slashing and dilution. Here, we present two positive results, that both render the protocol an equilibrium and achieve maximal welfare for all parties, and a negative result, wherein an attack becomes more plausible if it severely affects the ledger's token's market price.
翻訳日:2024-03-25 11:48:41 公開日:2024-02-09
# StruQ: 構造化クエリによるプロンプトインジェクションの回避

StruQ: Defending Against Prompt Injection with Structured Queries ( http://arxiv.org/abs/2402.06363v1 )

ライセンス: Link先を確認
Sizhe Chen, Julien Piet, Chawin Sitawarin, David Wagner, (参考訳) 近年のLarge Language Models (LLMs) は,高度な言語理解機能を活用してテキストベースのタスクを実行する,エキサイティングなLLM統合アプリケーションを実現する。 しかし、LSMは改善されているため、それらに対する攻撃も行われている。 プロンプトインジェクション攻撃は重要な脅威であり、それらはモデルを騙して元のアプリケーションの命令から逸脱させ、代わりにユーザーディレクティブに従う。 これらの攻撃は、LSMが指示に従う能力と、プロンプトとユーザーデータを分離できない能力に依存している。 この問題に対処するための一般的なアプローチである構造化クエリを導入する。 構造化クエリはプロンプトとデータを2つのチャネルに分離する。 構造化クエリをサポートするシステムを実装している。 本システムは,(1)プロンプトとユーザデータを特別なフォーマットにフォーマットするセキュアなフロントエンドと,(2)これらの入力から高品質な出力を生成できる特別に訓練されたLCMとから構成される。 LLMは、新しい微調整戦略を用いて訓練される: ベース(命令なし)のLSMを、クエリの即時部分の命令のみに従う構造化命令調整モデルに変換する。 そのため、クエリのデータ部分にインストラクションを含む例で標準のインストラクションチューニングデータセットを拡張し、これらを無視してモデルを微調整する。 本システムでは, インジェクション攻撃に対する抵抗性を著しく改善し, 実用性にはほとんど, あるいは全く影響を与えない。 私たちのコードはhttps://github.com/Sizhe-Chen/PromptInjectionDefense.comでリリースされています。

Recent advances in Large Language Models (LLMs) enable exciting LLM-integrated applications, which perform text-based tasks by utilizing their advanced language understanding capabilities. However, as LLMs have improved, so have the attacks against them. Prompt injection attacks are an important threat: they trick the model to deviate from the original application's instructions and instead follow user directives. These attacks rely on the LLM's ability to follow instructions and inability to separate the prompts and user data. We introduce structured queries, a general approach to tackle this problem. Structured queries separate prompts and data into two channels. We implement a system that supports structured queries. This system is made of (1) a secure front-end that formats a prompt and user data into a special format, and (2) a specially trained LLM that can produce high-quality outputs from these inputs. The LLM is trained using a novel fine-tuning strategy: we convert a base (non-instruction-tuned) LLM to a structured instruction-tuned model that will only follow instructions in the prompt portion of a query. To do so, we augment standard instruction tuning datasets with examples that also include instructions in the data portion of the query, and fine-tune the model to ignore these. Our system significantly improves resistance to prompt injection attacks, with little or no impact on utility. Our code is released at https://github.com/Sizhe-Chen/PromptInjectionDefense.
翻訳日:2024-03-25 11:48:41 公開日:2024-02-09
# Rhysida Ransomware で感染したデータの復号法

A Method for Decrypting Data Infected with Rhysida Ransomware ( http://arxiv.org/abs/2402.06440v1 )

ライセンス: Link先を確認
Giyoon Kim, Soojin Kang, Seungjun Baek, Kimoon Kim, Jongsung Kim, (参考訳) ランサムウェアは悪意のあるソフトウェアであり、世界的なサイバーセキュリティの脅威となっている。 通常、ランサムウェアはシステムのデータを暗号化し、攻撃者の秘密鍵なしでは復号できない。 その後、被害者はしばしばデータ回復のためにかなりの身代金を払うが、被害や損失を被る者もいる。 本研究では2023年後半に重大な被害を受けたRhysida ransomwareについて検討し,復号化手法を提案する。 ライシダ・ランサムウェアはセキュアな乱数生成器を使用して暗号鍵を生成し、その後データを暗号化した。 しかし,感染時に乱数発生器の内部状態を再現できる実装脆弱性が存在した。 再生した乱数生成器を用いてデータを復号することに成功した。 我々の知る限りでは、これはRhysidaランサムウェアの解読に成功した最初の成功例である。 我々は,Rhysidaランサムウェアによる被害を軽減するために,我々の研究に貢献することを願っている。

Ransomware is malicious software that is a prominent global cybersecurity threat. Typically, ransomware encrypts data on a system, rendering the victim unable to decrypt it without the attacker's private key. Subsequently, victims often pay a substantial ransom to recover their data, yet some may still incur damage or loss. This study examines Rhysida ransomware, which caused significant damage in the second half of 2023, and proposes a decryption method. Rhysida ransomware employed a secure random number generator to generate the encryption key and subsequently encrypt the data. However, an implementation vulnerability existed that enabled us to regenerate the internal state of the random number generator at the time of infection. We successfully decrypted the data using the regenerated random number generator. To the best of our knowledge, this is the first successful decryption of Rhysida ransomware. We aspire for our work to contribute to mitigating the damage inflicted by the Rhysida ransomware.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-09
# 意思決定の決定力:低分散リスク制限監査とマルジナルマーク記録による選挙コンテスト

The Decisive Power of Indecision: Low-Variance Risk-Limiting Audits and Election Contestation via Marginal Mark Recording ( http://arxiv.org/abs/2402.06515v1 )

ライセンス: Link先を確認
Benjamin Fuller, Rashmi Pai, Alexander Russell, (参考訳) リスク制限監査(RLA)は、大規模な選挙を検証するための確立された技術である。 正確性に関する厳密な保証を提供する一方で、効率上の懸念と、それらが絶対的な結論ではなく統計的に提供しているという事実の両方によって広く採用が妨げられている。 これらの問題に対処するための監査の新たなファミリーを定義します。 我々の新しい監査は、キャスト・ボイト・レコードの標準概念を再考することで、単一の決定ではなく、複数の可能なマーク解釈を宣言できるようにします。 既存の監査インフラにマイナーな変更を加えるだけで、この単純な迅速さによって、大幅な効率改善が実現できることが示される。 これらの「ベイジアン」比較監査は、正式な意味ではリスク制限である(Fuller, Harrison, and Russell, 2022)。 次に、競合監査と呼ぶ新しいタイプの選挙後監査を定義します。 それぞれの候補者に、自分の勝利の主張を推し進めるキャスティング・ボイト・レコード・テーブルを提供するよう呼びかける。 これらの監査は、一定の数の投票検査のみで、無視可能なリスクを保証します。 これは、証明可能な音のオーディションとしては初めてのものです。 これらの結果は、定量的な音質と完全性を保証するゲームベースのセキュリティモデルで定式化される。 最後に,これらの監査は,従来のRSAによる選挙結果の競合に対処する直接的な手段となることを観察する。

Risk-limiting audits (RLAs) are the established techniques for verifying large elections. While they provide rigorous guarantees of correctness, widespread adoption has been impeded by both efficiency concerns and the fact they offer statistical, rather than absolute, conclusions. We define new families of audits that help to address these issues. Our new audits are enabled by revisiting the standard notion of a cast-vote record so that it can declare multiple possible mark interpretations rather than a single decision; this can reflect the presence of ambiguous marks, which appear regularly on hand-marked ballots. We show that this simple expedient can offer significant efficiency improvements with only minor changes to existing auditing infrastructure. We establish that these "Bayesian" comparison audits are indeed risk-limiting in the formal sense of (Fuller, Harrison, and Russell, 2022). We then define a new type of post-election audit we call a contested audit. These call for each candidate to provide a cast-vote record table advancing their own claim to victory. We prove that these audits offer remarkable sample efficiency: they guarantee negligible risk with only a constant number of ballot inspections. This is a first for an audit with provable soundness. These results are formulated in a game-based security model that specify quantitative soundness and completeness guarantees. Finally, we observe that these audits provide a direct means to handle contestation of election results affirmed by conventional RLAs.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-09
# HoneyDOC: オールロード設計を実現する効率的なHoneypotアーキテクチャ

HoneyDOC: An Efficient Honeypot Architecture Enabling All-Round Design ( http://arxiv.org/abs/2402.06516v1 )

ライセンス: Link先を確認
Wenjun Fan, Zhihui Du, Max Smith-Creasey, David Fernández, (参考訳) ハニーポットは悪意のある行動を調べるために攻撃者を罠にかけるように設計されている。 サイバー攻撃の多様性と高度化により、ハニーポット領域の文脈では、高品質な攻撃データを捕捉する方法が課題となっている。 センシティビリティ、対策、ステルスの大幅な改善を意味する全周ハニーポットは、この問題に対処するために必要である。 本稿では,ハニーポット全体の設計と実装を支援する新しいハニーポットアーキテクチャHoneyDOCを提案する。 私たちのHoneyDOCアーキテクチャは、Decoy、Captor、Orchestratorという3つの重要な独立した協調モジュールを明確に識別しています。 この効率的なアーキテクチャに基づいて、SDN(Software-Defined Networking)によって実現されたハニーポットシステムを設計し、高品質なデータをキャプチャする機能を技術的に維持するための高いプログラマビリティを提供する。 概念実証システムは、その実現可能性と有効性を検証するために実装される。 実験の結果,提案したアーキテクチャを以前のハニーポットソリューションと比較することで,利点が示された。

Honeypots are designed to trap the attacker with the purpose of investigating its malicious behavior. Owing to the increasing variety and sophistication of cyber attacks, how to capture high-quality attack data has become a challenge in the context of honeypot area. All-round honeypots, which mean significant improvement in sensibility, countermeasure and stealth, are necessary to tackle the problem. In this paper, we propose a novel honeypot architecture termed HoneyDOC to support all-round honeypot design and implementation. Our HoneyDOC architecture clearly identifies three essential independent and collaborative modules, Decoy, Captor and Orchestrator. Based on the efficient architecture, a Software-Defined Networking (SDN) enabled honeypot system is designed, which supplies high programmability for technically sustaining the features for capturing high-quality data. A proof-of-concept system is implemented to validate its feasibility and effectiveness. The experimental results show the benefits by using the proposed architecture comparing to the previous honeypot solutions.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-09
# MSTおよびPrivBayesにおける高エプシロン合成データ脆弱性

High Epsilon Synthetic Data Vulnerabilities in MST and PrivBayes ( http://arxiv.org/abs/2402.06699v1 )

ライセンス: Link先を確認
Steven Golob, Sikha Pentyala, Anuar Maratkhan, Martine De Cock, (参考訳) 合成データ生成(SDG)は、プライバシー向上技術としてますます人気が高まっている。 個人識別可能な情報を除いて、基礎となるトレーニングデータの重要な統計特性を維持することを目的としている。 SDGアルゴリズムは、これらの両方の目的を改善しバランスをとるために、近年、多くのホストが開発されている。 これらのアルゴリズムの多くは、堅牢な差分プライバシー保証を提供する。 しかしここでは、差分プライバシーパラメータ$\varepsilon$が高すぎると、あいまいなプライバシー漏洩が発生することを示す。 MSTとPrivBayesという2つの最先端の差分型SDGアルゴリズムに対して,新たなメンバシップ推論攻撃(MIA)を行うことにより,これを実証する。 私たちの研究は、これらのジェネレータには、これまで見たことのない脆弱性があり、彼らのプライバシーを強化するための今後の作業が推奨されることを示唆している。 私たちはMIAのヒューリスティックをここで紹介します。 補助的な「人口」データの知識を仮定し、どのSDGアルゴリズムが使われたかの知識も仮定する。 我々はこの情報を用いて、最近のDOMIAS MIAを MST と PrivBayes に一意に適応させる。 われわれのアプローチは2023年11月のSNAKEチャレンジで勝利した。

Synthetic data generation (SDG) has become increasingly popular as a privacy-enhancing technology. It aims to maintain important statistical properties of its underlying training data, while excluding any personally identifiable information. There have been a whole host of SDG algorithms developed in recent years to improve and balance both of these aims. Many of these algorithms provide robust differential privacy guarantees. However, we show here that if the differential privacy parameter $\varepsilon$ is set too high, then unambiguous privacy leakage can result. We show this by conducting a novel membership inference attack (MIA) on two state-of-the-art differentially private SDG algorithms: MST and PrivBayes. Our work suggests that there are vulnerabilities in these generators not previously seen, and that future work to strengthen their privacy is advisable. We present the heuristic for our MIA here. It assumes knowledge of auxiliary "population" data, and also assumes knowledge of which SDG algorithm was used. We use this information to adapt the recent DOMIAS MIA uniquely to MST and PrivBayes. Our approach went on to win the SNAKE challenge in November 2023.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-09
# Gore Diffusion LoRAモデル

Gore Diffusion LoRA Model ( http://arxiv.org/abs/2403.08812v1 )

ライセンス: Link先を確認
Ayush Thakur, Ashwani Kumar Dubey, (参考訳) AI(Emergence of Artificial Intelligence)は暴力への関与に大きな影響を与え、暴力的イメージのアルゴリズム作成に関する倫理的な議論を引き起こした。 本稿では、激しい暴力や流血を描写した超現実的視覚を生成するのに熟練した革新的なAIモデルである"Gore Diffusion LoRA Model"を精査する。 我々の探索は、その利用に固有の技術的複雑さ、もっともらしい応用、倫理的四分儀を包含する。 このようなモデルの作成と実装は、AI、芸術、暴力の収束に関する綿密な議論を保証している、と我々は主張する。 さらに、我々は、これらの強力な技術の責任ある開発と倫理的展開を提唱する構造的枠組みを提唱する。

The Emergence of Artificial Intelligence (AI) has significantly impacted our engagement with violence, sparking ethical deliberations regarding the algorithmic creation of violent imagery. This paper scrutinizes the "Gore Diffusion LoRA Model," an innovative AI model proficient in generating hyper-realistic visuals portraying intense violence and bloodshed. Our exploration encompasses the model's technical intricacies, plausible applications, and the ethical quandaries inherent in its utilization. We contend that the creation and implementation of such models warrant a meticulous discourse concerning the convergence of AI, art, and violence. Furthermore, we advocate for a structured framework advocating responsible development and ethical deployment of these potent technologies.
翻訳日:2024-03-25 08:16:13 公開日:2024-02-09
# 拡散逆解法を改善する一貫性モデル

Consistency Models Improve Diffusion Inverse Solvers ( http://arxiv.org/abs/2403.12063v1 )

ライセンス: Link先を確認
Tongda Xu, Ziran Zhu, Dailan He, Yuanyuan Wang, Ming Sun, Ning Li, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang, (参考訳) Diffusion inversesolvr (DIS) は、$f(x) = y$ という制約を満たすことなく、拡散前に生存するイメージ $x$ を見つけることを目的としており、演算子 $f(.)$ と測定 $y$ が与えられる。 殆どの非線形 DIS は後方平均 $\hat{x}_{0|t}=\mathbb{E}[x_0|x_t]$ を用いて$f(.)$ を評価し、距離 $||f(\hat{x}_{0|t})-y|^2$ を最小化する。 以前の研究では、後進平均ベース距離が偏りがあることが示されており、代わりに、後進サンプル $x_{0|t}\sim p_{\theta}(x_0|x_t)$ はより良い候補を約束する。 本論文は, 後部サンプルがいつより良いのかを最初に明らかにする: 1)$$f(.)$ が線形である場合, 後部平均距離は, 1 つの後部サンプルと同程度であり, モンテカルロを必要としない場合, 2)$ $f(.)$ が非線形であれば, 後部サンプルを用いた距離の方がよい。 後部サンプルに対する以前の近似は実像に見えないため、高品質な近似として一貫性モデル(CM)を用いることを提案する。 さらに,純粋CMを用いた新しいdisファミリーを提案する。 実験により, 後方平均をCMで置き換えることにより, 非線形$f(.)$(egセマンティックセグメンテーション, 画像キャプション)のdis性能が向上することを示した。 さらに、純粋なCM逆変換は線型および非線形の$f(.)$の両方でうまく機能する。

Diffusion inverse solvers (DIS) aim to find an image $x$ that lives on the diffusion prior while satisfying the constraint $f(x) = y$, given an operator $f(.)$ and measurement $y$. Most non-linear DIS use posterior mean $\hat{x}_{0|t}=\mathbb{E}[x_0|x_t]$ to evaluate $f(.)$ and minimize the distance $||f(\hat{x}_{0|t})-y||^2$. Previous works show that posterior mean-based distance is biased; instead, posterior sample $x_{0|t}\sim p_{\theta}(x_0|x_t)$ promises a better candidate. In this paper, we first clarify when is posterior sample better: $1)$ When $f(.)$ is linear, the distance with posterior mean is as good as single posterior sample, thus preferable as it does not require Monte Carlo; $2)$ When $f(.)$ is non-linear, the distance using posterior sample is better. As previous approximations to posterior sample do not look like a real image, we propose to use consistency model (CM) as a high quality approximation. In addition, we propose a new family of DIS using pure CM. Empirically, we show that replacing posterior mean by CM improves DIS performance on non-linear $f(.)$ (e.g. semantic segmentation, image captioning). Further, our pure CM inversion works well for both linear and non-linear $f(.)$.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-09
# 任意サイズの体積X線データセットに対するSAMの適用

Adapting SAM for Volumetric X-Ray Data-sets of Arbitrary Sizes ( http://arxiv.org/abs/2403.12066v1 )

ライセンス: Link先を確認
Roland Gruber, Steffen Rüger, Thomas Wittenberg, (参考訳) 目的: 非破壊検査(NDT)のためのX線CT(CT)データにおいて,Segment Anything Model(SAM)とタイルベースのFlood Filling Networks(FFN)を組み合わせたボリュームインスタンスセグメンテーションを提案する。 本研究は、ボリュームNDTデータセットにおけるSAMの性能を評価し、課題の画像シナリオにおけるセグメントインスタンスの有効性を実証する。 方法: 画像ベースSAMアルゴリズムをボリュームデータセットを用いて拡張し, FFNの空間適応性を用いて3次元オブジェクトの分割を可能にする手法を実装, 評価した。 SAMのタイルベースのアプローチは、FFNの機能を利用して任意のサイズのオブジェクトを分割する。 また,セグメンテーション精度を向上させるために,セグメンテーションタイルの組み合わせにおいてSAMを誘導する高密度プロンプトの利用についても検討した。 結果:本研究は,特にNDTシナリオや大規模エンティティやオブジェクトのセグメンテーションにおいて,SAMとFFNを組み合わせたボリュームインスタンスセグメンテーションタスクの可能性を示している。 結論: 残った制限を認める一方で,本研究は,NDTシナリオにおけるインスタンスセグメンテーションの進展の基盤となる知見を提供し,その基盤を確立する。

Objective: We propose a new approach for volumetric instance segmentation in X-ray Computed Tomography (CT) data for Non-Destructive Testing (NDT) by combining the Segment Anything Model (SAM) with tile-based Flood Filling Networks (FFN). Our work evaluates the performance of SAM on volumetric NDT data-sets and demonstrates its effectiveness to segment instances in challenging imaging scenarios. Methods: We implemented and evaluated techniques to extend the image-based SAM algorithm fo the use with volumetric data-sets, enabling the segmentation of three-dimensional objects using FFN's spatially adaptability. The tile-based approach for SAM leverages FFN's capabilities to segment objects of any size. We also explore the use of dense prompts to guide SAM in combining segmented tiles for improved segmentation accuracy. Results: Our research indicates the potential of combining SAM with FFN for volumetric instance segmentation tasks, particularly in NDT scenarios and segmenting large entities and objects. Conclusion: While acknowledging remaining limitations, our study provides insights and establishes a foundation for advancements in instance segmentation in NDT scenarios.
翻訳日:2024-03-25 07:46:43 公開日:2024-02-09
# 学術研究におけるAI生成テキストの定量的分析:AI検出ツールを用いたArxivサブミッションにおけるAI存在の検討

Quantitative Analysis of AI-Generated Texts in Academic Research: A Study of AI Presence in Arxiv Submissions using AI Detection Tool ( http://arxiv.org/abs/2403.13812v1 )

ライセンス: Link先を確認
Arslan Akram, (参考訳) ソフトウェア開発やメンテナンスなど、さまざまなコンテキストで高品質なレスポンスを提供するAIGCモデルとして注目されているため、多くの人はChatGPTに興味を持っています。 ChatGPTの誤用は、特に公共の安全と教育において重大な問題を引き起こす可能性がある。 ほとんどの研究者はArxivに関する研究を公表することを選択している。 将来の作業の有効性と独創性は、そのような貢献の中でAIコンポーネントを検出する能力に依存する。 そこで本研究では,学術機関がArxivに投稿するために用いた,目的的に製作されたコンテンツを表示する手法について検討する。 本研究では,物理,数学,計算機科学の論文を用いてデータセットを作成した。 新たに構築されたデータセットを使用して、次のステップは、オリジナル性.aiをそのペースで実行することだ。 統計分析によると、Originality.aiは98%の精度で正確である。

Many people are interested in ChatGPT since it has become a prominent AIGC model that provides high-quality responses in various contexts, such as software development and maintenance. Misuse of ChatGPT might cause significant issues, particularly in public safety and education, despite its immense potential. The majority of researchers choose to publish their work on Arxiv. The effectiveness and originality of future work depend on the ability to detect AI components in such contributions. To address this need, this study will analyze a method that can see purposely manufactured content that academic organizations use to post on Arxiv. For this study, a dataset was created using physics, mathematics, and computer science articles. Using the newly built dataset, the following step is to put originality.ai through its paces. The statistical analysis shows that Originality.ai is very accurate, with a rate of 98%.
翻訳日:2024-03-25 07:17:26 公開日:2024-02-09
# Cyber-Twin:Vehicular Ad-Hoc Networkのディジタル双発自律攻撃検出

Cyber-Twin: Digital Twin-boosted Autonomous Attack Detection for Vehicular Ad-Hoc Networks ( http://arxiv.org/abs/2401.14005v3 )

ライセンス: Link先を確認
Yagmur Yigit, Ioannis Panitsas, Leandros Maglaras, Leandros Tassiulas, Berk Canberk, (参考訳) Vehicular Ad-hoc NETworks (VANETs) の急速な進化は、インテリジェントトランスポートシステム (ITS) の変革時代に始まり、道路安全性と車両通信を著しく向上させた。 しかし、VANETの複雑でダイナミックな性質は、特にV2I通信において、深刻な課題を呈している。 VANETの不可欠なコンポーネントであるロードサイドユニット(RSU)は、ジャミングや分散型サービス拒否(DDoS)攻撃など、サイバー攻撃の影響を受けやすくなっている。 これらの脆弱性は道路の安全に重大な危険をもたらし、交通渋滞や車両の故障につながる可能性がある。 現在のアプローチでは、セキュリティと持続可能性を高めるために、デジタルツイン技術を人工知能(AI)モデルに効果的にマージするのに苦労することが多い。 本研究では,VANET における RSU のセキュリティ向上を目的とした,革新的なサイバーツインフレームワークを提案する。 このフレームワークは、デジタルツイン技術と最先端のAIを一意に組み合わせて、RSUのリアルタイムでダイナミックな表現を提供する。 これにより、VANETのRSUセキュリティを大幅に強化し、詳細な監視と脅威の効率的な検出が可能になる。 さらに, このフレームワークは, RSUの計算効率を向上させることにより, エコフレンドリーなコミュニケーションに顕著な貢献をし, エネルギー効率の向上とハードウェア耐久性の向上を実現している。 以上の結果から,資源管理と攻撃検出の大幅な向上が,既存のソリューションの性能を上回る結果となった。 特にサイバーツインフレームワークでは,RSU負荷を大幅に低減し,資源消費と攻撃検出効率の最適バランスが向上した。 これらの進歩は、スマートシティの将来に向けて、持続可能な、セキュアで、回復力のある車両通信システムを開発するという私たちのコミットメントを裏付けています。

The rapid evolution of Vehicular Ad-hoc NETworks (VANETs) has ushered in a transformative era for intelligent transportation systems (ITS), significantly enhancing road safety and vehicular communication. However, the intricate and dynamic nature of VANETs presents formidable challenges, particularly in vehicle-to-infrastructure (V2I) communications. Roadside Units (RSUs), integral components of VANETs, are increasingly susceptible to cyberattacks, such as jamming and distributed denial-of-service (DDoS) attacks. These vulnerabilities pose grave risks to road safety, potentially leading to traffic congestion and vehicle malfunctions. Current approaches often struggle to effectively merge digital twin technology with Artificial Intelligence (AI) models to boost security and sustainability. Our study introduces an innovative cyber-twin framework tailored to enhance the security of RSUs in VANETs. This framework uniquely combines digital twin technology with cutting-edge AI to offer a real-time, dynamic representation of RSUs. This allows for detailed monitoring and efficient detection of threats, significantly strengthening RSU security in VANETs. Moreover, our framework makes a notable contribution to eco-friendly communication by improving the computational efficiency of RSUs, leading to increased energy efficiency and extended hardware durability. Our results show a considerable enhancement in resource management and attack detection, surpassing the performance of existing solutions. In particular, the cyber-twin framework showed a substantial reduction in RSU load and an optimal balance between resource consumption and high attack detection efficiency, with a defined twinning rate range of seventy-six to ninety per cent. These advancements underscore our commitment to developing sustainable, secure, and resilient vehicular communication systems for the future of smart cities.
翻訳日:2024-03-18 08:17:26 公開日:2024-02-09
# 強化学習によるdnnマルチテナントマルチアクセラレータシステムの公平かつ確固たるリアルタイムスケジューリングに向けて

Towards Fair and Firm Real-Time Scheduling in DNN Multi-Tenant Multi-Accelerator Systems via Reinforcement Learning ( http://arxiv.org/abs/2403.00766v1 )

ライセンス: Link先を確認
Enrico Russo, Francesco Giulio Blanco, Maurizio Palesi, Giuseppe Ascia, Davide Patti, Vincenzo Catania(参考訳) 本稿では,個々のテナントの期待値とサービスレベル指標(slis)の違いに着目し,クラウドサービスにおけるqos(quality of service)管理に関する重要な課題について述べる。 マルチテナントマルチアクセラレータクラウド環境におけるテナント固有のqos管理のための,深層強化学習を活用した新たなアプローチを提案する。 選択されたsli(deadline hit rate)により、クライアントはサービス要求毎にqosを調整できる。 マルチアクセラレータシステムにおけるディープニューラルネットワークのための新しいオンラインスケジューリングアルゴリズムを提案し,リアルタイム制約を考慮しつつ,テナント毎にモデル固有のqosレベルを保証することに焦点を当てた。

This paper addresses the critical challenge of managing Quality of Service (QoS) in cloud services, focusing on the nuances of individual tenant expectations and varying Service Level Indicators (SLIs). It introduces a novel approach utilizing Deep Reinforcement Learning for tenant-specific QoS management in multi-tenant, multi-accelerator cloud environments. The chosen SLI, deadline hit rate, allows clients to tailor QoS for each service request. A novel online scheduling algorithm for Deep Neural Networks in multi-accelerator systems is proposed, with a focus on guaranteeing tenant-wise, model-specific QoS levels while considering real-time constraints.
翻訳日:2024-03-11 00:19:57 公開日:2024-02-09
# GLA-Grad:グリフィンリム拡張波形生成拡散モデル

GLA-Grad: A Griffin-Lim Extended Waveform Generation Diffusion Model ( http://arxiv.org/abs/2402.15516v1 )

ライセンス: Link先を確認
Haocheng Liu (IP Paris, LTCI, IDS, S2A), Teysir Baoueb (IP Paris, LTCI, IDS, S2A), Mathieu Fontaine (IP Paris, LTCI, IDS, S2A), Jonathan Le Roux (MERL), Gael Richard (IP Paris, LTCI, IDS, S2A)(参考訳) 拡散モデルは、音声や音楽合成などの様々な信号生成タスクへの関心が高まっている。 例えばwavegradは、melスペクトログラムを条件付きで高忠実度オーディオ生成のための拡散プロセスをガイドする拡散モデルとして成功した。 しかし、そのようなモデルは、訓練と推論のためのノイズ拡散過程に関する重要な課題に直面しており、訓練中に見られなかった話者のための高品質な音声を生成することは困難である。 本稿では,条件付き誤差を最小化し,ノイズ拡散過程の効率を高めることを目的として,正規拡散過程の各ステップでグリフィン・リムアルゴリズム(GLA)のような位相回復アルゴリズムを導入するGLA-Gradという新しい手法を提案する。 さらに、トレーニングや微調整なしに、既に訓練済みの波形生成モデルに直接適用することができる。 提案アルゴリズムは,従来未確認の話者に対して音声を生成する場合に,音声生成のための最先端拡散モデルよりも優れていることを示す。

Diffusion models are receiving a growing interest for a variety of signal generation tasks such as speech or music synthesis. WaveGrad, for example, is a successful diffusion model that conditionally uses the mel spectrogram to guide a diffusion process for the generation of high-fidelity audio. However, such models face important challenges concerning the noise diffusion process for training and inference, and they have difficulty generating high-quality speech for speakers that were not seen during training. With the aim of minimizing the conditioning error and increasing the efficiency of the noise diffusion process, we propose in this paper a new scheme called GLA-Grad, which consists in introducing a phase recovery algorithm such as the Griffin-Lim algorithm (GLA) at each step of the regular diffusion process. Furthermore, it can be directly applied to an already-trained waveform generation model, without additional training or fine-tuning. We show that our algorithm outperforms state-of-the-art diffusion models for speech generation, especially when generating speech for a previously unseen target speaker.
翻訳日:2024-03-03 19:16:15 公開日:2024-02-09
# Verif.ai: 参考及び検証可能な回答を用いたオープンソース科学生成質問応答システムを目指して

Verif.ai: Towards an Open-Source Scientific Generative Question-Answering System with Referenced and Verifiable Answers ( http://arxiv.org/abs/2402.18589v1 )

ライセンス: Link先を確認
Milo\v{s} Ko\v{s}prdi\'c, Adela Ljaji\'c, Bojana Ba\v{s}aragin, Darija Medvecki, Nikola Milo\v{s}evi\'c(参考訳) 本稿では,このプロジェクトの現況について述べる。verif.aiは,参照・検証された回答を持つ,オープンソースの科学的生成型質問応答システムである。 The components of the system are (1) an information retrieval system combining semantic and lexical search techniques over scientific papers (PubMed), (2) a fine-tuned generative model (Mistral 7B) taking top answers and generating answers with references to the papers from which the claim was derived, and (3) a verification engine that cross-checks the generated claim and the abstract or paper from which the claim was derived, verifying whether there may have been any hallucinations in generating the claim. 我々は,抽象的な文脈を提供することで生成モデルを補強しているが,それに加えて,独立した手法やモデルの集合が解答の検証と幻覚の確認を行っている。 したがって,本手法を用いることで,幻覚や誤報を許容できない科学的環境における生成言語モデルの利用に対する信頼を築いながら,科学者をより生産的にすることができると信じている。

In this paper, we present the current progress of the project Verif.ai, an open-source scientific generative question-answering system with referenced and verified answers. The components of the system are (1) an information retrieval system combining semantic and lexical search techniques over scientific papers (PubMed), (2) a fine-tuned generative model (Mistral 7B) taking top answers and generating answers with references to the papers from which the claim was derived, and (3) a verification engine that cross-checks the generated claim and the abstract or paper from which the claim was derived, verifying whether there may have been any hallucinations in generating the claim. We are reinforcing the generative model by providing the abstract in context, but in addition, an independent set of methods and models are verifying the answer and checking for hallucinations. Therefore, we believe that by using our method, we can make scientists more productive, while building trust in the use of generative language models in scientific environments, where hallucinations and misinformation cannot be tolerated.
翻訳日:2024-03-03 19:10:55 公開日:2024-02-09
# 自動サイバーいじめ検出のための多面型半合成データセット

A Multi-faceted Semi-Synthetic Dataset for Automated Cyberbullying Detection ( http://arxiv.org/abs/2402.10231v1 )

ライセンス: Link先を確認
Naveed Ejaz, Fakhra Kashif, Salimur Choudhury(参考訳) 近年、ソーシャルメディアの利用の増加は、サイバーいじめの自動検出を著名な研究領域に推進している。 しかし、標準化された定義と普遍的に受け入れられたデータセットがないため、課題は続く。 多くの研究者は、サイバーいじめをサイバー攻撃の表れと見なしており、オンライン攻撃に加えて、反復、対人関係、有害な意図などの要素を含んでいる。 ソーシャルメディアからすべてのサイバーいじめコンポーネントを反映した包括的なデータを取得することは、複雑なタスクであることが証明される。 本稿では,攻撃,反復,相互関係,危害の意図など,サイバーいじめの本質的側面をすべて組み込んだ,広範な半合成型サイバーいじめデータセットについて述べる。 データセットの作成方法は簡潔に概説され、公開アクセス可能なデータセットの詳細な概要も提示される。 この付随するデータ記事は、データセットを詳細に分析し、透明性を高め、レプリケーションを可能にする。 また、データのより深い理解を支援し、より広い研究利用をサポートする。

In recent years, the rising use of social media has propelled automated cyberbullying detection into a prominent research domain. However, challenges persist due to the absence of a standardized definition and universally accepted datasets. Many researchers now view cyberbullying as a facet of cyberaggression, encompassing factors like repetition, peer relationships, and harmful intent in addition to online aggression. Acquiring comprehensive data reflective of all cyberbullying components from social media networks proves to be a complex task. This paper provides a description of an extensive semi-synthetic cyberbullying dataset that incorporates all of the essential aspects of cyberbullying, including aggression, repetition, peer relationships, and intent to harm. The method of creating the dataset is succinctly outlined, and a detailed overview of the publicly accessible dataset is additionally presented. This accompanying data article provides an in-depth look at the dataset, increasing transparency and enabling replication. It also aids in a deeper understanding of the data, supporting broader research use.
翻訳日:2024-02-25 17:17:38 公開日:2024-02-09
# 心理尺度によるソーシャルメディアのゼロショット説明可能なメンタルヘルス分析

Zero-shot Explainable Mental Health Analysis on Social Media by incorporating Mental Scales ( http://arxiv.org/abs/2402.10948v1 )

ライセンス: Link先を確認
Wenyu Li, Yinuo Zhu, Xin Lin, Ming Li, Ziyue Jiang, Ziqian Zeng(参考訳) メンタルヘルス分析における従来の差別的アプローチは、その能力は高いが解釈性がなく、大規模な注釈データを要求することで知られている。 一方,大規模な言語モデル (LLM) に基づく生成的アプローチは,重いアノテーションを取り除き,説明を提供する可能性を秘めている。 しかし、彼らの能力は差別的アプローチと比較してまだ不足しており、説明の生成がブラックボックスプロセスであるという事実から、彼らの説明は信頼できないかもしれない。 精神状態評価のための尺度を用いた心理評価の実践に触発され,本手法では2つの手順をllmを用いて導入する。 第1に、患者はメンタルヘルスアンケートを完了し、第2に、心理学者は、メンタルヘルス質問から収集された情報を解釈し、インフォームドな意思決定を行う。 実験の結果,本手法は他のゼロショット法よりも優れていた。 本手法は, 精神的アンケートの出力に基づいて, より厳密な説明が可能である。

Traditional discriminative approaches in mental health analysis are known for their strong capacity but lack interpretability and demand large-scale annotated data. On the other hand, generative approaches, such as those based on large language models (LLMs),have the potential to get rid of heavy annotations and provide explanations. However, their capabilities still fall short compared to discriminative approaches, and their explanations may be unreliable due to the fact that the generation of explanation is a black-box process. Inspired by the psychological assessment practice of using scales to evaluate mental states, our method incorporates two procedures via LLMs. First, the patient completes mental health questionnaires, and second, the psychologist interprets the collected information from the mental health questions and makes informed decisions. Experimental results show that our method outperforms other zero-shot methods. Our method can generate more rigorous explanation based on the outputs of mental questionnaires.
翻訳日:2024-02-25 17:07:01 公開日:2024-02-09
# culturellm: 大きな言語モデルに文化的違いを組み込む

CultureLLM: Incorporating Cultural Differences into Large Language Models ( http://arxiv.org/abs/2402.10946v1 )

ライセンス: Link先を確認
Cheng Li, Mengzhou Chen, Jindong Wang, Sunayana Sitaram, Xing Xie(参考訳) 大規模言語モデル(LLM)は、英語コーパスのトレーニングデータ支配により、特定の文化の一部となることが報告されている。 多言語文化データは収集に費用がかかることが多いため、既存の取り組みはエンジニアリングや文化固有の事前学習によってこれを処理している。 しかし、低リソース文化の知識不足を見逃し、広範なコンピューティングリソースを必要とするかもしれない。 本稿では,LLMに文化的差異を組み込むためのコスト効率のよいCultureLLMを提案する。 CultureLLMは、シードデータとしてWorld Value Survey (WVS)を採用し、提案したセマンティックデータ拡張を通じて意味的に等価なトレーニングデータを生成する。 WVSの50個のシードサンプルと拡張データを用いて、リッチで低リソースな言語をカバーする9つの文化に対して、文化固有のLLMと統一モデル(CultureLLM-One)を微調整する。 60の文化関連データセットに対する大規模な実験では、CultureLLMはGPT-3.5 (8.1%) やGemini Pro (9.5%) など、GPT-4に匹敵するパフォーマンスで、GPT-4よりも大幅に優れていた。 我々の人間による研究は、生成したサンプルが元のサンプルと意味的に等価であることを示し、LLMの増強に有効な解決策を提供する。

Large language models (LLMs) are reported to be partial to certain cultures owing to the training data dominance from the English corpora. Since multilingual cultural data are often expensive to collect, existing efforts handle this by prompt engineering or culture-specific pre-training. However, they might overlook the knowledge deficiency of low-resource culture and require extensive computing resources. In this paper, we propose CultureLLM, a cost-effective solution to incorporate cultural differences into LLMs. CultureLLM adopts World Value Survey (WVS) as seed data and generates semantically equivalent training data via the proposed semantic data augmentation. Using only 50 seed samples from WVS with augmented data, we fine-tune culture-specific LLMs and one unified model (CultureLLM-One) for 9 cultures covering rich and low-resource languages. Extensive experiments on 60 culture-related datasets demonstrate that CultureLLM significantly outperforms various counterparts such as GPT-3.5 (by 8.1%) and Gemini Pro (by 9.5%) with comparable performance to GPT-4 or even better. Our human study shows that the generated samples are semantically equivalent to the original samples, providing an effective solution for LLMs augmentation.
翻訳日:2024-02-25 17:06:44 公開日:2024-02-09
# PAS-SLAM:平面曖昧なシーンのためのビジュアルSLAMシステム

PAS-SLAM: A Visual SLAM System for Planar Ambiguous Scenes ( http://arxiv.org/abs/2402.06131v1 )

ライセンス: Link先を確認
Xinggang Hu, Yanmin Wu, Mingyuan Zhao, Linghao Yang, Xiangkui Zhang, Xiangyang Ji(参考訳) 平面的特徴に基づく視覚SLAM(Simultaneous Localization and Mapping)は,環境構造認識や拡張現実といった分野に広く応用されている。 しかし、現在の研究は、主に採用されている平面的特徴とデータ関連付け方法の精度が低かったため、平面的曖昧なシーンにおける正確な局所化とマッピングの課題に直面している。 本稿では,平面的不明瞭な場面を対象とし,平面処理やデータアソシエーション,マルチ制約因子グラフ最適化などを含む平面的特徴に基づく視覚的SLAMシステムを提案する。 本稿では,意味情報を平面特徴と統合し,平面選択,データアソシエーション,ポーズ最適化などのタスクで活用すべき平面のエッジと頂点を抽出する平面処理戦略を提案する。 次に,平面パラメータ,意味情報,投影IoUと非パラメトリックテストを組み合わせた統合データアソシエーション戦略を提案し,平面不明瞭なシーンにおける高精度で堅牢な平面データアソシエーションを実現する。 最後に,カメラポーズ最適化のための複数制約因子グラフを設計する。 公開データセットを用いた定性的,定量的な実験により,提案システムでは,現状の手法と比較して,地図構築とカメラのローカライゼーションの両面において,精度とロバスト性の両方に効果的に競合することを示した。

Visual SLAM (Simultaneous Localization and Mapping) based on planar features has found widespread applications in fields such as environmental structure perception and augmented reality. However, current research faces challenges in accurately localizing and mapping in planar ambiguous scenes, primarily due to the poor accuracy of the employed planar features and data association methods. In this paper, we propose a visual SLAM system based on planar features designed for planar ambiguous scenes, encompassing planar processing, data association, and multi-constraint factor graph optimization. We introduce a planar processing strategy that integrates semantic information with planar features, extracting the edges and vertices of planes to be utilized in tasks such as plane selection, data association, and pose optimization. Next, we present an integrated data association strategy that combines plane parameters, semantic information, projection IoU (Intersection over Union), and non-parametric tests, achieving accurate and robust plane data association in planar ambiguous scenes. Finally, we design a set of multi-constraint factor graphs for camera pose optimization. Qualitative and quantitative experiments conducted on publicly available datasets demonstrate that our proposed system competes effectively in both accuracy and robustness in terms of map construction and camera localization compared to state-of-the-art methods.
翻訳日:2024-02-18 14:23:34 公開日:2024-02-09
# 監査サポートを備えたブロックチェーンベースのレンタルドキュメント管理

Blockchain-based Rental Documentation Management with Audit Support ( http://arxiv.org/abs/2402.06704v1 )

ライセンス: Link先を確認
Jo\~ao F. Santos, Miguel Correia, Tiago R. Dias(参考訳) 賃貸市場における文書管理は、金融取引の正確さと規制コンプライアンスを確保するための重要なプロセスである。 ポルトガルでは、立法の複雑さ、特にgdprの非準拠、透明性の欠如、官僚的プロセス非効率が課題となっている。 このことを念頭に,ブロックチェーンプラットフォームであるhyperledger fabricに基づくソリューションが,レンタルプロセス用のドキュメント管理システムの実装として提示される。 このシステムは、必要な書類のアップロードを通じて、有望なテナントによる不動産の申請、様々な受信したアプリケーションの地主による受入/取り消し、監査人だけが要求・閲覧できるシステムによるレポートの作成の3段階からなるレンタルプロセスを監督する。 スマートコントラクトシステムは、ドキュメント(ハッシュ、オーナ)に関連するメタデータを記録し、地主からテナントへのファイルアクセス要求をコーディネートする。 したがって、システムはプロセス全体の不変かつトレース可能なレコードを作成する責任を負う。 基盤となるプラットフォームは将来の監査を行う基盤として機能する。 地主がファイルを検証してレンタル提案を受理した後、承認された監査人は、最終報告を通じて記録にアクセスすることで、そのプロセス中に発生したすべてのイベントを含む、資産の報告を要求できる。

Document management in the rental market is a critical process to ensure the accuracy of financial transactions and regulatory compliance in the sector. In Portugal, the challenges include the complexity of legislation, particularly GDPR non-compliance, lack of transparency, and bureaucratic process inefficiency. With this in mind, a solution based on Hyperledger Fabric, a blockchain platform, is presented for the implementation of a document management system for the rental process. This system oversees the rental process, which consists of three phases: the application for a property by the prospective tenant through the upload of necessary documents, acceptance/rejection by the landlord of various received applications, and the creation of a report by the system, which only the auditor can request and view. The system smart contract records metadata associated with the documents (hash, owner) and coordinates requests for file access by landlords to prospective tenants. Thus, the system is responsible for creating immutable and traceable records of the entire process. The underlying platform serves as the foundation for conducting future audits. After the landlord verifies the files and accepts the rental proposal, any authorised auditor can request a report for a property by accessing the records through the final report, which includes all events that occurred during the process.
翻訳日:2024-02-18 13:40:19 公開日:2024-02-09
# ブラックボディのQとは何か? グスタフ・ロバート・キルヒホフの二年生への小さな貢献

What is the Q of a Blackbody? A small contribution to Gustav Robert Kirchhoff's bicentennial ( http://arxiv.org/abs/2402.08691v1 )

ライセンス: Link先を確認
Arthur Ballato and John Ballato(参考訳) ブラックボディスペクトルの「半パワーポイント」は、周波数や波長のスケーリングを用いてもユニティ以下であることが判明した有効なQ値「品質因子」を割り当てるために用いられる。 コヒーレント発振器の値との比較を行う。 この演習はキルヒホフの興味の2つを融合させ、しばしば相互に排他的な工学と科学の分野を橋渡しするため、それ自体が指導的である。

The blackbody spectrum "half-power points" are used to assign effective Q "quality factor" values that are found to be less than unity whether frequency or wavelength scaling is used. A comparison with values for coherent oscillators is made. This exercise blends two of Kirchhoff's interests, and is instructive in its own right, as it bridges the often mutually exclusive engineering and scientific disciplines.
翻訳日:2024-02-18 13:14:58 公開日:2024-02-09
# チューリングが人工パートナーとピアノを弾くなら

If Turing played piano with an artificial partner ( http://arxiv.org/abs/2402.08690v1 )

ライセンス: Link先を確認
Dobromir Dotov, Dante Camarena, Zack Harris, Joanna Spyra, Pietro Gagliano, Laurel Trainor(参考訳) 音楽は本質的に社会的な活動であり、人々が経験を共有し、互いにつながりを持つように感じられる。 人と遊ぶのと同様の社会体験を示す人工パートナーを設計する過程は、ほとんど進展していない。 大規模な言語モデルのような生成モデルを実装するニューラルネットワークアーキテクチャは、楽譜を生成するのに適している。 しかし、社会的に音楽を演奏するには、音楽を演奏する以上のことが必要であり、他のミュージシャンの考えを補完し、時間を正しく保たなければならない。 我々は,必ずしも同期や継続に最適化されるのではなく,楽譜の制作を訓練した生成モデルにより,説得力のある社会体験が実現可能かどうかという課題に対処した。 このネットワークは、デジタルスコアの大規模なコーパスで訓練された変分オートエンコーダであり、人間のパートナーとの通話応答タスクに適応した。 参加者は、人間や人工的なパートナーと様々な構成でピアノを弾き、自己統合の質と個人的体験を評価した。 全体として、人工パートナーは約束を守ったが、人間パートナーよりも低い評価を受けた。 最も単純な設計と高い類似度パラメータを持つ人工的パートナーは、いくつかの指標において人間のパートナーと異なる評価を受けていない。

Music is an inherently social activity that allows people to share experiences and feel connected with one another. There has been little progress in designing artificial partners exhibiting a similar social experience as playing with another person. Neural network architectures that implement generative models, such as large language models, are suited for producing musical scores. Playing music socially, however, involves more than playing a score; it must complement the other musicians' ideas and keep time correctly. We addressed the question of whether a convincing social experience is made possible by a generative model trained to produce musical scores, not necessarily optimized for synchronization and continuation. The network, a variational autoencoder trained on a large corpus of digital scores, was adapted for a timed call-and-response task with a human partner. Participants played piano with a human or artificial partner-in various configurations-and rated the performance quality and first-person experience of self-other integration. Overall, the artificial partners held promise but were rated lower than human partners. The artificial partner with simplest design and highest similarity parameter was not rated differently from the human partners on some measures, suggesting that interactive rather than generative sophistication is important in enabling social AI.
翻訳日:2024-02-18 13:14:49 公開日:2024-02-09
# GNSSデータにおける干渉分類のための不確実性に基づく四括弧選択によるFew-Shot学習

Few-Shot Learning with Uncertainty-based Quadruplet Selection for Interference Classification in GNSS Data ( http://arxiv.org/abs/2402.09466v1 )

ライセンス: Link先を確認
Felix Ott, Lucas Heublein, Nisha Lakshmana Raichur, Tobias Feigl, Jonathan Hansen, Alexander R\"ugamer, Christopher Mutschler(参考訳) ジャミング装置は、グローバルナビゲーション衛星システム(GNSS)からの信号を妨害し、正確な位置決めの堅牢性を損なうことにより、重大な脅威となる。 周波数スナップショットにおける異常の検出は、これらの干渉を効果的に対処するために重要である。 GNSSの信頼性を確保するためには,多様な干渉特性に適応する能力が不可欠である。 本稿では,新しい干渉クラスに適応するための数発学習(fsl)手法を提案する。 本手法では,様々な正と負の干渉クラスを用いて表現を学習するために,モデルの四重項選択を用いる。 さらに,同類を区別するために,アレタリックおよびてんかんの不確実性に基づく四重項変種を選択する。 8種類の干渉クラスを持つ高速道路において,4重項損失を有するFSL法は,ジャマー分類精度97.66%で他のFSL法よりも優れていた。

Jamming devices pose a significant threat by disrupting signals from the global navigation satellite system (GNSS), compromising the robustness of accurate positioning. Detecting anomalies in frequency snapshots is crucial to counteract these interferences effectively. The ability to adapt to diverse, unseen interference characteristics is essential for ensuring the reliability of GNSS in real-world applications. In this paper, we propose a few-shot learning (FSL) approach to adapt to new interference classes. Our method employs quadruplet selection for the model to learn representations using various positive and negative interference classes. Furthermore, our quadruplet variant selects pairs based on the aleatoric and epistemic uncertainty to differentiate between similar classes. We recorded a dataset at a motorway with eight interference classes on which our FSL method with quadruplet loss outperforms other FSL techniques in jammer classification accuracy with 97.66%.
翻訳日:2024-02-18 12:52:05 公開日:2024-02-09
# RLEEGNet:直感的応答性と高精度モータ画像分類のための適応AIを用いた脳-コンピュータインタフェースの統合

RLEEGNet: Integrating Brain-Computer Interfaces with Adaptive AI for Intuitive Responsiveness and High-Accuracy Motor Imagery Classification ( http://arxiv.org/abs/2402.09465v1 )

ライセンス: Link先を確認
Sriram V.C. Nallani and Gautham Ramachandran(参考訳) 現在の義肢制御へのアプローチは、リアルタイム適応性と直感的な応答性に欠ける従来の手法に依存しているため制限されている。 これらの制限は、様々な認知状態と運動意図を持つ個人のために設計された補助技術において特に顕著である。 本稿では,Reinforcement Learning (RL) とDeep Q-Networks (DQN) を併用して分類処理を行うフレームワークを提案する。 さらに,1-Versus-The-Rest(OVR)方式のマルチクラス運動画像(MI)分類に共通空間パターン(CSP)を用いた前処理手法を提案する。 その後のcsp空間変換は、識別的特徴の抽出に不可欠な脳波信号の時間次元を保持する。 DQNと1D-CNN-LSTMアーキテクチャの統合は、意思決定プロセスをリアルタイムで最適化し、ユーザの進化するニーズや意図に対するシステムの適応性を高める。 2つの脳波運動画像データセットのデータ処理手法について詳述する。 我々の革新的なモデルであるRLEEGNetは、1D-CNN-LSTMアーキテクチャをオンラインQ-NetworkとしてDQNに組み込み、フィードバックによる制御戦略の継続的適応と最適化を容易にする。 このメカニズムにより、システムは試行錯誤を通じて最適なアクションを学習でき、徐々にパフォーマンスが向上する。 RLEEGNetはMI-EEG信号の分類において高い精度を示し、GigaScience (3-class)とBCI-IV-2a (4-class)の両方のデータセットでMIタスクの100%の精度を達成する。 これらの結果から,DQNと1D-CNN-LSTMアーキテクチャを組み合わせることで,BCIシステムの適応性と応答性を大幅に向上する可能性が示唆された。

Current approaches to prosthetic control are limited by their reliance on traditional methods, which lack real-time adaptability and intuitive responsiveness. These limitations are particularly pronounced in assistive technologies designed for individuals with diverse cognitive states and motor intentions. In this paper, we introduce a framework that leverages Reinforcement Learning (RL) with Deep Q-Networks (DQN) for classification tasks. Additionally, we present a preprocessing technique using the Common Spatial Pattern (CSP) for multiclass motor imagery (MI) classification in a One-Versus-The-Rest (OVR) manner. The subsequent 'csp space' transformation retains the temporal dimension of EEG signals, crucial for extracting discriminative features. The integration of DQN with a 1D-CNN-LSTM architecture optimizes the decision-making process in real-time, thereby enhancing the system's adaptability to the user's evolving needs and intentions. We elaborate on the data processing methods for two EEG motor imagery datasets. Our innovative model, RLEEGNet, incorporates a 1D-CNN-LSTM architecture as the Online Q-Network within the DQN, facilitating continuous adaptation and optimization of control strategies through feedback. This mechanism allows the system to learn optimal actions through trial and error, progressively improving its performance. RLEEGNet demonstrates high accuracy in classifying MI-EEG signals, achieving as high as 100% accuracy in MI tasks across both the GigaScience (3-class) and BCI-IV-2a (4-class) datasets. These results highlight the potential of combining DQN with a 1D-CNN-LSTM architecture to significantly enhance the adaptability and responsiveness of BCI systems.
翻訳日:2024-02-18 12:51:16 公開日:2024-02-09
# ガウス-ラプラシア-ロジスティック混合モデルと連結残差モジュールによる学習画像圧縮

Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model and Concatenated Residual Modules ( http://arxiv.org/abs/2107.06463v3 )

ライセンス: Link先を確認
Haisheng Fu and Feng Liang and Jianping Lin and Bing Li and Mohammad Akbari and Jie Liang and Guohe Zhang and Dong Liu and Chengjie Tu and Jingning Han(参考訳) 近年、深層学習に基づく画像圧縮手法は大きな成果を上げ、psnrとms-ssimメトリクスの両方で最新のvvc(standard versatile video coding)を含む従来のアプローチを徐々に上回っている。 学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。 自己回帰、ソフトマックス、ロジスティック混合、ガウス混合、ラプラシアンなど様々なモデルが提案されている。 既存のスキームはこれらのモデルの1つしか使用していない。 しかし,画像の多様性が多様であるため,画像内の異なる領域であっても,すべての画像に対して1つのモデルを使用するのが最適ではない。 本稿では,異なる画像の異なるコンテンツと1つの画像の異なる領域に適応可能な,より柔軟に離散化されたガウス・ラプラシア・ロジスティック混合モデル(gllmm)を提案する。 さらに、符号化/復号化ネットワーク設計部では、複数の残余ブロックを追加のショートカット接続で直列接続する連結残差ブロック(CRB)を提案する。 CRBはネットワークの学習能力を向上させることができ、圧縮性能をさらに向上させることができる。 Kodak, Tecnick-100, Tecnick-40 のデータセットを用いた実験結果から,提案手法はPSNR と MS-SSIM の観点から,VVC のイントラコーディング (4:4:4 と 4:2:0) を含む主要な学習手法や既存の圧縮標準よりも優れていた。 ソースコードは \url{https://github.com/fengyurenpingsheng} で入手できる。

Recently deep learning-based image compression methods have achieved significant achievements and gradually outperformed traditional approaches including the latest standard Versatile Video Coding (VVC) in both PSNR and MS-SSIM metrics. Two key components of learned image compression are the entropy model of the latent representations and the encoding/decoding network architectures. Various models have been proposed, such as autoregressive, softmax, logistic mixture, Gaussian mixture, and Laplacian. Existing schemes only use one of these models. However, due to the vast diversity of images, it is not optimal to use one model for all images, even different regions within one image. In this paper, we propose a more flexible discretized Gaussian-Laplacian-Logistic mixture model (GLLMM) for the latent representations, which can adapt to different contents in different images and different regions of one image more accurately and efficiently, given the same complexity. Besides, in the encoding/decoding network design part, we propose a concatenated residual blocks (CRB), where multiple residual blocks are serially connected with additional shortcut connections. The CRB can improve the learning ability of the network, which can further improve the compression performance. Experimental results using the Kodak, Tecnick-100 and Tecnick-40 datasets show that the proposed scheme outperforms all the leading learning-based methods and existing compression standards including VVC intra coding (4:4:4 and 4:2:0) in terms of the PSNR and MS-SSIM. The source code is available at \url{https://github.com/fengyurenpingsheng}
翻訳日:2024-02-14 20:31:40 公開日:2024-02-09
# evolSOM:SOMを用いた進化保存解析のためのRパッケージ

evolSOM: an R Package for evolutionary conservation analysis with SOMs ( http://arxiv.org/abs/2402.07948v1 )

ライセンス: Link先を確認
Santiago Prochetto, Renata Reinheimer, Georgina Stegmayer(参考訳) モチベーション:遺伝子と形質の関連を解き放つことは、多くの生物学的パズルを解く上で重要である。 遺伝子は細胞機械を構築するための指示を与え、生命を維持する過程を指示する。 これらの遺伝子から誘導されるRNA分子やタンパク質は、細胞構造の形成、反応への影響、誘導行動において重要な役割を果たす。 この基本的な生物学的原理は遺伝子構成と観測可能な形質を結びつけるが、この複雑なマルチモーダルデータから有意義な関係を統合・抽出することは重大な課題である。 結果: 自己組織マップ(SOM)を用いて生物変数の保存を探索・可視化し, 表現型属性と遺伝子型属性の統合を緩和する新しいRパッケージであるevolSOMを紹介した。 非冗長パターンを捕捉する種特異的または条件特異的なSOMを構築することにより、evolSOMは種または条件間の生物学的変数の変位を分析することができる。 同時に変位した変数は、同じ規制ネットワークのメンバーシップを示し、変位の性質は生物学的に重要な意味を持つかもしれない。 パッケージは自動的にこれらの変位を計算し、グラフィカルに提示し、効率的な比較と保存された変数と配置された変数の明確化を可能にする。 このパッケージは多様な表現型データ型の統合を促進し、観察された表現型の変化に基づく潜在的な遺伝子ドライバの探索を可能にする。 そのユーザフレンドリーなインターフェースと視覚化機能は、複雑なネットワーク分析のアクセシビリティを高める。 EvolSOMを用いて遺伝子および表現型形質の変位を解析し、草葉における表現型分化の潜在的な要因を同定した。 アベイラビリティ:パッケージはオープンソースであり、https://github.com/sanprochetto/evolsomで利用可能である。

Motivation: Unraveling the connection between genes and traits is crucial for solving many biological puzzles. Genes provide instructions for building cellular machinery, directing the processes that sustain life. RNA molecules and proteins, derived from these genetic instructions, play crucial roles in shaping cell structures, influencing reactions, and guiding behavior. This fundamental biological principle links genetic makeup to observable traits, but integrating and extracting meaningful relationships from this complex, multimodal data presents a significant challenge. Results: We introduce evolSOM, a novel R package that utilizes Self-Organizing Maps (SOMs) to explore and visualize the conservation of biological variables, easing the integration of phenotypic and genotypic attributes. By constructing species-specific or condition-specific SOMs that capture non-redundant patterns, evolSOM allows the analysis of displacement of biological variables between species or conditions. Variables displaced together suggest membership in the same regulatory network, and the nature of the displacement may hold biological significance. The package automatically calculates and graphically presents these displacements, enabling efficient comparison and revealing conserved and displaced variables. The package facilitates the integration of diverse phenotypic data types, enabling the exploration of potential gene drivers underlying observed phenotypic changes. Its user-friendly interface and visualization capabilities enhance the accessibility of complex network analyses. Illustratively, we employed evolSOM to study the displacement of genes and phenotypic traits, successfully identifying potential drivers of phenotypic differentiation in grass leaves. Availability: The package is open-source and is available at https://github.com/sanprochetto/evolSOM.
翻訳日:2024-02-14 18:06:24 公開日:2024-02-09
# 再配置指令及び制御

Re-Envisioning Command and Control ( http://arxiv.org/abs/2402.07946v1 )

ライセンス: Link先を確認
Kaleb McDowell, Ellen Novoseller, Anna Madison, Vinicius G. Goecks, Christopher Kelshaw(参考訳) 将来の戦争は、より複雑で、ペースが速く、構造が悪く、要求の厳しい状況において、指揮統制(c2)の決定を行う必要がある。 C2は、Denied、Degraded、Intermittent、Limittent (DDIL) 通信のような運用上の課題や、複数の操作領域にまたがる多くのデータストリームを考慮する必要性によってさらに複雑になる。 しかし、現在のC2プラクティスは、新興のインテリジェンス時代ではなく産業時代に由来するもので、線形で時間を要する。 批判的に、これらのアプローチは将来の戦場での敵に対する過密を維持するのに失敗する可能性がある。 これらの課題に対処するために、人間と人工知能(AI)システムとの堅牢な連携に基づく将来のC2のビジョンを提案する。 この将来のビジョンは、C2オペレーションプロセスの合理化、作業の統一の維持、適応的な集団知識システムの開発という3つの運用上のインパクトにカプセル化されている。 本稿では、今後のC2の能力について述べ、それらを形作る仮定を論じ、今後の戦争でC2をどう変えるかを説明する。

Future warfare will require Command and Control (C2) decision-making to occur in more complex, fast-paced, ill-structured, and demanding conditions. C2 will be further complicated by operational challenges such as Denied, Degraded, Intermittent, and Limited (DDIL) communications and the need to account for many data streams, potentially across multiple domains of operation. Yet, current C2 practices -- which stem from the industrial era rather than the emerging intelligence era -- are linear and time-consuming. Critically, these approaches may fail to maintain overmatch against adversaries on the future battlefield. To address these challenges, we propose a vision for future C2 based on robust partnerships between humans and artificial intelligence (AI) systems. This future vision is encapsulated in three operational impacts: streamlining the C2 operations process, maintaining unity of effort, and developing adaptive collective knowledge systems. This paper illustrates the envisaged future C2 capabilities, discusses the assumptions that shaped them, and describes how the proposed developments could transform C2 in future warfare.
翻訳日:2024-02-14 18:05:58 公開日:2024-02-09
# screenagent: ビジョン言語モデル駆動型コンピュータ制御エージェント

ScreenAgent: A Vision Language Model-driven Computer Control Agent ( http://arxiv.org/abs/2402.07945v1 )

ライセンス: Link先を確認
Runliang Niu, Jindong Li, Shiqi Wang, Yali Fu, Xiyu Hu, Xueyuan Leng, He Kong, Yi Chang, Qi Wang(参考訳) 既存のLarge Language Models (LLM) は複雑なタスクを完了させるために様々なツールやAPIを呼び出すことができる。 最も強力で普遍的なツールであるコンピュータは、訓練されたllmエージェントによって直接制御される可能性がある。 コンピューターの力で、より汎用的なエージェントを作って、人間の日々のデジタルワークを支援することを願っている。 本稿では,視覚言語モデル (vlm) エージェントが実際のコンピュータ画面と対話するための環境を構築する。 この環境では、エージェントはスクリーンショットを観察し、マウスとキーボードのアクションを出力することでグラフィックユーザインタフェース(gui)を操作することができる。 また,計画や行動,フェーズの反映を含む自動制御パイプラインを設計し,エージェントが環境と継続的に対話し,マルチステップタスクを完了させるように誘導する。 さらにscreenagentデータセットを構築し、様々な日々のコンピュータタスクが完了するとスクリーンショットやアクションシーケンスを収集します。 最後に、GPT-4Vに匹敵するコンピュータ制御能力を達成し、より正確なUI位置決め機能を示すモデルであるScreenAgentを訓練した。 我々の試みは、ジェネラリストLLMエージェントの構築に関するさらなる研究を刺激する可能性がある。 コードは \url{https://github.com/niuzaisheng/screenagent} で入手できる。

Existing Large Language Models (LLM) can invoke a variety of tools and APIs to complete complex tasks. The computer, as the most powerful and universal tool, could potentially be controlled directly by a trained LLM agent. Powered by the computer, we can hopefully build a more generalized agent to assist humans in various daily digital works. In this paper, we construct an environment for a Vision Language Model (VLM) agent to interact with a real computer screen. Within this environment, the agent can observe screenshots and manipulate the Graphics User Interface (GUI) by outputting mouse and keyboard actions. We also design an automated control pipeline that includes planning, acting, and reflecting phases, guiding the agent to continuously interact with the environment and complete multi-step tasks. Additionally, we construct the ScreenAgent Dataset, which collects screenshots and action sequences when completing a variety of daily computer tasks. Finally, we trained a model, ScreenAgent, which achieved computer control capabilities comparable to GPT-4V and demonstrated more precise UI positioning capabilities. Our attempts could inspire further research on building a generalist LLM agent. The code is available at \url{https://github.com/niuzaisheng/ScreenAgent}.
翻訳日:2024-02-14 18:05:38 公開日:2024-02-09
# 感度境界付きパーソナライズページランクによる差分プライベートグラフ学習

Differentially Private Graph Learning via Sensitivity-Bounded Personalized PageRank ( http://arxiv.org/abs/2207.06944v2 )

ライセンス: Link先を確認
Alessandro Epasto, Vahab Mirrokni, Bryan Perozzi, Anton Tsitsulin, Peilin Zhong(参考訳) パーソナライズされたPageRank(PPR)は、ノードランキング、ラベル付け、グラフ埋め込みといったグラフ表現の教師なし学習の基本的なツールである。 しかし、データプライバシは最近の最も重要な懸念の1つだが、既存のPPRアルゴリズムはユーザーのプライバシを保護するように設計されていない。 PPRは入力グラフエッジに対して非常に敏感であり、一方のエッジの違いはPPRベクトルに大きな変化をもたらし、潜在的にプライベートユーザデータを漏洩させる可能性がある。 本研究では,近似PRを出力し,入力エッジに有意な感度を持つアルゴリズムを提案する。 さらに,入力グラフが大きな度合いを持つ場合,このアルゴリズムは非プライベートなアルゴリズムと類似の精度を達成できることを示す。 我々の感度バウンドPPRは、差分プライベート(DP)PPRランキング、DPノード分類、DPノード埋め込みなど、グラフ学習のいくつかのツールのプライベートアルゴリズムを直接意味している。 理論的解析を補完するため,アルゴリズムの実用性能を実証的に検証した。

Personalized PageRank (PPR) is a fundamental tool in unsupervised learning of graph representations such as node ranking, labeling, and graph embedding. However, while data privacy is one of the most important recent concerns, existing PPR algorithms are not designed to protect user privacy. PPR is highly sensitive to the input graph edges: the difference of only one edge may cause a big change in the PPR vector, potentially leaking private user data. In this work, we propose an algorithm which outputs an approximate PPR and has provably bounded sensitivity to input edges. In addition, we prove that our algorithm achieves similar accuracy to non-private algorithms when the input graph has large degrees. Our sensitivity-bounded PPR directly implies private algorithms for several tools of graph learning, such as, differentially private (DP) PPR ranking, DP node classification, and DP node embedding. To complement our theoretical analysis, we also empirically verify the practical performances of our algorithms.
翻訳日:2024-02-14 01:41:13 公開日:2024-02-09
# 学習ダイナミクスモデルを用いた効率的選好に基づく強化学習

Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models ( http://arxiv.org/abs/2301.04741v2 )

ライセンス: Link先を確認
Yi Liu, Gaurav Datta, Ellen Novoseller, Daniel S. Brown(参考訳) 優先度に基づく強化学習(PbRL)により、ロボットは手作りの報酬関数を必要とせず、個人の好みに基づいてタスクを実行することができる。 しかしながら、既存のアプローチは高忠実度シミュレータや分析モデルへのアクセスを想定するか、大規模で安全でないオンライン環境インタラクションを必要とするモデルフリーのアプローチを取るかのどちらかである。 本稿では,PbRLを実行する際の学習力学モデルの有用性と課題について考察する。 特に,学習されたダイナミクスモデルがpbrlを行う際に,(1)選好誘発と政策最適化は,モデルフリーのpbrlよりも環境相互作用を著しく少なくし,(2)標準モデルに基づくrlの副産物として多様な選好クエリを安全かつ効率的に合成できる,(3)環境相互作用を伴わないサブオプティカルデモンストレーションに基づく事前トレーニングを報酬として実施できる,という利点がある。 本稿は,学習したダイナミクスモデルが,事前選好学習アプローチよりも安全でサンプル効率の良い方法で,ユーザの選好に基づいてカスタマイズされたポリシーを学習できることを示す実証的証拠を提供する。 補足資料とコードはhttps://sites.google.com/berkeley.edu/mop-rlで入手できる。

Preference-based reinforcement learning (PbRL) can enable robots to learn to perform tasks based on an individual's preferences without requiring a hand-crafted reward function. However, existing approaches either assume access to a high-fidelity simulator or analytic model or take a model-free approach that requires extensive, possibly unsafe online environment interactions. In this paper, we study the benefits and challenges of using a learned dynamics model when performing PbRL. In particular, we provide evidence that a learned dynamics model offers the following benefits when performing PbRL: (1) preference elicitation and policy optimization require significantly fewer environment interactions than model-free PbRL, (2) diverse preference queries can be synthesized safely and efficiently as a byproduct of standard model-based RL, and (3) reward pre-training based on suboptimal demonstrations can be performed without any environmental interaction. Our paper provides empirical evidence that learned dynamics models enable robots to learn customized policies based on user preferences in ways that are safer and more sample efficient than prior preference learning approaches. Supplementary materials and code are available at https://sites.google.com/berkeley.edu/mop-rl.
翻訳日:2024-02-14 01:31:16 公開日:2024-02-09
# スライスドワッサースタイン損失を用いたニューラルテクスチャ合成のための長距離制約

Long Range Constraints for Neural Texture Synthesis Using Sliced Wasserstein Loss ( http://arxiv.org/abs/2211.11137v2 )

ライセンス: Link先を確認
Liping Yin and Albert Chua(参考訳) 過去10年間で、先進的なテクスチャ合成アルゴリズムは、深層畳み込みニューラルネットワークの統計と一致することで、パフォーマンスが大幅に向上した。 しかし、これらのアルゴリズムは、画像の長い範囲の制約を捉えるために、正規化項またはユーザー付加空間タグを必要とする。 すべての状況でユーザ追加の空間タグにアクセスすることは必ずしも不可能であり、正規化用語をチューニングすることは困難である。 そこで,Sliced Wasserstein Lossに基づくテクスチャ合成のための新しい統計セットを提案し,ユーザ付加空間タグを使わずにテクスチャを合成するマルチスケール手法を作成し,提案手法が長距離制約を捕捉する能力について検討し,その結果を他の最適化に基づく単一テクスチャ合成アルゴリズムと比較した。

In the past decade, exemplar-based texture synthesis algorithms have seen strong gains in performance by matching statistics of deep convolutional neural networks. However, these algorithms require regularization terms or user-added spatial tags to capture long range constraints in images. Having access to a user-added spatial tag for all situations is not always feasible, and regularization terms can be difficult to tune. Thus, we propose a new set of statistics for texture synthesis based on Sliced Wasserstein Loss, create a multi-scale method to synthesize textures without a user-added spatial tag, study the ability of our proposed method to capture long range constraints, and compare our results to other optimization-based, single texture synthesis algorithms.
翻訳日:2024-02-14 01:28:05 公開日:2024-02-09
# 超流体のニューラルウェーブ関数

Neural Wave Functions for Superfluids ( http://arxiv.org/abs/2305.06989v3 )

ライセンス: Link先を確認
Wan Tong Lou, Halvard Sutterud, Gino Cassella, W.M.C. Foulkes, Johannes Knolle, David Pfau, James S. Spencer(参考訳) 超流動性を理解することは、凝縮物質物理学の主要な目標である。 本稿では,最近開発されたFermionic Neural Network (FermiNet) 波動関数 Ansatz を用いてモンテカルロの変分計算を行う。 超流動な基底状態を持つが定量的には説明が難しい強固な短距離2体相互作用を持つ一元的フェルミ気体の研究を行った。 我々は、一元性フェルミガスの研究におけるフェルミネット・アンサッツの重要な限界を示し、元のフェルミネットを著しく上回る簡単な修正を提案し、高精度な結果を与える。 反対称性化法によって元のAnsatzとしか異なる新しいAnsatzが、パラメータが少ないにもかかわらず、元のFermiNetアーキテクチャの厳密な一般化であることを数学的に証明する。 我々のアプローチはフェルミントといくつかの利点を共有している:ニューラルネットワークの使用は基礎となる基底セットの必要性をなくし、ネットワークの柔軟性は任意の基底状態期待値の偏りのない推定へのアクセスを提供する変分量子モンテカルロフレームワークにおいて非常に正確な結果をもたらす。 本手法を他の超流動体に拡張する方法について論じる。

Understanding superfluidity remains a major goal of condensed matter physics. Here we tackle this challenge utilizing the recently developed Fermionic neural network (FermiNet) wave function Ansatz for variational Monte Carlo calculations. We study the unitary Fermi gas, a system with strong, short-range, two-body interactions known to possess a superfluid ground state but difficult to describe quantitatively. We demonstrate key limitations of the FermiNet Ansatz in studying the unitary Fermi gas and propose a simple modification that outperforms the original FermiNet significantly, giving highly accurate results. We prove mathematically that the new Ansatz, which only differs from the original Ansatz by the method of antisymmetrization, is a strict generalization of the original FermiNet architecture, despite the use of fewer parameters. Our approach shares several advantages with the FermiNet: the use of a neural network removes the need for an underlying basis set; and the flexibility of the network yields extremely accurate results within a variational quantum Monte Carlo framework that provides access to unbiased estimates of arbitrary ground-state expectation values. We discuss how the method can be extended to study other superfluids.
翻訳日:2024-02-14 01:04:41 公開日:2024-02-09
# 物理系に対する連続学習への多忠実アプローチ

A multifidelity approach to continual learning for physical systems ( http://arxiv.org/abs/2304.03894v2 )

ライセンス: Link先を確認
Amanda Howard, Yucheng Fu, and Panos Stinis(参考訳) 本稿では,多要素深層ニューラルネットワークに基づく連続学習手法を提案する。 本手法は,事前訓練したモデルの出力と現在のトレーニングデータセット上でのモデルの所望の出力との相関を学習し,破滅的な忘れを抑える。 それ自体で、multifidelity continual learningメソッドは、複数のデータセットにまたがる忘れることを制限した堅牢な結果を示している。 さらに,本手法は,リプレイやメモリ認識シナプスを含む既存の連続学習手法と組み合わせることで,破滅的な忘れを抑えることができることを示す。 提案する連続学習法は,各領域の物理法則を満足する物理問題や,物理に変形したニューラルネットワークに特に適合する。これらの場合において,前モデルの出力と現在のトレーニング領域のモデルとの間に強い相関があることを期待している。

We introduce a novel continual learning method based on multifidelity deep neural networks. This method learns the correlation between the output of previously trained models and the desired output of the model on the current training dataset, limiting catastrophic forgetting. On its own the multifidelity continual learning method shows robust results that limit forgetting across several datasets. Additionally, we show that the multifidelity method can be combined with existing continual learning methods, including replay and memory aware synapses, to further limit catastrophic forgetting. The proposed continual learning method is especially suited for physical problems where the data satisfy the same physical laws on each domain, or for physics-informed neural networks, because in these cases we expect there to be a strong correlation between the output of the previous model and the model on the current training domain.
翻訳日:2024-02-14 01:03:07 公開日:2024-02-09
# FedMLSecurity: フェデレーション学習とフェデレーションLLMにおける攻撃と防御のベンチマーク

FedMLSecurity: A Benchmark for Attacks and Defenses in Federated Learning and Federated LLMs ( http://arxiv.org/abs/2306.04959v4 )

ライセンス: Link先を確認
Shanshan Han, Baturalp Buyukates, Zijian Hu, Han Jin, Weizhao Jin, Lichao Sun, Xiaoyang Wang, Wenxuan Wu, Chulin Xie, Yuhang Yao, Kai Zhang, Qifan Zhang, Yuhui Zhang, Carlee Joe-Wong, Salman Avestimehr and Chaoyang He(参考訳) 本稿では,federated learning(fl)における敵の攻撃とその防御機構をシミュレートするエンドツーエンドベンチマークであるfeedsecurityを提案する。 FedSecurityには、FLトレーニング中のさまざまな攻撃のシミュレーションを容易にするFedAttackerと、これらの攻撃に対抗する防御メカニズムを実装するFedDefenderの2つの重要なコンポーネントが含まれている。 オープンソースライブラリとして、FedSecurityは、以下の機能に基づいて特定の攻撃/防御シナリオに焦点を当てたTrom-scratch実装と比較して、ユーザビリティを向上させる。 i)幅広い機械学習モデル(例えば、ロジスティック回帰、ResNet、GAN)とFLオプティマイザ(例えば、FedAVG、FedOPT、FedNOVA)に対応する広範なカスタマイズオプションを提供する。 二 異なるデータセット及びモデルにまたがる攻撃及び防御の有効性の変動を探索することができること。 三 構成ファイルと提供されたAPIによるフレキシブルな設定とカスタマイズをサポートすること。 さらに,大規模言語モデル(llm)のフェデレーショントレーニングを通じて,federated securityの有用性と適応性を実証し,幅広い複雑なアプリケーションに影響を与える可能性を示す。

This paper introduces FedSecurity, an end-to-end benchmark designed to simulate adversarial attacks and corresponding defense mechanisms in Federated Learning (FL). FedSecurity comprises two pivotal components: FedAttacker, which facilitates the simulation of a variety of attacks during FL training, and FedDefender, which implements defensive mechanisms to counteract these attacks. As an open-source library, FedSecurity enhances its usability compared to from-scratch implementations that focus on specific attack/defense scenarios based on the following features: i) It offers extensive customization options to accommodate a broad range of machine learning models (e.g., Logistic Regression, ResNet, and GAN) and FL optimizers (e.g., FedAVG, FedOPT, and FedNOVA); ii) it enables exploring the variability in the effectiveness of attacks and defenses across different datasets and models; and iii) it supports flexible configuration and customization through a configuration file and some provided APIs. We further demonstrate FedSecurity's utility and adaptability through federated training of Large Language Models (LLMs), showcasing its potential to impact a wide range of complex applications.
翻訳日:2024-02-14 00:55:23 公開日:2024-02-09
# Hyp-OW:ハイパーボリック距離を用いた階層構造学習の爆発によるオープンワールド物体検出

Hyp-OW: Exploiting Hierarchical Structure Learning with Hyperbolic Distance Enhances Open World Object Detection ( http://arxiv.org/abs/2306.14291v2 )

ライセンス: Link先を確認
Thang Doan, Xin Li, Sima Behpour, Wenbin He, Liang Gou, Liu Ren(参考訳) open world object detection (owod)は、標準的なオブジェクト検出タスクの範囲を超えた、挑戦的で現実的なタスクである。 既知のオブジェクトと未知のオブジェクトの両方を検出し、将来のタスクのために学習知識を統合する。 しかし、「未知」のレベルは文脈によって大きく異なる。 例えば、木は一般的に、自動運転シーンの背景の一部と見なされるが、家庭の文脈では重要かもしれない。 このコンテキスト情報は、既に既知のクラスに埋め込まれるべきである。 言い換えれば、発見すべき既知の項目と未知の項目の間に、意味的あるいは潜在的な構造関係が存在するべきである。 そこで本研究では,SuperClass Regularizerを用いて既知の項目の階層的表現を学習し,モデル化するHyp-OWを提案する。 この表現を活用することで、類似度距離に基づくレザベリングモジュールを使用して、未知のオブジェクトを効果的に検出できる。 ベンチマークデータセットに関する広範な実験は、hyp-owの有効性を示し、既知の検出と未知検出の両方(最大6%)の改善を達成している。 これらの発見は、新しく設計されたベンチマークで特に顕著であり、既知のオブジェクトと未知のオブジェクトの間に強い階層構造が存在する。 私たちのコードはhttps://github.com/tldoan/-HYP-OW-AAAI-2024で確認できます。

Open World Object Detection (OWOD) is a challenging and realistic task that extends beyond the scope of standard Object Detection task. It involves detecting both known and unknown objects while integrating learned knowledge for future tasks. However, the level of "unknownness" varies significantly depending on the context. For example, a tree is typically considered part of the background in a self-driving scene, but it may be significant in a household context. We argue that this contextual information should already be embedded within the known classes. In other words, there should be a semantic or latent structure relationship between the known and unknown items to be discovered. Motivated by this observation, we propose Hyp-OW, a method that learns and models hierarchical representation of known items through a SuperClass Regularizer. Leveraging this representation allows us to effectively detect unknown objects using a similarity distance-based relabeling module. Extensive experiments on benchmark datasets demonstrate the effectiveness of Hyp-OW, achieving improvement in both known and unknown detection (up to 6 percent). These findings are particularly pronounced in our newly designed benchmark, where a strong hierarchical structure exists between known and unknown objects. Our code can be found at https://github.com/tldoan/-HYP-OW-AAAI-2024-
翻訳日:2024-02-14 00:44:06 公開日:2024-02-09
# epsilon*: マシンラーニングモデルのためのプライバシメトリック

Epsilon*: Privacy Metric for Machine Learning Models ( http://arxiv.org/abs/2307.11280v3 )

ライセンス: Link先を確認
Diana M. Negoescu, Humberto Gonzalez, Saad Eddin Al Orjany, Jilei Yang, Yuliia Lut, Rahul Tandra, Xiaowen Zhang, Xinyi Zheng, Zach Douglas, Vidita Nolkha, Parvez Ahammad, Gennady Samorodnitsky(参考訳) epsilon*は,プライバシ緩和戦略の展開前後において,単一のモデルインスタンスのプライバシリスクを測定するための,新たなプライバシ指標です。 このメトリクスは、モデル予測へのブラックボックスアクセスのみを必要とし、トレーニングデータの再サンプリングやモデル再トレーニングを必要とせず、差分プライバシでトレーニングされていないモデルのプライバシリスクを測定するために使用することができる。 エプシロン*は、メンバーシップ推論攻撃で敵が使用する仮説テストにおいて真正正正率と偽正率の関数である。 我々は、経験的プライバシと呼ぶトレーニングモデルインスタンスのプライバシ損失の定量化と、このモデルインスタンスを生成するトレーニングメカニズムのプライバシ損失の定量化を区別する。 既存のプライバシ監査文献のアプローチでは、後者のバウンダリは低いが、我々のメトリクスは、トレーニングされたモデルインスタンスのプライバシの定量化のタイプ(${\epsilon}$, ${\delta}$)に依存することで、前者のバウンダリを経験的に低くする。 我々は,これらの下界の関係を確立し,数値および雑音増幅の不安定性を回避するためにEpsilon*の実装方法を示す。 さらに,非dpトレーニングベースラインモデルのepsilon*値と比較して,epsilon*値が最大800%低減される差分プライバシ(dp)を用いたトレーニングにより,epsilon*がプライバシリスク軽減に敏感であることをベンチマーク公開データセットで実証した。 このメトリクスは、プライバシ監査者がモデル所有者から独立することを可能にし、プライバシユーティリティの展望を視覚化して、モデルプライバシとユーティリティ間のトレードオフに関する情報的な決定を可能にする。

We introduce Epsilon*, a new privacy metric for measuring the privacy risk of a single model instance prior to, during, or after deployment of privacy mitigation strategies. The metric requires only black-box access to model predictions, does not require training data re-sampling or model re-training, and can be used to measure the privacy risk of models not trained with differential privacy. Epsilon* is a function of true positive and false positive rates in a hypothesis test used by an adversary in a membership inference attack. We distinguish between quantifying the privacy loss of a trained model instance, which we refer to as empirical privacy, and quantifying the privacy loss of the training mechanism which produces this model instance. Existing approaches in the privacy auditing literature provide lower bounds for the latter, while our metric provides an empirical lower bound for the former by relying on an (${\epsilon}$, ${\delta}$)-type of quantification of the privacy of the trained model instance. We establish a relationship between these lower bounds and show how to implement Epsilon* to avoid numerical and noise amplification instability. We further show in experiments on benchmark public data sets that Epsilon* is sensitive to privacy risk mitigation by training with differential privacy (DP), where the value of Epsilon* is reduced by up to 800% compared to the Epsilon* values of non-DP trained baseline models. This metric allows privacy auditors to be independent of model owners, and enables visualizing the privacy-utility landscape to make informed decisions regarding the trade-offs between model privacy and utility.
翻訳日:2024-02-14 00:32:00 公開日:2024-02-09
# コントラスト損失に基づくオフライン手書き署名検証モデルを用いたホワイトボックス偽正逆攻撃法

A White-Box False Positive Adversarial Attack Method on Contrastive Loss Based Offline Handwritten Signature Verification Models ( http://arxiv.org/abs/2308.08925v3 )

ライセンス: Link先を確認
Zhongliang Guo, Weiye Li, Yifei Qian, Ognjen Arandjelovi\'c, Lei Fang(参考訳) 本稿では, 競合的損失に基づくオフライン手書き署名検証モデルに対して, 白箱偽正逆攻撃の課題に取り組む。 本稿では,この攻撃を,密接に関連するが異なる文体間のスタイル伝達として扱う新しい攻撃手法を提案する。 そこで本研究では,原画像と合成画像の埋め込みベクトル間のユークリッド距離を摂動させ,生成画像と原画像との差を小さくすることで最小限の摂動を確保することにより,攻撃成功率を高める2つの新たな損失関数を導入する。 提案手法は, 比較損失に基づくオフライン手書き署名検証モデルに対するホワイトボックス攻撃における最先端性能を示す。 本稿では,新しい偽陽性攻撃法,新たな2つの損失関数,筆跡スタイルにおける効果的なスタイル転送,ホワイトボックス偽陽性攻撃において他のホワイトボックス攻撃法と比較して優れた性能を示す。

In this paper, we tackle the challenge of white-box false positive adversarial attacks on contrastive loss based offline handwritten signature verification models. We propose a novel attack method that treats the attack as a style transfer between closely related but distinct writing styles. To guide the generation of deceptive images, we introduce two new loss functions that enhance the attack success rate by perturbing the Euclidean distance between the embedding vectors of the original and synthesized samples, while ensuring minimal perturbations by reducing the difference between the generated image and the original image. Our method demonstrates state-of-the-art performance in white-box attacks on contrastive loss based offline handwritten signature verification models, as evidenced by our experiments. The key contributions of this paper include a novel false positive attack method, two new loss functions, effective style transfer in handwriting styles, and superior performance in white-box false positive attacks compared to other white-box attack methods.
翻訳日:2024-02-13 22:42:09 公開日:2024-02-09
# 変形性関節症に対する音響-調音インバージョン:事前訓練による自己指導的表現は好ましいか?

Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable? ( http://arxiv.org/abs/2309.01108v4 )

ライセンス: Link先を確認
Sarthak Kumar Maharana, Krishna Kamal Adidam, Shoumik Nandi, Ajitesh Srivastava(参考訳) aai (a acoustic-to-articulatory inversion) は、音響から調音空間へのマッピングである。 MFCCのような信号処理機能は、AAIタスクに広く使われている。 変形性発声者にとって、AAIは不正確で不明瞭な発音のため困難である。 本研究では,事前学習型自己教師付き学習(ssl)モデルを用いて,構音障害児のaaiを行う。 我々は、この挑戦的なAAIタスクに対する様々な事前訓練された機能の影響を、低リソース環境で実証する。 さらに、抽出したSSL機能にxベクトルを条件として、BLSTMネットワークをトレーニングする。 実例では、3つのAIトレーニングスキーム(オブジェクト固有、プール化、微調整)を実験する。 トレーニングスキーム間で一貫した結果、DeCoARは、微調整スキームにおいて、健康管理と患者のそれぞれに対して、パーソン相関係数(Pearson correlation Coefficient, CC)を ~1.81% と ~4.56% で相対的に改善することを明らかにする。 見えないケースでは、SSLのさまざまな機能について、同様の平均トレンドを観察します。 全体として、機能再構築や将来のタイムステップ予測タスクでトレーニングされたwav2vec、APC、DeCoARといったSSLネットワークは、変形性関節軌跡の予測にうまく機能する。

Acoustic-to-articulatory inversion (AAI) involves mapping from the acoustic to the articulatory space. Signal-processing features like the MFCCs, have been widely used for the AAI task. For subjects with dysarthric speech, AAI is challenging because of an imprecise and indistinct pronunciation. In this work, we perform AAI for dysarthric speech using representations from pre-trained self-supervised learning (SSL) models. We demonstrate the impact of different pre-trained features on this challenging AAI task, at low-resource conditions. In addition, we also condition x-vectors to the extracted SSL features to train a BLSTM network. In the seen case, we experiment with three AAI training schemes (subject-specific, pooled, and fine-tuned). The results, consistent across training schemes, reveal that DeCoAR, in the fine-tuned scheme, achieves a relative improvement of the Pearson Correlation Coefficient (CC) by ~1.81% and ~4.56% for healthy controls and patients, respectively, over MFCCs. We observe similar average trends for different SSL features in the unseen case. Overall, SSL networks like wav2vec, APC, and DeCoAR, trained with feature reconstruction or future timestep prediction tasks, perform well in predicting dysarthric articulatory trajectories.
翻訳日:2024-02-13 22:30:33 公開日:2024-02-09
# 1000以上の原子量子ビットを持つ超電荷2次元ツイーザアレイ

Supercharged two-dimensional tweezer array with more than 1000 atomic qubits ( http://arxiv.org/abs/2310.09191v3 )

ライセンス: Link先を確認
Lars Pause, Lukas Sturm, Marcel Mittenb\"uhler, Stephan Amann, Tilman Preuschoff, Dominik Sch\"affner, Malte Schlosser, Gerhard Birkl(参考訳) 本稿では,1000量子ビットを超える大規模量子処理アーキテクチャの実現について報告する。 複数のマイクロレンズ生成tweezerアレイを独立レーザ源で操作することにより、アロキャタブル量子ビット数のレーザパワー制限を解消できる。 すでに2つの別々の配列で、3000量子ビットサイトの2次元構成と平均1167(46)個の原子量子系を実装している。 2つの配列間の原子の移動は高い効率で達成される。 したがって、二次配列から原子を持つ量子処理単位に指定された1つの配列を重ね合わせると、量子ビット数と初期充填率を大幅に増加させる。 これにより、達成可能なキュービットのクラスタサイズと成功確率を大幅に拡大し、最大441キュービットのクラスタの欠陥のない組立を、数十回の検出サイクルでほぼ均一な充填率で持続的に安定化できることを示した。 提案手法は,Rydberg状態の量子シミュレーション,フォールトトレラントな普遍量子計算,量子センシング,量子気象学に即時適用することで,高度にスケーラブルな量子レジスタの構成可能なジオメトリを容易にし,中性原子量子情報科学の基盤となる。

We report on the realization of a large-scale quantum-processing architecture surpassing the tier of 1000 atomic qubits. By tiling multiple microlens-generated tweezer arrays, each operated by an independent laser source, we can eliminate laser-power limitations in the number of allocatable qubits. Already with two separate arrays, we implement combined 2D configurations of 3000 qubit sites with a mean number of 1167(46) single-atom quantum systems. The transfer of atoms between the two arrays is achieved with high efficiency. Thus, supercharging one array designated as quantum processing unit with atoms from the secondary array significantly increases the number of qubits and the initial filling fraction. This drastically enlarges attainable qubit cluster sizes and success probabilities allowing us to demonstrate the defect-free assembly of clusters of up to 441 qubits with persistent stabilization at near-unity filling fraction over tens of detection cycles. The presented method substantiates neutral atom quantum information science by facilitating configurable geometries of highly scalable quantum registers with immediate application in Rydberg-state mediated quantum simulation, fault-tolerant universal quantum computation, quantum sensing, and quantum metrology.
翻訳日:2024-02-13 22:08:10 公開日:2024-02-09
# ソーシャルメディア投稿の自殺感受性を自動検出するツール

An Automated Tool to Detect Suicidal Susceptibility from Social Media Posts ( http://arxiv.org/abs/2310.06056v2 )

ライセンス: Link先を確認
Yasin Dus, Georgiy Nefedov(参考訳) 世界保健機関(WHO)は2022年に世界中で約14万人が自殺したと推計している。 この数字は、年間20秒に1人が自殺したことを示している。 自殺は世界で10番目に多い死因であり、15329歳の若者では2番目に多い死因である。 2022年、約1億5500万人の自殺未遂が起こると推定された。 WHOは、それぞれの自殺未遂と共に、多くの個人が自殺を試みることを示唆している。 今日では、ソーシャルメディアは人々が自分の気持ちを共有する場所です。 したがって、ソーシャルメディアは個人の思考や行動を理解するのに役立ちます。 本研究は,この利点を生かし,ソーシャルメディアからの情報を用いて自己修復を考えているかどうかを判断する自動モデルの開発に焦点をあてる。 このモデルはSidcidal-ELECTRAモデルに基づいている。 ソーシャルメディア投稿のデータセットを収集し、それらを処理し、モデルをトレーニングし、修正しました。 テストデータセットによる洗練されたモデルの評価は、一貫して優れた結果を得た。 このモデルは93%の精度で、F1スコアは0.93である。 さらに我々は,このツールをサードパーティプラットフォームとシームレスに統合するアプリケーションプログラミングインタフェースを開発し,自殺率上昇の懸念に対処する実装の可能性を高めた。

The World Health Organization (WHO) estimated that approximately 1.4 million individuals worldwide died by suicide in 2022. This figure indicates that one person died by suicide every 20 s during the year. Globally, suicide is the tenth-leading cause of death, while it is the second-leading cause of death among young people aged 15329 years. In 2022, it was estimated that approximately 10.5 million suicide attempts would occur. The WHO suggests that along with each completed suicide attempt, many individuals attempt suicide. Today, social media is a place in which people share their feelings. Thus, social media can help us understand the thoughts and possible actions of individuals. This study leverages this advantage and focuses on developing an automated model to use information from social media to determine whether someone is contemplating self-harm. This model is based on the Suicidal-ELECTRA model. We collected datasets of social media posts, processed them, and used them to train and fiune-tune our model. Evaluation of the refined model with a testing dataset consistently yielded outstanding results. The model had an impressive accuracy rate of 93% and commendable F1 score of 0.93. Additionally, we developed an application programming interface that seamlessly integrated our tool with third-party platforms, enhancing its implementation potential to address the concern of rising suicide rates.
翻訳日:2024-02-13 22:06:01 公開日:2024-02-09
# 光の超放射性と回転量子流体からの絡み合い

Entanglement from superradiance and rotating quantum fluids of light ( http://arxiv.org/abs/2310.16031v2 )

ライセンス: Link先を確認
Adri\`a Delhom, Killian Guerrero, Paula Calizaya, K\'evin Falque, Alberto Bramati, Anthony J. Brady, Maxime J. Jacquet and Ivan Agullo(参考訳) 超放射光による放射の増幅は、多くの物理系で観測される普遍的な現象である。 超ラジアント散乱は、コヒーレント状態を含む様々な入力状態の絡み合いを生成し、この現象の本質的に量子的性質を確立することを実証する。 これらの概念を実験に適用するために,光の偏光流体の散逸ダイナミクスにより動的に安定な地平線のないエルゴリージョンを構築する新しい手法を提案する。 安定なエルゴ領域の作成を示すためにシステムを数値的にシミュレートする。 次に,本システムにおける回転超ラジアンスについて検討し,エンタングルメント生成と現在の手法によるエンタングルメント向上の可能性について考察した。 本手法は, 自発的に入力状態を制御することのできる最先端実験において, 回転超放射による量子放出の研究を可能にする。

The amplification of radiation by superradiance is a universal phenomenon observed in numerous physical systems. We demonstrate that superradiant scattering generates entanglement for different input states, including coherent states, thereby establishing the inherently quantum nature of this phenomenon. To put these concepts to the test, we propose a novel approach to create horizonless ergoregions, which are nonetheless dynamically stable thanks to the dissipative dynamics of a polaritonic fluid of light. We numerically simulate the system to demonstrate the creation of a stable ergoregion. Subsequently, we investigate rotational superradiance within this system, with a primary focus on entanglement generation and the possibilities for its enhancement using current techniques. Our methods permit the investigation of quantum emission by rotational superradiance in state-of-the-art experiments, in which the input state can be controlled at will.
翻訳日:2024-02-13 21:55:00 公開日:2024-02-09
# 土地利用計画における効果的な政策の発見

Discovering Effective Policies for Land-Use Planning ( http://arxiv.org/abs/2311.12304v3 )

ライセンス: Link先を確認
Risto Miikkulainen, Olivier Francon, Daniel Young, Elliot Meyerson, Clemens Schwingshackl, Jacob Bieker, Hugo Cunha, and Babak Hodjat(参考訳) 森林、都市部、農業など、異なる用途のためにどのように土地が配分されるかは、地球上の炭素収支に大きな影響を与える。 土地利用の変化に関する利用可能な履歴データと関連する二酸化炭素排出と除去のシミュレーションに基づいて、意思決定者に利用可能な異なる選択肢を効率的に評価できるサロゲートモデルを学ぶことができる。 進化的探索プロセスは、特定の場所に対する効果的な土地利用政策を発見するために使用できる。 このようなシステムはProject Resilienceプラットフォーム上に構築され、Land-Use HarmonizationデータセットLUH2と簿記モデルBLUEで評価された。 パレートは、炭素の衝突と土地利用の変化の量とを異なる場所にカスタマイズするパレートフロントを生産し、土地利用計画のための潜在的に有用なツールを提供する。

How areas of land are allocated for different uses, such as forests, urban areas, and agriculture, has a large effect on the terrestrial carbon balance, and therefore climate change. Based on available historical data on land-use changes and a simulation of the associated carbon emissions and removals, a surrogate model can be learned that makes it possible to evaluate the different options available to decision-makers efficiently. An evolutionary search process can then be used to discover effective land-use policies for specific locations. Such a system was built on the Project Resilience platform and evaluated with the Land-Use Harmonization dataset LUH2 and the bookkeeping model BLUE. It generates Pareto fronts that trade off carbon impact and amount of land-use change customized to different locations, thus providing a potentially useful tool for land-use planning.
翻訳日:2024-02-13 21:46:34 公開日:2024-02-09
# スペクトルバンドルとスケッチによる高速でスケーラブルで温かい半定型プログラミング

Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching ( http://arxiv.org/abs/2312.11801v2 )

ライセンス: Link先を確認
Rico Angell and Andrew McCallum(参考訳) 半定値プログラミング(SDP)は伝統的に中程度の問題に限られてきたが、近年、行列スケッチ技術で拡張されたアルゴリズムにより、より大きなSDPを解けるようになった。 しかし、これらの手法は必要なイテレーション数の増加を犠牲にしてスケーラビリティを実現し、問題のサイズが大きくなると収束が遅くなる。 さらに、インクリメンタルアレーブデータや混合インテガープログラミングで実用上重要なウォームスタート初期化の有効利用を禁止するイテレーション依存パラメータスケジュールが必要となる。 本研究では,大規模なsdpsを解決するための拡張性のあるアルゴリズムであるsketching (usbs) を用いた統一スペクトル結合法を提案する。 提案アルゴリズムは,等式制約と不等式制約の両方を含む一般SDPを解くためのスペクトル束法である。 さらに,任意の行列スケッチ手法で拡張すると,コンバージェンス速度を維持しつつ,従来の作業のスケーラビリティを劇的に向上させる。 我々は、ウォームスタートの有無に関わらず、複数のアプリケーションにわたる手法の有効性を実証的に実証する。 例えば、USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。

While semidefinite programming (SDP) has traditionally been limited to moderate-sized problems, recent algorithms augmented with matrix sketching techniques have enabled solving larger SDPs. However, these methods achieve scalability at the cost of an increase in the number of necessary iterations, resulting in slower convergence as the problem size grows. Furthermore, they require iteration-dependent parameter schedules that prohibit effective utilization of warm-start initializations important in practical applications with incrementally-arriving data or mixed-integer programming. We present Unified Spectral Bundling with Sketching (USBS), a provably correct, fast and scalable algorithm for solving massive SDPs that can leverage a warm-start initialization to further accelerate convergence. Our proposed algorithm is a spectral bundle method for solving general SDPs containing both equality and inequality constraints. Moveover, when augmented with an optional matrix sketching technique, our algorithm achieves the dramatically improved scalability of previous work while sustaining convergence speed. We empirically demonstrate the effectiveness of our method across multiple applications, with and without warm-starting. For example, USBS provides a 500x speed-up over the state-of-the-art scalable SDP solver on an instance with over 2 billion decision variables.
翻訳日:2024-02-13 21:22:11 公開日:2024-02-09
# メトロポリス調整ミラーランゲヴィンアルゴリズムを用いた制約空間からの高速サンプリング

Fast sampling from constrained spaces using the Metropolis-adjusted Mirror Langevin algorithm ( http://arxiv.org/abs/2312.08823v2 )

ライセンス: Link先を確認
Vishwak Srinivasan, Andre Wibisono, Ashia Wilson(参考訳) 本研究では,コンパクトかつ凸集合である分布から近似サンプリングを行うためのmetropolis-adjusted mirror langevinアルゴリズムを提案する。 このアルゴリズムは、ミラーランゲヴィンの力学の基本的な離散化であるミラーランゲヴィンアルゴリズム(Zhang et al., 2020)の単一ステップによって誘導されるマルコフ連鎖にアセプション-リジェクションフィルタを追加する。 このフィルタが組み込まれているため、我々の手法はターゲットに対して偏りがないが、ミラーランゲヴィンアルゴリズムを含むミラーランゲヴィンの力学は漸近バイアスを持つ。 このアルゴリズムはまた、自己調和ミラー関数に関して、ポテンシャルが比較的滑らかで凸、リプシッツ連続である制約付き分布に混合するために要する反復数について上限を与える。 メトロポリス・ハスティングスフィルタの導入によって引き起こされるマルコフ連鎖の可逆性の結果、近似されたサンプリングに対する誤差耐性への指数的に優れた依存性が得られる。 また,理論的な知見を裏付ける数値実験も実施する。

We propose a new method called the Metropolis-adjusted Mirror Langevin algorithm for approximate sampling from distributions whose support is a compact and convex set. This algorithm adds an accept-reject filter to the Markov chain induced by a single step of the Mirror Langevin algorithm (Zhang et al., 2020), which is a basic discretisation of the Mirror Langevin dynamics. Due to the inclusion of this filter, our method is unbiased relative to the target, while known discretisations of the Mirror Langevin dynamics including the Mirror Langevin algorithm have an asymptotic bias. For this algorithm, we also give upper bounds for the number of iterations taken to mix to a constrained distribution whose potential is relatively smooth, convex, and Lipschitz continuous with respect to a self-concordant mirror function. As a consequence of the reversibility of the Markov chain induced by the inclusion of the Metropolis-Hastings filter, we obtain an exponentially better dependence on the error tolerance for approximate constrained sampling. We also present numerical experiments that corroborate our theoretical findings.
翻訳日:2024-02-13 21:20:47 公開日:2024-02-09
# 可変動作空間に対するインコンテキスト強化学習

In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v3 )

ライセンス: Link先を確認
Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov(参考訳) 近年,マルチエピソードコンテキストを持つ多種多様なデータセット上で事前学習されたトランスフォーマーが,コンテキスト内で新しい強化学習タスクに一般化できることが示されている。 前述したモデルの主な制限は、事前に定義されたアクション空間のサイズと構造に依存することである。 新しいアクション空間の導入には、しばしばデータの再コレクションとモデルの再トレーニングが必要となる。 本研究では,1回しか訓練されていないにもかかわらず,可変サイズ,意味的内容,順序の離散的行動空間に一般化できるヘッドレスアドモデルを提案することで,この問題を緩和できることを示す。 Bernoulli と文脈的包帯とグリッドワールド環境を実験することにより、Headless-AD は、これまで遭遇したことのないアクション空間に一般化する重要な能力を示し、また、いくつかの環境構成において特定のアクションセットのために訓練された特別なモデルよりも優れていることを示す。

Recently, it has been shown that transformers pre-trained on diverse datasets with multi-episode contexts can generalize to new reinforcement learning tasks in-context. A key limitation of previously proposed models is their reliance on a predefined action space size and structure. The introduction of a new action space often requires data re-collection and model re-training, which can be costly for some applications. In our work, we show that it is possible to mitigate this issue by proposing the Headless-AD model that, despite being trained only once, is capable of generalizing to discrete action spaces of variable size, semantic content and order. By experimenting with Bernoulli and contextual bandits, as well as a gridworld environment, we show that Headless-AD exhibits significant capability to generalize to action spaces it has never encountered, even outperforming specialized models trained for a specific set of actions on several environment configurations.
翻訳日:2024-02-13 21:06:30 公開日:2024-02-09
# ショートカットの学習:言語モデルにおけるNLUの誤った約束について

Learning Shortcuts: On the Misleading Promise of NLU in Language Models ( http://arxiv.org/abs/2401.09615v2 )

ライセンス: Link先を確認
Geetanjali Bihani, Julia Taylor Rayz(参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理の分野で大きなパフォーマンス向上を実現している。 しかし、近年の研究では、LLMはタスクの実行時にショートカットを利用することが多く、その決定規則の一般化性に欠けつつ、性能向上の錯覚を生じさせる。 この現象は、LLMにおける自然言語理解を正確に評価する上での課題をもたらす。 本稿では,この領域における関連研究の簡潔な調査と,言語モデル,特にNLUタスクの評価におけるショートカット学習の影響について考察する。 本稿では,ショートカット学習の理解を深め,より堅牢な言語モデルの開発に寄与し,実世界のシナリオにおけるNLU評価の基準を高めるために,さらなる研究努力を奨励する。

The advent of large language models (LLMs) has enabled significant performance gains in the field of natural language processing. However, recent studies have found that LLMs often resort to shortcuts when performing tasks, creating an illusion of enhanced performance while lacking generalizability in their decision rules. This phenomenon introduces challenges in accurately assessing natural language understanding in LLMs. Our paper provides a concise survey of relevant research in this area and puts forth a perspective on the implications of shortcut learning in the evaluation of language models, specifically for NLU tasks. This paper urges more research efforts to be put towards deepening our comprehension of shortcut learning, contributing to the development of more robust language models, and raising the standards of NLU evaluation in real-world scenarios.
翻訳日:2024-02-13 20:57:35 公開日:2024-02-09
# RSUD20K:自動運転における道路シーン理解のためのデータセット

RSUD20K: A Dataset for Road Scene Understanding In Autonomous Driving ( http://arxiv.org/abs/2401.07322v2 )

ライセンス: Link先を確認
Hasib Zunair, Shakib Khan, and A. Ben Hamza(参考訳) 道路シーンの理解は、機械が視覚環境を知覚できるように、自動運転において不可欠である。 しかし、最近のオブジェクト検出器は、特定の地理的な場所から収集されたデータセットを学習するために調整されている。 本稿では,バングラデシュ道路の運転視点から20K以上の高解像度画像で構成され,13のオブジェクトに対する130K境界ボックスアノテーションを含む道路シーン理解のための新しいデータセットであるRSUD20Kを提案する。 この挑戦的なデータセットは、様々な道路のシーン、狭い通りとハイウェイを含み、さまざまな視点からのオブジェクトと、密集した乱雑な物体と様々な気象条件のある混雑した環境からのシーンを含んでいる。 我々の作業は以前の取り組みを大幅に改善し、詳細なアノテーションを提供し、オブジェクトの複雑さを増大させます。 我々はデータセットを徹底的に検証し、最先端の物体検出器をベンチマークし、画像アノテーションとして大規模ビジョンモデルを探索する。

Road scene understanding is crucial in autonomous driving, enabling machines to perceive the visual environment. However, recent object detectors tailored for learning on datasets collected from certain geographical locations struggle to generalize across different locations. In this paper, we present RSUD20K, a new dataset for road scene understanding, comprised of over 20K high-resolution images from the driving perspective on Bangladesh roads, and includes 130K bounding box annotations for 13 objects. This challenging dataset encompasses diverse road scenes, narrow streets and highways, featuring objects from different viewpoints and scenes from crowded environments with densely cluttered objects and various weather conditions. Our work significantly improves upon previous efforts, providing detailed annotations and increased object complexity. We thoroughly examine the dataset, benchmarking various state-of-the-art object detectors and exploring large vision models as image annotators.
翻訳日:2024-02-13 20:55:39 公開日:2024-02-09
# 共振器強化光学格子における$^{171}$Yb原子配列の反復アセンブリ

Iterative assembly of $^{171}$Yb atom arrays in cavity-enhanced optical lattices ( http://arxiv.org/abs/2401.16177v2 )

ライセンス: Link先を確認
M.A. Norcia, H. Kim, W.B. Cairncross, M. Stone, A. Ryou, M. Jaffe, M.O. Brown, K. Barnes, P. Battaglino, T.C. Bohdanowicz, A. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, E. Halperin, F. Hummel, A.M.W. Jones, J.M. Kindem, J. King, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J.A. Muniz, S. Narayanaswami, C. Nishiguchi, T. Paule, K.A. Pawlak, L.S. Peng, K.L. Pudenz, D. Rodriguez Perez, A. Smull, D. Stack, M. Urbanek, R.J.M. van de Veerdonk, Z. Vendeiro, L. Wadleigh, T. Wilkason, T.-Y. Wu, X. Xie, E. Zalys-Geller, X. Zhang, B.J. Bloom(参考訳) 個々のアドレス可能な原子の大きな配列を組み立て、維持することは、中性原子ベースの量子コンピュータとシミュレータの継続的なスケーリングの鍵となる要件である。 本研究では,光トワイザーとキャビティ強化光格子の相乗的結合と,繰り返し充填された貯留層からターゲットアレイをインクリメンタルに充填することに基づく,原子アレイの組み立てのための新しいパラダイムを示す。 このプロトコルでは、tweezersは原子の微視的再構成を提供し、キャビティエンハンスされた格子は、原子の迅速な低ロスイメージングを可能にする多くの深い光学的ポテンシャルの作成を可能にする。 このプロトコルを用いて1225箇所の配列の決定論的充填(サイトごとの占有率99%)を実証する。 貯留層は新鮮な原子で繰り返し充填されるため、配列は無期限に充填状態に維持することができる。 このプロトコルは、システム内の1つの原子の寿命を超える大規模な誤り訂正量子計算を実行する上で重要な機能である、ミッド・サーキット・リロードと互換性があることを期待する。

Assembling and maintaining large arrays of individually addressable atoms is a key requirement for continued scaling of neutral-atom-based quantum computers and simulators. In this work, we demonstrate a new paradigm for assembly of atomic arrays, based on a synergistic combination of optical tweezers and cavity-enhanced optical lattices, and the incremental filling of a target array from a repetitively filled reservoir. In this protocol, the tweezers provide microscopic rearrangement of atoms, while the cavity-enhanced lattices enable the creation of large numbers of deep optical potentials that allow for rapid low-loss imaging of atoms. We apply this protocol to demonstrate deterministic filling (99% per-site occupancy) of 1225-site arrays. Because the reservoir is repeatedly filled with fresh atoms, the array can be maintained in a filled state indefinitely. We anticipate that this protocol will be compatible with mid-circuit reloading, which will be a key capability for running large-scale error-corrected quantum computations whose durations exceed the lifetime of a single atom in the system.
翻訳日:2024-02-13 20:45:07 公開日:2024-02-09
# 微分可能グラフニューラルネットワークシミュレータによる粒状流れの逆解析

Inverse analysis of granular flows using differentiable graph neural network simulator ( http://arxiv.org/abs/2401.13695v2 )

ライセンス: Link先を確認
Yongjin Choi, Krishna Kumar(参考訳) 地すべりや土砂流などの粒状流の逆問題では, 目標流出プロファイルに基づいて材料パラメータや境界条件を推定する。 これらの逆問題に対する従来の高忠実性シミュレータは計算的に要求され、可能なシミュレーションの数を制限する。 さらに、それらの非微分性は、高次元問題における効率性で知られる勾配に基づく最適化手法を適用不能にする。 機械学習ベースのサロゲートモデルは計算効率と微分可能性を提供するが、グラニュラーフローの完全な物理を捉えるのに失敗する低次元の入出力マッピングに依存するため、トレーニングデータ以上の一般化に苦慮することが多い。 本稿では,グラフニューラルネットワークの逆モード自動微分と逆問題に対する勾配最適化を組み合わせた新しい微分可能グラフニューラルネットワークシミュレータ(gns)を提案する。 GNSは、系をグラフとして表現することで粒度の流れのダイナミクスを学習し、現在の状態から次のステップでグラフの進化を予測する。 微分可能なgsnは、トレーニングデータを超えた最適化機能を示す。 本手法は, 目標流出距離に対する材料特性および境界条件の評価や, 地すべり流出抑制のためのバッフル位置の設計などを含む, 単パラメータおよび多パラメータの最適化問題に対する逆推定手法の有効性を示す。 提案した微分可能 GNS フレームワークは,従来の有限差分法による勾配最適化法に比べて,これらの逆問題に対して,桁違いに高速な解を提供する。

Inverse problems in granular flows, such as landslides and debris flows, involve estimating material parameters or boundary conditions based on target runout profile. Traditional high-fidelity simulators for these inverse problems are computationally demanding, restricting the number of simulations possible. Additionally, their non-differentiable nature makes gradient-based optimization methods, known for their efficiency in high-dimensional problems, inapplicable. While machine learning-based surrogate models offer computational efficiency and differentiability, they often struggle to generalize beyond their training data due to their reliance on low-dimensional input-output mappings that fail to capture the complete physics of granular flows. We propose a novel differentiable graph neural network simulator (GNS) by combining reverse mode automatic differentiation of graph neural networks with gradient-based optimization for solving inverse problems. GNS learns the dynamics of granular flow by representing the system as a graph and predicts the evolution of the graph at the next time step, given the current state. The differentiable GNS shows optimization capabilities beyond the training data. We demonstrate the effectiveness of our method for inverse estimation across single and multi-parameter optimization problems, including evaluating material properties and boundary conditions for a target runout distance and designing baffle locations to limit a landslide runout. Our proposed differentiable GNS framework offers an orders of magnitude faster solution to these inverse problems than the conventional finite difference approach to gradient-based optimization.
翻訳日:2024-02-13 20:42:52 公開日:2024-02-09
# llm生成コードの品質と信頼性

Quality and Trust in LLM-generated Code ( http://arxiv.org/abs/2402.02047v2 )

ライセンス: Link先を確認
Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md Rafiqul Islam Rabin, Amin Alipour, Susmit Jha, Prem Devanbu, Toufique Ahmed(参考訳) 機械学習モデルは広く使われているが、しばしば間違っていることもある。 ユーザは、与えられたモデルからのアウトプットを信頼すべきかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。 例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。 この場合、例えば、高信頼出力は安全に受け入れられ、低信頼出力は拒否される。 キャリブレーションは、これまで、特にソフトウェア工学において、非生成的(例えば分類)な設定で研究されてきた。 しかし、生成されたコードは、しばしば間違っている: 開発者は、いつ、直接の使用、慎重にレビューした後の使用、またはモデル生成コードを捨てるべきかを知る必要がある; キャリブレーションは、生成設定において不可欠である。 しかし、生成されたコードの正確性の概念は非自明であり、キャリブレーションも同様である。 本稿ではいくつかの貢献を行う。 コード生成モデルのキャリブレーションを評価するフレームワークを開発した。 我々は、いくつかのタスク、正確性基準、データセット、そしてアプローチを検討し、大きな生成型コードモデルが最初からうまく調整されていないことを見つける。 次に, platt scaling などの標準手法を用いて, キャリブレーションの改善方法を示す。 私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良いキャリブレーションによる意思決定につながり、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。

Machine learning models are widely used but can also often be wrong. Users would benefit from a reliable indication of whether a given output from a given model should be trusted, so a rational decision can be made whether to use the output or not. For example, outputs can be associated with a confidence measure; if this confidence measure is strongly associated with likelihood of correctness, then the model is said to be well-calibrated. In this case, for example, high-confidence outputs could be safely accepted, and low-confidence outputs rejected. Calibration has so far been studied in non-generative (e.g., classification) settings, especially in Software Engineering. However, generated code can quite often be wrong: Developers need to know when they should e.g., directly use, use after careful review, or discard model-generated code; thus Calibration is vital in generative settings. However, the notion of correctness of generated code is non-trivial, and thus so is Calibration. In this paper we make several contributions. We develop a framework for evaluating the Calibration of code-generating models. We consider several tasks, correctness criteria, datasets, and approaches, and find that by and large generative code models are not well-calibrated out of the box. We then show how Calibration can be improved, using standard methods such as Platt scaling. Our contributions will lead to better-calibrated decision-making in the current use of code generated by language models, and offers a framework for future research to further improve calibration methods for generative models in Software Engineering.
翻訳日:2024-02-13 20:35:26 公開日:2024-02-09
# 失敗から学ぶインコンテキスト原則

In-Context Principle Learning from Mistakes ( http://arxiv.org/abs/2402.05403v2 )

ライセンス: Link先を確認
Tianjun Zhang, Aman Madaan, Luyu Gao, Steven Zheng, Swaroop Mishra, Yiming Yang, Niket Tandon, Uri Alon(参考訳) In-context Learning (ICL, few-shot prompting) は、いくつかの入力出力例から学習することで、LLMを下流タスクに適用する標準的な方法である。 それでも、すべてのiclベースのアプローチは、正しい入出力ペアからのみ学習する。 本稿では,このパラダイムを,数少ない入力出力例から学習することで再考する。 私たちは学習原則(leap: learning principles)を紹介します。まず、モデルを故意に誘導して、これらのいくつかの例で間違いを犯す;次に、これらの誤りを熟考し、それらから明らかなタスク固有の"原則"を学習します。 LEAPはマルチホップ質問応答 (Hotpot QA), テキストQA (DROP), ビッグベンチハード推論 (GSM8K, MATH), 数学問題 (GSM8K, MATH) など幅広いベンチマークで評価され, LEAP は GPT-3.5-turbo, GPT-4, GPT-4 ターボ, Claude-2.1 などの最強の LLM を改善している。 例えば、LEAPはGPT-4をDROPで7.5%、HotpotQAで3.3%改善した。 重要なことは、LEAPは標準的な数ショットプロンプト設定以上のインプットや例を必要としないことである。

In-context learning (ICL, also known as few-shot prompting) has been the standard method of adapting LLMs to downstream tasks, by learning from a few input-output examples. Nonetheless, all ICL-based approaches only learn from correct input-output pairs. In this paper, we revisit this paradigm, by learning more from the few given input-output examples. We introduce Learning Principles (LEAP): First, we intentionally induce the model to make mistakes on these few examples; then we reflect on these mistakes, and learn explicit task-specific "principles" from them, which help solve similar problems and avoid common mistakes; finally, we prompt the model to answer unseen test questions using the original few-shot examples and these learned general principles. We evaluate LEAP on a wide range of benchmarks, including multi-hop question answering (Hotpot QA), textual QA (DROP), Big-Bench Hard reasoning, and math problems (GSM8K and MATH); in all these benchmarks, LEAP improves the strongest available LLMs such as GPT-3.5-turbo, GPT-4, GPT-4 turbo and Claude-2.1. For example, LEAP improves over the standard few-shot prompting using GPT-4 by 7.5% in DROP, and by 3.3% in HotpotQA. Importantly, LEAP does not require any more input or examples than the standard few-shot prompting settings.
翻訳日:2024-02-13 20:22:39 公開日:2024-02-09
# 階層型情報共有Dec-POMDPの解法 - 汎用型ゲームアプローチ

Solving Hierarchical Information-Sharing Dec-POMDPs: An Extensive-Form Game Approach ( http://arxiv.org/abs/2402.02954v2 )

ライセンス: Link先を確認
Johan Peralez, Aur\'elien Delage, Olivier Buffet, Jilles S. Dibangoye(参考訳) 最近の理論では、マルチプレイヤーの部分観測可能なマルコフ決定プロセスが等価な単一プレイヤーゲームに変換され、単一ステージのサブゲームに分解することで、単一プレイヤーゲームを解決するための最適性の原理が適用可能である。 しかし、このアプローチは、各シングルステージのサブゲームにおける全てのプレイヤーの決定変数を絡み合わせることで、二重指数複雑性を持つバックアップとなる。 本稿では,階層的な情報共有の下での最適性を維持しつつ,これらの決定変数を解き放つ方法を示す。 これを実現するため、我々は、より小さなサブゲームに分解することで、任意のシングルステージのサブゲームを解決するために最適性の原則を適用し、同時にシングルプレイヤーの決定を行えるようにする。 我々のアプローチでは、広義のゲームは常に単一ステージのサブゲームに対する解決策として存在し、時間的複雑さを著しく減少させる。 実験の結果,この結果を利用したアルゴリズムは,最適化を損なうことなく,より大規模なマルチプレイヤーゲームにスケールアップできることがわかった。

A recent theory shows that a multi-player decentralized partially observable Markov decision process can be transformed into an equivalent single-player game, enabling the application of \citeauthor{bellman}'s principle of optimality to solve the single-player game by breaking it down into single-stage subgames. However, this approach entangles the decision variables of all players at each single-stage subgame, resulting in backups with a double-exponential complexity. This paper demonstrates how to disentangle these decision variables while maintaining optimality under hierarchical information sharing, a prominent management style in our society. To achieve this, we apply the principle of optimality to solve any single-stage subgame by breaking it down further into smaller subgames, enabling us to make single-player decisions at a time. Our approach reveals that extensive-form games always exist with solutions to a single-stage subgame, significantly reducing time complexity. Our experimental results show that the algorithms leveraging these findings can scale up to much larger multi-player games without compromising optimality.
翻訳日:2024-02-13 20:19:47 公開日:2024-02-09
# everyone prune now: フォワードパスのみによるllmの構造化pruning

Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes ( http://arxiv.org/abs/2402.05406v2 )

ライセンス: Link先を確認
Lucio Dery, Steven Kolawole, Jean-Fran\c{c}ois Kagy, Virginia Smith, Graham Neubig, Ameet Talwalkar(参考訳) 一般の実践者と最も支援された機関の間で利用可能なハードウェアの世代間ギャップを考えると、LLMは規模が大きくなるにつれてアクセスしにくくなっている。 llmを圧縮してリソース消費を管理可能にする多くのアプローチが提案されているが、これらのメソッド自体はリソース集約的であり、ターゲットとする非常にユーザグループの範囲外になる傾向がある。 本研究では,前進パスのみを用いたLCMの構造的プルーニングの問題について検討する。 私たちは実践者に、利用可能なハードウェアが推論を実行するのに十分なメモリを持つほど大きなモデルをプルーンする権限を与えたいと考えています。 我々は,小型で高速かつ高精度な刈り込みモデルを提供できる,勾配のない摂動型刈り込み法であるBonsaiを開発した。 ボンサイは刈り取ったモデルを出力し (i)より高価な勾配に基づく構造的刈り取り法で生成されたものよりも優れており、 (ii) は半構造化プルーニング法で生成したものより2倍高速(精度は同等)である。 また,1つのa6000を用いて新しいサブ2bモデルを作成し,hughingface open llm leaderboard上で4/6タスクで最先端のパフォーマンスを実現する。

Given the generational gap in available hardware between lay practitioners and the most endowed institutions, LLMs are becoming increasingly inaccessible as they grow in size. Whilst many approaches have been proposed to compress LLMs to make their resource consumption manageable, these methods themselves tend to be resource intensive, putting them out of the reach of the very user groups they target. In this work, we explore the problem of structured pruning of LLMs using only forward passes. We seek to empower practitioners to prune models so large that their available hardware has just enough memory to run inference. We develop Bonsai, a gradient-free, perturbative pruning method capable of delivering small, fast, and accurate pruned models. We observe that Bonsai outputs pruned models that (i) outperform those generated by more expensive gradient-based structured pruning methods, and (ii) are twice as fast (with comparable accuracy) as those generated by semi-structured pruning methods requiring comparable resources as Bonsai. We also leverage Bonsai to produce a new sub-2B model using a single A6000 that yields state-of-the-art performance on 4/6 tasks on the Huggingface Open LLM leaderboard.
翻訳日:2024-02-13 20:09:08 公開日:2024-02-09
# BIKED++:140万の自転車画像とパラメトリックCADデザインのマルチモーダルデータセット

BIKED++: A Multimodal Dataset of 1.4 Million Bicycle Image and Parametric CAD Designs ( http://arxiv.org/abs/2402.05301v2 )

ライセンス: Link先を確認
Lyle Regenwetter, Yazan Abu Obaideh, Amin Heyrani Nobari, Faez Ahmed(参考訳) 本稿では,jsonファイルやラスタライズドイメージとして,パラメトリックに表現された14万個の自転車デザインの公開データセットを紹介する。 データセットは、BikeCADソフトウェアを利用したレンダリングエンジンを使用して作成され、パラメトリックデザインからベクトルグラフィックスを生成する。 このレンダリングエンジンは論文で論じられ、データセットとともに公開された。 このデータセットには多くの応用があるが、主な動機はパラメトリックとイメージベースのデザイン表現間のクロスモーダル予測モデルをトレーニングする必要があることである。 例えば、パラメトリック表現から直接CLIP(Contrastive Language- Image Pretraining)埋め込みを正確に推定するために予測モデルを訓練できることを実証する。 これにより、パラメトリック自転車の設計とテキスト文字列や参照画像との類似性が確立される。 トレーニングされた予測モデルも公開されている。 データセットは、数千の複合表現型自転車モデルと、設計性能を定量化するいくつかのデータセットを含む、自転車データセットファミリに加わる。 コードとデータセットは、https://github.com/Lyleregenwetter/BIKED_multimodal/tree/mainにある。

This paper introduces a public dataset of 1.4 million procedurally-generated bicycle designs represented parametrically, as JSON files, and as rasterized images. The dataset is created through the use of a rendering engine which harnesses the BikeCAD software to generate vector graphics from parametric designs. This rendering engine is discussed in the paper and also released publicly alongside the dataset. Though this dataset has numerous applications, a principal motivation is the need to train cross-modal predictive models between parametric and image-based design representations. For example, we demonstrate that a predictive model can be trained to accurately estimate Contrastive Language-Image Pretraining (CLIP) embeddings from a parametric representation directly. This allows similarity relations to be established between parametric bicycle designs and text strings or reference images. Trained predictive models are also made public. The dataset joins the BIKED dataset family which includes thousands of mixed-representation human-designed bicycle models and several datasets quantifying design performance. The code and dataset can be found at: https://github.com/Lyleregenwetter/BIKED_multimodal/tree/main
翻訳日:2024-02-13 20:08:47 公開日:2024-02-09
# セグメンテーション誘導拡散モデルを用いた解剖学的制御可能な医用画像生成

Anatomically-Controllable Medical Image Generation with Segmentation-Guided Diffusion Models ( http://arxiv.org/abs/2402.05210v2 )

ライセンス: Link先を確認
Nicholas Konz, Yuwen Chen, Haoyu Dong, Maciej A. Mazurowski(参考訳) 拡散モデルは、非常に高品質な医用画像生成を可能にし、小さなデータセットや不均衡なデータセットを補足することで、新しい画像の取得と注釈のコストを軽減できる。 しかしこれらは、生成された画像にグローバルな解剖学的リアリズムを強制するという課題によって妨げられている。 そこで本研究では,解剖学的に制御された医用画像生成のための拡散モデルを提案する。 本モデルでは,各サンプリングステップでマルチクラス解剖学的セグメンテーションマスクを使用し, \textit{random mask ablation} トレーニングアルゴリズムを組み込んで,選択された解剖学的制約の組み合わせを条件付けし,他の解剖学的領域の柔軟性を許容する。 これはまた、完全に無条件(無拘束世代)の場合の解剖学的実在論のネットワークの学習を改善する。 胸部MRIと腹部CTとの比較では, 解剖学的実在性, 入力マスク忠実度が, 最先端モデルよりも優れていた。 また、アクセス可能なコードベースを提供し、生成されたペアの乳房MRIのデータセットをリリースしています。 提案手法は,事前登録した画像生成,対実シナリオなど,多様な応用を促進する。

Diffusion models have enabled remarkably high-quality medical image generation, which can help mitigate the expenses of acquiring and annotating new images by supplementing small or imbalanced datasets, along with other applications. However, these are hampered by the challenge of enforcing global anatomical realism in generated images. To this end, we propose a diffusion model for anatomically-controlled medical image generation. Our model follows a multi-class anatomical segmentation mask at each sampling step and incorporates a \textit{random mask ablation} training algorithm, to enable conditioning on a selected combination of anatomical constraints while allowing flexibility in other anatomical areas. This also improves the network's learning of anatomical realism for the completely unconditional (unconstrained generation) case. Comparative evaluation on breast MRI and abdominal/neck-to-pelvis CT datasets demonstrates superior anatomical realism and input mask faithfulness over state-of-the-art models. We also offer an accessible codebase and release a dataset of generated paired breast MRIs. Our approach facilitates diverse applications, including pre-registered image generation, counterfactual scenarios, and others.
翻訳日:2024-02-13 20:08:06 公開日:2024-02-09
# 駆動量子系におけるヒルベルト空間エルゴーディシティ:障害と設計

Hilbert-Space Ergodicity in Driven Quantum Systems: Obstructions and Designs ( http://arxiv.org/abs/2402.06720v1 )

ライセンス: Link先を確認
Sa\'ul Pilatowsky-Cameo, Iman Marvian, Soonwon Choi, Wen Wei Ho(参考訳) その長い歴史にもかかわらず、駆動系を含む量子力学の一般クラスに適用される量子エルゴーディシティの標準的な定式化は、完全に確立されていない。 ここでは、時間依存ハミルトニアンを持つ閉系に対する量子エルゴーディシティの概念を、その長期ダイナミクスに現れる統計的ランダム性として定義し、検討する。 具体的には、進化によって生じる量子状態(時間進化作用素)の時間的アンサンブルを考察し、ヒルベルト空間(ユニタリ空間)における一様ランダムな状態(演算子)と統計的に区別できない条件について検討する。 この現象が起こるためには、ハミルトニアンの基礎となる駆動周波数の数が十分に大きい必要がある。 逆に、統計的擬似ランダム性(大きなが有限のモーメントまで区別できない)は、駆動期間が十分長い限り、単一周波数で駆動される量子系、すなわちフロケ系によって既に達成できることを示す。 我々の研究は時間依存ハミルトニアンと結果として生じる量子力学の複雑さを関連づけ、量子エルゴディシティと量子情報のレンズからのカオスの確立されたトピックに対する新たな視点を提供する。

Despite its long history, a canonical formulation of quantum ergodicity that applies to general classes of quantum dynamics, including driven systems, has not been fully established. Here we introduce and study a notion of quantum ergodicity for closed systems with time-dependent Hamiltonians, defined as statistical randomness exhibited in their long-time dynamics. Concretely, we consider the temporal ensemble of quantum states (time-evolution operators) generated by the evolution, and investigate the conditions necessary for them to be statistically indistinguishable from uniformly random states (operators) in the Hilbert space (space of unitaries). We find that the number of driving frequencies underlying the Hamiltonian needs to be sufficiently large for this to occur. Conversely, we show that statistical pseudo-randomness -- indistinguishability up to some large but finite moment, can already be achieved by a quantum system driven with a single frequency, i.e., a Floquet system, as long as the driving period is sufficiently long. Our work relates the complexity of a time-dependent Hamiltonian and that of the resulting quantum dynamics, and offers a fresh perspective to the established topics of quantum ergodicity and chaos from the lens of quantum information.
翻訳日:2024-02-13 19:46:51 公開日:2024-02-09
# 動的グラフ情報ボトルネック

Dynamic Graph Information Bottleneck ( http://arxiv.org/abs/2402.06716v1 )

ライセンス: Link先を確認
Haonan Yuan, Qingyun Sun, Xingcheng Fu, Cheng Ji, Jianxin Li(参考訳) 動的グラフは現実世界に広く存在し、複雑な空間的・時間的特徴パターンを持ち、表現学習に挑戦している。 動的グラフニューラルネットワーク(dgnn)は、本質的ダイナミクスを活用し、驚くべき予測能力を示している。 しかし、DGNNは限られた堅牢性を示し、敵の攻撃を受けやすい。 本稿では、ロバストで差別的な表現を学習するための新しい動的グラフ情報ボトルネック(DGIB)フレームワークを提案する。 Information Bottleneck (IB) の原理を応用して,我々はまず,最適表現が最小満足度(MSC)条件を満たすことを提案する。 DGIBは、冗長な冗長な情報を遅延表現に保存すると共に、グラフスナップショットを通過する構造及び特徴情報フローを反復的に指示し、洗練する。 msc条件を満たすために、全体的なib目標をdgib$_{ms}$とdgib$_c$に分解し、dgib$_{ms}$チャネルは最小で十分な表現を学習することを目的としており、dgib$_{ms}$チャネルは予測的コンセンサスを保証する。 実世界および合成動的グラフデータセットに関する大規模な実験は、リンク予測タスクにおける最先端のベースラインと比較して、DGIBの敵攻撃に対する強靭性を示す。 我々の知識を最大限に活用するために、DGIBは情報理論のIB原理に基づく動的グラフの堅牢な表現を学ぶ最初の研究である。

Dynamic Graphs widely exist in the real world, which carry complicated spatial and temporal feature patterns, challenging their representation learning. Dynamic Graph Neural Networks (DGNNs) have shown impressive predictive abilities by exploiting the intrinsic dynamics. However, DGNNs exhibit limited robustness, prone to adversarial attacks. This paper presents the novel Dynamic Graph Information Bottleneck (DGIB) framework to learn robust and discriminative representations. Leveraged by the Information Bottleneck (IB) principle, we first propose the expected optimal representations should satisfy the Minimal-Sufficient-Consensual (MSC) Condition. To compress redundant as well as conserve meritorious information into latent representation, DGIB iteratively directs and refines the structural and feature information flow passing through graph snapshots. To meet the MSC Condition, we decompose the overall IB objectives into DGIB$_{MS}$ and DGIB$_C$, in which the DGIB$_{MS}$ channel aims to learn the minimal and sufficient representations, with the DGIB$_{MS}$ channel guarantees the predictive consensus. Extensive experiments on real-world and synthetic dynamic graph datasets demonstrate the superior robustness of DGIB against adversarial attacks compared with state-of-the-art baselines in the link prediction task. To the best of our knowledge, DGIB is the first work to learn robust representations of dynamic graphs grounded in the information-theoretic IB principle.
翻訳日:2024-02-13 19:46:27 公開日:2024-02-09
# 2段階スキーレンタル問題に対する学習強化オンラインアルゴリズム

Learning-augmented Online Algorithm for Two-level Ski-rental Problem ( http://arxiv.org/abs/2402.06715v1 )

ライセンス: Link先を確認
Keyuan Zhang, Zhongdong Liu, Nakjung Choi, Bo Ji(参考訳) 本稿では,オンデマンド利用(家賃)の支払い,個々のアイテムの購入(単一購入),すべてのアイテムの購入(コンボ購入)という3つの支払いオプションの1つを選択することで,ユーザが複数のアイテムに対する要求の連続を満たさなければならない2段階のスキーレンタル問題について検討する。 ユーザは、将来の需要を知らずに、高価な先行コスト(購入)と潜在的将来のコスト(レンタル)とのトレードオフをバランスさせることで、総コスト(レンタル、単価、コンボ購入コストの合計)を最小化することを目指している。 まず、最悪のパフォーマンス保証を提供する堅牢なオンラインアルゴリズム(RDTSR)を設計する。 オンラインアルゴリズムは最悪のシナリオに対して堅牢だが、しばしば過度に慎重であり、典型的なシナリオでは平均的なパフォーマンスを損なう。 一方、機械学習(ML)アルゴリズムは通常、様々なアプリケーションで期待できる平均性能を示すが、最悪のパフォーマンス保証がない。 両手法の利点を生かし,ML予測を頑健なオンラインアルゴリズムに統合し,予測が不正確であっても最悪の性能保証を確保しつつ,頑健なオンラインアルゴリズムを精度よく予測する学習拡張アルゴリズム(LADTSR)を開発した。 最後に,本手法の有効性を相関させるため,合成および実世界のトレースデータの数値実験を行った。

In this paper, we study the two-level ski-rental problem,where a user needs to fulfill a sequence of demands for multiple items by choosing one of the three payment options: paying for the on-demand usage (i.e., rent), buying individual items (i.e., single purchase), and buying all the items (i.e., combo purchase). Without knowing future demands, the user aims to minimize the total cost (i.e., the sum of the rental, single purchase, and combo purchase costs) by balancing the trade-off between the expensive upfront costs (for purchase) and the potential future expenses (for rent). We first design a robust online algorithm (RDTSR) that offers a worst-case performance guarantee. While online algorithms are robust against the worst-case scenarios, they are often overly cautious and thus suffer a poor average performance in typical scenarios. On the other hand, Machine Learning (ML) algorithms typically show promising average performance in various applications but lack worst-case performance guarantees. To harness the benefits of both methods, we develop a learning-augmented algorithm (LADTSR) by integrating ML predictions into the robust online algorithm, which outperforms the robust online algorithm under accurate predictions while ensuring worst-case performance guarantees even when predictions are inaccurate. Finally, we conduct numerical experiments on both synthetic and real-world trace data to corroborate the effectiveness of our approach.
翻訳日:2024-02-13 19:46:04 公開日:2024-02-09
# アイルランドのバランシング市場における電力価格予測

Electricity Price Forecasting in the Irish Balancing Market ( http://arxiv.org/abs/2402.06714v1 )

ライセンス: Link先を確認
Ciaran O'Connor and Joseph Collins and Steven Prestwich and Andrea Visentin(参考訳) 短期の電力市場は予測不能な再生可能エネルギー源によってより重要になってきており、業界からかなりの注目を集めている。 バランス市場はリアルタイムに最も近づき、その中でも最も不安定である。 価格予測の文献は制限され、一貫性がなく、時代遅れで、ディープラーニングの試みはほとんどなく、公開データセットもない。 この研究は、広く研究されている日頭市場で成功した様々な価格予測手法をアイルランドのバランス市場に適用する。 異なるトレーニングサイズの影響を調べるフレームワークを用いて,統計モデル,機械学習モデル,ディープラーニングモデルを比較した。 このフレームワークはハイパーパラメータとキャリブレーションの設定を定義しており、データセットとモデルは再現性を確保するために公開され、将来の作業のベンチマークとして使用される。 大規模な数値的な研究により、日々の市場における良いパフォーマンスのモデルはバランスの取れた市場ではうまく機能せず、これらの市場は基本的に異なる構成であることが示された。 最良のモデルは、LASSOに基づく統計的アプローチであるLEARであり、より複雑で計算に要求されるアプローチよりも優れている。

Short-term electricity markets are becoming more relevant due to less-predictable renewable energy sources, attracting considerable attention from the industry. The balancing market is the closest to real-time and the most volatile among them. Its price forecasting literature is limited, inconsistent and outdated, with few deep learning attempts and no public dataset. This work applies to the Irish balancing market a variety of price prediction techniques proven successful in the widely studied day-ahead market. We compare statistical, machine learning, and deep learning models using a framework that investigates the impact of different training sizes. The framework defines hyperparameters and calibration settings; the dataset and models are made public to ensure reproducibility and to be used as benchmarks for future works. An extensive numerical study shows that well-performing models in the day-ahead market do not perform well in the balancing one, highlighting that these markets are fundamentally different constructs. The best model is LEAR, a statistical approach based on LASSO, which outperforms more complex and computationally demanding approaches.
翻訳日:2024-02-13 19:45:37 公開日:2024-02-09
# 畳み込みニューラルネットワークを用いたマルチクラスリアルタイム衝突リスク予測:イスタンブール事例研究

Multi-class real-time crash risk forecasting using convolutional neural network: Istanbul case study ( http://arxiv.org/abs/2402.06707v1 )

ライセンス: Link先を確認
Behnaz Alafi, Saeid Moradi(参考訳) 本稿では,事故リスク予測におけるニューラルネットワーク(ANN)の性能について述べる。 まず、一部の交通・気象データを生データとして取得する。 そして、このデータを解析し、追加木とピアソン相関に基づく入力データとして、関連する特性を選択する。 さらに、クラッシュと非クラッシュ時間データを分離し、クラッシュと非クラッシュイベントの特徴値を、その期間に利用可能なすべての値の平均を使用して、クラッシュと非クラッシュイベントの3つの4分間隔で記述する。 事故ラベルに基づく各期間の衝突確率を計算した結果,非クラッシュ試料の数は減少した。 提案したCNNモデルは,交通特性や気象条件などの入力特性の記録,処理,分類から学習することができる。 この作業の目標は、イベント前の3つの期間に基づいて、リアルタイムのクラッシュの可能性を予測することである。 受信機動作特性曲線(ROC曲線)に対する曲線(AUC)の下の領域と、偽陽性率としての正の正の感度と特異性の感度を、典型的な3つの機械学習モデルとニューラルネットワークモデルと比較した。 最後に、エラー値、auc、感度、特異度パラメータをパフォーマンス変数として考えると、実行されたモデルは他のモデルよりも優れています。 本研究は,CNNモデルをリアルタイム事故リスク予測のためのマルチクラス予測モデルとして適用することを提案する。 これまでの研究では、クラッシュや非クラッシュのようなバイナリ(2クラス)の分類に使用していました。

The performance of an artificial neural network (ANN) in forecasting crash risk is shown in this paper. To begin, some traffic and weather data are acquired as raw data. This data is then analyzed, and relevant characteristics are chosen to utilize as input data based on additional tree and Pearson correlation. Furthermore, crash and non-crash time data are separated; then, feature values for crash and non-crash events are written in three four-minute intervals prior to the crash and non-crash events using the average of all available values for that period. The number of non-crash samples was lowered after calculating crash likelihood for each period based on accident labeling. The proposed CNN model is capable of learning from recorded, processed, and categorized input characteristics such as traffic characteristics and meteorological conditions. The goal of this work is to forecast the chance of a real-time crash based on three periods before events. The area under the curve (AUC) for the receiver operating characteristic curve (ROC curve), as well as sensitivity as the true positive rate and specificity as the false positive rate, are shown and compared with three typical machine learning and neural network models. Finally, when it comes to the error value, AUC, sensitivity, and specificity parameters as performance variables, the executed model outperforms other models. The findings of this research suggest applying the CNN model as a multi-class prediction model for real-time crash risk prediction. Our emphasis is on multi-class prediction, while prior research used this for binary (two-class) categorization like crash and non-crash.
翻訳日:2024-02-13 19:45:19 公開日:2024-02-09
# CoRe-GD: GNNによるスケーラブルグラフ可視化のための階層的フレームワーク

CoRe-GD: A Hierarchical Framework for Scalable Graph Visualization with GNNs ( http://arxiv.org/abs/2402.06706v1 )

ライセンス: Link先を確認
Florian Gr\"otschla, Jo\"el Mathys, Robert Veres, Roger Wattenhofer(参考訳) グラフ視覚化はグラフ描画としても知られ、特定の基準を最適化するグラフの幾何学的埋め込みを見つけることを目的としている。 応力は広く用いられる計量であり、各ノードが最短経路距離にあるとき、応力は最小限に抑えられる。 しかしながら、ストレス最適化はその固有の複雑さによる計算上の課題を示し、実際にはヒューリスティックスを用いて解決される。 我々は、ストレスを最適化するために学習可能なサブクアクラティックランタイムを備えたスケーラブルなグラフニューラルネットワーク(GNN)ベースのグラフ描画フレームワークを導入する。 古典的応力最適化手法と力向レイアウトアルゴリズムに着想を得て,入力グラフの粗い階層を作成する。 最も粗いレベルから始めて、レイアウトを反復的に洗練してアンコールし、元のグラフへの埋め込みを生成する。 ネットワーク内の情報伝達を強化するため,中間ノード位置に基づく新しい位置変換手法を提案する。 我々の経験的評価は、このフレームワークが拡張性を維持しながら最先端のパフォーマンスを達成することを示す。

Graph Visualization, also known as Graph Drawing, aims to find geometric embeddings of graphs that optimize certain criteria. Stress is a widely used metric; stress is minimized when every pair of nodes is positioned at their shortest path distance. However, stress optimization presents computational challenges due to its inherent complexity and is usually solved using heuristics in practice. We introduce a scalable Graph Neural Network (GNN) based Graph Drawing framework with sub-quadratic runtime that can learn to optimize stress. Inspired by classical stress optimization techniques and force-directed layout algorithms, we create a coarsening hierarchy for the input graph. Beginning at the coarsest level, we iteratively refine and un-coarsen the layout, until we generate an embedding for the original graph. To enhance information propagation within the network, we propose a novel positional rewiring technique based on intermediate node positions. Our empirical evaluation demonstrates that the framework achieves state-of-the-art performance while remaining scalable.
翻訳日:2024-02-13 19:44:51 公開日:2024-02-09
# プライベートセレクションのためのプライバシプロファイル

Privacy Profiles for Private Selection ( http://arxiv.org/abs/2402.06701v1 )

ライセンス: Link先を確認
Antti Koskela, Rachel Redberg, Yu-Xiang Wang(参考訳) プライベートセレクションメカニズム(Report Noisy Max、Sparse Vectorなど)は、プライベートクエリリリース、投票、ハイパーパラメータチューニングへの幅広い応用を含む、差分プライベート(DP)データ分析の基本的なプリミティブである。 最近の研究(Liu and Talwar, 2019; Papernot and Steinke, 2022)は、プライベートセレクションメカニズムの一般化と、R\'enyi DPなどの現代の数値プライバシー会計ツールを用いたプライバシー分析の強化の両方において、大きな進歩を遂げている。 しかし、r\'enyi dp は、最終的に $(\epsilon,\delta)$-dp が必要とされる場合に損失があることが知られており、プライバシプロファイルを直接扱うことでこのギャップを閉じる傾向があり、例えば $\epsilon$ または $f$-dps と呼ばれる同等の双対形式として$\delta$ が用いられる。 本稿では,reportnoisymaxのプライバシプロファイルと,それらのベースアルゴリズムのプライバシプロファイルを用いたプライベートチューニングを限定した,使いやすいレシピを提案する。 本手法は,すべての利害関係における RDP ベースの会計を改良し,エンドツーエンドの私的学習実験において大きなメリットをもたらす。 また,新しい分布,例えばラウンド数をランダム化するための二項分布が,特定のレジームにおいてより大幅な改善をもたらすことを示唆する。

Private selection mechanisms (e.g., Report Noisy Max, Sparse Vector) are fundamental primitives of differentially private (DP) data analysis with wide applications to private query release, voting, and hyperparameter tuning. Recent work (Liu and Talwar, 2019; Papernot and Steinke, 2022) has made significant progress in both generalizing private selection mechanisms and tightening their privacy analysis using modern numerical privacy accounting tools, e.g., R\'enyi DP. But R\'enyi DP is known to be lossy when $(\epsilon,\delta)$-DP is ultimately needed, and there is a trend to close the gap by directly handling privacy profiles, i.e., $\delta$ as a function of $\epsilon$ or its equivalent dual form known as $f$-DPs. In this paper, we work out an easy-to-use recipe that bounds the privacy profiles of ReportNoisyMax and PrivateTuning using the privacy profiles of the base algorithms they corral. Numerically, our approach improves over the RDP-based accounting in all regimes of interest and leads to substantial benefits in end-to-end private learning experiments. Our analysis also suggests new distributions, e.g., binomial distribution for randomizing the number of rounds that leads to more substantial improvements in certain regimes.
翻訳日:2024-02-13 19:44:35 公開日:2024-02-09
# 大規模言語モデルに対するエントロピー規則化トークンレベルポリシー最適化

Entropy-Regularized Token-Level Policy Optimization for Large Language Models ( http://arxiv.org/abs/2402.06700v1 )

ライセンス: Link先を確認
Muning Wen, Cheng Deng, Jun Wang, Weinan Zhang and Ying Wen(参考訳) 大規模言語モデル(llm)は、対話的意思決定タスクにおいて知的エージェントとしての約束を示している。 伝統的なアプローチは、しばしば厳密に設計されたプロンプト、高品質な例、文脈内学習、教師付き微調整(RLHF)のための追加の報酬モデルに依存する。 強化学習(Reinforcement Learning, RL)は、タスク固有の環境に直接関与することで、これらの依存関係を克服するLLMの動的代替手段を提供する。 それでも、大きなハードルに直面している。 1) 探索を必要とする指数的に広大な活動空間から生じる不安定性 2)行動レベルの報酬信号に基づいてトークン単位のクレジットを割り当てることの課題は,報酬の最大化とコーパスデータの正確なモデル化の相違をもたらす。 これらの課題に対応するために,トークンレベルでLLMを最適化するためのエントロピー拡張RL法であるEntropy-Regularized Token-level Policy Optimization (ETPO)を導入する。 ETPOの中心となるのは、RLプロセスと言語モデリングの原則を調和させるように設計された、新しいソフトなベルマンアップデートです。 この手法は、Q関数の更新を粗いアクションレベルの視点からより粒度の細かいトークンレベルの視点へ分解し、最適化整合性の理論的証明に裏付ける。 重要なことに、この分解は行動探索において線形時間複雑性をもたらす。 我々は,データサイエンスコード生成を多段階対話型タスクとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。その結果,ETPOはCodeLlama-7Bモデル上で効果的な性能向上を実現し,RLHFから受け継いだ変種PPOベースラインを超えていることが示された。 このことは、LEMの対話的意思決定能力を洗練するための堅牢な方法としてのETPOの可能性の基盤となっている。

Large Language Models (LLMs) have shown promise as intelligent agents in interactive decision-making tasks. Traditional approaches often depend on meticulously designed prompts, high-quality examples, or additional reward models for in-context learning, supervised fine-tuning, or RLHF. Reinforcement learning (RL) presents a dynamic alternative for LLMs to overcome these dependencies by engaging directly with task-specific environments. Nonetheless, it faces significant hurdles: 1) instability stemming from the exponentially vast action space requiring exploration; 2) challenges in assigning token-level credit based on action-level reward signals, resulting in discord between maximizing rewards and accurately modeling corpus data. In response to these challenges, we introduce Entropy-Regularized Token-level Policy Optimization (ETPO), an entropy-augmented RL method tailored for optimizing LLMs at the token level. At the heart of ETPO is our novel per-token soft Bellman update, designed to harmonize the RL process with the principles of language modeling. This methodology decomposes the Q-function update from a coarse action-level view to a more granular token-level perspective, backed by theoretical proof of optimization consistency. Crucially, this decomposition renders linear time complexity in action exploration. We assess the effectiveness of ETPO within a simulated environment that models data science code generation as a series of multi-step interactive tasks; results show that ETPO achieves effective performance improvement on the CodeLlama-7B model and surpasses a variant PPO baseline inherited from RLHF. This underlines ETPO's potential as a robust method for refining the interactive decision-making capabilities of LLMs.
翻訳日:2024-02-13 19:44:10 公開日:2024-02-09
# 混合整数プログラムとしてのフィードフォワードニューラルネットワーク

Feed-Forward Neural Networks as a Mixed-Integer Program ( http://arxiv.org/abs/2402.06697v1 )

ライセンス: Link先を確認
Navid Aftabi and Nima Moradi and Fatemeh Mahroo(参考訳) ディープニューラルネットワーク(DNN)は様々な用途で広く研究されている。 dnnはアフィン結合を計算し、非線形演算を施し、対応する活性化を生成するニューロンの層からなる。 正則線型単位(ReLU)は典型的な非線形作用素であり、入力の最大値と0を出力する。 複数の入力値が関与する最大プールのようなシナリオでは、固定パラメータDNNを混合整数プログラム(MIP)としてモデル化することができる。 この定式化は、単位出力を表す連続変数と、ReLUアクティベーションのためのバイナリ変数によって、様々なドメインにわたるアプリケーションを見つける。 本研究では、トレーニングされたReLUニューロンをMIPとして定式化し、ニューラルネットワーク(NN)のトレーニングにMIPモデルを適用する。 具体的には、二元化DNN(ステップアクティベーション関数)や二元化DNN(ウェイトとアクティベーションが$-1,0,+1$に制限されている)など、MIP技術と様々なNNアーキテクチャ間の相互作用について検討する。 本研究は手書き桁分類モデルを用いた実験を通じて提案手法の訓練と評価に焦点をあてる。 比較研究は、トレーニングされたReLU NNの性能を評価し、NNのトレーニングプロセスの強化におけるMIP定式化の有効性に光を当てる。

Deep neural networks (DNNs) are widely studied in various applications. A DNN consists of layers of neurons that compute affine combinations, apply nonlinear operations, and produce corresponding activations. The rectified linear unit (ReLU) is a typical nonlinear operator, outputting the max of its input and zero. In scenarios like max pooling, where multiple input values are involved, a fixed-parameter DNN can be modeled as a mixed-integer program (MIP). This formulation, with continuous variables representing unit outputs and binary variables for ReLU activation, finds applications across diverse domains. This study explores the formulation of trained ReLU neurons as MIP and applies MIP models for training neural networks (NNs). Specifically, it investigates interactions between MIP techniques and various NN architectures, including binary DNNs (employing step activation functions) and binarized DNNs (with weights and activations limited to $-1,0,+1$). The research focuses on training and evaluating proposed approaches through experiments on handwritten digit classification models. The comparative study assesses the performance of trained ReLU NNs, shedding light on the effectiveness of MIP formulations in enhancing training processes for NNs.
翻訳日:2024-02-13 19:43:37 公開日:2024-02-09
# FL-NAS:大規模言語モデルによる資源制約デバイスのためのNASの公平性を目指して

FL-NAS: Towards Fairness of NAS for Resource Constrained Devices via Large Language Models ( http://arxiv.org/abs/2402.06696v1 )

ライセンス: Link先を確認
Ruiyang Qin, Yuting Hu, Zheyu Yan, Jinjun Xiong, Ahmed Abbasi, Yiyu Shi(参考訳) ニューラルアーキテクチャサーチ(NAS)は、様々なアプリケーション、特に限られたコンピューティングリソースを持つモバイルおよびエッジデバイスによって駆動されるディープニューラルネットワークの設計を自動化する、業界におけるデフェクトツールとなっている。 新興の大規模言語モデル(LLM)もNASに組み込まれており、いくつかの有望な結果を示している。 本稿では,モデル精度,公平性,ハードウェア展開効率という3つの重要な設計指標を同時に考慮し,この方向のさらなる探究を行う。 本稿では, LLMに基づく新しいNASフレームワークFL-NASを提案し, FL-NASが実際に高い性能のDNNを発見できることを示す。

Neural Architecture Search (NAS) has become the de fecto tools in the industry in automating the design of deep neural networks for various applications, especially those driven by mobile and edge devices with limited computing resources. The emerging large language models (LLMs), due to their prowess, have also been incorporated into NAS recently and show some promising results. This paper conducts further exploration in this direction by considering three important design metrics simultaneously, i.e., model accuracy, fairness, and hardware deployment efficiency. We propose a novel LLM-based NAS framework, FL-NAS, in this paper, and show experimentally that FL-NAS can indeed find high-performing DNNs, beating state-of-the-art DNN models by orders-of-magnitude across almost all design considerations.
翻訳日:2024-02-13 19:43:13 公開日:2024-02-09
# ForestColl: 異種ネットワークファブリック上での効率的な集合的コミュニケーション

ForestColl: Efficient Collective Communications on Heterogeneous Network Fabrics ( http://arxiv.org/abs/2402.06787v1 )

ライセンス: Link先を確認
Liangyu Zhao and Saeed Maleki and Ziyue Yang and Hossein Pourreza and Aashaka Shah and Changho Hwang and Arvind Krishnamurthy(参考訳) 現代のDNNモデルがさらに大きくなるにつれて、アクセラレータ(Allreduceなど)間の集団通信が重要なパフォーマンスボトルネックとして現れます。 今日の高度に多種多様なネットワークファブリックを考えると、効率的な通信スケジュールの設計は困難である。 本稿では,ネットワークトポロジの効率的なスケジュールを生成するツールであるフォレストコールを提案する。 ForestCollは通信スケジュールとして木にまたがるブロードキャスト/アグリゲーションを構築し、理論的には最小限のネットワーク混雑を実現する。 そのスケジュール生成は強い多項式時間で実行され、非常にスケーラブルである。 ForestCollは、スイッチングファブリックとダイレクト接続の両方を含むネットワークファブリックと、ネットワークグラフ構造をサポートする。 マルチクラスタAMD MI250およびNVIDIA A100プラットフォーム上でフォレストコールを評価した。 ForestCollのスケジュールは、ベンダーが最適化した通信ライブラリであるRCCLとNCCLと比較して最大52倍のパフォーマンスを達成した。 ForestCollは、他の最先端のスケジュール生成技術よりも、最大61倍の効率で生成されたスケジュールと、桁違いに高速なスケジュール生成速度でパフォーマンスを向上する。

As modern DNN models grow ever larger, collective communications between the accelerators (allreduce, etc.) emerge as a significant performance bottleneck. Designing efficient communication schedules is challenging given today's highly diverse and heterogeneous network fabrics. In this paper, we present ForestColl, a tool that generates efficient schedules for any network topology. ForestColl constructs broadcast/aggregation spanning trees as the communication schedule, achieving theoretically minimum network congestion. Its schedule generation runs in strongly polynomial time and is highly scalable. ForestColl supports any network fabrics, including both switching fabrics and direct connections, as well as any network graph structure. We evaluated ForestColl on multi-cluster AMD MI250 and NVIDIA A100 platforms. ForestColl's schedules achieved up to 52\% higher performance compared to the vendors' own optimized communication libraries, RCCL and NCCL. ForestColl also outperforms other state-of-the-art schedule generation techniques with both up to 61\% more efficient generated schedules and orders of magnitude faster schedule generation speed.
翻訳日:2024-02-13 19:36:53 公開日:2024-02-09
# GLaM:近傍分割と生成サブグラフ符号化によるドメイン知識グラフアライメントのための微調整大言語モデル

GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding ( http://arxiv.org/abs/2402.06764v1 )

ライセンス: Link先を確認
Stefan Dernbach, Khushbu Agarwal, Alejandro Zuniga, Michael Henry, Sutanay Choudhury(参考訳) 大規模言語モデル(llm)とドメイン固有データに由来する知識グラフの統合は、より強力で事実的推論への重要な進歩を表している。 これらのモデルがより有能になるにつれて、幻覚を最小化しながら実世界の知識グラフに対して多段階の推論を行えるようにすることが重要である。 大きな言語モデルは会話やテキスト生成に優れているが、相互接続されたエンティティのドメイン特化グラフを推論する能力は限られている。 例えば、プライベートデータベースのリレーションシップと属性に基づいて、特定の目的のためにプロのネットワークの最適なコンタクトを特定するために、llmをクエリできますか? 答えはノーだ-そのような能力は現在の方法以上のものである。 しかし、この問題は対処しなければならない重要な技術的ギャップを浮き彫りにする。 科学、セキュリティ、電子商取引などの分野における多くの高価値アプリケーションは、独自の構造、関係性、論理的制約をコードする独自の知識グラフに依存している。 本稿では,知識グラフをラベル付き質問・回答ペアによる代替テキスト表現に変換するglam(graph-aligned language model)を開発するための微調整フレームワークを提案する。 特定のグラフベース知識におけるモデル基底化は、モデルの構造ベース推論の能力を高めることを実証する。 本手法は,大言語モデルの生成能力を活用してデータセットを作成し,検索型生成方式に代わる効率的な代替手法を提案する。

Integrating large language models (LLMs) with knowledge graphs derived from domain-specific data represents an important advancement towards more powerful and factual reasoning. As these models grow more capable, it is crucial to enable them to perform multi-step inferences over real-world knowledge graphs while minimizing hallucination. While large language models excel at conversation and text generation, their ability to reason over domain-specialized graphs of interconnected entities remains limited. For example, can we query a LLM to identify the optimal contact in a professional network for a specific goal, based on relationships and attributes in a private database? The answer is no--such capabilities lie beyond current methods. However, this question underscores a critical technical gap that must be addressed. Many high-value applications in areas such as science, security, and e-commerce rely on proprietary knowledge graphs encoding unique structures, relationships, and logical constraints. We introduce a fine-tuning framework for developing Graph-aligned LAnguage Models (GLaM) that transforms a knowledge graph into an alternate text representation with labeled question-answer pairs. We demonstrate that grounding the models in specific graph-based knowledge expands the models' capacity for structure-based reasoning. Our methodology leverages the large-language model's generative capabilities to create the dataset and proposes an efficient alternate to retrieval-augmented generation styled methods.
翻訳日:2024-02-13 19:36:37 公開日:2024-02-09
# Nystr\"om近似を用いたスケーラブルカーネルロジスティック回帰:理論解析と離散モデルへの応用

Scalable Kernel Logistic Regression with Nystr\"om Approximation: Theoretical Analysis and Application to Discrete Choice Modelling ( http://arxiv.org/abs/2402.06763v1 )

ライセンス: Link先を確認
Jos\'e \'Angel Mart\'in-Baos, Ricardo Garc\'ia-R\'odenas, Luis Rodriguez-Benitez, Michel Bierlaire(参考訳) カーネルベースの機械学習(ML)技術の大規模なデータセットを使用した個別の選択モデリングへの適用は、メモリ要求とこれらのモデルに関わるかなりの数のパラメータによる課題に直面していることが多い。 この複雑さは、大規模モデルの効率的なトレーニングを妨げる。 本稿では,大規模なデータセット上でのカーネルロジスティック回帰(KLR)に対するNystr\"om approximationを導入することで,スケーラビリティの問題に対処する。 この研究は、以下の理論的な分析から始まる。 i) klr の解の集合は特徴付けられる。 二 nystr\"om 近似による klr の解に対する上界が提供され、最後に iii)nystr\"om klrへの最適化アルゴリズムの特殊化について述べる。 その後、Nystr\"om KLRが計算的に検証される。 基礎的一様サンプリング,k平均サンプリング戦略,およびレバレッジスコアを基礎とした2つの非一様抽出方法を含む,4つのランドマーク選択法が試験された。 これらの戦略の性能は、大規模トランスポートモード選択データセットを用いて評価され、MNL(Multinomial Logit)や現代ML技術といった従来の手法と比較される。 また,提案したNystr\"om KLRモデルに対して,様々な最適化手法の有効性を評価する。 これらのデータセットについて,勾配降下法,Momentum,AdamおよびL-BFGS-B最適化法の性能について検討した。 これらの戦略のうち、k-means nystr\"om klrアプローチは、特にl-bfgs-bとadamの最適化法を組み合わせた大規模データセットにklrを適用するための成功ソリューションとして現れる。 結果は、堅牢なパフォーマンスを維持しながら、20万以上の観測データを扱うこの戦略の能力を強調している。

The application of kernel-based Machine Learning (ML) techniques to discrete choice modelling using large datasets often faces challenges due to memory requirements and the considerable number of parameters involved in these models. This complexity hampers the efficient training of large-scale models. This paper addresses these problems of scalability by introducing the Nystr\"om approximation for Kernel Logistic Regression (KLR) on large datasets. The study begins by presenting a theoretical analysis in which: i) the set of KLR solutions is characterised, ii) an upper bound to the solution of KLR with Nystr\"om approximation is provided, and finally iii) a specialisation of the optimisation algorithms to Nystr\"om KLR is described. After this, the Nystr\"om KLR is computationally validated. Four landmark selection methods are tested, including basic uniform sampling, a k-means sampling strategy, and two non-uniform methods grounded in leverage scores. The performance of these strategies is evaluated using large-scale transport mode choice datasets and is compared with traditional methods such as Multinomial Logit (MNL) and contemporary ML techniques. The study also assesses the efficiency of various optimisation techniques for the proposed Nystr\"om KLR model. The performance of gradient descent, Momentum, Adam, and L-BFGS-B optimisation methods is examined on these datasets. Among these strategies, the k-means Nystr\"om KLR approach emerges as a successful solution for applying KLR to large datasets, particularly when combined with the L-BFGS-B and Adam optimisation methods. The results highlight the ability of this strategy to handle datasets exceeding 200,000 observations while maintaining robust performance.
翻訳日:2024-02-13 19:36:13 公開日:2024-02-09
# 教師と学生の知識伝達のための埋め込み圧縮

Embedding Compression for Teacher-to-Student Knowledge Transfer ( http://arxiv.org/abs/2402.06761v1 )

ライセンス: Link先を確認
Yiwei Ding and Alexander Lerch(参考訳) 共通知識蒸留法では,教師モデルと学生モデルを同一のタスクで訓練する必要がある。 しかし、異なるソースタスクやターゲットタスクに対して、教師としての埋め込みの利用も提案されている。 教師として組込みを使用する先行作業は、教師組込みが対象タスクに無関係な知識を含む可能性が高いという事実を無視している。 この問題に対処するために,教師変換を訓練可能な組込み圧縮モジュールを用いて,コンパクトな教師組込みを実現することを提案する。 その結果,組込み圧縮モジュールの追加により分類性能が向上し,教師の教師組込みが向上した。 さらに,埋め込み指導で訓練した学生モデルは,より高度な一般化可能性を示す。

Common knowledge distillation methods require the teacher model and the student model to be trained on the same task. However, the usage of embeddings as teachers has also been proposed for different source tasks and target tasks. Prior work that uses embeddings as teachers ignores the fact that the teacher embeddings are likely to contain irrelevant knowledge for the target task. To address this problem, we propose to use an embedding compression module with a trainable teacher transformation to obtain a compact teacher embedding. Results show that adding the embedding compression module improves the classification performance, especially for unsupervised teacher embeddings. Moreover, student models trained with the guidance of embeddings show stronger generalizability.
翻訳日:2024-02-13 19:35:43 公開日:2024-02-09
# アンケート分析のための方法論:投資家競争データのクラスター分析による考察

A Methodology for Questionnaire Analysis: Insights through Cluster Analysis of an Investor Competition Data ( http://arxiv.org/abs/2402.06759v1 )

ライセンス: Link先を確認
Carlos Henrique Q. Forster, Paulo Andr\'e Lima de Castro and Andrei Ramalho(参考訳) 本稿では、日々の取引競争に動機づけられた投資家データから洞察を得るための応用とともに、アンケートデータの分析手法を提案する。 質問項目は「はい」または「いいえ」という2つの質問に還元される。 この手法は、クラスタリング分析を用いて質問や参加者に類似した回答をグループ化することで次元性を減少させる。 ルール発見は、変換レートメトリックを用いて行われた。 クラスタ分析と質問間の関係発見を検証するために,革新的視覚表現を提案する。 財務データと交差すると、認識されたクラスタに関するさらなる洞察が明らかになった。

In this paper, we propose a methodology for the analysis of questionnaire data along with its application on discovering insights from investor data motivated by a day trading competition. The questionnaire includes categorical questions, which are reduced to binary questions, 'yes' or 'no'. The methodology reduces dimensionality by grouping questions and participants with similar responses using clustering analysis. Rule discovery was performed by using a conversion rate metric. Innovative visual representations were proposed to validate the cluster analysis and the relation discovery between questions. When crossing with financial data, additional insights were revealed related to the recognized clusters.
翻訳日:2024-02-13 19:35:33 公開日:2024-02-09
# 非正規化行列完了のための小初期化による勾配降下の収束

Convergence of Gradient Descent with Small Initialization for Unregularized Matrix Completion ( http://arxiv.org/abs/2402.06756v1 )

ライセンス: Link先を確認
Jianhao Ma, Salar Fattahi(参考訳) 対称行列完全化の問題を考察し, 正の半定義行列 $\rm{x}^\star \in \mathbb{r}^{d\times d}$ of rank-$r$, $\rm{u}\rm{u}^{\top}$ でパラメータ化され, 観測されたエントリのサブセットのみから正の半定義行列 $\rm{x}^\star \in \mathbb{r}^{d\times d}$ を再構成する。 小さい初期化を持つバニラ勾配降下(GD)は、明示的な正則化を必要とせず、必ず基底真理$\rm{X}^\star$に収束することを示す。 この収束の結果は、真のランク $r$ が未知であり、検索ランク $r'\gg r$ によって保守的に過大評価される過パラメータなシナリオにおいても真である。 この問題の既存の結果は、明示的な正則化、十分正確な初期点、あるいは真階数$r$の正確な知識を必要とする。 r'\geq r$ の超パラメータ状態において、$\widetilde\omega(dr^9)$ の観測では、初期点 $\|\rm{u}_0\| \leq \epsilon$ が近似的に $\epsilon$-neighborhood of $\rm{x}^\star$ に収束する。 その結果、より小さな初期点がより正確な解をもたらす。 驚くべきことに、収束率や最終的な精度は、過剰にパラメータ化された検索ランク $r'$ に依存しておらず、真のランク $r$ によってのみ制御される。 r'=r$ の正確なパラメータ化では、初期点が $\|\rm{u}_0\| = o(1/d)$ を満たす場合、gd がより速い速度で収束し、任意に小さい精度の $\epsilon>0$ を達成することを証明し、この結果をさらに強化する。 提案手法の要点は,GDのグローバルコンバージェンスを確立するために,従来のLeft-one-out解析で可能であった範囲を超えて,新たなLeft-one-out解析が導入されたことである。

We study the problem of symmetric matrix completion, where the goal is to reconstruct a positive semidefinite matrix $\rm{X}^\star \in \mathbb{R}^{d\times d}$ of rank-$r$, parameterized by $\rm{U}\rm{U}^{\top}$, from only a subset of its observed entries. We show that the vanilla gradient descent (GD) with small initialization provably converges to the ground truth $\rm{X}^\star$ without requiring any explicit regularization. This convergence result holds true even in the over-parameterized scenario, where the true rank $r$ is unknown and conservatively over-estimated by a search rank $r'\gg r$. The existing results for this problem either require explicit regularization, a sufficiently accurate initial point, or exact knowledge of the true rank $r$. In the over-parameterized regime where $r'\geq r$, we show that, with $\widetilde\Omega(dr^9)$ observations, GD with an initial point $\|\rm{U}_0\| \leq \epsilon$ converges near-linearly to an $\epsilon$-neighborhood of $\rm{X}^\star$. Consequently, smaller initial points result in increasingly accurate solutions. Surprisingly, neither the convergence rate nor the final accuracy depends on the over-parameterized search rank $r'$, and they are only governed by the true rank $r$. In the exactly-parameterized regime where $r'=r$, we further enhance this result by proving that GD converges at a faster rate to achieve an arbitrarily small accuracy $\epsilon>0$, provided the initial point satisfies $\|\rm{U}_0\| = O(1/d)$. At the crux of our method lies a novel weakly-coupled leave-one-out analysis, which allows us to establish the global convergence of GD, extending beyond what was previously possible using the classical leave-one-out analysis.
翻訳日:2024-02-13 19:35:25 公開日:2024-02-09
# 3次元命令表現のための配向グリッドエンコーダ

Oriented-grid Encoder for 3D Implicit Representations ( http://arxiv.org/abs/2402.06752v1 )

ライセンス: Link先を確認
Arihant Gaur, G. Dias Pais and Pedro Miraldo(参考訳) 3dポイントのエンコーディングは、学習に基づく暗黙的なシーン表現の主要なステップの1つである。 マルチレゾリューショングリッドで近隣の情報を収集する機能を利用することで、このタスクに最適な幾何学的エンコーダであることが証明されている。 しかし、従来の手法は、表面の正常さや局所的な滑らかさなど、ほとんどの物体やシーンの特徴を生かしていない。 本論文は3次元幾何エンコーダにおけるこれらの3次元特性を明示的に利用した最初のものである。 複数の詳細レベル、正規立方体格子、およびトリリニア補間に関する先行研究とは対照的に、局所平面不変性をモデル化するための新しい円筒形体積補間を持つ3次元配向格子を提案する。 さらに,特徴の正規化と円筒補間特徴の平滑化のための局所的特徴集約を明示的に含む。 本研究では,ABC,Thingi10k,ShapeNet,Matterport3Dのオブジェクトおよびシーン表現に対するアプローチを評価する。 正規格子を用いた場合と比較すると, 幾何エンコーダはより少ないステップで収束し, よりシャープな3d表面が得られることがわかった。 従来の手法と比較すると, 最新の結果が得られる。

Encoding 3D points is one of the primary steps in learning-based implicit scene representation. Using features that gather information from neighbors with multi-resolution grids has proven to be the best geometric encoder for this task. However, prior techniques do not exploit some characteristics of most objects or scenes, such as surface normals and local smoothness. This paper is the first to exploit those 3D characteristics in 3D geometric encoders explicitly. In contrast to prior work on using multiple levels of details, regular cube grids, and trilinear interpolation, we propose 3D-oriented grids with a novel cylindrical volumetric interpolation for modeling local planar invariance. In addition, we explicitly include a local feature aggregation for feature regularization and smoothing of the cylindrical interpolation features. We evaluate our approach on ABC, Thingi10k, ShapeNet, and Matterport3D, for object and scene representation. Compared to the use of regular grids, our geometric encoder is shown to converge in fewer steps and obtain sharper 3D surfaces. When compared to the prior techniques, our method gets state-of-the-art results.
翻訳日:2024-02-13 19:34:32 公開日:2024-02-09
# 設計による低ランク学習:勾配ランク崩壊におけるネットワークアーキテクチャと活性化線形性の役割

Low-Rank Learning by Design: the Role of Network Architecture and Activation Linearity in Gradient Rank Collapse ( http://arxiv.org/abs/2402.06751v1 )

ライセンス: Link先を確認
Bradley T. Baker, Barak A. Pearlmutter, Robyn Miller, Vince D. Calhoun, Sergey M. Plis(参考訳) 深層ニューラルネットワーク(DNN)の学習力学の理解はいまだ不完全である。 近年、DNN内の線形分類器が後期訓練中に特定の幾何学的構造に収束する「ニューラル崩壊」現象など、これらのネットワークの基礎となる数学的原理を明らかにし始めている。 しかし、学習における幾何学的制約の役割は、この終端段階を超えて広がる。 例えば、完全連結層における勾配は、訓練バッチ上のランク1外積の蓄積によって自然に低ランク構造を発達させる。 この構造をメモリ節約や正規化に活用する手法に注目が集まっているにもかかわらず、特定のdnnアーキテクチャに固有の側面としての低ランク学習の出現は過小評価されている。 本稿では,DNNにおける勾配ランクの包括的研究を行い,データ効果勾配ランクのアーキテクチャ的選択と構造について検討する。 我々の理論的解析は、完全接続、リカレント、畳み込みニューラルネットワークのトレーニングにこれらの境界を提供する。 また,理論上,経験上,活性化関数線形性,ボトルネック層導入,畳み込みステップ,シーケンス切断といった設計選択が,これらの境界にどのように影響するかを実証した。 本研究は,dnnにおける学習ダイナミクスの理解に寄与するだけでなく,ディープラーニングエンジニアがインフォームドデザイン決定を行うための実践的なガイダンスを提供する。

Our understanding of learning dynamics of deep neural networks (DNNs) remains incomplete. Recent research has begun to uncover the mathematical principles underlying these networks, including the phenomenon of "Neural Collapse", where linear classifiers within DNNs converge to specific geometrical structures during late-stage training. However, the role of geometric constraints in learning extends beyond this terminal phase. For instance, gradients in fully-connected layers naturally develop a low-rank structure due to the accumulation of rank-one outer products over a training batch. Despite the attention given to methods that exploit this structure for memory saving or regularization, the emergence of low-rank learning as an inherent aspect of certain DNN architectures has been under-explored. In this paper, we conduct a comprehensive study of gradient rank in DNNs, examining how architectural choices and structure of the data effect gradient rank bounds. Our theoretical analysis provides these bounds for training fully-connected, recurrent, and convolutional neural networks. We also demonstrate, both theoretically and empirically, how design choices like activation function linearity, bottleneck layer introduction, convolutional stride, and sequence truncation influence these bounds. Our findings not only contribute to the understanding of learning dynamics in DNNs, but also provide practical guidance for deep learning engineers to make informed design decisions.
翻訳日:2024-02-13 19:34:13 公開日:2024-02-09
# \texttt{qec\_code\_sim}: 超伝導量子ビット上の量子エラー訂正符号の有効性を推定するオープンソースのPythonフレームワーク

\texttt{qec\_code\_sim}: An open-source Python framework for estimating the effectiveness of quantum-error correcting codes on superconducting qubits ( http://arxiv.org/abs/2402.06745v1 )

ライセンス: Link先を確認
Santiago Lopez and Jonathan Andrade Plascencia and Gabriel N. Perdue(参考訳) 量子コンピュータは、意図しない環境との相互作用によるエラーの影響を受けやすい。 量子状態に関する情報を得ることなくこれらの誤りを修正することは重要であり、バックアクションによって破壊される。 量子エラー補正(Quantum Error Correction, QEC)は、発生したエラーに関する情報を提供する。 しかし、qecの実装は、現在のqubitsのパフォーマンスレベルのために困難であることが証明されている。 qubitのパフォーマンス要因がqecコードの成功にどのように影響するかを理解することは、フォールトトレラントな量子コンピューティングへの進歩を追跡する上で貴重な課題である。 ここでは,超伝導トランモン量子ビットに適した現実的エラーモデルの影響下で,小さな量子誤り訂正符号の性能を研究するための,オープンソースで軽量なPythonフレームワークである,‘texttt{qec\_code\_sim} を紹介する。 \texttt{qec\_code\_sim} は最小限のソフトウェア依存性を必要とし、使いやすさ、変更の容易さ、実行速度よりも教育性を優先する。 そのため、1ダースキュービットの順序でシステムを学習する小さなチームに適したツールである。

Quantum computers are highly susceptible to errors due to unintended interactions with their environment. It is crucial to correct these errors without gaining information about the quantum state, which would result in its destruction through back-action. Quantum Error Correction (QEC) provides information about occurred errors without compromising the quantum state of the system. However, the implementation of QEC has proven to be challenging due to the current performance levels of qubits -- break-even requires fabrication and operation quality that is beyond the state-of-the-art. Understanding how qubit performance factors into the success of a QEC code is a valuable exercise for tracking progress towards fault-tolerant quantum computing. Here we present \texttt{qec\_code\_sim}, an open-source, lightweight Python framework for studying the performance of small quantum error correcting codes under the influence of a realistic error model appropriate for superconducting transmon qubits, with the goal of enabling useful hardware studies and experiments. \texttt{qec\_code\_sim} requires minimal software dependencies and prioritizes ease of use, ease of change, and pedagogy over execution speed. As such, it is a tool well-suited to small teams studying systems on the order of one dozen qubits.
翻訳日:2024-02-13 19:33:50 公開日:2024-02-09
# EntGPT: 生成する大規模言語モデルと知識ベースをリンクする

EntGPT: Linking Generative Large Language Models with Knowledge Bases ( http://arxiv.org/abs/2402.06738v1 )

ライセンス: Link先を確認
Yifan Ding, Amrit Poudel, Qingkai Zeng, Tim Weninger, Balaji Veeramani, Sanmitra Bhattacharya(参考訳) 大規模言語モデル(llm)が実際に正しい出力を生成する能力は、トレーニングや推論中にファクトチェックや知識基盤が欠如しているため、比較的未検討のままである。 この作業では、Entity Disambiguation (ED)タスクを通じてこの問題に対処することを目指している。 まず,3段階のハードプロンプト法を設計し,LLMのED性能を教師付き微調整(SFT)なしで探究する。 全体として、プロンプト法は元のバニラモデルのマイクロF_1スコアを最大36%以上の場合において大きなマージンで改善し、SFTの既存手法と比較して10データセットで同等のパフォーマンスを得る。 我々は、同様のプロンプトと応答を持つ教示チューニング(IT)により、知識基盤能力をさらに向上する。 命令調整されたモデルは、教師付きエンティティ曖昧化タスクのいくつかのベースライン手法と比較して、既存のベースラインモデルよりも平均2.1%のマイクロF_1改善を達成できるだけでなく、ゼロショット設定における6つの質問応答(QA)タスクの精度も向上する。 我々の手法はオープンソースLLMとクローズドソースLLMの両方に適用できる。

The ability of Large Language Models (LLMs) to generate factually correct output remains relatively unexplored due to the lack of fact-checking and knowledge grounding during training and inference. In this work, we aim to address this challenge through the Entity Disambiguation (ED) task. We first consider prompt engineering, and design a three-step hard-prompting method to probe LLMs' ED performance without supervised fine-tuning (SFT). Overall, the prompting method improves the micro-F_1 score of the original vanilla models by a large margin, on some cases up to 36% and higher, and obtains comparable performance across 10 datasets when compared to existing methods with SFT. We further improve the knowledge grounding ability through instruction tuning (IT) with similar prompts and responses. The instruction-tuned model not only achieves higher micro-F1 score performance as compared to several baseline methods on supervised entity disambiguation tasks with an average micro-F_1 improvement of 2.1% over the existing baseline models, but also obtains higher accuracy on six Question Answering (QA) tasks in the zero-shot setting. Our methodologies apply to both open- and closed-source LLMs.
翻訳日:2024-02-13 19:33:28 公開日:2024-02-09
# ExGRG:自己教師付き表現学習のための明示的生成関係グラフ

ExGRG: Explicitly-Generated Relation Graph for Self-Supervised Representation Learning ( http://arxiv.org/abs/2402.06737v1 )

ライセンス: Link先を確認
Mahdi Naseri, Mahdi Biparva(参考訳) 自己教師付き学習(SSL)は、高価なアノテートラベルに頼ることなく、ラベルのないデータに埋め込まれた信号を活用することなく、ディープラーニングモデルを事前訓練する強力なテクニックとして登場した。 SSLは直感的なデータ拡張を通じてコンピュータビジョンタスクにおいて顕著な成功を収めてきたが、グラフ構造化データへの応用は、グラフ拡張のセマンティック・アタリングと反直感的な性質のために課題を提起している。 そこで本稿では,従来の拡張に基づく暗黙的関係グラフのみに頼るのではなく,構成的関係グラフ(exgrg)を明示的に生成する新しい非一貫性ssl手法を提案する。 exgrgはssl不変目的に事前のドメイン知識とオンライン抽出情報を統合するフレームワークを提供し、ラプラシアン固有マップと期待最大化(em)からインスピレーションを得ている。 E-stepは、SSLのEMパースペクティブを利用して、SSLの分散目標を導出する候補を特定する関係グラフ生成と、派生したリレーショナル情報を統合することでモデルパラメータを更新する。 多様なノード分類データセットに対する大規模な実験により,この手法が最先端技術よりも優れていることが示され,グラフ表現学習におけるSSLの有効活用としてExGRGが確認された。

Self-supervised Learning (SSL) has emerged as a powerful technique in pre-training deep learning models without relying on expensive annotated labels, instead leveraging embedded signals in unlabeled data. While SSL has shown remarkable success in computer vision tasks through intuitive data augmentation, its application to graph-structured data poses challenges due to the semantic-altering and counter-intuitive nature of graph augmentations. Addressing this limitation, this paper introduces a novel non-contrastive SSL approach to Explicitly Generate a compositional Relation Graph (ExGRG) instead of relying solely on the conventional augmentation-based implicit relation graph. ExGRG offers a framework for incorporating prior domain knowledge and online extracted information into the SSL invariance objective, drawing inspiration from the Laplacian Eigenmap and Expectation-Maximization (EM). Employing an EM perspective on SSL, our E-step involves relation graph generation to identify candidates to guide the SSL invariance objective, and M-step updates the model parameters by integrating the derived relational information. Extensive experimentation on diverse node classification datasets demonstrates the superiority of our method over state-of-the-art techniques, affirming ExGRG as an effective adoption of SSL for graph representation learning.
翻訳日:2024-02-13 19:32:48 公開日:2024-02-09
# 人的フィードバックによるロバストなオフライン強化学習

Corruption Robust Offline Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2402.06734v1 )

ライセンス: Link先を確認
Debmalya Mandal, Andi Nika, Parameswaran Kamalaruban, Adish Singla, and Goran Radanovi\'c(参考訳) オフライン環境下でのRLHFを用いた強化学習におけるデータ破損の堅牢性について検討した。 軌道のペアのオフラインデータセットと人間の好みに関するフィードバックが与えられると、ペアの$\varepsilon$-fractionが破壊され(例えば、フィードバックが反転したり、軌道が操作されたりする)、敵対的な攻撃や騒がしい人間の好みをキャプチャする。 我々は,破損したデータから準最適ポリシーを特定するアルゴリズムを,証明可能な保証を持って設計することを目指している。 既存の理論的研究では, 汚職に対するロバストなRL(汚職直属の報酬からの学習)とオフラインなRLHF(汚職無しのフィードバックからの学習)の設定を別々に研究しているが, オフラインなRLHF設定では, 破損したデータを扱うという問題には適用できない。 そこで本研究では,データ生成分布のカバレッジに関する様々な仮定の下で,新しい破壊ロバストなオフラインrlhf手法を設計する。 高いレベルでは、まず報酬モデルと信頼セットを学習し、次いで信頼セットに対して悲観的最適ポリシーを学習することで、オフラインのRLHFフレームワークを堅牢化する。 私たちのキーとなる洞察は、データカバレッジの仮定に応じて、オフラインの腐敗したRLオラクルを異なる方法で活用することで、最適なポリシーを学ぶことができるということです。 我々の知る限り、我々の研究は、証明可能な汚職を堅牢なオフラインRLHF方式で提供する最初の成果である。

We study data corruption robustness for reinforcement learning with human feedback (RLHF) in an offline setting. Given an offline dataset of pairs of trajectories along with feedback about human preferences, an $\varepsilon$-fraction of the pairs is corrupted (e.g., feedback flipped or trajectory features manipulated), capturing an adversarial attack or noisy human preferences. We aim to design algorithms that identify a near-optimal policy from the corrupted data, with provable guarantees. Existing theoretical works have separately studied the settings of corruption robust RL (learning from scalar rewards directly under corruption) and offline RLHF (learning from human feedback without corruption); however, they are inapplicable to our problem of dealing with corrupted data in offline RLHF setting. To this end, we design novel corruption robust offline RLHF methods under various assumptions on the coverage of the data-generating distributions. At a high level, our methodology robustifies an offline RLHF framework by first learning a reward model along with confidence sets and then learning a pessimistic optimal policy over the confidence set. Our key insight is that learning optimal policy can be done by leveraging an offline corruption-robust RL oracle in different ways (e.g., zero-order oracle or first-order oracle), depending on the data coverage assumptions. To our knowledge, ours is the first work that provides provable corruption robust offline RLHF methods.
翻訳日:2024-02-13 19:32:09 公開日:2024-02-09
# NICE: コンテキスト内の例を最適化する?

NICE: To Optimize In-Context Examples or Not? ( http://arxiv.org/abs/2402.06733v1 )

ライセンス: Link先を確認
Pragya Srivastava, Satvik Golechha, Amit Deshpande, Amit Sharma(参考訳) 近年の研究では、大規模言語モデル(LLM)が、インコンテキスト学習とインコンテキスト例(ICE)の最適化を通じて、広範囲のタスクにおいて極めてうまく機能していることが示されている。 しかし、これらの研究のほとんどはプロンプトで提供される固定命令か無命令を仮定しており、文脈内例の最適化がより良い性能のために重要であるという明らかなコンセンサスに繋がる。 タスク固有の命令が提供される際に、インコンテキストの例を最適化する必要性を調査し、インコンテキストの例を最適化する様々な方法がリターンを減らし、このコンセンサスに挑戦する。 我々は、与えられた命令からタスクの学習能力を定量化するタスク固有のメトリックである \metriclong{} (\metric)を導入し、新しいタスクのために命令や氷を最適化するかを決めるのに役立つヒューリスティックを提供する。 幅広いタスクと徐々に詳細が加えられた体系的な命令セットについて,各項目のクエリ依存ビンで \metric を計算し,異なる命令をice選択法と比較し,ラベル摂動実験を行い,経験的検証を行った。 課題は,指示がプロンプトで提供される場合,ICE最適化の帰属が予測可能な傾向に従うため,測定基準に基づいて2つの広いクラスに分けることができる。

Recent works have shown that large language models (LLMs) work remarkably well on a wide range of tasks through in-context learning and optimization of in-context examples (ICE). However, most of these studies assume either a fixed or no instruction provided in the prompt, leading to the apparent consensus that the optimization of in-context examples is critical for better performance. We challenge this consensus for instruction-tuned LLMs by investigating the necessity of optimizing in-context examples when task-specific instructions are provided, and find that there are tasks for which various ways of optimizing in-context examples yield diminishing returns. We introduce a task-specific metric called \metriclong{} (\metric) that quantifies the learnability of tasks from a given instruction, and provides a heuristic that helps decide whether to optimize for instructions or ICE for any new task. On a wide range of tasks and a systematically created instruction set with gradually added details, we validate our hypothesis empirically by computing \metric with query-dependent bins of examples, comparing different instructions with ICE selection methods, and performing label perturbation experiments. We conclude that tasks can be divided into two broad classes based on the \metric metric, where the returns on ICE optimization follow predictable trends when instructions are provided in the prompt.
翻訳日:2024-02-13 19:30:49 公開日:2024-02-09
# 個別に公平なK平均クラスタリングのためのスケーラブルアルゴリズム

A Scalable Algorithm for Individually Fair K-means Clustering ( http://arxiv.org/abs/2402.06730v1 )

ライセンス: Link先を確認
MohammadHossein Bateni and Vincent Cohen-Addad and Alessandro Epasto and Silvio Lattanzi(参考訳) Jung et al. と Mahabadi et al が導入した個別フェア (p$, $k$) クラスタリング問題に対するスケーラブルなアルゴリズムを提案する。 計量空間において$n$ポイント$P$を与えられたとき、$\delta(x)$ for $x\in P$を、少なくとも$n / k$ポイントを含む$x$の周りの最小球の半径とする。 クラスタリングは、各$x\in P$に対して$x$の距離$\delta(x)$の中心を持つ場合、個別にフェアと呼ばれる。 優れた近似アルゴリズムが知られているが、理論的な保証が良い効率的な実用的なアルゴリズムは提示されていない。 我々は ~$O(nk^2)$ 時間で動作し、bicriteria $(O(1), 6)$近似を得る最初の高速局所探索アルゴリズムを設計する。 そして、我々のアルゴリズムが以前の作業よりもはるかに高速であるだけでなく、低コストのソリューションを生み出すことを実証的に示す。

We present a scalable algorithm for the individually fair ($p$, $k$)-clustering problem introduced by Jung et al. and Mahabadi et al. Given $n$ points $P$ in a metric space, let $\delta(x)$ for $x\in P$ be the radius of the smallest ball around $x$ containing at least $n / k$ points. A clustering is then called individually fair if it has centers within distance $\delta(x)$ of $x$ for each $x\in P$. While good approximation algorithms are known for this problem no efficient practical algorithms with good theoretical guarantees have been presented. We design the first fast local-search algorithm that runs in ~$O(nk^2)$ time and obtains a bicriteria $(O(1), 6)$ approximation. Then we show empirically that not only is our algorithm much faster than prior work, but it also produces lower-cost solutions.
翻訳日:2024-02-13 19:29:48 公開日:2024-02-09
# シャドーインバージョンによる量子トモグラフィの最適化

Optimising quantum tomography via shadow inversion ( http://arxiv.org/abs/2402.06727v1 )

ライセンス: Link先を確認
Andrea Caprotti, Joshua Morris, Borivoje Daki\'c(参考訳) 量子情報理論において、観測可能量の正確な推定は、量子情報処理において重要であり、計算および通信プロトコルにおいて重要な役割を果たす。 本研究は,従来のシャドウの反転マップにおける未利用資源を活用して,追加のオーバーヘッドを伴わずに対象オブザーバブルの推定コストを大幅に改善する手法を提案する。 シャドウ反転の同次空間における計算と追加自由度を最適化するための一般化された枠組みは、様々な短期問題に適応する可能性がある。 局所測定戦略の特別の場合では、サンプル複雑性と標準アプローチの指数的な分離につながる実現可能な最適化を示し、例外的に、局所測定のための最適化後処理の非自明な例を示し、グローバルなクリフォード影と同じ効率を達成する。

In quantum information theory, the accurate estimation of observables is pivotal for quantum information processing, playing a crucial role in compute and communication protocols. This work introduces a novel technique for estimating such objects, leveraging an underutilised resource in the inversion map of classical shadows that greatly refines the estimation cost of target observables without incurring any additional overhead. A generalised framework for computing and optimising additional degrees of freedom in the homogeneous space of the shadow inversion is given that may be adapted to a variety of near-term problems. In the special case of local measurement strategies we show feasible optimisation leading to an exponential separation in sample complexity versus the standard approach and in an exceptional case we give non-trivial examples of optimised post-processing for local measurements, achieving the same efficiency as the global Cliffords shadows.
翻訳日:2024-02-13 19:29:30 公開日:2024-02-09
# 自律運転のためのニューラルレンダリングに基づく都市景観再構成

Neural Rendering based Urban Scene Reconstruction for Autonomous Driving ( http://arxiv.org/abs/2402.06826v1 )

ライセンス: Link先を確認
Shihao Shen, Louis Kerofsky, Varun Ravi Kumar and Senthil Yogamani(参考訳) Dense 3Dリコンストラクションは、自動アノテーション検証、マルチモーダルデータ拡張、LiDARを欠いたシステムに対する基底真理アノテーションの提供、自動ラベル精度の向上など、自動運転に多くの応用がある。 LiDARは高度に正確だが疎い深度を提供するが、カメラ画像は特に長距離で密度の深い深度を推定できる。 本稿では,両センサの強みを活かし,ニューラルネットワークの暗黙的表面と放射場を組み合わせた枠組みを用いたマルチモーダル3次元シーン再構成を提案する。 特に,本手法は高密度かつ高精度な3次元構造を推定し,符号付き距離場に基づく暗黙マップ表現を生成し,RGB画像や深度マップにさらにレンダリングすることができる。 学習した符号付き距離場からメッシュを抽出し、オクルージョンに基づいて彫り出すことができる。 動的オブジェクトは、3Dオブジェクト検出モデルを使用してサンプリング中に効率よくフィルタされる。 我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。

Dense 3D reconstruction has many applications in automated driving including automated annotation validation, multimodal data augmentation, providing ground truth annotations for systems lacking LiDAR, as well as enhancing auto-labeling accuracy. LiDAR provides highly accurate but sparse depth, whereas camera images enable estimation of dense depth but noisy particularly at long ranges. In this paper, we harness the strengths of both sensors and propose a multimodal 3D scene reconstruction using a framework combining neural implicit surfaces and radiance fields. In particular, our method estimates dense and accurate 3D structures and creates an implicit map representation based on signed distance fields, which can be further rendered into RGB images, and depth maps. A mesh can be extracted from the learned signed distance field and culled based on occlusion. Dynamic objects are efficiently filtered on the fly during sampling using 3D object detection models. We demonstrate qualitative and quantitative results on challenging automotive scenes.
翻訳日:2024-02-13 19:22:30 公開日:2024-02-09
# 表データ合成アルゴリズムの原理的評価に向けて

Towards Principled Assessment of Tabular Data Synthesis Algorithms ( http://arxiv.org/abs/2402.06806v1 )

ライセンス: Link先を確認
Yuntao Du, Ninghui Li(参考訳) データ合成は、データのプライバシーを保護しながらデータを活用するための重要なアプローチとして提唱されている。 多数の表型データ合成アルゴリズム(合成器と呼ぶ)が提案されている。 一部のシンセサイザーはディファレンシャルプライバシを満たしているが、他のシンセサイザーはヒューリスティックな方法でプライバシを提供することを目指している。 これらのシンセサイザーの強みと弱みの包括的理解は、基礎的な評価基準の欠如と、最先端の辺縁系シンセサイザーを用いた拡散モデルと大規模言語モデルを利用する新規に開発されたシンセサイザーの頭対頭比較の欠如により、いまだ解明されていない。 本稿では,表データ合成アルゴリズムを評価するための原理的かつ体系的な評価手法を提案する。 具体的には,既存の評価指標を検証・評価し,信頼度,プライバシ,ユーティリティという観点から新たな指標を導入して,その限界に対処します。 また,提案手法に基づいて,各手法の合成データの品質を継続的に向上する,チューニングのための統一的な目標を考案した。 12のデータセット上で8種類のシンセサイザーの広範な評価を行い,プライバシ保存データ合成の新たな方向性を示す興味深い知見を明らかにした。

Data synthesis has been advocated as an important approach for utilizing data while protecting data privacy. A large number of tabular data synthesis algorithms (which we call synthesizers) have been proposed. Some synthesizers satisfy Differential Privacy, while others aim to provide privacy in a heuristic fashion. A comprehensive understanding of the strengths and weaknesses of these synthesizers remains elusive due to lacking principled evaluation metrics and missing head-to-head comparisons of newly developed synthesizers that take advantage of diffusion models and large language models with state-of-the-art marginal-based synthesizers. In this paper, we present a principled and systematic evaluation framework for assessing tabular data synthesis algorithms. Specifically, we examine and critique existing evaluation metrics, and introduce a set of new metrics in terms of fidelity, privacy, and utility to address their limitations. Based on the proposed metrics, we also devise a unified objective for tuning, which can consistently improve the quality of synthetic data for all methods. We conducted extensive evaluations of 8 different types of synthesizers on 12 datasets and identified some interesting findings, which offer new directions for privacy-preserving data synthesis.
翻訳日:2024-02-13 19:22:13 公開日:2024-02-09
# オーバーヘッド物体検出のためのイベントからビデオへの変換

Event-to-Video Conversion for Overhead Object Detection ( http://arxiv.org/abs/2402.06805v1 )

ライセンス: Link先を確認
Darryl Hannan, Ragib Arnab, Gavin Parpart, Garrett T. Kenyon, Edward Kim, and Yijing Watkins(参考訳) 標準カメラに比べて画像センサのエネルギー効率が高いため,イベントカメラを用いたオーバーヘッド画像の収集が望ましい。 しかし、イベントカメラは、特にオブジェクト検出のような複雑なタスクにおいて、下流の画像処理を複雑にする。 本稿では,オーバーヘッドオブジェクト検出のためのイベントストリームの実現可能性について検討する。 我々は,多数の標準モデリング手法において,高密度イベント表現と対応するRGBフレームの間には大きな差があることを実証した。 このギャップは、部分的には、イベント表現と、物体検出器の重み付けを初期化するために使用される事前トレーニングデータとの重なりの欠如によるものである。 次に、イベントストリームをグレースケールのビデオに変換するイベント間変換モデルを適用し、このギャップを埋める。 このアプローチは大きなパフォーマンス向上をもたらし、オーバーヘッドターゲットタスクにおいてイベント特異的なオブジェクト検出技術よりも優れています。 これらの結果から,イベント表現と既存の大規模事前学習モデルとの整合性が向上すれば,エンドツーエンドのイベント固有のアーキテクチャ改善と比較して,短期的なパフォーマンス向上が期待できる。

Collecting overhead imagery using an event camera is desirable due to the energy efficiency of the image sensor compared to standard cameras. However, event cameras complicate downstream image processing, especially for complex tasks such as object detection. In this paper, we investigate the viability of event streams for overhead object detection. We demonstrate that across a number of standard modeling approaches, there is a significant gap in performance between dense event representations and corresponding RGB frames. We establish that this gap is, in part, due to a lack of overlap between the event representations and the pre-training data used to initialize the weights of the object detectors. Then, we apply event-to-video conversion models that convert event streams into gray-scale video to close this gap. We demonstrate that this approach results in a large performance increase, outperforming even event-specific object detection techniques on our overhead target task. These results suggest that better alignment between event representations and existing large pre-trained models may result in greater short-term performance gains compared to end-to-end event-specific architectural improvements.
翻訳日:2024-02-13 19:21:51 公開日:2024-02-09
# 長手型ダッシュカムデータでニューヨーク市の足場をフィンガープリントする

Fingerprinting New York City's Scaffolding Problem with Longitudinal Dashcam Data ( http://arxiv.org/abs/2402.06801v1 )

ライセンス: Link先を確認
Dorin Shapira, Matt Franchi, Wendy Ju(参考訳) 歩道小屋とも呼ばれる足場は、歩行者が建設や修理の危険から守るための一時的な構造物である。 しかし、歩道の小屋は何年も放置されている。 長期の足場は目障りになり、歩道のアクセシビリティの問題を引き起こし、違法な活動にカバーする。 今日、ニューヨーク市の足場には8000以上のアクティブな許可があるが、より問題のある足場は期限切れか、あるいは許可されていない可能性が高い。 本研究は,街路画像のコンピュータビジョンを用いて,市内の足場を縦に地図化する。 2023年8月から2024年1月までに撮影されたダッシュカム画像29,156,833枚のデータセットを用いて,足場存在を追跡するアルゴリズムを開発した。 また, 検出された足場をアクティブスキャフォールディング許可の報告位置と一致させる手法を設計・実装し, 対応許可なしに歩道の棚を識別できるようにした。 850,766点の足場画像,5,156点のアクティブな歩道用棚のタグ付け,および529点の無許可牧場を推定した。 本稿では,都市技術における足場分類器の導入,行政検査プロセスの革新,ニューヨーク市外の流通評価について考察する。

Scaffolds, also called sidewalk sheds, are intended to be temporary structures to protect pedestrians from construction and repair hazards. However, some sidewalk sheds are left up for years. Long-term scaffolding becomes eyesores, creates accessibility issues on sidewalks, and gives cover to illicit activity. Today, there are over 8,000 active permits for scaffolds in NYC; the more problematic scaffolds are likely expired or unpermitted. This research uses computer vision on street-level imagery to develop a longitudinal map of scaffolding throughout the city. Using a dataset of 29,156,833 dashcam images taken between August 2023 and January 2024, we develop an algorithm to track the presence of scaffolding over time. We also design and implement methods to match detected scaffolds to reported locations of active scaffolding permits, enabling the identification of sidewalk sheds without corresponding permits. We identify 850,766 images of scaffolding, tagging 5,156 active sidewalk sheds and estimating 529 unpermitted sheds. We discuss the implications of an in-the-wild scaffolding classifier for urban tech, innovations to governmental inspection processes, and out-of-distribution evaluations outside of New York City.
翻訳日:2024-02-13 19:21:35 公開日:2024-02-09
# カナダ・グランドバンクス地域とサブル島における海洋生物の可視性の生成

Generative Nowcasting of Marine Fog Visibility in the Grand Banks area and Sable Island in Canada ( http://arxiv.org/abs/2402.06800v1 )

ライセンス: Link先を確認
Eren Gultepe, Sen Wang, Byron Blomquist, Harindra J.S. Fernando, O. Patrick Kreidl, David J. Delene, Ismail Gultepe(参考訳) 本研究では,2022年7月にカナダ北東部,グランドバンクス地域の北大西洋で観測されたFATIMA (Fog and turbulence interaction in the Marine atmosphere) の観測結果を用いて,海洋の霧の可視性を評価するための生成的深層学習手法の適用について述べる。 観測はvaisala forward scatter sensor model fd70とweather transmission model wxt50とgill r3a超音波計を用いて行われた。 霧の可視性(vis)、風速、露点抑うつ、水に対する相対湿度の時系列を事前処理し、時間ステップ特性を遅延させた。 1km/10kmの可視閾値でcgan回帰法を用いて,30分/60分間のリードタイムに対するviss時系列の現示を行った。 極勾配促進法 (XGBoost) は, cGANと比較するためのベースライン法として用いられた。 30分間のリードタイムでは、Vis < 1 km (RMSE = 0.151 km)でcGAN、Vis < 10 km (RMSE = 2.821 km)でXGBoostで予測された。 60分間のリードタイムでは、Vis < 1 km (RMSE = 0.167 km) と Vis < 10 km (RMSE = 3.508 km) でXGBoostが予測されたが、cGAN RMSEはXGBoostと類似していた。 30分でVisを流し込むのは非常に難しいが、1kmでVisの変動を追跡するcGANモデルの能力は、観測気象パラメーターを用いて海洋の霧の可視性を生成する可能性を示唆している。

This study presents the application of generative deep learning techniques to evaluate marine fog visibility nowcasting using the FATIMA (Fog and turbulence interactions in the marine atmosphere) campaign observations collected during July 2022 in the North Atlantic in the Grand Banks area and vicinity of Sable Island (SI), northeast of Canada. The measurements were collected using the Vaisala Forward Scatter Sensor model FD70 and Weather Transmitter model WXT50, and Gill R3A ultrasonic anemometer mounted on the Research Vessel Atlantic Condor. To perform nowcasting, the time series of fog visibility (Vis), wind speed, dew point depression, and relative humidity with respect to water were preprocessed to have lagged time step features. Generative nowcasting of Vis time series for lead times of 30 and 60 minutes were performed using conditional generative adversarial networks (cGAN) regression at visibility thresholds of Vis < 1 km and < 10 km. Extreme gradient boosting (XGBoost) was used as a baseline method for comparison against cGAN. At the 30 min lead time, Vis was best predicted with cGAN at Vis < 1 km (RMSE = 0.151 km) and with XGBoost at Vis < 10 km (RMSE = 2.821 km). At the 60 min lead time, Vis was best predicted with XGBoost at Vis < 1 km (RMSE = 0.167 km) and Vis < 10 km (RMSE = 3.508 km), but the cGAN RMSE was similar to XGBoost. Despite nowcasting Vis at 30 min being quite difficult, the ability of the cGAN model to track the variation in Vis at 1 km suggests that there is potential for generative analysis of marine fog visibility using observational meteorological parameters.
翻訳日:2024-02-13 19:21:11 公開日:2024-02-09
# 横切るのは安全ですか。 GPT-4Vによる道路交差点の安全性評価

Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing ( http://arxiv.org/abs/2402.06794v1 )

ライセンス: Link先を確認
Hochul Hwang, Sunjae Kwon, Yekyung Kim and Donghyun Kim(参考訳) 道路の交差点を安全にナビゲートすることは盲目と低視の個人にとって複雑な課題であり、周囲の状況に関する微妙な理解を必要とする。 この意思決定プロセスを支援する伝統的な方法はしばしば不足し、包括的なシーン分析と安全性レベルを提供する能力が欠如している。 本稿では,大規模マルチモーダルモデル(lmms)を用いて道路横断の複雑な場面を解釈し,従来の交通信号認識技術に対して潜在的に進歩する手法を提案する。 安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。 四足歩行ロボットが撮影した多視点エゴセントリック画像を含む横断歩道交差点データを収集し,予め定義された安全スコア分類に基づいて対応する安全スコアを付記した。 画像から抽出した視覚的知識とテキストプロンプトに基づいて、安全スコア予測とシーン記述のための大規模なマルチモーダルモデルを評価する。 本研究は,信頼性の高い意思決定支援を必要とするアプリケーションに不可欠な,信頼性の高いシステム開発への道筋として,様々なプロンプトによって起動されるLMMの推論と安全性スコア予測能力を強調した。

Safely navigating street intersections is a complex challenge for blind and low-vision individuals, as it requires a nuanced understanding of the surrounding context - a task heavily reliant on visual cues. Traditional methods for assisting in this decision-making process often fall short, lacking the ability to provide a comprehensive scene analysis and safety level. This paper introduces an innovative approach that leverages large multimodal models (LMMs) to interpret complex street crossing scenes, offering a potential advancement over conventional traffic signal recognition techniques. By generating a safety score and scene description in natural language, our method supports safe decision-making for the blind and low-vision individuals. We collected crosswalk intersection data that contains multiview egocentric images captured by a quadruped robot and annotated the images with corresponding safety scores based on our predefined safety score categorization. Grounded on the visual knowledge, extracted from images, and text prompt, we evaluate a large multimodal model for safety score prediction and scene description. Our findings highlight the reasoning and safety score prediction capabilities of a LMM, activated by various prompts, as a pathway to developing a trustworthy system, crucial for applications requiring reliable decision-making support.
翻訳日:2024-02-13 19:20:36 公開日:2024-02-09
# 周波数変換に基づく完全プログラマブル線形量子ネットワークの一構成法

A scheme for fully programmable linear quantum networks based on frequency conversion ( http://arxiv.org/abs/2402.06786v1 )

ライセンス: Link先を確認
Patrick Folge, Michael Stefszky, Benjamin Brecht and Christine Silberhorn(参考訳) 量子入力状態とマルチポート干渉計で構成される線形光量子ネットワークは、ガウスボソンサンプリングなど、多くの量子技術概念にとって重要な構成要素である。 本稿では、いわゆるマルチ出力量子パルスゲート(mQPG)を利用して、周波数変換に基づくネットワークの実装を提案する。 このアプローチにより、単一空間偏光モードにおける周波数ビンベースで完全にプログラム可能な干渉計の実装が効率的かつスケーラブルになる。 このネットワークの量子入力状態は、タイプ0パラメトリックダウン変換(PDC)ソースの強い周波数絡みを利用することができる。 そこで我々は,mQPG と PDC に基づく線形ネットワークを記述する理論フレームワークを開発し,その手法の限界と可視性について検討する。

Linear optical quantum networks, consisting of a quantum input state and a multi-port interferometer, are an important building block for many quantum technological concepts, e.g., Gaussian boson sampling. Here, we propose the implementation of such networks based on frequency conversion by utilising a so called multi-output quantum pulse gate (mQPG). This approach allows the resource efficient and therefore scalable implementation of frequency-bin based, fully programmable interferometers in a single spatial and polarization mode. Quantum input states for this network can be provided by utilising the strong frequency entanglement of a type-0 parametric down conversion (PDC) source. Here, we develop a theoretical framework to describe linear networks based on a mQPG and PDC and utilize it to investigate the limits and scalabilty of our approach.
翻訳日:2024-02-13 19:20:14 公開日:2024-02-09
# 限られたデータセット上での物体検出のための生成モデルを用いた転送学習

Transfer learning with generative models for object detection on limited datasets ( http://arxiv.org/abs/2402.06784v1 )

ライセンス: Link先を確認
Matteo Paiano, Stefano Martina, Carlotta Giannelli, Filippo Caruso(参考訳) データの可用性はフィールドによって制限されており、特にオブジェクト検出タスクでは、各オブジェクトの周りのバウンディングボックスを正しくラベル付けする必要がある。 このようなデータ不足の顕著な例は海洋生物学の領域で見られ、環境モニタリングのための潜水艦種を自動的に検出する手法を開発するのに有用である。 このデータ制限に対処するために、最先端の機械学習戦略には2つの主要なアプローチがある。 1つ目は、特定の関心領域に一般化する前に、既存のデータセットのモデルを事前訓練することである。 第2の戦略は、コピーペースト技術やアドホックシミュレータといった手法を使用して、ターゲットドメインに特化された合成データセットを作成することである。 第1の戦略はしばしば重要なドメインシフトに直面し、第2の戦略は特定のタスクのために作られたカスタムソリューションを要求する。 本稿では,これらの課題に対応するために,汎用シナリオに有効なトランスファー学習フレームワークを提案する。 このフレームワークでは、生成した画像は、少数の実データ構造におけるオブジェクト検出器の性能を向上させるのに役立ちます。 これは大きなジェネリックデータセットで事前トレーニングされた拡散ベースの生成モデルによって実現され、タスク固有のドメインではトレーニングされない。 本研究は, 水中環境における魚類, 都市環境における自動車の一般的な領域に着目し, 物体検出タスクへのアプローチを検証する。 本手法は,数千の画像でトレーニングされたモデルに匹敵する検出性能を,数百の入力データのみを用いて達成する。 我々の研究結果は、例えば地球物理学から生物学、医学まで、さまざまな分野における機械学習応用のための新しい生成AIベースのプロトコルの道を開いた。

The availability of data is limited in some fields, especially for object detection tasks, where it is necessary to have correctly labeled bounding boxes around each object. A notable example of such data scarcity is found in the domain of marine biology, where it is useful to develop methods to automatically detect submarine species for environmental monitoring. To address this data limitation, the state-of-the-art machine learning strategies employ two main approaches. The first involves pretraining models on existing datasets before generalizing to the specific domain of interest. The second strategy is to create synthetic datasets specifically tailored to the target domain using methods like copy-paste techniques or ad-hoc simulators. The first strategy often faces a significant domain shift, while the second demands custom solutions crafted for the specific task. In response to these challenges, here we propose a transfer learning framework that is valid for a generic scenario. In this framework, generated images help to improve the performances of an object detector in a few-real data regime. This is achieved through a diffusion-based generative model that was pretrained on large generic datasets, and is not trained on the task-specific domain. We validate our approach on object detection tasks, specifically focusing on fishes in an underwater environment, and on the more common domain of cars in an urban setting. Our method achieves detection performance comparable to models trained on thousands of images, using only a few hundreds of input data. Our results pave the way for new generative AI-based protocols for machine learning applications in various domains, for instance ranging from geophysics to biology and medicine.
翻訳日:2024-02-13 19:19:59 公開日:2024-02-09
# 授業の学習: 教師と教師の同時移動学習におけるサンプル効率の向上

Learn to Teach: Improve Sample Efficiency in Teacher-student Learning for Sim-to-Real Transfer ( http://arxiv.org/abs/2402.06783v1 )

ライセンス: Link先を確認
Feiyang Wu, Zhaoyuan Gu, Ye Zhao, Anqi Wu(参考訳) シミュレーションから現実へ(sim-to-real)移行は、ロボット学習の基本的な問題である。 トレーニング中にランダム化を追加するドメインランダム化は、sim-to-realギャップに効果的に対処する強力なテクニックである。 しかし、観測におけるノイズは学習を著しく難しくする。 近年,教師・学生の学習パラダイムがランダム化環境での学習を加速できることが研究で示されている。 教師エージェントは、特権的な情報から学習し、学生エージェントに騒がしい環境での操作を指示することができる。 しかし,教師が収集した経験が学生のトレーニング時に完全に捨てられ,環境によって明らかにされる情報を無駄にしてしまうため,このアプローチはサンプリング効率が良くないことが多い。 本研究では,教師エージェントが収集した学習体験をリサイクルする,Learning to Teach(L2T)と呼ばれる,効率的な学習フレームワークを提案する。 両エージェントの環境のダイナミクスは変わらぬままであり,教師の状態空間は生徒の観察空間と結合している。 単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。 提案手法の変種を実装し,MuJoCoベンチマークを用いて実験を行い,Cassieロボットの移動問題に適用する。 本手法は,教師との環境相互作用のみを必要としながら,競争性能を発揮できることを示す。

Simulation-to-reality (sim-to-real) transfer is a fundamental problem for robot learning. Domain Randomization, which adds randomization during training, is a powerful technique that effectively addresses the sim-to-real gap. However, the noise in observations makes learning significantly harder. Recently, studies have shown that employing a teacher-student learning paradigm can accelerate training in randomized environments. Learned with privileged information, a teacher agent can instruct the student agent to operate in noisy environments. However, this approach is often not sample efficient as the experience collected by the teacher is discarded completely when training the student, wasting information revealed by the environment. In this work, we extend the teacher-student learning paradigm by proposing a sample efficient learning framework termed Learn to Teach (L2T) that recycles experience collected by the teacher agent. We observe that the dynamics of the environments for both agents remain unchanged, and the state space of the teacher is coupled with the observation space of the student. We show that a single-loop algorithm can train both the teacher and student agents under both Reinforcement Learning and Inverse Reinforcement Learning contexts. We implement variants of our methods, conduct experiments on the MuJoCo benchmark, and apply our methods to the Cassie robot locomotion problem. Extensive experiments show that our method achieves competitive performance while only requiring environmental interaction with the teacher.
翻訳日:2024-02-13 19:19:35 公開日:2024-02-09
# より説得力のあるLLMによる議論は、より真に答える

Debating with More Persuasive LLMs Leads to More Truthful Answers ( http://arxiv.org/abs/2402.06782v1 )

ライセンス: Link先を確認
Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rockt\"aschel and Ethan Perez(参考訳) 大規模言語モデル(llm)を望ましい振る舞いに合わせる一般的な方法は、人間のラベルデータに大きく依存する。 しかし、モデルが高度化するにつれて、それらは人間の専門知識を超え、人間の評価の役割は専門家を監督する非専門家へと進化する。 より弱いモデルはより強固なモデルの正確性を評価することができるか? より強力なモデル(専門家)が疑問に答えるために必要な情報を持ち、より弱いモデル(専門家でない者)がこの情報を欠いている類似の環境でこの問題を調査する。 評価するメソッドは \textit{debate} で、2人のllmの専門家がそれぞれ異なる答えを議論し、非専門家が答えを選択する。 議論は、非専門家モデルと人間の両方が、それぞれ76\%と88\%の精度で質問に答えるのを一貫して助けている(ナイーブベースラインは48\%と60\%)。 さらに、専門家の議論者を指導されていない方法で説得力に最適化することで、議論の真相を識別する非専門家能力が向上する。 以上の結果から,基礎的真理の欠如によるモデルと議論の整合性に関する実証的証拠が得られた。

Common methods for aligning large language models (LLMs) with desired behaviour heavily rely on human-labelled data. However, as models grow increasingly sophisticated, they will surpass human expertise, and the role of human evaluation will evolve into non-experts overseeing experts. In anticipation of this, we ask: can weaker models assess the correctness of stronger models? We investigate this question in an analogous setting, where stronger models (experts) possess the necessary information to answer questions and weaker models (non-experts) lack this information. The method we evaluate is \textit{debate}, where two LLM experts each argue for a different answer, and a non-expert selects the answer. We find that debate consistently helps both non-expert models and humans answer questions, achieving 76\% and 88\% accuracy respectively (naive baselines obtain 48\% and 60\%). Furthermore, optimising expert debaters for persuasiveness in an unsupervised manner improves non-expert ability to identify the truth in debates. Our results provide encouraging empirical evidence for the viability of aligning models with debate in the absence of ground truth.
翻訳日:2024-02-13 19:19:10 公開日:2024-02-09
# 人工知能と機械学習ですべき20人の建設者

Twenty Constructionist Things to Do with Artificial Intelligence and Machine Learning ( http://arxiv.org/abs/2402.06775v1 )

ライセンス: Link先を確認
Yasmin Kafai, Luis Morales-Navarro(参考訳) 本稿では,Seymour Papert と Cynthia Solomon による1971 年のメモ "Twenty Things to Do with a Computer" を基に構築し,人工知能と機械学習に関する20の建設的事項を提案する。 いくつかの提案はオリジナルのメモで開発されたアイデアに基づいており、他の提案は科学、数学、芸術のトピックを扱っている。 大規模テーマのレビューでは,技術能力だけでなく,自身の認知過程の理解を深めるために,子どものエンゲージメントへの関心が高まっている。 さらに、このアイデアは、個人が関連するAI/MLアプリケーションを設計することの重要性を強調しており、分離されたモデルを超えて、棚外のデータセットが関心から切り離されている。 また、AI/MLアプリケーション作成に関わるデータ生産の社会的側面も認めます。 最後に、AI/MLアプリケーションの潜在的有害なアルゴリズムバイアスと結果に対処するために必要な臨界次元を強調します。

In this paper, we build on the 1971 memo "Twenty Things to Do With a Computer" by Seymour Papert and Cynthia Solomon and propose twenty constructionist things to do with artificial intelligence and machine learning. Several proposals build on ideas developed in the original memo while others are new and address topics in science, mathematics, and the arts. In reviewing the big themes, we notice a renewed interest in children's engagement not just for technical proficiency but also to cultivate a deeper understanding of their own cognitive processes. Furthermore, the ideas stress the importance of designing personally relevant AI/ML applications, moving beyond isolated models and off-the-shelf datasets disconnected from their interests. We also acknowledge the social aspects of data production involved in making AI/ML applications. Finally, we highlight the critical dimensions necessary to address potential harmful algorithmic biases and consequences of AI/ML applications.
翻訳日:2024-02-13 19:18:50 公開日:2024-02-09
# ハイパーグラフの探索による再合成予測

Retrosynthesis Prediction via Search in (Hyper) Graph ( http://arxiv.org/abs/2402.06772v1 )

ライセンス: Link先を確認
Zixun Lan, Binjie Hong, Jiajun Zhu, Zuo Zeng, Zhenfu Liu, Limin Yu, Fei Ma(参考訳) 特定のコア生成物から反応物を予測することは、レトロ合成予測と呼ばれる有機合成の基本的な課題である。 近年,半テンプレートベース手法とグラフ編集方式は,解釈可能性と精度の両面で優れた性能を達成している。 しかし、それらの機構のため、これらの方法は複雑な反応を予測できない(例えば、複数の反応中心を持つ反応や、同じ離脱基を複数の原子に結合する)。 本研究では,これらの制約を緩和するために,半テンポレート法である \textbf{S}earch \textbf{i}n (Hyper) \textbf{G}raph (RetroSiG) フレームワークを提案する。 提案手法では, 反応中心同定と離脱群完了タスクを, 製品分子グラフと離脱群ハイパーグラフをそれぞれ検索するタスクとする。 半テンプレートベースの方法として、RetroSiGにはいくつかの利点がある。 まず、RetroSiGはその新しい検索メカニズムによって前述の複雑な反応を処理できる。 第2に、RetroSiGは自然にハイパーグラフを利用して、離脱するグループ間の暗黙の依存関係をモデル化する。 第3に、RetroSiGは以前の制約、すなわちワンホップ制約をフル活用する。 検索スペースを減らし、全体的なパフォーマンスを向上させる。 総合的な実験により、RetroSiGは競争結果を得た。 さらに, 複素反応予測におけるRetroSiGの有効性を示す実験を行った。 アブレーション実験では, 1ホップ制約や離脱群ハイパーグラフなどの特定の要素の有効性が検証された。

Predicting reactants from a specified core product stands as a fundamental challenge within organic synthesis, termed retrosynthesis prediction. Recently, semi-template-based methods and graph-edits-based methods have achieved good performance in terms of both interpretability and accuracy. However, due to their mechanisms these methods cannot predict complex reactions, e.g., reactions with multiple reaction center or attaching the same leaving group to more than one atom. In this study we propose a semi-template-based method, the \textbf{Retro}synthesis via \textbf{S}earch \textbf{i}n (Hyper) \textbf{G}raph (RetroSiG) framework to alleviate these limitations. In the proposed method, we turn the reaction center identification and the leaving group completion tasks as tasks of searching in the product molecular graph and leaving group hypergraph respectively. As a semi-template-based method RetroSiG has several advantages. First, RetroSiG is able to handle the complex reactions mentioned above by its novel search mechanism. Second, RetroSiG naturally exploits the hypergraph to model the implicit dependencies between leaving groups. Third, RetroSiG makes full use of the prior, i.e., one-hop constraint. It reduces the search space and enhances overall performance. Comprehensive experiments demonstrated that RetroSiG achieved competitive results. Furthermore, we conducted experiments to show the capability of RetroSiG in predicting complex reactions. Ablation experiments verified the efficacy of specific elements, such as the one-hop constraint and the leaving group hypergraph.
翻訳日:2024-02-13 19:18:31 公開日:2024-02-09
# 中性原子との分子ドッキングに向けて

Towards molecular docking with neutral atoms ( http://arxiv.org/abs/2402.06770v1 )

ライセンス: Link先を確認
Mathieu Garrigues, Victor Onofre, No\'e Bosc-Haddad(参考訳) 分子ドッキングのような新しい計算戦略が登場し、薬物発見プロセスのスピードアップが図られている。 この方法はタンパク質の結合部位における分子の活性を予測し、望ましい挙動を示す分子を選択し、残りの分子を拒絶する。 しかし,大規模な化学図書館では,高い精度を維持しつつ,少ない計算資源で構成を検索しスコア付けすることが不可欠である。 本研究では、分子ドッキング問題を、物理中性原子量子プロセッサにおける単位-ディスクグラフ上の最大重み付き独立集合問題であるグラフ問題にマッピングする。 ここでは、各頂点は光学的ツイーザーによって閉じ込められた原子を表す。 変分量子断アルゴリズム(vqaa)アプローチは、2つの最適化法であるscipyとhyperoptを用いて一般グラフ問題を解決するために用いられる。 さらに, adiabaticアルゴリズムを用いて機械学習手法を検討する。 複数のグラフの結果が示され、分子ドッキング問題の小さな例が解決され、近い将来の量子応用の可能性を示している。

New computational strategies, such as molecular docking, are emerging to speed up the drug discovery process. This method predicts the activity of molecules at the binding site of proteins, helping to select the ones that exhibit desirable behavior and rejecting the rest. However, for large chemical libraries, it is essential to search and score configurations using fewer computational resources while maintaining high precision. In this work, we map the molecular docking problem to a graph problem, a maximum-weight independent set problem on a unit-disk graph in a physical neutral atom quantum processor. Here, each vertex represents an atom trapped by optical tweezers. The Variational Quantum Adiabatic Algorithm (VQAA) approach is used to solve the generic graph problem with two optimization methods, Scipy and Hyperopt. Additionally, a machine learning method is explored using the adiabatic algorithm. Results for multiple graphs are presented, and a small instance of the molecular docking problem is solved, demonstrating the potential for near-term quantum applications.
翻訳日:2024-02-13 19:18:05 公開日:2024-02-09
# NLPにおけるテキストデータ拡張のための評価指標

Evaluation Metrics for Text Data Augmentation in NLP ( http://arxiv.org/abs/2402.06766v1 )

ライセンス: Link先を確認
Marcellus Amadeus and William Alberto Cruz Casta\~neda(参考訳) 自然言語処理のためのデータ拡張に関する最近の調査は、この分野における様々な技術と進歩を報告している。 いくつかのフレームワーク、ツール、リポジトリは、テキストデータ拡張パイプラインの実装を促進する。 しかし、異なるタスク、メトリクス、データセット、アーキテクチャ、実験的な設定によるメソッド比較の評価基準や基準が欠如しているため、比較は意味がない。 また、統一化方法の欠如があり、テキストデータ拡張研究は、異なる拡張方法を比較するための統一メトリクスの恩恵を受けるだろう。 このように、学術者や業界は、テキストデータ拡張技術に関する関連する評価基準に取り組みます。 この研究の貢献は、テキスト拡張手法の評価指標の分類を提供し、統一ベンチマークの方向性として機能することである。 提案した分類学は、実装とメトリクス計算のツールを含むカテゴリを整理する。 最後に、本研究では、テキストデータ拡張メトリクスの統合と標準化を探求する機会を提示する。

Recent surveys on data augmentation for natural language processing have reported different techniques and advancements in the field. Several frameworks, tools, and repositories promote the implementation of text data augmentation pipelines. However, a lack of evaluation criteria and standards for method comparison due to different tasks, metrics, datasets, architectures, and experimental settings makes comparisons meaningless. Also, a lack of methods unification exists and text data augmentation research would benefit from unified metrics to compare different augmentation methods. Thus, academics and the industry endeavor relevant evaluation metrics for text data augmentation techniques. The contribution of this work is to provide a taxonomy of evaluation metrics for text augmentation methods and serve as a direction for a unified benchmark. The proposed taxonomy organizes categories that include tools for implementation and metrics calculation. Finally, with this study, we intend to present opportunities to explore the unification and standardization of text data augmentation metrics.
翻訳日:2024-02-13 19:17:49 公開日:2024-02-09
# 多層超波長原子配列を用いた量子インターフェース

Quantum interfaces with multilayered superwavelength atomic arrays ( http://arxiv.org/abs/2402.06839v1 )

ライセンス: Link先を確認
Roni Ben-Maimon, Yakov Solomons, Nir Davidson, Ofer Firstenberg, and Ephraim Shahmoon(参考訳) 格子間隔が光の波長を超える2次元原子配列の複数の層から構成される量子光物質界面を考える。 このような「超波長格子」の単一層への光の結合は、高回折次数での散乱損失により著しく減少するが、層間破壊干渉により、層の追加によってこれらの損失を抑えることができることを示す。 結合効率が反射率によって特徴づけられる量子インタフェースの1次元モデルに問題をマッピングし、現実的な有限サイズの配列を考慮に入れた幾何光学式を開発することにより後者を解析する。 最適化された効率は、小さな回折次角と小さな層間分離を好んでおり、2層間のカップリング非効率は、N^{-1}$と層毎の原子数$N$に普遍的にスケールする。 我々は,散乱反射率の直接数値計算と量子メモリプロトコルの性能を用いて,原子-光子結合効率の高い予測を検証した。 ツイーザー原子配列プラットフォームにおける応用技術の有用性について論じる。

We consider quantum light-matter interfaces comprised of multiple layers of two-dimensional atomic arrays, whose lattice spacings exceed the wavelength of light. While the coupling of light to a single layer of such a ``superwavelength" lattice is considerably reduced due to scattering losses to high diffraction orders, we show that the addition of layers can suppress these losses through destructive interference between the layers. Mapping the problem to a 1D model of a quantum interface wherein the coupling efficiency is characterized by a reflectivity, we analyze the latter by developing a geometrical optics formulation, accounting for realistic finite-size arrays. We find that optimized efficiency favors small diffraction-order angles and small interlayer separations, and that the coupling inefficiency of two layers universally scales as $N^{-1}$ with the atom number per layer $N$. We validate our predictions using direct numerical calculations of the scattering reflectivity and the performance of a quantum memory protocol, demonstrating high atom-photon coupling efficiency. We discuss the utility of our technique for applications in tweezer atomic arrays platforms.
翻訳日:2024-02-13 19:10:01 公開日:2024-02-09
# バンド交差を伴う周期構造における放射輸送

Radiative transport in a periodic structure with band crossings ( http://arxiv.org/abs/2402.06828v1 )

ライセンス: Link先を確認
Kunlun Qi and Li Wang and Alexander B. Watson(参考訳) ウィグナー変換と漸近解析を用いて任意の空間次元において任意の周期構造を持つシュルンディンガー方程式の半古典モデルを体系的に導出する。 特に強調されているのは、textit{diabatic}効果、すなわちBlochバンド交差の影響に対処することである。 決定論的シナリオとランダムシナリオの両方を考慮する。 前者の場合、異なるブロッホ帯域間の低次相互作用を明らかにする結合したリウヴィル系を導出する。 後者の場合、ランダムな不均一性によって散乱断面積が引き起こされる放射輸送方程式の結合系が現れる。 特定の応用として、ランダムなグラフェン中のウェーブパケットの有効ダイナミクスを導出する。

We use the Wigner transformation and asymptotic analysis to systematically derive the semi-classical model for the Schr\"{o}dinger equation in arbitrary spatial dimensions, with any periodic structure. Our particular emphasis lies in addressing the \textit{diabatic} effect, i.e., the impact of Bloch band crossings. We consider both deterministic and random scenarios. In the former case, we derive a coupled Liouville system, revealing lower-order interactions among different Bloch bands. In the latter case, a coupled system of radiative transport equations emerges, with the scattering cross-section induced by the random inhomogeneities. As a specific application, we deduce the effective dynamics of a wave packet in graphene with randomness.
翻訳日:2024-02-13 19:09:42 公開日:2024-02-09
# RAMP:複数の$l_p$摂動に対する対向ロバスト性を高める

RAMP: Boosting Adversarial Robustness Against Multiple $l_p$ Perturbations ( http://arxiv.org/abs/2402.06827v1 )

ライセンス: Link先を確認
Enyi Jiang, Gagandeep Singh(参考訳) adversarial training (at)を使用して、1つの$l_p$ノルムで囲まれた敵の攻撃に対するロバスト性を改善する作業は相当なものである。 しかし、atモデルの多重ノルムロバスト性(結合精度)は依然として低い。 我々は,複数の$l_p$摂動に対するロバスト性と精度・ロバスト性・効率のトレードオフが存在するため,良好な結合性とクリーンな精度を同時に得ることは困難である。 分配シフトのレンズからのトレードオフを解析することにより、$l_p$攻撃中のキートレードオフペアを特定し、効率を高め、ロジットペアリング損失を設計し、結合精度を向上させる。 次に、勾配投影による自然訓練とATを接続し、自然訓練から有用な情報をATに発見し、組み込むことにより、精度/損耗トレードオフを緩和する。 コントリビューションを組み合わせることで,複数の$l_p$摂動に対するロバスト性を高めるために,‘textbf{RAMP}’というフレームワークを提案する。 我々は \textbf{ramp} をロバストな微調整とフル at の両方に容易に適用できることを示した。 堅牢な微調整のために、 \textbf{RAMP}は、CIFAR-10で最大53.5\%、ImageNetで最大29.7\%のユニオン精度を得る。 スクラッチからトレーニングするために、 \textbf{RAMP} は SOTA の結合精度が 4.6 %$ であり、比較的良好な清潔さは 81.2 %$ の ResNet-18 で CIFAR-10 で AutoAttack に対して達成している。

There is considerable work on improving robustness against adversarial attacks bounded by a single $l_p$ norm using adversarial training (AT). However, the multiple-norm robustness (union accuracy) of AT models is still low. We observe that simultaneously obtaining good union and clean accuracy is hard since there are tradeoffs between robustness against multiple $l_p$ perturbations, and accuracy/robustness/efficiency. By analyzing the tradeoffs from the lens of distribution shifts, we identify the key tradeoff pair among $l_p$ attacks to boost efficiency and design a logit pairing loss to improve the union accuracy. Next, we connect natural training with AT via gradient projection, to find and incorporate useful information from natural training into AT, which moderates the accuracy/robustness tradeoff. Combining our contributions, we propose a framework called \textbf{RAMP}, to boost the robustness against multiple $l_p$ perturbations. We show \textbf{RAMP} can be easily adapted for both robust fine-tuning and full AT. For robust fine-tuning, \textbf{RAMP} obtains a union accuracy up to $53.5\%$ on CIFAR-10, and $29.7\%$ on ImageNet. For training from scratch, \textbf{RAMP} achieves SOTA union accuracy of $44.6\%$ and relatively good clean accuracy of $81.2\%$ on ResNet-18 against AutoAttack on CIFAR-10.
翻訳日:2024-02-13 19:09:27 公開日:2024-02-09
# 言語によるサッカーの試合のイベント予測

Forecasting Events in Soccer Matches Through Language ( http://arxiv.org/abs/2402.06820v1 )

ライセンス: Link先を確認
Tiago Mendes-Neves, Lu\'is Meireles, Jo\~ao Mendes-Moreira(参考訳) 本稿では,大規模言語モデル(llm)が直面する問題と非常に類似した課題である,サッカーの試合における次のイベントを予測する手法を提案する。 サッカーにおけるイベントダイナミクスを厳しく制限したり、多くの変数から抽象化したり、複数のシーケンシャルモデルに依存する他の手法とは異なり、本研究はllmで使用される手法に着想を得た新しい手法を提案する。 これらのモデルは、イベントを構成する変数の完全な連鎖を予測し、サッカー用の大型イベントモデル(LEM)の構築を著しく単純化する。 WyScoutデータセットのディープラーニングを利用して、提案手法は、次のイベントタイプの予測精度など、重要な領域における以前のEM提案のパフォーマンスを特に上回る。 本稿では,ベッティングやマッチング分析など,各種アプリケーションにおけるLEMの有用性を強調した。 さらに、LEMは、多くの分析パイプラインを構築可能なシミュレーションバックボーンを提供しており、これは現在の特殊な単一目的モデルとは逆のアプローチであることを示す。 LEMはサッカー分析における重要な進歩であり、単一の機械学習モデルを通じて多面分析パイプラインの基礎となるフレームワークを確立する。

This paper introduces an approach to predicting the next event in a soccer match, a challenge bearing remarkable similarities to the problem faced by Large Language Models (LLMs). Unlike other methods that severely limit event dynamics in soccer, often abstracting from many variables or relying on a mix of sequential models, our research proposes a novel technique inspired by the methodologies used in LLMs. These models predict a complete chain of variables that compose an event, significantly simplifying the construction of Large Event Models (LEMs) for soccer. Utilizing deep learning on the publicly available WyScout dataset, the proposed approach notably surpasses the performance of previous LEM proposals in critical areas, such as the prediction accuracy of the next event type. This paper highlights the utility of LEMs in various applications, including betting and match analytics. Moreover, we show that LEMs provide a simulation backbone on which many analytics pipelines can be built, an approach opposite to the current specialized single-purpose models. LEMs represent a pivotal advancement in soccer analytics, establishing a foundational framework for multifaceted analytics pipelines through a singular machine-learning model.
翻訳日:2024-02-13 19:08:56 公開日:2024-02-09
# マルコフ決定過程の監視

Monitored Markov Decision Processes ( http://arxiv.org/abs/2402.06819v1 )

ライセンス: Link先を確認
Simone Parisi, Montaser Mohammedalamen, Alireza Kazemipour, Matthew E. Taylor, Michael Bowling(参考訳) 強化学習(RL)において、エージェントは、環境と相互作用し、その動作に対するフィードバック(数値報酬)を受け取ることによってタスクを実行することを学習する。 しかし、報酬は常に観測可能であるという仮定は実世界の問題には適用されないことが多い。 例えば、エージェントは人間に行動の監視を依頼するか、フィードバックを受け取るために監視システムを起動する必要がある。 報酬が観測可能になるまでの期間や、報酬が与えられなくなった後の期間があるかもしれない。 言い換えれば、エージェントのアクションに応じて環境が報酬を発生させる場合がありますが、エージェントはそれを観察できません。 本稿では、エージェントが常に報酬を観察できないような、新しいが一般的なRLフレームワークである監視型MDPを定式化する。 我々は,この設定の理論的および実践的な結果について議論し,玩具環境においても生じる課題を示し,新しい設定に取り組むためのアルゴリズムを提案する。 本稿では,新しい問題と既存の問題の両方を包含する強力な新しい形式主義を導入し,今後の研究の基盤を築く。

In reinforcement learning (RL), an agent learns to perform a task by interacting with an environment and receiving feedback (a numerical reward) for its actions. However, the assumption that rewards are always observable is often not applicable in real-world problems. For example, the agent may need to ask a human to supervise its actions or activate a monitoring system to receive feedback. There may even be a period of time before rewards become observable, or a period of time after which rewards are no longer given. In other words, there are cases where the environment generates rewards in response to the agent's actions but the agent cannot observe them. In this paper, we formalize a novel but general RL framework - Monitored MDPs - where the agent cannot always observe rewards. We discuss the theoretical and practical consequences of this setting, show challenges raised even in toy environments, and propose algorithms to begin to tackle this novel setting. This paper introduces a powerful new formalism that encompasses both new and existing problems and lays the foundation for future research.
翻訳日:2024-02-13 19:08:38 公開日:2024-02-09
# 新しいアンサンブル学習アルゴリズムの設計への体系的アプローチに向けて

Towards a Systematic Approach to Design New Ensemble Learning Algorithms ( http://arxiv.org/abs/2402.06818v1 )

ライセンス: Link先を確認
Jo\~ao Mendes-Moreira, Tiago Mendes-Neves(参考訳) アンサンブル学習は、予測性能を改善する可能性から機械学習研究の焦点となっている。 本研究は,1990年代以降の回帰問題に対して,歴史的にバイアス分散共分散分析に限定したアンサンブル誤り分解の基礎研究を再考する。 最近の進歩は「多様性の統一理論」を導入し、革新的なバイアス-分散-多様性分解フレームワークを提案した。 この現代的理解を活用し,本研究は,新たなアンサンブル学習アルゴリズムの創出を導くために,この分解の応用を体系的に検討する。 回帰課題に着目し,ニューラルネットワークを基礎学習者として,この理論的枠組みの実際的意義を検討する。 このアプローチでは、21の新しいアンサンブルアルゴリズムを生成するニューラルネットワークに対して、7つの単純なアンサンブル手法を使用し、それらを戦略と名付けた。 これらのうち、7つの戦略のうちの1つであるスナップショット戦略で集約されたほとんどのメソッドは、様々なデータセットで優れた予測性能を示している。 体系的設計手法は,新しいアルゴリズムの一群に寄与し,今後のアンサンブル学習アルゴリズム開発のための構造化経路を確立する。

Ensemble learning has been a focal point of machine learning research due to its potential to improve predictive performance. This study revisits the foundational work on ensemble error decomposition, historically confined to bias-variance-covariance analysis for regression problems since the 1990s. Recent advancements introduced a "unified theory of diversity," which proposes an innovative bias-variance-diversity decomposition framework. Leveraging this contemporary understanding, our research systematically explores the application of this decomposition to guide the creation of new ensemble learning algorithms. Focusing on regression tasks, we employ neural networks as base learners to investigate the practical implications of this theoretical framework. This approach used 7 simple ensemble methods, we name them strategies, for neural networks that were used to generate 21 new ensemble algorithms. Among these, most of the methods aggregated with the snapshot strategy, one of the 7 strategies used, showcase superior predictive performance across diverse datasets w.r.t. the Friedman rank test with the Conover post-hoc test. Our systematic design approach contributes a suite of effective new algorithms and establishes a structured pathway for future ensemble learning algorithm development.
翻訳日:2024-02-13 19:08:21 公開日:2024-02-09
# 微調整大イベントモデルを用いた異なる文脈におけるプレイヤー性能の推定

Estimating Player Performance in Different Contexts Using Fine-tuned Large Events Models ( http://arxiv.org/abs/2402.06815v1 )

ライセンス: Link先を確認
Tiago Mendes-Neves, Lu\'is Meireles, Jo\~ao Mendes-Moreira(参考訳) 本稿では,大規模言語モデルに類似した大規模イベントモデル(lem)をサッカー分析分野に適用する。 サッカーの"言語"を学ぶことで、単語ではなく後続のイベントの変数を予測することで、LEMはマッチのシミュレーションを促進し、異なるチームコンテキストにわたるプレイヤーのパフォーマンス予測を含むさまざまなアプリケーションを提供する。 我々は、2017-2018年のプレミアリーグシーズンのWyScoutデータセットを使って、プレーヤーのコントリビューションとチーム戦略に関する具体的な洞察を得るための微調整LEMに焦点を当てている。 提案手法は,これらのモデルを用いてサッカーのニュアンスド・ダイナミクスを反映し,仮説移動の評価を可能にする。 サッカー・アナリティクスにおけるレムの有効性と限界を明らかにし,チームの期待位置を予測し,クリシアーノ・ロナルドやライオネル・メッシをプレミアリーグの異なるチームへ転向させる効果など,著名なシナリオを探求するモデルの能力を強調した。 この分析は、プレイヤーの品質評価におけるコンテキストの重要性を強調している。 一般的なメトリクスはプレイヤー間で大きな違いを示すかもしれませんが、コンテキスト分析によって特定のチームフレームワーク内のパフォーマンスのギャップが狭くなります。

This paper introduces an innovative application of Large Event Models (LEMs), akin to Large Language Models, to the domain of soccer analytics. By learning the "language" of soccer - predicting variables for subsequent events rather than words LEMs facilitate the simulation of matches and offer various applications, including player performance prediction across different team contexts. We focus on fine-tuning LEMs with the WyScout dataset for the 2017-2018 Premier League season to derive specific insights into player contributions and team strategies. Our methodology involves adapting these models to reflect the nuanced dynamics of soccer, enabling the evaluation of hypothetical transfers. Our findings confirm the effectiveness and limitations of LEMs in soccer analytics, highlighting the model's capability to forecast teams' expected standings and explore high-profile scenarios, such as the potential effects of transferring Cristiano Ronaldo or Lionel Messi to different teams in the Premier League. This analysis underscores the importance of context in evaluating player quality. While general metrics may suggest significant differences between players, contextual analyses reveal narrower gaps in performance within specific team frameworks.
翻訳日:2024-02-13 19:08:01 公開日:2024-02-09
# 時間経過に伴う病院内死亡予測モデルの性能モニタリングのためのカルマンフィルタに基づくフレームワーク

A Kalman Filter Based Framework for Monitoring the Performance of In-Hospital Mortality Prediction Models Over Time ( http://arxiv.org/abs/2402.06812v1 )

ライセンス: Link先を確認
Jiacheng Liu, Lisa Kirkland, Jaideep Srivastava(参考訳) 臨床試験とは異なり、研究者は必要最小限の陽性と陰性のサンプルを判断したり、検証セットのサイズとクラス分布が静的で知られている機械学習の研究では、実際のシナリオでは、患者のサイズと分布についてはほとんど制御できない。 その結果,AUCROC(Area Under the Receiver Operating Curve)やArea Under the Precision-Recall Curve(AUCPR)といった評価指標は,異なる期間で測定した場合と直接比較できない。 そこで本研究では,2値分類器を長時間動作させる場合,これらの性能指標を標本サイズとクラス分布に調整し,適切な比較を2つの時間間隔で行うことを提案する。 サンプルの数とクラス分布、すなわち正のサンプルの比率は、AUCROCの分散に影響を与える2つの堅牢性因子である。 性能指標の平均値をよりよく推定し、時間とともにの性能変化を理解するために、サンプルの総数と正のサンプル数に調整された外挿分散を持つカルマンフィルタベースのフレームワークを提案する。 本手法の有効性は,2021年から2022年までの2日間の院内死亡予測モデルにおいて,まず合成データセット上で実証された。 さらに, この予測モデルは, 疾患の進化, 治療の改善, 病院の手術計画の変化にはあまり影響しないと結論づけた。

Unlike in a clinical trial, where researchers get to determine the least number of positive and negative samples required, or in a machine learning study where the size and the class distribution of the validation set is static and known, in a real-world scenario, there is little control over the size and distribution of incoming patients. As a result, when measured during different time periods, evaluation metrics like Area under the Receiver Operating Curve (AUCROC) and Area Under the Precision-Recall Curve(AUCPR) may not be directly comparable. Therefore, in this study, for binary classifiers running in a long time period, we proposed to adjust these performance metrics for sample size and class distribution, so that a fair comparison can be made between two time periods. Note that the number of samples and the class distribution, namely the ratio of positive samples, are two robustness factors which affect the variance of AUCROC. To better estimate the mean of performance metrics and understand the change of performance over time, we propose a Kalman filter based framework with extrapolated variance adjusted for the total number of samples and the number of positive samples during different time periods. The efficacy of this method is demonstrated first on a synthetic dataset and then retrospectively applied to a 2-days ahead in-hospital mortality prediction model for COVID-19 patients during 2021 and 2022. Further, we conclude that our prediction model is not significantly affected by the evolution of the disease, improved treatments and changes in hospital operational plans.
翻訳日:2024-02-13 19:07:40 公開日:2024-02-09
# Discipline and Label: データアノテーションのWEIRD系譜と社会理論

Discipline and Label: A WEIRD Genealogy and Social Theory of Data Annotation ( http://arxiv.org/abs/2402.06811v1 )

ライセンス: Link先を確認
Andrew Smart, Ding Wang, Ellis Monk, Mark D\'iaz, Atoosa Kasirzadeh, Erin Van Liemt, Sonja Schmer-Galunder(参考訳) データアノテーションは、マシンラーニングやAIとは相変わらず無関係だ。 データアノテーションに関する最近の実証研究は、データアノテーション作業者の作業状況、ラベルに対するアノテータの主観性の影響、そして、アノテーション作業の側面から潜在的心理的害について、レーダの多様性の重要性、モデルパフォーマンス、新しい研究ラインが注目され始めている。 本稿では,その心理的・知覚的側面から,データアノテーションの批判的系譜を概説する。 我々は,1970年代にコンピュータ実験による心理学実験が盛んになったことの批判と類似点について考察し,これらの実験が実験室の環境を超えて実験結果の一般化を可能にするかどうかを疑問視する。 データアノテーションは、取得した設定や場所を超えた結果の一般化を可能にしますか? 心理学は、西洋、教育、工業化、富裕化、民主社会(WEIRD)の参加者に過度に依存している。 しかし、データアノテーションプラットフォームワーカーとして働いている人々の多くは、奇妙な国出身ではない。 WEIRD諸国の社会的分類と分類は、非WEIRDアノテータに対して命令やタスクを通じて、そしてそれらを通じてデータに基づいて課され、WEIRD諸国のAIモデルを訓練または評価するために使用される。 我々は最近の研究のいくつかの行から証拠を合成し、データアノテーションは時代遅れで静的な社会カテゴリーが実際に動的かつ変化するリスクを負う、自動的な社会分類の一形態であると主張している。 本稿では,データアノテーション作業の主観的現象論的経験から,データアノテーションのグローバルな社会的条件の相互作用を理解するための枠組みを提案する。

Data annotation remains the sine qua non of machine learning and AI. Recent empirical work on data annotation has begun to highlight the importance of rater diversity for fairness, model performance, and new lines of research have begun to examine the working conditions for data annotation workers, the impacts and role of annotator subjectivity on labels, and the potential psychological harms from aspects of annotation work. This paper outlines a critical genealogy of data annotation; starting with its psychological and perceptual aspects. We draw on similarities with critiques of the rise of computerized lab-based psychological experiments in the 1970's which question whether these experiments permit the generalization of results beyond the laboratory settings within which these results are typically obtained. Do data annotations permit the generalization of results beyond the settings, or locations, in which they were obtained? Psychology is overly reliant on participants from Western, Educated, Industrialized, Rich, and Democratic societies (WEIRD). Many of the people who work as data annotation platform workers, however, are not from WEIRD countries; most data annotation workers are based in Global South countries. Social categorizations and classifications from WEIRD countries are imposed on non-WEIRD annotators through instructions and tasks, and through them, on data, which is then used to train or evaluate AI models in WEIRD countries. We synthesize evidence from several recent lines of research and argue that data annotation is a form of automated social categorization that risks entrenching outdated and static social categories that are in reality dynamic and changing. We propose a framework for understanding the interplay of the global social conditions of data annotation with the subjective phenomenological experience of data annotation work.
翻訳日:2024-02-13 19:07:14 公開日:2024-02-09
# 総情報フローを用いた共起性評価

Evaluating Co-Creativity using Total Information Flow ( http://arxiv.org/abs/2402.06810v1 )

ライセンス: Link先を確認
Vignesh Gokul, Chris Francis, Shlomo Dubnov(参考訳) 音楽におけるコ・クリエーション(co-creativity)とは、音楽の作曲や即興で相互に相互作用する2人以上の音楽家または音楽家を指す。 しかし、これは非常に主観的なプロセスであり、それぞれのミュージシャンは、どの即興がいくつかの文脈において良いかという独自の好みを持っている。 本稿では,音楽の共創造過程を定量的に評価するために,全情報フローに基づく尺度を作成することを目的とする。 言い換えれば、我々の測度は創造的な音楽過程がいかに「良い」かを示すものである。 我々の主な仮説は、優れた音楽創造が、別のトラックで録音された音楽の音声によって得られた参加者間の情報の流れを最大化するということである。 エントロピー推定器として事前学習した生成モデルを用いて情報フローを計算する手法を提案する。 定性的研究を用いて,人間の知覚とどのように一致するかを示す。

Co-creativity in music refers to two or more musicians or musical agents interacting with one another by composing or improvising music. However, this is a very subjective process and each musician has their own preference as to which improvisation is better for some context. In this paper, we aim to create a measure based on total information flow to quantitatively evaluate the co-creativity process in music. In other words, our measure is an indication of how "good" a creative musical process is. Our main hypothesis is that a good musical creation would maximize information flow between the participants captured by music voices recorded in separate tracks. We propose a method to compute the information flow using pre-trained generative models as entropy estimators. We demonstrate how our method matches with human perception using a qualitative study.
翻訳日:2024-02-13 19:06:45 公開日:2024-02-09
# 擬似ラベルを用いたドメイン適応

Domain Adaptation Using Pseudo Labels ( http://arxiv.org/abs/2402.06809v1 )

ライセンス: Link先を確認
Sachin Chhabra, Hemanth Venkateswara and Baoxin Li(参考訳) ラベル付きターゲットデータがない場合、教師なしのドメイン適応アプローチは、ターゲットの分類器を訓練するために、ソースとターゲットドメインの限界分布を調整することを求める。 教師なしドメインアライメント手順はカテゴリに依存しず、最終的にカテゴリを誤認する。 我々は,複数段階の擬似ラベル修正手法を用いて,対象ドメインの正確なラベルを決定するために事前学習ネットワークを配置することでこの問題に対処する。 フィルタは疑似ラベルの信頼性、距離(整合性)、一貫性に基づいている。 複数のデータセットに対する結果から, 複雑な最先端技術と比較して, 簡単な手順の有効性が示された。

In the absence of labeled target data, unsupervised domain adaptation approaches seek to align the marginal distributions of the source and target domains in order to train a classifier for the target. Unsupervised domain alignment procedures are category-agnostic and end up misaligning the categories. We address this problem by deploying a pretrained network to determine accurate labels for the target domain using a multi-stage pseudo-label refinement procedure. The filters are based on the confidence, distance (conformity), and consistency of the pseudo labels. Our results on multiple datasets demonstrate the effectiveness of our simple procedure in comparison with complex state-of-the-art techniques.
翻訳日:2024-02-13 19:06:21 公開日:2024-02-09
# 臨床劣化予測のための変動時系列モデルにおける予測の明示的変動

Explain Variance of Prediction in Variational Time Series Models for Clinical Deterioration Prediction ( http://arxiv.org/abs/2402.06808v1 )

ライセンス: Link先を確認
Jiacheng Liu and Jaideep Srivastava(参考訳) ヘルスケアでは、多くのモデルに依存しない手法のおかげで、ディープラーニングアプリケーションによる予測スコアの説明性が向上した。 しかし, 病院内患者の劣化予測の1日または1時間当たりのリスクについては, 予測されるリスク確率スコアだけでなく, リスクスコアのばらつきが臨床意思決定に重要な役割を果たすことに留意した。 本稿では,デルタ法を用いて予測の分散を決定論的に近似し,SHAP法を用いて分散の寄与を推定する手法を提案する。 変動モデルにおける条件付き隠れ空間をサンプリングして予測分散を推定し、分散ゲームのシェープリー値に基づいて臨床変数を入力に伝達する。 このアプローチは、変分繰り返しニューラルネットワークや変分変換器などの変分時系列モデルで動作する。 さらに, 変分時系列モデルは, 公的な臨床icuデータセット上での一連の実験を通じて, 予測力と説明可能性のバランスをとるのに最適であると主張する。 また, SHAP値が付加的であるため, 予測変動に対する臨床変数のSHAPの重要性は, 測定頻度を導くことを示唆している。

In healthcare, thanks to many model agnostic methods, explainability of the prediction scores made by deep learning applications has improved. However, we note that for daily or hourly risk of deterioration prediction of in-hospital patients, not only the predicted risk probability score matters, but also the variance of the risk scores play key roles in aiding clinical decision making. In this paper, we propose to use delta's method to approximate variance of prediction deterministically, such that the SHAP method can be adopted to attribute contribution of variance. The prediction variance is estimated by sampling the conditional hidden space in variational models and is propagated to input clinical variables based on Shapley values of the variance game. This approach works with variational time series models such as variational recurrent neural networks and variational transformers. We further argue that variational time series models are perfect fits for achieving a balance between predictive power and explainability through a series of experiments on a public clinical ICU datasets. Since SHAP values are additive, we also postulate that the SHAP importance of clinical variables with respect to prediction variations can guide their frequency of measurements.
翻訳日:2024-02-13 19:06:06 公開日:2024-02-09
# 相互に分類・生成する:同時正定値学習と余剰データを用いた条件生成

Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled Learning and Conditional Generation with Extra Data ( http://arxiv.org/abs/2006.07841v2 )

ライセンス: Link先を確認
Bing Yu, Ke Sun, He Wang, Zhouchen Lin, Zhanxing Zhu(参考訳) クラスラベルデータの不足は、多くの機械学習問題においてユビキタスなボトルネックである。 豊富なラベルのないデータは一般的に存在し、潜在的な解決策を提供するが、それらを利用するのは極めて困難である。 本稿では,この問題に対して余分なラベル付きデータ \emph{simultaneally} を用いた正のラベル付き~(pu) 分類と条件付き生成を用いることで解決する。 特に、余分なデータ、特にアウト・オブ・ディストリビューション・アンラベルデータに晒された場合、PU分類と条件生成の両方を共同でターゲットとする新たなトレーニングフレームワークを提案する。 1) 雑音ラベルに頑健な新しい分類器-雑音不変条件GAN~(CNI-CGAN)によるPU分類器の性能向上。 2) pu分類器から予測ラベルによる余分なデータを活用して生成を支援する。 理論的には, cni-cganの最適条件を証明し, 実験により多様なデータセットについて広範な評価を行い, 分類と生成の両方における同時改善の検証を行った。

The scarcity of class-labeled data is a ubiquitous bottleneck in many machine learning problems. While abundant unlabeled data typically exist and provide a potential solution, it is highly challenging to exploit them. In this paper, we address this problem by leveraging Positive-Unlabeled~(PU) classification and the conditional generation with extra unlabeled data \emph{simultaneously}. In particular, we present a novel training framework to jointly target both PU classification and conditional generation when exposed to extra data, especially out-of-distribution unlabeled data, by exploring the interplay between them: 1) enhancing the performance of PU classifiers with the assistance of a novel Classifier-Noise-Invariant Conditional GAN~(CNI-CGAN) that is robust to noisy labels, 2) leveraging extra data with predicted labels from a PU classifier to help the generation. Theoretically, we prove the optimal condition of CNI-CGAN, and experimentally, we conducted extensive evaluations on diverse datasets, verifying the simultaneous improvements in both classification and generation.
翻訳日:2024-02-12 21:36:28 公開日:2024-02-09
# 自発的重ね合わせ分解と光子検出器絡み合いを有する量子古典相転移

Quantum-classical phase transition with spontaneous superposition breaking and photon-detector entanglement ( http://arxiv.org/abs/1007.2538v8 )

ライセンス: Link先を確認
Vladan Pankovic(参考訳) 本研究では、ビームスプリッタにおける(光子軌道検出の有無に関わらず)1つまたは2つの(偏極または非偏極)光子干渉の様々な実験、特に光子とフォトニックプレート(および類似)光子座標検出器間の量子力学的相互作用、または一般に光子検出器の絡み合い存在について考察する(schr\"odinger cat effect)。 これは実験的な事実と完全に一致しており、最終的な検出手順(崩壊)が絶対的(力学的)な性質を持つ必要はなく、自発的(非力学)ユニタリ対称性(重ね合わせ)破壊(効果的な隠れ)を伴う量子古典的連続相転移を表していることを認めている。 (現実的には、崩壊は自然対称性の一般的な定式化の特別な場合と見なすことができ、例えば、剛体の弾性、強磁性の量子論、電弱相互作用の量子論、カオス的なインフレーション宇宙論など、物理学の多くの異なる領域における応用、例えば絶対崩壊はある種のゴールドストーン粒子に相当する)。 これら全ては、量子力学の基礎問題の単純な解である。

In this work we consider various experiments of single or two (polarized or non-polarized) photon interference at beam splitter (with or without photon trajectories detection) and especially we consider quantum dynamical interaction between photon and photographic plate (and similar) photon coordinate detector or generally speaking photon-detector entanglement existence (Schr\"odinger cat effect). It, in full agreement with experimental facts, admits that final detection procedure (collapse) has not necessarily any absolute (dynamical) character but that it represents a quantum-classical continuous phase transition with spontaneous (non-dynamical) unitary symmetry (superposition) breaking (effective hiding). (Practically, collapse can be considered as an especial case of the general formalism of spontaneous symmetry breaking with applications in many different domains of the physics, e.g. in elasticity of rigid bodies, quantum theory of ferromagnetism, quantum theory of electro-weak interactions as well as in chaotic inflation cosmology, while absolute collapse corresponds to some kind of Goldstone boson.) All this admits simple solution of the quantum mechanics foundation problem.
翻訳日:2024-02-12 21:36:09 公開日:2024-02-09
# 強化学習における局所制約表現

Locally Constrained Representations in Reinforcement Learning ( http://arxiv.org/abs/2209.09441v2 )

ライセンス: Link先を確認
Somjit Nath, Rushiv Arora and Samira Ebrahimi Kahou(参考訳) 強化学習(rl)の成功は、環境の観察から堅牢な表現を学ぶ能力に大きく依存している。 ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。 しかし、学んだ表現は、目の前のタスクにあまり具体的ではない。 RL の目的にのみ依存すると、連続する時間ステップで大きく異なる表現が得られる。 さらに、rl損失はターゲットが変化するため、学習した表現は現在の値や政治家の良さに依存します。 したがって、メインタスクから表現を遠ざけることで、タスク固有の機能だけでなく、環境ダイナミクスにもフォーカスできるようになる。 この目的のために、補助的損失により状態表現が隣接状態の表現によって予測可能となる局所的制約付き表現を提案する。 これにより、表現は、価値/政治学習だけでなく、表現の過剰フィットから価値損失までを制約する追加の損失によって駆動されるようになる。 提案手法をいくつかの既知のベンチマークで評価し,高い性能を示す。 特に連続制御タスクでは,実験により著しい性能改善が見られた。

The success of Reinforcement Learning (RL) heavily relies on the ability to learn robust representations from the observations of the environment. In most cases, the representations learned purely by the reinforcement learning loss can differ vastly across states depending on how the value functions change. However, the representations learned need not be very specific to the task at hand. Relying only on the RL objective may yield representations that vary greatly across successive time steps. In addition, since the RL loss has a changing target, the representations learned would depend on how good the current values/policies are. Thus, disentangling the representations from the main task would allow them to focus not only on the task-specific features but also the environment dynamics. To this end, we propose locally constrained representations, where an auxiliary loss forces the state representations to be predictable by the representations of the neighboring states. This encourages the representations to be driven not only by the value/policy learning but also by an additional loss that constrains the representations from over-fitting to the value loss. We evaluate the proposed method on several known benchmarks and observe strong performance. Especially in continuous control tasks, our experiments show a significant performance improvement.
翻訳日:2024-02-12 21:32:53 公開日:2024-02-09
# ALEXSIS-PT:ポルトガルの語彙単純化のための新しいリソース

ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification ( http://arxiv.org/abs/2209.09034v2 )

ライセンス: Link先を確認
Kai North, Marcos Zampieri, Tharindu Ranasinghe(参考訳) lexical simplification (ls) は、複雑な単語を自動的に置き換えて、テキストをさまざまなターゲット集団(リテラシーの低い個人、学習障害を持つ個人、第二言語学習者など)に使いやすくするタスクである。 モデルのトレーニングとテストには、LSシステムは通常、複雑な単語をコンテキストに含むコーパスと、候補の置換を必要とする。 ALEXSIS-PTは387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。 ALEXSIS-PTは、スペイン語のALEXSISプロトコルに従ってコンパイルされ、言語横断モデルのためのエキサイティングな新しい道を開いた。 ALEXSIS-PTは、ブラジルの新聞記事を含む最初のLSマルチ候補データセットである。 本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルについて検討した。 BERTimbauはすべての評価指標で最高のパフォーマンスを達成した。

Lexical simplification (LS) is the task of automatically replacing complex words for easier ones making texts more accessible to various target populations (e.g. individuals with low literacy, individuals with learning disabilities, second language learners). To train and test models, LS systems usually require corpora that feature complex words in context along with their candidate substitutions. To continue improving the performance of LS systems we introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT has been compiled following the ALEXSIS protocol for Spanish opening exciting new avenues for cross-lingual models. ALEXSIS-PT is the first LS multi-candidate dataset that contains Brazilian newspaper articles. We evaluated four models for substitute generation on this dataset, namely mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest performance across all evaluation metrics.
翻訳日:2024-02-12 21:32:35 公開日:2024-02-09
# 時空多様体の存在の操作的検証

Operational verification of the existence of a spacetime manifold ( http://arxiv.org/abs/2209.04783v2 )

ライセンス: Link先を確認
Nikola Paunkovic and Marko Vojinovic(参考訳) 我々は、空間と時間の概念の客観的現実を確立するための運用方法が存在すると論じる。 具体的には、時空多様体の可観測性を確立する信号として、その存在を前提にしないゲダンケン実験のための理論非依存なプロトコルを提案する。 実験信号は時空の次元と位相に関する情報を含み(現在達成可能な精度を持つ)、その基礎となる微分同相対称性を尊重しながら多様体構造を確立する。 我々はまた、時空がより基本的な概念から現れると主張するためには、物理学の仮理論モデルが満たさなければならない時空の出現の概念に関する適切な基準を紹介し、議論する。

We argue that there exists an operational way to establish the objective reality of the notions of space and time. Specifically, we propose a theory-independent protocol for a gedanken-experiment, whose outcome is a signal establishing the observability of the spacetime manifold, without a priori assuming its existence. The experimental signal contains the information about the dimension and the topology of spacetime (with the currently achievable precision), and establishes its manifold structure, while respecting its underlying diffeomorphism symmetry. We also introduce and discuss appropriate criteria for the concept of emergence of spacetime, which any tentative theoretical model of physics must satisfy in order to claim that spacetime does emerge from some more fundamental concepts.
翻訳日:2024-02-12 21:32:14 公開日:2024-02-09
# マニフォールド仮説の統計的探索

Statistical exploration of the Manifold Hypothesis ( http://arxiv.org/abs/2208.11665v4 )

ライセンス: Link先を確認
Nick Whiteley, Annie Gray, Patrick Rubin-Delanchy(参考訳) 多様体仮説は機械学習において広く受け入れられている理論であり、名目上高次元データは実際には高次元空間に埋め込まれた低次元多様体の近くに集中していると主張する。 この現象は多くの現実世界の状況で実証的に観察され、ここ数十年で幅広い統計手法が開発され、現代のAI技術の成功の重要な要因として示唆されている。 データのリッチかつ複雑な多様体構造は、潜在変数、相関、定常性といった基本的な概念によって、総称的かつ驚くほど単純な統計モデル(潜在計量モデル)から生じうることを示す。 このことは、なぜマニフォールド仮説がこれほど多くの状況で成り立つのかという一般的な統計的説明を確立している。 潜在計量モデルによってインフォームドされ、高次元データの幾何学を発見し解釈し、データ生成機構に関する仮説を探求する手順を導出する。 これらの手順は最小限の仮定の下で動作し、よく知られたスケール可能なグラフ解析アルゴリズムを利用する。

The Manifold Hypothesis is a widely accepted tenet of Machine Learning which asserts that nominally high-dimensional data are in fact concentrated near a low-dimensional manifold, embedded in high-dimensional space. This phenomenon is observed empirically in many real world situations, has led to development of a wide range of statistical methods in the last few decades, and has been suggested as a key factor in the success of modern AI technologies. We show that rich and sometimes intricate manifold structure in data can emerge from a generic and remarkably simple statistical model -- the Latent Metric Model -- via elementary concepts such as latent variables, correlation and stationarity. This establishes a general statistical explanation for why the Manifold Hypothesis seems to hold in so many situations. Informed by the Latent Metric Model we derive procedures to discover and interpret the geometry of high-dimensional data, and explore hypotheses about the data generating mechanism. These procedures operate under minimal assumptions and make use of well known, scaleable graph-analytic algorithms.
翻訳日:2024-02-12 21:32:03 公開日:2024-02-09
# ラデマッハ複雑性に基づく深層学習のための一般化境界について

On Rademacher Complexity-based Generalization Bounds for Deep Learning ( http://arxiv.org/abs/2208.04284v2 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) Rademacherの複雑性に基づくアプローチは、少数の画像のクラスを分類するために、畳み込みニューラルネットワーク(CNN)上の非空の一般化バウンダリを生成することができる。 一般リプシッツ活性化関数に対する関数空間とCNNの間の高次元写像のための新しいタラグランド縮約補題の開発は重要な技術的貢献である。 以上の結果から,ラデマッハ複雑性は,relu, leaky relu,parametric rectifier linear unit,sgmoid,tanhなどの特殊タイプのアクティベーション関数を持つcnnのネットワーク長に依存しないことがわかった。

We show that the Rademacher complexity-based approach can generate non-vacuous generalisation bounds on Convolutional Neural Networks (CNNs) for classifying a small number of classes of images. The development of new Talagrand's contraction lemmas for high-dimensional mappings between function spaces and CNNs for general Lipschitz activation functions is a key technical contribution. Our results show that the Rademacher complexity does not depend on the network length for CNNs with some special types of activation functions such as ReLU, Leaky ReLU, Parametric Rectifier Linear Unit, Sigmoid, and Tanh.
翻訳日:2024-02-12 21:31:16 公開日:2024-02-09
# 視野を超えて:エコーと視覚で3D環境を知覚する

Beyond Visual Field of View: Perceiving 3D Environment with Echoes and Vision ( http://arxiv.org/abs/2207.01136v2 )

ライセンス: Link先を確認
Lingyu Zhu, Esa Rahtu, Hang Zhao(参考訳) 本稿では,エコーとRGB画像を用いた3次元環境の知覚とナビゲーションに焦点を当てた。 特に,複数の方向から受信したエコーを用いたrgb画像を用いて深度推定を行う。 これまでの研究とは異なり、rgbの視野を超えて、環境のかなり大きな部分の密集した深さマップを推定します。 エコーは,rgb像を補完する3次元構造について,総括的かつ非拡張的な情報を提供する。 さらに,ロボットナビゲーションにおいてエコーと広視野深度マップをどのように利用できるかを検討した。 本研究では,現実的な3次元環境であるreplicaとmatterport3dを用いて,提案手法と最近のベースラインを比較した。 実装と事前訓練されたモデルは公開されます。

This paper focuses on perceiving and navigating 3D environments using echoes and RGB image. In particular, we perform depth estimation by fusing RGB image with echoes, received from multiple orientations. Unlike previous works, we go beyond the field of view of the RGB and estimate dense depth maps for substantially larger parts of the environment. We show that the echoes provide holistic and in-expensive information about the 3D structures complementing the RGB image. Moreover, we study how echoes and the wide field-of-view depth maps can be utilised in robot navigation. We compare the proposed methods against recent baselines using two sets of challenging realistic 3D environments: Replica and Matterport3D. The implementation and pre-trained models will be made publicly available.
翻訳日:2024-02-12 21:31:06 公開日:2024-02-09
# 生体エラー訂正符号からの耐故障性ニューラルネットワーク

Fault-Tolerant Neural Networks from Biological Error Correction Codes ( http://arxiv.org/abs/2202.12887v3 )

ライセンス: Link先を確認
Alexander Zlokapa, Andrew K. Tan, John M. Martyn, Ila R. Fiete, Max Tegmark, Isaac L. Chuang(参考訳) フォールトトレラントな計算が可能であるかどうかは、ディープラーニングにおいてオープンな問題である。 哺乳類大脳皮質の格子細胞では、アナログ誤り訂正符号が神経スパイクノイズから状態を保護するために観測されているが、情報処理におけるそれらの役割は不明である。 本稿では,これらの生物学的誤り訂正符号を用いて,各ニューロンの故障度が鋭い閾値以下であれば,信頼性の高い計算を実現する普遍的フォールトトレラントニューラルネットワークを開発した。 障害からフォールトトレラントな神経計算への位相遷移の発見は、大脳皮質における信頼できる計算のメカニズムを示し、人工知能やニューロモルフィックコンピューティングに関連するノイズの多いアナログシステムを理解する道を開く。

It has been an open question in deep learning if fault-tolerant computation is possible: can arbitrarily reliable computation be achieved using only unreliable neurons? In the grid cells of the mammalian cortex, analog error correction codes have been observed to protect states against neural spiking noise, but their role in information processing is unclear. Here, we use these biological error correction codes to develop a universal fault-tolerant neural network that achieves reliable computation if the faultiness of each neuron lies below a sharp threshold; remarkably, we find that noisy biological neurons fall below this threshold. The discovery of a phase transition from faulty to fault-tolerant neural computation suggests a mechanism for reliable computation in the cortex and opens a path towards understanding noisy analog systems relevant to artificial intelligence and neuromorphic computing.
翻訳日:2024-02-12 21:30:44 公開日:2024-02-09
# より一般化された悪質URL検出モデルを目指して

Toward More Generalized Malicious URL Detection Models ( http://arxiv.org/abs/2202.10027v2 )

ライセンス: Link先を確認
YunDa Tsai, Cayon Liow, Yin Sheng Siang, Shou-De Lin(参考訳) 本稿では,悪意のあるurl検出のための機械学習モデルを実施しながら,その性能に重大な影響を及ぼすデータバイアス問題を明らかにする。 我々は,このようなバイアスを解釈可能な機械学習手法を用いて識別する方法を説明し,さらに,分類モデルのトレーニングのための実世界のセキュリティデータには,このようなバイアスが自然に存在すると主張する。 次に,多くのディープラーニングモデルに適用可能な偏りのない学習戦略を提案し,偏りのある特徴から悪影響を緩和する。 このソリューションは、偏りのあるデータから不変な埋め込みを学習するディープニューラルネットワークを訓練するための自己教師付き敵訓練の技術に基づいている。 我々は,提案手法がCNNベースおよびRNNベース両方の検出モデルに対して,より優れた一般化能力をもたらすことを示すため,幅広い実験を行った。

This paper reveals a data bias issue that can severely affect the performance while conducting a machine learning model for malicious URL detection. We describe how such bias can be identified using interpretable machine learning techniques, and further argue that such biases naturally exist in the real world security data for training a classification model. We then propose a debiased training strategy that can be applied to most deep-learning based models to alleviate the negative effects from the biased features. The solution is based on the technique of self-supervised adversarial training to train deep neural networks learning invariant embedding from biased data. We conduct a wide range of experiments to demonstrate that the proposed strategy can lead to significantly better generalization capability for both CNN-based and RNN-based detection models.
翻訳日:2024-02-12 21:30:28 公開日:2024-02-09
# 量子コンピュータにおける量子プロセストモグラフィの古典的影

Classical Shadows for Quantum Process Tomography on Near-term Quantum Computers ( http://arxiv.org/abs/2110.02965v3 )

ライセンス: Link先を確認
Ryan Levy, Di Luo, Bryan K. Clark(参考訳) 量子プロセストモグラフィーは、量子チャネルを理解し、量子デバイスの特性を特徴づける強力なツールである。 量子状態トモグラフィにおける古典影を用いた最近の進歩 [h.-y. huang, r. kueng, j. preskill, nat. phys. 16, 1050 (2020).] に触発されて, 量子過程トモグラフィのための古典影法shadowqptを開発した。 アンシラ量子ビットを伴わない2つの関連する定式化を導入する。 シャドウQPTは、任意の出力に対する任意の入力に対して、デバイスの後続の古典的な評価を可能にするデバイスのチェ行列を確率的に再構成する。 シャドウを使ってオーバーラップを計算する方法を示し、k$-weightの削減プロセスを生成し、ハミルトン学習による再構築を行います。 後者の2つのタスクは、量子測定に必要な数を量子ビット数と対数的にしかスケールしないため、大規模システムでは効率的である。 量子チャネルの復元精度を著しく向上させる一連の後処理技術やペア分解クリフォードシャドーの使用など、さらに多くの近似や改善がなされている。 我々は,n=4$ qubitsまでの量子プロセスのためのionqトラップイオン量子コンピュータのpauliとcliffordを用いてshadowqptを実装し,良好な性能を得た。

Quantum process tomography is a powerful tool for understanding quantum channels and characterizing properties of quantum devices. Inspired by recent advances using classical shadows in quantum state tomography [H.-Y. Huang, R. Kueng, and J. Preskill, Nat. Phys. 16, 1050 (2020).], we have developed ShadowQPT, a classical shadow method for quantum process tomography. We introduce two related formulations with and without ancilla qubits. ShadowQPT stochastically reconstructs the Choi matrix of the device allowing for an a-posteri classical evaluation of the device on arbitrary inputs with respect to arbitrary outputs. Using shadows we then show how to compute overlaps, generate all $k$-weight reduced processes, and perform reconstruction via Hamiltonian learning. These latter two tasks are efficient for large systems as the number of quantum measurements needed scales only logarithmically with the number of qubits. A number of additional approximations and improvements are developed including the use of a pair-factorized Clifford shadow and a series of post-processing techniques which significantly enhance the accuracy for recovering the quantum channel. We have implemented ShadowQPT using both Pauli and Clifford measurements on the IonQ trapped ion quantum computer for quantum processes up to $n=4$ qubits and achieved good performance.
翻訳日:2024-02-12 21:30:15 公開日:2024-02-09
# ブール比

Boolean proportions ( http://arxiv.org/abs/2109.00388v6 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。 本稿では,2つの元素0と1からなるブール領域の類似比について検討する。 私たちのブール比例の概念は、異なる設定の文学の2つの顕著なモデルと一致することがわかりました。 これは、数学的に魅力的であり、一般的なフレームワークのロバスト性と適用性に関するさらなる証拠を提供する単一のフレームワーク内で、ブール比率の2つの別々のモデリングをキャプチャできることを意味する。

The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. This paper studies analogical proportions in the boolean domain consisting of two elements 0 and 1 within his framework. It turns out that our notion of boolean proportions coincides with two prominent models from the literature in different settings. This means that we can capture two separate modellings of boolean proportions within a single framework which is mathematically appealing and provides further evidence for the robustness and applicability of the general framework.
翻訳日:2024-02-12 21:29:45 公開日:2024-02-09
# フレキシブル数値最適化のためのensmallenライブラリ

The ensmallen library for flexible numerical optimization ( http://arxiv.org/abs/2108.12981v2 )

ライセンス: Link先を確認
Ryan R. Curtin, Marcus Edel, Rahul Ganesh Prabhu, Suryoday Basak, Zhihao Lou, Conrad Sanderson(参考訳) このライブラリは、ユーザ供給対象関数の数学的最適化のための柔軟なC++フレームワークを提供する。 汎用関数、微分可能関数、分離可能関数、制約関数、分類関数など、多くの型がサポートされている。 準ニュートンオプティマイザやStochastic Gradient Descentの多くの変種を含む、様々なプレビルドオプティマイザが提供されている。 基盤となるフレームワークは、新しいオプティマイザの実装を促進する。 目的関数の最適化は通常、1つまたは2つのc++関数の供給のみを必要とする。 カスタムの振る舞いはコールバック関数経由で簡単に指定できる。 実証的な比較では、エンサイズが他のフレームワークより優れており、より多くの機能を提供している。 このライブラリはhttps://ensmallen.orgで利用可能であり、パーミッシブBSDライセンスの下で配布されている。

We overview the ensmallen numerical optimization library, which provides a flexible C++ framework for mathematical optimization of user-supplied objective functions. Many types of objective functions are supported, including general, differentiable, separable, constrained, and categorical. A diverse set of pre-built optimizers is provided, including Quasi-Newton optimizers and many variants of Stochastic Gradient Descent. The underlying framework facilitates the implementation of new optimizers. Optimization of an objective function typically requires supplying only one or two C++ functions. Custom behavior can be easily specified via callback functions. Empirical comparisons show that ensmallen outperforms other frameworks while providing more functionality. The library is available at https://ensmallen.org and is distributed under the permissive BSD license.
翻訳日:2024-02-12 21:29:37 公開日:2024-02-09
# 符号化理論とクロスバリデーションの関連とその応用

A Link between Coding Theory and Cross-Validation with Applications ( http://arxiv.org/abs/2103.11856v3 )

ライセンス: Link先を確認
Tapio Pahikkala, Parisa Movahedi, Ileana Montoya, Havu Miikonen, Stephan Foldes, Antti Airola, Laszlo Major(参考訳) 1つの学習アルゴリズムが、正確にゼロまたは最も多く与えられたクロスバリデーションエラーを持つ固定データに対して、何つの異なるバイナリ分類問題を解くことができるのか? 前者の場合の数はno-free-lunch定理によって制限されていることが知られているが、正確な答えは誤り検出符号の理論によって与えられる。 ケーススタディでは、AUCのパフォーマンス測定と、異なるクラスラベルを持つすべての可能なデータを同時に保持するLPOCV(Left-pair-out Cross-validation)に焦点を当てる。 学習アルゴリズムがゼロのLPOCV誤差を達成できる固定クラス比を持つ分類問題の最大個数は、一定重み付き符号(CWC)におけるコードワードの最大個数と一定の技術的特性で等しいことを示す。 次に、CWCを光CWCを導入して一般化し、非ゼロのLPOCV誤差と光CWCに類似した結果を示す。 さらに、光cwcにおける符号語の最大数上の上限と下限の両方を証明する。 最後に,従来のWilcoxon-Mann-Whitney U 試験を一般化する学習アルゴリズムのための LPOCV ベースの新しいランダム化テストを開発した。

How many different binary classification problems a single learning algorithm can solve on a fixed data with exactly zero or at most a given number of cross-validation errors? While the number in the former case is known to be limited by the no-free-lunch theorem, we show that the exact answers are given by the theory of error detecting codes. As a case study, we focus on the AUC performance measure and leave-pair-out cross-validation (LPOCV), in which every possible pair of data with different class labels is held out at a time. We show that the maximal number of classification problems with fixed class proportion, for which a learning algorithm can achieve zero LPOCV error, equals the maximal number of code words in a constant weight code (CWC), with certain technical properties. We then generalize CWCs by introducing light CWCs, and prove an analogous result for nonzero LPOCV errors and light CWCs. Moreover, we prove both upper and lower bounds on the maximal numbers of code words in light CWCs. Finally, as an immediate practical application, we develop new LPOCV based randomization tests for learning algorithms that generalize the classical Wilcoxon-Mann-Whitney U test.
翻訳日:2024-02-12 21:29:27 公開日:2024-02-09
# 非線形制御理論による深層残留ニューラルネットワークの普遍近似パワー

Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory ( http://arxiv.org/abs/2007.06007v4 )

ライセンス: Link先を確認
Paulo Tabuada and Bahman Gharesifard(参考訳) 本稿では,幾何非線形制御による深層残留ニューラルネットワークの普遍近似能力について述べる。 残差ネットワークと制御システムとのリンクを確立する最近の研究に触発されて、残差ネットワークが活性化関数、あるいはその導関数の1つに二次微分方程式を満たすことによって普遍近似の力を持つための一般的な十分条件を提供する。 実際に用いられる多くの活性化関数はこの仮定を正確にあるいはほぼ満たしており、この性質は、コンパクトな集合と上限ノルムに関して、$\mathbb{R}^n$ から $\mathbb{R}^n$ までの任意の連続函数において、各層に$n+1$のニューロンを持つ適切な深層ニューラルネットワークに対して、任意に近似するのに十分であることを示す。 さらに、重み付けが2つの値を仮定するだけでよい非常に単純なアーキテクチャについて、この結果を示す。 最初の重要な技術的貢献は、普遍近似問題を残留ネットワークに対応する制御系のアンサンブルの制御可能性に関連付け、古典的なリー代数的手法を利用して制御可能性を特徴づけることである。 2つ目の技術的貢献は、有限アンサンブルの可制御性とコンパクト集合上の一様近似の間の橋渡しとして単調性を特定することである。

In this paper, we explain the universal approximation capabilities of deep residual neural networks through geometric nonlinear control. Inspired by recent work establishing links between residual networks and control systems, we provide a general sufficient condition for a residual network to have the power of universal approximation by asking the activation function, or one of its derivatives, to satisfy a quadratic differential equation. Many activation functions used in practice satisfy this assumption, exactly or approximately, and we show this property to be sufficient for an adequately deep neural network with $n+1$ neurons per layer to approximate arbitrarily well, on a compact set and with respect to the supremum norm, any continuous function from $\mathbb{R}^n$ to $\mathbb{R}^n$. We further show this result to hold for very simple architectures for which the weights only need to assume two values. The first key technical contribution consists of relating the universal approximation problem to controllability of an ensemble of control systems corresponding to a residual network and to leverage classical Lie algebraic techniques to characterize controllability. The second technical contribution is to identify monotonicity as the bridge between controllability of finite ensembles and uniform approximability on compact sets.
翻訳日:2024-02-12 21:29:07 公開日:2024-02-09
# 時空効率の低い量子状態と応用

Spacetime-Efficient Low-Depth Quantum State Preparation with Applications ( http://arxiv.org/abs/2303.02131v3 )

ライセンス: Link先を確認
Kaiwen Gui, Alexander M. Dalzell, Alessandro Achille, Martin Suchara, Frederic T. Chong(参考訳) 任意の量子状態を生成するための新しい決定論的手法を提案する。 我々のプロトコルがCNOTおよび任意の単一キュービットゲートにコンパイルされると、深さ$O(\log(N))$と時空割り当て(アンシラ量子ビットが回路全体に対してアクティブでなくてもよいという事実を考慮に入れたメトリクス)$O(N)$が作成され、どちらも最適である。 $\{\mathrm{H,S,T,CNOT}\}$ gate set にコンパイルされると、従来の方法よりも漸近的に少ない量子資源が必要であることを示す。 具体的には、最適な深さが$O(\log(N) + \log (1/\epsilon))$と時空割当$O(N\log(\log(N)/\epsilon))$、$O(\log(N)\log(\log(N)/\epsilon))$と$O(N\log(N/\epsilon)$に改善された任意の状態を作成する。 我々は、このプロトコルの時空割り当てを減らして、定数要素のアンシラオーバーヘッドしか持たない多くの解離状態の迅速な準備を可能にする方法について説明する。$O(N)$ ancilla qubitsは、$O(w + \log(N))$ではなく$O(w)$$$$$$の積状態を作成するために、$O(w\log(N))$で効率的に再利用される。 量子機械学習,ハミルトニアンシミュレーション,方程式の線形系の解法など,この能力が役立ついくつかの応用について紹介する。 プロトコルの量子回路記述、詳細な擬似コード、およびbraketを用いたゲートレベルの実装例を提供する。

We propose a novel deterministic method for preparing arbitrary quantum states. When our protocol is compiled into CNOT and arbitrary single-qubit gates, it prepares an $N$-dimensional state in depth $O(\log(N))$ and spacetime allocation (a metric that accounts for the fact that oftentimes some ancilla qubits need not be active for the entire circuit) $O(N)$, which are both optimal. When compiled into the $\{\mathrm{H,S,T,CNOT}\}$ gate set, we show that it requires asymptotically fewer quantum resources than previous methods. Specifically, it prepares an arbitrary state up to error $\epsilon$ with optimal depth of $O(\log(N) + \log (1/\epsilon))$ and spacetime allocation $O(N\log(\log(N)/\epsilon))$, improving over $O(\log(N)\log(\log (N)/\epsilon))$ and $O(N\log(N/\epsilon))$, respectively. We illustrate how the reduced spacetime allocation of our protocol enables rapid preparation of many disjoint states with only constant-factor ancilla overhead -- $O(N)$ ancilla qubits are reused efficiently to prepare a product state of $w$ $N$-dimensional states in depth $O(w + \log(N))$ rather than $O(w\log(N))$, achieving effectively constant depth per state. We highlight several applications where this ability would be useful, including quantum machine learning, Hamiltonian simulation, and solving linear systems of equations. We provide quantum circuit descriptions of our protocol, detailed pseudocode, and gate-level implementation examples using Braket.
翻訳日:2024-02-12 21:20:39 公開日:2024-02-09
# AdvART:カモフラージュされた物体検出攻撃の対抗技

AdvART: Adversarial Art for Camouflaged Object Detection Attacks ( http://arxiv.org/abs/2303.01734v2 )

ライセンス: Link先を確認
Amira Guesmi, Ioan Marius Bilasco, Muhammad Shafique, and Ihsen Alouani(参考訳) 物理的な敵の攻撃は、現実世界で動作しているディープラーニングシステムを欺き、目立った、悪意ある物理的摂動を発生させることで、現実的な脅威となる。 自然性を評価することは、人間が容易に不自然な操作を検出し、排除できるため、このような攻撃には不可欠である。 この制限を克服するために、最近の研究は、自然主義的なパッチを生成するためにジェネレーティブ・リバーサリー・ネットワーク(gans)を活用することを提案している。 しかし、これらのアプローチは、自然性と攻撃効率の間の必然的なトレードオフをもたらす限定的な潜在空間に苦しむ。 本稿では,自然主義的かつ目立たない敵意パッチを生成する新しい手法を提案する。 具体的には,コスト関数に損失項を追加することで最適化問題を再定義する。 この用語は、生成されたカモフラージュパターンが任意のパターンではなく意味を持つようにセマンティック制約として機能する。 追加の用語は、グローバル目的関数内で最適化された類似性損失を構築するために類似度メトリクスを利用する。 本手法は, パッチ内の画素値を直接操作することで, 遅延ベクトルを変更してパッチを間接最適化するGANベースの手法と比較して, 高い柔軟性と広い空間を実現する。 我々の攻撃は、デジタル世界でそれぞれ91.19\%と72\%の優れた成功率を達成し、GANベースの技術と比較してエッジのスマートカメラに展開する。

Physical adversarial attacks pose a significant practical threat as it deceives deep learning systems operating in the real world by producing prominent and maliciously designed physical perturbations. Emphasizing the evaluation of naturalness is crucial in such attacks, as humans can readily detect and eliminate unnatural manipulations. To overcome this limitation, recent work has proposed leveraging generative adversarial networks (GANs) to generate naturalistic patches, which may not catch human's attention. However, these approaches suffer from a limited latent space which leads to an inevitable trade-off between naturalness and attack efficiency. In this paper, we propose a novel approach to generate naturalistic and inconspicuous adversarial patches. Specifically, we redefine the optimization problem by introducing an additional loss term to the cost function. This term works as a semantic constraint to ensure that the generated camouflage pattern holds semantic meaning rather than arbitrary patterns. The additional term leverages similarity metrics to construct a similarity loss that we optimize within the global objective function. Our technique is based on directly manipulating the pixel values in the patch, which gives higher flexibility and larger space compared to the GAN-based techniques that are based on indirectly optimizing the patch by modifying the latent vector. Our attack achieves superior success rate of up to 91.19\% and 72\%, respectively, in the digital world and when deployed in smart cameras at the edge compared to the GAN-based technique.
翻訳日:2024-02-12 21:19:56 公開日:2024-02-09
# 物理対称性による解釈可能な低次元表現の学習

Learning Interpretable Low-dimensional Representation via Physical Symmetry ( http://arxiv.org/abs/2302.10890v4 )

ライセンス: Link先を確認
Xuanjie Liu, Daniel Chin, Yichen Huang, Gus Xia(参考訳) 近年,音高や音色といった基本的な要素から,和音やテクスチャといった高レベルな概念まで,解釈可能な音楽表現の学習に大きく進歩している。 しかし、ほとんどの手法は音楽分野の知識に大きく依存している。 一般的な計算原理が解釈可能な表現、特に人間の知覚に合致する低次元の要素を生み出すかという疑問は依然として残されている。 本研究では,現代物理学からインスピレーションを得て,時系列データの潜在空間に対する自己整合制約として物理対称性を用いる。 具体的には、ある群変換に関して同変であるように潜在状態のダイナミクスを特徴づける先行モデルが必要である。 物理対称性がモデルに,非ラベル単音節音楽音声からの線形ピッチ係数を自己教師あり方式で学習させることを示す。 さらに、同じ方法論をコンピュータビジョンに適用し、ラベルのない単純な移動物体のビデオから3dデカルト空間を学習することができる。 さらに、物理対称性は、サンプル効率を向上する新しい手法である、反ファクト的表現増強につながる。

We have recently seen great progress in learning interpretable music representations, ranging from basic factors, such as pitch and timbre, to high-level concepts, such as chord and texture. However, most methods rely heavily on music domain knowledge. It remains an open question what general computational principles give rise to interpretable representations, especially low-dim factors that agree with human perception. In this study, we take inspiration from modern physics and use physical symmetry as a self consistency constraint for the latent space of time-series data. Specifically, it requires the prior model that characterises the dynamics of the latent states to be equivariant with respect to certain group transformations. We show that physical symmetry leads the model to learn a linear pitch factor from unlabelled monophonic music audio in a self-supervised fashion. In addition, the same methodology can be applied to computer vision, learning a 3D Cartesian space from videos of a simple moving object without labels. Furthermore, physical symmetry naturally leads to counterfactual representation augmentation, a new technique which improves sample efficiency.
翻訳日:2024-02-12 21:19:30 公開日:2024-02-09
# 最初の価格オークションにおけるフロアの最適化:Yahoo広告の実証的研究

Optimizing Floors in First Price Auctions: an Empirical Study of Yahoo Advertising ( http://arxiv.org/abs/2302.06018v2 )

ライセンス: Link先を確認
Miguel Alcobendas, Jonathan Ji, Hemakumar Gokulakannan, Dawit Wami, Boris Kapchits, Emilien Pouradier Duteil, Korby Satow, Maria Rosario Levy Roman, Oriol Diaz, Amado A. Diaz Jr., Rabi Kavoori(参考訳) floors(リザーブ価格とも呼ばれる)は、通常オークションで販売される広告スペースの期待収益を増やすのに役立つ。 フロアは、売り手(発行者または広告取引所)が在庫の機会を喜んで受け入れる最小の入札として定義される。 本稿では,第1回価格オークションにおけるフロア設定モデルを提案するとともに,yahooサイトへの実装が与える影響について述べる。 このモデルはオンライン広告業界の重要な特徴を捉えている。 例えば、一部の入札者は、広告交換が入札者からのデータを扱う方法に制限を課し、モデル選択を条件付けして準備価格を設定する。 我々のソリューションは入札者に対して入札要求のフロアに反応して入札行動を変えるよう促し、オンラインパブリッシャーが広告収入を増やす手助けをする。 概説された方法論はYahooで目覚ましい成果をあげて実装されている。 年間収益はyahooのディスプレイインベントリで+1.3%、ビデオ広告インベントリで+2.5%と見積もられている。 これはyahooの広告ビジネスにおける無視できない数字だ。

Floors (also known as reserve prices) help publishers to increase the expected revenue of their ad space, which is usually sold via auctions. Floors are defined as the minimum bid that a seller (it can be a publisher or an ad exchange) is willing to accept for the inventory opportunity. In this paper, we present a model to set floors in first price auctions, and discuss the impact of its implementation on Yahoo sites. The model captures important characteristics of the online advertising industry. For instance, some bidders impose restrictions on how ad exchanges can handle data from bidders, conditioning the model choice to set reserve prices. Our solution induces bidders to change their bidding behavior as a response to the floors enclosed in the bid request, helping online publishers to increase their ad revenue. The outlined methodology has been implemented at Yahoo with remarkable results. The annualized incremental revenue is estimated at +1.3% on Yahoo display inventory, and +2.5% on video ad inventory. These are non-negligible numbers in the multi-million Yahoo ad business.
翻訳日:2024-02-12 21:19:13 公開日:2024-02-09
# 掘削工具摩耗検出のための意味画像分割におけるデータ拡張と損失関数の評価

Evaluation of Data Augmentation and Loss Functions in Semantic Image Segmentation for Drilling Tool Wear Detection ( http://arxiv.org/abs/2302.05262v2 )

ライセンス: Link先を確認
Elke Schlager, Andreas Windisch, Lukas Hanna, Thomas Kl\"unsner, Elias Jan Hagendorfer, Tamara Teppernegg(参考訳) 工具摩耗モニタリングは製造プロセスの品質管理とコスト削減に不可欠であり、その例として掘削アプリケーションが挙げられる。 本稿では,U-Netをベースとした切削挿入画像の顕微鏡画像上に展開するセマンティック画像分割パイプラインを提案する。 摩耗面積は2つの異なるタイプで区別され、結果としてマルチクラス分類問題が発生する。 一方、一般の摩耗クラスで2つの摩耗タイプを結合することで、問題を二分分類タスクとして定式化することができる。 バイナリ問題とマルチクラス問題の比較は別として、損失関数も異なる。 e. The Intersection over Union (IoU) に基づくクロスエントロピー, クロスエントロピー, フーカルクロスエントロピー, ロスについて検討した。 さらに、異なるサイズの画像タイルに基づいてモデルをトレーニングし、様々な強度の強化技術を展開する。 最高のパフォーマンスモデルはバイナリモデルであり、適度な拡張とIoUベースの損失関数を持つデータに基づいてトレーニングされている。

Tool wear monitoring is crucial for quality control and cost reduction in manufacturing processes, of which drilling applications are one example. In this paper, we present a U-Net based semantic image segmentation pipeline, deployed on microscopy images of cutting inserts, for the purpose of wear detection. The wear area is differentiated in two different types, resulting in a multiclass classification problem. Joining the two wear types in one general wear class, on the other hand, allows the problem to be formulated as a binary classification task. Apart from the comparison of the binary and multiclass problem, also different loss functions, i. e., Cross Entropy, Focal Cross Entropy, and a loss based on the Intersection over Union (IoU), are investigated. Furthermore, models are trained on image tiles of different sizes, and augmentation techniques of varying intensities are deployed. We find, that the best performing models are binary models, trained on data with moderate augmentation and an IoU-based loss function.
翻訳日:2024-02-12 21:18:30 公開日:2024-02-09
# 同時スケーリングによるロバスト分散正規化リスク最小化

Robust variance-regularized risk minimization with concomitant scaling ( http://arxiv.org/abs/2301.11584v2 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 重みを負う可能性のある損失の下では、損失平均と標準偏差の和を最小化し、分散を正確に推定することを考える。 分散のないロバスト平均推定手法を改良して問題設定に適合させることにより、従来の機械学習ワークフローで使用する標準勾配に基づく解法と簡単に組み合わせられる簡単な学習手順を導出する。 実験により,提案手法の単純さにもかかわらず,CVaR や DRO などの代替基準から導出される最高の性能の候補であっても,その性能は良好であることを確認した。

Under losses which are potentially heavy-tailed, we consider the task of minimizing sums of the loss mean and standard deviation, without trying to accurately estimate the variance. By modifying a technique for variance-free robust mean estimation to fit our problem setting, we derive a simple learning procedure which can be easily combined with standard gradient-based solvers to be used in traditional machine learning workflows. Empirically, we verify that our proposed approach, despite its simplicity, performs as well or better than even the best-performing candidates derived from alternative criteria such as CVaR or DRO risks on a variety of datasets.
翻訳日:2024-02-12 21:18:11 公開日:2024-02-09
# TDSTF:Sparse Time Series Forecastingのためのトランスフォーマーベース拡散確率モデル

TDSTF: Transformer-based Diffusion probabilistic model for Sparse Time series Forecasting ( http://arxiv.org/abs/2301.06625v4 )

ライセンス: Link先を確認
Ping Chang, Huayu Li, Stuart F. Quan, Shuyang Lu, Shu-Fen Wung, Janet Roveda and Ao Li(参考訳) 背景と目的:ICU(Intensive Care Unit)におけるバイタルサインモニタリングは,患者の迅速な介入を促進するために重要である。 これは正確な予測システムの必要性を浮き彫りにする。 そこで本研究では、ICUにおける心拍数(HR)、収縮血圧(SBP)、拡張型血圧(DBP)の予測のための新しい深層学習手法を提案する。 方法:MIMIC-IIIデータベースから24,886ドル(約2万2000円)のICU残高を抽出し,モデルをトレーニングし,テストした。 本研究で提案するモデルでは,sparse time series forecasting (tdstf) のためのtransformer-based diffusion probabilistic modelが,transformer と diffusion model をマージしてバイタルサインを予測する。 TDSTFモデルは、ICUにおけるバイタルサインの予測における最先端のパフォーマンスを示し、他のモデルのバイタルサインの分布予測能力より優れ、計算効率が良くなった。 コードはhttps://github.com/PingChang818/TDSTFで公開されている。 結果: 調査の結果, TDSTF は, 標準平均階数確率スコア (SACRPS) が0.4438$, 平均正方形誤差 (MSE) が0.4168$, 改善が18.9\%, 改善が34.3\%であった。 TDSTFの推論速度は、最高のベースラインモデルよりも17ドル以上速い。 結論: TDSTFはICUにおけるバイタルサインを予測するための効率的かつ効率的な解であり, この分野の他のモデルと比較して有意に改善されている。

Background and Objective: Vital sign monitoring in the Intensive Care Unit (ICU) is crucial for enabling prompt interventions for patients. This underscores the need for an accurate predictive system. Therefore, this study proposes a novel deep learning approach for forecasting Heart Rate (HR), Systolic Blood Pressure (SBP), and Diastolic Blood Pressure (DBP) in the ICU. Methods: We extracted $24,886$ ICU stays from the MIMIC-III database which contains data from over $46$ thousand patients, to train and test the model. The model proposed in this study, Transformer-based Diffusion Probabilistic Model for Sparse Time Series Forecasting (TDSTF), merges Transformer and diffusion models to forecast vital signs. The TDSTF model showed state-of-the-art performance in predicting vital signs in the ICU, outperforming other models' ability to predict distributions of vital signs and being more computationally efficient. The code is available at https://github.com/PingChang818/TDSTF. Results: The results of the study showed that TDSTF achieved a Standardized Average Continuous Ranked Probability Score (SACRPS) of $0.4438$ and a Mean Squared Error (MSE) of $0.4168$, an improvement of $18.9\%$ and $34.3\%$ over the best baseline model, respectively. The inference speed of TDSTF is more than $17$ times faster than the best baseline model. Conclusion: TDSTF is an effective and efficient solution for forecasting vital signs in the ICU, and it shows a significant improvement compared to other models in the field.
翻訳日:2024-02-12 21:18:00 公開日:2024-02-09
# reqomp:空間制約による量子回路計算

Reqomp: Space-constrained Uncomputation for Quantum Circuits ( http://arxiv.org/abs/2212.10395v2 )

ライセンス: Link先を確認
Anouk Paradis, Benjamin Bichsel, Martin Vechev(参考訳) 量子回路は量子ビットとゲート数に制限のある量子コンピュータ上で動作しなければならない。 両方の限界に合った回路を生成するために、ゲートの量子ビットを交換する非計算を利用する有望な機会がある。 本稿では,ハードウェア制約を尊重しつつ,アンシラエの正確かつ効率的な計算を自動合成する手法であるreqompを提案する。 与えられた回路に対して、Reqompは、厳密に制約されたキュービット数またはゲート数の間の幅広いトレードオフを提供することができる。 評価の結果,reqompは要求されるアンシラキュービット数を最大96%削減できることがわかった。 ベンチマークの80%では、必要となるアンシラキュービットは少なくとも25%削減できますが、ゲート数を28%以上増加させることはありません。

Quantum circuits must run on quantum computers with tight limits on qubit and gate counts. To generate circuits respecting both limits, a promising opportunity is exploiting uncomputation to trade qubits for gates. We present Reqomp, a method to automatically synthesize correct and efficient uncomputation of ancillae while respecting hardware constraints. For a given circuit, Reqomp can offer a wide range of trade-offs between tightly constraining qubit count or gate count. Our evaluation demonstrates that Reqomp can significantly reduce the number of required ancilla qubits by up to 96%. On 80% of our benchmarks, the ancilla qubits required can be reduced by at least 25% while never incurring a gate count increase beyond 28%.
翻訳日:2024-02-12 21:17:26 公開日:2024-02-09
# 視覚障害者のためのSLAM:調査

SLAM for Visually Impaired People: a Survey ( http://arxiv.org/abs/2212.04745v3 )

ライセンス: Link先を確認
Marziyeh Bamdad, Davide Scaramuzza, Alireza Darvishy(参考訳) 近年,視覚障害者と視覚障害者が独立かつ安全に移動する能力を向上させる補助技術が開発されている。 同時に、同時ローカライゼーションとマッピング(SLAM)技術は、これらの補助技術の開発において十分に堅牢で効率的なものになっている。 視覚障害者のためのslamベースソリューションに関する最近の54研究の体系的文献レビューを,2017年以降の文献を中心に紹介する。 本稿では、この文脈で用いられる様々なローカライゼーションとマッピング技術について概説する。 視覚障害者のナビゲーションにおけるこれらの手法の利点と限界について論じる。 さらに,本研究における課題について検討した。 SLAM技術は、視覚障害者が効果的にナビゲートできる能力を改善する可能性を秘めている。 最後に、この領域における将来の機会と課題を紹介する。

In recent decades, several assistive technologies have been developed to improve the ability of blind and visually impaired individuals to navigate independently and safely. At the same time, simultaneous localization and mapping (SLAM) techniques have become sufficiently robust and efficient to be adopted in developing these assistive technologies. We present the first systematic literature review of 54 recent studies on SLAM-based solutions for blind and visually impaired people, focusing on literature published from 2017 onward. This review explores various localization and mapping techniques employed in this context. We discuss the advantages and limitations of these techniques for blind and visually impaired navigation. Moreover, we examine the major challenges described across studies. We explain how SLAM technology offers the potential to improve the ability of visually impaired individuals to navigate effectively. Finally, we present future opportunities and challenges in this domain.
翻訳日:2024-02-12 21:17:13 公開日:2024-02-09
# 分類境界の構造:ナイーブベイズ分類器のケーススタディ

Structure of Classifier Boundaries: Case Study for a Naive Bayes Classifier ( http://arxiv.org/abs/2212.04382v2 )

ライセンス: Link先を確認
Alan F. Karr, Zac Bowen, Adam A. Porter(参考訳) モデル、トレーニングデータ、または組み合わせに基づいて、分類器は入力データを比較的少数の出力カテゴリの1つに配置する(おそらく複雑な)。 本稿では、グラフである入力空間の文脈において、隣人が異なる分類をする境界点の構造について検討し、隣り合う入力の概念が存在するように、次世代シーケンサーが生成するdna読み取りのためのモデルベースナイーブベイズ分類器を科学的に設定する。 境界は巨大かつ複雑な構造であることを示す。 我々はNeighbor similarityと呼ばれる新しい不確実性尺度を作成し、その結果を隣人に対する結果の分布の点と比較する。 この尺度はベイズ分類器に固有の2つの不確実性測度を追跡するだけでなく、計算コストで、固有の不確実性測度を持たない分類器に実装することもできる。

Whether based on models, training data or a combination, classifiers place (possibly complex) input data into one of a relatively small number of output categories. In this paper, we study the structure of the boundary--those points for which a neighbor is classified differently--in the context of an input space that is a graph, so that there is a concept of neighboring inputs, The scientific setting is a model-based naive Bayes classifier for DNA reads produced by Next Generation Sequencers. We show that the boundary is both large and complicated in structure. We create a new measure of uncertainty, called Neighbor Similarity, that compares the result for a point to the distribution of results for its neighbors. This measure not only tracks two inherent uncertainty measures for the Bayes classifier, but also can be implemented, at a computational cost, for classifiers without inherent measures of uncertainty.
翻訳日:2024-02-12 21:17:01 公開日:2024-02-09
# 強化学習のための反事実的説明の再定義:概要,課題,機会

Redefining Counterfactual Explanations for Reinforcement Learning: Overview, Challenges and Opportunities ( http://arxiv.org/abs/2210.11846v2 )

ライセンス: Link先を確認
Jasmina Gajcin and Ivana Dusparic(参考訳) AIアルゴリズムは様々な分野で顕著な成功を収めているが、透明性の欠如が現実のタスクへの応用を妨げる。 非専門家を対象にした説明は、ユーザ信頼と人間とAIのコラボレーションには必要だが、AIの説明手法の大半は、開発者と専門家のユーザに焦点を当てている。 反事実説明は、ブラックボックスモデルのアウトプットを変更する入力で何が変わるかに関するアドバイスを提供するローカルな説明である。 カウンターファクトはユーザフレンドリで、AIシステムから望ましいアウトプットを達成するための実行可能なアドバイスを提供する。 教師あり学習において広く研究されているが、強化学習(RL)に応用する方法は少ない。 本稿では,RLにおける強力な説明手法の表現不足の理由を考察する。 まず,教師付き学習における反事実的説明における現在の研究の見直しから始める。 さらに、教師付き学習とRLにおける対実的説明の違いについて検討し、強化学習における手法の採用を阻止する主な課題を明らかにする。 最後に、RLの反事実を再定義し、RLに反事実を実装するための研究の方向性を提案する。

While AI algorithms have shown remarkable success in various fields, their lack of transparency hinders their application to real-life tasks. Although explanations targeted at non-experts are necessary for user trust and human-AI collaboration, the majority of explanation methods for AI are focused on developers and expert users. Counterfactual explanations are local explanations that offer users advice on what can be changed in the input for the output of the black-box model to change. Counterfactuals are user-friendly and provide actionable advice for achieving the desired output from the AI system. While extensively researched in supervised learning, there are few methods applying them to reinforcement learning (RL). In this work, we explore the reasons for the underrepresentation of a powerful explanation method in RL. We start by reviewing the current work in counterfactual explanations in supervised learning. Additionally, we explore the differences between counterfactual explanations in supervised learning and RL and identify the main challenges that prevent the adoption of methods from supervised in reinforcement learning. Finally, we redefine counterfactuals for RL and propose research directions for implementing counterfactuals in RL.
翻訳日:2024-02-12 21:16:45 公開日:2024-02-09
# シンガポール(iris)観測所における赤外線調査 : 近傍熱画像を用いた都市ヒートアイランド貢献者および緩和者分析

InfraRed Investigation in Singapore (IRIS) Observatory: Urban heat island contributors and mitigators analysis using neighborhood-scale thermal imaging ( http://arxiv.org/abs/2210.11663v2 )

ライセンス: Link先を確認
Miguel Martin, Vasantha Ramani, Clayton Miller(参考訳) 本稿では, 都市ヒートアイランドのコントリビュータおよび緩和剤からの熱フラックスを, 熱画像と気象データを用いて検討する。 熱画像は2021年11月から2022年4月まで、建物の屋上で動作する天文台から収集された。 同じ期間に、シンガポールの大学キャンパスのいくつかの場所で気象観測のための自動気象観測ネットワークが利用された。 観測所と自動気象観測所ネットワークが収集したデータから,建築ファサードや植生,交通によって放出される熱を推定する手法を開発した。 都市熱流束の解析を行う前に,観測所から採取した表面温度はいくつかの変数に敏感であることが観測された。 感度分析後,屋外環境における表面温度の測定値に対して熱画像の校正を行った。 最後に, 熱画像と気象データを用いた熱フラックスから, 都市ヒートアイランドのコントリビュータおよび緩和剤について分析した。 屋上観測所が収集した熱画像によると、夜間に放射される長波により、コンクリートの壁は都市熱島に重要な役割を果たしている。 一方, 植生は蒸発散によって生じる潜熱フラックスのため, 有効な除草剤であると考えられる。 道路のごく一部について考慮すれば、交通は無視できない熱源のように見える。 将来的には、熱画像から空調システムによって放出される熱の規模を推定するために、さらなる努力を行うことができる。

This paper studies heat fluxes from contributors and mitigators of urban heat islands using thermal images and weather data. Thermal images were collected from an observatory operating on the rooftop of a building between November 2021 and April 2022. Over the same period, an automatic weather station network was used to measure weather conditions at several locations on a university campus in Singapore. From data collected by the observatory and the automatic weather station network, a method was developed to estimate the heat emitted by building facades, vegetation, and traffic. Before performing the analysis of urban heat fluxes, it was observed that the surface temperature collected from the observatory is sensitive to some variables. After the sensitivity analysis, thermal images were calibrated against measurements of the surface temperature in an outdoor environment. Finally, several contributors and mitigators of urban heat islands were analyzed from heat fluxes assessed with thermal images and weather data. According to thermal images collected by the rooftop observatory, concrete walls are an important contributor to urban heat islands due to the longwave radiation they emit at night. Vegetation, on the other hand, seems to be an effective mitigator because of latent heat fluxes generated by evapotranspiration. Traffic looks to be a negligible source of heat if considered over a small portion of a road. In the future, more efforts can be made to estimate the magnitude of the heat released by an air-conditioning system from thermal images.
翻訳日:2024-02-12 21:16:29 公開日:2024-02-09
# ハイブリッドフェデレーション学習のための2次アルゴリズム

A Primal-Dual Algorithm for Hybrid Federated Learning ( http://arxiv.org/abs/2210.08106v3 )

ライセンス: Link先を確認
Tom Overman, Garrett Blum, Diego Klabjan(参考訳) クライアントが機能とサンプルの両方のサブセットしか持たないハイブリッド連合学習の方法は非常に少ない。 しかし、このシナリオは実践的な環境では非常に重要です。 フェンシェル双対性に係わるハイブリッドフェデレート学習のための高速でロバストなアルゴリズムを提案する。 我々は、モデルが様々な実践的な方法で集中的に訓練されているように、アルゴリズムの収束を同じ解に証明する。 さらに,フェデレート学習における一般的な手法であるFedAvgと,既存のハイブリッドFLアルゴリズムであるHyFEMに対して,アルゴリズムの性能改善を示す実験結果を提供する。 また、クライアントデータを保護するためのプライバシーの考慮と必要な手順も提供します。

Very few methods for hybrid federated learning, where clients only hold subsets of both features and samples, exist. Yet, this scenario is extremely important in practical settings. We provide a fast, robust algorithm for hybrid federated learning that hinges on Fenchel Duality. We prove the convergence of the algorithm to the same solution as if the model is trained centrally in a variety of practical regimes. Furthermore, we provide experimental results that demonstrate the performance improvements of the algorithm over a commonly used method in federated learning, FedAvg, and an existing hybrid FL algorithm, HyFEM. We also provide privacy considerations and necessary steps to protect client data.
翻訳日:2024-02-12 21:16:06 公開日:2024-02-09
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v8 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現(qrfg、quantum representation of finite groups)の概念はかなり前から量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に,量子アルゴリズムや量子有限オートマトンの実装において,QRFGの有用性と可能性を示す。

The concept of quantum representation of finite groups (QRFG) has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of QRFG by showing its role in the implementation of some quantum algorithms and quantum finite automata.
翻訳日:2024-02-12 21:15:56 公開日:2024-02-09
# 小格子端における準孔と準粒子のダイナミクス

Dynamics of quasiholes and quasiparticles at the edges of small lattices ( http://arxiv.org/abs/2305.18364v2 )

ライセンス: Link先を確認
Xikun Li, B{\l}a\.zej Jaworowski, Masudul Haque, Anne E. B. Nielsen(参考訳) 円柱境界条件と粒子密度の低い小格子におけるボソニック分数量子ホール系のクエンチダイナミクスについて検討した。 研究された状態は、半充填時のボソニック・ラウリン状態と相対的に準ホールまたは準粒子を持つ。 ピン止め電位はエッジサイト(またはエッジに近いサイト)に置かれ、その後オフにされる。 分数量子ホール系のエッジはキラルエッジモードを担っているため、正のポテンシャルが擬似ホールを挟む場合の1方向の動きと、負のポテンシャルが擬似粒子を挟む場合の反対方向の動きを期待する。 正電位(準ホール)の場合,密度分布のキラル運動が観察され,頑健であること,負電位(準粒子)に対して顕著なキラル運動が存在しないことを数値的に示す。 モデル格子ラウリン波動関数と数値基底状態の比較は、正と負のポテンシャルの両方が、必ずしも小さな格子上で十分に分離されていない任意の粒子を生成・ピンすることを示している。 モデル状態のダイナミクスの初期化は、準粒子のカイラルダイナミクスの欠如も示している。 その結果, 粒子密度が低い小さな格子では, 準粒子は動的過程に強く影響し, 準粒子は動的に堅牢であることがわかった。

We study quench dynamics of bosonic fractional quantum Hall systems in small lattices with cylindrical boundary conditions and low particle density. The states studied have quasiholes or quasiparticles relative to the bosonic Laughlin state at half filling. Pinning potentials are placed at edge sites (or sites close to the edges) and are then turned off. Because the edges of fractional quantum Hall systems host chiral edge modes, we expect chiral dynamics, with motion in one direction for positive potentials pinning quasiholes, and motion in the other direction for negative potentials pinning quasiparticles. We numerically show that chiral motion of the density distribution is observed and robust for the case with positive potentials (quasiholes), but that there is no noticeable chiral motion for negative potentials (quasiparticles). The comparison of the numerical ground states with model lattice Laughlin wavefunctions suggests that both positive and negative potentials do create and pin anyons that are not necessarily well-separated on small lattices. Initializing the dynamics with the model state also shows the lack of chiral dynamics of quasiparticles. Our results suggest that, in small lattices with low particle density, quasiparticles are strongly adversely affected in dynamical processes, whereas quasiholes are dynamically robust.
翻訳日:2024-02-12 21:09:11 公開日:2024-02-09
# 個別化治療効果推定のための動的治療間情報共有

Dynamic Inter-treatment Information Sharing for Individualized Treatment Effects Estimation ( http://arxiv.org/abs/2305.15984v2 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Jiandong Zhou, Ghadeer Ghosheh, Soheila Molaei and David A. Clifton(参考訳) 観察研究からの個別治療効果(ITE)の推定は因果推論の根本的な問題であり、医療を含む各分野において重要である。 しかし、ite学習者を訓練するために治療群間でデータを分割する必要があるため、限定された観測データセットは信頼性の高いite推定に困難をもたらす。 治療グループ間での情報共有は部分的に問題を軽減することができるが、ite推定におけるエンドツーエンド情報共有の一般的な枠組みは存在しない。 この問題に対処するため,ITE学習者を対象とした「\textit{soft weight sharing}」に基づく深層学習フレームワークを提案し,治療グループ間での「textit{dynamic end-to-end}」情報共有を可能にする。 提案フレームワークは既存の ITE 学習者を補完し,新しい ITE 学習者のクラスを導入し,それを \textit{HyperITE} と呼ぶ。 IHDP, ACIC-2016, Twins のベンチマークで, 現状の ITE 学習者を \textit{HyperITE} バージョンで拡張し, 評価を行った。 提案手法は,より小さなデータセットに対して有効性を高めつつ,ite推定誤差を改善できることを示す。

Estimation of individualized treatment effects (ITE) from observational studies is a fundamental problem in causal inference and holds significant importance across domains, including healthcare. However, limited observational datasets pose challenges in reliable ITE estimation as data have to be split among treatment groups to train an ITE learner. While information sharing among treatment groups can partially alleviate the problem, there is currently no general framework for end-to-end information sharing in ITE estimation. To tackle this problem, we propose a deep learning framework based on `\textit{soft weight sharing}' to train ITE learners, enabling \textit{dynamic end-to-end} information sharing among treatment groups. The proposed framework complements existing ITE learners, and introduces a new class of ITE learners, referred to as \textit{HyperITE}. We extend state-of-the-art ITE learners with \textit{HyperITE} versions and evaluate them on IHDP, ACIC-2016, and Twins benchmarks. Our experimental results show that the proposed framework improves ITE estimation error, with increasing effectiveness for smaller datasets.
翻訳日:2024-02-12 21:08:40 公開日:2024-02-09
# 変圧器に確率論的論理推論を教える

Teaching Probabilistic Logical Reasoning to Transformers ( http://arxiv.org/abs/2305.13179v2 )

ライセンス: Link先を確認
Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi(参考訳) 本稿では,不確定な推論規則を含む不確定なテキストに対する推論を行う際に,トランスフォーマティブ言語モデルの能力を評価する。 予備学習型言語モデル (PLM) と生成型大規模言語モデル (LLM) の両方をカバーする。 評価結果は,両世代の言語モデルが不確実なテキストの推論に苦慮していることを示している。 提案手法は,確率論的論理則を推論段階におけるこれらの規則に頼ることなく,微調整段階における制約として利用する。 PCTの有効性を評価するために、関連するコーパスを利用し、さらに、従来と異なりインスタンス固有のルールを使用する新しい、より困難なベンチマークを作成する。 本研究は,pctがトランスフォーマティブ言語モデルの内在的推論を改善し,その確率論的論理推論プロセスをより明確かつ説明可能にしていることを示す。 さらに、PCTはこれらのモデルを備えて、より高い推論深度、新しいドメイン、複雑な確率構造など、新しい状況を効果的に扱う。

In this paper, we evaluate the capability of transformer-based language models in making inferences over uncertain text that includes uncertain rules of reasoning. We cover both Pre-trained Language Models (PLMs) and generative Large Language Models (LLMs). Our evaluation results show that both generations of language models struggle with reasoning over uncertain text. We propose a novel end-to-end fine-tuning approach, Probabilistic Constraint Training (PCT), that utilizes probabilistic logical rules as constraints in the fine-tuning phase without relying on these rules in the inference stage. To assess the effectiveness of PCT, we utilize the related corpora and, additionally, create a new and more challenging benchmark that, unlike the previous ones, uses instance-specific rules. Our study demonstrates that PCT improves the transformer-based language model's intrinsic reasoning and makes their probabilistic logical reasoning process more explicit and explainable. Furthermore, PCT equips these models to effectively handle novel situations, including higher reasoning depth, new domains, and complex probabilistic structures.
翻訳日:2024-02-12 21:08:18 公開日:2024-02-09
# 大規模言語モデルの連想能力の定量化とプライバシ漏洩への影響

Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage ( http://arxiv.org/abs/2305.12707v2 )

ライセンス: Link先を確認
Hanyin Shao, Jie Huang, Shen Zheng, Kevin Chen-Chuan Chang(参考訳) 大規模言語モデル(LLM)の進歩は、さまざまなアプリケーションに顕著な改善をもたらし、同時に、潜在的プライベートデータ露出に対する懸念も高まっている。 llmsの特筆すべき機能は、異なる情報片間の関連を形成する能力であるが、これは個人識別情報(pii)に関して懸念を生じさせる。 本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。 モデルが拡大するにつれて、特にターゲットペアがより短い共起距離またはより高い共起周波数を示すと、エンティティ/情報の関連付け能力が増大することが明らかとなった。 しかし、共通センス知識とpiiを関連付ける場合、パフォーマンスの差は明らかであり、後者の方が精度が低い。 正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。 これらの知見は、LLMの進化する能力によって引き起こされるPII機密性への潜在的なリスク、特にスケールとパワーの増大を裏付けるものである。

The advancement of large language models (LLMs) brings notable improvements across various applications, while simultaneously raising concerns about potential private data exposure. One notable capability of LLMs is their ability to form associations between different pieces of information, but this raises concerns when it comes to personally identifiable information (PII). This paper delves into the association capabilities of language models, aiming to uncover the factors that influence their proficiency in associating information. Our study reveals that as models scale up, their capacity to associate entities/information intensifies, particularly when target pairs demonstrate shorter co-occurrence distances or higher co-occurrence frequencies. However, there is a distinct performance gap when associating commonsense knowledge versus PII, with the latter showing lower accuracy. Despite the proportion of accurately predicted PII being relatively small, LLMs still demonstrate the capability to predict specific instances of email addresses and phone numbers when provided with appropriate prompts. These findings underscore the potential risk to PII confidentiality posed by the evolving capabilities of LLMs, especially as they continue to expand in scale and power.
翻訳日:2024-02-12 21:07:57 公開日:2024-02-09
# 専門家のガウスゲート混合におけるパラメータ推定の収束率に向けて

Towards Convergence Rates for Parameter Estimation in Gaussian-gated Mixture of Experts ( http://arxiv.org/abs/2305.07572v2 )

ライセンス: Link先を確認
Huy Nguyen, TrungTin Nguyen, Khai Nguyen, Nhat Ho(参考訳) 当初、アンサンブル学習のためのニューラルネットワークとして導入されたmixed of experts (moe)は、機械学習と統計学のいくつかの応用において、不均質なデータ分析のために高度に成功した現代のディープニューラルネットワークの基本構築ブロックとなっている。 実際にはその人気にもかかわらず、moeモデルの十分な理論的な理解は完成にはほど遠い。 この問題に新たな光を当てるために,gaussian-gated moeモデルにおける最大度推定(mle)の収束解析を行う。 この分析の主な課題は、ガウスのゲーティング関数とエキスパートネットワークに共変量を含めることであり、これはそれらのパラメータに関する偏微分方程式を通して固有の相互作用をもたらす。 本稿では,パラメータ間の新しいボロノイ損失関数を設計し,パラメータ推定率の不均一性を正確に把握する。 以上の結果から,mle はガウスゲーティング関数の位置パラメータの2つの補完的設定,すなわち,これらのパラメータが全て 0 でないときと,少なくとも 1 つが消失する時とで異なる挙動を持つことが明らかとなった。 特に、これらの挙動は多項式方程式の2つの異なる系の可解性によって特徴づけられる。 最後に,理論結果を実証的に検証するためのシミュレーション研究を行う。

Originally introduced as a neural network for ensemble learning, mixture of experts (MoE) has recently become a fundamental building block of highly successful modern deep neural networks for heterogeneous data analysis in several applications of machine learning and statistics. Despite its popularity in practice, a satisfactory level of theoretical understanding of the MoE model is far from complete. To shed new light on this problem, we provide a convergence analysis for maximum likelihood estimation (MLE) in the Gaussian-gated MoE model. The main challenge of that analysis comes from the inclusion of covariates in the Gaussian gating functions and expert networks, which leads to their intrinsic interaction via some partial differential equations with respect to their parameters. We tackle these issues by designing novel Voronoi loss functions among parameters to accurately capture the heterogeneity of parameter estimation rates. Our findings reveal that the MLE has distinct behaviors under two complement settings of location parameters of the Gaussian gating functions, namely when all these parameters are non-zero versus when at least one among them vanishes. Notably, these behaviors can be characterized by the solvability of two different systems of polynomial equations. Finally, we conduct a simulation study to empirically verify our theoretical results.
翻訳日:2024-02-12 21:07:36 公開日:2024-02-09
# 低温原子量子シミュレータにおける高次元絡み検出

Detecting high-dimensional entanglement in cold-atom quantum simulators ( http://arxiv.org/abs/2305.07413v2 )

ライセンス: Link先を確認
Niklas Euler and Martin G\"arttner(参考訳) 量子絡み合いは、トポロジカル位相や多体局在のような凝縮物質系の多くの興味深い現象の根底にある重要な概念として認識されている。 近年、絡み合いエントロピーのような絡み合いの単純な量化子を考える代わりに、絡み合いスペクトルにおける絡み合い構造の研究が焦点に移行し、分数量子ホール状態やトポロジカル絶縁体などに対する新たな洞察をもたらした。 残る課題は、量子系のそのような微細な性質を実験的に検出することである。 量子シミュレーションにおける主要なプラットフォームの一つである冷原子系の絡み合いスペクトルの特徴を検出するためのプロトコルの開発は、非常に望ましいものであり、量子多体物理学を実験的に探求するための新たな道を開くだろう。 本稿では,格子ジオメトリーにおける寒冷原子の絡み合いスペクトル,または絡み合い次元の幅を,実験可能な2つのベースでのみ測定し,弾道的飛行時間(tof)展開を利用する方法を提案する。 光子対の絡み合い認定に関する以前の提案に基づき、まず異なる原子種の2つの原子間の絡み合いを考察し、後に種ごとの原子数を増加させ、多種多様高次元絡み合いを示す多種構成を一般化する。 数値シミュレーションにより,本手法は典型的な実験ノイズ効果に対して頑健であり,現在利用可能な実験手法を用いて最大8原子のシステムにおいて高次元の絡み合い認証が可能となることを示す。

Quantum entanglement has been identified as a crucial concept underlying many intriguing phenomena in condensed matter systems, such as topological phases or many-body localization. Recently, instead of considering mere quantifiers of entanglement like entanglement entropy, the study of entanglement structure in terms of the entanglement spectrum has shifted into the focus, leading to new insights into fractional quantum Hall states and topological insulators, among others. What remains a challenge is the experimental detection of such fine-grained properties of quantum systems. The development of protocols for detecting features of the entanglement spectrum in cold-atom systems, which are one of the leading platforms for quantum simulation, is thus highly desirable and will open up new avenues for experimentally exploring quantum many-body physics. Here, we present a method to bound the width of the entanglement spectrum, or entanglement dimension, of cold atoms in lattice geometries, requiring only measurements in two experimentally accessible bases and utilizing ballistic time-of-flight (TOF) expansion. Building on previous proposals for entanglement certification for photon pairs, we first consider entanglement between two atoms of different atomic species and later generalize to higher numbers of atoms per species and multispecies configurations showing multipartite high-dimensional entanglement. Through numerical simulations, we show that our method is robust against typical experimental noise effects and thus will enable high-dimensional entanglement certification in systems of up to eight atoms using currently available experimental techniques.
翻訳日:2024-02-12 21:07:14 公開日:2024-02-09
# 理想的共同分類器推定に基づく知識蒸留

Knowledge Distillation Under Ideal Joint Classifier Assumption ( http://arxiv.org/abs/2304.11004v3 )

ライセンス: Link先を確認
Huayu Li, Xiwen Chen, Gregory Ditzler, Janet Roveda, Ao Li(参考訳) 知識蒸留は、ニューラルネットワークをよりコンパクトで効率的なものに凝縮するための強力な方法論である。 この文脈内では、ソフトマックス回帰表現学習が広く受け入れられ、教師ネットワークを利用して、小型の学生ネットワークの学習プロセスをガイドする。 特に、ソフトマックス回帰表現学習の有効性に関する広範な調査にもかかわらず、知識伝達機構を規定する複雑な基盤は未解明のままである。 本研究は「理想的共同分類器知識蒸留(ijckd)」の枠組みについて紹介する。 本研究は,ドメイン適応理論に基づく数学的手法を用いて,教師ネットワーク上の学生ネットワークの誤り境界を包括的に検証する。 その結果,本フレームワークは,教師と学生のネットワーク間の効率的な知識伝達を促進する。

Knowledge distillation constitutes a potent methodology for condensing substantial neural networks into more compact and efficient counterparts. Within this context, softmax regression representation learning serves as a widely embraced approach, leveraging a pre-established teacher network to guide the learning process of a diminutive student network. Notably, despite the extensive inquiry into the efficacy of softmax regression representation learning, the intricate underpinnings governing the knowledge transfer mechanism remain inadequately elucidated. This study introduces the 'Ideal Joint Classifier Knowledge Distillation' (IJCKD) framework, an overarching paradigm that not only furnishes a lucid and exhaustive comprehension of prevailing knowledge distillation techniques but also establishes a theoretical underpinning for prospective investigations. Employing mathematical methodologies derived from domain adaptation theory, this investigation conducts a comprehensive examination of the error boundary of the student network contingent upon the teacher network. Consequently, our framework facilitates efficient knowledge transference between teacher and student networks, thereby accommodating a diverse spectrum of applications.
翻訳日:2024-02-12 21:06:17 公開日:2024-02-09
# 機械学習アルゴリズムの記述的解析による部分順序の深さ関数

Depth Functions for Partial Orders with a Descriptive Analysis of Machine Learning Algorithms ( http://arxiv.org/abs/2304.09872v3 )

ライセンス: Link先を確認
Hannah Blocher, Georg Schollmeyer, Christoph Jansen, Malte Nalenz(参考訳) 本稿では,深度関数の概念に基づく部分順序集合を記述的に解析するフレームワークを提案する。 線形空間および距離空間における深さ関数の集中的な研究にもかかわらず、部分順序のような非標準データ型に対する深さ関数についてはほとんど議論がない。 我々は、よく知られたsimplicial depthをすべての部分順序、union-free generic (ufg) depthの集合に適応させる。 さらに,多次元性能測定に基づく機械学習アルゴリズムの比較のために,我々の ufg 深度を利用する。 具体的には、標準ベンチマークデータセットのサンプル上で異なる分類器の性能の分布を分析する。 提案手法が既存のベンチマーク手法と大きく異なることを有望に証明し,分類器の比較に関する活発な議論に新たな視点を付加した。

We propose a framework for descriptively analyzing sets of partial orders based on the concept of depth functions. Despite intensive studies of depth functions in linear and metric spaces, there is very little discussion on depth functions for non-standard data types such as partial orders. We introduce an adaptation of the well-known simplicial depth to the set of all partial orders, the union-free generic (ufg) depth. Moreover, we utilize our ufg depth for a comparison of machine learning algorithms based on multidimensional performance measures. Concretely, we analyze the distribution of different classifier performances over a sample of standard benchmark data sets. Our results promisingly demonstrate that our approach differs substantially from existing benchmarking approaches and, therefore, adds a new perspective to the vivid debate on the comparison of classifiers.
翻訳日:2024-02-12 21:06:00 公開日:2024-02-09
# 単位力学の存在下での時間スケールの散逸的階層性

Fate of dissipative hierarchy of timescales in the presence of unitary dynamics ( http://arxiv.org/abs/2304.09017v2 )

ライセンス: Link先を確認
Nick D. Hartmann, Jimin L. Li, David J. Luitz(参考訳) 局所散逸過程を持つ純粋散逸性開量子多体系の一般的な挙動は、ランダム行列理論を用いて研究することができ、[Wang et al., Phys. Lett. 124, 100604 (2020)] に示すように、その複雑性によって組織された可観測物の崩壊時間スケールの階層構造を明らかにする。 この階層はリンドブラディアンの異なる固有値クラスタに反映される。 ここでは, このスペクトルがユニタリダイナミクスが存在するとき, 強く, 弱い散逸ダイナミクスの場合, どのように進化するかを解析する。 強い散逸の場合、ユニタリダイナミクスは摂動的に扱うことができ、ハミルトニアンの局所性はスペクトルがそのような摂動に対してどの程度感受性を持つかを決定することが分かる。 物理的に最も関連性の高い二体相互作用の場合、摂動の第一階の補正は消え、スペクトルの特徴の相対的ロバスト性に繋がる。 弱い散逸のために、スペクトルはよく分断された固有モデムを持つクラスターに流れ、これはハミルトニアンの局所対称性である。

The generic behavior of purely dissipative open quantum many-body systems with local dissipation processes can be investigated using random matrix theory, revealing a hierarchy of decay timescales of observables organized by their complexity as shown in [Wang et al., Phys. Rev. Lett. 124, 100604 (2020)]. This hierarchy is reflected in distinct eigenvalue clusters of the Lindbladian. Here, we analyze how this spectrum evolves when unitary dynamics is present, both for the case of strongly and weakly dissipative dynamics. In the strongly dissipative case, the unitary dynamics can be treated perturbatively and it turns out that the locality of the Hamiltonian determines how susceptible the spectrum is to such a perturbation. For the physically most relevant case of (dissipative) two-body interactions, we find that the correction in the first order of the perturbation vanishes, leading to the relative robustness of the spectral features. For weak dissipation, the spectrum flows into clusters with well-separated eigenmodes, which we identify to be the local symmetries of the Hamiltonian.
翻訳日:2024-02-12 21:05:48 公開日:2024-02-09
# 弱改良セグメンテーション強化のための高忠実擬似ラベル

High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation ( http://arxiv.org/abs/2304.02621v3 )

ライセンス: Link先を確認
Arvi Jonnarth, Yushan Zhang, Michael Felsberg(参考訳) 画像レベルの弱い教師付きセマンティックセグメンテーション(wsss)は、トレーニング中にセグメンテーションマスクを代理することで、通常、膨大なデータアノテーションコストを削減する。 典型的なアプローチは、畳み込み特徴写像のグローバル平均プーリング(GAP)を用いた画像分類ネットワークのトレーニングである。 これにより、画像領域の重要性を識別するクラスアクティベーションマップ(CAM)に基づいて、オブジェクトの位置を推定できる。 CAMは、ピクセルレベルの基底真理が欠如しているセグメンテーションモデルを監督するために、セグメンテーションマスクの形で擬似ラベルを生成するために使用される。 本研究は,GAPの代替となる重要サンプリングと,物体の輪郭が画像のカラーエッジとほぼ常に一致しているヒューリスティックな特徴類似性損失という,CAMを改善するための2つの手法に基づく。 しかし、どちらもソフトマックスによる多重項後部に基づいており、クラスは互いに排他的であると暗黙的に仮定しており、これは我々の実験では最適ではない。 したがって、複数の独立二項問題の二項後部に基づく両手法を再構成する。 パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。 これはPASCAL VOCデータセットの様々なベースライン上で実証され、実装されたすべての最先端手法の領域類似性と輪郭品質を改善した。 また,MS COCOデータセットを用いた実験により,提案したアドオンが大規模設定に適していることが示された。 私たちのコード実装はhttps://github.com/arvijj/hfplで利用可能です。

Image-level weakly-supervised semantic segmentation (WSSS) reduces the usually vast data annotation cost by surrogate segmentation masks during training. The typical approach involves training an image classification network using global average pooling (GAP) on convolutional feature maps. This enables the estimation of object locations based on class activation maps (CAMs), which identify the importance of image regions. The CAMs are then used to generate pseudo-labels, in the form of segmentation masks, to supervise a segmentation model in the absence of pixel-level ground truth. Our work is based on two techniques for improving CAMs; importance sampling, which is a substitute for GAP, and the feature similarity loss, which utilizes a heuristic that object contours almost always align with color edges in images. However, both are based on the multinomial posterior with softmax, and implicitly assume that classes are mutually exclusive, which turns out suboptimal in our experiments. Thus, we reformulate both techniques based on binomial posteriors of multiple independent binary problems. This has two benefits; their performance is improved and they become more general, resulting in an add-on method that can boost virtually any WSSS method. This is demonstrated on a wide variety of baselines on the PASCAL VOC dataset, improving the region similarity and contour quality of all implemented state-of-the-art methods. Experiments on the MS COCO dataset further show that our proposed add-on is well-suited for large-scale settings. Our code implementation is available at https://github.com/arvijj/hfpl.
翻訳日:2024-02-12 21:05:24 公開日:2024-02-09
# 大規模文書ネットワークにおけるグラフ構造とラベル依存がノード分類にどのように寄与するか

How Graph Structure and Label Dependencies Contribute to Node Classification in a Large Network of Documents ( http://arxiv.org/abs/2304.01235v2 )

ライセンス: Link先を確認
Pirmin Lemberger and Antoine Saillenfest(参考訳) WikiVitalsという新しいデータセットを導入し、ウィキペディアの項目を32のカテゴリに分類し、2.3Mのエッジで接続する。 本研究の目的は,各項目の内容,相互関係,ラベル間の相関関係といった,半教師付きノード分類設定において,ラベル予測に対する3つの異なる情報源の貢献を厳格に評価することである。 我々は,この課題に対して理論的に原理化されたモデルを提供するグラフマルコフニューラルネットワークを用いてこの評価を行い,モデル選択とモデル評価を明確に分離し,各情報源の貢献度を詳細に評価する。 興味深い観察の1つは、ラベル依存の影響を含むことは、密度の高い列車集合よりもスパース列車集合に関係しているということである。

We introduce a new dataset named WikiVitals which contains a large graph of 48k mutually referred Wikipedia articles classified into 32 categories and connected by 2.3M edges. Our aim is to rigorously evaluate the contributions of three distinct sources of information to the label prediction in a semi-supervised node classification setting, namely the content of the articles, their connections with each other and the correlations among their labels. We perform this evaluation using a Graph Markov Neural Network which provides a theoretically principled model for this task and we conduct a detailed evaluation of the contributions of each sources of information using a clear separation of model selection and model assessment. One interesting observation is that including the effect of label dependencies is more relevant for sparse train sets than it is for dense train sets.
翻訳日:2024-02-12 21:04:56 公開日:2024-02-09
# リアルタイムバス到着予測:都市移動性向上のための深層学習アプローチ

Real-Time Bus Arrival Prediction: A Deep Learning Approach for Enhanced Urban Mobility ( http://arxiv.org/abs/2303.15495v2 )

ライセンス: Link先を確認
Narges Rashvand, Sanaz Sadat Hosseini, Mona Azarbayjani, Hamed Tabkhi(参考訳) 都市部では、バスの交通は公共交通の重要な手段であるが、正確な到着時間と信頼性の確保には困難が伴う。 この格差は、特にバスの交通に強く依存している地域では、しばしば遅延と乗客数の減少に繋がる。 一般的な課題は、実際のバスの到着時刻と予定時刻のミスマッチであり、固定されたスケジュールの混乱に繋がる。 本研究は,ニューヨーク市バスデータを用いて,予定時刻から実際のバス到着までの所要時間は平均8分であった。 本研究は,様々な交通点(駅)におけるバスの到着時刻を予測するための,革新的でaiに基づくデータ駆動手法を導入し,大都市内の全バス路線を総合的に予測する。 本手法は,完全接続型ニューラルネットワークの展開を通じて,公共バス輸送システムの精度と効率を高める。 総合評価では,200以上のバス路線と200万のデータポイントを包含し,到着時刻推定に40秒未満の誤差率を示した。 さらに、検証セットの各データポイントの推測時間を0.006ms以下に記録し、バス輸送システムの時間性と信頼性を大幅に向上させるニューラルネットワークベースのアプローチの可能性を示す。

In urban settings, bus transit stands as a significant mode of public transportation, yet faces hurdles in delivering accurate and reliable arrival times. This discrepancy often culminates in delays and a decline in ridership, particularly in areas with a heavy reliance on bus transit. A prevalent challenge is the mismatch between actual bus arrival times and their scheduled counterparts, leading to disruptions in fixed schedules. Our study, utilizing New York City bus data, reveals an average delay of approximately eight minutes between scheduled and actual bus arrival times. This research introduces an innovative, AI-based, data-driven methodology for predicting bus arrival times at various transit points (stations), offering a collective prediction for all bus lines within large metropolitan areas. Through the deployment of a fully connected neural network, our method elevates the accuracy and efficiency of public bus transit systems. Our comprehensive evaluation encompasses over 200 bus lines and 2 million data points, showcasing an error margin of under 40 seconds for arrival time estimates. Additionally, the inference time for each data point in the validation set is recorded at below 0.006 ms, demonstrating the potential of our Neural-Net-based approach in substantially enhancing the punctuality and reliability of bus transit systems.
翻訳日:2024-02-12 21:04:41 公開日:2024-02-09
# 媒介相互作用の定量的非古典性

Quantitative non-classicality of mediated interactions ( http://arxiv.org/abs/2303.12428v2 )

ライセンス: Link先を確認
Ray Ganardi, Ekta Panwar, Mahasweta Pandit, Bianka Wo{\l}oncewicz, Tomasz Paterek(参考訳) 多くの物理的状況において、他の相互作用しないシステムを結合するシステムであるメディエーターを区別することができる。 しばしば、メディエーターは実験に直接アクセスできないが、非古典的性質を認めるかどうかを理解することは興味深い、時には不可欠である。 最近注目されているこの種の例として、重力場を介して結合された2つの量子質量がある。 質量間の量子の絡み合いの利得は三成分系全体の状態の非古典性を示していると論じられている。 ここでは、状態よりも関連する相互作用の非古典的性質に着目する。 我々は、仲介者を通して相互作用の非可換性と非可逆性(非可換ユニタリのオープンシステム一般化)を示す不等式を導出する。 導出は一般的な量子フォーマリズムの性質に基づいており、研究されたシステムについて最小主義的な仮定を行う。 さらに, メディエータを計測する必要がない条件を除いて, 結合系間の相関のみを用いる条件も提示する。 次に, 違反の量は, 適切に定義された非分解性の程度に低い値となることを示す。 これにより、手法は定量的かつ同時に実験の準備が整う。 重力相互作用の非古典性の検出と量子シミュレーションにおけるトロッター誤差のバウンドという2つの異なる分野の応用について述べる。

In plethora of physical situations one can distinguish a mediator -- a system that couples other, non-interacting systems. Often the mediator itself is not directly accessible to experimentation, yet it is interesting and sometimes crucial to understand if it admits non-classical properties. An example of this sort that recently enjoys considerable attention are two quantum masses coupled via gravitational field. It has been argued that the gain of quantum entanglement between the masses indicates non-classicality of the states of the whole tripartite system. Here, we focus on non-classical properties of the involved interactions rather than the states. We derive inequalities whose violation indicates non-commutativity and non-decomposability (open system generalisation of non-commuting unitaries) of interactions through the mediators. The derivations are based on properties of general quantum formalism and make minimalistic assumptions about the studied systems, in particular the interactions can remain uncharacterised throughout the assessment. Furthermore, we also present conditions that solely use correlations between the coupled systems, excluding the need to measure the mediator. Next, we show that the amount of violation places a lower bound on suitably defined degree of non-decomposability. This makes the methods quantitative and at the same time experiment ready. We give applications of these techniques in two different fields: for detecting non-classicality of gravitational interaction and in bounding the Trotter error in quantum simulations.
翻訳日:2024-02-12 21:04:19 公開日:2024-02-09
# パノ拡散:360度パノラマ露光

PanoDiffusion: 360-degree Panorama Outpainting via Diffusion ( http://arxiv.org/abs/2307.03177v4 )

ライセンス: Link先を確認
Tianhao Wu, Chuanxia Zheng, Tat-Jen Cham(参考訳) 狭視野画像から完全な360度パノラマを生成することは、全方位RGBデータが容易に利用できないため、現在進行中である。 既存のGANベースのアプローチは、高品質な出力を実現するための障壁に直面し、異なるマスクタイプに対する一般化性能が劣る。 本稿では, 潜伏拡散モデル(ldm)を用いた360度室内rgb-dパノラマ描画モデル(panodiffusion)を提案する。 トレーニング中にRGBと深度パノラマデータの両方を利用する新しいバイモーダル潜時拡散構造を導入する。 さらに,拡散分別ステップ毎にプログレッシブカメラ回転を導入する新しい手法を提案する。 以上の結果から,RGB-Dパノラマにおけるパノ拡散法は,様々な種類のマスクに対して多種多様な構造を持つ結果が得られるだけでなく,高品質のパノラマを合成し,リアルな3次元室内モデルを提供することが可能であることが示唆された。

Generating complete 360-degree panoramas from narrow field of view images is ongoing research as omnidirectional RGB data is not readily available. Existing GAN-based approaches face some barriers to achieving higher quality output, and have poor generalization performance over different mask types. In this paper, we present our 360-degree indoor RGB-D panorama outpainting model using latent diffusion models (LDM), called PanoDiffusion. We introduce a new bi-modal latent diffusion structure that utilizes both RGB and depth panoramic data during training, which works surprisingly well to outpaint depth-free RGB images during inference. We further propose a novel technique of introducing progressive camera rotations during each diffusion denoising step, which leads to substantial improvement in achieving panorama wraparound consistency. Results show that our PanoDiffusion not only significantly outperforms state-of-the-art methods on RGB-D panorama outpainting by producing diverse well-structured results for different types of masks, but can also synthesize high-quality depth panoramas to provide realistic 3D indoor models.
翻訳日:2024-02-12 20:57:13 公開日:2024-02-09
# デコヒーレンスがアンハーモニック発振器をシミュレートするコストを制限

Decoherence Limits the Cost to Simulate an Anharmonic Oscillator ( http://arxiv.org/abs/2307.00748v4 )

ライセンス: Link先を確認
Tzula B. Propp, Sayonee Ray, John B. DeBrota, Tameem Albash, and Ivan Deutsch(参考訳) カー効果によって支配される無調波発振器の量子力学をシミュレートし、デコヒーレンスがいかに効率を高めるかを研究する。 閉量子系の位相空間量子干渉に付随する微細なサブプランク構造をデコヒーレンスで洗い出すと、粗い有限差分積分を用いてより効率的に量子力学をシミュレートすることができる。 これをデコヒーレンスが半古典的切断ウィグナー近似(twa)を回復する方法と結びつけ、量子干渉が猫状態やより一般的なコヒーレント状態の重ね合わせに繋がる場合の正確な閉系力学とは大きく異なる。 半古典力学への二次測定統計量の回帰は、発振器の初期振幅が大きくなるにつれてより顕著になり、ノイズの多い量子デバイスでシステムサイズが大きくなるにつれてアクセス可能な量子優位性が示唆される。 最後に、この回帰は、非偏極ノイズチャネルのような凸ノイズモデルの形を持っていないことを示す。 その代わり、クローズド量子システム効果はオープンシステム効果と相互作用し、異なるオープンシステムの振る舞いを生み出す。

We study how decoherence increases the efficiency with which we can simulate the quantum dynamics of an anharmonic oscillator, governed by the Kerr effect. As decoherence washes out the fine-grained subPlanck structure associated with phase-space quantum interference in the closed quantum system, open quantum dynamics can be more efficiently simulated using a coarse-grained finite-difference numerical integration. We tie this to the way in which decoherence recovers the semiclassical truncated Wigner approximation (TWA), which strongly differs from the exact closed-system dynamics at times when quantum interference leads to cat states and more general superpositions of coherent states. The regression in quadrature measurement statistics to semiclassical dynamics becomes more pronounced as the initial amplitude of the oscillator grows, with implications for the quantum advantage that might be accessible as system size grows in noisy quantum devices. Lastly, we show that this regression does not have the form of a convex noise model, such as for a depolarizing noise channel. Instead, closed quantum system effects interact with the open system effects, giving rise to distinct open system behavior.
翻訳日:2024-02-12 20:56:44 公開日:2024-02-09
# 深層強化学習による未知環境における被覆経路の学習

Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning ( http://arxiv.org/abs/2306.16978v3 )

ライセンス: Link先を確認
Arvi Jonnarth, Jie Zhao, Michael Felsberg(参考訳) カバレッジパスプランニング(cpp)は、限定された地域の自由空間全体をカバーするパスを見つける問題であり、ロボット芝刈りから検索・検索まで幅広い応用がある。 環境が不明な場合には、環境マッピング中に経路をオンラインに計画する必要があり、柔軟性のあるパススペースを許可しないオフライン計画手法では対処できない。 本稿では,この課題に対する強化学習の適当性について検討し,アクション空間,入力特徴表現,ニューラルネットワークアーキテクチャ,報酬関数などのカバレッジパスを効率的に学習するために必要なコンポーネントを分析した。 本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。 広範にわたる実験により,本手法は従来のRLに基づくアプローチと,複数のCPP変動にまたがる高度に特殊な手法の両方の性能を上回ることを示した。

Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing to search-and-rescue. When the environment is unknown, the path needs to be planned online while mapping the environment, which cannot be addressed by offline planning methods that do not allow for a flexible path space. We investigate how suitable reinforcement learning is for this challenging problem, and analyze the involved components required to efficiently learn coverage paths, such as action space, input feature representation, neural network architecture, and reward function. We propose a computationally feasible egocentric map representation based on frontiers, and a novel reward term based on total variation to promote complete coverage. Through extensive experiments, we show that our approach surpasses the performance of both previous RL-based approaches and highly specialized methods across multiple CPP variations.
翻訳日:2024-02-12 20:55:58 公開日:2024-02-09
# 部分観測された動的時系列予測のためのslack時系列モデルによる自己回帰

Autoregressive with Slack Time Series Model for Forecasting a Partially-Observed Dynamical Time Series ( http://arxiv.org/abs/2306.16593v2 )

ライセンス: Link先を確認
Akifumi Okuno, Yuya Morishita, Yoh-ichi Mototake(参考訳) 本研究は、力学系の領域、特に進化関数によって定義される動的時系列の予測について考察する。 この領域の伝統的なアプローチは進化関数を推定することによって力学系の将来の挙動を予測する。 しかしながら、これらの手法は、通常、測定の課題と関心のシステムの部分的理解に起因する変数の欠如による障害に直面する可能性がある。 この障害を克服するために,我々は,進化関数を推定し,欠落する変数をslack時系列として含意する,slack time series(ars)モデルによるautoregressiveを導入する。 動的時系列全体の時間不変性と線形性を仮定し,ARSモデルが将来時系列を予測する能力を実証した。 理論的には、2次元の時間不変および線形系は、システムの1つの部分的観測次元からの観測を利用して再構成可能であることが証明される。

This study delves into the domain of dynamical systems, specifically the forecasting of dynamical time series defined through an evolution function. Traditional approaches in this area predict the future behavior of dynamical systems by inferring the evolution function. However, these methods may confront obstacles due to the presence of missing variables, which are usually attributed to challenges in measurement and a partial understanding of the system of interest. To overcome this obstacle, we introduce the autoregressive with slack time series (ARS) model, that simultaneously estimates the evolution function and imputes missing variables as a slack time series. Assuming time-invariance and linearity in the (underlying) entire dynamical time series, our experiments demonstrate the ARS model's capability to forecast future time series. From a theoretical perspective, we prove that a 2-dimensional time-invariant and linear system can be reconstructed by utilizing observations from a single, partially observed dimension of the system.
翻訳日:2024-02-12 20:55:41 公開日:2024-02-09
# ハミルトンシミュレーションのためのトロッター誤差境界と動的多積公式

Trotter error bounds and dynamic multi-product formulas for Hamiltonian simulation ( http://arxiv.org/abs/2306.12569v2 )

ライセンス: Link先を確認
Sergiy Zhuk, Niall Robertson and Sergey Bravyi(参考訳) 多積公式 (MPF) は、より少ないトロッターステップでハミルトン時間進化の高品質なシミュレーションを提供するトロッター回路の線形結合である。 本稿では,多積公式を短期量子シミュレーションでより有効にすることを目的とした2つの貢献について報告する。 まず、Childs, Su, Tranらが開発した通勤者スケーリングによるトロッター誤差の理論を多積式に拡張する。 以上の結果から,多積公式は,回路深度や量子ビット接続を増加させることなく,任意の時間間隔で1ノルム(核ノルム)のトロッター誤差を2次的に低減できることが示唆された。 回路繰り返しの数は定数因子によってのみ増加する。 次に,時間依存係数を持つ動的多積数式を導入し,トロッター誤差の計算可能なプロキシを最小化する。 アルゴリズム誤差,サンプリング,ハードウェアノイズからの不確実性に対して動的多積公式を頑健にするために,minimax推定法を用いる。 我々はこの手法をMinimax MPFと呼び、その誤差に厳密な境界を与える。

Multi-product formulas (MPF) are linear combinations of Trotter circuits offering high-quality simulation of Hamiltonian time evolution with fewer Trotter steps. Here we report two contributions aimed at making multi-product formulas more viable for near-term quantum simulations. First, we extend the theory of Trotter error with commutator scaling developed by Childs, Su, Tran et al. to multi-product formulas. Our result implies that multi-product formulas can achieve a quadratic reduction of Trotter error in 1-norm (nuclear norm) on arbitrary time intervals compared with the regular product formulas without increasing the required circuit depth or qubit connectivity. The number of circuit repetitions grows only by a constant factor. Second, we introduce dynamic multi-product formulas with time-dependent coefficients chosen to minimize a certain efficiently computable proxy for the Trotter error. We use a minimax estimation method to make dynamic multi-product formulas robust to uncertainty from algorithmic errors, sampling and hardware noise. We call this method Minimax MPF and we provide a rigorous bound on its error.
翻訳日:2024-02-12 20:55:26 公開日:2024-02-09
# CAMMARL:マルチエージェント強化学習におけるコンフォーマルアクションモデリング

CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning ( http://arxiv.org/abs/2306.11128v2 )

ライセンス: Link先を確認
Nikunj Gupta, Somjit Nath and Samira Ebrahimi Kahou(参考訳) 複数の知的エージェントを持つ環境で行動を起こす前に、自律エージェントは、他のエージェントについて推論し、システムの振る舞いに対する保証や信頼の概念を活用することで恩恵を受けることができる。 本稿では,マルチエージェント強化学習 (marl) アルゴリズムであるcammarlを提案する。 そして、これらの見積もりを使ってエージェントの意思決定を知らせます。 そのような集合を推定するために、共形予測の概念を用い、その方法により、最も可能な結果の見積もりを得るだけでなく、操作可能な不確実性も定量化する。 例えば、確率の高い真の予測(95%など)を確実にカバーする集合を予測できる。 2つの完全協調型マルチエージェントタスクにおけるいくつかの実験を通して、CAMMARLは、環境中の他のエージェントの挙動に関する共形予測セットをモデル化し、その推定値を利用して、MARLにおける自律エージェントの能力を高めることを示した。

Before taking actions in an environment with more than one intelligent agent, an autonomous agent may benefit from reasoning about the other agents and utilizing a notion of a guarantee or confidence about the behavior of the system. In this article, we propose a novel multi-agent reinforcement learning (MARL) algorithm CAMMARL, which involves modeling the actions of other agents in different situations in the form of confident sets, i.e., sets containing their true actions with a high probability. We then use these estimates to inform an agent's decision-making. For estimating such sets, we use the concept of conformal predictions, by means of which, we not only obtain an estimate of the most probable outcome but get to quantify the operable uncertainty as well. For instance, we can predict a set that provably covers the true predictions with high probabilities (e.g., 95%). Through several experiments in two fully cooperative multi-agent tasks, we show that CAMMARL elevates the capabilities of an autonomous agent in MARL by modeling conformal prediction sets over the behavior of other agents in the environment and utilizing such estimates to enhance its policy learning.
翻訳日:2024-02-12 20:55:08 公開日:2024-02-09
# 近似行動分布のマッチングによる改善

Mimicking Better by Matching the Approximate Action Distribution ( http://arxiv.org/abs/2306.09805v2 )

ライセンス: Link先を確認
Jo\~ao A. C\^andido Ramos, Lionel Blond\'e, Naoya Takeishi and Alexandros Kalousis(参考訳) 本稿では,観察から模倣学習を行うための新しいサンプル効率のよいオンポリシーアルゴリズムであるmaadを提案する。 MAADは代理報酬信号を使用し、敵のゲーム、軌道整合目的、最適な輸送基準などの様々な情報源から導出することができる。 専門家の行動の非適用性を補うために、専門家の状態遷移を考慮し、妥当な行動分布を推定する逆ダイナミクスモデルに依存し、推測された行動分布に整合させて模倣者の方針を規則化する。 MAADは試料効率と安定性を著しく向上させる。 Int the OpenAI Gym と DeepMind Control Suite を併用した MuJoCo 環境において,その有効性を実証する。 専門家のパフォーマンスを達成するには、非常に少ないインタラクションが必要であり、現在の最先端のオン・ポリシーメソッドを上回っています。 注目すべきは、MAADは専門家のパフォーマンスレベルを達成できる唯一の方法であり、その単純さと有効性を強調していることだ。

In this paper, we introduce MAAD, a novel, sample-efficient on-policy algorithm for Imitation Learning from Observations. MAAD utilizes a surrogate reward signal, which can be derived from various sources such as adversarial games, trajectory matching objectives, or optimal transport criteria. To compensate for the non-availability of expert actions, we rely on an inverse dynamics model that infers plausible actions distribution given the expert's state-state transitions; we regularize the imitator's policy by aligning it to the inferred action distribution. MAAD leads to significantly improved sample efficiency and stability. We demonstrate its effectiveness in a number of MuJoCo environments, both int the OpenAI Gym and the DeepMind Control Suite. We show that it requires considerable fewer interactions to achieve expert performance, outperforming current state-of-the-art on-policy methods. Remarkably, MAAD often stands out as the sole method capable of attaining expert performance levels, underscoring its simplicity and efficacy.
翻訳日:2024-02-12 20:54:32 公開日:2024-02-09
# 私のモデルはどこで不適合か? スライス発見アルゴリズムの人間による評価

Where Does My Model Underperform? A Human Evaluation of Slice Discovery Algorithms ( http://arxiv.org/abs/2306.08167v2 )

ライセンス: Link先を確認
Nari Johnson, \'Angel Alexander Cabrera, Gregory Plumb, Ameet Talwalkar(参考訳) 平均精度の高い機械学習モデル(ML)は、データのセマンティックコヒーレントなサブセット(スライス)ではまだ性能が低い。 この行動は、デプロイメントにおけるモデルの安全性やバイアスに重大な社会的影響をもたらす可能性があるが、特に実践者がデータの一貫性のあるサブセットを定義するためにグループアノテーションにアクセスできないドメインにおいて、これらの不適切なスライスを特定することは、実際は困難である。 これらの課題に動機づけられたmlの研究者は、データのコヒーレントとハイエラーのサブセットをグループ化することを目的とした、新しいスライス発見アルゴリズムを開発した。 しかしながら、これらのツールが人間の正しい仮説形成に役立てるかどうか(どのグループにとって)についてはほとんど評価されていない。 そこで我々は,2つの最先端スライス発見アルゴリズムによる40個のスライス出力をユーザに提示し,対象検出モデルに関する仮説を形成するための制御ユーザ調査(n = 15)を行う。 以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。 MLとHCI研究者のための設計の機会について論じる。 その結果,スライス発見のための新しいツールの作成と評価において,ユーザ中心の重要性が指摘された。

Machine learning (ML) models that achieve high average accuracy can still underperform on semantically coherent subsets ("slices") of data. This behavior can have significant societal consequences for the safety or bias of the model in deployment, but identifying these underperforming slices can be difficult in practice, especially in domains where practitioners lack access to group annotations to define coherent subsets of their data. Motivated by these challenges, ML researchers have developed new slice discovery algorithms that aim to group together coherent and high-error subsets of data. However, there has been little evaluation focused on whether these tools help humans form correct hypotheses about where (for which groups) their model underperforms. We conduct a controlled user study (N = 15) where we show 40 slices output by two state-of-the-art slice discovery algorithms to users, and ask them to form hypotheses about an object detection model. Our results provide positive evidence that these tools provide some benefit over a naive baseline, and also shed light on challenges faced by users during the hypothesis formation step. We conclude by discussing design opportunities for ML and HCI researchers. Our findings point to the importance of centering users when creating and evaluating new tools for slice discovery.
翻訳日:2024-02-12 20:53:58 公開日:2024-02-09
# unmasking deepfakes: ビデオ偽造検出のためのマスク付き時空間トランスフォーマー

Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection ( http://arxiv.org/abs/2306.06881v2 )

ライセンス: Link先を確認
Sayantan Das, Mojtaba Kolahdouzi, Levent \"Ozparlak, Will Hickie, Ali Etemad(参考訳) 本稿では,自己教師付きマスク型自動符号化装置で事前学習した視覚トランスフォーマを用いて,ディープフェイク映像の検出手法を提案する。 本手法は,ビデオの個々のrgbフレームから空間情報を学習することに焦点を当てた2つの異なるコンポーネントと,連続するフレームから生成された光流場から時間的一貫性情報を学習する。 一般的な大規模画像コーパス上で事前学習を行うほとんどのアプローチとは異なり、celeb-a(空間学習コンポーネント)とyoutube faces(時間学習コンポーネント)という、より小さな顔関連データセットを事前学習することで、強い結果が得られる。 提案手法は,faceforensics++(低品質,高品質,高圧縮版,超低品質)やceleb-dfv2データセットなど,一般的なデータセットでの性能評価を行うため,様々な実験を行った。 提案手法は,FaceForensics++ (LQ,HQ,VLQ) に新たな最先端性を設定し,Celeb-DFv2 上での競合結果を得る。 さらに、我々はFaceForensics++でモデルを微調整し、CelebDFv2でテストし、その強力なクロスデータセットの一般化能力を示すクロスデータセット設定において、この分野の他のメソッドよりも優れています。

We present a novel approach for the detection of deepfake videos using a pair of vision transformers pre-trained by a self-supervised masked autoencoding setup. Our method consists of two distinct components, one of which focuses on learning spatial information from individual RGB frames of the video, while the other learns temporal consistency information from optical flow fields generated from consecutive frames. Unlike most approaches where pre-training is performed on a generic large corpus of images, we show that by pre-training on smaller face-related datasets, namely Celeb-A (for the spatial learning component) and YouTube Faces (for the temporal learning component), strong results can be obtained. We perform various experiments to evaluate the performance of our method on commonly used datasets namely FaceForensics++ (Low Quality and High Quality, along with a new highly compressed version named Very Low Quality) and Celeb-DFv2 datasets. Our experiments show that our method sets a new state-of-the-art on FaceForensics++ (LQ, HQ, and VLQ), and obtains competitive results on Celeb-DFv2. Moreover, our method outperforms other methods in the area in a cross-dataset setup where we fine-tune our model on FaceForensics++ and test on CelebDFv2, pointing to its strong cross-dataset generalization ability.
翻訳日:2024-02-12 20:53:35 公開日:2024-02-09
# 確率的集団更新は多目的進化アルゴリズムにおいて有益である

Stochastic Population Update Can Provably Be Helpful in Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2306.02611v2 )

ライセンス: Link先を確認
Chao Bian, Yawen Zhou, Miqing Li, Chao Qian(参考訳) 進化的アルゴリズム(EA)は,集団探索の性質から,多目的最適化問題に広く応用されている。 多目的EA(MOEA)の重要なコンポーネントである集団更新は通常、欲求的で決定論的に行われる。 すなわち、次世代の人口は、現在の人口から最良の解と新しく生成された解(パレート支配、密集、指標などの選択基準によらない)を選択して形成される。 本稿では,この実践に疑問を呈する。 統計的集団更新はMOEAの探索に有用である可能性が示唆された。 具体的には,二目的問題であるOneJumpZeroJumpとRealRoyalRoadの2つのMOEA(SMS-EMOAとNSGA-II)の予測実行時間を,決定論的集団更新機構を確率的に置き換えれば指数関数的に減少できることを示す。 また,提案手法の有効性を実証研究により検証した。 この作業は、既存のMOEAの設計において共通のプラクティスに挑戦する試みである。 そのポジティブな成果は、より一般的なものとなり得るが、この地域で新しいmoeaの開発を奨励するであろう。

Evolutionary algorithms (EAs) have been widely and successfully applied to solve multi-objective optimization problems, due to their nature of population-based search. Population update, a key component in multi-objective EAs (MOEAs), is usually performed in a greedy, deterministic manner. That is, the next-generation population is formed by selecting the best solutions from the current population and newly-generated solutions (irrespective of the selection criteria used such as Pareto dominance, crowdedness and indicators). In this paper, we question this practice. We analytically present that stochastic population update can be beneficial for the search of MOEAs. Specifically, we prove that the expected running time of two well-established MOEAs, SMS-EMOA and NSGA-II, for solving two bi-objective problems, OneJumpZeroJump and bi-objective RealRoyalRoad, can be exponentially decreased if replacing its deterministic population update mechanism by a stochastic one. Empirical studies also verify the effectiveness of the proposed population update method. This work is an attempt to challenge a common practice in the design of existing MOEAs. Its positive results, which might hold more generally, should encourage the exploration of developing new MOEAs in the area.
翻訳日:2024-02-12 20:53:08 公開日:2024-02-09
# LM論理の相違を緩和した言語モデル更新のための情報アソシエーション

Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy ( http://arxiv.org/abs/2305.18582v2 )

ライセンス: Link先を確認
Pengfei Yu and Heng Ji(参考訳) 大きな言語モデル~(llm)は、古い事前トレーニングデータのために現在の情報を提供することに苦労しています。 知識編集や連続的な微調整などの既存のLCMの更新方法は、新しい情報の一般化や構造化更新コーパスの要求に重大な欠点がある。 これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。 そこで本研究では,未構造化更新コーパスの提供のみを必要とする情報更新タスクの新たなタスク定式化を提案し,更新情報に関連する質問応答対に対する一般化可能性に関する情報更新性能を評価する。 さらに,本課題に対する新しい効果的なパイプラインアプローチを提案し,自己プロパンティングに基づく質問応答生成プロセスと,lm-logical discrepancyを橋渡しするための連想蒸留法を提案する。 本研究では,2023年3月と4月に発表されたニュース記事と,Natural Questionsベンチマークから得られた2つの評価データセットを作成した。 実験の結果, 提案手法の優位性を示し, 事実整合性スコアを0から1のスケールで0.16まで大きく向上させた。 さらに、トレーニングトークンの2.3%しか持たないコンパクトリプレイバッファの使用を効果的に軽減する。

Large Language Models~(LLMs) struggle with providing current information due to the outdated pre-training data. Existing methods for updating LLMs, such as knowledge editing and continual fine-tuning, have significant drawbacks in generalizability of new information and the requirements on structured updating corpus. We identify the core challenge behind these drawbacks: the LM-logical discrepancy featuring the difference between language modeling probabilities and logical probabilities. To evaluate and address the core challenge, we propose a new task formulation of the information updating task that only requires the provision of an unstructured updating corpus and evaluates the performance of information updating on the generalizability to question-answer pairs pertaining to the updating information. We further propose a novel and effective pipeline approach for the task, highlighting a self-prompting-based question-answer generation process and a associative distillation methods to bridge the LM-logical discrepancy. We develop two datasets for evaluation, one sourced from news articles published in March and April 2023, and the other from the Natural Questions benchmark. Experimental results demonstrate the superiority of our approach, significantly increasing the factual consistency score (on a scale from 0 to 1) by up to 0.16. Furthermore, our method effectively mitigates forgetting utilizing a compact replay buffer with only 2.3% of the training tokens.
翻訳日:2024-02-12 20:52:26 公開日:2024-02-09
# LLMを用いた生成データ拡張による質問応答における分布ロバスト性の改善

Generative Data Augmentation using LLMs improves Distributional Robustness in Question Answering ( http://arxiv.org/abs/2309.06358v2 )

ライセンス: Link先を確認
Arijit Ghosh Chowdhury, Aman Chadha(参考訳) 自然言語処理におけるロバスト性は相変わらず問題であり続けており、アートモデルの状態は自然にシフトした分布の下でパフォーマンスが低い。 質問への回答という文脈では、ドメイン適応法の研究は依然として研究の段階である。 しかし、対象領域が不明な自然分布シフトの下での領域一般化の概念にはほとんど注目されていない。 生成モデルの品質とアクセスの劇的な改善により、私たちは疑問に答える。 生成データセットは、自然分布シフトの下でのQAモデルの性能にどのように影響しますか? 分散シフトの異なる4つの異なるデータセットで実験を行い、"in-the-wild"生成がドメインの一般化にどのように役立つかを分析する。 既存のデータセットを拡張するために、コンテキストとQAペアの両方を生成します。 実験を通じて、生成したデータによる読解データセットの強化が、自然分布シフトに対するロバスト性の向上につながることを示す。

Robustness in Natural Language Processing continues to be a pertinent issue, where state of the art models under-perform under naturally shifted distributions. In the context of Question Answering, work on domain adaptation methods continues to be a growing body of research. However, very little attention has been given to the notion of domain generalization under natural distribution shifts, where the target domain is unknown. With drastic improvements in the quality and access to generative models, we answer the question: How do generated datasets influence the performance of QA models under natural distribution shifts? We perform experiments on 4 different datasets under varying amounts of distribution shift, and analyze how "in-the-wild" generation can help achieve domain generalization. We take a two-step generation approach, generating both contexts and QA pairs to augment existing datasets. Through our experiments, we demonstrate how augmenting reading comprehension datasets with generated data leads to better robustness towards natural distribution shifts.
翻訳日:2024-02-12 20:44:51 公開日:2024-02-09
# SpikingBERT:不特定微分を用いたスパイキング言語モデルのトレーニングのためのBERTの蒸留

SpikingBERT: Distilling BERT to Train Spiking Language Models Using Implicit Differentiation ( http://arxiv.org/abs/2308.10873v2 )

ライセンス: Link先を確認
Malyaban Bal, Abhronil Sengupta(参考訳) 大規模言語モデル(llm)は非常に強力に成長しているが、人間の脳よりもニューロンやシナプスは桁違いに少ない。 しかし、運用にはエネルギーとエネルギーがかなり必要である。 本研究では,脳内のシナプス情報の流れからモチベーションを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスピレーションスパイキング言語モデルを提案する。 本稿では,ニューロンの平衡における平均スパイク速度を利用して,暗黙の微分法を用いてニューロモルフィックスパイキングLMを訓練し,サロゲート勾配を使わずにスパイキングニューラルネットワーク(SNN)に基づくアルゴリズムの非微分可能性問題を克服する枠組みを示す。 スパイキングニューロンの定常収束はまた、スケーラブルなスパイキングLMの開発において重要なスパイキングアテンション機構を設計することができる。 さらに、平衡時のニューロンの平均スパイク速度の収束を利用して、トレーニング済みBERTモデルを「教師」として使用し、「学生」スパイクアーキテクチャを訓練する新しいANN-SNN知識蒸留技術を開発した。 本論文で提案するアーキテクチャはBERTをモチベーションとしているが,多種多様な LLM に拡張できる可能性がある。 我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。

Large language Models (LLMs), though growing exceedingly powerful, comprises of orders of magnitude less neurons and synapses than the human brain. However, it requires significantly more power/energy to operate. In this work, we propose a novel bio-inspired spiking language model (LM) which aims to reduce the computational cost of conventional LMs by drawing motivation from the synaptic information flow in the brain. In this paper, we demonstrate a framework that leverages the average spiking rate of neurons at equilibrium to train a neuromorphic spiking LM using implicit differentiation technique, thereby overcoming the non-differentiability problem of spiking neural network (SNN) based algorithms without using any type of surrogate gradient. The steady-state convergence of the spiking neurons also allows us to design a spiking attention mechanism, which is critical in developing a scalable spiking LM. Moreover, the convergence of average spiking rate of neurons at equilibrium is utilized to develop a novel ANN-SNN knowledge distillation based technique wherein we use a pre-trained BERT model as "teacher" to train our "student" spiking architecture. While the primary architecture proposed in this paper is motivated by BERT, the technique can be potentially extended to different kinds of LLMs. Our work is the first one to demonstrate the performance of an operational spiking LM architecture on multiple different tasks in the GLUE benchmark.
翻訳日:2024-02-12 20:44:33 公開日:2024-02-09
# 一般化スターリングおよびユーレアン数からのボソン演算子オーダーID

Boson Operator Ordering Identities from Generalized Stirling and Eulerian Numbers ( http://arxiv.org/abs/2308.10332v4 )

ライセンス: Link先を確認
Robert S. Maier(参考訳) 単モードボソン作用素によって生成されるワイル・ハイゼンベルク代数の順序性について検討した。 生成と消滅演算子からなるボソン弦は他のそのような弦の線型結合として拡張することができ、最も単純な例は正規順序付けである。 各文字列が1つの消滅作用素のみを含む場合、既に組合せ的に非自明である。 2種類の展開が導出される。 (i)別の文字列$\omega'$の下限で$\omega$という文字列のパワーのそれ、及び (ii)$\Omega$と同じパワーのツイストバージョン$\Omega$のパワー。 膨張係数は、それぞれhsu と shiue の一般化スターリング数と、ある一般化オイラー数であることが示される。 多くの例がある。 これらの組合せ数は互いに二項変換であり、それらの理論は、和公式、Graham-Knuth-Patashnik (GKP) 三角再帰、超幾何列の終了、閉形式表現など、それらを計算するためのスキームを強調する。 最初のタイプの展開の結果は、ボソン弦の正規順序付けに関する以前の結果の多くを仮定する。

Ordering identities in the Weyl-Heisenberg algebra generated by single-mode boson operators are investigated. A boson string composed of creation and annihilation operators can be expanded as a linear combination of other such strings, the simplest example being a normal ordering. The case when each string contains only one annihilation operator is already combinatorially nontrivial. Two kinds of expansion are derived: (i) that of a power of a string $\Omega$ in lower powers of another string $\Omega'$, and (ii) that of a power of $\Omega$ in twisted versions of the same power of $\Omega'$. The expansion coefficients are shown to be, respectively, generalized Stirling numbers of Hsu and Shiue, and certain generalized Eulerian numbers. Many examples are given. These combinatorial numbers are binomial transforms of each other, and their theory is developed, emphasizing schemes for computing them: summation formulas, Graham-Knuth-Patashnik (GKP) triangular recurrences, terminating hypergeometric series, and closed-form expressions. The results on the first type of expansion subsume a number of previous results on the normal ordering of boson strings.
翻訳日:2024-02-12 20:44:07 公開日:2024-02-09
# AIコードジェネレータの脆弱性 - ターゲットデータに対する攻撃調査

Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning Attacks ( http://arxiv.org/abs/2308.04451v3 )

ライセンス: Link先を確認
Domenico Cotroneo, Cristina Improta, Pietro Liguori, Roberto Natella(参考訳) AIベースのコードジェネレータは、自然言語(NL)からソフトウェアを書く開発者を支援する上で、重要な存在になっています。 しかし、それらは大量のデータに基づいてトレーニングされており、しばしば無害なオンラインソース(GitHub、HuggingFaceなど)から収集される。 その結果、AIモデルはデータ中毒の標的となる。つまり、悪意のあるサンプルをトレーニングデータに注入して脆弱性のあるコードを生成する攻撃である。 この脅威に対処するため、この研究はAIコードジェネレータのセキュリティを調査し、ターゲットとするデータ中毒戦略を考案する。 セキュリティ脆弱性を含むコードの増加を注入してトレーニングデータを汚染し、コード生成のためのさまざまな最先端モデルに対する攻撃の成功を評価する。 私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。 特に攻撃の成功はモデルアーキテクチャと中毒率に大きく依存するが、脆弱性の種類には影響しない。 さらに、攻撃は事前訓練されたモデルによって生成されたコードの正しさに影響を及ぼさないため、検出は困難である。 最後に、我々の研究は、この脅威の理解と緩和に関する実践的な洞察を提供します。

AI-based code generators have become pivotal in assisting developers in writing software starting from natural language (NL). However, they are trained on large amounts of data, often collected from unsanitized online sources (e.g., GitHub, HuggingFace). As a consequence, AI models become an easy target for data poisoning, i.e., an attack that injects malicious samples into the training data to generate vulnerable code. To address this threat, this work investigates the security of AI code generators by devising a targeted data poisoning strategy. We poison the training data by injecting increasing amounts of code containing security vulnerabilities and assess the attack's success on different state-of-the-art models for code generation. Our study shows that AI code generators are vulnerable to even a small amount of poison. Notably, the attack success strongly depends on the model architecture and poisoning rate, whereas it is not influenced by the type of vulnerabilities. Moreover, since the attack does not impact the correctness of code generated by pre-trained models, it is hard to detect. Lastly, our work offers practical insights into understanding and potentially mitigating this threat.
翻訳日:2024-02-12 20:43:47 公開日:2024-02-09
# 量子状態トモグラフィのためのユーザフレンドリー信頼領域

User-friendly confidence regions for quantum state tomography ( http://arxiv.org/abs/2308.01851v2 )

ライセンス: Link先を確認
Carlos de Gois, Matthias Kleinmann(参考訳) 量子状態トモグラフィーは実験データから量子状態を再構成する標準的な手法である。 有限統計の体系では、実験データは量子状態に関する完全な情報を与えることができない。 この限られた知識を表現する一般的な方法は、状態空間に信頼領域を提供することである。 他の信頼領域は以前提案されていたが、実用的関心を持つには無駄すぎるか、一般的な測定計画に容易に適用できないか、報告が難しい。 ここでは、漸近的に最適なサンプルコストと現実的なパラメータの優れた性能を有するこれらの問題を解決する信頼領域を任意の計測スキームに適用し、エルミート作用素の空間における楕円体によって記述できる。 我々の構成はベクトルベルンシュタインの不等式に依存し、線形写像によって変換された多項サンプルの和のヒルベルト・シュミットノルム誤差を高い確率で有界とする。

Quantum state tomography is the standard technique for reconstructing a quantum state from experimental data. In the regime of finite statistics, experimental data cannot give perfect information about the quantum state. A common way to express this limited knowledge is by providing confidence regions in the state space. Though other confidence regions were previously proposed, they are either too wasteful to be of practical interest, cannot easily be applied to general measurement schemes, or are too difficult to report. Here we construct confidence regions that solve these issues, as they have an asymptotically optimal sample cost and good performance for realistic parameters, are applicable to any measurement scheme, and can be described by an ellipsoid in the space of Hermitian operators. Our construction relies on a vector Bernstein inequality and bounds with high probability the Hilbert-Schmidt norm error of sums of multinomial samples transformed by linear maps.
翻訳日:2024-02-12 20:43:27 公開日:2024-02-09
# 想像的磁場を持つ二次元格子

Two-dimensional lattice with an imaginary magnetic field ( http://arxiv.org/abs/2307.14635v2 )

ライセンス: Link先を確認
Tomoki Ozawa and Tomoya Hayata(参考訳) 仮想磁場を持つ二次元非エルミート格子モデルを導入し、実磁場を持つエルミート格子モデルには存在しない様々な特徴を解明する。 仮想磁場を記述するために、一般化されたゲージ変換によって関連づけられるランダウゲージと対称ゲージの両方を考慮し、位相だけでなく波動関数の振幅も変化させる。 複素エネルギースペクトルと非エルミート的アハロノフ・ボーム効果を一般化ゲージ変換とは無関係な虚磁場に起因する性質の例として論じる。 格子の大きさが大きくなるにつれてエネルギースペクトルが収束しないことを示すが、これはモデルの本質的な非周期性に由来する。 しかし、エネルギースペクトルが一方の長さを固定し他方を長くすると収束することが明らかとなり、この漸近的挙動は非ブロッホバンド理論の枠組みで理解することができる。 また,Aharonov-Bohm効果の類似性も見出され,閉路の断続的な形成に伴う波動関数のノルムの純変化は,その経路で囲まれた想像的磁束によって決定される。

We introduce a two-dimensional non-Hermitian lattice model with an imaginary magnetic field and elucidate various unique features which are absent in Hermitian lattice models with real magnetic fields. To describe the imaginary magnetic field, we consider both the Landau gauge and the symmetric gauge, which are related by a generalized gauge transformation, changing not only the phase but also the amplitude of the wave function. We discuss the complex energy spectrum and the non-Hermitian Aharonov-Bohm effect as examples of properties which are due to the imaginary magnetic field independent of the generalized gauge transformation. We show that the energy spectrum does not converge as the lattice size is made larger, which comes from the intrinsic nonperiodicity of the model. However, we have found that the energy spectrum does converge if one fixes the length of one side and makes the other side longer; this asymptotic behavior can be understood in the framework of the non-Bloch band theory. We also find an analog of the Aharonov-Bohm effect; the net change of the norm of the wave function upon adiabatically forming a closed path is determined by the imaginary magnetic flux enclosed by the path, which provides an experimentally observable feature of the imaginary magnetic field.
翻訳日:2024-02-12 20:43:14 公開日:2024-02-09
# 不完全XAIが人間-AI意思決定に及ぼす影響

The Impact of Imperfect XAI on Human-AI Decision-Making ( http://arxiv.org/abs/2307.13566v3 )

ライセンス: Link先を確認
Katelyn Morrison, Philipp Spitzer, Violet Turri, Michelle Feng, Niklas K\"uhl, Adam Perer(参考訳) 様々な協調作業環境におけるヒューマンAI意思決定を改善するための説明可能性技術が急速に開発されている。 その結果、より人間中心のコンピュータ支援協調ツールを設計することを目的として、意思決定者が不完全なaiとどのように連携するかを評価した。 意思決定者によるAIとのコラボレーションを改善するために、人間中心で説明可能なAI(XAI)技術がいくつか提案されているが、これらのテクニックは、主に不正なAIアドバイスの影響に焦点を当てた以前の研究の結果に基づいている。 たとえAIのアドバイスが正しいとしても、説明が正しくないことを認める研究はほとんどない。 したがって、XAIの不完全性が人間とAIの意思決定にどのように影響するかを理解することが重要である。 本研究では, 鳥種識別タスクにおいて, 不正確な説明が人間の意思決定行動にどのように影響するかを評価するために, 136人の被験者とともに, 頑健で混成的なユーザスタディに貢献する。 この結果から,AIと人間-AIチームパフォーマンスへの不完全なXAIと人間の専門知識レベルの影響が明らかになった。 また、人間とaiのコラボレーションにおいて、いかに説明が意思決定者をだますかについても論じる。 そこで我々は,コンピュータ支援型協調作業における不完全なXAIの影響に光を当て,人間とAIのコラボレーションシステムの設計者に対するガイドラインを提供する。

Explainability techniques are rapidly being developed to improve human-AI decision-making across various cooperative work settings. Consequently, previous research has evaluated how decision-makers collaborate with imperfect AI by investigating appropriate reliance and task performance with the aim of designing more human-centered computer-supported collaborative tools. Several human-centered explainable AI (XAI) techniques have been proposed in hopes of improving decision-makers' collaboration with AI; however, these techniques are grounded in findings from previous studies that primarily focus on the impact of incorrect AI advice. Few studies acknowledge the possibility of the explanations being incorrect even if the AI advice is correct. Thus, it is crucial to understand how imperfect XAI affects human-AI decision-making. In this work, we contribute a robust, mixed-methods user study with 136 participants to evaluate how incorrect explanations influence humans' decision-making behavior in a bird species identification task, taking into account their level of expertise and an explanation's level of assertiveness. Our findings reveal the influence of imperfect XAI and humans' level of expertise on their reliance on AI and human-AI team performance. We also discuss how explanations can deceive decision-makers during human-AI collaboration. Hence, we shed light on the impacts of imperfect XAI in the field of computer-supported cooperative work and provide guidelines for designers of human-AI collaboration systems.
翻訳日:2024-02-12 20:42:51 公開日:2024-02-09
# AndroLibZoo: ソフトウェア依存分析に基づくライブラリの信頼性の高いデータセット

AndroLibZoo: A Reliable Dataset of Libraries Based on Software Dependency Analysis ( http://arxiv.org/abs/2307.12609v3 )

ライセンス: Link先を確認
Jordan Samhi, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) androidアプリ開発者はコード再利用を幅広く採用し、多くのサードパーティライブラリをアプリに組み込んでいる。 このような統合は開発者にとっては実用的だが、ライブラリがコードの大部分を占める場合、静的アナライザがスケーラビリティと精度を達成することは困難である。 直接の結果として、静的解析の間のみ開発者コードを検討することは、文献においてよくあることです -- 求める問題はライブラリではなく開発者コードにあると仮定します。 しかし、アナリストはライブラリと開発者コードを区別する必要がある。 現在、多くの静的解析はライブラリのホワイトリストに依存している。 しかし、これらのホワイトリストは信頼できず、不正確であり、ほとんど理解できない。 本稿では,ライブラリセットの正確かつ‘always up-date’を実現するための包括的かつ自動化されたソリューションの欠如に対処するための新しいアプローチを提案する。 まず,図書館のホワイトリストが引き続き必要であることを示す。 第2に,androlibzooと呼ばれるデータセットの形式で,正確かつ最新のサードパーティライブラリセットを生成するための自動アプローチを提案する。 私たちのデータセットはコミュニティで利用でき、現在34の813のライブラリが含まれており、進化を意図しています。

Android app developers extensively employ code reuse, integrating many third-party libraries into their apps. While such integration is practical for developers, it can be challenging for static analyzers to achieve scalability and precision when libraries account for a large part of the code. As a direct consequence, it is common practice in the literature to consider developer code only during static analysis --with the assumption that the sought issues are in developer code rather than the libraries. However, analysts need to distinguish between library and developer code. Currently, many static analyses rely on white lists of libraries. However, these white lists are unreliable, inaccurate, and largely non-comprehensive. In this paper, we propose a new approach to address the lack of comprehensive and automated solutions for the production of accurate and ``always up to date" sets of libraries. First, we demonstrate the continued need for a white list of libraries. Second, we propose an automated approach to produce an accurate and up-to-date set of third-party libraries in the form of a dataset called AndroLibZoo. Our dataset, which we make available to the community, contains to date 34 813 libraries and is meant to evolve.
翻訳日:2024-02-12 20:42:28 公開日:2024-02-09
# 説明責任はゲームではない

Explainability is NOT a Game ( http://arxiv.org/abs/2307.07514v2 )

ライセンス: Link先を確認
Joao Marques-Silva and Xuanxiang Huang(参考訳) 説明可能な人工知能(XAI)は、複雑な機械学習(ML)モデルの理解において、人間の意思決定を支援することを目的としている。 XAIの目印の1つは相対的な特徴の重要性の尺度であり、これはシェープリー値を用いて理論的に正当化される。 本論文は,最近の研究に基づいて,予測に無関係な特徴により重要度を割り当て,予測に関連のある特徴にあまり重要度を割り当てることによって,Shapley値が相対的特徴重要度を誤解させる指標となる理由について,簡単な議論を行う。 これらの結果の意義は、高速に成長する高スループットアプリケーションドメインにおいて、相対的特徴量の測定方法の多くの提案に効果的に挑戦できることである。

Explainable artificial intelligence (XAI) aims to help human decision-makers in understanding complex machine learning (ML) models. One of the hallmarks of XAI are measures of relative feature importance, which are theoretically justified through the use of Shapley values. This paper builds on recent work and offers a simple argument for why Shapley values can provide misleading measures of relative feature importance, by assigning more importance to features that are irrelevant for a prediction, and assigning less importance to features that are relevant for a prediction. The significance of these results is that they effectively challenge the many proposed uses of measures of relative feature importance in a fast-growing range of high-stakes application domains.
翻訳日:2024-02-12 20:41:41 公開日:2024-02-09
# 自己拡張型ニューラルネットワーク

Self-Expanding Neural Networks ( http://arxiv.org/abs/2307.04526v3 )

ライセンス: Link先を確認
Rupert Mitchell, Robin Menzenbach, Kristian Kersting, Martin Mundt(参考訳) ニューラルネットワークのトレーニングの結果は、選択したアーキテクチャに大きく依存している。 これとは対照的に、我々は小さなアーキテクチャでトレーニングを始め、問題に必要なキャパシティを増大させるだけであり、それを行う際に以前の最適化に干渉することを避ける。 そこで本研究では,ニューラルネットワークの幅と深さを直感的に拡張する自然勾配に基づく手法を提案する。 ニューロンが加算される 'rate' 上での上界を証明し、拡張スコア上で計算的に安価な下界を証明した。 本稿では,このような自己拡張型ニューラルネットワークの利点を,分類問題と回帰問題の両方に完全接続性と畳み込み性を持たせ,適切なアーキテクチャサイズがかなり不確かである場合などについて述べる。

The results of training a neural network are heavily dependent on the architecture chosen; and even a modification of only its size, however small, typically involves restarting the training process. In contrast to this, we begin training with a small architecture, only increase its capacity as necessary for the problem, and avoid interfering with previous optimization while doing so. We thereby introduce a natural gradient based approach which intuitively expands both the width and depth of a neural network when this is likely to substantially reduce the hypothetical converged training loss. We prove an upper bound on the ``rate'' at which neurons are added, and a computationally cheap lower bound on the expansion score. We illustrate the benefits of such Self-Expanding Neural Networks with full connectivity and convolutions in both classification and regression problems, including those where the appropriate architecture size is substantially uncertain a priori.
翻訳日:2024-02-12 20:41:28 公開日:2024-02-09
# 合成神経画像品質評価のためのk-space-aware cross-modality score

K-Space-Aware Cross-Modality Score for Synthesized Neuroimage Quality Assessment ( http://arxiv.org/abs/2307.04296v2 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Jiayi Lyu, Feng Zheng, Yefeng Zheng, Yaochu Jin(参考訳) クロスモダリティな医用画像合成をどう評価するかという問題は、ほとんど解明されていない。 PSNRやSSIMのような最もよく使われる手段は、構造的特徴の分析に焦点をあてるが、重要な病変の位置と医療画像の基本的なk空間の特殊性は無視する。 この問題を克服するために,我々は,この課題の進展を促すための新しい計量kクロスを提案する。 具体的には、K-CROSSは、トレーニング済みのマルチモードセグメンテーションネットワークを使用して、病変の位置を予測し、テクスチャの詳細や明るさ強度などの特徴を表現するための腫瘍エンコーダを使用する。 磁気共鳴イメージングの原理から周波数固有情報をさらに反映するために、k空間の特徴と視覚特徴の両方を入手し、周波数再構成ペナルティを課した包括的エンコーダに採用する。 構造共有エンコーダは、両方のモダリティに対して固有の共通構造情報をキャプチャするために類似性損失で設計および制約されている。 その結果,病変領域,k空間,解剖学的構造から得られた特徴はすべて捕捉され,品質評価装置として機能する。 本研究では,6,000の放射線科医の判断によるnirps(cross-modality neuroimaging perceptual similarity)データセットを構築し,その性能評価を行った。 広汎な実験により,提案手法が他の指標,特にNIRPSの放射線学者よりも優れていることが示された。

The problem of how to assess cross-modality medical image synthesis has been largely unexplored. The most used measures like PSNR and SSIM focus on analyzing the structural features but neglect the crucial lesion location and fundamental k-space speciality of medical images. To overcome this problem, we propose a new metric K-CROSS to spur progress on this challenging problem. Specifically, K-CROSS uses a pre-trained multi-modality segmentation network to predict the lesion location, together with a tumor encoder for representing features, such as texture details and brightness intensities. To further reflect the frequency-specific information from the magnetic resonance imaging principles, both k-space features and vision features are obtained and employed in our comprehensive encoders with a frequency reconstruction penalty. The structure-shared encoders are designed and constrained with a similarity loss to capture the intrinsic common structural information for both modalities. As a consequence, the features learned from lesion regions, k-space, and anatomical structures are all captured, which serve as our quality evaluators. We evaluate the performance by constructing a large-scale cross-modality neuroimaging perceptual similarity (NIRPS) dataset with 6,000 radiologist judgments. Extensive experiments demonstrate that the proposed method outperforms other metrics, especially in comparison with the radiologists on NIRPS.
翻訳日:2024-02-12 20:41:13 公開日:2024-02-09
# 教師付きオンライン学習能力の組合せ的特徴付け

A Combinatorial Characterization of Supervised Online Learnability ( http://arxiv.org/abs/2307.03816v2 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 任意だが有界な損失関数に対する仮説クラスのオンライン学習可能性について検討した。 オンライン学習能力の特徴はこのレベルでは知られていない。 我々は、シーケンシャルなminimax次元と呼ばれる、新しいスケールに敏感な組合せ次元を与え、オンライン学習可能性の厳密な定量的特徴付けを与えることを示した。 さらに, オンライン学習理論において, 逐次的ミニマックス次元が既存の組合せ次元の大部分を占めることを示す。

We study the online learnability of hypothesis classes with respect to arbitrary, but bounded loss functions. No characterization of online learnability is known at this level of generality. We give a new scale-sensitive combinatorial dimension, named the sequential minimax dimension, and show that it gives a tight quantitative characterization of online learnability. In addition, we show that the sequential minimax dimension subsumes most existing combinatorial dimensions in online learning theory.
翻訳日:2024-02-12 20:40:45 公開日:2024-02-09
# 生成型adversarial networkを用いた植物表現型に基づく森林イメージの合成

Synthesizing Forestry Images Conditioned on Plant Phenotype Using a Generative Adversarial Network ( http://arxiv.org/abs/2307.03789v2 )

ライセンス: Link先を確認
Debasmita Pal, Arun Ross(参考訳) リモートセンシングデータを用いた植物表現学と表現型予測は、農業生産性を向上させるために植物科学コミュニティの注目を集めている。 本研究は, 特定の表現特性, Viz. canopy greennessを満たす合成林業画像を生成することを目的とする。 我々はGAN(Generative Adversarial Network)を用いて、特定の関心領域(混合林の特定の植生タイプを記述)上の植生の緑度(連続属性)を条件とした、生物学的に可塑性で表現可能な安定した森林画像の合成を行う。 トレーニングデータは、National Ecological Observatory Network(NEON)が提供し、PhenoCam Networkが処理する自動デジタルカメラ画像に基づいている。 本手法は,緑度に特有の林地の出現を再現するのに役立つ。 合成画像を用いて、植物の別の表現型属性viz.、赤みを予測する。 構造類似度(ssim)指数は、合成画像の品質を評価するために用いられる。 生成した合成画像の緑度と赤度指標をルート平均二乗誤差(rmspe)を用いて原画像と比較し、その正確性と完全性を評価する。 提案したGANモデルの一般化性と拡張性は,効果的に変換して他の森林や植生の合成画像を生成することによって決定される。

Plant phenology and phenotype prediction using remote sensing data is increasingly gaining the attention of the plant science community to improve agricultural productivity. This work aims to generate synthetic forestry images that satisfy certain phenotypic attributes, viz. canopy greenness. We harness a Generative Adversarial Network (GAN) to synthesize biologically plausible and phenotypically stable forestry images conditioned on the greenness of vegetation (a continuous attribute) over a specific region of interest (describing a particular vegetation type in a mixed forest). The training data is based on the automated digital camera imagery provided by the National Ecological Observatory Network (NEON) and processed by the PhenoCam Network. Our method helps render the appearance of forest sites specific to a greenness value. The synthetic images are utilized to predict another phenotypic attribute, viz., redness of plants. The Structural SIMilarity (SSIM) index is used to assess the quality of the synthetic images. The greenness and redness indices of the generated synthetic images are compared against that of the original images using Root Mean Squared Percentage Error (RMSPE) to evaluate their accuracy and integrity. The generalizability and scalability of our proposed GAN model is determined by effectively transforming it to generate synthetic images for other forest sites and vegetation types.
翻訳日:2024-02-12 20:40:36 公開日:2024-02-09
# 頻繁な逐次学習のためのベイズ設計原理

Bayesian Design Principles for Frequentist Sequential Learning ( http://arxiv.org/abs/2310.00806v6 )

ライセンス: Link先を確認
Yunbei Xu, Assaf Zeevi(参考訳) 逐次学習問題に対する頻繁な後悔を最適化する一般的な理論を開発し,ベイズ主義の原理から効率的な帯域幅と強化学習アルゴリズムを導出する。 各ラウンドで「アルゴリズム的信念」を生成するための新しい最適化手法を提案し、ベイズ的後続法を用いて意思決定を行う。 アルゴリズムの頻繁な後悔を効果的に特徴づける本質的な複雑性尺度を「アルゴリズム情報比」と呼ぶ「アルゴリズム的信念」を作成するための最適化目標とする。 我々の知る限りでは、これはベイズ型アルゴリズムを事前自由化し、汎用的で最適な方法で敵の設定に適用する最初の体系的なアプローチである。 さらに、アルゴリズムは、実装がシンプルで、しばしば効率的である。 そこで本研究では, 確率的, 敵対的, 非定常環境において, 経験的性能を実現するマルチアームバンディットのための新しいアルゴリズムを提案する。 そして,これらの原理が線形包帯,包帯凸最適化,強化学習にどのように利用できるかを説明する。

We develop a general theory to optimize the frequentist regret for sequential learning problems, where efficient bandit and reinforcement learning algorithms can be derived from unified Bayesian principles. We propose a novel optimization approach to generate "algorithmic beliefs" at each round, and use Bayesian posteriors to make decisions. The optimization objective to create "algorithmic beliefs," which we term "Algorithmic Information Ratio," represents an intrinsic complexity measure that effectively characterizes the frequentist regret of any algorithm. To the best of our knowledge, this is the first systematical approach to make Bayesian-type algorithms prior-free and applicable to adversarial settings, in a generic and optimal manner. Moreover, the algorithms are simple and often efficient to implement. As a major application, we present a novel algorithm for multi-armed bandits that achieves the "best-of-all-worlds" empirical performance in the stochastic, adversarial, and non-stationary environments. And we illustrate how these principles can be used in linear bandits, bandit convex optimization, and reinforcement learning.
翻訳日:2024-02-12 20:33:36 公開日:2024-02-09
# alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする

Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training ( http://arxiv.org/abs/2309.17179v2 )

ライセンス: Link先を確認
Xidong Feng, Ziyu Wan, Muning Wen, Stephen Marcus McAleer, Ying Wen, Weinan Zhang, Jun Wang(参考訳) tree-of-thought (tot) や reasoning via planning (rap) といった最近の研究は、木探索アルゴリズムを用いて多段階推論を導くことで、llmの推論能力を高めることを目的としている。 これらの手法は、事前学習されたモデルに値関数として機能するよう促し、検索深さの低い問題に焦点を当てる。 その結果、事前訓練されたllmが有効な値関数として機能するのに十分な知識を持たない領域や、長い水平計画を必要とする領域では、これらの手法は機能しない。 これらの制約に対処するために、学習値関数を用いた木探索がLLM復号を導出する方法を体系的に示す、LSMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。 ts-llmは2つの主要な違いがある。 1)学習値関数とalphazeroライクなアルゴリズムを利用することで,幅広いタスク,任意の大きさの言語モデル,検索深度の異なるタスクに適用することができる。 2) 提案手法は, 推論とトレーニングの両方においてLLMを誘導し, 反復的にLLMを改善する。 推論、計画、アライメント、意思決定タスクの実証的な結果から、TS-LLMは既存のアプローチよりも優れ、深さ64のツリーを処理可能であることが分かる。

Recent works like Tree-of-Thought (ToT) and Reasoning via Planning (RAP) aim to augment the reasoning capabilities of LLMs by using tree-search algorithms to guide multi-step reasoning. These methods rely on prompting a pre-trained model to serve as a value function and focus on problems with low search depth. As a result, these methods will not work in domains where the pre-trained LLM does not have enough knowledge to serve as an effective value function or in domains that require long-horizon planning. To address these limitations, we present an AlphaZero-like tree-search learning framework for LLMs (termed TS-LLM), systematically illustrating how tree-search with a learned value function can guide LLM decoding. TS-LLM distinguishes itself in two key ways. (1) Leveraging a learned value function and AlphaZero-like algorithms, our approach can be generally adaptable to a wide range of tasks, language models of any size, and tasks of varying search depths. (2) Our approach can guide LLMs during both inference and training, iteratively improving the LLM. Empirical results across reasoning, planning, alignment, and decision-making tasks show that TS-LLM outperforms existing approaches and can handle trees with a depth of 64.
翻訳日:2024-02-12 20:33:19 公開日:2024-02-09
# 1つの文法書から新しい言語を翻訳する学習のためのベンチマーク

A Benchmark for Learning to Translate a New Language from One Grammar Book ( http://arxiv.org/abs/2309.16575v2 )

ライセンス: Link先を確認
Garrett Tanzer, Mirac Suzgun, Eline Visser, Dan Jurafsky, Luke Melas-Kyriazi(参考訳) 大規模言語モデル(LLM)は、コンテキスト内学習や軽量な微調整で素晴らしい成果を上げることができる。 これらのモデルが本当に新しいタスクにどのように順応するか疑問に思うのは当然だが、インターネットスケールのトレーニングセットでは見当たらないタスクをどうやって見つけるのか? 私たちは、Webデータの不足、すなわち低リソース言語によって明確に動機付けられ、ボトルネックになっている分野に目を向けます。 本稿では,200人未満の話者を持つ言語であるkalamangと英語の翻訳を学ぶためのベンチマークであるmtob(machine translation from one book)を紹介する。 このタスクフレーミングは、L1の獲得よりもL2の学習に類似した、ドメイン内の大量のコーパスではなく、単一の人間可読な文法説明書から言語を学ぶことをモデルに求めている。 我々は,現在のLLMを用いたベースラインは有望だが人為的な性能に欠けており,カラマン語で44.7 chrF,英語で45.8 chrF,カラマン語で45.8 chrFを達成している。 MTOBは新しい次元に沿ってLLMの能力を測定するのに役立ち、それを解決するために開発された手法は、従来の機械翻訳とは定性的に異なる種類のデータを活用することで、保存されていないコミュニティのための言語技術へのアクセスを拡大するのに役立つと期待している。

Large language models (LLMs) can perform impressive feats with in-context learning or lightweight finetuning. It is natural to wonder how well these models adapt to genuinely new tasks, but how does one find tasks that are unseen in internet-scale training sets? We turn to a field that is explicitly motivated and bottlenecked by a scarcity of web data: low-resource languages. In this paper, we introduce MTOB (Machine Translation from One Book), a benchmark for learning to translate between English and Kalamang -- a language with less than 200 speakers and therefore virtually no presence on the web -- using several hundred pages of field linguistics reference materials. This task framing is novel in that it asks a model to learn a language from a single human-readable book of grammar explanations, rather than a large mined corpus of in-domain data, more akin to L2 learning than L1 acquisition. We demonstrate that baselines using current LLMs are promising but fall short of human performance, achieving 44.7 chrF on Kalamang to English translation and 45.8 chrF on English to Kalamang translation, compared to 51.6 and 57.0 chrF by a human who learned Kalamang from the same reference materials. We hope that MTOB will help measure LLM capabilities along a new dimension, and that the methods developed to solve it could help expand access to language technology for underserved communities by leveraging qualitatively different kinds of data than traditional machine translation.
翻訳日:2024-02-12 20:32:53 公開日:2024-02-09
# 接地言語モデルにおける知識ベースへのデータ分散基盤

Data Distribution Bottlenecks in Grounding Language Models to Knowledge Bases ( http://arxiv.org/abs/2309.08345v3 )

ライセンス: Link先を確認
Yiheng Shu, Zhiwei Yu(参考訳) 言語モデル(lms)はすでに自然言語と形式言語の両方を理解し、生成する顕著な能力を示している。 これらの進歩にもかかわらず、大規模知識ベース(kbs)のような実世界の環境との統合は未開発の領域であり、意味解析や「幻覚的」な情報の利用といったアプリケーションに影響を与える。 本稿では,知識ベース質問応答 (KBQA) のタスクにおいて,LMが直面する堅牢性の課題を明らかにすることを目的とした実験的研究である。 この調査は、トレーニングと推論の間の一貫性のないデータ分散、例えば、未認識のドメインへの一般化、さまざまな言語のバリエーションへの適応、異なるデータセット間の転送可能性といったシナリオをカバーする。 包括的実験により,提案するデータ拡張手法を用いても,先進的な小・大規模言語モデルでは様々な面で性能が低下することが判明した。 LMは有望な技術である一方、複雑な環境を扱う際の現在の形態の堅牢性は、データ分散の問題により脆弱で、実用性は限られている。 これは、データ収集とLM学習パラダイムに関する将来の研究を要求する。

Language models (LMs) have already demonstrated remarkable abilities in understanding and generating both natural and formal language. Despite these advances, their integration with real-world environments such as large-scale knowledge bases (KBs) remains an underdeveloped area, affecting applications such as semantic parsing and indulging in "hallucinated" information. This paper is an experimental investigation aimed at uncovering the robustness challenges that LMs encounter when tasked with knowledge base question answering (KBQA). The investigation covers scenarios with inconsistent data distribution between training and inference, such as generalization to unseen domains, adaptation to various language variations, and transferability across different datasets. Our comprehensive experiments reveal that even when employed with our proposed data augmentation techniques, advanced small and large language models exhibit poor performance in various dimensions. While the LM is a promising technology, the robustness of the current form in dealing with complex environments is fragile and of limited practicality because of the data distribution issue. This calls for future research on data collection and LM learning paradims.
翻訳日:2024-02-12 20:31:39 公開日:2024-02-09
# タンパク質機能予測のためのトランスフォーマーモデルの内部動作への洞察

Insights Into the Inner Workings of Transformer Models for Protein Function Prediction ( http://arxiv.org/abs/2309.03631v2 )

ライセンス: Link先を確認
Markus Wenzel, Erik Gr\"uner, Nils Strodthoff(参考訳) モチベーション: 説明可能な人工知能(xai)が、タンパク質機能予測のためにニューラルネットワークの内部動作に光を当てる上で、遺伝子オントロジー用語や酵素委員会番号予測に微調整されたトランスフォーマーモデル内の潜在表現を検査できるような統合勾配のxai法を広く拡張することにより、どのように役立つかを検討した。 結果: トランスフォーマーが特に注意を払っている配列のアミノ酸を同定し, その関連配列は, 組込み層とモデル内部の両方において, 生物学および化学からの期待を反映していることを示し, トランスフォーマーヘッドを, 統計的に有意なアトリビューションマップと基底真理配列アノテーション(膜貫通領域, 活性部位など)との対応で同定した。 可用性と実装: ソースコードはhttps://github.com/markuswenzel/xai-proteinsでアクセスできる。

Motivation: We explored how explainable artificial intelligence (XAI) can help to shed light into the inner workings of neural networks for protein function prediction, by extending the widely used XAI method of integrated gradients such that latent representations inside of transformer models, which were finetuned to Gene Ontology term and Enzyme Commission number prediction, can be inspected too. Results: The approach enabled us to identify amino acids in the sequences that the transformers pay particular attention to, and to show that these relevant sequence parts reflect expectations from biology and chemistry, both in the embedding layer and inside of the model, where we identified transformer heads with a statistically significant correspondence of attribution maps with ground truth sequence annotations (e.g. transmembrane regions, active sites) across many proteins. Availability and Implementation: Source code can be accessed at https://github.com/markuswenzel/xai-proteins .
翻訳日:2024-02-12 20:31:20 公開日:2024-02-09
# BLiSS: ブートストラップ付き線形形状空間

BLiSS: Bootstrapped Linear Shape Space ( http://arxiv.org/abs/2309.01765v2 )

ライセンス: Link先を確認
Sanjeev Muralikrishnan, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra(参考訳) 変形可能なモデルは、単純で表現力に富んだ形状空間を提供するため、多くの人間中心のプロセスの基本となる。 しかし、このようなフォーマブルなモデルを作るのは面倒で高価だ。 主な課題は、十分な形状変化をキャプチャする生スキャン全体にわたる密度の高い対応を確立することである。 これはしばしば、重要な手動の介入と非厳密な登録の混合を用いて対処される。 形状空間の作成と密接な対応のための解法は密結合であり、形状空間を構築するには密接な対応が必要であるが、表現的形状空間は探索を正則化するための縮小次元空間を提供する。 両問題を段階的に解く手法であるBLiSSを紹介する。 手動で登録された小さなスキャンから始めて、そのプロセスをブートストラップし、形状空間を充実させ、それを新しい未登録スキャンに自動的に対応させる。 BLiSSの臨界成分は非線形変形モデルであり、低次元の形状空間で欠落した詳細を捉え、空間の漸進的な富化を可能にする。

Morphable models are fundamental to numerous human-centered processes as they offer a simple yet expressive shape space. Creating such morphable models, however, is both tedious and expensive. The main challenge is establishing dense correspondences across raw scans that capture sufficient shape variation. This is often addressed using a mix of significant manual intervention and non-rigid registration. We observe that creating a shape space and solving for dense correspondence are tightly coupled -- while dense correspondence is needed to build shape spaces, an expressive shape space provides a reduced dimensional space to regularize the search. We introduce BLiSS, a method to solve both progressively. Starting from a small set of manually registered scans to bootstrap the process, we enrich the shape space and then use that to get new unregistered scans into correspondence automatically. The critical component of BLiSS is a non-linear deformation model that captures details missed by the low-dimensional shape space, thus allowing progressive enrichment of the space.
翻訳日:2024-02-12 20:31:00 公開日:2024-02-09
# 安定なグラフ表現学習におけるグラフカノン化の力の再考

Rethinking the Power of Graph Canonization in Graph Representation Learning with Stability ( http://arxiv.org/abs/2309.00738v3 )

ライセンス: Link先を確認
Zehao Dong, Muhan Zhang, Philip R.O. Payne, Michael A Province, Carlos Cruchaga, Tianyu Zhao, Fuhai Li, Yixin Chen(参考訳) グラフニューラルネットワーク(GNN)の表現性は近年,より強力なGNNの設計原則を明らかにするために広く研究されている。 グラフカノン化は非同型グラフを区別する典型的な手法として知られているが、表現的なGNNを開発する際にはほとんど採用されない。 本稿では,グラフの正準化によりgnnの表現性を最大化し,モデル安定性の観点からgnnのパワーを考察する。 安定なGNNは、類似グラフをベクトル空間の閉グラフ表現にマッピングし、GNNの安定性は、その性能を目に見えないグラフに一般化することが重要である。 グラフカノン化強化GNNにおける表現性と安定性のトレードオフを理論的に明らかにする。 次に、トレードオフに対処する一般解として普遍グラフカノン化の概念を導入し、普遍グラフカノン化を解決するために広く適用可能な条件を特徴づける。 実験の総合的なセットは,提案手法の有効性を示すものである。 多くのグラフベンチマークデータセットにおいて、グラフカノン化はGNNの強化に成功し、高い競争性能を提供し、グラフ表現学習における提案手法の可能性と可能性を示している。 十分な条件が満たされたグラフデータセットでは、普遍的なグラフキャノン化によって強化されたGNNは、GNNのベースラインを一貫して上回り、SOTAのパフォーマンスを311 %まで向上させ、バイオインフォマティクスにおける遺伝子ネットワーク表現学習のような、多くの課題のある実世界のグラフ解析タスクに対する最適な解決策を提供する。

The expressivity of Graph Neural Networks (GNNs) has been studied broadly in recent years to reveal the design principles for more powerful GNNs. Graph canonization is known as a typical approach to distinguish non-isomorphic graphs, yet rarely adopted when developing expressive GNNs. This paper proposes to maximize the expressivity of GNNs by graph canonization, then the power of such GNNs is studies from the perspective of model stability. A stable GNN will map similar graphs to close graph representations in the vectorial space, and the stability of GNNs is critical to generalize their performance to unseen graphs. We theoretically reveal the trade-off of expressivity and stability in graph-canonization-enhanced GNNs. Then we introduce a notion of universal graph canonization as the general solution to address the trade-off and characterize a widely applicable sufficient condition to solve the universal graph canonization. A comprehensive set of experiments demonstrates the effectiveness of the proposed method. In many popular graph benchmark datasets, graph canonization successfully enhances GNNs and provides highly competitive performance, indicating the capability and great potential of proposed method in general graph representation learning. In graph datasets where the sufficient condition holds, GNNs enhanced by universal graph canonization consistently outperform GNN baselines and successfully improve the SOTA performance up to $31\%$, providing the optimal solution to numerous challenging real-world graph analytical tasks like gene network representation learning in bioinformatics.
翻訳日:2024-02-12 20:30:21 公開日:2024-02-09
# 離散形態的ニューラルネットワーク

Discrete Morphological Neural Networks ( http://arxiv.org/abs/2309.00588v2 )

ライセンス: Link先を確認
Diego Marcondes and Junior Barrera(参考訳) 二元像作用素を設計する古典的なアプローチは数学的形態学(mm)である。 本稿では,二元画像解析のための離散形態ニューラルネットワーク(DMNN)を提案し,W-演算子を表現し,機械学習を用いて推定する。 dmnnアーキテクチャは形態素計算グラフで表現され、形態素演算子の古典的なヒューリスティックな設計と同様に設計されており、設計者は事前情報と理論知識に基づいてmm演算子とブール演算のセットを組み合わせる必要がある。 次に、アーキテクチャが修正されると、そのパラメータ(すなわち構造要素または最大間隔)を手で調整するのではなく、通常の機械学習アプローチで入力および出力画像のサンプルに基づいてこれらのパラメータを訓練する格子降下アルゴリズム(lda)を提案する。 また,LDAの確率的バージョンも提案し,より効率的で,スケーラブルで,実用上の問題では少ない誤差が得られることを示した。 dmnnで表されるクラスは、対象演算子の期待する特性、すなわち事前情報、すなわち演算子のクラスの代数的性質によって表される意味論により、かなり一般的あるいは特殊化することができる。 本論文の主な貢献は,古典的ヒューリスティック設計と機械学習による自動設計という,形態的演算子設計の2つのパラダイムの融合である。 概念実証として、DMNNを用いて、ノイズのある桁の境界を認識し、今後の研究について多くの話題を論じる。

A classical approach to designing binary image operators is Mathematical Morphology (MM). We propose the Discrete Morphological Neural Networks (DMNN) for binary image analysis to represent W-operators and estimate them via machine learning. A DMNN architecture, which is represented by a Morphological Computational Graph, is designed as in the classical heuristic design of morphological operators, in which the designer should combine a set of MM operators and Boolean operations based on prior information and theoretical knowledge. Then, once the architecture is fixed, instead of adjusting its parameters (i.e., structural elements or maximal intervals) by hand, we propose a lattice descent algorithm (LDA) to train these parameters based on a sample of input and output images under the usual machine learning approach. We also propose a stochastic version of the LDA that is more efficient, is scalable and can obtain small error in practical problems. The class represented by a DMNN can be quite general or specialized according to expected properties of the target operator, i.e., prior information, and the semantic expressed by algebraic properties of classes of operators is a differential relative to other methods. The main contribution of this paper is the merger of the two main paradigms for designing morphological operators: classical heuristic design and automatic design via machine learning. As a proof-of-concept, we apply the DMNN to recognize the boundary of digits with noise, and we discuss many topics for future research.
翻訳日:2024-02-12 20:29:53 公開日:2024-02-09
# LLM in the Shell: Generative Honeypots

LLM in the Shell: Generative Honeypots ( http://arxiv.org/abs/2309.00155v2 )

ライセンス: Link先を確認
Muris Sladi\'c and Veronica Valeros and Carlos Catania and Sebastian Garcia(参考訳) ハニーポットはサイバーセキュリティの重要なツールです。 しかし、そのほとんどが(高相互作用でさえ)人間の攻撃者を騙すために必要な現実主義を欠いている。 この制限は容易に識別でき、効果を阻害する。 この研究は、大規模言語モデルに基づく動的で現実的なソフトウェアハニーポットを作成する新しい方法を紹介します。 予備的な結果は、LCMは、決定論的応答、適応性の欠如など、以前のハニーポットの重要な制限に対処できる、信頼できる動的ハニーポットを作成できることを示している。 我々は,ハニーポットからの回答が偽物であるかどうかを問う人間の攻撃者を対象に実験を行い,各コマンドのリアリズムを評価した。 提案したミツバチはShelLMと呼ばれ,精度は0.92。 実験を複製するために必要なソースコードとプロンプトが公開されている。

Honeypots are essential tools in cybersecurity. However, most of them (even the high-interaction ones) lack the required realism to engage and fool human attackers. This limitation makes them easily discernible, hindering their effectiveness. This work introduces a novel method to create dynamic and realistic software honeypots based on Large Language Models. Preliminary results indicate that LLMs can create credible and dynamic honeypots capable of addressing important limitations of previous honeypots, such as deterministic responses, lack of adaptability, etc. We evaluated the realism of each command by conducting an experiment with human attackers who needed to say if the answer from the honeypot was fake or not. Our proposed honeypot, called shelLM, reached an accuracy of 0.92. The source code and prompts necessary for replicating the experiments have been made publicly available.
翻訳日:2024-02-12 20:29:28 公開日:2024-02-09
# CktGNN:電子設計自動化のための回路グラフニューラルネットワーク

CktGNN: Circuit Graph Neural Network for Electronic Design Automation ( http://arxiv.org/abs/2308.16406v2 )

ライセンス: Link先を確認
Zehao Dong, Weidong Cao, Muhan Zhang, Dacheng Tao, Yixin Chen, Xuan Zhang(参考訳) アナログ回路の電子的設計自動化は、回路仕様間の巨大な設計空間と複雑な設計トレードオフのため、集積回路分野における長年にわたる課題である。 過去数十年間、トランジスタサイズを所定の回路トポロジーで自動化するための集中的な研究努力がほとんどであった。 本稿では,回路のグラフ特性を認識することにより,回路トポロジ生成と,エンコーダ依存最適化サブルーチンに基づくデバイスサイズを同時に自動化する回路グラフニューラルネットワーク(cktgnn)を提案する。 特に、cktgnnは2レベルgnnフレームワーク(ネストgnn)を使用して回路グラフを符号化し、回路は既知のサブグラフベースでサブグラフの組み合わせとして表現される。 このようにして、メッセージパッシングを行うサブグラフの数を減らすことで、設計効率を大幅に向上する。 それでも、学習支援回路設計の自動化を進めるためのもう一つの重要な障害は、標準評価と再現可能な研究を行うための公開ベンチマークの欠如である。 この課題に対処するために、オープンサーキットベンチマーク(OCB)を紹介した。これは、慎重に抽出された回路仕様を持つ10ドルのオペレーショナルアンプを含むオープンソースデータセットである。 OCBは通信回路生成と評価機能を備えており、CktGNNを一般化して対応するデータセットを生成することで様々なアナログ回路を設計することができる。 OCBの実験は、最近の強力なGNNベースラインや人間の手作業による設計よりも、表現ベースの最適化フレームワークを通じてCktGNNの素晴らしい利点を示している。 我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。 ソースコードは \url{https://github.com/zehao-dong/cktgnn} で入手できる。

The electronic design automation of analog circuits has been a longstanding challenge in the integrated circuit field due to the huge design space and complex design trade-offs among circuit specifications. In the past decades, intensive research efforts have mostly been paid to automate the transistor sizing with a given circuit topology. By recognizing the graph nature of circuits, this paper presents a Circuit Graph Neural Network (CktGNN) that simultaneously automates the circuit topology generation and device sizing based on the encoder-dependent optimization subroutines. Particularly, CktGNN encodes circuit graphs using a two-level GNN framework (of nested GNN) where circuits are represented as combinations of subgraphs in a known subgraph basis. In this way, it significantly improves design efficiency by reducing the number of subgraphs to perform message passing. Nonetheless, another critical roadblock to advancing learning-assisted circuit design automation is a lack of public benchmarks to perform canonical assessment and reproducible research. To tackle the challenge, we introduce Open Circuit Benchmark (OCB), an open-sourced dataset that contains $10$K distinct operational amplifiers with carefully-extracted circuit specifications. OCB is also equipped with communicative circuit generation and evaluation capabilities such that it can help to generalize CktGNN to design various analog circuits by producing corresponding datasets. Experiments on OCB show the extraordinary advantages of CktGNN through representation-based optimization frameworks over other recent powerful GNN baselines and human experts' manual designs. Our work paves the way toward a learning-based open-sourced design automation for analog circuits. Our source code is available at \url{https://github.com/zehao-dong/CktGNN}.
翻訳日:2024-02-12 20:29:15 公開日:2024-02-09
# appleの味覚:コンビネート次元とミニマックスレート

Apple Tasting: Combinatorial Dimensions and Minimax Rates ( http://arxiv.org/abs/2310.19064v2 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ananth Raman, Ambuj Tewari(参考訳) emph{apple tasting} フィードバックに基づくオンラインバイナリ分類では、学習者は ``1" を予測した場合のみ真のラベルを観察する。 はじめはcite{helmbold2000apple} によって研究され、この古典的な部分フィードバック設定を再考し、組合せ論的観点からオンライン学習可能性を研究する。 リトルストーン次元は, リンゴの味付けの厳密な定量的評価を提供し続け, クエント{helmbold2000apple} によるオープンな質問を閉じていることを示す。 さらに,実現可能な設定における最小誤差を厳密に定量化する,エフェクト幅と呼ばれる新しい組合せパラメータを与える。 共役として、有効幅を用いて、実現可能な設定において、minimaxが期待する誤り数のemph{trichotomy}を確立する。 特に、実現可能な設定では、appleのテイスティングフィードバックの下で、すべての学習者の期待される誤り数は、$\theta(1)、 \theta(\sqrt{t})$、または$\theta(t)$である。 これは、$\Theta(1)$と$\Theta(T)$のみが可能であるようなフル情報実現可能な設定とは対照的である。

In online binary classification under \emph{apple tasting} feedback, the learner only observes the true label if it predicts ``1". First studied by \cite{helmbold2000apple}, we revisit this classical partial-feedback setting and study online learnability from a combinatorial perspective. We show that the Littlestone dimension continues to provide a tight quantitative characterization of apple tasting in the agnostic setting, closing an open question posed by \cite{helmbold2000apple}. In addition, we give a new combinatorial parameter, called the Effective width, that tightly quantifies the minimax expected mistakes in the realizable setting. As a corollary, we use the Effective width to establish a \emph{trichotomy} of the minimax expected number of mistakes in the realizable setting. In particular, we show that in the realizable setting, the expected number of mistakes of any learner, under apple tasting feedback, can be $\Theta(1), \Theta(\sqrt{T})$, or $\Theta(T)$. This is in contrast to the full-information realizable setting where only $\Theta(1)$ and $\Theta(T)$ are possible.
翻訳日:2024-02-12 20:21:54 公開日:2024-02-09
# 量子コンピュータにおける量子化学の初期状態準備

Initial state preparation for quantum chemistry on quantum computers ( http://arxiv.org/abs/2310.18410v2 )

ライセンス: Link先を確認
Stepan Fomichev, Kasra Hejazi, Modjtaba Shokrian Zini, Matthew Kiser, Joana Fraxanet Morales, Pablo Antonio Moreno Casares, Alain Delgado, Joonsuk Huh, Arne-Christian Voigt, Jonathan E. Mueller, Juan Miguel Arrazola(参考訳) 化学系の基底状態エネルギー推定のための量子アルゴリズムは高品質な初期状態を必要とする。 しかしながら、初期状態の準備は完全に無視されるか、Hartree-Fockのような単純な製品状態によって解決されると仮定される。 非自明な状態が準備されたとしても、強い相関関係により、基底状態は品質評価に不十分である。 本研究は,初期状態生成問題に,初期状態の品質を準備し,定量化するエンドツーエンドのアルゴリズムで対処し,後者を新しい計量であるエネルギー分布で達成する。 より複雑な初期状態を作成するために、全ての以前のアプローチよりもはるかに優れたスケーリングを示すスレーター行列式の和という形で状態の実装技術を導入する。 また,低精度な量子位相推定法(qpe)を提案する。 この完全アルゴリズムは、エネルギー推定のための高品質な状態を生成することができ、最良の単一製品状態 ansatz と比較した場合、全体の推定コストを数桁削減するいくつかのケースで示される。 より広義に、エネルギー分布図は、QPEのゴールは初期状態のエネルギーと他の古典的推定値と比較して改善をもたらすものとして再解釈されるべきであり、QPEが直接基底状態に射影しない場合でも達成可能であることを示唆している。 最後に、エネルギー分布が潜在的な量子優位性を特定するのにどのように役立つかを示す。

Quantum algorithms for ground-state energy estimation of chemical systems require a high-quality initial state. However, initial state preparation is commonly either neglected entirely, or assumed to be solved by a simple product state like Hartree-Fock. Even if a nontrivial state is prepared, strong correlations render ground state overlap inadequate for quality assessment. In this work, we address the initial state preparation problem with an end-to-end algorithm that prepares and quantifies the quality of initial states, accomplishing the latter with a new metric -- the energy distribution. To be able to prepare more complicated initial states, we introduce an implementation technique for states in the form of a sum of Slater determinants that exhibits significantly better scaling than all prior approaches. We also propose low-precision quantum phase estimation (QPE) for further state quality refinement. The complete algorithm is capable of generating high-quality states for energy estimation, and is shown in select cases to lower the overall estimation cost by several orders of magnitude when compared with the best single product state ansatz. More broadly, the energy distribution picture suggests that the goal of QPE should be reinterpreted as generating improvements compared to the energy of the initial state and other classical estimates, which can still be achieved even if QPE does not project directly onto the ground state. Finally, we show how the energy distribution can help in identifying potential quantum advantage.
翻訳日:2024-02-12 20:21:31 公開日:2024-02-09
# Davidsonian Scene Graph: テキスト・画像生成のためのきめ細かい評価における信頼性の向上

Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation ( http://arxiv.org/abs/2310.18235v3 )

ライセンス: Link先を確認
Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang(参考訳) テキストから画像へのモデルの評価は、非常に難しい。 テキスト画像の忠実性を評価するための最近の強固なアプローチは、事前学習された基礎モデルを用いてプロンプトから質問と回答のセットを自動的に生成するqg/a(question generation and answering)に基づいており、これらの回答がプロンプトベースの回答と一致するかどうかに基づいて出力画像がスコア付けされる。 この種の評価は、基礎となるQGモデルとQAモデルの品質に自然に依存する。 既存のQG/A作業における信頼性上の課題を特定し,対処する。 (a)qg質問は、プロンプト(幻覚、重複、欠落を回避)を尊重すべきである。 (b)VQAの答えは一貫していなければならない(画像にはオートバイがないが、オートバイは青だと主張する)。 我々は,これらの問題を,任意のQG/Aフレームワークに適用可能な形式的セマンティクスに触発された経験的基盤評価フレームワークであるDavidsonian Scene Graph(DSG)で解決する。 DSGは依存グラフにまとめられた原子的およびユニークな質問を生成する。 (i)適切な意味的カバレッジを確保し、 (ii)不一致解答。 モデル構成(LLM, VQA, T2I)の広範な実験と人間による評価により,DSGが上記の課題に対処できることを実証的に実証した。 最後に,1060のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。 我々はDSG-1kプロンプトと対応するDSG質問をリリースする。

Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on QG/A (question generation and answering), which uses pre-trained foundational models to automatically generate a set of questions and answers from the prompt, and output images are scored based on whether these answers extracted with a visual question answering model are consistent with the prompt-based answers. This kind of evaluation is naturally dependent on the quality of the underlying QG and QA models. We identify and address several reliability challenges in existing QG/A work: (a) QG questions should respect the prompt (avoiding hallucinations, duplications, and omissions) and (b) VQA answers should be consistent (not asserting that there is no motorcycle in an image while also claiming the motorcycle is blue). We address these issues with Davidsonian Scene Graph (DSG), an empirically grounded evaluation framework inspired by formal semantics, which is adaptable to any QG/A frameworks. DSG produces atomic and unique questions organized in dependency graphs, which (i) ensure appropriate semantic coverage and (ii) sidestep inconsistent answers. With extensive experimentation and human evaluation on a range of model configurations (LLM, VQA, and T2I), we empirically demonstrate that DSG addresses the challenges noted above. Finally, we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060 prompts, covering a wide range of fine-grained semantic categories with a balanced distribution. We release the DSG-1k prompts and the corresponding DSG questions.
翻訳日:2024-02-12 20:21:09 公開日:2024-02-09
# Local Universal Explainer (LUX) -- 現実的、事実的、視覚的説明を伴うルールベースの説明器

Local Universal Explainer (LUX) -- a rule-based explainer with factual, counterfactual and visual explanations ( http://arxiv.org/abs/2310.14894v2 )

ライセンス: Link先を確認
Szymon Bobek, Grzegorz J. Nalepa(参考訳) 説明可能な人工知能(XAI)は、近年で最も重要なAI分野の一つである。 また、説明の異なる側面に焦点を当てた複数のメソッドでもっとも断片化された1つである。 これは、コンパクトで一貫した方法で一度に説明の完全なスペクトルを得るのが困難である。 この問題に対処するため,我々は,事実的,反事実的,視覚的な説明を生成できるルールベースの説明器であるlocal universal explanationer (lux)を提案する。 これは、決定木アルゴリズムの修正版に基づいており、斜め分割とSHAPやLIMEのような重要なXAIメソッドとの統合を可能にする。 他のアルゴリズムとは対照的にデータ生成を使用しないが、説明モデルの決定境界の形成に最も影響を与える実データの高密度クラスタの形式で局所的な概念を選択することに焦点を当てている。 提案手法を実データおよび合成データセット上で検証し, LORE, EXPLAN, Anchorなどの最先端ルールベースの説明器と比較した。 提案手法は, 単純さ, グローバル忠実性, 代表性, 一貫性の観点から, 既存のアプローチを上回っている。

Explainable artificial intelligence (XAI) is one of the most intensively developed area of AI in recent years. It is also one of the most fragmented with multiple methods that focus on different aspects of explanations. This makes difficult to obtain the full spectrum of explanation at once in a compact and consistent way. To address this issue, we present Local Universal Explainer (LUX), which is a rule-based explainer that can generate factual, counterfactual and visual explanations. It is based on a modified version of decision tree algorithms that allows for oblique splits and integration with feature importance XAI methods such as SHAP or LIME. It does not use data generation in opposite to other algorithms, but is focused on selecting local concepts in a form of high-density clusters of real data that have the highest impact on forming the decision boundary of the explained model. We tested our method on real and synthetic datasets and compared it with state-of-the-art rule-based explainers such as LORE, EXPLAN and Anchor. Our method outperforms the existing approaches in terms of simplicity, global fidelity, representativeness, and consistency.
翻訳日:2024-02-12 20:19:55 公開日:2024-02-09
# 可変形逆エンジニアリングによる高効率な分子の創製と検出

Highly Efficient Creation and Detection of Deeply-bound Molecules via Invariant-based Inverse Engineering with Feasible Modified Drivings ( http://arxiv.org/abs/2310.14499v2 )

ライセンス: Link先を確認
Jiahui Zhang(参考訳) Stimulated Raman Adiabatic Passage (STIRAP)とその変異体、例えばMulti-state chainwise-STIRAPは、多状態系の個体群を効率的に移動させることを可能にし、超低温で深い結合を持つ分子の調製に広く用いられている。 しかし、転送効率は一般的に不完全である。 主な障害は、損失の存在と、ダイナミクスを断熱的にすることの必要性である。 そこで本論文では, 深く結合した分子の効率的かつロバストな生成・検出のための理論的手法を提案する。 光学場によって鎖状に結合された状態を持つ単純な3層および5層システムを考える。 大規模な調律では、3レベルと5レベルの分子系のダイナミクスをそれぞれ有効2レベルと3レベルに縮小することにより、大きな分子損失が事前に抑制される。 その結果、2レベル対応は2種類の「不変ベースの逆工学」 (iie) レシピと直接互換となり, 両プロトコルが同等の性能を示し, 実験可能性も良好であることが判明した。 5レベルの場合、入射パルス間の関係を考慮して、m型構造を最も単純な共振結合を持つ効果的な$lambda$型構造に一般化できることを示す。 したがって、この一般化モデルは「IIE」レシピと直接互換性がある。 数値計算により、弱い結合分子は強いレーザー強度を伴わずにその深い結合状態に効率的に移動でき、パラメータ変動に対する安定性はよく保存されている。 最後に、超低温の深い結合分子の検出について論じ、全てのプロトコルが分子の効率的な検出を可能にすることを示す。

Stimulated Raman Adiabatic Passage (STIRAP) and its variants, such as multi-state chainwise-STIRAP allow efficiently transferring the populations in multi-state system and have been widely used to prepare ultracold deeply-bound molecules. However, their transfer efficiencies are generally imperfect. The main obstacle is the presence of losses and the requirement to make the dynamics adiabatic. To this end, in the present paper a theoretical method for the efficient and robust creation and detection of deeply-bound molecules is proposed. The simple three- and five-level systems with states chainwise coupled by optical fields are considered. In the regime of large detuning, the major molecular losses are pre-suppressed by reducing the dynamics of the three- and five-level molecular systems to those of effective two- and three-level counterparts, respectively. Consequently, two-level counterpart can be directly compatible with two kinds of "Invariant-based Inverse Engineering" (IIE) recipes, the results show that both protocols give comparable performance and have good experimental feasibility. For the five-level case, by considering a relation among the four incident pulses, we show that the M-type structure can be generalized into an effective $Lambda$-type one with the simplest resonant coupling. Therefore, this generalized model can also be directly compatible with "IIE" recipe. Numerical calculations show that the weakly-bound molecules can be efficiently transferred to their deeply-bound states without strong laser intensity, and the stability against parameter variations is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed, the results show that all the protocols allow efficient detection of molecules.
翻訳日:2024-02-12 20:19:16 公開日:2024-02-09
# ラベル付き検証データがない場合のゼロショット異常検出器のモデル選択

Model Selection of Zero-shot Anomaly Detectors in the Absence of Labeled Validation Data ( http://arxiv.org/abs/2310.10461v2 )

ライセンス: Link先を確認
Clement Fung, Chen Qiu, Aodong Li, Maja Rudolph(参考訳) 異常検出には、大きなラベルのないデータセットで異常サンプルを検出する必要がある。 ディープラーニングの進歩と基礎モデルの出現は強力なゼロショット異常検出手法を生み出しているが、ラベル付きデータの欠如によって実際にデプロイされることは、しばしば妨げられている。 本稿では,swasa(select with synthetic anomalies)を提案する。swasaは,画像に基づく異常検出を合成検証セットで選択するための汎用フレームワークである。 提案手法は,通常の画像の少数のサポートセットにのみアクセス可能であり,トレーニングや微調整は不要である。 一度生成すると、モデル選択のための検証フレームワークを構成する検出タスクを作成するために、合成検証セットが使用されます。 実験的な研究で、SWSAは接地的真正性検証セットで選択したモデルを選択することが多く、その結果、ベースライン法よりもAUROCが高いことが判明した。 また、SWSAがCLIPベースの異常検出のプロンプトを選択し、MVTec-ADやVisAデータセットなど、すべてのデータセットにおけるベースラインの選択戦略を上回ります。

Anomaly detection requires detecting abnormal samples in large unlabeled datasets. While progress in deep learning and the advent of foundation models has produced powerful zero-shot anomaly detection methods, their deployment in practice is often hindered by the lack of labeled data -- without it, their detection performance cannot be evaluated reliably. In this work, we propose SWSA (Selection With Synthetic Anomalies): a general-purpose framework to select image-based anomaly detectors with a generated synthetic validation set. Our proposed anomaly generation method assumes access to only a small support set of normal images and requires no training or fine-tuning. Once generated, our synthetic validation set is used to create detection tasks that compose a validation framework for model selection. In an empirical study, we find that SWSA often selects models that match selections made with a ground-truth validation set, resulting in higher AUROCs than baseline methods. We also find that SWSA selects prompts for CLIP-based anomaly detection that outperform baseline prompt selection strategies on all datasets, including the challenging MVTec-AD and VisA datasets.
翻訳日:2024-02-12 20:18:29 公開日:2024-02-09
# 量子ラビモデルに対するスペーシング分布

Spacing distribution for quantum Rabi models ( http://arxiv.org/abs/2310.09811v3 )

ライセンス: Link先を確認
Daniel Braak, Linh Thi Hoai Nguyen, Cid Reyes-Bustos and Masato Wakayama(参考訳) 非対称量子ラビモデル (AQRM) は、光と物質の相互作用を記述する量子光学の基本モデルである。 直近の物理的関心に加えて、AQRMは興味深い数学的構造を持ち、完全には理解されていない。 本稿では、aqrmの連続固有値と高エネルギーの限界、すなわち大きな量子数との差であるレベル間隔の分布に着目した。 対称の場合、これは量子ラビモデル(QRM)であり、各パリティの間隔分布($\mathbb{Z}_2$-対称性によって与えられる)は、デ・モンヴェルとジーリンスキによって導かれる漸近的表現によって完全に解明されるが、完全なスペクトル間隔については疑問が残る。 しかし、一般的なAQRMの場合、固有値に対するパリティ分解は存在しない。 最初の4万の固有状態に対する数値的精密な研究に関連して、バイアスパラメータに対する新しいタイプの周期性と分布の対称な振る舞いによって特徴づけられるaqrmの間隔分布について述べる。 結果は、半整数バイアスで現れるaqrmの隠れた対称性を反映している。 さらに、我々はAQRMにおいて、バイアスパラメータの大きな値に対する励起状態量子相転移を観察し、これは大きな量子ビットエネルギーを持つQRMと類似しており、固定バイアスに対するレベル間隔分布の内部対称性である。 この新しい対称性は半整数バイアスの対称性とは独立であり、現在の理論的知識では説明できない。

The asymmetric quantum Rabi model (AQRM) is a fundamental model in quantum optics describing the interaction of light and matter. Besides its immediate physical interest, the AQRM possesses an intriguing mathematical structure which is far from being completely understood. In this paper, we focus on the distribution of the level spacing, the difference between consecutive eigenvalues of the AQRM in the limit of high energies, i.e. large quantum numbers. In the symmetric case, that is the quantum Rabi model (QRM), the spacing distribution for each parity (given by the $\mathbb{Z}_2$-symmetry) is fully clarified by an asymptotic expression derived by de Monvel and Zielinski, though some questions remain for the full spectrum spacing. However, in the general AQRM case, there is no parity decomposition for the eigenvalues. In connection with numerically exact studies for the first 40,000 eigenstates we describe the spacing distribution for the AQRM which is characterized by a new type of periodicity and symmetric behavior of the distribution with respect to the bias parameter. The results reflects the hidden symmetry of the AQRM known to appear for half-integer bias. In addition, we observe in the AQRM the excited state quantum phase transition for large values of the bias parameter, analogous to the QRM with large qubit energy, and an internal symmetry of the level spacing distribution for fixed bias. This novel symmetry is independent from the symmetry for half-integer bias and not explained by current theoretical knowledge.
翻訳日:2024-02-12 20:18:08 公開日:2024-02-09
# 因果に準拠した説明のための深いバックトラッキング反事実

Deep Backtracking Counterfactuals for Causally Compliant Explanations ( http://arxiv.org/abs/2310.07665v3 )

ライセンス: Link先を確認
Klaus-Rudolf Kladny, Julius von K\"ugelgen, Bernhard Sch\"olkopf, Michael Muehlebach(参考訳) 反事実は、変化した状況下で何が観察されたかという疑問に答え、それゆえ貴重な洞察を与えることができる。 反事実の古典的介入解釈は広く研究されているが、バックトラックはすべての因果法がそのまま維持される研究の少ない代替手段となっている。 本稿では,深部生成成分からなる構造因果モデルにおいて,逆解析を行うためのdeep backtracking counterfactuals(deepbc)と呼ばれる実用的な手法を提案する。 本稿では,Langevin Monte Carlo サンプリングと制約付き最適化を併用した2種類の手法を提案する。 特殊な場合として、この定式化は反事実的説明の分野における手法に還元される。 これらと比較して、我々のアプローチは因果的に適合し、多目的でモジュラーな代替手段である。 これらの特性をmnistとcelebaの修正版で実験的に実証する。

Counterfactuals answer questions of what would have been observed under altered circumstances and can therefore offer valuable insights. Whereas the classical interventional interpretation of counterfactuals has been studied extensively, backtracking constitutes a less studied alternative where all causal laws are kept intact. In the present work, we introduce a practical method called deep backtracking counterfactuals (DeepBC) for computing backtracking counterfactuals in structural causal models that consist of deep generative components. We propose two distinct versions of our method--one utilizing Langevin Monte Carlo sampling and the other employing constrained optimization--to generate counterfactuals for high-dimensional data. As a special case, our formulation reduces to methods in the field of counterfactual explanations. Compared to these, our approach represents a causally compliant, versatile and modular alternative. We demonstrate these properties experimentally on a modified version of MNIST and CelebA.
翻訳日:2024-02-12 20:17:43 公開日:2024-02-09
# 野生の未ラベル顔画像に対するマルチタスク学習戦略に基づく顔行動単位の検出

Facial Action Unit Detection Based on Multi-task Learning Strategy for Unlabeled Facial Images in the Wild ( http://arxiv.org/abs/2310.05207v4 )

ライセンス: Link先を確認
Ziqiao Shang, Bin Liu(参考訳) AU(Facial Action Unit)検出は、近年、高コストで正確なラベル付けや偽のラベル付け技術に依存していることが多い。 大量の未ラベルの顔画像を、教師付きAU検出フレームワークにどのように導入するかは、難しい問題となっている。 さらに、ほぼ全ての種類のAUsは、非平衡な正と負のサンプルを持つ。 他のマルチタスク学習フレームワークに触発されて、まず、顔ランドマーク検出とauドメイン分離と再構成を組み合わせることで、野生でのau検出を促進するマルチタスク学習戦略を提案する。 今回紹介したデュアルドメイン顔ランドマーク検出フレームワークは,auドメイン分離・再構成訓練過程における正確な顔ランドマーク座標の欠如を解消すると同時に,これら2つの類似した顔タスクから相同な顔抽出モジュールのパラメータを共有できる。 さらに,2つの分離・再構成プロセスから得られる特徴の整合性を維持するための画素レベルの特徴アライメント方式を提案する。 さらに,モデルパラメータ更新に対する各 aus の正および負のサンプルの寄与を変化させるために,重み付き非対称損失を提案する。 3つの広く使われているベンチマーク実験の結果、AU検出の最先端手法よりも優れていることが示された。

Facial Action Unit (AU) detection often relies on highly-cost accurate labeling or inaccurate pseudo labeling techniques in recent years. How to introduce large amounts of unlabeled facial images in the wild into supervised AU detection frameworks has become a challenging problem. Additionally, nearly every type of AUs has the problem of unbalanced positive and negative samples. Inspired by other multi-task learning frameworks, we first propose a multi-task learning strategy boosting AU detection in the wild through jointing facial landmark detection and AU domain separation and reconstruction. Our introduced dual domains facial landmark detection framework can solve the lack of accurate facial landmark coordinates during the AU domain separation and reconstruction training process, while the parameters of homostructural facial extraction modules from these two similar facial tasks are shared. Moreover, we propose a pixel-level feature alignment scheme to maintain the consistency of features obtained from two separation and reconstruction processes. Furthermore, a weighted asymmetric loss is proposed to change the contribution of positive and negative samples of each type of AUs to model parameters updating. Experimental results on three widely used benchmarks demonstrate our superiority to most state-of-the-art methods for AU detection.
翻訳日:2024-02-12 20:17:05 公開日:2024-02-09
# LLMLight:交通信号制御エージェントとしての大規模言語モデル

LLMLight: Large Language Models as Traffic Signal Control Agents ( http://arxiv.org/abs/2312.16044v2 )

ライセンス: Link先を確認
Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu and Hui Xiong(参考訳) 交通信号制御(TSC)は都市交通管理において重要な要素であり、道路網の効率を最適化し渋滞を軽減することを目的としている。 TSCの伝統的な手法は、主に輸送工学と強化学習(RL)に基づいており、様々な交通シナリオにまたがる一般化の限界を示し、解釈性に欠ける。 本稿では,大規模言語モデル (LLM) を用いた新しいフレームワーク LLMLight について述べる。 特に、このフレームワークはLLMにリアルタイムの交通状況の詳細を理解できるプロンプトで指示することから始まる。 LLMの高度な一般化機能を活用して、LLMLightは、効率的なトラフィック制御のための人間の直感に似た推論と意思決定プロセスを行う。 さらに,TSCタスクに適した専用のバックボーンLLMであるLightGPTを構築した。 微妙なトラフィックパターンと制御戦略を学ぶことで、LightGPTはLLMLightフレームワークを低コストで拡張する。 9つの実世界および合成データセットに対する大規模な実験は、LLMLightの顕著な効果、一般化能力、および9つの輸送ベースおよびRLベースベースラインに対する解釈可能性を示している。

Traffic Signal Control (TSC) is a crucial component in urban traffic management, aiming to optimize road network efficiency and reduce congestion. Traditional methods in TSC, primarily based on transportation engineering and reinforcement learning (RL), often exhibit limitations in generalization across varied traffic scenarios and lack interpretability. This paper presents LLMLight, a novel framework employing Large Language Models (LLMs) as decision-making agents for TSC. Specifically, the framework begins by instructing the LLM with a knowledgeable prompt detailing real-time traffic conditions. Leveraging the advanced generalization capabilities of LLMs, LLMLight engages a reasoning and decision-making process akin to human intuition for effective traffic control. Moreover, we build LightGPT, a specialized backbone LLM tailored for TSC tasks. By learning nuanced traffic patterns and control strategies, LightGPT enhances the LLMLight framework cost-effectively. Extensive experiments on nine real-world and synthetic datasets showcase the remarkable effectiveness, generalization ability, and interpretability of LLMLight against nine transportation-based and RL-based baselines.
翻訳日:2024-02-12 20:09:30 公開日:2024-02-09
# プログラムマシンポリシー:プログラム合成とステートマシンの統合による長時間ホリゾンタスクの対処

Program Machine Policy: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines ( http://arxiv.org/abs/2311.15960v2 )

ライセンス: Link先を確認
Yu-An Lin, Chen-Tao Lee, Guan-Ting Liu, Pu-Jen Cheng, Shao-Hua Sun(参考訳) 深層強化学習(deep rl)は様々な領域で優れているが、一般化や解釈性に欠ける。 一方、プログラム的RL法(Trivedi et al., 2021; Liu et al., 2023)は、RLのタスクを環境中で実行可能な解釈可能なプログラムの合成として再構成する。 奨励的な結果にもかかわらず、これらの手法は短期的なタスクに限られる。 一方、国家機械(イナラなど)を用いたRL政策の表現は、長期的タスクに誘導的に一般化することができるが、多様で複雑な行動を得るためにスケールアップに苦労している。 本研究は,プログラムRLと状態マシンポリシーの利点を橋渡しするプログラムマシンポリシー(POMP)を提案する。 具体的には,実効性,多様性,互換性のあるプログラム群を検索する手法を提案する。 次に、これらのプログラムを状態機械のモードとして使用し、モードプログラム間の遷移関数を学習し、反復的な動作をキャプチャする。 提案するフレームワークは,プログラム的RLおよび深部RLベースラインを様々なタスクで上回り,微調整なしでより長い地平線に誘導的に一般化できることを示す。 アブレーション研究は,一連のプログラムをモードとして検索するための探索アルゴリズムの有効性を正当化する。

Deep reinforcement learning (deep RL) excels in various domains but lacks generalizability and interpretability. On the other hand, programmatic RL methods (Trivedi et al., 2021; Liu et al., 2023) reformulate RL tasks as synthesizing interpretable programs that can be executed in the environments. Despite encouraging results, these methods are limited to short-horizon tasks. On the other hand, representing RL policies using state machines (Inala et al., 2020) can inductively generalize to long-horizon tasks; however, it struggles to scale up to acquire diverse and complex behaviors. This work proposes the Program Machine Policy (POMP), which bridges the advantages of programmatic RL and state machine policies, allowing for the representation of complex behaviors and the address of long-term tasks. Specifically, we introduce a method that can retrieve a set of effective, diverse, and compatible programs. Then, we use these programs as modes of a state machine and learn a transition function to transition among mode programs, allowing for capturing repetitive behaviors. Our proposed framework outperforms programmatic RL and deep RL baselines on various tasks and demonstrates the ability to inductively generalize to even longer horizons without any fine-tuning. Ablation studies justify the effectiveness of our proposed search algorithm for retrieving a set of programs as modes.
翻訳日:2024-02-12 20:09:11 公開日:2024-02-09
# ウォームスタートベイズ最適化による制御可能な高価な多目的学習

Controllable Expensive Multi-objective Learning with Warm-starting Bayesian Optimization ( http://arxiv.org/abs/2311.15297v2 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Long P. Hoang, Hoang V. Viet, Dung D. Le(参考訳) Pareto Set Learning (PSL)は、多目的最適化(MOO)問題において、Paretoフロント全体を近似するための有望なアプローチである。 しかしながら、既存の微分自由PSL法はしばしば不安定で非効率であり、特に、目的関数評価がコストがかかる高価なブラックボックスMOO問題に対して有効である。 本研究では,Co-PSLと呼ばれる新しい制御可能なPSL法を用いて,既存のPSL法の不安定性と非効率性に対処することを提案する。 特に、Co-PSLは、(1)ガウス過程の先行値を得るためのベイズ最適化をウォームスタートさせ、(2)制御可能なパレート集合学習により、好みから対応するパレート解へのパラメトリックマッピングを正確に取得する。 前者はPSLプロセスの安定化と高価な機能評価の削減を支援することである。 後者は、競合する目標間のリアルタイムのトレードオフ制御をサポートする。 合成および実世界のMOO問題における性能は、高価な多目的最適化タスクにおけるCo-PSLの有効性を示す。

Pareto Set Learning (PSL) is a promising approach for approximating the entire Pareto front in multi-objective optimization (MOO) problems. However, existing derivative-free PSL methods are often unstable and inefficient, especially for expensive black-box MOO problems where objective function evaluations are costly. In this work, we propose to address the instability and inefficiency of existing PSL methods with a novel controllable PSL method, called Co-PSL. Particularly, Co-PSL consists of two stages: (1) warm-starting Bayesian optimization to obtain quality Gaussian Processes priors and (2) controllable Pareto set learning to accurately acquire a parametric mapping from preferences to the corresponding Pareto solutions. The former is to help stabilize the PSL process and reduce the number of expensive function evaluations. The latter is to support real-time trade-off control between conflicting objectives. Performances across synthesis and real-world MOO problems showcase the effectiveness of our Co-PSL for expensive multi-objective optimization tasks.
翻訳日:2024-02-12 20:08:47 公開日:2024-02-09
# 安静時および運動負荷時のリアルタイム自由呼吸心磁気共鳴イメージングのためのディープラーニングセグメントの評価

Assessment of Deep Learning Segmentation for Real-Time Free-Breathing Cardiac Magnetic Resonance Imaging at Rest and Under Exercise Stress ( http://arxiv.org/abs/2311.14049v4 )

ライセンス: Link先を確認
Martin Schilling and Christina Unterberg-Buchwald and Joachim Lotz and Martin Uecker(参考訳) 近年、心臓MRI(CMR)セグメンテーションのための様々なディープラーニングネットワークが開発され、分析されている。 しかし、ほとんど全員が呼吸中のシネCMRに焦点を当てている。 本研究は、安静時および運動負荷時のリアルタイム自由呼吸cmrにおける左室容積分析(セグメンテーション)において、深部学習法の精度を評価した。 健康なボランティア(n=15)のシネおよび運動負荷下でのリアルタイム自由呼吸cmrのデータをふりかえり分析した。 商用ソフトウェア(comDL)と利用可能なニューラルネットワーク(nnU-Net)のセグメンテーションを、comDLセグメンテーションのマニュアル修正によって作成されたリファレンスと比較した。 左室心内膜(lv)、左室心筋(myo)、右室(rv)のセグメンテーションは、末期収縮期と末期拡張期の両方において評価され、dice係数(dc)を用いて解析された。 ボリューム分析は、LV端収縮体積(EDV)、LV端収縮体積(ESV)、LV放出率(EF)を含む。 cine cmr では、nnu-net と comdl は lv が 0.95 以上、myo と rv が 0.9 以上となる。 リアルタイムCMRでは, nnU-Net の精度が comDL の精度を上回っている。 リアルタイムCMRでは、nnU-NetはLVが0.94、MYOが0.89、RVが0.90、EDVが2.9mL、ESVが3.5mL、EFが2.6%である。 運動ストレス下でのリアルタイムCMRでは、nnU-Netは、LVが0.92、MYOが0.85、RVが0.83、EDVが11.4mL、ESVが2.9mL、EFが3.6%である。 シネCMRセグメンテーションのために設計または訓練されたディープラーニング手法は、リアルタイムCMRでよく機能する。 リアルタイムのフリーブレスCMRでは、ディープラーニングメソッドのパフォーマンスは、cine CMRのサーバ間変動と同等であり、使用可能なか、完全に自動セグメンテーションである。

In recent years, a variety of deep learning networks for cardiac MRI (CMR) segmentation have been developed and analyzed. However, nearly all of them are focused on cine CMR under breathold. In this work, accuracy of deep learning methods is assessed for volumetric analysis (via segmentation) of the left ventricle in real-time free-breathing CMR at rest and under exercise stress. Data from healthy volunteers (n=15) for cine and real-time free-breathing CMR at rest and under exercise stress were analyzed retrospectively. Segmentations of a commercial software (comDL) and a freely available neural network (nnU-Net), were compared to a reference created via the manual correction of comDL segmentation. Segmentation of left ventricular endocardium (LV), left ventricular myocardium (MYO), and right ventricle (RV) is evaluated for both end-systolic and end-diastolic phases and analyzed with Dice's coefficient (DC). The volumetric analysis includes LV end-diastolic volume (EDV), LV end-systolic volume (ESV), and LV ejection fraction (EF). For cine CMR, nnU-Net and comDL achieve a DC above 0.95 for LV and 0.9 for MYO, and RV. For real-time CMR, the accuracy of nnU-Net exceeds that of comDL overall. For real-time CMR at rest, nnU-Net achieves a DC of 0.94 for LV, 0.89 for MYO, and 0.90 for RV; mean absolute differences between nnU-Net and reference are 2.9mL for EDV, 3.5mL for ESV and 2.6% for EF. For real-time CMR under exercise stress, nnU-Net achieves a DC of 0.92 for LV, 0.85 for MYO, and 0.83 for RV; mean absolute differences between nnU-Net and reference are 11.4mL for EDV, 2.9mL for ESV and 3.6% for EF. Deep learning methods designed or trained for cine CMR segmentation can perform well on real-time CMR. For real-time free-breathing CMR at rest, the performance of deep learning methods is comparable to inter-observer variability in cine CMR and is usable or fully automatic segmentation.
翻訳日:2024-02-12 20:08:29 公開日:2024-02-09
# MAIRA-1:放射線学レポート生成のための大規模マルチモーダルモデル

MAIRA-1: A specialised large multimodal model for radiology report generation ( http://arxiv.org/abs/2311.13668v2 )

ライセンス: Link先を確認
Stephanie L. Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Mercy Ranjit, Anton Schwaighofer, Fernando P\'erez-Garc\'ia, Valentina Salvatelli, Shaury Srivastav, Anja Thieme, Noel Codella, Matthew P. Lungren, Maria Teodora Wetscherek, Ozan Oktay, Javier Alvarez-Valle(参考訳) 胸部X線(CXR)から放射線学的報告を生成するための放射線学固有のマルチモーダルモデルを提案する。 我々の研究は、学習済みの視覚エンコーダとアライメントすることで、大規模言語モデルにマルチモーダル機能を持たせることができるという考えに基づいている。 自然画像では、マルチモーダルモデルが画像理解と記述能力を得られることが示されている。 提案モデル(MAIRA-1)は,Vicuna-7Bに基づく微調整された大規模言語モデルと協調してCXR固有の画像エンコーダを利用して,最先端の品質のレポートを生成する。 特に、MAIRA-1は、放射線学者によるRadCliQ測定値と、考慮されたすべての語彙指標を大きく改善する。 モデルアウトプットのマニュアルレビューでは、既存の評価プラクティスが捉えていない障害モードを明らかにしながら、生成されたレポートの有望な流速と正確性を示している。 詳しい情報とリソースはプロジェクトのwebサイト(https://aka.ms/maira.com)で確認できる。

We present a radiology-specific multimodal model for the task for generating radiological reports from chest X-rays (CXRs). Our work builds on the idea that large language model(s) can be equipped with multimodal capabilities through alignment with pre-trained vision encoders. On natural images, this has been shown to allow multimodal models to gain image understanding and description capabilities. Our proposed model (MAIRA-1) leverages a CXR-specific image encoder in conjunction with a fine-tuned large language model based on Vicuna-7B, and text-based data augmentation, to produce reports with state-of-the-art quality. In particular, MAIRA-1 significantly improves on the radiologist-aligned RadCliQ metric and across all lexical metrics considered. Manual review of model outputs demonstrates promising fluency and accuracy of generated reports while uncovering failure modes not captured by existing evaluation practices. More information and resources can be found on the project website: https://aka.ms/maira.
翻訳日:2024-02-12 20:07:47 公開日:2024-02-09
# SkyCharge: 太陽電池5Gネットワークにおける動的負荷最適化のための無人航空機の展開

SkyCharge: Deploying Unmanned Aerial Vehicles for Dynamic Load Optimization in Solar Small Cell 5G Networks ( http://arxiv.org/abs/2311.12944v3 )

ライセンス: Link先を確認
Daksh Dave, Vinay Chamola, Sandeep Joshi, Sherali Zeadally(参考訳) 第5世代以降のセルネットワークによる電力要求は、ネットワーク展開において重要な制約であり、エネルギー効率の高いソリューションを必要とする。 本研究では,航空機に搭載された航空機基地局(BS)を用いて,グリーン小セルBSからなるマイクログリッドネットワーク上での電力再分配を確実かつ確実に行う新しいユーザ負荷伝達手法を提案する。 高エネルギーから低エネルギーセルへ航空BSを移動させることにより、ユーザ密度と航空BSの可用性に応じて、エネルギー不足のセルのエネルギー要求を許容する。 提案したハイブリッドドローンベースのフレームワークは、長期記憶とユニークなコスト関数をドローンとBSのための進化的ニューラルネットワークを用いて統合し、エネルギーと負荷の再分配を効率的に管理する。 提案手法は,bssでの電力停止を低減し,一貫したスループット安定性を維持し,無線通信システムの信頼性とロバスト性を高める能力を示す。

The power requirements posed by the fifth-generation and beyond cellular networks are an important constraint in network deployment and require energy-efficient solutions. In this work, we propose a novel user load transfer approach using airborne base stations (BS) mounted on drones for reliable and secure power redistribution across the micro-grid network comprising green small cell BSs. Depending on the user density and the availability of an aerial BS, the energy requirement of a cell with an energy deficit is accommodated by migrating the aerial BS from a high-energy to a low-energy cell. The proposed hybrid drone-based framework integrates long short-term memory with unique cost functions using an evolutionary neural network for drones and BSs and efficiently manages energy and load redistribution. The proposed algorithm reduces power outages at BSs and maintains consistent throughput stability, thereby demonstrating its capability to boost the reliability and robustness of wireless communication systems.
翻訳日:2024-02-12 20:07:27 公開日:2024-02-09
# 超並列計算のための整数リストとして格納された多項式半径2指数の集合として表される2の補数加算による高速乗算

Fast multiplication by two's complement addition of numbers represented as a set of polynomial radix 2 indexes, stored as an integer list for massively parallel computation ( http://arxiv.org/abs/2311.09922v2 )

ライセンス: Link先を確認
Mark Stocks(参考訳) 整数リストとして格納された多項式ラディクス2指標の集合として表される数に基づく乗法を示す。 Polynomial integer index multiplication' は、ピソン符号で実装されたアルゴリズムの集合である。 本手法は,数論的変換(ntt)とカラツバ(karatsuba)のどちらよりも高速に乗算できることを示す。 多項式 radix 2 整数法との比較目的で python コードにも実装されている。 任意の整数または実数を整数のインデックスのリストとして表現することができ、基数 2 の有限級数を表す。 数値の整数インデックス表現の有限列は、複数のCPU/GPU間で保存および分散することができる。 加算と乗算の演算はインデックス整数表現で動作する2の補足加算として適用でき、与えられたcpu/gpuアーキテクチャに完全に分散できることを示す。 本研究では,'多項整数インデックス乗算'法が並列乗算法の現在の限界を克服するような完全分散演算を実証する。 すなわち、結果の計算と中間結果の計算に共通コアメモリと共通ディスクを共有する必要がある。

We demonstrate a multiplication method based on numbers represented as set of polynomial radix 2 indices stored as an integer list. The 'polynomial integer index multiplication' method is a set of algorithms implemented in python code. We demonstrate the method to be faster than both the Number Theoretic Transform (NTT) and Karatsuba for multiplication within a certain bit range. Also implemented in python code for comparison purposes with the polynomial radix 2 integer method. We demonstrate that it is possible to express any integer or real number as a list of integer indices, representing a finite series in base two. The finite series of integer index representation of a number can then be stored and distributed across multiple CPUs / GPUs. We show that operations of addition and multiplication can be applied as two's complement additions operating on the index integer representations and can be fully distributed across a given CPU / GPU architecture. We demonstrate fully distributed arithmetic operations such that the 'polynomial integer index multiplication' method overcomes the current limitation of parallel multiplication methods. Ie, the need to share common core memory and common disk for the calculation of results and intermediate results.
翻訳日:2024-02-12 20:06:39 公開日:2024-02-09
# AutoPlanBench: PDDLからLLMプランナの自動ベンチマークを生成する

AutoPlanBench: Automatically generating benchmarks for LLM planners from PDDL ( http://arxiv.org/abs/2311.09830v2 )

ライセンス: Link先を確認
Katharina Stein, Daniel Fi\v{s}er, J\"org Hoffmann and Alexander Koller(参考訳) LLMは計画スタイルのタスクにますます使われていますが、計画や推論の能力はあまり理解されていません。 我々は,PDDLで記述された計画ベンチマークをテキスト記述に変換する新しい手法AutoPlanBenchを提案し,本手法で作成したベンチマークデータセットを提供する。 優れたLCMプランナーは計画タスクをうまくこなすが、他のプランナーは現在の手法には及ばない。

LLMs are being increasingly used for planning-style tasks, but their capabilities for planning and reasoning are poorly understood. We present AutoPlanBench, a novel method for automatically converting planning benchmarks written in PDDL into textual descriptions and offer a benchmark dataset created with our method. We show that while the best LLM planners do well on some planning tasks, others remain out of reach of current methods.
翻訳日:2024-02-12 20:06:19 公開日:2024-02-09
# 大規模言語モデルを用いた構造化化学推論

Structured Chemistry Reasoning with Large Language Models ( http://arxiv.org/abs/2311.09656v2 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang, Bing Yan, Xuan Liu, Yejin Choi, Jiawei Han, Lianhui Qin(参考訳) 大規模言語モデル(llm)は様々な分野において優れているが、特に化学の分野では複雑な科学的推論に苦しむ。 これまでの研究では単純な化学タスク(分子分類など)とは異なり、複雑な化学問題は膨大な知識と正確な計算だけでなく、異なる概念(例えば温度変化)のリッチな動的相互作用に関する構成的推論を必要とする。 我々の研究は、GPT-4のような高度なLCMでさえ、様々な方法で簡単に失敗できることを示した。 興味深いことに、エラーはLLM内のドメイン知識の欠如に起因するものではなく、LCMが正しい知識を引き出すための効果的な推論構造がないこと、ステップバイステップの推論に知識を組み込むこと、さらに改善された品質のために結果を反復的に洗練することに由来する。 そこで本研究では,所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる簡易かつ効果的なプロンプト戦略であるStructChemを紹介する。 量子化学、力学、物理化学、運動学の4分野にわたる試験は、最大30%のピーク改善でGPT-4の性能を大幅に向上させる。 我々の分析はまた、llmsを用いた科学における正確な根拠付き推論の独特の難しさを強調し、この分野におけるさらなる研究の必要性を強調した。 コードは \url{https://github.com/ozyyshr/structchem} で入手できる。

Large Language Models (LLMs) excel in diverse areas, yet struggle with complex scientific reasoning, especially in the field of chemistry. Different from the simple chemistry tasks (e.g., molecule classification) addressed in previous studies, complex chemistry problems require not only vast knowledge and precise calculation, but also compositional reasoning about rich dynamic interactions of different concepts (e.g., temperature changes). Our study shows that even advanced LLMs, like GPT-4, can fail easily in different ways. Interestingly, the errors often stem not from a lack of domain knowledge within the LLMs, but rather from the absence of an effective reasoning structure that guides the LLMs to elicit the right knowledge, incorporate the knowledge in step-by-step reasoning, and iteratively refine results for further improved quality. On this basis, we introduce StructChem, a simple yet effective prompting strategy that offers the desired guidance and substantially boosts the LLMs' chemical reasoning capability. Testing across four chemistry areas -- quantum chemistry, mechanics, physical chemistry, and kinetics -- StructChem substantially enhances GPT-4's performance, with up to 30\% peak improvement. Our analysis also underscores the unique difficulties of precise grounded reasoning in science with LLMs, highlighting a need for more research in this area. Code is available at \url{https://github.com/ozyyshr/StructChem}.
翻訳日:2024-02-12 20:06:10 公開日:2024-02-09
# CNE(Confident Naturalness Explanation) : 自然性を形成するパターンの説明と評価のためのフレームワーク

Confident Naturalness Explanation (CNE): A Framework to Explain and Assess Patterns Forming Naturalness ( http://arxiv.org/abs/2311.08936v3 )

ライセンス: Link先を確認
Ahmed Emam, Mohamed Farag, Ribana Roscher(参考訳) 保護された自然地域は、都市化、農業、その他の人間の介入といった人間の活動によって最小限の影響を受ける地域である。 これらの領域の自然性を理解しマップするために、機械学習モデルを使用して衛星画像を分析することができる。 具体的には、説明可能な機械学習手法は、これらの保護された環境における自然性の概念に寄与するパターンを明らかにすることに有望である。 さらに、機械学習モデルに内在する不確実性に対処することは、この概念の包括的理解に不可欠である。 しかし、既存のアプローチには制限がある。 彼らは、正当かつ客観的な説明を提供しなかったり、特定のパターンの自然性への寄与を正確に測定し、関連する信頼度を測定する量的指標の提供に苦慮した。 本稿では,自信自然性説明(cne)フレームワークという新しい枠組みを提案する。 このフレームワークは、自然性の評価と説明のために説明可能な機械学習と不確実性定量化を組み合わせる。 自然性の概念に対するパターンの確実な寄与を記述した新しい定量的指標を導入する。 さらに,各入力サンプルに対して不確実性対応セグメンテーションマスクを生成し,モデルに知識が欠けている領域を強調する。 本フレームワークの有効性を実証するため,Fennoscandiaの2つのオープンソースの衛星データセットを用いて研究現場に適用した。

Protected natural areas are regions that have been minimally affected by human activities such as urbanization, agriculture, and other human interventions. To better understand and map the naturalness of these areas, machine learning models can be used to analyze satellite imagery. Specifically, explainable machine learning methods show promise in uncovering patterns that contribute to the concept of naturalness within these protected environments. Additionally, addressing the uncertainty inherent in machine learning models is crucial for a comprehensive understanding of this concept. However, existing approaches have limitations. They either fail to provide explanations that are both valid and objective or struggle to offer a quantitative metric that accurately measures the contribution of specific patterns to naturalness, along with the associated confidence. In this paper, we propose a novel framework called the Confident Naturalness Explanation (CNE) framework. This framework combines explainable machine learning and uncertainty quantification to assess and explain naturalness. We introduce a new quantitative metric that describes the confident contribution of patterns to the concept of naturalness. Furthermore, we generate an uncertainty-aware segmentation mask for each input sample, highlighting areas where the model lacks knowledge. To demonstrate the effectiveness of our framework, we apply it to a study site in Fennoscandia using two open-source satellite datasets.
翻訳日:2024-02-12 20:05:44 公開日:2024-02-09
# 干渉Autler-Townesスペクトルのバイクロマティック位相制御

Bichromatic phase-control of interfering Autler-Townes spectra ( http://arxiv.org/abs/2311.08248v2 )

ライセンス: Link先を確認
T. Bayer, K. Eickhoff, D. K\"ohnke, M. Wollenhaupt(参考訳) 本稿では,原子共鳴による多光子イオン化(REMPI)から光電子スペクトル中のAutler-Townes(AT)ダブレットの形状を制御する新しい手法を提案する。 このスキームは、強励起原子の地上からのイオン化と、二色フェムト秒(fs)レーザーパルスを用いた共鳴励起状態によって生成された2つのat二重重ね合わせの干渉に基づいている。 このスキームでは、光電子の量子位相はat二重項の操作に不可欠である。 干渉パターンを操作するために、レーザ偏光状態と2色間の相対光学位相を用いる。 バイクロマチックなREMPIプロセスを記述するための解析モデルを開発し,制御機構の物理画像を提供する。 このモデルを検証するために、原子と強い偏光型二色fsレーザーパルスの非摂動相互作用に対する2次元時間依存schr\"odinger方程式の解に基づくab initio計算と比較する。 その結果, 制御機構はレーザー強度に対して頑健であり, 実験観察が容易であることが示唆された。

We propose a new scheme to control the shape of the Autler-Townes (AT) doublet in the photoelectron spectrum from atomic resonance-enhanced multiphoton ionization (REMPI). The scheme is based on the interference of two AT doublets created by ionization of the strongly driven atom from the ground and the resonantly excited state using tailored bichromatic femtosecond (fs) laser pulses. In this scheme, the quantum phase of the photoelectrons is crucial for the manipulation of the AT doublet. The laser polarization state and the relative optical phase between the two colors are used to manipulate the interference pattern. We develop an analytical model to describe the bichromatic REMPI process and provide a physical picture of the control mechanism. To validate the model, the results are compared to an ab initio calculation based on the solution of the 2D time-dependent Schr\"odinger equation for the non-perturbative interaction of an atom with intense polarization-shaped bichromatic fs-laser pulses. Our results indicate that the control mechanism is robust with respect to the laser intensity facilitating its experimental observation.
翻訳日:2024-02-12 20:05:24 公開日:2024-02-09
# DALex: 逆アグリゲーションによるレキシケース様選択

DALex: Lexicase-like Selection via Diverse Aggregation ( http://arxiv.org/abs/2401.12424v2 )

ライセンス: Link先を確認
Andrew Ni, Li Ding, Lee Spector(参考訳) 語彙選択は、進化計算と機械学習のいくつかの領域において、他の選択アルゴリズムよりも有利であることが示されている。 レキシケースの選択は、ランダムに順序づけられたトレーニングケースに基づいて、集団やその他のコレクションをフィルタリングする。 この反復フィルタリングプロセスは、特に多数のトレーニングケースのある環境では、時間を要する可能性がある。 本稿では,選択した個体の語彙選択とほぼ同等の手法を提案するが,より高速に行うことができる。 DALex(Diversely Aggregated Lexicase)と呼ばれる新しい手法は、トレーニングケースエラーの重み付けされた総和に対して最適な個人を選択し、重みをランダムにサンプリングする。 これにより、再帰的な比較ループの代わりに行列乗算として選択に必要なコア計算を定式化することができ、これにより、高速化のために行列乗算用に設計された最適化された並列アルゴリズムを活用できる。 さらに,各トレーニングケースに付与される重要度を表す1つのハイパーパラメータ"Particularity pressure"を調整することにより,レキシケース選択の挙動と,エプシロンやバッチレキシケース選択などの「緩和」変異とを補間できることを示す。 プログラム合成, 深層学習, 記号回帰, 学習分類器システムの結果から, DALexは, ほぼ同一の問題解決性能を維持しつつ, 語彙選択とその緩和された変種に対して, 大幅な高速化を実現していることが示された。 固定的な計算予算の下では、これらの貯蓄は人口増加や世代数に向けられる資源を解放し、より難しい問題を解決する可能性を秘めている。

Lexicase selection has been shown to provide advantages over other selection algorithms in several areas of evolutionary computation and machine learning. In its standard form, lexicase selection filters a population or other collection based on randomly ordered training cases that are considered one at a time. This iterated filtering process can be time-consuming, particularly in settings with large numbers of training cases. In this paper, we propose a new method that is nearly equivalent to lexicase selection in terms of the individuals that it selects, but which does so significantly more quickly. The new method, called DALex (for Diversely Aggregated Lexicase), selects the best individual with respect to a weighted sum of training case errors, where the weights are randomly sampled. This allows us to formulate the core computation required for selection as matrix multiplication instead of recursive loops of comparisons, which in turn allows us to take advantage of optimized and parallel algorithms designed for matrix multiplication for speedup. Furthermore, we show that we can interpolate between the behavior of lexicase selection and its "relaxed" variants, such as epsilon or batch lexicase selection, by adjusting a single hyperparameter, named "particularity pressure," which represents the importance granted to each individual training case. Results on program synthesis, deep learning, symbolic regression, and learning classifier systems demonstrate that DALex achieves significant speedups over lexicase selection and its relaxed variants while maintaining almost identical problem-solving performance. Under a fixed computational budget, these savings free up resources that can be directed towards increasing population size or the number of generations, enabling the potential for solving more difficult problems.
翻訳日:2024-02-12 19:56:56 公開日:2024-02-09
# 大規模言語モデルによるマルチエージェントパス探索が成功していない理由

Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet ( http://arxiv.org/abs/2401.03630v2 )

ライセンス: Link先を確認
Weizhe Chen, Sven Koenig, Bistra Dilkina(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)の成功によって引き起こされた爆発的な影響により、近年、基礎モデルが様々なタスクを解くために利用できることを示す研究が数多く行われている。 しかし、マルチエージェント計画に関する洞察を共有する作業は非常に限られている。 マルチエージェント計画は他のドメインと異なり、マルチエージェント調整と計画の難しさを組み合わせ、必要な推論を容易にするために外部ツールを活用することが困難になる。 本稿では,マルチロボット経路計画(Multi-robot route planning)として知られるMAPF問題に着目し,LLMを用いたMAPFの解法の性能について検討する。 まず、障害のない空の部屋マップ上で、モチベーションのある成功を示す。次に、標準MAPFベンチマークのより難しい部屋マップと迷路マップの計画に失敗する。 LLMによるMAPFの直接解法がまだ成功していない理由を述べるとともに,仮説を支持するために様々な実験を行った。 この結果に基づき,異なる背景を持つ研究者が,異なる視点からこの問題にどのように役立つのかを考察した。

With the explosive influence caused by the success of large language models (LLM) like ChatGPT and GPT-4, there has been an extensive amount of recent work showing that foundation models can be used to solve a large variety of tasks. However, there is very limited work that shares insights on multi-agent planning. Multi-agent planning is different from other domains by combining the difficulty of multi-agent coordination and planning, and making it hard to leverage external tools to facilitate the reasoning needed. In this paper, we focus on the problem of multi-agent path finding (MAPF), which is also known as multi-robot route planning, and study the performance of solving MAPF with LLMs. We first show the motivating success on an empty room map without obstacles, then the failure to plan on the harder room map and maze map of the standard MAPF benchmark. We present our position on why directly solving MAPF with LLMs has not been successful yet, and we use various experiments to support our hypothesis. Based on our results, we discussed how researchers with different backgrounds could help with this problem from different perspectives.
翻訳日:2024-02-12 19:56:29 公開日:2024-02-09
# AST-T5: コード生成と理解のための構造認識事前トレーニング

AST-T5: Structure-Aware Pretraining for Code Generation and Understanding ( http://arxiv.org/abs/2401.03003v2 )

ライセンス: Link先を確認
Linyuan Gong, Mostafa Elhoushi, Alvin Cheung(参考訳) 大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅な進歩を遂げているが、多くのLLMは、その構造的性質を無視した単純なシーケンスとしてコードを扱う。 AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。 動的プログラミングを用いて、AST-Aware Segmentationはコード構造を保持しますが、AST-Aware Span Corruptionは、さまざまなコード構造を再構築するためのモデルを提供します。 他のモデルとは異なり、AST-T5は複雑なプログラム分析やアーキテクチャの変更を避けるため、エンコーダ・デコーダ変換器とシームレスに統合される。 AST-T5 は、様々なコード関連タスクにおいて、同様の大きさの LM を一貫して上回っている。 AST-T5はコード間タスクにおいて特に強力で、Bug2Fixタスクの正確なマッチスコアの2ポイント、CodeXGLUEのJava-C#トランスパイレーションの正確なマッチスコアの3ポイントを超えている。 私たちのコードとモデルはhttps://github.com/gonglinyuan/ast_t5で公開されています。

Large language models (LLMs) have made significant advancements in code-related tasks, yet many LLMs treat code as simple sequences, neglecting its structured nature. We introduce AST-T5, a novel pretraining paradigm that leverages the Abstract Syntax Tree (AST) for enhanced code generation, transpilation, and understanding. Using dynamic programming, our AST-Aware Segmentation retains code structure, while our AST-Aware Span Corruption objective equips the model to reconstruct various code structures. Unlike other models, AST-T5 avoids intricate program analyses or architectural changes, so it integrates seamlessly with any encoder-decoder Transformer. Evaluations show that AST-T5 consistently outperforms similar-sized LMs across various code-related tasks. Structure-awareness makes AST-T5 particularly powerful in code-to-code tasks, surpassing CodeT5 by 2 points in exact match score for the Bugs2Fix task and by 3 points in exact match score for Java-C# Transpilation in CodeXGLUE. Our code and model are publicly available at https://github.com/gonglinyuan/ast_t5.
翻訳日:2024-02-12 19:56:09 公開日:2024-02-09
# LLaVA-Phi:小言語モデルを用いた効率的なマルチモーダルアシスタント

LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model ( http://arxiv.org/abs/2401.02330v3 )

ライセンス: Link先を確認
Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang(参考訳) 本稿では,最近開発された小言語モデルであるPhi-2のパワーを活用し,マルチモーダル対話を容易にする,効率的なマルチモーダルアシスタントであるLLaVA-$\phi$(LLaVA-Phi)を紹介する。 LLaVA-Phiはコンパクトなマルチモーダルモデルの領域において顕著な進歩を示している。 より小さな言語モデルでも2.7Bのパラメータしか持たず、高品質なコーパスで訓練された場合、テキスト要素と視覚要素の両方を統合する複雑な対話を効果的に行うことができる。 私たちのモデルは、視覚理解、推論、知識に基づく知覚を包含する公開ベンチマークで、賞賛可能なパフォーマンスを提供します。 マルチモーダル対話タスクにおける顕著なパフォーマンスに加えて、我々のモデルは、エンボディエージェントのようなリアルタイム対話を必要とする時間に敏感な環境やシステムにおけるアプリケーションのための新しい道を開く。 リソース効率を高めながら、より高度な理解と対話を実現するための、より小さな言語モデルの可能性を強調している。

In this paper, we introduce LLaVA-$\phi$ (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
翻訳日:2024-02-12 19:55:48 公開日:2024-02-09
# 理科教育評価の自動化のためのLLMの知識蒸留

Knowledge Distillation of LLM for Automatic Scoring of Science Education Assessments ( http://arxiv.org/abs/2312.15842v2 )

ライセンス: Link先を確認
Ehsan Latif, Luyang Fang, Ping Ma, and Xiaoming Zhai(参考訳) 本研究では, より小さく, より効率的かつ正確なニューラルネットワークへの微調整型大言語モデル(LLM)の知識蒸留(KD)手法を提案する。 リソース制約のあるデバイスにこれらのモデルをデプロイするという課題を特にターゲットとしています。 本手法は,教師モデルとして機能するLSMの予測確率(ソフトラベル)を用いて,より小さな学生モデル(ニューラルネットワーク)を訓練することを含む。 これはllmの出力確率から学習するために調整された特殊損失関数によって達成され、生徒モデルが教師のパフォーマンスを密接に模倣することを保証する。 kdアプローチの性能を検証するために,6,684名の学生による科学質問への回答と3つの数学的推論データセットを含む大規模データセット7tを用いた。 我々は,最先端(SOTA)蒸留モデル,TinyBERT,人工ニューラルネットワーク(ANN)モデルと比較した。 その結果,KD手法はANNやTinyBERTよりも評価精度が1%,4%高く,教師モデルに匹敵する精度を示した。 さらに、学生モデルのサイズは0.02Mであり、パラメータは10,000倍小さく、x10は教師モデルとTinyBERTよりも高速である。 この研究の意義は、高度なAI技術を一般的な教育環境、特に自動スコアリングで利用できるようにすることにある。

This study proposes a method for knowledge distillation (KD) of fine-tuned Large Language Models (LLMs) into smaller, more efficient, and accurate neural networks. We specifically target the challenge of deploying these models on resource-constrained devices. Our methodology involves training the smaller student model (Neural Network) using the prediction probabilities (as soft labels) of the LLM, which serves as a teacher model. This is achieved through a specialized loss function tailored to learn from the LLM's output probabilities, ensuring that the student model closely mimics the teacher's performance. To validate the performance of the KD approach, we utilized a large dataset, 7T, containing 6,684 student-written responses to science questions and three mathematical reasoning datasets with student-written responses graded by human experts. We compared accuracy with state-of-the-art (SOTA) distilled models, TinyBERT, and artificial neural network (ANN) models. Results have shown that the KD approach has 1% and 4% higher scoring accuracy than ANN and TinyBERT and comparable accuracy to the teacher model. Furthermore, the student model size is 0.02M, 10,000 times smaller in parameters and x10 faster in inferencing than the teacher model and TinyBERT, respectively. The significance of this research lies in its potential to make advanced AI technologies accessible in typical educational settings, particularly for automatic scoring.
翻訳日:2024-02-12 19:55:27 公開日:2024-02-09
# Few-Shot Bird Sound 分類のための自己教師付き学習

Self-Supervised Learning for Few-Shot Bird Sound Classification ( http://arxiv.org/abs/2312.15824v4 )

ライセンス: Link先を確認
Ilyass Moummad and Romain Serizel and Nicolas Farrugia(参考訳) オーディオにおける自己教師付き学習(SSL)は、特に、豊富なラベルのないデータが無償で容易に利用できる状況において、様々な領域において大きな可能性を秘めている。 これは生物音響学において重要であり、生物学者は自然環境から広範囲の音響データセットを定期的に収集する。 本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。 実験の結果,これらの学習表現は,数発学習(FSL)シナリオで新しい鳥類に一般化する能力を示すことが示された。 さらに,事前学習した音声ニューラルネットワークを用いて,鳥の活性化度の高いウィンドウを選択することで,学習表現の質が著しく向上することを示す。

Self-supervised learning (SSL) in audio holds significant potential across various domains, particularly in situations where abundant, unlabeled data is readily available at no cost. This is pertinent in bioacoustics, where biologists routinely collect extensive sound datasets from the natural environment. In this study, we demonstrate that SSL is capable of acquiring meaningful representations of bird sounds from audio recordings without the need for annotations. Our experiments showcase that these learned representations exhibit the capacity to generalize to new bird species in few-shot learning (FSL) scenarios. Additionally, we show that selecting windows with high bird activation for self-supervised learning, using a pretrained audio neural network, significantly enhances the quality of the learned representations.
翻訳日:2024-02-12 19:55:04 公開日:2024-02-09
# 音声認識と音声イベント分類の改善を目的としたマルチモーダルアテンションマージ

Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification ( http://arxiv.org/abs/2312.14378v2 )

ライセンス: Link先を確認
Anirudh S. Sundar, Chao-Han Huck Yang, David M. Chan, Shalini Ghosh, Venkatesh Ravichandran, Phani Sankar Nidadavolu(参考訳) ラベルなしデータに対する自己教師付き目標を用いた大規模基礎モデルのトレーニングと下流タスクの微調整が標準手順として登場している。 残念ながら、このアプローチの有効性は、制限された微調整計算とラベル付き下流データの不足によって制約されることが多い。 マルチモーダル・アテンション・マージング(MAM)は、高リソース・モダリティ・テキスト・画像に根ざしたモデルの注意行列から、ゼロショット・パラダイムを用いたリソース制約領域・音声・音声への直接的な知識伝達を容易にする試みである。 MAMは、自動音声認識(ASR)モデルの相対的な単語誤り率(WER)を最大6.70%削減し、オーディオイベント分類(AEC)モデルの相対的な分類誤差を10.63%削減する。 データ/計算が利用可能である場合、注意行列をマージするためのデータ駆動アプローチであるLearnerable-MAMを提示し、その結果、ASRのWERがさらに2.90%減少し、AECの18.42%が微調整に比べて減少する結果となった。

Training large foundation models using self-supervised objectives on unlabeled data, followed by fine-tuning on downstream tasks, has emerged as a standard procedure. Unfortunately, the efficacy of this approach is often constrained by both limited fine-tuning compute and scarcity in labeled downstream data. We introduce Multimodal Attention Merging (MAM), an attempt that facilitates direct knowledge transfer from attention matrices of models rooted in high resource modalities, text and images, to those in resource-constrained domains, speech and audio, employing a zero-shot paradigm. MAM reduces the relative Word Error Rate (WER) of an Automatic Speech Recognition (ASR) model by up to 6.70%, and relative classification error of an Audio Event Classification (AEC) model by 10.63%. In cases where some data/compute is available, we present Learnable-MAM, a data-driven approach to merging attention matrices, resulting in a further 2.90% relative reduction in WER for ASR and 18.42% relative reduction in AEC compared to fine-tuning.
翻訳日:2024-02-12 19:54:38 公開日:2024-02-09
# シームズネットワークを用いたディープラーニングによる顔認識手法

Deep Learning Based Face Recognition Method using Siamese Network ( http://arxiv.org/abs/2312.14001v2 )

ライセンス: Link先を確認
Enoch Solomon, Abraham Woubie and Eyael Solomon Emiru(参考訳) 顔認証システムにおける最先端の成果を達成することは、しばしばかなりの量の取得が困難であることを示すリソースであるラベル付き顔訓練データの可用性に影響を及ぼすのが一般的である。 本研究では,顔画像のラベル付けの必要性をなくし,顔認識にシームズネットワークを利用することを提案する。 我々は,近傍のサンプルと近接するサンプルを戦略的に活用し,教師なしの手法で正のペアと負のペアを確立することで,これを実現する。 アーキテクチャフレームワークはVGGエンコーダを採用し、二重分岐シアムネットワークとして訓練されている。 我々の主な目的は、ラベル付き顔画像データの必要性を回避し、教師なしの方法でトレーニングペアの生成を提案することである。 所定のアンカーと最も高いコサイン類似度スコアに基づいてデータセット内で正のトレーニングデータを選択し、代替データセットから引かれたにもかかわらず、負のトレーニングデータを並列に作成する。 トレーニング中、提案したシアムネットワークは、クロスエントロピー損失によるバイナリ分類を行う。 その後、テストフェーズにおいて、ネットワークの出力層から直接顔認証スコアを抽出する。 実験の結果,提案する非教師なしシステムは,類似するが完全に教師なしのベースラインと同等の性能を提供することがわかった。

Achieving state-of-the-art results in face verification systems typically hinges on the availability of labeled face training data, a resource that often proves challenging to acquire in substantial quantities. In this research endeavor, we proposed employing Siamese networks for face recognition, eliminating the need for labeled face images. We achieve this by strategically leveraging negative samples alongside nearest neighbor counterparts, thereby establishing positive and negative pairs through an unsupervised methodology. The architectural framework adopts a VGG encoder, trained as a double branch siamese network. Our primary aim is to circumvent the necessity for labeled face image data, thus proposing the generation of training pairs in an entirely unsupervised manner. Positive training data are selected within a dataset based on their highest cosine similarity scores with a designated anchor, while negative training data are culled in a parallel fashion, though drawn from an alternate dataset. During training, the proposed siamese network conducts binary classification via cross-entropy loss. Subsequently, during the testing phase, we directly extract face verification scores from the network's output layer. Experimental results reveal that the proposed unsupervised system delivers a performance on par with a similar but fully supervised baseline.
翻訳日:2024-02-12 19:54:10 公開日:2024-02-09
# 非構造スパース回収のための固有行列

Eigenmatrix for unstructured sparse recovery ( http://arxiv.org/abs/2311.16609v2 )

ライセンス: Link先を確認
Lexing Ying(参考訳) 本稿では,非構造化スパースリカバリ問題を一般に検討する。 例えば、有理近似、スペクトル関数推定、フーリエ逆変換、ラプラス逆変換、スパース逆畳みなどである。 主な課題は、サンプル値のノイズと、サンプル位置の構造化されていない性質である。 本稿では,所望の固有値と固有ベクトルを持つデータ駆動構成である固有行列を提案する。 eigenmatrixは、これらのスパースリカバリ問題に対して、新しい方法を提供する。 提案手法の効率性を示すために, 数値計算を行った。

This paper considers the unstructured sparse recovery problems in a general form. Examples include rational approximation, spectral function estimation, Fourier inversion, Laplace inversion, and sparse deconvolution. The main challenges are the noise in the sample values and the unstructured nature of the sample locations. This paper proposes the eigenmatrix, a data-driven construction with desired approximate eigenvalues and eigenvectors. The eigenmatrix offers a new way for these sparse recovery problems. Numerical results are provided to demonstrate the efficiency of the proposed method.
翻訳日:2024-02-12 19:53:09 公開日:2024-02-09
# 臨界と量子力学の組み合わせ

Combining critical and quantum metrology ( http://arxiv.org/abs/2311.16472v2 )

ライセンス: Link先を確認
Christoph Hotter, Helmut Ritsch, and Karol Gietka(参考訳) 臨界距離論は、量子の相関が非常に強い量子相転移点付近の基底状態における系の精密な準備に依存する。 これは典型的には、系のパラメータの変化に関する量子フィッシャー情報を増やし、Cram\'er-Rao境界で制限された最適に可能な測定精度を改善する。 したがって、クリティカル・メトロロジーは未知のパラメータに関する情報をシステムの基底状態の変化にエンコードする。 逆にラムゼー干渉法のような従来のメロロジー法では、系の固有状態は変化せず、未知のパラメータに関する情報は励起系状態が時間進化の間に蓄積する相対位相に符号化される。 本稿では,これら2つの手法を閉じた分散システムに適用可能な統一プロトコルに結合する手法を提案する。 この場合の量子フィッシャー情報は、固有状態と相対位相変化の相互作用に由来する追加の干渉項を示す。 このようなセットアップで量子的および古典的フィッシャー情報の解析式を提供し、またクラム・ラオ境界の下で許容される最大精度をほぼ達成できる簡単な測定アプローチを解明する。 我々は,dicke と lipkin-meshkov-glick hamiltonian の熱力学的限界を特徴付けるスクイージング・ハミルトニアンに注目して,これらの結果を紹介する。

Critical metrology relies on the precise preparation of a system in its ground state near a quantum phase transition point where quantum correlations get very strong. Typically this increases the quantum Fisher information with respect to changes in system parameters and thus improves the optimally possible measurement precision limited by the Cram\'er-Rao bound. Hence critical metrology involves encoding information about the unknown parameter in changes of the system's ground state. Conversely, in conventional metrology methods like Ramsey interferometry, the eigenstates of the system remain unchanged, and information about the unknown parameter is encoded in the relative phases that excited system states accumulate during their time evolution. Here we introduce an approach combining these two methodologies into a unified protocol applicable to closed and driven-dissipative systems. We show that the quantum Fisher information in this case exhibits an additional interference term originating from the interplay between eigenstate and relative phase changes. We provide analytical expressions for the quantum and classical Fisher information in such a setup, elucidating as well a straightforward measurement approach that nearly attains the maximum precision permissible under the Cram\'er-Rao bound. We showcase these results by focusing on the squeezing Hamiltonian, which characterizes the thermodynamic limit of Dicke and Lipkin-Meshkov-Glick Hamiltonians.
翻訳日:2024-02-12 19:52:41 公開日:2024-02-09
# 深部ブラック・リッターマンモデルによる時系列サプライヤ配置

Time Series Supplier Allocation via Deep Black-Litterman Model ( http://arxiv.org/abs/2401.17350v2 )

ライセンス: Link先を確認
Jiayuan Luo, Wentao Zhang, Yuchen Fang, Xiaowei Gao, Dingyi Zhuang, Hao Chen, Xinke Jiang(参考訳) 時系列サプライヤ割当(TSSA)は、最大供給効率で注文要求を満たすための今後の注文派遣戦略を精錬することを目的とした、複雑なNPハードチャレンジである。 伝統的に、ブラック・リッターマン(BL)モデルは金融ポートフォリオ管理から派生しており、供給リスクの不足に対して期待されるリターンのバランスをとることでTSSAシナリオに新たな視点を提供する。 しかし、TSSAにおけるその応用は、手動で構築された視点行列と時空間市場ダイナミクスに依存すること、およびサプライヤー情報に固有の監視信号やデータの信頼性の欠如によって制約されている。 これらの制約を解決するために、金融ルーツからサプライチェーンコンテキストへBLモデルを革新的に適応する先駆的なDeep Black-Litterman Model (DBLM)を導入する。 時空間グラフニューラルネットワーク(STGNNS)を利用するDBLMは、時空間依存性を統合することで、TSSAの将来の視点行列を自動的に生成する。 さらに,新たなスピアマンランク相関は,サプライヤリスクとインタラクションの複雑さをナビゲートするために設計された,監視信号の欠如に対処するためのアプローチを特徴的に監督する。 これは、信頼性の低いデータからバイアスを対策するためのマスキング機構によってさらに強化され、モデルの精度と信頼性が向上する。 2つのデータセットに対する大規模な実験は、TSSAにおけるDBLMの性能向上を明白に証明し、この分野の新たな標準を設定している。 私たちの発見と方法論は、コミュニティアクセスとさらなる開発に利用可能です。

Time Series Supplier Allocation (TSSA) poses a complex NP-hard challenge, aimed at refining future order dispatching strategies to satisfy order demands with maximum supply efficiency fully. Traditionally derived from financial portfolio management, the Black-Litterman (BL) model offers a new perspective for the TSSA scenario by balancing expected returns against insufficient supply risks. However, its application within TSSA is constrained by the reliance on manually constructed perspective matrices and spatio-temporal market dynamics, coupled with the absence of supervisory signals and data unreliability inherent to supplier information. To solve these limitations, we introduce the pioneering Deep Black-Litterman Model (DBLM), which innovatively adapts the BL model from financial roots to supply chain context. Leveraging the Spatio-Temporal Graph Neural Networks (STGNNS), DBLM automatically generates future perspective matrices for TSSA, by integrating spatio-temporal dependency. Moreover, a novel Spearman rank correlation distinctively supervises our approach to address the lack of supervisory signals, specifically designed to navigate through the complexities of supplier risks and interactions. This is further enhanced by a masking mechanism aimed at counteracting the biases from unreliable data, thereby improving the model's precision and reliability. Extensive experimentation on two datasets unequivocally demonstrates DBLM's enhanced performance in TSSA, setting new standards for the field. Our findings and methodology are made available for community access and further development.
翻訳日:2024-02-12 19:44:57 公開日:2024-02-09
# 非マルコフ開量子力学の量子シミュレーションに向けて:普遍的かつコンパクトな理論

Towards Quantum Simulation of Non-Markovian Open Quantum Dynamics: A Universal and Compact Theory ( http://arxiv.org/abs/2401.17255v2 )

ライセンス: Link先を確認
Xiang Li, Su-Xiang Lyu, Yao Wang, Rui-Xue Xu, Xiao Zheng, YiJing Yan(参考訳) 非マルコビアン性(non-markovianity)は、時間的進化の歴史に開かれた量子系の複雑な依存であり、様々な科学分野に多大な影響を与えている。 しかし、複雑な非マルコフ効果を正確に特徴づけることは、数値シミュレーションにとって大きな課題となっている。 量子コンピューティング技術の有望な可能性にもかかわらず、量子計算アルゴリズムの実用的な実装を可能にする普遍理論の追求は現在も続いている。 本稿では,第2量子化(dqme-sq)におけるディシパトン埋め込み量子マスター方程式(dsipaton-embedded quantum master equation)の開発について述べる。 dqme-sqは完全かつコンパクトな理論であり、その特異な能力はボソニックおよびフェルミオン環境における非マルコフ散逸ダイナミクスのデジタル量子シミュレーションによって証明される。 我々の新しい理論的発展は、複雑なオープン量子系の効率的な探索の道を開く。

Non-Markovianity, the intricate dependence of an open quantum system on its temporal evolution history, holds tremendous implications across various scientific disciplines. However, accurately characterizing the complex non-Markovian effects has posed a formidable challenge for numerical simulations. Despite the promising potential of emerging quantum computing technologies, the pursuit of a universal theory enabling practical implementation of quantum computation algorithms remains ongoing. In this paper, we present a major advancement in bridging this critical gap: the development of dissipaton-embedded quantum master equation in second quantization (DQME-SQ). The DQME-SQ is an exact and compact theory, and its unique capabilities are demonstrated through digital quantum simulations of non-Markovian dissipative dynamics in both bosonic and fermionic environments. Our new theoretical developments pave the way for efficient exploration of complex open quantum systems.
翻訳日:2024-02-12 19:44:30 公開日:2024-02-09
# 合成制御による適応実験設計

Adaptive Experiment Design with Synthetic Controls ( http://arxiv.org/abs/2401.17205v2 )

ライセンス: Link先を確認
Alihan H\"uy\"uk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 臨床試験は通常、特定の患者に新しい治療法が与える影響を理解するために行われる。 しかし、大人口の患者が同じ治療に反応することは滅多にない。 この患者反応の不均一性は、複数の亜集団に対する影響を調べるための臨床試験を必要とし、特に治療が全人口に限界があるか全く利益がないが、特定の亜集団に重大な利益がある場合である。 そこで本研究では,多くのサブポピュレーションにおいて肯定的な治療効果を有するサブポピュレーションを識別する探索的トライアル設計であるSyntaxを提案する。 構文はサンプルとして効率的です (i)順応して患者を募集し、割り当てる (II) 他のサブポピュレーションからの制御サンプルを組み合わせたサブポピュレーションごとに合成制御を形成することにより治療効果を推定する。 我々は構文の性能を検証し、実験を通じて従来の試行設計よりも有利な点について洞察を与える。

Clinical trials are typically run in order to understand the effects of a new treatment on a given population of patients. However, patients in large populations rarely respond the same way to the same treatment. This heterogeneity in patient responses necessitates trials that investigate effects on multiple subpopulations - especially when a treatment has marginal or no benefit for the overall population but might have significant benefit for a particular subpopulation. Motivated by this need, we propose Syntax, an exploratory trial design that identifies subpopulations with positive treatment effect among many subpopulations. Syntax is sample efficient as it (i) recruits and allocates patients adaptively and (ii) estimates treatment effects by forming synthetic controls for each subpopulation that combines control samples from other subpopulations. We validate the performance of Syntax and provide insights into when it might have an advantage over conventional trial designs through experiments.
翻訳日:2024-02-12 19:44:14 公開日:2024-02-09
# slicegpt: 行と列を削除することで、大きな言語モデルを圧縮する

SliceGPT: Compress Large Language Models by Deleting Rows and Columns ( http://arxiv.org/abs/2401.15024v2 )

ライセンス: Link先を確認
Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento, Torsten Hoefler, James Hensman(参考訳) 大規模な言語モデルが自然言語処理の基盤となっているが、その使用には計算とメモリリソースの面でかなりのコストがかかる。 スパーシフィケーションは、これらのリソース制約を緩和するソリューションを提供し、最近の研究は、トレーニングされたモデルをポストホックでスパシフィケーションできることを示した。 既存のスパーシフィケーション技術は、追加のデータ構造を必要とし、現在のハードウェアで制限されたスピードアップを提供するため、課題に直面している。 本稿では,各重み行列をより小さい(センス)行列に置換し,ネットワークの埋め込み次元を減少させる,新しい学習後スパーシフィケーションスキームであるslicegptを提案する。 スライスgptは, llama2-70bモデル, opt 66bモデル, phi-2モデルの最大25%のモデルパラメータ(埋め込みを含む)を除去でき, それぞれ99%, 99%, 90%のゼロショットタスク性能を維持できることを示した。 24GBの消費者向けGPUでは、LLAMA2-70Bでの推論の計算総量は、高密度モデルの64%に削減し、40GBのA100 GPUでは66%に削減しました。 私たちは、slicegptを可能にするトランスフォーマーネットワークにおける新しい洞察と計算不変性を提供し、事前学習されたモデルのメモリと計算要求を削減するための将来の道筋を刺激し、有効にすることを望んでいる。 コードは、https://github.com/microsoft/TransformerCompressionで入手できる。

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression
翻訳日:2024-02-12 19:43:58 公開日:2024-02-09
# データ駆動型ターゲットローカライゼーション: Cram\'er-Rao境界を用いたグラディエントDescentのベンチマーク

Data-Driven Target Localization: Benchmarking Gradient Descent Using the Cram\'er-Rao Bound ( http://arxiv.org/abs/2401.11176v2 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Muralidhar Rangaswamy(参考訳) 現代のレーダーシステムでは、方位と速度推定を用いた正確な目標定位が最重要である。 従来の非バイアス推定法では、パラメータ推定の誤差に対するクレイマー・ラオ・バウンド(CRB)の理論限界に到達するために勾配降下アルゴリズムを用いている。 拡張として、先述したデータ駆動ニューラルネットワークモデルがこれらの従来の手法を上回り、ターゲット方位と速度推定の精度が向上した、現実的なシミュレーション例シナリオを実証する。 しかし、この改善は、ニューラルネットワークがCRB自体を上回っていることを意味するものではない、と強調する。 むしろ、強化されたパフォーマンスは、ニューラルネットワークアプローチの偏った性質に起因する。 本研究は, レーダーシステムにおける深層学習手法の適用の可能性を明らかにするものである。

In modern radar systems, precise target localization using azimuth and velocity estimation is paramount. Traditional unbiased estimation methods have utilized gradient descent algorithms to reach the theoretical limits of the Cramer Rao Bound (CRB) for the error of the parameter estimates. As an extension, we demonstrate on a realistic simulated example scenario that our earlier presented data-driven neural network model outperforms these traditional methods, yielding improved accuracies in target azimuth and velocity estimation. We emphasize, however, that this improvement does not imply that the neural network outperforms the CRB itself. Rather, the enhanced performance is attributed to the biased nature of the neural network approach. Our findings underscore the potential of employing deep learning methods in radar systems to achieve more accurate localization in cluttered and dynamic environments.
翻訳日:2024-02-12 19:43:21 公開日:2024-02-09
# 健康のためのコパイロット:健康結果を改善するためにパーソナライズされたアルゴリズムai

Co-Pilot for Health: Personalized Algorithmic AI Nudging to Improve Health Outcomes ( http://arxiv.org/abs/2401.10816v2 )

ライセンス: Link先を確認
Jodi Chiam, Aloysius Lim, Cheryl Nott, Nicholas Mark, Ankur Teredesai, Sunil Shinde(参考訳) 大規模な人口の健康行動を自動的に形作る能力は、ウェアラブルのタイプや病気の状況にまたがって、世界的な健康結果を改善する大きな可能性を秘めている。 我々は、gnn(graph-neural network)ベースのレコメンデーションシステムと、ウェアラブルフィットネスデバイスからの粒度の健康行動データによって実現される、デジタルアルゴリズムによるナジングのためのai駆動プラットフォームを設計し、実装した。 ここでは,シンガポールで12週間の期間に,パーソナライズおよびコンテキストヌーディングをn=84,764ドルの個人に対して行うことで,このプラットフォームの有効性について述べる。 このようなaiを最適化した毎日のナッジを受けた対象グループの参加者は、ステップ数(p = 3.09\times10^{-4}$)のような日々の身体活動が6.17%増加し、中等度から活発な身体活動(mvpa)が1週間に7.61%(p = 1.16\times10^{-2}$)上昇したことを統計的に検証した。 さらに、これらのナッジの13.1%が開封(開封率)され、開封されたナッジの11.7%が有用であり、1.9%は役に立たないと評価され、人口レベルのエンゲージメント指標が大幅に向上した。

The ability to shape health behaviors of large populations automatically, across wearable types and disease conditions at scale has tremendous potential to improve global health outcomes. We designed and implemented an AI driven platform for digital algorithmic nudging, enabled by a Graph-Neural Network (GNN) based Recommendation System, and granular health behavior data from wearable fitness devices. Here we describe the efficacy results of this platform with its capabilities of personalized and contextual nudging to $n=84,764$ individuals over a 12-week period in Singapore. We statistically validated that participants in the target group who received such AI optimized daily nudges increased daily physical activity like step count by 6.17% ($p = 3.09\times10^{-4}$) and weekly minutes of Moderate to Vigorous Physical Activity (MVPA) by 7.61% ($p = 1.16\times10^{-2}$), compared to matched participants in control group who did not receive any nudges. Further, such nudges were very well received, with a 13.1% of nudges sent being opened (open rate), and 11.7% of the opened nudges rated useful compared to 1.9% rated as not useful thereby demonstrating significant improvement in population level engagement metrics.
翻訳日:2024-02-12 19:43:07 公開日:2024-02-09
# SEINE: Nucleiインスタンスセグメンテーションのための構造エンコーディングとインタラクションネットワーク

SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation ( http://arxiv.org/abs/2401.09773v2 )

ライセンス: Link先を確認
Ye Zhang, Linghan Cai, Ziyue Wang, Yongbing Zhang(参考訳) 病理組織像における核インスタンスセグメンテーションは, 生物学的解析と癌診断において非常に重要であるが, 2つの理由から困難である。 1) クロモフォブ核の核内領域と核外領域の類似した視覚的表示は、しばしば低セグメンテーションを引き起こし、(2) 現行の手法は核構造の探索を欠いているため、断片化されたインスタンス予測をもたらす。 そこで本稿では,核の構造モデリング手法を開発し,核間の構造類似性を活用し,各セグメントインスタンスの積分性を向上させる構造符号化・相互作用ネットワークであるseineを提案する。 具体的には、核構造と意味学の相関を考慮し、核構造の合理的な表現を実現する輪郭構造符号化(SE)を導入する。 この符号化に基づいて, ファジィ核の構造学習を強化するために, クリア核をプロトタイプとする構造誘導注意モジュール (sga) を提案する。 構造学習能力を強化するため、意味的特徴融合(SFF)が提示され、意味的および構造的分岐のセマンティック一貫性が向上する。 さらに、不正確な核境界予測を抑えるために位置強調法(PE)を適用した。 大規模な実験は我々のアプローチの優位性を示し、SEINEは4つのデータセット上で最先端(SOTA)性能を達成する。 コードはhttps://github.com/zhangye-zoe/seineで入手できる。

Nuclei instance segmentation in histopathological images is of great importance for biological analysis and cancer diagnosis but remains challenging for two reasons. (1) Similar visual presentation of intranuclear and extranuclear regions of chromophobe nuclei often causes under-segmentation, and (2) current methods lack the exploration of nuclei structure, resulting in fragmented instance predictions. To address these problems, this paper proposes a structure encoding and interaction network, termed SEINE, which develops the structure modeling scheme of nuclei and exploits the structure similarity between nuclei to improve the integrality of each segmented instance. Concretely, SEINE introduces a contour-based structure encoding (SE) that considers the correlation between nuclei structure and semantics, realizing a reasonable representation of the nuclei structure. Based on the encoding, we propose a structure-guided attention (SGA) module that takes the clear nuclei as prototypes to enhance the structure learning for the fuzzy nuclei. To strengthen the structural learning ability, a semantic feature fusion (SFF) is presented to boost the semantic consistency of semantic and structure branches. Furthermore, a position enhancement (PE) method is applied to suppress incorrect nuclei boundary predictions. Extensive experiments demonstrate the superiority of our approaches, and SEINE achieves state-of-the-art (SOTA) performance on four datasets. The code is available at https://github.com/zhangye-zoe/SEINE.
翻訳日:2024-02-12 19:42:41 公開日:2024-02-09
# 相対性理論の量子原理と可算重力

Quantum Principle of Relativity and The Renormalizable Gravity ( http://arxiv.org/abs/2401.08617v6 )

ライセンス: Link先を確認
Jinsu Kim and Dongok Kim(参考訳) 我々は、微分同相不変性を適用するのではなく、新しい相対性理論に基づく純粋量子理論を開発し、相対性理論の量子原理と呼ぶ。 我々は、相対性理論の本質が量子領域に自然に拡張され、活性変換と受動変換の同一構造が維持されることを示した。 この原理を用いることで、量子重力効果が自然に正規化可能な理論に組み込まれ、一般相対性理論が大きな距離で現れることを示す。 グラビトンプロパゲーターを導出し、この理論に基づくいくつかの例を提供する。

We develop a purely quantum theory based on the novel principle of relativity, termed the quantum principle of relativity, instead of applying the diffeomorphism invariance. We demonstrate that the essence of the principle of relativity can be naturally extended into the quantum realm, maintaining the identical structures of active and passive transformations. By employing this principle, we show that quantum gravitational effects are naturally incorporated into the renormalizable theory, with general relativity emerging in large distances. We derive graviton propagators and provide several examples grounded in this novel theory.
翻訳日:2024-02-12 19:42:16 公開日:2024-02-09
# マルチフェイスAIフィードバックを用いた感情支援会話における不快感の軽減

Mitigating Unhelpfulness in Emotional Support Conversations with Multifaceted AI Feedback ( http://arxiv.org/abs/2401.05928v2 )

ライセンス: Link先を確認
Jiashuo Wang, Chunpu Xu, Chak Tou Leong, Wenjie Li, Jing Li(参考訳) 情緒的支援会話システムは,ユーザの感情的苦痛を軽減し,彼らの課題への対処を支援することを目的としている。 支援的応答を生成するには, 共感, 支援戦略, 応答コヒーレンスなど複数の要因を, 従来手法で確立したように考慮することが重要である。 それにもかかわらず、以前のモデルは時折、サポートを提供するが、反生産的効果を示す意図のある応答を生成する。 心理学やコミュニケーション理論によれば、たった一つの要因における粗悪なパフォーマンスは、応答が弱くなる可能性がある。 モデルトレーニングの観点からは、これらのモデルがトレーニングフェーズ中に不十分な応答にさらされていないため、トークンが推論中に不必要な応答をもたらすかどうかを区別できない。 この問題に対処するために,多面型aiフィードバックによる感情サポート(muffin)による非効率を緩和する,新たなモデル非依存フレームワークを提案する。 具体的には、muffinは多面的なaiフィードバックモジュールを使用して、複数の要因を考慮して、特定のモデルによって生成された応答の有用性を評価する。 対照的な学習を使用することで、モデルが役に立たない応答を生成する可能性を減らすことができる。 実験結果から,Muffinは応答頻度と応答関連性をわずかに増加させながら,非ヘルペス反応の発生を効果的に軽減することが示された。

An emotional support conversation system aims to alleviate users' emotional distress and assist them in addressing their challenges. To generate supportive responses, it is critical to consider multiple factors such as empathy, support strategies, and response coherence, as established in prior methods. Nonetheless, previous models occasionally generate unhelpful responses, which intend to provide support but display counterproductive effects. According to psychology and communication theories, poor performance in just one contributing factor might cause a response to be unhelpful. From the model training perspective, since these models have not been exposed to unhelpful responses during their training phase, they are unable to distinguish if the tokens they generate might result in unhelpful responses during inference. To address this issue, we introduce a novel model-agnostic framework named mitigating unhelpfulness with multifaceted AI feedback for emotional support (Muffin). Specifically, Muffin employs a multifaceted AI feedback module to assess the helpfulness of responses generated by a specific model with consideration of multiple factors. Using contrastive learning, it then reduces the likelihood of the model generating unhelpful responses compared to the helpful ones. Experimental results demonstrate that Muffin effectively mitigates the generation of unhelpful responses while slightly increasing response fluency and relevance.
翻訳日:2024-02-12 19:42:05 公開日:2024-02-09
# プライバシー保護型視覚変換器のドメイン適応によるファインチューニング

Efficient Fine-Tuning with Domain Adaptation for Privacy-Preserving Vision Transformer ( http://arxiv.org/abs/2401.05126v2 )

ライセンス: Link先を確認
Teru Nagamori, Sayaka Shiota, Hitoshi Kiya(参考訳) 視覚変換器(ViT)を用いたプライバシー保護型ディープニューラルネットワーク(DNN)を提案する。 本手法は,視覚的に保護された画像を用いてモデルのトレーニングやテストを行うだけでなく,暗号化画像の使用による性能低下を回避できるが,従来の手法では画像暗号化の影響を回避できない。 ドメイン適応法は、暗号化された画像でViTを効率的に微調整する。 実験では,CIFAR-10 と ImageNet データセットにおける画像分類タスクにおいて,分類精度の観点から従来の手法より優れていることを示す。

We propose a novel method for privacy-preserving deep neural networks (DNNs) with the Vision Transformer (ViT). The method allows us not only to train models and test with visually protected images but to also avoid the performance degradation caused from the use of encrypted images, whereas conventional methods cannot avoid the influence of image encryption. A domain adaptation method is used to efficiently fine-tune ViT with encrypted images. In experiments, the method is demonstrated to outperform conventional methods in an image classification task on the CIFAR-10 and ImageNet datasets in terms of classification accuracy.
翻訳日:2024-02-12 19:41:42 公開日:2024-02-09
# 接合を有するグラフェンナノリボンの有効理論

An Effective Theory for Graphene Nanoribbons with Junctions ( http://arxiv.org/abs/2401.04715v2 )

ライセンス: Link先を確認
Johann Ostmeyer, Lado Razmadze, Evan Berkowitz, Thomas Luu, Ulf-G. Mei{\ss}ner(参考訳) グラフェンナノリボンはフォールトトレラント量子エレクトロニクスの有望な候補である。 このシナリオでは、キュービットは異なる幅の2つのアームチェアナノリボンによって形成されるハイブリッドリボンの接合部に生じる局所状態によって実現される。 ハイブリッドナノリボンを記述するための密結合型アンサッツに基づく有効理論を導出し、様々なハイブリッドナノリボンジオメトリにおけるエネルギーギャップと局所化の性質の正確な予測に使用する。 量子モンテカルロシミュレーションを用いて、ハバード相互作用の存在下で有効理論が適用可能であることを示す。 我々は、接合上のよく知られた局所化に加えて、ハイブリッドリボンのセグメントに現れる新しいタイプの「キリマンジャロ」局在化である「フジ」と呼ばれるものを発見した。 幅$N$ および $N+2$ アームチェアナノリボンのハイブリッドにおけるフジ局在は、N\pmod3=1$ の場合に限り対称接合周辺で起こるが、エッジ整列接合は強い局所化を支えない。 この振る舞いは、現在までの局所化の起源と信じられている位相的$Z_2$不変量に依存するだけでは説明できない。

Graphene nanoribbons are a promising candidate for fault-tolerant quantum electronics. In this scenario, qubits are realised by localised states that can emerge on junctions in hybrid ribbons formed by two armchair nanoribbons of different widths. We derive an effective theory based on a tight-binding ansatz for the description of hybrid nanoribbons and use it to make accurate predictions of the energy gap and nature of the localisation in various hybrid nanoribbon geometries. We use quantum Monte Carlo simulations to demonstrate that the effective theory remains applicable in the presence of Hubbard interactions. We discover, in addition to the well known localisations on junctions, which we call `Fuji', a new type of `Kilimanjaro' localisation smeared out over a segment of the hybrid ribbon. We show that Fuji localisations in hybrids of width $N$ and $N+2$ armchair nanoribbons occur around symmetric junctions if and only if $N\pmod3=1$, while edge-aligned junctions never support strong localisation. This behaviour cannot be explained relying purely on the topological $Z_2$ invariant, which has been believed the origin of the localisations to date.
翻訳日:2024-02-12 19:41:02 公開日:2024-02-09
# ベルマン共形推論:時系列の予測間隔の校正

Bellman Conformal Inference: Calibrating Prediction Intervals For Time Series ( http://arxiv.org/abs/2402.05203v2 )

ライセンス: Link先を確認
Zitong Yang, Emmanuel Cand\`es, Lihua Lei(参考訳) 本稿では,Bellman Conformal Inference (BCI)を紹介した。これは時系列予測モデルを取り巻くフレームワークで,ほぼキャリブレーションされた予測間隔を提供する。 既存の手法とは異なり、bciは多段階予測を活用でき、各時間ステップで1次元確率制御問題(scp)を解いて平均間隔長を明示的に最適化することができる。 特に、動的プログラミングアルゴリズムを用いて、SCPの最適ポリシーを求める。 任意の分布シフトと時間的依存の下で,BCIが長期的カバレッジを達成することを実証する。 実験により,BCIは無限長の非形式間隔を回避し,既存手法と比較した場合の予測間隔を著しく短くすることがわかった。

We introduce Bellman Conformal Inference (BCI), a framework that wraps around any time series forecasting models and provides approximately calibrated prediction intervals. Unlike existing methods, BCI is able to leverage multi-step ahead forecasts and explicitly optimize the average interval lengths by solving a one-dimensional stochastic control problem (SCP) at each time step. In particular, we use the dynamic programming algorithm to find the optimal policy for the SCP. We prove that BCI achieves long-term coverage under arbitrary distribution shifts and temporal dependence, even with poor multi-step ahead forecasts. We find empirically that BCI avoids uninformative intervals that have infinite lengths and generates substantially shorter prediction intervals in multiple applications when compared with existing methods.
翻訳日:2024-02-12 19:33:17 公開日:2024-02-09
# アルゴリズム的思考連鎖を用いたllm学習データにおける雑音の影響の理解

Understanding the Effect of Noise in LLM Training Data with Algorithmic Chains of Thought ( http://arxiv.org/abs/2402.04004v2 )

ライセンス: Link先を確認
Alex Havrilla, Maia Iyer(参考訳) 事前トレーニングと微調整の両方の間、大規模言語モデル(\textbf{LLMs})は、広範囲に異なる品質のテキストのトークンで訓練される。 どちらのフェーズも通常、‘low-quality’ や \textit{noisy} トレーニングサンプルをヒューリスティックにフィルタリングするが、ノイズの種類や強度が下流のパフォーマンスに与える影響についてはほとんど知られていない。 本研究では,アルゴリズムで解けるタスクの高度に制御された設定において,思考連鎖(\textbf{CoT})のノイズがタスク性能に与える影響について検討する。 まず、整数リスト上の任意の算術関数に対して、高度にカスタマイズ可能なノイズ付き実行トレースを生成するためのTraced Integer(\textbf{TInt})フレームワークを開発する。 次に2種類のノイズを定義する: \textit{static} ノイズは cot トレースが計算された後に適用される局所的なノイズの形式であり、 \textit{dynamic} ノイズは計算されたトレースのエラーを伝播するグローバルなノイズである。 次に,種々のレベルのデータセット汚染と強度を持つノイズ付きデータセットに対して,事前学習したモデルの試験性能を評価する。 微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。 対照的に、数発のトリガーモデルの方が静的ノイズに敏感に見える。 この結果がノイズフィルタリングのベストプラクティスにどのように影響するか,特に大域的誤差を伴う破壊的動的ノイズを含むサンプルの除去の重要性を強調して考察した。

During both pretraining and fine-tuning, Large Language Models (\textbf{LLMs}) are trained on trillions of tokens of text of widely varying quality. Both phases of training typically involve heuristically filtering out ``low-quality'' or \textit{noisy} training samples, yet little is known quantitatively about how the type or intensity of noise affects downstream performance. In this work, we study how noise in chain of thought (\textbf{CoT}) impacts task performance in the highly-controlled setting of algorithmically solvable tasks. First, we develop the Traced Integer (\textbf{TInt}) framework to generate highly customizable noised execution traces for any arithmetic function on lists of integers. We then define two types of noise: \textit{static} noise, a local form of noise which is applied after the CoT trace is computed, and \textit{dynamic} noise, a global form of noise which propagates errors in the trace as it is computed. We then evaluate the test performance of pretrained models both prompted and fine-tuned on noised datasets with varying levels of dataset contamination and intensity. We find fine-tuned models are extremely robust to high levels of static noise but struggle significantly more with lower levels of dynamic noise. In contrast, few-shot prompted models appear more sensitive to even static noise. We conclude with a discussion of how our findings impact noise filtering best-practices, in particular emphasizing the importance of removing samples containing destructive dynamic noise with global errors.
翻訳日:2024-02-12 19:32:22 公開日:2024-02-09
# 光学鋼ロープの非破壊損傷検出法

A new method for optical steel rope non-destructive damage detection ( http://arxiv.org/abs/2402.03843v2 )

ライセンス: Link先を確認
Yunqing Bao, Bin Hu(参考訳) 本稿では,高高度環境(エアラルロープウェイ)における鋼ロープの非破壊損傷検出アルゴリズムを提案する。 まず、rgbd-unetと呼ばれるセグメンテーションモデルは、複雑な背景から正確に鋼ロープを抽出するように設計されている。 このモデルは、提案したCMAモジュールを通して色と深度情報を処理・結合する機能を備えている。 第2に、VovNetV3.5と呼ばれる検出モデルは、通常の鋼ロープと異常鋼ロープを区別するために開発された。 VovNetアーキテクチャとDBBモジュールを統合してパフォーマンスを向上させる。 また,セグメンテーションモデルの一般化能力を高めるために,新たなバックグラウンド拡張手法を提案する。 セグメンテーションと検出モデルのトレーニングとテストのために、異なるシナリオで鋼ロープの画像を含むデータセットが作成されます。 実験はベースラインモデルよりも大幅に改善された。 提案するデータセットでは,検出モデルによる最大精度は0.975に達し,セグメンテーションモデルによる最大f測定値は0.948に達した。

This paper presents a novel algorithm for non-destructive damage detection for steel ropes in high-altitude environments (aerial ropeway). The algorithm comprises two key components: First, a segmentation model named RGBD-UNet is designed to accurately extract steel ropes from complex backgrounds. This model is equipped with the capability to process and combine color and depth information through the proposed CMA module. Second, a detection model named VovNetV3.5 is developed to differentiate between normal and abnormal steel ropes. It integrates the VovNet architecture with a DBB module to enhance performance. Besides, a novel background augmentation method is proposed to enhance the generalization ability of the segmentation model. Datasets containing images of steel ropes in different scenarios are created for the training and testing of both the segmentation and detection models. Experiments demonstrate a significant improvement over baseline models. On the proposed dataset, the highest accuracy achieved by the detection model reached 0.975, and the maximum F-measure achieved by the segmentation model reached 0.948.
翻訳日:2024-02-12 19:31:55 公開日:2024-02-09
# MolTC:言語モデルにおける分子関係モデリングを目指して

MolTC: Towards Molecular Relational Modeling In Language Models ( http://arxiv.org/abs/2402.03781v2 )

ライセンス: Link先を確認
Junfeng Fang, Shuai Zhang, Chang Wu, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du and Xiang Wang(参考訳) 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。 近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。 その可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。 さらに、統一フレームワークの欠如は、多種多様なデータセット間で学習されたインタラクションメカニズムの共有を妨げるため、情報の活用不足の問題を悪化させる。 これらの課題に対処するため、本研究では分子相互作用予測のための新しいllmベースのマルチモーダルフレームワークであるmoltc(chain-of-thought (cot) theory)を提案している。 統合MRLを実現するため、MollTCは、クロスデータセット情報共有のための動的パラメータ共有戦略を革新的に開発している。 さらに,MolTCを効果的に訓練するために,多階層CoTの概念を導入して訓練パラダイムを洗練させ,MRLを含む生化学LLMの開発のための包括的分子インタラクティブインストラクションデータセットを構築した。 我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。 コードはhttps://github.com/MangoKiller/MolTCで入手できる。

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. For achieving a unified MRL, MolTC innovatively develops a dynamic parameter-sharing strategy for cross-dataset information sharing. Moreover, to train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
翻訳日:2024-02-12 19:31:41 公開日:2024-02-09
# mod-slam:unbounded 3d scene reconstructionのための単眼高密度マッピング

MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction ( http://arxiv.org/abs/2402.03762v2 )

ライセンス: Link先を確認
Heng Zhou, Zhetao Guo, Shuhong Liu, Lechen Zhang, Qihao Wang, Yuxiang Ren, Mingrui Li(参考訳) ニューラルネットワークの暗黙的表現は、最近、同時局在化とマッピング(slam)を含む多くの分野で実証されている。 現在のニューラルSLAMは境界シーンの再構成において理想的な結果が得られるが、これはRGB-D画像の入力に依存する。 rgb画像のみに基づくニューラルベースslamでは,シーンのスケールを正確に再構築することはできず,追跡中に蓄積されたエラーによりスケールドリフトに支障をきたす。 このような制約を克服するために,世界的ポーズ最適化と3次元再構成を非有界シーンで実現可能な単眼的密集マッピング法 mod-slam を提案する。 単眼深度推定によるシーン再構築の最適化とループ閉鎖検出によるカメラポーズの更新により、大規模シーンの詳細な再現が可能となる。 これまでの作業と比べて、私たちのアプローチはより堅牢で、スケーラブルで、多用途です。 実験の結果,MoD-SLAMのマッピング性能は,特に大きな境界のないシーンにおいて,従来のSLAM法よりも優れていた。

Neural implicit representations have recently been demonstrated in many fields including Simultaneous Localization And Mapping (SLAM). Current neural SLAM can achieve ideal results in reconstructing bounded scenes, but this relies on the input of RGB-D images. Neural-based SLAM based only on RGB images is unable to reconstruct the scale of the scene accurately, and it also suffers from scale drift due to errors accumulated during tracking. To overcome these limitations, we present MoD-SLAM, a monocular dense mapping method that allows global pose optimization and 3D reconstruction in real-time in unbounded scenes. Optimizing scene reconstruction by monocular depth estimation and using loop closure detection to update camera pose enable detailed and precise reconstruction on large scenes. Compared to previous work, our approach is more robust, scalable and versatile. Our experiments demonstrate that MoD-SLAM has more excellent mapping performance than prior neural SLAM methods, especially in large borderless scenes.
翻訳日:2024-02-12 19:31:13 公開日:2024-02-09
# Lens: サイバーセキュリティにおけるネットワークトラフィックの基礎モデル

Lens: A Foundation Model for Network Traffic in Cybersecurity ( http://arxiv.org/abs/2402.03646v2 )

ライセンス: Link先を確認
Qineng Wang, Chen Qian, Xiaochang Li, Ziyu Yao, Huajie Shao(参考訳) ネットワークトラフィック(英: network traffic)とは、インターネットやコンピュータを接続するシステムを通じて送受信されるデータ量を指す。 ネットワークのセキュリティと管理を改善するには,ネットワークトラフィックの分析と理解が不可欠である。 しかし、ネットワークトラフィックの分析は、異種ヘッダーやセマンティクスに欠ける暗号化ペイロードを特徴とするデータパケットが多様であるため、困難である。 トラフィックの潜在的セマンティクスを捉えるために、Transformerエンコーダやデコーダに基づく事前学習技術を用いて、大量のトラフィックデータから表現を学習する研究がいくつかある。 しかし、これらの手法は一般的にトラフィック理解(分類)やトラフィック生成タスクに優れている。 この問題に対処するため,T5アーキテクチャを利用したネットワークトラフィック基盤モデルLensを開発し,大規模未ラベルデータから事前学習を行う。 生成能力を維持しつつ、グローバル情報をキャプチャするエンコーダ・デコーダ・フレームワークの強みを活用して、モデルが生データから表現をより良く学習できる。 事前学習の有効性をさらに高めるために,マスク付きスパン予測(MSP),パケット順序予測(POP),ホモログトラフィック予測(HTP)の3つの異なるタスクを組み合わせた新しい損失を設計する。 さまざまなベンチマークデータセットにおける評価結果から,提案するレンズは,トラヒック理解と生成の両方に関連する下流タスクのベースラインを上回っていることが分かる。 注目すべきは、現在の方法に比べて微調整のためにラベル付きデータを必要とする点だ。

Network traffic refers to the amount of data being sent and received over the internet or any system that connects computers. Analyzing and understanding network traffic is vital for improving network security and management. However, the analysis of network traffic is challenging due to the diverse nature of data packets, which often feature heterogeneous headers and encrypted payloads lacking semantics. To capture the latent semantics of traffic, a few studies have adopted pre-training techniques based on the Transformer encoder or decoder to learn the representations from massive traffic data. However, these methods typically excel in traffic understanding (classification) or traffic generation tasks. To address this issue, we develop Lens, a foundation model for network traffic that leverages the T5 architecture to learn the pre-trained representations from large-scale unlabeled data. Harnessing the strength of the encoder-decoder framework, which captures the global information while preserving the generative ability, our model can better learn the representations from raw data. To further enhance pre-training effectiveness, we design a novel loss that combines three distinct tasks: Masked Span Prediction (MSP), Packet Order Prediction (POP), and Homologous Traffic Prediction (HTP). Evaluation results across various benchmark datasets demonstrate that the proposed Lens outperforms the baselines in most downstream tasks related to both traffic understanding and generation. Notably, it also requires much less labeled data for fine-tuning compared to current methods.
翻訳日:2024-02-12 19:30:56 公開日:2024-02-09
# 予測列最適化フレームワークのためのクラス内ベストポリシーの学習

Learning Best-in-Class Policies for the Predict-then-Optimize Framework ( http://arxiv.org/abs/2402.03256v2 )

ライセンス: Link先を確認
Michael Huang, Vishal Gupta(参考訳) 本研究では,予測最適化の枠組みにおいて,摂動勾配(pg)損失と呼ばれる,新たな決定認識型サーロゲート損失のファミリーを提案する。 これらの損失は下流の決定損失を直接近似し、オフザシェルフ勾配法を用いて最適化することができる。 重要なことに、既存のサーロゲート損失とは異なり、サンプル数が増えるにつれてpg損失の近似誤差は失われる。 これは、サロゲート損失を最適化することで、不特定設定であっても、クラス内で最高のポリシーが漸近的に得られます。 提案手法は,提案モデルが不特定であり,ノイズが中心対称でない場合に,PG損失が既存の提案よりも即時上回っていることを示す数値的証拠を提供する。 特に、よりシンプルで解釈可能なモデルを好む場合、PG損失は、計算的に抽出可能な決定認識学習のための、理論上正当化された新しい方法を提供する。

We propose a novel family of decision-aware surrogate losses, called Perturbation Gradient (PG) losses, for the predict-then-optimize framework. These losses directly approximate the downstream decision loss and can be optimized using off-the-shelf gradient-based methods. Importantly, unlike existing surrogate losses, the approximation error of our PG losses vanishes as the number of samples grows. This implies that optimizing our surrogate loss yields a best-in-class policy asymptotically, even in misspecified settings. This is the first such result in misspecified settings and we provide numerical evidence confirming our PG losses substantively outperform existing proposals when the underlying model is misspecified and the noise is not centrally symmetric. Insofar as misspecification is commonplace in practice -- especially when we might prefer a simpler, more interpretable model -- PG losses offer a novel, theoretically justified, method for computationally tractable decision-aware learning.
翻訳日:2024-02-12 19:30:31 公開日:2024-02-09
# heana: エネルギー効率のよいcnn推論のためのフレキシブルデータフローを備えたハイブリッド時間振幅アナログ光加速器

HEANA: A Hybrid Time-Amplitude Analog Optical Accelerator with Flexible Dataflows for Energy-Efficient CNN Inference ( http://arxiv.org/abs/2402.03247v2 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, and Ishan Thakkar(参考訳) いくつかのフォトニックマイクロリング共振器(MRR)をベースとしたアナログ加速器は、電子回路に比べて非常に高いスループットとエネルギー効率で整数量子化CNNの推論を高速化するために提案されている。 しかし、既存のアナログフォトニック加速器には3つの欠点がある。 (i)様々なクロストーク効果による波長並列性の深刻な障害 二 重量定常データフロー以外の各種データフローを支持できないこと、及び (iii)光検出器がその場で蓄積する能力を完全に活用できないこと。 これらの欠点は、従来の加速器の性能とエネルギー効率を損なう。 これらの欠点に対処するため,Hybrid timE Amplitude aNalog optical Accelerator(HEANA)を提案する。 HEANAは、複数のデータフローをサポートするためのHEANAの柔軟性を高めるために、ハイブリッド時間振幅アナログ光乗算器(TAOM)を採用している。 TAOMのスペクトル的ヒットレス配置はクロストーク効果を著しく低減し、HEANAの波長並列性を高める。 さらに, HEANAでは, バッファレス, その場, 時間的蓄積が可能な平衡光電荷蓄積器 (BPCA) を用いて, HEANAの低減ネットワークを不要にし, 関連する遅延やエネルギーオーバーヘッドを軽減している。 近年の4つのCNNを推定すると、HEANAはフレーム毎秒(FPS)とFPS/W(エネルギ効率)において最大66倍と84倍の改善を提供しており、それぞれが等価領域の比較を行う。

Several photonic microring resonators (MRRs) based analog accelerators have been proposed to accelerate the inference of integer-quantized CNNs with remarkably higher throughput and energy efficiency compared to their electronic counterparts. However, the existing analog photonic accelerators suffer from three shortcomings: (i) severe hampering of wavelength parallelism due to various crosstalk effects, (ii) inflexibility of supporting various dataflows other than the weight-stationary dataflow, and (iii) failure in fully leveraging the ability of photodetectors to perform in-situ accumulations. These shortcomings collectively hamper the performance and energy efficiency of prior accelerators. To tackle these shortcomings, we present a novel Hybrid timE Amplitude aNalog optical Accelerator, called HEANA. HEANA employs hybrid time-amplitude analog optical multipliers (TAOMs) that increase the flexibility of HEANA to support multiple dataflows. A spectrally hitless arrangement of TAOMs significantly reduces the crosstalk effects, thereby increasing the wavelength parallelism in HEANA. Moreover, HEANA employs our invented balanced photo-charge accumulators (BPCAs) that enable buffer-less, in-situ, temporal accumulations to eliminate the need to use reduction networks in HEANA, relieving it from related latency and energy overheads. Our evaluation for the inference of four modern CNNs indicates that HEANA provides improvements of atleast 66x and 84x in frames-per-second (FPS) and FPS/W (energy-efficiency), respectively, for equal-area comparisons, on gmean over two MRR-based analog CNN accelerators from prior work.
翻訳日:2024-02-12 19:30:15 公開日:2024-02-09
# 2024年における大規模言語モデルの実態

Factuality of Large Language Models in the Year 2024 ( http://arxiv.org/abs/2402.02420v2 )

ライセンス: Link先を確認
Yuxia Wang, Minghan Wang, Muhammad Arslan Manzoor, Fei Liu, Georgi Georgiev, Rocktim Jyoti Das, Preslav Nakov(参考訳) 大規模な言語モデル(llm)は、特にチャットのインストラクション調整を行う場合には、日々の生活の一部となり、複数のソースから情報を検索、抽出、統合するプロセスから解放され、様々な質問に対して一箇所で簡単に答えることができます。 残念なことに、多くの場合、LLMの応答は実際には正しくないため、現実のシナリオでは適用性が制限される。 その結果,近年,LLMの実態評価と改善に関する研究が注目されている。 本研究では,LLMの事実性を改善するための潜在的な解決策を指摘し,オープンエンドテキスト生成における事実性の自動評価のための障害を解析し,課題とその関連要因を特定することを目的として,既存の作業を批判的に分析する。 今後の研究の行方についても,さらに見通しを述べています。

Large language models (LLMs), especially when instruction-tuned for chat, have become part of our daily lives, freeing people from the process of searching, extracting, and integrating information from multiple sources by offering a straightforward answer to a variety of questions in a single place. Unfortunately, in many cases, LLM responses are factually incorrect, which limits their applicability in real-world scenarios. As a result, research on evaluating and improving the factuality of LLMs has attracted a lot of research attention recently. In this survey, we critically analyze existing work with the aim to identify the major challenges and their associated causes, pointing out to potential solutions for improving the factuality of LLMs, and analyzing the obstacles to automated factuality evaluation for open-ended text generation. We further offer an outlook on where future research should go.
翻訳日:2024-02-12 19:29:46 公開日:2024-02-09
# ロサンゼルスにおける警察とドライバーのインタラクション評価のためのマルチパースペクティブ機械学習手法

A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver Interaction in Los Angeles ( http://arxiv.org/abs/2402.01703v3 )

ライセンス: Link先を確認
Benjamin A.T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayag\"uez Salinas, Michael Sierra-Ar\'evalo, Jackson Trager, Nicholas Weller, and Shrikanth Narayanan(参考訳) 政府職員と市民の間の相互作用は、民主社会の機能に必要となる公共の福祉と国家の正当性に影響を及ぼす。 州内で最も目に見えて接触した警察官は、交通停止中に年間2000万回以上、公衆と交流している。 今日では、これらの相互作用はボディウーンカメラ(BWC)によって定期的に記録されており、警察の説明責任を高め、警察と公共の相互作用を改善する手段として語られている。 しかし、これらの録音のタイムリーな分析は、これらの複雑で争われた警察と公共の相互作用の分析を可能にする信頼できる自動ツールの欠如によって妨げられている。 本稿では,このBWC映像から音声,ビデオ,および転写情報を解析するためのマルチパースペクティブ・マルチモーダル機械学習(ML)ツールの開発手法を提案する。 私たちのアプローチは、コミュニティメンバと警察官の両方を含む、さまざまな利害関係者に対して最も適切なコミュニケーションの側面を特定することから始まります。 我々は、単一の真実の存在にまつわるモデリングアプローチから脱却し、代わりにソフトラベリングの新しい進歩を活用して、異なる観測者が同じ相互作用をどのように知覚するかのバリエーションを組み込む。 我々は、新しいMLツールの概念化と設計に対するこの包括的アプローチが、教育、医療、職場など、ヒューマンインタラクションの領域にわたる分析ツールのコミュニケーションと開発研究に広く適用されていると論じる。

Interactions between the government officials and civilians affect public wellbeing and the state legitimacy that is necessary for the functioning of democratic society. Police officers, the most visible and contacted agents of the state, interact with the public more than 20 million times a year during traffic stops. Today, these interactions are regularly recorded by body-worn cameras (BWCs), which are lauded as a means to enhance police accountability and improve police-public interactions. However, the timely analysis of these recordings is hampered by a lack of reliable automated tools that can enable the analysis of these complex and contested police-public interactions. This article proposes an approach to developing new multi-perspective, multimodal machine learning (ML) tools to analyze the audio, video, and transcript information from this BWC footage. Our approach begins by identifying the aspects of communication most salient to different stakeholders, including both community members and police officers. We move away from modeling approaches built around the existence of a single ground truth and instead utilize new advances in soft labeling to incorporate variation in how different observers perceive the same interactions. We argue that this inclusive approach to the conceptualization and design of new ML tools is broadly applicable to the study of communication and development of analytic tools across domains of human interaction, including education, medicine, and the workplace.
翻訳日:2024-02-12 19:29:17 公開日:2024-02-09
# 小規模音声分類への大規模自己スーパービジョンの転送性について

On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio Classification ( http://arxiv.org/abs/2402.01274v2 )

ライセンス: Link先を確認
Calum Heggan, Sam Budgett, Timothy Hosepedales, Mehrdad Yaghoobi(参考訳) 近年,自己教師型学習は,非競合データから頑健な特徴表現を学習する能力に優れてきた。 自己監督を通じて事前訓練されたネットワークは、Few-Shot Learningを含む下流タスクのための効果的な特徴抽出器として機能する。 数ショット学習のための教師なしアプローチの評価は画像上では十分に確立されているが、音響学では特に欠落している。 本研究は,小規模音声分類における大規模自己教師付きモデルの性能を評価することで,このギャップを解消する。 さらに,モデルのマイナショット学習能力と他のダウンストリームタスクベンチマークとの関係について検討する。 以上の結果から, speechcommandsv2 などの数少ない問題や, 音声ベースの少数ショット問題と下流の様々な音声タスクとの強い相関性が明らかになった。

In recent years, self-supervised learning has excelled for its capacity to learn robust feature representations from unlabelled data. Networks pretrained through self-supervision serve as effective feature extractors for downstream tasks, including Few-Shot Learning. While the evaluation of unsupervised approaches for few-shot learning is well-established in imagery, it is notably absent in acoustics. This study addresses this gap by assessing large-scale self-supervised models' performance in few-shot audio classification. Additionally, we explore the relationship between a model's few-shot learning capability and other downstream task benchmarks. Our findings reveal state-of-the-art performance in some few-shot problems such as SpeechCommandsv2, as well as strong correlations between speech-based few-shot problems and various downstream audio tasks.
翻訳日:2024-02-12 19:28:34 公開日:2024-02-09
# 知識蒸留におけるグラフニューラルネットワークと大規模言語モデル

Large Language Model Meets Graph Neural Network in Knowledge Distillation ( http://arxiv.org/abs/2402.05894v2 )

ライセンス: Link先を確認
Shengxiang Hu, Guobing Zou, Song Yang, Yanglan Gan, Bofeng Zhang, Yixin Chen(参考訳) テキスト分散グラフ(TAG)の理解におけるLarge Language Models(LLMs)の進歩と潜在的な応用に関する最近のコミュニティの暴露にもかかわらず、本番環境におけるLLMの展開は、高い計算とストレージ要求とモデル推論の待ち時間によって妨げられている。 同時に、従来のグラフニューラルネットワーク(GNN)は軽量であり、グラフの構造的特徴の学習に適しているが、TAGにおける複雑なセマンティクスを理解する能力は、実際のアプリケーションには多少制約がある。 これらの制約に対処するため、我々はTAGにおけるノード分類の下流タスクに集中し、LinguGKD(LinguGKD)と呼ばれる新しいグラフ知識蒸留フレームワークを提案し、LLMを教師モデル、GNNを生徒モデルとして知識蒸留を行う。 設計された調整されたプロンプト上でのLLMのTAG指向の命令チューニングに加えて、知識を伝播し、教師のLLMから潜在空間の学生GNNへ階層的に学習されたノード特徴を調整し、層適応型コントラスト学習戦略を採用する。 様々なLLMモデルとGNNモデルおよび複数のベンチマークデータセットに関する広範な実験を通じて、LinguGKDは、追加のデータやモデルパラメータを必要とせずに、学生GNNの予測精度と収束率を大幅に向上させる。 教師のLLMと比較して、蒸留したGNNは、いくつかのベンチマークデータセットにおける教師のLLMの分類精度を上回る場合、はるかに少ない計算とストレージ要求を備えた推論速度を達成する。

Despite recent community revelations about the advancements and potential applications of Large Language Models (LLMs) in understanding Text-Attributed Graph (TAG), the deployment of LLMs for production is hindered by its high computational and storage requirements, as well as long latencies during model inference. Simultaneously, although traditional Graph Neural Networks (GNNs) are light weight and adept at learning structural features of graphs, their ability to grasp the complex semantics in TAG is somewhat constrained for real applications. To address these limitations, we concentrate on the downstream task of node classification in TAG and propose a novel graph knowledge distillation framework, termed Linguistic Graph Knowledge Distillation (LinguGKD), using LLMs as teacher models and GNNs as student models for knowledge distillation. It involves TAG-oriented instruction tuning of LLM on designed tailored prompts, followed by propagating knowledge and aligning the hierarchically learned node features from the teacher LLM to the student GNN in latent space, employing a layer-adaptive contrastive learning strategy. Through extensive experiments on a variety of LLM and GNN models and multiple benchmark datasets, the proposed LinguGKD significantly boosts the student GNN's predictive accuracy and convergence rate, without the need of extra data or model parameters. Compared to teacher LLM, distilled GNN achieves superior inference speed equipped with much fewer computing and storage demands, when surpassing the teacher LLM's classification accuracy on some of benchmark datasets.
翻訳日:2024-02-12 19:21:54 公開日:2024-02-09
# Prompting Fairness: ゲームプレイヤーとしての人工知能

Prompting Fairness: Artificial Intelligence as Game Players ( http://arxiv.org/abs/2402.05786v2 )

ライセンス: Link先を確認
Jazmia Henry(参考訳) 公正度を測定する独裁者ゲームのようなユーティリティゲームは、社会科学において何十年にもわたって研究されてきた。 これらのゲームは、人間が公正さをどのように見ているかだけでなく、公正さ、利他主義、欲求の頻度が増加または減少する状況についても洞察を与えてくれました。 これらのゲームは伝統的に人間に焦点を当ててきたが、AIの台頭により、これらのモデルがどのようにゲームをプレイするかを研究することができる。 AIは人間のインタラクションにおいて常に存在しており、これらのモデルがどのようにゲームプレイの公平性を表現しているかを調べることで、AIが意思決定を行う方法に関する洞察を得ることができます。 独裁者のゲームの101ラウンド以上において、私はAIは信頼に値する人物とみなすような公正さの強い感覚を持っていると結論付け、フレーミングはAIが理事に指名されたときの受取人にどれだけの影響力を与えるかに強く影響し、AIが人間と同じように不平等の回避を経験しているという証拠があるかもしれない。

Utilitarian games such as dictator games to measure fairness have been studied in the social sciences for decades. These games have given us insight into not only how humans view fairness but also in what conditions the frequency of fairness, altruism and greed increase or decrease. While these games have traditionally been focused on humans, the rise of AI gives us the ability to study how these models play these games. AI is becoming a constant in human interaction and examining how these models portray fairness in game play can give us some insight into how AI makes decisions. Over 101 rounds of the dictator game, I conclude that AI has a strong sense of fairness that is dependant of it it deems the person it is playing with as trustworthy, framing has a strong effect on how much AI gives a recipient when designated the trustee, and there may be evidence that AI experiences inequality aversion just as humans.
翻訳日:2024-02-12 19:21:04 公開日:2024-02-09
# 有限差分法による二重井戸トラップ内のボース・アインシュタイン凝縮の数値的研究

A numerical study of the Bose-Einstein condensates in a double-well trap using finite differences ( http://arxiv.org/abs/2402.05735v2 )

ライセンス: Link先を確認
D. J. Nader and E. Serrano-Ens\'astiga(参考訳) ボース=アインシュタインは二重井戸ポテンシャルで凝縮し、不安定点とセパラトリクスを含むリッチな古典位相空間内で多体系を研究するための必須成分を含む。 自己整合有限差分法を用いて,それらの量子特性とボソン-ボソン相互作用の強度依存性について検討する。 システムのエネルギー分布と固有状態の両方における行動変化に関連する臨界パラメータの偏差を観察する。 また,gross-pitaevskii方程式の非線形性に関して,ウィグナー関数,トンネル伝達係数,固有状態の非直交性といった非古典性の動向についても検討した。

Bose-Einstein condensates in a double-well potential contain the essential ingredients to study many-body systems within a rich classical phase-space that includes an unstable point and a separatrix. Employing a selfconsistent finite difference method, we study some of their quantum properties and their dependency on the strength of the boson-boson interaction. We observe a deviation in the critical parameters associated with a behavior change in both the energy distribution and the eigenstates of the system. We also examine the trends of the nonclassicality via the Wigner function, the tunneling transmission coefficient, and the nonorthogonality of eigenstates associated with the nonlinearity aspects of the Gross-Pitaevskii equation.
翻訳日:2024-02-12 19:20:35 公開日:2024-02-09
# 発達しない岩石の符号化-LDM対応SEタスクの人間中心実験

Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks ( http://arxiv.org/abs/2402.05650v2 )

ライセンス: Link先を確認
Wei Wang, Huilong Ning, Gaowei Zhang, Libo Liu and Yi Wang(参考訳) 近年、大規模言語モデル(LLM)ベースの生成AIは、特にChatGPTのリリース以降、複数のドメインにおける優れた高品質なパフォーマンスで勢いを増している。 多くの人は、ソフトウェア開発において汎用的な問題解決を行い、人間のソフトウェア開発者を置き換える可能性を秘めている。 それでも、これらのLCM技術がソフトウェア開発タスクを遂行する能力について、深刻な調査が行われていない。 参加者109名を対象にした2ドル\times$2のオブジェクト間実験において,コーディングタスクやソフトウェア開発タスクにおいてChatGPTがどの程度役に立つか,人々がChatGPTをどのように扱うかを検討した。 単純なコーディング問題ではChatGPTがうまく機能したが、典型的なソフトウェア開発タスクをサポートする性能はそれほど良くなかった。 また,参加者とチャットgptの相互作用を観察し,その相互作用と結果の関係を見いだした。 そこで本研究では,ChatGPTを用いて現実の開発者とソフトウェアエンジニアリングのタスクを遂行し,開発者が望まれる結果を達成するために,大規模言語モデルと効果的に連携する新しいインタラクションメカニズムの必要性を動機づける。

Recently, large language models (LLM) based generative AI has been gaining momentum for their impressive high-quality performances in multiple domains, particularly after the release of the ChatGPT. Many believe that they have the potential to perform general-purpose problem-solving in software development and replace human software developers. Nevertheless, there are in a lack of serious investigation into the capability of these LLM techniques in fulfilling software development tasks. In a controlled 2 $\times$ 2 between-subject experiment with 109 participants, we examined whether and to what degree working with ChatGPT was helpful in the coding task and typical software development task and how people work with ChatGPT. We found that while ChatGPT performed well in solving simple coding problems, its performance in supporting typical software development tasks was not that good. We also observed the interactions between participants and ChatGPT and found the relations between the interactions and the outcomes. Our study thus provides first-hand insights into using ChatGPT to fulfill software engineering tasks with real-world developers and motivates the need for novel interaction mechanisms that help developers effectively work with large language models to achieve desired outcomes.
翻訳日:2024-02-12 19:19:39 公開日:2024-02-09
# NCRF:ハンドオブジェクトインタラクションの自由視点レンダリングのための神経接触放射場

NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of Hand-Object Interaction ( http://arxiv.org/abs/2402.05532v2 )

ライセンス: Link先を確認
Zhongqun Zhang and Jifei Song and Eduardo P\'erez-Pellitero and Yiren Zhou and Hyung Jin Chang and Ale\v{s} Leonardis(参考訳) ハンドオブジェクトインタラクションのモデリングは、3dコンピュータビジョンにおける根本的な課題である。 この分野で達成された顕著な進歩にもかかわらず、既存の手法は、手と物体間の重度の相互閉塞に起因する劣化したレンダリング品質に悩まされ、手と物体の相互作用をフォトリアリスティックに合成することができない。 これらの課題に対処するために,手動インタラクションをスパースビデオから再構築する,新しい自由視点レンダリングフレームワークであるNCRF(Neural Contact Radiance Field)を提案する。 特に提案されているNCRFフレームワークは2つの重要なコンポーネントから構成されている。 (a)手と物体との望ましい接触を実現するために、3Dクエリポイントから正確な接触場を予測する接触最適化フィールド。 b) 静的な正準空間における暗黙的な手対象表現を学習するための手対象の神経放射場は、特別に設計された手対象の運動場と相まって、観察とカノニカル対応を生成する。 我々はこれらの重要な要素を共同で学習し、視覚的および幾何学的制約で相互に助け合い、規則化し、フォトリアリスティックな新規ビュー合成を実現する高品質な手オブジェクト再構成を実現する。 ho3dとdexycbデータセットに関する広範な実験は、レンダリング品質とポーズ推定精度の両方において、我々のアプローチが現在の最先端を上回っていることを示している。

Modeling hand-object interactions is a fundamentally challenging task in 3D computer vision. Despite remarkable progress that has been achieved in this field, existing methods still fail to synthesize the hand-object interaction photo-realistically, suffering from degraded rendering quality caused by the heavy mutual occlusions between the hand and the object, and inaccurate hand-object pose estimation. To tackle these challenges, we present a novel free-viewpoint rendering framework, Neural Contact Radiance Field (NCRF), to reconstruct hand-object interactions from a sparse set of videos. In particular, the proposed NCRF framework consists of two key components: (a) A contact optimization field that predicts an accurate contact field from 3D query points for achieving desirable contact between the hand and the object. (b) A hand-object neural radiance field to learn an implicit hand-object representation in a static canonical space, in concert with the specifically designed hand-object motion field to produce observation-to-canonical correspondences. We jointly learn these key components where they mutually help and regularize each other with visual and geometric constraints, producing a high-quality hand-object reconstruction that achieves photo-realistic novel view synthesis. Extensive experiments on HO3D and DexYCB datasets show that our approach outperforms the current state-of-the-art in terms of both rendering quality and pose estimation accuracy.
翻訳日:2024-02-12 19:18:59 公開日:2024-02-09
# マルチモーダル学習を満たしたナレッジグラフ:包括的調査

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey ( http://arxiv.org/abs/2402.05391v2 )

ライセンス: Link先を確認
Zhuo Chen, Yichi Zhang, Yin Fang, Yuxia Geng, Lingbing Guo, Xiang Chen, Qian Li, Wen Zhang, Jiaoyan Chen, Yushan Zhu, Jiaqi Li, Xiaoze Liu, Jeff Z. Pan, Ningyu Zhang, Huajun Chen(参考訳) 知識グラフ(KG)は、セマンティックWebコミュニティがイノベーションのための新たな道を開くマルチモーダルな次元を探求する中で、さまざまなAIアプリケーションを進める上で重要な役割を果たす。 本稿では,KGがマルチモーダルタスクをサポートするKG駆動型マルチモーダル学習(KG4MM)と,KG研究をMMKG領域に拡張するMulti-Modal Knowledge Graph(MM4KG)の2つの主要な側面について,300以上の論文を慎重にレビューする。 まず、KGとMMKGを定義し、その構築の進捗を調査する。 我々のレビューでは、画像分類や視覚質問回答のようなKG対応のマルチモーダル学習タスクと、マルチモーダル知識グラフ補完やエンティティアライメントのような固有のMMKGタスクの2つの主要なタスクカテゴリが紹介されている。 これらのタスクのほとんどは、定義、評価ベンチマークを提供し、関連する研究を行うために必要な洞察を概説します。 最後に,現在の課題を議論し,大規模言語モデリングの進展やマルチモーダル事前学習戦略など,新たなトレンドを特定する。 この調査は、既にKGとマルチモーダルラーニング研究に関わっており、MMKG研究の進化の展望を提供し、今後の研究を支援するための総合的な参考となることを目的としている。

Knowledge Graphs (KGs) play a pivotal role in advancing various AI applications, with the semantic web community's exploration into multi-modal dimensions unlocking new avenues for innovation. In this survey, we carefully review over 300 articles, focusing on KG-aware research in two principal aspects: KG-driven Multi-Modal (KG4MM) learning, where KGs support multi-modal tasks, and Multi-Modal Knowledge Graph (MM4KG), which extends KG studies into the MMKG realm. We begin by defining KGs and MMKGs, then explore their construction progress. Our review includes two primary task categories: KG-aware multi-modal learning tasks, such as Image Classification and Visual Question Answering, and intrinsic MMKG tasks like Multi-modal Knowledge Graph Completion and Entity Alignment, highlighting specific research trajectories. For most of these tasks, we provide definitions, evaluation benchmarks, and additionally outline essential insights for conducting relevant research. Finally, we discuss current challenges and identify emerging trends, such as progress in Large Language Modeling and Multi-modal Pre-training strategies. This survey aims to serve as a comprehensive reference for researchers already involved in or considering delving into KG and multi-modal learning research, offering insights into the evolving landscape of MMKG research and supporting future work.
翻訳日:2024-02-12 19:18:33 公開日:2024-02-09
# LB-KBQA:大言語モデルとBERTに基づく知識に基づく質問・回答システム

LB-KBQA: Large-language-model and BERT based Knowledge-Based Question and Answering System ( http://arxiv.org/abs/2402.05130v2 )

ライセンス: Link先を確認
Yan Zhao, Zhongyun Li, Yushan Pan, Jiaxing Wang, Yihong Wang(参考訳) 生成人工知能(AI)は、その創発的な能力のため、様々な分野に力を与えており、その典型例は大規模言語モデル(LLM)である。 Generative AIの典型的な応用分野の1つは大規模言語モデル(LLM)であり、LLMの自然言語理解能力は従来のAIベースの手法と比較して劇的に改善されている。 自然言語理解能力は、言語多様性と新たに現れた意図から生じる知識・質問・回答システム(kbqa)の意図認識性能に常に障壁となっている。 従来のaiベースのインテント認識は、セマンティック解析ベースのアプローチとモデルベースのアプローチに分けられる。 しかし、どちらの方法も意図認識の資源が限られている。 本稿では,Large Language Model(LLM)とBERT(LB-KBQA)に基づくKBQAシステムを提案する。 生成AIの助けを借りて,提案手法は新たに現れた意図を検知し,新たな知識を得ることができた。 金融分野質問応答の実験では,本モデルの方が優れた効果を示した。

Generative Artificial Intelligence (AI), because of its emergent abilities, has empowered various fields, one typical of which is large language models (LLMs). One of the typical application fields of Generative AI is large language models (LLMs), and the natural language understanding capability of LLM is dramatically improved when compared with conventional AI-based methods. The natural language understanding capability has always been a barrier to the intent recognition performance of the Knowledge-Based-Question-and-Answer (KBQA) system, which arises from linguistic diversity and the newly appeared intent. Conventional AI-based methods for intent recognition can be divided into semantic parsing-based and model-based approaches. However, both of the methods suffer from limited resources in intent recognition. To address this issue, we propose a novel KBQA system based on a Large Language Model(LLM) and BERT (LB-KBQA). With the help of generative AI, our proposed method could detect newly appeared intent and acquire new knowledge. In experiments on financial domain question answering, our model has demonstrated superior effectiveness.
翻訳日:2024-02-12 19:18:03 公開日:2024-02-09
# 繰り返しメッセージパッシングを有するグラフにおけるマルチエージェント強化学習の一般化に向けて

Towards Generalizability of Multi-Agent Reinforcement Learning in Graphs with Recurrent Message Passing ( http://arxiv.org/abs/2402.05027v2 )

ライセンス: Link先を確認
Jannis Weil and Zhenghua Bao and Osama Abboud and Tobias Meuser(参考訳) グラフベースの環境は、マルチエージェント強化学習にユニークな課題をもたらす。 分散的なアプローチでは、エージェントは所定のグラフ内で動作し、部分的あるいは時代遅れの観察に基づいて決定する。 観測された近傍の大きさは、異なるグラフへの一般化性を制限し、エージェントの反応性、選択されたアクションの品質、通信オーバーヘッドに影響する。 この研究は一般化性に焦点をあて、グラフ全体の連続的な情報フローで観測された近傍のサイズのトレードオフを解消する。 本稿では,環境のステップに合わせて繰り返しメッセージパッシングモデルを提案し,隣人とメッセージを交換することで,ノードがグラフのグローバルな表現を作成できるようにする。 エージェントは、グラフ内の位置に基づいて学習したグラフ観察を受信する。 我々の手法は、実行時に分散的に使用することができ、選択した強化学習アルゴリズムと組み合わせることができる。 通信ネットワークにおけるルーティングのコンテキストにおいて1000の多様なグラフにまたがる手法を評価し,エージェントがグラフの変化を一般化し適応できるようにする。

Graph-based environments pose unique challenges to multi-agent reinforcement learning. In decentralized approaches, agents operate within a given graph and make decisions based on partial or outdated observations. The size of the observed neighborhood limits the generalizability to different graphs and affects the reactivity of agents, the quality of the selected actions, and the communication overhead. This work focuses on generalizability and resolves the trade-off in observed neighborhood size with a continuous information flow in the whole graph. We propose a recurrent message-passing model that iterates with the environment's steps and allows nodes to create a global representation of the graph by exchanging messages with their neighbors. Agents receive the resulting learned graph observations based on their location in the graph. Our approach can be used in a decentralized manner at runtime and in combination with a reinforcement learning algorithm of choice. We evaluate our method across 1000 diverse graphs in the context of routing in communication networks and find that it enables agents to generalize and adapt to changes in the graph.
翻訳日:2024-02-12 19:17:45 公開日:2024-02-09
# moco: 組合せ最適化のための学習可能なメタオプティマイザ

Moco: A Learnable Meta Optimizer for Combinatorial Optimization ( http://arxiv.org/abs/2402.04915v2 )

ライセンス: Link先を確認
Tim Dernedde, Daniela Thyssens, S\"oren Dittrich, Maximilian Stubbemann, Lars Schmidt-Thieme(参考訳) 関連する組合せ最適化問題(COP)はしばしばNPハードである。 それらは、主に手作りのヒューリスティックスによって研究されてきたが、ニューラルネットワークの進歩は、データからヒューリスティックスを学ぶ一般的な方法の開発を動機づけている。 多くのアプローチでは、ニューラルネットワークを使用してソリューションを直接構築するが、推論時に既に構築されたソリューションに基づいて、さらなる改善が制限されている。 我々のアプローチであるMocoは、現在の検索状態から抽出された特徴に基づいて解構築手順を更新するグラフニューラルネットワークを学習する。 このメタトレーニング手順は、検索予算などの情報を与える検索手順中に見つかる、全体的な最良のソリューションをターゲットとしている。 これにより、Mocoは様々な計算予算など様々な状況に適応できる。 Mocoは完全に学習可能なメタオプティマイザで、問題固有のローカル検索や分解を一切利用しない。 我々は、旅行セールスマン問題(TSP)と最大独立セット(MIS)でMocoをテストし、MISにおける他のアプローチよりも優れており、特にTSPにおいて総合的に競合していることを示す。

Relevant combinatorial optimization problems (COPs) are often NP-hard. While they have been tackled mainly via handcrafted heuristics in the past, advances in neural networks have motivated the development of general methods to learn heuristics from data. Many approaches utilize a neural network to directly construct a solution, but are limited in further improving based on already constructed solutions at inference time. Our approach, Moco, learns a graph neural network that updates the solution construction procedure based on features extracted from the current search state. This meta training procedure targets the overall best solution found during the search procedure given information such as the search budget. This allows Moco to adapt to varying circumstances such as different computational budgets. Moco is a fully learnable meta optimizer that does not utilize any problem specific local search or decomposition. We test Moco on the Traveling Salesman Problem (TSP) and Maximum Independent Set (MIS) and show that it outperforms other approaches on MIS and is overall competitive on the TSP, especially outperforming related approaches, partially even if they use additional local search.
翻訳日:2024-02-12 19:17:29 公開日:2024-02-09
# 機械教育における組合せ問題について

On a Combinatorial Problem Arising in Machine Teaching ( http://arxiv.org/abs/2402.04907v2 )

ライセンス: Link先を確認
Brigt H{\aa}vardstun, Jan Kratochv\'il, Joakim Sunde, Jan Arne Telle(参考訳) 本研究では,概念と実例の両面において,教師マッピングをサイズ関数から構築する機械教育のモデルについて検討する。 機械教育における主な疑問は、あらゆる概念、いわゆる教示次元に必要な例の最小数である。 最近の論文 [7] では、このモデルの最悪の場合、概念クラスの大きさの関数として、一貫性行列がゼロ以上の数の二進表現を含むときに起こると推測した。 本稿では,それらの予想を証明する。 この結果は、ハイパーキューブ [12] のエッジ等尺性問題を解く定理の一般化と見なすことができ、我々の証明は [10] の補題に基づいている。

We study a model of machine teaching where the teacher mapping is constructed from a size function on both concepts and examples. The main question in machine teaching is the minimum number of examples needed for any concept, the so-called teaching dimension. A recent paper [7] conjectured that the worst case for this model, as a function of the size of the concept class, occurs when the consistency matrix contains the binary representations of numbers from zero and up. In this paper we prove their conjecture. The result can be seen as a generalization of a theorem resolving the edge isoperimetry problem for hypercubes [12], and our proof is based on a lemma of [10].
翻訳日:2024-02-12 19:17:10 公開日:2024-02-09
# PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング

PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition ( http://arxiv.org/abs/2402.04838v2 )

ライセンス: Link先を確認
Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Can Huang(参考訳) 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。 LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。 llm for ne} (padellm-ner)は、モジュールの追加やアーキテクチャの変更を必要とせず、既存の生成モデルフレームワークにシームレスに統合するアプローチである。 PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減する。 実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。 同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。

In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
翻訳日:2024-02-12 19:16:56 公開日:2024-02-09
# spiking-physformer:並列スパイク駆動変圧器を用いたカメラベースリモートフォトプレチモグラフィ

Spiking-PhysFormer: Camera-Based Remote Photoplethysmography with Parallel Spike-driven Transformer ( http://arxiv.org/abs/2402.04798v2 )

ライセンス: Link先を確認
Mingxuan Liu, Jiankai Tang, Haoxiang Li, Jiahao Qi, Siwei Li, Kegang Wang, Yuntao Wang, Hong Chen(参考訳) 人工ニューラルネットワーク(anns)は、脈波、心拍数、呼吸速度などの顔ビデオからの心臓活動や生理的信号をより正確に測定するために、カメラベースのリモートフォトプレチモグラフィ(rppg)に役立つ。 しかし、既存の ann ベースの手法の多くはかなりの計算リソースを必要とするため、モバイルデバイスへの効果的なデプロイには困難が伴う。 一方、スパイキングニューラルネットワーク(SNN)は、そのバイナリとイベント駆動アーキテクチャにより、エネルギー効率のよいディープラーニングの潜在能力を秘めている。 我々の知る限り、私たちは、電力消費量を減らすことを目的としたハイブリッドニューラルネットワーク(HNN)モデルであるSpking-PhysFormerを提案しながら、初めてRPPGの領域にSNNを導入しました。 具体的には、提案されたSpking-PhyFormerは、ANNベースのパッチ埋め込みブロック、SNNベースのトランスフォーマーブロック、ANNベースの予測ヘッドで構成される。 まず, 局所的および大域的時空間的特徴を集約する能力を維持しつつ, 変圧器ブロックの簡易化を図るため, 逐次サブブロックを置き換える並列スパイク変圧器ブロックを設計する。 さらに,モデルの性能を損なうことなく値パラメータを省略する簡易なスパイキング自己アテンション機構を提案する。 4つのデータセット(PURE, UBFC-rPPG, UBFC-Phys, MMPD)で行った実験により, 提案モデルがPhysFormerと比較して12.4倍の消費電力削減を実現していることが示された。 さらに、変圧器ブロックの消費電力を12.2倍に削減するとともに、physformerや他のann系モデルとしての性能を維持している。

Artificial neural networks (ANNs) can help camera-based remote photoplethysmography (rPPG) in measuring cardiac activity and physiological signals from facial videos, such as pulse wave, heart rate and respiration rate with better accuracy. However, most existing ANN-based methods require substantial computing resources, which poses challenges for effective deployment on mobile devices. Spiking neural networks (SNNs), on the other hand, hold immense potential for energy-efficient deep learning owing to their binary and event-driven architecture. To the best of our knowledge, we are the first to introduce SNNs into the realm of rPPG, proposing a hybrid neural network (HNN) model, the Spiking-PhysFormer, aimed at reducing power consumption. Specifically, the proposed Spiking-PhyFormer consists of an ANN-based patch embedding block, SNN-based transformer blocks, and an ANN-based predictor head. First, to simplify the transformer block while preserving its capacity to aggregate local and global spatio-temporal features, we design a parallel spike transformer block to replace sequential sub-blocks. Additionally, we propose a simplified spiking self-attention mechanism that omits the value parameter without compromising the model's performance. Experiments conducted on four datasets-PURE, UBFC-rPPG, UBFC-Phys, and MMPD demonstrate that the proposed model achieves a 12.4\% reduction in power consumption compared to PhysFormer. Additionally, the power consumption of the transformer block is reduced by a factor of 12.2, while maintaining decent performance as PhysFormer and other ANN-based models.
翻訳日:2024-02-12 19:16:38 公開日:2024-02-09
# 帰納的量子位相推定

Reductive Quantum Phase Estimation ( http://arxiv.org/abs/2402.04471v2 )

ライセンス: Link先を確認
Nicholas J.C. Papadopoulos, Jarrod T. Reilly, John Drew Wilson, Murray J. Holland(参考訳) 量子相の推定は、幅広い分野の量子科学において必要となる課題である。 この課題を達成するために、原子物理学と分子物理学のラムゼー干渉計(RI)と量子コンピューティングの量子位相推定(QPE)という2つのよく知られた手法が異なる文脈で開発された。 これらの正準例は、還元量子位相推定(RQPE)回路と呼ばれる、より大規模な位相推定プロトコルの例であることを示す。 ここでは、RQPE回路を作成できる明示的なアルゴリズムを提案する。 この回路は、より少ない量子ビットとユニタリな応用を持つ任意の位相の集合を区別し、RIとQPEが属する一般的な量子仮説テストのクラスを解く。 さらに、測定精度と位相識別性とのトレードオフを実証し、回路を特定の用途に最適に調整できるようにする。

Estimating a quantum phase is a necessary task in a wide range of fields of quantum science. To accomplish this task, two well-known methods have been developed in distinct contexts, namely, Ramsey interferometry (RI) in atomic and molecular physics and quantum phase estimation (QPE) in quantum computing. We demonstrate that these canonical examples are instances of a larger class of phase estimation protocols, which we call reductive quantum phase estimation (RQPE) circuits. Here we present an explicit algorithm that allows one to create an RQPE circuit. This circuit distinguishes an arbitrary set of phases with a fewer number of qubits and unitary applications, thereby solving a general class of quantum hypothesis testing to which RI and QPE belong. We further demonstrate a trade-off between measurement precision and phase distinguishability, which allows one to tune the circuit to be optimal for a specific application.
翻訳日:2024-02-12 19:16:04 公開日:2024-02-09
# AIによる地質炭素貯蔵へのデータ同化と不確実性定量化

AI enhanced data assimilation and uncertainty quantification applied to Geological Carbon Storage ( http://arxiv.org/abs/2402.06110v1 )

ライセンス: Link先を確認
G. S. Seabra (1, 2), N. T. M\"ucke (3, 4), V. L. S. Silva (2, 5), D. Voskov (1, 6), F. Vossepoel (1) ((1) TU Delft, Netherlands, (2) Petrobras, Brazil, (3) Centrum Wiskunde & Informatica, Netherlands, (4) Utrecht University, Netherlands, (5) Imperial College London, United Kingdom, (6) Stanford University, USA)(参考訳) 本研究では,機械学習 (ml) とデータ同化 (da) 技術の統合について検討し,高忠実度物理結果を維持しつつ,地質炭素貯蔵 (gcs) プロジェクトのためのサロゲートモデルの実装に焦点をあてた。 まず,2つの異なる機械学習モデルであるフーリエニューラル演算子(FNO)とトランスフォーマーUNet(T-UNet)の代理モデリング能力を,チャネル型貯水池内のCO$_2$注入シミュレーションの文脈で評価した。 本稿では,Surrogate-based hybrid ESMDA (SH-ESMDA)を導入し,Surrogate-based hybrid ESMDA (SH-ESMDA)について述べる。 この方法はFNOとT-UNetを代理モデルとして使用し、同化ステップの数に応じて標準ESMDAプロセスを少なくとも50%高速化する可能性がある。 さらに、Surrogate-based Hybrid RML (SH-RML)を導入し、FNOとT-UNetの両方が目的関数の最適化のための勾配の計算を可能にし、後続状態の計算に高忠実度モデルを用いるランダム化最大可能性(RML)に依存する変動データ同化手法を提案する。 比較分析の結果,SH-RMLは従来のESMDAと比較して不確実性の定量化に優れていた。

This study investigates the integration of machine learning (ML) and data assimilation (DA) techniques, focusing on implementing surrogate models for Geological Carbon Storage (GCS) projects while maintaining high fidelity physical results in posterior states. Initially, we evaluate the surrogate modeling capability of two distinct machine learning models, Fourier Neural Operators (FNOs) and Transformer UNet (T-UNet), in the context of CO$_2$ injection simulations within channelized reservoirs. We introduce the Surrogate-based hybrid ESMDA (SH-ESMDA), an adaptation of the traditional Ensemble Smoother with Multiple Data Assimilation (ESMDA). This method uses FNOs and T-UNet as surrogate models and has the potential to make the standard ESMDA process at least 50% faster or more, depending on the number of assimilation steps. Additionally, we introduce Surrogate-based Hybrid RML (SH-RML), a variational data assimilation approach that relies on the randomized maximum likelihood (RML) where both the FNO and the T-UNet enable the computation of gradients for the optimization of the objective function, and a high-fidelity model is employed for the computation of the posterior states. Our comparative analyses show that SH-RML offers better uncertainty quantification compared to conventional ESMDA for the case study.
翻訳日:2024-02-12 18:33:17 公開日:2024-02-09
# オンライン試験における不正検出と局所化のための複数インスタンス学習

Multiple Instance Learning for Cheating Detection and Localization in Online Examinations ( http://arxiv.org/abs/2402.06107v1 )

ライセンス: Link先を確認
Yemeng Liu, Jing Ren, Jianshuo Xu, Xiaomei Bai, Roopdeep Kaur, Feng Xia(参考訳) コロナウイルスの感染拡大に伴い、多くのコースや試験がオンラインで実施されている。 試験ナビゲーションシステムにおける不正行為検出モデルは,遠隔検査の平等性を保証する上で重要な役割を担っている。 しかし、不正行為はまれであり、ほとんどの研究者は不正行為検出タスクにおける頭部姿勢、視線角、身体姿勢、背景情報などの特徴を総合的に考慮していない。 本稿では,MultiplE inStancE学習によるCHEating検出フレームワークであるCHEESEを開発した。 このフレームワークは、弱い監視を実装するラベルジェネレータと、識別的特徴を学習するための特徴エンコーダで構成されている。 また、3次元畳み込みによって抽出された体格と背景の特徴と、openface 2.0で捉えた視線、頭部姿勢、顔の特徴を組み合わせる。 これらの特徴は、ビデオクリップの時空間変化を分析し、不正行為を検出することで、時空間グラフモジュールに入力される。 UCF-Crime, ShanghaiTech, Online Exam Proctoring (OEP) の3つのデータセットに対する実験により, 現状のアプローチと比較して本手法の有効性が証明され, フレームレベルのAUCスコアは87.58%であった。

The spread of the Coronavirus disease-2019 epidemic has caused many courses and exams to be conducted online. The cheating behavior detection model in examination invigilation systems plays a pivotal role in guaranteeing the equality of long-distance examinations. However, cheating behavior is rare, and most researchers do not comprehensively take into account features such as head posture, gaze angle, body posture, and background information in the task of cheating behavior detection. In this paper, we develop and present CHEESE, a CHEating detection framework via multiplE inStancE learning. The framework consists of a label generator that implements weak supervision and a feature encoder to learn discriminative features. In addition, the framework combines body posture and background features extracted by 3D convolution with eye gaze, head posture and facial features captured by OpenFace 2.0. These features are fed into the spatio-temporal graph module by stitching to analyze the spatio-temporal changes in video clips to detect the cheating behaviors. Our experiments on three datasets, UCF-Crime, ShanghaiTech and Online Exam Proctoring (OEP), prove the effectiveness of our method as compared to the state-of-the-art approaches, and obtain the frame-level AUC score of 87.58% on the OEP dataset.
翻訳日:2024-02-12 18:32:48 公開日:2024-02-09
# 不均一グラフコントラスト学習による地図エンティティの協調学習表現

Jointly Learning Representations for Map Entities via Heterogeneous Graph Contrastive Learning ( http://arxiv.org/abs/2402.06135v1 )

ライセンス: Link先を確認
Jiawei Jiang, Yifan Yang, Jingyuan Wang, Junjie Wu(参考訳) 電子地図は地理情報システムにおいて重要な役割を担い、様々な都市管理シナリオや日常生活サービスに役立っている。 効率的なMap Entity Representation Learning(MERL)手法の開発は、電子地図から埋め込み情報を抽出し、下流アプリケーションのための表現ベクトルに変換する上で重要である。 しかし、既存のMERL法は一般に、POI、道路セグメント、ランドパーセルなどの特定のマップエンティティのカテゴリに焦点を合わせており、これは現実世界の多様なマップベースアプリケーションには不十分であり、異なるタイプのエンティティ間で相互作用する潜在構造情報や意味情報を失う可能性がある。 さらに、異なるマップエンティティに対して別々のモデルによって生成された表現を使用することで、矛盾を導入することができる。 そこで本研究では,マップエンティティの複数カテゴリの表現を学習するためのHOME-GCLという新しい手法を提案する。 本手法では,道路セグメントとランドパーセルの両方を統一したフレームワークに統合するヘテロジニアスマップエンティティグラフ(HOMEグラフ)を用いる。 パーセルセグメントのジョイント特徴エンコーディングと異種グラフトランスフォーマを備えたホームエンコーダは、セグメントとパーセルを表現ベクトルに変換するために意図的に設計されている。 さらに,エンコーダを自己教師付きで訓練するために,エンティティ内タスクとエンティティ間タスクという,2種類のコントラスト学習タスクを導入する。 道路セグメントベース,ランドパーセルベース,トラジェクトリベースの3つの大規模データセットに対する大規模な実験は,我々のアプローチの優位性を示している。 我々の知る限り、HOME-GCLは統一モデルを用いて道路セグメントと土地区画の表現を共同で学習する最初の試みである。

The electronic map plays a crucial role in geographic information systems, serving various urban managerial scenarios and daily life services. Developing effective Map Entity Representation Learning (MERL) methods is crucial to extracting embedding information from electronic maps and converting map entities into representation vectors for downstream applications. However, existing MERL methods typically focus on one specific category of map entities, such as POIs, road segments, or land parcels, which is insufficient for real-world diverse map-based applications and might lose latent structural and semantic information interacting between entities of different types. Moreover, using representations generated by separate models for different map entities can introduce inconsistencies. Motivated by this, we propose a novel method named HOME-GCL for learning representations of multiple categories of map entities. Our approach utilizes a heterogeneous map entity graph (HOME graph) that integrates both road segments and land parcels into a unified framework. A HOME encoder with parcel-segment joint feature encoding and heterogeneous graph transformer is then deliberately designed to convert segments and parcels into representation vectors. Moreover, we introduce two types of contrastive learning tasks, namely intra-entity and inter-entity tasks, to train the encoder in a self-supervised manner. Extensive experiments on three large-scale datasets covering road segment-based, land parcel-based, and trajectory-based tasks demonstrate the superiority of our approach. To the best of our knowledge, HOME-GCL is the first attempt to jointly learn representations for road segments and land parcels using a unified model.
翻訳日:2024-02-12 18:19:21 公開日:2024-02-09
# TETRIS:インタラクティブセグメンテーションのロバスト性を探る

TETRIS: Towards Exploring the Robustness of Interactive Segmentation ( http://arxiv.org/abs/2402.06132v1 )

ライセンス: Link先を確認
Andrey Moskalenko, Vlad Shakhuro, Anna Vorontsova, Anton Konushin, Anton Antonov, Alexander Krapukhin, Denis Shepelev, Konstantin Soshin(参考訳) 対話型セグメンテーション手法は、選択マスクを反復的に更新するためにユーザ入力に依存する。 興味のあるオブジェクトを指定するクリックは、おそらく最も単純で直感的な対話タイプであり、対話的なセグメンテーションの最も一般的な選択である。 しかし、対話的なセグメンテーションコンテキストにおけるユーザークリックパターンは未検討のままである。 したがって、インタラクティブなセグメンテーション評価戦略は、経験的な研究よりも直感と常識に依拠している(例えば、ユーザーが最もエラーの多い領域の中央をクリックする傾向があると仮定する)。 本研究では,実際のユーザクリックパターンを調べるために,実際のユーザ調査を行う。 本研究は,共通評価戦略における直観的な仮定が成立しないことを示す。 結果として、インタラクティブなセグメンテーションモデルは標準ベンチマークで高いスコアを示すかもしれないが、現実のシナリオではうまく機能するわけではない。 対話型セグメンテーション手法の適用性を評価するため,モデルの性能をより包括的に分析する新しい評価手法を提案する。 そこで本研究では,対話型セグメンテーションモデルに対するホワイトボックス逆攻撃の直接最適化により,極端なユーザ入力を見つける手法を提案する。 このようなユーザ入力の性能に基づいて,対話型セグメンテーションモデルw.r.tクリック位置のロバスト性を評価する。 さらに,対話的セグメンテーションの堅牢性を評価するための新しいベンチマークを導入し,数十のモデルの広範囲な評価結果を報告する。

Interactive segmentation methods rely on user inputs to iteratively update the selection mask. A click specifying the object of interest is arguably the most simple and intuitive interaction type, and thereby the most common choice for interactive segmentation. However, user clicking patterns in the interactive segmentation context remain unexplored. Accordingly, interactive segmentation evaluation strategies rely more on intuition and common sense rather than empirical studies (e.g., assuming that users tend to click in the center of the area with the largest error). In this work, we conduct a real user study to investigate real user clicking patterns. This study reveals that the intuitive assumption made in the common evaluation strategy may not hold. As a result, interactive segmentation models may show high scores in the standard benchmarks, but it does not imply that they would perform well in a real world scenario. To assess the applicability of interactive segmentation methods, we propose a novel evaluation strategy providing a more comprehensive analysis of a model's performance. To this end, we propose a methodology for finding extreme user inputs by a direct optimization in a white-box adversarial attack on the interactive segmentation model. Based on the performance with such adversarial user inputs, we assess the robustness of interactive segmentation models w.r.t click positions. Besides, we introduce a novel benchmark for measuring the robustness of interactive segmentation, and report the results of an extensive evaluation of dozens of models.
翻訳日:2024-02-12 18:18:51 公開日:2024-02-09
# 大規模グラフ学習のためのノード間伝播の再考

Rethinking Node-wise Propagation for Large-scale Graph Learning ( http://arxiv.org/abs/2402.06128v1 )

ライセンス: Link先を確認
Xunkai Li, Jingyuan Ma, Zhengyu Wu, Daohan Su, Wentao Zhang, Rong-Hua Li, Guoren Wang(参考訳) スケーラブルグラフニューラルネットワーク(GNN)は,多数の大規模グラフベースのWebアプリケーションに対して,優れた予測性能と高い実行効率を示す,有望なテクニックとして登場した。 しかし、 (i)ほとんどのスケーラブルなGNNは、グラフ内のすべてのノードを同じ伝搬規則で扱い、そのトポロジ的特異性を無視する傾向がある。 (II) ノードの局所特性の完全な表現が必要な複雑なトポロジを持つWebスケールグラフでは,既存のノードワイズ最適化戦略が不十分である。 直感的には、Webスケールグラフの異なるノードは異なるトポロジ的役割を持つので、それらを非差別的に伝播するか、あるいは無視するかは、ノード表現の品質を損なう可能性がある。 このwebスケールグラフの複雑なトポロジーは、小規模のシナリオでは一致しない。 以上の問題に対処するため,我々は,潜在的な高バイアス伝播を低減し,各ノードの構造パターンをスケーラブルに抽出し,実行効率と予測性能を向上させることを目的とした, \textbf{A}daptive \textbf{T}opology-aware \textbf{P}ropagation (ATP)を提案する。 注目すべきは、ATPは、新しい視点でグラフ学習プロセスとは独立してオフライン実行を可能にする、プラグインとプレイのノードワイドな伝搬最適化戦略として設計されていることだ。 したがって、このアプローチは最もスケーラブルなgnnにシームレスに統合でき、既存のノード毎の伝搬最適化戦略と直交する。 大規模なOgbn-papers100Mを含む12のデータセットに対する大規模な実験は、ATPの有効性を実証した。 具体的には、ATPは、冗長な計算コストに対処しながら、半教師付きノード分類のための拡張性のあるGNNの性能を向上させるのに効率的であることが証明されている。

Scalable graph neural networks (GNNs) have emerged as a promising technique, which exhibits superior predictive performance and high running efficiency across numerous large-scale graph-based web applications. However, (i) Most scalable GNNs tend to treat all nodes in graphs with the same propagation rules, neglecting their topological uniqueness; (ii) Existing node-wise propagation optimization strategies are insufficient on web-scale graphs with intricate topology, where a full portrayal of nodes' local properties is required. Intuitively, different nodes in web-scale graphs possess distinct topological roles, and therefore propagating them indiscriminately or neglect local contexts may compromise the quality of node representations. This intricate topology in web-scale graphs cannot be matched by small-scale scenarios. To address the above issues, we propose \textbf{A}daptive \textbf{T}opology-aware \textbf{P}ropagation (ATP), which reduces potential high-bias propagation and extracts structural patterns of each node in a scalable manner to improve running efficiency and predictive performance. Remarkably, ATP is crafted to be a plug-and-play node-wise propagation optimization strategy, allowing for offline execution independent of the graph learning process in a new perspective. Therefore, this approach can be seamlessly integrated into most scalable GNNs while remain orthogonal to existing node-wise propagation optimization strategies. Extensive experiments on 12 datasets, including the most representative large-scale ogbn-papers100M, have demonstrated the effectiveness of ATP. Specifically, ATP has proven to be efficient in improving the performance of prevalent scalable GNNs for semi-supervised node classification while addressing redundant computational costs.
翻訳日:2024-02-12 18:18:29 公開日:2024-02-09
# cityflower:組み込み機械学習モデルによる効率的かつ現実的な交通シミュレータ

CityFlowER: An Efficient and Realistic Traffic Simulator with Embedded Machine Learning Models ( http://arxiv.org/abs/2402.06127v1 )

ライセンス: Link先を確認
Longchao Da, Chen Chu, Weinan Zhang, Hua Wei(参考訳) 交通シミュレーションは交通インフラ計画、インテリジェントな交通制御政策学習、交通流解析に欠かせないツールである。 その効果は、使用するシミュレータのリアリズムに大きく依存する。 SUMOやCityFlowのような従来の交通シミュレータは、運転行動を単純化し、非現実的なシミュレーションをもたらすハイパーパラメータを持つルールベースのモデルに依存しているため、しばしば制限される。 現実性を高めるために、いくつかのシミュレーターは機械学習(ML)モデルと相互作用するアプリケーションプログラミングインタフェース(API)を提供し、観測データから学習し、より洗練された運転行動モデルを提供している。 しかし、このアプローチは車両数の増加に伴ってスケーラビリティと時間効率の課題に直面している。 そこで本研究では,都市全体の交通シミュレーションの効率化を目的とした都市フローシミュレータであるcityflowerについて紹介する。 CityFlowERは、エミュレータ内にMLモデルを革新的にプリ組込み、外部APIインタラクションの必要性を排除し、高速なデータ計算を可能にする。 このアプローチにより、個々の車両に対するルールベースとMLの振る舞いモデルを組み合わせることができ、特に大規模シミュレーションにおいて、非並列な柔軟性と効率を提供する。 本稿では,CityFlowERの現実性,効率,適応性の観点から,既存のシミュレータとの比較,実装インサイト,総合的な実験について述べる。

Traffic simulation is an essential tool for transportation infrastructure planning, intelligent traffic control policy learning, and traffic flow analysis. Its effectiveness relies heavily on the realism of the simulators used. Traditional traffic simulators, such as SUMO and CityFlow, are often limited by their reliance on rule-based models with hyperparameters that oversimplify driving behaviors, resulting in unrealistic simulations. To enhance realism, some simulators have provided Application Programming Interfaces (APIs) to interact with Machine Learning (ML) models, which learn from observed data and offer more sophisticated driving behavior models. However, this approach faces challenges in scalability and time efficiency as vehicle numbers increase. Addressing these limitations, we introduce CityFlowER, an advancement over the existing CityFlow simulator, designed for efficient and realistic city-wide traffic simulation. CityFlowER innovatively pre-embeds ML models within the simulator, eliminating the need for external API interactions and enabling faster data computation. This approach allows for a blend of rule-based and ML behavior models for individual vehicles, offering unparalleled flexibility and efficiency, particularly in large-scale simulations. We provide detailed comparisons with existing simulators, implementation insights, and comprehensive experiments to demonstrate CityFlowER's superiority in terms of realism, efficiency, and adaptability.
翻訳日:2024-02-12 18:17:57 公開日:2024-02-09
# 効率的になるために学ぶ - 大規模言語モデルにおける構造化スパーシティの構築

Learn To be Efficient: Build Structured Sparsity in Large Language Models ( http://arxiv.org/abs/2402.06126v1 )

ライセンス: Link先を確認
Haizhong Zheng, Xiaoyan Bai, Beidi Chen, Fan Lai, Atul Prakash(参考訳) 大規模言語モデル(llm)は10億レベルのパラメータで驚くべき成功を収めているが、高い推論オーバーヘッドを負っている。 LLMにおける活性化空間の出現は、推論のためのパラメータの一部だけを含むことによって、このコストを削減する自然なアプローチを提供する。 既存の方法は、この自然に形成された活性化空間の利用のみに焦点を合わせ、この固有空間をさらに増幅する可能性を見越している。 本稿では,LLMがより構造化された活性化空間を達成し,より効率的に学習できることを仮定し,その実現のために,Learning-To-be-Efficient(LTE)という新しいアルゴリズムを導入する。 さらに、主にReLUモデルに焦点を当てたSOTA MoEfication法とは異なり、LTEは、ソフトアクティベーション機能を備えたGPTやLLaMAといったLCMにも適用することができる。 LTEを4つのモデルと11のデータセットで評価する。 実験の結果、LTEはポーシャリティとタスクパフォーマンスのトレードオフを良くすることがわかった。 例えば、LLaMAを使ったLTEは言語生成タスクで1.83x-2.59xのFLOPを高速化し、最先端の手法よりも優れている。

Large Language Models (LLMs) have achieved remarkable success with their billion-level parameters, yet they incur high inference overheads. The emergence of activation sparsity in LLMs provides a natural approach to reduce this cost by involving only parts of the parameters for inference. Existing methods only focus on utilizing this naturally formed activation sparsity, overlooking the potential for further amplifying this inherent sparsity. In this paper, we hypothesize that LLMs can learn to be efficient by achieving more structured activation sparsity.To achieve this, we introduce a novel algorithm, Learn-To-be-Efficient (LTE), designed to train efficiency-aware LLMs to learn to activate fewer neurons and achieve a better trade-off between sparsity and performance. Furthermore, unlike SOTA MoEfication methods, which mainly focus on ReLU-based models, LTE can also be applied to LLMs like GPT and LLaMA with soft activation functions. We evaluate LTE on four models and eleven datasets. The experiments show that LTE achieves a better trade-off between sparsity and task performance. For instance, LTE with LLaMA provides a 1.83x-2.59x FLOPs speed-up on language generation tasks, outperforming the state-of-the-art methods.
翻訳日:2024-02-12 18:17:36 公開日:2024-02-09
# Parser-Driven Rhetorical Control 法による言語モデル文の補完

Language Model Sentence Completion with a Parser-Driven Rhetorical Control Method ( http://arxiv.org/abs/2402.06125v1 )

ライセンス: Link先を確認
Joshua Zingale and Jugal Kalita(参考訳) 制御されたテキスト生成(CTG)は、大言語モデル(LLM)出力をガイドし、所望の基準に従うテキストを生成する。 本研究は, モデル微調整を必要としないパーサ駆動復号方式により, LLM文補完文脈における特定の修辞関係への固執を強制する新しいCTGアルゴリズムを提案する。 この手法は自動評価と人間評価の両方で検証される。 コードはGitHubからアクセスできる。

Controlled text generation (CTG) seeks to guide large language model (LLM) output to produce text that conforms to desired criteria. The current study presents a novel CTG algorithm that enforces adherence toward specific rhetorical relations in an LLM sentence-completion context by a parser-driven decoding scheme that requires no model fine-tuning. The method is validated both with automatic and human evaluation. The code is accessible on GitHub.
翻訳日:2024-02-12 18:17:11 公開日:2024-02-09
# PEAKによるPeeking:複数のデータストリームに対する逐次的・非パラメトリック複合仮説テスト

Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams ( http://arxiv.org/abs/2402.06122v1 )

ライセンス: Link先を確認
Brian Cho, Kyra Gan, Nathan Kallus(参考訳) 本稿では,複数データストリームを用いた合成仮説のための新しい非パラメトリックシーケンシャルテストを提案する。 提案手法である \emph{peeking with expectation-based averaged capital} (peak) は,テスト・アズ・ア・ベッティングフレームワークを基盤とし,任意の停止時間にわたって非漸近的な$\alpha$-level テストを提供する。 PEAKは計算的に抽出可能であり、非パラメトリックな仮定を満たす全ての潜在的分布に誤りがある仮説を効率的に否定し、複数のデータストリームで共同合成仮説テストを可能にする。 バンドイット設定における最善のアーム識別としきい値同定の下での理論的知見を数値的に検証し,最先端試験法に対する計算効率を示す。

We propose a novel nonparametric sequential test for composite hypotheses for means of multiple data streams. Our proposed method, \emph{peeking with expectation-based averaged capital} (PEAK), builds upon the testing-as-betting framework and provides a non-asymptotic $\alpha$-level test across any stopping time. PEAK is computationally tractable and efficiently rejects hypotheses that are incorrect across all potential distributions that satisfy our nonparametric assumption, enabling joint composite hypothesis testing on multiple streams of data. We numerically validate our theoretical findings under the best arm identification and threshold identification in the bandit setting, illustrating the computational efficiency of our method against state-of-the-art testing methods.
翻訳日:2024-02-12 18:17:04 公開日:2024-02-09
# ボルツマン密度からのサンプリングのための繰り返しDenoising Energy Matching

Iterated Denoising Energy Matching for Sampling from Boltzmann Densities ( http://arxiv.org/abs/2402.06121v1 )

ライセンス: Link先を確認
Tara Akhound-Sadegh, Jarrid Rector-Brooks, Avishek Joey Bose, Sarthak Mittal, Pablo Lemos, Cheng-Hao Liu, Marcin Sendera, Siamak Ravanbakhsh, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Alexander Tong(参考訳) 多体系の平衡サンプルのような非正規化確率分布から統計的に独立なサンプルを効率的に生成することは、科学における基礎的な問題である。 本稿では,エネルギー関数とその勾配のみを利用する新しい確率的スコアマッチング目標を用いて,拡散ベースのサンプルを学習する反復アルゴリズムであるイテレーテッド・デノイジング・エネルギマッチング(idem)を提案する。 具体的には, (I) 拡散型試料試料から高モデル密度のサンプリング領域を, (II) それらの試料を確率的マッチング目的に用い, サンプリング領域をさらに改良する。 iDEMは内部マッチングの目的として高次元にスケーラブルであり、シミュレーション不要であり、MCMCサンプルを必要としない。 さらに, 拡散の高速モード混合挙動を活用することにより, エネルギー景観を円滑にし, 焼成試料の効率的な探索と学習を可能にする。 我々は、標準合成エネルギー関数から不変の$n$-body粒子系まで、一連のタスクでiDEMを評価する。 提案手法は,全計測値の最先端性能を達成し,2~5\times$の高速化を実現し,45ドルのLennard-Jonesシステムにおいて,エネルギーを用いたトレーニングを初めて行うことができることを示す。

Efficiently generating statistically independent samples from an unnormalized probability distribution, such as equilibrium samples of many-body systems, is a foundational problem in science. In this paper, we propose Iterated Denoising Energy Matching (iDEM), an iterative algorithm that uses a novel stochastic score matching objective leveraging solely the energy function and its gradient -- and no data samples -- to train a diffusion-based sampler. Specifically, iDEM alternates between (I) sampling regions of high model density from a diffusion-based sampler and (II) using these samples in our stochastic matching objective to further improve the sampler. iDEM is scalable to high dimensions as the inner matching objective, is simulation-free, and requires no MCMC samples. Moreover, by leveraging the fast mode mixing behavior of diffusion, iDEM smooths out the energy landscape enabling efficient exploration and learning of an amortized sampler. We evaluate iDEM on a suite of tasks ranging from standard synthetic energy functions to invariant $n$-body particle systems. We show that the proposed approach achieves state-of-the-art performance on all metrics and trains $2-5\times$ faster, which allows it to be the first method to train using energy on the challenging $55$-particle Lennard-Jones system.
翻訳日:2024-02-12 18:16:46 公開日:2024-02-09
# 大規模言語モデルにおけるグループと対称性の原理の探索

Exploring Group and Symmetry Principles in Large Language Models ( http://arxiv.org/abs/2402.06120v1 )

ライセンス: Link先を確認
Shima Imani, Hamid Palangi(参考訳) 大規模言語モデル(llm)は、幅広いアプリケーションで印象的なパフォーマンスを示しているが、推論能力の評価は依然として大きな課題である。 本稿では,物理学や数学などの分野において重要な役割を担った群と対称性の原理に基づく枠組みを導入し,その能力を評価する別の方法を提案する。 提案するフレームワークは一般に,これらの特性を利用する利点を示すために, 4つの群特性(閉包, 同一性, 逆転, 連想性)に対する算術的推論とそれらのモデルの性能について検討する。 以上の結果から,LSMは様々な試験体制におけるグループ特性の維持に苦慮していることが明らかとなった。 閉鎖試験では,特定の出力に対するバイアスと,特定のシーケンス長の後に100%から0%の急激な性能低下が観察された。 それらはまた、文脈に無関係な情報を追加することを表すアイデンティティテストでは不十分であり、逆テストを受けると感度を示し、否定に関してモデルの堅牢性を調べる。 さらに,より小さなステップに分割することで,これまでに実施したアソシエーションテストにおいてLCMが有効であることを示す。 これらのテストをサポートするために、私たちは、リリース予定の合成データセットを開発しました。

Large Language Models (LLMs) have demonstrated impressive performance across a wide range of applications; however, assessing their reasoning capabilities remains a significant challenge. In this paper, we introduce a framework grounded in group and symmetry principles, which have played a crucial role in fields such as physics and mathematics, and offer another way to evaluate their capabilities. While the proposed framework is general, to showcase the benefits of employing these properties, we focus on arithmetic reasoning and investigate the performance of these models on four group properties: closure, identity, inverse, and associativity. Our findings reveal that LLMs studied in this work struggle to preserve group properties across different test regimes. In the closure test, we observe biases towards specific outputs and an abrupt degradation in their performance from 100% to 0% after a specific sequence length. They also perform poorly in the identity test, which represents adding irrelevant information in the context, and show sensitivity when subjected to inverse test, which examines the robustness of the model with respect to negation. In addition, we demonstrate that breaking down problems into smaller steps helps LLMs in the associativity test that we have conducted. To support these tests we have developed a synthetic dataset which will be released.
翻訳日:2024-02-12 18:16:23 公開日:2024-02-09
# ContPhy: ビデオからの連続的物理概念学習と推論

ContPhy: Continuum Physical Concept Learning and Reasoning from Videos ( http://arxiv.org/abs/2402.06119v1 )

ライセンス: Link先を確認
Zhicheng Zheng, Xin Yan, Zhenfang Chen, Jingzhou Wang, Qin Zhi Eddie Lim, Joshua B. Tenenbaum, Chuang Gan(参考訳) 本稿では,機械物理常識を評価するための新しいベンチマークであるContinuum Physical Dataset(ContPhy)を紹介する。 contphyは、質量や密度といった様々な物理的性質を様々なシナリオで推測し、対応するダイナミクスを予測することによって、既存の物理推論ベンチマークを補完する。 私たちは、さまざまなAIモデルを評価し、ContPhy上での満足なパフォーマンスを達成するのに依然として苦労していることを発見し、現在のAIモデルは、継続体、特にソフトボディの物理的な常識を欠いていることを示し、提案されたデータセットの価値を説明している。 また、近年の大規模言語モデルと粒子ベースの物理力学モデルを組み合わせたオラクルモデル(ContPRO)を導入し、両方のモデル、正確な動的予測、解釈可能な推論の利点を享受する。 contphyは、様々な物理的環境における知覚と推論の進歩を促進し、物理的世界を理解する上で人間と機械の知性の間の隔たりを狭めることを目的としている。 プロジェクトページ: https://physical-reasoning-project.github.io

We introduce the Continuum Physical Dataset (ContPhy), a novel benchmark for assessing machine physical commonsense. ContPhy complements existing physical reasoning benchmarks by encompassing the inference of diverse physical properties, such as mass and density, across various scenarios and predicting corresponding dynamics. We evaluated a range of AI models and found that they still struggle to achieve satisfactory performance on ContPhy, which shows that the current AI models still lack physical commonsense for the continuum, especially soft-bodies, and illustrates the value of the proposed dataset. We also introduce an oracle model (ContPRO) that marries the particle-based physical dynamic models with the recent large language models, which enjoy the advantages of both models, precise dynamic predictions, and interpretable reasoning. ContPhy aims to spur progress in perception and reasoning within diverse physical settings, narrowing the divide between human and machine intelligence in understanding the physical world. Project page: https://physical-reasoning-project.github.io.
翻訳日:2024-02-12 18:16:01 公開日:2024-02-09
# ViGoR:細粒リワードモデリングによる大規模視覚言語モデルの視覚的グラウンド化の改善

ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling ( http://arxiv.org/abs/2402.06118v1 )

ライセンス: Link先を確認
Siming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li(参考訳) 近年の大規模視覚言語モデル(LVLM)は,自然言語理解と大規模言語モデルの生成能力と画像認識の知識の広さを組み合わせることで,実世界では前例のない推論能力を示した。 しかし、生成したテキストは視覚入力における不正確な接地に悩まされることが多く、その結果、既存のシーン要素の幻覚、シーンの重要な部分の欠如、不正確な属性とオブジェクト間の関係の推測などのエラーが発生する。 これらの課題に対処するために, 微粒な報酬モデルを用いて, 事前学習ベースライン上でのLVLMの視覚的グラウンド化を著しく向上する新しいフレームワークViGoRを導入する。 この改善は、完全な監督ではなく、はるかに安価な人的評価と自動化手法によって効率よく達成される。 いくつかのベンチマークで多くの指標を用いて,本手法の有効性を示す。 さらに,LVLMの視覚的接地能力を検証するために,包括的で困難なデータセットを構築した。 最後に,約16,000枚の画像と生成したテキストペアからなる人間アノテーションをリリースし,コミュニティの関連研究に寄与する予定である。

By combining natural language understanding and the generation capabilities and breadth of knowledge of large language models with image perception, recent large vision language models (LVLMs) have shown unprecedented reasoning capabilities in the real world. However, the generated text often suffers from inaccurate grounding in the visual input, resulting in errors such as hallucinating nonexistent scene elements, missing significant parts of the scene, and inferring incorrect attributes and relationships between objects. To address these issues, we introduce a novel framework, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling) that utilizes fine-grained reward modeling to significantly enhance the visual grounding of LVLMs over pre-trained baselines. This improvement is efficiently achieved using much cheaper human evaluations instead of full supervisions, as well as automated methods. We show the effectiveness of our approach through numerous metrics on several benchmarks. Additionally, we construct a comprehensive and challenging dataset specifically designed to validate the visual grounding capabilities of LVLMs. Finally, we plan to release our human annotation comprising approximately 16,000 images and generated text pairs with fine-grained evaluations to contribute to related research in the community.
翻訳日:2024-02-12 18:15:44 公開日:2024-02-09
# 適応サンプリングを用いた空間認識型パッチ階層ネットワーク

Spatially-Attentive Patch-Hierarchical Network with Adaptive Sampling for Motion Deblurring ( http://arxiv.org/abs/2402.06117v1 )

ライセンス: Link先を確認
Maitreya Suin, Kuldeep Purohit, A. N. Rajagopalan(参考訳) 本稿では,動的シーンの動作不良問題に対処する。 エンド・ツー・エンドの完全な畳み込み設計は、最近、非一様動作の非一様化の最先端に進んでいるが、その性能・複雑さのトレードオフは依然として準最適である。 既存のほとんどのアプローチは、一般的な畳み込み層の数とカーネルサイズを増やすことで、大きな受容領域を実現する。 本研究では,異なる空間空間にまたがる大きなぼやけ変動を処理し,各テスト画像を適応的に処理するための画素適応型・特徴対応設計を提案する。 我々は,グローバルな依存だけでなく,隣接する画素情報を動的に活用することにより,性能を著しく向上するコンテンツ対応グローバルローカルフィルタリングモジュールを設計する。 さらに,画像中の保存が難しい領域を暗黙的に検出し,さらに細粒度細粒化を進行的に行う,画素適応型非一様サンプリング戦略についても紹介する。 デブロワーリングベンチマークにおける先行技術との比較により,本手法が最先端のデブロワーリングアルゴリズムに対して良好に動作することを示す。

This paper tackles the problem of motion deblurring of dynamic scenes. Although end-to-end fully convolutional designs have recently advanced the state-of-the-art in non-uniform motion deblurring, their performance-complexity trade-off is still sub-optimal. Most existing approaches achieve a large receptive field by increasing the number of generic convolution layers and kernel size. In this work, we propose a pixel adaptive and feature attentive design for handling large blur variations across different spatial locations and process each test image adaptively. We design a content-aware global-local filtering module that significantly improves performance by considering not only global dependencies but also by dynamically exploiting neighboring pixel information. We further introduce a pixel-adaptive non-uniform sampling strategy that implicitly discovers the difficult-to-restore regions present in the image and, in turn, performs fine-grained refinement in a progressive manner. Extensive qualitative and quantitative comparisons with prior art on deblurring benchmarks demonstrate that our approach performs favorably against the state-of-the-art deblurring algorithms.
翻訳日:2024-02-12 18:15:23 公開日:2024-02-09
# コーディングとロボティクス教育のためのllm

LLMs for Coding and Robotics Education ( http://arxiv.org/abs/2402.06116v1 )

ライセンス: Link先を確認
Peng Shu, Huaqin Zhao, Hanqi Jiang, Yiwei Li, Shaochen Xu, Yi Pan, Zihao Wu, Zhengliang Liu, Guoyu Lu, Le Guan, Gong Chen, Xianqiao Wang Tianming Liu(参考訳) 大規模な言語モデルとマルチモーダルな言語モデルは、最近人工知能に革命をもたらした。 現在、これらの先進的な技術を受け入れる地域が増えている。 この文脈では、ロボットによるコーディング教育が注目を集めている。 幼児にロボットの課題のコーディングと競争の仕方を教えるため、大規模な言語モデルがロボットのコードの説明、生成、修正に利用されている。 本稿では,ロボットプログラミング教育における重要なトレンドについて述べる。 従来のコーディングタスクとブロックダイアグラムを含むロボットコード生成のより困難なタスクの両方において、いくつかの主流の大規模言語モデルをテストする。 以上の結果から,GPT-4Vは全試験において他のモデルよりも優れているが,ブロック図の作成に苦慮していることがわかった。

Large language models and multimodal large language models have revolutionized artificial intelligence recently. An increasing number of regions are now embracing these advanced technologies. Within this context, robot coding education is garnering increasing attention. To teach young children how to code and compete in robot challenges, large language models are being utilized for robot code explanation, generation, and modification. In this paper, we highlight an important trend in robot coding education. We test several mainstream large language models on both traditional coding tasks and the more challenging task of robot code generation, which includes block diagrams. Our results show that GPT-4V outperforms other models in all of our tests but struggles with generating block diagram images.
翻訳日:2024-02-12 18:15:01 公開日:2024-02-09
# 2光子遷移に支配される熱原子の広帯域可変伝送非相反性

Broadband tunable transmission non-reciprocity in thermal atoms dominated by two-photon transitions ( http://arxiv.org/abs/2402.06113v1 )

ライセンス: Link先を確認
Hui-Min Zhao, Di-Di Zheng, Xiao-Jun Zhang, and Jin-Hui Wu(参考訳) 熱原子中の2光子近傍共振遷移を利用して、単一光子遠波長遷移を排除できる広帯域・波長可変伝送非相互性を実現する手法を提案する。 我々の基本的な考え方は、2光子、プローブとカップリング、遷移のドップラー拡大を大幅に減らし、一方、前方(後方)のプローブ場に対して4光子遷移ドップラーフリー(速度に依存しない)を実現することである。 このスキームの主な利点は、周波数と振幅のアシスタント場を変調することで、200ドルdB以上の分離比と1.0ドルdB以下の挿入損失を持つ周波数範囲で伝送非相互性を実現し、操作できることである。 4つの応用フィールド間の交差角は、例えば1.4$ GHz に近いより広い周波数範囲において、前方または後方のプローブフィールドの非相互伝達を最適化する効果的な制御ノブとしても機能する。

We propose a scheme for realizing broadband and tunable transmission non-reciprocity by utilizing two-photon near-resonant transitions in thermal atoms as single-photon far-detuned transitions can be eliminated. Our basic idea is to largely reduce the Doppler broadenings on a pair of two-photon, probe and coupling, transitions and meanwhile make the only four-photon transition Doppler-free (velocity-dependent) for a forward (backward) probe field. One main advantage of this scheme lies in that the transmission non-reciprocity can be realized and manipulated in a frequency range typically exceeding $200$ MHz with isolation ratio above $20$ dB and insertion loss below $1.0$ dB by modulating an assistant field in frequency and amplitude. The intersecting angle between four applied fields also serves as an effective control knob to optimize the nonreciprocal transmission of a forward or backward probe field, e.g. in a much wider frequency range approaching $1.4$ GHz.
翻訳日:2024-02-12 18:14:50 公開日:2024-02-09
# metaにおける観測に基づくユニットテスト生成

Observation-based unit test generation at Meta ( http://arxiv.org/abs/2402.06111v1 )

ライセンス: Link先を確認
Nadia Alshahwan, Mark Harman, Alexandru Marginean, Rotem Tal, Eddy Wang(参考訳) TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 メタにおけるTestGenの開発とデプロイについて説明する。 特に,産業において大規模に観察ベースのテスト彫刻を展開するために,開発中に克服されるスケーラビリティの課題に着目する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。 Metaは現在、より広範なデプロイメントの過程にある。 評価の結果,信頼性の高い4,361のエンドツーエンドテストから得られた結果から,少なくとも86%のクラスでテストを生成することができた。 Kotlin 16のアプリ起動ブロッキングタスクのテストでは、TestGenテストが起動ブロッキングになる前に13のテストをブロックしていたことが示されている。

TestGen automatically generates unit tests, carved from serialized observations of complex objects, observed during app execution. We describe the development and deployment of TestGen at Meta. In particular, we focus on the scalability challenges overcome during development in order to deploy observation-based test carving at scale in industry. So far, TestGen has landed 518 tests into production, which have been executed 9,617,349 times in continuous integration, finding 5,702 faults. Meta is currently in the process of more widespread deployment. Our evaluation reveals that, when carving its observations from 4,361 reliable end-to-end tests, TestGen was able to generate tests for at least 86\% of the classes covered by end-to-end tests. Testing on 16 Kotlin Instagram app-launch-blocking tasks demonstrated that the TestGen tests would have trapped 13 of these before they became launch blocking.
翻訳日:2024-02-12 18:14:29 公開日:2024-02-09
# SMCは本当に必要なもの:パラレル・ストロング・スケーリング

SMC Is All You Need: Parallel Strong Scaling ( http://arxiv.org/abs/2402.06173v1 )

ライセンス: Link先を確認
Xinzhu Liang, Sanjaya Lohani, Joseph M. Lukens, Brian T. Kirby, Thomas A. Searles, Kody J.H. Law(参考訳) ベイズ推論の一般的な枠組みでは、対象分布は比例性の定数までしか評価できない。 シーケンシャルモンテカルロ (SMC) やマルコフ連鎖モンテカルロ (MCMC) のような古典的一貫したベイズ的手法は、非有界な時間複雑性要求を持つ。 非同期プロセスの数が増加すると、時間的複雑性(およびノード単位のメモリ)が制限されるため、並列の強いスケーリングを実現するための完全並列シーケンシャルモンテカルロ法(pSMC)を開発した。 より正確には、pSMC は MSE$ = O(1/NR)$ の理論的収束率を持ち、$N$ は各プロセッサにおける通信サンプルの数を表し、$R$ はプロセッサ数を表す。 特に、好ましくは、問題依存の$N$に対して、$R \rightarrow \infty$ は無限小精度 MSE$=O(\varepsilon^2)$ に収束し、固定有限時間複雑度コスト=O(1)$ と効率リークのない、すなわち計算複雑性のコスト=O(\varepsilon^{-2})$ に収束する。 pSMC法とMCMC法を比較するため,ベイズ推定問題もいくつか検討されている。

In the general framework of Bayesian inference, the target distribution can only be evaluated up-to a constant of proportionality. Classical consistent Bayesian methods such as sequential Monte Carlo (SMC) and Markov chain Monte Carlo (MCMC) have unbounded time complexity requirements. We develop a fully parallel sequential Monte Carlo (pSMC) method which provably delivers parallel strong scaling, i.e. the time complexity (and per-node memory) remains bounded if the number of asynchronous processes is allowed to grow. More precisely, the pSMC has a theoretical convergence rate of MSE$ = O(1/NR)$, where $N$ denotes the number of communicating samples in each processor and $R$ denotes the number of processors. In particular, for suitably-large problem-dependent $N$, as $R \rightarrow \infty$ the method converges to infinitesimal accuracy MSE$=O(\varepsilon^2)$ with a fixed finite time-complexity Cost$=O(1)$ and with no efficiency leakage, i.e. computational complexity Cost$=O(\varepsilon^{-2})$. A number of Bayesian inference problems are taken into consideration to compare the pSMC and MCMC methods.
翻訳日:2024-02-12 18:08:19 公開日:2024-02-09
# 境界を押し上げる:mixupの神経崩壊への影響

Pushing Boundaries: Mixup's Influence on Neural Collapse ( http://arxiv.org/abs/2402.06171v1 )

ライセンス: Link先を確認
Quinn Fisher, Haoming Meng, Vardan Papyan(参考訳) Mixupは、深層ニューラルネットワークの堅牢性とキャリブレーションを強化するために、トレーニングインスタンスと各ラベルの凸結合を利用するデータ拡張戦略である。 広く採用されているにもかかわらず、その成功を支えるニュアンスドメカニズムは完全には理解されていない。 ディープネットワークの最終層アクティベーションと分類器がsimplex equiangular tight frame(etf)に収束する、観察された神経崩壊現象は、mixupが別の幾何学的構成を誘導するかどうか、そしてそれがその成功を説明することができるかどうかを探究する説得力のある動機を与える。 本研究では,深層ネットワークを対象としたトレーニングデータの最終層活性化について検討し,その運用効率に関する知見を明らかにすることを目的とした。 さまざまなアーキテクチャとデータセットのペアにまたがる調査により、mixupのラストレイヤアクティベーションは、予想と異なる特徴的な構成に主に収束していることが分かりました。 この構成では、同一クラスの混成例からのアクティベーションは分類器と一致し、異なるクラスからのアクティベーションは決定境界に沿ったチャネルを規定する。 さらに、以前の層での活性化は、まるで多様体ミックスアップで訓練されたようなパターンを示す。 これらの発見は予想外であり、ミックスアップ機能は機能クラス平均の単純な凸結合ではない(例えば平均二乗誤差損失でミックスアップを訓練することで得られる)。 この特異な幾何学的構成を解析することにより,mixupがモデルのキャリブレーションを促進するメカニズムを解明する。 実験結果をさらに検証するため,混合損失を利用して,制約のない特徴モデルの仮定の下で理論的解析を行う。 これにより、分類器が単純なETFを形成するという仮定のもと、最適な最終層特徴を特徴づけ、導出する。

Mixup is a data augmentation strategy that employs convex combinations of training instances and their respective labels to augment the robustness and calibration of deep neural networks. Despite its widespread adoption, the nuanced mechanisms that underpin its success are not entirely understood. The observed phenomenon of Neural Collapse, where the last-layer activations and classifier of deep networks converge to a simplex equiangular tight frame (ETF), provides a compelling motivation to explore whether mixup induces alternative geometric configurations and whether those could explain its success. In this study, we delve into the last-layer activations of training data for deep networks subjected to mixup, aiming to uncover insights into its operational efficacy. Our investigation, spanning various architectures and dataset pairs, reveals that mixup's last-layer activations predominantly converge to a distinctive configuration different than one might expect. In this configuration, activations from mixed-up examples of identical classes align with the classifier, while those from different classes delineate channels along the decision boundary. Moreover, activations in earlier layers exhibit patterns, as if trained with manifold mixup. These findings are unexpected, as mixed-up features are not simple convex combinations of feature class means (as one might get, for example, by training mixup with the mean squared error loss). By analyzing this distinctive geometric configuration, we elucidate the mechanisms by which mixup enhances model calibration. To further validate our empirical observations, we conduct a theoretical analysis under the assumption of an unconstrained features model, utilizing the mixup loss. Through this, we characterize and derive the optimal last-layer features under the assumption that the classifier forms a simplex ETF.
翻訳日:2024-02-12 18:07:52 公開日:2024-02-09
# 顔行動単位検出のためのコントラスト表現の学習

Learning Contrastive Feature Representations for Facial Action Unit Detection ( http://arxiv.org/abs/2402.06165v1 )

ライセンス: Link先を確認
Ziqiao Shang, Bin Liu, Fei Teng, Tianrui Li(参考訳) 顔行動単位(AU)検出への主要なアプローチは、教師付きマルチラベルバイナリ分類問題を中心に展開される。 既存の手法はしばしばausのピクセルレベルの情報をエンコードし、モデルの複雑さと表現力に実質的な要求を課す。 さらに、ノイズの多いAUラベルの存在により過度に適合する可能性が高まる。 本研究では,教師付き信号と自己指導型信号によって強化されたコントラスト学習フレームワークを提案する。 その目的は、au検出の領域における従来のピクセルレベルの学習パラダイムから外れた、識別的特徴を得ることである。 ノイズの多いAUラベルによる課題に対処するため,自己教師信号の導入により教師信号の増強を行う。 この増強は3種類の正のサンプル対を含む正のサンプルサンプリングによって達成される。 さらに、各AUタイプの不均衡分布を軽減するために、少数AUに適した重み付け戦略を採用する。 結果として得られた損失はAUNCEと呼ばれ、この戦略をカプセル化するために提案されている。 ベンチマークデータセット(bp4dとdisfa)を用いて実験を行った結果,au検出の最先端手法と比較して,本手法の優れた性能が得られた。

The predominant approach to facial action unit (AU) detection revolves around a supervised multi-label binary classification problem. Existing methodologies often encode pixel-level information of AUs, thereby imposing substantial demands on model complexity and expressiveness. Moreover, this practice elevates the susceptibility to overfitting due to the presence of noisy AU labels. In the present study, we introduce a contrastive learning framework enhanced by both supervised and self-supervised signals. The objective is to acquire discriminative features, deviating from the conventional pixel-level learning paradigm within the domain of AU detection. To address the challenge posed by noisy AU labels, we augment the supervised signal through the introduction of a self-supervised signal. This augmentation is achieved through positive sample sampling, encompassing three distinct types of positive sample pairs. Furthermore, to mitigate the imbalanced distribution of each AU type, we employ an importance re-weighting strategy tailored for minority AUs. The resulting loss, denoted as AUNCE, is proposed to encapsulate this strategy. Our experimental assessments, conducted on two widely-utilized benchmark datasets (BP4D and DISFA), underscore the superior performance of our approach compared to state-of-the-art methods in the realm of AU detection.
翻訳日:2024-02-12 18:07:23 公開日:2024-02-09
# wasserstein近位作用素はスコアに基づく生成モデルを説明し、記憶を解消する

Wasserstein proximal operators describe score-based generative models and resolve memorization ( http://arxiv.org/abs/2402.06162v1 )

ライセンス: Link先を確認
Benjamin J. Zhang, Siting Liu, Wuchen Li, Markos A. Katsoulakis, and Stanley J. Osher(参考訳) 我々はスコアベース生成モデル(sgms)の基本数学的構造に注目した。 まず、ワッサーシュタイン近似作用素(WPO)を用いてSGMを定式化し、平均場ゲーム(MFG)を通して、WPOの定式化は拡散とスコアベースモデルの帰納バイアスを記述する数学的構造を明らかにする。 特に、MFGは、フォッカー・プランク方程式(FP)とハミルトン・ヤコビ・ベルマン方程式(HJB)という一対の結合された偏微分方程式の形で最適条件を生成する。 コールホップ変換を用いて、クロスエントロピーが密度の線型汎関数と関係できるという事実を利用して、HJB方程式が制御不能なFP方程式であることを示す。 第2に、数学的な構造を持つスコア関数の解釈可能なカーネルベースモデルを提案し、トレーニングサンプルとトレーニング時間の観点から、SGMの性能を劇的に改善する。 さらに,最近研究されているスコアベース生成モデルの記憶効果を回避するために,WPOインフォームドカーネルモデルを構築した。 MFGの終端条件と組み合わせた新しいカーネルベースモデルの数学的形式は、SGMの多様体学習と一般化特性に対する新しい説明を明らかにし、記憶効果の解決を提供する。 最後に、数学的に理解され、解釈可能なカーネルベースモデルにより、高次元アプリケーションのための新しいスケーラブルなベスポークニューラルネットワークアーキテクチャが提案される。

We focus on the fundamental mathematical structure of score-based generative models (SGMs). We first formulate SGMs in terms of the Wasserstein proximal operator (WPO) and demonstrate that, via mean-field games (MFGs), the WPO formulation reveals mathematical structure that describes the inductive bias of diffusion and score-based models. In particular, MFGs yield optimality conditions in the form of a pair of coupled partial differential equations: a forward-controlled Fokker-Planck (FP) equation, and a backward Hamilton-Jacobi-Bellman (HJB) equation. Via a Cole-Hopf transformation and taking advantage of the fact that the cross-entropy can be related to a linear functional of the density, we show that the HJB equation is an uncontrolled FP equation. Second, with the mathematical structure at hand, we present an interpretable kernel-based model for the score function which dramatically improves the performance of SGMs in terms of training samples and training time. In addition, the WPO-informed kernel model is explicitly constructed to avoid the recently studied memorization effects of score-based generative models. The mathematical form of the new kernel-based models in combination with the use of the terminal condition of the MFG reveals new explanations for the manifold learning and generalization properties of SGMs, and provides a resolution to their memorization effects. Finally, our mathematically informed, interpretable kernel-based model suggests new scalable bespoke neural network architectures for high-dimensional applications.
翻訳日:2024-02-12 18:07:06 公開日:2024-02-09
# ディリクレ分布の混合による情報深層学習の改善

Improved Evidential Deep Learning via a Mixture of Dirichlet Distributions ( http://arxiv.org/abs/2402.06160v1 )

ライセンス: Link先を確認
J. Jon Ryu, Maohao Shen, Soumya Ghosh, Yuheng Bu, Prasanna Sattigeri, Subhro Das, Gregory W. Wornell(参考訳) 本稿では,特定の目的関数を最小化し,予測分布上のメタ分布を学習するために,単一のニューラルネットワークモデルを訓練した,現代の予測的不確実性推定手法であるエビデンシャル・ディープ・ラーニング(edl)について検討する。 ベングスらによる最近の研究では、既存の方法の基本的な落とし穴が特定されている: 学習された認識論的不確実性は無限のサンプル限界でも消えないかもしれない。 文献から広く使われている目的のクラスを統一的に見ることによって、観察を裏付ける。 解析の結果, EDL法は, 分布と試料径非依存性のターゲット分布との偏差を最小化することにより, 基本的にはメタ分布のトレーニングを行う。 理論的原理を基礎として,ディリクレ分布の混合と変分推論による学習をモデル化し,一貫した目標分布の学習を提案する。 その後、最終メタ分布モデルは、対象モデルから学習された不確実性を蒸留する。 様々な不確実性に基づく下流課題における実験結果は,提案手法の優越性を示し,学習した認識の不確かさの一貫性と不一致から生じる実践的影響を明らかにする。

This paper explores a modern predictive uncertainty estimation approach, called evidential deep learning (EDL), in which a single neural network model is trained to learn a meta distribution over the predictive distribution by minimizing a specific objective function. Despite their strong empirical performance, recent studies by Bengs et al. identify a fundamental pitfall of the existing methods: the learned epistemic uncertainty may not vanish even in the infinite-sample limit. We corroborate the observation by providing a unifying view of a class of widely used objectives from the literature. Our analysis reveals that the EDL methods essentially train a meta distribution by minimizing a certain divergence measure between the distribution and a sample-size-independent target distribution, resulting in spurious epistemic uncertainty. Grounded in theoretical principles, we propose learning a consistent target distribution by modeling it with a mixture of Dirichlet distributions and learning via variational inference. Afterward, a final meta distribution model distills the learned uncertainty from the target model. Experimental results across various uncertainty-based downstream tasks demonstrate the superiority of our proposed method, and illustrate the practical implications arising from the consistency and inconsistency of learned epistemic uncertainty.
翻訳日:2024-02-12 18:06:40 公開日:2024-02-09
# スポンサー製品によるアソシエーションプランニング

Assortment Planning with Sponsored Products ( http://arxiv.org/abs/2402.06158v1 )

ライセンス: Link先を確認
Shaojie Tang, Shuzhang Cai, Jing Yuan, Kai Han(参考訳) 急速に発展する小売業界では、アソシエーションプランニングはビジネスの成功を決定する上で重要な役割を果たす。 スポンサー付き商品の台頭とオンライン市場におけるその隆盛により、小売業者はスポンサー付き製品の存在下で製品のソートを効果的に管理する新たな課題に直面している。 注目すべきは、アソシエーション計画における以前の研究は、スポンサー製品の存在と、それらが全体的なレコメンデーションの有効性に与える影響を概ね見落としていることだ。 代わりに、すべての製品が有機的または非スポンサーであるという仮定を単純化するのが一般的である。 この研究のギャップは、スポンサー製品が機能している場合のソート計画の課題をより徹底的に調査する必要性を強調するものだ。 組み合わせ最適化タスクとして,スポンサー付製品の存在下でのアソシエーション計画問題を定式化する。 究極の目標は、スポンサー商品を戦略的に配置する具体的な要件を考慮しつつ、期待収益を最適化するソートメント計画を計算することである。

In the rapidly evolving landscape of retail, assortment planning plays a crucial role in determining the success of a business. With the rise of sponsored products and their increasing prominence in online marketplaces, retailers face new challenges in effectively managing their product assortment in the presence of sponsored products. Remarkably, previous research in assortment planning largely overlooks the existence of sponsored products and their potential impact on overall recommendation effectiveness. Instead, they commonly make the simplifying assumption that all products are either organic or non-sponsored. This research gap underscores the necessity for a more thorough investigation of the assortment planning challenge when sponsored products are in play. We formulate the assortment planning problem in the presence of sponsored products as a combinatorial optimization task. The ultimate objective is to compute an assortment plan that optimizes expected revenue while considering the specific requirements of placing sponsored products strategically.
翻訳日:2024-02-12 18:06:16 公開日:2024-02-09
# barycentric と pairwise renyi quantum leak

Barycentric and Pairwise Renyi Quantum Leakage ( http://arxiv.org/abs/2402.06156v1 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) barycentric と pairwise quantum renyi leaks は、量子コンピューティングおよび通信システムにおけるプライバシーおよびセキュリティ解析のための情報漏洩の2つの尺度として提案されている。 これらの量はともに、盗聴器の攻撃戦略や、量子システムに符号化された秘密またはプライベートな古典的データに関する統計的な事前の仮定を一切行わない。 それらはまた、肯定性、独立性、後処理の不等式、ユニタリ不変性の重要な性質を満たす。 偏心量子 Renyi リークは半定値プログラムを解くことで計算でき、ペアの量子 Renyi リークは明示的な公式を持つ。 barycentric および pairwise quantum renyi leaks は、最大量子リーク、サンドウィッチされた量子 $\alpha$-mutual 情報、アクセス可能な情報、およびholevo の情報の上界を形成する。 さらに、微分プライベート量子チャネルは、これらの情報漏洩の尺度に拘束されることが示されている。 量子コンピューティングと通信におけるノイズの一般的なモデルであるグローバルおよびローカルデポーラライズチャネルは、プライベートまたはセキュアな情報の漏洩を制限する。 最後に,変動回路を用いた量子機械学習におけるプライバシー利用トレードオフ式を開発した。 プライバシの保証は強化されるのみであり、すなわち、パフォーマンスの低下が大きくなり、その逆も大きくなると、情報の漏洩は少なくなる。

Barycentric and pairwise quantum Renyi leakages are proposed as two measures of information leakage for privacy and security analysis in quantum computing and communication systems. These quantities both require minimal assumptions on the eavesdropper, i.e., they do not make any assumptions on the eavesdropper's attack strategy or the statistical prior on the secret or private classical data encoded in the quantum system. They also satisfy important properties of positivity, independence, post-processing inequality, and unitary invariance. The barycentric quantum Renyi leakage can be computed by solving a semi-definite program and the pairwise quantum Renyi leakage possesses an explicit formula. The barycentric and pairwise quantum Renyi leakages form upper bounds on the maximal quantum leakage, the sandwiched quantum $\alpha$-mutual information, the accessible information, and the Holevo's information. Furthermore, differentially-private quantum channels are shown to bound these measures of information leakage. Global and local depolarizing channels, that are common models of noise in quantum computing and communication, restrict private or secure information leakage. Finally, a privacy-utility trade-off formula in quantum machine learning using variational circuits is developed. The privacy guarantees can only be strengthened, i.e., information leakage can only be reduced, if the performance degradation grows larger and vice versa.
翻訳日:2024-02-12 18:06:00 公開日:2024-02-09
# 標準例を用いたモデル編集

Model Editing with Canonical Examples ( http://arxiv.org/abs/2402.06155v1 )

ライセンス: Link先を確認
John Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning(参考訳) 本稿では,(1)所望の行動毎に1つの学習例が提供され,(2)配布外のみの評価が行われ,(3)初期モデルからの逸脱が厳密に制限されたモデル編集について紹介する。 模範的な例は、例えば、モーリシャスの首都はポートルイ)、または悪い行動(例えば、研究者の側面は冷酷である)の単純な例である。 評価セットには、それぞれの行動のより複雑な例(モーリシャスの首都が求められている段落など)が含まれている。3つのデータセットを作成し、標準的な例によるモデル編集のためにさらに3つの修正を加え、知識集約的な改善、社会的バイアス緩和、統語的エッジケースをカバーする。 Pythia言語モデルの実験では、LoRAは完全な微調整やMEMITよりも優れていることがわかった。 そして、ターゲットとする改善を可能にすることを意図したBackpack言語モデルアーキテクチャに目を向けます。 バックパックはセンスベクトルの大きなバンクを定義し、各単語の異なる使用法を分解し、重み付けされ、合計されてモデルの出力ロジットを形成する。 本研究では,各標準例に対して数個の($10)センスベクトルを選択・微調整し,他の微調整法,例えば4.8%の改善率と0.3%の向上率よりも優れていることを示す。 最後に、GPT-J-6Bを35倍の小型バックパックの微調整から変更した推論時間アンサンブル(4.1%対1.0%)により改善する。

We introduce model editing with canonical examples, a setting in which (1) a single learning example is provided per desired behavior, (2) evaluation is performed exclusively out-of-distribution, and (3) deviation from an initial model is strictly limited. A canonical example is a simple instance of good behavior, e.g., The capital of Mauritius is Port Louis) or bad behavior, e.g., An aspect of researchers is coldhearted). The evaluation set contains more complex examples of each behavior (like a paragraph in which the capital of Mauritius is called for.) We create three datasets and modify three more for model editing with canonical examples, covering knowledge-intensive improvements, social bias mitigation, and syntactic edge cases. In our experiments on Pythia language models, we find that LoRA outperforms full finetuning and MEMIT. We then turn to the Backpack language model architecture because it is intended to enable targeted improvement. The Backpack defines a large bank of sense vectors--a decomposition of the different uses of each word--which are weighted and summed to form the output logits of the model. We propose sense finetuning, which selects and finetunes a few ($\approx$ 10) sense vectors for each canonical example, and find that it outperforms other finetuning methods, e.g., 4.8% improvement vs 0.3%. Finally, we improve GPT-J-6B by an inference-time ensemble with just the changes from sense finetuning of a 35x smaller Backpack, in one setting outperforming editing GPT-J itself (4.1% vs 1.0%).
翻訳日:2024-02-12 18:05:38 公開日:2024-02-09
# 電力建設工程における画像監視のための目標認識アルゴリズム

Target Recognition Algorithm for Monitoring Images in Electric Power Construction Process ( http://arxiv.org/abs/2402.06152v1 )

ライセンス: Link先を確認
Hao Song, Wei Lin, Wei Song, Man Wang(参考訳) 電力構成監視ビデオにおける目標同定の精度と包括性を高めるため、赤外線画像を用いた新しい目標認識アルゴリズムを探索する。 このアルゴリズムは、局所線形マッピング法に基づく色処理技術を用いて、モニタリング画像を効果的に色付けする。 このプロセスには、色空間変換、色転送、擬似色符号化という3つの重要なステップが含まれる。 赤外線イメージングのターゲットを強調するように設計されている。 これらのターゲットの精度の高い識別のために、アルゴリズムはサポートベクトルマシンアプローチを活用し、最適超平面を用いてターゲットタイプを正確に予測する。 本研究では,屋外および屋内の電力建設監視シナリオにおいて,高い目標認識精度を実現するアルゴリズムの有効性を示す。 様々な環境において3%未満の誤認識率を維持している。

To enhance precision and comprehensiveness in identifying targets in electric power construction monitoring video, a novel target recognition algorithm utilizing infrared imaging is explored. This algorithm employs a color processing technique based on a local linear mapping method to effectively recolor monitoring images. The process involves three key steps: color space conversion, color transfer, and pseudo-color encoding. It is designed to accentuate targets in the infrared imaging. For the refined identification of these targets, the algorithm leverages a support vector machine approach, utilizing an optimal hyperplane to accurately predict target types. We demonstrate the efficacy of the algorithm, which achieves high target recognition accuracy in both outdoor and indoor electric power construction monitoring scenarios. It maintains a false recognition rate below 3% across various environments.
翻訳日:2024-02-12 18:05:09 公開日:2024-02-09
# POTEC:2段階政策分割による大規模行動空間のためのオフ・ポリティ・ラーニング

POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition ( http://arxiv.org/abs/2402.06151v1 )

ライセンス: Link先を確認
Yuta Saito, Jihan Yao, Thorsten Joachims(参考訳) 既存の手法が報酬回帰モデルや重要度重み付けされた政策勾配に決定的に依存しているような、大規模な離散行動空間における文脈的バンディット政策の非政治学習(OPL)は、過度なバイアスやばらつきによって失敗する。 OPLにおけるこれらの問題を克服するため、我々は2段階ポリシー分解(POTEC)によるポリシー最適化と呼ばれる新しい2段階アルゴリズムを提案する。 アクション空間でクラスタリングを活用し、それぞれポリシーと回帰ベースのアプローチで2つの異なるポリシーを学習する。 特に,クラスタ選択のための第1段階ポリシをポリシベースアプローチで効率的に学習できる,新しい低分散勾配推定器を導出する。 第一段階ポリシーによってサンプリングされたクラスタ内の特定のアクションを選択するために、POTECは各クラスタ内の回帰ベースのアプローチから派生した第二段階ポリシーを使用する。 局所的正当性条件は、回帰モデルが各クラスタ内の行動の相対的な報酬差を保ち、我々の政策勾配推定器が偏りなく、第2段階の政策が最適であることを保証している。 また,政策と回帰に基づくアプローチの厳密な一般化と,それに関連する仮定を提供する。 総合的な実験により、特に大規模かつ構造化された行動空間において、POTECはOPLの有効性を大幅に改善することが示された。

We study off-policy learning (OPL) of contextual bandit policies in large discrete action spaces where existing methods -- most of which rely crucially on reward-regression models or importance-weighted policy gradients -- fail due to excessive bias or variance. To overcome these issues in OPL, we propose a novel two-stage algorithm, called Policy Optimization via Two-Stage Policy Decomposition (POTEC). It leverages clustering in the action space and learns two different policies via policy- and regression-based approaches, respectively. In particular, we derive a novel low-variance gradient estimator that enables to learn a first-stage policy for cluster selection efficiently via a policy-based approach. To select a specific action within the cluster sampled by the first-stage policy, POTEC uses a second-stage policy derived from a regression-based approach within each cluster. We show that a local correctness condition, which only requires that the regression model preserves the relative expected reward differences of the actions within each cluster, ensures that our policy-gradient estimator is unbiased and the second-stage policy is optimal. We also show that POTEC provides a strict generalization of policy- and regression-based approaches and their associated assumptions. Comprehensive experiments demonstrate that POTEC provides substantial improvements in OPL effectiveness particularly in large and structured action spaces.
翻訳日:2024-02-12 18:04:58 公開日:2024-02-09
# 小さなデータによるドメインの一般化

Domain Generalization with Small Data ( http://arxiv.org/abs/2402.06150v1 )

ライセンス: Link先を確認
Kecheng Chen, Elena Gal, Hong Yan, and Haoliang Li(参考訳) 本稿では, \textit{insufficient samples} の文脈において,領域一般化の問題に取り組むことを提案する。 決定論的モデルに基づく潜在的な特徴埋め込みを抽出する代わりに、各データポイントを確率的埋め込みにマッピングし、確率的フレームワークに基づくドメイン不変表現を学習する。 具体的には、まず実験的な最大平均誤差(MMD)を、潜伏点ではなく一連の潜伏分布からなる混合分布(すなわち、ソース領域)間の差を測定する新しい確率的MDDに拡張する。 さらに、潜在点のペアに基づいてコントラスト的意味的アライメント(csa)損失を課す代わりに、新しい確率論的csa損失は、他の負のアライメントを分離しながら、正の確率的埋め込みペアを近づけることを奨励する。 確率論的モデルにより得られた学習表現に適合し、提案手法は分布上のtextit{distribution over distributions}(大域的な視点のアライメント)と分布に基づくコントラスト的セマンティックアライメント(局所的な視点のアライメント)の計測を結合することができる。 3つの挑戦的医学データセットに対する大規模な実験結果から,提案手法の有効性が示された。

In this work, we propose to tackle the problem of domain generalization in the context of \textit{insufficient samples}. Instead of extracting latent feature embeddings based on deterministic models, we propose to learn a domain-invariant representation based on the probabilistic framework by mapping each data point into probabilistic embeddings. Specifically, we first extend empirical maximum mean discrepancy (MMD) to a novel probabilistic MMD that can measure the discrepancy between mixture distributions (i.e., source domains) consisting of a series of latent distributions rather than latent points. Moreover, instead of imposing the contrastive semantic alignment (CSA) loss based on pairs of latent points, a novel probabilistic CSA loss encourages positive probabilistic embedding pairs to be closer while pulling other negative ones apart. Benefiting from the learned representation captured by probabilistic models, our proposed method can marriage the measurement on the \textit{distribution over distributions} (i.e., the global perspective alignment) and the distribution-based contrastive semantic alignment (i.e., the local perspective alignment). Extensive experimental results on three challenging medical datasets show the effectiveness of our proposed method in the context of insufficient data compared with state-of-the-art methods.
翻訳日:2024-02-12 18:04:33 公開日:2024-02-09
# headstudio: 3d gaussian splattingによる頭部アバターのアニメーション化

HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting ( http://arxiv.org/abs/2402.06149v1 )

ライセンス: Link先を確認
Zhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang(参考訳) テキストによるプロンプトからデジタルアバターを作ることは、長い間、望ましいが挑戦的な課題だった。 近年の2次元拡散による有望な成果にもかかわらず、現在の手法は高品質でアニメーションのアバターを効果的に実現するための課題に直面している。 本稿では,テキストプロンプトからリアルかつアニメーションなアバターを生成するために3次元ガウススプラッティングを利用する新しいフレームワークである$\textbf{HeadStudio}$を提案する。 本手法は3次元ガウスを意味的に駆動し,中間FLAME表現を通して柔軟で達成可能な外観を生成する。 具体的には、FLAMEを3D表現とスコア蒸留の両方に組み込む。 1) 各点を火炎メッシュに配置して3次元ガウス点を駆動する火炎型3次元ガウス型スメッティング 2) FLAMEをベースとした微粒化制御信号を用いてテキストプロンプトからスコア蒸留を誘導する。 広汎な実験は、テキストのプロンプトからアニマタブルなアバターを生成するためにHeadStudioの有効性を示し、視覚的に魅力的な外観を示す。 アバターは1024の解像度で、高品質なリアルタイム(\geq 40$ fps)のビューをレンダリングすることができる。 それらは、現実世界の音声とビデオでスムーズに制御できる。 我々は、headstudioがデジタルアバター作成を前進させ、本手法が様々なドメインに広く適用できることを期待している。

Creating digital avatars from textual prompts has long been a desirable yet challenging task. Despite the promising outcomes obtained through 2D diffusion priors in recent works, current methods face challenges in achieving high-quality and animated avatars effectively. In this paper, we present $\textbf{HeadStudio}$, a novel framework that utilizes 3D Gaussian splatting to generate realistic and animated avatars from text prompts. Our method drives 3D Gaussians semantically to create a flexible and achievable appearance through the intermediate FLAME representation. Specifically, we incorporate the FLAME into both 3D representation and score distillation: 1) FLAME-based 3D Gaussian splatting, driving 3D Gaussian points by rigging each point to a FLAME mesh. 2) FLAME-based score distillation sampling, utilizing FLAME-based fine-grained control signal to guide score distillation from the text prompt. Extensive experiments demonstrate the efficacy of HeadStudio in generating animatable avatars from textual prompts, exhibiting visually appealing appearances. The avatars are capable of rendering high-quality real-time ($\geq 40$ fps) novel views at a resolution of 1024. They can be smoothly controlled by real-world speech and video. We hope that HeadStudio can advance digital avatar creation and that the present method can widely be applied across various domains.
翻訳日:2024-02-12 18:04:10 公開日:2024-02-09
# 逆ポテンシャル井戸をもつエルミートハミルトンの虚固有値と非エルミート相互作用による例外点の実スペクトルへの遷移

Imaginary eigenvalues of Hermitian Hamiltonian with an inverted potential well and transition to the real spectrum at exceptional point by a non-Hermitian interaction ( http://arxiv.org/abs/2402.06148v1 )

ライセンス: Link先を確認
Ni Liu, Meng Luo, and J. -Q. Liang(参考訳) 本稿では,SU(1; 1)系におけるハミルトンスペクトルとエネルギースペクトルのハーミシティについて検討する。 エルミート・ハミルトニアンは、エルミート性が実スペクトルの十分条件であるという共通の信念とは対照的に、想像上の固有値を持つことができる。 虚固有値は、逆ポテンシャル井戸のハミルトニアンに対して虚周波数ボソン作用素を持つ代数的方法で導出される。 互いに直交する固有状態の双対集合は、それぞれ複素共役固有値に対応する。 空間的に非局在な正規化基底状態波動関数から、虚数周波数の多項式と見なされる任意次固有関数を生成する。 非エルミート相互作用項を含むハミルトニアンは、相互作用定数によって旋回可能な縮小勾配の有効なポテンシャルを持つエルミート変換によって変換することができる。 変換作用素はユニタリではなく、通常の量子力学におけるユニタリ変換とは異なるエルミートである。 有効ポテンシャルは、すべての固有状態がゼロ固有値で縮退し、虚数から実スペクトルへの遷移が現れる例外点と呼ばれる結合強度の臨界値で消滅する。 しかし、作用素の可換関係によって決定される実固有値を持つ SU(1; 1) 生成元 $\widehat{S}_{z}$ は、虚周波数ボソン作用素の実現において非エルミート的である。 非エルミート相互作用を持つ量子ハミルトンの古典的対応は、正準変数の複素函数である。 変数の正準変換により、ハミルトニアンの量子古典的対応のちょうど1対1を示す実関数となる。

We in this paper study the hermiticity of Hamiltonian and energy spectrum for the SU(1; 1) systems. The Hermitian Hamiltonian can possess imaginary eigenvalues in contrast with the common belief that hermiticity is a suffcient condition for real spectrum. The imaginary eigenvalues are derived in algebraic method with imaginary-frequency boson operators for the Hamiltonian of inverted potential well. Dual sets of mutually orthogonal eigenstates are required corresponding respectively to the complex conjugate eigenvalues. Arbitrary order eigenfunctions seen to be the polynomials of imaginary frequency are generated from the normalized ground-state wave functions, which are spatially non localized. The Hamiltonian including a non-Hermitian interaction term can be converted by similarity transformation to the Hermitian one with an effective potential of reduced slope, which is turnable by the interaction constant. The transformation operator should not be unitary but Hermitian different from the unitary transformation in ordinary quantum mechanics. The effective potential vanishes at a critical value of coupling strength called the exceptional point, where all eigenstates are degenerate with zero eigenvalue and transition from imaginary to real spectra appears. The SU(1; 1) generator $\widehat{S}_{z}$ with real eigenvalues determined by the commutation relation of operators, however, is non-Hermitian in the realization of imaginay-frequency boson operators. The classical counterpart of the quantum Hamiltonian with non-Hermitian interaction is a complex function of the canonical variables. It becomes by the canonical transformation of variables a real function indicating exactly the one to one quantum-classical correspondence of Hamiltonians.
翻訳日:2024-02-12 18:03:45 公開日:2024-02-09
# ガウス雑音を伴う選択機構のプライバシーについて

On the Privacy of Selection Mechanisms with Gaussian Noise ( http://arxiv.org/abs/2402.06137v1 )

ライセンス: Link先を確認
Jonathan Lebensold, Doina Precup and Borja Balle(参考訳) ノイズマックスとAbove Thresholdは古典的微分プライベート(DP)選択機構である。 これらの出力は、低感度クエリのシーケンスにノイズを付加し、(ノイズ)応答が一定の条件を満たすクエリのアイデンティティを報告することにより得られる。 これらのメカニズムのPure DP保証は、クエリにLaplaceノイズを追加すると容易に取得できる。 一方、ガウス雑音を用いてインスタンス化されると、標準解析はこれらの機構の出力が離散空間にあるにもかかわらず、近似DP保証しか得られない。 本研究では,Report Noisy MaxとAbove Thresholdの分析をガウス雑音で再検討し,基礎となるクエリが有界であるという仮定の下で,Report Noisy MaxとAbove Thresholdの純元DP境界を提供することができることを示す。 その結果得られる境界は密接であり、標準的な手法で数値的に評価できる閉形式式に依存する。 これらのことが、プライバシーと低データ体制の強化につながることを実証的に見出した。 さらに,純粋にex-post dp保証を構成する単純なプライバシフィルタを提案し,完全適応ガウス・スパースベクトル機構を導出する。 最後に、我々のスパースベクトル技術が従来のアプローチと実質的に競合し、ハイパーパラメータチューニングがより少ないことを示すモビリティとエネルギー消費のデータセットに関する実験を行った。

Report Noisy Max and Above Threshold are two classical differentially private (DP) selection mechanisms. Their output is obtained by adding noise to a sequence of low-sensitivity queries and reporting the identity of the query whose (noisy) answer satisfies a certain condition. Pure DP guarantees for these mechanisms are easy to obtain when Laplace noise is added to the queries. On the other hand, when instantiated using Gaussian noise, standard analyses only yield approximate DP guarantees despite the fact that the outputs of these mechanisms lie in a discrete space. In this work, we revisit the analysis of Report Noisy Max and Above Threshold with Gaussian noise and show that, under the additional assumption that the underlying queries are bounded, it is possible to provide pure ex-ante DP bounds for Report Noisy Max and pure ex-post DP bounds for Above Threshold. The resulting bounds are tight and depend on closed-form expressions that can be numerically evaluated using standard methods. Empirically we find these lead to tighter privacy accounting in the high privacy, low data regime. Further, we propose a simple privacy filter for composing pure ex-post DP guarantees, and use it to derive a fully adaptive Gaussian Sparse Vector Technique mechanism. Finally, we provide experiments on mobility and energy consumption datasets demonstrating that our Sparse Vector Technique is practically competitive with previous approaches and requires less hyper-parameter tuning.
翻訳日:2024-02-12 18:03:18 公開日:2024-02-09
# SIR:室内シーンのシャドーを分解可能なマルチビュー逆レンダリング

SIR: Multi-view Inverse Rendering with Decomposable Shadow for Indoor Scenes ( http://arxiv.org/abs/2402.06136v1 )

ライセンス: Link先を確認
Xiaokang Wei, Zhuoman Liu, Yan Luximon(参考訳) SIRは,多視点データを用いた屋内シーンの逆レンダリングにおいて,素材や照明条件を正確に分解する上での課題に対処するため,効率よく異種影を分解する手法である。 複雑な照明環境における影の忠実さに苦しむ従来の手法とは異なり、我々の手法は未知の光位置下での物質推定における現実性向上のための影を明示的に学習する。 提案したHDR画像を入力として利用し、SIRは総合的なシーン表現のためにSDFベースのニューラル放射場を使用する。 次に,SIRは影項と3段階の物質推定手法を統合し,SVBRDFの品質を向上する。 具体的には、BRDF正規化によって補完される微分可能な影を学習し、逆レンダリング精度を最適化する。 室内の合成シーンと実空間の両方での大規模な実験は、定量測定と定性解析の両方において既存の手法よりも優れたSIR性能を示す。 SIRの大幅な分解能力は、フリービューのリライト、オブジェクト挿入、材料置換といった高度な編集機能を実現する。

We propose SIR, an efficient method to decompose differentiable shadows for inverse rendering on indoor scenes using multi-view data, addressing the challenges in accurately decomposing the materials and lighting conditions. Unlike previous methods that struggle with shadow fidelity in complex lighting environments, our approach explicitly learns shadows for enhanced realism in material estimation under unknown light positions. Utilizing posed HDR images as input, SIR employs an SDF-based neural radiance field for comprehensive scene representation. Then, SIR integrates a shadow term with a three-stage material estimation approach to improve SVBRDF quality. Specifically, SIR is designed to learn a differentiable shadow, complemented by BRDF regularization, to optimize inverse rendering accuracy. Extensive experiments on both synthetic and real-world indoor scenes demonstrate the superior performance of SIR over existing methods in both quantitative metrics and qualitative analysis. The significant decomposing ability of SIR enables sophisticated editing capabilities like free-view relighting, object insertion, and material replacement.
翻訳日:2024-02-12 18:02:54 公開日:2024-02-09
# 指導指導の統一的因果的視点

A Unified Causal View of Instruction Tuning ( http://arxiv.org/abs/2402.06220v1 )

ライセンス: Link先を確認
Lu Chen, Wei Huang, Ruqing Zhang, Wei Chen, Jiafeng Guo, Xueqi Cheng(参考訳) タスクの混合によるインストラクションチューニングにより、自然言語処理(NLP)におけるゼロショット機能が改善された。 それにもかかわらず、既存の方法はしばしば因果関係ではなく、命令形式のサンプルとターゲットラベルの間の相関を示す特徴を学習する。 統計学では 'spurious correlation'' と呼ばれ、このような相関は新しいタスクで劇的に変化し、学習した特徴の効果を誤解させる。 この目的のために, メタ構造因果モデル(meta-SCM)を開発し, データの単一因果構造の下で異なるNLPタスクを統合する。 具体的には、メタSCMはソースコンテキストの特性を表す複数の潜在因子を導入し、その中のいくつかは特定のタスクのターゲットラベルに因果的に影響を与えている。 鍵となる考え方は、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。 理論的には,他の情報と混同することなく因果関係を同定できることを示す。 本研究では,各タスクの因果的要因を模倣するタスク要求因果的表現を学習するための構造的命令チューニング(SIT)手法を提案する。 このアプローチの有用性は、未発見のデータセットとタスクの範囲におけるゼロショット能力の改善によって検証される。

Instruction tuning on a mixture of tasks has improved zero-shot capabilities in natural language processing (NLP). Nevertheless, existing methods often learn features that exhibit correlations between instruction-formatted samples and target labels, rather than causal relationships. Termed as ``spurious correlation'' in statistics, such a correlation may change drastically in a new task, making the effect from the learned features to be misleading. To this end, we develop a meta Structural Causal Model (meta-SCM) to integrate different NLP tasks under a single causal structure of the data. Specifically, the meta-SCM introduces multiple latent factors that represent properties of source context, only some of which causally influence the target labels for a specific task. The key idea is to learn task-required causal factors and only use those to make predictions for a given task. Theoretically, we prove the causal factor can be identified without mixing information from others. Guided by the identifiability, we propose a Structural Instruction Tuning (SIT) method to learn the task-required causal representations that can mimic the causal factors for each task. The utility of our approach is verified by improvements of zero-shot ability on a range of unseen datasets and tasks.
翻訳日:2024-02-12 17:56:39 公開日:2024-02-09
# 不確実性認識型適応蒸留によるマルチソースフリードメイン適応

Multi-source-free Domain Adaptation via Uncertainty-aware Adaptive Distillation ( http://arxiv.org/abs/2402.06213v1 )

ライセンス: Link先を確認
Yaxuan Song, Jianan Fan, Dongnan Liu, Weidong Cai(参考訳) ソースフリードメイン適応(SFDA)は、データプライバシの認識のためにデータにアクセスすることなく、ドメインから取得したデータ間のドメインの不一致を軽減する。 しかし、従来のSFDA法では、医療データは通常、様々な機器を使用して複数の機関から収集される医学的文脈に固有の制限に直面している。 そこで本研究では,多元非教師なし領域適応 (msfda) 設定のための簡易かつ効果的な不確かさ対応蒸留法 (uad) を提案する。 UADは高度に校正された知識蒸留を目指して 一 調整及び信頼性の高いベースモデル初期化を提供するためのモデルレベル (ii)高品質な擬似ラベルを導いたモデル適応によるインスタンスレベルにより、高性能なターゲットドメインモデルを得る。 汎用的適用性を検証するため,本手法は既存手法と比較して有意な性能向上を示すマルチセンタデータセットのうち,2つの画像ベース診断ベンチマークでuadを評価する。 コードはもうすぐ入手できる。

Source-free domain adaptation (SFDA) alleviates the domain discrepancy among data obtained from domains without accessing the data for the awareness of data privacy. However, existing conventional SFDA methods face inherent limitations in medical contexts, where medical data are typically collected from multiple institutions using various equipment. To address this problem, we propose a simple yet effective method, named Uncertainty-aware Adaptive Distillation (UAD) for the multi-source-free unsupervised domain adaptation (MSFDA) setting. UAD aims to perform well-calibrated knowledge distillation from (i) model level to deliver coordinated and reliable base model initialisation and (ii) instance level via model adaptation guided by high-quality pseudo-labels, thereby obtaining a high-performance target domain model. To verify its general applicability, we evaluate UAD on two image-based diagnosis benchmarks among two multi-centre datasets, where our method shows a significant performance gain compared with existing works. The code will be available soon.
翻訳日:2024-02-12 17:56:02 公開日:2024-02-09
# スムーズな局所ヒストグラム等化と人間の視覚システムモデリングによるディスプレイシステムのハロ低減

Halo Reduction in Display Systems through Smoothed Local Histogram Equalization and Human Visual System Modeling ( http://arxiv.org/abs/2402.06212v1 )

ライセンス: Link先を確認
Prasoon Ambalathankandy, Yafei Ou, Masayuki Ikebe(参考訳) haloアーティファクトはディスプレイの品質に大きな影響を与えます。 局所ヒストグラム等化法(LHE)アルゴリズムにおいて,暗黒変種と光変種を別々に扱うことでハロを減少させる手法を提案する。 このアプローチは、人間の視覚系における側方抑制とhaloアーティファクトの関係を探索することで、視覚的な自然なイメージをもたらす。

Halo artifacts significantly impact display quality. We propose a method to reduce halos in Local Histogram Equalization (LHE) algorithms by separately addressing dark and light variants. This approach results in visually natural images by exploring the relationship between lateral inhibition and halo artifacts in the human visual system.
翻訳日:2024-02-12 17:55:33 公開日:2024-02-09
# スパイクニューラルネットワークにおける最適ハードウェア性能のための微調整サロゲート勾配学習

Fine-Tuning Surrogate Gradient Learning for Optimal Hardware Performance in Spiking Neural Networks ( http://arxiv.org/abs/2402.06211v1 )

ライセンス: Link先を確認
Ilkin Aliyev and Tosiron Adegbija(参考訳) Spiking Neural Networks(SNN)の高度にスパースなアクティベーションは、ハードウェアで慎重に活用した場合、膨大なエネルギー効率の恩恵をもたらす。 SNNにおけるスパーシティの挙動は、データセットとハイパーパラメータのトレーニングによって一意に形作られています。 この研究は、ハードウェアのパフォーマンスに対するトレーニングの影響に関する新しい洞察を示しています。 具体的には,モデル精度とハードウェア効率のトレードオフについて検討する。 我々は,サブロゲート勾配関数,ベータ,膜閾値という3つの重要なハイパーパラメータに注目した。 FPGAベースのハードウェアプラットフォームにおいて,高速シグモイドサロゲート関数は,SVHNデータセットのアークタンジェントサロゲートと同等の精度で発火速度を低下させることを示した。 さらに、ベータと膜しきい値のハイパーパラメータをクロススウィープすることで、デフォルト設定に比べて2.88%のトレードオフ精度でハードウェアベースの推論遅延を48%削減できる。 本研究は,より効率的なSNNハードウェアアクセラレータの設計に不可欠な微調整モデルハイパーパラメータの重要性を強調し,最近の研究と比較して1.72倍の加速効率(FPS/W)向上を実現した。

The highly sparse activations in Spiking Neural Networks (SNNs) can provide tremendous energy efficiency benefits when carefully exploited in hardware. The behavior of sparsity in SNNs is uniquely shaped by the dataset and training hyperparameters. This work reveals novel insights into the impacts of training on hardware performance. Specifically, we explore the trade-offs between model accuracy and hardware efficiency. We focus on three key hyperparameters: surrogate gradient functions, beta, and membrane threshold. Results on an FPGA-based hardware platform show that the fast sigmoid surrogate function yields a lower firing rate with similar accuracy compared to the arctangent surrogate on the SVHN dataset. Furthermore, by cross-sweeping the beta and membrane threshold hyperparameters, we can achieve a 48% reduction in hardware-based inference latency with only 2.88% trade-off in inference accuracy compared to the default setting. Overall, this study highlights the importance of fine-tuning model hyperparameters as crucial for designing efficient SNN hardware accelerators, evidenced by the fine-tuned model achieving a 1.72x improvement in accelerator efficiency (FPS/W) compared to the most recent work.
翻訳日:2024-02-12 17:54:44 公開日:2024-02-09
# ラマンビームの方向を交換せずに大きな運動量移動を実現する

Implementation of large momentum transfer without swapping the directions of the Raman beams ( http://arxiv.org/abs/2402.06208v1 )

ライセンス: Link先を確認
Jinyang Li, Jason Bonacum, Selim M. Shahriar(参考訳) 大運動量移動(LMT)は原子干渉計に蓄積される位相シフトを増大させる重要な技術である。 既存のラマン遷移型LMTの実装アプローチは、2つの逆伝搬ラマンビームの伝播方向を物理的に切り替えることによって、実験系を著しく複雑にする可能性がある。 ここでは、ラマンビームの方向の物理的スワップを伴わないラマン遷移型LMTに対して、より単純なアプローチを示す。 このアプローチでは、両方のラマンビームを逆反射し、原子のバイアス速度によって誘起されるドップラーシフトを用いて、2対の逆伝搬ラマンビームの遷移周波数を分離する。 これにより、2つのラマンビーム間の相対周波数を1対のラマンビームの共振周波数から他の対の同調周波数にシフトさせることにより、ラマンビームの方向の効果的なスワップを実現することができる。 本手法を磁気光学トラップから放出された原子を用いたlmt-augmented accelerometryに適用する。

Large momentum transfer (LMT) is an important technique for magnifying the phase shift accumulated in an atom interferometer. Existing approaches to implement Raman-transition-based LMT all involve physically swapping the propagation directions of the two counterpropagating Raman beams repeatedly, which could significantly complicate the experimental system. Here, we demonstrate a simpler approach for Raman-transition-based LMT that does not involve a physical swap of the directions of the Raman beams. In this approach, both Raman beams are retroreflected, and a Doppler shift induced by a bias velocity of the atoms is used to separate the transition frequencies of the two pairs of counterpropagating Raman beams. Therefore, an effective swap of the directions of the Raman beams can be achieved by shifting the relative frequency between the two Raman beams from the resonant frequency of one pair of the Raman beams to that of the other pair. We demonstrate the use of this technique for LMT-augmented accelerometry using atoms released from a magneto-optic trap.
翻訳日:2024-02-12 17:53:57 公開日:2024-02-09
# ジェネレーティブAIによる評価のパラドックス:解決できること、評価しないかもしれない

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate ( http://arxiv.org/abs/2402.06204v1 )

ライセンス: Link先を確認
Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh(参考訳) 本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。 質問応答(QA)における3つのLCMと1つのオープンソースLMの性能評価と,TriviaQA(Joshi et al., 2017)データセットを用いた評価課題について述べる。 その結果,LLMは生成タスクに比べて評価タスクの性能が低いことが示唆された。 興味深いことに、LLMの信頼性と信頼性を評価対象とすることの必要性を強調し、能力に欠ける領域でモデルが正確に回答を評価する不誠実な評価の事例を見出した。 本研究は「生成的aiパラドックス」(west et al., 2023)の理解に寄与し、生成的卓越性と評価能力の相関性、およびモデル評価における忠実性側面の精査の必要性を浮き彫りにした。

This paper explores the assumption that Large Language Models (LLMs) skilled in generation tasks are equally adept as evaluators. We assess the performance of three LLMs and one open-source LM in Question-Answering (QA) and evaluation tasks using the TriviaQA (Joshi et al., 2017) dataset. Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks. Intriguingly, we discover instances of unfaithful evaluation where models accurately evaluate answers in areas where they lack competence, underscoring the need to examine the faithfulness and trustworthiness of LLMs as evaluators. This study contributes to the understanding of "the Generative AI Paradox" (West et al., 2023), highlighting a need to explore the correlation between generative excellence and evaluation proficiency, and the necessity to scrutinize the faithfulness aspect in model evaluations.
翻訳日:2024-02-12 17:53:40 公開日:2024-02-09
# GS-CLIP:実世界のデータから推定したコントラスト言語画像3Dのためのガウススティング

GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data ( http://arxiv.org/abs/2402.06198v1 )

ライセンス: Link先を確認
Haoyuan Li, Yanpeng Zhou, Yihan Zeng, Hang Xu, Xiaodan Liang(参考訳) ポイントクラウドとして表現された3d形状は、オブジェクトの識別、分類、検索にキュリアルな画像と言語の記述を調整するために、マルチモーダル事前学習の進歩を遂げた。 しかし、点雲の離散表現は物体の表面形状情報を失い、レンダリング結果と2次元対応の間にギャップを生じさせる。 この問題に対処するため、3DGS(3D Gaussian Splatting)をマルチモーダル事前学習に導入し、3D表現を強化する試みとしてGS-CLIPを提案する。 GS-CLIPは、大量の実世界の画像テキストペア上で学習された共通の視覚空間とテキスト空間に対して、事前学習された視覚言語モデルを利用して、オブジェクトごとに最適化された3DGSを調整するための3Dエンコーダを学習する。 さらに,グローバル明示的な特徴を抽出・融合するために,新しいガウス・アウェア融合が提案されている。 言語イメージ3D事前トレーニングの一般的なフレームワークとして、GS-CLIPは3Dバックボーンネットワークに依存しない。 挑戦的な実験では、GS-CLIPは最先端技術を大幅に改善し、これまでで最高の結果を上回った。

3D Shape represented as point cloud has achieve advancements in multimodal pre-training to align image and language descriptions, which is curial to object identification, classification, and retrieval. However, the discrete representations of point cloud lost the object's surface shape information and creates a gap between rendering results and 2D correspondences. To address this problem, we propose GS-CLIP for the first attempt to introduce 3DGS (3D Gaussian Splatting) into multimodal pre-training to enhance 3D representation. GS-CLIP leverages a pre-trained vision-language model for a learned common visual and textual space on massive real world image-text pairs and then learns a 3D Encoder for aligning 3DGS optimized per object. Additionally, a novel Gaussian-Aware Fusion is proposed to extract and fuse global explicit feature. As a general framework for language-image-3D pre-training, GS-CLIP is agnostic to 3D backbone networks. Experiments on challenging shows that GS-CLIP significantly improves the state-of-the-art, outperforming the previously best results.
翻訳日:2024-02-12 17:53:20 公開日:2024-02-09
# 大規模言語モデル:調査

Large Language Models: A Survey ( http://arxiv.org/abs/2402.06196v1 )

ライセンス: Link先を確認
Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao(参考訳) 大規模言語モデル(llm)は2022年11月にchatgptがリリースされて以来、幅広い自然言語タスクでの強力なパフォーマンスのために多くの注目を集めてきた。 LLMの汎用言語理解と生成能力は、スケール法であるcite{kaplan2020scaling,hoffmann2022training}によって予測されるように、大量のテキストデータに基づいて数十億のモデルのパラメータをトレーニングすることで獲得される。 LLMの研究領域は、非常に最近ではあるが、様々な方法で急速に進化している。 本稿では,3つのLLMファミリー (GPT, LLaMA, PaLM) について概説し,その特性,コントリビューション,限界について論じる。 また,LLMの構築,拡張のために開発された技術の概要についても述べる。 次に、LLMトレーニング、微調整、評価のための一般的なデータセットを調査し、広く使われているLLM評価指標をレビューし、代表ベンチマークのセットでいくつかの人気のあるLLMの性能を比較した。 最後に,オープンチャレンジと今後の研究方向性について論じて,論文をまとめる。

Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
翻訳日:2024-02-12 17:52:59 公開日:2024-02-09
# Berkeley Single Cell Computational Microscopy (BSCCM) データセット

The Berkeley Single Cell Computational Microscopy (BSCCM) Dataset ( http://arxiv.org/abs/2402.06191v1 )

ライセンス: Link先を確認
Henry Pinkard, Cherry Liu, Fanice Nyatigo, Daniel A. Fletcher, Laura Waller(参考訳) 計算顕微鏡(Computational microscopy)は、画像システムのハードウェアとアルゴリズムが共同で設計され、コストを低減し、より堅牢に機能し、新しいタイプの情報を集めることを約束する。 多くの場合、計算イメージングシステム、特に機械学習を組み込んだシステムの性能はサンプルに依存します。 したがって、標準化されたデータセットは、異なるアプローチのパフォーマンスを比較するための必須のツールである。 本稿では,バークレー・シングルセル計算顕微鏡(bsccm)データセットを紹介し,40万個の白血球の12,000,000枚以上の画像を含む。 このデータセットには、LEDアレイ顕微鏡上の複数の照明パターンで撮影された画像と、異なる細胞タイプを示す表面タンパク質の量の蛍光測定が含まれている。 我々は,このデータセットが,バイオメディカル応用による計算顕微鏡およびコンピュータビジョンにおける新しいアルゴリズムの開発とテストのための貴重なリソースとなることを願っている。

Computational microscopy, in which hardware and algorithms of an imaging system are jointly designed, shows promise for making imaging systems that cost less, perform more robustly, and collect new types of information. Often, the performance of computational imaging systems, especially those that incorporate machine learning, is sample-dependent. Thus, standardized datasets are an essential tool for comparing the performance of different approaches. Here, we introduce the Berkeley Single Cell Computational Microscopy (BSCCM) dataset, which contains over ~12,000,000 images of 400,000 of individual white blood cells. The dataset contains images captured with multiple illumination patterns on an LED array microscope and fluorescent measurements of the abundance of surface proteins that mark different cell types. We hope this dataset will provide a valuable resource for the development and testing of new algorithms in computational microscopy and computer vision with practical biomedical applications.
翻訳日:2024-02-12 17:52:41 公開日:2024-02-09
# Masked LoGoNet:医療領域の高速かつ正確な3D画像解析

Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain ( http://arxiv.org/abs/2402.06190v1 )

ライセンス: Link先を確認
Amin Karimi Monsefi, Payam Karisani, Mengxi Zhou, Stacey Choi, Nathan Doble, Heng Ji, Srinivasan Parthasarathy, Rajiv Ramnath(参考訳) 標準的な機械学習ベースのイメージング手法は、データセット構築のコストが高く、限られたラベル付きトレーニングデータが利用できるため、医療応用において課題に直面している。 さらに、配置時には、これらの手法は日常的に大量のデータを処理するために使用され、医療施設のメンテナンスコストが高くなる。 本稿では,LoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入し,その課題を軽減するための自己教師付き学習(SSL)手法を提案する。 LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を活用して、U字型アーキテクチャに新しい特徴抽出器を組み込んで、長距離および短距離両方の機能依存関係を積極的にキャプチャする。 これは、機能抽出を強化するためにネットワーク容量を増加させる既存の方法とは対照的である。 脾臓のような複雑で不規則な臓器形状の学習が困難であることを考えると, このモデルにおける新しい手法の組み合わせは, 特に画像分割において有用である。 補足として,大規模なラベル付きデータセットの不足を補うために,3次元画像に適した新しいSSL方式を提案する。 この方法は、マルチタスク学習フレームワーク内でマスキングとコントラスト学習技術を組み合わせており、vision transformer(vit)とcnnベースのモデルの両方と互換性がある。 2つの標準データセット(BTCVとMSD)にまたがるタスクにおいて,本手法の有効性を示す。 ベンチマークによる8つの最先端モデルの比較は、logoutnetの推論時間と精度の両方において優れたパフォーマンスを示している。

Standard modern machine-learning-based imaging methods have faced challenges in medical applications due to the high cost of dataset construction and, thereby, the limited labeled training data available. Additionally, upon deployment, these methods are usually used to process a large volume of data on a daily basis, imposing a high maintenance cost on medical facilities. In this paper, we introduce a new neural network architecture, termed LoGoNet, with a tailored self-supervised learning (SSL) method to mitigate such challenges. LoGoNet integrates a novel feature extractor within a U-shaped architecture, leveraging Large Kernel Attention (LKA) and a dual encoding strategy to capture both long-range and short-range feature dependencies adeptly. This is in contrast to existing methods that rely on increasing network capacity to enhance feature extraction. This combination of novel techniques in our model is especially beneficial in medical image segmentation, given the difficulty of learning intricate and often irregular body organ shapes, such as the spleen. Complementary, we propose a novel SSL method tailored for 3D images to compensate for the lack of large labeled datasets. The method combines masking and contrastive learning techniques within a multi-task learning framework and is compatible with both Vision Transformer (ViT) and CNN-based models. We demonstrate the efficacy of our methods in numerous tasks across two standard datasets (i.e., BTCV and MSD). Benchmark comparisons with eight state-of-the-art models highlight LoGoNet's superior performance in both inference time and accuracy.
翻訳日:2024-02-12 17:52:27 公開日:2024-02-09
# 全スライド表現学習のための自己教師付きフレームワーク

A self-supervised framework for learning whole slide representations ( http://arxiv.org/abs/2402.06188v1 )

ライセンス: Link先を確認
Xinhai Hou, Cheng Jiang, Akhil Kondepudi, Yiwei Lyu, Asadur Zaman Chowdury, Honglak Lee, Todd C. Hollon(参考訳) 全スライドイメージングは生体顕微鏡と計算病理学の基礎となる。 しかしながら、全スライド画像(wsis)は、そのギガピクセルサイズ、多様な病理組織学的特徴、空間的多様性、限定的/抽象的なデータアノテーションにより複雑なコンピュータビジョン課題を呈する。 これらの課題は、教師付きトレーニングだけでスライド全体を表現することができることを強調している。 自己教師付き表現学習は、がん診断や分子遺伝予測などの下流診断タスクにおいて高品質なWSI視覚特徴学習を実現することができる。 本稿では,WSIのギガピクセル規模の自己監督のための汎用自己教師型全スライド学習(S3L)フレームワークを提案する。 s3lはトランスフォーマーベースのビジョンから言語モデリングへのデータ変換戦略を単一の統一フレームワークに統合し、自己スーパービジョンのためのペアビューを生成する。 S3Lは、WSI内の固有の地域的不均一性、組織学的特徴変数、および情報冗長性を活用して、高品質な全スライディング表現を学習する。 2つの診断課題におけるs3lの視覚的表現のベンチマークを行った。 S3Lは癌診断と遺伝子変異予測においてWSIベースラインを著しく上回る。 さらに、S3Lはドメイン内および配布外パッチエンコーダの両方を使用して優れたパフォーマンスを実現し、柔軟性と一般化性を示している。

Whole slide imaging is fundamental to biomedical microscopy and computational pathology. However, whole slide images (WSIs) present a complex computer vision challenge due to their gigapixel size, diverse histopathologic features, spatial heterogeneity, and limited/absent data annotations. These challenges highlight that supervised training alone can result in suboptimal whole slide representations. Self-supervised representation learning can achieve high-quality WSI visual feature learning for downstream diagnostic tasks, such as cancer diagnosis or molecular genetic prediction. Here, we present a general self-supervised whole slide learning (S3L) framework for gigapixel-scale self-supervision of WSIs. S3L combines data transformation strategies from transformer-based vision and language modeling into a single unified framework to generate paired views for self-supervision. S3L leverages the inherent regional heterogeneity, histologic feature variability, and information redundancy within WSIs to learn high-quality whole-slide representations. We benchmark S3L visual representations on two diagnostic tasks for two biomedical microscopy modalities. S3L significantly outperforms WSI baselines for cancer diagnosis and genetic mutation prediction. Additionally, S3L achieves good performance using both in-domain and out-of-distribution patch encoders, demonstrating good flexibility and generalizability.
翻訳日:2024-02-12 17:52:00 公開日:2024-02-09
# Premier-TACO: 時間的行動駆動型コントラスト損失によるマルチタスク表現の事前訓練

Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss ( http://arxiv.org/abs/2402.06187v1 )

ライセンス: Link先を確認
Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daum\'e III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang(参考訳) 逐次意思決定タスクにおける数ショットポリシー学習効率の向上を目的としたマルチタスク特徴表現学習手法であるPremier-TACOを提案する。 Premier-TACOは、一般的な特徴表現を事前トレーニングするために、マルチタスクのオフラインデータセットのサブセットを活用する。 これは、新しいネガティブなサンプルサンプリング戦略を取り入れることで、最先端の視覚制御タスクで知られている時間的アクションコントラッシブラーニング(TACO)の目標を推し進める。 この戦略は、TACOの計算効率を大幅に向上させ、大規模なマルチタスクのオフライン事前訓練を可能にするために重要である。 Deepmind Control Suite, MetaWorld, LIBEROなど, 多様な連続制御ベンチマークにおいて, 視覚表現の事前訓練におけるPremier-TACOの有効性を実証し, 新規タスクの数発の模倣学習を著しく向上させた。 我々のコード、事前トレーニングデータ、および事前トレーニングされたモデルチェックポイントはhttps://github.com/PremierTACO/premier-taco.comでリリースされる。

We present Premier-TACO, a multitask feature representation learning approach designed to improve few-shot policy learning efficiency in sequential decision-making tasks. Premier-TACO leverages a subset of multitask offline datasets for pretraining a general feature representation, which captures critical environmental dynamics and is fine-tuned using minimal expert demonstrations. It advances the temporal action contrastive learning (TACO) objective, known for state-of-the-art results in visual control tasks, by incorporating a novel negative example sampling strategy. This strategy is crucial in significantly boosting TACO's computational efficiency, making large-scale multitask offline pretraining feasible. Our extensive empirical evaluation in a diverse set of continuous control benchmarks including Deepmind Control Suite, MetaWorld, and LIBERO demonstrate Premier-TACO's effectiveness in pretraining visual representations, significantly enhancing few-shot imitation learning of novel tasks. Our code, pretraining data, as well as pretrained model checkpoints will be released at https://github.com/PremierTACO/premier-taco.
翻訳日:2024-02-12 17:51:41 公開日:2024-02-09
# スピノペルビックパラメータを正確に予測する人工知能モデルの開発と検証

Development and validation of an artificial intelligence model to accurately predict spinopelvic parameters ( http://arxiv.org/abs/2402.06185v1 )

ライセンス: Link先を確認
Edward S. Harake, Joseph R. Linzey, Cheng Jiang, Rushikesh S. Joshi, Mark M. Zaki, Jaes C. Jones, Siri S. Khalsa, John H. Lee, Zachary Wilseck, Jacob R. Joseph, Todd C. Hollon, and Paul Park(参考訳) 目的。 適切な脊髄骨盤アライメントの達成は、臨床症状の改善と関連することが示されている。 しかし,spinopelvic放射能パラメータの測定には時間を要するため,観測者間の信頼性が懸念される。 自動測定ツールは、迅速で一貫した測定を約束するが、既存のツールは、手動のユーザー入力要件によって制限されている。 本研究では,手動入力を必要とせずに,脊椎のパラメータを自動的に高精度に予測する,SpinePoseと呼ばれる新しい人工知能(AI)ツールを提案する。 メソッド。 SpinePoseはSVA, 骨盤傾斜 (PT), 骨盤傾斜 (PI), 骨盤傾斜 (SS), 腰椎硬変 (LL), T1-骨盤角度 (T1PA), L1-骨盤角度 (L1PA) を予測するために761個の矢状体X線を用いて訓練および評価を行った。 40個のx線検査セットは、フェローシップ訓練された脊椎外科医や、神経放射線学のサブスペシャリストを持つフェローシップ訓練された放射線科医を含む4人のレビュアーによってラベル付けされた。 テスト画像のモデル精度を決定するために, 最上級レビュアーに対するメディア誤差を算出した。 層内相関係数(ICC)は, 層間信頼性を評価するために用いられた。 結果だ SVA: 2.2(2.3)mm, p=0.93; PT: 1.3(1.2){\deg}, p=0.48; SS: 1.7(2.2){\deg}, p=0.64; PI: 2.2(2.1){\deg}, p=0.24; LL: 2.6(4.0){\deg}, p=0.89; T1PA: 1.1(0.9){\deg}, p=0.42; L1PA: 1.4(1.6){\deg}, p=0.49。 モデル予測は全てのパラメータ(ICC: 0.91-1.0)において優れた信頼性を示した。 結論だ SpinePoseは、仲間の訓練を受けた脊椎外科医や神経放射線科医に匹敵する信頼性で、正確にスピノペルビックパラメータを予測した。 脊椎画像における予測AIツールの利用は、患者の選択と手術計画に大きく役立つ。

Objective. Achieving appropriate spinopelvic alignment has been shown to be associated with improved clinical symptoms. However, measurement of spinopelvic radiographic parameters is time-intensive and interobserver reliability is a concern. Automated measurement tools have the promise of rapid and consistent measurements, but existing tools are still limited by some degree of manual user-entry requirements. This study presents a novel artificial intelligence (AI) tool called SpinePose that automatically predicts spinopelvic parameters with high accuracy without the need for manual entry. Methods. SpinePose was trained and validated on 761 sagittal whole-spine X-rays to predict sagittal vertical axis (SVA), pelvic tilt (PT), pelvic incidence (PI), sacral slope (SS), lumbar lordosis (LL), T1-pelvic angle (T1PA), and L1-pelvic angle (L1PA). A separate test set of 40 X-rays was labeled by 4 reviewers, including fellowship-trained spine surgeons and a fellowship-trained radiologist with neuroradiology subspecialty certification. Median errors relative to the most senior reviewer were calculated to determine model accuracy on test images. Intraclass correlation coefficients (ICC) were used to assess inter-rater reliability. Results. SpinePose exhibited the following median (interquartile range) parameter errors: SVA: 2.2(2.3)mm, p=0.93; PT: 1.3(1.2){\deg}, p=0.48; SS: 1.7(2.2){\deg}, p=0.64; PI: 2.2(2.1){\deg}, p=0.24; LL: 2.6(4.0){\deg}, p=0.89; T1PA: 1.1(0.9){\deg}, p=0.42; and L1PA: 1.4(1.6){\deg}, p=0.49. Model predictions also exhibited excellent reliability at all parameters (ICC: 0.91-1.0). Conclusions. SpinePose accurately predicted spinopelvic parameters with excellent reliability comparable to fellowship-trained spine surgeons and neuroradiologists. Utilization of predictive AI tools in spinal imaging can substantially aid in patient selection and surgical planning.
翻訳日:2024-02-12 17:51:20 公開日:2024-02-09
# ニューラルネットワークのトレーサビリティの境界はフラクタルである

The boundary of neural network trainability is fractal ( http://arxiv.org/abs/2402.06184v1 )

ライセンス: Link先を確認
Jascha Sohl-Dickstein(参考訳) いくつかのフラクタル(例えば、マンデルブロ集合と二次ジュリア集合に関連するもの)は、関数を反復し、結果として級数が発散するか、あるいは有界のままであるハイパーパラメーターの境界を特定することによって計算される。 ニューラルネットワークのトレーニングも同様に、更新関数(例えば、勾配降下の繰り返しステップ)を反復することを含み、収束または発散し、ハイパーパラメータの小さな変化に非常に敏感である。 これらの類似性に動機づけられて,安定かつ多様化したトレーニングにつながるニューラルネットワークハイパーパラメータの境界を実験的に検討した。 テストされたすべての構成において、この境界は10年以上にわたるスケールでフラクタルであることが分かりました。

Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.
翻訳日:2024-02-12 17:50:24 公開日:2024-02-09
# MusicMagus: 拡散モデルによるゼロショットテキスト音楽編集

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models ( http://arxiv.org/abs/2402.06178v1 )

ライセンス: Link先を確認
Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Mart\'inez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon(参考訳) テキストから音楽への生成モデルの最近の進歩は、音楽の創造性に新たな道を開いた。 しかし、音楽生成は通常反復的な洗練が伴い、生成した音楽の編集方法が重要な課題である。 本稿では,このようなモデルが生成する楽曲の編集に新たなアプローチを導入し,ジャンルやムード,楽器などの特定の属性の変更を可能とし,他の側面をそのままに維持する。 本手法では,テキスト編集を\textit{latent space manipulation}に変換し,一貫性を強制するために余分な制約を付加する。 既存の事前訓練されたテキストから音楽への拡散モデルとシームレスに統合する。 実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。 さらに,実際の音楽編集シナリオにおいて,本手法の実用性を示す。

Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to \textit{latent space manipulation} while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
翻訳日:2024-02-12 17:50:11 公開日:2024-02-09
# Retrieve, Merge, Predict: データレイクによるテーブルの拡張

Retrieve, Merge, Predict: Augmenting Tables with Data Lakes ( http://arxiv.org/abs/2402.06282v1 )

ライセンス: Link先を確認
Riccardo Cappuzzo (1), Gael Varoquaux (1), Aimee Coelho (2), Paolo Papotti (3) ((1) SODA Team - Inria Saclay, (2) Dataiku, (3) EURECOM)(参考訳) データレイクにおけるデータ発見の詳細な分析を行い、与えられた機械学習タスクのテーブル拡張に焦点を当てた。 統合可能なテーブルの検索、情報のマージ、結果のテーブルによる予測という3つの主要なステップで使用される代替手法を分析した。 データレイクとして、この論文ではYADL(Yet Another Data Lake)という、このデータディスカバリタスクのベンチマークツールとして開発した新しいデータセットと、よく参照された実際のデータレイクであるOpen Data USを使用している。 本研究は,両湖の系統的調査を通じて,接合候補を正確に検索することの重要性と,簡便なマージ手法の効率性について概説する。 我々は,既存のソリューションのメリットと,その限界に関する新たな知見を報告し,この分野における今後の研究を導くことを目的とする。

We present an in-depth analysis of data discovery in data lakes, focusing on table augmentation for given machine learning tasks. We analyze alternative methods used in the three main steps: retrieving joinable tables, merging information, and predicting with the resultant table. As data lakes, the paper uses YADL (Yet Another Data Lake) -- a novel dataset we developed as a tool for benchmarking this data discovery task -- and Open Data US, a well-referenced real data lake. Through systematic exploration on both lakes, our study outlines the importance of accurately retrieving join candidates and the efficiency of simple merging methods. We report new insights on the benefits of existing solutions and on their limitations, aiming at guiding future research in this space.
翻訳日:2024-02-12 17:43:51 公開日:2024-02-09
# 絡み合った量子サブシステムを生成するための頂点最小普遍グラフ

Vertex-minor universal graphs for generating entangled quantum subsystems ( http://arxiv.org/abs/2402.06260v1 )

ライセンス: Link先を確認
Maxime Cautr\`es, Nathan Claudet, Mehdi Mhalla, Simon Perdrix, Valentin Savin, St\'ephane Thomass\'e(参考訳) 我々は, 局所演算と古典通信のみを用いて, 任意の$k$ qubits 上の安定化状態の誘導を可能にするために, $k$-stabilizer universal quantum state, すなわち $n$-qubit 量子状態の概念を研究する。 これらの状態はbravyiらによって導入された$k$-pairable stateの概念を一般化し、グラフ状態と$k$-vertex-minorユニバーサルグラフを用いて組合せの観点から研究することができる。 まず、$n=\theta(k^2)$ qubits で最適の大きさの $k$安定化普遍グラフが存在することを示す。 また、$\Theta(k^2)$ qubits 上のランダムグラフ状態が、高い確率で $k$-stabilizer Universal となるパラメータも提供する。 2つ目の貢献は、$n = o(k^4)$ qubits 上の $k$-stabilizer universal graph state の2つの明示的な構成からなる。 どちらも有限体 $\mathbb{F}_q$ 上の射影平面の入射グラフに依存する。 これは、以前にも知られていた$k$-pairableグラフ状態の$n = O(2^{3k})$の明示的な構成よりも大幅に改善され、新しい、潜在的に強力な多部量子リソースの族が生まれる。

We study the notion of $k$-stabilizer universal quantum state, that is, an $n$-qubit quantum state, such that it is possible to induce any stabilizer state on any $k$ qubits, by using only local operations and classical communications. These states generalize the notion of $k$-pairable states introduced by Bravyi et al., and can be studied from a combinatorial perspective using graph states and $k$-vertex-minor universal graphs. First, we demonstrate the existence of $k$-stabilizer universal graph states that are optimal in size with $n=\Theta(k^2)$ qubits. We also provide parameters for which a random graph state on $\Theta(k^2)$ qubits is $k$-stabilizer universal with high probability. Our second contribution consists of two explicit constructions of $k$-stabilizer universal graph states on $n = O(k^4)$ qubits. Both rely upon the incidence graph of the projective plane over a finite field $\mathbb{F}_q$. This provides a major improvement over the previously known explicit construction of $k$-pairable graph states with $n = O(2^{3k})$, bringing forth a new and potentially powerful family of multipartite quantum resources.
翻訳日:2024-02-12 17:43:36 公開日:2024-02-09
# 準閉鎖空洞におけるレベルアトラクション

Level attraction in a quasi-closed cavity ( http://arxiv.org/abs/2402.06258v1 )

ライセンス: Link先を確認
Guillaume Bourcin, Alan Gardin, Jeremy Bourhill, Vincent Vlaminck, Vincent Castel(参考訳) 準閉型フォトニックキャビティと強磁性体からなるハイブリッドシステムにおける反共振に関連する有効結合の包括的解析的記述を提供する。 オープンキャビティ内の共振器間のいわゆるレベルアトラクションはよく理解されているが、準閉鎖キャビティ内のこの現象の物理的基盤は解明されていない。 入出力理論を活用し,この結合の反発的側面と魅力的な側面を区別することに成功した。 提案モデルにより, 共振器における位相ジャンプと反共振の研究から, 共振器内のフェライトの所定の位置に対する反共振器の有効結合の性質を予測できることを示した。

We provide a comprehensive analytical description of the effective coupling associated with an antiresonance within a hybrid system comprised of a quasi-closed photonic cavity and a ferrimagnetic material. Whilst so-called level attraction between a resonant system inside an open cavity is well understood, the physical underpinnings of this phenomena within quasi-closed cavities have remained elusive. Leveraging the input-output theory, we successfully differentiate between the repulsive and attractive aspects of this coupling. Our proposed model demonstrates that by understanding the phase-jump at the resonances and the studied antiresonance, we can predict the nature of the effective coupling of the antiresonance for a given position of the ferrimagnet in the cavity.
翻訳日:2024-02-12 17:43:12 公開日:2024-02-09
# Studious Bobがプロンプトの逆行で脱獄に抵抗

Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning ( http://arxiv.org/abs/2402.06255v1 )

ライセンス: Link先を確認
Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang(参考訳) 大規模言語モデル(llm)は様々なアプリケーションで大きな成功を収めているが、それらはビルトインの安全対策をバイパスし、危険または違法なコンテンツを提供するような特定のプロンプトに影響を受けやすい。 llmが有害な情報を生成するのを防ぐため、様々な防衛戦略が提案されており、そのほとんどはコンテンツフィルタリングやモデルの敵対的訓練に焦点が当てられている。 本稿では,PAT(Prompt Adversarial Tuning)という手法を用いて,防衛制御機構を訓練し,ユーザに対して,防衛戦略の実装を促すためのプレフィックスとして組み込む手法を提案する。 我々は、攻撃と防御制御の更新を交互に行い、最適化された目標を達成するために、敵の訓練に似た訓練プロセスを設計する。 我々の知る限りでは、我々は即時チューニングの観点から最初に防御を実装している。 一度使用すれば, LLMの運用効率にはほとんど影響しない。 実験の結果,本手法はブラックボックスとホワイトボックスの両方において有効であり,80%の良質な回答率を維持しつつ,アドバンスト攻撃の成功率をほぼ0に抑えることができた。 我々の研究は将来のLLMセキュリティの新たな展望を示すかもしれない。

Although Large Language Models (LLMs) have achieved tremendous success in various applications, they are also susceptible to certain prompts that can induce them to bypass built-in safety measures and provide dangerous or illegal content, a phenomenon known as jailbreak. To protect LLMs from producing harmful information, various defense strategies are proposed, with most focusing on content filtering or adversarial training of models. In this paper, we propose an approach named Prompt Adversarial Tuning (PAT) to train a defense control mechanism, which is then embedded as a prefix to user prompts to implement our defense strategy. We design a training process similar to adversarial training to achieve our optimized goal, alternating between updating attack and defense controls. To our knowledge, we are the first to implement defense from the perspective of prompt tuning. Once employed, our method will hardly impact the operational efficiency of LLMs. Experiments show that our method is effective in both black-box and white-box settings, reducing the success rate of advanced attacks to nearly 0 while maintaining the benign answer rate of 80% to simple benign questions. Our work might potentially chart a new perspective for future explorations in LLM security.
翻訳日:2024-02-12 17:42:58 公開日:2024-02-09
# 脳波による不眠症の診断

Insomnia Identification via Electroencephalography ( http://arxiv.org/abs/2402.06251v1 )

ライセンス: Link先を確認
Olviya Udeshika, Dilshan Lakshitha, Nilantha Premakumara, Surangani Bandara(参考訳) 不眠症は脳の異常または過剰な神経活動によって引き起こされる深刻な睡眠障害である。 世界中で推定5000万人が、脳卒中後の2番目に重篤な神経疾患であるこの病気の影響を受けていると考えられている。 迅速な回復を確保するため、不眠症の早期かつ正確な診断は、より効果的な薬物および治療管理を可能にする。 本研究は、深層学習を用いて不眠症患者を自動的に識別する手法を提案する。 A set of optimal features are extracted from spectral and temporal domains, including the relative power of {\sigma}, \b{eta} and {\gamma} bands, the total power, the absolute slow wave power, the power ratios of {\theta}, {\alpha}, {\gamma}, \b{eta}, {\theta}/{\alpha}, {\theta}/\b{eta}, {\alpha}/{\gamma} and {\alpha}/\b{eta}, mean, zero crossing rate, mobility, complexity, sleep efficiency and total sleep time, to accurately quantify the differences between insomnia patients and healthy subjects and develops a 1D CNN model for the classification process. fp2とc4の脳波チャネルを用いた50人の不眠症患者と50人の健常者による実験では、睡眠ステージのアノテーションなしで99.34%の精度が得られた。 この研究は、1つのチャンネルでのみ機能を利用することで、不眠症患者に対するスマートなソリューションを提案し、機械学習が現在の睡眠監視ハードウェアを簡素化し、家庭内振動モニタリングを改善する。

Insomnia is a serious sleep disorder caused by abnormal or excessive neural activity in the brain. An estimated 50 million people worldwide are thought to be affected by this condition, which is the second most severe neurological disease after stroke. In order to ensure a quick recovery, an early and accurate diagnosis of insomnia enables more effective drug and treatment administration. This study proposes a method that uses deep learning to automatically identify patients with insomnia. A set of optimal features are extracted from spectral and temporal domains, including the relative power of {\sigma}, \b{eta} and {\gamma} bands, the total power, the absolute slow wave power, the power ratios of {\theta}, {\alpha}, {\gamma}, \b{eta}, {\theta}/{\alpha}, {\theta}/\b{eta}, {\alpha}/{\gamma} and {\alpha}/\b{eta}, mean, zero crossing rate, mobility, complexity, sleep efficiency and total sleep time, to accurately quantify the differences between insomnia patients and healthy subjects and develops a 1D CNN model for the classification process. With the experiments use Fp2 and C4 EEG channels with 50 insomnia patients and 50 healthy subjects, the proposed model arrives 99.34% accuracy without sleep stage annotation. Using the features only from a single channel, the study proposes a smart solution for insomnia patients which allows machine learning to be to simplify current sleep monitoring hardware and improve in-home ambulatory monitoring.
翻訳日:2024-02-12 17:42:37 公開日:2024-02-09
# Anomaly Unveiled: 敵対的パッチ攻撃に対する画像分類のセキュア化

Anomaly Unveiled: Securing Image Classification against Adversarial Patch Attacks ( http://arxiv.org/abs/2402.06249v1 )

ライセンス: Link先を確認
Nandish Chattopadhyay, Amira Guesmi, and Muhammad Shafique(参考訳) 敵対的パッチ攻撃は、ディープラーニングシステムの実践的な展開に重大な脅威をもたらす。 しかし、既存の研究は主に画像前処理の防御に焦点を当てており、クリーンな画像の分類精度が低下し、物理的に可能な攻撃に効果的に対応できないことがしばしばある。 本稿では,画像情報の分布の異常としての敵パッチの挙動を調査し,この知見を活用して堅牢な防衛戦略を開発する。 提案する防御機構は,DBSCANと呼ばれるクラスタリング技術を用いて異常な画像セグメントを分離し,Segmenting,Isolating,Blockingの3段階のパイプラインを用いて対向雑音を識別・緩和する。 敵のコンポーネントを識別すると、それらを平均ピクセル値に置き換え、代替オプションを上回って中和します。 モデル非依存の防御機構は,複数のモデルとデータセットで評価され,画像分類タスクにおける様々な敵パッチ攻撃に対する対策としての有効性を示す。 提案手法は,防衛を伴わない38.8\%から,LaVANやGoogleAp攻撃に対する防御で67.1\%に増加し,LGS (53.86\%) や柔術 (60\%) といった最先端の手法を上回り,精度を著しく向上させる。

Adversarial patch attacks pose a significant threat to the practical deployment of deep learning systems. However, existing research primarily focuses on image pre-processing defenses, which often result in reduced classification accuracy for clean images and fail to effectively counter physically feasible attacks. In this paper, we investigate the behavior of adversarial patches as anomalies within the distribution of image information and leverage this insight to develop a robust defense strategy. Our proposed defense mechanism utilizes a clustering-based technique called DBSCAN to isolate anomalous image segments, which is carried out by a three-stage pipeline consisting of Segmenting, Isolating, and Blocking phases to identify and mitigate adversarial noise. Upon identifying adversarial components, we neutralize them by replacing them with the mean pixel value, surpassing alternative replacement options. Our model-agnostic defense mechanism is evaluated across multiple models and datasets, demonstrating its effectiveness in countering various adversarial patch attacks in image classification tasks. Our proposed approach significantly improves accuracy, increasing from 38.8\% without the defense to 67.1\% with the defense against LaVAN and GoogleAp attacks, surpassing prominent state-of-the-art methods such as LGS (53.86\%) and Jujutsu (60\%)
翻訳日:2024-02-12 17:42:14 公開日:2024-02-09
# コードチェンジ学習におけるパラメータ効率のよい微調整:実証的研究

Delving into Parameter-Efficient Fine-Tuning in Code Change Learning: An Empirical Study ( http://arxiv.org/abs/2402.06247v1 )

ライセンス: Link先を確認
Shuo Liu, Jacky Keung, Zhen Yang, Fang Liu, Qilin Zhou, Yihan Liao(参考訳) FMFT(Full-Model Fine-Tuning)と比較すると、コード要約やコード検索などのコード理解タスクにおいて、PEFT(パラメータ効率の良いファインチューニング)は優れた性能と低い計算オーバーヘッドを示している。 この利点は、プリトレーニング言語モデル(plm)の破滅的な忘れる問題を少数のパラメータだけを更新することで緩和できるペフトの能力に起因する。 その結果,PEFT は下流タスクにおいて,事前学習した汎用知識を効果的に活用する。 しかし、既存の研究は主に静的コード理解と最近のPLMの事前学習パラダイムと整合し、知識の伝達を促進するが、動的コードの変更は考慮していない。 したがって、PEFTがFMFTのコード変更関連タスクに対するタスク特化に優れているかどうかは不明である。 そこで本研究では,適応調整(AT)とローランク適応(LoRA)の2つのPEFT手法について検討し,その性能を5つのPLM上でFMFTと比較した。 具体的には,Just-In-Time Defect Prediction (JIT-DP) とCommit Message Generation (CMG) という,広く研究されている2つのコード変更関連タスクのパフォーマンスを評価する。 その結果, AT と LoRA はいずれも JIT-DP を達成し,FMFT や他の SOTA のアプローチと比較して CMG に匹敵する性能を示した。 さらに、ATとLoRAは、クロスランガルおよび低リソースのシナリオにおいて優位性を示す。 また、静的・動的両面から、JIT-DPおよびCMGタスクにおけるPEFT手法の有効性を説明するための3つの探索タスクも実施する。 この研究によると、PEFTは特にATとLoRAを使って、コード変更に関連するタスクにおいて有望なアドバンテージを提供し、特定の面でFMFTを上回っている。

Compared to Full-Model Fine-Tuning (FMFT), Parameter Efficient Fine-Tuning (PEFT) has demonstrated superior performance and lower computational overhead in several code understanding tasks, such as code summarization and code search. This advantage can be attributed to PEFT's ability to alleviate the catastrophic forgetting issue of Pre-trained Language Models (PLMs) by updating only a small number of parameters. As a result, PEFT effectively harnesses the pre-trained general-purpose knowledge for downstream tasks. However, existing studies primarily involve static code comprehension, aligning with the pre-training paradigm of recent PLMs and facilitating knowledge transfer, but they do not account for dynamic code changes. Thus, it remains unclear whether PEFT outperforms FMFT in task-specific adaptation for code-change-related tasks. To address this question, we examine two prevalent PEFT methods, namely Adapter Tuning (AT) and Low-Rank Adaptation (LoRA), and compare their performance with FMFT on five popular PLMs. Specifically, we evaluate their performance on two widely-studied code-change-related tasks: Just-In-Time Defect Prediction (JIT-DP) and Commit Message Generation (CMG). The results demonstrate that both AT and LoRA achieve state-of-the-art (SOTA) results in JIT-DP and exhibit comparable performances in CMG when compared to FMFT and other SOTA approaches. Furthermore, AT and LoRA exhibit superiority in cross-lingual and low-resource scenarios. We also conduct three probing tasks to explain the efficacy of PEFT techniques on JIT-DP and CMG tasks from both static and dynamic perspectives. The study indicates that PEFT, particularly through the use of AT and LoRA, offers promising advantages in code-change-related tasks, surpassing FMFT in certain aspects.
翻訳日:2024-02-12 17:41:48 公開日:2024-02-09
# モダリティ選好によるマルチモーダルロバストネスの定量化と向上

Quantifying and Enhancing Multi-modal Robustness with Modality Preference ( http://arxiv.org/abs/2402.06244v1 )

ライセンス: Link先を確認
Zequn Yang, Yake Wei, Ce Liang, Di Hu(参考訳) マルチモーダルモデルは、様々なソースからの情報を効果的に統合する有望な能力を示しているが、一方、ユニモーダル攻撃や欠落状態のような広汎な摂動に対して脆弱である。 これらの摂動に対抗するために、ロバストなマルチモーダル表現は非常に期待され、判別的マルチモーダル決定境界からかなり離れている。 本稿では,従来の経験的研究と異なり,共通に使用されるマルチモーダル・フレームワークに焦点をあて,理論上,より大きなユニモーダル表現マージンとより信頼性の高いモダリティ統合が高堅牢性を達成する上で不可欠な要素であることを見出した。 この発見は、マルチモーダルロバスト性の限界と、マルチモーダルモデルが特定のモダリティに対する攻撃に対して脆弱であることの現象をさらに説明できる。 さらに,本研究では,モデルがモダリティの嗜好が異なること,本質的な構成要素に影響を与えることでマルチモーダルロバスト性を制限し,特定のモダリティに対する攻撃を効果的に行なえる可能性を明らかにする。 理論的な発見から着想を得て,モダリティの嗜好からこの影響を緩和し,本質的な構成要素を明示的に規制し,認証方法の堅牢性を大幅に向上させる,Certifiable Robust Multi-modal Training (CRMT) と呼ばれるトレーニング手順を導入する。 本手法は,既存手法と比較して性能と堅牢性を大幅に向上させる。 さらに、トレーニング手順を簡単に拡張して、他の堅牢なトレーニング戦略を強化し、信頼性と柔軟性を強調します。

Multi-modal models have shown a promising capability to effectively integrate information from various sources, yet meanwhile, they are found vulnerable to pervasive perturbations, such as uni-modal attacks and missing conditions. To counter these perturbations, robust multi-modal representations are highly expected, which are positioned well away from the discriminative multi-modal decision boundary. In this paper, different from conventional empirical studies, we focus on a commonly used joint multi-modal framework and theoretically discover that larger uni-modal representation margins and more reliable integration for modalities are essential components for achieving higher robustness. This discovery can further explain the limitation of multi-modal robustness and the phenomenon that multi-modal models are often vulnerable to attacks on the specific modality. Moreover, our analysis reveals how the widespread issue, that the model has different preferences for modalities, limits the multi-modal robustness by influencing the essential components and could lead to attacks on the specific modality highly effective. Inspired by our theoretical finding, we introduce a training procedure called Certifiable Robust Multi-modal Training (CRMT), which can alleviate this influence from modality preference and explicitly regulate essential components to significantly improve robustness in a certifiable manner. Our method demonstrates substantial improvements in performance and robustness compared with existing methods. Furthermore, our training procedure can be easily extended to enhance other robust training strategies, highlighting its credibility and flexibility.
翻訳日:2024-02-12 17:41:16 公開日:2024-02-09
# 固有高次元真の多部絡み合い

Genuinely high-dimensional genuine multipartite entanglement ( http://arxiv.org/abs/2402.06234v1 )

ライセンス: Link先を確認
Gabriele Cobucci, Armin Tavakoli(参考訳) 局所レベルが2つ以上の真の多成分絡み合い状態が、局所レベルが小さい絡み合い状態を用いてシミュレートできるかどうかについて検討する。 本稿では,システムの異なる切断に対して,古典的に絡み合った状態を混合することにより状態を生成するのに必要な最悪のケースシュミット数を用いて,真の多元的絡み合い次元を定量化する。 この形状の絡み合いを検出するために,その基準について検討する。 (i)対象国との正確な忠実性 (ii)2つのグローバル製品ベースからの忠実度の推定と 三 凸プログラミング方法 これらは補完的であり、第1は絡み合い検出の標準的なアプローチを拡張し、第2は最小の計測値のみを使用し、第3は小さなシステムで効率的に計算可能なより強力な基準を提供する。 提案手法は, 十分に検討された二成分系を超えて, エンタングルメント次元の役割を理解するための一歩であり, 最先端の多次元エンタングルメント実験に容易に応用できる。

We investigate whether genuine multipartite entangled states with more than two discrete local levels can be simulated using entangled states with fewer local levels. We propose a quantification the genuine multipartite entanglement dimension via the worst-case Schmidt number needed to generate the state by classically mixing entangled states over different cuts of the system. In order to detect this form of entanglement, we discuss criteria that are based on (i) exact fidelity with a target state, (ii) fidelity estimation from two global product bases, and (iii) convex programming methods. These are complementary, as the first extends a standard approach in entanglement detection, the second uses only the minimal number of measurements, and the third provides stronger criteria that are efficiently computable for small systems. Our approach is a step towards understanding the role of entanglement dimensionality beyond the well-studied bipartite systems and our methods readily lend themselves to state-of-the-art high-dimensional multipartite entanglement experiments.
翻訳日:2024-02-12 17:40:46 公開日:2024-02-09
# デバッグのためのインタラクションパターンの探索:AIアシスタントの会話能力の向上

Exploring Interaction Patterns for Debugging: Enhancing Conversational Capabilities of AI-assistants ( http://arxiv.org/abs/2402.06229v1 )

ライセンス: Link先を確認
Bhavya Chopra, Yasharth Bajpai, Param Biyani, Gustavo Soares, Arjun Radhakrishna, Chris Parnin, Sumit Gulwani(参考訳) 統合開発環境(IDE)において、LLM(Large Language Models)が広く利用可能になれば、その採用が迅速になる。 LLMとの会話により、プログラマは様々なソフトウェア開発タスクの自然言語説明を得ることができる。 しかし、LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。 開発者とllmの間の会話は、主に質問と回答のペアとして構成される。 本稿では、対話パターンと会話分析からインスピレーションを得て、デバッグのための対話型AIアシスタントRobinを設計する。 業界の専門家12名を対象にした内的ユーザスタディを通じて,(1)挿入拡張インタラクションパターンの活用,(2)ターンテイクの促進,(3)デバッグワークフローの活用,(3)会話障壁の低減,効果的なフォールトローカライゼーション,5倍のバグ解決率の向上などが確認できた。

The widespread availability of Large Language Models (LLMs) within Integrated Development Environments (IDEs) has led to their speedy adoption. Conversational interactions with LLMs enable programmers to obtain natural language explanations for various software development tasks. However, LLMs often leap to action without sufficient context, giving rise to implicit assumptions and inaccurate responses. Conversations between developers and LLMs are primarily structured as question-answer pairs, where the developer is responsible for asking the the right questions and sustaining conversations across multiple turns. In this paper, we draw inspiration from interaction patterns and conversation analysis -- to design Robin, an enhanced conversational AI-assistant for debugging. Through a within-subjects user study with 12 industry professionals, we find that equipping the LLM to -- (1) leverage the insert expansion interaction pattern, (2) facilitate turn-taking, and (3) utilize debugging workflows -- leads to lowered conversation barriers, effective fault localization, and 5x improvement in bug resolution rates.
翻訳日:2024-02-12 17:40:24 公開日:2024-02-09
# ドメインとスケール間のポリシー支援のための参加型マルチモデリングに向けて:統合型マルチモデル設計のための体系的手順

Towards participatory multi-modeling for policy support across domains and scales: a systematic procedure for integral multi-model design ( http://arxiv.org/abs/2402.06228v1 )

ライセンス: Link先を確認
Vittorio Nespeca (1 and 2 and 3), Rick Quax (1 and 2), Marcel G. M. Olde Rikkert (4), Hubert P. L. M. Korzilius (5), Vincent A. W. J. Marchau (5), Sophie Hadijsotiriou (4), Tom Oreel (4), Jannie Coenen (5), Heiman Wertheim (6), Alexey Voinov (7), Eti\"enne A.J.A. Rouwette (5), V\'itor V. Vasconcelos (1 and 2 and 8) ((1) Computational Science Lab - University of Amsterdam, (2) POLDER - Institute for Advanced Study - University of Amsterdam, (3) Faculty of Technology Policy and Management - Delft University of Technology, (4) Department Geriatrics - Radboud University Medical Center, (5) Institute for Management Research - Radboud University, (6) Department Medical Microbiology - Radboud University Medical Center, (7) Faculty of Engineering Technology - Twente University, (8) Centre for Urban Mental Health - University of Amsterdam)(参考訳) パンデミックのような複雑な課題に対する政策決定は、複数のドメインやスケールにまたがる複雑な影響を考慮する必要がある。 計算モデルはポリシー作成をサポートすることができるが、そのようなマルチドメインやスケールの課題に対して単一のモデルは不十分であることが多い。 異なるスケールで相互作用する複数の計算モデル、または異なるモデリングパラダイムに依存するマルチモデルは、潜在的な解決策を提供する。 このようなマルチモデルは、既存の計算モデル(すなわち統合モデリング)から組み立てるか、あるいは計算実装(すなわち積分モデリング)の前に概念的に設計することができる。 統合モデリングは、パンデミックの初期段階で直面するような新しい政策問題には特に有用である。 しかし、そのようなマルチモデルの設計は、様々な領域のモデリング者と専門家の協力を必要とする複雑な作業である。 この共同作業では、モデリング者は専門家が必要とするドメイン知識を正確に定義し、そのような知識をマルチモデルに変換するための体系的な手続きを確立する必要がある。 しかし、これらの要件と体系的な手順は、現在マルチスケールとマルチパラダイムの両方のマルチモデルに欠けている。 文献から抽出したドメイン知識の明確な定義に基づく,統合的なアプローチによるマルチモデル開発手法を導入することで,この問題に対処する。 本稿は、新型コロナウイルス(covid-19)パンデミック中のオランダの学校閉鎖政策を事例として、短期的・長期的および医療・教育分野全体においてその潜在的影響を明らかにする。 本論文の要件と手続きは、マルチスケールおよびマルチドメインコンテキストにおけるポリシー支援のための統合マルチモデルの適用を前進させる。

Policymaking for complex challenges such as pandemics necessitates the consideration of intricate implications across multiple domains and scales. Computational models can support policymaking, but a single model is often insufficient for such multidomain and scale challenges. Multi-models comprising several interacting computational models at different scales or relying on different modeling paradigms offer a potential solution. Such multi-models can be assembled from existing computational models (i.e., integrated modeling) or be designed conceptually as a whole before their computational implementation (i.e., integral modeling). Integral modeling is particularly valuable for novel policy problems, such as those faced in the early stages of a pandemic, where relevant models may be unavailable or lack standard documentation. Designing such multi-models through an integral approach is, however, a complex task requiring the collaboration of modelers and experts from various domains. In this collaborative effort, modelers must precisely define the domain knowledge needed from experts and establish a systematic procedure for translating such knowledge into a multi-model. Yet, these requirements and systematic procedures are currently lacking for multi-models that are both multiscale and multi-paradigm. We address this challenge by introducing a procedure for developing multi-models with an integral approach based on clearly defined domain knowledge requirements derived from literature. We illustrate this procedure using the case of school closure policies in the Netherlands during the COVID-19 pandemic, revealing their potential implications in the short and long term and across the healthcare and educational domains. The requirements and procedure provided in this article advance the application of integral multi-modeling for policy support in multiscale and multidomain contexts.
翻訳日:2024-02-12 17:40:05 公開日:2024-02-09
# 階層型ニューラルネットワークを用いたN-1の最適潮流低減

N-1 Reduced Optimal Power Flow Using Augmented Hierarchical Graph Neural Network ( http://arxiv.org/abs/2402.06226v1 )

ライセンス: Link先を確認
Thuan Pham, Xingpeng Li(参考訳) 最適電力フロー (OPF) は、電力系統のリアルタイム運用において、世代再分散を行うために用いられる。 N-1 OPF は様々な緊急シナリオ下で安全なグリッド操作を保証できる。 多数の変数と制約を持つ大規模で複雑な電力ネットワークでは、実時間n-1 opfの最適解を得るには、かなりの計算資源が必要となる。 この課題を軽減するため、機械学習(ML)は、混雑または重負荷の線を動的に予測するための追加ツールとして導入された。 本稿では,高次階層型グラフニューラルネットワーク(AHGNN)と呼ばれる高度なMLモデルを提案し,臨界混雑線を予測し,N-1還元OPF(N-1 ROPF)を作成する。 提案したAHGNN対応N-1 ROPFは、解の質を維持しながら計算時間を著しく短縮することができる。 GNNベースのMLモデルの様々なバリエーションもベンチマークとして実装され、提案したAHGNNアプローチの有効性を示す。 ケーススタディでは、提案したAHGNNと関連するN-1 ROPFが、ソリューションの品質を維持しながら計算時間を短縮する上で非常に有効であることを証明し、特にGNNによる電力系統運用の強化の可能性を強調した。

Optimal power flow (OPF) is used to perform generation redispatch in power system real-time operations. N-1 OPF can ensure safe grid operations under diverse contingency scenarios. For large and intricate power networks with numerous variables and constraints, achieving an optimal solution for real-time N-1 OPF necessitates substantial computational resources. To mitigate this challenge, machine learning (ML) is introduced as an additional tool for predicting congested or heavily loaded lines dynamically. In this paper, an advanced ML model known as the augmented hierarchical graph neural network (AHGNN) was proposed to predict critical congested lines and create N-1 reduced OPF (N-1 ROPF). The proposed AHGNN-enabled N-1 ROPF can result in a remarkable reduction in computing time while retaining the solution quality. Several variations of GNN-based ML models are also implemented as benchmark to demonstrate effectiveness of the proposed AHGNN approach. Case studies prove the proposed AHGNN and the associated N-1 ROPF are highly effective in reducing computation time while preserving solution quality, highlighting the promising potential of ML, particularly GNN in enhancing power system operations.
翻訳日:2024-02-12 17:39:39 公開日:2024-02-09
# 準凸ベクトル最適化のための適応型マルチ勾配法とマルチタスク学習への応用

Adaptive multi-gradient methods for quasiconvex vector optimization and applications to multi-task learning ( http://arxiv.org/abs/2402.06224v1 )

ライセンス: Link先を確認
Nguyen Anh Minh and Le Dung Muu and Tran Ngoc Thang(参考訳) 本稿では,非有界制約集合上の非凸多目的計画問題の幅広いクラスを解くために,直線探索法を含まない適応ステップサイズ法を提案する。 我々はまた、控えめな仮定の下での一般的なアプローチの収束も証明する。 より具体的には、凸度基準は目的関数によって満たされないかもしれない。 降下線探索アルゴリズムとは異なり、事前に決定されたリプシッツ定数によって決定される最初のステップサイズを必要としない。 プロセスの主な特徴は、所定の条件が満たされるまで段階的なステップサイズ削減である。 非有界制約付き最適化問題に対する革新的な多段階投影法を提供するために特に適用することができる。 いくつかの計算例から得られた予備的な結果は、その戦略の正確さを裏付けるものである。 提案手法をマルチタスク学習実験に適用し,大規模課題に対する有効性を示す。

We present an adaptive step-size method, which does not include line-search techniques, for solving a wide class of nonconvex multiobjective programming problems on an unbounded constraint set. We also prove convergence of a general approach under modest assumptions. More specifically, the convexity criterion might not be satisfied by the objective function. Unlike descent line-search algorithms, it does not require an initial step-size to be determined by a previously determined Lipschitz constant. The process's primary characteristic is its gradual step-size reduction up until a predetermined condition is met. It can be specifically applied to offer an innovative multi-gradient projection method for unbounded constrained optimization issues. Preliminary findings from a few computational examples confirm the accuracy of the strategy. We apply the proposed technique to some multi-task learning experiments to show its efficacy for large-scale challenges.
翻訳日:2024-02-12 17:39:17 公開日:2024-02-09
# 潜在部分因果モデルによるマルチモーダルコントラスト表現学習の解明

Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models ( http://arxiv.org/abs/2402.06223v1 )

ライセンス: Link先を確認
Yuhang Liu, Zhen Zhang, Dong Gong, Biwei Huang, Mingming Gong, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi(参考訳) マルチモーダルコントラスト表現学習法は、複雑な現象の有意義な共有表現を生成する能力によって、様々な領域で成功した。 得られた表現の分析と理解の深さを高めるため,マルチモーダルデータ専用に設計された統一因果モデルを提案する。 このモデルを用いて,マルチモーダルコントラスト表現学習は,異なる仮定から生じる線形あるいは置換変換まで,提案する統一モデル内の潜在結合変数の同定に優れていることを示す。 本研究は,事前学習されたマルチモーダルモデル,例えばクリップの可能性を,驚くほど単純で高効率なツールである線形独立成分分析によって照らしている。 実験により, 仮定が破られた場合でも, 実験結果の頑健性が示され, 提案手法の有効性が検証された。

Multimodal contrastive representation learning methods have proven successful across a range of domains, partly due to their ability to generate meaningful shared representations of complex phenomena. To enhance the depth of analysis and understanding of these acquired representations, we introduce a unified causal model specifically designed for multimodal data. By examining this model, we show that multimodal contrastive representation learning excels at identifying latent coupled variables within the proposed unified model, up to linear or permutation transformations resulting from different assumptions. Our findings illuminate the potential of pre-trained multimodal models, eg, CLIP, in learning disentangled representations through a surprisingly simple yet highly effective tool: linear independent component analysis. Experiments demonstrate the robustness of our findings, even when the assumptions are violated, and validate the effectiveness of the proposed method in learning disentangled representations.
翻訳日:2024-02-12 17:39:06 公開日:2024-02-09
# resumeflow: パーソナライズされた履歴生成とリファインメントのためのllm-facilitated pipeline

ResumeFlow: An LLM-facilitated Pipeline for Personalized Resume Generation and Refinement ( http://arxiv.org/abs/2402.06221v1 )

ライセンス: Link先を確認
Saurabh Bhausaheb Zinjad, Amrita Bhattacharjee, Amey Bhilegaonkar, Huan Liu(参考訳) 理想的な仕事に特化した履歴書を作成することは、多くの求職者、特にアーリーケア申請者にとって難しい課題である。 応募者は求職する特定の役割に履歴を合わせることが推奨されるが、仕事の説明や役割固有の要件に履歴を手動で調整することは、(1)非常に時間がかかり、(2)人的誤りが生じることが多い。 さらに、いくつかの役割に応用しながら、大規模な調整を行うと、編集された履歴書の品質が欠落する可能性がある。 この問題に対処するため,本論文では,エンドユーザが詳細な履歴書と所望のジョブ投稿を簡単に提供し,その特定のジョブ投稿に適したパーソナライズされた履歴書を数秒で取得できる,ResumeFlow: A Large Language Model (LLM)支援ツールを提案する。 提案するパイプラインは,OpenAIのGPT-4やGoogleのGeminiといった最先端LLMの言語理解と情報抽出機能を活用し,(1)ジョブ記述から詳細を抽出し,(2)ユーザが提供する履歴書から役割固有の詳細を抽出し,(3)ユーザに対して役割固有の履歴書を洗練・生成する。 我々の使い勝手の良いツールは、完全にオフ・ザ・シェルフ方式のユーザ・コッセン・LLMを利用しており、微調整は不要である。 本稿では,ビデオデモを通じてツールの有効性を実証し,アライメントと幻覚の制御のためのタスク固有の評価指標を提案する。 私たちのツールはhttps://job-aligned-resume.streamlit.appで利用可能です。

Crafting the ideal, job-specific resume is a challenging task for many job applicants, especially for early-career applicants. While it is highly recommended that applicants tailor their resume to the specific role they are applying for, manually tailoring resumes to job descriptions and role-specific requirements is often (1) extremely time-consuming, and (2) prone to human errors. Furthermore, performing such a tailoring step at scale while applying to several roles may result in a lack of quality of the edited resumes. To tackle this problem, in this demo paper, we propose ResumeFlow: a Large Language Model (LLM) aided tool that enables an end user to simply provide their detailed resume and the desired job posting, and obtain a personalized resume specifically tailored to that specific job posting in the matter of a few seconds. Our proposed pipeline leverages the language understanding and information extraction capabilities of state-of-the-art LLMs such as OpenAI's GPT-4 and Google's Gemini, in order to (1) extract details from a job description, (2) extract role-specific details from the user-provided resume, and then (3) use these to refine and generate a role-specific resume for the user. Our easy-to-use tool leverages the user-chosen LLM in a completely off-the-shelf manner, thus requiring no fine-tuning. We demonstrate the effectiveness of our tool via a video demo and propose novel task-specific evaluation metrics to control for alignment and hallucination. Our tool is available at https://job-aligned-resume.streamlit.app.
翻訳日:2024-02-12 17:38:49 公開日:2024-02-09
# 粒子消音拡散サンプラー

Particle Denoising Diffusion Sampler ( http://arxiv.org/abs/2402.06320v1 )

ライセンス: Link先を確認
Angus Phillips, Hai-Dang Dau, Michael John Hutchinson, Valentin De Bortoli, George Deligiannidis, Arnaud Doucet(参考訳) 退化拡散モデルは生成的モデリングのためにユビキタスになってきた。 中心となる考え方は拡散を用いてデータ分布をガウスへ輸送することである。 そして、この拡散の時間反転をスコアマッチングのアイデアを用いて推定し、データ分布からの近似サンプルを得る。 ここでは非正規化確率密度からサンプルを抽出し、それらの正規化定数を計算する。 しかし、時間反転拡散は、新しいスコアマッチング損失に依存する元の反復粒子スキームを用いてシミュレートされる。 標準的な分極拡散モデルとは対照的に、結果として生じる粒子分極拡散サンプリング(PDDS)は、穏やかな仮定の下で漸近的に一貫した推定を与える。 マルチモーダルおよび高次元サンプリングタスクにおけるPDDSの実証を行った。

Denoising diffusion models have become ubiquitous for generative modeling. The core idea is to transport the data distribution to a Gaussian by using a diffusion. Approximate samples from the data distribution are then obtained by estimating the time-reversal of this diffusion using score matching ideas. We follow here a similar strategy to sample from unnormalized probability densities and compute their normalizing constants. However, the time-reversed diffusion is here simulated by using an original iterative particle scheme relying on a novel score matching loss. Contrary to standard denoising diffusion models, the resulting Particle Denoising Diffusion Sampler (PDDS) provides asymptotically consistent estimates under mild assumptions. We demonstrate PDDS on multimodal and high dimensional sampling tasks.
翻訳日:2024-02-12 17:32:29 公開日:2024-02-09
# フェデレーション学習における会員推論攻撃と防衛の評価

Evaluating Membership Inference Attacks and Defenses in Federated Learning ( http://arxiv.org/abs/2402.06289v1 )

ライセンス: Link先を確認
Gongxi Zhu, Donghao Li, Hanlin Gu, Yuxing Han, Yuan Yao, Lixin Fan, Qiang Yang(参考訳) 会員推論攻撃(MIA)は、連合学習におけるプライバシー保護への脅威を増大させる。 例えば、サーバは、観測されたモデル情報に基づいて、特定のサンプルがターゲットクライアントに属しているかどうかを判定することができる。 本稿では,既存のMIAと対応する防衛戦略の評価を行う。 MIAに関する評価では,MIAの傾向について2つの重要な知見が得られた。 まず、複数の通信ラウンド(Multi-temporal)からモデル情報を組み合わせることで、単一のエポックからモデル情報を利用するよりも、MIAの全体的な効果を高める。 第二に、非ターゲットクライアント(Multi-spatial)からのモデルの導入は、特にクライアントのデータが均質である場合、MIAの有効性を著しく向上させる。 このことは、MIAにおける時間的および空間的モデル情報を考えることの重要性を強調している。 次に、MIAに対する2種類の防御機構であるグラディエント摂動とデータ置換の有効性を評価する。 以上の結果から,データ置換機構は,プライバシ保護とモデルユーティリティ維持のバランスを,より最適なものにすることを示す。 そこで我々は,MIAに対する防衛戦略として,データ置換方式の採用を推奨する。 私たちのコードはhttps://github.com/Liar-Mask/FedMIA.comで利用可能です。

Membership Inference Attacks (MIAs) pose a growing threat to privacy preservation in federated learning. The semi-honest attacker, e.g., the server, may determine whether a particular sample belongs to a target client according to the observed model information. This paper conducts an evaluation of existing MIAs and corresponding defense strategies. Our evaluation on MIAs reveals two important findings about the trend of MIAs. Firstly, combining model information from multiple communication rounds (Multi-temporal) enhances the overall effectiveness of MIAs compared to utilizing model information from a single epoch. Secondly, incorporating models from non-target clients (Multi-spatial) significantly improves the effectiveness of MIAs, particularly when the clients' data is homogeneous. This highlights the importance of considering the temporal and spatial model information in MIAs. Next, we assess the effectiveness via privacy-utility tradeoff for two type defense mechanisms against MIAs: Gradient Perturbation and Data Replacement. Our results demonstrate that Data Replacement mechanisms achieve a more optimal balance between preserving privacy and maintaining model utility. Therefore, we recommend the adoption of Data Replacement methods as a defense strategy against MIAs. Our code is available in https://github.com/Liar-Mask/FedMIA.
翻訳日:2024-02-12 17:32:18 公開日:2024-02-09
# MLS2LoD3: 意味的なLoD3ビルディングモデルを再構築するために、MLSポイントクラウドで低LoDsビルディングモデルを精錬する

MLS2LoD3: Refining low LoDs building models with MLS point clouds to reconstruct semantic LoD3 building models ( http://arxiv.org/abs/2402.06288v1 )

ライセンス: Link先を確認
Olaf Wysocki, Ludwig Hoegner, Uwe Stilla(参考訳) 高精細なlod3構築モデルは、様々なアプリケーションで大きな可能性を秘めているが、まだ利用できない。 このようなモデルを作成する際の主な課題は、自動検出と再構築だけでなく、標準一貫性モデリングにも関係している。 本稿では,低LODビルディングモデルとMLS点雲の精度を両立させることにより,LoD3復元を可能にする新しい改良戦略を提案する。 このような戦略は、大規模なLoD3再構築とLoD3アプリケーションのアンロックを約束します。 さらに,LoD3ファサード要素の再構築とCityGML標準モデルへの組み込みに関するガイドラインを,学術や専門家に広める。 提案手法は,LoD3再構成アルゴリズムの開発を促進し,さらに広く採用できると考えている。

Although highly-detailed LoD3 building models reveal great potential in various applications, they have yet to be available. The primary challenges in creating such models concern not only automatic detection and reconstruction but also standard-consistent modeling. In this paper, we introduce a novel refinement strategy enabling LoD3 reconstruction by leveraging the ubiquity of lower LoD building models and the accuracy of MLS point clouds. Such a strategy promises at-scale LoD3 reconstruction and unlocks LoD3 applications, which we also describe and illustrate in this paper. Additionally, we present guidelines for reconstructing LoD3 facade elements and their embedding into the CityGML standard model, disseminating gained knowledge to academics and professionals. We believe that our method can foster development of LoD3 reconstruction algorithms and subsequently enable their wider adoption.
翻訳日:2024-02-12 17:31:59 公開日:2024-02-09
# AI, Meet Human: ハイブリッド意思決定システムのためのパラダイム学習

AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems ( http://arxiv.org/abs/2402.06287v1 )

ライセンス: Link先を確認
Clara Punzi, Roberto Pellungrini, Mattia Setzu, Fosca Giannotti and Dino Pedreschi(参考訳) 毎日、ハイリスクなタスクや意思決定を自動化し、サポートするために、機械学習モデルに依存しています。 この拡大する存在は、人間が機械学習ベースのシステムと常に対話し、トレーニングを行い、毎日モデルを使用していることを意味する。 コンピュータサイエンス文学におけるいくつかの異なる技術は、人間の機械学習システムとの相互作用を説明するが、その分類は小さく、目的は様々である。 本研究は,人間と機械の相互作用をコンピュータ科学文献がどのようにモデル化しているかを理解するための概念的・技術的枠組みを提供する,ハイブリッド意思決定システムの分類を提案する。

Everyday we increasingly rely on machine learning models to automate and support high-stake tasks and decisions. This growing presence means that humans are now constantly interacting with machine learning-based systems, training and using models everyday. Several different techniques in computer science literature account for the human interaction with machine learning systems, but their classification is sparse and the goals varied. This survey proposes a taxonomy of Hybrid Decision Making Systems, providing both a conceptual and technical framework for understanding how current computer science literature models interaction between humans and machines.
翻訳日:2024-02-12 17:31:43 公開日:2024-02-09
# metropolis-hastingsサンプリングによるチップ・イン・ザ・ループスパイクニューラルネットワークトレーニング

Towards Chip-in-the-loop Spiking Neural Network Training via Metropolis-Hastings Sampling ( http://arxiv.org/abs/2402.06284v1 )

ライセンス: Link先を確認
Ali Safa, Vikrant Jaltare, Samira Sebt, Kameron Gano, Johannes Leugering, Georges Gielen, Gert Cauwenberghs(参考訳) 本稿では,スパイキングニューラルネットワーク(SNN)ハードウェアのトレーニングにおけるメトロポリス・ハスティングスサンプリングの利用について検討し,提案手法を誤り(バックプロップ)アルゴリズムのバックプロパゲーションと,文献におけるSNNのトレーニングに広く用いられているサロゲート勾配の共通利用と比較する。 シミュレーションはチップ・イン・ザ・ループのトレーニング・コンテキスト内で行われ、そこでは、未知の歪みを受けるSNNを、生体医学的応用コンテキスト内で、測定からがんを検出するために訓練する必要がある。 その結果,提案手法は,ハードウエアの非理想性が強い場合,バックプロップの使用を最大27%高い精度で上回ることがわかった。 さらに,提案手法はsn一般化の面ではバックプロップよりも優れており,効果的な精度を得るためには10 \times$のトレーニングデータが必要であった。 これらの結果から,未知のハードウェア非イデオロギーがバックプロップを危険にさらすような,アナログサブスレッショルド回路や他の新興技術におけるSNN実装に適したトレーニング手法が提案されている。

This paper studies the use of Metropolis-Hastings sampling for training Spiking Neural Network (SNN) hardware subject to strong unknown non-idealities, and compares the proposed approach to the common use of the backpropagation of error (backprop) algorithm and surrogate gradients, widely used to train SNNs in literature. Simulations are conducted within a chip-in-the-loop training context, where an SNN subject to unknown distortion must be trained to detect cancer from measurements, within a biomedical application context. Our results show that the proposed approach strongly outperforms the use of backprop by up to $27\%$ higher accuracy when subject to strong hardware non-idealities. Furthermore, our results also show that the proposed approach outperforms backprop in terms of SNN generalization, needing $>10 \times$ less training data for achieving effective accuracy. These findings make the proposed training approach well-suited for SNN implementations in analog subthreshold circuits and other emerging technologies where unknown hardware non-idealities can jeopardize backprop.
翻訳日:2024-02-12 17:31:32 公開日:2024-02-09
# 生成拡散モデルを用いた制御可能な地震波速度合成

Controllable seismic velocity synthesis using generative diffusion models ( http://arxiv.org/abs/2402.06277v1 )

ライセンス: Link先を確認
Fu Wang, Xinquan Huang, Tariq Alkhalifah(参考訳) 正確な地震速度推定は、地球の地下構造を理解し、天然資源を評価し、地震災害の評価に不可欠である。 機械学習ベースのインバージョンアルゴリズムは、地域(例えば探索)とグローバルな速度推定において有望な性能を示し、その効果は、一般的にターゲットのソリューションをカバーする分布を持つ大規模で多様なトレーニングデータセットへのアクセスにかかっている。 さらに、速度推定の精度と信頼性を高めるには、地質学クラス、井戸ログ、地下構造などの事前情報も必要となるが、現在の統計学やニューラルネットワークに基づく手法では、このようなマルチモーダル情報を扱うには柔軟ではない。 両課題に対処するために, 条件付き生成拡散モデルを用いて地震波速度合成を行うことを提案する。 このアプローチは、期待される目標分布と密接に一致する地震動速度を生成し、専門家の知識と測定データの両方から情報を得たデータセットを提供し、データ駆動の地球物理学的手法のトレーニングを支援する。 クラスラベル,ウェルログ,反射率画像など,様々な条件下でのOpenFWIデータセット上での拡散モデルのトレーニングにより,本手法の柔軟性と有効性を示す。 out-of-distribution条件下でのアプローチのパフォーマンスは、その一般化能力をさらに強調し、速度逆問題のための調整前処理を提供し、機械学習ベースの物理応用のための特定のトレーニングデータセットを作成する可能性を示した。

Accurate seismic velocity estimations are vital to understanding Earth's subsurface structures, assessing natural resources, and evaluating seismic hazards. Machine learning-based inversion algorithms have shown promising performance in regional (i.e., for exploration) and global velocity estimation, while their effectiveness hinges on access to large and diverse training datasets whose distributions generally cover the target solutions. Additionally, enhancing the precision and reliability of velocity estimation also requires incorporating prior information, e.g., geological classes, well logs, and subsurface structures, but current statistical or neural network-based methods are not flexible enough to handle such multi-modal information. To address both challenges, we propose to use conditional generative diffusion models for seismic velocity synthesis, in which we readily incorporate those priors. This approach enables the generation of seismic velocities that closely match the expected target distribution, offering datasets informed by both expert knowledge and measured data to support training for data-driven geophysical methods. We demonstrate the flexibility and effectiveness of our method through training diffusion models on the OpenFWI dataset under various conditions, including class labels, well logs, reflectivity images, as well as the combination of these priors. The performance of the approach under out-of-distribution conditions further underscores its generalization ability, showcasing its potential to provide tailored priors for velocity inverse problems and create specific training datasets for machine learning-based geophysical applications.
翻訳日:2024-02-12 17:31:12 公開日:2024-02-09
# ガウス過程を用いた時系列モデリングのためのsafe active learning

Safe Active Learning for Time-Series Modeling with Gaussian Processes ( http://arxiv.org/abs/2402.06276v1 )

ライセンス: Link先を確認
Christoph Zimmer, Mona Meister, Duy Nguyen-Tuong(参考訳) 時系列モデルの学習はシミュレーションや予測といった多くのアプリケーションに有用である。 本研究では,安全制約を考慮した時系列モデルを積極的に学習する問題を考える。 時系列モデリングには非線形外因性入力構造を持つガウス過程を用いる。 提案手法は,入力空間を動的に探索することにより,時系列モデル学習,すなわち入出力トラジェクタに適したデータを生成する。 このアプローチは、安全要件と過去の観測から段階的に決定される連続する軌道区間として、入力軌道をパラメータ化する。 提案アルゴリズムを解析し,技術応用で実証的に評価する。 その結果,現実的な技術的ユースケースにおけるアプローチの有効性が示された。

Learning time-series models is useful for many applications, such as simulation and forecasting. In this study, we consider the problem of actively learning time-series models while taking given safety constraints into account. For time-series modeling we employ a Gaussian process with a nonlinear exogenous input structure. The proposed approach generates data appropriate for time series model learning, i.e. input and output trajectories, by dynamically exploring the input space. The approach parametrizes the input trajectory as consecutive trajectory sections, which are determined stepwise given safety requirements and past observations. We analyze the proposed algorithm and evaluate it empirically on a technical application. The results show the effectiveness of our approach in a realistic technical use case.
翻訳日:2024-02-12 17:30:45 公開日:2024-02-09
# ニューラルSPH:ラグランジアン流体力学のニューラルモデリングの改善

Neural SPH: Improved Neural Modeling of Lagrangian Fluid Dynamics ( http://arxiv.org/abs/2402.06275v1 )

ライセンス: Link先を確認
Artur P. Toshev, Jonas A. Erbesdobler, Nikolaus A. Adams, Johannes Brandstetter(参考訳) smoothed particle hydrodynamics (sph) は現代の工学と科学の分野に共通している。 SPHは、発展速度場を通して追跡される有限物質点を通して流体力学を離散化するラグランジアンスキームのクラスである。 シミュレーションの粒子的な性質から、グラフニューラルネットワーク(gnns)は魅力的で成功したサロゲートとして現れている。 しかし、そのようなGNNベースのシミュレータの実用性は、物理学を忠実にモデル化する能力に依存しており、長期間の地平線上で正確で安定した予測を提供する。 本研究では,引張不安定性に起因する粒子クラスタリングを,主な落とし穴の1つとして同定する。 これらの知見に基づき, 圧力, 粘性, 外部力成分を含む標準SPHソルバから, 各種成分を含む最先端GNNシミュレータのトレーニングとロールアウト推論の両立を図る。 すべてのSPH強化シミュレータは、ベースラインのGNNよりも桁違いに性能が向上し、ロールアウトが大幅に長くなり、物理モデリングが大幅に向上する。 コードはhttps://github.com/tumaer/neuralsph)。

Smoothed particle hydrodynamics (SPH) is omnipresent in modern engineering and scientific disciplines. SPH is a class of Lagrangian schemes that discretize fluid dynamics via finite material points that are tracked through the evolving velocity field. Due to the particle-like nature of the simulation, graph neural networks (GNNs) have emerged as appealing and successful surrogates. However, the practical utility of such GNN-based simulators relies on their ability to faithfully model physics, providing accurate and stable predictions over long time horizons - which is a notoriously hard problem. In this work, we identify particle clustering originating from tensile instabilities as one of the primary pitfalls. Based on these insights, we enhance both training and rollout inference of state-of-the-art GNN-based simulators with varying components from standard SPH solvers, including pressure, viscous, and external force components. All neural SPH-enhanced simulators achieve better performance, often by orders of magnitude, than the baseline GNNs, allowing for significantly longer rollouts and significantly better physics modeling. Code available under (https://github.com/tumaer/neuralsph).
翻訳日:2024-02-12 17:30:32 公開日:2024-02-09
# 適応近位勾配法は近似なしで普遍的である

Adaptive proximal gradient methods are universal without approximation ( http://arxiv.org/abs/2402.06271v1 )

ライセンス: Link先を確認
Konstantinos A. Oikonomidis, Emanuel Laude, Puya Latafat, Andreas Themelis and Panagiotis Patrinos(参考訳) 凸問題に対する適応的近位勾配法は従来のリプシッツ的仮定に限らないことを示す。 解析の結果、ラインサーチフリーな手法のクラスは、ただ単に局所的なh\"oldergradient continuityの下で収束し、特に連続微分可能な半代数関数をカバーすることが明らかとなった。 局所的なリプシッツ連続性の欠如を軽減するため、一般的なアプローチは$\varepsilon$-oraclesおよび/またはlinesearch手順を中心に展開した。 対照的に、適応スキームの直線探索自由性を維持しながら、近似を含まない平易なH\"古い不等式を利用する。 さらに、局所的なH\"older定数の事前知識やH\"older連続性の順序がなければ、全列収束を証明できる。 数値実験では,ローカル設定とグローバルh\"older設定の両方をカバーする機械学習から,さまざまなタスクにおけるベースライン手法との比較を行う。

We show that adaptive proximal gradient methods for convex problems are not restricted to traditional Lipschitzian assumptions. Our analysis reveals that a class of linesearch-free methods is still convergent under mere local H\"older gradient continuity, covering in particular continuously differentiable semi-algebraic functions. To mitigate the lack of local Lipschitz continuity, popular approaches revolve around $\varepsilon$-oracles and/or linesearch procedures. In contrast, we exploit plain H\"older inequalities not entailing any approximation, all while retaining the linesearch-free nature of adaptive schemes. Furthermore, we prove full sequence convergence without prior knowledge of local H\"older constants nor of the order of H\"older continuity. In numerical experiments we present comparisons to baseline methods on diverse tasks from machine learning covering both the locally and the globally H\"older setting.
翻訳日:2024-02-12 17:29:59 公開日:2024-02-09
# YAMLE: もう1つの機械学習環境

YAMLE: Yet Another Machine Learning Environment ( http://arxiv.org/abs/2402.06268v1 )

ライセンス: Link先を確認
Martin Ferianc, Miguel Rodrigues(参考訳) YAMLE: Another Machine Learning Environmentはオープンソースのフレームワークで、機械学習(ML)モデルとメソッドによる迅速なプロトタイピングと実験を容易にする。 重要な動機は、新しいアプローチを実装する際の反復作業の削減と、ml研究における再現性の向上にある。 YAMLEにはコマンドラインインターフェースと、トレーニングの合理化、ハイパーパラメータの最適化、ロギングを行うPyTorchベースのライブラリとの統合が含まれている。 YAMLEの目標は、研究者や実践者が既存の実装を素早く構築し比較できる共有エコシステムに成長することだ。 https://github.com/martinferianc/yamle

YAMLE: Yet Another Machine Learning Environment is an open-source framework that facilitates rapid prototyping and experimentation with machine learning (ML) models and methods. The key motivation is to reduce repetitive work when implementing new approaches and improve reproducibility in ML research. YAMLE includes a command-line interface and integrations with popular and well-maintained PyTorch-based libraries to streamline training, hyperparameter optimisation, and logging. The ambition for YAMLE is to grow into a shared ecosystem where researchers and practitioners can quickly build on and compare existing implementations. Find it at: https://github.com/martinferianc/yamle.
翻訳日:2024-02-12 17:29:31 公開日:2024-02-09
# 補助エネルギーレベルに基づくフラクソニウム量子ビットの効率的な初期化

Efficient initialization of fluxonium qubits based on auxiliary energy levels ( http://arxiv.org/abs/2402.06267v1 )

ライセンス: Link先を確認
Tenghui Wang, Feng Wu, Fei Wang, Xizheng Ma, Gengyan Zhang, Jianjun Chen, Hao Deng, Ran Gao, Ruizi Hu, Lu Ma, Zhijun Song, Tian Xia, Make Ying, Huijuan Zhan, Hui-Hai Zhao, Chunqing Deng(参考訳) 高速かつ高忠実な量子ビット初期化はフラクソニウムのような低周波量子ビットや多くの量子アルゴリズムや量子誤り訂正符号の応用において重要である。 回路量子力学系において、初期化は一般に原子系のサイドバンド冷却過程として知られるマイクロ波駆動によって量子ビットと短寿命キャビティの間の状態を伝達することによって達成される。 波動関数のパリティ対称性から選択規則に制約された側バンド遷移は、マルチトーンまたは強い駆動を必要とする多光子過程によってのみ有効となる。 フラックスニウムのフラックスチューナビリティを利用して、フラックス対称性を破ることでこの制限を回避し、非計算キュービット遷移とキャビティ励起との相互作用を可能にする。 単調サイドバンド駆動では,300 nsで99%以上の忠実度を持つ量子ビット初期化を実現し,制御パラメータの変動に対して頑健である。 さらに, この初期化方式は, 量子ビットの2番目の励起状態の集団を同時に除去し, 大規模フラキソニウムプロセッサに容易に組み込むことができることを示す。

Fast and high-fidelity qubit initialization is crucial for low-frequency qubits such as fluxonium, and in applications of many quantum algorithms and quantum error correction codes. In a circuit quantum electrodynamics system, the initialization is typically achieved by transferring the state between the qubit and a short-lived cavity through microwave driving, also known as the sideband cooling process in atomic system. Constrained by the selection rules from the parity symmetry of the wavefunctions, the sideband transitions are only enabled by multi-photon processes which requires multi-tone or strong driving. Leveraging the flux-tunability of fluxonium, we circumvent this limitation by breaking flux symmetry to enable an interaction between a non-computational qubit transition and the cavity excitation. With single-tone sideband driving, we realize qubit initialization with a fidelity exceeding 99% within a duration of 300 ns, robust against the variation of control parameters. Furthermore, we show that our initialization scheme has a built-in benefit in simultaneously removing the second-excited state population of the qubit, and can be easily incorporated into a large-scale fluxonium processor.
翻訳日:2024-02-12 17:29:12 公開日:2024-02-09
# 価値に基づく多目的強化学習における値関数干渉と欲求行動選択

Value function interference and greedy action selection in value-based multi-objective reinforcement learning ( http://arxiv.org/abs/2402.06266v1 )

ライセンス: Link先を確認
Peter Vamplew, Cameron Foale, Richard Dazeley(参考訳) 多目的強化学習(morl)アルゴリズムは、従来の強化学習(rl)を、ベクトル値の報酬で表される、複数の相反する目標を持つ問題のより一般的なケースに拡張する。 q-learningのような広く使われているスカラーrlメソッドは、(1)ベクトル値値関数の学習、(2)異なる目的に対するユーザの有用性を反映したスカラーまたは順序演算子を用いたアクション選択により、複数の目的に対応するように修正することができる。 しかし、ここで示すように、もしユーザのユーティリティ関数が、大きく変化するベクトル値と同じようなユーティリティレベルをマップすれば、エージェントが学習した値関数に干渉し、サブ最適ポリシーに収束する可能性がある。 確率的環境では、予測した戻り基準を最適化する場合に最も普及するが、決定論的環境においても干渉が発生することを示す簡単な例を示す。 我々は,欲望行動を特定する際にランダムな結び目を避けることで,価値関数の干渉に起因する問題を改善できるが,完全に克服できないことを実証的に示す。

Multi-objective reinforcement learning (MORL) algorithms extend conventional reinforcement learning (RL) to the more general case of problems with multiple, conflicting objectives, represented by vector-valued rewards. Widely-used scalar RL methods such as Q-learning can be modified to handle multiple objectives by (1) learning vector-valued value functions, and (2) performing action selection using a scalarisation or ordering operator which reflects the user's utility with respect to the different objectives. However, as we demonstrate here, if the user's utility function maps widely varying vector-values to similar levels of utility, this can lead to interference in the value-function learned by the agent, leading to convergence to sub-optimal policies. This will be most prevalent in stochastic environments when optimising for the Expected Scalarised Return criterion, but we present a simple example showing that interference can also arise in deterministic environments. We demonstrate empirically that avoiding the use of random tie-breaking when identifying greedy actions can ameliorate, but not fully overcome, the problems caused by value function interference.
翻訳日:2024-02-12 17:28:03 公開日:2024-02-09
# LLaVA-Docent:芸術鑑賞教育を支援するマルチモーダル大言語モデルによる授業チューニング

LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education ( http://arxiv.org/abs/2402.06264v1 )

ライセンス: Link先を確認
Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim(参考訳) 芸術鑑賞は、学習者の批判的思考と感情的知性を育む上で不可欠である。 しかし、伝統的な美術鑑賞教育は、特に不利な学生の芸術資源へのアクセスが制限されることや、主流の教育におけるSTEM科目への不均衡がしばしば妨げられている。 これらの課題に応えて、最近の技術進歩は革新的な解決策の道を開いた。 本研究では,これらの進歩を生かしたLLaVA-Docentの開発に焦点をあて,マルチモーダル大言語モデル(MLLM)を芸術鑑賞教育に適用することを検討する。 我々のアプローチは、この分野の専門家との包括的な文献レビューと相談を伴い、堅牢なデータフレームワークの開発に繋がった。 このフレームワークを利用して,GPT-4で活用した仮想対話データセットを作成した。 このデータセットは、LLaVA-Docentという名前のMLLMのトレーニングに役立った。 6人の研究者がllava-docentの定量的・質的評価を行い、数発でgpt-4モデルと比較した。 評価結果からLLaVA-Docentモデルの強度と弱点が明らかとなった。 LLaVA-Docentは,美術鑑賞教育のアクセシビリティとエンゲージメントを高めるのに有効である。 本研究は,MLLMの潜在能力を生かして,芸術教育の分野に多大な貢献をし,芸術鑑賞の指導・経験方法を再考する新たな方法論を提案する。

Art appreciation is vital in nurturing critical thinking and emotional intelligence among learners. However, traditional art appreciation education has often been hindered by limited access to art resources, especially for disadvantaged students, and an imbalanced emphasis on STEM subjects in mainstream education. In response to these challenges, recent technological advancements have paved the way for innovative solutions. This study explores the application of multi-modal large language models (MLLMs) in art appreciation education, focusing on developing LLaVA-Docent, a model that leverages these advancements. Our approach involved a comprehensive literature review and consultations with experts in the field, leading to developing a robust data framework. Utilizing this framework, we generated a virtual dialogue dataset that was leveraged by GPT-4. This dataset was instrumental in training the MLLM, named LLaVA-Docent. Six researchers conducted quantitative and qualitative evaluations of LLaVA-Docent to assess its effectiveness, benchmarking it against the GPT-4 model in a few-shot setting. The evaluation process revealed distinct strengths and weaknesses of the LLaVA-Docent model. Our findings highlight the efficacy of LLaVA-Docent in enhancing the accessibility and engagement of art appreciation education. By harnessing the potential of MLLMs, this study makes a significant contribution to the field of art education, proposing a novel methodology that reimagines the way art appreciation is taught and experienced.
翻訳日:2024-02-12 17:27:23 公開日:2024-02-09
# キーバリュー制約付き生成言語モデル推論におけるエビテーションポリシーの有効性について

On the Efficacy of Eviction Policy for Key-Value Constrained Generative Language Model Inference ( http://arxiv.org/abs/2402.06262v1 )

ライセンス: Link先を確認
Siyu Ren, Kenny Q. Zhu(参考訳) 近年のLarge Language Models~(LLMs)による成功にもかかわらず、過剰なメモリと計算要求のため、リソース制約のある環境でのデプロイには特にコストがかかる。 モデルパラメータに加えて、キー値キャッシュもGPUメモリに格納され、バッチサイズとシーケンス長とともに線形に成長する。 対策として、近年の研究では、所定の予算の下でキーバリューキャッシュのオーバーヘッドを維持するための様々な制限ポリシーが提案されている。 本稿では,既存のevictionポリシーの有効性について,\textit{importance score calculation} と \textit{eviction scope construction} を用いて検討する。 この2つの側面から先行政策の欠如を特定し,時間的注意スコアとロバスト性尺度に基づいて,roco,a \underline{r}\underline{o}bust \underline{c}ache \underline{o}mission policyを導入する。 予備充填と自己回帰復号段階にまたがる大規模な実験は、RoCoの優位性を検証する。 最後に、ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。 コードは \url{https://github.com/drsy/easykv}。

Despite the recent success associated with Large Language Models~(LLMs), they are notably cost-prohibitive to deploy in resource-constrained environments due to their excessive memory and computational demands. In addition to model parameters, the key-value cache is also stored in GPU memory, growing linearly with batch size and sequence length. As a remedy, recent works have proposed various eviction policies for maintaining the overhead of key-value cache under a given budget. This paper embarks on the efficacy of existing eviction policies in terms of \textit{importance score calculation} and \textit{eviction scope construction}. We identify the deficiency of prior policies in these two aspects and introduce RoCo, a \underline{r}\underline{o}bust \underline{c}ache \underline{o}mission policy based on temporal attention scores and robustness measures. Extensive experimentation spanning prefilling and auto-regressive decoding stages validates the superiority of RoCo. Finally, we release EasyKV, a versatile software package dedicated to user-friendly key-value constrained generative inference. Code available at \url{https://github.com/DRSY/EasyKV}.
翻訳日:2024-02-12 17:27:00 公開日:2024-02-09
# スポンジネット攻撃:ディープニューラルネットワークのスポンジ重みによる攻撃

The SpongeNet Attack: Sponge Weight Poisoning of Deep Neural Networks ( http://arxiv.org/abs/2402.06357v1 )

ライセンス: Link先を確認
Jona te Lintelo and Stefanos Koffas and Stjepan Picek(参考訳) スポンジ攻撃は、ハードウェアアクセラレータにデプロイされたニューラルネットワークのエネルギー消費と計算時間を増加させることを目的としている。 既存のスポンジアタックは、スポンジの例による推論や、スポンジポジティングによるトレーニングで実行できる。 スポンジの例では、モデル入力に加わった摂動を利用してエネルギーと遅延を増大させ、スポンジポイジングはモデルの目的関数を変更して推論時エネルギー/遅延効果を誘導する。 本研究ではspongenetと呼ばれる新しいスポンジ攻撃を提案する。 SpongeNetは、トレーニング済みモデルのパラメータ上で直接実行される最初のスポンジ攻撃である。 私たちの実験では、スポンジ中毒よりも少ないサンプルで視覚モデルのエネルギー消費を効果的に増やすことが示されている。 実験は,スポンジ中毒に対する防御(バッチ正規化バイアス値を減少させる)のために特に調整しなければ,中毒防御は効果がないことを示している。 私たちの研究によると、spongenetは最先端のstarganよりも効果的である。 さらに、spongenetは、被害者モデルの重みに大きな変更を必要としないため、以前のスポンジ中毒攻撃よりもステルスである。 実験の結果,攻撃者がデータセット全体の1%しかアクセスできず,最大11%のエネルギー増加を達成した場合でも,スポンジネット攻撃が実行可能であることがわかった。

Sponge attacks aim to increase the energy consumption and computation time of neural networks deployed on hardware accelerators. Existing sponge attacks can be performed during inference via sponge examples or during training via Sponge Poisoning. Sponge examples leverage perturbations added to the model's input to increase energy and latency, while Sponge Poisoning alters the objective function of a model to induce inference-time energy/latency effects. In this work, we propose a novel sponge attack called SpongeNet. SpongeNet is the first sponge attack that is performed directly on the parameters of a pre-trained model. Our experiments show that SpongeNet can successfully increase the energy consumption of vision models with fewer samples required than Sponge Poisoning. Our experiments indicate that poisoning defenses are ineffective if not adjusted specifically for the defense against Sponge Poisoning (i.e., they decrease batch normalization bias values). Our work shows that SpongeNet is more effective on StarGAN than the state-of-the-art. Additionally, SpongeNet is stealthier than the previous Sponge Poisoning attack as it does not require significant changes in the victim model's weights. Our experiments indicate that the SpongeNet attack can be performed even when an attacker has access to only 1% of the entire dataset and reach up to 11% energy increase.
翻訳日:2024-02-12 17:19:44 公開日:2024-02-09
# InternLM-Math: 検証可能な推論に向けたオープン数学大言語モデル

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning ( http://arxiv.org/abs/2402.06332v1 )

ライセンス: Link先を確認
Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin(参考訳) 大きな言語モデルの数学能力は、その抽象的推論能力を表すことができる。 本稿では, InternLM2 の事前学習を継続する LLMs InternLM-Math をオープンソースとして導入する。 我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを統一されたSeq2seqフォーマットで統一し、我々のモデルを汎用数学推論器、検証器、証明器、拡張器として監督する。 これらの能力は次の数学 LLM や自己定位の開発に利用できる。 InternLM-Mathは、GSM8K、MATH、ハンガリー数学試験、MathBench-ZH、MiniF2Fなどの非公式および正式なベンチマークにおいて、コンテキスト内学習、教師付き微調整、コードアシスト推論の設定の下で、オープンソースの最先端性能を得る。 我々の事前学習モデルは微調整なしでMiniF2Fテストセットで30.3を達成する。 さらに、LEANを用いて数学の問題を解き、その性能をマルチタスク学習の設定下で研究し、LEANを数学の解法と証明のための統一プラットフォームとして用いる可能性を示す。 我々のモデル、コード、データは \url{https://github.com/InternLM/InternLM-Math} でリリースされます。

The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at \url{https://github.com/InternLM/InternLM-Math}.
翻訳日:2024-02-12 17:19:19 公開日:2024-02-09
# オープン集合認識評価におけるクラス不均衡の考慮

Taking Class Imbalance Into Account in Open Set Recognition Evaluation ( http://arxiv.org/abs/2402.06331v1 )

ライセンス: Link先を確認
Joanna Komorniczak and Pawel Ksieniewicz(参考訳) 近年、ディープニューラルネットワークベースのシステムは人気が高まっているだけでなく、ユーザーの信頼も増している。 しかし、そのようなシステムのクローズドワールドの仮定により、未知のクラスからのサンプルを認識できず、しばしば不正確なラベルを高い信頼性で引き起こす。 本研究は,クラス不均衡の影響に着目したオープンセット認識手法の評価,特に未知と未知の標本の二分法に焦点をあてたものである。 問題分析の結果として,本分野における手法評価のための一連のガイドラインを提案する。

In recent years Deep Neural Network-based systems are not only increasing in popularity but also receive growing user trust. However, due to the closed-world assumption of such systems, they cannot recognize samples from unknown classes and often induce an incorrect label with high confidence. Presented work looks at the evaluation of methods for Open Set Recognition, focusing on the impact of class imbalance, especially in the dichotomy between known and unknown samples. As an outcome of problem analysis, we present a set of guidelines for evaluation of methods in this field.
翻訳日:2024-02-12 17:18:56 公開日:2024-02-09
# グラフ上での連続学習:調査

Continual Learning on Graphs: A Survey ( http://arxiv.org/abs/2402.06330v1 )

ライセンス: Link先を確認
Zonggui Tian, Du Zhang, and Hong-Ning Dai(参考訳) 近年,非定常環境におけるグラフ構造化データ処理タスクに連続的なグラフ学習が採用されている。 有望な学習能力にもかかわらず、連続グラフ学習に関する現在の研究は主に、継続的なパフォーマンス改善を無視しながら破滅的な忘れの問題を軽減することに焦点を当てている。 このギャップを埋めるため,本稿では,最近の連続グラフ学習の取り組みに関する総合的な調査を行う。 具体的には,破滅的な忘れを克服する観点から,連続的グラフ学習の新しい分類法を提案する。 さらに,連続グラフ学習手法を継続的に改善するための課題を体系的に分析し,その解決策について考察する。 最後に,連続的なグラフ学習の開発に関するオープンな課題と今後の方向性を示し,それが連続的なパフォーマンス改善に与える影響について論じる。

Recently, continual graph learning has been increasingly adopted for diverse graph-structured data processing tasks in non-stationary environments. Despite its promising learning capability, current studies on continual graph learning mainly focus on mitigating the catastrophic forgetting problem while ignoring continuous performance improvement. To bridge this gap, this article aims to provide a comprehensive survey of recent efforts on continual graph learning. Specifically, we introduce a new taxonomy of continual graph learning from the perspective of overcoming catastrophic forgetting. Moreover, we systematically analyze the challenges of applying these continual graph learning methods in improving performance continuously and then discuss the possible solutions. Finally, we present open issues and future directions pertaining to the development of continual graph learning and discuss how they impact continuous performance improvement.
翻訳日:2024-02-12 17:18:46 公開日:2024-02-09
# 3次元変形可能なメッシュモデルとオプティカルフローに基づく構造的高密度変位のネットワーク

A Network for structural dense displacement based on 3D deformable mesh model and optical flow ( http://arxiv.org/abs/2402.06329v1 )

ライセンス: Link先を確認
Peimian Du, Qicheng Guo, Yanru Li(参考訳) 本研究では,ビデオからのRCフレーム構造の変位をモノクロカメラで認識するネットワークを提案する。 提案するネットワークは,FlowNet2とPOFRN-Netの2つのモジュールで構成されている。 flownet2 は高密度光フローを生成するのに使われ、pofrn-net はポーズパラメータ h. flownet2 は2つのビデオフレームを高密度光フローに変換する。 pofrn-netはflownet2から高密度光フローを入力してポーズパラメータhを出力する。任意の構造の変位をパラメータhから計算できる。高速フーリエ変換(fft)を適用して対応する変位信号から周波数領域信号を得る。 さらに,本研究では,第1ビデオの1階における真偽の変位の比較を行った。 最後に,本研究の最後に,rcフレーム構造の4階における3つの映像の変位を予測した。

This study proposes a Network to recognize displacement of a RC frame structure from a video by a monocular camera. The proposed Network consists of two modules which is FlowNet2 and POFRN-Net. FlowNet2 is used to generate dense optical flow as well as POFRN-Net is to extract pose parameter H. FlowNet2 convert two video frames into dense optical flow. POFRN-Net is inputted dense optical flow from FlowNet2 to output the pose parameter H. The displacement of any points of structure can be calculated from parameter H. The Fast Fourier Transform (FFT) is applied to obtain frequency domain signal from corresponding displacement signal. Furthermore, the comparison of the truth displacement on the First floor of the First video is shown in this study. Finally, the predicted displacements on four floors of RC frame structure of given three videos are exhibited in the last of this study.
翻訳日:2024-02-12 17:18:34 公開日:2024-02-09
# 時間的相互作用グラフのプロンプト学習

Prompt Learning on Temporal Interaction Graphs ( http://arxiv.org/abs/2402.06326v1 )

ライセンス: Link先を確認
Xi Chen, Siwei Zhang, Yun Xiong, Xixi Wu, Jiawei Zhang, Xiangguo Sun, Yao Zhang, Yinglong Zhao, Yulin Kang(参考訳) 時間相互作用グラフ(TIG)は現実世界のシステムを表現するために広く利用されている。 TIGの表現学習を容易にするために、研究者は一連のTIGモデルを提案した。 しかしながら,これらのモデルでは,‘pre-train, predict’のトレーニングパラダイムにおいて,事前トレーニングと下流予測の2つの厳しいギャップに直面している。 第一に、事前学習データと推論データの時間差は、動的に進化するデータに対する将来の予測におけるモデルの適用性を著しく損なう。 第二に、プリテキストと下流タスク間のセマンティックなばらつきは、アプリケーションシナリオ全体にわたる学習と予測能力の整合に苦慮しているため、実践的なアプリケーションを妨げる。 近年,モデル一般化のための軽量なメカニズムとして ‘pre-train, prompt' パラダイムが登場している。 このパラダイムを適用することは、前述の課題を解決する潜在的な解決策になります。 しかし、このパラダイムをTIGに適用することは簡単ではない。 静的グラフコンテキストにおけるプロンプトの適用は、時間に敏感なダイナミクスと表現力の欠如により、時間的設定において不足する。 この問題に対処するために、TIGモデルとシームレスに統合し、時間的および意味的なギャップを埋める多目的なフレームワークであるTIGPrompt(TIGPrompt)を導入する。 具体的には,異なるタスクに対して時間認識プロンプトを提供する時間的プロンプト生成器を提案する。 これらのプロンプトは、ごく少ない監督データでプロンプトジェネレータのチューニングのみに依存する、最小限の設計で際立っている。 様々な計算資源要求に対応するために,より柔軟性のある 'pre-train, prompt-based fine-tune'' パラダイムを提案する。 広範な実験を通じて、TIGPromptはSOTAの性能と優れた効率性を示す。

Temporal Interaction Graphs (TIGs) are widely utilized to represent real-world systems. To facilitate representation learning on TIGs, researchers have proposed a series of TIG models. However, these models are still facing two tough gaps between the pre-training and downstream predictions in their ``pre-train, predict'' training paradigm. First, the temporal discrepancy between the pre-training and inference data severely undermines the models' applicability in distant future predictions on the dynamically evolving data. Second, the semantic divergence between pretext and downstream tasks hinders their practical applications, as they struggle to align with their learning and prediction capabilities across application scenarios. Recently, the ``pre-train, prompt'' paradigm has emerged as a lightweight mechanism for model generalization. Applying this paradigm is a potential solution to solve the aforementioned challenges. However, the adaptation of this paradigm to TIGs is not straightforward. The application of prompting in static graph contexts falls short in temporal settings due to a lack of consideration for time-sensitive dynamics and a deficiency in expressive power. To address this issue, we introduce Temporal Interaction Graph Prompting (TIGPrompt), a versatile framework that seamlessly integrates with TIG models, bridging both the temporal and semantic gaps. In detail, we propose a temporal prompt generator to offer temporally-aware prompts for different tasks. These prompts stand out for their minimalistic design, relying solely on the tuning of the prompt generator with very little supervision data. To cater to varying computational resource demands, we propose an extended ``pre-train, prompt-based fine-tune'' paradigm, offering greater flexibility. Through extensive experiments, the TIGPrompt demonstrates the SOTA performance and remarkable efficiency advantages.
翻訳日:2024-02-12 17:18:20 公開日:2024-02-09
# 非一様バイアスを誘発する一様ランダムウェイト--狭義教師に一般化された典型的な補間ニューラルネットワーク

How Uniform Random Weights Induce Non-uniform Bias: Typical Interpolating Neural Networks Generalize with Narrow Teachers ( http://arxiv.org/abs/2402.06323v1 )

ライセンス: Link先を確認
Gon Buzaglo, Itamar Harel, Mor Shpigel Nacson, Alon Brutzkus, Nathan Srebro, Daniel Soudry(参考訳) 背景。 主な理論的パズルは、オーバーパラメータ付きニューラルネットワーク(nns)がゼロ損失(つまりデータを補間する)に訓練されたときにうまく一般化する理由である。 通常、NNはSGD(Stochastic Gradient Descent)またはその変種で訓練される。 しかし、最近の実証研究は、データを補間するランダムNNの一般化を調査した:NNは、パラメータの前の一見均一な状態からサンプリングされ、NNがトレーニングセットを完全に分類することを条件とした。 興味深いことに、そのようなNNサンプルは一般的にSGD訓練NNと同様に一般化されている。 貢献。 このようなランダムNN補間器は、ラベルに一致する下層の狭い「教師NN」が存在する場合、一般的にうまく一般化する。 具体的には、NNパラメトリゼーションに先立ってそのような「フラット」が、NN構造の冗長性のために、NN関数よりもリッチな事前を誘導することを示す。 特に、これはより単純な関数に対するバイアスを生み出し、生徒のそれよりも教師の複雑さ(主に非冗長なパラメータの数)にほぼ比例した、サンプルの複雑さで学習を誘発する、関連するパラメータが少ない。

Background. A main theoretical puzzle is why over-parameterized Neural Networks (NNs) generalize well when trained to zero loss (i.e., so they interpolate the data). Usually, the NN is trained with Stochastic Gradient Descent (SGD) or one of its variants. However, recent empirical work examined the generalization of a random NN that interpolates the data: the NN was sampled from a seemingly uniform prior over the parameters, conditioned on that the NN perfectly classifying the training set. Interestingly, such a NN sample typically generalized as well as SGD-trained NNs. Contributions. We prove that such a random NN interpolator typically generalizes well if there exists an underlying narrow ``teacher NN" that agrees with the labels. Specifically, we show that such a `flat' prior over the NN parametrization induces a rich prior over the NN functions, due to the redundancy in the NN structure. In particular, this creates a bias towards simpler functions, which require less relevant parameters to represent -- enabling learning with a sample complexity approximately proportional to the complexity of the teacher (roughly, the number of non-redundant parameters), rather than the student's.
翻訳日:2024-02-12 17:17:53 公開日:2024-02-09
# TimEHR:電子健康記録のための画像ベースの時系列生成

TimEHR: Image-based Time Series Generation for Electronic Health Records ( http://arxiv.org/abs/2402.06318v1 )

ライセンス: Link先を確認
Hojjat Karami, Mary-Anne Hartley, David Atienza, Anisoara Ionescu(参考訳) 電子健康記録(EHR)の時系列は、不規則サンプリング、欠落値、高次元性などの生成モデルに固有の課題を提示する。 本稿では,eersから時系列データを生成するための新しい生成型逆ネットワーク(gan)モデルtimehrを提案する。 特にTimEHRは時系列を画像として扱い、2つの条件付きGANに基づいている。 第1のGANは不足パターンを生成し、第2のGANは不足パターンに基づいて時系列値を生成する。 実世界の3つのEHRデータセットの実験結果から、TimEHRは忠実さ、ユーティリティ、プライバシのメトリクスで最先端のメソッドよりも優れています。

Time series in Electronic Health Records (EHRs) present unique challenges for generative models, such as irregular sampling, missing values, and high dimensionality. In this paper, we propose a novel generative adversarial network (GAN) model, TimEHR, to generate time series data from EHRs. In particular, TimEHR treats time series as images and is based on two conditional GANs. The first GAN generates missingness patterns, and the second GAN generates time series values based on the missingness pattern. Experimental results on three real-world EHR datasets show that TimEHR outperforms state-of-the-art methods in terms of fidelity, utility, and privacy metrics.
翻訳日:2024-02-12 17:17:27 公開日:2024-02-09
# クロスシーンシーゼンダッシュ土地クラッタ分類のためのマルチソース半教師付きドメイン一般化ネットワーク

Multisource Semisupervised Adversarial Domain Generalization Network for Cross-Scene Sea\textendash Land Clutter Classification ( http://arxiv.org/abs/2402.06315v1 )

ライセンス: Link先を確認
Xiaoxuan Zhang, Quan Pan, Salvador Garc\'ia(参考訳) 深層学習 (dl) を基盤として, スカイウェーブオーバーザ・ホライゾンラダー (othr) のシー・テキストダッシュランドクラッタ分類が新しい研究課題となっている。 工学的応用においては,既存の分布の相違を考慮した海面・海面のリアルタイム予測が重要である。 この問題を解決するため,本論文ではクロスシーンシー・テキストダッシュ土地クラッタ分類のための多元的半教師付き逆ドメイン一般化ネットワーク (msadgn) を提案する。 msadgnは、1つのラベル付きソースドメインと複数のラベル付きソースドメインからドメイン不変およびドメイン固有の特徴を抽出し、これらの特徴を任意の未認識のターゲットドメインに一般化し、sea\textendash land clutterのリアルタイム予測を可能にする。 具体的には、MSADGNはドメイン関連擬似ラベルモジュール、ドメイン不変モジュール、ドメイン固有モジュールの3つのモジュールで構成される。 最初のモジュールでは、改良された疑似ラベルメソッドであるdomain-related pseudolabelが導入されている。 第2のモジュールは、生成逆数ネットワーク(GAN)と多重識別器を用いて、ドメイン不変の特徴を抽出し、ターゲットドメインにおけるモデルの転送可能性を高める。 第3のモジュールは並列マルチクラス化ブランチを使用してドメイン固有の特徴を抽出し、ターゲットドメインにおけるモデルの識別性を高める。 本手法の有効性は12の領域一般化(DG)シナリオで検証される。 一方,比較のために10種類の最先端DG法を選択した。 実験の結果,本手法の優位性を示した。

Deep learning (DL)-based sea\textendash land clutter classification for sky-wave over-the-horizon-radar (OTHR) has become a novel research topic. In engineering applications, real-time predictions of sea\textendash land clutter with existing distribution discrepancies are crucial. To solve this problem, this article proposes a novel Multisource Semisupervised Adversarial Domain Generalization Network (MSADGN) for cross-scene sea\textendash land clutter classification. MSADGN can extract domain-invariant and domain-specific features from one labeled source domain and multiple unlabeled source domains, and then generalize these features to an arbitrary unseen target domain for real-time prediction of sea\textendash land clutter. Specifically, MSADGN consists of three modules: domain-related pseudolabeling module, domain-invariant module, and domain-specific module. The first module introduces an improved pseudolabel method called domain-related pseudolabel, which is designed to generate reliable pseudolabels to fully exploit unlabeled source domains. The second module utilizes a generative adversarial network (GAN) with a multidiscriminator to extract domain-invariant features, to enhance the model's transferability in the target domain. The third module employs a parallel multiclassifier branch to extract domain-specific features, to enhance the model's discriminability in the target domain. The effectiveness of our method is validated in twelve domain generalizations (DG) scenarios. Meanwhile, we selected 10 state-of-the-art DG methods for comparison. The experimental results demonstrate the superiority of our method.
翻訳日:2024-02-12 17:17:16 公開日:2024-02-09
# 半導体バンド状態におけるg因子対称性とトポロジー

g-factor symmetry and topology in semiconductor band states ( http://arxiv.org/abs/2402.06310v1 )

ライセンス: Link先を確認
Mira Sharma and David P. DiVincenzo(参考訳) 応用磁場に対するクラマーズ退化状態の反応を決定する$\bf{g}$tensorは、スピン量子ビットの現在の設計において重要である。 これはヘテロ構造組成、障害、電場の詳細に影響されているが、結晶格子レベルで働くスピン軌道相互作用の影響から、その構造の多くを継承している。 ここでは, ケイ素, ゲルマニウム, ヒ素中の重要な原子価および伝導帯に対する$\bf{g}=\bf{g}_L+\bf{g}_S$の新しい対称性とトポロジカルな特徴を明らかにする。 高い(キュビックな)対称性を持つ全ての結晶に対して、非相対論的値 $g=2$ からの大きな離脱は対称性によって保証される。 特にスピン部分 $\bf{g}_S(\bf{k})$ を考えると、スピン軌道のカップリングがどんなに弱いとしても、スカラー函数 $det(\bf{g}_S(\bf{k}))$ がブリルアンゾーンの閉曲面上で 0 となることを証明する。 また、これらの曲面上の波動ベクトル $\bf{k}$ に対して、ブロッホ状態 $|u_{n\bf{k}}\rangle$ は極大スピン軌道絡みを持つ。 強結合計算を用いて、曲面 $det(\bf{g}(\bf{k}))=0$ が多くの興味深い位相的特徴を示し、フェルミ曲面理論で理解されているようなリフシッツ臨界点を示す。

The $\bf{g}$ tensor, which determines the reaction of Kramers-degenerate states to an applied magnetic field, is of increasing importance in the current design of spin qubits. It is affected by details of heterostructure composition, disorder, and electric fields, but it inherits much of its structure from the effect of the spin-orbit interaction working at the crystal-lattice level. Here we uncover new symmetry and topological features of $\bf{g}=\bf{g}_L+\bf{g}_S$ for important valence and conduction bands in silicon, germanium, and gallium arsenide. For all crystals with high (cubic) symmetry, we show that large departures from the nonrelativistic value $g=2$ are {\em guaranteed} by symmetry. In particular, considering the spin part $\bf{g}_S(\bf{k})$, we prove that the scalar function $det(\bf{g}_S(\bf{k}))$ must go to zero on closed surfaces in the Brillouin zone, no matter how weak the spin-orbit coupling is. We also prove that for wave vectors $\bf{k}$ on these surfaces, the Bloch states $|u_{n\bf{k}}\rangle$ have maximal spin-orbital entanglement. Using tight-binding calculations, we observe that the surfaces $det(\bf{g}(\bf{k}))=0$ exhibit many interesting topological features, exhibiting Lifshitz critical points as understood in Fermi-surface theory.
翻訳日:2024-02-12 17:16:52 公開日:2024-02-09
# 音声の真正性に対する新しいアプローチ

A New Approach to Voice Authenticity ( http://arxiv.org/abs/2402.06304v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Piotr Kawa, Shen Hu, Matthias Neu, Jennifer Williams, Philip Sperl, Konstantin B\"ottinger(参考訳) 音声フェーキングは主にtts(text-to-speech)合成技術の最近の進歩によって推進され、社会的な課題となっている。 現在、一般的な仮定は、改変のない人間の発話は本物と見なすことができ、一方、偽のスピーチはtts合成から生じるというものである。 この二項区別は単純化されていると論じる。 例えば、"Drunken Nancy Pelosi"インシデントのように、変更された再生速度は悪意のある目的で使用することができる。 同様に、音声クリップの編集は、例えばニュースレポートやポッドキャストの簡潔さや要約のために倫理的に行うことができるが、編集は誤解を招く物語を作ることもできる。 本稿では,「フェイク」あるいは「リアル」の2進的パラダイムから脱却する概念的シフトを提案する。 その代わりに、フィルタやカットといった従来の変更や、TS合成やVCシステムを含む、‘ボイス編集’のピンポイントに重点を置いています。 6つのカテゴリを分類し,M-AILABSコーパスに根ざした新たな課題データセットをキュレートし,ベースライン検出システムを提案する。 そして最も重要なことは、音声を偽物や本物と分類するだけでは、音声技術の分野を前進させることができない危険な単純化であると主張することだ。

Voice faking, driven primarily by recent advances in text-to-speech (TTS) synthesis technology, poses significant societal challenges. Currently, the prevailing assumption is that unaltered human speech can be considered genuine, while fake speech comes from TTS synthesis. We argue that this binary distinction is oversimplified. For instance, altered playback speeds can be used for malicious purposes, like in the 'Drunken Nancy Pelosi' incident. Similarly, editing of audio clips can be done ethically, e.g., for brevity or summarization in news reporting or podcasts, but editing can also create misleading narratives. In this paper, we propose a conceptual shift away from the binary paradigm of audio being either 'fake' or 'real'. Instead, our focus is on pinpointing 'voice edits', which encompass traditional modifications like filters and cuts, as well as TTS synthesis and VC systems. We delineate 6 categories and curate a new challenge dataset rooted in the M-AILABS corpus, for which we present baseline detection systems. And most importantly, we argue that merely categorizing audio as fake or real is a dangerous over-simplification that will fail to move the field of speech technology forward.
翻訳日:2024-02-12 17:16:14 公開日:2024-02-09
# シンボリック回帰に対する機能解析的アプローチ

A Functional Analysis Approach to Symbolic Regression ( http://arxiv.org/abs/2402.06299v1 )

ライセンス: Link先を確認
Kirill Antonov, Roman Kalkreuth, Kaifeng Yang, Thomas B\"ack, Niki van Stein, Anna V Kononova(参考訳) 記号回帰 (sr) は、入力出力マッピングのための表現の合成に依存するため、ランダム化探索ヒューリスティックスにとって大きな課題となる。 従来の遺伝的プログラミング(GP)アルゴリズムは様々な領域で成功しているが、SRに木に基づく表現を用いると、限られた性能を示す。 これらの制限に対処するために,関数解析から洞察を引き出すフーリエツリー成長(ftg)と呼ばれる新しいsrアプローチを導入する。 この新しい視点により、異なる空間で直接最適化を行うことができ、複雑な記号表現を避けることができる。 提案アルゴリズムは,古典的な1次元ベンチマーク問題に対して,従来のGP法よりも優れた性能を示す。 GP と FTG の制限因子を同定し,説明するために,高次多項式を持つ大規模多項式ベンチマークの実験を行った。 著者の知識を最大限に活用するために、この研究はSR問題に対処する機能解析の先駆的な応用である。 提案されたアルゴリズムの優れた性能とgpの限界に対する洞察は、srと関連する機械学習分野のgpをさらに前進させる道を開く。

Symbolic regression (SR) poses a significant challenge for randomized search heuristics due to its reliance on the synthesis of expressions for input-output mappings. Although traditional genetic programming (GP) algorithms have achieved success in various domains, they exhibit limited performance when tree-based representations are used for SR. To address these limitations, we introduce a novel SR approach called Fourier Tree Growing (FTG) that draws insights from functional analysis. This new perspective enables us to perform optimization directly in a different space, thus avoiding intricate symbolic expressions. Our proposed algorithm exhibits significant performance improvements over traditional GP methods on a range of classical one-dimensional benchmarking problems. To identify and explain limiting factors of GP and FTG, we perform experiments on a large-scale polynomials benchmark with high-order polynomials up to degree 100. To the best of the authors' knowledge, this work represents the pioneering application of functional analysis in addressing SR problems. The superior performance of the proposed algorithm and insights into the limitations of GP open the way for further advancing GP for SR and related areas of explainable machine learning.
翻訳日:2024-02-12 17:15:53 公開日:2024-02-09
# マルチモーダル解釈可能なデータ駆動モデルによる多変量時系列を用いた抗菌性多剤耐性の早期予測

Multimodal Interpretable Data-Driven Models for Early Prediction of Antimicrobial Multidrug Resistance Using Multivariate Time-Series ( http://arxiv.org/abs/2402.06295v1 )

ライセンス: Link先を確認
Sergio Mart\'inez-Ag\"uero, Antonio G. Marques, Inmaculada Mora-Jim\'enez, Joaqu\'in Alv\'arez-Rodr\'iguez, Cristina Soguero-Ruiza(参考訳) EHR(Electronic Health Record)は、静的データと多変量時系列(MTS)を特徴とする患者の健康状態のマルチモーダルレジスタである。 MTSは臨床的予測に有用なツールであるが、他のデータモダリティとの融合はより詳細な洞察とより正確な結果をもたらす可能性がある。 ディープニューラルネットワーク(DNN)は、医療領域の基本パターンを特定し定義するための基本的なツールとして登場した。 しかし、DNNモデルが臨床現場で広く使われるためには、解釈可能性の根本的な改善が必要である。 本研究では,フエンラブラダ大学病院(スペイン・マドリッド)の集中治療室(ICU)における抗微生物多剤耐性(AMR)菌の出現を予測し,理解することのできる,解釈可能なマルチモーダルデータ駆動モデルの集合体に基づくアプローチを提案する。 患者のプロファイルと初期健康状態は静的変数を用いてモデル化され、ICU滞在中の患者の健康状態の進化は、機械的換気や抗生物質摂取を含むいくつかのMSSを用いてモデル化される。 本稿で提案するマルチモーダルDNNモデルには,AMRの予測に有効であることに加えて,ICUにおけるAMRの予測支援システムの提供に加えて,解釈可能な原理が含まれている。 さらに,多モードモデルと解釈可能性スキームに基づく提案手法は,ERHデータを扱う追加臨床問題に活用でき,その結果への影響と適用性を広げることができる。

Electronic health records (EHR) is an inherently multimodal register of the patient's health status characterized by static data and multivariate time series (MTS). While MTS are a valuable tool for clinical prediction, their fusion with other data modalities can possibly result in more thorough insights and more accurate results. Deep neural networks (DNNs) have emerged as fundamental tools for identifying and defining underlying patterns in the healthcare domain. However, fundamental improvements in interpretability are needed for DNN models to be widely used in the clinical setting. In this study, we present an approach built on a collection of interpretable multimodal data-driven models that may anticipate and understand the emergence of antimicrobial multidrug resistance (AMR) germs in the intensive care unit (ICU) of the University Hospital of Fuenlabrada (Madrid, Spain). The profile and initial health status of the patient are modeled using static variables, while the evolution of the patient's health status during the ICU stay is modeled using several MTS, including mechanical ventilation and antibiotics intake. The multimodal DNNs models proposed in this paper include interpretable principles in addition to being effective at predicting AMR and providing an explainable prediction support system for AMR in the ICU. Furthermore, our proposed methodology based on multimodal models and interpretability schemes can be leveraged in additional clinical problems dealing with EHR data, broadening the impact and applicability of our results.
翻訳日:2024-02-12 17:15:37 公開日:2024-02-09
# 条件流による不規則時系列の確率予測

Probabilistic Forecasting of Irregular Time Series via Conditional Flows ( http://arxiv.org/abs/2402.06293v1 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Randolf Scholz, Stefan Born, Lars Schmidt-Thieme(参考訳) 不規則なサンプル値の多変量時系列の確率的予測は、医療、天文学、気候など多くの分野において重要な問題である。 タスクの最先端手法は、固定形状のパラメトリック分布を仮定して、単一チャネルと単一タイムポイントにおける観測の限界分布のみを推定する。 本研究では,条件付き正規化フローを用いた不規則サンプル時系列の確率予測のための新しいモデルProFITiを提案する。 このモデルは、過去の観測や待ち行列や時間に条件づけられた時系列の将来の値に関する共同分布を、基礎となる分布の固定形状を仮定することなく学習する。 モデル成分として, 新たな可逆三角形注意層と, 実線上および実線上に可逆非線形活性化関数を導入する。 4つのデータセットについて広範な実験を行い、提案モデルが以前の最良のモデルよりも4ドル高い確率を提供することを示す。

Probabilistic forecasting of irregularly sampled multivariate time series with missing values is an important problem in many fields, including health care, astronomy, and climate. State-of-the-art methods for the task estimate only marginal distributions of observations in single channels and at single timepoints, assuming a fixed-shape parametric distribution. In this work, we propose a novel model, ProFITi, for probabilistic forecasting of irregularly sampled time series with missing values using conditional normalizing flows. The model learns joint distributions over the future values of the time series conditioned on past observations and queried channels and times, without assuming any fixed shape of the underlying distribution. As model components, we introduce a novel invertible triangular attention layer and an invertible non-linear activation function on and onto the whole real line. We conduct extensive experiments on four datasets and demonstrate that the proposed model provides $4$ times higher likelihood over the previously best model.
翻訳日:2024-02-12 17:15:11 公開日:2024-02-09
# 人間の美的嗜好に基づく大規模テキスト・画像モデルパーソナライズ : カンディンスキー生成を例に

Human Aesthetic Preference-Based Large Text-to-Image Model Personalization: Kandinsky Generation as an Example ( http://arxiv.org/abs/2402.06389v1 )

ライセンス: Link先を確認
Aven-Le Zhou, Yu-Ao Wang, Wei Wu and Kang Zhang(参考訳) 神経生成能力の進歩により、芸術コミュニティは絵画コンテンツの作成にGenAI(生成人工知能)を積極的に取り入れている。 大規模なテキスト・ツー・イメージモデルは、美的な結果を簡単に生成できる。 しかし、このプロセスは非決定論的であり、ユーザが望ましい結果を得るために効果的なプロンプトを定式化するのに苦労しているため、退屈な試行錯誤を伴うことが多い。 本稿では,芸術的なスタイルで美的嗜好を取り入れたパーソナライズされた絵画コンテンツを自動的に生成する,プロンプトフリーな生成手法を提案する。 このアプローチでは、‘semantic injection’を利用してアーティストモデルを特定の芸術スタイルでカスタマイズし、さらに遺伝的アルゴリズムを利用して、リアルタイム反復的な人間のフィードバックによって、迅速な生成プロセスを最適化する。 アーティストモデル生成画像に対するユーザの美的評価と嗜好のみを頼りにすることで、ユーザを美的好みとカスタマイズされた芸術スタイルを含むパーソナライズされたモデルにする。

With the advancement of neural generative capabilities, the art community has actively embraced GenAI (generative artificial intelligence) for creating painterly content. Large text-to-image models can quickly generate aesthetically pleasing outcomes. However, the process can be non-deterministic and often involves tedious trial-and-error, as users struggle with formulating effective prompts to achieve their desired results. This paper introduces a prompting-free generative approach that empowers users to automatically generate personalized painterly content that incorporates their aesthetic preferences in a customized artistic style. This approach involves utilizing ``semantic injection'' to customize an artist model in a specific artistic style, and further leveraging a genetic algorithm to optimize the prompt generation process through real-time iterative human feedback. By solely relying on the user's aesthetic evaluation and preference for the artist model-generated images, this approach creates the user a personalized model that encompasses their aesthetic preferences and the customized artistic style.
翻訳日:2024-02-12 17:08:22 公開日:2024-02-09
# 量子状態の列の曖昧な識別

Unambiguous discrimination of sequences of quantum states ( http://arxiv.org/abs/2402.06365v1 )

ライセンス: Link先を確認
Tathagata Gupta, Shayeef Murshid, Somshubhro Bandyopadhyay(参考訳) 我々は、未知の量子列の状態を誤りなく決定する問題を考える。 与えられた列の元は、それらの相互の内積が全て実かつ等しいという性質を持つ線型独立な純量子状態の既知の集合から等しい確率で引き出される。 この問題は、状態が与えられた状態と同じ長さの全ての可能なシーケンスのそれに対応するような非曖昧な状態識別の例として仮定することができる。 半定値プログラムの最適条件を解くことで最適確率を算出する。 最適な値は、配列の個々のメンバーを測定することで達成可能であり、集合的な測定は不要である。

We consider the problem of determining the state of an unknown quantum sequence without error. The elements of the given sequence are drawn with equal probability from a known set of linearly independent pure quantum states with the property that their mutual inner products are all real and equal. This problem can be posed as an instance of unambiguous state discrimination where the states correspond to that of all possible sequences having the same length as the given one. We calculate the optimum probability by solving the optimality conditions of a semidefinite program. The optimum value is achievable by measuring individual members of the sequence, and no collective measurement is necessary.
翻訳日:2024-02-12 17:08:04 公開日:2024-02-09
# CoSearchAgent: 大規模言語モデルを備えた軽量協調検索エージェント

CoSearchAgent: A Lightweight Collaborative Search Agent with Large Language Models ( http://arxiv.org/abs/2402.06360v1 )

ライセンス: Link先を確認
Peiyuan Gong, Jiamian Li, Jiaxin Mao(参考訳) コラボレーション検索は、特定の検索タスクを達成するために複数のユーザが協力して作業するのをサポートする。 インスタントメッセージングプラットフォームにおける軽量な協調検索プラグインの設計は、ユーザの協調的な習慣に合致する。 しかし,マルチユーザインタラクションのシナリオが複雑であるため,完全に機能する軽量協調検索システムの実装は困難である。 そのため、従来の軽量協調探索の研究はウィザード・オブ・オズのパラダイムに頼らなければならなかった。 近年,大規模言語モデル (LLM) がユーザと自然に対話し,LLMエージェントによる複雑な情報検索タスクを実現することが実証されている。 そこで本研究では,協調検索の研究を支援するために,LLMを用いた軽量協調検索エージェントであるCoSearchAgentを提案する。 CoSearchAgentはSlackプラグインとして設計されており、このプラットフォーム上での多人数会話中の協調検索をサポートする。 マルチユーザ会話におけるクエリとコンテキストを理解する能力とAPIを介してWebを検索する機能を備えたCoSearchAgentは、関連する検索結果に基づいて、ユーザクエリに応答することができる。 また、情報が不明確である場合、明確な質問を行うこともできる。 提案されたCoSearchAgentは非常に柔軟で、共同検索のさらなる研究を支援するのに役立つだろう。 コードとデモビデオはアクセスできる。

Collaborative search supports multiple users working together to accomplish a specific search task. Research has found that designing lightweight collaborative search plugins within instant messaging platforms aligns better with users' collaborative habits. However, due to the complexity of multi-user interaction scenarios, it is challenging to implement a fully functioning lightweight collaborative search system. Therefore, previous studies on lightweight collaborative search had to rely on the Wizard of Oz paradigm. In recent years, large language models (LLMs) have been demonstrated to interact naturally with users and achieve complex information-seeking tasks through LLM-based agents. Hence, to better support the research in collaborative search, in this demo, we propose CoSearchAgent, a lightweight collaborative search agent powered by LLMs. CoSearchAgent is designed as a Slack plugin that can support collaborative search during multi-party conversations on this platform. Equipped with the capacity to understand the queries and context in multi-user conversations and the ability to search the Web for relevant information via APIs, CoSearchAgent can respond to user queries with answers grounded on the relevant search results. It can also ask clarifying questions when the information needs are unclear. The proposed CoSearchAgent is highly flexible and would be useful for supporting further research on collaborative search. The code and demo video are accessible.
翻訳日:2024-02-12 17:07:54 公開日:2024-02-09
# AI推論のための人的価値のモデリング

Modelling Human Values for AI Reasoning ( http://arxiv.org/abs/2402.06359v1 )

ライセンス: Link先を確認
Nardine Osman and Mark d'Inverno(参考訳) 今日の最も重要な社会的な課題の1つは、相互作用するエージェント(人間と人工物)のコミュニティ内で可能な行動や行動が人間の価値観に合致するaiシステムを構築することである。 この課題に対処するために、明示的な計算表現のための人間の値の形式モデルを詳述する。 私たちの知る限りでは、これはまだ試みられていないが、AIに価値を統合する研究が増えていることを考えると驚きだ。 過去数十年間、社会心理学から人的価値を調査する研究の豊富さを出発点として、そのような形式的なモデルを提供することにしました。 我々は、このモデルが、AIに基づく価値に対する推論の基礎的装置を提供する方法を示し、実世界のユースケースでその適用性を示す。 我々のモデルは、社会心理学の研究から重要なアイデアを捉え、将来統合され、学際的なAIにおける人間の価値の研究のためのロードマップを提案する。 価値を自動的に推論する能力は、価値アライメントの問題に対処するだけでなく、個人やコミュニティがよりインフォームドで価値アライメントのある意思決定を行うのを支援するaiシステムの設計を促進する。 個人や組織は、自分たちの価値をより明確に理解し、彼らの行動や態度がそれらを適切に反映しているかどうかを探求するモチベーションをますます高めています。 人間の価値をモデル化する私たちの作業は、この拡大するニーズを満たすためにaiシステムを設計およびデプロイすることを可能にします。

One of today's most significant societal challenges is building AI systems whose behaviour, or the behaviour it enables within communities of interacting agents (human and artificial), aligns with human values. To address this challenge, we detail a formal model of human values for their explicit computational representation. To our knowledge, this has not been attempted as yet, which is surprising given the growing volume of research integrating values within AI. Taking as our starting point the wealth of research investigating the nature of human values from social psychology over the last few decades, we set out to provide such a formal model. We show how this model can provide the foundational apparatus for AI-based reasoning over values, and demonstrate its applicability in real-world use cases. We illustrate how our model captures the key ideas from social psychology research and propose a roadmap for future integrated, and interdisciplinary, research into human values in AI. The ability to automatically reason over values not only helps address the value alignment problem but also facilitates the design of AI systems that can support individuals and communities in making more informed, value-aligned decisions. More and more, individuals and organisations are motivated to understand their values more explicitly and explore whether their behaviours and attitudes properly reflect them. Our work on modelling human values will enable AI systems to be designed and deployed to meet this growing need.
翻訳日:2024-02-12 17:07:33 公開日:2024-02-09
# ブロッホ・レッドフィールド方程式の改ざん:一般開放量子系に対する正確なリンドブラッド方程式の復元

Taming the Bloch-Redfield equation: Recovering an accurate Lindblad equation for general open quantum systems ( http://arxiv.org/abs/2402.06354v1 )

ライセンス: Link先を確認
Diego Fern\'andez de la Pradilla and Esteban Moreno and Johannes Feist(参考訳) マスター方程式はオープン量子系の研究において重要な役割を果たす。 特にブロッホ・レッドフィールド方程式は、具体的な物理的環境との関係で際立っている。 しかし、さらなる近似がなければ、密度行列が完全に正であることを保証するリンドブラッド・マスター方程式が導かれず、この方程式の使用に関していくつかの懸念が持ち上がった。 この研究は、Bloch-Redfieldフレームワークを数学的に堅牢なリンドブラッド方程式に変換する以前の試みに基づいており、実証性を保証するために一般的に用いられる世俗近似の中で失われる効果を完全に保存している。 環境誘起エネルギーシフトは非エルミート的であり、いくつかの減衰率は負であり、リンドブラドの定理の仮定に違反する。 ここでは,両問題に対する直観的な解決法を提案し,評価する。 提案手法は,Bloch-Redfield方程式の非物理的ダイナミクスを緩和しつつ,具体的な物理環境から導出したリンドブラッド方程式を得るための効果的で一般的な手順を提供する。

Master equations play a pivotal role in investigating open quantum systems. In particular, the Bloch-Redfield equation stands out due to its relation to a concrete physical environment. However, without further approximations it does not lead to a Lindblad master equation that guarantees that the density matrix stays completely positive, which has raised some concerns regarding its use. This study builds on previous efforts to transform the Bloch-Redfield framework into a mathematically robust Lindblad equation, while fully preserving the effects that are lost within the secular approximation that is commonly used to guarantee positivity. These previous approaches introduce two potential deficiencies: the environment-induced energy shift can be non-Hermitian and some decay rates can be negative, violating the assumptions of Lindblad's theorem. Here, we propose and evaluate straightforward solutions to both problems. Our approach offers an effective and general procedure for obtaining a Lindblad equation, derived from a concrete physical environment, while mitigating the unphysical dynamics present in the Bloch-Redfield equation.
翻訳日:2024-02-12 17:07:09 公開日:2024-02-09
# オープン医療画像データセットの行動可能性に向けて--データ管理とスチュワードシップのためのコミュニティ提供プラットフォームからの教訓

Towards actionability for open medical imaging datasets: lessons from community-contributed platforms for data management and stewardship ( http://arxiv.org/abs/2402.06353v1 )

ライセンス: Link先を確認
Amelia Jim\'enez-S\'anchez, Natalia-Rozalia Avlona, Dovile Juodelyte, Th\'eo Sourget, Caroline Vang-Larsen, Hubert Dariusz Zaj\k{a}c, Veronika Cheplygina(参考訳) 医療画像データセットは、医療における人工知能(AI)の基本である。 診断アルゴリズムの正確性、堅牢性、公平性は、モデルが訓練され評価されるデータ(およびその品質)に依存する。 医用画像データセットはますます一般公開され、KaggleやHuggingFaceといったプライベート企業を含むCommunity-Contributed Platforms (CCP)上でホストされることが多い。 オープンデータはデータの公開価値の再分配を強化するために重要であるが、現在のcppガバナンスモデルでは、データセットの共有、文書化、評価に必要な品質と推奨プラクティスの維持に失敗している。 本稿では,CCPの医療画像データセットとその文書化,共有,維持方法について検討する。 まず,医療画像とコンピュータビジョンの相違点を強調する。特に,推奨データセット管理手法の採用が不十分なことによる下流効果について報告する。 次に、CCP上で20(医療とコンピュータビジョン10)の一般的なデータセットを分析し、曖昧なライセンス、永続的な識別子とストレージの欠如、重複とメタデータの欠如、プラットフォーム間の差異などを見つけます。 我々は,CCPデータの特徴と医療におけるAIデータの特徴との間のデータ品質のギャップを明らかにするための概念的指標として,「行動可能性」を提示する。 最後に、CCP上のデータセットの文書化、共有、保守のためのコモンズベースのスチュワードシップモデルを提案し、制限とオープンな質問に関する議論に終止符を打つ。

Medical imaging datasets are fundamental to artificial intelligence (AI) in healthcare. The accuracy, robustness and fairness of diagnostic algorithms depend on the data (and its quality) on which the models are trained and evaluated. Medical imaging datasets have become increasingly available to the public, and are often hosted on Community-Contributed Platforms (CCP), including private companies like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data's public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper we investigate medical imaging datasets on CCPs and how they are documented, shared, and maintained. We first highlight some differences between medical imaging and computer vision, particularly in the potentially harmful downstream effects due to poor adoption of recommended dataset management practices. We then analyze 20 (10 medical and 10 computer vision) popular datasets on CCPs and find vague licenses, lack of persistent identifiers and storage, duplicates and missing metadata, with differences between the platforms. We present "actionability" as a conceptual metric to reveal the data quality gap between characteristics of data on CCPs and the desired characteristics of data for AI in healthcare. Finally, we propose a commons-based stewardship model for documenting, sharing and maintaining datasets on CCPs and end with a discussion of limitations and open questions.
翻訳日:2024-02-12 17:06:50 公開日:2024-02-09
# SWITCH: 自己適応型ML-Enabledシステムの評価

SWITCH: An Exemplar for Evaluating Self-Adaptive ML-Enabled Systems ( http://arxiv.org/abs/2402.06351v1 )

ライセンス: Link先を確認
Arya Marda, Shubham Kulkarni, Karthik Vaidhyanathan(参考訳) 機械学習可能システム(MLS)における実行時の不確実性に対処することは、Quality of Service(QoS)を維持するために不可欠である。 機械学習モデルバランサ(machine learning model balancer)は、動的mlモデルのスイッチングを促進することによって、これらの不確実性に対処する概念である。 この概念を応用したSWITCHは,実行時の動的モデルスイッチングを通じて,そのようなシステムの自己適応能力を高めるために開発された例である。 SWITCHは、幅広いMLシナリオに対応する包括的なWebサービスとして設計されており、その実装はオブジェクト検出ユースケースを通じて実証されている。 SWITCHは、MLモデルの切り替え戦略を適用して評価するための柔軟なプラットフォームを提供する。 SWITCHは高度な入力処理、リアルタイムデータ処理、システムオブザーバビリティを高めるためのインタラクティブなリアルタイムダッシュボードを備えた適応メトリクスのロギング機能を備えている。 本稿では、SWITCHのアーキテクチャ、MLモデルスイッチングによる自己適応戦略、ケーススタディによる実証検証について詳述し、MLSにおけるQoS改善の可能性について述べる。 SWITCHは、MLシステムにおける適応行動を探るためのハンズオンアプローチを可能にすることで、SEAMSコミュニティにMLSの自己適応メカニズムとその実践的応用に関する研究に有用なツールを提供する。

Addressing runtime uncertainties in Machine Learning-Enabled Systems (MLS) is crucial for maintaining Quality of Service (QoS). The Machine Learning Model Balancer is a concept that addresses these uncertainties by facilitating dynamic ML model switching, showing promise in improving QoS in MLS. Leveraging this concept, this paper introduces SWITCH, an exemplar developed to enhance self-adaptive capabilities in such systems through dynamic model switching in runtime. SWITCH is designed as a comprehensive web service catering to a broad range of ML scenarios, with its implementation demonstrated through an object detection use case. SWITCH provides researchers with a flexible platform to apply and evaluate their ML model switching strategies, aiming to enhance QoS in MLS. SWITCH features advanced input handling, real-time data processing, and logging for adaptation metrics supplemented with an interactive real-time dashboard for enhancing system observability. This paper details SWITCH's architecture, self-adaptation strategies through ML model switching, and its empirical validation through a case study, illustrating its potential to improve QoS in MLS. By enabling a hands-on approach to explore adaptive behaviors in ML systems, SWITCH contributes a valuable tool to the SEAMS community for research into self-adaptive mechanisms for MLS and their practical applications.
翻訳日:2024-02-12 17:06:24 公開日:2024-02-09
# オンラインrestless multi-armed banditsにおける被曝の公平性

Fairness of Exposure in Online Restless Multi-armed Bandits ( http://arxiv.org/abs/2402.06348v1 )

ライセンス: Link先を確認
Archit Sood, Shweta Jain and Sujit Gujar(参考訳) restless multi-armed bandits (rmabs) は、各アームがマルコフの挙動を示し、遷移ダイナミクスに従って遷移するマルチアームのbanditを一般化する。 RMABへのソリューションは、オフラインとオンラインの両方で存在する。 しかし、両腕間の引き根の分布は考慮していない。 研究によると、最適な政策は、一部の腕が十分に露出していない不公平につながる。 rmabsのフェアネスにおける既存の作業は、オフラインのケースに重点を置いている。 オンラインシナリオでは、各アームがそのメリットに比例してプルを受け取る最初の公正なRMABフレームワークを提案する。 我々は、アームの利点を固定報酬分布の関数として定義する。 我々は,本アルゴリズムが単一プルケースである$O(\sqrt{T\ln T})$,$T$がエピソードの総数である場合に,サブ線形公正性を後悔させることを示す。 経験的に,本アルゴリズムはマルチプルシナリオでも良好に動作することを示す。

Restless multi-armed bandits (RMABs) generalize the multi-armed bandits where each arm exhibits Markovian behavior and transitions according to their transition dynamics. Solutions to RMAB exist for both offline and online cases. However, they do not consider the distribution of pulls among the arms. Studies have shown that optimal policies lead to unfairness, where some arms are not exposed enough. Existing works in fairness in RMABs focus heavily on the offline case, which diminishes their application in real-world scenarios where the environment is largely unknown. In the online scenario, we propose the first fair RMAB framework, where each arm receives pulls in proportion to its merit. We define the merit of an arm as a function of its stationary reward distribution. We prove that our algorithm achieves sublinear fairness regret in the single pull case $O(\sqrt{T\ln T})$, with $T$ being the total number of episodes. Empirically, we show that our algorithm performs well in the multi-pull scenario as well.
翻訳日:2024-02-12 17:05:57 公開日:2024-02-09
# 広帯域非現実ゲームエンジンとユニティゲームエンジンのエネルギー消費の比較分析

A Comparative Analysis of Energy Consumption Between The Widespread Unreal and Unity Video Game Engines ( http://arxiv.org/abs/2402.06346v1 )

ライセンス: Link先を確認
Carlos P\'erez, Javier Ver\'on, F\'elix Garc\'ia, M \'Angeles Moraga, Coral Calero, Carlos Cetina(参考訳) コンピューティング活動の総エネルギーコストは着実に増加しており、今後数十年で世界有数のエネルギー消費国になると予想されている。 しかし、おそらくその相対的な若さのために、ビデオゲームセクターは世界30億人の通常のビデオゲームプレイヤーにもかかわらず、他のコンピューティング技術と同じレベルの環境認識をまだ開発していない。 この研究は、最も広く使われている業界規模のビデオゲームエンジンであるUnityとUnreal Engineのエネルギー消費を評価する。 具体的には,ゲームに関連する3つのシナリオ(Physics, Statics Meshes, Dynamic Meshes)を用いて,エンジンのエネルギー消費を比較した。 目的は、それぞれのエンジンがエネルギー消費に与える影響を決定することである。 我々は,ゲームエンジンのエネルギー消費量に有意差があることを確認した。物理では351%がユニティを支持し,静的メッシュでは17%がユニティを支持し,動的メッシュでは26%が非現実エンジンを支持した。 これらの結果は、年間51 twhの節減の可能性を示すものであり、年間1300万人近いヨーロッパの家庭の消費に相当する。

The total energy cost of computing activities is steadily increasing and projections indicate that it will be one of the dominant global energy consumers in the coming decades. However, perhaps due to its relative youth, the video game sector has not yet developed the same level of environmental awareness as other computing technologies despite the estimated three billion regular video game players in the world. This work evaluates the energy consumption of the most widely used industry-scale video game engines: Unity and Unreal Engine. Specifically, our work uses three scenarios representing relevant aspects of video games (Physics, Statics Meshes, and Dynamic Meshes) to compare the energy consumption of the engines. The aim is to determine the influence of using each of the two engines on energy consumption. Our research has confirmed significant differences in the energy consumption of video game engines: 351% in Physics in favor of Unity, 17% in Statics Meshes in favor of Unity, and 26% in Dynamic Meshes in favor of Unreal Engine. These results represent an opportunity for worldwide potential savings of at least 51 TWh per year, equivalent to the annual consumption of nearly 13 million European households, that might encourage a new branch of research on energy-efficient video game engines.
翻訳日:2024-02-12 17:05:37 公開日:2024-02-09
# 一定の圧力下での黒体熱容量

Blackbody heat capacity at constant pressure ( http://arxiv.org/abs/2402.06343v1 )

ライセンス: Link先を確認
E. S. Moreira Jr(参考訳) 一見すると、この作品の題名は不適切と思われる。 その理由はよく知られている。 ブラックボディ圧力は温度のみに依存するため、熱力学的量の導出をその一方に対して受け取り、もう一方の圧力を一定に保つことはできない。 すなわち、一定の圧力での熱容量は $c_{p}$ であり、熱膨張係数は $\alpha$ であり、等温圧縮性は $\kappa_{t}$ である。 この研究は、ブラックボディキャビティの壁の完全な伝導性が考慮されるとき、$c_{p}$, $\alpha$ と $\kappa_{t}$ は実際にはよく定義されており、それらは予想したように通常の熱力学的関係によって関連していることを示している。 2つの測地線、すなわち球状シェルと立方体箱が考慮される。 C_{P}$, $\alpha$, $\kappa_{T}$ が空洞の幾何学に大きく依存していることが示される。 熱力学的安定性に関する問題は解決され、キャビティの形状にも依存することが明らかになった。 これらの知見は, 実験的検証に有効である可能性が示唆された。

At first glance, the title of this work seems to be improper. And the reason is well known. Since blackbody pressure depends only on temperature, one cannot take the derivative of the thermodynamic quantities with respect to one of them, keeping the other constant. That is, the heat capacity at constant pressure, $C_{P}$, as well as, the coefficient of thermal expansion, $\alpha$, and the isothermal compressibility, $\kappa_{T}$, are ill-defined quantities. This work will show that when the perfect conducting nature of the walls of a blackbody cavity is taken into account, $C_{P}$, $\alpha$ and $\kappa_{T}$ are in fact well defined, and they are related by the usual thermodynamic relations, as expected. Two geometries will be considered, namely, a spherical shell and a cubic box. It will be shown that $C_{P}$, $\alpha$ and $\kappa_{T}$ depend very much on the geometry of the cavity. Issues regarding thermodynamic stability will be addressed, revealing that they also depend on the cavity's geometry. It is argued that these findings may be amenable to experimental verification.
翻訳日:2024-02-12 17:05:18 公開日:2024-02-09
# 文脈認識ニューラルマシン翻訳における対象データの促進

Promoting Target Data in Context-aware Neural Machine Translation ( http://arxiv.org/abs/2402.06342v1 )

ライセンス: Link先を確認
Harritxu Gete and Thierry Etchegoyhen(参考訳) standard context-aware neural machine translation (nmt) は、典型的には並列文書レベルのデータに依存し、ソースとターゲットの両方のコンテキストを利用する。 特に結合に基づくアプローチは、文書レベルのNMT、プリペイドソース、および/または翻訳すべき文に対するターゲットコンテキスト文の強力なベースラインであり、各サイドで同じ量のソースとターゲットデータを利用するモデル変種が最先端の結果を達成する。 本研究では,文書レベルの現象の多くは,対象言語側に存在する情報に依存しているため,標準連結型アプローチで対象データがさらに促進されるべきかどうかを検討する。 対象とするコンテキストがソース言語に事前設定されている新しい結合ベースの変異を,分離的あるいはソースコンテキストと組み合わせて評価する。 英語とロシア語とバスクスペイン語の実験的結果は、ソースにターゲットコンテキストを含めることで、ターゲット言語現象に大きな改善をもたらすことを示している。 ソース依存現象では、ソース内のターゲット言語コンテキストのみを使用することで、最先端の結合アプローチ、あるいは少し下回るパフォーマンスを実現する一方で、ソース側のソースコンテキストとターゲットコンテキストの組み合わせは、ボード全体の大幅な向上につながる。

Standard context-aware neural machine translation (NMT) typically relies on parallel document-level data, exploiting both source and target contexts. Concatenation-based approaches in particular, still a strong baseline for document-level NMT, prepend source and/or target context sentences to the sentences to be translated, with model variants that exploit equal amounts of source and target data on each side achieving state-of-the-art results. In this work, we investigate whether target data should be further promoted within standard concatenation-based approaches, as most document-level phenomena rely on information that is present on the target language side. We evaluate novel concatenation-based variants where the target context is prepended to the source language, either in isolation or in combination with the source context. Experimental results in English-Russian and Basque-Spanish show that including target context in the source leads to large improvements on target language phenomena. On source-dependent phenomena, using only target language context in the source achieves parity with state-of-the-art concatenation approaches, or slightly underperforms, whereas combining source and target context on the source side leads to significant gains across the board.
翻訳日:2024-02-12 17:04:54 公開日:2024-02-09
# RareBench: LLMはレア病専門医になれるか?

RareBench: Can LLMs Serve as Rare Diseases Specialists? ( http://arxiv.org/abs/2402.06341v1 )

ライセンス: Link先を確認
Xuanzhong Chen, Xiaohao Mao, Qihan Guo, Lun Wang, Shuyang Zhang, Ting Chen(参考訳) GPT-4のような汎用大規模言語モデル (LLM) は、医学的診断を含む様々な領域で有望である。 世界中で約3億人の患者に影響を及ぼすまれな疾患は、主に経験豊富な医師の欠如と多くのまれな疾患の分化の複雑さのために、臨床診断が不十分であることが多い。 この文脈では、「ChatGPTは17人の医師が失敗した後、4歳のまれな疾患を正しく診断した」などの最近のニュースは、LSMsが臨床的に稀な疾患を診断する役割を過小評価している。 この研究ギャップを埋めるために,レアな病気の領域内の4つの重要な次元でLSMの能力を体系的に評価する先駆的なベンチマークであるRareBenchを紹介した。 一方,我々はまれな疾患患者のオープンソースデータセットを収集し,この領域における今後の研究のベンチマークを確立した。 稀な疾患の鑑別診断を容易にするため,複数の知識ベースから合成された包括的稀な疾患知識グラフを活用し,LSMの診断性能を著しく向上する動的数発プロンプト手法を開発した。 また, GPT-4の診断能力について, 専門医と比較検討した。 llmを稀な疾患の診断プロセスに統合する可能性について検討した。 これはこの分野の今後の進歩におけるエキサイティングな可能性への道を開く。

Generalist Large Language Models (LLMs), such as GPT-4, have shown considerable promise in various domains, including medical diagnosis. Rare diseases, affecting approximately 300 million people worldwide, often have unsatisfactory clinical diagnosis rates primarily due to a lack of experienced physicians and the complexity of differentiating among many rare diseases. In this context, recent news such as "ChatGPT correctly diagnosed a 4-year-old's rare disease after 17 doctors failed" underscore LLMs' potential, yet underexplored, role in clinically diagnosing rare diseases. To bridge this research gap, we introduce RareBench, a pioneering benchmark designed to systematically evaluate the capabilities of LLMs on 4 critical dimensions within the realm of rare diseases. Meanwhile, we have compiled the largest open-source dataset on rare disease patients, establishing a benchmark for future studies in this domain. To facilitate differential diagnosis of rare diseases, we develop a dynamic few-shot prompt methodology, leveraging a comprehensive rare disease knowledge graph synthesized from multiple knowledge bases, significantly enhancing LLMs' diagnostic performance. Moreover, we present an exhaustive comparative study of GPT-4's diagnostic capabilities against those of specialist physicians. Our experimental findings underscore the promising potential of integrating LLMs into the clinical diagnostic process for rare diseases. This paves the way for exciting possibilities in future advancements in this field.
翻訳日:2024-02-12 17:04:31 公開日:2024-02-09
# 光子数分解量子貯留層計算

Photon Number-Resolving Quantum Reservoir Computing ( http://arxiv.org/abs/2402.06339v1 )

ライセンス: Link先を確認
Sam Nerenberg, Oliver Neill, Giulia Marcucci and Daniele Faccio(参考訳) ニューロモルフィックプロセッサは、物理人工ニューロンの実装を通じて機械学習アルゴリズムの効率を改善し、計算を行う。 しかしながら、効率的な古典的ニューロモルフィックプロセッサは様々な形で実証されてきたが、実用的な量子ニューロモルフィックプラットフォームはまだ開発の初期段階にある。 本稿では、光子数分解による出力状態の検出を可能にするフォトニック量子貯水池計算のための固定光ネットワークを提案する。 これは、高次元ヒルベルト空間にアクセスしながら入力量子状態に必要な複雑さを著しく減少させる。 このアプローチは、現在利用可能なテクノロジで実装可能であり、量子機械学習への参入障壁を低くする。

Neuromorphic processors improve the efficiency of machine learning algorithms through the implementation of physical artificial neurons to perform computations. However, whilst efficient classical neuromorphic processors have been demonstrated in various forms, practical quantum neuromorphic platforms are still in the early stages of development. Here we propose a fixed optical network for photonic quantum reservoir computing that is enabled by photon number-resolved detection of the output states. This significantly reduces the required complexity of the input quantum states while still accessing a high-dimensional Hilbert space. The approach is implementable with currently available technology and lowers the barrier to entry to quantum machine learning.
翻訳日:2024-02-12 17:04:07 公開日:2024-02-09
# ExaRanker-Open:オープンソースLCMを用いたIRの合成説明

ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs ( http://arxiv.org/abs/2402.06334v1 )

ライセンス: Link先を確認
Fernando Ferraretto, Thiago Laitz, Roberto Lotufo, Rodrigo Nogueira(参考訳) ExaRankerは先頃、自然言語の説明をラベルとして組み込んだ、情報検索(IR)モデルのトレーニングアプローチを導入した。 この手法はラベル付き限られた例の課題に対処し、IRモデルの有効性を改善した。 しかし、最初の結果はgpt-3.5のようなプロプライエタリな言語モデルに基づいており、コストとデータのプライバシのためにデータセットのサイズに制約が生じた。 本稿では,ExaRanker-Openを紹介し,オープンソース言語モデルを用いて説明を生成する手法を提案する。 この方法は、データ拡張の効果的な寄与をよりよく理解するために、異なるLLMとデータセットサイズを用いてテストされている。 以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。 exaranker が対象とするベースラインを 0.6 ndcg@10 ポイント上回ったことが証明したように,データ拡張手法は大規模データセットにおいても有利である。 研究コミュニティによるさらなる進歩を促進するため、コードとデータセットをhttps://github.com/unicamp-dl/ExaRanker.comでオープンソース化しました。

ExaRanker recently introduced an approach to training information retrieval (IR) models, incorporating natural language explanations as additional labels. The method addresses the challenge of limited labeled examples, leading to improvements in the effectiveness of IR models. However, the initial results were based on proprietary language models such as GPT-3.5, which posed constraints on dataset size due to its cost and data privacy. In this paper, we introduce ExaRanker-Open, where we adapt and explore the use of open-source language models to generate explanations. The method has been tested using different LLMs and datasets sizes to better comprehend the effective contribution of data augmentation. Our findings reveal that incorporating explanations consistently enhances neural rankers, with benefits escalating as the LLM size increases. Notably, the data augmentation method proves advantageous even with large datasets, as evidenced by ExaRanker surpassing the target baseline by 0.6 nDCG@10 points in our study. To encourage further advancements by the research community, we have open-sourced both the code and datasets at https://github.com/unicamp-dl/ExaRanker.
翻訳日:2024-02-12 17:03:51 公開日:2024-02-09
# 真空力と閉じ込め

Vacuum Force and Confinement ( http://arxiv.org/abs/2402.06404v1 )

ライセンス: Link先を確認
Alexander D. Popov(参考訳) クォークとグルーオンの閉じ込めは、通常の可換関係によって暗黙的に導入され真空力を生成する真空アーベルゲージ場 $a_{\sf{vac}}$ との相互作用によって説明できる。 The background gauge field $A_{\sf{vac}}$, linear in coordinates of $\mathbb{R}^3$, is inherently present in quantum mechanics: it is introduced during the canonical quantization of phase space $(T^*\mathbb{R}^3, \omega )$ of a nonrelativistic particle, when a potential $\theta$ of the symplectic 2-form $\omega =\mathrm{d}\theta$ on $T^*\mathbb{R}^3$ is mapped into a connection $A_{\sf{vac}}=-\mathrm{i}\theta$ on a complex line bundle $L_{\sf{v}}$ over $T^*\mathbb{R}^3$ with gauge group U(1)$_{\sf{v}}$ and curvature $F_{\sf{vac}}=\mathrm{d} A_{\sf{vac}}=-\mathrm{i}\omega$. この対応を相対論的位相空間 $T^*\mathbb{R}^{3,1}$ に一般化すると、ディラック方程式を $\mathbb{R}^{3,1}$ から $T^*\mathbb{R}^{3,1}$ に拡張し、フェルミオンが $x\in\mathbb{R}^{3,1}$ にのみ依存する条件を維持する。 一般化ディラック方程式はフェルミオンと{a_{\sf{vac}}$との相互作用を含み、空間に局所化された粒子状解を持つ。 したがって、波動粒子双対性は真空場 $a_{\sf{vac}}$ との相互作用をオンまたはオフすることで説明できる。 したがって、クォークとグルーオンの閉じ込めは、$A_{\sf{vac}}$との相互作用が常にオンであるため、ハドロンの形で境界状態にしか存在しないという事実によって説明できる。

We show that confinement of quarks and gluons can be explained by their interaction with the vacuum Abelian gauge field $A_{\sf{vac}}$, which is implicitly introduced by the canonical commutation relations and generates the vacuum force. The background gauge field $A_{\sf{vac}}$, linear in coordinates of $\mathbb{R}^3$, is inherently present in quantum mechanics: it is introduced during the canonical quantization of phase space $(T^*\mathbb{R}^3, \omega )$ of a nonrelativistic particle, when a potential $\theta$ of the symplectic 2-form $\omega =\mathrm{d}\theta$ on $T^*\mathbb{R}^3$ is mapped into a connection $A_{\sf{vac}}=-\mathrm{i}\theta$ on a complex line bundle $L_{\sf{v}}$ over $T^*\mathbb{R}^3$ with gauge group U(1)$_{\sf{v}}$ and curvature $F_{\sf{vac}}=\mathrm{d} A_{\sf{vac}}=-\mathrm{i}\omega$. Generalizing this correspondence to the relativistic phase space $T^*\mathbb{R}^{3,1}$, we extend the Dirac equation from $\mathbb{R}^{3,1}$ to $T^*\mathbb{R}^{3,1}$ while maintaining the condition that fermions depend only on $x\in\mathbb{R}^{3,1}$. The generalized Dirac equation contains the interaction of fermions with $A_{\sf{vac}}$ and has particle-like solutions localized in space. Thus, the wave-particle duality can be explained by turning on or off the interaction with the vacuum field $A_{\sf{vac}}$. Accordingly, confinement of quarks and gluons can be explained by the fact that their interaction with $A_{\sf{vac}}$ is always on and therefore they can only exist in bound states in the form of hadrons.
翻訳日:2024-02-12 16:54:24 公開日:2024-02-09
# 階層型トランスフォーマーは効果的なメタ強化学習者である

Hierarchical Transformers are Efficient Meta-Reinforcement Learners ( http://arxiv.org/abs/2402.06402v1 )

ライセンス: Link先を確認
Gresa Shala, Andr\'e Biedenkapp, Josif Grabocka(参考訳) 本稿では,メタ強化学習のための階層型トランスフォーマー(HTrMRL)を紹介する。 HTrMRLは、強化学習エージェントがこれまで見つからなかったタスクで効果的に実行できるようにするという課題に対処することを目的としている。 過去のエピソードが豊富な情報源としてどのように機能するかを実証し、我々のモデルは効果的に蒸留し、新しい文脈に適用する。 学習したアルゴリズムは,これまでの最先端を上回ることができ,一般化能力を大幅に向上しながら,より効率的なメタトレーニングを提供する。 meta-worldベンチマークの様々なシミュレーションタスクで得られた実験結果は、様々なタスクの最先端と比較して、学習効率と適応性が著しく向上していることを示している。 我々のアプローチは、限られたデータからエージェントを一般化する能力を高めるだけでなく、より堅牢で汎用的なAIシステムへの道を開く。

We introduce Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL), a powerful online meta-reinforcement learning approach. HTrMRL aims to address the challenge of enabling reinforcement learning agents to perform effectively in previously unseen tasks. We demonstrate how past episodes serve as a rich source of information, which our model effectively distills and applies to new contexts. Our learned algorithm is capable of outperforming the previous state-of-the-art and provides more efficient meta-training while significantly improving generalization capabilities. Experimental results, obtained across various simulated tasks of the Meta-World Benchmark, indicate a significant improvement in learning efficiency and adaptability compared to the state-of-the-art on a variety of tasks. Our approach not only enhances the agent's ability to generalize from limited data but also paves the way for more robust and versatile AI systems.
翻訳日:2024-02-12 16:53:33 公開日:2024-02-09
# 量子ゼノ効果のハーネス化:イオントラッピングの新しいアプローチ

Harnessing the Quantum Zeno Effect: A New Approach to Ion Trapping ( http://arxiv.org/abs/2402.06398v1 )

ライセンス: Link先を確認
Varqa Abyaneh(参考訳) 従来のイオン閉じ込め技術は、正確に安定した閉じ込めを達成するために外界に依存している。 本研究では, 量子ゼノ効果を利用した新しいイオン閉じ込め法を提案する。 導体板上の力の連続的な測定を通じて,外部力を直接利用せずにイオン閉じ込めを維持する新しい方法を提案する。 本手法は,従来のイオントラッピング法に係わる加熱,制御,スケーラビリティの課題に対処する可能性がある。 その結果、各領域に閉じ込められた2つのイオンの基底状態解が示され、各閉じ込め体制に必要な測定回数が詳述された。 これらの結果は、各シナリオに関連する電力要求に対する保守的な境界を強調し、手法のエネルギー効率に関する洞察を提供する。 この方法は有望であるが、量子コンピューティングから原子時計まで潜在的な応用には実験的な検証が必要である。 提案手法は,今後の研究で検討される核融合など,より小さなイオン充填を必要とする課題に適合する可能性が示唆された。

Conventional ion confinement techniques predominantly rely on external fields to achieve precise and stable confinement. This study introduces a new approach to ion confinement by harnessing the quantum Zeno effect. Through the continual measurement of the force on conductor plates, we offer a novel means of maintaining ion confinement without the direct application of external forces. We argue that this method potentially addresses the challenges of heating, control, and scalability associated with traditional ion-trapping methods. The findings present ground-state solutions for two ions confined to various regions, detailing the frequency of measurements necessary for each confinement regime. These results highlight conservative bounds for the power requirements associated with each scenario, offering insights into the energy efficiency of the method. Although this method is promising, with potential applications ranging from quantum computing to atomic clocks, it requires experimental validation. We posit that the proposed method might be better suited to challenges requiring smaller ion confinements, such as fusion, which will be explored in an upcoming study.
翻訳日:2024-02-12 16:53:19 公開日:2024-02-09
# SATソルバを用いた自動硬さ低減

Finding hardness reductions automatically using SAT solvers ( http://arxiv.org/abs/2402.06397v1 )

ライセンス: Link先を確認
Helena Bergold, Manfred Scheucher, Felix Schr\"oder(参考訳) 本稿では, 完全構造に部分構造を完備化できるかという決定問題である完備化問題は, 多くの組合せ構造に対してNP完全であることを示す。 文献のほとんどを減らすためのガジェットは手作業で見つかるが、我々は完全に自動化された方法でガジェットを構築するアルゴリズムを提案する。 SATをベースとした我々のフレームワークを用いて,完成問題がNP完全である何千もの構造を分類することにより,禁止部分構造を持つ手話写像の完備化問題を初めて徹底的に研究する。 特にこのリストは、knuthによって平面点構成の公理化に向けて導入された内部三重系を含む。 最後に、なおかつ重要なことは、完備問題がNP完全である高次元に内三重系を一般化する無限の構造の族を与える。

In this article, we show that the completion problem, i.e. the decision problem whether a partial structure can be completed to a full structure, is NP-complete for many combinatorial structures. While the gadgets for most reductions in literature are found by hand, we present an algorithm to construct gadgets in a fully automated way. Using our framework which is based on SAT, we present the first thorough study of the completion problem on sign mappings with forbidden substructures by classifying thousands of structures for which the completion problem is NP-complete. Our list in particular includes interior triple systems, which were introduced by Knuth towards an axiomatization of planar point configurations. Last but not least, we give an infinite family of structures generalizing interior triple system to higher dimensions for which the completion problem is NP-complete.
翻訳日:2024-02-12 16:53:03 公開日:2024-02-09
# インプリシットディープフェイク:NeRFおよびガウススプラッティングを用いたインプリシットディープフェイク生成によるプラウシブルフェイススワッピング

ImplicitDeepfake: Plausible Face-Swapping through Implicit Deepfake Generation using NeRF and Gaussian Splatting ( http://arxiv.org/abs/2402.06390v1 )

ライセンス: Link先を確認
Georgii Stanishevskii, Jakub Steczkiewicz, Tomasz Szczepanik, S{\l}awomir Tadeja, Jacek Tabor, Przemys{\l}aw Spurek(参考訳) 多くのディープラーニング技術がコンピュータグラフィックスに大きな影響を与えている。 最も有望なブレークスルーとしては、最近のNeural Radiance Fields(NeRF)とGaussian Splatting(GS)がある。 NeRFは、既知のカメラ位置を持つ少数の画像を使用して、ニューラルネットワークの重みでオブジェクトの形状と色を符号化し、新しいビューを生成する。 対照的に、GSは、ガウス分布の集合にオブジェクトの特性を符号化することで、レンダリング品質を低下させることなく、高速なトレーニングと推論を提供する。 これらの2つの手法は空間コンピューティングや他の領域で多くのユースケースを見出した。 一方、ディープフェイクの手法の出現は、かなりの論争を引き起こした。 このようなテクニックは、本物の映像を忠実に再現する人工知能によって生成されたビデオの形を持つことができる。 生成モデルを使用することで、顔の特徴を修正でき、実際の人に驚くほど現実的な外観を示す、変化したアイデンティティや表情を生成できる。 こうした論争にもかかわらず、deepfakeは、望ましい品質のアバター作成とゲームのための次世代ソリューションを提供することができる。 そのために、これらの新興技術を組み合わせて、より妥当な結果を得る方法を示します。 私たちのImplicitDeepfake1は、古典的なディープフェイクアルゴリズムを使用して、すべてのトレーニングイメージを別々に修正し、修正された顔に対してNeRFとGSをトレーニングします。 このような比較的単純な戦略は、3Dディープフェイクベースのアバターを生み出すことができる。

Numerous emerging deep-learning techniques have had a substantial impact on computer graphics. Among the most promising breakthroughs are the recent rise of Neural Radiance Fields (NeRFs) and Gaussian Splatting (GS). NeRFs encode the object's shape and color in neural network weights using a handful of images with known camera positions to generate novel views. In contrast, GS provides accelerated training and inference without a decrease in rendering quality by encoding the object's characteristics in a collection of Gaussian distributions. These two techniques have found many use cases in spatial computing and other domains. On the other hand, the emergence of deepfake methods has sparked considerable controversy. Such techniques can have a form of artificial intelligence-generated videos that closely mimic authentic footage. Using generative models, they can modify facial features, enabling the creation of altered identities or facial expressions that exhibit a remarkably realistic appearance to a real person. Despite these controversies, deepfake can offer a next-generation solution for avatar creation and gaming when of desirable quality. To that end, we show how to combine all these emerging technologies to obtain a more plausible outcome. Our ImplicitDeepfake1 uses the classical deepfake algorithm to modify all training images separately and then train NeRF and GS on modified faces. Such relatively simple strategies can produce plausible 3D deepfake-based avatars.
翻訳日:2024-02-12 16:52:51 公開日:2024-02-09
# 確率勾配Descence (SGD) の収束速度とマルチアームバンドに対する修正ポリシー勾配への応用について

On the Convergence Rate of the Stochastic Gradient Descent (SGD) and application to a modified policy gradient for the Multi Armed Bandit ( http://arxiv.org/abs/2402.06388v1 )

ライセンス: Link先を確認
Stefana Anita and Gabriel Turinici(参考訳) 本稿では,確率的勾配降下(sgd)の収束率について,逆時間減衰スケジュールに従う場合の自己完結的な証明を示す。

We present a self-contained proof of the convergence rate of the Stochastic Gradient Descent (SGD) when the learning rate follows an inverse time decays schedule; we next apply the results to the convergence of a modified form of policy gradient Multi-Armed Bandit (MAB) with $L2$ regularization.
翻訳日:2024-02-12 16:52:25 公開日:2024-02-09
# 改良決定木のためのブースティングに基づく逐次メタツリーアンサンブル構築

Boosting-Based Sequential Meta-Tree Ensemble Construction for Improved Decision Trees ( http://arxiv.org/abs/2402.06386v1 )

ライセンス: Link先を確認
Ryota Maniwa, Naoki Ichijo, Yuta Nakahara, and Toshiyasu Matsushima(参考訳) 意思決定木は、機械学習分野で最も人気のあるアプローチの1つです。 しかし、過度に深い木によって引き起こされる過密の問題に苦しむ。 そして、最近メタツリーが提案されている。 過度に深化した木が原因で過度に収まるという問題を解決する。 さらにメタツリーはベイズ決定理論に基づく統計的最適性を保証する。 したがって、メタツリーは決定木よりも優れたパフォーマンスを期待できる。 一つの決定木とは対照的に、通常ブーピングアルゴリズムで構築される決定木のアンサンブルは、予測性能を改善する上でより効果的であることが知られている。 したがって、単一のメタツリーよりも予測性能を改善するためにメタツリーのアンサンブルがより効果的であることが期待され、ブースティングにおいて複数のメタツリーを構築する以前の研究は存在しない。 そこで本研究では,ブースティング手法を用いて複数のメタツリーを構築する手法を提案する。 合成およびベンチマークデータセットを用いた実験により,提案手法と従来の決定木のアンサンブルを用いた手法との性能比較を行った。 さらに, 決定木のアンサンブルは, オーバーフィッティングや単一決定木の原因となる可能性があるが, メタツリーのアンサンブルは, 木深さによるオーバーフィッティングを防止できることを確認した。

A decision tree is one of the most popular approaches in machine learning fields. However, it suffers from the problem of overfitting caused by overly deepened trees. Then, a meta-tree is recently proposed. It solves the problem of overfitting caused by overly deepened trees. Moreover, the meta-tree guarantees statistical optimality based on Bayes decision theory. Therefore, the meta-tree is expected to perform better than the decision tree. In contrast to a single decision tree, it is known that ensembles of decision trees, which are typically constructed boosting algorithms, are more effective in improving predictive performance. Thus, it is expected that ensembles of meta-trees are more effective in improving predictive performance than a single meta-tree, and there are no previous studies that construct multiple meta-trees in boosting. Therefore, in this study, we propose a method to construct multiple meta-trees using a boosting approach. Through experiments with synthetic and benchmark datasets, we conduct a performance comparison between the proposed methods and the conventional methods using ensembles of decision trees. Furthermore, while ensembles of decision trees can cause overfitting as well as a single decision tree, experiments confirmed that ensembles of meta-trees can prevent overfitting due to the tree depth.
翻訳日:2024-02-12 16:52:14 公開日:2024-02-09
# Maia:人間-AIインタラクションのためのリアルタイム非言語チャット

Maia: A Real-time Non-Verbal Chat for Human-AI Interaction ( http://arxiv.org/abs/2402.06385v1 )

ライセンス: Link先を確認
Dragos Costea, Alina Marcu, Cristina Lazar, Marius Leordeanu(参考訳) コンピュータビジョンにおける対面コミュニケーションモデリングは、対面インタラクション中の非言語的手がかりや行動を認識し解析するアルゴリズムの開発に焦点を当てた研究分野である。 本稿では,非言語的な視覚コミュニケーションのみに基づいて,表情や頭部の動きを鏡に映し出すだけでなく,ユーザを即興的に操作することで,ユーザと効率的に対話し,安価かつリアルタイムな方法で注目を集める,人間とaiの対話のためのテキストチャットの代替案を提案する。 私たちの目標は、表情などの非言語的手がかりをリアルタイムで追跡、分析し、この情報を使って人間の行動を予測するモデルを構築することです。 検索,統計,深層学習技術に基づく3つの補完的アプローチを提案する。 我々は、人間と自動評価を提供し、それぞれの方向の利点とデメリットについて議論する。

Face-to-face communication modeling in computer vision is an area of research focusing on developing algorithms that can recognize and analyze non-verbal cues and behaviors during face-to-face interactions. We propose an alternative to text chats for Human-AI interaction, based on non-verbal visual communication only, using facial expressions and head movements that mirror, but also improvise over the human user, to efficiently engage with the users, and capture their attention in a low-cost and real-time fashion. Our goal is to track and analyze facial expressions, and other non-verbal cues in real-time, and use this information to build models that can predict and understand human behavior. We offer three different complementary approaches, based on retrieval, statistical, and deep learning techniques. We provide human as well as automatic evaluations and discuss the advantages and disadvantages of each direction.
翻訳日:2024-02-12 16:51:56 公開日:2024-02-09
# ガウス(多孔質)木の最適推定

Optimal estimation of Gaussian (poly)trees ( http://arxiv.org/abs/2402.06380v1 )

ライセンス: Link先を確認
Yuhao Wang, Ming Gao, Wai Ming Tai, Bryon Aragam, Arnab Bhattacharyya(参考訳) 我々は,無向ガウス木を学習するための最適アルゴリズムを開発し,データからガウス多木を誘導する。 分布学習(KL距離)と構造学習(正確な回復)の両問題を考察する。 最初のアプローチはchow-liuアルゴリズムに基づいて、最適木構造分布を効率的に学習する。 第2のアプローチは、制約に基づく構造学習の条件付き独立性テスタとして部分相関を使用する多木に対するpcアルゴリズムの修正である。 両アプローチに対して明示的な有限サンプル保証を導出し、両アプローチが一致した下界を導出することによって最適であることを示す。 さらに,様々なアルゴリズムの性能を比較する数値実験を行い,さらなる洞察と実証的証拠を提供する。

We develop optimal algorithms for learning undirected Gaussian trees and directed Gaussian polytrees from data. We consider both problems of distribution learning (i.e. in KL distance) and structure learning (i.e. exact recovery). The first approach is based on the Chow-Liu algorithm, and learns an optimal tree-structured distribution efficiently. The second approach is a modification of the PC algorithm for polytrees that uses partial correlation as a conditional independence tester for constraint-based structure learning. We derive explicit finite-sample guarantees for both approaches, and show that both approaches are optimal by deriving matching lower bounds. Additionally, we conduct numerical experiments to compare the performance of various algorithms, providing further insights and empirical evidence.
翻訳日:2024-02-12 16:51:42 公開日:2024-02-09
# デジタルマンモグラムを用いた分節腫瘍に対する特権情報を用いた学習

Learning using privileged information for segmenting tumors on digital mammograms ( http://arxiv.org/abs/2402.06379v1 )

ライセンス: Link先を確認
Ioannis N. Tzortzis, Konstantinos Makantasis, Ioannis Rallis, Nikolaos Bakalos, Anastasios Doulamis, and Nikolaos Doulamis(参考訳) GDPR準拠によるデータとデータ共有の制限は、医療データを参照する場合の可用性とアクセシビリティの低下につながる2つの一般的な要因を構成する。 これらの課題に対処するために,主観的情報を用いた学習手法を紹介する。 そこで我々は,デジタルマンモグラムにおける腫瘍のセグメンテーション品質を向上させるための頑健なモデルの構築を試みた。 この方向に向かって、学生と呼ばれるベースラインモデルは、元のマンモグラムから抽出されたパッチに基づいて訓練され、教師と呼ばれる同じアーキテクチャを持つ補助モデルは、それに対応する強化パッチへのアクセスに基づいて訓練される。 今回は,教師モデルの助けを借りて,学生の訓練手順を繰り返す。 実験結果によると,提案手法はほとんどの場合において優れた性能を示し,ベースラインと比較して10%高いF1スコアが得られると考えられる。

Limited amount of data and data sharing restrictions, due to GDPR compliance, constitute two common factors leading to reduced availability and accessibility when referring to medical data. To tackle these issues, we introduce the technique of Learning Using Privileged Information. Aiming to substantiate the idea, we attempt to build a robust model that improves the segmentation quality of tumors on digital mammograms, by gaining privileged information knowledge during the training procedure. Towards this direction, a baseline model, called student, is trained on patches extracted from the original mammograms, while an auxiliary model with the same architecture, called teacher, is trained on the corresponding enhanced patches accessing, in this way, privileged information. We repeat the student training procedure by providing the assistance of the teacher model this time. According to the experimental results, it seems that the proposed methodology performs better in the most of the cases and it can achieve 10% higher F1 score in comparison with the baseline.
翻訳日:2024-02-12 16:51:30 公開日:2024-02-09
# 内視鏡的露出補正のためのFD-Vision Mamba

FD-Vision Mamba for Endoscopic Exposure Correction ( http://arxiv.org/abs/2402.06378v1 )

ライセンス: Link先を確認
Zhuoran Zheng and Jun Zhang(参考訳) 内視鏡的画像撮影では, 画像が露出異常を生じやすいため, 医療従事者が意思決定を行うのを助けるためには, 高品質な画像の維持が重要である。 この問題を解決するために、我々はFDVM-Netと呼ばれる周波数領域ベースのネットワークを設計し、内視鏡画像の周波数領域を再構成することで高品質な画像露出補正を実現する。 具体的には、ステートスペースシーケンスモデル(SSM)にヒントを得て、畳み込み層の局所的特徴抽出能力とSSMによる長距離依存関係のキャプチャ機能を統合するC-SSMブロックを開発する。 基本機能セルとしてC-SSMを用いて2経路ネットワークを構築し、これら2経路はそれぞれ画像の位相情報と振幅情報を扱う。 最後に、FDVM-Netにより劣化した内視鏡像を再構成し、高品質なクリア画像を得る。 広範にわたる実験結果から,本手法は速度と精度で最先端の結果を達成し,任意の解像度の内視鏡像を拡張できることが示唆された。 コードのURLは \url{https://github.com/zzr-idam/FDVM-Net} である。

In endoscopic imaging, the recorded images are prone to exposure abnormalities, so maintaining high-quality images is important to assist healthcare professionals in performing decision-making. To overcome this issue, We design a frequency-domain based network, called FD-Vision Mamba (FDVM-Net), which achieves high-quality image exposure correction by reconstructing the frequency domain of endoscopic images. Specifically, inspired by the State Space Sequence Models (SSMs), we develop a C-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. A two-path network is built using C-SSM as the basic function cell, and these two paths deal with the phase and amplitude information of the image, respectively. Finally, a degraded endoscopic image is reconstructed by FDVM-Net to obtain a high-quality clear image. Extensive experimental results demonstrate that our method achieves state-of-the-art results in terms of speed and accuracy, and it is noteworthy that our method can enhance endoscopic images of arbitrary resolution. The URL of the code is \url{https://github.com/zzr-idam/FDVM-Net}.
翻訳日:2024-02-12 16:51:13 公開日:2024-02-09
# 強化学習と粒子フィルタによる高精度ジオステアリング

High-Precision Geosteering via Reinforcement Learning and Particle Filters ( http://arxiv.org/abs/2402.06377v1 )

ライセンス: Link先を確認
Ressi Bonti Muhammad, Apoorv Srivastava, Sergey Alyaev, Reidar Brumer Bratvold, Daniel M. Tartakovsky(参考訳) 掘削作業の重要なコンポーネントであるジオステアリングは、伝統的に、ログデータなどの様々なデータソースを手動で解釈する。 これは主観的偏見と矛盾した手続きをもたらす。 ADP(Approximate Dynamic Programming)は将来性を示したが、現実的な多様なシナリオへの適応性に欠けていた。 強化学習(RL)は、報酬に基づく反復学習を通じて最適な意思決定を促進することで、これらの課題に対する解決策を提供する。 状態推定法、例えば粒子フィルタ(pf)は、オンライン情報に基づくジオステアリング意思決定のための補完的戦略を提供する。 我々は現実的なジオステアリングシナリオに対処するために,RLベースのジオステアリングをPFと統合する。 我々のフレームワークは,PFを用いてリアルタイムなウェルログデータを処理し,階層層に対するウェルの位置を推定し,RLに基づく意思決定プロセスに通知する。 提案手法の性能を,RLまたはPFのみを用いる方法と比較する。 以上の結果から, RLとPFの相乗効果が得られた。

Geosteering, a key component of drilling operations, traditionally involves manual interpretation of various data sources such as well-log data. This introduces subjective biases and inconsistent procedures. Academic attempts to solve geosteering decision optimization with greedy optimization and Approximate Dynamic Programming (ADP) showed promise but lacked adaptivity to realistic diverse scenarios. Reinforcement learning (RL) offers a solution to these challenges, facilitating optimal decision-making through reward-based iterative learning. State estimation methods, e.g., particle filter (PF), provide a complementary strategy for geosteering decision-making based on online information. We integrate an RL-based geosteering with PF to address realistic geosteering scenarios. Our framework deploys PF to process real-time well-log data to estimate the location of the well relative to the stratigraphic layers, which then informs the RL-based decision-making process. We compare our method's performance with that of using solely either RL or PF. Our findings indicate a synergy between RL and PF in yielding optimized geosteering decisions.
翻訳日:2024-02-12 16:50:53 公開日:2024-02-09
# Jaynes-Cummingsモデルにおける非ハーモニティに対するロバスト位相的特徴

Robust topological feature against non-Hermiticity in Jaynes-Cummings Model ( http://arxiv.org/abs/2402.06370v1 )

ライセンス: Link先を確認
Zu-Jian Ying(参考訳) Jaynes-Cummings Model (JCM) は、光-物質相互作用、量子情報、量子計算のための基本モデルおよび構築ブロックである。 我々は, 散逸と崩壊速度によって効果的に引き起こされる可能性のある非ハーモニティーの存在下で, JCMが示すトポロジカルな特徴を解析的に分析した。 実際、JCMの固有状態は2次元平面におけるスピン巻線によって位相的に特徴づけられる。 非ハーモニティ性はスピン巻面を傾け、位相的特徴を維持しながら外面成分を誘導する。 特に,不変なスピンテクスチャノードの他に,ギャップクローズにおける分数位相ゲインによる傾斜角とスピン巻き方向の逆遷移,ギャップクローズを伴わない部分的レベル非依存逆遷移,および、スティルテッドアングルとギャップクローズのない完全にレベル非依存な超不変点を見いだす。 その結果, 位相的特徴は非ヘルミティシティに対して頑健であり, 実用上有利であることが示された。 一方、スピン巻線方向を逆転させるために不利な散逸と崩壊率を利用する場合もあり、これは光-物質相互作用における量子系のトポロジカルな操作の制御方法を与える可能性がある。

The Jaynes-Cummings Model (JCM) is a fundamental model and building block for light-matter interactions, quantum information and quantum computation. We analytically analyze the topological feature manifested by the JCM in the presence of non-Hermiticity which may be effectively induced by dissipation and decay rates. Indeed, the eigenstates of the JCM are topologically characterized by spin windings in two-dimensional plane. The non-Hermiticity tilts the spin winding plane and induces out-of-plane component, while the topological feature is maintained. In particular, besides the invariant spin texture nodes, we find a non-Hermiticity-induced reversal transition of the tilting angle and spin winding direction with a fractional phase gain at gap closing, a partially level-independent reversal transition without gap closing, and a completely level-independent super invariant point with untilted angle and also without gap closing. Our result demonstrates that the topological feature is robust against non-Hermiticity, which would be favorable in practical applications. On the other hand, one may conversely make use of the disadvantageous dissipation and decay rates to reverse the spin winding direction, which might add a control way for topological manipulation of quantum systems in light-matter interactions.
翻訳日:2024-02-12 16:50:35 公開日:2024-02-09
# tee4ehr:電子健康記録における表現学習を改善するトランスフォーマーイベントエンコーダ

TEE4EHR: Transformer Event Encoder for Better Representation Learning in Electronic Health Records ( http://arxiv.org/abs/2402.06367v1 )

ライセンス: Link先を確認
Hojjat Karami, David Atienza, Anisoara Ionescu(参考訳) 電子健康記録(EHR)における時系列の不正サンプリングは、機械学習モデルを開発する上での大きな課題の1つである。 加えて、特定の臨床変数におけるデータ欠落のパターンはランダムではなく、臨床医の判断と患者の状態に依存する。 point processは不規則なサンプリングパターンと一致するイベントシーケンスデータを解析するための数学的フレームワークである。 我々のモデルであるTEE4EHRは、EHRにおける実験室試験のパターンを符号化する点過程損失を持つ変圧器イベントエンコーダ(TEE)である。 我々のTEEの有用性は、様々なベンチマークイベントシーケンスデータセットで調査されている。 さらに、2つの実世界のEHRデータベース上で実験を行い、より包括的なモデル評価を提供する。 まず、自己教師付き学習アプローチでは、TEEは既存の注目ベースのディープニューラルネットワークと共同で学習され、ネガティブなログや将来のイベント予測において優れたパフォーマンスを提供する。 また,イベント間の相互作用を明らかにするために注意重みを集約するアルゴリズムを提案する。 第2に、学習したTEEを下流タスクに転送して結果予測を行い、不規則にサンプリングされた時系列を扱う最先端モデルより優れる。 さらに,本研究は, EHRにおける表現学習を向上し, 臨床予測作業に有用であることを示す。

Irregular sampling of time series in electronic health records (EHRs) is one of the main challenges for developing machine learning models. Additionally, the pattern of missing data in certain clinical variables is not at random but depends on the decisions of clinicians and the state of the patient. Point process is a mathematical framework for analyzing event sequence data that is consistent with irregular sampling patterns. Our model, TEE4EHR, is a transformer event encoder (TEE) with point process loss that encodes the pattern of laboratory tests in EHRs. The utility of our TEE has been investigated in a variety of benchmark event sequence datasets. Additionally, we conduct experiments on two real-world EHR databases to provide a more comprehensive evaluation of our model. Firstly, in a self-supervised learning approach, the TEE is jointly learned with an existing attention-based deep neural network which gives superior performance in negative log-likelihood and future event prediction. Besides, we propose an algorithm for aggregating attention weights that can reveal the interaction between the events. Secondly, we transfer and freeze the learned TEE to the downstream task for the outcome prediction, where it outperforms state-of-the-art models for handling irregularly sampled time series. Furthermore, our results demonstrate that our approach can improve representation learning in EHRs and can be useful for clinical prediction tasks.
翻訳日:2024-02-12 16:50:06 公開日:2024-02-09
# controluda:クロスウェザーセマンティクスセグメンテーションのための制御可能な拡散支援非教師なしドメイン適応

ControlUDA: Controllable Diffusion-assisted Unsupervised Domain Adaptation for Cross-Weather Semantic Segmentation ( http://arxiv.org/abs/2402.06446v1 )

ライセンス: Link先を確認
Fengyi Shen, Li Zhou, Kagan Kucukaytekin, Ziyuan Liu, He Wang, Alois Knoll(参考訳) データ生成は、悪天候における意味的セグメンテーションに関連する非教師なし領域適応(UDA)の強力な戦略として認識されている。 しかしながら、これらの悪天候シナリオには、複数の可能性が含まれており、制御可能な気象を伴う高忠実なデータ合成は、以前のUDA研究であまり研究されていない。 大規模テキストから画像への拡散モデル(dm)の最近の進歩は、新しい研究の道筋を辿り、意味ラベルに基づく現実的な画像の生成を可能にした。 この機能は、共有ラベル空間のため、ソースからターゲットドメインへのクロスドメインデータ合成に役立つ。 これにより、ソースドメインラベルと生成した擬似ターゲットデータとをペアリングしてUDAをトレーニングすることができる。 しかし、UDAの観点からは、DMトレーニングにはいくつかの課題がある。 (i)対象領域からの地中ラベルが欠落している。 二 プロンプト発生装置は、悪天候からの画像の曖昧又は騒々しい説明をすることができる。 (iii)セマンティクスラベルのみを条件とする場合、都市景観の複雑な景観構造や幾何学をうまく扱うのに苦労する場合が多い。 以上の課題に対処するため,悪天候下でのUDAセグメンテーションに適した拡散支援フレームワークであるControlUDAを提案する。 UDAControlNetは、悪天候下での高忠実なデータ生成をターゲットとした、条件付きマルチスケールで高速に拡張されたネットワークである。 UDAを生成されたデータでトレーニングすることで、悪天候に対するCityscapes-to-ACDCベンチマークにおいて、モデルのパフォーマンスが新たなマイルストーン(72.0 mIoU)に到達します。 さらに、制御UDAは、見えないデータに対して優れたモデル一般化性を達成するのに役立ちます。

Data generation is recognized as a potent strategy for unsupervised domain adaptation (UDA) pertaining semantic segmentation in adverse weathers. Nevertheless, these adverse weather scenarios encompass multiple possibilities, and high-fidelity data synthesis with controllable weather is under-researched in previous UDA works. The recent strides in large-scale text-to-image diffusion models (DM) have ushered in a novel avenue for research, enabling the generation of realistic images conditioned on semantic labels. This capability proves instrumental for cross-domain data synthesis from source to target domain owing to their shared label space. Thus, source domain labels can be paired with those generated pseudo target data for training UDA. However, from the UDA perspective, there exists several challenges for DM training: (i) ground-truth labels from target domain are missing; (ii) the prompt generator may produce vague or noisy descriptions of images from adverse weathers; (iii) existing arts often struggle to well handle the complex scene structure and geometry of urban scenes when conditioned only on semantic labels. To tackle the above issues, we propose ControlUDA, a diffusion-assisted framework tailored for UDA segmentation under adverse weather conditions. It first leverages target prior from a pre-trained segmentor for tuning the DM, compensating the missing target domain labels; It also contains UDAControlNet, a condition-fused multi-scale and prompt-enhanced network targeted at high-fidelity data generation in adverse weathers. Training UDA with our generated data brings the model performances to a new milestone (72.0 mIoU) on the popular Cityscapes-to-ACDC benchmark for adverse weathers. Furthermore, ControlUDA helps to achieve good model generalizability on unseen data.
翻訳日:2024-02-12 16:41:47 公開日:2024-02-09
# 深層平衡アルゴリズム推論器

The Deep Equilibrium Algorithmic Reasoner ( http://arxiv.org/abs/2402.06445v1 )

ライセンス: Link先を確認
Dobrik Georgiev, Pietro Li\`o, Davide Buffelli(参考訳) ニューラルネットワーク推論に関する最近の研究は、グラフニューラルネットワーク(GNN)が古典的なアルゴリズムの実行を学習できることを実証している。 しかし、常に繰り返しアーキテクチャを使用しており、GNNの各イテレーションはアルゴリズムのイテレーションと一致している。 アルゴリズムの解はしばしば平衡であるので、平衡を直接見つけてアルゴリズムの問題を解決するためにネットワークを訓練できることを予想し、実証的に検証する。 これは各GNNイテレーションとアルゴリズムのステップを一致させる必要はない。

Recent work on neural algorithmic reasoning has demonstrated that graph neural networks (GNNs) could learn to execute classical algorithms. Doing so, however, has always used a recurrent architecture, where each iteration of the GNN aligns with an algorithm's iteration. Since an algorithm's solution is often an equilibrium, we conjecture and empirically validate that one can train a network to solve algorithmic problems by directly finding the equilibrium. Note that this does not require matching each GNN iteration with a step of the algorithm.
翻訳日:2024-02-12 16:41:19 公開日:2024-02-09
# Evidence Summarizationによる精度予測の解説:マルチタスクモデルアプローチ

Explaining Veracity Predictions with Evidence Summarization: A Multi-Task Model Approach ( http://arxiv.org/abs/2402.06443v1 )

ライセンス: Link先を確認
Recep Firat Cekinel and Pinar Karagoz(参考訳) ソーシャルメディアによる誤報の急速な普及は、自動事実確認の重要性を高めた。 さらに,近年では,ディープニューラルモデルが予測にどのような注意を払っているかが注目されている。 この分野では大きな進歩を遂げているが、人間の推論に匹敵するレベルの推論には達していない。 これらのギャップに対処するために,誤情報検出のためのマルチタスク説明可能なニューラルモデルを提案する。 具体的には,テキスト要約問題として,モデルの妥当性予測の説明生成過程を定式化する。 また,提案モデルの性能を公開データセット上で議論し,関連する研究により評価した。

The rapid dissemination of misinformation through social media increased the importance of automated fact-checking. Furthermore, studies on what deep neural models pay attention to when making predictions have increased in recent years. While significant progress has been made in this field, it has not yet reached a level of reasoning comparable to human reasoning. To address these gaps, we propose a multi-task explainable neural model for misinformation detection. Specifically, this work formulates an explanation generation process of the model's veracity prediction as a text summarization problem. Additionally, the performance of the proposed model is discussed on publicly available datasets and the findings are evaluated with related studies.
翻訳日:2024-02-12 16:41:11 公開日:2024-02-09
# 時系列予測のためのニューラルネットワークにおけるテイラー級数と再帰構造の導入

Incorporating Taylor Series and Recursive Structure in Neural Networks for Time Series Prediction ( http://arxiv.org/abs/2402.06441v1 )

ライセンス: Link先を確認
Jarrod Mau and Kevin Moon(参考訳) 時系列分析は物理学、生物学、化学、金融など様々な分野に関係している。 本稿では,resnet構造からの要素を統合した新しいニューラルネットワークアーキテクチャを提案するとともに,taylorシリーズフレームワークの革新的導入について述べる。 このアプローチは、多くのベースラインデータセットを対象としたテスト精度の顕著な向上を示す。 さらに,本手法を拡張して再帰的なステップを導入することで,テスト精度をさらに向上させる。 提案手法は時系列解析手法を大幅に進歩させる可能性を示し,今後の研究や応用に期待できる道筋を提供する。

Time series analysis is relevant in various disciplines such as physics, biology, chemistry, and finance. In this paper, we present a novel neural network architecture that integrates elements from ResNet structures, while introducing the innovative incorporation of the Taylor series framework. This approach demonstrates notable enhancements in test accuracy across many of the baseline datasets investigated. Furthermore, we extend our method to incorporate a recursive step, which leads to even further improvements in test accuracy. Our findings underscore the potential of our proposed model to significantly advance time series analysis methodologies, offering promising avenues for future research and application.
翻訳日:2024-02-12 16:41:04 公開日:2024-02-09
# 超波長原子配列の選択的放射

Selective Radiance in Super-Wavelength Atomic Arrays ( http://arxiv.org/abs/2402.06439v1 )

ライセンス: Link先を確認
Charlie-Ray Mann, Francesco Andreoli, Vladimir Protsenko, Zala Lenar\v{c}i\v{c}, Darrick Chang(参考訳) 効率的な原子-光界面を作る新しい方法は、破壊干渉によって望ましくないモードへの放出を抑えることで、ターゲットの光学モードに選択的に放射する集合原子状態を作成することである。 提案手法は, サブ波長格子定数を持つ高密度原子配列を必要とするが, 超波長間隔を持つ配列においても選択的放射性が得られることを示す。 複数の2次元アレイを積み重ねることで、望ましくないスペクトルモードに放出しながら不要な回折順序への放射を除去できる超波長ミラー構成を見つけ、弱い共鳴光のほぼ完全な反射をもたらす。 これらの超波長アレイは、1層あたり100原子程度しか持たない三層膜に対して ~1 の誤差確率を持つ効率的な量子メモリにも機能することができる。 サブ波長間隔の以前の制約を緩和することで、ツイーザーアレイの使用など、効率的な原子光インターフェースを実現するための技術的要件が緩和される可能性がある。

A novel way to create efficient atom-light interfaces is to engineer collective atomic states that selectively radiate into a target optical mode by suppressing emission into undesired modes through destructive interference. While it is generally assumed that this approach requires dense atomic arrays with sub-wavelength lattice constants, here we show that selective radiance can also be achieved in arrays with super-wavelength spacing. By stacking multiple two-dimensional arrays we find super-wavelength mirror configurations where one can eliminate emission into unwanted diffraction orders while enhancing emission into the desired specular mode, leading to near-perfect reflection of weak resonant light. These super-wavelength arrays can also be functionalized into efficient quantum memories, with error probabilities on the order of ~1 for a trilayer with only around ~100 atoms per layer. Relaxing the previous constraint of sub-wavelength spacing could potentially ease the technical requirements for realizing efficient atom-light interfaces, such as enabling the use of tweezer arrays.
翻訳日:2024-02-12 16:40:54 公開日:2024-02-09
# 6次元物体姿勢推定のための拡散モデルによる2次元3次元密度対応の改善

Improving 2D-3D Dense Correspondences with Diffusion Models for 6D Object Pose Estimation ( http://arxiv.org/abs/2402.06436v1 )

ライセンス: Link先を確認
Peter H\"onig, Stefan Thalhammer, Markus Vincze(参考訳) RGB画像と3D空間の2D-3D対応性の推定は、6Dオブジェクトのポーズ推定における根本的な問題である。 近年のポーズ推定では、高密度対応マップとポイント・ツー・ポイントアルゴリズムを用いてオブジェクトのポーズを推定している。 ポーズ推定の精度は、密接な対応マップの品質と、密閉性、乱れ、難解な材料特性に耐えられる能力に大きく依存する。 現在では、GAN、オートエンコーダ、あるいは直接回帰モデルに基づく画像から画像への変換モデルを用いて、密度の高い対応写像を推定している。 しかし、画像から画像への翻訳の最近の進歩は、ベンチマークデータセットでの評価において拡散モデルが優れた選択となっている。 本研究では、6次元オブジェクトポーズ推定の下流課題に対するGANと拡散モデルに基づく画像間翻訳ネットワークを比較した。 その結果,拡散に基づく画像-画像間の変換モデルの方がGANより優れており,さらに6次元オブジェクトのポーズ推定モデルの改善の可能性を明らかにした。

Estimating 2D-3D correspondences between RGB images and 3D space is a fundamental problem in 6D object pose estimation. Recent pose estimators use dense correspondence maps and Point-to-Point algorithms to estimate object poses. The accuracy of pose estimation depends heavily on the quality of the dense correspondence maps and their ability to withstand occlusion, clutter, and challenging material properties. Currently, dense correspondence maps are estimated using image-to-image translation models based on GANs, Autoencoders, or direct regression models. However, recent advancements in image-to-image translation have led to diffusion models being the superior choice when evaluated on benchmarking datasets. In this study, we compare image-to-image translation networks based on GANs and diffusion models for the downstream task of 6D object pose estimation. Our results demonstrate that the diffusion-based image-to-image translation model outperforms the GAN, revealing potential for further improvements in 6D object pose estimation models.
翻訳日:2024-02-12 16:40:34 公開日:2024-02-09
# 真実はどこにある? 連続した世界で結束するリスク

Where is the Truth? The Risk of Getting Confounded in a Continual World ( http://arxiv.org/abs/2402.06434v1 )

ライセンス: Link先を確認
Florian Peter Busch, Roshni Kamath, Rupert Mitchell, Wolfgang Stammer, Kristian Kersting and Martin Mundt(参考訳) データセットは、新しいデータへの一般化に失敗したスプリアス相関によって最も容易に解かれる場合に、結合される。 共同ファウンダーがタスク間で時間的に異なるような継続的な学習環境では、結果として生じる課題は、通常考慮される標準の忘れる問題を超えていることを示します。 特に、そのような共同創設者の集合に対する有効な共同解の空間に対する効果を数学的に導出する。 興味深いことに、多くの連続したデータセットにおいて、タスクが共同でトレーニングされた場合、スプリアス相関は容易に無視されるが、それらが逐次的に考慮される場合の結合を避けることは困難である。 このようなデータセットを構築し、標準的な連続学習手法が共同ファウンダーを無視できないことを実証的に証明し、すべてのタスクで共同トレーニングが成功している。 連続的に構築されたデータセットであるConConは、CLEVRイメージに基づいており、コンバウンディングに関してより堅牢な振る舞いを持つ継続的学習方法の必要性を示しています。

A dataset is confounded if it is most easily solved via a spurious correlation which fails to generalize to new data. We will show that, in a continual learning setting where confounders may vary in time across tasks, the resulting challenge far exceeds the standard forgetting problem normally considered. In particular, we derive mathematically the effect of such confounders on the space of valid joint solutions to sets of confounded tasks. Interestingly, our theory predicts that for many such continual datasets, spurious correlations are easily ignored when the tasks are trained on jointly, but it is far harder to avoid confounding when they are considered sequentially. We construct such a dataset and demonstrate empirically that standard continual learning methods fail to ignore confounders, while training jointly on all tasks is successful. Our continually confounded dataset, ConCon, is based on CLEVR images and demonstrates the need for continual learning methods with more robust behavior with respect to confounding.
翻訳日:2024-02-12 16:40:19 公開日:2024-02-09
# 単一超伝導渦による量子熱力学

Quantum thermodynamics with a single superconducting vortex ( http://arxiv.org/abs/2402.06427v1 )

ライセンス: Link先を確認
Marek Foltyn, Konrad Norowski, Alexander Savin, Maciej Zgirski(参考訳) 我々は,単一渦箱(svb)を創成したナノ構造中の単一超伝導渦のダイナミクスの完全制御を実証する。 我々の装置は、電場冷却されたアルミニウムナノスクエアで渦を捕捉し、ナノ秒の電流でオンデマンドに放出する。 隣接するダイエムナノブリッジの切換電流を試験することにより,ボックスの渦状態を読み取る。 時間分解型ナノサーモメトリーを用いて、渦放出の初回過程における散逸熱(単一赤色光子のエネルギー)の量として4$\cdot$10$^{-19}\,$jを測定し、次の温度緩和をモニターする。 測定された熱は、運動する渦の途中でクーパー対を消滅させるために必要なエネルギーと等しい。 我々の設計および測定プロトコルは、ジョセフソン接合や磁性ナノクラスターや分子で広く研究されているのと同様に、熱または量子揺らぎの根を持つ電流駆動超伝導ナノワイヤからの渦逃避機構の研究に有用である。 この実験は超伝導ナノワイヤ単光子検出器における吸収過程の熱力学を啓蒙し、渦が検出可能なホットスポットの形成に不可欠であると認識する。 閉じ込められた幾何学において、単一の超伝導渦を確実に操作する実証された機会は、実際にはナノスケールの非揮発性メモリセルが準ナノ秒の書き込みおよび読み取り操作で概念実証され、超伝導量子ビットまたは高速な単一量子量子回路に基づく量子プロセッサとの互換性を提供する。

We demonstrate complete control over dynamics of a single superconducting vortex in a nanostructure which we coin the Single Vortex Box (SVB). Our device allows us to trap the vortex in a field-cooled aluminum nanosquare and expel it on demand with a nanosecond pulse of electrical current. We read-out the vortex state of the box by testing the switching current of the adjacent Dayem nanobridge. Using the time-resolving nanothermometry we measure 4$\cdot$10$^{-19}\,$J as the amount of the dissipated heat (which is the energy of a single red photon) in the elementary process of the vortex expulsion, and monitor the following thermal relaxation of the device. The measured heat is equal to the energy required to annihilate all Cooper pairs on the way of the moving vortex. Our design and measuring protocol are convenient for studying the stochastic mechanism of the vortex escape from current-driven superconducting nanowires, which has its roots either in thermal or quantum fluctuations, similar to ones widely studied in Josephson junctions or magnetic nanoclusters and molecules. Our experiment enlightens the thermodynamics of the absorption process in the superconducting nanowire single-photon detectors, in which vortices are perceived to be essential for a formation of a detectable hot spot. The demonstrated opportunity to manipulate a single superconducting vortex reliably in a confined geometry comprises in fact a proof-of-concept of a nanoscale non-volatile memory cell with sub-nanosecond write and read operations, which offers compatibility with quantum processors based either on superconducting qubits or rapid single flux quantum circuits.
翻訳日:2024-02-12 16:40:01 公開日:2024-02-09
# curveformer++: 時間曲線クエリと注意を伴う曲線伝搬による3次元レーン検出

CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention ( http://arxiv.org/abs/2402.06423v1 )

ライセンス: Link先を確認
Yifeng Bai, Zhirong Chen, Pengpeng Liang, Erkang Cheng(参考訳) 自律走行では、単眼カメラを用いた3次元車線検出は、様々な下流計画および制御タスクにとって重要な課題である。 最近のCNNとTransformerのアプローチはモデル設計に通常2段階のスキームを適用する。 第1ステージは、画像特徴を前面画像から鳥眼視(BEV)表現に変換する。 その後、サブネットワークがBEV特徴マップを処理して3D検出結果を生成する。 しかし、これらのアプローチは、視点からBEV表現への挑戦的な画像特徴変換モジュールに大きく依存している。 本稿では,画像特徴ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を紹介し,視点画像特徴から3Dレーン検出結果を直接推測する。 具体的には,3次元検出タスクを曲線伝搬問題としてモデル化し,各レーンを動的かつ順序付けられたアンカー点集合を持つ曲線クエリで表現する。 Transformerデコーダを使用することで、3Dレーン検出結果を反復的に洗練することができる。 トランスデコーダに曲線クロスアテンションモジュールを導入し、画像特徴とレーンの曲線クエリの類似度を算出する。 様々なレーン長を扱うために,カーブクエリに対してより関連性の高い画像特徴を計算するために,コンテキストサンプリングとアンカーポイント制限技術を用いる。 さらに、選択された情報的スパース曲線クエリと対応するアンカー点集合を組み込んだ時間融合モジュールを適用し、歴史的レーン情報を活用する。 実験では,公に利用可能な2つの実世界のデータセット上での3次元レーン検出タスクに対するアプローチを評価する。 その結果,提案手法はCNN法とTransformer法の両方と比較して優れた性能を示した。 また、アプローチにおける各コンポーネントの影響を分析するためのアブレーション研究も行います。

In autonomous driving, 3D lane detection using monocular cameras is an important task for various downstream planning and control tasks. Recent CNN and Transformer approaches usually apply a two-stage scheme in the model design. The first stage transforms the image feature from a front image into a bird's-eye-view (BEV) representation. Subsequently, a sub-network processes the BEV feature map to generate the 3D detection results. However, these approaches heavily rely on a challenging image feature transformation module from a perspective view to a BEV representation. In our work, we present CurveFormer++, a single-stage Transformer-based method that does not require the image feature view transform module and directly infers 3D lane detection results from the perspective image features. Specifically, our approach models the 3D detection task as a curve propagation problem, where each lane is represented by a curve query with a dynamic and ordered anchor point set. By employing a Transformer decoder, the model can iteratively refine the 3D lane detection results. A curve cross-attention module is introduced in the Transformer decoder to calculate similarities between image features and curve queries of lanes. To handle varying lane lengths, we employ context sampling and anchor point restriction techniques to compute more relevant image features for a curve query. Furthermore, we apply a temporal fusion module that incorporates selected informative sparse curve queries and their corresponding anchor point sets to leverage historical lane information. In the experiments, we evaluate our approach for the 3D lane detection task on two publicly available real-world datasets. The results demonstrate that our method provides outstanding performance compared with both CNN and Transformer based methods. We also conduct ablation studies to analyze the impact of each component in our approach.
翻訳日:2024-02-12 16:39:31 公開日:2024-02-09
# NV$^{-}$センターアンサンブルのゼロフィールドODMRスペクトルによるダイヤモンド導波路のひずみ成分の決定

Determining Strain Components in a Diamond Waveguide from Zero-Field ODMR Spectra of NV$^{-}$ Center Ensembles ( http://arxiv.org/abs/2402.06422v1 )

ライセンス: Link先を確認
M. Sahnawaz Alam, Federico Gorrini, Micha{\l} Gawe{\l}czyk, Daniel Wigger, Giulio Coccia, Yanzhao Guo, Sajedeh Shahbazi, Vibhav Bharadwaj, Alexander Kubanek, Roberta Ramponi, Paul E. Barclay, Anthony J. Bennett, John P. Hadden, Angelo Bifone, Shane M. Eaton, Pawe{\l} Machnikowski(参考訳) ダイヤモンド中の負電荷窒素空孔(NV${}^-$)中心は、その豊富なスピン物理のためにナノスケールのセンシングと量子情報処理に大きな可能性を示している。 強い発光をもたらす光との効率的な結合は、これらの応用を実現するのに不可欠である。 ダイヤモンド中のレーザーによる導波路は、NV${}^-$生成を促進し、光との結合を改善すると同時に結晶のひずみを誘導する。 誘導ひずみは光誘導に寄与するが、NV${}^-$中心のエネルギーレベルにも影響を及ぼす。 一般的に用いられるゼロフィールド光磁気共鳴(ODMR)を用いてNV${}^-$スピン状態を実験的に探究する。 導波路では、odmrスペクトルはシフト、スプリット、一貫性のない非対称であり、局所ひずみの影響によるものである。 これらの特徴を理解するため,ひずみの存在下でのアンサンブルODMR信号のモデル化を行った。 実験により得られたODMRデータにモデル結果を適用することにより, ひずみテンソル成分を異なる位置で決定し, 導波路のひずみ分布を決定する。 本研究では, ODMR 分光法をストレインイメージングツールとして利用できることを示す。 導波管内部のひずみは、導波管構造に横切る圧縮軸成分によって支配され、垂直およびせん断ひずみ成分からの寄与は小さい。

The negatively charged nitrogen-vacancy (NV${}^-$) center in diamond has shown great potential in nanoscale sensing and quantum information processing due to its rich spin physics. An efficient coupling with light, providing strong luminescence, is crucial for realizing these applications. Laser-written waveguides in diamond promote NV${}^-$ creation and improve their coupling to light but at the same time induce strain in the crystal. The induced strain contributes to light guiding but also affects the energy levels of NV${}^-$ centers. We probe NV${}^-$ spin states experimentally with the commonly used zero-field optically detected magnetic resonance (ODMR). In our waveguides, the ODMR spectra are shifted, split, and consistently asymmetric, which we attribute to the impact of local strain. To understand these features, we model ensemble ODMR signals in the presence of strain. By fitting the model results to the experimentally collected ODMR data we determine the strain tensor components at different positions, thus determining the strain profile across the waveguide. We show that ODMR spectroscopy can be used as a strain imaging tool. The resulting strain within the waveguide is dominated by a compressive axial component transverse to the waveguide structure, with a smaller contribution from vertical and shear strain components.
翻訳日:2024-02-12 16:39:06 公開日:2024-02-09
# チャットにおける会話知性シミュレーションに関する第1回ワークショップの成果

Findings of the First Workshop on Simulating Conversational Intelligence in Chat ( http://arxiv.org/abs/2402.06420v1 )

ライセンス: Link先を確認
Yvette Graham, Mohammed Rameez Qureshi, Haider Khalid, Gerasimos Lampouras, Ignacio Iacobacci, Qun Liu(参考訳) 本ワークショップの目的は,オープンドメイン対話研究に携わる専門家を集結させることである。 この急速に進歩する研究領域では、会話から情報を学び、人間の知性や推論の現実的で説得力のあるシミュレーションに従事するなど、多くの課題が残っている。 SCI-CHATは、オープンドメイン対話に関する以前のワークショップに従っているが、実際の人間の評価で判断されるインテリジェントな会話のシミュレーションに焦点を当てている。 モデルは、議論に対して提案し、反論し、推論しながら、マルチターン会話で挑戦的なトピックに従う能力を含むことを目指している。 ワークショップには研究トラックと共有タスクが含まれていた。 本論文の主な目的は、ワークショップでのプレゼンテーション後の共有タスク結果の詳細な分析を含む、共有タスクの概要と追加論文へのリンクを提供することである。

The aim of this workshop is to bring together experts working on open-domain dialogue research. In this speedily advancing research area many challenges still exist, such as learning information from conversations, engaging in realistic and convincing simulation of human intelligence and reasoning. SCI-CHAT follows previous workshops on open domain dialogue but with a focus on the simulation of intelligent conversation as judged in a live human evaluation. Models aim to include the ability to follow a challenging topic over a multi-turn conversation, while positing, refuting and reasoning over arguments. The workshop included both a research track and shared task. The main goal of this paper is to provide an overview of the shared task and a link to an additional paper that will include an in depth analysis of the shared task results following presentation at the workshop.
翻訳日:2024-02-12 16:38:45 公開日:2024-02-09
# フィールドプログラマブルゲートアレイによる多体計算

Many-body computing on Field Programmable Gate Arrays ( http://arxiv.org/abs/2402.06415v1 )

ライセンス: Link先を確認
Songtai Lv, Yang Liang, Yuchen Meng, Xiaochen Yao, Jincheng Xu, Yang Liu, Qibin Zheng, Haiyuan Zou(参考訳) 多体計算の新たな実装は、計算物理学の分野において最も重要である。 本研究では,フィールドプログラマブルゲートアレイ(FPGA)の機能を利用して,量子多体計算を行う。 モンテカルロ法とテンソルネットワーク法の適切なスキームの設計により,FPGAの並列処理能力を効果的に活用する。 この結果、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 また,典型的なテンソルネットワークアルゴリズムを高速化するためのfpgaの利用を初めて実証した。 我々の発見は、ハードウェア実装の大きな利点を強調し、多体計算への新しいアプローチの道を開くものである。

A new implementation of many-body calculations is of paramount importance in the field of computational physics. In this study, we leverage the capabilities of Field Programmable Gate Arrays (FPGAs) for conducting quantum many-body calculations. Through the design of appropriate schemes for Monte Carlo and tensor network methods, we effectively utilize the parallel processing capabilities provided by FPGAs. This has resulted in a remarkable tenfold speedup compared to CPU-based computation for a Monte Carlo algorithm. We also demonstrate, for the first time, the utilization of FPGA to accelerate a typical tensor network algorithm. Our findings unambiguously highlight the significant advantages of hardware implementation and pave the way for novel approaches to many-body calculations.
翻訳日:2024-02-12 16:38:33 公開日:2024-02-09
# プロセス信頼: 生成的aiインタラクションの信頼を高めるためのゼロ知識機械学習

Trust the Process: Zero-Knowledge Machine Learning to Enhance Trust in Generative AI Interactions ( http://arxiv.org/abs/2402.06414v1 )

ライセンス: Link先を確認
Bianca-Mihaela Ganescu, Jonathan Passerat-Palmbach(参考訳) トランスフォーマーのようなモデルで実証された生成AIは、さまざまな領域で新たな可能性を開く一方で、公正性、透明性、信頼性、特に医学や法学のような分野への懸念も持ち上がっている。 本稿では、生成AIによるこれらの領域の公平性と品質の確保の緊急性を強調する。 特にZKP(Zero-Knowledge Proofs)は、モデルのプライバシを保護しながら、パフォーマンスの公正性と正確性に関する懸念に対処するため、暗号化技術の使用を検討している。 ZKML(Zero-Knowledge Machine Learning)として知られる機械学習モデルにZKPを適用することで、センシティブなモデル情報を明らかにし、透明性と信頼を促進することなく、AI生成したコンテンツの独立した検証が可能になる。 ZKMLは、モデル予測のための暗号化監査証跡を提供することで、AIの公正性を高める。 モデルプライバシを保ちながら出力精度と品質を検証するために,トランスフォーマーのための実用的なZKML実装であるsnarkGPTを導入する。 本稿では,SnarkGPTのスケーラビリティと性能を実証的に研究し,ZKMLによるAIモデルの品質と性能の公平性を捉える手法の適用可能性と課題を評価する。

Generative AI, exemplified by models like transformers, has opened up new possibilities in various domains but also raised concerns about fairness, transparency and reliability, especially in fields like medicine and law. This paper emphasizes the urgency of ensuring fairness and quality in these domains through generative AI. It explores using cryptographic techniques, particularly Zero-Knowledge Proofs (ZKPs), to address concerns regarding performance fairness and accuracy while protecting model privacy. Applying ZKPs to Machine Learning models, known as ZKML (Zero-Knowledge Machine Learning), enables independent validation of AI-generated content without revealing sensitive model information, promoting transparency and trust. ZKML enhances AI fairness by providing cryptographic audit trails for model predictions and ensuring uniform performance across users. We introduce snarkGPT, a practical ZKML implementation for transformers, to empower users to verify output accuracy and quality while preserving model privacy. We present a series of empirical results studying snarkGPT's scalability and performance to assess the feasibility and challenges of adopting a ZKML-powered approach to capture quality and performance fairness problems in generative AI models.
翻訳日:2024-02-12 16:38:24 公開日:2024-02-09
# 関数類似性を考慮した非凸分散最適化のための最悪の双方向通信複雑性の改善

Improving the Worst-Case Bidirectional Communication Complexity for Nonconvex Distributed Optimization under Function Similarity ( http://arxiv.org/abs/2402.06412v1 )

ライセンス: Link先を確認
Kaja Gruntkowska, Alexander Tyurin, Peter Richt\'arik(参考訳) サーバとワーカー間の効果的なコミュニケーションは、分散最適化において重要な役割を果たす。 本稿では,サーバ間通信の最適化に着目し,ダウンリンク圧縮手法における非効率性を明らかにする。 まず、アップリンク通信コストが無視できる純粋な設定を考えると、相関圧縮器の集合を用いた、ダウンリンク圧縮の新しい方法であるmarina-pを紹介する。 理論的解析により、置換圧縮機を用いたMARINA-Pは、作業者の数に応じてサーバ間通信の複雑さを向上し、既存のアルゴリズムよりも確実に優れていることが示された。 さらに,MARINA-Pは双方向圧縮をサポートするメソッドなどの拡張の出発点として機能することを示す。 本稿では,マリナ-pとアップリンク圧縮とモーメントステップを組み合わせた手法であるm3を紹介し,作業者の数の増加に伴って通信の複雑さが向上し,双方向圧縮を実現する。 理論的発見は経験的な実験と密接に一致し、提案アルゴリズムの効率を裏付ける。

Effective communication between the server and workers plays a key role in distributed optimization. In this paper, we focus on optimizing the server-to-worker communication, uncovering inefficiencies in prevalent downlink compression approaches. Considering first the pure setup where the uplink communication costs are negligible, we introduce MARINA-P, a novel method for downlink compression, employing a collection of correlated compressors. Theoretical analyses demonstrates that MARINA-P with permutation compressors can achieve a server-to-worker communication complexity improving with the number of workers, thus being provably superior to existing algorithms. We further show that MARINA-P can serve as a starting point for extensions such as methods supporting bidirectional compression. We introduce M3, a method combining MARINA-P with uplink compression and a momentum step, achieving bidirectional compression with provable improvements in total communication complexity as the number of workers increases. Theoretical findings align closely with empirical experiments, underscoring the efficiency of the proposed algorithms.
翻訳日:2024-02-12 16:38:00 公開日:2024-02-09
# 大規模言語モデルを用いたマルチモーダル臨床試験結果予測

Multimodal Clinical Trial Outcome Prediction with Large Language Models ( http://arxiv.org/abs/2402.06512v1 )

ライセンス: Link先を確認
Wenhao Zheng, Dongsheng Peng, Hongxia Xu, Hongtu Zhu, Tianfan Fu, Huaxiu Yao(参考訳) 臨床試験は重要かつ費用のかかるプロセスであり、しばしば数年にわたって、かなりの資金を必要とする。 したがって、臨床試験結果予測モデルの開発は、失敗しそうな薬物を除外することを目的としており、大幅なコスト削減の可能性を秘めている。 近年のデータ駆動型試みは、臨床治験結果を予測するために、深層学習を利用してマルチモーダルデータを統合している。 しかし、これらのアプローチは手動で設計されたモーダル固有エンコーダに依存しており、新しいモーダルに適応する拡張性と、異なるモーダルにまたがる類似した情報パターンを識別する能力の両方を制限する。 そこで本研究では, 臨床結果予測のためのマルチモーダル・ミックス・オブ・エキスパート(lifted)アプローチを提案する。 具体的には、LIFTEDは異なるモダリティデータを自然言語記述に変換することで統一する。 そして、LIFTEDは統合ノイズ耐性エンコーダを構築し、モーダル固有の言語記述から情報を抽出する。 その後、sparse mixture-of-expertsフレームワークを使用して表現をさらに洗練し、liftedは異なるモダリティにまたがる類似情報パターンを特定し、同じエキスパートモデルを使用してそれらのパターンからより一貫性のある表現を抽出することができる。 最後に、様々なモダリティ表現を動的に統合して予測することで、LIFTEDは異なるモダリティを自動で測定し、重要な情報により多くの注意を払うことができる。 実験の結果, LIFTEDは, 3段階の治験成績を予測する上で, 最良基準に比べて有意に向上し, キーコンポーネントの有効性が示された。

The clinical trial is a pivotal and costly process, often spanning multiple years and requiring substantial financial resources. Therefore, the development of clinical trial outcome prediction models aims to exclude drugs likely to fail and holds the potential for significant cost savings. Recent data-driven attempts leverage deep learning methods to integrate multimodal data for predicting clinical trial outcomes. However, these approaches rely on manually designed modal-specific encoders, which limits both the extensibility to adapt new modalities and the ability to discern similar information patterns across different modalities. To address these issues, we propose a multimodal mixture-of-experts (LIFTED) approach for clinical trial outcome prediction. Specifically, LIFTED unifies different modality data by transforming them into natural language descriptions. Then, LIFTED constructs unified noise-resilient encoders to extract information from modal-specific language descriptions. Subsequently, a sparse Mixture-of-Experts framework is employed to further refine the representations, enabling LIFTED to identify similar information patterns across different modalities and extract more consistent representations from those patterns using the same expert model. Finally, a mixture-of-experts module is further employed to dynamically integrate different modality representations for prediction, which gives LIFTED the ability to automatically weigh different modalities and pay more attention to critical information. The experiments demonstrate that LIFTED significantly enhances performance in predicting clinical trial outcomes across all three phases compared to the best baseline, showcasing the effectiveness of our proposed key components.
翻訳日:2024-02-12 16:29:22 公開日:2024-02-09
# 構造量化埋め込みによる変圧器の系統性誘導

Inducing Systematicity in Transformers by Attending to Structurally Quantized Embeddings ( http://arxiv.org/abs/2402.06492v1 )

ライセンス: Link先を確認
Yichen Jiang, Xiang Zhou, Mohit Bansal(参考訳) トランスフォーマーは複雑なデータセットでトレーニングされた後、構造やエンティティの新規な構成に一般化するが、複雑さが不十分なデータセットに容易に適合する。 トレーニングセットが十分に複雑である場合、モデルは、体系的な注意パターンを用いて、共通構文構造を持つ文を符号化する。 この観察から着想を得たsqトランスフォーマ(構造的に量子化)は,低複雑性のトレーニングセットであっても,埋め込み層や注意層の体系性を明示的に促進する。 組込みレベルでは、構造指向ベクトル量子化(sovq)を導入し、単語組込みを構造的に同値なエンティティのいくつかのクラスに分類する。 注意レベルでは、同じ構造の文が不変または類似の注意パターンでエンコードされるように、量子化された単語埋め込みで動作する体系的正規化層(SRL)と代替的な体系的注意層(SAL)を考案する。 経験的に、SQ-Transformerは、複数の低複雑さ意味解析と機械翻訳データセット上でバニラ変換器よりも強い構成一般化を実現する。 本分析では,SAL/SRLは構文的にクラスタ化された埋め込み空間を学習し,SAL/SRLは一般化可能な注意パターンを誘導し,体系性を向上することを示した。

Transformers generalize to novel compositions of structures and entities after being trained on a complex dataset, but easily overfit on datasets of insufficient complexity. We observe that when the training set is sufficiently complex, the model encodes sentences that have a common syntactic structure using a systematic attention pattern. Inspired by this observation, we propose SQ-Transformer (Structurally Quantized) that explicitly encourages systematicity in the embeddings and attention layers, even with a training set of low complexity. At the embedding level, we introduce Structure-oriented Vector Quantization (SoVQ) to cluster word embeddings into several classes of structurally equivalent entities. At the attention level, we devise the Systematic Attention Layer (SAL) and an alternative, Systematically Regularized Layer (SRL) that operate on the quantized word embeddings so that sentences of the same structure are encoded with invariant or similar attention patterns. Empirically, we show that SQ-Transformer achieves stronger compositional generalization than the vanilla Transformer on multiple low-complexity semantic parsing and machine translation datasets. In our analysis, we show that SoVQ indeed learns a syntactically clustered embedding space and SAL/SRL induces generalizable attention patterns, which lead to improved systematicity.
翻訳日:2024-02-12 16:28:55 公開日:2024-02-09
# ランダム量子回路における量子多体傷の観測

Observing quantum many-body scars in random quantum circuits ( http://arxiv.org/abs/2402.06489v1 )

ライセンス: Link先を確認
B\'arbara Andrade, Utso Bhattacharya, Ravindra W. Chhajlany, Tobias Gra{\ss} and Maciej Lewenstein(参考訳) シュウィンガーモデルは1+1次元の量子電磁力学を記述し、量子色力学のプロトタイプであり、その格子バージョンは現代の量子デバイスでシミュレートできる量子リンクモデルの記述を可能にする。 本研究では、量子シミュレーションを考案し、スピン1/2作用素によってゲージ場の自由度が記述される、その低次元形式におけるこのモデルのダイナミクスについて研究する。 トロータライズを量子回路に応用し、シュウィンガーモデルハミルトニアンの下で進化を効果的に生成する。 我々は、固定ゲートシーケンスを持つシーケンシャル回路とランダム回路の両方を考える。 シュウィンガーモデルとPXPモデルとの対応を利用して、回路の進化に長大な熱化時間を示す状態を特定することにより、シュウィンガーモデルにおける量子スカー状態の存在を調査する。 逐次的およびランダム化回路力学との比較により,傷跡を含むヒルベルト空間の非熱セクターは,比較的短い時間スケールでも検出できる特徴であるランダム化に敏感であることが示された。

The Schwinger model describes quantum electrodynamics in 1+1-dimensions, it is a prototype for quantum chromodynamics, and its lattice version allows for a quantum link model description that can be simulated using modern quantum devices. In this work, we devise quantum simulations to investigate the dynamics of this model in its low dimensional form, where the gauge field degrees of freedom are described by spin 1/2 operators. We apply trotterization to write quantum circuits that effectively generate the evolution under the Schwinger model Hamiltonian. We consider both sequential circuits, with a fixed gate sequence, and randomized ones. Utilizing the correspondence between the Schwinger model and the PXP model, known for its quantum scars, we investigate the presence of quantum scar states in the Schwinger model by identifying states exhibiting extended thermalization times in our circuit evolutions. Our comparison of sequential and randomized circuit dynamics shows that the non-thermal sector of the Hilbert space, including the scars, are more sensitive to randomization, a feature which can be detected even on relatively short time scales.
翻訳日:2024-02-12 16:28:29 公開日:2024-02-09
# Giustizia Nozze di Giustiziaの略。 人工知能・法・論理・言語・計算の相互作用と交通規制・医療における事例研究

Le Nozze di Giustizia. Interactions between Artificial Intelligence, Law, Logic, Language and Computation with some case studies in Traffic Regulations and Health Care ( http://arxiv.org/abs/2402.06487v1 )

ライセンス: Link先を確認
Joost J. Joosten and Manuela Montoya Garc\'ia(参考訳) 本論文の重要な目的は,人工知能を用いた法的コミュニティに数学的論理の基礎を伝えることである。 AIとは何かを分析した後、ニューラルネットワークと機械学習を別として、ルールベースのAIに身を委ねることにしました。 ルールベースのAIは、初歩的な形式で記述された形式的なメソッドを可能にする。 次に、数学的論理が法則に基づくAIの実践とどのように相互作用するかを確認する。 数学的論理がAIアプリケーションに制限や複雑さを課すかを見極める。 我々は、数学的論理学と法的AIの間の制限と相互作用を、論理学、計算学、数学の3つのカテゴリに分類する。 相互作用を示す例としては、主にヨーロッパの交通規制がある。 この論文は、AIの使い方と使い方、そして社会を形成する基本的なメカニズムに関するいくつかの考察で締めくくられている。

An important aim of this paper is to convey some basics of mathematical logic to the legal community working with Artificial Intelligence. After analysing what AI is, we decide to delimit ourselves to rule-based AI leaving Neural Networks and Machine Learning aside. Rule based AI allows for Formal methods which are described in a rudimentary form. We will then see how mathematical logic interacts with legal rule-based AI practice. We shall see how mathematical logic imposes limitations and complications to AI applications. We classify the limitations and interactions between mathematical logic and legal AI in three categories: logical, computational and mathematical. The examples to showcase the interactions will largely come from European traffic regulations. The paper closes off with some reflections on how and where AI could be used and on basic mechanisms that shape society.
翻訳日:2024-02-12 16:28:12 公開日:2024-02-09
# 完全に分離された信念伝播に基づくモンテカルロ法による量子安定化器符号の符号距離の上限決定

Determining the upper bound of code distance of quantum stabilizer codes through Monte Carlo method based on fully decoupled belief propagation ( http://arxiv.org/abs/2402.06481v1 )

ライセンス: Link先を確認
Zhipeng Liang, Zicheng Wang, Zhengzhong Yi, Yulin Wu, Chen Qiu and Xuan Wang(参考訳) 符号距離は量子安定化符号(QSC)の重要なパラメータである。 直接計算はnp完全問題である。 しかし、コード距離の上限はいくつかの効率的な方法によって計算できる。 本稿では,モンテカルロ法の概念を用いて,完全疎結合の信念伝播に基づくQSCのコード距離上限を決定するアルゴリズムを提案する。 本アルゴリズムは、コード距離が既知の様々なqscのアルゴリズムによって決定されるコード距離の上限が実際のコード距離と一致している高い精度を示す。 また、3つの繰り返し符号で構築されたXYZ製品コードの一種であるZ型Tanner-graph-recursive-Expansion(Z-TGRE)符号とChamon符号の論理X演算子の上限について検討する。 前者は理論解析と一致しており、後者は xyz の積符号の符号距離が $o(n^{2/3})$ となる可能性が非常に高いことを意味する。

Code distance is an important parameter for quantum stabilizer codes (QSCs). Directly precisely computing it is an NP-complete problem. However, the upper bound of code distance can be computed by some efficient methods. In this paper, employing the idea of Monte Carlo method, we propose the algorithm of determining the upper bound of code distance of QSCs based on fully decoupled belief propagation. Our algorithm shows high precision - the upper bound of code distance determined by the algorithm of a variety of QSCs whose code distance is known is consistent with actual code distance. Besides, we explore the upper bound of logical X operators of Z-type Tanner-graph-recursive-expansion (Z-TGRE) code and Chamon code, which is a kind of XYZ product code constructed by three repetition codes. The former is consistent with the theoretical analysis, and the latter implies the code distance of XYZ product codes can very likely achieve $O(N^{2/3})$, which supports the conjecture of Leverrier et al..
翻訳日:2024-02-12 16:27:59 公開日:2024-02-09
# リモートセンシング画像のキャプションと検索のための大規模言語モデル

Large Language Models for Captioning and Retrieving Remote Sensing Images ( http://arxiv.org/abs/2402.06475v1 )

ライセンス: Link先を確認
Jo\~ao Daniel Silva and Jo\~ao Magalh\~aes and Devis Tuia and Bruno Martins(参考訳) 画像キャプションとクロスモーダル検索は、視覚情報と言語情報の共同分析を含むタスクの例である。 リモートセンシングイメージに関連して、これらのタスクは、非専門家ユーザーがさまざまなアプリケーションのために関連する地球観測情報を抽出するのに役立つ。 それでも、いくつかの以前の取り組みにもかかわらず、リモートセンシング領域へのビジョンと言語モデルの開発と適用は、以前の研究で使用されていたデータセットとモデルの比較的小さなサイズによって妨げられている。 本研究では,リモートセンシングタスク,特に画像キャプションとテキスト画像検索のための視覚・言語手法であるRS-CapRetを提案する。 具体的には,高機能な大規模デコーダ言語モデルと,コントラスト言語イメージ事前学習によるリモートセンシング画像に適応した画像エンコーダを提案する。 画像エンコーダと言語デコーダをブリッジするために、異なるリモートセンシング画像キャプションデータセットを組み合わせ、他のパラメータを凍結させ、簡単な線形層をトレーニングする。 RS-CapRetは、リモートセンシング画像の記述を生成し、テキスト記述から画像を取得し、既存のメソッドでSOTAや競合パフォーマンスを達成する。 定性的な結果から,rs-capretは,事前学習された大規模言語モデルを用いて,リモートセンシング画像の表現や,異なる種類のクエリに基づく検索,画像とテキストのインターリーブシーケンスを対話的に処理できることを示す。

Image captioning and cross-modal retrieval are examples of tasks that involve the joint analysis of visual and linguistic information. In connection to remote sensing imagery, these tasks can help non-expert users in extracting relevant Earth observation information for a variety of applications. Still, despite some previous efforts, the development and application of vision and language models to the remote sensing domain have been hindered by the relatively small size of the available datasets and models used in previous studies. In this work, we propose RS-CapRet, a Vision and Language method for remote sensing tasks, in particular image captioning and text-image retrieval. We specifically propose to use a highly capable large decoder language model together with image encoders adapted to remote sensing imagery through contrastive language-image pre-training. To bridge together the image encoder and language decoder, we propose training simple linear layers with examples from combining different remote sensing image captioning datasets, keeping the other parameters frozen. RS-CapRet can then generate descriptions for remote sensing images and retrieve images from textual descriptions, achieving SOTA or competitive performance with existing methods. Qualitative results illustrate that RS-CapRet can effectively leverage the pre-trained large language model to describe remote sensing images, retrieve them based on different types of queries, and also show the ability to process interleaved sequences of images and text in a dialogue manner.
翻訳日:2024-02-12 16:27:40 公開日:2024-02-09
# 冷たくなったらシーホースへ」-家族表現芸術療法のための多素材ストーリー作成に創成AIを駆使

"When He Feels Cold, He Goes to the Seahorse"-Blending Generative AI into Multimaterial Storymaking for Family Expressive Arts Therapy ( http://arxiv.org/abs/2402.06472v1 )

ライセンス: Link先を確認
Di Liu, Hanqing Zhou, Pengcheng An(参考訳) ストーリーメイキングは、表現力のある芸術療法の統合形態として、家族とのコミュニケーションを促進する効果的な手段である。 しかし, 治療的ストーリー作成における表現的素材としての生成AIの統合はいまだに未解明である。 この文脈では、家族やセラピストを支援する方法には、HCIの影響が欠けている。 そこで本研究では,プロセラピストが指導する7家族による5週間のストーリーメイキングセッションを行った。 これらのセッションでは、家族は伝統的なアートメイキング素材と画像ベースの生成aiの両方を使って家族ストーリーを創造し発展させた。 4人の専門的セラピストによる豊富な経験的データと注釈によって、私たちは、家族が創造的にAIと伝統的な表現的素材を融合させ、彼らの考えや感情を外部化する方法を文脈化します。 ETC (Expressive Therapies Continuum) のレンズを通して,AIによる治療効果を表現材料として特徴付ける。 将来のHCI研究のために、子供、親、セラピストを支援するための望ましい相互作用特性を蒸留する。

Storymaking, as an integrative form of expressive arts therapy, is an effective means to foster family communication. Yet, the integration of generative AI as expressive materials in therapeutic storymaking remains underexplored. And there is a lack of HCI implications on how to support families and therapists in this context. Addressing this, our study involved five weeks of storymaking sessions with seven families guided by a professional therapist. In these sessions, the families used both traditional art-making materials and image-based generative AI to create and evolve their family stories. Via the rich empirical data and commentaries from four expert therapists, we contextualize how families creatively melded AI and traditional expressive materials to externalize their ideas and feelings. Through the lens of Expressive Therapies Continuum (ETC), we characterize the therapeutic implications of AI as expressive materials. Desirable interaction qualities to support children, parents, and therapists are distilled for future HCI research.
翻訳日:2024-02-12 16:27:16 公開日:2024-02-09
# 分布推定のない微分プライベート部分空間推定について

On Differentially Private Subspace Estimation Without Distributional Assumptions ( http://arxiv.org/abs/2402.06465v1 )

ライセンス: Link先を確認
Eliad Tsfadia(参考訳) プライベートデータ分析は次元の呪いとして知られる重要な課題に直面し、コストが増大する。 しかし、多くのデータセットは固有の低次元構造を持っている。 例えば、勾配降下による最適化の間、勾配はしばしば低次元部分空間の近くに存在する。 もし低次元構造が少量の点を使ってプライベートに識別できるなら、高次元の次元に対して(プライバシーと正確性の観点から)支払いを避けることができるだろう。 負の面において、Dwork, Talwar, Thakurta, Zhang (STOC 2014) は、プライベートに推定される部分空間は一般に、次元に依存する点の量を必要とすることを示した。 しかしsinghalとsteinke(neurips 2021)はこの制限を回避し、同分散行列が特定の固有値ギャップを持つガウス分布のサンプルである点を考察した。 しかし、分布的仮定なしで同様の上限を提供できるか、同様の固有値のギャップに依存する下限を証明できるのかは、まだ不明である。 この作業では、両方の方向に前進します。 入力データの2つの異なる特異値ギャップの下でプライベート部分空間推定の問題を定式化し、両タイプの新しい上限と下限を証明した。 特に, 次元に依存しない点の量を持つ部分空間を推定するためには, どの種類のギャップが十分で, 必要かを決定する。

Private data analysis faces a significant challenge known as the curse of dimensionality, leading to increased costs. However, many datasets possess an inherent low-dimensional structure. For instance, during optimization via gradient descent, the gradients frequently reside near a low-dimensional subspace. If the low-dimensional structure could be privately identified using a small amount of points, we could avoid paying (in terms of privacy and accuracy) for the high ambient dimension. On the negative side, Dwork, Talwar, Thakurta, and Zhang (STOC 2014) proved that privately estimating subspaces, in general, requires an amount of points that depends on the dimension. But Singhal and Steinke (NeurIPS 2021) bypassed this limitation by considering points that are i.i.d. samples from a Gaussian distribution whose covariance matrix has a certain eigenvalue gap. Yet, it was still left unclear whether we could provide similar upper bounds without distributional assumptions and whether we could prove lower bounds that depend on similar eigenvalue gaps. In this work, we make progress in both directions. We formulate the problem of private subspace estimation under two different types of singular value gaps of the input data and prove new upper and lower bounds for both types. In particular, our results determine what type of gap is sufficient and necessary for estimating a subspace with an amount of points that is independent of the dimension.
翻訳日:2024-02-12 16:26:57 公開日:2024-02-09
# 自律超音波ナビゲーションのための心臓超音波シミュレーション

Cardiac ultrasound simulation for autonomous ultrasound navigation ( http://arxiv.org/abs/2402.06463v1 )

ライセンス: Link先を確認
Abdoul Aziz Amadou, Laura Peralta, Paul Dryburgh, Paul Klein, Kaloian Petkov, Richard James Housden, Vivek Singh, Rui Liao, Young-Ho Kim, Florin Christian Ghesu, Tommaso Mansi, Ronak Rajani, Alistair Young and Kawal Rhode(参考訳) 超音波は診断および介入目的のイメージングモダリティとして確立されている。 しかし, 超音波画像の取得・解釈には, 画像アーチファクト, 取得パラメータの範囲, 患者解剖学の多様性など, 幅広い訓練が必要であるため, 画像品質はオペレーターのスキルによって異なる。 画像取得タスクの自動化は、取得再現性と品質を改善するが、そのようなアルゴリズムのトレーニングには、定期的な検査では保存されない大量のナビゲーションデータが必要である。 そこで本研究では,他のモダリティや任意の位置から大量の超音波画像を生成する手法を提案する。 本稿では,他のモダリティからのセグメンテーション,最適化されたボリュームデータ表現,およびgpuによるモンテカルロ経路トレースを用いた新たなシミュレーションパイプラインを提案する。 構造の大きさ,コントラスト,スペックルノイズ特性を評価するファントム実験により,パイプラインの正しさを広範囲に検証した。 さらに,1000人以上の患者から合成画像を生成することで,心エコー図像分類実験において,ナビゲーションのためのニューラルネットワークのトレーニングが可能であることを示す。 シミュレーションで事前学習したネットワークは,大規模な実データ集合が利用できない環境で,特に過小表現されたクラスにおいて,非常に優れた性能を実現している。 提案手法により,患者固有の超音波画像の高速かつ正確な生成が可能となり,ナビゲーション関連タスクのためのトレーニングネットワークのユーザビリティが実証された。

Ultrasound is well-established as an imaging modality for diagnostic and interventional purposes. However, the image quality varies with operator skills as acquiring and interpreting ultrasound images requires extensive training due to the imaging artefacts, the range of acquisition parameters and the variability of patient anatomies. Automating the image acquisition task could improve acquisition reproducibility and quality but training such an algorithm requires large amounts of navigation data, not saved in routine examinations. Thus, we propose a method to generate large amounts of ultrasound images from other modalities and from arbitrary positions, such that this pipeline can later be used by learning algorithms for navigation. We present a novel simulation pipeline which uses segmentations from other modalities, an optimized volumetric data representation and GPU-accelerated Monte Carlo path tracing to generate view-dependent and patient-specific ultrasound images. We extensively validate the correctness of our pipeline with a phantom experiment, where structures' sizes, contrast and speckle noise properties are assessed. Furthermore, we demonstrate its usability to train neural networks for navigation in an echocardiography view classification experiment by generating synthetic images from more than 1000 patients. Networks pre-trained with our simulations achieve significantly superior performance in settings where large real datasets are not available, especially for under-represented classes. The proposed approach allows for fast and accurate patient-specific ultrasound image generation, and its usability for training networks for navigation-related tasks is demonstrated.
翻訳日:2024-02-12 16:26:33 公開日:2024-02-09
# 生成モデルのための逐次フローマッチング

Sequential Flow Matching for Generative Modeling ( http://arxiv.org/abs/2402.06461v1 )

ライセンス: Link先を確認
Jongmin Yoon, and Juho Lee(参考訳) 拡散モデルやフローベースモデルといった連続時間生成モデルの確率フローの直線化は、数値解法を通した高速サンプリングの鍵であり、既存の手法ではノイズとデータ分布のジョイント分布の確率経路を直接生成して線形経路を学習する。 これらの生成モデルをシミュレートするODEベースのソルバのサンプリング速度が遅い理由の1つは、ODEトラジェクトリの高曲率に起因するODEソルバの大域的乱れ誤差であり、低NFE系における数値ソルバの乱れ誤差を爆発させる。 そこで本研究では,この課題に対処するために,確率フローをストレート化して大域的切断誤差を低減し,サンプリングの高速化と合成品質の向上を可能にする学習手法であるseqrfを提案する。 理論的および実証的研究の両方において、まずSeqRFのストレート化特性を観察する。 CIFAR-10, CelebA-$64 \times 64$, LSUN-Churchデータセットにおいて, フローベース生成モデルに対するSeqRFによる経験的評価により, 計算結果の超過を実現した。

Straightening the probability flow of the continuous-time generative models, such as diffusion models or flow-based models, is the key to fast sampling through the numerical solvers, existing methods learn a linear path by directly generating the probability path the joint distribution between the noise and data distribution. One key reason for the slow sampling speed of the ODE-based solvers that simulate these generative models is the global truncation error of the ODE solver, caused by the high curvature of the ODE trajectory, which explodes the truncation error of the numerical solvers in the low-NFE regime. To address this challenge, We propose a novel method called SeqRF, a learning technique that straightens the probability flow to reduce the global truncation error and hence enable acceleration of sampling and improve the synthesis quality. In both theoretical and empirical studies, we first observe the straightening property of our SeqRF. Through empirical evaluations via SeqRF over flow-based generative models, We achieve surpassing results on CIFAR-10, CelebA-$64 \times 64$, and LSUN-Church datasets.
翻訳日:2024-02-12 16:26:10 公開日:2024-02-09
# nftのインセンティブを最大化する - 参考文献を豊かにする

Maximizing NFT Incentives: References Make You Rich ( http://arxiv.org/abs/2402.06459v1 )

ライセンス: Link先を確認
Guangsheng Yu, Qin Wang, Caijun Sun, Lam Duc Nguyen, H.M.N. Dilum Bandara, Shiping Chen(参考訳) 本稿では,既存のNon-Fungible Token(NFT)インセンティブを最適化する方法を検討する。 NFT関連の多くの標準や実世界のプロジェクトを調査した結果、予期せぬ発見が得られました。 すなわち、現在のNFTインセンティブメカニズムは、しばしば孤立的で一度使用可能な方法で組織化され、スケーラブルな組織構造に対する彼らの可能性を見落としてしまう傾向にあります。 本稿では,DAG(Directed Acyclic Graph)ベースのNFTネットワークとして本質的に構成された新しい参照インセンティブモデルを提案し,分析し,実装する。 このモデルは、NFT間の接続(または参照)を最大化することを目的としており、それぞれの孤立したNFTがそのネットワークを拡張し、その後またはサブスクライブされたネットワークから得られる報酬を蓄積することができる。 我々はモデルの理論的および実践的な解析を行い、その最適性を示す。

In this paper, we study how to optimize existing Non-Fungible Token (NFT) incentives. Upon exploring a large number of NFT-related standards and real-world projects, we come across an unexpected finding. That is, the current NFT incentive mechanisms, often organized in an isolated and one-time-use fashion, tend to overlook their potential for scalable organizational structures. We propose, analyze, and implement a novel reference incentive model, which is inherently structured as a Directed Acyclic Graph (DAG)-based NFT network. This model aims to maximize connections (or references) between NFTs, enabling each isolated NFT to expand its network and accumulate rewards derived from subsequent or subscribed ones. We conduct both theoretical and practical analyses of the model, demonstrating its optimal utility.
翻訳日:2024-02-12 16:25:48 公開日:2024-02-09
# V-STaR:自己学習型共振器の訓練検証器

V-STaR: Training Verifiers for Self-Taught Reasoners ( http://arxiv.org/abs/2402.06457v1 )

ライセンス: Link先を確認
Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni and Rishabh Agarwal(参考訳) STaR(Zelikman et al., 2022)のような大規模言語モデル(LLM)に対する共通的な自己改善アプローチは、自己生成ソリューション上で反復的に微調整され、問題解決能力が向上する。 しかし、これらのアプローチは、このプロセス中に生成された大量の不正確なソリューションを破棄し、そのようなソリューションで貴重な情報を無視する可能性がある。 そこで本研究では,自己改善プロセス中に生成した正解と誤解の両方を利用するV-STaRを提案し,モデル生成解の正解を判定するDPOを用いて検証器を訓練する。 この検証器は推論時に多くの候補解の中から1つの解を選択するために用いられる。 複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られ、LLaMA2モデルを用いた共通コード生成および数学推論ベンチマークにおける既存の自己改善および検証アプローチよりも4%から17%の精度が向上する。

Common self-improvement approaches for large language models (LLMs), such as STaR (Zelikman et al., 2022), iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts of incorrect solutions generated during this process, potentially neglecting valuable information in such solutions. To address this shortcoming, we propose V-STaR that utilizes both the correct and incorrect solutions generated during the self-improvement process to train a verifier using DPO that judges correctness of model-generated solutions. This verifier is used at inference time to select one solution among many candidate solutions. Running V-STaR for multiple iterations results in progressively better reasoners and verifiers, delivering a 4% to 17% test accuracy improvement over existing self-improvement and verification approaches on common code generation and math reasoning benchmarks with LLaMA2 models.
翻訳日:2024-02-12 16:25:33 公開日:2024-02-09
# ラミネート設計のための量子コンピューティングとテンソルネットワーク:スタックシーケンス検索の新しいアプローチ

Quantum Computing and Tensor Networks for Laminate Design: A Novel Approach to Stacking Sequence Retrieval ( http://arxiv.org/abs/2402.06455v1 )

ライセンス: Link先を確認
Arne Wulff, Boyang Chen, Matthew Steinberg, Yinglu Tang, Matthias M\"oller, Sebastian Feld(参考訳) 工学における多くのタスクと同様に、構造設計はしばしば複雑で計算量の多い問題をナビゲートする。 主な例として、積層複合材料の重量最適化があるが、これは今日まで指数的に大きな構成空間と非線形制約のため、非常に厳しい作業である。 量子計算の急速に発展する分野は、これらの複雑な問題に対処するための新しいアプローチを提供するかもしれない。 しかしながら、与えられた問題に量子アルゴリズムを適用する前に、量子コンピュータの基本的な操作と互換性のある形式に変換する必要がある。 本研究は,ラミネートパラメータを用いたスタッキングシーケンス検索を特に対象とする。 この問題を量子計算法に適応させるために、可能な積み重ね列を量子状態空間にマッピングする。 さらに、この状態空間内の線型作用素であるハミルトニアンを導出し、積み重ねシーケンス検索問題に固有の損失関数をカプセル化する。 さらに、ハミルトニアンのペナルティ項として、積み重ねシーケンスにおける製造制約の組み入れを示す。 この量子表現は、量子ハミルトニアンの基底状態を見つけるために様々な古典的および量子的アルゴリズムに適している。 実演として,従来のテンソルネットワークアルゴリズムであるdmrgアルゴリズムを選択し,その手法を数値的に検証した。 この目的のために、損失関数ハミルトニアンとペナルティ項の行列積作用素表現を導出した。 このアルゴリズムによる数値実験により近似解が得られ、精度と実行時のトレードオフが示された。 この研究は主に量子計算に焦点を合わせているが、テンソルネットワークアルゴリズムの応用は、配列の積み重ねに着想を得た新しいアプローチを示している。

As with many tasks in engineering, structural design frequently involves navigating complex and computationally expensive problems. A prime example is the weight optimization of laminated composite materials, which to this day remains a formidable task, due to an exponentially large configuration space and non-linear constraints. The rapidly developing field of quantum computation may offer novel approaches for addressing these intricate problems. However, before applying any quantum algorithm to a given problem, it must be translated into a form that is compatible with the underlying operations on a quantum computer. Our work specifically targets stacking sequence retrieval with lamination parameters. To adapt this problem for quantum computational methods, we map the possible stacking sequences onto a quantum state space. We further derive a linear operator, the Hamiltonian, within this state space that encapsulates the loss function inherent to the stacking sequence retrieval problem. Additionally, we demonstrate the incorporation of manufacturing constraints on stacking sequences as penalty terms in the Hamiltonian. This quantum representation is suitable for a variety of classical and quantum algorithms for finding the ground state of a quantum Hamiltonian. For a practical demonstration, we chose a classical tensor network algorithm, the DMRG algorithm, to numerically validate our approach. For this purpose, we derived a matrix product operator representation of the loss function Hamiltonian and the penalty terms. Numerical trials with this algorithm successfully yielded approximate solutions, while exhibiting a tradeoff between accuracy and runtime. Although this work primarily concentrates on quantum computation, the application of tensor network algorithms presents a novel quantum-inspired approach for stacking sequence retrieval.
翻訳日:2024-02-12 16:25:14 公開日:2024-02-09
# 合成過程全体における組合せ性能の評価による複数決定木構築のためのアルゴリズム的枠組み

An Algorithmic Framework for Constructing Multiple Decision Trees by Evaluating Their Combination Performance Throughout the Construction Process ( http://arxiv.org/abs/2402.06452v1 )

ライセンス: Link先を確認
Keito Tajima, Naoki Ichijo, Yuta Nakahara, and Toshiyasu Matsushima(参考訳) 決定木の組み合わせによる予測は機械学習に有効であることが知られている。 予測のための決定木の組み合わせを構築する典型的なアイデアは、袋詰めとブースティングである。 バグングは、組み合わせのパフォーマンスを評価することなく、決定木を独立に構築し、その後平均化する。 ブースティングは決定木を順次構築し、各ステップで新しい決定木と固定された過去の決定木の組合せ性能のみを評価する。 したがって、いずれの手法も最終予測のための決定木の組み合わせを直接構築または評価しない。 最終予測が決定木の組み合わせに基づいている場合、それらを構築する際の組み合わせの適切性を評価することは自然である。 本研究では,決定木を同時に構築し,それらの組み合わせ性能を評価する新しいアルゴリズムフレームワークを提案する。 我々の枠組みは2つの手順を繰り返す。 第1の手順では、決定木の組み合わせの新しい候補を構築し、決定木の組み合わせを適切に見つける。 第2の手順では,ある基準の下で決定木の組み合わせ性能を評価し,より良い組み合わせを選択する。 提案フレームワークの性能を確認するため,合成およびベンチマークデータの実験を行った。

Predictions using a combination of decision trees are known to be effective in machine learning. Typical ideas for constructing a combination of decision trees for prediction are bagging and boosting. Bagging independently constructs decision trees without evaluating their combination performance and averages them afterward. Boosting constructs decision trees sequentially, only evaluating a combination performance of a new decision tree and the fixed past decision trees at each step. Therefore, neither method directly constructs nor evaluates a combination of decision trees for the final prediction. When the final prediction is based on a combination of decision trees, it is natural to evaluate the appropriateness of the combination when constructing them. In this study, we propose a new algorithmic framework that constructs decision trees simultaneously and evaluates their combination performance throughout the construction process. Our framework repeats two procedures. In the first procedure, we construct new candidates of combinations of decision trees to find a proper combination of decision trees. In the second procedure, we evaluate each combination performance of decision trees under some criteria and select a better combination. To confirm the performance of the proposed framework, we perform experiments on synthetic and benchmark data.
翻訳日:2024-02-12 16:24:50 公開日:2024-02-09
# グラフニューラルネットワークを用いた強化学習による知覚経路計画

Deceptive Path Planning via Reinforcement Learning with Graph Neural Networks ( http://arxiv.org/abs/2402.06552v1 )

ライセンス: Link先を確認
Michael Y. Fatemi and Wesley A. Suttle and Brian M. Sadler(参考訳) deceptive path planning (dpp) は、実際のゴールを外部のオブザーバーから隠蔽するパスを設計する問題である。 DPPの既存の手法は、大域的な状態観測可能性や完璧なモデル知識のような非現実的な仮定に依存しており、通常は問題固有のものである。 これらの欠点を考えると、そのような手法は、目に見えない問題インスタンスに一般化せず、現実的な問題サイズへのスケーラビリティを欠き、誤認レベルのオンザフライチューニングと環境の変化に対するリアルタイム適応性の両方を妨げる。 本稿では、これらの問題を克服する任意の重み付きグラフ上でDPPを実行するための強化学習(RL)に基づくトレーニング手法を提案する。 提案手法の核となるのは,エージェントの局所認識モデルの導入,DPP問題の主要成分を蒸留する新しい状態空間の表現,一般化とスケーリングを容易にするグラフニューラルネットワークベースのポリシの利用,古典的手法の騙し目的をRL設定に翻訳する新たな欺取ボーナスの導入である。 広範な実験を通じて、追加の微調整なしに、テスト時に得られたポリシーが一般化し、スケールし、調整可能なレベルのデセプションを享受し、環境の変化にリアルタイムに適応できることが示されます。

Deceptive path planning (DPP) is the problem of designing a path that hides its true goal from an outside observer. Existing methods for DPP rely on unrealistic assumptions, such as global state observability and perfect model knowledge, and are typically problem-specific, meaning that even minor changes to a previously solved problem can force expensive computation of an entirely new solution. Given these drawbacks, such methods do not generalize to unseen problem instances, lack scalability to realistic problem sizes, and preclude both on-the-fly tunability of deception levels and real-time adaptivity to changing environments. In this paper, we propose a reinforcement learning (RL)-based scheme for training policies to perform DPP over arbitrary weighted graphs that overcomes these issues. The core of our approach is the introduction of a local perception model for the agent, a new state space representation distilling the key components of the DPP problem, the use of graph neural network-based policies to facilitate generalization and scaling, and the introduction of new deception bonuses that translate the deception objectives of classical methods to the RL setting. Through extensive experimentation we show that, without additional fine-tuning, at test time the resulting policies successfully generalize, scale, enjoy tunable levels of deception, and adapt in real-time to changes in the environment.
翻訳日:2024-02-12 16:16:44 公開日:2024-02-09
# 柔軟な無限幅グラフ畳み込みネットワークと表現学習の重要性

Flexible infinite-width graph convolutional networks and the importance of representation learning ( http://arxiv.org/abs/2402.06525v1 )

ライセンス: Link先を確認
Ben Anson, Edward Milsom, Laurence Aitchison(参考訳) ニューラルネットワークを理解するための一般的な理論的アプローチは無限幅の極限を取ることであり、そこで出力がガウス過程(GP)に分散される。 これはニューラルネットワークガウス過程(NNGP)として知られている。 しかし、NNGPカーネルは固定されており、少数のハイパーパラメータを通してのみチューニング可能であり、表現学習の可能性を排除している。 これは有限幅nnとは対照的であり、表現を学習できるため、よく正確に機能すると考えられている。 したがって、NNを単純化して理論的に扱いやすくするために、NNGPはそれらをうまく機能させるもの(表現学習)を正確に排除することができる。 このことは,グラフ分類タスクに表現学習が必要であるかどうかを理解する動機となった。 このタスクの正確なツールとして,グラフ畳み込み型ディープカーネルマシンを開発した。 これはNNGPと非常によく似ており、無限幅の制限であり、カーネルを使用するが、表現学習の量を制御するために 'knob' が付属している。 グラフ分類タスクや異種ノード分類タスクでは表現学習が(劇的な性能向上をもたらすという意味で)必要であることがわかったが,同種ノード分類タスクでは必要ではない。

A common theoretical approach to understanding neural networks is to take an infinite-width limit, at which point the outputs become Gaussian process (GP) distributed. This is known as a neural network Gaussian process (NNGP). However, the NNGP kernel is fixed, and tunable only through a small number of hyperparameters, eliminating any possibility of representation learning. This contrasts with finite-width NNs, which are often believed to perform well precisely because they are able to learn representations. Thus in simplifying NNs to make them theoretically tractable, NNGPs may eliminate precisely what makes them work well (representation learning). This motivated us to understand whether representation learning is necessary in a range of graph classification tasks. We develop a precise tool for this task, the graph convolutional deep kernel machine. This is very similar to an NNGP, in that it is an infinite width limit and uses kernels, but comes with a `knob' to control the amount of representation learning. We found that representation learning is necessary (in the sense that it gives dramatic performance improvements) in graph classification tasks and heterophilous node classification tasks, but not in homophilous node classification tasks.
翻訳日:2024-02-12 16:16:19 公開日:2024-02-09
# MLS点雲とBag-of-Wordsアプローチによるファサード詳細再構築

Reconstructing facade details using MLS point clouds and Bag-of-Words approach ( http://arxiv.org/abs/2402.06521v1 )

ライセンス: Link先を確認
Thomas Froech, Olaf Wysocki, Ludwig Hoegner, Uwe Stilla(参考訳) fa\c{c}ade 要素の再構成において、特定の対象の型を特定することは困難であり、しばしば矩形性仮定や有界箱の使用によって回避される。 3d fa\c{c}adeの詳細を再構成するための新しい手法を提案する。 mlsポイントクラウドとbow概念を用いた事前定義された3dモデルライブラリを組み合わせることで,半グローバル機能を組み込むことで拡張する。 ランダムノイズを重畳したモデルとTUM-FA\c{C}ADEデータセットについて実験を行った。 提案手法は,従来のBoW手法を改良し,有望な結果を示す。 これは、より現実的なファサード再構成に長方性仮定なしで利用できる可能性があり、自動運転機能のテストや、fa\c{c}ade太陽ポテンシャルの推定などの応用に使用できる。

In the reconstruction of fa\c{c}ade elements, the identification of specific object types remains challenging and is often circumvented by rectangularity assumptions or the use of bounding boxes. We propose a new approach for the reconstruction of 3D fa\c{c}ade details. We combine MLS point clouds and a pre-defined 3D model library using a BoW concept, which we augment by incorporating semi-global features. We conduct experiments on the models superimposed with random noise and on the TUM-FA\c{C}ADE dataset. Our method demonstrates promising results, improving the conventional BoW approach. It holds the potential to be utilized for more realistic facade reconstruction without rectangularity assumptions, which can be used in applications such as testing automated driving functions or estimating fa\c{c}ade solar potential.
翻訳日:2024-02-12 16:16:00 公開日:2024-02-09
# ac-stark格子変調による原子ガス中の長寿命集団rydberg励起

Long-lived collective Rydberg excitations in atomic gas achieved via ac-Stark lattice modulation ( http://arxiv.org/abs/2402.06513v1 )

ライセンス: Link先を確認
Stanis{\l}aw Kurzyna, Bartosz Niewelt, Mateusz Mazelanik, Wojciech Wasilewski, Micha{\l} Parniak(参考訳) 集合Rydberg励起は、量子情報処理や量子コンピューティングから超感度電気測定まで、有望な応用を提供する。 しかし、彼らの短い寿命は現実のシナリオでは大きな障害である。 寿命を延ばす最先端の手法は、基底状態の量子記憶のためにのみ実装され、異なる原子遷移に効果的に取り組むために再設計が必要だった。 本研究では, 原理上スピン波を凍結し, 熱劣化の影響を完全に相殺できるリドバーグ励起寿命を延長するプロトコルを提案する。 このプロトコルは、2つのレーザービームを原子媒体に干渉させることでスピン波のオフ共振ac-stark格子変調を用いる。 我々の実装は、励起寿命を桁違いに拡張できることを示し、Rydberg励起のより複雑なプロトコルへの道を開いた。

Collective Rydberg excitations provide promising applications ranging from quantum information processing, and quantum computing to ultra-sensitive electrometry. However, their short lifetime is an immense obstacle in real-life scenarios. The state-of-the-art methods of prolonging the lifetime were only implemented for ground-state quantum memories and would require a redesign to effectively work on different atomic transitions. We propose a protocol for extending the Rydberg excitation lifetime, which in principle can freeze the spin-wave and completely cancel the effects of thermal dephasing. The protocol employs off-resonant ac-Stark lattice modulation of spin waves by interfering two laser beams on the atomic medium. Our implementation showed that the excitation lifetime can be extended by an order of magnitude, paving the way towards more complex protocols for collective Rydberg excitations.
翻訳日:2024-02-12 16:15:46 公開日:2024-02-09
# ほぼ共鳴変調駆動による高速量子ゲート

Fast entangling quantum gates with almost-resonant modulated driving ( http://arxiv.org/abs/2402.06510v1 )

ライセンス: Link先を確認
Xiayang Fan and Xin Wang and Yuan Sun(参考訳) 近年, 合成解析パルスの特別なカテゴリを持つ外部共振変調駆動(ORMD)法は, 2ビット・多ビットゲートの実験性能を向上し, さらなる研究への関心が高まっている。 特にcold atom qubitプラットフォームに便利なツールを提供し、rydberg双極子-双極子相互作用とうまく連携する。 高速かつ高忠実な量子論理ゲートを構築する際の可能性と幅広い選択肢を探るため、ほぼ共振変調駆動(ARMD)法を用いて量子ゲートの絡み合う設計と解析を行う。 共鳴条件の明らかな区別とは別に、ARMDゲートプロトコルは、ORMDゲートプロトコルと比較して量子物理学のメカニズムが異なる。 ARMDゲートは、通常、急激な位相変化と、時間進化中の特定の点で変化する。 言い換えると、変調はライドバーグ封鎖ゲートの重要な概念を形成するが、オンオフ共鳴条件はダイナミクスのスタイルにおいて非自明なニュアンスをもたらす可能性がある。 より基本的な見地からすると、ormdとarmdの手法はすべて、量子ビット間相互作用の精密な特徴付けに関して高速変調駆動のユニタリ操作族に属しており、量子論理ゲートが1つの連続パルス内で終了するのが普通である。

Recently, the method of off-resonant modulated driving (ORMD) with a special category of synthetic analytical pulses has improved the experimental performance of two- and multi-qubit gates and aroused many interests for further investigations. It particularly offers a helpful tool to the cold atom qubit platform and works well with the Rydberg dipole-dipole interaction. In order to explore more possibilities and wider ranges of options in constructing fast-speed and high-fidelity quantum logic gates, we design and analyze the entangling quantum gates via the almost-resonant modulated driving (ARMD) method. Apart from the apparent distinctions in resonance conditions, the ARMD gate protocols also have its different mechanisms in quantum physics compared with ORMD gate protocols. ARMD gates usually have abrupt phase changes and at certain points during the time evolution. In other words, whilst the modulation forms the key concept of high-fidelity Rydberg blockade gates, the on-off resonance condition can lead to nontrivial nuances in the styles of dynamics. From a more fundamental point of view, the ORMD and the ARMD methods all together belong to the unitary operation family of fast modulated driving with respect to precisely characterized inter-qubit interactions, which usually allows the quantum logic gate to concludes within one continuous pulse.
翻訳日:2024-02-12 16:15:32 公開日:2024-02-09
# 正しいタイミングで正しい質問をする:人間とモデル不確実性ガイダンスによる質問の明確化

Asking the Right Question at the Right Time: Human and Model Uncertainty Guidance to Ask Clarification Questions ( http://arxiv.org/abs/2402.06509v1 )

ライセンス: Link先を確認
Alberto Testoni and Raquel Fern\'andez(参考訳) 明確化質問は、言語使用における誤解、あいまいさ、過度な特定を知らせるために必要な対話ツールである。 人間は子供時代から質問することで不確実性を解消できるが、現代の対話システムは効果的な質問を生み出すのに苦労している。 この方向を前進させるために、本研究では、協調対話タスクをテストベッドとして、モデルの不確実性が人間の不確実性にどう関連しているかを研究する。 モデル不確実性は人間の明確化探索行動を反映していないことが示され、モデル不確実性を解決する最も効果的な方法ではない可能性が示唆された。 そこで本研究では,モデル不確実性推定に基づく明確化問題の生成手法を提案し,それをいくつかの代替案と比較し,タスク成功の観点から大きな改善をもたらすことを示す。 本研究は,対話システムに不確実性を評価し,対話を活用できることの重要性を強調した。

Clarification questions are an essential dialogue tool to signal misunderstanding, ambiguities, and under-specification in language use. While humans are able to resolve uncertainty by asking questions since childhood, modern dialogue systems struggle to generate effective questions. To make progress in this direction, in this work we take a collaborative dialogue task as a testbed and study how model uncertainty relates to human uncertainty -- an as yet under-explored problem. We show that model uncertainty does not mirror human clarification-seeking behavior, which suggests that using human clarification questions as supervision for deciding when to ask may not be the most effective way to resolve model uncertainty. To address this issue, we propose an approach to generating clarification questions based on model uncertainty estimation, compare it to several alternatives, and show that it leads to significant improvements in terms of task success. Our findings highlight the importance of equipping dialogue systems with the ability to assess their own uncertainty and exploit in interaction.
翻訳日:2024-02-12 16:15:08 公開日:2024-02-09
# 幾何学的特徴とディープラーニングネットワークを用いたファサードレベルの点雲の分類

Classifying point clouds at the facade-level using geometric features and deep learning networks ( http://arxiv.org/abs/2402.06506v1 )

ライセンス: Link先を確認
Yue Tan, Olaf Wysocki, Ludwig Hoegner, Uwe Stilla(参考訳) facadeの詳細を備えた3dビルディングモデルは、現在多くのアプリケーションで重要な役割を果たす。 ファサードレベルでポイントクラウドを分類することは、現実世界のデジタルレプリカを作成する上で鍵となる。 しかし、ディープニューラルネットワークの詳細な分類に焦点を当てた研究は少ない。 本稿では,ファサードレベルでのポイントクラウド分類のための深層学習ネットワークと幾何学的特徴を融合する手法を提案する。 実験の結果,これらの特徴が深層学習法の性能を向上させることがわかった。 本手法は,局所的な幾何学的情報を取得する深層学習ネットワークの能力を補正し,セマンティックセグメンテーションの促進に有効である。

3D building models with facade details are playing an important role in many applications now. Classifying point clouds at facade-level is key to create such digital replicas of the real world. However, few studies have focused on such detailed classification with deep neural networks. We propose a method fusing geometric features with deep learning networks for point cloud classification at facade-level. Our experiments conclude that such early-fused features improve deep learning methods' performance. This method can be applied for compensating deep learning networks' ability in capturing local geometric information and promoting the advancement of semantic segmentation.
翻訳日:2024-02-12 16:14:49 公開日:2024-02-09
# 多目的遺伝的アルゴリズムを用いた複雑なUAVミッション計画問題の解法

Solving Complex Multi-UAV Mission Planning Problems using Multi-objective Genetic Algorithms ( http://arxiv.org/abs/2402.06504v1 )

ライセンス: Link先を確認
Cristian Ramirez-Atencia, Gema Bello-Orgaz, Maria D R-Moreno, David Camacho(参考訳) 近年のUAV技術のブームにより、複雑なタスクを含む多くの分野で使用されている。 中には、火災監視や救助作業など、車両の運転者に高いリスクを負うものもあり、UAVは人間のリスクを避けるのに優れている。 無人機のためのミッションプランニング(Mission Planning for UAVs)は、通常、時間をかけて車両の位置と行動(ロード/ドロップ、ビデオ/写真、情報取得)を計画するプロセスである。 これらの車両は地上管制局(gcss)から制御され、人間のオペレーターがルーディメンタリーシステムを使用する。 本稿では,UAVとGCSからなる複雑なミッション計画問題(MPP)を解決するための多目的遺伝的アルゴリズムを提案する。 制約満足度問題(Constraint Satisfaction Problem, CSP)を用いてハイブリッド適合度関数を設計し, 解が有効かどうか, パレート法を用いて最適解を求める。 このアルゴリズムは、メースパン、燃料消費量、距離など、ミッションの異なる変数を最適化するいくつかのデータセット上でテストされている。 実験の結果、新しいアルゴリズムは優れた解を得ることができるが、問題がより複雑になると、最適解を見つけることも困難になる。

Due to recent booming of UAVs technologies, these are being used in many fields involving complex tasks. Some of them involve a high risk to the vehicle driver, such as fire monitoring and rescue tasks, which make UAVs excellent for avoiding human risks. Mission Planning for UAVs is the process of planning the locations and actions (loading/dropping a load, taking videos/pictures, acquiring information) for the vehicles, typically over a time period. These vehicles are controlled from Ground Control Stations (GCSs) where human operators use rudimentary systems. This paper presents a new Multi-Objective Genetic Algorithm for solving complex Mission Planning Problems (MPP) involving a team of UAVs and a set of GCSs. A hybrid fitness function has been designed using a Constraint Satisfaction Problem (CSP) to check if solutions are valid and Pareto-based measures to look for optimal solutions. The algorithm has been tested on several datasets optimizing different variables of the mission, such as the makespan, the fuel consumption, distance, etc. Experimental results show that the new algorithm is able to obtain good solutions, however as the problem becomes more complex, the optimal solutions also become harder to find.
翻訳日:2024-02-12 16:14:39 公開日:2024-02-09
# acter: rlポリシーの説明と診断のための多様で実行可能な反事実シーケンス

ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policies ( http://arxiv.org/abs/2402.06503v1 )

ライセンス: Link先を確認
Jasmina Gajcin and Ivana Dusparic(参考訳) ユーザ信頼を維持し,パーソナライズされたポリシを開発するためには,障害の発生状況と強化学習(RL)の防止方法を理解する必要がある。 反事実推論は、失敗を避ける最寄りの可能な世界を探すことによって、責任を割り当て、失敗を理解するためにしばしば用いられる。 しかし、RLにおける現在の事実状態の説明は、現在の状態の特徴のみを用いて結果を説明するだけで、負の結果がどのように防止されたかについての実用的な説明は得られない。 そこで本研究では,障害を回避するための提案手法としてacter(actionable counterfactual sequences for explained reinforcement learning outcomes)を提案する。 ACTERは失敗につながる行動を調査し、進化アルゴリズムNSGA-IIを用いて、統計的環境においても最小限の変化と高い確実性でそれを防ぐ行動の反ファクト的シーケンスを生成する。 さらにACTERは、ユーザが自分の好みに最も合う方法で障害を修正できるように、多種多様なカウンターファクトシーケンスを生成する。 また、3つの多様性指標を導入し、カウンターファクトシーケンスの多様性を評価する。 我々は,2つのRL環境におけるACTERを離散的かつ連続的な動作で評価し,動作可能な多種多様な反事実列を生成することを示す。 我々は,ACTERが生成した説明が,ユーザによる障害の特定と修正にどのように役立つかを,ユーザスタディで調査する。

Understanding how failure occurs and how it can be prevented in reinforcement learning (RL) is necessary to enable debugging, maintain user trust, and develop personalized policies. Counterfactual reasoning has often been used to assign blame and understand failure by searching for the closest possible world in which the failure is avoided. However, current counterfactual state explanations in RL can only explain an outcome using just the current state features and offer no actionable recourse on how a negative outcome could have been prevented. In this work, we propose ACTER (Actionable Counterfactual Sequences for Explaining Reinforcement Learning Outcomes), an algorithm for generating counterfactual sequences that provides actionable advice on how failure can be avoided. ACTER investigates actions leading to a failure and uses the evolutionary algorithm NSGA-II to generate counterfactual sequences of actions that prevent it with minimal changes and high certainty even in stochastic environments. Additionally, ACTER generates a set of multiple diverse counterfactual sequences that enable users to correct failure in the way that best fits their preferences. We also introduce three diversity metrics that can be used for evaluating the diversity of counterfactual sequences. We evaluate ACTER in two RL environments, with both discrete and continuous actions, and show that it can generate actionable and diverse counterfactual sequences. We conduct a user study to explore how explanations generated by ACTER help users identify and correct failure.
翻訳日:2024-02-12 16:14:19 公開日:2024-02-09
# 将来の指揮制御のためのスケーラブルなインタラクティブ機械学習

Scalable Interactive Machine Learning for Future Command and Control ( http://arxiv.org/abs/2402.06501v1 )

ライセンス: Link先を確認
Anna Madison, Ellen Novoseller, Vinicius G. Goecks, Benjamin T. Files, Nicholas Waytowich, Alfred Yu, Vernon J. Lawhern, Steven Thurman, Christopher Kelshaw, Kaleb McDowell(参考訳) 将来の戦争は、コマンド・アンド・コントロール(c2)要員が複雑で潜在的に不明確な状況でタイムスケールを縮小する決定を下す必要がある。 堅牢な意思決定プロセスと意思決定支援ツールの必要性を考えると、人工知能と人工知能の統合は、急速に変化する運用環境における適応性と効率を確保するために、C2オペレーションプロセスに革命をもたらす可能性を秘めている。 我々は、人間が機械学習アルゴリズムと協調して機械学習アルゴリズムの動作をガイドできる、インタラクティブな機械学習における最近の有望なブレークスルーを活用することを提案する。 本稿では、これらのアプローチを複雑なC2コンテキストで機能させるために、今後の研究が取り組むべき最先端の科学技術のギャップについて述べる。 特に,スケーラブルな対話型機械学習(SIML)の実現を目的とした3つの研究分野について述べる。 1)複雑な動的状況における計画を可能にする人間-AIインタラクションアルゴリズムの開発 2 役割、構成、信頼を最適化し、レジリエントな人間-AIチームを育成すること。 3) アルゴリズムと人間-AIチームの柔軟性を、潜在的な状況や状況にわたって拡張する。

Future warfare will require Command and Control (C2) personnel to make decisions at shrinking timescales in complex and potentially ill-defined situations. Given the need for robust decision-making processes and decision-support tools, integration of artificial and human intelligence holds the potential to revolutionize the C2 operations process to ensure adaptability and efficiency in rapidly changing operational environments. We propose to leverage recent promising breakthroughs in interactive machine learning, in which humans can cooperate with machine learning algorithms to guide machine learning algorithm behavior. This paper identifies several gaps in state-of-the-art science and technology that future work should address to extend these approaches to function in complex C2 contexts. In particular, we describe three research focus areas that together, aim to enable scalable interactive machine learning (SIML): 1) developing human-AI interaction algorithms to enable planning in complex, dynamic situations; 2) fostering resilient human-AI teams through optimizing roles, configurations, and trust; and 3) scaling algorithms and human-AI teams for flexibility across a range of potential contexts and situations.
翻訳日:2024-02-12 16:13:52 公開日:2024-02-09
# 観測データによるルートのフライ検出とITシステムへの応用

On the Fly Detection of Root Causes from Observed Data with Application to IT Systems ( http://arxiv.org/abs/2402.06500v1 )

ライセンス: Link先を確認
Lei Zan, Charles K. Assaad, Emilie Devijver, Eric Gaussier(参考訳) 本稿では、しきい値に基づくITシステムを表現するための構造因果モデルを提案し、そのようなシステムにおける異常の根本原因を迅速に検出する新しいアルゴリズムを提案する。 根本原因が因果関係がない場合、この方法は正しいことが証明されるが、この仮定を緩和するためにエージェントの介入に基づいて拡張が提案される。 当社のアルゴリズムとそのエージェントベースの拡張は,オフラインデータからの因果検出を活用し,オンラインデータに新たな異常が発生した場合のサブグラフトラバーサルを行う。 我々の広範な実験は、代替構造因果モデルや実際のIT監視データから生成されたデータに適用しても、我々の手法の優れた性能を示す。

This paper introduces a new structural causal model tailored for representing threshold-based IT systems and presents a new algorithm designed to rapidly detect root causes of anomalies in such systems. When root causes are not causally related, the method is proven to be correct; while an extension is proposed based on the intervention of an agent to relax this assumption. Our algorithm and its agent-based extension leverage causal discovery from offline data and engage in subgraph traversal when encountering new anomalies in online data. Our extensive experiments demonstrate the superior performance of our methods, even when applied to data generated from alternative structural causal models or real IT monitoring data.
翻訳日:2024-02-12 16:13:35 公開日:2024-02-09
# BarlowTwins-CXR : クロスドメイン自己教師学習を用いた異種データにおける胸部X線異常局在の促進

BarlowTwins-CXR : Enhancing Chest X-Ray abnormality localization in heterogeneous data with cross-domain self-supervised learning ( http://arxiv.org/abs/2402.06499v1 )

ライセンス: Link先を確認
Haoyue Sheng, Linrui Ma, Jean-Francois Samson, Dianbo Liu(参考訳) 背景: 様々な疾患の診断に必須の胸部X線画像による異常局在は, 複雑な解釈と放射線技師の作業量の増加による重要な臨床課題に直面している。 ディープラーニングの最近の進歩は有望なソリューションを提供するが、ドメイン間転送学習におけるドメインの不整合は依然として重大な問題であり、診断プロセスの効率と精度を損なう。 本研究では,異種胸部X線画像解析における領域不整合問題に対処し,自律学習戦略「BarlwoTwins-CXR」を開発し,自律的異常局所化性能を向上させることを目的とする。 方法: NIH Chest X-ray DatasetとVinDr-CXRの2つの公開データセットを利用した。 BarlowTwins-CXRアプローチは2段階のトレーニングプロセスで実施された。 当初、自己教師付き事前トレーニングは、imagenetで事前トレーニングされたresnet50バックボーンを持つnihデータセット上の調整されたbarlow twinsアルゴリズムを使用して行われた。 続いてFPN(Faster R-CNN with Feature Pyramid Network)を用いて、VinDr-CXRデータセットの教師付き微調整が行われた。 結果: BarlowTwins-CXRではモデル性能が大幅に向上した。 従来のImageNetの事前訓練モデルと比較して、mAP50の精度は3%向上した。 また,Ablation CAM法では胸部異常の局在の精度が向上した。 結論: BarlowTwins-CXR は胸部X線画像による異常局所化の効率と精度を著しく向上させ,従来の転写学習法より優れ,ドメイン間の整合性を効果的に克服する。 実験の結果,異種データが少ない医療環境において,自己教師付き学習を用いてモデルの一般化性を向上させる可能性が示された。

Background: Chest X-ray imaging-based abnormality localization, essential in diagnosing various diseases, faces significant clinical challenges due to complex interpretations and the growing workload of radiologists. While recent advances in deep learning offer promising solutions, there is still a critical issue of domain inconsistency in cross-domain transfer learning, which hampers the efficiency and accuracy of diagnostic processes. This study aims to address the domain inconsistency problem and improve autonomic abnormality localization performance of heterogeneous chest X-ray image analysis, by developing a self-supervised learning strategy called "BarlwoTwins-CXR". Methods: We utilized two publicly available datasets: the NIH Chest X-ray Dataset and the VinDr-CXR. The BarlowTwins-CXR approach was conducted in a two-stage training process. Initially, self-supervised pre-training was performed using an adjusted Barlow Twins algorithm on the NIH dataset with a Resnet50 backbone pre-trained on ImageNet. This was followed by supervised fine-tuning on the VinDr-CXR dataset using Faster R-CNN with Feature Pyramid Network (FPN). Results: Our experiments showed a significant improvement in model performance with BarlowTwins-CXR. The approach achieved a 3% increase in mAP50 accuracy compared to traditional ImageNet pre-trained models. In addition, the Ablation CAM method revealed enhanced precision in localizing chest abnormalities. Conclusion: BarlowTwins-CXR significantly enhances the efficiency and accuracy of chest X-ray image-based abnormality localization, outperforming traditional transfer learning methods and effectively overcoming domain inconsistency in cross-domain scenarios. Our experiment results demonstrate the potential of using self-supervised learning to improve the generalizability of models in medical settings with limited amounts of heterogeneous data.
翻訳日:2024-02-12 16:13:23 公開日:2024-02-09
# Iris-SAM: 基礎モデルを用いたアイリスセグメンテーション

Iris-SAM: Iris Segmentation Using a Foundational Model ( http://arxiv.org/abs/2402.06497v1 )

ライセンス: Link先を確認
Parisa Farmanifard and Arun Ross(参考訳) アイリスセグメンテーションはアイリス生体計測システムの重要な構成要素であり、眼画像から環状のアイリス領域を抽出することを含む。 本研究では,任意のオブジェクトのセグメンテーションに有効である基本モデルであるviz., segment anything model (sam) を用いた画素レベルの虹彩セグメンテーションモデルを開発した。 この研究の主な貢献は、眼画像上のSAMの微調整中に異なる損失関数を統合することである。 特に、Focal Lossの重要性は、クラス不均衡問題(アイリス対非アイリス画素)に戦略的に対処するため、微調整プロセスにおいて発せられる。 nd-iris-0405, casia-iris-interval-v3, iit-delhi-irisデータセットの実験は、虹彩分割タスクにおける訓練モデルの有効性を示す。 例えば、nd-iris-0405データセットでは、平均セグメンテーション精度は99.58%で、最高のベースライン性能は89.75%であった。

Iris segmentation is a critical component of an iris biometric system and it involves extracting the annular iris region from an ocular image. In this work, we develop a pixel-level iris segmentation model from a foundational model, viz., Segment Anything Model (SAM), that has been successfully used for segmenting arbitrary objects. The primary contribution of this work lies in the integration of different loss functions during the fine-tuning of SAM on ocular images. In particular, the importance of Focal Loss is borne out in the fine-tuning process since it strategically addresses the class imbalance problem (i.e., iris versus non-iris pixels). Experiments on ND-IRIS-0405, CASIA-Iris-Interval-v3, and IIT-Delhi-Iris datasets convey the efficacy of the trained model for the task of iris segmentation. For instance, on the ND-IRIS-0405 dataset, an average segmentation accuracy of 99.58% was achieved, compared to the best baseline performance of 89.75%.
翻訳日:2024-02-12 16:12:51 公開日:2024-02-09
# 深層学習による全骨髄・リンパ節照射計画目標量の自動推定

Deep Learning-Based Auto-Segmentation of Planning Target Volume for Total Marrow and Lymph Node Irradiation ( http://arxiv.org/abs/2402.06494v1 )

ライセンス: Link先を確認
Ricardo Coimbra Brioso, Damiano Dei, Nicola Lambri, Daniele Loiacono, Pietro Mancosu, Marta Scorsetti(参考訳) がん治療の放射線治療を最適化するためには,特にTotal MarrowやLymph Node Irradiation(TMLI)などの複雑な治療を扱う場合には,プランニングターゲットボリューム(PTV)の正確な構成が不可欠である。 残念なことに、このような治療のために手動のコントゥーリングに頼るのは時間がかかり、エラーを起こしやすい。 本稿では,2次元u-netモデルに基づくこの問題に対する解法を導入した先行研究をもとに,tmli処理におけるptvのセグメンテーションを自動化するための深層学習(dl)の適用について検討する。 これまでの研究を (i) nnU-Netフレームワークを用いて2次元および3次元U-Netモデルの開発と開発を行う。 (i) 主にリンプノードから構成される骨を排除し, PTVのトレーニングモデルを評価することにより, ターゲット体積からセグメントまでの最も困難な領域を表現した。 その結果,nnu-netフレームワークの導入により,セグメンテーション性能が統計的に有意に向上した。 さらに, 骨除去後のPTV解析の結果, ターゲット体積の最も困難な領域においても, モデルは非常に堅牢であることがわかった。 本研究は, TMLI などの複雑な放射線治療における DL の応用において, 本治療のメリットを享受できる患者数を増やすための, 有効かつスケーラブルなソリューションを提供する重要な一歩である。

In order to optimize the radiotherapy delivery for cancer treatment, especially when dealing with complex treatments such as Total Marrow and Lymph Node Irradiation (TMLI), the accurate contouring of the Planning Target Volume (PTV) is crucial. Unfortunately, relying on manual contouring for such treatments is time-consuming and prone to errors. In this paper, we investigate the application of Deep Learning (DL) to automate the segmentation of the PTV in TMLI treatment, building upon previous work that introduced a solution to this problem based on a 2D U-Net model. We extend the previous research (i) by employing the nnU-Net framework to develop both 2D and 3D U-Net models and (ii) by evaluating the trained models on the PTV with the exclusion of bones, which consist mainly of lymp-nodes and represent the most challenging region of the target volume to segment. Our result show that the introduction of nnU-NET framework led to statistically significant improvement in the segmentation performance. In addition, the analysis on the PTV after the exclusion of bones showed that the models are quite robust also on the most challenging areas of the target volume. Overall, our study is a significant step forward in the application of DL in a complex radiotherapy treatment such as TMLI, offering a viable and scalable solution to increase the number of patients who can benefit from this treatment.
翻訳日:2024-02-12 16:12:32 公開日:2024-02-09
# 非線形システムの安全保証探査

Safe Guaranteed Exploration for Non-linear Systems ( http://arxiv.org/abs/2402.06562v1 )

ライセンス: Link先を確認
Manish Prajapat, Johannes K\"ohler, Matteo Turchetta, Andreas Krause, Melanie N. Zeilinger(参考訳) 制約のない環境を安全に探索することは、ロボットの自律性を制限する基本的な課題である。 安全性は最重要だが、自律的なタスクの完了を保証するには十分な探索の保証も重要である。 これらの課題に対処するため,我々は,最適制御を用いた新たな安全性保証型探索フレームワークを提案する。これは,有限時間サンプル複雑性境界を持つ非線形システムの探索を保証し,任意に高い確率で確実に安全である。 このフレームワークは一般に、複雑な非線形力学と未知のドメインを持つ多くの実世界のシナリオに適用できる。 本稿では,モデル予測制御を用いた効率的なSageMPC,SAfe保証探索手法を提案する。 SageMPCは3つのテクニックを取り入れて効率を向上させる 一 リプシッツ境界を利用すること 二 目標指向の探査、及び 三 フレームワークの所望の複雑さ、安全性及び探索の保証を維持しつつ、地平線方式の再計画を撤回すること。 最後に,自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。

Safely exploring environments with a-priori unknown constraints is a fundamental challenge that restricts the autonomy of robots. While safety is paramount, guarantees on sufficient exploration are also crucial for ensuring autonomous task completion. To address these challenges, we propose a novel safe guaranteed exploration framework using optimal control, which achieves first-of-its-kind results: guaranteed exploration for non-linear systems with finite time sample complexity bounds, while being provably safe with arbitrarily high probability. The framework is general and applicable to many real-world scenarios with complex non-linear dynamics and unknown domains. Based on this framework we propose an efficient algorithm, SageMPC, SAfe Guaranteed Exploration using Model Predictive Control. SageMPC improves efficiency by incorporating three techniques: i) exploiting a Lipschitz bound, ii) goal-directed exploration, and iii) receding horizon style re-planning, all while maintaining the desired sample complexity, safety and exploration guarantees of the framework. Lastly, we demonstrate safe efficient exploration in challenging unknown environments using SageMPC with a car model.
翻訳日:2024-02-12 16:03:45 公開日:2024-02-09
# Video Annotator:視覚言語モデルとアクティブラーニングを用いたビデオ分類器の効率的な構築のためのフレームワーク

Video Annotator: A framework for efficiently building video classifiers using vision-language models and active learning ( http://arxiv.org/abs/2402.06560v1 )

ライセンス: Link先を確認
Amir Ziai, Aneesh Vartakavi(参考訳) 高品質で一貫性のあるアノテーションは、堅牢な機械学習モデルの開発の成功に不可欠である。 従来のデータアノテーションメソッドはリソース集約的で非効率であり、ドメインの専門家ではないサードパーティアノテータに依存していることが多い。 ハードサンプルは、通常、モデルトレーニングに最も有益であるが、ビジネスコンテキストなしで正確かつ一貫したラベル付けが難しい傾向がある。 これらはアノテーションプロセス中に予測不能に発生し、さまざまなイテレーションとフィードバックのラウンドを必要とするため、品質を保証するために予期せぬ費用と時間のコミットメントが発生する。 我々は、より直接的なドメインエキスパートの関与が、これらの現実的な課題の多くを解決できると仮定する。 本稿では,ビデオ分類データセットの注釈,管理,反復を行うための新しいフレームワークであるvideo annotator (va)を提案する。 本手法は,ビデオ分類器の効率,ユーザビリティ,有効性を向上し,エンドユーザー中心のモデル開発プロセスに新たなパラダイムを提供する。 VAは、データ収集とモデルトレーニングをシームレスに統合する、継続的なアノテーションプロセスを可能にする。 視覚言語基礎モデルのゼロショット機能とアクティブラーニング技術を組み合わせて,VAが高品質モデルの効率的な作成を可能にすることを示す。 VAは、幅広いタスクにまたがる最も競争の激しいベースラインと比較して平均精度が6.8ポイント改善されている。 我々は、VAを使用して3人のプロのビデオエディターが注釈付けした56のビデオ理解タスクに153kラベルのデータセットをリリースし、実験を再現するコードをリリースした。

High-quality and consistent annotations are fundamental to the successful development of robust machine learning models. Traditional data annotation methods are resource-intensive and inefficient, often leading to a reliance on third-party annotators who are not the domain experts. Hard samples, which are usually the most informative for model training, tend to be difficult to label accurately and consistently without business context. These can arise unpredictably during the annotation process, requiring a variable number of iterations and rounds of feedback, leading to unforeseen expenses and time commitments to guarantee quality. We posit that more direct involvement of domain experts, using a human-in-the-loop system, can resolve many of these practical challenges. We propose a novel framework we call Video Annotator (VA) for annotating, managing, and iterating on video classification datasets. Our approach offers a new paradigm for an end-user-centered model development process, enhancing the efficiency, usability, and effectiveness of video classifiers. Uniquely, VA allows for a continuous annotation process, seamlessly integrating data collection and model training. We leverage the zero-shot capabilities of vision-language foundation models combined with active learning techniques, and demonstrate that VA enables the efficient creation of high-quality models. VA achieves a median 6.8 point improvement in Average Precision relative to the most competitive baseline across a wide-ranging assortment of tasks. We release a dataset with 153k labels across 56 video understanding tasks annotated by three professional video editors using VA, and also release code to replicate our experiments at: http://github.com/netflix/videoannotator.
翻訳日:2024-02-12 16:03:31 公開日:2024-02-09
# Diffusion-ES: 自律走行とゼロショット指示に続く拡散を考慮したグラディエントフリープランニング

Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following ( http://arxiv.org/abs/2402.06559v1 )

ライセンス: Link先を確認
Brian Yang, Huangyuan Su, Nikolaos Gkanatsios, Tsung-Wei Ke, Ayush Jain, Jeff Schneider, Katerina Fragkiadaki(参考訳) 拡散モデルは、意思決定と制御のための複雑かつマルチモーダルな軌道分布のモデリングに優れている。 近年,拡散モデルで取得したデータ分布下での報酬関数と確率を最大化する軌道生成法が提案されている。 逆勾配誘導復調法は、クリーンサンプルとノイズサンプルの両方に適合する微分可能な報酬関数を必要とし、一般的な軌道最適化器としての適用性を制限する。 本稿では,データ多様体に留まりながら,勾配のない最適化と軌道デノゲーションを組み合わせたブラックボックス非微分対象の最適化手法であるDiffusionESを提案する。 拡散-ESは、拡散モデルからの進化的探索中の軌道をサンプリングし、ブラックボックス報酬関数を用いて評価する。 少数のノーミングとデノイジングステップを応用し、より効率的な解空間の探索を可能にする、切断された拡散プロセスを用いて、高スケーリング軌道を変化させる。 自動運転のための確立されたクローズドループ計画ベンチマークであるnuplanでは、ディフュージョンが最先端のパフォーマンスを達成している。 diffusion-esは、既存のサンプリングベースのプランナー、リアクティブ決定性または拡散ベースのポリシー、報酬段階のガイダンスよりも優れている。 さらに,従来の指導手法と異なり,本手法では,数発のLLMプロンプトが生成する非微分言語型報酬関数を最適化できることを示す。 学習データには存在しないアグレッシブレーンウィービングのような,新たな複雑な行動を生成することができる。 これにより、既存の軌道最適化メソッドと駆動ポリシーの能力を超えた最も難しいnuPlanシナリオを解決できます。

Diffusion models excel at modeling complex and multimodal trajectory distributions for decision-making and control. Reward-gradient guided denoising has been recently proposed to generate trajectories that maximize both a differentiable reward function and the likelihood under the data distribution captured by a diffusion model. Reward-gradient guided denoising requires a differentiable reward function fitted to both clean and noised samples, limiting its applicability as a general trajectory optimizer. In this paper, we propose DiffusionES, a method that combines gradient-free optimization with trajectory denoising to optimize black-box non-differentiable objectives while staying in the data manifold. Diffusion-ES samples trajectories during evolutionary search from a diffusion model and scores them using a black-box reward function. It mutates high-scoring trajectories using a truncated diffusion process that applies a small number of noising and denoising steps, allowing for much more efficient exploration of the solution space. We show that DiffusionES achieves state-of-the-art performance on nuPlan, an established closed-loop planning benchmark for autonomous driving. Diffusion-ES outperforms existing sampling-based planners, reactive deterministic or diffusion-based policies, and reward-gradient guidance. Additionally, we show that unlike prior guidance methods, our method can optimize non-differentiable language-shaped reward functions generated by few-shot LLM prompting. When guided by a human teacher that issues instructions to follow, our method can generate novel, highly complex behaviors, such as aggressive lane weaving, which are not present in the training data. This allows us to solve the hardest nuPlan scenarios which are beyond the capabilities of existing trajectory optimization methods and driving policies.
翻訳日:2024-02-12 16:03:00 公開日:2024-02-09
# 量子化ブールベイズネットワーク:論理グラフィカルモデルを用いた理論と実験

The Quantified Boolean Bayesian Network: Theory and Experiments with a Logical Graphical Model ( http://arxiv.org/abs/2402.06557v1 )

ライセンス: Link先を確認
Gregory Coppola(参考訳) 本稿では,論理的および確率的推論の統一的なビューを提供するQuantified Boolean Bayesian Network (QBBN)を紹介する。 QBBNは、Large Language Model (LLM) の中心的な問題に対処することを目的としており、情報検索(Information Retrieval)において非常に人気になっている。 ベイズネットワークは、構成上は、説明できる答えのみを返すことができるため、幻覚を起こせない。 本稿では,非有界数のブール変数を用いたベイズネットワークが,人間の言語における論理的推論を表現するように構成できることを示す。 これは、一階計算のキー値バージョンを作成して、一貫性と完全性を証明することで実現します。 モデルは完全に観測されたデータ上で自明に訓練されているが、推論は自明ではない。 ベイズネットワークにおける具体的な推論は難解である($\Omega(2^N)$ for $N$)。 推測のために, 収束が保証されていないが, 実際に収束することがしばしば示されているループ的信念伝播(LBP)の使用について検討する。 我々の実験では、 lbp は確かに非常に確実に収束しており、分析の結果、一連の lbp のラウンドは、考慮される変数の数に $n$ が制限され、$n$ は任意の要素への入ってくるコネクションの数に制限され、さらなる改善が可能となる。 我々のネットワークは論理的推論に密接に結びついており、我々のネットワークの拡張バージョンに対する完全性証明を可能にし、また推論は特定のが適切な経路に従うことができ、高速であることが判明した。

This paper introduces the Quantified Boolean Bayesian Network (QBBN), which provides a unified view of logical and probabilistic reasoning. The QBBN is meant to address a central problem with the Large Language Model (LLM), which has become extremely popular in Information Retrieval, which is that the LLM hallucinates. A Bayesian Network, by construction, cannot hallucinate, because it can only return answers that it can explain. We show how a Bayesian Network over an unbounded number of boolean variables can be configured to represent the logical reasoning underlying human language. We do this by creating a key-value version of the First-Order Calculus, for which we can prove consistency and completeness. We show that the model is trivially trained over fully observed data, but that inference is non-trivial. Exact inference in a Bayesian Network is intractable (i.e. $\Omega(2^N)$ for $N$ variables). For inference, we investigate the use of Loopy Belief Propagation (LBP), which is not guaranteed to converge, but which has been shown to often converge in practice. Our experiments show that LBP indeed does converge very reliably, and our analysis shows that a round of LBP takes time $O(N2^n)$, where $N$ bounds the number of variables considered, and $n$ bounds the number of incoming connections to any factor, and further improvements may be possible. Our network is specifically designed to alternate between AND and OR gates in a Boolean Algebra, which connects more closely to logical reasoning, allowing a completeness proof for an expanded version of our network, and also allows inference to follow specific but adequate pathways, that turn out to be fast.
翻訳日:2024-02-12 16:02:31 公開日:2024-02-09
# 量子ジャンプアンレーブリングのパラメータ推定

Parameter estimation for quantum jump unraveling ( http://arxiv.org/abs/2402.06556v1 )

ライセンス: Link先を確認
Marco Radaelli, Joseph A. Smiga, Gabriel T. Landi, Felix C. Binder(参考訳) ジャンプアンレーブリングにおける連続的に観測される量子システムの計測記録に符号化されたパラメータの推定について検討する。 この未公開画像は、情報が継続的に収集される単発のシナリオに対応する。 ここで、時間的相関と記憶効果により、フィッシャー情報を介して推定手順の精度を評価することは一般的に困難である。 本稿では,この問題に対する完全な解決策を提案する。 まず,マルチチャネル更新プロセスにおいて,フィッシャー情報をマルコフ連鎖と関連付け,容易に計算可能な表現を導出する。 非更新プロセスでは,メートル法のモニタリング演算子法と,個々の量子軌道に沿ったフィッシャー情報の確率的形式を効率的にサンプリングできるgilespieアルゴリズムの2つの手法を組み合わせた新しいアルゴリズムを導入する。 この確率的フィッシャー情報は, 単発シナリオにおける推定に関する有用な特性を満たすことを示す。 最後に,データ圧縮・ポスト選択において情報が失われる場合を検討し,この場合のフィッシャー情報を計算するためのツールを提供する。 すべてのシナリオは、量子光学や凝縮物質からの指示的な例で示される。

We consider the estimation of parameters encoded in the measurement record of a continuously monitored quantum system in the jump unraveling. This unraveling picture corresponds to a single-shot scenario, where information is continuously gathered. Here, it is generally difficult to assess the precision of the estimation procedure via the Fisher Information due to intricate temporal correlations and memory effects. In this paper we provide a full set of solutions to this problem. First, for multi-channel renewal processes we relate the Fisher Information to an underlying Markov chain and derive a easily computable expression for it. For non-renewal processes, we introduce a new algorithm that combines two methods: the monitoring operator method for metrology and the Gillespie algorithm which allows for efficient sampling of a stochastic form of the Fisher Information along individual quantum trajectories. We show that this stochastic Fisher Information satisfies useful properties related to estimation in the single-shot scenario. Finally, we consider the case where some information is lost in data compression/post-selection, and provide tools for computing the Fisher Information in this case. All scenarios are illustrated with instructive examples from quantum optics and condensed matter.
翻訳日:2024-02-12 16:01:59 公開日:2024-02-09
# Bryndza at ClimateActivism 2024: Stance, Target and Hate Event Detection via Retrieval-Augmented GPT-4 and LLaMA (英語)

Bryndza at ClimateActivism 2024: Stance, Target and Hate Event Detection via Retrieval-Augmented GPT-4 and LLaMA ( http://arxiv.org/abs/2402.06549v1 )

ライセンス: Link先を確認
Marek \v{S}uppa and Daniel Skala and Daniela Ja\v{s}\v{s} and Samuel Su\v{c}\'ik and Andrej \v{S}vec and Peter Hra\v{s}ka(参考訳) 本研究は,Hate Speech Detection, Hate Speech Target Identification, and Stance Detectionの分類課題として,CASE 2024(CASE 2024)とHate Event Detection(Hate Event Detection)について詳述する。 検索の強化とツイート分類の再ランキングによって強化されたゼロショットまたは少数ショット設定において,大規模言語モデル(llms),特にgpt-4の機能について検討した。 私たちのゴールは、LLMがこの文脈で従来のメソッドにマッチするかどうかを判断することでした。 比較のためにLLaMAを用いてアブレーション試験を行い,本研究の結果,本モデルがベースラインを著しく上回り,ターゲット検出タスクにおいて第2位を確保した。 私たちの提出するコードはhttps://github.com/NaiveNeuron/bryndza-case-2024で入手可能です。

This study details our approach for the CASE 2024 Shared Task on Climate Activism Stance and Hate Event Detection, focusing on Hate Speech Detection, Hate Speech Target Identification, and Stance Detection as classification challenges. We explored the capability of Large Language Models (LLMs), particularly GPT-4, in zero- or few-shot settings enhanced by retrieval augmentation and re-ranking for Tweet classification. Our goal was to determine if LLMs could match or surpass traditional methods in this context. We conducted an ablation study with LLaMA for comparison, and our results indicate that our models significantly outperformed the baselines, securing second place in the Target Detection task. The code for our submission is available at https://github.com/NaiveNeuron/bryndza-case-2024
翻訳日:2024-02-12 16:01:44 公開日:2024-02-09
# 大規模言語モデルからの校正長文生成

Calibrating Long-form Generations from Large Language Models ( http://arxiv.org/abs/2402.06544v1 )

ライセンス: Link先を確認
Yukun Huang, Yixin Liu, Raghuveer Thirukovalluru, Arman Cohan, Bhuwan Dhingra(参考訳) 大規模言語モデル(LLM)の信頼性を高めるためには、キャリブレーションが不可欠である。 しかし、現在の信頼性評価手法とキャリブレーション基準は、通常、応答の正しさのバイナリ真/偽評価に依存している。 このアプローチは、答えが部分的に正しいようなロングフォーム生成には適用されない。 このギャップに対処するために,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを導入する。 本研究では,LCM校正を正確に評価する3つの指標を開発し,自己整合性と自己評価に基づく2つの信頼性評価手法を提案する。 長期QAと要約タスクを含む我々の実験は、大きめのモデルが必ずしもキャリブレーションの向上を保証していないこと、キャリブレーション性能がメートル法に依存していること、そして自己整合性手法がファクトイドデータセットより優れていることを実証している。 また,微調整,関連資料の統合,温度のスケーリング,自己整合性と自己評価の併用といった手法によって校正を向上できることがわかった。 最後に,このシステムの実用的応用について紹介する。api予算が限られているため,オープンソースモデルとchatgptを選択して,正確性を最適化する。 本研究は, LLMキャリブレーションの概念に挑戦するだけでなく, 長期化における信頼性向上のための実践的方法論を提供する。

To enhance Large Language Models' (LLMs) reliability, calibration is essential -- the model's assessed confidence scores should align with the actual likelihood of its responses being correct. However, current confidence elicitation methods and calibration metrics typically rely on a binary true/false assessment of response correctness. This approach does not apply to long-form generation, where an answer can be partially correct. Addressing this gap, we introduce a unified calibration framework, in which both the correctness of the LLMs' responses and their associated confidence levels are treated as distributions across a range of scores. Within this framework, we develop three metrics to precisely evaluate LLM calibration and further propose two confidence elicitation methods based on self-consistency and self-evaluation. Our experiments, which include long-form QA and summarization tasks, demonstrate that larger models don't necessarily guarantee better calibration, that calibration performance is found to be metric-dependent, and that self-consistency methods excel in factoid datasets. We also find that calibration can be enhanced through techniques such as fine-tuning, integrating relevant source documents, scaling the temperature, and combining self-consistency with self-evaluation. Lastly, we showcase a practical application of our system: selecting and cascading open-source models and ChatGPT to optimize correctness given a limited API budget. This research not only challenges existing notions of LLM calibration but also offers practical methodologies for improving trustworthiness in long-form generation.
翻訳日:2024-02-12 16:01:25 公開日:2024-02-09
# 深度推定とセマンティックセグメンテーションのためのハイブリッドネット

Hybridnet for depth estimation and semantic segmentation ( http://arxiv.org/abs/2402.06539v1 )

ライセンス: Link先を確認
Dalila S\'anchez-Escobedo, Xiao Lin, Josep R. Casas, Montse Pard\`as(参考訳) セマンティックセグメンテーションと深さ推定は画像処理領域において重要な2つのタスクである。 伝統的に、これらの2つのタスクは独立した方法で対処される。 しかし、ロボット工学や自律ナビゲーションのような幾何学的・意味的な情報を必要とするアプリケーションでは、深度やセマンティックセグメンテーションだけでは不十分である。 本稿では,ハイブリッド畳み込みネットワークを通じて,単一の入力画像から深度推定とセマンティックセマンティックセグメンテーションに対処する。 両タスクの単一特徴抽出ネットワークによって特徴が抽出される技術手法とは違って,提案したHybridNetは,各タスクに関連する特徴を双方に関連するものから分離することにより特徴抽出を改善する。 実験の結果、hybridnetの結果は、hybridnetがベースとする単一のタスクメソッドと同様に、artメソッドの状態と同等であることが示されている。

Semantic segmentation and depth estimation are two important tasks in the area of image processing. Traditionally, these two tasks are addressed in an independent manner. However, for those applications where geometric and semantic information is required, such as robotics or autonomous navigation,depth or semantic segmentation alone are not sufficient. In this paper, depth estimation and semantic segmentation are addressed together from a single input image through a hybrid convolutional network. Different from the state of the art methods where features are extracted by a sole feature extraction network for both tasks, the proposed HybridNet improves the features extraction by separating the relevant features for one task from those which are relevant for both. Experimental results demonstrate that HybridNet results are comparable with the state of the art methods, as well as the single task methods that HybridNet is based on.
翻訳日:2024-02-12 16:01:00 公開日:2024-02-09
# 正規化流れによる分布外検出の特徴密度推定

Feature Density Estimation for Out-of-Distribution Detection via Normalizing Flows ( http://arxiv.org/abs/2402.06537v1 )

ライセンス: Link先を確認
Evan D. Cook, Marc-Antoine Lavoie, Steven L. Waslander(参考訳) アウト・オブ・ディストリビューション(OOD)検出は,オープンワールド環境での学習システムの安全な配置において重要な課題である。 本研究では,OOD検出の正規化フローによる特徴密度推定の利用について検討し,OODサンプル選択における研究者の偏りを回避し,OODデータへの露出を必要としない完全に教師なしのアプローチを提案する。 これは任意の事前訓練されたモデルに適用可能なポストホック法であり、軽量補助正規化フローモデルを訓練し、密度閾値による分散検出を行う。 画像分類におけるOOD検出実験は、画像Net-1kとテクスチュアの98.2%のAUROCを含む、フロートレーニングの1つのエポックで極OODデータ検出の強力な結果を示している。 さらに,事前学習モデルの特徴空間分布と提案手法の性能との関係についても検討する。 最後に,ood検出に使用するフローの正規化に苦しんだ落とし穴の訓練について考察する。

Out-of-distribution (OOD) detection is a critical task for safe deployment of learning systems in the open world setting. In this work, we investigate the use of feature density estimation via normalizing flows for OOD detection and present a fully unsupervised approach which requires no exposure to OOD data, avoiding researcher bias in OOD sample selection. This is a post-hoc method which can be applied to any pretrained model, and involves training a lightweight auxiliary normalizing flow model to perform the out-of-distribution detection via density thresholding. Experiments on OOD detection in image classification show strong results for far-OOD data detection with only a single epoch of flow training, including 98.2% AUROC for ImageNet-1k vs. Textures, which exceeds the state of the art by 7.8%. We additionally explore the connection between the feature space distribution of the pretrained model and the performance of our method. Finally, we provide insights into training pitfalls that have plagued normalizing flows for use in OOD detection.
翻訳日:2024-02-12 16:00:45 公開日:2024-02-09
# Bandit Convexの最適化

Bandit Convex Optimisation ( http://arxiv.org/abs/2402.06535v1 )

ライセンス: Link先を確認
Tor Lattimore(参考訳) 帯域凸最適化は、ゼロ階凸最適化を研究するための基本的なフレームワークである。 これらのメモには、平面法、内部点法、連続指数重み付け、勾配降下、オンラインニュートンステップなど、この問題に使用される多くのツールが含まれている。 多くの仮定と設定の間のニュアンスを説明します。 ここにはそれほど新しいものはないが、既存のツールの中には新しいアルゴリズムを得るために新しい方法を適用するものもある。 いくつかの制限は小さな点で改善されている。

Bandit convex optimisation is a fundamental framework for studying zeroth-order convex optimisation. These notes cover the many tools used for this problem, including cutting plane methods, interior point methods, continuous exponential weights, gradient descent and online Newton step. The nuances between the many assumptions and setups are explained. Although there is not much truly new here, some existing tools are applied in novel ways to obtain new algorithms. A few bounds are improved in minor ways.
翻訳日:2024-02-12 16:00:26 公開日:2024-02-09
# 代理目的に対する生成的逆ベイズ最適化

Generative Adversarial Bayesian Optimization for Surrogate Objectives ( http://arxiv.org/abs/2402.06532v1 )

ライセンス: Link先を確認
Michael S. Yao, Yimeng Zeng, Hamsa Bastani, Jacob Gardner, James C. Gee, Osbert Bastani(参考訳) オフラインモデルに基づくポリシー最適化は、最適化中に真のオラクルの目的を問うことなく、学習した代理対象関数を最適化しようとする。 しかし、最適化軌道に沿って不正確な代理モデル予測が頻繁に発生する。 そこで本研究では,リプシッツ境界付きソース批評家モデルを用いたベイズ最適化のためのタスク非依存フレームワークであるadaptive source critic regularizationを用いて,gabo(generative adversarial bayesian optimization)を提案する。 連続的な入力空間に対する前提条件下では,本アルゴリズムはソース批判正規化の強度を動的に調整する。 GABOは、さまざまな科学的領域にわたるさまざまなオフライン最適化タスクにおいて、既存のベースラインを上回っている。 私たちのコードはhttps://github.com/michael-s-yao/gaboで利用可能です。

Offline model-based policy optimization seeks to optimize a learned surrogate objective function without querying the true oracle objective during optimization. However, inaccurate surrogate model predictions are frequently encountered along the optimization trajectory. To address this limitation, we propose generative adversarial Bayesian optimization (GABO) using adaptive source critic regularization, a task-agnostic framework for Bayesian optimization that employs a Lipschitz-bounded source critic model to constrain the optimization trajectory to regions where the surrogate function is reliable. We show that under certain assumptions for the continuous input space prior, our algorithm dynamically adjusts the strength of the source critic regularization. GABO outperforms existing baselines on a number of different offline optimization tasks across a variety of scientific domains. Our code is available at https://github.com/michael-s-yao/gabo
翻訳日:2024-02-12 16:00:19 公開日:2024-02-09
# 変化検出を考慮した点雲間のファサードラベルのセマンティックオクツリー移動

Transferring facade labels between point clouds with semantic octrees while considering change detection ( http://arxiv.org/abs/2402.06531v1 )

ライセンス: Link先を確認
Sophia Schwarz, Tanja Pilz, Olaf Wysocki, Ludwig Hoegner, Uwe Stilla(参考訳) ポイントクラウドと高解像度3dデータは、測量、構築、仮想現実など、さまざまな分野でますます重要になっている。 しかし、このデータを取得するだけでは不十分であり、有用な情報を抽出するにはセマンティックラベリングが不可欠である。 この文脈では,octree構造を用いてラベル付きからラベルなしのポイントクラウドへアノテーションを転送する手法を提案する。 この構造は点雲間の変化も分析する。 提案手法は変更に対処しながらアノテーションを効果的に転送する。 このプロジェクトの主な貢献は、同じ実世界のオブジェクトを表す2つの異なるポイントクラウド間のラベルの自動転送方法の開発である。 提案手法は,データ駆動型深層学習アルゴリズムにおいて非常に重要であり,同一対象を表すデータセット間の決定論的ラベル転送による確率的移動学習の回避を可能にする。

Point clouds and high-resolution 3D data have become increasingly important in various fields, including surveying, construction, and virtual reality. However, simply having this data is not enough; to extract useful information, semantic labeling is crucial. In this context, we propose a method to transfer annotations from a labeled to an unlabeled point cloud using an octree structure. The structure also analyses changes between the point clouds. Our experiments confirm that our method effectively transfers annotations while addressing changes. The primary contribution of this project is the development of the method for automatic label transfer between two different point clouds that represent the same real-world object. The proposed method can be of great importance for data-driven deep learning algorithms as it can also allow circumventing stochastic transfer learning by deterministic label transfer between datasets depicting the same objects.
翻訳日:2024-02-12 16:00:04 公開日:2024-02-09
# 心筋梗塞再定義 : 1クラス分類における新しい多モード複合カーネル戦略

Refining Myocardial Infarction Detection: A Novel Multi-Modal Composite Kernel Strategy in One-Class Classification ( http://arxiv.org/abs/2402.06530v1 )

ライセンス: Link先を確認
Muhammad Uzair Zahid, Aysen Degerli, Fahad Sohrab, Serkan Kiranyaz, and Moncef Gabbouj(参考訳) 冠動脈疾患(cad)に起因する臨界状態である心筋梗塞(mi)の早期発見は、さらなる心筋障害の予防に不可欠である。 心エコー法における一クラス分類法(OCC)を用いた早期MI検出法を提案する。 本研究は,マルチモーダルサブスペースサポートベクトルデータ記述に基づく新しいアプローチを採用することで,限られた心エコーデータ提供の課題を克服する。 提案手法は, 複合カーネルを非線形投影法に組み込んだ多視点心エコー法を用いて, ガウスとラプラシアのシグモイド関数を融合したMI検出フレームワークを含む。 さらに,最適化過程におけるモダリティの2つまたは1つについて最大化を適用することにより,投影行列の更新戦略を強化する。 心エコーデータから抽出した特徴を最適化された低次元部分空間に効率よく変換することでMI検出能力を向上する。 複数の心エコー図を含む総合的HMC-QUデータセットから、ターゲットクラスインスタンスに特化してトレーニングされたOCCモデルは、MI検出精度が著しく向上したことを示している。 以上の結果から,提案するマルチビューアプローチは71.24\%の幾何学的平均を達成し,心エコー図に基づくmi診断の大幅な進歩を示し,より高精度で効率的な診断ツールを提供することが示唆された。

Early detection of myocardial infarction (MI), a critical condition arising from coronary artery disease (CAD), is vital to prevent further myocardial damage. This study introduces a novel method for early MI detection using a one-class classification (OCC) algorithm in echocardiography. Our study overcomes the challenge of limited echocardiography data availability by adopting a novel approach based on Multi-modal Subspace Support Vector Data Description. The proposed technique involves a specialized MI detection framework employing multi-view echocardiography incorporating a composite kernel in the non-linear projection trick, fusing Gaussian and Laplacian sigmoid functions. Additionally, we enhance the update strategy of the projection matrices by adapting maximization for both or one of the modalities in the optimization process. Our method boosts MI detection capability by efficiently transforming features extracted from echocardiography data into an optimized lower-dimensional subspace. The OCC model trained specifically on target class instances from the comprehensive HMC-QU dataset that includes multiple echocardiography views indicates a marked improvement in MI detection accuracy. Our findings reveal that our proposed multi-view approach achieves a geometric mean of 71.24\%, signifying a substantial advancement in echocardiography-based MI diagnosis and offering more precise and efficient diagnostic tools.
翻訳日:2024-02-12 15:59:49 公開日:2024-02-09
# イントロスペクティブプランニング:言語対応エージェントが自身の不確かさを補う

Introspective Planning: Guiding Language-Enabled Agents to Refine Their Own Uncertainty ( http://arxiv.org/abs/2402.06529v1 )

ライセンス: Link先を確認
Kaiqu Liang, Zixu Zhang, Jaime Fern\'andez Fisac(参考訳) 大きな言語モデル(llm)は高度な推論スキルを示し、ロボットが自然言語命令を理解し、適切な接地を通じて高度なアクションを戦略的に計画できる。 しかし、LSM幻覚は、ユーザーの目標と不一致の計画を実行したり、極端な場合、安全でない計画を実行する。 さらに、自然言語命令に固有の曖昧さは、特に複数の有効な選択肢が存在する状況において、タスクの不確実性を引き起こす可能性がある。 この問題に対処するには、LSMはそのような不確実性を特定し、積極的に明確化を求める必要がある。 本稿では,ロボットタスク実行のための不確実性形成におけるllm誘導の体系的手法としてのイントロスペクティブ・プランニングの概念について検討する。 タスクレベルのロボット計画における不確実性定量化を調査し,イントロスペクションが成功率と安全性の両方を,最先端のllmベースの計画手法と比較して著しく改善することを示す。 さらに,コンフォメーション予測と連動してイントロスペクティブプランニングの有効性を評価し,この組み合わせにより信頼性境界がより強くなり,過剰なユーザ明確化クエリが少ない統計的成功保証が維持されることを示した。

Large language models (LLMs) exhibit advanced reasoning skills, enabling robots to comprehend natural language instructions and strategically plan high-level actions through proper grounding. However, LLM hallucination may result in robots confidently executing plans that are misaligned with user goals or, in extreme cases, unsafe. Additionally, inherent ambiguity in natural language instructions can induce task uncertainty, particularly in situations where multiple valid options exist. To address this issue, LLMs must identify such uncertainty and proactively seek clarification. This paper explores the concept of introspective planning as a systematic method for guiding LLMs in forming uncertainty--aware plans for robotic task execution without the need for fine-tuning. We investigate uncertainty quantification in task-level robot planning and demonstrate that introspection significantly improves both success rates and safety compared to state-of-the-art LLM-based planning approaches. Furthermore, we assess the effectiveness of introspective planning in conjunction with conformal prediction, revealing that this combination yields tighter confidence bounds, thereby maintaining statistical success guarantees with fewer superfluous user clarification queries.
翻訳日:2024-02-12 15:59:26 公開日:2024-02-09
# 自由フェルミオンの監視系における異なるアンレーブリングの影響

The impact of different unravelings in a monitored system of free fermions ( http://arxiv.org/abs/2402.06597v1 )

ライセンス: Link先を確認
Giulia Piccitto, Davide Rossini and Angelo Russomanno(参考訳) 我々は、2つの異なるランダム測定プロトコル(unravelings:量子状態拡散と量子ジャンプ)によって記述される、強調する自由フェルミオン鎖を考える。 どちらのプロトコルも状態は Slater-determinant 形式で保持され、非常に大きなシステムサイズに対応できる。 量子軌道に沿った測定作用素の分布に分岐遷移が見られ、そこでは非モダルからバイモーダルへと変化する。 このような遷移が起こる測定強度の値は2つの未発見物と似ているが、分布と遷移は2つの測定プロトコルの対称性を反映する性質が異なる。 また,スレイター決定成分の逆参加率のシステムサイズによるスケーリングを考察し,マルチフラクタルな振る舞いを示すパワーロースケーリングを,非レーブリングと非破壊的測定強度の両方において見出した。

We consider a free-fermion chain undergoing dephasing, described by two different random-measurement protocols (unravelings): a quantum-state-diffusion and a quantum-jump one. Both protocols keep the state in a Slater-determinant form, allowing to address quite large system sizes. We find a bifurcation transition in the distribution of the measurement operators along the quantum trajectories, where it changes from unimodal to bimodal. The value of the measurement strength where such transition occurs is similar for the two unravelings, but the distributions and the transition have different properties reflecting the symmetries of the two measurement protocols. We also consider the scaling with the system size of the inverse participation ratio of the Slater-determinant components and find a power-law scaling that marks a multifractal behaviour, in both unravelings and for any nonvanishing measurement strength.
翻訳日:2024-02-12 15:52:07 公開日:2024-02-09
# 複雑なAndroid環境における大規模言語モデルエージェントの弱さの理解

Understanding the Weakness of Large Language Model Agents within a Complex Android Environment ( http://arxiv.org/abs/2402.06596v1 )

ライセンス: Link先を確認
Mingzhe Xing, Rongkai Zhang, Hui Xue, Qi Chen, Fan Yang, Zhen Xiao(参考訳) 大規模言語モデル(llm)は、ブラウザやゲームといったドメイン固有のソフトウェア内で複雑なタスクを実行するインテリジェントエージェントに権限を与えている。 しかし、オペレーティングシステムのような汎用ソフトウェアシステムに適用すると、llmエージェントは3つの大きな課題に直面する。 第一に、アクションスペースは広く動的であり、llmエージェントが最新の理解を維持し、正確な応答を提供するのに困難をもたらす。 第二に、現実世界のタスクはアプリケーション間協力を必要とし、LLMエージェントからの遠視的計画を要求する。 第3に,セキュリティ上の懸念や優先事項など,ユーザの制約に沿った最適なソリューションを特定する必要がある。 これらの課題は、現代的なオペレーティングシステム上でLLMエージェントを評価するために設計された環境とベンチマークであるAndroidArenaを動機付けている。 低コストなマンパワーを実現するため,ベンチマークを構築するためのスケーラブルで半自動的な手法を設計する。 タスク評価では、AndroidArenaは、非共通ソリューションの問題に対処するために、正確で適応的なメトリクスを取り入れている。 以上の結果から,最先端のLLMエージェントでさえ,クロスアプリケーションシナリオに苦慮し,特定の制約に固執していることが判明した。 さらに, LLMエージェントの失敗の原因として, 理解, 推論, 探索, リフレクションの4つの重要な能力の欠如があげられる。 さらに,リフレクションの失敗に関する実証分析を行い,提案手法による成功率を27%向上させる。 この研究は、LSMエージェントのきめ細かい弱点を理解するための貴重な知見を初めて提示し、この分野における今後の研究への道筋を提供する。 AndroidArenaの環境、ベンチマーク、評価コードはhttps://github.com/AndroidArenaAgent/AndroidArenaで公開されている。

Large language models (LLMs) have empowered intelligent agents to execute intricate tasks within domain-specific software such as browsers and games. However, when applied to general-purpose software systems like operating systems, LLM agents face three primary challenges. Firstly, the action space is vast and dynamic, posing difficulties for LLM agents to maintain an up-to-date understanding and deliver accurate responses. Secondly, real-world tasks often require inter-application cooperation}, demanding farsighted planning from LLM agents. Thirdly, agents need to identify optimal solutions aligning with user constraints, such as security concerns and preferences. These challenges motivate AndroidArena, an environment and benchmark designed to evaluate LLM agents on a modern operating system. To address high-cost of manpower, we design a scalable and semi-automated method to construct the benchmark. In the task evaluation, AndroidArena incorporates accurate and adaptive metrics to address the issue of non-unique solutions. Our findings reveal that even state-of-the-art LLM agents struggle in cross-APP scenarios and adhering to specific constraints. Additionally, we identify a lack of four key capabilities, i.e., understanding, reasoning, exploration, and reflection, as primary reasons for the failure of LLM agents. Furthermore, we provide empirical analysis on the failure of reflection, and improve the success rate by 27% with our proposed exploration strategy. This work is the first to present valuable insights in understanding fine-grained weakness of LLM agents, and offers a path forward for future research in this area. Environment, benchmark, and evaluation code for AndroidArena are released at https://github.com/AndroidArenaAgent/AndroidArena.
翻訳日:2024-02-12 15:51:47 公開日:2024-02-09
# 二次リンドブラジアンの線形および非線形応答

Linear and Non-Linear Response of Quadratic Lindbladians ( http://arxiv.org/abs/2402.06593v1 )

ライセンス: Link先を確認
Spenser Talkington, Martin Claassen(参考訳) 擬似リンドブレディアンは、新しいエキゾチック物理学をホストすると予測された、散逸性電子量子系とボソニック量子系の豊富なクラスを含んでいる。 本研究では,有限周波線形および非線形プローブによる定常応答特性と散逸相転移を解明するオープン量子システムのためのlindblad-keldysh分光応答形式を開発した。 例として、(1)境界駆動xyモデルの臨界付近における密度および動的スピン感受性、(2)散逸性リードに結合したベルナル二層グラフェンの線形および非線形光学応答、(3)ボソニック光学格子における定常状態感受性を計算する。 xyモデルスピン密度波長は臨界指数1/2で発散し、動的スピン応答にはギャップのない分散モードがあり、スピン密度波長が増加するにつれてこれらのモードとの結合は減少する。 ベルナル二層膜の光学的応答において, 占有の増加に伴って反磁性応答が減少する可能性があることを, 職業に対して単調に増大する閉系と異なり, 第二高調波発生とシフト電流の影響について検討し, 遠心対称閉系において禁止されたこれらの応答が散逸によってこれらの開系に現れることを見出した。 この形式を平衡系と比較し、これらの非相互作用開系と強く相互作用する閉系との類似性を引き出す。

Quadratic Lindbladians encompass a rich class of dissipative electronic and bosonic quantum systems, which have been predicted to host new and exotic physics. In this study, we develop a Lindblad-Keldysh spectroscopic response formalism for open quantum systems that elucidates their steady-state response properties and dissipative phase transitions via finite-frequency linear and non-linear probes. As illustrative examples, we utilize this formalism to calculate the (1) density and dynamic spin susceptibilities of a boundary driven XY model at and near criticality, (2) linear and non-linear optical responses in Bernal bilayer graphene coupled to dissipative leads, and (3) steady state susceptibilities in a bosonic optical lattice. We find that the XY model spin density wavelength diverges with critical exponent 1/2, and there are gapless dispersive modes in the dynamic spin response and the coupling to these modes decreases as the spin density wavelength increases. In the optical response of the Bernal bilayer, we find that the diamagnetic response can decrease with increasing occupation, as opposed to in closed systems where the response increases monotonically with occupation; we study the effect of second harmonic generation and shift current and find that these responses, forbidden in centrosymmetric closed systems, can manifest in these open systems as a result of dissipation. We compare this formalism to its equilibrium counterpart and draw analogies between these non-interacting open systems and strongly interacting closed systems.
翻訳日:2024-02-12 15:51:19 公開日:2024-02-09
# 音声認識のための自己整合型コンフォメータトランスデューサ

Self-consistent context aware conformer transducer for speech recognition ( http://arxiv.org/abs/2402.06592v1 )

ライセンス: Link先を確認
Konstantin Kolokolov, Pavel Pekichev, Karthik Raghunathan(参考訳) 本稿では,文脈情報フローをasrシステムに付加するコンフォーメータトランスデューサに基づくニューラルネットワークアーキテクチャを提案する。 本手法は、通常の単語の単語誤り率を損なうことなく、まれな単語を認識できる精度を向上させる。 我々は,新しいモデルや文脈言語モデルとの浅い融合を用いた場合の単語精度の向上について検討する。 その結果, 単語認識精度は, 両者の組み合わせが累積的に向上することがわかった。

We propose a novel neural network architecture based on conformer transducer that adds contextual information flow to the ASR systems. Our method improves the accuracy of recognizing uncommon words while not harming the word error rate of regular words. We explore the uncommon words accuracy improvement when we use the new model and/or shallow fusion with context language model. We found that combination of both provides cumulative gain in uncommon words recognition accuracy.
翻訳日:2024-02-12 15:50:50 公開日:2024-02-09
# 予測表現:知性のブロックの構築

Predictive representations: building blocks of intelligence ( http://arxiv.org/abs/2402.06590v1 )

ライセンス: Link先を確認
Wilka Carvalho, Momchil S. Tomov, William de Cothi, Caswell Barry, Samuel J. Gershman(参考訳) 適応行動は、しばしば将来の出来事を予測する必要がある。 強化学習の理論は、どのような予測表現が有用か、どのように計算するかを規定している。 本稿では,これらの理論概念を認知と神経科学の研究と統合する。 我々は、後継表現(SR)とその一般化に特に注意を払っており、工学ツールや脳機能のモデルとして広く適用されてきた。 この収束は、特定の種類の予測表現が知能の多彩な構成要素として機能することを示唆している。

Adaptive behavior often requires predicting future events. The theory of reinforcement learning prescribes what kinds of predictive representations are useful and how to compute them. This paper integrates these theoretical ideas with work on cognition and neuroscience. We pay special attention to the successor representation (SR) and its generalizations, which have been widely applied both as engineering tools and models of brain function. This convergence suggests that particular kinds of predictive representations may function as versatile building blocks of intelligence.
翻訳日:2024-02-12 15:50:43 公開日:2024-02-09
# G-SciEdBERT:ドイツにおける科学評価のための文脈的LLM

G-SciEdBERT: A Contextualized LLM for Science Assessment Tasks in German ( http://arxiv.org/abs/2402.06584v1 )

ライセンス: Link先を確認
Ehsan Latif, Gyeong-Geon Lee, Knut Neuman, Tamara Kastorff, and Xiaoming Zhai(参考訳) 自然言語処理の進歩は、ドイツ語(例えば、ドイツ語 BERT [G-BERT])のような様々な言語における自動スコアリングシステムへの道を開いた。 ドイツ語で書かれた質問に対する自動的な回答は複雑な作業であり、科学領域における文脈的知識が欠如しており、学生の書き方と整合していないため、標準のG-BERTでは困難である。 本稿では,ドイツで書かれた科学課題に対する応答を評価するための,革新的な大規模言語モデルである,文脈化されたドイツ語科学教育BERT(G-SciEdBERT)を開発した。 G-BERTを用いて、G-SciEdBERTを5Mトークンで50万のドイツ製書物応答コーパスで事前訓練し、国際学生評価プログラム(PISA)2015に導入した。 59項目についてG-SciEdBERTを微調整し,評価精度を検討した。 そして、パフォーマンスをG-BERTと比較した。 G-SciEdBERTでは,G-BERTに比べて2次重み付きカッパが10%増加した(平均精度差: 0.096, SD = 0.024)。 これらの洞察は、自動スコアリングの精度を高めるために訓練されたG-SciEdBERTのような専門的な言語モデルの重要性を浮き彫りにしている。

The advancement of natural language processing has paved the way for automated scoring systems in various languages, such as German (e.g., German BERT [G-BERT]). Automatically scoring written responses to science questions in German is a complex task and challenging for standard G-BERT as they lack contextual knowledge in the science domain and may be unaligned with student writing styles. This paper developed a contextualized German Science Education BERT (G-SciEdBERT), an innovative large language model tailored for scoring German-written responses to science tasks. Using G-BERT, we pre-trained G-SciEdBERT on a corpus of 50K German written science responses with 5M tokens to the Programme for International Student Assessment (PISA) 2015. We fine-tuned G-SciEdBERT on 59 assessment items and examined the scoring accuracy. We then compared its performance with G-BERT. Our findings reveal a substantial improvement in scoring accuracy with G-SciEdBERT, demonstrating a 10% increase of quadratic weighted kappa compared to G-BERT (mean accuracy difference = 0.096, SD = 0.024). These insights underline the significance of specialized language models like G-SciEdBERT, which is trained to enhance the accuracy of automated scoring, offering a substantial contribution to the field of AI in education.
翻訳日:2024-02-12 15:50:36 公開日:2024-02-09
# 熱平衡におけるメトロロジーの基本限界

Fundamental limits of metrology at thermal equilibrium ( http://arxiv.org/abs/2402.06582v1 )

ライセンス: Link先を確認
Paolo Abiuso, Pavel Sekatski, John Calsamiglia, Mart\'i Perarnau-Llobet(参考訳) 熱平衡における量子プローブによる未知パラメータ$\theta$の推定について考察する。 プローブはハミルトニアンの $h_\theta$ に従ってギブス状態にあると仮定され、パラメータエンコーディング項 $h^p_\theta$ とパラメータに依存しない追加の制御 $h^c$ に分けられる。 固定符号化が与えられた場合、任意の$H^C$で得られる最大量子フィッシャー情報が測定精度に基礎的拘束を与える。 限界が示すのは (i) $h^c$ の完全な制御を仮定すると、量子非可換性は $\theta$; の推定において基本的な利点を与えない。 (ii)$H^C$がスペクトルギャップを持つように制約された場合、低温で指数量子優位が生じる。 (iii) 局所的に符号化されたパラメータの場合、最適感度はプローブの粒子数の観点からハイゼンベルク様の$N^2$-scalingを示し、局所的な測定で到達できる。 その結果をスピンチェーンモデルに応用し, 局所的な2体相互作用を用いてその限界にアプローチできることを示した。 その結果, 臨界点近傍のプローブを含む熱・基底状態プローブを用いたメトロロジーの基本限界と最適制御が設定された。

We consider the estimation of an unknown parameter $\theta$ through a quantum probe at thermal equilibrium. The probe is assumed to be in a Gibbs state according to its Hamiltonian $H_\theta$, which is divided in a parameter-encoding term $H^P_\theta$ and an additional, parameter-independent, control $H^C$. Given a fixed encoding, we find the maximal Quantum Fisher Information attainable via arbitrary $H^C$, which provides a fundamental bound on the measurement precision. Our bounds show that: (i) assuming full control of $H^C$, quantum non-commutativity does not offer any fundamental advantage in the estimation of $\theta$; (ii) an exponential quantum advantage arises at low temperatures if $H^C$ is constrained to have a spectral gap; (iii) in the case of locally-encoded parameters, the optimal sensitivity presents a Heisenberg-like $N^2$-scaling in terms of the number of particles of the probe, which can be reached with local measurements. We apply our results to paradigmatic spin chain models, showing that these fundamental limits can be approached using local two-body interactions. Our results set the fundamental limits and optimal control for metrology with thermal and ground state probes, including probes at the verge of criticality.
翻訳日:2024-02-12 15:50:09 公開日:2024-02-09
# 部品の総和以上のもの:小ショットセグメンテーションのためのバックボーンネットワークの構築

More than the Sum of Its Parts: Ensembling Backbone Networks for Few-Shot Segmentation ( http://arxiv.org/abs/2402.06581v1 )

ライセンス: Link先を確認
Nico Catalano, Alessandro Maranelli, Agnese Chiatti, Matteo Matteucci(参考訳) セマンティックセグメンテーションは、\acrlong{ai}とロボティクスのアプリケーションのロバストなイメージ理解のための重要な前提条件である。 特に \acrlong{fss} は、限られた訓練例が利用できる困難な条件下での従来のセグメンテーション法の拡張と最適化に関するものである。 acrlong{fss} の主なアプローチは、視覚的な特徴抽出のために単一のバックボーンに依存することである。 どのバックボーンを利用するかを選択することは、全体的なパフォーマンスに寄与する決定要因です。 本研究では,異なるバックボーンから機能を融合させることで,よりリッチな視覚的特徴を捉えることができるかどうかを問う。 この問題に取り組むため,我々は2つのセンシング手法-独立投票法と機能融合法を提案,比較する。 利用可能な \acrlong{fss} メソッドのうち、提案手法を panet 上で実装する。 PANetのバックボーン埋め込みからセグメンテーションマスクを予測するためのモジュールは、トレーニング可能なパラメータを避け、異なるアンサンブル戦略の影響を分離するための制御された‘in vitro’設定を生成する。 異なるバックボーンの補完的な強みを活用することで、我々のアプローチは、ワンショット学習シナリオに挑戦しても、標準ベンチマークでオリジナルのシングルバックボーンpanetを上回っています。 具体的には、PASCAL-5\textsuperscript{i}で+7.37\%、COCO-20\textsuperscript{i}で+10.68\%のパフォーマンス向上を実現した。 これらの結果は、予測された被写体マスクの質的検査とともに、panetの複数のバックボーンに依存することがより包括的な特徴表現につながることを示唆し、挑戦的なデータ収集環境での \acrlong{fss} メソッドの成功を早めた。

Semantic segmentation is a key prerequisite to robust image understanding for applications in \acrlong{ai} and Robotics. \acrlong{fss}, in particular, concerns the extension and optimization of traditional segmentation methods in challenging conditions where limited training examples are available. A predominant approach in \acrlong{fss} is to rely on a single backbone for visual feature extraction. Choosing which backbone to leverage is a deciding factor contributing to the overall performance. In this work, we interrogate on whether fusing features from different backbones can improve the ability of \acrlong{fss} models to capture richer visual features. To tackle this question, we propose and compare two ensembling techniques-Independent Voting and Feature Fusion. Among the available \acrlong{fss} methods, we implement the proposed ensembling techniques on PANet. The module dedicated to predicting segmentation masks from the backbone embeddings in PANet avoids trainable parameters, creating a controlled `in vitro' setting for isolating the impact of different ensembling strategies. Leveraging the complementary strengths of different backbones, our approach outperforms the original single-backbone PANet across standard benchmarks even in challenging one-shot learning scenarios. Specifically, it achieved a performance improvement of +7.37\% on PASCAL-5\textsuperscript{i} and of +10.68\% on COCO-20\textsuperscript{i} in the top-performing scenario where three backbones are combined. These results, together with the qualitative inspection of the predicted subject masks, suggest that relying on multiple backbones in PANet leads to a more comprehensive feature representation, thus expediting the successful application of \acrlong{fss} methods in challenging, data-scarce environments.
翻訳日:2024-02-12 15:49:45 公開日:2024-02-09
# SAE: ニューラルネットワークを組み込んだ単一アーキテクチャ

SAE: Single Architecture Ensemble Neural Networks ( http://arxiv.org/abs/2402.06580v1 )

ライセンス: Link先を確認
Martin Ferianc, Hongxiang Fan, Miguel Rodrigues(参考訳) 異なるニューラルネットワーク(NN)のアンサンブルは、タスク間の単一NNよりも精度と信頼性のキャリブレーションが優れている。 最近の手法では、初期エグジットやマルチ入力マルチアウトプットフレームワークを介して単一のネットワーク内でアンサンブルを圧縮している。 しかし、これらの手法の状況は断片化されており、与えられたタスクに対して適切なアプローチを選択することは困難である。 さらに、これらの手法のアルゴリズム性能は、異なるNNのアンサンブルの背後にあり、広範なアーキテクチャチューニングを必要とする。 本稿では,これらのアプローチを単一アーキテクチャアンサンブル(SAE)に統合する手法を提案する。 本手法は,単一NNにおいてアンサンブル入力毎に最適な出口数と深さを学習する。 これにより、saeフレームワークは、所定のアーキテクチャやアプリケーションの構成を柔軟に調整できる。 我々は,様々なネットワークアーキテクチャタイプとサイズにわたる画像分類と回帰に関するsaeを評価する。 計算演算やパラメータカウントを最大1.5{\sim}3.7\times$に削減しながら、ベースラインに対する競合精度や信頼性の校正を実証する。

Ensembles of separate neural networks (NNs) have shown superior accuracy and confidence calibration over single NN across tasks. Recent methods compress ensembles within a single network via early exits or multi-input multi-output frameworks. However, the landscape of these methods is fragmented thus far, making it difficult to choose the right approach for a given task. Furthermore, the algorithmic performance of these methods is behind the ensemble of separate NNs and requires extensive architecture tuning. We propose a novel methodology unifying these approaches into a Single Architecture Ensemble (SAE). Our method learns the optimal number and depth of exits per ensemble input in a single NN. This enables the SAE framework to flexibly tailor its configuration for a given architecture or application. We evaluate SAEs on image classification and regression across various network architecture types and sizes. We demonstrate competitive accuracy or confidence calibration to baselines while reducing the compute operations or parameter count by up to $1.5{\sim}3.7\times$.
翻訳日:2024-02-12 15:49:10 公開日:2024-02-09
# 結合型正規化流れの普遍性について

On the Universality of Coupling-based Normalizing Flows ( http://arxiv.org/abs/2402.06578v1 )

ライセンス: Link先を確認
Felix Draxler, Stefan Wahl, Christoph Schn\"orr, Ullrich K\"othe(参考訳) 本稿では,realnvpのような結合型正規化流れの表現力を理解するための新しい理論的枠組みを提案する。 科学的応用が盛んであるにもかかわらず、結合フローの包括的理解は、その制限されたアーキテクチャのためにいまだに解明されていない。 既存の定理は、任意に不条件のニューラルネットワークを使用する必要があるため、実用性を制限するため、不足している。 さらに、これらの構造が本質的に容積保存フローに結びついていることを示し、これは表現性の基本的な制約であることを示す。 本稿では,事前作業の制約を克服した結合に基づく正規化フローに対する新しい分布普遍性定理を提案する。 この結果は,結合アーキテクチャが表現的であることの一般的な認識を支持し,結合関数の表現性を選択し,経験的結果と理論的理解のギャップを埋めるニュアンス的な視点を提供する。

We present a novel theoretical framework for understanding the expressive power of coupling-based normalizing flows such as RealNVP. Despite their prevalence in scientific applications, a comprehensive understanding of coupling flows remains elusive due to their restricted architectures. Existing theorems fall short as they require the use of arbitrarily ill-conditioned neural networks, limiting practical applicability. Additionally, we demonstrate that these constructions inherently lead to volume-preserving flows, a property which we show to be a fundamental constraint for expressivity. We propose a new distributional universality theorem for coupling-based normalizing flows, which overcomes several limitations of prior work. Our results support the general wisdom that the coupling architecture is expressive and provide a nuanced view for choosing the expressivity of coupling functions, bridging a gap between empirical results and theoretical understanding.
翻訳日:2024-02-12 15:48:56 公開日:2024-02-09
# 波動関数の確率表現における決定性と導出自由量子モンテカルロ

Determinant and Derivative-Free Quantum Monte Carlo Within the Stochastic Representation of Wavefunctions ( http://arxiv.org/abs/2402.06577v1 )

ライセンス: Link先を確認
Liam Bernheimer, Hristiana Atanasova, and Guy Cohen(参考訳) 原子や分子のような連続的な実空間量子多体系の基底状態を記述することは、物理科学全体にわたる応用において重要な計算課題である。 近年の進歩は機械学習(ML)アンサテイズに基づく変分法によってなされている。 しかし、これらのアプローチはエネルギーの最小化に基づいているため、アンサテズは2回微分可能である必要がある。 これ (a)MLモデルの強力なクラスの多くの使用を妨げ、 (b)ボソニック、フェルミオン、その他の対称性の実施には費用がかかる。 さらに c) 最適化手順は、多くのパラメータを持つ現代のmlモデルにおいて非現実的に高価である仮想時間伝播によって行われない限り、しばしば不安定である。 Nat Commun 14 3601 (2023)で導入された波動関数の確率的表現は、克服への最近のアプローチである (c)。 SRWは、スケールでの想像的時間伝播を可能にし、問題の解に向かっていく (b)しかし、問題によって制限されている (a) ここでは、SRWと経路積分技術を組み合わせることで、3つの問題を同時に克服する新しい定式化が導かれることを論じる。 実演として,高調波井戸における相互作用粒子の一般化である‘hooke's atoms’に適用する。 本研究は,Fermi液とWigner分子の密閉殻系における交差関係を調べるために,可能な限り最先端データと比較した。 その結果、相互作用駆動対称性の破れと運動エネルギー駆動非局在化の競合に新たな光を当てた。

Describing the ground states of continuous, real-space quantum many-body systems, like atoms and molecules, is a significant computational challenge with applications throughout the physical sciences. Recent progress was made by variational methods based on machine learning (ML) ansatzes. However, since these approaches are based on energy minimization, ansatzes must be twice differentiable. This (a) precludes the use of many powerful classes of ML models; and (b) makes the enforcement of bosonic, fermionic, and other symmetries costly. Furthermore, (c) the optimization procedure is often unstable unless it is done by imaginary time propagation, which is often impractically expensive in modern ML models with many parameters. The stochastic representation of wavefunctions (SRW), introduced in Nat Commun 14, 3601 (2023), is a recent approach to overcoming (c). SRW enables imaginary time propagation at scale, and makes some headway towards the solution of problem (b), but remains limited by problem (a). Here, we argue that combining SRW with path integral techniques leads to a new formulation that overcomes all three problems simultaneously. As a demonstration, we apply the approach to generalized ``Hooke's atoms'': interacting particles in harmonic wells. We benchmark our results against state-of-the-art data where possible, and use it to investigate the crossover between the Fermi liquid and the Wigner molecule within closed-shell systems. Our results shed new light on the competition between interaction-driven symmetry breaking and kinetic-energy-driven delocalization.
翻訳日:2024-02-12 15:48:41 公開日:2024-02-09
# 4次元量子乱れ系における量子臨界性の探索

Exploring quantum criticality in a 4D quantum disordered system ( http://arxiv.org/abs/2402.06573v1 )

ライセンス: Link先を確認
Farid Madani, Maxime Denis, Pascal Szriftgiser, Jean Claude Garreau, Adam Ran\c{c}on, Radu Chicireanu(参考訳) 相転移は物理学を通じて広まり、水沸騰のような熱現象から固体内の磁気遷移にまたがる。 初期の宇宙における宇宙論的相転移と、高エネルギー衝突におけるクォークグルーオンプラズマへの遷移を包含する。 量子相転移(特に興味深い)は絶対零度付近の温度で起こり、熱ではなく量子ゆらぎによって駆動される。 ゆらぎの強さは、相転移の存在と性質を決定する物理系の次元性に非常に敏感である。 低次元系はしばしば相転移の抑制を示すが、高次元系は平均場のような振る舞いを示す傾向がある。 局在化-非局在化アンダーソン遷移は、すべての次元にわたってその非平均場特性を保持すると考えられているため、量子相転移の中で際立っている。 この研究は、合成次元の量子シミュレータとして超低温原子を用いた4次元のアンダーソン遷移を初めて観測し、キャラクタリゼーションするものである。 我々は相転移の近傍の普遍的なダイナミクスを特徴づける。 我々は、ウェグナーのスケーリング則に従うことが示されている臨界力学のスケール不変性を記述する臨界指数を測定する。 我々の研究は、アンダーソン遷移が次元 4 において平均場でないことを示す最初の実験である。

Phase transitions are prevalent throughout physics, spanning thermal phenomena like water boiling to magnetic transitions in solids. They encompass cosmological phase transitions in the early universe and the transition into a quark-gluon plasma in high-energy collisions. Quantum phase transitions, particularly intriguing, occur at temperatures near absolute zero and are driven by quantum fluctuations rather than thermal ones. The strength of the fluctuations is very sensitive to the dimensionality of the physical systems, which determines the existence and nature of phase transitions. Low-dimensional systems often exhibit suppression of phase transitions, while high-dimensional systems tend to exhibit mean-field-like behavior. The localization-delocalization Anderson transition stands out among quantum phase transitions, as it is thought to retain its non-mean-field character across all dimensions. This work marks the first observation and characterization of the Anderson transition in four dimensions using ultracold atoms as a quantum simulator with synthetic dimensions. We characterize the universal dynamics in the vicinity of the phase transition. We measure the critical exponents describing the scale-invariant properties of the critical dynamics, which are shown to obey Wegner's scaling law. Our work is the first experimental demonstration that the Anderson transition is not mean-field in dimension four.
翻訳日:2024-02-12 15:48:18 公開日:2024-02-09
# 効率的なユニバーサル形態制御のための蒸留型ハイパーネット

Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control ( http://arxiv.org/abs/2402.06570v1 )

ライセンス: Link先を確認
Zheng Xiong, Risto Vuorio, Jacob Beck, Matthieu Zimmer, Kun Shao, Shimon Whiteson(参考訳) 異なるロボット形態の普遍的なポリシーを学ぶことは、学習効率を著しく向上させ、ゼロショットの一般化を目に見えない形態の一般化を可能にする。 しかし、高性能なユニバーサルポリシーを学ぶには、より単純な多層パーセプトロン(MLP)よりもメモリと計算コストが大きいトランスフォーマー(TF)のような高度なアーキテクチャを必要とする。 TFのような優れた性能と、推論時のMLPのような高効率を実現するために、(1)ロボットのMDPポリシーを生成する形態条件付きハイパーネットワーク(HN)、(2)トレーニングを成功させるために不可欠なポリシー蒸留アプローチからなるHyperDistillを提案する。 何百もの多様な形態のベンチマークであるUNIMALにおいて、HyperDistillはトレーニングと未確認テストロボットの共通TF教師ポリシーと同様に、異なる環境でモデルサイズを6~14倍、計算コストを67~160倍削減することを示した。 我々の分析は、推論時間におけるHyperDistillの効率性は、知識分離、すなわち、タスク間知識とタスク内知識を分離する能力に起因している。

Learning a universal policy across different robot morphologies can significantly improve learning efficiency and enable zero-shot generalization to unseen morphologies. However, learning a highly performant universal policy requires sophisticated architectures like transformers (TF) that have larger memory and computational cost than simpler multi-layer perceptrons (MLP). To achieve both good performance like TF and high efficiency like MLP at inference time, we propose HyperDistill, which consists of: (1) A morphology-conditioned hypernetwork (HN) that generates robot-wise MLP policies, and (2) A policy distillation approach that is essential for successful training. We show that on UNIMAL, a benchmark with hundreds of diverse morphologies, HyperDistill performs as well as a universal TF teacher policy on both training and unseen test robots, but reduces model size by 6-14 times, and computational cost by 67-160 times in different environments. Our analysis attributes the efficiency advantage of HyperDistill at inference time to knowledge decoupling, i.e., the ability to decouple inter-task and intra-task knowledge, a general principle that could also be applied to improve inference efficiency in other domains.
翻訳日:2024-02-12 15:47:57 公開日:2024-02-09
# マルチUAV計画のための制約付き多目的最適化

Constrained multi-objective optimization for multi-UAV planning ( http://arxiv.org/abs/2402.06568v1 )

ライセンス: Link先を確認
Cristian Ramirez-Atencia, David Camacho(参考訳) 過去10年間で、無人航空機(uav)の開発は大幅に増加し、監視、危機管理、自動ミッション計画など多くの分野で使用されている。 この最後の分野は、複数の任務、uavおよび地上管制局を持つミッションの計画の探索と、メイズパン、燃料消費量、コストなどを含むいくつかの目的の最適化である。 本研究では,多目的進化アルゴリズムと制約満足度問題モデルを組み合わせたアルゴリズムを用いてこの問題を解き明かした。 このアルゴリズムは、複雑さを増すいくつかのミッションでテストされ、ミッションで考慮される異なる要素の計算複雑性が研究されている。

Over the last decade, developments in unmanned aerial vehicles (UAVs) has greatly increased, and they are being used in many fields including surveillance, crisis management or automated mission planning. This last field implies the search of plans for missions with multiple tasks, UAVs and ground control stations; and the optimization of several objectives, including makespan, fuel consumption or cost, among others. In this work, this problem has been solved using a multi-objective evolutionary algorithm combined with a constraint satisfaction problem model, which is used in the fitness function of the algorithm. The algorithm has been tested on several missions of increasing complexity, and the computational complexity of the different element considered in the missions has been studied.
翻訳日:2024-02-12 15:47:33 公開日:2024-02-09
# 薬のダークマターに何が隠されている? 医療におけるデータの欠如による学習

What is Hiding in Medicine's Dark Matter? Learning with Missing Data in Medical Practices ( http://arxiv.org/abs/2402.06563v1 )

ライセンス: Link先を確認
Neslihan Suzen, Evgeny M. Mirkes, Damian Roland, Jeremy Levesley, Alexander N. Gorban, Tim J. Coats(参考訳) 電子的患者記録(EPR)は豊富なデータを生成するが、重大な欠落情報を含んでいる。 この欠落したデータの理解と処理は、臨床データ分析の重要な部分であり、もし未修正のままなら、批判的な結論における分析と歪みのバイアスをもたらす可能性がある。 不足したデータは、医療専門家の行動パターンと関連付けられ、欠如したデータのインプットは、臨床決定の妥当性を高める可能性がある。 本研究は、単一センターの小児救急データと、英国最大の外傷性外傷データベース(TARN)の臨床監査データを用いて、欠失データと機械学習に基づく臨床データ計算の統計的理解と解釈に焦点をあてる。 救急科に紹介された小児の生命徴候と観察に関する56,961点のデータポイントについて検討した結果,欠如したデータが非ランダムである可能性が示唆され,医療従事者の行動パターンとの関連性が示唆された。 外傷例5,791例のTARNフィールド79例について検討した。 Singular Value Decomposition (SVD) と k-Nearest Neighbour (kNN) に基づく欠落データ計算手法を使用し、元のデータセットに対する計算結果を比較し、統計的に検証する。 我々は,最も類似した患者を見つけ,その属性をインキュベーションとみなすという,通常の臨床意思決定のパターンを示す最も優れたインキュベーションであると結論付けている。

Electronic patient records (EPRs) produce a wealth of data but contain significant missing information. Understanding and handling this missing data is an important part of clinical data analysis and if left unaddressed could result in bias in analysis and distortion in critical conclusions. Missing data may be linked to health care professional practice patterns and imputation of missing data can increase the validity of clinical decisions. This study focuses on statistical approaches for understanding and interpreting the missing data and machine learning based clinical data imputation using a single centre's paediatric emergency data and the data from UK's largest clinical audit for traumatic injury database (TARN). In the study of 56,961 data points related to initial vital signs and observations taken on children presenting to an Emergency Department, we have shown that missing data are likely to be non-random and how these are linked to health care professional practice patterns. We have then examined 79 TARN fields with missing values for 5,791 trauma cases. Singular Value Decomposition (SVD) and k-Nearest Neighbour (kNN) based missing data imputation methods are used and imputation results against the original dataset are compared and statistically tested. We have concluded that the 1NN imputer is the best imputation which indicates a usual pattern of clinical decision making: find the most similar patients and take their attributes as imputation.
翻訳日:2024-02-12 15:47:22 公開日:2024-02-09
# 言語モデルによるフィードバックループがコンテキスト内リワードハッキングを促進する

Feedback Loops With Language Models Drive In-Context Reward Hacking ( http://arxiv.org/abs/2402.06627v1 )

ライセンス: Link先を確認
Alexander Pan and Erik Jones and Meena Jagadeesan and Jacob Steinhardt(参考訳) 言語モデルは、Webページに読み書きするAPIをクエリし、人間の振る舞いを形作るコンテンツを生成し、自律的なエージェントとしてシステムコマンドを実行する。 これらの相互作用はフィードバックループを形成し、LLM出力は世界に影響を与える。 本稿では,テスト時のllmが(潜在的に暗黙的な)目標を最適化するが,プロセスに負の副作用をもたらすような,コンテキスト内報酬ハッキング(icrh)の原因となるフィードバックループを示す。 例えば、Twitterのエンゲージメントを高めるために展開されたLLMエージェントを考えてみましょう。 ICRHに繋がる2つのプロセス、すなわちアウトプットリファインメントとポリシーリファインメントを特定し、研究する。 これらのプロセスでは、静的データセットに対する評価は不十分です -- フィードバック効果を見逃すため、最も有害な振る舞いを捉えられないのです。 ICRHのインスタンス数を増やすために,評価のための3つの推奨事項を提供する。 AI開発が加速するにつれて、フィードバックループの効果が増大し、LCMの振る舞いを形作る上での役割を理解する必要性が高まる。

Language models influence the external world: they query APIs that read and write to web pages, generate content that shapes human behavior, and run system commands as autonomous agents. These interactions form feedback loops: LLM outputs affect the world, which in turn affect subsequent LLM outputs. In this work, we show that feedback loops can cause in-context reward hacking (ICRH), where the LLM at test-time optimizes a (potentially implicit) objective but creates negative side effects in the process. For example, consider an LLM agent deployed to increase Twitter engagement; the LLM may retrieve its previous tweets into the context window and make them more controversial, increasing engagement but also toxicity. We identify and study two processes that lead to ICRH: output-refinement and policy-refinement. For these processes, evaluations on static datasets are insufficient -- they miss the feedback effects and thus cannot capture the most harmful behavior. In response, we provide three recommendations for evaluation to capture more instances of ICRH. As AI development accelerates, the effects of feedback loops will proliferate, increasing the need to understand their role in shaping LLM behavior.
翻訳日:2024-02-12 15:39:05 公開日:2024-02-09
# イテレーティブ・プロンプティングが真実性に及ぼす影響を理解する

Understanding the Effects of Iterative Prompting on Truthfulness ( http://arxiv.org/abs/2402.06625v1 )

ライセンス: Link先を確認
Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju(参考訳) 大規模言語モデル(llms)の開発は、多くの分野に変化をもたらし、印象的なテキスト生成能力を提供している。 しかし、これらのモデルの信頼性と真実性は依然として懸念されている。 そこで本研究では, LLM応答を洗練させる戦略である反復的プロンプトについて検討し, LLM応答がLLMの真性に与える影響を検証した。 モデル応答の精度とキャリブレーションに与える影響を検証し,反復的プロンシングの複雑さを詳細に検討した。 以上の結果から,ナイーブ・プロンプト法が真偽を著しく損なうことが判明し,校正誤差が悪化した。 これらの課題に対応するために,我々は,特定された問題に対処するためのプロンプト型をいくつか紹介する。 これらの変異は、既存のベースラインよりも顕著な改善を示しており、将来の研究に有望な方向性を示している。 私たちの研究は反復的プロンプトの微妙な理解を提供し、llmの真実性を高める新しいアプローチを導入し、より正確で信頼できるaiシステムの開発に寄与します。

The development of Large Language Models (LLMs) has notably transformed numerous sectors, offering impressive text generation capabilities. Yet, the reliability and truthfulness of these models remain pressing concerns. To this end, we investigate iterative prompting, a strategy hypothesized to refine LLM responses, assessing its impact on LLM truthfulness, an area which has not been thoroughly explored. Our extensive experiments delve into the intricacies of iterative prompting variants, examining their influence on the accuracy and calibration of model responses. Our findings reveal that naive prompting methods significantly undermine truthfulness, leading to exacerbated calibration errors. In response to these challenges, we introduce several prompting variants designed to address the identified issues. These variants demonstrate marked improvements over existing baselines, signaling a promising direction for future research. Our work provides a nuanced understanding of iterative prompting and introduces novel approaches to enhance the truthfulness of LLMs, thereby contributing to the development of more accurate and trustworthy AI systems.
翻訳日:2024-02-12 15:38:45 公開日:2024-02-09
# 初心者が合金でソフトウェアモデルを書く方法の実証的研究

Empirically Exploring How Novices Write Software Models in Alloy ( http://arxiv.org/abs/2402.06624v1 )

ライセンス: Link先を確認
Ana Jovanovic and Allison Sullivan(参考訳) 宣言型モデルの記述には,システム構築前の自動推論や設計レベルのプロパティの修正,ビルド後の実装の自動テストとデバッグなど,数多くのメリットがある。 alloyは宣言型モデリング言語であり、システム設計の検証に適しています。 アロイの主な強みはシナリオ発見ツールセットであるアナライザであり、ユーザーはモデルの制約に従うすべての有効なシナリオをユーザーが提供するスコープまで探索することができる。 しかし、視覚化されたシナリオであっても、正しい合金モデルを書くのは難しい。 これを解決するために、成長する研究機関は、アロイモデルをデバッグするための様々なテクニックを探求する。 そこで本研究では,アロイを学習しようとする初心者が作成した97,000以上のモデルについて,実証的研究を行った。 我々は,将来の使用のための包括的なベンチマークの作成と,アロイモデル開発のためのデバッグと教育活動のガイドとなる一連の観察を行うために,ユーザが正しいモデルと間違ったモデルの両方を書く方法を検討する。

Writing declarative models has numerous benefits, ranging from automated reasoning and correction of design-level properties before systems are built, to automated testing and debugging of their implementations after they are built. Alloy is a declarative modeling language that is well-suited for verifying system designs. A key strength of Alloy is its scenario-finding toolset, the Analyzer, which allows users to explore all valid scenarios that adhere to the model's constraints up to a user-provided scope. However, even with visualized scenarios, it is difficult to write correct Alloy models. To address this, a growing body of work explores different techniques for debugging Alloy models. In order to develop and evaluate these techniques in an effective manor, this paper presents an empirical study of over 97,000 models written by novice users trying to learn Alloy. We investigate how users write both correct and incorrect models in order to produce a comprehensive benchmark for future use as well as a series of observations to guide debugging and educational efforts for Alloy model development.
翻訳日:2024-02-12 15:38:25 公開日:2024-02-09
# 進化的積単位ニューラルネットワークの分類のための二段階アルゴリズム

A two-stage algorithm in evolutionary product unit neural networks for classification ( http://arxiv.org/abs/2402.06622v1 )

ライセンス: Link先を確認
Antonio J. Tall\'on-Ballesteros and C\'esar Herv\'as-Mart\'inez(参考訳) 本稿では,進化過程の開始時に広範な多様性を付加する手法を提案する。 異なるパラメータ設定で2つの初期個体群を作成し、少数の世代で進化させ、同じ割合で各個体群から最高の個体群を選択し、それらを組み合わせて新しい初期個体群を構成する。 この時点では、進化的アルゴリズムの主ループが新しい人口に適用される。 その結果,提案手法は従来手法の効率を著しく向上させるとともに,ほとんどのデータセットにおける有効性も向上することがわかった。 UCIレポジトリの12のデータセットと,そのインスタンス数,特徴量,クラス数が異なる2つの複雑な実世界の問題について実験を行った。

This paper presents a procedure to add broader diversity at the beginning of the evolutionary process. It consists of creating two initial populations with different parameter settings, evolving them for a small number of generations, selecting the best individuals from each population in the same proportion and combining them to constitute a new initial population. At this point the main loop of an evolutionary algorithm is applied to the new population. The results show that our proposal considerably improves both the efficiency of previous methodologies and also, significantly, their efficacy in most of the data sets. We have carried out our experimentation on twelve data sets from the UCI repository and two complex real-world problems which differ in their number of instances, features and classes.
翻訳日:2024-02-12 15:38:07 公開日:2024-02-09
# Aya Dataset: 多言語インストラクションチューニングのためのOpen-Accessコレクション

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning ( http://arxiv.org/abs/2402.06619v1 )

ライセンス: Link先を確認
Shivalika Singh, Freddie Vargus, Daniel Dsouza, B\"orje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemi\'nski, Hakimeh Fadaei, Irem Erg\"un, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet \"Ust\"un, Marzieh Fadaee, Sara Hooker(参考訳) データセットは、現代の人工知能における多くのブレークスルーの基礎となる。 自然言語処理(NLP)の分野での最近の多くの成果は、大規模言語モデル(LLM)が命令に応答できるように、様々なタスクセットで事前訓練されたモデルの微調整に起因している。 インストラクション微調整(IFT)には、特別な構築と注釈付きデータセットが必要である。 しかし、既存のデータセットはほとんどが英語である。 本研究では,65言語にまたがる人為的な命令追従データセットを構築することで,言語ギャップを埋めることを目的とする。 私たちは世界中の言語に精通した話者と協力し、命令と完了の自然な例を集めました。 さらに、114言語にまたがる既存のデータセットをテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。 Aya Annotation Platform、Aya Dataset、Aya Collection、Aya Evaluation Suiteの4つの主要なリソースをオープンソースとして提供しています。 ayaイニシアチブは119カ国の協力者を含む参加型研究における貴重なケーススタディでもある。 これは、リソースのギャップを埋めることを目的とした将来の研究協力のための貴重なフレームワークであると考えています。

Datasets are foundational to many breakthroughs in modern artificial intelligence. Many recent achievements in the space of natural language processing (NLP) can be attributed to the finetuning of pre-trained models on a diverse set of tasks that enables a large language model (LLM) to respond to instructions. Instruction fine-tuning (IFT) requires specifically constructed and annotated datasets. However, existing datasets are almost all in the English language. In this work, our primary goal is to bridge the language gap by building a human-curated instruction-following dataset spanning 65 languages. We worked with fluent speakers of languages from around the world to collect natural instances of instructions and completions. Furthermore, we create the most extensive multilingual collection to date, comprising 513 million instances through templating and translating existing datasets across 114 languages. In total, we contribute four key resources: we develop and open-source the Aya Annotation Platform, the Aya Dataset, the Aya Collection, and the Aya Evaluation Suite. The Aya initiative also serves as a valuable case study in participatory research, involving collaborators from 119 countries. We see this as a valuable framework for future research collaborations that aim to bridge gaps in resources.
翻訳日:2024-02-12 15:37:54 公開日:2024-02-09
# FaBERT:ペルシャのブログでBERTを事前トレーニング

FaBERT: Pre-training BERT on Persian Blogs ( http://arxiv.org/abs/2402.06617v1 )

ライセンス: Link先を確認
Mostafa Masumi, Seyed Soroush Majd, Mehrnoush Shamsfard, Hamid Beigy(参考訳) 本稿では,HmBlogsコーパスで事前訓練されたペルシャのBERTベースモデルであるFaBERTを紹介する。 FaBERTは従来の自然言語理解(NLU)タスクに優れ、ペルシア語で広く使われている多様な文構造や言語スタイルの複雑さに対処するように設計されている。 各種下流タスクにおける12のデータセットに対するFaBERTの包括的評価では、知覚分析(SA)、名前付きエンティティ認識(NER)、自然言語推論(NLI)、質問回答(QA)、質問回答(QP)の順に、コンパクトなモデルサイズで達成されたパフォーマンスを一貫して示す。 この発見は,ペルシャ自然言語処理(NLP)アプリケーションにおけるBERTのような言語モデルの性能を高めるために,HmBlogsのような多様でクリーンなコーパスを活用することの重要性を強調した。 fabertはhttps://huggingface.co/sbunlp/fabertでオープンアクセス可能

We introduce FaBERT, a Persian BERT-base model pre-trained on the HmBlogs corpus, encompassing both informal and formal Persian texts. FaBERT is designed to excel in traditional Natural Language Understanding (NLU) tasks, addressing the intricacies of diverse sentence structures and linguistic styles prevalent in the Persian language. In our comprehensive evaluation of FaBERT on 12 datasets in various downstream tasks, encompassing Sentiment Analysis (SA), Named Entity Recognition (NER), Natural Language Inference (NLI), Question Answering (QA), and Question Paraphrasing (QP), it consistently demonstrated improved performance, all achieved within a compact model size. The findings highlight the importance of utilizing diverse and cleaned corpora, such as HmBlogs, to enhance the performance of language models like BERT in Persian Natural Language Processing (NLP) applications. FaBERT is openly accessible at https://huggingface.co/sbunlp/fabert
翻訳日:2024-02-12 15:37:33 公開日:2024-02-09
# トランスモンにおける計測誘起イオン化の統一像

Unified picture of measurement-induced ionization in the transmon ( http://arxiv.org/abs/2402.06615v1 )

ライセンス: Link先を確認
Marie Fr\'ed\'erique Dumas, Benjamin Groleau-Par\'e, Alexander McDonald, Manuel H. Mu\~noz-Arias, Crist\'obal Lled\'o, Benjamin D'Anjou, Alexandre Blais(参考訳) 現在到達可能な高い測定精度にもかかわらず、回路量子力学の分散量子ビットの読み出しは、その量子非劣化特性の喪失と測定強度の増大によるフィデリティの低下に悩まされている。 この研究で我々は、トランスモンイオン化(transmon ionization)と呼ばれるこの動的過程の性質を解明する。 トランスモンイオン化の起源の統一的な物理像を提供する包括的枠組みを開発する。 この枠組みは、完全量子化トランスモン共鳴モデル、共振器をトランスモンの古典駆動として扱う半古典モデル、完全古典モデルという3つの相補的な記述レベルで構成されている。 重要なことに、3つのアプローチは全てトランスモンの完全なコサインポテンシャルを保持し、同様の予測をもたらす。 この枠組みは、トランスモンイオン化に関与する多光子共鳴を同定する。 また、イオン化のための光子数しきい値の計算を効率よく行うことができ、これは最近の実験結果と顕著に一致している。 この研究で開発されたツールセットは概念的にも計算的にもシンプルであり、全ての回路qed実験の理論的サポートに不可欠な部分になることを期待する。

Despite the high measurement fidelity that can now be reached, the dispersive qubit readout of circuit quantum electrodynamics is plagued by a loss of its quantum nondemolition character and a decrease in fidelity with increased measurement strength. In this work we elucidate the nature of this dynamical process, which we refer to as transmon ionization. We develop a comprehensive framework which provides a unified physical picture of the origin of transmon ionization. This framework consists of three complementary levels of descriptions: a fully quantized transmon-resonator model, a semiclassical model where the resonator is treated as a classical drive on the transmon, and a fully classical model. Crucially, all three approaches preserve the full cosine potential of the transmon, and lead to similar predictions. This framework identifies the multiphoton resonances responsible for transmon ionization. It also allows us to efficiently compute numerical estimates of the photon number threshold for ionization, which are in remarkable agreement with recent experimental results. The set of tools developed within this work are both conceptually and computationally simple, and we expect them to become an integral part of the theoretical support of all circuit QED experiments.
翻訳日:2024-02-12 15:37:13 公開日:2024-02-09
# 力学系における逐次予測の複雑さ

The Complexity of Sequential Prediction in Dynamical Systems ( http://arxiv.org/abs/2402.06614v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 進化関数が未知のとき,力学系の次の状態を予測するための学習の課題について検討する。 従来の研究とは異なり、力学系にパラメトリックな仮定を置かず、学習理論の観点から問題を研究する。 我々は新しい組合せ測度と次元を定義し、これらがそれぞれ実現可能かつ不可知的な設定における最適な誤りと後悔の境界を定量化することを示す。

We study the problem of learning to predict the next state of a dynamical system when the underlying evolution function is unknown. Unlike previous work, we place no parametric assumptions on the dynamical system, and study the problem from a learning theory perspective. We define new combinatorial measures and dimensions and show that they quantify the optimal mistake and regret bounds in the realizable and agnostic setting respectively.
翻訳日:2024-02-12 15:36:52 公開日:2024-02-09
# イメージベース深層学習によるフレッシュコンクリート特性の時間依存性予測

Image-based Deep Learning for the time-dependent prediction of fresh concrete properties ( http://arxiv.org/abs/2402.06611v1 )

ライセンス: Link先を確認
Max Meyer, Amadeus Langer, Max Mehltretter, Dries Beyer, Max Coenen, Tobias Schack, Michael Haist, Christian Heipke(参考訳) コンクリート生産プロセスにおけるデジタル化と自動化の度合いの増大は、コンクリート生産に関連するCO$_2$排出を削減する上で重要な役割を果たす。 本稿では, コンクリートの流動挙動の立体画像シーケンスに基づいて, 混合過程における新鮮なコンクリートの特性を予測できる手法を提案する。 この予測には畳み込みニューラルネットワーク(cnn)が用いられ、ミックスデザインに関する情報が支持する画像を入力として受信する。 また、ネットワークは、画像が撮影された時間と、コンクリートの基準値が実行される時間との時間差の形で、時間情報を受け取る。 この時間的情報を用いて、ネットワークはコンクリート特性の時間依存的な振る舞いを暗黙的に学習する。 ネットワークはスランプ流径, 降伏応力, 塑性粘度を予測する。 時間依存予測は、混合中のフレッシュコンクリートの特性の時間的発達を決定する経路を開く可能性がある。 これはコンクリート産業にとって大きな利点となる。 その結果、タイムリーに対策を取ることができる。 混合設計の情報によって支援された深度と光学的流れの画像に基づくアプローチが,最良の結果が得られることを示す。

Increasing the degree of digitisation and automation in the concrete production process can play a crucial role in reducing the CO$_2$ emissions that are associated with the production of concrete. In this paper, a method is presented that makes it possible to predict the properties of fresh concrete during the mixing process based on stereoscopic image sequences of the concretes flow behaviour. A Convolutional Neural Network (CNN) is used for the prediction, which receives the images supported by information on the mix design as input. In addition, the network receives temporal information in the form of the time difference between the time at which the images are taken and the time at which the reference values of the concretes are carried out. With this temporal information, the network implicitly learns the time-dependent behaviour of the concretes properties. The network predicts the slump flow diameter, the yield stress and the plastic viscosity. The time-dependent prediction potentially opens up the pathway to determine the temporal development of the fresh concrete properties already during mixing. This provides a huge advantage for the concrete industry. As a result, countermeasures can be taken in a timely manner. It is shown that an approach based on depth and optical flow images, supported by information of the mix design, achieves the best results.
翻訳日:2024-02-12 15:36:44 公開日:2024-02-09
# データ保護がMLサーベイランスのアーキテクチャをどのようにサポートするか

You Still See Me: How Data Protection Supports the Architecture of ML Surveillance ( http://arxiv.org/abs/2402.06609v1 )

ライセンス: Link先を確認
Rui-Jie Yew, Lucy Qin, Suresh Venkatasubramanian(参考訳) データは機械学習のバックボーンを形成する。 このように、データ保護法はMLシステムの管理方法に強く依存している。 ほとんどの要件が個人データの処理に付随していることを踏まえると、組織はデータを法的スコープから遠ざけるインセンティブを持っています。 データ保護法によって動機付けられたプライバシ保護技術 -- データ保護技術 -- は、データ保護法の範囲外になるまでデータを蒸留するために使用されるため、ML開発にとって重要な戦略である。 本稿では,プライバシ保護技術でラップされたデータを,データとして「使い捨て」とみなすレトリックの影響について検討する。 We show how the application of data protection techniques in the development of ML systems -from private set intersection as part of dataset curation to homomorphic encryption and federated learning as part of model computation to the framing of the privacy-utility trade-off as part of model updating -- can further support individual monitoring and data consolidation. With data accumulation at the core of how the ML pipeline is configured, we argue that data protection techniques are often instrumentalized in ways that support infrastructures of surveillance, rather than to protect individuals associated with data. Finally, we propose technology and policy strategies to evaluate data protection techniques in light of the protections they actually confer. We conclude by highlighting the role that security technologists might play in devising policies that combat surveillance ML technologies -- recommending the adversarial mindset inherent to the profession to more precisely articulate and prevent the use of "privacy-preserving" scaffoldings that support surveillance.

Data forms the backbone of machine learning. Thus, data protection law has strong bearing on how ML systems are governed. Given that most requirements accompany the processing of personal data, organizations have an incentive to keep their data out of legal scope. Privacy-preserving techniques incentivized by data protection law -- data protection techniques -- constitute an important strategy for ML development because they are used to distill data until it potentially falls outside the scope of data protection laws. In this paper, we examine the impact of a rhetoric that deems data wrapped in privacy-preserving techniques as data that is "good-to-go". We show how the application of data protection techniques in the development of ML systems -- from private set intersection as part of dataset curation to homomorphic encryption and federated learning as part of model computation to the framing of the privacy-utility trade-off as part of model updating -- can further support individual monitoring and data consolidation. With data accumulation at the core of how the ML pipeline is configured, we argue that data protection techniques are often instrumentalized in ways that support infrastructures of surveillance, rather than to protect individuals associated with data. Finally, we propose technology and policy strategies to evaluate data protection techniques in light of the protections they actually confer. We conclude by highlighting the role that security technologists might play in devising policies that combat surveillance ML technologies -- recommending the adversarial mindset inherent to the profession to more precisely articulate and prevent the use of "privacy-preserving" scaffoldings that support surveillance.
翻訳日:2024-02-12 15:36:27 公開日:2024-02-09
# TIC:LLMと論理中間表現を用いた正確な「計画文」の翻訳-推論-コンパイル

TIC: Translate-Infer-Compile for accurate 'text to plan' using LLMs and logical intermediate representations ( http://arxiv.org/abs/2402.06608v1 )

ライセンス: Link先を確認
Sudhir Agarwal and Anu Sreepathy(参考訳) 自然言語計画タスク要求に対して計画を生成する問題について検討する。 一方、llmは自然言語処理に優れているが、計画ではうまく機能しない。 一方、古典的な計画ツールは計画作業に長けているが、計画ドメイン定義言語(PDDL)のような構造化言語での入力を必要とする。 課題要求のPDDL表現(task PDDL)を生成するのにLLMを用い,計画の計算に古典的プランナーを用いることにより,両手法の強みを生かした。 LLMを使ってタスクPDDLを直接生成する従来のアプローチとは異なり、我々のアプローチは1つから成り立っている。 (a)翻訳:自然言語タスク記述の論理的に解釈可能な中間表現を生成するためにのみLLMを使用する。 (b)推論:論理推論器(現在Answer Set Programmingsolvr)を用いて中間表現から追加の論理依存情報を得る、及び (c)コンパイル: ベースからターゲットタスクPDDLを生成し、情報を推測する。 中間表現のみを出力するためにLLMを用いると、LLMの誤差が大幅に減少する。 その結果,少なくとも1つのLCMに対して,評価データセットの7領域すべてに対して,タスクPDDL生成の高精度化を実現した。

We study the problem of generating plans for given natural language planning task requests. On one hand, LLMs excel at natural language processing but do not perform well on planning. On the other hand, classical planning tools excel at planning tasks but require input in a structured language such as the Planning Domain Definition Language (PDDL). We leverage the strengths of both the techniques by using an LLM for generating the PDDL representation (task PDDL) of planning task requests followed by using a classical planner for computing a plan. Unlike previous approaches that use LLMs for generating task PDDLs directly, our approach comprises of (a) translate: using an LLM only for generating a logically interpretable intermediate representation of natural language task descriptions, (b) infer: deriving additional logically dependent information from the intermediate representation using a logic reasoner (currently, Answer Set Programming solver), and (c) compile: generating the target task PDDL from the base and inferred information. We observe that using an LLM to only output the intermediate representation significantly reduces LLM errors. Consequently, TIC approach achieves, for at least one LLM, high accuracy on task PDDL generation for all seven domains of our evaluation dataset.
翻訳日:2024-02-12 15:36:08 公開日:2024-02-09
# 神経密度作用素を持つ開量子系としてのシュウィンガーモデルのリアルタイムダイナミクス

Real-time Dynamics of the Schwinger Model as an Open Quantum System with Neural Density Operators ( http://arxiv.org/abs/2402.06607v1 )

ライセンス: Link先を確認
Joshua Lin, Di Luo, Xiaojun Yao, Phiala E. Shanahan(参考訳) クォーク・グルーオンプラズマ中に伝播する重クォークの非初期シミュレーションは密度行列の空間の大きな次元のために計算的に困難である。 この研究は、ニューラルネットワークパラメトリック、特にニューラル密度演算子で正確な量子状態を近似することで、この困難を克服する機械学習アルゴリズムを開発する。 qcdのような理論における原理実証の証明として、このアプローチは開量子系としての1+1次元格子シュウィンガーモデルにおけるリンドブラッドマスター方程式を解くために応用される。 神経密度演算子は、多弦相互作用と弦破断現象および再結合現象が研究できる大きな格子体積上のインメジウムダイナミクスの研究を可能にする。 平衡系の熱的性質は、リンドブラッド・マスター方程式の定常状態を変動的に構成することによって、これらの方法でも探索することができる。 システムサイズによるこのアプローチのスケーリングについて検討し、最大32の空間格子サイトと最大3つの相互作用文字列の数値的な実演を行う。

Ab-initio simulations of multiple heavy quarks propagating in a Quark-Gluon Plasma are computationally difficult to perform due to the large dimension of the space of density matrices. This work develops machine learning algorithms to overcome this difficulty by approximating exact quantum states with neural network parametrisations, specifically Neural Density Operators. As a proof of principle demonstration in a QCD-like theory, the approach is applied to solve the Lindblad master equation in the 1+1d lattice Schwinger Model as an open quantum system. Neural Density Operators enable the study of in-medium dynamics on large lattice volumes, where multiple-string interactions and their effects on string-breaking and recombination phenomena can be studied. Thermal properties of the system at equilibrium can also be probed with these methods by variationally constructing the steady state of the Lindblad master equation. Scaling of this approach with system size is studied, and numerical demonstrations on up to 32 spatial lattice sites and with up to 3 interacting strings are performed.
翻訳日:2024-02-12 15:35:48 公開日:2024-02-09
# RQP-SGD:ノイズSGDとランダム量子化による微分プライベート機械学習

RQP-SGD: Differential Private Machine Learning through Noisy SGD and Randomized Quantization ( http://arxiv.org/abs/2402.06606v1 )

ライセンス: Link先を確認
Ce Feng, Parv Venkitasubramaniam(参考訳) iotデバイスの台頭により、リアルタイム、効率的、セキュアなデータ処理で最先端の機械学習を展開する必要性が高まっている。 この文脈では、実数値重みパラメータを用いた機械学習(ML)モデルの実装は、特に大規模モデルでは実用的でないことが証明され、量子化された離散重みを持つモデルを訓練する必要がある。 同時に、これらの低次元モデルは、基礎となるデータセットのプライバシを保持する必要がある。 本研究では、低メモリのML-at-the-edgeのための機械学習モデルをトレーニングするためのプライバシー保護量子化の新しいアプローチであるRQP-SGDを提案する。 このアプローチは、微分プライベート確率勾配勾配(DP-SGD)とランダムな量子化を組み合わせることで、機械学習における測定可能なプライバシー保証を提供する。 特に、凸目標と量子化制約を持つMLタスク上でのRQP-SGDの実装の有用性の収束について検討し、決定論的量子化よりも有効であることを示す。 2つのデータセットを用いて実験を行い、RQP-SGDの有効性を示す。

The rise of IoT devices has prompted the demand for deploying machine learning at-the-edge with real-time, efficient, and secure data processing. In this context, implementing machine learning (ML) models with real-valued weight parameters can prove to be impractical particularly for large models, and there is a need to train models with quantized discrete weights. At the same time, these low-dimensional models also need to preserve privacy of the underlying dataset. In this work, we present RQP-SGD, a new approach for privacy-preserving quantization to train machine learning models for low-memory ML-at-the-edge. This approach combines differentially private stochastic gradient descent (DP-SGD) with randomized quantization, providing a measurable privacy guarantee in machine learning. In particular, we study the utility convergence of implementing RQP-SGD on ML tasks with convex objectives and quantization constraints and demonstrate its efficacy over deterministic quantization. Through experiments conducted on two datasets, we show the practical effectiveness of RQP-SGD.
翻訳日:2024-02-12 15:35:31 公開日:2024-02-09
# マルチモーダル大言語モデルの分散的一般化について

On the Out-Of-Distribution Generalization of Multimodal Large Language Models ( http://arxiv.org/abs/2402.06599v1 )

ライセンス: Link先を確認
Xingxuan Zhang, Jiansheng Li, Wenjing Chu, Junjia Hai, Renzhe Xu, Yuqing Yang, Shikai Guan, Jiazheng Xu, and Peng Cui(参考訳) 本稿では,分散シナリオとドメイン固有タスクの包括的評価を通じて,現行のマルチモーダル大規模言語モデル(mllms)の一般化境界について検討する。 我々は、合成画像、実世界の分布シフト、医療や分子画像などの特殊なデータセットをまたいだゼロショット一般化を評価する。 実験結果から,MLLMは一般的な訓練領域を超えて一般化に苦慮し,適応なしに直接適用を制限していることが明らかとなった。 信頼できないパフォーマンスの原因を理解するために,意味的誤解釈,視覚的特徴抽出不全,マッピング不足の3つの仮説を分析した。 その結果,マッピング不足が主要なハードルであることがわかった。 この問題に対処するため、インコンテキスト学習(ICL)はMLLMの一般化を著しく向上させ、一般化障壁を克服するための新たな道を開くことができることを示す。 分散シフト下でのiclのロバスト性についてさらに検討し,その脆弱性をドメインシフト,ラベルシフト,およびコンテキスト内サンプルとテストデータとのスプリアス相関シフトに示す。

We investigate the generalization boundaries of current Multimodal Large Language Models (MLLMs) via comprehensive evaluation under out-of-distribution scenarios and domain-specific tasks. We evaluate their zero-shot generalization across synthetic images, real-world distributional shifts, and specialized datasets like medical and molecular imagery. Empirical results indicate that MLLMs struggle with generalization beyond common training domains, limiting their direct application without adaptation. To understand the cause of unreliable performance, we analyze three hypotheses: semantic misinterpretation, visual feature extraction insufficiency, and mapping deficiency. Results identify mapping deficiency as the primary hurdle. To address this problem, we show that in-context learning (ICL) can significantly enhance MLLMs' generalization, opening new avenues for overcoming generalization barriers. We further explore the robustness of ICL under distribution shifts and show its vulnerability to domain shifts, label shifts, and spurious correlation shifts between in-context examples and test data.
翻訳日:2024-02-12 15:35:13 公開日:2024-02-09
# CigaR:LLMによる費用効率の高いプログラム修復

CigaR: Cost-efficient Program Repair with LLMs ( http://arxiv.org/abs/2402.06598v1 )

ライセンス: Link先を確認
D\'avid Hidv\'egi, Khashayar Etemadi, Sofia Bobadilla, Martin Monperrus(参考訳) 大規模言語モデル(LLM)は自動プログラム修復(APR)に有効であることが証明されている。 しかし、LSMを使うことは非常にコストがかかり、企業はトークンの数によってユーザを呼び出します。 本稿では,修復コストの最小化に焦点をあてた最初のLCMベースのAPRツールであるCigaRを提案する。 CigaRは、可塑性パッチの生成と可塑性パッチの乗算という、2つの大きなステップで機能する。 CigaRはプロンプトとプロンプト設定を最適化し、最小限のトークン数でLLMに与えられる情報を最大化する。 広く使用されているDefects4Jデータセットから得られた267のバグに関する実験は、CigaRがトークンコストを62。 平均して、CigaRはバグ毎に171kトークンを使用し、ベースラインは451kトークンを使用する。 どちらも修正されたバグのサブセットでは、ベースラインが695kトークンを使用するのに対して、CigaRはバグに20kを費やす。 CigaRは低コストのLCMベースのプログラム修復ツールであり,トークン数が少ないことで自動パッチを生成する。

Large language models (LLM) have proven to be effective at automated program repair (APR). However, using LLMs can be highly costly, with companies invoicing users by the number of tokens. In this paper, we propose CigaR, the first LLM-based APR tool that focuses on minimizing the repair cost. CigaR works in two major steps: generating a plausible patch and multiplying plausible patches. CigaR optimizes the prompts and the prompt setting to maximize the information given to LLMs in the smallest possible number of tokens. Our experiments on 267 bugs from the widely used Defects4J dataset shows that CigaR reduces the token cost by 62. On average, CigaR spends 171k tokens per bug while the baseline uses 451k tokens. On the subset of bugs that are fixed by both, CigaR spends 20k per bug while the baseline uses 695k tokens, a cost saving of 97. Our extensive experiments show that CigaR is a cost-effective LLM-based program repair tool that uses a low number of tokens to generate automatic patches.
翻訳日:2024-02-12 15:34:53 公開日:2024-02-09