このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231110となっている論文です。

PDF登録状況(公開日: 20231110)

TitleAuthorsAbstract論文公表日・翻訳日
# ベストスコアクライアント選択方式:IIDシナリオにおけるフェデレーション学習ラベルフリップアタックの防止

Honest Score Client Selection Scheme: Preventing Federated Learning Label Flipping Attacks in Non-IID Scenarios ( http://arxiv.org/abs/2311.05826v1 )

ライセンス: Link先を確認
Yanli Li, Huaming Chen, Wei Bao, Zhengmeng Xu, Dong Yuan, (参考訳) フェデレートラーニング(FL)は、複数のアクターが生データを共有せずにジョイントモデルを構築することができる有望な技術である。 この分散した性質により、FLはモデル中毒攻撃やデータ中毒攻撃など、様々な中毒攻撃に対して脆弱である。 今日では、モデル中毒の予防に多くのビザンチン耐性FL法が導入されているが、データ中毒の予防効果はまだ不明である。 本稿では,最も代表的なデータ中毒攻撃である「ラベルフリップ攻撃」に注目し,既存のFL法を攻撃した場合の有効性をモニタリングする。 その結果,既存のFL法は独立性および同一分散性(IID)設定でも同様に機能するが,非IID設定ではモデルロバスト性を維持することができないことがわかった。 非IIDシナリオにおける既存のFLメソッドの弱点を軽減するため、Honest Score Client Selection(HSCS)スキームと対応するHSCSFLフレームワークを導入する。 HSCSFLでは、サーバは評価のためのクリーンなデータセットを収集する。 各イテレーションでは、サーバがクライアントから勾配を収集し、HSCSを実行してアグリゲーション候補を選択する。 サーバはまず、グローバルモデルの各クラスのパフォーマンスを評価し、対応するリスクベクトルを生成し、どのクラスが攻撃される可能性があるかを示す。 同様に、サーバはクライアントのモデルを評価し、各クラスのパフォーマンスを精度ベクトルとして記録する。 各クライアントの精度ベクトルとグローバルリスクベクトルのドット積をクライアントのホストスコアとして生成し、上位のホストスコアクライアントのみを以下のアグリゲーションに含める。 最後に、サーバはグラデーションを集約し、その結果を使用してグローバルモデルを更新する。 総合的な実験結果から,HSCSFLはFLのロバスト性を効果的に向上し,"ラベルフリップ攻撃"に対する防御効果を示す。

Federated Learning (FL) is a promising technology that enables multiple actors to build a joint model without sharing their raw data. The distributed nature makes FL vulnerable to various poisoning attacks, including model poisoning attacks and data poisoning attacks. Today, many byzantine-resilient FL methods have been introduced to mitigate the model poisoning attack, while the effectiveness when defending against data poisoning attacks still remains unclear. In this paper, we focus on the most representative data poisoning attack - "label flipping attack" and monitor its effectiveness when attacking the existing FL methods. The results show that the existing FL methods perform similarly in Independent and identically distributed (IID) settings but fail to maintain the model robustness in Non-IID settings. To mitigate the weaknesses of existing FL methods in Non-IID scenarios, we introduce the Honest Score Client Selection (HSCS) scheme and the corresponding HSCSFL framework. In the HSCSFL, The server collects a clean dataset for evaluation. Under each iteration, the server collects the gradients from clients and then perform HSCS to select aggregation candidates. The server first evaluates the performance of each class of the global model and generates the corresponding risk vector to indicate which class could be potentially attacked. Similarly, the server evaluates the client's model and records the performance of each class as the accuracy vector. The dot product of each client's accuracy vector and global risk vector is generated as the client's host score; only the top p\% host score clients are included in the following aggregation. Finally, server aggregates the gradients and uses the outcome to update the global model. The comprehensive experimental results show our HSCSFL effectively enhances the FL robustness and defends against the "label flipping attack."
翻訳日:2024-03-18 23:41:48 公開日:2023-11-10
# ロバスト定時間暗号

Robust Constant-Time Cryptography ( http://arxiv.org/abs/2311.05831v1 )

ライセンス: Link先を確認
Matthew Kolosick, Basavesh Ammanaghatta Shivakumar, Sunjay Cauligi, Marco Patrignani, Marco Vassena, Ranjit Jhala, Deian Stefan, (参考訳) 定数時間特性は暗号コードのセキュリティ標準と見なされている。 一定時間の規律に従うコードは、シークレット依存のブランチやメモリアクセスから解放され、キャッシュとタイミングサイドチャネルによるシークレットの漏洩を避ける。 定数時間特性は、多くの暗黙の仮定を、基本的に暗号コードの現実に反する。 一定時間は堅牢ではない。 定数時間に関する最初の問題は、プログラム全体のプロパティであることだ。 しかし、暗号開発者は一般的にプログラム全体を記述するのではなく、ライブラリや特定のアルゴリズムを他のアプリケーション開発者に提供します。 そのため、セキュリティライブラリの開発者は、コードが(潜在的に信頼できない)アプリケーションコンテキスト内で動作している場合でも、セキュリティ保証を維持する必要がある。 メモリの安全性が要求される。 定数タイムは実行中のすべてのコードのメモリ安全性を必要とする。 ライブラリであれアプリケーションであれ,メモリの安全性に関するバグは,直接的な開示がなければ,サイドチャネルのシークレットリークに戻すことになる。 暗号化ライブラリはメモリセーフに書かなければならないが、残念ながら、各ライブラリを使用するすべてのアプリケーションから同じことを期待することは現実的ではない。 堅牢な定数タイムを形式化し、ライブラリコードを変換し、信頼できないコードにリンクされている場合でもシークレットを保護するRobustIsoCryptコンパイラを構築します。 SUPERCOPベンチマークフレームワークを用いて評価したところ,パフォーマンスのオーバーヘッドは平均で5%以下であった。

The constant-time property is considered the security standard for cryptographic code. Code following the constant-time discipline is free from secret-dependent branches and memory accesses, and thus avoids leaking secrets through cache and timing side-channels. The constant-time property makes a number of implicit assumptions that are fundamentally at odds with the reality of cryptographic code. Constant-time is not robust. The first issue with constant-time is that it is a whole-program property: It relies on the entirety of the code base being constant-time. But, cryptographic developers do not generally write whole programs; rather, they provide libraries and specific algorithms for other application developers to use. As such, developers of security libraries must maintain their security guarantees even when their code is operating within (potentially untrusted) application contexts. Constant-time requires memory safety. The whole-program nature of constant-time also leads to a second issue: constant-time requires memory safety of all the running code. Any memory safety bugs, whether in the library or the application, will wend their way back to side-channel leaks of secrets if not direct disclosure. And although cryptographic libraries should (and are) written to be memory-safe, it is unfortunately unrealistic to expect the same from every application that uses each library. We formalize robust constant-time and build a RobustIsoCrypt compiler that transforms the library code and protects the secrets even when they are linked with untrusted code. Our evaluation with SUPERCOP benchmarking framework shows that the performance overhead is less than five percent on average.
翻訳日:2024-03-18 23:41:48 公開日:2023-11-10
# KRATT:QBFによる論理ロックの除去と構造解析

KRATT: QBF-Assisted Removal and Structural Analysis Attack Against Logic Locking ( http://arxiv.org/abs/2311.05982v1 )

ライセンス: Link先を確認
Levent Aksoy, Muhammad Yasin, Samuel Pagliarini, (参考訳) 本稿では,一対一フリップロック技術(SFLT,DFLT)のような最先端論理ロック技術に対する除去・構造解析攻撃であるKRATTを紹介する。 KRATTは、ハードウェアセキュリティに広く使われていない強力な量子化ブール式(QBF)を使用して、SFLTの秘密鍵を初めて見つける。 ロックされた回路をOL(Oracle-less)とOG(Oracle-guided)の脅威モデルの両方で扱うことができる。 ロックされた回路を修正し、顕著なOL攻撃を使用して、OL脅威モデルの下で強い推測を行う。 構造解析技術を用いて、保証された保護された入力パターンを特定し、OGモデルに基づくオラクルを用いてそれらを探索する。 ISCAS'85, ITC'99, HeLLOの実験結果: CTF'22ベンチマークによると、KRATTはQBFの定式化を使ってSFLTを1分以内で破壊でき、OL脅威モデルの下で高い精度で多数のSFLTとDFLTのキー入力を解読でき、OG脅威モデルの下でDFLTの秘密鍵を容易に見つけることができる。 KRATTは、ソリューションの品質と実行時間の観点から、利用可能なOLとOGアタックよりも優れていることが示されている。

This paper introduces KRATT, a removal and structural analysis attack against state-of-the-art logic locking techniques, such as single and double flip locking techniques (SFLTs and DFLTs). KRATT utilizes powerful quantified Boolean formulas (QBFs), which have not found widespread use in hardware security, to find the secret key of SFLTs for the first time. It can handle locked circuits under both oracle-less (OL) and oracle-guided (OG) threat models. It modifies the locked circuit and uses a prominent OL attack to make a strong guess under the OL threat model. It uses a structural analysis technique to identify promising protected input patterns and explores them using the oracle under the OG model. Experimental results on ISCAS'85, ITC'99, and HeLLO: CTF'22 benchmarks show that KRATT can break SFLTs using a QBF formulation in less than a minute, can decipher a large number of key inputs of SFLTs and DFLTs with high accuracy under the OL threat model, and can easily find the secret key of DFLTs under the OG threat model. It is shown that KRATT outperforms publicly available OL and OG attacks in terms of solution quality and run-time.
翻訳日:2024-03-18 23:32:04 公開日:2023-11-10
# 研究センター間のデータ伝送の安全性を高めるための高スループット侵入検知システム(IDS)

A high throughput Intrusion Detection System (IDS) to enhance the security of data transmission among research centers ( http://arxiv.org/abs/2311.06082v1 )

ライセンス: Link先を確認
Marco Grossi, Fabrizio Alfonsi, Marco Prandini, Alessandro Gabrielli, (参考訳) データ漏洩やサイバー攻撃は高等教育機関や大学において深刻な問題であり、機密情報やデータ損失に違法にアクセスできる可能性がある。 データ転送の安全性を高めるため、交換されたデータの潜在的な脅威を検出するために、IPS(Intrusion Prevention Systems)とIDS(Intrusion Detection Systems)が使用される。 IPSとIDSは通常、サーバマシン上で動作するソフトウェアプログラムとして設計されている。 しかし、交換されたデータの速度が高すぎると、この解は信頼性がなくなる。 この場合、ASICやFPGAのような実際のハードウェアプラットフォーム上で設計されたIPSとIDSは、より信頼性の高いソリューションである。 本稿では,商用FPGA開発ボードを用いたパケットスニファーを提案する。 このシステムは,データ伝送速度を100Gbit/sに確実に拡張できることを示す予備的な結果とともに,10Gbit/sのデータスループットをサポートすることができる。 設計システムはユーザによって高度に構成可能であり、イーサネットプロトコルを用いて送信される情報の保護を強化することができる。 特に大学や研究センターのセキュリティに向いており、ポイント・ツー・ポイントのネットワーク接続が支配的であり、大量の機密データが異なるホスト間で共有されている。

Data breaches and cyberattacks represent a severe problem in higher education institutions and universities that can result in illegal access to sensitive information and data loss. To enhance the security of data transmission, Intrusion Prevention Systems (IPS, i.e., firewalls) and Intrusion Detection Systems (IDS, i.e., packet sniffers) are used to detect potential threats in the exchanged data. IPSs and IDSs are usually designed as software programs running on a server machine. However, when the speed of exchanged data is too high, this solution can become unreliable. In this case, IPSs and IDSs designed on a real hardware platform, such as ASICs and FPGAs, represent a more reliable solution. This paper presents a packet sniffer that was designed using a commercial FPGA development board. The system can support a data throughput of 10 Gbit/s with preliminary results showing that the speed of data transmission can be reliably extended to 100 Gbit/s. The designed system is highly configurable by the user and can enhance the data protection of information transmitted using the Ethernet protocol. It is particularly suited for the security of universities and research centers, where point-to-point network connections are dominant and large amount of sensitive data are shared among different hosts.
翻訳日:2024-03-18 23:32:03 公開日:2023-11-10
# アレープログラムからベクトル化同型暗号化へのコンパイラ

A Compiler from Array Programs to Vectorized Homomorphic Encryption ( http://arxiv.org/abs/2311.06142v1 )

ライセンス: Link先を確認
Rolph Recto, Andrew C. Myers, (参考訳) ホモモルフィック暗号 (HE) は、暗号化されたデータに対して安全な計算を行うための実践的な手法である。 しかし、効率的なHE実装によるプログラムを書くことは、専門家の絶好の課題である。 プログラム可能性の難しい障壁は、効率的なHEプログラムは複雑なデータレイアウトで暗号文を操作し、データ移動プリミティブで計算をインターリーブする。 本稿では,効率的なベクトル化HEプログラムを生成するViaduct-HEを提案する。 Viaduct-HEは、効率的なHEプログラムに必要な操作と複雑なデータレイアウトの両方を生成することができる。 Viaduct-HEのソース言語は配列指向であり、コンパイラはベクトル化スケジュールの単純な表現をすることができる。 このような表現で、コンパイラはベクター化スケジュールの空間を検索し、効率的なデータレイアウトを持つものを見つける。 ベクトル化スケジュールを見つけた後、Viaduct-HEは項書き換えによってHEプログラムをさらに最適化する。 コンパイラには拡張ポイントがあり、ベクトル化スケジュールの探索をカスタマイズし、HEプログラムのコストモデルをカスタマイズし、新しいHEライブラリのバックエンドを追加する。 試作した Viaduct-HE コンパイラを評価した結果,高度データレイアウトと最適化を専門家が設計したプログラムに匹敵する,効率的なベクトル化 HE プログラムが得られた。

Homomorphic encryption (HE) is a practical approach to secure computation over encrypted data. However, writing programs with efficient HE implementations remains the purview of experts. A difficult barrier for programmability is that efficiency requires operations to be vectorized in inobvious ways, forcing efficient HE programs to manipulate ciphertexts with complex data layouts and to interleave computations with data movement primitives. We present Viaduct-HE, a compiler generates efficient vectorized HE programs. Viaduct-HE can generate both the operations and complex data layouts required for efficient HE programs. The source language of Viaduct-HE is array-oriented, enabling the compiler to have a simple representation of possible vectorization schedules. With such a representation, the compiler searches the space of possible vectorization schedules and finds those with efficient data layouts. After finding a vectorization schedule, Viaduct-HE further optimizes HE programs through term rewriting. The compiler has extension points to customize the exploration of vectorization schedules, to customize the cost model for HE programs, and to add back ends for new HE libraries. Our evaluation of the prototype Viaduct-HE compiler shows that it produces efficient vectorized HE programs with sophisticated data layouts and optimizations comparable to those designed by experts.
翻訳日:2024-03-18 23:32:03 公開日:2023-11-10
# アプリケーション統合性と信頼性のための最終段階の防衛

A Last-Level Defense for Application Integrity and Confidentiality ( http://arxiv.org/abs/2311.06154v1 )

ライセンス: Link先を確認
Gabriel P. Fernandez, Andrey Brito, Ardhi Putra Pratama Hartono, Muhammad Usama Sardar, Christof Fetzer, (参考訳) 我々の目標は、信頼できない環境で動作しているアプリケーションの完全性と機密性を保護することです。 信頼できる実行環境(TEE)は、パナセアではない。 ハードウェアTEEは、Sybil、Fork、Rollback攻撃からアプリケーションを保護することができず、アプリケーションの一貫性と整合性を維持することができない。 透明でスケーラブルな方法でアプリケーションの整合性と一貫性を強制する,新しいシステム LLD を導入する。 我々のソリューションは、インスタンス制御とロールバック保護でTEEを強化します。 TEE支援のリースで実施されるインスティファイションコントロールは、暗号パズルの高コストを発生させることなく、Sybil/Forkアタックを緩和する。 我々のロールバック検出機構は過剰な複製を必要としないし、耐久性を犠牲にもしない。 LLDランタイムでこれらの機能を実装することで、人気のあるDBMSのようなアプリケーションやサービスを自動で保護することを示す。

Our objective is to protect the integrity and confidentiality of applications operating in untrusted environments. Trusted Execution Environments (TEEs) are not a panacea. Hardware TEEs fail to protect applications against Sybil, Fork and Rollback Attacks and, consequently, fail to preserve the consistency and integrity of applications. We introduce a novel system, LLD, that enforces the integrity and consistency of applications in a transparent and scalable fashion. Our solution augments TEEs with instantiation control and rollback protection. Instantiation control, enforced with TEE-supported leases, mitigates Sybil/Fork Attacks without incurring the high costs of solving crypto-puzzles. Our rollback detection mechanism does not need excessive replication, nor does it sacrifice durability. We show that implementing these functionalities in the LLD runtime automatically protects applications and services such as a popular DBMS.
翻訳日:2024-03-18 23:32:03 公開日:2023-11-10
# Deep Learningがブロックチェーンと出会い、自動およびセキュアなアクセス制御が可能に

Deep Learning meets Blockchain for Automated and Secure Access Control ( http://arxiv.org/abs/2311.06236v1 )

ライセンス: Link先を確認
Asma Jodeiri Akbarfam, Sina Barazandeh, Deepti Gupta, Hoda Maleki, (参考訳) アクセス制御はコンピュータセキュリティの重要なコンポーネントであり、システムリソースへのアクセスを管理する。 しかし、従来のアクセス制御におけるポリシーや役割の設計は、動的で複雑なシステムを維持するのが困難であり、多くのリソースを持つ組織にとって特に問題となる。 さらに、従来の手法では、サードパーティの関与、非効率性、プライバシーのギャップといった問題に悩まされており、透過的および動的アクセス制御が進行中の研究課題となっている。 さらに、悪意のある活動を検出し、適切に行動していないユーザを特定することは、顕著な困難を生じさせる可能性がある。 これらの課題に対処するために、分散型アクセス制御のソリューションとして、ブロックチェーンを用いたディープラーニングベースのアクセス制御であるDLACBを提案する。 DLACBはブロックチェーンを使用して、医療、金融、政府などのさまざまな領域で透明性、トレーサビリティ、信頼性を提供しながら、ディープラーニングを活用して、事前に定義されたポリシーに依存しず、最終的にはアクセス制御を自動化する。 ブロックチェーンの統合とアクセス制御のためのディープラーニングにより、DLACBはさまざまなドメインに適用可能な一般的なフレームワークを提供し、すべてのトランザクションの透過的で信頼性の高いロギングを可能にする。 すべてのデータがブロックチェーンに記録されるため、悪意のあるアクティビティを識別する能力があります。 ストレージシステムに悪意のあるアクティビティのリストを格納し、検証アルゴリズムを使用してブロックチェーンと相互参照します。 我々は,従来のアクセス制御方式とは対照的に,デプロイされたアクセス制御システムのスマートコントラクト処理時間の測定と比較を行い,関連する時間オーバーヘッドを判定する。 DLBACの処理時間は要求量の増加に曝露すると顕著な安定性を示す。

Access control is a critical component of computer security, governing access to system resources. However, designing policies and roles in traditional access control can be challenging and difficult to maintain in dynamic and complex systems, which is particularly problematic for organizations with numerous resources. Furthermore, traditional methods suffer from issues such as third-party involvement, inefficiency, and privacy gaps, making transparent and dynamic access control an ongoing research problem. Moreover detecting malicious activities and identifying users who are not behaving appropriately can present notable difficulties. To address these challenges, we propose DLACB, a Deep Learning Based Access Control Using Blockchain, as a solution to decentralized access control. DLACB uses blockchain to provide transparency, traceability, and reliability in various domains such as medicine, finance, and government while taking advantage of deep learning to not rely on predefined policies and eventually automate access control. With the integration of blockchain and deep learning for access control, DLACB can provide a general framework applicable to various domains, enabling transparent and reliable logging of all transactions. As all data is recorded on the blockchain, we have the capability to identify malicious activities. We store a list of malicious activities in the storage system and employ a verification algorithm to cross-reference it with the blockchain. We conduct measurements and comparisons of the smart contract processing time for the deployed access control system in contrast to traditional access control methods, determining the time overhead involved. The processing time of DLBAC demonstrates remarkable stability when exposed to increased request volumes.
翻訳日:2024-03-18 23:32:03 公開日:2023-11-10
# EthereumのセキュリティをLUMENで強化する - 透明かつ効率的なzk-SNARKを生成する新しいゼロ知識プロトコル

Enhancing Ethereum's Security with LUMEN, a Novel Zero-Knowledge Protocol Generating Transparent and Efficient zk-SNARKs ( http://arxiv.org/abs/2312.14159v1 )

ライセンス: Link先を確認
Yunjia Quan, (参考訳) 本稿では、新しい再帰多項式コミットメントスキーム(PCS)と新しい多項式対話型オラクル証明(PIOP)プロトコルを提案する。 Ethereumブロックチェーンはゼロ知識ロールアップ(ZKR)を使用してスケーラビリティ(多数のトランザクションを処理する能力)を改善し、ZKRはZk-SNARKを使用してトランザクションを検証する。 現在使用されているzk-SNARKは信頼性の高いセットアップセレモニーに依存しており、参加者のグループはトランザクションに関する秘密情報を使用して、zk-SNARKを検証するのに必要な公開パラメータを生成する。 これはEthereumのシステムにセキュリティリスクをもたらす。 このように、研究者は透明なzk-SNARK(信頼性の高いセットアップを必要としない)を開発してきたが、それらは非透明なzk-SNARKほど効率的ではないため、ZKRはそれを使わない。 本研究では,イーサリアムの安全性を向上させるために,その効率を犠牲にすることなく,透明なzk-SNARKを生成する新しいアルゴリズムであるLUMENを開発した。 LUMENには、隠された順序を持つグループ、ラグランジュ基底多項式、そして償却戦略を含む様々な技術が創造的に取り入れられた。 LUMENの完全性、健全性、ゼロ知識を伝達する数学的証明を書き、約8000ドルのRustとPythonのコードを書き、LUMENの実用性を伝えることでLUMENを実装しました。 さらに, 既存の透明zk-SNARKの効率を超越し, 非透明zk-SNARKの効率に匹敵するLUMEN(証明サイズ, 証明計算時間, 検証時間)の効率を明らかにした。 したがって、LUMENはその効率を維持しながらEthereumのセキュリティを改善するための有望なソリューションである。

This paper proposes a novel recursive polynomial commitment scheme (PCS) and a new polynomial interactive oracle proof (PIOP) protocol, which compile into efficient and transparent zk-SNARKs (zero-knowledge succinct non-interactive arguments of knowledge). The Ethereum blockchain utilizes zero-knowledge Rollups (ZKR) to improve its scalability (the ability to handle a large number of transactions), and ZKR uses zk-SNARKs to validate transactions. The currently used zk-SNARKs rely on a trusted setup ceremony, where a group of participants uses secret information about transactions to generate the public parameters necessary to verify the zk-SNARKs. This introduces a security risk into Ethereum's system. Thus, researchers have been developing transparent zk-SNARKs (which do not require a trusted setup), but those are not as efficient as non-transparent zk-SNARKs, so ZKRs do not use them. In this research, I developed LUMEN, a set of novel algorithms that generate transparent zk-SNARKs that improve Ethereum's security without sacrificing its efficiency. Various techniques were creatively incorporated into LUMEN, including groups with hidden orders, Lagrange basis polynomials, and an amortization strategy. I wrote mathematical proofs for LUMEN that convey its completeness, soundness and zero-knowledgeness, and implemented LUMEN by writing around $8000$ lines of Rust and Python code, which conveyed the practicality of LUMEN. Moreover, my implementation revealed the efficiency of LUMEN (measured in proof size, proof computation time, and verification time), which surpasses the efficiency of existing transparent zk-SNARKs and is on par with that of non-transparent zk-SNARKs. Therefore, LUMEN is a promising solution to improve Ethereum's security while maintaining its efficiency.
翻訳日:2024-03-18 11:38:03 公開日:2023-11-10
# CloudEval-YAML: クラウド構成生成のための実践的なベンチマーク

CloudEval-YAML: A Practical Benchmark for Cloud Configuration Generation ( http://arxiv.org/abs/2401.06786v1 )

ライセンス: Link先を確認
Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai(参考訳) クラウドコンピューティングの活発なエコシステムと、大規模な言語モデル(llm)ベースのコード生成ツールの急増の中で、クラウドネイティブなアプリケーションではコード生成のベンチマークが不足している。 このニーズに応えるために,クラウド構成生成のための実用的なベンチマークであるCloudEval-YAMLを提案する。 CloudEval-YAMLは、多くのクラウドネイティブツールのデファクトスタンダードであるYAMLに焦点を当てることで、多様性の課題に取り組む。 実用性を考慮したCloudEval-YAMLベンチマークを開発する。このデータセットは,実践シナリオをターゲットにした単体テストに関する手書き問題からなる。 我々はさらに、簡潔で簡潔でバイリンガルな方法で質問を言い換えることで、現実的なニーズを満たすためにデータセットをさらに強化した。 データセットは、1200時間以上かかる1011の問題で構成されている。 評価中の実用性を改善するため,CloudEval-YAMLのスケーラブルな評価プラットフォームを構築し,単一マシン上で20倍の高速化を実現した。 cloudeval-yamlデータセットは、クラウドネイティブなアプリケーションを対象とした、最初の手書きデータセットです。 12 llmsの詳細な評価を行い,問題や llm の理解を深めるとともに,タスク性能の向上とコスト削減のための効果的な手法を提案する。

Among the thriving ecosystem of cloud computing and the proliferation of Large Language Model (LLM)-based code generation tools, there is a lack of benchmarking for code generation in cloud-native applications. In response to this need, we present CloudEval-YAML, a practical benchmark for cloud configuration generation. CloudEval-YAML tackles the diversity challenge by focusing on YAML, the de facto standard of numerous cloud-native tools. We develop the CloudEval-YAML benchmark with practicality in mind: the dataset consists of hand-written problems with unit tests targeting practical scenarios. We further enhanced the dataset to meet practical needs by rephrasing questions in a concise, abbreviated, and bilingual manner. The dataset consists of 1011 problems that take more than 1200 human hours to complete. To improve practicality during evaluation, we build a scalable evaluation platform for CloudEval-YAML that achieves a 20 times speedup over a single machine. To the best of our knowledge, the CloudEval-YAML dataset is the first hand-written dataset targeting cloud-native applications. We present an in-depth evaluation of 12 LLMs, leading to a deeper understanding of the problems and LLMs, as well as effective methods to improve task performance and reduce cost.
翻訳日:2024-01-22 12:26:52 公開日:2023-11-10
# YOLOv7とESRGANを用いたポトホール検出の改善

Improved Pothole Detection Using YOLOv7 and ESRGAN ( http://arxiv.org/abs/2401.08588v1 )

ライセンス: Link先を確認
Nirmal Kumar Rout, Gyanateet Dutta, Varun Sinha, Arghadeep Dey, Subhrangshu Mukherjee, Gopal Gupta(参考訳) ポットホールは、車両にダメージを与え、ドライバーに安全リスクをもたらす一般的な道路の危険である。 畳み込みニューラルネットワーク(CNN)の導入は、ディープラーニング手法に基づくオブジェクト検出の業界で広く使われており、ハードウェアの改善とソフトウェア実装において大きな進歩を遂げている。 本稿では,超高解像度ネットワーク(srgans)による超解像(sr)によるポットホール自動検出のために,低解像度カメラや低解像度画像や映像フィードを用いたユニークなアルゴリズムを提案する。 そこで我々は,YOLO(You Only Look Once)ネットワーク,すなわちYOLOv7ネットワークを用いて,高品質で高品質なダッシュカム画像のベースラインポット検出性能を確立した。 次に,低画質画像へのアップスケール実装後のベンチマークで得られた速度と精度について検討した。

Potholes are common road hazards that is causing damage to vehicles and posing a safety risk to drivers. The introduction of Convolutional Neural Networks (CNNs) is widely used in the industry for object detection based on Deep Learning methods and has achieved significant progress in hardware improvement and software implementations. In this paper, a unique better algorithm is proposed to warrant the use of low-resolution cameras or low-resolution images and video feed for automatic pothole detection using Super Resolution (SR) through Super Resolution Generative Adversarial Networks (SRGANs). Then we have proceeded to establish a baseline pothole detection performance on low quality and high quality dashcam images using a You Only Look Once (YOLO) network, namely the YOLOv7 network. We then have illustrated and examined the speed and accuracy gained above the benchmark after having upscaling implementation on the low quality images.
翻訳日:2024-01-22 10:03:41 公開日:2023-11-10
# 改良DPCアルゴリズムに基づく点雲データからの分割線の自動抽出と3次元再構成

Automatic extraction and 3D reconstruction of split wire from point cloud data based on improved DPC algorithm ( http://arxiv.org/abs/2401.08587v1 )

ライセンス: Link先を確認
Jia Cheng(参考訳) DPCアルゴリズムにより改善された点雲データ分割の問題を解決するため,点雲データ分割線の自動分離と3次元再構成に関する研究を行った。 まず、雲点の各点の相対座標を算出する。 第二に、クラウドコンテンツのすべての部分を決定するために、分離線数を分析するための相対アンサンブルベースのDPCスウォームアルゴリズムを開発する計画である。 最後に、最小二乗法を用いて各セパレータに適合する。 鉄だ 得られた分割サブコンダクタの雲点は明確な区切り線を持ち、隣接する分割サブコンダクタ間の距離は0.45mであり、正方形の四頂点で区切られている。

In order to solve the problem of point cloud data splitting improved by DPC algorithm, a research on automatic separation and 3D reconstruction of point cloud data split lines is proposed. First, the relative coordinates of each point in the cloud point are calculated. Second, it is planned to develop a relative ensemble-based DPC swarm algorithm for analyzing the number of separation lines to determine all parts in the cloud content. Finally, fit each separator using the least squares method. iron. The cloud point of the resulting split subconductors has a clear demarcation line, and the distance between adjacent split subconductors is 0.45 m, divided by the four vertices of the square.
翻訳日:2024-01-22 10:03:23 公開日:2023-11-10
# バイオメディカルイメージングのためのgpt-4vの総合評価

Holistic Evaluation of GPT-4V for Biomedical Imaging ( http://arxiv.org/abs/2312.05256v1 )

ライセンス: Link先を確認
Zhengliang Liu, Hanqi Jiang, Tianyang Zhong, Zihao Wu, Chong Ma, Yiwei Li, Xiaowei Yu, Yutong Zhang, Yi Pan, Peng Shu, Yanjun Lyu, Lu Zhang, Junjie Yao, Peixin Dong, Chao Cao, Zhenxiang Xiao, Jiaqi Wang, Huan Zhao, Shaochen Xu, Yaonai Wei, Jingyuan Chen, Haixing Dai, Peilong Wang, Hao He, Zewei Wang, Xinyu Wang, Xu Zhang, Lin Zhao, Yiheng Liu, Kai Zhang, Liheng Yan, Lichao Sun, Jun Liu, Ning Qiang, Bao Ge, Xiaoyan Cai, Shijie Zhao, Xintao Hu, Yixuan Yuan, Gang Li, Shu Zhang, Xin Zhang, Xi Jiang, Tuo Zhang, Dinggang Shen, Quanzheng Li, Wei Liu, Xiang Li, Dajiang Zhu, Tianming Liu(参考訳) 本稿では,gpt-4vの生体画像解析における能力と限界を大規模に評価する。 GPT-4Vは、コンピュータビジョンのための人工知能(AGI)のブレークスルーであり、バイオメディカル領域に応用されている。 GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。 タスクには、モダリティ認識、解剖学的局在、疾患診断、レポート生成、病変検出が含まれる。 広範な実験は、GPT-4Vの強度と弱点に関する洞察を与える。 結果, gpt-4vのモダリティと解剖学的認識は熟練しているが, 疾患の診断と局在は困難である。 GPT-4Vは診断レポート生成時に優れ、強力な画像キャプションスキルを示す。 バイオメディカルイメージングAIを約束する一方で、GPT-4Vは臨床展開前にさらなる強化と検証が必要である。 バイオメディカルAGIの信頼性の高い統合のための開発と試験の責任を強調した。 多様な医療画像に対するGPT-4Vの厳密な評価は、マルチモーダルな大規模言語モデル(LLM)の理解を深め、影響のある医療応用に向けた今後の取り組みを導く。

In this paper, we present a large-scale evaluation probing GPT-4V's capabilities and limitations for biomedical image analysis. GPT-4V represents a breakthrough in artificial general intelligence (AGI) for computer vision, with applications in the biomedical domain. We assess GPT-4V's performance across 16 medical imaging categories, including radiology, oncology, ophthalmology, pathology, and more. Tasks include modality recognition, anatomy localization, disease diagnosis, report generation, and lesion detection. The extensive experiments provide insights into GPT-4V's strengths and weaknesses. Results show GPT-4V's proficiency in modality and anatomy recognition but difficulty with disease diagnosis and localization. GPT-4V excels at diagnostic report generation, indicating strong image captioning skills. While promising for biomedical imaging AI, GPT-4V requires further enhancement and validation before clinical deployment. We emphasize responsible development and testing for trustworthy integration of biomedical AGI. This rigorous evaluation of GPT-4V on diverse medical images advances understanding of multimodal large language models (LLMs) and guides future work toward impactful healthcare applications.
翻訳日:2024-01-15 15:00:14 公開日:2023-11-10
# 時空間特徴を用いた飛行環境下での脳波に基づくワークロードレベルの復号

Decoding EEG-based Workload Levels Using Spatio-temporal Features Under Flight Environment ( http://arxiv.org/abs/2312.09423v1 )

ライセンス: Link先を確認
Dae-Hyeok Lee, Sung-Jin Kim, Si-Hyun Kim, Seong-Whan Lee(参考訳) パイロットの精神状態の検出は、異常な精神状態が破滅的な事故を引き起こす可能性があるため重要である。 本研究は,作業負荷レベル,特に正常状態,低負荷,高負荷など,さまざまな作業負荷レベルを分類するためのディープラーニング技術の適用可能性について紹介する。 私たちの知る限りでは、この研究はパイロットのワークロードレベルを分類する最初の試みです。 脳波信号から重要な特徴を抽出するために、5つの畳み込みブロックと1つの長い短期記憶ブロックからなるハイブリッドディープニューラルネットワークを用いる。 実験には10人のパイロットが参加し、模擬飛行環境で行われた。 従来の4つのモデルとは対照的に,提案モデルは0.8613の精度が向上し,全参加者の作業負荷レベルを分類する上で,従来のモデルよりも0.0597以上向上した。 私たちのモデルは、ワークロードレベルをうまく分類するだけでなく、参加者に貴重なフィードバックを与えました。 したがって、我々の研究は、自律飛行の進歩と将来人工知能技術を活用した運転に重要な貢献を期待する。

The detection of pilots' mental states is important due to the potential for their abnormal mental states to result in catastrophic accidents. This study introduces the feasibility of employing deep learning techniques to classify different workload levels, specifically normal state, low workload, and high workload. To the best of our knowledge, this study is the first attempt to classify workload levels of pilots. Our approach involves the hybrid deep neural network that consists of five convolutional blocks and one long short-term memory block to extract the significant features from electroencephalography signals. Ten pilots participated in the experiment, which was conducted within the simulated flight environment. In contrast to four conventional models, our proposed model achieved a superior grand--average accuracy of 0.8613, surpassing other conventional models by at least 0.0597 in classifying workload levels across all participants. Our model not only successfully classified workload levels but also provided valuable feedback to the participants. Hence, we anticipate that our study will make the significant contributions to the advancement of autonomous flight and driving leveraging artificial intelligence technology in the future.
翻訳日:2024-01-15 14:24:07 公開日:2023-11-10
# 対実解析による脳波モータ画像のピオネリング

Pioneering EEG Motor Imagery Classification Through Counterfactual Analysis ( http://arxiv.org/abs/2312.09456v1 )

ライセンス: Link先を確認
Kang Yin, Hye-Bin Shin, Hee-Dong Kim, Seong-Whan Lee(参考訳) 電気脳波分類(EEG)の領域におけるCE技術の適用は、現代研究では比較的稀である。 本研究では,脳波信号の解析に適した新しい非生成的アプローチをCEに導入し,探索する。 この革新的なアプローチは、時間周波数解析から得られたパッチを戦略的に交換することで、モデルの意思決定プロセスを評価する。 本手法は,分類結果に導入された変化やニュアンスを慎重に検討することにより,解釈可能性を高める知見を導出することを目的としている。 実験結果から得られた実験結果は,提案手法の有効性を検証するだけでなく,モデルの予測能力に対する人間的信頼の強化にも寄与する。 その結果、これらの発見は、この有望な方向性でさらなる、より広範な研究を行う意義と潜在的な価値を裏付ける。

The application of counterfactual explanation (CE) techniques in the realm of electroencephalography (EEG) classification has been relatively infrequent in contemporary research. In this study, we attempt to introduce and explore a novel non-generative approach to CE, specifically tailored for the analysis of EEG signals. This innovative approach assesses the model's decision-making process by strategically swapping patches derived from time-frequency analyses. By meticulously examining the variations and nuances introduced in the classification outcomes through this method, we aim to derive insights that can enhance interpretability. The empirical results obtained from our experimental investigations serve not only to validate the efficacy of our proposed approach but also to reinforce human confidence in the model's predictive capabilities. Consequently, these findings underscore the significance and potential value of conducting further, more extensive research in this promising direction.
翻訳日:2024-01-15 14:11:35 公開日:2023-11-10
# 衛星画像ストリームにおけるタスクワイズ単一試行イベント関連電位検出のための分散推論システム

A Distributed Inference System for Detecting Task-wise Single Trial Event-Related Potential in Stream of Satellite Images ( http://arxiv.org/abs/2312.09446v1 )

ライセンス: Link先を確認
Sung-Jin Kim, Heon-Gyu Kwak, Hyeon-Taek Han, Dae-Hyeok Lee, Ji-Hoon Jeong, and Seong-Whan Lee(参考訳) 脳-コンピュータインタフェース(BCI)は、様々なアプリケーションにおいてその可能性に大きな注目を集めており、イベント関連電位(ERP)はBCIシステムにおいて重要な役割を果たす。 本稿では,衛星画像のストリーム中のタスクワイズ単眼ERPを検出するための分散推論システムを提案する。 ターゲット検出に単一のモデルを用いる従来の手法とは異なり、システムは複数のモデルを使用し、それぞれが特定のタスクに最適化され、様々な画像遷移時間とターゲット開始時間にまたがるパフォーマンスが向上する。 4人の参加者を対象に実施した実験では,通常パラダイムと有界ボックスを備えたAIパラダイムの2つのパラダイムが採用された。 その結果,提案手法は両パラダイムにおいて従来の手法を上回り,最高値のf_{\beta}$スコアを得た。 さらに、AIパラダイムのバウンディングボックスを含むことで、ターゲット認識が大幅に改善された。 本研究は,衛星画像ストリームにおけるERP検出分野の進展における分散推論システムの可能性を明らかにするものである。

Brain-computer interface (BCI) has garnered the significant attention for their potential in various applications, with event-related potential (ERP) performing a considerable role in BCI systems. This paper introduces a novel Distributed Inference System tailored for detecting task-wise single-trial ERPs in a stream of satellite images. Unlike traditional methodologies that employ a single model for target detection, our system utilizes multiple models, each optimized for specific tasks, ensuring enhanced performance across varying image transition times and target onset times. Our experiments, conducted on four participants, employed two paradigms: the Normal paradigm and an AI paradigm with bounding boxes. Results indicate that our proposed system outperforms the conventional methods in both paradigms, achieving the highest $F_{\beta}$ scores. Furthermore, including bounding boxes in the AI paradigm significantly improved target recognition. This study underscores the potential of our Distributed Inference System in advancing the field of ERP detection in satellite image streams.
翻訳日:2024-01-15 14:10:00 公開日:2023-11-10
# AI/MLによる5G位置決めの進歩

5G Positioning Advancements with AI/ML ( http://arxiv.org/abs/2401.02427v1 )

ライセンス: Link先を確認
Mohammad Alawieh, Georgios Kontes(参考訳) 本稿では,5gシステムにおけるai/mlに基づく直接位置決めの包括的レビューを行い,従来の手法が不足するシナリオや状況にその可能性について考察する。 技術報告TR38.843から得られた知見に基づいて,ライフサイクル管理(LCM)を考察し,関連する直接的な位置決めプロセスに焦点をあてる。 本研究は, 各種課題条件下での直接位置決めに関する報告から, 重要なシミュレーション結果と重要な観察結果を強調した。 さらに,計測報告,データ収集,モデル管理に対処し,直接位置決めを進める上での重要性を強調する。

This paper provides a comprehensive review of AI/ML-based direct positioning within 5G systems, focusing on its potential in challenging scenarios and conditions where conventional methods often fall short. Building upon the insights from the technical report TR38.843, we examine the Life Cycle Management (LCM) with a focus on to the aspects associated direct positioning process. We highlight significant simulation results and key observations from the report on the direct positioning under the various challenging conditions. Additionally, we discuss selected solutions that address measurement reporting, data collection, and model management, emphasizing their importance for advancing direct positioning.
翻訳日:2024-01-15 10:00:05 公開日:2023-11-10
# chatgptは急性冠症候群における性別および人種バイアスを示す

ChatGPT Exhibits Gender and Racial Biases in Acute Coronary Syndrome Management ( http://arxiv.org/abs/2311.14703v1 )

ライセンス: Link先を確認
Angela Zhang, Mert Yuksekgonul, Joshua Guild, James Zou, Joseph C. Wu(参考訳) 大規模言語モデル(LLM)の最近の進歩は、急速に普及し、広く使われるようになった。 初期の応用は医学であり、LSMは臨床ワークフローの合理化と臨床分析と意思決定の促進のために研究されている。 しかし、人工知能(ai)や特にllmの展開における主要な障壁は、組み込み性別や人種バイアスに対する懸念であった。 急性冠症候群 (ACS) の臨床管理において, 先行する LLM である ChatGPT 3.5 が性別的, 人種的偏見を示すかを検討した。 その結果, 女性, アフリカ系アメリカ人, ヒスパニックの患者を特定することで, ACSの推奨医療管理, 診断, 症状管理のガイドラインが減少した。 ACSの診断とさらなる介入,高強度スタチンの推奨など,冠動脈造影やストレステストの推奨において最大の相違がみられた。 これらの差異は臨床的に観察され、ACSと冠動脈疾患の男女差、人種的死亡率、死亡率に関係しているバイアスと相関する。 さらに,不安定な狭心症では,明確な臨床ガイドラインがほとんど存在しないため,最大の相違がみられた。 最後に,chatgpt 3.5に回答を提示する前にその推論を説明するように依頼することで,臨床的正確性を改善し,性別や人種偏りを緩和できることがわかった。 LLMが提示する性差と人種バイアスが実際に臨床管理に影響を及ぼすことを示す最初の研究の1つである。 さらに, LLM の改善戦略は, 臨床管理における LLM のパフォーマンスを向上するだけでなく, 性別や人種的偏見の軽減にも有効であることを示す。

Recent breakthroughs in large language models (LLMs) have led to their rapid dissemination and widespread use. One early application has been to medicine, where LLMs have been investigated to streamline clinical workflows and facilitate clinical analysis and decision-making. However, a leading barrier to the deployment of Artificial Intelligence (AI) and in particular LLMs has been concern for embedded gender and racial biases. Here, we evaluate whether a leading LLM, ChatGPT 3.5, exhibits gender and racial bias in clinical management of acute coronary syndrome (ACS). We find that specifying patients as female, African American, or Hispanic resulted in a decrease in guideline recommended medical management, diagnosis, and symptom management of ACS. Most notably, the largest disparities were seen in the recommendation of coronary angiography or stress testing for the diagnosis and further intervention of ACS and recommendation of high intensity statins. These disparities correlate with biases that have been observed clinically and have been implicated in the differential gender and racial morbidity and mortality outcomes of ACS and coronary artery disease. Furthermore, we find that the largest disparities are seen during unstable angina, where fewer explicit clinical guidelines exist. Finally, we find that through asking ChatGPT 3.5 to explain its reasoning prior to providing an answer, we are able to improve clinical accuracy and mitigate instances of gender and racial biases. This is among the first studies to demonstrate that the gender and racial biases that LLMs exhibit do in fact affect clinical management. Additionally, we demonstrate that existing strategies that improve LLM performance not only improve LLM performance in clinical management, but can also be used to mitigate gender and racial biases.
翻訳日:2023-12-03 13:54:50 公開日:2023-11-10
# 学際的AI教育 : 人工知能の教育におけるカリキュラムとコミュニティのニーズの相違

Transdisciplinary AI Education: The Confluence of Curricular and Community Needs in the Instruction of Artificial Intelligence ( http://arxiv.org/abs/2311.14702v1 )

ライセンス: Link先を確認
Roozbeh Aliabadi, Aditi Singh and Eryka Wilson(参考訳) 人工知能(AI)の教育への統合は、私たちが学んだり教えたりする方法を変える可能性がある。 本稿では,教育におけるAIの現状を考察し,この技術を教室に組み込むことによる潜在的なメリットと課題について考察する。 現在AI教育で利用できるアプローチは、より大きなカリキュラムに依存しない個別のコンピュータサイエンス概念にのみ焦点をあてた経験を持つ学生を提示することが多い。 しかし、AIを教えることはサイロや学際的なものではない。 むしろ、AI教育は、学生が学んでいる幅広いカリキュラムやコミュニティとのつながりを含む、学際的なものであるべきです。 本稿は,neom community schoolで現在開発中のaiプログラムと,サウジアラビアの新大都市ネオムにおける大規模教育・研究・イノベーションセクターについて述べる。 このプログラムでは、aiは科目として教えられ、カリキュラム内で他の科目を学ぶために、学校システム国際バカロレアテ (ib) のアプローチによって、調査単位を通じて学習を展開する。 この教育のアプローチは、一度に1つの主要な指導的質問の下でカリキュラムをまたいで主題を結びつける。 提案手法は, 学生が好むか好まないかという課題から, カリキュラム全体を通して教えられる科目へとAIを移行させることによって, 学生にAIを導入するための意味あるアプローチを提供する。

The integration of artificial intelligence (AI) into education has the potential to transform the way we learn and teach. In this paper, we examine the current state of AI in education and explore the potential benefits and challenges of incorporating this technology into the classroom. The approaches currently available for AI education often present students with experiences only focusing on discrete computer science concepts agnostic to a larger curriculum. However, teaching AI must not be siloed or interdisciplinary. Rather, AI instruction ought to be transdisciplinary, including connections to the broad curriculum and community in which students are learning. This paper delves into the AI program currently in development for Neom Community School and the larger Education, Research, and Innovation Sector in Neom, Saudi Arabia s new megacity under development. In this program, AI is both taught as a subject and to learn other subjects within the curriculum through the school systems International Baccalaureate (IB) approach, which deploys learning through Units of Inquiry. This approach to education connects subjects across a curriculum under one major guiding question at a time. The proposed method offers a meaningful approach to introducing AI to students throughout these Units of Inquiry, as it shifts AI from a subject that students like or not like to a subject that is taught throughout the curriculum.
翻訳日:2023-12-03 13:54:23 公開日:2023-11-10
# 科学的開始における共同アドバイザとしてのchatgpt:初等教育におけるプロジェクトベース学習による行動研究

ChatGPT as Co-Advisor in Scientific Initiation: Action Research with Project-Based Learning in Elementary Education ( http://arxiv.org/abs/2311.14701v1 )

ライセンス: Link先を確認
Fabiano Villan, Renato P. dos Santos(参考訳) 背景:現代の教育現場では、技術は革新的な教育実践を促進する力を持っている。 教師や学生が新しい手法や技術を採用することに対する抵抗を克服することは課題である。 目的:研究プロジェクトにおける共同アドバイザとしてのchatgptの有効性とそのプロジェクトベース学習(pbl)の実施への影響を評価し,新しい教育方法論の使用に対する抵抗を克服すること。 設計: 非構造化インタビューやgoogle formsによるアンケートの適用など,アクションリサーチの方法論が採用されている。 この研究は小学校で行われ、353人の学生と16人の教師が参加した。 データ収集と分析: 会議やインタビューの観察とメモを通じてデータを収集し、電子アンケートで補完し、microsoft excelとgoogle formsで定量的かつ質的な分析を行った。 結果: 教育ツールとしてのChatGPTの導入により, 学生の参加が増加し, 教師の抵抗が減少した。 結論:本研究は,学校研究協調におけるChatGPTの有用性を確認し,PBLの促進と教育実践における文化的変化を促進する役割を強調した。

Background: In the contemporary educational landscape, technology has the power to drive innovative pedagogical practices. Overcoming the resistance of teachers and students to adopting new methods and technologies is a challenge that needs to be addressed. Objectives: To evaluate the effectiveness of ChatGPT as a co-advisor in research projects and its influence on the implementation of Project-Based Learning (PBL), as well as overcoming resistance to the use of new pedagogical methodologies. Design: An action-research methodology was employed, including unstructured interviews and the application of questionnaires via Google Forms. Setting and Participants: The research was conducted in an elementary school, involving 353 students and 16 teachers. Data Collection and Analysis: Data were gathered through observations and notes in meetings and interviews, complemented by electronic questionnaires, with quantitative and qualitative analyses performed via Microsoft Excel and Google Forms. Results: The introduction of ChatGPT as a pedagogical tool led to increased student engagement and decreased teacher resistance, reflected in recognition at local science fairs. Conclusion: The study confirmed the utility of ChatGPT in school research co-orientation, highlighting its role in facilitating PBL and promoting cultural changes in educational practice, with proactive school management identified as a catalysing element in adapting to educational innovations.
翻訳日:2023-12-03 13:53:59 公開日:2023-11-10
# AIのフェミニストメタ倫理に向けて

Towards a Feminist Metaethics of AI ( http://arxiv.org/abs/2311.14700v1 )

ライセンス: Link先を確認
Anastasia Siapka(参考訳) 人工知能(AI)の普及は、膨大な数のAI倫理ガイドライン、ボード、行動規範を引き起こした。 これらのアウトプットは主に、AI開発とデプロイメントのための競合する理論、原則、価値を分析します。 しかし、AI倫理/倫理主義者に関する最近の一連の問題が示すように、この方向性は不十分である。 他の職業を評価する前に、AI倫理学者は自分自身を批判的に評価する必要があるが、そのような評価は文学においてより明確かつ体系的に行われるべきである。 これらの不足は、AIのフェミニズム的メタ倫理に関する研究アジェンダを開発することで緩和できると私は主張する。 非ノルミティブな方法で道徳と道徳の判断の性質を反映する伝統的なメタ倫理とは対照的に、フェミニストのメタ倫理は、倫理とは何かだけでなく、それに対する我々の関与がどのようなものであるべきかを問う範囲を広げている。 この視点をAIの文脈に適用することで、AIのフェミニスト的メタ倫理が調べられることを提案します。 (i)ai倫理における理論と行動の連続性 (ii)ai倫理の実生活への影響 (iii)ai倫理に関わる者の役割とプロファイル (4) 文脈・感情・物語に注意を払う手法による力関係に対するAIの効果。

The proliferation of Artificial Intelligence (AI) has sparked an overwhelming number of AI ethics guidelines, boards and codes of conduct. These outputs primarily analyse competing theories, principles and values for AI development and deployment. However, as a series of recent problematic incidents about AI ethics/ethicists demonstrate, this orientation is insufficient. Before proceeding to evaluate other professions, AI ethicists should critically evaluate their own; yet, such an evaluation should be more explicitly and systematically undertaken in the literature. I argue that these insufficiencies could be mitigated by developing a research agenda for a feminist metaethics of AI. Contrary to traditional metaethics, which reflects on the nature of morality and moral judgements in a non-normative way, feminist metaethics expands its scope to ask not only what ethics is but also what our engagement with it should be like. Applying this perspective to the context of AI, I suggest that a feminist metaethics of AI would examine: (i) the continuity between theory and action in AI ethics; (ii) the real-life effects of AI ethics; (iii) the role and profile of those involved in AI ethics; and (iv) the effects of AI on power relations through methods that pay attention to context, emotions and narrative.
翻訳日:2023-12-03 13:53:34 公開日:2023-11-10
# 形式的概念分析とWordNetを用いたオントロジー学習

Ontology Learning Using Formal Concept Analysis and WordNet ( http://arxiv.org/abs/2311.14699v1 )

ライセンス: Link先を確認
Bryar A. Hassan(参考訳) 手動オントロジー構築には時間、リソース、ドメインスペシャリストが必要です。 自動化や半自動化のためにこのプロセスのコンポーネントをサポートするのはよいことです。 このプロジェクトと論文は、自由テキストから概念階層を学習するための形式概念分析とWordNetフレームワークを提供する。 プロセスにはステップがあります。 まず、文書はPart-Of-Speechラベル付きで解析され、文解析木を生成する。 動詞/名詞の依存関係は次にパースツリーから導き出される。 単語のペアリングを補間、プルーニング、フィルタリングした後、正式なコンテキストが生成される。 形式的文脈は、パーサの出力が誤った場合があり、すべての導出されたペアが興味深く、大きな自由テキストコーパスから構築された場合が大きいため、いくつかの誤ったペアを含む。 形式的コンテキストからの格子の導出には、データのサイズや複雑さによって時間がかかる可能性がある。 したがって、形式的文脈の減少は、誤って興味のないペアを排除し、アイデア格子の導出を高速化する。 wordnetベースと周波数ベースのアプローチがテストされている。 最後に、形式的アイデア格子を計算し、古典的な概念階層を作成する。 還元された概念格子は、結果を評価するために原点と比較される。 いくつかのシステムの制約と、論理的な結論を妨げるコンポーネントの相違にもかかわらず、以下のデータはプロジェクトの階層化を示唆しており、論文化は有望である。 まず、還元されたアイデア格子と元の概念は共通点を持つ。 第二に、代替言語や統計的手法は形式的文脈サイズを減らすことができる。 最後に, WordNet と Frequency をベースとしたアプローチは, 形式的文脈の差異を低減し, 適用順序を検証し, 文脈を効率的に削減する。

Manual ontology construction takes time, resources, and domain specialists. Supporting a component of this process for automation or semi-automation would be good. This project and dissertation provide a Formal Concept Analysis and WordNet framework for learning concept hierarchies from free texts. The process has steps. First, the document is Part-Of-Speech labeled, then parsed to produce sentence parse trees. Verb/noun dependencies are derived from parse trees next. After lemmatizing, pruning, and filtering the word pairings, the formal context is created. The formal context may contain some erroneous and uninteresting pairs because the parser output may be erroneous, not all derived pairs are interesting, and it may be large due to constructing it from a large free text corpus. Deriving lattice from the formal context may take longer, depending on the size and complexity of the data. Thus, decreasing formal context may eliminate erroneous and uninteresting pairs and speed up idea lattice derivation. WordNet-based and Frequency-based approaches are tested. Finally, we compute formal idea lattice and create a classical concept hierarchy. The reduced concept lattice is compared to the original to evaluate the outcomes. Despite several system constraints and component discrepancies that may prevent logical conclusion, the following data imply idea hierarchies in this project and dissertation are promising. First, the reduced idea lattice and original concept have commonalities. Second, alternative language or statistical methods can reduce formal context size. Finally, WordNet-based and Frequency-based approaches reduce formal context differently, and the order of applying them is examined to reduce context efficiently.
翻訳日:2023-12-03 13:53:17 公開日:2023-11-10
# IODeep:DICOM標準でのディープラーニング導入のためのIOD

IODeep: an IOD for the introduction of deep learning in the DICOM standard ( http://arxiv.org/abs/2311.16163v1 )

ライセンス: Link先を確認
Salvatore Contino, Luca Cruciata, Orazio Gambino and Roberto Pirrone(参考訳) 近年、人工知能(AI)、特にディープニューラルネットワーク(DNN)は、よく知られた競争の確立とともに、より多くのデータセットが利用可能になったため、バイオメディカルイメージセグメンテーションにおいて、関連する研究トピックとなった。 研究側のDNNベースのセグメンテーションの人気にもかかわらず、これらの技術は診断過程において医師を効果的に支援できるとしても、日常臨床ではほとんど使われていない。 神経モデルの予測の説明可能性に関する問題とは別に、そのようなシステムは診断ワークフローに統合されておらず、この目標を達成するためにはそれらの使用の標準化が必要である。 本稿では,dnn の重みとアーキテクチャを,取得モダリティ,解剖学的領域,および調査中の疾患についてラベル付けされた特定の画像データセットに格納することを目的とした,新しい dicom 情報オブジェクト定義 (iod) を提案する。 IODアーキテクチャは、上述したラベルに基づくPACSサーバからのDNN選択アルゴリズムと、DICOM統合の有効性を示すために設計された単純なPACSビューアとともに提示されるが、PACSサーバ側では変更は不要である。 ソースコードはhttps://github.com/CHILab1/IODeep.gitで無料で入手できる。

In recent years, Artificial Intelligence (AI) and in particular Deep Neural Networks (DNN) became a relevant research topic in biomedical image segmentation due to the availability of more and more data sets along with the establishment of well known competitions. Despite the popularity of DNN based segmentation on the research side, these techniques are almost unused in the daily clinical practice even if they could support effectively the physician during the diagnostic process. Apart from the issues related to the explainability of the predictions of a neural model, such systems are not integrated in the diagnostic workflow, and a standardization of their use is needed to achieve this goal. This paper presents \textit{IODeep} a new DICOM Information Object Definition (IOD) aimed at storing both the weights and the architecture of a DNN already trained on a particular image dataset that is labeled as regards the acquisition modality, the anatomical region, and the disease under investigation. The IOD architecture is presented along with a DNN selection algorithm from the PACS server based on the labels outlined above, and a simple PACS viewer purposely designed for demonstrating the effectiveness of the DICOM integration, while no modifications are required on the PACS server side. The source code are freely available at https://github.com/CHILab1/IODeep.git
翻訳日:2023-12-03 13:04:19 公開日:2023-11-10
# リカレントニューラルネットワークによる収益予測

Earnings Prediction Using Recurrent Neural Networks ( http://arxiv.org/abs/2311.10756v1 )

ライセンス: Link先を確認
Moritz Scherrmann, Ralf Elsas(参考訳) 将来の見通しに関する企業情報開示は、EUのMARや米国のSECルール10b-5、RegFDといった世界的な規制の企業価値やコンプライアンスに不可欠である。 開示義務を遵守するために、発行者は、セキュリティ価格に潜在的に重大な影響を及ぼす可能性のある非公開情報のみを、効率的市場における価格に重大な影響を及ぼす新規で関連のある予期せぬ情報として特定しなければならない。 金融アナリストは企業の業績見通しに関する公的な知識を表わしており、包括的なカバレッジと偏りのない見積もりを提供する上での限界に直面している。 この研究は、将来の企業利益を予測するニューラルネットワークを開発し、40年間の財務データを使用し、アナリストのカバレッジギャップに対処し、潜在的に隠れた洞察を明らかにする。 このモデルはデータ欠落を可能にするため、選択性や生存バイアスを避ける。 さらに、このモデルは会計年度末と四半期決算の両方を予測できる。 その業績は学術文献のベンチマークモデルを大きく上回り、アナリストの会計年度決算予測を上回った。

Firm disclosures about future prospects are crucial for corporate valuation and compliance with global regulations, such as the EU's MAR and the US's SEC Rule 10b-5 and RegFD. To comply with disclosure obligations, issuers must identify nonpublic information with potential material impact on security prices as only new, relevant and unexpected information materially affects prices in efficient markets. Financial analysts, assumed to represent public knowledge on firms' earnings prospects, face limitations in offering comprehensive coverage and unbiased estimates. This study develops a neural network to forecast future firm earnings, using four decades of financial data, addressing analysts' coverage gaps and potentially revealing hidden insights. The model avoids selectivity and survivorship biases as it allows for missing data. Furthermore, the model is able to produce both fiscal-year-end and quarterly earnings predictions. Its performance surpasses benchmark models from the academic literature by a wide margin and outperforms analysts' forecasts for fiscal-year-end earnings predictions.
翻訳日:2023-11-27 00:48:31 公開日:2023-11-10
# kパラメータによる日次異常検出におけるFalse In-Season Anomaly Suppression

k-Parameter Approach for False In-Season Anomaly Suppression in Daily Time Series Anomaly Detection ( http://arxiv.org/abs/2311.08422v1 )

ライセンス: Link先を確認
Vincent Yuansang Zha, Vaishnavi Kommaraju, Okenna Obi-Njoku, Vijay Dakshinamoorthy, Anirudh Agnihotri, Nantes Kirsten(参考訳) 毎週のパターンで毎日の時系列で異常を検出することは、幅広いアプリケーションで一般的なタスクである。 タスクを実行する典型的な方法は、分解メソッドを使うことである。 しかし、この方法は、データポイントが毎週の範囲内にあるが平日位置から外れているような偽陽性結果を生成することが多い。 このタイプの異常を「シーズン内異常」と呼び、この問題に対処するためのkパラメータアプローチを提案する。 このアプローチは、シーズン内異常に対する設定可能な余分な耐性を提供し、誤解を招くアラートを抑制しながら、真のポジティブを保ちます。 それは良い結果をもたらす。

Detecting anomalies in a daily time series with a weekly pattern is a common task with a wide range of applications. A typical way of performing the task is by using decomposition method. However, the method often generates false positive results where a data point falls within its weekly range but is just off from its weekday position. We refer to this type of anomalies as "in-season anomalies", and propose a k-parameter approach to address the issue. The approach provides configurable extra tolerance for in-season anomalies to suppress misleading alerts while preserving real positives. It yields favorable result.
翻訳日:2023-11-19 14:04:31 公開日:2023-11-10
# 海洋モデルにおけるパラメトリック感度推定のためのサロゲートニューラルネットワーク

Surrogate Neural Networks to Estimate Parametric Sensitivity of Ocean Models ( http://arxiv.org/abs/2311.08421v1 )

ライセンス: Link先を確認
Yixuan Sun, Elizabeth Cucuzzella, Steven Brus, Sri Hari Krishna Narayanan, Balu Nadiga, Luke Van Roekel, Jan H\"uckelheim, Sandeep Madireddy(参考訳) モデリングは温室効果ガス、温暖化、氷床の融解が海に与える影響を理解するのに不可欠である。 同時に、海洋プロセスはハリケーンや干ばつのような現象に影響を及ぼす。 物理的に測定できないモデルのパラメータは、モデル出力に大きな影響を及ぼす。 理想的な海洋モデルのために、摂動パラメータアンサンブルデータと訓練されたサロゲートニューラルネットワークモデルを作成した。 ニューラルサロゲートは1ステップの前進ダイナミクスを正確に予測し、パラメトリック感度を計算した。

Modeling is crucial to understanding the effect of greenhouse gases, warming, and ice sheet melting on the ocean. At the same time, ocean processes affect phenomena such as hurricanes and droughts. Parameters in the models that cannot be physically measured have a significant effect on the model output. For an idealized ocean model, we generated perturbed parameter ensemble data and trained surrogate neural network models. The neural surrogates accurately predicted the one-step forward dynamics, of which we then computed the parametric sensitivity.
翻訳日:2023-11-19 14:04:20 公開日:2023-11-10
# 2つの空間的分離粒子間の絡み合いはどのように保たれるか?

How is Entanglement Preserved and Manifested Between Two Spatially Separated Particles? ( http://arxiv.org/abs/2311.08420v1 )

ライセンス: Link先を確認
Jianhao M. Yang(参考訳) ベル実験により、量子の絡み合いは分離不能な相関であることが確認されたが、局所的な測定を行う場合、2つの絡み合い粒子の間には光よりも速い影響はない。 しかし、2つの絡み合った粒子が空間的に分離されたとき、そのような分離不能な相関が維持され、どのように現れるかはまだよく分かっていない。 最近提案された量子力学の最小可観測原理はこの問題に新たな洞察をもたらした。 ここでは, 2つの粒子間の以前の物理的相互作用によって, 分離不能な相関が生成されたとしても, 真空揺らぎによるバイパルタイト系の追加観測値の最大化によって, 分離不能な相関の保存と発現が達成されることを示す。 これは、2つの粒子が崩壊したときの相互作用が無くとも物理的に実現され、基礎となる真空変動は局所的である。 ガウス波パケットによって記述された2つの絡み合った自由粒子の例として、これらの結果を示す。

Bell experiments have confirmed that quantum entanglement is an inseparable correlation but there is no faster-than-light influence between two entangled particles when a local measurement is performed. However, how such an inseparable correlation is maintained and manifested when the two entangled particle are space-like separated is still not well understood. The recently proposed least observability principle for quantum mechanics brings new insights to this question. Here we show that even though the inseparable correlation may be initially created by previous physical interaction between the two particles, the preservation and manifestation of such inseparable correlation are achieved through extremizing an information metric that measures the additional observability of the bipartite system due to vacuum fluctuations. This is physically realized even though there is no further interaction when the two particles move apart, and the underlying vacuum fluctuations are local. An example of two entangled free particles described by Gaussian wave packets is provided to illustrate these results.
翻訳日:2023-11-19 14:04:12 公開日:2023-11-10
# ビームと試料の過分極生成のための普遍的手法

A Universal Method to Generate Hyperpolarisation in Beams and Samples ( http://arxiv.org/abs/2311.05976v1 )

ライセンス: Link先を確認
R. Engels, T. El-Kordy, N. Faatz, C. Hanhart, N. Hanold, C.S. Kannis, L. Kunkel, H. Sharma, T. Sefzick, H. Soltner, V. Verhoeven, M. Westphal, J. Wirtz and M. B\"uscher(参考訳) スケール可能な超分極、すなわち熱平衡から逸脱する試料中の核スピンの占有数の不均衡は、科学の様々な分野において必要である。 例えば、超偏極トレーサは医学(MRI)の磁気共鳴イメージングに利用され、偏極ビームとターゲットは核物理学で核力のスピン依存を研究するために使用される。 ここでは、長手パルスと放射パルスによる電波ポンピングによって誘起される遷移の量子干渉により、小さな磁場で大きな偏極が生じることを示す。 この方法は、keVエネルギー範囲の準安定水素原子のビームに対して理論的に理解され実験的に証明された確立された方法よりも容易である。 また、休息中のさまざまなサンプルでも機能するはずだ。 したがって、この技術は、新しい世代の分極トレーサ、おそらくより優れた空間分解能を持つ低磁場MRI、あるいは分極燃料の製造の扉を開くことで、関連する断面を操作することで核融合炉の効率を高めることができる。

Sizable hyperpolarisation, i.e. an imbalance of the occupation numbers of nuclear spins in a sample deviating from thermal equilibrium, is needed in various fields of science. For example, hyperpolarised tracers are utilised in magnetic resonance imaging in medicine (MRI) and polarised beams and targets are employed in nuclear physics to study the spin dependence of nuclear forces. Here we show that the quantum interference of transitions induced by radio-wave pumping with longitudinal and radial pulses are able to produce large polarisations at small magnetic fields. This method is easier than established methods, theoretically understood and experimentally proven for beams of metastable hydrogen atoms in the keV energy range. It should also work for a variety of samples at rest. Thus, this technique opens the door for a new generation of polarised tracers, possibly low-field MRI with better spatial resolution or the production of polarised fuel to increase the efficiency of fusion reactors by manipulating the involved cross sections.
翻訳日:2023-11-15 17:37:53 公開日:2023-11-10
# プロンプト特異度の異なるコード生成におけるLCMのテスト

Testing LLMs on Code Generation with Varying Levels of Prompt Specificity ( http://arxiv.org/abs/2311.07599v1 )

ライセンス: Link先を確認
Lincoln Murr, Morgan Grainger, David Gao(参考訳) 大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。 LLMの恩恵を受ける無数のアプリケーションの中で、自動コード生成はますます有望になっている。 自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスに大きな変化をもたらし、手作業によるコーディング作業の大幅な削減と、人間によるエラーの可能性を秘めている。 本稿では,コーディング問題に対するpython生成におけるbard,chatgpt-3.5,chatgpt-4,claude-2などの様々なllmの性能評価を行った。 我々は、生成したコードの精度、時間効率、空間効率に、迅速な特異性のレベルがどのように影響するかに焦点を当てる。 テストの程度や特異性の異なる4種類のプロンプトを持つ104のコーディング問題のベンチマークを用いて,これらの側面を網羅的に検討した。 以上の結果から,異なるLLMおよびプロンプト型にまたがる性能の著しい変化が示唆され,その重要な貢献は,正確なPython関数を生成する上での理想的なプロンプト戦略を明らかにすることである。 本研究は、LLM機能に関するさらなる研究の基盤を築き、自動コード生成タスクやテスト駆動開発にLLMを活用するための実践的意義を提案する。

Large language models (LLMs) have demonstrated unparalleled prowess in mimicking human-like text generation and processing. Among the myriad of applications that benefit from LLMs, automated code generation is increasingly promising. The potential to transform natural language prompts into executable code promises a major shift in software development practices and paves the way for significant reductions in manual coding efforts and the likelihood of human-induced errors. This paper reports the results of a study that evaluates the performance of various LLMs, such as Bard, ChatGPT-3.5, ChatGPT-4, and Claude-2, in generating Python for coding problems. We focus on how levels of prompt specificity impact the accuracy, time efficiency, and space efficiency of the generated code. A benchmark of 104 coding problems, each with four types of prompts with varying degrees of tests and specificity, was employed to examine these aspects comprehensively. Our results indicate significant variations in performance across different LLMs and prompt types, and its key contribution is to reveal the ideal prompting strategy for creating accurate Python functions. This study lays the groundwork for further research in LLM capabilities and suggests practical implications for utilizing LLMs in automated code generation tasks and test-driven development.
翻訳日:2023-11-15 17:10:40 公開日:2023-11-10
# 財務テキストデータのためのマルチラベルトピックモデル

Multi-Label Topic Model for Financial Textual Data ( http://arxiv.org/abs/2311.07598v1 )

ライセンス: Link先を確認
Moritz Scherrmann(参考訳) 本稿では,アドホックな発表や8-K申請,金融関連ニュース,年次報告など,金融テキストを対象としたマルチラベルトピックモデルを提案する。 私は、事前定義された20の経済的動機づけのあるトピックを使って手動でラベル付けされるドイツのアドホックな発表3,044の金融マルチレーベルデータベースでモデルをトレーニングします。 最良のモデルでは、マクロF1スコアが85%以上に達する。 データを変換すると、同様のパフォーマンスのモデルの英語バージョンが生成される。 このモデルの応用として,話題間の株式市場の反応の違いについて検討する。 私は、新しい大規模プロジェクトや倒産フィリングの発表など、いくつかのトピックに対する強い肯定的あるいは否定的な市場反応の証拠を見つけていますが、他のトピックに対する大きな価格効果は見当たりません。 さらに、従来の研究とは対照的に、モデルのマルチラベル構造は、共起トピックが株式市場の反応に与える影響を分析することができる。 多くの場合、特定のトピックに対する反応は他のトピックとの共起に大きく依存する。 例えば、破産手続の過程で会社の再編に季節的株式オファリング(SEO)から配分された資本が使用される場合、市場は平均的に肯定的に反応する。 しかし、新薬開発による予期せぬ追加コストをカバーするためにこの資本を使用すると、SEOは平均的にネガティブな反応を示す。

This paper presents a multi-label topic model for financial texts like ad-hoc announcements, 8-K filings, finance related news or annual reports. I train the model on a new financial multi-label database consisting of 3,044 German ad-hoc announcements that are labeled manually using 20 predefined, economically motivated topics. The best model achieves a macro F1 score of more than 85%. Translating the data results in an English version of the model with similar performance. As application of the model, I investigate differences in stock market reactions across topics. I find evidence for strong positive or negative market reactions for some topics, like announcements of new Large Scale Projects or Bankruptcy Filings, while I do not observe significant price effects for some other topics. Furthermore, in contrast to previous studies, the multi-label structure of the model allows to analyze the effects of co-occurring topics on stock market reactions. For many cases, the reaction to a specific topic depends heavily on the co-occurrence with other topics. For example, if allocated capital from a Seasoned Equity Offering (SEO) is used for restructuring a company in the course of a Bankruptcy Proceeding, the market reacts positively on average. However, if that capital is used for covering unexpected, additional costs from the development of new drugs, the SEO implies negative reactions on average.
翻訳日:2023-11-15 17:10:17 公開日:2023-11-10
# 変圧器によるアクチュアリ非ライフ価格モデルの強化

Enhancing Actuarial Non-Life Pricing Models via Transformers ( http://arxiv.org/abs/2311.07597v1 )

ライセンス: Link先を確認
Alexej Brauer(参考訳) 現在、非生命保険価格に関するニューラルネットワークの分野では、多くの研究が行われている。 通常の目的は、ニューラルネットワークによる予測能力の向上と、現在の業界標準である一般化線形モデルの構築である。 本論文は, 表型データに対する変圧器モデルを用いて, アクタリカルな非生命モデルを強化する新しい手法により, この旅路に寄与する。 ここでは,ニューラルネットワークとローカルglmnetを組み合わせた基盤を構築し,これらのモデルを機能トークン化トランスフォーマタを通じて拡張する。 本論文は,提案手法の性能を実世界のクレーム頻度データセット上で実証し,一般化線形モデル,フィードフォワードニューラルネットワーク,複合アクチュエータニューラルネットワーク,ローカルGLMnet,純粋特徴量トークン変換器などのベンチマークモデルと比較する。 本論文は, 一般化線形モデルの利点を保ちつつ, ベンチマークモデルよりも優れた結果が得られることを示す。 また, 変圧器モデルの適用に関する実践的意義と課題についても論じる。

Currently, there is a lot of research in the field of neural networks for non-life insurance pricing. The usual goal is to improve the predictive power via neural networks while building upon the generalized linear model, which is the current industry standard. Our paper contributes to this current journey via novel methods to enhance actuarial non-life models with transformer models for tabular data. We build here upon the foundation laid out by the combined actuarial neural network as well as the localGLMnet and enhance those models via the feature tokenizer transformer. The manuscript demonstrates the performance of the proposed methods on a real-world claim frequency dataset and compares them with several benchmark models such as generalized linear models, feed-forward neural networks, combined actuarial neural networks, LocalGLMnet, and pure feature tokenizer transformer. The paper shows that the new methods can achieve better results than the benchmark models while preserving certain generalized linear model advantages. The paper also discusses the practical implications and challenges of applying transformer models in actuarial settings.
翻訳日:2023-11-15 17:09:54 公開日:2023-11-10
# グラフGOSPA測度:異なる大きさのグラフ間の差を測定するための測度

Graph GOSPA metric: a metric to measure the discrepancy between graphs of different sizes ( http://arxiv.org/abs/2311.07596v1 )

ライセンス: Link先を確認
Jinhao Gu, \'Angel F. Garc\'ia-Fern\'andez, Robert E. Firth, Lennart Svensson(参考訳) 本稿では,異なるノード数を持つグラフ間の相似性を測定するための指標を提案する。 提案された計量は、集合の計量である一般化された最適部分パターン割当(gospa)メトリックをグラフに拡張する。 提案したグラフGOSPAメトリクスは、適切に割り当てられたノード、ミスノード、偽ノード、グラフ間のエッジミスマッチに対するノード属性エラーに関連するコストを含む。 このメトリックの計算は、2つのグラフのノード間の最適な割り当てを見つけることに基づいており、いくつかのノードを無割り当てにしておくことができる。 また、グラフの計量であり、線形計画法を用いて多項式時間で計算可能な計量に対する下界も提案する。 計量はまず無向非重み付きグラフに対して導出され、その後有向グラフと重み付きグラフに拡張される。 メトリックの特性は、シミュレーションおよび経験的データセットによって実証される。

This paper proposes a metric to measure the dissimilarity between graphs that may have a different number of nodes. The proposed metric extends the generalised optimal subpattern assignment (GOSPA) metric, which is a metric for sets, to graphs. The proposed graph GOSPA metric includes costs associated with node attribute errors for properly assigned nodes, missed and false nodes and edge mismatches between graphs. The computation of this metric is based on finding the optimal assignments between nodes in the two graphs, with the possibility of leaving some of the nodes unassigned. We also propose a lower bound for the metric, which is also a metric for graphs and is computable in polynomial time using linear programming. The metric is first derived for undirected unweighted graphs and it is then extended to directed and weighted graphs. The properties of the metric are demonstrated via simulated and empirical datasets.
翻訳日:2023-11-15 17:09:36 公開日:2023-11-10
# 肝疾患予測のための意思決定支援システム:バッチ処理,ルールベースイベント検出,SPARQLクエリの統合

A Decision Support System for Liver Diseases Prediction: Integrating Batch Processing, Rule-Based Event Detection and SPARQL Query ( http://arxiv.org/abs/2311.07595v1 )

ライセンス: Link先を確認
Ritesh Chandra, Sadhana Tiwari, Satyam Rastogi, Sonali Agarwal(参考訳) 肝疾患は世界中で大きな健康負担を負い、かなりの数の個人に影響し、経済的・社会的影響をもたらす。 肝臓疾患の増加は、エジプトやモルダなどの多くの国で致命的な病気と考えられている。 本研究の目的は,基本形式オントロジー(bfo)と決定木アルゴリズムによる検出規則を用いて,肝疾患の予測モデルを構築することである。 これらのルールに基づいて、イベントはApache Jenaフレームワークを使用してバッチ処理によって検出される。 検出されたイベントに基づいて、クエリはSPARQLを使って直接処理できる。 オントロジーを運用するには、これらの決定木(DT)ルールをセマンティックWebルール言語(SWRL)に変換する。 プロテゲツールのペレットとドロロール推論エンジンの助けを借りて、様々な種類の肝臓疾患を予測するオントロジーのこの回転を利用して、合計615個の記録が異なる肝臓疾患から取られる。 このルールを推論した後、dtルールに従って患者に対して結果を生成し、これらの結果に基づいて、異なる予防的提案を伴う他の患者関連詳細を得ることができる。 バッチ処理のクエリ結果とオントロジ生成結果の組み合わせは、疾患の予防と検出をより正確に提案できる。 本研究の目的は、肝疾患の予測、豊富な知識グラフ表現、スマートクエリ機能に適用可能な包括的なアプローチを提供することである。 その結果, RDFデータ, SWRLルール, SPARQLクエリを組み合わせて肝疾患を分析し, 予測することで, 医療従事者が肝疾患についてより深く学ぶことができ, 医療のための意思決定支援システム(DSS)を構築することができることがわかった。

Liver diseases pose a significant global health burden, impacting a substantial number of individuals and exerting substantial economic and social consequences. Rising liver problems are considered a fatal disease in many countries, such as Egypt, Molda, etc. The objective of this study is to construct a predictive model for liver illness using Basic Formal Ontology (BFO) and detection rules derived from a decision tree algorithm. Based on these rules, events are detected through batch processing using the Apache Jena framework. Based on the event detected, queries can be directly processed using SPARQL. To make the ontology operational, these Decision Tree (DT) rules are converted into Semantic Web Rule Language (SWRL). Using this SWRL in the ontology for predicting different types of liver disease with the help of the Pellet and Drool inference engines in Protege Tools, a total of 615 records are taken from different liver diseases. After inferring the rules, the result can be generated for the patient according to the DT rules, and other patient-related details along with different precautionary suggestions can be obtained based on these results. Combining query results of batch processing and ontology-generated results can give more accurate suggestions for disease prevention and detection. This work aims to provide a comprehensive approach that is applicable for liver disease prediction, rich knowledge graph representation, and smart querying capabilities. The results show that combining RDF data, SWRL rules, and SPARQL queries for analysing and predicting liver disease can help medical professionals to learn more about liver diseases and make a Decision Support System (DSS) for health care.
翻訳日:2023-11-15 17:09:21 公開日:2023-11-10
# モダリティ間のギャップを埋める方法:マルチモーダル大言語モデルに関する総合的な調査

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model ( http://arxiv.org/abs/2311.07594v1 )

ライセンス: Link先を確認
Shezheng Song, Xiaopeng Li, Shasha Li(参考訳) 本稿では,GPT-4のような大規模言語モデル(LLM)を統合し,テキストやビジョンなどのマルチモーダルデータを処理するMLLMについて述べる。 MLLMは、イメージナラティブの生成や、イメージベースの質問への回答、現実の人間とコンピュータの相互作用へのギャップを埋めること、人工知能への潜在的な道筋を示唆する機能を示す。 しかし、MLLMは多様性のセマンティックギャップの処理において依然として課題に直面しており、これは誤生成を招き、社会に潜在的なリスクをもたらす可能性がある。 適切なモダリティアライメント方法を選択することは重要であり、不適切なメソッドは性能改善に制限のあるより多くのパラメータを必要とする可能性がある。 本稿では,LLMのモーダリティアライメント手法とその既存機能について検討する。 モダリティアライメントの実装により、llmは環境問題に対処し、アクセシビリティを高めることができる。 本研究は,MLLMの既存のモーダルアライメント手法を,(1) LLMが理解できるようなデータにデータを変換するマルチモーダルコンバータ,(2) LLMが異なるタイプのデータをどのように認識するかを改善するマルチモーダルパーシーバー,(3) データの1つの共通形式(通常テキスト)への変換を支援するツール,(4) LLMにデータセット内の特定のタイプのデータを理解するように教えるデータ駆動手法の4つのグループに分けた。 この分野はまだ調査と実験の段階にあり、マルチモーダル情報アライメントのための様々な既存の研究方法を整理し、更新する。

This review paper explores Multimodal Large Language Models (MLLMs), which integrate Large Language Models (LLMs) like GPT-4 to handle multimodal data such as text and vision. MLLMs demonstrate capabilities like generating image narratives and answering image-based questions, bridging the gap towards real-world human-computer interactions and hinting at a potential pathway to artificial general intelligence. However, MLLMs still face challenges in processing the semantic gap in multimodality, which may lead to erroneous generation, posing potential risks to society. Choosing the appropriate modality alignment method is crucial, as improper methods might require more parameters with limited performance improvement. This paper aims to explore modality alignment methods for LLMs and their existing capabilities. Implementing modality alignment allows LLMs to address environmental issues and enhance accessibility. The study surveys existing modal alignment methods in MLLMs into four groups: (1) Multimodal Converters that change data into something LLMs can understand; (2) Multimodal Perceivers to improve how LLMs perceive different types of data; (3) Tools Assistance for changing data into one common format, usually text; and (4) Data-Driven methods that teach LLMs to understand specific types of data in a dataset. This field is still in a phase of exploration and experimentation, and we will organize and update various existing research methods for multimodal information alignment.
翻訳日:2023-11-15 17:08:49 公開日:2023-11-10
# Follow-Up Differential Descriptions: 言語モデルが画像分類の曖昧性を解消する

Follow-Up Differential Descriptions: Language Models Resolve Ambiguities for Image Classification ( http://arxiv.org/abs/2311.07593v1 )

ライセンス: Link先を確認
Reza Esfandiarpoor, Stephen H. Bach(参考訳) 画像分類のためのCLIPのような視覚言語モデルの性能を改善するための有望なアプローチは、クラス記述(即ちプロンプト)を関連属性で拡張することである。 しかし、現在のゼロショットメソッドは、ターゲットクラス間の共通性に関係なく属性のサブセットを選択し、それらの区別に役立つ有用な情報を提供しない可能性がある。 例えば、スズメとレンを区別するために色の代わりに色を使うこともあるが、どちらも茶色である。 Follow-up Differential Descriptions (FuDD) は、クラス記述を各データセットに合わせるゼロショットアプローチであり、ターゲットクラスをよりよく区別する追加属性をもたらす。 FuDDはまず各画像のあいまいなクラスを特定し、次にLarge Language Model(LLM)を使用して、それらの区別する新しいクラス記述を生成する。 新しいクラス記述は、最初の曖昧さを解決し、正しいラベルを予測するのに役立つ。 実験では、fuddは12のデータセットにおいて、ジェネリック記述アンサンブルとナイーブなllm生成記述を一貫して上回っている。 差分記述はクラス曖昧性の解消に有効なツールであり,それ以外は性能を著しく低下させることを示す。 また,fuddが生成する高品質自然言語クラス記述は,少数の適応法に匹敵する性能を示す。

A promising approach for improving the performance of vision-language models like CLIP for image classification is to extend the class descriptions (i.e., prompts) with related attributes, e.g., using brown sparrow instead of sparrow. However, current zero-shot methods select a subset of attributes regardless of commonalities between the target classes, potentially providing no useful information that would have helped to distinguish between them. For instance, they may use color instead of bill shape to distinguish between sparrows and wrens, which are both brown. We propose Follow-up Differential Descriptions (FuDD), a zero-shot approach that tailors the class descriptions to each dataset and leads to additional attributes that better differentiate the target classes. FuDD first identifies the ambiguous classes for each image, and then uses a Large Language Model (LLM) to generate new class descriptions that differentiate between them. The new class descriptions resolve the initial ambiguity and help predict the correct label. In our experiments, FuDD consistently outperforms generic description ensembles and naive LLM-generated descriptions on 12 datasets. We show that differential descriptions are an effective tool to resolve class ambiguities, which otherwise significantly degrade the performance. We also show that high quality natural language class descriptions produced by FuDD result in comparable performance to few-shot adaptation methods.
翻訳日:2023-11-15 17:08:16 公開日:2023-11-10
# TransformCode: サブツリー変換によるコード埋め込みのためのコントラスト学習フレームワーク

TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree transformation ( http://arxiv.org/abs/2311.08157v1 )

ライセンス: Link先を確認
Zixiang Xian, Rubing Huang, Dave Towey, Chunrong Fang, Zhenyu Chen(参考訳) 大規模言語モデルは近年,ソフトウェア工学の分野で大きな進歩を遂げています。 コードクローン検出、コード間検索、メソッド名予測など、多くのコード関連タスクで使用できる。 しかし、それぞれのコードトークンに基づくこれらの大規模言語モデルには、いくつかの欠点がある。それらは通常、規模が大きく、ラベルに大きく依存しており、新しいデータセットを微調整するために多くの計算能力と時間を必要とする。 この主な理由は、各コードトークンをエンコーディングするとモデルパラメータのインフレーションが発生し、私たちがあまり気にしていない情報を格納する多くのパラメータが発生するためです。 本稿では,コード埋め込みを対照的な学習方法で学習するTransformCodeという新しいフレームワークを提案する。 フレームワークはTransformerエンコーダをモデルの不可欠な部分として使用する。 また、抽象構文木変換と呼ばれる新しいデータ拡張手法についても紹介する: この手法は、より多様で堅牢なアンカーサンプルを生成するために、元のコードスニペットに構文的および意味的変換を適用します。 コードクローン検出や分類といったコード表現を必要とする他のダウンストリームタスクにも容易に拡張することができます。 このフレームワークは、非常に効率的でスケーラブルです。大きなモデルや大量のトレーニングデータを必要としないし、どんなプログラミング言語もサポートできます。最後に、このフレームワークは教師なし学習に限らず、タスク固有のラベルや目的を組み込むことで、教師あり学習タスクにも適用できます。 フレームワークの有効性を探るため、異なるプログラミング言語と複数のデータセットを用いてソフトウェアエンジニアリングタスクの広範な実験を行った。

Large-scale language models have made great progress in the field of software engineering in recent years. They can be used for many code-related tasks such as code clone detection, code-to-code search, and method name prediction. However, these large-scale language models based on each code token have several drawbacks: They are usually large in scale, heavily dependent on labels, and require a lot of computing power and time to fine-tune new datasets.Furthermore, code embedding should be performed on the entire code snippet rather than encoding each code token. The main reason for this is that encoding each code token would cause model parameter inflation, resulting in a lot of parameters storing information that we are not very concerned about. In this paper, we propose a novel framework, called TransformCode, that learns about code embeddings in a contrastive learning manner. The framework uses the Transformer encoder as an integral part of the model. We also introduce a novel data augmentation technique called abstract syntax tree transformation: This technique applies syntactic and semantic transformations to the original code snippets to generate more diverse and robust anchor samples. Our proposed framework is both flexible and adaptable: It can be easily extended to other downstream tasks that require code representation such as code clone detection and classification. The framework is also very efficient and scalable: It does not require a large model or a large amount of training data, and can support any programming language.Finally, our framework is not limited to unsupervised learning, but can also be applied to some supervised learning tasks by incorporating task-specific labels or objectives. To explore the effectiveness of our framework, we conducted extensive experiments on different software engineering tasks using different programming languages and multiple datasets.
翻訳日:2023-11-15 14:01:50 公開日:2023-11-10
# brownian noise reduction: 正確性制約によるプライバシーの最大化

Brownian Noise Reduction: Maximizing Privacy Subject to Accuracy Constraints ( http://arxiv.org/abs/2206.07234v4 )

ライセンス: Link先を確認
Justin Whitehouse, Zhiwei Steven Wu, Aaditya Ramdas, Ryan Rogers(参考訳) 研究者と実践者の間には、プライバシとユーティリティのトレードオフの扱い方がある。 研究者は主にプライバシファーストの観点から活動し、厳格なプライバシー要件を設定し、これらの制約によるリスクを最小限に抑える。 実践者は、しばしば正確性第一の視点を望んでおり、おそらく、十分に小さなエラーを得られる最大のプライバシーに満足している。 Ligettらは後者の観点に対処する"ノイズ低減"アルゴリズムを導入した。 筆者らは,関連するラプラスノイズを付加し,オンデマンドで徐々に低減することで,より正確なプライベートパラメータの推定を連続的に生成し,最小ノイズのイテレートに対してのみプライバシコストを支払えばよいことを示した。 本研究では,ガウス雑音の設定にノイズ低減を一般化し,ブラウン機構を導入する。 ブラウン機構はまず、シミュレーションされたブラウン運動の最終点に対応する高分散のガウス雑音を加えることで機能する。 そして、実践者の判断において、ブラウン経路に沿って早く遡ることで、ノイズは徐々に減少する。 我々のメカニズムは、有界な$\ell_2$-sensitivityの共通設定に自然に適用され、一般的な統計タスクにおける既存の作業よりも経験的に優れ、実践者とのインタラクション全体に対するプライバシー損失のカスタマイズ可能な制御を提供する。 我々は、適応的なプライバシー保証を提供する古典的なAboveThresholdアルゴリズムの一般化であるReduceedAboveThresholdで、ブラウン機構を補完する。 全体としては,高いプライバシレベルを維持しながら,実用上の制約を満たせることを実証した。

There is a disconnect between how researchers and practitioners handle privacy-utility tradeoffs. Researchers primarily operate from a privacy first perspective, setting strict privacy requirements and minimizing risk subject to these constraints. Practitioners often desire an accuracy first perspective, possibly satisfied with the greatest privacy they can get subject to obtaining sufficiently small error. Ligett et al. have introduced a "noise reduction" algorithm to address the latter perspective. The authors show that by adding correlated Laplace noise and progressively reducing it on demand, it is possible to produce a sequence of increasingly accurate estimates of a private parameter while only paying a privacy cost for the least noisy iterate released. In this work, we generalize noise reduction to the setting of Gaussian noise, introducing the Brownian mechanism. The Brownian mechanism works by first adding Gaussian noise of high variance corresponding to the final point of a simulated Brownian motion. Then, at the practitioner's discretion, noise is gradually decreased by tracing back along the Brownian path to an earlier time. Our mechanism is more naturally applicable to the common setting of bounded $\ell_2$-sensitivity, empirically outperforms existing work on common statistical tasks, and provides customizable control of privacy loss over the entire interaction with the practitioner. We complement our Brownian mechanism with ReducedAboveThreshold, a generalization of the classical AboveThreshold algorithm that provides adaptive privacy guarantees. Overall, our results demonstrate that one can meet utility constraints while still maintaining strong levels of privacy.
翻訳日:2023-11-14 23:08:34 公開日:2023-11-10
# ウェルログからの区間の非連続表現学習

Non-contrastive representation learning for intervals from well logs ( http://arxiv.org/abs/2209.14750v3 )

ライセンス: Link先を確認
Alexander Marusov, Alexey Zaytsev(参考訳) 石油・ガス産業における表現学習問題は,十分な間隔でログデータに基づく表現を提供するモデルの構築を目的としている。 以前の試みは主に監督され、間隔間の近さを推定する類似性タスクに焦点を当てていた。 教師付き(ラベル付き)データを使わずに、情報表現を構築したいのです。 可能なアプローチの1つは、自己教師付き学習(SSL)である。 教師付きパラダイムとは対照的に、データのラベルはほとんど、あるいは全く必要としない。 現在、ほとんどのSSLアプローチはコントラスト的または非コントラスト的である。 対照的な方法では、類似の(正の)オブジェクトの表現をより近くし、異なる(負の)オブジェクトを区別する。 正と負のペアの誤印が考えられるため、これらの手法は性能が劣る。 非コントラスト法はそのようなラベリングに依存しておらず、コンピュータビジョンで広く使われている。 ログデータの識別が容易な類似したオブジェクトのペアのみを使用して学習する。 私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。 特にBootstrap Your Own Latent(BYOL)とBarlow Twinsメソッドを利用して、負のペアの使用を回避し、正のペアにのみフォーカスする。 これらの方法の重要な部分は強化戦略である。 BYOLとBarlow Twinsの強化戦略と適応により、クラスタ化における優れた品質と、主に異なる分類タスクにおける最高のパフォーマンスを実現できます。 提案する非矛盾的自己教師付きアプローチが,特に表現学習と区間類似性に有用であることを示す。

The representation learning problem in the oil & gas industry aims to construct a model that provides a representation based on logging data for a well interval. Previous attempts are mainly supervised and focus on similarity task, which estimates closeness between intervals. We desire to build informative representations without using supervised (labelled) data. One of the possible approaches is self-supervised learning (SSL). In contrast to the supervised paradigm, this one requires little or no labels for the data. Nowadays, most SSL approaches are either contrastive or non-contrastive. Contrastive methods make representations of similar (positive) objects closer and distancing different (negative) ones. Due to possible wrong marking of positive and negative pairs, these methods can provide an inferior performance. Non-contrastive methods don't rely on such labelling and are widespread in computer vision. They learn using only pairs of similar objects that are easier to identify in logging data. We are the first to introduce non-contrastive SSL for well-logging data. In particular, we exploit Bootstrap Your Own Latent (BYOL) and Barlow Twins methods that avoid using negative pairs and focus only on matching positive pairs. The crucial part of these methods is an augmentation strategy. Our augmentation strategies and adaption of BYOL and Barlow Twins together allow us to achieve superior quality on clusterization and mostly the best performance on different classification tasks. Our results prove the usefulness of the proposed non-contrastive self-supervised approaches for representation learning and interval similarity in particular.
翻訳日:2023-11-14 22:53:52 公開日:2023-11-10
# MSI:Few-Shotセグメンテーションのためのサポートセット情報の最大化

MSI: Maximize Support-Set Information for Few-Shot Segmentation ( http://arxiv.org/abs/2212.04673v3 )

ライセンス: Link先を確認
Seonghyeon Moon, Samuel S. Sohn, Honglu Zhou, Sejong Yoon, Vladimir Pavlovic, Muhammad Haris Khan, Mubbasir Kapadia(参考訳) FSS(Few-shot segmentation)は、少数のラベル付きイメージ(サポートセット)を使用してターゲットクラスをセグメントすることを目的としている。 対象クラスに関連する情報を抽出するため、最善のfss手法における支配的アプローチは、サポートマスクを用いて背景特徴を除去する。 制限サポートマスクによるこの機能の除去は,fssの課題,例えば,小さなターゲットや不正確なターゲット境界などにおいて,情報のボトルネックをもたらす。 そこで本研究では,2つの補完的特徴源を利用して超相関写像を生成することで,支援集合情報を最大化する新しい手法(msi)を提案する。 提案手法の有効性を,最近の3つの強力なFSS手法に分類して検証する。 FSSベンチマークによる実験結果から,提案手法は目に見えるマージンによって連続的に性能を向上し,より高速な収束をもたらすことが示された。 私たちのコードとトレーニングされたモデルは、https://github.com/moonsh/MSI-Maximize-Support-Set-Informationで利用可能です。

FSS(Few-shot segmentation) aims to segment a target class using a small number of labeled images(support set). To extract information relevant to the target class, a dominant approach in best-performing FSS methods removes background features using a support mask. We observe that this feature excision through a limiting support mask introduces an information bottleneck in several challenging FSS cases, e.g., for small targets and/or inaccurate target boundaries. To this end, we present a novel method(MSI), which maximizes the support-set information by exploiting two complementary sources of features to generate super correlation maps. We validate the effectiveness of our approach by instantiating it into three recent and strong FSS methods. Experimental results on several publicly available FSS benchmarks show that our proposed method consistently improves performance by visible margins and leads to faster convergence. Our code and trained models are available at: https://github.com/moonsh/MSI-Maximize-Support-Set-Information
翻訳日:2023-11-14 22:40:57 公開日:2023-11-10
# DeepGD:ディープニューラルネットワークのための多目的ブラックボックステスト選択アプローチ

DeepGD: A Multi-Objective Black-Box Test Selection Approach for Deep Neural Networks ( http://arxiv.org/abs/2303.04878v3 )

ライセンス: Link先を確認
Zohreh Aghababaeyan, Manel Abdellatif, Mahboubeh Dadkhah, Lionel Briand(参考訳) ディープニューラルネットワーク(DNN)は、画像処理、音声認識、自然言語処理などの様々なアプリケーション領域で広く使われている。 しかし、DNNモデルのテストは、入力ドメインの複雑さとサイズのために難しいかもしれない。 特に、DNNモデルをテストするには、大きなラベルのないデータセットの生成や探索が必要となることが多い。 実際には、入力の正しい出力を識別するdnn test oracleは、テストデータのラベル付けに高価な手動作業を必要とすることが多い。 本稿では,DNNモデルに対するブラックボックス多目的テスト選択手法であるDeepGDを提案する。 大規模なラベル付けされていないデータセットから高い障害を露呈するパワーでテスト入力の選択を優先順位付けすることで、ラベル付けのコストを削減する。 DeepGDは、高い不確実性スコアを持つテスト入力を選択して、可能な限り多くの誤予測入力をトリガーするだけでなく、多様な誤予測入力を選択してDNNモデルに異なる障害を明らかにする確率を最大化する。 4つの広く使用されているデータセットと5つのDNNモデルで実施された実験結果から,(1)ホワイトボックス,カバレッジベースのアプローチは不十分,(2)DeepGDは既存のブラックボックステスト選択アプローチよりも優れた性能を示し,(3)DeepGDは,選択した入力を使用してトレーニングセットを増強する際のDNNモデルトレーニングのガイダンスも向上した。

Deep neural networks (DNNs) are widely used in various application domains such as image processing, speech recognition, and natural language processing. However, testing DNN models may be challenging due to the complexity and size of their input domain. Particularly, testing DNN models often requires generating or exploring large unlabeled datasets. In practice, DNN test oracles, which identify the correct outputs for inputs, often require expensive manual effort to label test data, possibly involving multiple experts to ensure labeling correctness. In this paper, we propose DeepGD, a black-box multi-objective test selection approach for DNN models. It reduces the cost of labeling by prioritizing the selection of test inputs with high fault revealing power from large unlabeled datasets. DeepGD not only selects test inputs with high uncertainty scores to trigger as many mispredicted inputs as possible but also maximizes the probability of revealing distinct faults in the DNN model by selecting diverse mispredicted inputs. The experimental results conducted on four widely used datasets and five DNN models show that in terms of fault-revealing ability: (1) White-box, coverage-based approaches fare poorly, (2) DeepGD outperforms existing black-box test selection approaches in terms of fault detection, and (3) DeepGD also leads to better guidance for DNN model retraining when using selected inputs to augment the training set.
翻訳日:2023-11-14 22:16:32 公開日:2023-11-10
# 調和ポテンシャルに閉じ込められた回転量子滴

Rotating quantum droplets confined in a harmonic potential ( http://arxiv.org/abs/2305.09422v2 )

ライセンス: Link先を確認
S. Nikolaou, G. M. Kavoulakis, M. Ogren(参考訳) 本研究では、高調波ポテンシャルに閉じ込められた2成分の2次元自己結合型量子滴の回転特性を、接触相互作用を持つ単一成分原子気体のよく知られた問題と比較する。 トラップ周波数の固定値に対して、原子数の代表値を選択することで、角運動量の増加に伴って最低エネルギー状態を決定する。 十分な数の原子に対して、角運動量は中心質量励起によって輸送される。 大きな値の場合、角運動量が十分に小さいとき、代わりに渦励起が観測される。 実際の原子番号によって、1つ以上の渦が液滴に入る。 しかし、角運動量の臨界値を超えると、液滴はより多くの渦を許容せず、追加の角運動量は「混合」状態の質量中心励起によって運ばれる。 最後に、励起スペクトルについても概説する。

We investigate the rotational properties of a two-component, two-dimensional self-bound quantum droplet, which is confined in a harmonic potential and compare them with the well-known problem of a single-component atomic gas with contact interactions. For a fixed value of the trap frequency, choosing some representative values of the atom number, we determine the lowest-energy state, as the angular momentum increases. For a sufficiently small number of atoms, the angular momentum is carried via center-of-mass excitation. For larger values, when the angular momentum is sufficiently small, we observe vortex excitation instead. Depending on the actual atom number, one or more vortices enter the droplet. Beyond some critical value of the angular momentum, however, the droplet does not accommodate more vortices and the additional angular momentum is carried via center-of-mass excitation in a "mixed" state. Finally, the excitation spectrum is also briefly discussed.
翻訳日:2023-11-14 22:07:11 公開日:2023-11-10
# 長距離多極系における階層的流体力学

Hierarchical hydrodynamics in long-range multipole-conserving systems ( http://arxiv.org/abs/2304.12342v2 )

ライセンス: Link先を確認
Jacopo Gliozzi, Julian May-Mann, Taylor L. Hughes, Giuseppe De Tomasi(参考訳) 本研究は,長距離相互作用を持つ双極子および高モーメント保存系の平衡外ダイナミクスを調査し,強傾斜電位における捕捉イオン実験から着想を得たものである。 本稿では, パワーロー減衰結合を特徴とするマルチポール保存モデルの階層列を提案する。 モーメントは常にグローバルに保存されるが、カップリングのパワーロー指数を調整することで、多重極モーメントのサブセットのみが局所的に保存される様々なレギュレーションを誘導する。 従来の拡散, L'evy 飛行を含む豊富な動的相図を, 有効な古典的枠組みを用いて解析および数値的に検討した。 その結果、モーメントのサブセットのみが局所保存されるマルチポール保存システムにおいて、水力学のネスト階層を捉えた解析的相互関係が統一される。 さらに, 電荷密度の低い系において, より高次元に知見を拡張し, 熱前構造を想起する長時間スケールの出現を探索する。 最後に,完全量子長距離双極子保存システムの最先端数値シミュレーションを行い,閉じ込められたイオンの実験的セットアップとの関連性について考察する。

This work investigates the out-of-equilibrium dynamics of dipole and higher-moment conserving systems with long-range interactions, drawing inspiration from trapped ion experiments in strongly tilted potentials. We introduce a hierarchical sequence of multipole-conserving models characterized by power-law decaying couplings. Although the moments are always globally conserved, adjusting the power-law exponents of the couplings induces various regimes in which only a subset of multipole moments are effectively locally conserved. We examine the late-time hydrodynamics analytically and numerically using an effective classical framework, uncovering a rich dynamical phase diagram that includes subdiffusion, conventional diffusion, and L\'evy flights. Our results are unified in an analytic reciprocal relationship that captures the nested hierarchy of hydrodynamics in multipole conserving systems where only a subset of the moments are locally conserved. Moreover, we extend our findings to higher dimensions and explore the emergence of long-time scales, reminiscent of pre-thermal regimes, in systems with low charge density. Lastly, we corroborate our results through state-of-the-art numerical simulations of a fully quantum long-range dipole-conserving system and discuss their relevance to trapped-ion experimental setups.
翻訳日:2023-11-14 22:04:53 公開日:2023-11-10
# FMG-NetとW-Net:医療画像セグメンテーションのためのマルチグリッド型ディープラーニングアーキテクチャ

FMG-Net and W-Net: Multigrid Inspired Deep Learning Architectures For Medical Imaging Segmentation ( http://arxiv.org/abs/2304.02725v3 )

ライセンス: Link先を確認
Adrian Celaya, Beatrice Riviere, David Fuentes(参考訳) 正確な医療画像分割は、正確かつ効果的な医療介入に不可欠である。 しかしながら、医療画像分割における畳み込みニューラルネットワーク(cnns)の成功にもかかわらず、微細な特徴や画像スケールのバリエーションを扱う上での課題に直面している。 これらの課題は、brats multi-label brain tumor segmentation challengeのような複雑で挑戦的なセグメンテーションタスクにおいて特に顕著である。 この課題では、様々な腫瘍サブコンポーネントを正確に区分けし、サイズや形状が大きく異なるが、最先端の手法でさえ重大な誤りを生じさせる。 そこで本稿では,方程式の線形系をcnnに解くための幾何学的マルチグリッド法の原理を取り入れたfmg-netとw-netの2つのアーキテクチャを提案する。 BraTS 2020データセットに対する実験により,FMG-NetとW-Netはともに,腫瘍のサブコンポーネントセグメンテーション精度とトレーニング効率に関して,広く使用されているU-Netアーキテクチャを上回る性能を示した。 これらの知見は,医療画像セグメンテーションの精度と効率を向上させるために,マルチグリッド法の原理をCNNに取り入れる可能性を示している。

Accurate medical imaging segmentation is critical for precise and effective medical interventions. However, despite the success of convolutional neural networks (CNNs) in medical image segmentation, they still face challenges in handling fine-scale features and variations in image scales. These challenges are particularly evident in complex and challenging segmentation tasks, such as the BraTS multi-label brain tumor segmentation challenge. In this task, accurately segmenting the various tumor sub-components, which vary significantly in size and shape, remains a significant challenge, with even state-of-the-art methods producing substantial errors. Therefore, we propose two architectures, FMG-Net and W-Net, that incorporate the principles of geometric multigrid methods for solving linear systems of equations into CNNs to address these challenges. Our experiments on the BraTS 2020 dataset demonstrate that both FMG-Net and W-Net outperform the widely used U-Net architecture regarding tumor subcomponent segmentation accuracy and training efficiency. These findings highlight the potential of incorporating the principles of multigrid methods into CNNs to improve the accuracy and efficiency of medical imaging segmentation.
翻訳日:2023-11-14 22:03:32 公開日:2023-11-10
# SneakyPrompt: テキストから画像生成モデルへの脱獄

SneakyPrompt: Jailbreaking Text-to-image Generative Models ( http://arxiv.org/abs/2305.12082v3 )

ライセンス: Link先を確認
Yuchen Yang, Bo Hui, Haolin Yuan, Neil Gong, Yinzhi Cao(参考訳) 安定拡散やDALL$\cdot$Eのようなテキストから画像への生成モデルは、Not-Safe-for-Work(NSFW)のような有害な画像を生成するため、多くの倫理的懸念を提起する。 これらの倫理的懸念に対処するために、NSFW画像の生成を防ぐための安全フィルタがしばしば採用されている。 本研究では,安全フィルタを適用してもNSFW画像を生成するようなジェイルブレイクテキスト・イメージ生成モデルに対して,最初の自動攻撃フレームワークであるSneakyPromptを提案する。 安全フィルタによってブロックされたプロンプトが与えられると、sneapypromptはテキストから画像への生成モデルを繰り返しクエリし、クエリ結果に基づいてプロンプト内のトークンを戦略的に摂動させ、安全フィルタをバイパスする。 具体的には、SneakyPromptは強化学習を利用してトークンの摂動を誘導する。 SneakyPromptは,NSFW画像を生成するクローズドボックスセーフフィルタを用いてDALL$\cdot$E 2のジェイルブレイクに成功した。 さらに,安定拡散モデル上には,最先端のオープンソース安全フィルタを複数配置する。 SneakyPrompt は NSFW 画像の生成に成功しているだけでなく,生成した NSFW 画像のクエリ数と品質の両面から,jailbreak テキスト・ツー・イメージ生成モデルに拡張された場合,既存のテキスト敵攻撃よりも優れていた。 sneakypromptはオープンソースであり、このリポジトリで利用可能である。

Text-to-image generative models such as Stable Diffusion and DALL$\cdot$E raise many ethical concerns due to the generation of harmful images such as Not-Safe-for-Work (NSFW) ones. To address these ethical concerns, safety filters are often adopted to prevent the generation of NSFW images. In this work, we propose SneakyPrompt, the first automated attack framework, to jailbreak text-to-image generative models such that they generate NSFW images even if safety filters are adopted. Given a prompt that is blocked by a safety filter, SneakyPrompt repeatedly queries the text-to-image generative model and strategically perturbs tokens in the prompt based on the query results to bypass the safety filter. Specifically, SneakyPrompt utilizes reinforcement learning to guide the perturbation of tokens. Our evaluation shows that SneakyPrompt successfully jailbreaks DALL$\cdot$E 2 with closed-box safety filters to generate NSFW images. Moreover, we also deploy several state-of-the-art, open-source safety filters on a Stable Diffusion model. Our evaluation shows that SneakyPrompt not only successfully generates NSFW images, but also outperforms existing text adversarial attacks when extended to jailbreak text-to-image generative models, in terms of both the number of queries and qualities of the generated NSFW images. SneakyPrompt is open-source and available at this repository: \url{https://github.com/Yuchen413/text2image_safety}.
翻訳日:2023-11-14 21:51:11 公開日:2023-11-10
# Moment Matching Denoisingギブズサンプリング

Moment Matching Denoising Gibbs Sampling ( http://arxiv.org/abs/2305.11650v3 )

ライセンス: Link先を確認
Mingtian Zhang and Alex Hawkins-Hooker and Brooks Paige and David Barber(参考訳) エネルギーベースモデル(ebms)は複雑なデータ分布をモデリングするための汎用フレームワークを提供する。 しかし、ESMからのトレーニングとサンプリングは引き続き大きな課題を呈している。 スケーラブルなEMMトレーニングのための広く使われているDenoising Score Matching (DSM) 法は不整合の問題に悩まされ、エネルギーモデルが「ノイズの多い」データ分布を学習する。 そこで本研究では,DSM で十分に訓練された 'ノイズ' モデルが与えられた場合に,基礎となるクリーンモデルから効果的なサンプリングを可能にする,モーメントマッチングを用いた効率的なサンプリングフレームワークを提案する。 関連手法と比較して,本手法の利点を考察し,高次元データセットへの拡張方法を示す。

Energy-Based Models (EBMs) offer a versatile framework for modeling complex data distributions. However, training and sampling from EBMs continue to pose significant challenges. The widely-used Denoising Score Matching (DSM) method for scalable EBM training suffers from inconsistency issues, causing the energy model to learn a `noisy' data distribution. In this work, we propose an efficient sampling framework: (pseudo)-Gibbs sampling with moment matching, which enables effective sampling from the underlying clean model when given a `noisy' model that has been well-trained via DSM. We explore the benefits of our approach compared to related methods and demonstrate how to scale the method to high-dimensional datasets.
翻訳日:2023-11-14 21:50:22 公開日:2023-11-10
# オブジェクト中心関係抽象化による系統的視覚的推論

Systematic Visual Reasoning through Object-Centric Relational Abstraction ( http://arxiv.org/abs/2306.02500v2 )

ライセンス: Link先を確認
Taylor W. Webb, Shanka Subhra Mondal, Jonathan D. Cohen(参考訳) 人間の視覚的推論は、少数の例から抽象パターンを識別し、これらのパターンを体系的に新しい入力に一般化する能力によって特徴づけられる。 この能力は、オブジェクトとリレーションの両方の観点から複雑な視覚入力を表現する能力に大きく依存します。 近年のコンピュータビジョンの研究で、オブジェクト中心の表現を抽出する能力を持つモデルが導入され、マルチオブジェクトの視覚入力を処理できるようになったが、人間の推論による体系的な一般化には及ばなかった。 他のモデルでは、学習された抽象ルールの体系的一般化を達成するために、関係抽象のための帰納的バイアスを用いるが、一般にオブジェクト指向の入力の存在を仮定している。 本稿では、これら2つのアプローチを組み合わせて、オブジェクトと抽象関係の明示的な表現を抽出し、複雑な視覚表示を含むタスク(新しいデータセット、CLEVR-ARTを含む)において、強力な体系的一般化を実現するモデル、OCR(Object-Centric Relational Abstraction)を導入する。

Human visual reasoning is characterized by an ability to identify abstract patterns from only a small number of examples, and to systematically generalize those patterns to novel inputs. This capacity depends in large part on our ability to represent complex visual inputs in terms of both objects and relations. Recent work in computer vision has introduced models with the capacity to extract object-centric representations, leading to the ability to process multi-object visual inputs, but falling short of the systematic generalization displayed by human reasoning. Other recent models have employed inductive biases for relational abstraction to achieve systematic generalization of learned abstract rules, but have generally assumed the presence of object-focused inputs. Here, we combine these two approaches, introducing Object-Centric Relational Abstraction (OCRA), a model that extracts explicit representations of both objects and abstract relations, and achieves strong systematic generalization in tasks (including a novel dataset, CLEVR-ART, with greater visual complexity) involving complex visual displays.
翻訳日:2023-11-14 21:43:01 公開日:2023-11-10
# 強化学習における解釈可能な報酬再分配:因果的アプローチ

Interpretable Reward Redistribution in Reinforcement Learning: A Causal Approach ( http://arxiv.org/abs/2305.18427v3 )

ライセンス: Link先を確認
Yudi Zhang, Yali Du, Biwei Huang, Ziyan Wang, Jun Wang, Meng Fang, Mykola Pechenizkiy(参考訳) 強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。 リワード再分配は、観測されたシーケンスから各ステップごとにクレジットを割り当てる解決策として機能する。 現状のアプローチの大部分は, 報酬再分配を解釈不能な方法で構築するが, 因果的観点から, 状態と行動の貢献を明示的にモデル化し, 解釈不能な報酬再分配と政策不変性を維持することを提案する。 本稿では,報酬再分配における因果生成モデルの役割について,マルコフ報酬の生成とトラジェクティブ・ワイド・リターンを特徴付けることによって検討することから始め,遅延報酬シナリオにおける政策最適化のために,GRD(Generative Return Decomposition)と呼ばれるフレームワークを提案する。 具体的には、GRDはまず、生成過程における観測不可能なマルコフ報酬と因果関係を識別する。 そして、GRDは同定された因果生成モデルを用いて、エージェントの状態空間の最も好ましい部分空間上のポリシーを訓練するためのコンパクトな表現を形成する。 理論的には、観測不能なマルコフ報酬関数は、基礎となる因果構造や因果モデルと同様に識別可能である。 実験結果から,本手法は最先端の手法よりも優れており,その可視化によりさらに解釈性が示された。 プロジェクトページはhttps://reedzyd.github.io/GenerativeReturnDecomposition/にある。

A major challenge in reinforcement learning is to determine which state-action pairs are responsible for future rewards that are delayed. Reward redistribution serves as a solution to re-assign credits for each time step from observed sequences. While the majority of current approaches construct the reward redistribution in an uninterpretable manner, we propose to explicitly model the contributions of state and action from a causal perspective, resulting in an interpretable reward redistribution and preserving policy invariance. In this paper, we start by studying the role of causal generative models in reward redistribution by characterizing the generation of Markovian rewards and trajectory-wise long-term return and further propose a framework, called Generative Return Decomposition (GRD), for policy optimization in delayed reward scenarios. Specifically, GRD first identifies the unobservable Markovian rewards and causal relations in the generative process. Then, GRD makes use of the identified causal generative model to form a compact representation to train policy over the most favorable subspace of the state space of the agent. Theoretically, we show that the unobservable Markovian reward function is identifiable, as well as the underlying causal structure and causal models. Experimental results show that our method outperforms state-of-the-art methods and the provided visualization further demonstrates the interpretability of our method. The project page is located at https://reedzyd.github.io/GenerativeReturnDecomposition/.
翻訳日:2023-11-14 21:40:27 公開日:2023-11-10
# ナノスケールにおける効率的な量子作業貯水池

Efficient Quantum Work Reservoirs at the Nanoscale ( http://arxiv.org/abs/2305.17815v3 )

ライセンス: Link先を確認
Jinghao Lyu and Alexander B. Boyd and James P. Crutchfield(参考訳) 資源理論として再編成されると、熱力学は単発のレジームでシステムの挙動を解析できる。 この場合、状態遷移を実装するのに必要な作業は$\alpha$-Renyiの発散によってバウンドされるため、確率的熱力学と比較して効率的な演算の特定が異なる。 したがって, 確率的熱力学と資源論的熱力学との差を詳細に理解する必要がある。 そこで本研究では,単発システムにおける可逆性について検討し,多段作業貯水池に使用する2段作業貯水池を一般化した。 これにより、単発体制におけるあらゆる遷移において可逆性が得られる。 そこで我々は,非散逸状態の多層作業貯水池を触媒と無触媒で体系的に探索する。 資源理論的な結果から、ランダウアーの制約下にある2段階の作業貯水池は、計算中のエネルギー散逸を誤解を招く。 対照的に,マルチレベル作業貯水池はランドウアーの束縛を達成し,エントロピーをゼロにする。

When reformulated as a resource theory, thermodynamics can analyze system behaviors in the single-shot regime. In this, the work required to implement state transitions is bounded by $\alpha$-Renyi divergences and so differs in identifying efficient operations compared to stochastic thermodynamics. Thus, a detailed understanding of the difference between stochastic thermodynamics and resource-theoretic thermodynamics is needed. To this end, we study reversibility in the single-shot regime, generalizing the two-level work reservoirs used there to multi-level work reservoirs. This achieves reversibility in any transition in the single-shot regime. Building on this, we systematically explore multi-level work reservoirs in the nondissipation regime with and without catalysts. The resource-theoretic results show that two-level work reservoirs undershoot Landauer's bound, misleadingly implying energy dissipation during computation. In contrast, we demonstrate that multi-level work reservoirs achieve Landauer's bound and produce zero entropy.
翻訳日:2023-11-14 21:39:15 公開日:2023-11-10
# ハイブリッド量子古典型貯水池計算による2次元乱流レイリー・ブエナード流れの低次モデリング

Reduced-order modeling of two-dimensional turbulent Rayleigh-B\'enard flow by hybrid quantum-classical reservoir computing ( http://arxiv.org/abs/2307.03053v2 )

ライセンス: Link先を確認
Philipp Pfeffer, Florian Heyder and J\"org Schumacher(参考訳) レイリー数 ra=1e+5 とプランドル数 pr=10 における2次元乱流rayleigh-b\'enard対流流の低次統計特性を再現する2つのハイブリッド量子古典型貯留層計算モデルを提案する。 これらの特性は, 根の平均2乗速度と温度, 乱流対流熱フラックスの平均垂直分布を含む。 どちらの量子アルゴリズムも、量子貯水池の回路層、特に絡み合い層の配置によって異なる。 2つの量子回路アーキテクチャの第2部はh2と呼ばれ、外部メモリを使用せずに、量子回路内のリザーバ更新を完全に実行することができる。 その性能は古典的な貯水池計算モデルと比較される。 したがって、3つのモデルは全て、最もエネルギーの強い16個の固有直交分解 (pod) モードの時間依存拡大係数にまたがる低次元の潜在データ空間において、手前の乱流の非線形およびカオスダイナミクスを学ばなければならない。 これらのトレーニングデータは、原乱流の直接数値シミュレーションからPODスナップショット解析により生成される。 全ての貯水池計算モデルは復元モードで操作される。 本研究では,量子ケースに特有なハイパーパラメータや,貯水池サイズや漏出率などの古典的値と共有するハイパーパラメータに依存して,復元誤差の異なる尺度を解析した。 その結果,両量子アルゴリズムとも,古典的貯留層ネットワークと同等の性能で乱流対流の基本的な統計特性を再現できることがわかった。 最も重要なことは、量子貯水池は古典の場合に比べて4から8の小さい値である。

Two hybrid quantum-classical reservoir computing models are presented to reproduce low-order statistical properties of a two-dimensional turbulent Rayleigh-B\'enard convection flow at a Rayleigh number Ra=1e+5 and a Prandtl number Pr=10. These properties comprise the mean vertical profiles of the root mean square velocity and temperature and the turbulent convective heat flux. Both quantum algorithms differ by the arrangement of the circuit layers of the quantum reservoir, in particular the entanglement layers. The second of the two quantum circuit architectures, denoted as H2, enables a complete execution of the reservoir update inside the quantum circuit without the usage of external memory. Their performance is compared with that of a classical reservoir computing model. Therefore, all three models have to learn the nonlinear and chaotic dynamics of the turbulent flow at hand in a lower-dimensional latent data space which is spanned by the time-dependent expansion coefficients of the 16 most energetic Proper Orthogonal Decomposition (POD) modes. These training data are generated by a POD snapshot analysis from direct numerical simulations of the original turbulent flow. All reservoir computing models are operated in the reconstruction mode. We analyse different measures of the reconstruction error in dependence on the hyperparameters which are specific for the quantum cases or shared with the classical counterpart, such as the reservoir size and the leaking rate. We show that both quantum algorithms are able to reconstruct the essential statistical properties of the turbulent convection flow successfully with similar performance compared to the classical reservoir network. Most importantly, the quantum reservoirs are by a factor of 4 to 8 smaller in comparison to the classical case.
翻訳日:2023-11-14 21:16:58 公開日:2023-11-10
# AdAM:Adaptation-Aware Kernel ModulationによるFew-Shot画像生成

AdAM: Few-Shot Image Generation via Adaptation-Aware Kernel Modulation ( http://arxiv.org/abs/2307.01465v3 )

ライセンス: Link先を確認
Yunqing Zhao, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Chao Du, Tianyu Pang, Ruoteng Li, Henghui Ding, Ngai-Man Cheung(参考訳) Few-shot Image Generation (FSIG)は、少数のトレーニングサンプル(例:10)が与えられた新しい多様な画像を生成することを目的としている。 最近の研究は、大規模なソースドメインで事前訓練されたGANを活用し、ターゲットドメインに適応することでFSIGに対処している。 最近のFSIG手法の中心は知識保存基準であり、適応されたモデルにソース知識のサブセットを選択し保存する。 しかし、既存の方法の大きな制限は、知識保存基準がソースドメイン/タスクのみを考慮し、ソース知識の選択においてターゲットドメイン/適応を考慮せず、ソースドメインとターゲットドメインの近接性の異なる設定に適合性に疑問を投げかけることである。 私たちの仕事は2つの貢献をする。 まず,最近のFSIG研究とその実験について再検討する。 ソースドメインとターゲットドメインの近接性が緩和されるという仮定の下では、知識保存におけるソースドメインのみを考慮した既存のsota(state-of-the-art)メソッドがベースラインメソッドよりも優れていることが判明した。 第2の貢献として、異なるソース・ターゲット領域近接の一般FSIGに対してAdaptation-Aware kernel Modulation (AdAM)を提案する。 大規模な実験により、AdAMはFSIGのSOTAパフォーマンスを一貫して達成し、ソースドメインとターゲットドメインがより分離された困難なセットアップを含むことを示した。

Few-shot image generation (FSIG) aims to learn to generate new and diverse images given few (e.g., 10) training samples. Recent work has addressed FSIG by leveraging a GAN pre-trained on a large-scale source domain and adapting it to the target domain with few target samples. Central to recent FSIG methods are knowledge preservation criteria, which select and preserve a subset of source knowledge to the adapted model. However, a major limitation of existing methods is that their knowledge preserving criteria consider only source domain/task and fail to consider target domain/adaptation in selecting source knowledge, casting doubt on their suitability for setups of different proximity between source and target domain. Our work makes two contributions. Firstly, we revisit recent FSIG works and their experiments. We reveal that under setups which assumption of close proximity between source and target domains is relaxed, many existing state-of-the-art (SOTA) methods which consider only source domain in knowledge preserving perform no better than a baseline method. As our second contribution, we propose Adaptation-Aware kernel Modulation (AdAM) for general FSIG of different source-target domain proximity. Extensive experiments show that AdAM consistently achieves SOTA performance in FSIG, including challenging setups where source and target domains are more apart.
翻訳日:2023-11-14 21:15:25 公開日:2023-11-10
# ゲームテストのための選好条件付きピクセルベースaiエージェント

Preference-conditioned Pixel-based AI Agent For Game Testing ( http://arxiv.org/abs/2308.09289v2 )

ライセンス: Link先を確認
Sherif Abdelfattah, Adrian Brown, Pushi Zhang(参考訳) ゲーム産業は、リリースゲームの品質基準を許容しつつ、需要の増加とゲームの複雑さに対処することが課題となっている。 古典的なアプローチは、品質保証とゲームテストのための人間の努力にのみ依存し、時間とコストの面で効果的にスケールしない。 環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を時間とコストで優れたスケーラビリティ特性で軽減する可能性がある。 しかし、この方向の最近の作業は、異なるゲームシナリオの一般化を制限するエージェントの状態表現のためのゲーム状態情報に依存する。 さらに、ゲームテストエンジニアは通常、ゴールデンパスを探索するなど、特定のスタイルでゲームを探索することを好む。 しかし、現在のゲームテストAIエージェントは、そのような好みを満たす明確な方法を提供していない。 本稿では,実演軌跡によって規定されたユーザの嗜好に基づく環境を探索しながら,主に画素ベースの状態観察に依存するエージェント設計を提案する。 さらに,模倣行動の質を高めるために,自己指導的かつ指導的学習目標を結合する模倣学習手法を提案する。 本エージェントは,実際のaaaゲームに類似した複雑なオープンワールド環境において,探索カバレッジやテスト実行品質よりも,最先端のピクセルベースのゲームテストエージェントを著しく上回っている。

The game industry is challenged to cope with increasing growth in demand and game complexity while maintaining acceptable quality standards for released games. Classic approaches solely depending on human efforts for quality assurance and game testing do not scale effectively in terms of time and cost. Game-testing AI agents that learn by interaction with the environment have the potential to mitigate these challenges with good scalability properties on time and costs. However, most recent work in this direction depends on game state information for the agent's state representation, which limits generalization across different game scenarios. Moreover, game test engineers usually prefer exploring a game in a specific style, such as exploring the golden path. However, current game testing AI agents do not provide an explicit way to satisfy such a preference. This paper addresses these limitations by proposing an agent design that mainly depends on pixel-based state observations while exploring the environment conditioned on a user's preference specified by demonstration trajectories. In addition, we propose an imitation learning method that couples self-supervised and supervised learning objectives to enhance the quality of imitation behaviors. Our agent significantly outperforms state-of-the-art pixel-based game testing agents over exploration coverage and test execution quality when evaluated on a complex open-world environment resembling many aspects of real AAA games.
翻訳日:2023-11-14 20:52:25 公開日:2023-11-10
# ソフトウェア開発ライフサイクルのシミュレーション:ウォーターフォールモデル

Simulating the Software Development Lifecycle: The Waterfall Model ( http://arxiv.org/abs/2308.03940v3 )

ライセンス: Link先を確認
Antonios Saravanos (1), Matthew X. Curinga (2) ((1) New York University, (2) MIXI Institute for STEM and the Imagination, Adelphi University)(参考訳) 本研究は,ウォーターフォールモデルを適用したシミュレーションベースの手法を用いて,ソフトウェアプロジェクトや個々のフェーズ完了時間の見積を行う。 さらに、最適なリソースレベルから生じる潜在的な効率の問題も指摘します。 我々はPythonの離散イベントシミュレーションフレームワークであるSimPyを用いて,ソフトウェア開発ライフサイクルシミュレーションを実装した。 私たちのモデルは、ソフトウェアハウスのコンテキスト内で、異なるサイズの100のプロジェクトで実行されます。 ひとつは、リソースの初期セットに基づく洞察を提供し、リソースボトルネックの存在、特に実装フェーズでプログラマが不足していることを明らかにする。 2つ目のシナリオは、ステップワイズアルゴリズムを用いて識別されたゼロウェイト時間を達成するリソースのレベルを使用する。 この結果は、シミュレーションをソフトウェア開発プロジェクトの実験と計画のための安全で効果的な方法として使う利点を示している。 このようなシミュレーションによって、ソフトウェア開発プロジェクトの管理担当者は、フェーズやプロジェクトの完了時間に関する正確な証拠ベースの予測や、リソースとの相互作用の探求が可能になる。

This study employs a simulation-based approach, adapting the waterfall model, to provide estimates for software project and individual phase completion times. Additionally, it pinpoints potential efficiency issues stemming from suboptimal resource levels. We implement our software development lifecycle simulation using SimPy, a Python discrete-event simulation framework. Our model is executed within the context of a software house on 100 projects of varying sizes examining two scenarios. The first provides insight based on an initial set of resources, which reveals the presence of resource bottlenecks, particularly a shortage of programmers for the implementation phase. The second scenario uses a level of resources that would achieve zero-wait time, identified using a stepwise algorithm. The findings illustrate the advantage of using simulations as a safe and effective way to experiment and plan for software development projects. Such simulations allow those managing software development projects to make accurate, evidence-based projections as to phase and project completion times as well as explore the interplay with resources.
翻訳日:2023-11-14 20:50:25 公開日:2023-11-10
# LeTFuser:マルチタスク学習による自律運転のための軽量エンドツーエンドトランスフォーマーベースセンサフュージョン

LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for Autonomous Driving with Multi-Task Learning ( http://arxiv.org/abs/2310.13135v2 )

ライセンス: Link先を確認
Pedram Agand, Mohammad Mahdavian, Manolis Savva, Mo Chen(参考訳) エンド・ツー・エンドの自律運転において、既存のセンサー融合技術を利用した模倣学習は、多数の動的エージェントを含む困難な状況において不十分であることを示す。 この問題に対処するため,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを導入する。 認識と制御を同時に行うためには,マルチタスク学習を利用する。 本モデルは,RGB-Dカメラから得られた観測データを符号化する知覚モジュールである2つのモジュールから構成される。 セマンティックセグメンテーション、セマンティック深度クラウドマッピング(sdc)、トラフィックライト状態認識などのタスクを実行する。 コンボリューションビジョントランスフォーマー (cvt) \cite{wu2021cvt} を用いて, コンボリューションとトランスフォーマーモジュールの局所的およびグローバル的特徴抽出能力により, 複数のrgbカメラから特徴を抽出・融合する手法を提案する。 これに続いて、制御モジュールは、遅延特徴空間に関連するウェイポイントを予測するために、静的および動的環境のための粗いシミュレータと様々な測定を含む補足データとともに符号化された特性の復号を行う。 これらの出力を2つの方法で処理し、車両の制御レベル(ステアリング、スロットル、ブレーキなど)を生成する。 第1の方法は、PIDアルゴリズムを用いてハエの進路を追従する一方、第2の方法は、計測特性と環境状態を用いて制御ポリシーを直接予測する。 実世界のシナリオをシミュレーションするために,本モデルを評価し,CARLAシミュレータを用いた最近のモデルとの比較分析を行った。 私たちのコードは、将来の研究を促進するために、 \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w}で利用可能です。

In end-to-end autonomous driving, the utilization of existing sensor fusion techniques for imitation learning proves inadequate in challenging situations that involve numerous dynamic agents. To address this issue, we introduce LeTFuser, a \mmm{lightweight} transformer-based algorithm for fusing multiple RGB-D camera representations. To perform perception and control tasks simultaneously, we utilize multi-task learning. Our model comprises of two modules, the first being the perception module that is responsible for encoding the observation data obtained from the RGB-D cameras. It carries out tasks such as semantic segmentation, semantic depth cloud mapping (SDC), and traffic light state recognition. Our approach employs the Convolutional vision Transformer (CvT) \cite{wu2021cvt} to better extract and fuse features from multiple RGB cameras due to local and global feature extraction capability of convolution and transformer modules, respectively. Following this, the control module undertakes the decoding of the encoded characteristics together with supplementary data, comprising a rough simulator for static and dynamic environments, as well as various measurements, in order to anticipate the waypoints associated with a latent feature space. We use two methods to process these outputs and generate the vehicular controls (e.g. steering, throttle, and brake) levels. The first method uses a PID algorithm to follow the waypoints on the fly, whereas the second one directly predicts the control policy using the measurement features and environmental state. We evaluate the model and conduct a comparative analysis with recent models on the CARLA simulator using various scenarios, ranging from normal to adversarial conditions, to simulate real-world scenarios. Our code is available at \url{https://github.com/pagand/e2etransfuser/tree/cvpr-w} to facilitate future studies.
翻訳日:2023-11-14 20:01:05 公開日:2023-11-10
# 進化する疫学ネットワークの転換点:機械学習支援、データ駆動効果的なモデリング

Tipping Points of Evolving Epidemiological Networks: Machine Learning-Assisted, Data-Driven Effective Modeling ( http://arxiv.org/abs/2311.00797v2 )

ライセンス: Link先を確認
Nikolaos Evangelou, Tianqi Cui, Juan M. Bello-Rivas, Alexei Makeev, Ioannis G. Kevrekidis(参考訳) 本研究では,データ駆動型機械学習支援手法を用いて,sis(adaptive susceptible-inected-susceptible (sis) epidemiological network) のティッピングポイント集団ダイナミクスについて検討した。 数値確率積分器に着想を得た深層学習型ResNetアーキテクチャを用いて,パラメータ依存実効確率微分方程式(eSDE)を物理的に有意な平均場変数を用いて同定する。 本稿では,eSDEのドリフト項に基づく近似有効分岐図を構築し,平均場SISモデル分岐図と対比する。 進化するネットワークの有効 SIS 力学における亜臨界ホップ分岐は、先端点の挙動を引き起こす; これは、(ノイズ)定常状態の近傍から自然に-しかしまれに-放散する大きな振幅集合振動の形を取る。 我々は,これらの稀な事象の統計を,繰り返しブルート力シミュレーションと,同定されたSDEの右辺を利用した数学的・計算ツールを用いて研究した。 このような集合SDEは、特に拡散マップ(Diffusion Maps)を用いて得られた、データ駆動の粗い観測可能量の観点からも識別可能であることを実証する。 本研究のワークフローは、チップ点ダイナミクスを示す他の複雑な力学問題に直接適用することができる。

We study the tipping point collective dynamics of an adaptive susceptible-infected-susceptible (SIS) epidemiological network in a data-driven, machine learning-assisted manner. We identify a parameter-dependent effective stochastic differential equation (eSDE) in terms of physically meaningful coarse mean-field variables through a deep-learning ResNet architecture inspired by numerical stochastic integrators. We construct an approximate effective bifurcation diagram based on the identified drift term of the eSDE and contrast it with the mean-field SIS model bifurcation diagram. We observe a subcritical Hopf bifurcation in the evolving network's effective SIS dynamics, that causes the tipping point behavior; this takes the form of large amplitude collective oscillations that spontaneously -- yet rarely -- arise from the neighborhood of a (noisy) stationary state. We study the statistics of these rare events both through repeated brute force simulations and by using established mathematical/computational tools exploiting the right-hand-side of the identified SDE. We demonstrate that such a collective SDE can also be identified (and the rare events computations also performed) in terms of data-driven coarse observables, obtained here via manifold learning techniques, in particular Diffusion Maps. The workflow of our study is straightforwardly applicable to other complex dynamics problems exhibiting tipping point dynamics.
翻訳日:2023-11-14 19:34:34 公開日:2023-11-10
# 強相関系のためのスパース量子状態調製

Sparse Quantum State Preparation for Strongly Correlated Systems ( http://arxiv.org/abs/2311.03347v2 )

ライセンス: Link先を確認
C. Feniou, O. Adjoua, B. Claudon, J. Zylberman, E. Giner, J.-P. Piquemal(参考訳) 量子コンピューティングは、原則として、指数関数的にスケーリングする多電子波動関数を線形スケーリング量子ビットレジスタにエンコーディングすることを可能にし、従来の量子化学手法の限界を克服する有望な解決策を提供する。 基底状態量子アルゴリズムが実用的であるためには、量子ビットの初期化が要求される基底状態の高品質な近似に必須である。 量子状態準備 (qsp) は古典計算から得られる近似固有状態の合成を可能にするが、量子情報ではしばしば神託として扱われる。 本研究では,Hyperion GPU加速状態ベクトルエミュレータを用いて,28量子ビットの原型的強相関系の基底状態に対してQSPを行う。 様々な変分法と非変分法は、回路深さと古典的複雑性の観点から比較される。 その結果,最近開発された overlap-adapt-vqe アルゴリズムは,短期的アプリケーションにおいて最も有利な性能を示す。

Quantum Computing allows, in principle, the encoding of the exponentially scaling many-electron wave function onto a linearly scaling qubit register, offering a promising solution to overcome the limitations of traditional quantum chemistry methods. An essential requirement for ground state quantum algorithms to be practical is the initialisation of the qubits to a high-quality approximation of the sought-after ground state. Quantum State Preparation (QSP) allows the preparation of approximate eigenstates obtained from classical calculations, but it is frequently treated as an oracle in quantum information. In this study, we conduct QSP on the ground state of prototypical strongly correlated systems, up to 28 qubits, using the Hyperion GPU-accelerated state-vector emulator. Various variational and non-variational methods are compared in terms of their circuit depth and classical complexity. Our results indicate that the recently developed Overlap-ADAPT-VQE algorithm offers the most advantageous performance for near-term applications.
翻訳日:2023-11-14 19:23:34 公開日:2023-11-10
# 航空機の音響検出・分類のためのエアロソニックDB(YPAD-0523)データセット

The AeroSonicDB (YPAD-0523) Dataset for Acoustic Detection and Classification of Aircraft ( http://arxiv.org/abs/2311.06368v1 )

ライセンス: Link先を確認
Blake Downward, Jon Nordby(参考訳) オーディオデータの収集とラベル付けに必要な時間と費用は、ドメイン固有のオーディオデータセットの入手が禁じられている要因である。 分類器の予測的特異性は、訓練されたラベルの特異性に依存するため、きめ細かいラベル付きデータセットは機械学習の進歩に不可欠である。 本稿では,機械聴取分野の進歩を促進すべく,低空飛行航空機音のデータセットであるAeroSonicDB (YPAD-0523)を導入し,音響検出・分類システムの訓練を行う。 本稿では,ADS-Bラジオ伝送を利用して音声サンプルを受動的に収集・ラベルする手法について述べる。 Collatedデータセットの要約を提供する。 3つのバイナリ分類モデルからベースライン結果を提示し、現在のデータセットの制限とその将来可能性について論じる。 データセットには18秒から60秒間の625の航空機記録が含まれており、合計8.87時間の航空機音声が記録されている。 これらの625のサンプルは301機のユニークな航空機を特徴とし、それぞれに14の補足(音響以外の)ラベルが供給されている。 データセットには3.52時間の環境背景オーディオ(サイレンス)が含まれており、航空機の騒音と他の環境騒音を区別する手段となっている。 さらに、モデル性能評価のための補助的方法として6時間の都市サウンドスケープ記録(航空機アノテーション付き)が含まれ、リアルタイムアプリケーションのための試験場を提供する。

The time and expense required to collect and label audio data has been a prohibitive factor in the availability of domain specific audio datasets. As the predictive specificity of a classifier depends on the specificity of the labels it is trained on, it follows that finely-labelled datasets are crucial for advances in machine learning. Aiming to stimulate progress in the field of machine listening, this paper introduces AeroSonicDB (YPAD-0523), a dataset of low-flying aircraft sounds for training acoustic detection and classification systems. This paper describes the method of exploiting ADS-B radio transmissions to passively collect and label audio samples. Provides a summary of the collated dataset. Presents baseline results from three binary classification models, then discusses the limitations of the current dataset and its future potential. The dataset contains 625 aircraft recordings ranging in event duration from 18 to 60 seconds, for a total of 8.87 hours of aircraft audio. These 625 samples feature 301 unique aircraft, each of which are supplied with 14 supplementary (non-acoustic) labels to describe the aircraft. The dataset also contains 3.52 hours of ambient background audio ("silence"), as a means to distinguish aircraft noise from other local environmental noises. Additionally, 6 hours of urban soundscape recordings (with aircraft annotations) are included as an ancillary method for evaluating model performance, and to provide a testing ground for real-time applications.
翻訳日:2023-11-14 19:14:57 公開日:2023-11-10
# 長距離異方性ハイゼンベルク鎖における分解量子臨界

Deconfined Quantum Criticality in the long-range, anisotropic Heisenberg Chain ( http://arxiv.org/abs/2311.06350v1 )

ライセンス: Link先を確認
Anton Romen and Stefan Birnkammer and Michael Knap(参考訳) Deconfined quantum criticality はランダウ・ギンズバーグのパラダイムによって捉えられない連続相転移を記述する。 本稿では,長距離異方性ハイゼンベルク鎖の解圧量子臨界点について検討する。 行列積状態シミュレーションにより、モデルが原子価結合固体から反強磁性体への連続的な相転移を行うことを示す。 我々は遷移の臨界指数を抽出し、ボゾン化法から得られた有効場理論に接続する。 原子価結合位数を安定化するだけでなく、長距離相互作用は無関係であり、遷移は二重周波数シン・ゴルドンモデルによってよく説明される。 本研究では, 閉じ込めイオン量子シミュレータを用いて, 量子臨界現象を解明し, 探究する方法を提案する。

Deconfined quantum criticality describes continuous phase transitions that are not captured by the Landau-Ginzburg paradigm. Here, we investigate deconfined quantum critical points in the long-range, anisotropic Heisenberg chain. With matrix product state simulations, we show that the model undergoes a continuous phase transition from a valence bond solid to an antiferromagnet. We extract the critical exponents of the transition and connect them to an effective field theory obtained from bosonization techniques. We show that beyond stabilizing the valance bond order, the long-range interactions are irrelevant and the transition is well described by a double frequency sine-Gordon model. We propose how to realize and probe deconfined quantum criticality in our model with trapped-ion quantum simulators.
翻訳日:2023-11-14 19:14:33 公開日:2023-11-10
# 制約付き量子時間発展の最適圧縮

Optimal compression of constrained quantum time evolution ( http://arxiv.org/abs/2311.06347v1 )

ライセンス: Link先を確認
Maurits S. J. Tepaske, David J. Luitz, Dominik Hahn(参考訳) 量子多体系の時間進化は、短期量子コンピュータの最も有望な応用の1つである。 しかし、現在の量子デバイスの有用性は、ハードウェアエラーの増大によって強く妨げられている。 したがって、浅い回路は一般にデコヒーレンスに弱いため、与えられた量子アルゴリズムの回路深さの最小化は極めて望ましい。 近年,パラメータの最適選択は計算に要求されるタスクであるが,変分回路はトロッター分解のような最先端の手法を上回る有望な手法であることが示されている。 本研究では,物理系の対称性を直接符号化することにより,局所ハミルトニアンの時間発展演算子を実装する回路の変動最適化の単純化を実証する。 異なるモデルと対称性に対する制約付き変動回路の表現可能性について検討する。 その結果、対称性のエンコーディングは最適化コストを1桁以上削減し、多くのシステムで精度を低下させることなく、任意の大きなシステムサイズに拡張できることが示されている。 さらに、制約付きシステムにおける例外を議論し、回路に制約を課した後、制約付き光円錐幅を用いて説明を行う。

The time evolution of quantum many-body systems is one of the most promising applications for near-term quantum computers. However, the utility of current quantum devices is strongly hampered by the proliferation of hardware errors. The minimization of the circuit depth for a given quantum algorithm is therefore highly desirable, since shallow circuits generally are less vulnerable to decoherence. Recently, it was shown that variational circuits are a promising approach to outperform current state-of-the-art methods such as Trotter decomposition, although the optimal choice of parameters is a computationally demanding task. In this work, we demonstrate a simplification of the variational optimization of circuits implementing the time evolution operator of local Hamiltonians by directly encoding symmetries of the physical system under consideration. We study the expressibility of such constrained variational circuits for different models and symmetries. Our results show that the encoding of symmetries allows a reduction of optimization cost by more than one order of magnitude and scalability to arbitrary large system sizes, without loosing accuracy in most systems. Furthermore, we discuss the exceptions in constrained systems and provide an explanation by means of an restricted lightcone width after imposing the constraints into the circuits.
翻訳日:2023-11-14 19:14:21 公開日:2023-11-10
# マルチドメイン対話状態追跡のためのスキーマグラフガイドプロンプト

Schema Graph-Guided Prompt for Multi-Domain Dialogue State Tracking ( http://arxiv.org/abs/2311.06345v1 )

ライセンス: Link先を確認
Ruolin Su, Ting-Wei Wu and Biing-Hwang Juang(参考訳) 対話状態の追跡はタスク指向の対話システムにおいて重要なトピックであり、スキーマに対応する事前に定義されたスロットに必要な情報を埋め込む。 一般的な事前学習言語モデルはスロットフィリングに有効であることが示されているが、特定のドメインに適用した場合、その性能は制限されている。 対話スキーマを組み込んでドメイン固有のプロンプトを学習するグラフベースのフレームワークを提案する。 具体的には、グラフニューラルネットワークによって符号化されたドメイン固有のスキーマを事前学習された言語モデルに組み込む。 提案手法は,類似あるいは少ないトレーニングパラメータを用いて,他のマルチドメインDST手法よりも優れていることを示す。 また,マルチドメイン対話状態追跡におけるモデルの有効性を示す,スキーマグラフアーキテクチャ,パラメータ利用,モジュールアブレーションの包括的研究も行なっている。

Tracking dialogue states is an essential topic in task-oriented dialogue systems, which involve filling in the necessary information in pre-defined slots corresponding to a schema. While general pre-trained language models have been shown effective in slot-filling, their performance is limited when applied to specific domains. We propose a graph-based framework that learns domain-specific prompts by incorporating the dialogue schema. Specifically, we embed domain-specific schema encoded by a graph neural network into the pre-trained language model, which allows for relations in the schema to guide the model for better adaptation to the specific domain. Our experiments demonstrate that the proposed graph-based method outperforms other multi-domain DST approaches while using similar or fewer trainable parameters. We also conduct a comprehensive study of schema graph architectures, parameter usage, and module ablation that demonstrate the effectiveness of our model on multi-domain dialogue state tracking.
翻訳日:2023-11-14 19:14:04 公開日:2023-11-10
# スマートエージェントに基づくモデリング:コンピュータシミュレーションにおける大規模言語モデルの利用について

Smart Agent-Based Modeling: On the Use of Large Language Models in Computer Simulations ( http://arxiv.org/abs/2311.06330v1 )

ライセンス: Link先を確認
Zengqing Wu, Run Peng, Xu Han, Shuyuan Zheng, Yixin Zhang, Chuan Xiao(参考訳) コンピュータシミュレーションは、様々な分野にわたる複雑なシステムを探索するための堅牢なツールセットを提供する。 この領域における特に影響力のあるアプローチはエージェントベースモデリング(abm)であり、個々のエージェントの相互作用を利用して複雑なシステムダイナミクスをエミュレートする。 ABMの強みはボトムアップ手法にあり、システムの個々のコンポーネントの振る舞いをモデル化することによって創発現象を照らす。 しかし、abmには独自の課題があり、特に自然言語の指示や数学的方程式や規則における常識のモデル化に苦慮している。 本稿では,GPT のような大規模言語モデル (LLM) を ABM に組み込むことにより,これらの境界を超越する手法を提案する。 この融合によって、新しいフレームワークであるスマートエージェントベースモデリング(SABM)が生まれた。 スマートエージェントの概念 - その知性、適応性、計算能力によって特徴づけられるエンティティ - に基づいて、私たちはLLMエージェントを使用して、ニュアンスとリアリズムを増大させた現実のシナリオをシミュレートする方向を探る。 本稿では,SABM技術の現状を解明し,SABMの可能性と方法論を紹介するとともに,SABM方法論を実証し,実世界のシステムモデリングにおけるその有効性を検証した3つのケーススタディ(https://github.com/Roihn/SABMで公開されているソースコード)を紹介する。 さらに、私たちはsabmの将来に関するいくつかの側面にビジョンを向け、その応用のより広い地平線を予測しました。 この取り組みを通じて、コンピュータシミュレーションの境界を再定義し、複雑なシステムのより深い理解を可能にしたいと考えています。

Computer simulations offer a robust toolset for exploring complex systems across various disciplines. A particularly impactful approach within this realm is Agent-Based Modeling (ABM), which harnesses the interactions of individual agents to emulate intricate system dynamics. ABM's strength lies in its bottom-up methodology, illuminating emergent phenomena by modeling the behaviors of individual components of a system. Yet, ABM has its own set of challenges, notably its struggle with modeling natural language instructions and common sense in mathematical equations or rules. This paper seeks to transcend these boundaries by integrating Large Language Models (LLMs) like GPT into ABM. This amalgamation gives birth to a novel framework, Smart Agent-Based Modeling (SABM). Building upon the concept of smart agents -- entities characterized by their intelligence, adaptability, and computation ability -- we explore in the direction of utilizing LLM-powered agents to simulate real-world scenarios with increased nuance and realism. In this comprehensive exploration, we elucidate the state of the art of ABM, introduce SABM's potential and methodology, and present three case studies (source codes available at https://github.com/Roihn/SABM), demonstrating the SABM methodology and validating its effectiveness in modeling real-world systems. Furthermore, we cast a vision towards several aspects of the future of SABM, anticipating a broader horizon for its applications. Through this endeavor, we aspire to redefine the boundaries of computer simulations, enabling a more profound understanding of complex systems.
翻訳日:2023-11-14 19:13:50 公開日:2023-11-10
# aiテキスト対画像およびaiテキスト対ビデオ生成器に関する調査

A Survey of AI Text-to-Image and AI Text-to-Video Generators ( http://arxiv.org/abs/2311.06329v1 )

ライセンス: Link先を確認
Aditi Singh(参考訳) テキスト対画像およびテキスト対ビデオai生成モデルは、ディープラーニングと自然言語処理(nlp)技術を使用して、テキスト記述から画像やビデオを作成する革新的な技術である。 本稿では,テキスト対画像およびテキスト対ビデオai世代における最先端のアプローチについて検討する。 この調査は、既存の文献の概要と、様々な研究で使われているアプローチの分析を提供する。 データ前処理技術、ニューラルネットワークタイプ、フィールドで使用される評価指標などをカバーする。 さらに,テキスト対画像およびテキスト対ビデオai世代の課題と限界について述べるとともに,今後の研究動向について述べる。 全体として、これらのモデルは、ビデオ制作、コンテンツ制作、デジタルマーケティングなど、幅広い応用の可能性を秘めている。

Text-to-Image and Text-to-Video AI generation models are revolutionary technologies that use deep learning and natural language processing (NLP) techniques to create images and videos from textual descriptions. This paper investigates cutting-edge approaches in the discipline of Text-to-Image and Text-to-Video AI generations. The survey provides an overview of the existing literature as well as an analysis of the approaches used in various studies. It covers data preprocessing techniques, neural network types, and evaluation metrics used in the field. In addition, the paper discusses the challenges and limitations of Text-to-Image and Text-to-Video AI generations, as well as future research directions. Overall, these models have promising potential for a wide range of applications such as video production, content creation, and digital marketing.
翻訳日:2023-11-14 19:13:24 公開日:2023-11-10
# 推薦システムのためのグラフ畳み込みネットワーク技術の開発

Reviewing Developments of Graph Convolutional Network Techniques for Recommendation Systems ( http://arxiv.org/abs/2311.06323v1 )

ライセンス: Link先を確認
Haojun Zhu, Vikram Kapoor, Priya Sharma(参考訳) Recommenderシステムは今日のインターネット上で重要な情報サービスである。 近年,グラフニューラルネットワークがレコメンダシステムの主要なアプローチとして登場している。 本稿では,グラフニューラルネットワークに基づくレコメンダシステムに関する最近の文献を概観し,レコメンダシステムとグラフニューラルネットワークの背景と開発について述べる。 次に,その設定によるレコメンダシステムと,スペクトルモデルと空間モデルによるグラフニューラルネットワークを分類し,レコメンダシステムにグラフニューラルネットワークを組み込む動機について検討する。 また,グラフ構築,埋め込み伝播と集約,計算効率における課題とオープン問題を解析した。 これにより、この分野の今後の方向性や展開をより深く探求することができます。

The Recommender system is a vital information service on today's Internet. Recently, graph neural networks have emerged as the leading approach for recommender systems. We try to review recent literature on graph neural network-based recommender systems, covering the background and development of both recommender systems and graph neural networks. Then categorizing recommender systems by their settings and graph neural networks by spectral and spatial models, we explore the motivation behind incorporating graph neural networks into recommender systems. We also analyze challenges and open problems in graph construction, embedding propagation and aggregation, and computation efficiency. This guides us to better explore the future directions and developments in this domain.
翻訳日:2023-11-14 19:13:10 公開日:2023-11-10
# テキスト-画像拡散モデルにおける進行校正と活性化緩和による後学習量子化

Post-training Quantization with Progressive Calibration and Activation Relaxing for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.06322v1 )

ライセンス: Link先を確認
Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Zewen Wu, Yansong Tang, Wenwu Zhu(参考訳) 拡散モデルは、その顕著な生成能力のために大きな成功を収めた。 しかし、高い計算オーバーヘッドはいまだに厄介な問題である。 最近の研究は、拡散モデルの圧縮にPTQ(Post-training Quantization)を活用している。 しかし、それらの多くは無条件のモデルにのみ焦点をあてており、広く使われている大きな事前訓練されたテキスト-画像モデルの量子化(例えば、安定拡散)はほとんど探索されていない。 本稿では,時間経過の累積量子化誤差を考慮した漸進的キャリブレーション戦略と,無視可能なコストで性能を向上させるアクティベーション緩和戦略からなる,テキスト・画像拡散モデルのためのポストトレーニング量子化法PCR(Progressive Calibration and Relaxing)を提案する。 さらに,従来のテキスト・画像拡散モデルの量子化は分布ギャップのため正確ではないことを示す。 そこで本研究では,同一領域のデータを用いてより正確な評価を行う新しいQDiffBenchベンチマークを提案する。 さらに、QDiffBenchはキャリブレーションデータセットの外の量子化モデルの一般化性能についても検討している。 安定拡散と安定拡散xlに関する広範な実験により,本手法とベンチマークの有用性が示された。 さらに,我々は安定拡散XLの量子化を初めて達成し,その性能を維持した。

Diffusion models have achieved great success due to their remarkable generation ability. However, their high computational overhead is still a troublesome problem. Recent studies have leveraged post-training quantization (PTQ) to compress diffusion models. However, most of them only focus on unconditional models, leaving the quantization of widely used large pretrained text-to-image models, e.g., Stable Diffusion, largely unexplored. In this paper, we propose a novel post-training quantization method PCR (Progressive Calibration and Relaxing) for text-to-image diffusion models, which consists of a progressive calibration strategy that considers the accumulated quantization error across timesteps, and an activation relaxing strategy that improves the performance with negligible cost. Additionally, we demonstrate the previous metrics for text-to-image diffusion model quantization are not accurate due to the distribution gap. To tackle the problem, we propose a novel QDiffBench benchmark, which utilizes data in the same domain for more accurate evaluation. Besides, QDiffBench also considers the generalization performance of the quantized model outside the calibration dataset. Extensive experiments on Stable Diffusion and Stable Diffusion XL demonstrate the superiority of our method and benchmark. Moreover, we are the first to achieve quantization for Stable Diffusion XL while maintaining the performance.
翻訳日:2023-11-14 19:12:59 公開日:2023-11-10
# 機械学習は、構築された環境から自動車の走行需要を明らかにすることができるか?

Can Machine Learning Uncover Insights into Vehicle Travel Demand from Our Built Environment? ( http://arxiv.org/abs/2311.06321v1 )

ライセンス: Link先を確認
Zixun Huang, Hao Zheng(参考訳) 本稿では,自動車の走行需要の観点から,都市部における土地利用計画の最適化能力の欠如に対処する機械学習アプローチを提案する。 本研究は,デザイナーが設計した都市機能分布に基づく総生産量と時間分布を含む自動車旅行需要に対するフィードバックを,設計者が迅速に得ることができることを示す。 また,車両走行の観点からの都市機能分布の最適化と評価を支援する。 我々は,都市機能分布情報と移動時間(VHT)情報を,都市間関心(POI)データとオンライン車両データを収集して取得する。 予測において最高の性能を有する人工ニューラルネットワーク(ANN)が選択される。 異なる地域で収集されたデータセットを相互予測に利用し,予測結果を地図上に再マッピングして可視化することにより,都市研究者の作業負荷を軽減するために,計算モデルが地域間における利用度を評価する。 最後に,組込み環境における自動車の走行需要に対するフィードバックを得るために計算モデルを適用し,遺伝的アルゴリズムと組み合わせることで,都市環境の現状を最適化し,設計者へのレコメンデーションを提供する。

In this paper, we propose a machine learning-based approach to address the lack of ability for designers to optimize urban land use planning from the perspective of vehicle travel demand. Research shows that our computational model can help designers quickly obtain feedback on the vehicle travel demand, which includes its total amount and temporal distribution based on the urban function distribution designed by the designers. It also assists in design optimization and evaluation of the urban function distribution from the perspective of vehicle travel. We obtain the city function distribution information and vehicle hours traveled (VHT) information by collecting the city point-of-interest (POI) data and online vehicle data. The artificial neural networks (ANNs) with the best performance in prediction are selected. By using data sets collected in different regions for mutual prediction and remapping the predictions onto a map for visualization, we evaluate the extent to which the computational model sees use across regions in an attempt to reduce the workload of future urban researchers. Finally, we demonstrate the application of the computational model to help designers obtain feedback on vehicle travel demand in the built environment and combine it with genetic algorithms to optimize the current state of the urban environment to provide recommendations to designers.
翻訳日:2023-11-14 19:12:37 公開日:2023-11-10
# コンテキストクエリのパーソナライズのための知識強化型大規模言語モデル

Knowledge-Augmented Large Language Models for Personalized Contextual Query Suggestion ( http://arxiv.org/abs/2311.06318v1 )

ライセンス: Link先を確認
Jinheon Baek, Nirupama Chandrasekaran, Silviu Cucerzan, Allen herring, Sujay Kumar Jauhar(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理に精通している。 しかし、再トレーニングや微調整に要するかなりのコストのため、それらはほとんど静的であり、パーソナライズが困難である。 それでも、様々なアプリケーションが、ユーザの好み、目標、知識に合わせた世代から恩恵を受ける可能性がある。 その中には、ユーザーが何を達成しようとしているのか、何に関心があるのか、何を知っているかを知るウェブ検索がある。 本研究では,ユーザと検索エンジンのインタラクション履歴からLLMを関連性のある文脈で拡張し,その出力をパーソナライズする,斬新で汎用的なアプローチを提案する。 具体的には、Web上の検索および閲覧活動に基づいて、各ユーザに対してエンティティ中心の知識ストアを構築し、それを活用して、文脈的に関連するLCMプロンプト拡張を提供する。 この知識ストアは、ユーザの興味や知識を公開知識グラフに投影するのみであり、既存の検索ログインフラストラクチャを活用し、パーソナライズのための深いユーザープロファイル構築に関連するプライバシー、コンプライアンス、スケーラビリティの懸念を軽減する。 次に、ユーザの現在の検索コンテキストだけでなく、過去の知識や関心事も理解する必要があるコンテキストクエリ提案のタスクに対するアプローチを検証する。 人間の評価に基づく多くの実験を通して、我々のアプローチは他のLLMベースラインよりもはるかに優れていることを示し、文脈的に関連性があり、パーソナライズされ、有用であるクエリ提案を生成する。

Large Language Models (LLMs) excel at tackling various natural language tasks. However, due to the significant costs involved in re-training or fine-tuning them, they remain largely static and difficult to personalize. Nevertheless, a variety of applications could benefit from generations that are tailored to users' preferences, goals, and knowledge. Among them is web search, where knowing what a user is trying to accomplish, what they care about, and what they know can lead to improved search experiences. In this work, we propose a novel and general approach that augments an LLM with relevant context from users' interaction histories with a search engine in order to personalize its outputs. Specifically, we construct an entity-centric knowledge store for each user based on their search and browsing activities on the web, which is then leveraged to provide contextually relevant LLM prompt augmentations. This knowledge store is light-weight, since it only produces user-specific aggregate projections of interests and knowledge onto public knowledge graphs, and leverages existing search log infrastructure, thereby mitigating the privacy, compliance, and scalability concerns associated with building deep user profiles for personalization. We then validate our approach on the task of contextual query suggestion, which requires understanding not only the user's current search context but also what they historically know and care about. Through a number of experiments based on human evaluation, we show that our approach is significantly better than several other LLM-powered baselines, generating query suggestions that are contextually more relevant, personalized, and useful.
翻訳日:2023-11-14 19:12:17 公開日:2023-11-10
# 人事関連課題に対するスキル・オキュベーション・グラフ・コンテキストを用いた大規模言語モデルの蒸留

Distilling Large Language Models using Skill-Occupation Graph Context for HR-Related Tasks ( http://arxiv.org/abs/2311.06383v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour, Hayate Iso, Thom Lake, Nikita Bhutani, Estevam Hruschka(参考訳) 多くのhrアプリケーションは、履歴書とジョブ記述に集中している。 NLP、特に大きな言語モデルの進歩の恩恵を受けることができるが、実際の採用は、さまざまなHRタスクに対する包括的なベンチマークが欠如し、競争力のある小さなモデルがないため、課題に直面している。 本稿では,Resume-Job Description Benchmark (RJDB)を導入して,このギャップを埋めることを目的とする。 このベンチマークは、ジョブ記述への履歴書のマッチングや説明、履歴書からスキルや経験の抽出、履歴書の編集など、幅広い人事タスクに対応するために細心の注意を払っています。 このベンチマークを作成するために,大規模言語モデル(LLM)からドメイン固有知識を抽出する手法を提案する。 多様性の確保とLLM生成のコンテキスト提供のために、キュレートされたスキル占有グラフを頼りにしています。 私たちのベンチマークには、5万以上のジョブ記述、マッチした履歴書、マッチしない履歴書が含まれています。 RJDBを使用して、複数の小さな学生モデルを訓練する。 実験の結果,学生モデルは教師モデル(GPT-4)よりも近・近性能が得られ,ベンチマークの有効性が確認された。 さらに,スキル抽出と履歴書記述マッチングのための配布外データに対するRJDBの有用性を,ゼロショットと弱い監督方法で検討する。 私たちは、さらなる研究と産業アプリケーションを促進するためにデータセットとコードをリリースします。

Numerous HR applications are centered around resumes and job descriptions. While they can benefit from advancements in NLP, particularly large language models, their real-world adoption faces challenges due to absence of comprehensive benchmarks for various HR tasks, and lack of smaller models with competitive capabilities. In this paper, we aim to bridge this gap by introducing the Resume-Job Description Benchmark (RJDB). We meticulously craft this benchmark to cater to a wide array of HR tasks, including matching and explaining resumes to job descriptions, extracting skills and experiences from resumes, and editing resumes. To create this benchmark, we propose to distill domain-specific knowledge from a large language model (LLM). We rely on a curated skill-occupation graph to ensure diversity and provide context for LLMs generation. Our benchmark includes over 50 thousand triples of job descriptions, matched resumes and unmatched resumes. Using RJDB, we train multiple smaller student models. Our experiments reveal that the student models achieve near/better performance than the teacher model (GPT-4), affirming the effectiveness of the benchmark. Additionally, we explore the utility of RJDB on out-of-distribution data for skill extraction and resume-job description matching, in zero-shot and weak supervision manner. We release our datasets and code to foster further research and industry applications.
翻訳日:2023-11-14 19:01:52 公開日:2023-11-10
# 有限タスクデータに基づく構造化プルーニングの伝達学習

Transfer Learning for Structured Pruning under Limited Task Data ( http://arxiv.org/abs/2311.06382v1 )

ライセンス: Link先を確認
Lucio Dery, David Grangier and Awni Hannun(参考訳) 大規模で事前訓練されたモデルは、リソース制約のあるアプリケーションでの使用に問題がある。 幸いなことに、task-aware structured pruningメソッドはソリューションを提供する。 これらのアプローチは、エンドタスクを考慮した方法でレイヤやアテンションヘッドのような構造ユニットをドロップすることで、モデルサイズを低減する。 しかし、これらのプルーニングアルゴリズムは、通常よりもタスク固有のデータを必要とする。 タスク固有のデータの必要性を減らすために,構造的プルーニングと転送学習を組み合わせたフレームワークを提案する。 私たちの経験的な結果は,次のような質問に答えています。 どんなパラメータを転送すべきか? そして、トレーニング中の学習をいつ導入すべきか? これらの知見を生かして、我々のフレームワークは、強いベースラインに対する一般化を改善した刈り込みモデルをもたらすことを示した。

Large, pre-trained models are problematic to use in resource constrained applications. Fortunately, task-aware structured pruning methods offer a solution. These approaches reduce model size by dropping structural units like layers and attention heads in a manner that takes into account the end-task. However, these pruning algorithms require more task-specific data than is typically available. We propose a framework which combines structured pruning with transfer learning to reduce the need for task-specific data. Our empirical results answer questions such as: How should the two tasks be coupled? What parameters should be transferred? And, when during training should transfer learning be introduced? Leveraging these insights, we demonstrate that our framework results in pruned models with improved generalization over strong baselines.
翻訳日:2023-11-14 19:01:24 公開日:2023-11-10
# 非弾性構成型ニューラルネットワークの理論と実装

Theory and implementation of inelastic Constitutive Artificial Neural Networks ( http://arxiv.org/abs/2311.06380v1 )

ライセンス: Link先を確認
Hagen Holthusen and Lukas Lamm and Tim Brepols and Stefanie Reese and Ellen Kuhl(参考訳) 自然は常に物質の研究、設計、開発にインスピレーションを与えており、異方性と非弾性的な振る舞いを特徴づけるメカニズムを深く理解することを促してきました。 これらの知識はすべて熱力学の原理に蓄積されている。 これらの原理から導かれる乗法的分解と擬ポテンシャルとの組み合わせは強力で普遍的な概念である。 同時に、計算性能の大幅な向上により、歴史に依存した物質モデルを調べ再考し、予測を最大限に活用することができた。 今日、我々は材料とそのモデルがますます洗練されつつある点に到達しました。 複雑なデータを説明するために、すべての非弾性効果を含む最良のモデルをどのように見つけるのか? 構成的ニューラルネットワーク(CANN)はこの質問に答えることができる。 ここでは、CANNを非弾性材料(iCANN)に拡張する。 客観性、基準構成の剛性運動、乗法分解とその固有の非特異性、エネルギーと擬似ポテンシャルの制限、そして一貫した進化は、設計ごとに熱力学を満たすiCANNのアーキテクチャへと導く。 我々は、自由エネルギーと擬似ポテンシャルのフィードフォワードネットワークと、時間依存を考慮に入れた繰り返しニューラルネットワークアプローチを組み合わせる。 我々は,iCANNが人工的に生成したデータのモデル,循環負荷用ポリマーの応答,筋データの緩和挙動を自律的に発見できることを実証した。 ネットワークの設計は粘弾性に限らないので、iCANNがデータに隠された様々な非弾性現象を発見し、それらの相互作用を理解する新しい方法を明らかにするというビジョンです。 ソースコード、データ、サンプルはdoi.org/10.5281/zenodo.10066805で入手できる。

Nature has always been our inspiration in the research, design and development of materials and has driven us to gain a deep understanding of the mechanisms that characterize anisotropy and inelastic behavior. All this knowledge has been accumulated in the principles of thermodynamics. Deduced from these principles, the multiplicative decomposition combined with pseudo potentials are powerful and universal concepts. Simultaneously, the tremendous increase in computational performance enabled us to investigate and rethink our history-dependent material models to make the most of our predictions. Today, we have reached a point where materials and their models are becoming increasingly sophisticated. This raises the question: How do we find the best model that includes all inelastic effects to explain our complex data? Constitutive Artificial Neural Networks (CANN) may answer this question. Here, we extend the CANNs to inelastic materials (iCANN). Rigorous considerations of objectivity, rigid motion of the reference configuration, multiplicative decomposition and its inherent non-uniqueness, restrictions of energy and pseudo potential, and consistent evolution guide us towards the architecture of the iCANN satisfying thermodynamics per design. We combine feed-forward networks of the free energy and pseudo potential with a recurrent neural network approach to take time dependencies into account. We demonstrate that the iCANN is capable of autonomously discovering models for artificially generated data, the response of polymers for cyclic loading and the relaxation behavior of muscle data. As the design of the network is not limited to visco-elasticity, our vision is that the iCANN will reveal to us new ways to find the various inelastic phenomena hidden in the data and to understand their interaction. Our source code, data, and examples are available at doi.org/10.5281/zenodo.10066805
翻訳日:2023-11-14 19:01:12 公開日:2023-11-10
# DeMuX: データ効率のよい多言語学習

DeMuX: Data-efficient Multilingual Learning ( http://arxiv.org/abs/2311.06379v1 )

ライセンス: Link先を確認
Simran Khanuja, Srinivas Gowriraj, Lucio Dery, Graham Neubig(参考訳) 本研究では,事前学習された多言語モデルの最適調整作業について検討する。 本稿では,DEMUXについて述べる。DEMUXは,大量の重複しない多言語データをラベル付けするための,正確なデータポイントを規定するフレームワークで,ターゲットセットと重複する程度が未知である。 従来の作業とは異なり、エンドツーエンドのフレームワークは言語に依存しず、モデル表現のアカウントを持ち、多言語的なターゲット設定をサポートしています。 我々のアクティブな学習戦略は、モデルから最も有意義なタスク固有の隣人を選択するための距離と不確実性に頼っている。 DeMuXはテストケースの84%で強力なベースラインを上回り、3つのモデルと4つのタスクをまたいだ解離元とターゲット言語セット(多言語ターゲットプールを含む)のゼロショット設定で上回ります。 特に低予算設定(5-100例)では、トークンレベルのタスクでは最大8-11 f1ポイント、複雑なタスクでは2-5 f1の値が得られます。 私たちのコードはこちらでリリースされています。

We consider the task of optimally fine-tuning pre-trained multilingual models, given small amounts of unlabelled target data and an annotation budget. In this paper, we introduce DEMUX, a framework that prescribes the exact data-points to label from vast amounts of unlabelled multilingual data, having unknown degrees of overlap with the target set. Unlike most prior works, our end-to-end framework is language-agnostic, accounts for model representations, and supports multilingual target configurations. Our active learning strategies rely upon distance and uncertainty measures to select task-specific neighbors that are most informative to label, given a model. DeMuX outperforms strong baselines in 84% of the test cases, in the zero-shot setting of disjoint source and target language sets (including multilingual target pools), across three models and four tasks. Notably, in low-budget settings (5-100 examples), we observe gains of up to 8-11 F1 points for token-level tasks, and 2-5 F1 for complex tasks. Our code is released here: https://github.com/simran-khanuja/demux.
翻訳日:2023-11-14 19:00:44 公開日:2023-11-10
# GPT-Neo大言語モデルエミュレートコーパスにおけるヒープの法則

Heaps' Law in GPT-Neo Large Language Model Emulated Corpora ( http://arxiv.org/abs/2311.06377v1 )

ライセンス: Link先を確認
Uyen Lai, Gurjit S. Randhawa, Paul Sheridan(参考訳) ヒープの法則はテキスト解析における経験的関係であり、コーパスサイズの関数として語彙の成長を予測する。 この法律は、多種多様な人間によって書かれたテキストコーパスで検証されているが、大きな言語モデルが生成したテキストへの適用性は未調査のままである。 本研究では,GPT-Neo大言語モデルを用いたコーパスのエミュレーションに着目し,このギャップに対処する。 我々は,GPT-Neoモデルの3つのパラメータサイズを用いて,PubMed抽象体のコーパスをエミュレートした。 我々のエミュレーション戦略は、各PubMed抽象語の初期5単語をプロンプトとして使用し、元の抽象語長まで拡張するようにモデルに指示することであった。 得られたコーパスはHeapsの法則に従うことが示唆された。 興味深いことに、gpt-neoモデルのサイズが大きくなるにつれて、生成された語彙は、人間の著作で見られるようにヒープの法則に固執するようになった。 gpt-neo出力の豊かさと信頼性をさらに向上させるため、将来のイテレーションでは、モデルサイズの向上や、語彙反復を短縮するためのモデルアーキテクチャの改良が強調される。

Heaps' law is an empirical relation in text analysis that predicts vocabulary growth as a function of corpus size. While this law has been validated in diverse human-authored text corpora, its applicability to large language model generated text remains unexplored. This study addresses this gap, focusing on the emulation of corpora using the suite of GPT-Neo large language models. To conduct our investigation, we emulated corpora of PubMed abstracts using three different parameter sizes of the GPT-Neo model. Our emulation strategy involved using the initial five words of each PubMed abstract as a prompt and instructing the model to expand the content up to the original abstract's length. Our findings indicate that the generated corpora adhere to Heaps' law. Interestingly, as the GPT-Neo model size grows, its generated vocabulary increasingly adheres to Heaps' law as as observed in human-authored text. To further improve the richness and authenticity of GPT-Neo outputs, future iterations could emphasize enhancing model size or refining the model architecture to curtail vocabulary repetition.
翻訳日:2023-11-14 19:00:24 公開日:2023-11-10
# トポロジ的特徴とニューラルネットワークを組み合わせた画像分類

Image Classification using Combination of Topological Features and Neural Networks ( http://arxiv.org/abs/2311.06375v1 )

ライセンス: Link先を確認
Mariana D\'oria Prata Lima, Gilson Antonio Giraldi, Gast\~ao Flor\^encio Miranda Junior(参考訳) 本研究では、トポロジデータ解析(TDA)手法である永続ホモロジー法を用いて、データ空間から重要なトポロジ的特徴を抽出し、それらを分類タスクのためのディープラーニング的特徴と組み合わせる。 TDAでは、錯体と濾過の概念はビルディングブロックである。 まず、濾過はいくつかの複合体から構築される。 そして、永続ホモロジークラスを計算し、そのフィルターに沿った進化を永続図を通して可視化する。 さらに、このトポロジ情報を機械学習アルゴリズムと互換性を持たせるために、ベクトル化手法を永続化ダイアグラムに適用した。 これはmnistデータセットの複数のクラスからイメージを分類することを目的として行われた。 提案手法は,MNISTデータセットのマルチクラス分類のための多層パーセプトロン (MLP) と畳み込み神経ネットワーク (CNN) に基づく,単列および二列ニューラルネットワークアーキテクチャによる深層学習手法にトポロジ的特徴を挿入する。 分析では、得られた結果をTensorFlowライブラリで利用可能なベースラインによって達成された結果と比較した。 主な結論は、トポロジ的情報は、永続的ホモロジー計算の計算複雑性の価格で、多クラス分類タスクにおけるニューラルネットワークの精度を高める可能性があるということである。 私たちの知る限りでは、深層学習機能と多クラス分類タスクのためのトポロジ的特徴の組み合わせを組み合わせた最初の作品です。

In this work we use the persistent homology method, a technique in topological data analysis (TDA), to extract essential topological features from the data space and combine them with deep learning features for classification tasks. In TDA, the concepts of complexes and filtration are building blocks. Firstly, a filtration is constructed from some complex. Then, persistent homology classes are computed, and their evolution along the filtration is visualized through the persistence diagram. Additionally, we applied vectorization techniques to the persistence diagram to make this topological information compatible with machine learning algorithms. This was carried out with the aim of classifying images from multiple classes in the MNIST dataset. Our approach inserts topological features into deep learning approaches composed by single and two-streams neural networks architectures based on a multi-layer perceptron (MLP) and a convolutional neral network (CNN) taylored for multi-class classification in the MNIST dataset. In our analysis, we evaluated the obtained results and compared them with the outcomes achieved through the baselines that are available in the TensorFlow library. The main conclusion is that topological information may increase neural network accuracy in multi-class classification tasks with the price of computational complexity of persistent homology calculation. Up to the best of our knowledge, it is the first work that combines deep learning features and the combination of topological features for multi-class classification tasks.
翻訳日:2023-11-14 19:00:02 公開日:2023-11-10
# イテレーション当たりの多項式処理による高次ニュートン法

Higher-Order Newton Methods with Polynomial Work per Iteration ( http://arxiv.org/abs/2311.06374v1 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Abraar Chaudhry, Jeffrey Zhang(参考訳) 任意の次数 $d$ の微分を組み込んだニュートン法を一般化するが、反復あたりのコストの次元に対する多項式依存性は維持する。 それぞれのステップにおいて、我々の$d^{\text{th}}$-orderメソッドは半定値プログラミングを用いて、最小化したい関数の$d^{\text{th}}$-order taylor展開に対する平方凸近似の和を構成および最小化する。 我々は、$d^{\text{th}}$-orderメソッドが$d$の局所収束を持つことを証明します。 この結果、古典的なニュートン法に比べてオラクルの複雑さは低い。 数値的な例では、ローカルミニマ周辺のアトラクションの盆地は$d$の増加とともに大きくなる。 追加の仮定の下で、修正されたアルゴリズムを再び1イテレーションあたりの多項式コストで示し、これはグローバルに収束し、順序 $d$ の局所収束を持つ。

We present generalizations of Newton's method that incorporate derivatives of an arbitrary order $d$ but maintain a polynomial dependence on dimension in their cost per iteration. At each step, our $d^{\text{th}}$-order method uses semidefinite programming to construct and minimize a sum of squares-convex approximation to the $d^{\text{th}}$-order Taylor expansion of the function we wish to minimize. We prove that our $d^{\text{th}}$-order method has local convergence of order $d$. This results in lower oracle complexity compared to the classical Newton method. We show on numerical examples that basins of attraction around local minima can get larger as $d$ increases. Under additional assumptions, we present a modified algorithm, again with polynomial cost per iteration, which is globally convergent and has local convergence of order $d$.
翻訳日:2023-11-14 18:59:38 公開日:2023-11-10
# ブロックチェーンによるベクトルネットワークのフェデレーション学習手法

Blockchain-Enabled Federated Learning Approach for Vehicular Networks ( http://arxiv.org/abs/2311.06372v1 )

ライセンス: Link先を確認
Shirin Sultana, Jahin Hossain, Maruf Billah, Hasibul Hossain Shajeeb, Saifur Rahman, Keyvan Ansari, Khondokar Fida Hasan(参考訳) 相互接続された車両のデータには、位置、運転行動、個人識別などの機密情報が含まれる。 適切な保護がなければ、データの共有はデータのプライバシーとシステムのセキュリティを脅かす。 これらのシステムにおける現在の集中型データ共有パラダイムは、データプライバシに関する特に懸念を提起する。 これらの課題を認識し、産業5.0の原則に類似した技術における分散的相互作用への移行が最重要である。 この研究はこれらの原則と密接に一致しており、相互接続された車両エコシステムにおける分散化、人間中心、そして安全な技術相互作用を強調している。 これを具体化するために、フェデレーション学習(fl)とブロックチェーンという2つの新興技術を統合する実践的アプローチを提案する。 これらの技術の統合により、分散された車両網が構築される。 この設定では、車両はプライバシーを損なうことなく互いに学習でき、データの完全性と説明責任を保証できる。 最初の実験では,従来の分散連合学習手法と比較して,提案手法は車載ネットワークの性能と安全性を大幅に向上させることが示された。 システムの精度は91.92\%である。 これは、最先端のフェデレーション学習モデルと比べて低いように見えるかもしれないが、他のモデルと異なり、悪意のある車両設定で達成されたため、我々の研究は注目に値する。 難しい環境にもかかわらず、この手法は高い精度を保ち、車載ネットワークにおけるデータのプライバシを保護するための優れたソリューションとなる。

Data from interconnected vehicles may contain sensitive information such as location, driving behavior, personal identifiers, etc. Without adequate safeguards, sharing this data jeopardizes data privacy and system security. The current centralized data-sharing paradigm in these systems raises particular concerns about data privacy. Recognizing these challenges, the shift towards decentralized interactions in technology, as echoed by the principles of Industry 5.0, becomes paramount. This work is closely aligned with these principles, emphasizing decentralized, human-centric, and secure technological interactions in an interconnected vehicular ecosystem. To embody this, we propose a practical approach that merges two emerging technologies: Federated Learning (FL) and Blockchain. The integration of these technologies enables the creation of a decentralized vehicular network. In this setting, vehicles can learn from each other without compromising privacy while also ensuring data integrity and accountability. Initial experiments show that compared to conventional decentralized federated learning techniques, our proposed approach significantly enhances the performance and security of vehicular networks. The system's accuracy stands at 91.92\%. While this may appear to be low in comparison to state-of-the-art federated learning models, our work is noteworthy because, unlike others, it was achieved in a malicious vehicle setting. Despite the challenging environment, our method maintains high accuracy, making it a competent solution for preserving data privacy in vehicular networks.
翻訳日:2023-11-14 18:59:22 公開日:2023-11-10
# 未調査生物医学領域における関係抽出:多様性最適化サンプリングと合成データ生成アプローチ

Relation Extraction in underexplored biomedical domains: A diversity-optimised sampling and synthetic data generation approach ( http://arxiv.org/abs/2311.06364v1 )

ライセンス: Link先を確認
Maxime Delmas, Magdalena Wysocka, Andr\'e Freitas(参考訳) ラベル付きデータの空間性は、関係抽出モデルの開発と様々な生体医学領域におけるデータベースの完成の障害となる。 薬物の発見に高い関心を持っている一方で、生物から潜在的な生理活性化合物の同定を報告した天然物文献は、見過ごされた話題の具体例である。 この新たなタスクの開始を示すために、最初のキュレートされた評価データセットを作成し、LOTUSデータベースから文献項目を抽出し、トレーニングセットを構築した。 そこで我々は,Greedy Maximum Entropy sampler(GME-sampler,https://github.com/idiap/gme-sampler)という,生態学における多様性指標にインスパイアされた新しいサンプルを開発した。 評価セットにおける選択された項目のバランスと多様性の戦略的最適化は,手動キュレーションの資源集約的性質を考える上で重要である。 学習セットのノイズを定量化した後,入力要約テキストと期待出力ラベルとの差異の形で,異なる戦略を検討した。 タスクをエンドツーエンドの関係抽出として評価し,オープンなLarge Language Models (LLaMA 7B-65B) を用いた生成タスクとして,標準微調整の性能を評価した。 少数の設定での評価に加えて,合成データジェネレータとしてのオープン大規模言語モデル (vicuna-13b) の可能性について検討し,この目的のために新たなワークフローを提案する。 評価されたすべてのモデルは、元のノイズデータよりも合成抽象学を微調整した場合に大幅に改善された。 生成したすべての合成データと評価データセットと共に、製品間関係をエンドツーエンドで再現するための最高のパフォーマンス(f1-score=59.0)バイオgpt大モデルを提供する。 詳細はhttps://github.com/idiap/abroad-reを参照。

The sparsity of labelled data is an obstacle to the development of Relation Extraction models and the completion of databases in various biomedical areas. While being of high interest in drug-discovery, the natural-products literature, reporting the identification of potential bioactive compounds from organisms, is a concrete example of such an overlooked topic. To mark the start of this new task, we created the first curated evaluation dataset and extracted literature items from the LOTUS database to build training sets. To this end, we developed a new sampler inspired by diversity metrics in ecology, named Greedy Maximum Entropy sampler, or GME-sampler (https://github.com/idiap/gme-sampler). The strategic optimization of both balance and diversity of the selected items in the evaluation set is important given the resource-intensive nature of manual curation. After quantifying the noise in the training set, in the form of discrepancies between the input abstracts text and the expected output labels, we explored different strategies accordingly. Framing the task as an end-to-end Relation Extraction, we evaluated the performance of standard fine-tuning as a generative task and few-shot learning with open Large Language Models (LLaMA 7B-65B). In addition to their evaluation in few-shot settings, we explore the potential of open Large Language Models (Vicuna-13B) as synthetic data generator and propose a new workflow for this purpose. All evaluated models exhibited substantial improvements when fine-tuned on synthetic abstracts rather than the original noisy data. We provide our best performing (f1-score=59.0) BioGPT-Large model for end-to-end RE of natural-products relationships along with all the generated synthetic data and the evaluation dataset. See more details at https://github.com/idiap/abroad-re.
翻訳日:2023-11-14 18:59:01 公開日:2023-11-10
# 大規模言語モデルからの単語定義

Word Definitions from Large Language Models ( http://arxiv.org/abs/2311.06362v1 )

ライセンス: Link先を確認
Yunting Yin and Steven Skiena(参考訳) 辞書の定義は歴史的に言葉の意味の仲裁者だったが、近年のNLPの進歩により、単語の埋め込みやChatGPTのような生成モデルを含む脅威にさらされている。 本稿では,古典辞書からの単語定義と,これらの新しい計算成果物とのアライメントの程度に関する探索的研究を行う。 具体的には、3つの公開辞書の定義をChatGPTの変種から生成されたものと比較する。 私たちはそれを示します (i)異なる伝統的な辞書の定義は、モデル生成の定義よりも表面形態の類似性が高い。 (ii)chatgptの定義が従来の辞書に匹敵する精度が高いこと、及び 三 チャットGPTに基づく埋め込み定義は、GloVE や FastText よりもはるかに優れた低周波語でも精度を保っている。

Dictionary definitions are historically the arbitrator of what words mean, but this primacy has come under threat by recent progress in NLP, including word embeddings and generative models like ChatGPT. We present an exploratory study of the degree of alignment between word definitions from classical dictionaries and these newer computational artifacts. Specifically, we compare definitions from three published dictionaries to those generated from variants of ChatGPT. We show that (i) definitions from different traditional dictionaries exhibit more surface form similarity than do model-generated definitions, (ii) that the ChatGPT definitions are highly accurate, comparable to traditional dictionaries, and (iii) ChatGPT-based embedding definitions retain their accuracy even on low frequency words, much better than GloVE and FastText word embeddings.
翻訳日:2023-11-14 18:58:25 公開日:2023-11-10
# CALLOC: セキュアでロバストな屋内ローカライゼーションのためのカリキュラム逆学習

CALLOC: Curriculum Adversarial Learning for Secure and Robust Indoor Localization ( http://arxiv.org/abs/2311.06361v1 )

ライセンス: Link先を確認
Danish Gufran, Sudeep Pasricha(参考訳) 屋内のローカライゼーションは、資産の追跡からパーソナライズされたサービスの提供まで、多くのアプリケーションにとってますます重要になっている。 しかし、ピンポイント精度を達成することは、屋内環境や局所化に使用されるデバイスによって異なるため、依然として課題である。 もう一つの新たな課題は、サービス整合性を脅かすだけでなく、ローカライズ精度を低下させる屋内ローカライズシステムに対する敵意攻撃である。 これらの課題に対処するために,システム精度と信頼性を低下させる屋内環境や機器の敵攻撃や変動に抵抗する新しいフレームワークであるCALLOCを紹介した。 CALLOCは、リソース制約のあるモバイルデバイスの実用的なユースケースにおいて、対角的および変動性の回復性に適した、ドメイン固有の軽量なスケールドドット製品アテンションニューラルネットワークを備えた、適応型カリキュラム学習アプローチを採用している。 CALLOCは、さまざまなビルディングフロアプラン、モバイルデバイス、敵攻撃シナリオにまたがる最先端の屋内ローカライゼーションフレームワークに対して、平均エラーが6.03倍、最悪のケースエラーが4.6倍まで改善できることを示した。

Indoor localization has become increasingly vital for many applications from tracking assets to delivering personalized services. Yet, achieving pinpoint accuracy remains a challenge due to variations across indoor environments and devices used to assist with localization. Another emerging challenge is adversarial attacks on indoor localization systems that not only threaten service integrity but also reduce localization accuracy. To combat these challenges, we introduce CALLOC, a novel framework designed to resist adversarial attacks and variations across indoor environments and devices that reduce system accuracy and reliability. CALLOC employs a novel adaptive curriculum learning approach with a domain specific lightweight scaled-dot product attention neural network, tailored for adversarial and variation resilience in practical use cases with resource constrained mobile devices. Experimental evaluations demonstrate that CALLOC can achieve improvements of up to 6.03x in mean error and 4.6x in worst-case error against state-of-the-art indoor localization frameworks, across diverse building floorplans, mobile devices, and adversarial attacks scenarios.
翻訳日:2023-11-14 18:58:13 公開日:2023-11-10
# コンパクト行列量子群同変ニューラルネットワーク

Compact Matrix Quantum Group Equivariant Neural Networks ( http://arxiv.org/abs/2311.06358v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 我々は、基礎となる量子対称性を持つデータから学習するコンパクトマトリクス量子群同変ニューラルネットワークと呼ばれる新しいタイプのニューラルネットワークの存在を導出する。 容易にコンパクトな行列量子群に対してこれらのニューラルネットワークに現れる重み行列を特徴付けるために、WoronowiczのTannaka-Krein双対性の定式化を適用する。 コンパクト行列量子群同変ニューラルネットワークは、サブクラスとして、すべてのコンパクト行列群同変ニューラルネットワークを含むことを示す。 さらに,機械学習文献にはこれまで現れなかった多くのコンパクト行列群同変ニューラルネットワークの重み行列の特徴付けについても述べる。

We derive the existence of a new type of neural network, called a compact matrix quantum group equivariant neural network, that learns from data that has an underlying quantum symmetry. We apply the Woronowicz formulation of Tannaka-Krein duality to characterise the weight matrices that appear in these neural networks for any easy compact matrix quantum group. We show that compact matrix quantum group equivariant neural networks contain, as a subclass, all compact matrix group equivariant neural networks. Moreover, we obtain characterisations of the weight matrices for many compact matrix group equivariant neural networks that have not previously appeared in the machine learning literature.
翻訳日:2023-11-14 18:57:53 公開日:2023-11-10
# 量子ハイパーグラフの準同型

Homomorphisms of quantum hypergraphs ( http://arxiv.org/abs/2311.06355v1 )

ライセンス: Link先を確認
Gage Hoefer, Ivan G. Todorov(参考訳) 我々は量子超グラフ間の量子準同型を、量子非局所ゲームに対する完全戦略の存在を通じて導入する。 与えられたタイプの準同型の関係は、前順序の性質の自然な類似性を満たすことを示す。 局所型の量子ハイパーグラフ準同型は密接な関係を示し、場合によっては有限次元作用作用素空間のTRO同値と、正則にハイパーグラフに関連があることが示される。

We introduce quantum homomorphisms between quantum hypergraphs through the existence of perfect strategies for quantum non-local games, canonically associated with the quantum hypergraphs. We show that the relation of homomorphism of a given type satisfies natural analogues of the properties of a pre-order. We show that quantum hypergraph homomorphisms of local type are closely related, and in some cases identical, to the TRO equivalence of finite dimensionally acting operator spaces, canonically associated with the hypergraphs.
翻訳日:2023-11-14 18:57:40 公開日:2023-11-10
# 単一電子制御のための非一様磁場

Non-Uniform Magnetic Fields for Single-Electron Control ( http://arxiv.org/abs/2311.06354v1 )

ライセンス: Link先を確認
Mauro Ballicchia, Clemens Etl, Mihail Nedjalkov, Josef Weinbub(参考訳) 電子量子光学の進歩により、単一電子状態の制御がますます重要になる。 単一電子制御は、個々の電子のコヒーレントな操作と電子の波の性質を利用する能力を可能にし、量子情報処理、センシング、メトロロジーの様々な機会を提供する。 単一電子制御のための新しい自由度を提供するユニークな機会は、非一様磁場を考えるときに与えられる。 モデリングの観点から、従来の電子量子輸送理論はゲージ依存の電磁ポテンシャルに基づいている。 したがって、直感的な電磁場による直接定式化は不可能である。 これを修正するため、一般電磁場に対するウィグナー方程式のゲージ不変な定式化が (Nedjalkov et al., Phys. Rev. B., 2019, 99, 014423] で提案されている。 しかし、この方程式の複雑さは、線形電磁場のより便利な定式化(Nedjalkov et al., Phys. A., 2022, 106, 052213]を導出する必要がある。 この定式化は、ローレンツ力の古典的な定式化と、磁場の小さな変動に対して無視される磁場勾配に依存する高次項を含む。 本研究では、一般の非一様電界と線形の非一様磁場を含むために、この方程式を一般化する。 このように得られた定式化は、軌道、干渉パターン、分散の観点から単電子状態を制御する線形非一様磁場の能力を調べるために応用されている。 これにより、蛇の軌跡に基づく電子導波路内の新しいタイプの輸送方法の探求と、エッジ状態を実現するために波束を分割する可能性の探求につながった。

Controlling single-electron states becomes increasingly important due to the wide-ranging advances in electron quantum optics. Single-electron control enables coherent manipulation of individual electrons and the ability to exploit the wave nature of electrons, which offers various opportunities for quantum information processing, sensing, and metrology. A unique opportunity offering new degrees of freedom for single-electron control is provided when considering non-uniform magnetic fields. Considering the modeling perspective, conventional electron quantum transport theories are commonly based on gauge-dependent electromagnetic potentials. A direct formulation in terms of intuitive electromagnetic fields is thus not possible. In an effort to rectify this, a gauge-invariant formulation of the Wigner equation for general electromagnetic fields has been proposed in [Nedjalkov et al., Phys. Rev. B., 2019, 99, 014423]. However, the complexity of this equation requires to derive a more convenient formulation for linear electromagnetic fields [Nedjalkov et al., Phys. Rev. A., 2022, 106, 052213]. This formulation directly includes the classical formulation of the Lorentz force and higher-order terms depending on the magnetic field gradient, that are negligible for small variations of the magnetic field. In this work, we generalize this equation in order to include a general, non-uniform electric field and a linear, non-uniform magnetic field. The thus obtained formulation has been applied to investigate the capabilities of a linear, non-uniform magnetic field to control single-electron states in terms of trajectory, interference patterns, and dispersion. This has led to explore a new type of transport inside electronic waveguides based on snake trajectories and also to explore the possibility to split wavepackets to realize edge states.
翻訳日:2023-11-14 18:57:31 公開日:2023-11-10
# オープンソース言語における予測不確かさを推定できないChatGPTプロンプト

ChatGPT Prompting Cannot Estimate Predictive Uncertainty in High-Resource Languages ( http://arxiv.org/abs/2311.06427v1 )

ライセンス: Link先を確認
Martino Pelucchi and Matias Valdenegro-Toro(参考訳) ChatGPTは素晴らしい能力で世界を席巻した。 ドキュメントのないリリースのため、科学者はすぐに、自然言語処理(NLP)タスクのパフォーマンスを通じて、その限界を特定しようとした。 本稿では,ChatGPTの高リソース言語における性能と,信頼度を付与して回答の正確性を予測する能力に着目して,ChatGPTの能力に関する文献の増大に寄与することを目的とする。 高リソース言語の分析は、NLPタスクにおいて低リソース言語が英語よりも悪い性能を示すことを示す研究として興味深いが、高リソース言語が英語と同等に機能するかどうかをこれまでの研究では分析していない。 ChatGPTの信頼性キャリブレーションの分析は以前も行われておらず、ChatGPTの信頼性について学ぶことが重要である。 これら2つの側面を研究するため、5つの高リソース言語と2つのNLPタスクが選択された。 chatgptは5つの言語で両方のタスクを実行し、各回答に数値的な信頼度を与えるように求められた。 その結果、選択された高リソース言語はすべて同じように動作し、chatgptは信頼度校正が不十分であり、信頼度が過度に高く、信頼度が低くないことが判明した。

ChatGPT took the world by storm for its impressive abilities. Due to its release without documentation, scientists immediately attempted to identify its limits, mainly through its performance in natural language processing (NLP) tasks. This paper aims to join the growing literature regarding ChatGPT's abilities by focusing on its performance in high-resource languages and on its capacity to predict its answers' accuracy by giving a confidence level. The analysis of high-resource languages is of interest as studies have shown that low-resource languages perform worse than English in NLP tasks, but no study so far has analysed whether high-resource languages perform as well as English. The analysis of ChatGPT's confidence calibration has not been carried out before either and is critical to learn about ChatGPT's trustworthiness. In order to study these two aspects, five high-resource languages and two NLP tasks were chosen. ChatGPT was asked to perform both tasks in the five languages and to give a numerical confidence value for each answer. The results show that all the selected high-resource languages perform similarly and that ChatGPT does not have a good confidence calibration, often being overconfident and never giving low confidence values.
翻訳日:2023-11-14 18:49:17 公開日:2023-11-10
# 平坦性を考慮した敵攻撃

Flatness-aware Adversarial Attack ( http://arxiv.org/abs/2311.06423v1 )

ライセンス: Link先を確認
Mingyuan Fan, Xiaodan Li, Cen Chen, Yinggui Wang(参考訳) 敵の例の転送可能性を利用してブラックボックス攻撃を起動することができる。 しかし、逆の例は、しばしばトランスファービリティが劣る。 この問題を緩和するために、入力の多様性が転送性を高めることを観察することにより、複数の変換入力を組み合わせることで逆行例を作成する入力正規化に基づく手法が提案されている。 入力正規化に基づく手法は,結果の逆例を平坦な極端領域に偏らせる。 そこで本研究では,フラットネス・アウェア・逆境攻撃(FAA)と呼ばれる攻撃を,最適化対象にフラットネス・アウェア・正則化項を明示的に付加し,その結果をフラット極端領域に向けて促進する手法を提案する。 平坦性対応正規化項は、結果の逆例の周りのサンプルの勾配を含むが、最適化勾配は一般に難解な高次元空間におけるヘッセン行列の評価を必要とする。 この問題に対処するため、ヘッセン行列の構築を回避し、FAAを実用的かつ安価にするための近似解を導出する。 広範な実験により、faaが作成した敵のサンプルの移動性は最先端のベースラインと比較して大幅に向上することが示された。

The transferability of adversarial examples can be exploited to launch black-box attacks. However, adversarial examples often present poor transferability. To alleviate this issue, by observing that the diversity of inputs can boost transferability, input regularization based methods are proposed, which craft adversarial examples by combining several transformed inputs. We reveal that input regularization based methods make resultant adversarial examples biased towards flat extreme regions. Inspired by this, we propose an attack called flatness-aware adversarial attack (FAA) which explicitly adds a flatness-aware regularization term in the optimization target to promote the resultant adversarial examples towards flat extreme regions. The flatness-aware regularization term involves gradients of samples around the resultant adversarial examples but optimizing gradients requires the evaluation of Hessian matrix in high-dimension spaces which generally is intractable. To address the problem, we derive an approximate solution to circumvent the construction of Hessian matrix, thereby making FAA practical and cheap. Extensive experiments show the transferability of adversarial examples crafted by FAA can be considerably boosted compared with state-of-the-art baselines.
翻訳日:2023-11-14 18:48:55 公開日:2023-11-10
# ハエの不確実性の解消--適応運転行動をアクティブ推論としてモデル化する

Resolving uncertainty on the fly: Modeling adaptive driving behavior as active inference ( http://arxiv.org/abs/2311.06417v1 )

ライセンス: Link先を確認
Johan Engstr\"om, Ran Wei, Anthony McDonald, Alfredo Garcia, Matt O'Kelly and Leif Johnson(参考訳) 適応型人間の運転行動、特にドライバーの不確実性を管理する方法を理解することは、自動運転車の評価と開発に使用できるシミュレーションされた人間の運転モデルを開発する上で重要な意味を持つ。 しかしながら、適応運転行動の既存の交通心理学モデルは計算の厳密さを欠いているか、特定のシナリオや行動現象のみに対処している。 機械学習とロボット工学の分野で開発されたモデルは、ブラックボックスの性質からデータから適応的運転行動を効果的に学習することができるが、適応的行動の基礎となるメカニズムについてはほとんど、あるいは全く説明できない。 したがって、適応的な人間の運転行動の一般化、解釈可能な計算モデルはまだ不足している。 本稿では,計算神経科学を起源とする行動モデリングフレームワークである能動推論に基づくモデルを提案する。 このモデルは、予測された自由エネルギーを最小限に抑えるための単一の義務に基づいた政策選択を通じて、人間が注意からどのように進歩するかを原則的に解決する。 これにより、単一の目的関数の下でゴール探索と情報探索(不確実性解決)の振る舞いをキャストし、モデルがその目標を得る手段として不確実性をシームレスに解決することができる。 本研究では,1)隠蔽物体を通り過ぎ,(2)運転と二次作業の間の視覚的時間的共有,そして,期待される自由エネルギー最小化の単一原理から人間のような適応運転行動がどのように現われるかを示す2つの異なる運転シナリオに適用する。

Understanding adaptive human driving behavior, in particular how drivers manage uncertainty, is of key importance for developing simulated human driver models that can be used in the evaluation and development of autonomous vehicles. However, existing traffic psychology models of adaptive driving behavior either lack computational rigor or only address specific scenarios and/or behavioral phenomena. While models developed in the fields of machine learning and robotics can effectively learn adaptive driving behavior from data, due to their black box nature, they offer little or no explanation of the mechanisms underlying the adaptive behavior. Thus, a generalizable, interpretable, computational model of adaptive human driving behavior is still lacking. This paper proposes such a model based on active inference, a behavioral modeling framework originating in computational neuroscience. The model offers a principled solution to how humans trade progress against caution through policy selection based on the single mandate to minimize expected free energy. This casts goal-seeking and information-seeking (uncertainty-resolving) behavior under a single objective function, allowing the model to seamlessly resolve uncertainty as a means to obtain its goals. We apply the model in two apparently disparate driving scenarios that require managing uncertainty, (1) driving past an occluding object and (2) visual time sharing between driving and a secondary task, and show how human-like adaptive driving behavior emerges from the single principle of expected free energy minimization.
翻訳日:2023-11-14 18:48:36 公開日:2023-11-10
# 知識グラフは平等ではない:実kgの性質と構造を探索する

Knowledge Graphs are not Created Equal: Exploring the Properties and Structure of Real KGs ( http://arxiv.org/abs/2311.06414v1 )

ライセンス: Link先を確認
Nedelina Teneva and Estevam Hruschka(参考訳) 近年、知識グラフ(KG)関連のタスクやベンチマーク(KG埋め込み、リンク予測、エンティティアライメント、事前訓練された言語モデルの推論能力の評価など)が人気となっているが、実際のKGの構造と性質はよく研究されていない。 本稿では,自然科学,医学,nlpなどの多様な分野の29種類の実kgデータセットを大規模比較研究し,その特性と構造パターンを分析した。 そこで本研究では,KGに基づくモデル開発と評価について,いくつかの推奨事項について述べる。 kgに含まれる豊富な構造情報は、分野をまたがる優れたkgモデルの開発に有用であると信じており、この研究が、さまざまな研究領域(例えば、ml、nlp、科学のためのai)間で既存のデータサイロを壊すのに役立つことを期待している。

Despite the recent popularity of knowledge graph (KG) related tasks and benchmarks such as KG embeddings, link prediction, entity alignment and evaluation of the reasoning abilities of pretrained language models as KGs, the structure and properties of real KGs are not well studied. In this paper, we perform a large scale comparative study of 29 real KG datasets from diverse domains such as the natural sciences, medicine, and NLP to analyze their properties and structural patterns. Based on our findings, we make several recommendations regarding KG-based model development and evaluation. We believe that the rich structural information contained in KGs can benefit the development of better KG models across fields and we hope this study will contribute to breaking the existing data silos between different areas of research (e.g., ML, NLP, AI for sciences).
翻訳日:2023-11-14 18:48:10 公開日:2023-11-10
# forte: 信頼提供型ネット負荷予測のためのインタラクティブなビジュアル分析ツール

Forte: An Interactive Visual Analytic Tool for Trust-Augmented Net Load Forecasting ( http://arxiv.org/abs/2311.06413v1 )

ライセンス: Link先を確認
Kaustav Bhattacharjee, Soumya Kundu, Indrasis Chakraborty and Aritra Dasgupta(参考訳) 正確な純負荷予測はエネルギー計画に不可欠であり、貿易と負荷分布の決定を支援する。 しかし、特にモデル結果に対する高い信頼度を引き出すため、様々な入力変数(温度や湿度など)で予測モデルの性能を評価することは困難である。 この文脈では、科学者がノイズとクリーンな入力変数の両方に対してモデルがどのように反応するかを理解するのを助けるために、データ駆動の技術介入の必要性が高まっている。 本稿では,様々な入力変数にまたがる深い確率的ネット負荷予測モデルを探索し,異なるシナリオにおけるエラー率を理解するための,視覚解析に基づくアプリケーションForteを提案する。 慎重に設計された視覚的介入により、このWebベースのインターフェースは、様々なシナリオをシミュレートし、情報的な意思決定プロセスを促進することによって、モデルパフォーマンスに関する洞察を引き出すことができる。 本研究では,気象入力と純負荷予測の相関関係を可視化する手法の有効性を検証し,予測モデルの信頼度を向上させることによってグリッド能力の究極的向上を図る。

Accurate net load forecasting is vital for energy planning, aiding decisions on trade and load distribution. However, assessing the performance of forecasting models across diverse input variables, like temperature and humidity, remains challenging, particularly for eliciting a high degree of trust in the model outcomes. In this context, there is a growing need for data-driven technological interventions to aid scientists in comprehending how models react to both noisy and clean input variables, thus shedding light on complex behaviors and fostering confidence in the outcomes. In this paper, we present Forte, a visual analytics-based application to explore deep probabilistic net load forecasting models across various input variables and understand the error rates for different scenarios. With carefully designed visual interventions, this web-based interface empowers scientists to derive insights about model performance by simulating diverse scenarios, facilitating an informed decision-making process. We discuss observations made using Forte and demonstrate the effectiveness of visualization techniques to provide valuable insights into the correlation between weather inputs and net load forecasts, ultimately advancing grid capabilities by improving trust in forecasting models.
翻訳日:2023-11-14 18:47:53 公開日:2023-11-10
# e値を用いたオンライン多重テスト

Online multiple testing with e-values ( http://arxiv.org/abs/2311.06412v1 )

ライセンス: Link先を確認
Ziyu Xu, Aaditya Ramdas(参考訳) 科学者は、調査の過程で連続した仮説のストリームをテストする。彼女は所定の数の仮説をテストしていない。科学者は、偽の発見数の制御を確実にしつつ、可能な限り多くの発見を行おうとしている。これは、偽の発見率(FDR)を制御することである。 オンライン設定におけるFDR制御の以前の方法は、各仮説のテスト統計の間に特定の依存構造が存在すると仮定した場合に、アルゴリズムの定式化に焦点を当てていた。 しかし、実際には、これらの依存関係を事前に知ることも、その後にテストすることもできないことが多い。 我々のアルゴリズムであるe-LONDは、任意の未知のFDR制御を提供する。 シミュレーションにより,本手法は既存の手法よりも強力であることを示す。 また、このアルゴリズムの拡張を定式化し、ランダム化をパワー増加に利用し、オンライン選択推論における信頼区間を構築する。

A scientist tests a continuous stream of hypotheses over time in the course of her investigation -- she does not test a predetermined, fixed number of hypotheses. The scientist wishes to make as many discoveries as possible while ensuring the number of false discoveries is controlled -- a well recognized way for accomplishing this is to control the false discovery rate (FDR). Prior methods for FDR control in the online setting have focused on formulating algorithms when specific dependency structures are assumed to exist between the test statistics of each hypothesis. However, in practice, these dependencies often cannot be known beforehand or tested after the fact. Our algorithm, e-LOND, provides FDR control under arbitrary, possibly unknown, dependence. We show that our method is more powerful than existing approaches to this problem through simulations. We also formulate extensions of this algorithm to utilize randomization for increased power, and for constructing confidence intervals in online selective inference.
翻訳日:2023-11-14 18:47:33 公開日:2023-11-10
# 視覚的質問分解のためのモジュラーアプローチの解析

Analyzing Modular Approaches for Visual Question Decomposition ( http://arxiv.org/abs/2311.06411v1 )

ライセンス: Link先を確認
Apoorv Khandelwal, Ellie Pavlick, Chen Sun(参考訳) 追加のトレーニングのないモジュール型ニューラルネットワークは、視覚言語課題においてエンドツーエンドのニューラルネットワークを上回っていることが最近示されている。 最新の手法では、LLMベースのコード生成を同時に導入し、プログラムをビルドし、それを実行するためのスキル固有のタスク指向モジュールをいくつか導入している。 本稿では, ViperGPT に焦点をあて,その追加性能がどこから来たのか,また,それが仮定する (最先端,エンドツーエンド) BLIP-2 モデルと,追加の記号的コンポーネントとの違いがどの程度なのかを問う。 そのために、制御された研究(複数のVQAベンチマークでエンドツーエンド、モジュール、プロンプトベースの手法を比較)を行う。 blip-2に対するvipergptの報告された利益は、タスク固有のモジュールの選択に起因しており、よりタスクに依存しないモジュールの選択を使用してvipergptを実行すると、これらの利益は消滅する。 さらに、ViperGPTは、BLIP-2のみを削除または保持するなど、モジュールの選択に顕著な変更を加えると、その性能を保っている。 最後に、VierGPTとプロンプトベースの分解戦略を比較し、いくつかのベンチマークでは、コードではなく、自然言語でサブタスクを表現することで、モジュラーアプローチが大きなメリットがあることを見出した。

Modular neural networks without additional training have recently been shown to surpass end-to-end neural networks on challenging vision-language tasks. The latest such methods simultaneously introduce LLM-based code generation to build programs and a number of skill-specific, task-oriented modules to execute them. In this paper, we focus on ViperGPT and ask where its additional performance comes from and how much is due to the (state-of-art, end-to-end) BLIP-2 model it subsumes vs. additional symbolic components. To do so, we conduct a controlled study (comparing end-to-end, modular, and prompting-based methods across several VQA benchmarks). We find that ViperGPT's reported gains over BLIP-2 can be attributed to its selection of task-specific modules, and when we run ViperGPT using a more task-agnostic selection of modules, these gains go away. Additionally, ViperGPT retains much of its performance if we make prominent alterations to its selection of modules: e.g. removing or retaining only BLIP-2. Finally, we compare ViperGPT against a prompting-based decomposition strategy and find that, on some benchmarks, modular approaches significantly benefit by representing subtasks with natural language, instead of code.
翻訳日:2023-11-14 18:47:18 公開日:2023-11-10
# EHR監査ログのエントロピー推定のための自己回帰型言語モデル

Autoregressive Language Models For Estimating the Entropy of Epic EHR Audit Logs ( http://arxiv.org/abs/2311.06401v1 )

ライセンス: Link先を確認
Benjamin C. Warner, Thomas Kannampallil, Seunghwan Kim(参考訳) EHR監査ログは、臨床医の活動を捉えた、非常にきめ細かい出来事のストリームであり、電子健康記録(EHR)で臨床医のワークフローを特徴づける研究において重要な領域である。 EHR監査ログ(監査ログ)を通じてワークフローの複雑さを測定する既存のテクニックには、EHRセッションの完全な複雑さを捉えることができない時間または周波数ベースの横断的な集約が含まれる。 ワークフロー内の動作シーケンスのエントロピーや不規則性を測定し、評価モデルを公開する上で、トランスフォーマティブベースの表型言語モデル(tabular lm)の使用法を簡単に評価する。

EHR audit logs are a highly granular stream of events that capture clinician activities, and is a significant area of interest for research in characterizing clinician workflow on the electronic health record (EHR). Existing techniques to measure the complexity of workflow through EHR audit logs (audit logs) involve time- or frequency-based cross-sectional aggregations that are unable to capture the full complexity of a EHR session. We briefly evaluate the usage of transformer-based tabular language model (tabular LM) in measuring the entropy or disorderedness of action sequences within workflow and release the evaluated models publicly.
翻訳日:2023-11-14 18:46:51 公開日:2023-11-10
# EviPrompt: 医用画像のセグメンテーションモデルのための訓練不要なエビデンシャル・プロンプト生成法

EviPrompt: A Training-Free Evidential Prompt Generation Method for Segment Anything Model in Medical Images ( http://arxiv.org/abs/2311.06400v1 )

ライセンス: Link先を確認
Yinsong Xu, Jiaqi Tang, Aidong Men, Qingchao Chen(参考訳) 医用画像のセグメンテーションは臨床応用性が高いが, 深層学習の進歩にもかかわらず課題である。 SAM(Segment Anything Model)はこの分野での可能性を秘めているが、専門知識の介入と、自然画像と医用画像の領域ギャップは大きな障害となる。 本稿では,これらの課題を克服するために,EviPromptという新たなトレーニング不要なエフェクトプロンプト生成手法を提案する。 提案手法は医用画像に固有の類似性に基づいて構築され,単一の参照画像アノテーションペアのみを必要とするため,広範囲なラベル付けや計算資源の必要性を大幅に低減する,トレーニング不要のソリューションである。 まず,医療画像におけるSAMのプロンプトを自動生成するために,臨床専門家の相互作用を伴わない不確実性推定法を提案する。 そこで,本研究は,自然画像と医用画像の領域間ギャップを緩和し,SAMの医療的シナリオへの適用性や有用性を高めるために,ヒトの先行情報をプロンプトに組み込む。 EviPromptは、医療画像セグメンテーションに対する効率的で堅牢なアプローチであり、その有効性を確認する幅広いタスクやモダリティを評価している。

Medical image segmentation has immense clinical applicability but remains a challenge despite advancements in deep learning. The Segment Anything Model (SAM) exhibits potential in this field, yet the requirement for expertise intervention and the domain gap between natural and medical images poses significant obstacles. This paper introduces a novel training-free evidential prompt generation method named EviPrompt to overcome these issues. The proposed method, built on the inherent similarities within medical images, requires only a single reference image-annotation pair, making it a training-free solution that significantly reduces the need for extensive labeling and computational resources. First, to automatically generate prompts for SAM in medical images, we introduce an evidential method based on uncertainty estimation without the interaction of clinical experts. Then, we incorporate the human prior into the prompts, which is vital for alleviating the domain gap between natural and medical images and enhancing the applicability and usefulness of SAM in medical scenarios. EviPrompt represents an efficient and robust approach to medical image segmentation, with evaluations across a broad range of tasks and modalities confirming its efficacy.
翻訳日:2023-11-14 18:46:38 公開日:2023-11-10
# データストリームにおけるコンセプトドリフト局所性の包括的解析

A comprehensive analysis of concept drift locality in data streams ( http://arxiv.org/abs/2311.06396v1 )

ライセンス: Link先を確認
Gabriel J. Aguiar and Alberto Cano(参考訳) 漂流するデータストリームへの適応は、オンライン学習の大きな課題である。 進化するデータプロパティへの効果的なモデル適応のために、概念ドリフトを検出する必要がある。 コンセプトドリフトは完全にまたは部分的にデータ分布に影響を与える可能性があるため、ドリフト検出器がコンセプトドリフトを正確に識別することは困難である。 文献における多くのコンセプトドリフト検出器にもかかわらず、ドリフトの局所性を考慮した包括的な評価のための標準化された手順とベンチマークは欠落している。 本稿では,概念ドリフトの局所性とスケールに基づく新しい分類法を提案する。 体系的なアプローチでは,2,760個のベンチマーク問題が発生し,提案する分類の難易度レベルを反映している。 我々は,様々な困難にまたがる9種類のドリフト検出器の比較評価を行い,今後の研究における強みと弱みについて考察した。 ドリフト局所性が分類器の性能にどのように影響するかを検証し,回復時間を最小化するためのドリフトカテゴリの戦略を提案する。 最後に,将来のドリフト研究の教訓と推奨について述べる。 ベンチマークデータストリームと実験はhttps://github.com/gabrieljaguiar/locality-concept-driftで公開しています。

Adapting to drifting data streams is a significant challenge in online learning. Concept drift must be detected for effective model adaptation to evolving data properties. Concept drift can impact the data distribution entirely or partially, which makes it difficult for drift detectors to accurately identify the concept drift. Despite the numerous concept drift detectors in the literature, standardized procedures and benchmarks for comprehensive evaluation considering the locality of the drift are lacking. We present a novel categorization of concept drift based on its locality and scale. A systematic approach leads to a set of 2,760 benchmark problems, reflecting various difficulty levels following our proposed categorization. We conduct a comparative assessment of 9 state-of-the-art drift detectors across diverse difficulties, highlighting their strengths and weaknesses for future research. We examine how drift locality influences the classifier performance and propose strategies for different drift categories to minimize the recovery time. Lastly, we provide lessons learned and recommendations for future concept drift research. Our benchmark data streams and experiments are publicly available at https://github.com/gabrieljaguiar/locality-concept-drift.
翻訳日:2023-11-14 18:46:16 公開日:2023-11-10
# 逆問題に対するアルゴリズム展開モデルに関する統計的考察

A statistical perspective on algorithm unrolling models for inverse problems ( http://arxiv.org/abs/2311.06395v1 )

ライセンス: Link先を確認
Yves Atchade, Xinru Liu, Qiuyun Zhu(参考訳) 我々は、観測値 ${\bf y}$ が利子の潜在変数 ${\bf x}$ (フォワードモデルとしても知られている) が与えられたとき、観測値 ${\bf y}$ の条件分布が知られている逆問題を検討し、${\bf x}$ と ${\bf y}$ の複数のインスタンスが観測されるデータセットにアクセスする。 この文脈において、アルゴリズムの展開は、フォワードモデルを効果的に活用する最先端のディープニューラルネットワークアーキテクチャを設計するための非常に一般的なアプローチとなっている。 我々は、近位勾配降下によるアーキテクチャを解き放つアルゴリズムである勾配降下ネットワーク(GDN)の統計的複雑さを分析する。 GDNsの最適統計性能に必要なアンローリング深さは次数$\log(n)/\log(\varrho_n^{-1})$で、$n$はサンプルサイズ、$\varrho_n$は対応する勾配勾配アルゴリズムの収束率を示す。 また、潜在変数 ${\bf x}$ の負の対数密度が単純な近位作用素を持つとき、深さ $D'$ でアンロールされた GDN がパラメトリックレート $O(D'/\sqrt{n})$ で逆問題を解くことができることを示す。 以上の結果から,解答深度D'$が増加するにつれて,解答アルゴリズムが過度に適合する傾向が示唆された。 これらの結果を説明するためにいくつかの例を挙げる。

We consider inverse problems where the conditional distribution of the observation ${\bf y}$ given the latent variable of interest ${\bf x}$ (also known as the forward model) is known, and we have access to a data set in which multiple instances of ${\bf x}$ and ${\bf y}$ are both observed. In this context, algorithm unrolling has become a very popular approach for designing state-of-the-art deep neural network architectures that effectively exploit the forward model. We analyze the statistical complexity of the gradient descent network (GDN), an algorithm unrolling architecture driven by proximal gradient descent. We show that the unrolling depth needed for the optimal statistical performance of GDNs is of order $\log(n)/\log(\varrho_n^{-1})$, where $n$ is the sample size, and $\varrho_n$ is the convergence rate of the corresponding gradient descent algorithm. We also show that when the negative log-density of the latent variable ${\bf x}$ has a simple proximal operator, then a GDN unrolled at depth $D'$ can solve the inverse problem at the parametric rate $O(D'/\sqrt{n})$. Our results thus also suggest that algorithm unrolling models are prone to overfitting as the unrolling depth $D'$ increases. We provide several examples to illustrate these results.
翻訳日:2023-11-14 18:46:00 公開日:2023-11-10
# 新型コロナウイルスの診断のための畳み込みニューラルネットワークモデルの設計

A design of Convolutional Neural Network model for the Diagnosis of the COVID-19 ( http://arxiv.org/abs/2311.06394v1 )

ライセンス: Link先を確認
Xinyuan Song(参考訳) 過去1年間に世界中で新型コロナウイルス(covid-19)が広まる中、人工知能(ai)アルゴリズムと画像処理技術を用いて患者の胸部x線画像を分析することが不可欠になっている。 患者の肺領域における新型コロナウイルスの認識は、クリカルセンターや病院の基本的かつ本質的なニーズの1つだ。 この分野でのほとんどの研究は、病気や健康な人のスクリーニングを主眼とするCNN(Convolutional Neural Network)を用いた深層学習手法に基づく研究に費やされており、胸部X線写真から新型コロナウイルスを正確に認識するために19層CNNの新しい構造が推奨されている。 提供されるCNNは、3つのクラス(ウイルス性肺炎、正常、COVID)と4つのクラス(肺不透明、正常、COVID-19、肺炎)の正確な診断システムとして開発された。 提案手法の結果とinception, alexnet, resnet50, squeezenet, vgg19などの一般的な事前学習ネットワークとの比較を行い, 特異性, 精度, 精度, 感度, 混乱マトリックス, およびf1-scoreについて検討した。 提案するcnn法の実験結果は, 既存の公開手続きに対する支配性を示す。 この方法は、臨床医がcovid-19について適切に判断する上で有用である。

With the spread of COVID-19 around the globe over the past year, the usage of artificial intelligence (AI) algorithms and image processing methods to analyze the X-ray images of patients' chest with COVID-19 has become essential. The COVID-19 virus recognition in the lung area of a patient is one of the basic and essential needs of clicical centers and hospitals. Most research in this field has been devoted to papers on the basis of deep learning methods utilizing CNNs (Convolutional Neural Network), which mainly deal with the screening of sick and healthy people.In this study, a new structure of a 19-layer CNN has been recommended for accurately recognition of the COVID-19 from the X-ray pictures of chest. The offered CNN is developed to serve as a precise diagnosis system for a three class (viral pneumonia, Normal, COVID) and a four classclassification (Lung opacity, Normal, COVID-19, and pneumonia). A comparison is conducted among the outcomes of the offered procedure and some popular pretrained networks, including Inception, Alexnet, ResNet50, Squeezenet, and VGG19 and based on Specificity, Accuracy, Precision, Sensitivity, Confusion Matrix, and F1-score. The experimental results of the offered CNN method specify its dominance over the existing published procedures. This method can be a useful tool for clinicians in deciding properly about COVID-19.
翻訳日:2023-11-14 18:45:28 公開日:2023-11-10
# 精密農業データ分析におけるチャットGPT

ChatGPT in the context of precision agriculture data analytics ( http://arxiv.org/abs/2311.06390v1 )

ライセンス: Link先を確認
Ilyas Potamitis(参考訳) 本研究では,ChatGPTを精密農業における自動センサのデータ処理パイプラインに組み込むことによって,現代の農業実践の様々な側面にメリットをもたらす可能性が示唆された。 政策立案者は、意思決定に到達するために広大な農業分野の状況を知る必要がある場合、しばしば障壁に直面します。 彼らは、現場の農業専門家、データアナリスト、技術提供者との密接な協力によって、オンデマンドで常に確保できない学際的なチームを作り、これらの多様なドメイン間でリアルタイムに反応する効果的なコミュニケーションを確立する。 本研究は,ChatGPTの音声認識入力モダリティが,農業データ処理システムのサーバのデータベースと対話するための,より直感的で自然な手段を提供するものであることを論じる。 大きな言語モデルは、音声入力をテキストにマッピングし、ユーザーが制約なしの動詞クエリの独自のバージョンを作成できるようにし、学習し、特定のデータ分析ソフトウェアに適応する障壁を高くする。 言語モデルの出力は、PythonコードとPandaを通じてデータベース全体と対話し、結果を視覚化し、音声合成を使用して、データに関する反復的かつ精細な議論にユーザを巻き込むことができる。 異なるモードの分散ネットワーク(オプティカルカウンタ、振動記録、画像、ビデオ)が報告されるリモートサーバのデータベースとチャットgptがどのように相互作用するかを3つの方法を示す。 農業データの分析と解釈におけるchatgptの対応の可能性と妥当性について検討し,利害関係者にリアルタイムの洞察と推薦を提供する。

In this study we argue that integrating ChatGPT into the data processing pipeline of automated sensors in precision agriculture has the potential to bring several benefits and enhance various aspects of modern farming practices. Policy makers often face a barrier when they need to get informed about the situation in vast agricultural fields to reach to decisions. They depend on the close collaboration between agricultural experts in the field, data analysts, and technology providers to create interdisciplinary teams that cannot always be secured on demand or establish effective communication across these diverse domains to respond in real-time. In this work we argue that the speech recognition input modality of ChatGPT provides a more intuitive and natural way for policy makers to interact with the database of the server of an agricultural data processing system to which a large, dispersed network of automated insect traps and sensors probes reports. The large language models map the speech input to text, allowing the user to form its own version of unconstrained verbal query, raising the barrier of having to learn and adapt oneself to a specific data analytics software. The output of the language model can interact through Python code and Pandas with the entire database, visualize the results and use speech synthesis to engage the user in an iterative and refining discussion related to the data. We show three ways of how ChatGPT can interact with the database of the remote server to which a dispersed network of different modalities (optical counters, vibration recordings, pictures, and video), report. We examine the potential and the validity of the response of ChatGPT in analyzing, and interpreting agricultural data, providing real time insights and recommendations to stakeholders
翻訳日:2023-11-14 18:45:04 公開日:2023-11-10
# 視覚認識と推論のための統合ニューラルアーキテクチャを目指して

Towards A Unified Neural Architecture for Visual Recognition and Reasoning ( http://arxiv.org/abs/2311.06386v1 )

ライセンス: Link先を確認
Calvin Luo, Boqing Gong, Ting Chen, Chen Sun(参考訳) 認識と推論は視覚理解の2つの柱である。 しかし、これらのタスクは焦点が不均衡であり、近年のニューラルネットワークの進歩は視覚認識において強力な経験的性能を示しているが、視覚推論の解法では比較的にかなり成功していない。 直観的には、これら2つのタスクは互いに依存し、有益であるため、特異な枠組みの下で統一することが望ましい。 近年,視覚認識と言語理解のためのマルチタスクトランスフォーマーの成功に触発されて,汎用インターフェース(トークンなど)による視覚認識と推論のための統一型ニューラルネットワークを提案する。 本フレームワークは,視覚的認識タスクやデータセット,帰納的バイアスが,時空間的推論能力にどのように寄与するかを原則的に検証することを可能にする。 明らかなことに、個々の物体の空間的局在を必要とする物体検出は、推論において最も有益な認識タスクである。 さらに私たちは、暗黙のオブジェクト中心の表現がフレームワーク内で自動的に現れることを調査して示します。 興味深いことに、視覚エンコーダのバックボーンモデルのような特定のアーキテクチャ選択が視覚的推論に大きな影響を与えるが、オブジェクト検出にはほとんど影響を与えない。 実験の結果から、視覚的推論は視覚認知と並んで第一級市民と見なされるべきであり、それらは強い相関性があるが、潜在的に異なる設計選択の恩恵を受けていると信じている。

Recognition and reasoning are two pillars of visual understanding. However, these tasks have an imbalance in focus; whereas recent advances in neural networks have shown strong empirical performance in visual recognition, there has been comparably much less success in solving visual reasoning. Intuitively, unifying these two tasks under a singular framework is desirable, as they are mutually dependent and beneficial. Motivated by the recent success of multi-task transformers for visual recognition and language understanding, we propose a unified neural architecture for visual recognition and reasoning with a generic interface (e.g., tokens) for both. Our framework enables the principled investigation of how different visual recognition tasks, datasets, and inductive biases can help enable spatiotemporal reasoning capabilities. Noticeably, we find that object detection, which requires spatial localization of individual objects, is the most beneficial recognition task for reasoning. We further demonstrate via probing that implicit object-centric representations emerge automatically inside our framework. Intriguingly, we discover that certain architectural choices such as the backbone model of the visual encoder have a significant impact on visual reasoning, but little on object detection. Given the results of our experiments, we believe that visual reasoning should be considered as a first-class citizen alongside visual recognition, as they are strongly correlated but benefit from potentially different design choices.
翻訳日:2023-11-14 18:44:34 公開日:2023-11-10
# マイクロ波-光周波数変換用光機械リング共振器

Optomechanical ring resonator for efficient microwave-optical frequency conversion ( http://arxiv.org/abs/2311.06435v1 )

ライセンス: Link先を確認
I-Tung Chen, Bingzhao Li, Seokhyeong Lee, Srivatsa Chakravarthi, Kai-Mei Fu, Mo Li(参考訳) 固体デバイスで移動するフォノンは、異なる物理系を結合するための普遍的な励起として現れる。 マイクロ波フォノンは固体中の光子と似た波長を持ち、古典的および量子的な信号のマイクロ波光変換に望ましい。 光子とフォノンの両方を導く光学集積回路(OMIC)は光子とフォノンを相互接続することができる。 ここでは、共共共振赤外光子とghzフォノンが相互変換を著しく向上させる光機械リング共振器(omr)を含むオムックを実演する。 我々のプラットフォームはハイブリッドであり、広帯域半導体ガリウムフォスピード(GaP)を導波路およびフォノン発生用圧電酸化亜鉛(ZnO)に用いた。 OMRは、それぞれ$>1\times10^5$と$.2\times10^3$である。 フォトニックモード間の相互変換は内部変換効率$\eta_i=(2.1\pm0.1)%$と全デバイス効率$\eta_{tot}=0.57\times10^{-6}$を低音響ポンプ出力1.6mWで達成した。 omicsの効率的な変換は、量子情報およびマイクロ波フォトニクスにおけるマイクロ波光変換を可能にする。

Phonons traveling in solid-state devices emerges as a universal excitation for coupling different physical systems. Microwave phonons have a similar wavelength to optical photons in solids, which is desirable for microwave-optical transduction of classical and quantum signal. Conceivably, building optomechanical integrated circuits (OMIC) that guide both photons and phonons can interconnect photonic and phononic devices. Here, we demonstrate an OMIC including an optomechanical ring resonator (OMR), where co-resonate infrared photons and GHz phonons induce significantly enhanced interconversion. Our platform is hybrid, using wide bandgap semiconductor gallium phosphide (GaP) for wave-guiding and piezoelectric zinc oxide (ZnO) for phonon generation. The OMR features photonic and phononic quality factors of $>1\times10^5$ and $3.2\times10^3$, respectively. The interconversion between photonic modes achieved an internal conversion efficiency $\eta_i=(2.1\pm0.1)%$ and a total device efficiency $\eta_{tot}=0.57\times10^{-6}$ at low acoustic pump power 1.6 mW. The efficient conversion in OMICs enables microwave-optical transduction in quantum information and microwave photonics applications.
翻訳日:2023-11-14 18:32:20 公開日:2023-11-10
# トランスダクティブオンライン学習のためのトリコトミー

A Trichotomy for Transductive Online Learning ( http://arxiv.org/abs/2311.06428v1 )

ライセンス: Link先を確認
Steve Hanneke, Shay Moran, Jonathan Shafer(参考訳) 本稿は,Ben-David, Kushilevitz, Mansour (1997) のオンライン学習環境における学習者の誤り数に関する,新たな上限と下限を提示する。 この設定は標準的なオンライン学習と似ているが、敵はゲームの開始時にラベル付けされるインスタンスのシーケンスを$x_1,\dots,x_n$で修正し、このシーケンスは学習者に知られている。 定性的に、我々は三分法を証明し、学習者が$n$の増大で犯す誤りの最小数は、正確に3つの可能な値のうち、$n$、$\theta\left(\log (n)\right)$、$\theta(1)$のいずれかしか受け取らないことを述べる。 さらに、この挙動はVC次元とリトルストーン次元の組み合わせによって決定される。 定量的に、よく知られた組合せ次元に対する誤りの数に関連する様々な境界を示す。 特に、$\theta(1)$ の定数の既知の下限を$\omega\left(\sqrt{\log(d)}\right)$ から$\omega(\log(d))$ に改善し、ここで$d$ はリトルストーン次元である。 最後に、結果を多クラス分類と不可知設定に拡張する。

We present new upper and lower bounds on the number of learner mistakes in the `transductive' online learning setting of Ben-David, Kushilevitz and Mansour (1997). This setting is similar to standard online learning, except that the adversary fixes a sequence of instances $x_1,\dots,x_n$ to be labeled at the start of the game, and this sequence is known to the learner. Qualitatively, we prove a trichotomy, stating that the minimal number of mistakes made by the learner as $n$ grows can take only one of precisely three possible values: $n$, $\Theta\left(\log (n)\right)$, or $\Theta(1)$. Furthermore, this behavior is determined by a combination of the VC dimension and the Littlestone dimension. Quantitatively, we show a variety of bounds relating the number of mistakes to well-known combinatorial dimensions. In particular, we improve the known lower bound on the constant in the $\Theta(1)$ case from $\Omega\left(\sqrt{\log(d)}\right)$ to $\Omega(\log(d))$ where $d$ is the Littlestone dimension. Finally, we extend our results to cover multiclass classification and the agnostic setting.
翻訳日:2023-11-14 18:31:57 公開日:2023-11-10
# 微細調整によるGPT-4のRLHF保護除去

Removing RLHF Protections in GPT-4 via Fine-Tuning ( http://arxiv.org/abs/2311.05553v2 )

ライセンス: Link先を確認
Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori Hashimoto, Daniel Kang(参考訳) 大規模言語モデル(llm)の能力が向上するにつれ、デュアル利用の可能性も高まっている。 有害な出力を減らすため、LLMの製造と販売業者は人間フィードバックによる強化学習(RLHF)を使用している。 LLMベンダーはますます、最も強力なモデルの微調整を可能にしている。 しかし、同時に行われた研究は、微調整がRLHF保護を除去できることを示した。 現在利用可能な最も強力なモデル(GPT-4)は、微調整攻撃の影響を受けにくいだろう。 細調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。 これらのトレーニング例は、より弱いモデルで自動的に生成できる。 さらに,RLHF保護の除去は非検閲出力の有用性を低下させるものではないことを示し,我々の微調整戦略がトレーニングデータを生成するために弱いモデルを用いても有用性を低下させないことを示す。 以上の結果から,LLMの保護に関するさらなる研究の必要性が示唆された。

As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback (RLHF). In tandem, LLM vendors have been increasingly enabling fine-tuning of their most powerful models. However, concurrent work has shown that fine-tuning can remove RLHF protections. We may expect that the most powerful models currently available (GPT-4) are less susceptible to fine-tuning attacks. In this work, we show the contrary: fine-tuning allows attackers to remove RLHF protections with as few as 340 examples and a 95% success rate. These training examples can be automatically generated with weaker models. We further show that removing RLHF protections does not decrease usefulness on non-censored outputs, providing evidence that our fine-tuning strategy does not decrease usefulness despite using weaker models to generate training data. Our results show the need for further research on protections on LLMs.
翻訳日:2023-11-14 11:08:56 公開日:2023-11-10
# マルコフポテンシャルゲームにおける独立学習と分散学習

Independent and Decentralized Learning in Markov Potential Games ( http://arxiv.org/abs/2205.14590v6 )

ライセンス: Link先を確認
Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry(参考訳) マルチエージェント強化学習ダイナミックスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束解析を行う。 我々は、プレイヤーがゲームモデルに関する知識を持っておらず、協調できない独立的で分散的な設定に焦点を当てる。 各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの総入金額を評価するQ関数の推定値を非同期に更新する。 そして、推定されたq関数に基づいて最適な一段階偏差戦略を組み込むことで、プレイヤーのポリシーを独立に更新する。 学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。 学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。 本研究は,最小限の情報しか得られない環境でも定常ナッシュ平衡のセットに到達できる単純な学習ダイナミクスの有効性を浮き彫りにする。

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not have knowledge of the game model and cannot coordinate. In each stage, players update their estimate of Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating an optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to the set of stationary Nash equilibria in Markov potential games with probability 1. Our results highlight the efficacy of simple learning dynamics in reaching to the set of stationary Nash equilibrium even in environments with minimal information available.
翻訳日:2023-11-13 18:55:02 公開日:2023-11-10
# ナノ構造中の電子の光誘起共鳴トンネル

Optically induced resonant tunneling of electrons in nanostructures ( http://arxiv.org/abs/2205.11479v2 )

ライセンス: Link先を確認
M. V. Boev, V. M. Kovalev, O. V. Kibis(参考訳) 強高周波電磁界によって駆動される電位障壁を貫通する弾性電子トンネルの理論を開発した。 駆動障壁は、これらの2つの障壁の間に閉じ込められた準定常電子状態を含む静止2バリアポテンシャルとみなすことができる。 入射電子のエネルギーが準定常状態のエネルギーと一致するとき、駆動された障壁は電子に対して完全に透明になる(共鳴トンネル)。 この理論は、電磁波に照射された量子点接触による電子輸送を記述するために応用される。

We developed the theory of elastic electron tunneling through a potential barrier driven by a strong high-frequency electromagnetic field. It is demonstrated that the driven barrier can be considered as a stationary two-barrier potential which contains the quasi-stationary electron states confined between these two barriers. When the energy of an incident electron coincides with the energy of the quasi-stationary state, the driven barrier becomes fully transparent for the electron (the resonant tunneling). The developed theory is applied to describe electron transport through a quantum point contact irradiated by an electromagnetic wave.
翻訳日:2023-11-13 18:54:48 公開日:2023-11-10
# ピアツーピア分散機械学習(peer-to-peer decentralized machine learning)のセキュリティについて

On the (In)security of Peer-to-Peer Decentralized Machine Learning ( http://arxiv.org/abs/2205.08443v3 )

ライセンス: Link先を確認
Dario Pasquini, Mathilde Raynal and Carmela Troncoso(参考訳) 本研究では,分散学習の主要な制限に対処することを目的とした協調学習フレームワークである分散学習の,最初の詳細なプライバシー分析を行う。 我々は、パッシブおよびアクティブな分散した敵に対する一連の新しい攻撃について紹介する。 分散学習の提案者による主張とは対照的に,分散学習は連合学習よりもセキュリティ上の利点をもたらさないことを実証する。 むしろ、システム内のすべてのユーザーがグラデーションインバージョンのようなプライバシ攻撃を実行し、正直なユーザのローカルモデルを完全にコントロールすることを可能にする攻撃面を増加させる。 また,保護の現状を考えると,分散学習のプライバシ保存構成が完全接続ネットワークを必要とすること,フェデレーション設定に対する実用上の優位性が失われること,それゆえ分散学習の目的を完全に打ち破ることも示されている。

In this work, we carry out the first, in-depth, privacy analysis of Decentralized Learning -- a collaborative machine learning framework aimed at addressing the main limitations of federated learning. We introduce a suite of novel attacks for both passive and active decentralized adversaries. We demonstrate that, contrary to what is claimed by decentralized learning proposers, decentralized learning does not offer any security advantage over federated learning. Rather, it increases the attack surface enabling any user in the system to perform privacy attacks such as gradient inversion, and even gain full control over honest users' local model. We also show that, given the state of the art in protections, privacy-preserving configurations of decentralized learning require fully connected networks, losing any practical advantage over the federated setup and therefore completely defeating the objective of the decentralized approach.
翻訳日:2023-11-13 18:54:40 公開日:2023-11-10
# 雨の除去から詳細な復旧まで:より高速で優れたネットワーク

From Heavy Rain Removal to Detail Restoration: A Faster and Better Network ( http://arxiv.org/abs/2205.03553v2 )

ライセンス: Link先を確認
Tao Gao, Yuanbo Wen, Jing Zhang, Kaihao Zhang and Ting Chen(参考訳) 豪雨で濃厚な雨が蓄積すると、画像は著しく洗い流され、画像の背景の詳細が破壊される。 既存の深層雨除去モデルでは, 大雨除去性能が向上するが, 多くの場合, 無雨画像の詳細な復元精度は無視されている。 本稿では,構造精度の高い降雨画像を用いた効果的なデライニングを実現するために,DPENet(Dual-stage Progress enhancement Network)を提案する。 このフレームワークには,レインストリーク除去ネットワーク (r$^2$net) とディテール再構築ネットワーク (drnet) という2つの主要モジュールが組み込まれている。 前者は正確な雨除去を目指しており、後者は無雨画像の詳細な復元を目的としている。 提案手法は, 流出防止効果と雨のない画像の細部復元とのトレードオフを実現するため, ネットワーク内で2つの戦略を導入する。 まず, 豪雨の高層/低層特性を集約するために, 雨害除去網内の拡張密度残留ブロック (DDRB) を提示する。 第2に、詳細再構成ネットワーク内の強化残像注目ブロック(ERPAB)をコンテキスト情報集約のために設計する。 また,雨のない画像の限界的・地域的精度を強調する総合的損失関数を提案する。 豪雨除去のための構造保存型無雨画像作成における提案手法の有効性と有効性を示した。 ソースコードと事前訓練されたモデルは、 \url{https://github.com/wybchd/DPENet} にある。

The dense rain accumulation in heavy rain can significantly wash out images and thus destroy the background details of images. Although existing deep rain removal models lead to improved performance for heavy rain removal, we find that most of them ignore the detail reconstruction accuracy of rain-free images. In this paper, we propose a dual-stage progressive enhancement network (DPENet) to achieve effective deraining with structure-accurate rain-free images. Two main modules are included in our framework, namely a rain streaks removal network (R$^2$Net) and a detail reconstruction network (DRNet). The former aims to achieve accurate rain removal, and the latter is designed to recover the details of rain-free images. We introduce two main strategies within our networks to achieve trade-off between the effectiveness of deraining and the detail restoration of rain-free images. Firstly, a dilated dense residual block (DDRB) within the rain streaks removal network is presented to aggregate high/low level features of heavy rain. Secondly, an enhanced residual pixel-wise attention block (ERPAB) within the detail reconstruction network is designed for context information aggregation. We also propose a comprehensive loss function to highlight the marginal and regional accuracy of rain-free images. Extensive experiments on benchmark public datasets show both efficiency and effectiveness of the proposed method in achieving structure-preserving rain-free images for heavy rain removal. The source code and pre-trained models can be found at \url{https://github.com/wybchd/DPENet}.
翻訳日:2023-11-13 18:54:24 公開日:2023-11-10
# 機械意識と人工超知能の認知的アーキテクチャ:作業記憶の反復的更新によって思考が構造化される

A Cognitive Architecture for Machine Consciousness and Artificial Superintelligence: Thought Is Structured by the Iterative Updating of Working Memory ( http://arxiv.org/abs/2203.17255v4 )

ライセンス: Link先を確認
Jared Edward Reser(参考訳) 本稿では,人間の思考過程をコンピュータ内でシミュレートするための分析フレームワークを提供する。 注意と記憶がどのように構造化され、更新され、思考プロセスへの連想的な追加を探すために使用されるかを記述する。 哺乳動物の作業記憶は、持続的な発火(秒単位の情報保存)とシナプス増強(分単位から数時間単位の情報保存)の2つの形態の持続的活動によって可能となる。 この記事は40以上の原図を用いて、これらのワーキングメモリストアの反復的な更新が、思考と意識に対して動的で機能的な構造をどのように提供するかを体系的に示す。 aiの実装では、これら2つのストアを継続的に更新し、反復的に更新する必要がある。 したがって、ワーキングメモリにおける一連の概念は、時間とともに徐々に徐々に進化していく。 これにより、各状態は前状態の修正反復となり、連続状態はそれらを含む表現の集合に対して重なり合い、ブレンドされる。 この重複がなければ、aiシステムはメンタル連続性やマシン意識を達成できないと論じられている。 永続的活動は、次の連想更新を探すために階層ネットワーク全体に活性化エネルギーを広げる。 この長期記憶の探索は、グローバルワークスペースに追加される最も適切な表現を見つける。 その結果、解または目標に向かって進むことができる結合的に連結された中間状態の連鎖となる。 反復更新は、情報処理戦略、思考の流れの計算と神経生理学的決定式、人工知能の設計とプログラミングのためのアルゴリズムとして概念化されている。

This article provides an analytical framework for how to simulate human-like thought processes within a computer. It describes how attention and memory should be structured, updated, and used to search for associative additions to the thought process. The working memory of mammals is made possible by two forms of persistent activity: sustained firing (preserving information on the order of seconds) and synaptic potentiation (preserving information on the order of minutes to hours). The article uses a series of over 40 original figures to systematically demonstrate how the iterative updating of these working memory stores provides dynamic, functional structure to thought and consciousness. In an AI implementation, these two stores should be updated continuously and in an iterative fashion, meaning that, in the next state, some proportion of the coactive representations should always be retained. Thus, the set of concepts coactive in working memory will evolve gradually and incrementally over time. This makes each state a revised iteration of the preceding state and causes successive states to overlap and blend with respect to the set of representations they contain. It is argued that without this overlap, AI systems cannot achieve mental continuity or machine consciousness. Persistent activity spreads activation energy throughout the hierarchical network to search for the next associative update. This search of long-term memory locates the most appropriate representation to be added to the global workspace. The result is a chain of associatively linked intermediate states capable of advancing toward a solution or goal. Iterative updating is conceptualized here as an information processing strategy, a computational and neurophysiological determinant of the stream of thought, and an algorithm for designing and programming artificial general intelligence.
翻訳日:2023-11-13 18:53:59 公開日:2023-11-10
# 最適後悔は有界近似推論誤差で達成可能である:拡張ベイズ高信頼境界フレームワーク

Optimal Regret Is Achievable with Bounded Approximate Inference Error: An Enhanced Bayesian Upper Confidence Bound Framework ( http://arxiv.org/abs/2201.12955v4 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam, Amirhossein Meisami, Haofeng Zhang(参考訳) ベイズ推定を近似したベイズ帯域幅アルゴリズムは現実世界の応用に広く用いられている。 しかし、これらのアプローチの優れた実用的性能と理論的正当化との間には大きな相違がある。 トンプソンサンプリングは、最低ケースの線形後悔$\Omega(T)$で、1$\alpha$-divergenceで測定された推論誤差に一定の閾値を持つ可能性がある。 このギャップを埋めるために,近似推論の存在下でバンドイット問題を効率的に対応できる拡張ベイズ高信頼境界(ebucb)フレームワークを提案する。 我々の理論的分析は、ベルヌーイの多重武装バンディットに対して、2つの異なる$\alpha$-divergencesで測定された推論誤差が定数以下である場合、EBUCBが最適後悔順序$O(\log T)$を達成できることを証明している。 我々の知る限り、我々の研究は、定数近似推論誤差の設定において$o(T)$よりも良い最初の理論的後悔境界を提供する。 さらに, 前回の研究では否定的な結果と一致して, 1つの有界$\alpha$-divergenceのみが, サブ線形後悔を保証するには不十分であることを示す。

Bayesian bandit algorithms with approximate Bayesian inference have been widely used in real-world applications. However, there is a large discrepancy between the superior practical performance of these approaches and their theoretical justification. Previous research only indicates a negative theoretical result: Thompson sampling could have a worst-case linear regret $\Omega(T)$ with a constant threshold on the inference error measured by one $\alpha$-divergence. To bridge this gap, we propose an Enhanced Bayesian Upper Confidence Bound (EBUCB) framework that can efficiently accommodate bandit problems in the presence of approximate inference. Our theoretical analysis demonstrates that for Bernoulli multi-armed bandits, EBUCB can achieve the optimal regret order $O(\log T)$ if the inference error measured by two different $\alpha$-divergences is less than a constant, regardless of how large this constant is. To our best knowledge, our study provides the first theoretical regret bound that is better than $o(T)$ in the setting of constant approximate inference error. Furthermore, in concordance with the negative results in previous studies, we show that only one bounded $\alpha$-divergence is insufficient to guarantee a sub-linear regret.
翻訳日:2023-11-13 18:53:14 公開日:2023-11-10
# SANSformers:無意識モデルによる電子健康記録の自己監督型予測

SANSformers: Self-Supervised Forecasting in Electronic Health Records with Attention-Free Models ( http://arxiv.org/abs/2108.13672v4 )

ライセンス: Link先を確認
Yogesh Kumar, Alexander Ilin, Henri Salo, Sangita Kulathinal, Maarit K. Leinonen, Pekka Marttinen(参考訳) 複数の領域にまたがるトランスフォーマリンニューラルネットワークの有効性は証明されているものの、電子健康記録(ehr)による性能はニュアンス可能である。 EHRデータのユニークな多次元シーケンシャルな性質は、慎重に設計された特徴を持つ単純な線形モデルさえもより競争力のあるものにすることができる。 したがって、効率的なトランスファー学習やスケーラビリティ向上といったトランスフォーマーの利点は、EHRアプリケーションで完全に活用されるとは限らない。 これらの課題に対処するため,我々は,特定の帰納的バイアスを考慮した無注意シーケンシャルモデルであるsansformerを導入する。 本研究では,医療施設への患者訪問数を予測し,医療サービスの需要を予測することを目的とする。 この課題は、稀な疾患を持つ患者グループのような、異なる患者サブグループを扱う際に増幅される。 そこで本研究では,患者の過去の健康記録から将来の要約統計を予測する,自己教師による事前訓練戦略gsp(generative summary pretraining)を採用している。 我々のモデルは、100万人近い患者の健康レジストリに事前トレーニングされ、その後、特定のサブグループ予測タスクに微調整され、EHRデータの多面的性質を扱う可能性を示している。 評価において、sansformerは一貫してロバストなehrベースラインを超えており、gspプリトレーニング法は特に小さな患者サブグループにおいて特にモデル性能を増幅している。 本研究は, 各種患者集団を対象とした医療利用予測の調整と自己指導型プレトレーニングの可能性について考察した。

Despite the proven effectiveness of Transformer neural networks across multiple domains, their performance with Electronic Health Records (EHR) can be nuanced. The unique, multidimensional sequential nature of EHR data can sometimes make even simple linear models with carefully engineered features more competitive. Thus, the advantages of Transformers, such as efficient transfer learning and improved scalability are not always fully exploited in EHR applications. Addressing these challenges, we introduce SANSformer, an attention-free sequential model designed with specific inductive biases to cater for the unique characteristics of EHR data. In this work, we aim to forecast the demand for healthcare services, by predicting the number of patient visits to healthcare facilities. The challenge amplifies when dealing with divergent patient subgroups, like those with rare diseases, which are characterized by unique health trajectories and are typically smaller in size. To address this, we employ a self-supervised pretraining strategy, Generative Summary Pretraining (GSP), which predicts future summary statistics based on past health records of a patient. Our models are pretrained on a health registry of nearly one million patients, then fine-tuned for specific subgroup prediction tasks, showcasing the potential to handle the multifaceted nature of EHR data. In evaluation, SANSformer consistently surpasses robust EHR baselines, with our GSP pretraining method notably amplifying model performance, particularly within smaller patient subgroups. Our results illuminate the promising potential of tailored attention-free models and self-supervised pretraining in refining healthcare utilization predictions across various patient demographics.
翻訳日:2023-11-13 18:52:31 公開日:2023-11-10
# Chanakya: 適応的なリアルタイム認識のための学習ランタイムの決定

Chanakya: Learning Runtime Decisions for Adaptive Real-Time Perception ( http://arxiv.org/abs/2106.05665v3 )

ライセンス: Link先を確認
Anurag Ghosh, Vaibhav Balloli, Akshay Nambi, Aditya Singh, Tanuja Ganu(参考訳) リアルタイムの知覚には計画された資源利用が必要である。 リアルタイム知覚における計算計画には、精度とレイテンシという2つの考慮事項がある。 特定のハードウェアの性能に影響を与えるトレードオフを誘発する実行時決定(例えば、入力解像度の選択)があり、本質的(コンテンツ、シーンクラッタなど)と外生的(システム、リソース競合など)の特性から生じる。 以前のランタイム実行フレームワークはルールベースの決定アルゴリズムを採用し、これらの懸念のバランスをとるためにアルゴリズムの遅延予算を固定した。 ストリーミング認識パラダイムから自然に派生した学習された近似実行フレームワークであるChanakyaを提案し、代わりにこれらのトレードオフによって引き起こされる決定を自動的に学習する。 Chanakyaは、どちらの目標も近似することなく、正確さとレイテンシを暗黙的にバランスさせる新しい報酬を通じてトレーニングされている。 チャナキヤは内在的な文脈と外在的な文脈を同時に考慮し、柔軟な方法で決定を予測する。 オーバーヘッドを念頭に設計されたChanakyaは、サーバGPUとエッジデバイスの両方のパブリックデータセット上で、最先端の静的および動的実行ポリシより優れています。

Real-time perception requires planned resource utilization. Computational planning in real-time perception is governed by two considerations -- accuracy and latency. There exist run-time decisions (e.g. choice of input resolution) that induce tradeoffs affecting performance on a given hardware, arising from intrinsic (content, e.g. scene clutter) and extrinsic (system, e.g. resource contention) characteristics. Earlier runtime execution frameworks employed rule-based decision algorithms and operated with a fixed algorithm latency budget to balance these concerns, which is sub-optimal and inflexible. We propose Chanakya, a learned approximate execution framework that naturally derives from the streaming perception paradigm, to automatically learn decisions induced by these tradeoffs instead. Chanakya is trained via novel rewards balancing accuracy and latency implicitly, without approximating either objectives. Chanakya simultaneously considers intrinsic and extrinsic context, and predicts decisions in a flexible manner. Chanakya, designed with low overhead in mind, outperforms state-of-the-art static and dynamic execution policies on public datasets on both server GPUs and edge devices.
翻訳日:2023-11-13 18:51:50 公開日:2023-11-10
# 超伝導回路コンパニオン-実例による紹介

The superconducting circuit companion -- an introduction with worked examples ( http://arxiv.org/abs/2103.01225v3 )

ライセンス: Link先を確認
S. E. Rasmussen, K. S. Christensen, S. P. Pedersen, L. B. Kristensen, T. B{\ae}kkegaard, N. J. S. Loft, and N. T. Zinner(参考訳) 本チュートリアルは,超伝導量子ビットの回路解析,すなわち超伝導回路における2レベルシステムに関する入門的な処理を行うことを目的とする。 また、そのような量子ビット間のカップリングや、マイクロ波駆動とこれらのカップリングがシングルキュービットゲートと2キュービットゲートでどのように使用できるか、またシステムのダイナミクスを計算する際にノイズを含む方法についても触れている。 また,高次元超伝導quditについて考察する。 このチュートリアルは、フィールドの経験が限られ、あるいは全くない新しい研究者を対象としているが、物理学の学士号を持つ人なら誰でもアクセスできるはずである。 チュートリアルでは、回路ダイアグラムから量子化されたハミルトニアンで終わる量子回路解析で使われる基本的な方法を紹介し、最低レベルに切り下げることができる。 議論のすべての基本的なテクニックの例を示し、チュートリアルの後半では、量子情報アプリケーションに最もよく使用される回路について論じる。 これには、単一キュービットの動作例と、マルチキュービット演算を可能にする結合方法の分析方法の例が含まれる。 いくつかの詳細な付録で、我々は興味ある読者により大きな回路設計を扱うためのより高度な技術を紹介する。

This tutorial aims at giving an introductory treatment of the circuit analysis of superconducting qubits, i.e., two-level systems in superconducting circuits. It also touches upon couplings between such qubits and how microwave driving and these couplings can be used for single- and two-qubit gates, as well as how to include noise when calculating the dynamics of the system. We also discuss higher-dimensional superconducting qudits. The tutorial is intended for new researchers with limited or no experience with the field but should be accessible to anyone with a bachelor's degree in physics. The tutorial introduces the basic methods used in quantum circuit analysis, starting from a circuit diagram and ending with a quantized Hamiltonian, that may be truncated to the lowest levels. We provide examples of all the basic techniques throughout the discussion, while in the last part of the tutorial we discuss several of the most commonly used circuits for quantum-information applications. This includes both worked examples of single qubits and examples of how to analyze the coupling methods that allow multiqubit operations. In several detailed appendices, we provide the interested reader with an introduction to more advanced techniques for handling larger circuit designs.
翻訳日:2023-11-13 18:51:30 公開日:2023-11-10
# 実践者の視点からみた不均衡データ戦略の実証的評価

An empirical evaluation of imbalanced data strategies from a practitioner's point of view ( http://arxiv.org/abs/1810.07168v2 )

ライセンス: Link先を確認
Jacques Wainer(参考訳) 本稿では,アンサンブル法,特殊アルゴリズム,クラス重み調整法,およびベースラインと呼ばれる非緩和法という,不均衡データの緩和のための6つの戦略を評価する。 これらの戦略は、3から120までの不均衡率を持つ58のリアルタイムバイナリ不均衡データセットでテストされた。 我々は,10個のアンダーサンプリングアルゴリズム,5個のオーバーサンプリングアルゴリズム,2個のアンサンブル手法,および8つのパフォーマンス指標(精度,ROC曲線下面積,バランス精度,F1測定値,G平均値,Matthew相関係数,精度,リコール)を比較検討した。 さらに,実生活データから得られた変動データセットの6つの戦略を,低(3)と高(100,300)不均衡比(ir)の両方で評価した。 主要な発見は、各戦略の有効性が使用される指標によって大きく異なることを示している。 また、特殊アルゴリズム、オーバーサンプリング、アンサンブル手法のカテゴリにおける新しいアルゴリズムの選択についても検討する。 この結果から,新しいアルゴリズムの導入により,各指標に対する最良性能戦略の現在の階層構造は変化しない可能性が示唆された。

This paper evaluates six strategies for mitigating imbalanced data: oversampling, undersampling, ensemble methods, specialized algorithms, class weight adjustments, and a no-mitigation approach referred to as the baseline. These strategies were tested on 58 real-life binary imbalanced datasets with imbalance rates ranging from 3 to 120. We conducted a comparative analysis of 10 under-sampling algorithms, 5 over-sampling algorithms, 2 ensemble methods, and 3 specialized algorithms across eight different performance metrics: accuracy, area under the ROC curve (AUC), balanced accuracy, F1-measure, G-mean, Matthew's correlation coefficient, precision, and recall. Additionally, we assessed the six strategies on altered datasets, derived from real-life data, with both low (3) and high (100 or 300) imbalance ratios (IR). The principal finding indicates that the effectiveness of each strategy significantly varies depending on the metric used. The paper also examines a selection of newer algorithms within the categories of specialized algorithms, oversampling, and ensemble methods. The findings suggest that the current hierarchy of best-performing strategies for each metric is unlikely to change with the introduction of newer algorithms.
翻訳日:2023-11-13 18:51:10 公開日:2023-11-10
# 高次元進化PDEのためのパラメトリック解のニューラル制御

Neural Control of Parametric Solutions for High-dimensional Evolution PDEs ( http://arxiv.org/abs/2302.00045v2 )

ライセンス: Link先を確認
Nathan Gaby and Xiaojing Ye and Haomin Zhou(参考訳) 進化偏微分方程式(PDE)の解演算子を近似する新しい計算フレームワークを開発した。 ディープニューラルネットワークなどの一般的な非線形還元次モデルを用いて与えられたpdeの解を近似することにより,モデルパラメータの進化がパラメータ空間における制御問題であることを示す。 そこで本研究では,パラメータ空間の制御ベクトル場を学習することにより,PDEの解演算子を近似する手法を提案する。 任意の初期値から、この制御フィールドはパラメータを操り、対応する縮小順序モデルがPDEを解くような軌道を生成することができる。 これにより計算コストを大幅に削減し、任意の初期条件で進化PDEを解くことができる。 半線形放物型PDEの多種多様なクラスを解く際に,提案手法の総合的誤差解析も行う。 様々な初期条件の異なる高次元進化PDEに関する数値実験により,提案手法の有望な結果が示された。

We develop a novel computational framework to approximate solution operators of evolution partial differential equations (PDEs). By employing a general nonlinear reduced-order model, such as a deep neural network, to approximate the solution of a given PDE, we realize that the evolution of the model parameter is a control problem in the parameter space. Based on this observation, we propose to approximate the solution operator of the PDE by learning the control vector field in the parameter space. From any initial value, this control field can steer the parameter to generate a trajectory such that the corresponding reduced-order model solves the PDE. This allows for substantially reduced computational cost to solve the evolution PDE with arbitrary initial conditions. We also develop comprehensive error analysis for the proposed method when solving a large class of semilinear parabolic PDEs. Numerical experiments on different high-dimensional evolution PDEs with various initial conditions demonstrate the promising results of the proposed method.
翻訳日:2023-11-13 18:43:31 公開日:2023-11-10
# 本質多様体の平均等級

Average degree of the essential variety ( http://arxiv.org/abs/2212.01596v2 )

ライセンス: Link先を確認
Paul Breiding and Samantha Fairchild and Pierpaola Santarsiero and Elima Shehu(参考訳) 本質多様体は実射影空間$\mathbb R\mathrm P^{8}$における次元5$の代数的部分多様体であり、2つのキャリブレーションされたピンホールカメラの相対的なポーズを符号化する。 コンピュータビジョンにおける5$ポイントのアルゴリズムは、必須多様体の交叉における実点を5$の余次元の線型空間で計算する。 本質多様体の次数は10$なので、この交叉は一般に10の複素点からなる。 線形空間がランダムであるとき、実交叉点の期待数を計算する。 線形空間に対する2つの確率分布に注目した。 最初の分布は直交群 $\mathrm{O}(9)$ の作用の下で不変であり、$\mathbb R\mathrm P^{8}$ の線型空間上で作用する。 この場合、期待される実交点数は4ドルである。 第2の分布はコンピュータビジョンから動機づけられ、ランダムに画像平面 $\mathbb r\mathrm p^2\times \mathbb r\mathrm p^2$ で5点対応を選択することで定義される。 モンテカルロの計算によれば、高い確率で期待値は$(3.95 - 0.05,\ 3.95 + 0.05)$である。

The essential variety is an algebraic subvariety of dimension $5$ in real projective space $\mathbb R\mathrm P^{8}$ which encodes the relative pose of two calibrated pinhole cameras. The $5$-point algorithm in computer vision computes the real points in the intersection of the essential variety with a linear space of codimension $5$. The degree of the essential variety is $10$, so this intersection consists of 10 complex points in general. We compute the expected number of real intersection points when the linear space is random. We focus on two probability distributions for linear spaces. The first distribution is invariant under the action of the orthogonal group $\mathrm{O}(9)$ acting on linear spaces in $\mathbb R\mathrm P^{8}$. In this case, the expected number of real intersection points is equal to $4$. The second distribution is motivated from computer vision and is defined by choosing 5 point correspondences in the image planes $\mathbb R\mathrm P^2\times \mathbb R\mathrm P^2$ uniformly at random. A Monte Carlo computation suggests that with high probability the expected value lies in the interval $(3.95 - 0.05,\ 3.95 + 0.05)$.
翻訳日:2023-11-13 18:43:03 公開日:2023-11-10
# 線形力学系に対するマルチタスク模倣学習

Multi-Task Imitation Learning for Linear Dynamical Systems ( http://arxiv.org/abs/2212.00186v3 )

ライセンス: Link先を確認
Thomas T. Zhang, Katie Kang, Bruce D. Lee, Claire Tomlin, Sergey Levine, Stephen Tu and Nikolai Matni(参考訳) 線形システム上での効率的な模倣学習のための表現学習について検討する。 特に,学習を2つの段階に分けて考える。 (a)共有$k$次元表現が$H$ソースポリシーから学習される事前学習ステップ (b)ポリシークラスをパラメータ化するために学習表現を使用するターゲットポリシーの微調整ステップ。 学習対象ポリシーによって生成されたトラジェクトリの模倣ギャップは、$\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$は、学習中の各ポリシーで収集されたデータの総量を示し、$N_{\mathrm{target}}$はターゲットタスクデータの量である。 この結果は、関連するタスク間でデータを集約して表現を学ぶという直感を定式化することで、対象タスクを学習するサンプル効率を大幅に向上させることができる。 この境界によって示唆される傾向はシミュレーションで裏付けられている。

We study representation learning for efficient imitation learning over linear systems. In particular, we consider a setting where learning is split into two phases: (a) a pre-training step where a shared $k$-dimensional representation is learned from $H$ source policies, and (b) a target policy fine-tuning step where the learned representation is used to parameterize the policy class. We find that the imitation gap over trajectories generated by the learned target policy is bounded by $\tilde{O}\left( \frac{k n_x}{HN_{\mathrm{shared}}} + \frac{k n_u}{N_{\mathrm{target}}}\right)$, where $n_x > k$ is the state dimension, $n_u$ is the input dimension, $N_{\mathrm{shared}}$ denotes the total amount of data collected for each policy during representation learning, and $N_{\mathrm{target}}$ is the amount of target task data. This result formalizes the intuition that aggregating data across related tasks to learn a representation can significantly improve the sample efficiency of learning a target task. The trends suggested by this bound are corroborated in simulation.
翻訳日:2023-11-13 18:42:39 公開日:2023-11-10
# ブラックホールの補間を解き放つ

Unpacking Black Hole Complementarity ( http://arxiv.org/abs/2211.15650v2 )

ライセンス: Link先を確認
Siddharth Muthukrishnan(参考訳) ブラックホール情報のパラドックスは、量子力学の違反につながるのか? ブラックホールの相補性は、情報のパラドックスにもかかわらず、ブラックホールの量子的特徴がいかに一貫した状態を保つかを明確にするための枠組みを提供する。 ここでの一貫性の概念には,運用上の概念と記述的な概念という,2つの方法がある,と私は指摘する。 これらの一貫性についての2つの考え方は、(少なくとも)ブラックホール相補性の2つの原則(運用原理と記述原理)をもたらす。 現実主義/内在主義に関する科学の背景哲学は、最初は一つの原理を他方よりも優先するかもしれない。 しかし、近年の物理学文献では、量子情報理論や量子計算複雑性理論から、ブラックホール内や周辺の量子系を含む様々な思考実験に応用され、記述原理が存在しないところでは運用原理が成功していることを示唆している。 これにより、運用担当者にとって、ブラックホール情報パラドックスはもはや押し付けていないかもしれないことが分かる。

To what extent does the black hole information paradox lead to violations of quantum mechanics? I explain how black hole complementarity provides a framework to articulate how quantum characterizations of black holes can remain consistent despite the information paradox. I point out that there are two ways to cash out the notion of consistency in play here: an operational notion and a descriptive notion. These two ways of thinking about consistency lead to (at least) two principles of black hole complementarity: an operational principle and a descriptive principle. Our background philosophy of science regarding realism/instrumentalism might initially lead us to prefer one principle over the other. However, the recent physics literature, which applies tools from quantum information theory and quantum computational complexity theory to various thought experiments involving quantum systems in or around black holes, implies that the operational principle is successful where the descriptive principle is not. This then lets us see that for operationalists the black hole information paradox might no longer be pressing.
翻訳日:2023-11-13 18:42:09 公開日:2023-11-10
# 直交多項式近似アルゴリズム(OPAA):確率密度推定のための機能解析的アプローチ

Orthogonal Polynomials Approximation Algorithm (OPAA):a functional analytic approach to estimating probability densities ( http://arxiv.org/abs/2211.08594v2 )

ライセンス: Link先を確認
Lilian W. Bialokozowicz(参考訳) まず, 正規化か否かに関わらず, 密度関数のスムーズな関数的推定値を求める。次に, 正規化重量の推定値を提供する。 ベイズ推論の文脈では、opaaは後続関数と正規化重量の見積もりを提供するが、これは証拠としても知られている。 opaa の核成分は、ジョイント分布の平方根を我々の構成物の特殊機能空間へ特殊変換したものである。 この変換を通して、証拠は変換函数の$L^2$ノルムと同一視される。 したがって、この証拠は変換係数の平方の和によって推定できる。 計算は並列化され、1パスで完了する。 変換係数を計算するため、OPAAはガウス-ハーマイト二次方程式を高次元で活用する新しい計算手法を提案する。 ランダムサンプリング法に関連する潜在的な高分散問題を回避するだけでなく、並列化による計算の高速化を可能にし、ベクトル分解による複雑性を著しく低減する。

We present the new Orthogonal Polynomials Approximation Algorithm (OPAA), a parallelizable algorithm that solves two problems from a functional analytic approach: first, it finds a smooth functional estimate of a density function, whether it is normalized or not; second, the algorithm provides an estimate of the normalizing weight. In the context of Bayesian inference, OPAA provides an estimate of the posterior function as well as the normalizing weight, which is also known as the evidence. A core component of OPAA is a special transform of the square root of the joint distribution into a special functional space of our construct. Through this transform, the evidence is equated with the $L^2$ norm of the transformed function, squared. Hence, the evidence can be estimated by the sum of squares of the transform coefficients. The computations can be parallelized and completed in one pass. To compute the transform coefficients, OPAA proposes a new computational scheme leveraging Gauss--Hermite quadrature in higher dimensions. Not only does it avoid the potential high variance problem associated with random sampling methods, it also enables one to speed up the computation by parallelization, and significantly reduces the complexity by a vector decomposition.
翻訳日:2023-11-13 18:41:53 公開日:2023-11-10
# NESTER:因果効果推定のための適応的ニューロシンボリック法

NESTER: An Adaptive Neurosymbolic Method for Causal Effect Estimation ( http://arxiv.org/abs/2211.04370v4 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Vineeth N Balasubramanian(参考訳) 観測データからの因果効果推定は因果推論の中心的な問題である。 潜在的な結果の枠組みに基づく手法は、因果推論から帰納的バイアスとヒューリスティックスを利用してこの問題を解決する。 これらの手法は、ニューラルネットワーク(NN)アーキテクチャと正規化器を設計することにより、確率スコアの制御、ランダム化の強制など、因果効果推定の特定の側面に対処する。 本稿では,因果効果推定の一般化手法であるニューロシンボリック因果効果推定器(nester)と呼ばれる適応的手法を提案する。 NESTERは、マルチヘッドNNに基づく既存の手法で使われているアイデアを1つのフレームワークに統合する。 文献における因果帰納バイアスに基づく因果効果推定に適したドメイン固有言語(DSL)を設計する。 我々はNESTERの因果効果を推定するための理論的解析を行った。 総合的な実験結果から,nesterはベンチマークデータセットにおいて最先端のメソッドよりも優れた性能を示す。

Causal effect estimation from observational data is a central problem in causal inference. Methods based on potential outcomes framework solve this problem by exploiting inductive biases and heuristics from causal inference. Each of these methods addresses a specific aspect of causal effect estimation, such as controlling propensity score, enforcing randomization, etc., by designing neural network (NN) architectures and regularizers. In this paper, we propose an adaptive method called Neurosymbolic Causal Effect Estimator (NESTER), a generalized method for causal effect estimation. NESTER integrates the ideas used in existing methods based on multi-head NNs for causal effect estimation into one framework. We design a Domain Specific Language (DSL) tailored for causal effect estimation based on causal inductive biases used in literature. We conduct a theoretical analysis to investigate NESTER's efficacy in estimating causal effects. Our comprehensive empirical results show that NESTER performs better than state-of-the-art methods on benchmark datasets.
翻訳日:2023-11-13 18:41:36 公開日:2023-11-10
# $\sqrt{T}$ Regret を用いた分散線形二次レギュレータの学習

Learning Decentralized Linear Quadratic Regulator with $\sqrt{T}$ Regret ( http://arxiv.org/abs/2210.08886v2 )

ライセンス: Link先を確認
Lintao Ye, Ming Chi, Ruiquan Liao, Vijay Gupta(参考訳) システムモデルが未知である場合の分散線形二次レギュレータの学習の問題について検討する。 本研究では,単一のシステム軌道からの新しいデータサンプルが利用可能になるにつれて,制御ポリシーを適応的に設計するオンライン学習アルゴリズムを提案する。 アルゴリズム設計では、状態フィードバックコントローラの外乱フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。 我々のコントローラは、部分的にネストされた情報パターンの場合、時間軸の$T$で$\sqrt{T}$までスケールする期待された後悔を楽しんでいます。 より一般的な情報パターンでは、システムモデルが分かっていても最適コントローラは未知である。 この場合、線形準最適制御器に関して、制御器の後悔が示される。 数値実験を用いて理論的知見を検証する。

We study the problem of learning decentralized linear quadratic regulator when the system model is unknown a priori. We propose an online learning algorithm that adaptively designs a control policy as new data samples from a single system trajectory become available. Our algorithm design uses a disturbance-feedback representation of state-feedback controllers coupled with online convex optimization with memory and delayed feedback. We show that our controller enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon $T$ for the case of partially nested information pattern. For more general information patterns, the optimal controller is unknown even if the system model is known. In this case, the regret of our controller is shown with respect to a linear sub-optimal controller. We validate our theoretical findings using numerical experiments.
翻訳日:2023-11-13 18:41:08 公開日:2023-11-10
# アシフ氏:連結データはトレーニングなしでユニモーダルモデルをマルチモーダルに変える

ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training ( http://arxiv.org/abs/2210.01738v3 )

ライセンス: Link先を確認
Antonio Norelli, Marco Fumero, Valentino Maiorca, Luca Moschella, Emanuele Rodol\`a, Francesco Locatello(参考訳) CLIPは、視覚と言語空間の整合性は、明示的なトレーニングなしに多くの視覚タスクを解決する上で鍵となるが、巨大なデータセットで画像とテキストエンコーダをスクラッチからトレーニングする必要があることを証明した。 LiTはテキストエンコーダをトレーニングし、事前訓練されたビジョンネットワークを使用することでこれを改善した。 本稿では、単一ドメインエンコーダ(監督の有無にかかわらず)と画像とテキストのペアを全く訓練せずに共有空間を作成することができることを示す。 さらに,モデルにはユニークな特性がある。 最も注目すべきは、トレーニングサンプルが更新された新バージョンのデプロイを数秒で行えることだ。 さらに、共通空間における表現は、すべての次元が、マルチモーダルデータセットにおけるユニークな画像テキスト対への入力の類似性に対応するため、容易に解釈できる。 標準ゼロショットビジュアルベンチマークの実験は、画像テキストモデルの典型的な転送能力を示している。 全体として,本手法は,基礎的マルチモーダルモデルにおいて,シンプルながら驚くほど強力なベースラインであり,データ効率や機械学習における検索の役割について重要な疑問を提起する。

CLIP proved that aligning visual and language spaces is key to solving many vision tasks without explicit training, but required to train image and text encoders from scratch on a huge dataset. LiT improved this by only training the text encoder and using a pre-trained vision network. In this paper, we show that a common space can be created without any training at all, using single-domain encoders (trained with or without supervision) and a much smaller amount of image-text pairs. Furthermore, our model has unique properties. Most notably, deploying a new version with updated training samples can be done in a matter of seconds. Additionally, the representations in the common space are easily interpretable as every dimension corresponds to the similarity of the input to a unique image-text pair in the multimodal dataset. Experiments on standard zero-shot visual benchmarks demonstrate the typical transfer ability of image-text models. Overall, our method represents a simple yet surprisingly strong baseline for foundation multimodal models, raising important questions on their data efficiency and on the role of retrieval in machine learning.
翻訳日:2023-11-13 18:40:52 公開日:2023-11-10
# ダイヤモンドの浅い窒素空洞中心の電荷安定性と電荷状態に基づくスピン読み出し

Charge stability and charge-state-based spin readout of shallow nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2208.14154v2 )

ライセンス: Link先を確認
Rakshyakar Giri, Rasmus H. Jensen, Deepak Khurana, Juanita Bocquel, Ilya P. Radko, Johannes Lang, Christian Osterkamp, Fedor Jelezko, Kirstine Berg-Sorensen, Ulrik L. Andersen, and Alexander Huck(参考訳) ダイヤモンド中の負電荷窒素空孔(nv)中心のスピンベースの応用には効率的なスピン読み出しが必要である。 1つのアプローチはスピン・ツー・チャージ変換(SCC)であり、スピン状態が中性(NV$^0$)および負(NV$^-$)の電荷状態にマッピングされ、続いて電荷が読み出される。 高電荷状態の安定性により、sccは測定時間を延長し、精度を高め、一般的な蛍光検出に比べて読み出しのノイズを最小化することができる。 しかし、ナノスケールのセンシング応用では、表面に関連した効果がnv電荷状態を劣化させる可能性がある表面から数ドルのsi{\nano \meter}$ 以内の浅いnv中心が必要である。 本稿では,単層nv中心の電荷状態の初期化と安定性について,平板の表面に約$\approx \si{5}{\nano \meter}$を埋設した。 ナノスケールセンシングに適した4つの浅いNV中心でSCCプロトコルを実証し,スピン投射雑音限界の5~6倍の読み出し雑音を求める。 浅部NV中心に対するSCCの適用性について検討し,NV帯電状態安定性と読み出し雑音との相関について検討した。 グリセロールでダイヤモンドをコーティングすると、電荷初期化と安定性が向上する。 以上の結果から, 表面電荷環境がNV帯電特性に及ぼす影響を明らかにするとともに, ナノスケールセンシングに適した浅いNV中心の静電安定化とスピン状態の効率向上を目的として, ダイヤモンド表面をグリセロールなどの材料で機能化するためのさらなる研究を動機づけた。

Spin-based applications of the negatively charged nitrogen-vacancy (NV) center in diamonds require efficient spin readout. One approach is the spin-to-charge conversion (SCC), relying on mapping the spin states onto the neutral (NV$^0$) and negative (NV$^-$) charge states followed by a subsequent charge readout. With high charge-state stability, SCC enables extended measurement times, increasing precision and minimizing noise in the readout compared to the commonly used fluorescence detection. Nano-scale sensing applications, however, require shallow NV centers within a few $\si{\nano \meter}$ distance from the surface where surface related effects might degrade the NV charge state. In this article, we investigate the charge state initialization and stability of single NV centers implanted $\approx \SI{5}{\nano \meter}$ below the surface of a flat diamond plate. We demonstrate the SCC protocol on four shallow NV centers suitable for nano-scale sensing, obtaining a reduced readout noise of 5--6 times the spin-projection noise limit. We investigate the general applicability of SCC for shallow NV centers and observe a correlation between NV charge-state stability and readout noise. Coating the diamond with glycerol improves both charge initialization and stability. Our results reveal the influence of the surface-related charge environment on the NV charge properties and motivate further investigations to functionalize the diamond surface with glycerol or other materials for charge-state stabilization and efficient spin-state readout of shallow NV centers suitable for nano-scale sensing.
翻訳日:2023-11-13 18:40:15 公開日:2023-11-10
# 解釈可能な埋め込みのための(un)likelihood training

(Un)likelihood Training for Interpretable Embedding ( http://arxiv.org/abs/2207.00282v3 )

ライセンス: Link先を確認
Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan and Zhijian Hou(参考訳) クロスモーダル表現学習は,テキストと視覚データ間の意味的ギャップを埋めるための新しい標準となった。 しかしながら、連続的な潜在空間におけるモダリティ非依存表現の学習は、しばしばブラックボックスのデータ駆動トレーニングプロセスとして扱われる。 表現学習の有効性は,トレーニングデータの質や規模に大きく依存していることが知られている。 映像表現学習では,学習のための映像コンテンツの完全なスペクトルを注釈するラベルの完全なセットを持つことは,不可能ではないにせよ極めて困難である。 これらの問題、ブラックボックストレーニングとデータセットバイアスは、説明不能で予測不可能な結果のため、ビデオ理解のために表現学習を実際に展開することが困難である。 本稿では,ラベル空間の問題に対処しながら,埋め込みの背後にある意味を解き放つための2つの新しい訓練目標,可能性と相違点を提案する。 機会訓練は、ラベル以外の埋め込みの意味を解釈することを目的としており、違和感訓練は、正規化のための事前知識を活用して意味的に一貫性のある解釈を保証する。 双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが提案されている。 TRECVidとMSR-VTTデータセットの大規模な実験により、提案されたネットワークは、統計的に有意な性能マージンを持つ最先端の検索モデルよりも優れていることが示された。

Cross-modal representation learning has become a new normal for bridging the semantic gap between text and visual data. Learning modality agnostic representations in a continuous latent space, however, is often treated as a black-box data-driven training process. It is well-known that the effectiveness of representation learning depends heavily on the quality and scale of training data. For video representation learning, having a complete set of labels that annotate the full spectrum of video content for training is highly difficult if not impossible. These issues, black-box training and dataset bias, make representation learning practically challenging to be deployed for video understanding due to unexplainable and unpredictable results. In this paper, we propose two novel training objectives, likelihood and unlikelihood functions, to unroll semantics behind embeddings while addressing the label sparsity problem in training. The likelihood training aims to interpret semantics of embeddings beyond training labels, while the unlikelihood training leverages prior knowledge for regularization to ensure semantically coherent interpretation. With both training objectives, a new encoder-decoder network, which learns interpretable cross-modal representation, is proposed for ad-hoc video search. Extensive experiments on TRECVid and MSR-VTT datasets show the proposed network outperforms several state-of-the-art retrieval models with a statistically significant performance margin.
翻訳日:2023-11-13 18:39:04 公開日:2023-11-10
# 熱電場浴中における移動2レベル原子の絡み合い状態ダイナミクス

Entangled states dynamics of moving two-level atoms in a thermal field bath ( http://arxiv.org/abs/2303.10618v2 )

ライセンス: Link先を確認
Nikolaos Papadatos, Dimitris Moustos(参考訳) 熱状態において質量のないスカラー場と相互作用しながら、一定速度のワードラインに従う2段階の原子を考える。 (i)Unruh-DeWitt結合、及び (ii)場の時間微分を含む結合。 我々は、原子をオープン量子系として扱い、場が環境の役割を担い、その時間進化を記述するためにマスター方程式を用いる。 本研究では, 移動原子と(二次)量子ビットの静止状態における絡み合いのダイナミクスについて検討し, 熱場から分離した。 標準のUnruh-DeWitt結合や高温の環境では、原子の動きによって絡み合いの減衰が遅れることが判明した。 代わりに、誘導体結合の場合、原子の動きは常に絡み合いの急激な死を引き起こす。

We consider a two-level atom that follows a wordline of constant velocity, while interacting with a massless scalar field in a thermal state through: (i) an Unruh-DeWitt coupling, and (ii) a coupling that involves the time derivative of the field. We treat the atom as an open quantum system, with the field playing the role of the environment, and employ a master equation to describe its time evolution. We study the dynamics of entanglement between the moving atom and a (auxiliary) qubit at rest and isolated from the thermal field. We find that in the case of the standard Unruh-DeWitt coupling and for high temperatures of the environment the decay of entanglement is delayed due to the atom's motion. Instead, in the derivative coupling case, the atom's motion always causes the rapid death of entanglement.
翻訳日:2023-11-13 18:29:55 公開日:2023-11-10
# 時間領域シミュレーションのための物理形ニューラルネットワーク : 精度、計算コスト、柔軟性

Physics-Informed Neural Networks for Time-Domain Simulations: Accuracy, Computational Cost, and Flexibility ( http://arxiv.org/abs/2303.08994v2 )

ライセンス: Link先を確認
Jochen Stiasny and Spyros Chatzivasileiadis(参考訳) 電力系統のダイナミクスのシミュレーションは計算コストの高いタスクをもたらす。 発電と需要パターンの不確実性の増加を考慮すると、電力システムの安全性を確保するために数千のシナリオを継続的に評価する必要がある。 物理インフォームドニューラルネットワーク(PINN)は,非線形力学系の計算を劇的に高速化する,有望なソリューションとして最近登場した。 本研究では,負荷変動に対する動的応答に着目し,これらの手法の適用性を検討した。 従来の解法と比較して, PINNは従来の解法に比べて10倍から1000倍高速であることがわかった。 同時に,大規模なステップでも十分に正確で数値的に安定であることが判明した。 そこで本研究では,損失関数に勾配に基づく項を導入することにより,ニューラルネットワーク(NN)トレーニングの新たな正規化を提案する。 dtNNと呼ばれる結果のNNは、NNベースのアプローチの長所と短所に関する包括的な分析、基礎となる物理学の知識がNNのパフォーマンスにどのように影響するか、そしてこれが従来の電力系統力学の解法と比較するのに役立つ。

The simulation of power system dynamics poses a computationally expensive task. Considering the growing uncertainty of generation and demand patterns, thousands of scenarios need to be continuously assessed to ensure the safety of power systems. Physics-Informed Neural Networks (PINNs) have recently emerged as a promising solution for drastically accelerating computations of non-linear dynamical systems. This work investigates the applicability of these methods for power system dynamics, focusing on the dynamic response to load disturbances. Comparing the prediction of PINNs to the solution of conventional solvers, we find that PINNs can be 10 to 1000 times faster than conventional solvers. At the same time, we find them to be sufficiently accurate and numerically stable even for large time steps. To facilitate a deeper understanding, this paper also present a new regularisation of Neural Network (NN) training by introducing a gradient-based term in the loss function. The resulting NNs, which we call dtNNs, help us deliver a comprehensive analysis about the strengths and weaknesses of the NN based approaches, how incorporating knowledge of the underlying physics affects NN performance, and how this compares with conventional solvers for power system dynamics.
翻訳日:2023-11-13 18:29:42 公開日:2023-11-10
# 最大平均偏差測度の半ベイズ非パラメトリック推定器:適合性テストと生成的逆ネットワークへの応用

A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial Networks ( http://arxiv.org/abs/2303.02637v2 )

ライセンス: Link先を確認
Forough Fazeli-Asl, Michael Minyi Zhang, Lizhen Lin(参考訳) 古典的推論統計問題は、好適性テスト(GoF)である。 このようなテストは、仮定されたパラメトリックモデルが難解な可能性を持ち、その分布形式が得られない場合に難しい。 GOFのベイズ的手法は、事前の分布を通して専門家の知識を組み込む能力によって魅力的である。 しかし、このテストの標準的なベイズ法は、しばしばデータとその関連するパラメータについて強い分布仮定を必要とする。 この問題に対処するため,我々は,gofテストに適用可能な最大平均差(mmd)尺度の文脈において,半ベイズ型非パラメトリック(semi-bnp)手順を提案する。 本手法は,mmdのための新しいベイズ推定器を導入し,難解なモデルに対する測度ベース仮説テストの開発を可能にする。 実験の結果,提案手法は誤認率と誤認率を下げることにより,頻繁なMDD法よりも優れていることが示された。 さらに,提案した推定器をGAN(Generative Adversarial Network)フレームワークに組み込むことにより,本手法の汎用性を示す。 提案手法の別の重要な応用として,頑健なBNP学習アプローチを促進する。 我々のBNP法では,新しいGAN法によりサンプルの多様性が向上し,従来の手法と比較して推論精度が向上する。

A classic inferential statistical problem is the goodness-of-fit (GOF) test. Such a test can be challenging when the hypothesized parametric model has an intractable likelihood and its distributional form is not available. Bayesian methods for GOF can be appealing due to their ability to incorporate expert knowledge through prior distributions. However, standard Bayesian methods for this test often require strong distributional assumptions on the data and their relevant parameters. To address this issue, we propose a semi-Bayesian nonparametric (semi-BNP) procedure in the context of the maximum mean discrepancy (MMD) measure that can be applied to the GOF test. Our method introduces a novel Bayesian estimator for the MMD, enabling the development of a measure-based hypothesis test for intractable models. Through extensive experiments, we demonstrate that our proposed test outperforms frequentist MMD-based methods by achieving a lower false rejection and acceptance rate of the null hypothesis. Furthermore, we showcase the versatility of our approach by embedding the proposed estimator within a generative adversarial network (GAN) framework. It facilitates a robust BNP learning approach as another significant application of our method. With our BNP procedure, this new GAN approach can enhance sample diversity and improve inferential accuracy compared to traditional techniques.
翻訳日:2023-11-13 18:29:02 公開日:2023-11-10
# 量子力学と古典力学の波動作用素表現

The wave operator representation of quantum and classical dynamics ( http://arxiv.org/abs/2302.13208v4 )

ライセンス: Link先を確認
Gerard McCaul, Dmitry V. Zhdanov, Denys I. Bondar(参考訳) 物理系を記述する際の数学的表現の選択は大きな結果であり、この選択は通常、目の前の問題の性質によって決定される。 ここでは、量子力学のほとんど知られていない波動演算子表現を調べ、量子力学の標準的な方法との接続について検討する。 この方法は密度行列の平方根を中心対象とし、標準表現よりもいくつかの特異な利点を享受する。 これを量子情報から抽出した浄化技術と組み合わせることで、多くの結果を得ることができる。 この形式主義は、位相とヒルベルト空間の量子力学と古典力学の両方の自然な橋渡しを提供するだけでなく、ウェーブ演算表現は、実時間力学と虚時間力学の両方の新たな半古典的近似を導き、古典的極限への透過的な対応をもたらす。 これは2次および4次ハミルトニアンの例を通して実証され、ウェーブ演算子のポテンシャル拡張とその量子古典ハイブリッドへの応用について論じられる。 我々は、ウェーブ演算子は、それまで無関係な表現をリンクする新しい視点を提供し、肯定性が保証されないシナリオ(ハイブリッドなど)の自然な候補モデルであると主張する。

The choice of mathematical representation when describing physical systems is of great consequence, and this choice is usually determined by the properties of the problem at hand. Here we examine the little-known wave operator representation of quantum dynamics, and explore its connection to standard methods of quantum dynamics. This method takes as its central object the square root of the density matrix, and consequently enjoys several unusual advantages over standard representations. By combining this with purification techniques imported from quantum information, we are able to obtain a number of results. Not only is this formalism able to provide a natural bridge between phase and Hilbert space representations of both quantum and classical dynamics, we also find the waveoperator representation leads to novel semiclassical approximations of both real and imaginary time dynamics, as well as a transparent correspondence to the classical limit. This is demonstrated via the example of quadratic and quartic Hamiltonians, while the potential extensions of the waveoperator and its application to quantum-classical hybrids is discussed. We argue that the wave operator provides a new perspective that links previously unrelated representations, and is a natural candidate model for scenarios (such as hybrids) in which positivity cannot be otherwise guaranteed.
翻訳日:2023-11-13 18:28:39 公開日:2023-11-10
# グラフに基づく時空間予測における局所的効果の減衰

Taming Local Effects in Graph-based Spatiotemporal Forecasting ( http://arxiv.org/abs/2302.04071v2 )

ライセンス: Link先を確認
Andrea Cini, Ivan Marisca, Daniele Zambon, Cesare Alippi(参考訳) 時空間グラフニューラルネットワークは時系列予測アプリケーションに有効であることが示されており、いくつかの設定で標準の単変量予測よりも優れたパフォーマンスを実現している。 これらのアーキテクチャはグラフ構造と関係帰納バイアスを利用して単一の(グローバル)帰納モデルを学び、グラフノードに関連付けられた入力時系列の任意の数を予測する。 局所モデルの集合に適合する計算とデータ効率において達成された利益にもかかわらず、時系列の一部が異なる時空間確率過程によって生成される場合、単一のグローバルモデルに依存することは制限となる。 本稿では,グラフに基づく時空間予測におけるグローバル性と局所性の相互作用を理解すると同時に,学習可能なノード埋め込みを含む実践を合理化する方法論的枠組みを提案する。 訓練可能なノードを埋め込み、特殊なコンポーネントの学習を暗記する役割を担います。 さらに、埋め込みが許される 1)共有メッセージパス層とノード固有パラメータの利点を効果的に結合する 2)学習したモデルを新しいノード集合に効率的に転送する。 強力な実証的証拠によって支持され、グラフベースのモデルを各時系列のダイナミクスに特殊化する洞察とガイドラインを提供し、この側面が正確な予測を得る上で重要な役割を果たすことを示す。

Spatiotemporal graph neural networks have shown to be effective in time series forecasting applications, achieving better performance than standard univariate predictors in several settings. These architectures take advantage of a graph structure and relational inductive biases to learn a single (global) inductive model to predict any number of the input time series, each associated with a graph node. Despite the gain achieved in computational and data efficiency w.r.t. fitting a set of local models, relying on a single global model can be a limitation whenever some of the time series are generated by a different spatiotemporal stochastic process. The main objective of this paper is to understand the interplay between globality and locality in graph-based spatiotemporal forecasting, while contextually proposing a methodological framework to rationalize the practice of including trainable node embeddings in such architectures. We ascribe to trainable node embeddings the role of amortizing the learning of specialized components. Moreover, embeddings allow for 1) effectively combining the advantages of shared message-passing layers with node-specific parameters and 2) efficiently transferring the learned model to new node sets. Supported by strong empirical evidence, we provide insights and guidelines for specializing graph-based models to the dynamics of each time series and show how this aspect plays a crucial role in obtaining accurate predictions.
翻訳日:2023-11-13 18:27:47 公開日:2023-11-10
# LExecutor:学習ガイドによる実行

LExecutor: Learning-Guided Execution ( http://arxiv.org/abs/2302.02343v4 )

ライセンス: Link先を確認
Beatriz Souza and Michael Pradel(参考訳) コードの実行は、様々なプログラム解析タスク、例えば例外を通じて現れるバグの検出や、さらなる動的解析のために実行トレースを取得するために不可欠である。 しかし、変数定義の欠如、ユーザ入力の欠如、サードパーティの依存関係の欠如など、任意のコードを実行することは現実的には難しいことが多い。 本稿では,任意のコードスニペットを制約の少ない方法で実行するための学習誘導型LExecutorを提案する。 キーとなるアイデアは、プログラムが停止する原因となる欠落した値をニューラルモデルに予測させ、これらの値を実行に注入することです。 例えば、LExecutorは、そうでなければ未定義変数の可能性のある値を注入し、そうでない関数に呼び出しの値を返す。 人気のあるオープンソースプロジェクトのpythonコードとstack overflowから抽出したコードスニペットのアプローチを評価した。 ニューラルネットワークは79.5%から98.2%の精度で現実的な値を予測し、LExecutorは実際の実行を忠実に模倣することができる。 その結果、このアプローチは、コードをas-isで単に実行するなど、利用可能なテクニックよりもはるかに多くのコードを実行することに成功した。 例えば、オープンソースのコードスニペットは早期にクラッシュするため、全行の4.1%しかカバーしていないが、LExecutorは51.6%のカバレッジを達成している。

Executing code is essential for various program analysis tasks, e.g., to detect bugs that manifest through exceptions or to obtain execution traces for further dynamic analysis. However, executing an arbitrary piece of code is often difficult in practice, e.g., because of missing variable definitions, missing user inputs, and missing third-party dependencies. This paper presents LExecutor, a learning-guided approach for executing arbitrary code snippets in an underconstrained way. The key idea is to let a neural model predict missing values that otherwise would cause the program to get stuck, and to inject these values into the execution. For example, LExecutor injects likely values for otherwise undefined variables and likely return values of calls to otherwise missing functions. We evaluate the approach on Python code from popular open-source projects and on code snippets extracted from Stack Overflow. The neural model predicts realistic values with an accuracy between 79.5% and 98.2%, allowing LExecutor to closely mimic real executions. As a result, the approach successfully executes significantly more code than any available technique, such as simply executing the code as-is. For example, executing the open-source code snippets as-is covers only 4.1% of all lines, because the code crashes early on, whereas LExecutor achieves a coverage of 51.6%.
翻訳日:2023-11-13 18:27:25 公開日:2023-11-10
# レコメンデーションシステムにおける露出制約による学習

Learning with Exposure Constraints in Recommendation Systems ( http://arxiv.org/abs/2302.01377v2 )

ライセンス: Link先を確認
Omer Ben-Porat and Rotem Torkan(参考訳) 勧告システムは、複数の利害関係者のニーズのバランスをとる動的な経済システムである。 最近の研究は、コンテンツ提供者の視点によるインセンティブの研究である。 コンテンツプロバイダ(vloggersやbloggersなど)は、新鮮なコンテンツを提供し、ユーザーエンゲージメントを頼りに収益を創出し、運営に資金を提供する。 本研究では,コンテントプロバイダの露出依存性をモデル化するためのコンテキスト的マルチアームバンディット設定を提案する。 本モデルでは,各ラウンドでユーザコンテキストを受信し,各アームを選択する必要がある。 すべてのarmはコンテンツプロバイダであり、一定期間(例えば1ヶ月)ごとに最小数のプルを受け取り、後続のラウンドで存続しなければならない。 本システムは,利用者の福祉を最大化することを目的とする。 そのためには、どの腕が不可欠かを学び、必要であれば腕の引っ張りを補助することで、それを確実に維持する必要がある。 我々は,アルゴリズムが対数的因子に最適であることを示す下位境界とともに,サブ線形後悔を伴うアルゴリズムを開発する。

Recommendation systems are dynamic economic systems that balance the needs of multiple stakeholders. A recent line of work studies incentives from the content providers' point of view. Content providers, e.g., vloggers and bloggers, contribute fresh content and rely on user engagement to create revenue and finance their operations. In this work, we propose a contextual multi-armed bandit setting to model the dependency of content providers on exposure. In our model, the system receives a user context in every round and has to select one of the arms. Every arm is a content provider who must receive a minimum number of pulls every fixed time period (e.g., a month) to remain viable in later rounds; otherwise, the arm departs and is no longer available. The system aims to maximize the users' (content consumers) welfare. To that end, it should learn which arms are vital and ensure they remain viable by subsidizing arm pulls if needed. We develop algorithms with sub-linear regret, as well as a lower bound that demonstrates that our algorithms are optimal up to logarithmic factors.
翻訳日:2023-11-13 18:26:43 公開日:2023-11-10
# 測定ベース量子熱機械における$\mathcal{PT}$-symmetric効果

$\mathcal{PT}$-symmetric effects in measurement-based quantum thermal machines ( http://arxiv.org/abs/2302.01181v2 )

ライセンス: Link先を確認
Jonas F. G. Santos, Pritam Chattopadhyay(参考訳) 測定ベースの量子熱機械は、測定プロトコルがサイクルのパフォーマンスと機能に重要な役割を果たす熱力学サイクルの魅力的なモデルである。 理論的進歩にもかかわらず、興味深い実験的な実装が報告されている。 ここでは、このサイクルのクラス $\mathcal{pt}$-symmetric non-hermitian hamiltonian と一般化された測定によって加速される量子熱機械におけるそれらの意味を考えることにより、さらに一歩前進する。 我々は,$\mathcal{pt}$-symmetric 効果と測定プロトコルがサイクルに沿って関連していることを示す理論的結果を示す。 さらに、パラメータを適切にチューニングすることで、オットー極限で動作する出力(エンジン構成)と冷却速度(冷凍機構成)を量子断熱定理を満たす有限時間サイクルで改善することができる。 また, 測定プロトコルの強度に応じて, サイクル, エンジン, 冷蔵庫の構成を切り替えることもできる。

Measurement-based quantum thermal machines are fascinating models of thermodynamic cycles where measurement protocols play an important role in the performance and functioning of the cycle. Despite theoretical advances, interesting experimental implementations have been reported. Here we move a step further by considering in this class of cycle $\mathcal{PT}$-symmetric non-Hermitian Hamiltonians and their implications in quantum thermal machines fueled by generalized measurements. We present theoretical results indicating that $\mathcal{PT}$-symmetric effects and measurement protocols are related along the cycle. Furthermore, tuning the parameters suitably it is possible to improve the power output (engine configuration) and the cooling rate (refrigerator configuration), operating in the Otto limit, in a finite-time cycle that satisfies the quantum adiabatic theorem. Our model also allows switching the configuration of the cycle, engine, or refrigerator, depending on the strength of the measurement protocol.
翻訳日:2023-11-13 18:26:25 公開日:2023-11-10
# mix-of-show:拡散モデルのマルチコンセプタカスタマイズのための分散低ランク適応

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models ( http://arxiv.org/abs/2305.18292v2 )

ライセンス: Link先を確認
Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou(参考訳) 安定拡散のような公共の大規模テキスト・画像拡散モデルは、コミュニティから大きな注目を集めている。 これらのモデルはローランク適応(loras)を使用して新しい概念に容易にカスタマイズできる。 しかしながら、複数のカスタマイズされた概念を共同でサポートする複数の概念ロラスの利用が課題となっている。 このシナリオを、単一クライアントの概念チューニングと中心ノードの概念融合を含む分散マルチコンセプトカスタマイズと呼ぶ。 本稿では,既存の単一クライアントloraチューニングとモデル融合時のid損失による概念衝突を含む,分散マルチコンセプタカスタマイズの課題を解決するmix-of-showと呼ばれる新しいフレームワークを提案する。 Mix-of-Showは、単一の概念のドメイン内の本質を保ち、理論的に制限のない概念融合をサポートするために、中心ノードの単一サイクルチューニングと勾配融合のために埋め込み分解されたLoRA(ED-LoRA)を採用する。 さらに,マルチコンセプタサンプリングにおける属性バインディングやオブジェクト不足問題に対処するために,空間的に制御可能なサンプリング(例えば controlnet や t2i-adaptor)を拡張した局所制御可能なサンプリングを導入する。 大規模な実験では、Mix-of-Showは複数のカスタマイズされたコンセプトを、キャラクター、オブジェクト、シーンを含む高い忠実度で構成できることを示した。

Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.
翻訳日:2023-11-13 18:18:43 公開日:2023-11-10
# 多言語機械翻訳におけるバイアスの緩和のための目標非依存性学習

Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in Multilingual Machine Translation ( http://arxiv.org/abs/2305.14016v2 )

ライセンス: Link先を確認
Minwoo Lee, Hyukhun Koh, Kang-il Lee, Dongdong Zhang, Minsung Kim, Kyomin Jung(参考訳) ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。 しかし、ほとんどの作品は多言語系をあまり考慮せずにバイリンガルモデルをデバイアスすることに焦点を当てている。 本稿では,1つの正しい翻訳が存在するあいまいなケースに対して,多言語機械翻訳モデルの性別バイアス問題を特に対象とし,新しいアプローチに基づくバイアス軽減手法を提案する。 具体的には,文脈性情報を非言語性単語の表現にエンコードする,性認識型コントラスト学習(gacl)を提案する。 本手法は言語に依存せず,事前学習された多言語機械翻訳モデルに適用できる。 本手法は多言語評価により, 翻訳性能を損なうことなく, 男女差を広く改善できることを示す。 また、性別情報伝達が組み込まれていることも観察し、性別の正確性に関する他の対象言語に便益をもたらす。 最後に,本手法が様々なサイズのモデルに適用可能であることを示す。

Gender bias is a significant issue in machine translation, leading to ongoing research efforts in developing bias mitigation techniques. However, most works focus on debiasing bilingual models without much consideration for multilingual systems. In this paper, we specifically target the gender bias issue of multilingual machine translation models for unambiguous cases where there is a single correct translation, and propose a bias mitigation method based on a novel approach. Specifically, we propose Gender-Aware Contrastive Learning, GACL, which encodes contextual gender information into the representations of non-explicit gender words. Our method is target language-agnostic and is applicable to pre-trained multilingual machine translation models via fine-tuning. Through multilingual evaluation, we show that our approach improves gender accuracy by a wide margin without hampering translation performance. We also observe that incorporated gender information transfers and benefits other target languages regarding gender accuracy. Finally, we demonstrate that our method is applicable and beneficial to models of various sizes.
翻訳日:2023-11-13 18:17:45 公開日:2023-11-10
# 微細化を伴わない構造化NLPタスクの文法制約デコーディング

Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning ( http://arxiv.org/abs/2305.13971v5 )

ライセンス: Link先を確認
Saibo Geng, Martin Josifoski, Maxime Peyrard, Robert West(参考訳) 印象的なパフォーマンスにもかかわらず、大きな言語モデル(lms)は、必要な出力形式に正確に従わない場合にも、複雑な出力構造を確実に生成するのに苦労している。 この問題に対処するために、文法制約付き復号 (gcd) は lms の生成を制御するために用いられ、出力が所定の構造に従うことを保証している。 しかし、既存のgcdメソッドの多くはパースやコード生成といった特定のタスクに限定されている。 本研究では,より広い範囲のタスクに対して,形式文法が出力空間を記述できることを示し,GCDが一般に構造化NLPタスクの統一フレームワークとして機能できることを論じる。 柔軟性を高めるために, 文法が入力に依存することを許容し, 異なる入力に対する異なる出力構造の生成を可能にする, 入力依存文法を導入する。 そして,(1)情報抽出,(2)エンティティの曖昧さ,(3)選挙区解析におけるGCD強化LMのパワーと柔軟性を実証的に実証した。 その結果,文法制約のLMは非制約のLMよりもかなり優れており,タスク固有の微調整モデルよりも優れていた。 文法制約は、特にトレーニングデータが少ない場合や微調整が高価である場合など、幅広い構造化されたNLPタスクに対して、既製のLMを利用することを大いに約束する。 コードとデータ:https://github.com/epfl-dlab/GCD。

Despite their impressive performance, large language models (LMs) still struggle with reliably generating complex output structures when not finetuned to follow the required output format exactly. To address this issue, grammar-constrained decoding (GCD) can be used to control the generation of LMs, guaranteeing that the output follows a given structure. Most existing GCD methods are, however, limited to specific tasks, such as parsing or code generation. In this work, we demonstrate that formal grammars can describe the output space for a much wider range of tasks and argue that GCD can serve as a unified framework for structured NLP tasks in general. For increased flexibility, we introduce input-dependent grammars, which allow the grammar to depend on the input and thus enable the generation of different output structures for different inputs. We then empirically demonstrate the power and flexibility of GCD-enhanced LMs on (1) information extraction, (2) entity disambiguation, and (3) constituency parsing. Our results indicate that grammar-constrained LMs substantially outperform unconstrained LMs or even beat task-specific finetuned models. Grammar constraints thus hold great promise for harnessing off-the-shelf LMs for a wide range of structured NLP tasks, especially where training data is scarce or finetuning is expensive. Code and data: https://github.com/epfl-dlab/GCD.
翻訳日:2023-11-13 18:17:28 公開日:2023-11-10
# MFT:全てのPixelの長期追跡

MFT: Long-Term Tracking of Every Pixel ( http://arxiv.org/abs/2305.12998v2 )

ライセンス: Link先を確認
Michal Neoral, Jon\'a\v{s} \v{S}er\'ych, Ji\v{r}\'i Matas(参考訳) MFT-Multi-Flow dense Tracker--高密度・画素レベルの長期追跡のための新しい手法を提案する。 このアプローチでは、連続するフレーム間だけでなく、対数間隔の間隔でフレームのペアに対して推定される光フローを利用する。 それは、その幾何学的精度と、事前訓練されたCNNによって提供される閉塞確率の推定に基づいて、最も信頼性の高いフロー列を選択する。 MFT はTAP-Vid ベンチマークの競争性能を向上し,ベースラインのマージンを著しく上回り,最先端のポイントトラッキング手法よりも精度の高い精度で追跡できることを示す。 提案手法は中長オクルージョンに対して不感であり, 基準フレームに対する流れを推定することにより, ドリフトを低減させる。

We propose MFT -- Multi-Flow dense Tracker -- a novel method for dense, pixel-level, long-term tracking. The approach exploits optical flows estimated not only between consecutive frames, but also for pairs of frames at logarithmically spaced intervals. It selects the most reliable sequence of flows on the basis of estimates of its geometric accuracy and the probability of occlusion, both provided by a pre-trained CNN. We show that MFT achieves competitive performance on the TAP-Vid benchmark, outperforming baselines by a significant margin, and tracking densely orders of magnitude faster than the state-of-the-art point-tracking methods. The method is insensitive to medium-length occlusions and it is robustified by estimating flow with respect to the reference frame, which reduces drift.
翻訳日:2023-11-13 18:17:04 公開日:2023-11-10
# Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis

Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis ( http://arxiv.org/abs/2305.12553v4 )

ライセンス: Link先を確認
Xin Guo and Xinyu Li and Chinmay Maheshwari and Shankar Sastry and Manxi Wu(参考訳) 本稿ではマルコフゲームを研究するためにマルコフ$\alpha$-potentialゲームという新しい概念を提案する。 実質的に重要なマルコフゲームであるマルコフ混雑ゲームと摂動マルコフチームゲームの2つの重要なクラスは、マルコフ$\alpha$-potential gamesのこのフレームワークで分析され、上界の$\alpha$とゲームパラメータとの関係を明示的に特徴づける。 さらに、$\alpha$-ポテンシャル関数の任意の最大値は、ゲームの$\alpha$-定常ナッシュ平衡であることが示される。 さらに,ナッシュ後悔解析のための2つのアルゴリズム,すなわち投影勾配上昇アルゴリズムと逐次最大改善アルゴリズムを数値実験により提示し,検証した。

This paper proposes a new notion of Markov $\alpha$-potential games to study Markov games. Two important classes of practically significant Markov games, Markov congestion games and the perturbed Markov team games, are analyzed in this framework of Markov $\alpha$-potential games, with explicit characterization of the upper bound for $\alpha$ and its relation to game parameters. Moreover, any maximizer of the $\alpha$-potential function is shown to be an $\alpha$-stationary Nash equilibrium of the game. Furthermore, two algorithms for the Nash regret analysis, namely the projected gradient-ascent algorithm and the sequential maximum improvement algorithm, are presented and corroborated by numerical experiments.
翻訳日:2023-11-13 18:16:49 公開日:2023-11-10
# トレーニング可能な運動エネルギーセンシングと自己注意ネットワークによる人間の視覚運動処理のモデル化

Modelling Human Visual Motion Processing with Trainable Motion Energy Sensing and a Self-attention Network ( http://arxiv.org/abs/2305.09156v2 )

ライセンス: Link先を確認
Zitang Sun, Yen-Ju Chen, Yung-hao Yang, Shin'ya Nishida(参考訳) 視覚運動処理は、人間が動的環境を知覚し、相互作用することが不可欠である。 認知神経科学の広範な研究にもかかわらず、人間の視覚処理と整合した自然なシーンから情報的な動きの流れを抽出できる画像計算モデルはまだ確立されていない。 一方で、ディープラーニングによって推進されるコンピュータビジョン(cv)の最近の進歩は、運動知覚に密接なタスクである光フロー推定の著しい進歩をもたらした。 本稿では,生体モデルとcvモデルのギャップを橋渡しし,人間の運動知覚の画像処理モデルを提案する。 具体的には,適応的動作統合と分離のために,学習可能な運動エネルギーセンシングと再帰的自己アテンションネットワークを組み合わせた新しい2段階アプローチを提案する。 このモデルアーキテクチャは、生体視覚系における運動知覚のコア構造であるV1-MTの計算を捉えることを目的としており、複雑な自然シーンを含む幅広い刺激に対する情報伝達運動の流れを導出する能力を提供する。 サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングとスピードチューニングに関する哺乳類の神経記録に類似していることが明らかとなった。 提案モデルは、過去の心理物理学研究で検討された様々な刺激に対するヒトの反応を再現することもできる。 Sintelベンチマークによる実験結果から,現状のCVモデルは逆であるのに対し,本モデルでは人間の反応を地上の真理より正確に予測することを示した。 本研究は人間の視覚運動処理と整合した計算アーキテクチャを提供するが、生理的対応は正確ではないかもしれない。

Visual motion processing is essential for humans to perceive and interact with dynamic environments. Despite extensive research in cognitive neuroscience, image-computable models that can extract informative motion flow from natural scenes in a manner consistent with human visual processing have yet to be established. Meanwhile, recent advancements in computer vision (CV), propelled by deep learning, have led to significant progress in optical flow estimation, a task closely related to motion perception. Here we propose an image-computable model of human motion perception by bridging the gap between biological and CV models. Specifically, we introduce a novel two-stages approach that combines trainable motion energy sensing with a recurrent self-attention network for adaptive motion integration and segregation. This model architecture aims to capture the computations in V1-MT, the core structure for motion perception in the biological visual system, while providing the ability to derive informative motion flow for a wide range of stimuli, including complex natural scenes. In silico neurophysiology reveals that our model's unit responses are similar to mammalian neural recordings regarding motion pooling and speed tuning. The proposed model can also replicate human responses to a range of stimuli examined in past psychophysical studies. The experimental results on the Sintel benchmark demonstrate that our model predicts human responses better than the ground truth, whereas the state-of-the-art CV models show the opposite. Our study provides a computational architecture consistent with human visual motion processing, although the physiological correspondence may not be exact.
翻訳日:2023-11-13 18:16:13 公開日:2023-11-10
# 思考の視覚的連鎖:マルチモーダルインフィルによる論理ギャップのブリッジ

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings ( http://arxiv.org/abs/2305.02317v2 )

ライセンス: Link先を確認
Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang(参考訳) 大規模言語モデルの最近の進歩は、モデルが人間のような方法で問題を分解できるように、思考の連鎖における推論をもたらす。 このパラダイムは言語モデルの多段階推論能力を向上させるが、ユニモーダルであり、主に質問応答タスクに適用することで制限される。 視覚的な拡張を推論に組み込むことは、特に複雑で想像力のあるタスクに不可欠である、と我々は主張する。 その結果,VCoTは視覚言語接地による思考の連鎖を利用して,逐次データ内の論理的ギャップを再帰的にブリッジする手法である。 提案手法は,視覚的なガイダンスを用いて合成マルチモーダルインフィルメントを生成し,時間的推論の恩恵を受ける下流タスクの論理的ギャップを低減し,モデルの多段階推論への解釈可能性を提供する。 ビジュアルストーリーテリングとウィキハウ要約データセットにvcotを適用し、vcotが思考ベースラインの新規で一貫性のある合成データ拡張ビーティングチェーンを提供し、下流のパフォーマンス向上に使用できることを人間による評価を通じて実証する。

Recent advances in large language models elicit reasoning in a chain of thought that allows models to decompose problems in a human-like fashion. Though this paradigm improves multi-step reasoning ability in language models, it is limited by being unimodal and applied mainly to question-answering tasks. We claim that incorporating visual augmentation into reasoning is essential, especially for complex, imaginative tasks. Consequently, we introduce VCoT, a novel method that leverages chain of thought prompting with vision-language grounding to recursively bridge the logical gaps within sequential data. Our method uses visual guidance to generate synthetic multimodal infillings that add consistent and novel information to reduce the logical gaps for downstream tasks that can benefit from temporal reasoning, as well as provide interpretability into models' multi-step reasoning. We apply VCoT to the Visual Storytelling and WikiHow summarization datasets and demonstrate through human evaluation that VCoT offers novel and consistent synthetic data augmentation beating chain of thought baselines, which can be used to enhance downstream performance.
翻訳日:2023-11-13 18:15:47 公開日:2023-11-10
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v6 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
翻訳日:2023-11-13 18:15:28 公開日:2023-11-10
# 浅いデコーダを用いた計算効率の高いニューラルイメージ圧縮

Computationally-Efficient Neural Image Compression with Shallow Decoders ( http://arxiv.org/abs/2304.06244v2 )

ライセンス: Link先を確認
Yibo Yang and Stephan Mandt(参考訳) 近年,ニューラル画像圧縮法の性能が向上している。 しかし、従来のコーデックに比べて計算の複雑さが桁違いに高いため、実際のデプロイメントを妨げている。 本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いて,復号化複雑性のこのギャップを解消する。 圧縮性能の低下を補うために、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間の非対称な計算予算を利用する。 我々は理論的にその背景にある直感を定式化し、実験結果からニューラル画像圧縮における速度歪みと復号化複雑性のトレードオフにおける新たなフロンティアを確立した。 具体的には,Mennen et al. (2018) の確立した平均スケールハイパープライアアーキテクチャと50K未満のFLOP/ピクセルで競合し,ベースライン全体のデコーディング複雑性を80%,合成変換だけで90%以上削減する。 私たちのコードはhttps://github.com/mandt-lab/shallow-ntcにあります。

Neural image compression methods have seen increasingly strong performance in recent years. However, they suffer orders of magnitude higher computational complexity compared to traditional codecs, which hinders their real-world deployment. This paper takes a step forward towards closing this gap in decoding complexity by using a shallow or even linear decoding transform resembling that of JPEG. To compensate for the resulting drop in compression performance, we exploit the often asymmetrical computation budget between encoding and decoding, by adopting more powerful encoder networks and iterative encoding. We theoretically formalize the intuition behind, and our experimental results establish a new frontier in the trade-off between rate-distortion and decoding complexity for neural image compression. Specifically, we achieve rate-distortion performance competitive with the established mean-scale hyperprior architecture of Minnen et al. (2018) at less than 50K decoding FLOPs/pixel, reducing the baseline's overall decoding complexity by 80%, or over 90% for the synthesis transform alone. Our code can be found at https://github.com/mandt-lab/shallow-ntc.
翻訳日:2023-11-13 18:15:07 公開日:2023-11-10
# ディープニューラルネットワークにおけるプリエンプティブプルーニングクリーバーハンス戦略

Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks ( http://arxiv.org/abs/2304.05727v3 )

ライセンス: Link先を確認
Lorenz Linhardt, Klaus-Robert M\"uller, Gr\'egoire Montavon(参考訳) 堅牢性はディープラーニングにおいて重要な考慮事項となっている。 説明可能なAIの助けを借りて、説明モデルの決定戦略とユーザのドメイン知識(例えばClever Hans効果)のミスマッチが、欠陥モデルを改善する出発点として特定されている。 しかし、ユーザと説明が同意すれば、何をすべきかは明確ではない。 本稿では,ユーザによる説明の受け入れは,機械学習モデルがクレーバーハンス効果に対して堅牢であることを保証するものではないことを実証する。 このような隠れたモデル欠陥を緩和することはできるが、我々は、肯定的な説明フィードバックの対象になっていないMLモデルの変動を未然に誘発する新しい手法、Explaination-Guided Exposure Minimization (EGEM) を提供することによってこれを実証する。 実験により,本手法が隠れたClever Hans戦略への依存を強く低減し,その結果,新たなデータに対する高い精度を実現するモデルが得られた。

Robustness has become an important consideration in deep learning. With the help of explainable AI, mismatches between an explained model's decision strategy and the user's domain knowledge (e.g. Clever Hans effects) have been identified as a starting point for improving faulty models. However, it is less clear what to do when the user and the explanation agree. In this paper, we demonstrate that acceptance of explanations by the user is not a guarantee for a machine learning model to be robust against Clever Hans effects, which may remain undetected. Such hidden flaws of the model can nevertheless be mitigated, and we demonstrate this by contributing a new method, Explanation-Guided Exposure Minimization (EGEM), that preemptively prunes variations in the ML model that have not been the subject of positive explanation feedback. Experiments demonstrate that our approach leads to models that strongly reduce their reliance on hidden Clever Hans strategies, and consequently achieve higher accuracy on new data.
翻訳日:2023-11-13 18:14:45 公開日:2023-11-10
# PreCVAE:ベイズ深部生成モデルを用いたスケーラブルMCMCパラメータ推定

PriorCVAE: scalable MCMC parameter inference with Bayesian deep generative modelling ( http://arxiv.org/abs/2304.04307v3 )

ライセンス: Link先を確認
Elizaveta Semenova, Prakhar Verma, Max Cairney-Leeming, Arno Solin, Samir Bhatt, Seth Flaxman(参考訳) 近年の進歩により、gpプライオリティ(あるいはその有限実現)は変分オートエンコーダ(vaes)のような深い生成モデルを用いて符号化可能であることが示されている。 これらの学習されたジェネレータは、MCMC推論中に元のプリエントのドロップイン置換として機能する。 このアプローチは効率的な推論を可能にするが、元のモデルのハイパーパラメータに関する情報を失うため、ハイパーパラメータ上の推論が不可能になり、学習された事前が不明瞭になる。 この制限を克服するために、我々はVAEを確率過程ハイパーパラメーターで条件付けする。 これにより、GP実現によるハイパーパラメータの結合符号化と、推論時のその後の推定が可能となる。 さらに,提案手法であるpreferCVAEは,その近似モデルの性質に非依存であり,例えば,ODEの解を符号化するために使用できることを示す。 近似推論のための実用的なツールを提供し、実生活の空間的および時空間的応用の可能性を示す。

Recent advances have shown that GP priors, or their finite realisations, can be encoded using deep generative models such as variational autoencoders (VAEs). These learned generators can serve as drop-in replacements for the original priors during MCMC inference. While this approach enables efficient inference, it loses information about the hyperparameters of the original models, and consequently makes inference over hyperparameters impossible and the learned priors indistinct. To overcome this limitation, we condition the VAE on stochastic process hyperparameters. This allows the joint encoding of hyperparameters with GP realizations and their subsequent estimation during inference. Further, we demonstrate that our proposed method, PriorCVAE, is agnostic to the nature of the models which it approximates, and can be used, for instance, to encode solutions of ODEs. It provides a practical tool for approximate inference and shows potential in real-life spatial and spatiotemporal applications.
翻訳日:2023-11-13 18:14:16 公開日:2023-11-10
# 概念構造は人間の認知に共通するが、大きな言語モデルには存在しない

Conceptual structure coheres in human cognition but not in large language models ( http://arxiv.org/abs/2304.02754v2 )

ライセンス: Link先を確認
Siddharth Suresh, Kushin Mukherjee, Xizheng Yu, Wei-Chun Huang, Lisa Padua, and Timothy T Rogers(参考訳) 言語のニューラルネットワークモデルは、心と脳における概念表現に関する仮説を開発するツールとして長い間使われてきた。 長年にわたり、単語のベクトル空間表現を抽出し、それらの間の距離を使って様々な意味的タスクにおける人間の振る舞いを予測または理解してきた。 しかし、現代の大言語モデル(llm)は、実験的な手法を用いて概念表現の潜在構造を、人間の参加者によく使われるものとほぼ同一の方法で問うことができる。 現在の研究は、認知心理学から借用された3つの一般的なテクニックを利用して、人間の概念の構造を推定し、比較している。 ヒトでは、概念構造は文化、言語、推定方法の違いに対して堅牢であることを示す。 llmの動作から推定される構造は、人間の行動から推定されるものと個別にかなり一致するが、応答を生成するのに使用される特定のタスクによって大きく異なる。 これらの結果は、現代機械言語の基本的限界を理解するために、現代のLLMと人間の認知の重要な違いを強調している。

Neural network models of language have long been used as a tool for developing hypotheses about conceptual representation in the mind and brain. For many years, such use involved extracting vector-space representations of words and using distances among these to predict or understand human behavior in various semantic tasks. Contemporary large language models (LLMs), however, make it possible to interrogate the latent structure of conceptual representations using experimental methods nearly identical to those commonly used with human participants. The current work utilizes three common techniques borrowed from cognitive psychology to estimate and compare the structure of concepts in humans and a suite of LLMs. In humans, we show that conceptual structure is robust to differences in culture, language, and method of estimation. Structures estimated from LLM behavior, while individually fairly consistent with those estimated from human behavior, vary much more depending upon the particular task used to generate responses--across tasks, estimates of conceptual structure from the very same model cohere less with one another than do human structure estimates. These results highlight an important difference between contemporary LLMs and human cognition, with implications for understanding some fundamental limitations of contemporary machine language.
翻訳日:2023-11-13 18:14:03 公開日:2023-11-10
# WASP-12 b の軌道解: 市民科学データの活用を減らしたエフェメリスの更新と証拠

An Orbital Solution for WASP-12 b: Updated Ephemeris and Evidence for Decay Leveraging Citizen Science Data ( http://arxiv.org/abs/2306.17473v5 )

ライセンス: Link先を確認
Avinash S. Nediyedath, Martin J. Fowler, A. Norris, Shivaraj R. Maidur, Kyle A. Pearson, S. Dixon, P. Lewin, Andre O. Kovacs, A. Odasso, K. Davis, M. Primm, P. Das, Bryan E. Martin, D. Lalla(参考訳) NASA市民科学者はExoplanet Transit Interpretation Code(EXOTIC)を使用して、民間の望遠鏡が撮影するWASP-12の40セットの時系列画像と、Center for Astrophysics | Harvard & Smithsonian MicroObservatory (MOBs)が運営する6インチの望遠鏡を削減した。 これらのセットのうち24は、NASA Exoplanet Watchのウェブサイトに含まれるWASP-12 bのきれいなトランジット光曲線をもたらす。 我々は、NASA Exoplanet Archiveの先行データを用いて惑星の固有点を計算し、ETD(Exoplanet Transit Database)、ExoClock(Exoplanet Survey Satellite)、TESS(Transiting Exoplanet Survey Satellite)の観測と組み合わせた。 これらのデータセットを組み合わせることで、WASP-12 bの2454508.97923 +/- 0.000051 BJDTDBの軌道周期1.09141935 +/- 2.16e-08日を更新し、将来の宇宙望遠鏡観測の効率的なスケジューリングを知らせることができる。 軌道減衰は-6.89e-10 +/- 4.01e-11日/epochであった。 これらの結果は、市民科学者が太陽系外惑星研究の分野を拡大するために分析できるアマチュア天文学者による長期観測の利点を示している。

NASA Citizen Scientists have used Exoplanet Transit Interpretation Code (EXOTIC) to reduce 40 sets of time-series images of WASP-12 taken by privately owned telescopes and a 6-inch telescope operated by the Center for Astrophysics | Harvard & Smithsonian MicroObservatory (MOBs). Of these sets, 24 result in clean transit light curves of WASP-12 b which are included in the NASA Exoplanet Watch website. We use priors from the NASA Exoplanet Archive to calculate the ephemeris of the planet and combine it with ETD (Exoplanet Transit Database), ExoClock, and TESS (Transiting Exoplanet Survey Satellite) observations. Combining these datasets gives an updated ephemeris for the WASP-12 b system of 2454508.97923 +/- 0.000051 BJDTDB with an orbital period of 1.09141935 +/- 2.16e-08 days which can be used to inform the efficient scheduling of future space telescope observations. The orbital decay of the planet was found to be -6.89e-10 +/- 4.01e-11 days/epoch. These results show the benefits of long-term observations by amateur astronomers that citizen scientists can analyze to augment the field of Exoplanet research.
翻訳日:2023-11-13 18:06:12 公開日:2023-11-10
# 中心スピンのコヒーレンス限界を超える環境スピン欠陥の同定と制御

Identification and control of an environmental spin defect beyond the coherence limit of a central spin ( http://arxiv.org/abs/2306.17155v2 )

ライセンス: Link先を確認
Alexander Ungar, Paola Cappellaro, Alexandre Cooper, Won Kyu Calvin Sun(参考訳) 光学活性スピンの環境における電子スピン欠陥は、固体量子レジスタ(特に量子メトロロジーや量子通信における応用)のサイズと性能を向上させるのに使うことができる。 ダイヤモンド中の窒素原子空洞(NV)中心の環境における電子スピンレジスタの研究は、NVに直接結合するスピンのみを含む。 この直接結合は中心スピンコヒーレンス時間によって制限されるため、レジスタの最大到達可能なサイズを著しく制限する。 この問題に対処するため,電子スピンレジスタのサイズを拡大するためのスケーラブルなアプローチを提案する。 提案手法は、両共振制御配列とともに弱い結合のプローブスピンを利用して、中心NVスピンと直接結合しない環境スピンとの間のスピン偏極の移動を仲介する。 中央nvのコヒーレンス限界外の未知の電子スピンの検出とコヒーレント制御を実証するために,本手法を実験的に実現する。 我々の研究は、より大きな量子スピンレジスタを、ナノスケールセンシングを前進させ、エラー訂正のための相関ノイズ分光を可能にし、量子通信のためのスピンチェーン量子ワイヤの実現を促進する可能性を秘めている。

Electronic spin defects in the environment of an optically-active spin can be used to increase the size and hence the performance of solid-state quantum registers, especially for applications in quantum metrology and quantum communication. Previous works on multi-qubit electronic-spin registers in the environment of a Nitrogen-Vacancy (NV) center in diamond have only included spins directly coupled to the NV. As this direct coupling is limited by the central spin coherence time, it significantly restricts the register's maximum attainable size. To address this problem, we present a scalable approach to increase the size of electronic-spin registers. Our approach exploits a weakly-coupled probe spin together with double-resonance control sequences to mediate the transfer of spin polarization between the central NV spin and an environmental spin that is not directly coupled to it. We experimentally realize this approach to demonstrate the detection and coherent control of an unknown electronic spin outside the coherence limit of a central NV. Our work paves the way for engineering larger quantum spin registers with the potential to advance nanoscale sensing, enable correlated noise spectroscopy for error correction, and facilitate the realization of spin-chain quantum wires for quantum communication.
翻訳日:2023-11-13 18:05:44 公開日:2023-11-10
# AutoGraph:交通観測からレーングラフを予測する

AutoGraph: Predicting Lane Graphs from Traffic Observations ( http://arxiv.org/abs/2306.15410v3 )

ライセンス: Link先を確認
Jannik Z\"urn and Ingmar Posner and Wolfram Burgard(参考訳) レーングラフ推定は、自律運転における長年の問題である。 それまでの作業は、大規模で手書きのレーングラフを頼りにすることで、この問題を解決するためのトレーニングモデルのためのデータボトルネックを導入していた。 この制限を克服するため,交通参加者の動作パターンをレーングラフアノテーションとして利用することを提案する。 オートグラフアプローチでは,事前トレーニングされたオブジェクトトラッカを使用して,車両やトラックなどのトラヒック参加者のトラックレットを収集します。 これらのトラックレットの位置に基づいて、人間の監督を必要としないオーバーヘッドRGB画像のみを用いて、後続車線グラフを初期位置から予測する。 その後の段階では、個々の後続予測を一貫したレーングラフに集約する方法を示す。 筆者らは,UrbanLaneGraphデータセットに対するアプローチの有効性を実証し,手書きグラフデータに基づいてトレーニングしたモデルとAutoGraphが同等であることを示す。 モデルとデータセットは再検討で利用可能になる。

Lane graph estimation is a long-standing problem in the context of autonomous driving. Previous works aimed at solving this problem by relying on large-scale, hand-annotated lane graphs, introducing a data bottleneck for training models to solve this task. To overcome this limitation, we propose to use the motion patterns of traffic participants as lane graph annotations. In our AutoGraph approach, we employ a pre-trained object tracker to collect the tracklets of traffic participants such as vehicles and trucks. Based on the location of these tracklets, we predict the successor lane graph from an initial position using overhead RGB images only, not requiring any human supervision. In a subsequent stage, we show how the individual successor predictions can be aggregated into a consistent lane graph. We demonstrate the efficacy of our approach on the UrbanLaneGraph dataset and perform extensive quantitative and qualitative evaluations, indicating that AutoGraph is on par with models trained on hand-annotated graph data. Model and dataset will be made available at redacted-for-review.
翻訳日:2023-11-13 18:05:24 公開日:2023-11-10
# ランドマークに基づくゴール認識の計画:初期状態ランドマークの使用は意味を成すか?

Planning Landmark Based Goal Recognition Revisited: Does Using Initial State Landmarks Make Sense? ( http://arxiv.org/abs/2306.15362v2 )

ライセンス: Link先を確認
Nils Wilken and Lea Cohausz and Christian Bartelt and Heiner Stuckenschmidt(参考訳) ゴール認識は多くのアプリケーション領域(例えば、広範コンピューティング、侵入検出、コンピュータゲームなど)において重要な問題である。 多くのアプリケーションシナリオにおいて、ゴール認識アルゴリズムは観測エージェントの目標をできるだけ早く認識できることが重要である。 しかしながら、計画認識の分野における多くの初期のアプローチは、解を計算するのに非常に大量の計算時間を必要とする。 主にこの問題に対処するため、Pereiraらは最近、計画的なランドマークに基づくアプローチを開発し、以前のアプローチよりもはるかに計算効率が良い。 しかしながら、pereiraらによって提案されたこのアプローチは、自明なランドマーク(すなわち、初期状態と目標記述の一部である事実は定義上ランドマーク)も使用する。 本稿では,計画用ランドマークベースの目標認識手法において,初期状態の一部であるランドマークを使用するメリットは認められないことを示す。 その結果,初期状態ランドマークを省略することで目標認識性能が向上することがわかった。

Goal recognition is an important problem in many application domains (e.g., pervasive computing, intrusion detection, computer games, etc.). In many application scenarios, it is important that goal recognition algorithms can recognize goals of an observed agent as fast as possible. However, many early approaches in the area of Plan Recognition As Planning, require quite large amounts of computation time to calculate a solution. Mainly to address this issue, recently, Pereira et al. developed an approach that is based on planning landmarks and is much more computationally efficient than previous approaches. However, the approach, as proposed by Pereira et al., also uses trivial landmarks (i.e., facts that are part of the initial state and goal description are landmarks by definition). In this paper, we show that it does not provide any benefit to use landmarks that are part of the initial state in a planning landmark based goal recognition approach. The empirical results show that omitting initial state landmarks for goal recognition improves goal recognition performance.
翻訳日:2023-11-13 18:05:07 公開日:2023-11-10
# StrainTensorNet:SE(3)-等変グラフニューラルネットワークによる結晶構造弾性の予測

StrainTensorNet: Predicting crystal structure elastic properties using SE(3)-equivariant graph neural networks ( http://arxiv.org/abs/2306.12818v2 )

ライセンス: Link先を確認
Teerachote Pakornchote, Annop Ektarawong, Thiparat Chotibut(参考訳) 結晶性固体の弾性特性を正確に予測することは計算材料科学にとって不可欠である。 しかしながら、従来の原子スケールabイニシアトアプローチは、特に単位セル内に多数の原子を持つ複雑な物質を研究するために、計算的に集約的である。 本稿では,SE(3)-同変グラフニューラルネットワーク(GNN)を用いて結晶構造の弾性特性を効率的に予測する新しいデータ駆動手法を提案する。 このアプローチは、最近のデータ駆動研究に匹敵する精度で重要なスカラー弾性変調をもたらす。 重要なことに,我々の対称性を考慮したGNNモデルは,材料の結晶群に大きく影響される基本テンソル量であるひずみエネルギー密度(SED)と関連する弾性定数の予測を可能にする。 このモデルは、結晶構造の対称性に従ってSEDテンソルの独立要素を一貫して区別する。 最後に,我々のディープラーニングモデルは有意な潜在特性を有し,弾性特性の解釈可能な予測を提供する。

Accurately predicting the elastic properties of crystalline solids is vital for computational materials science. However, traditional atomistic scale ab initio approaches are computationally intensive, especially for studying complex materials with a large number of atoms in a unit cell. We introduce a novel data-driven approach to efficiently predict the elastic properties of crystal structures using SE(3)-equivariant graph neural networks (GNNs). This approach yields important scalar elastic moduli with the accuracy comparable to recent data-driven studies. Importantly, our symmetry-aware GNNs model also enables the prediction of the strain energy density (SED) and the associated elastic constants, the fundamental tensorial quantities that are significantly influenced by a material's crystallographic group. The model consistently distinguishes independent elements of SED tensors, in accordance with the symmetry of the crystal structures. Finally, our deep learning model possesses meaningful latent features, offering an interpretable prediction of the elastic properties.
翻訳日:2023-11-13 18:04:39 公開日:2023-11-10
# MobileASR: 携帯電話でのユーザ音声パーソナライズアプリケーションのためのリソース対応オンデバイス学習フレームワーク

MobileASR: A resource-aware on-device learning framework for user voice personalization applications on mobile phones ( http://arxiv.org/abs/2306.09384v2 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, Pooja Rao, T. V. Prabhakar(参考訳) 本稿では,携帯電話上でモデルを効果的にトレーニングし,ユーザデータとモデルをローカルに保存・利用することによる,ユーザ音声パーソナライズされた自動音声認識(asr)モデルを開発するための包括的方法論について述べる。 そこで本研究では,携帯電話のRAMとバッテリ能力を考慮したリソース対応サブモデルベーストレーニング手法を提案する。 携帯電話の評価基準と資源制約を考慮することで,効率的なトレーニングを行い,そのプロセスを停止することができる。 実際のユーザをシミュレートするために、さまざまなアクセントのスピーカーを使用します。 オンデバイストレーニングと評価フレームワーク全体が、ブランド間のさまざまな携帯電話でテストされた。 モデルを微調整し、適切なハイパーパラメータ値を選択することは、最小の達成可能なパフォーマンス指標、オンデバイストレーニング時間、メモリ消費のトレードオフであることを示す。 本手法は,携帯電話の能力を活用しながらパーソナライズされたASRモデルを開発するための包括的ソリューションを提供し,精度とリソース制約のバランスをとる。

We describe a comprehensive methodology for developing user-voice personalized automatic speech recognition (ASR) models by effectively training models on mobile phones, allowing user data and models to be stored and used locally. To achieve this, we propose a resource-aware sub-model-based training approach that considers the RAM, and battery capabilities of mobile phones. By considering the evaluation metric and resource constraints of the mobile phones, we are able to perform efficient training and halt the process accordingly. To simulate real users, we use speakers with various accents. The entire on-device training and evaluation framework was then tested on various mobile phones across brands. We show that fine-tuning the models and selecting the right hyperparameter values is a trade-off between the lowest achievable performance metric, on-device training time, and memory consumption. Overall, our methodology offers a comprehensive solution for developing personalized ASR models while leveraging the capabilities of mobile phones, and balancing the need for accuracy with resource constraints.
翻訳日:2023-11-13 18:04:24 公開日:2023-11-10
# 建築侵食の違反症状の自動同定に向けて

Towards Automatic Identification of Violation Symptoms of Architecture Erosion ( http://arxiv.org/abs/2306.08616v2 )

ライセンス: Link先を確認
Ruiyin Li, Peng Liang, Paris Avgeriou(参考訳) アーキテクチャの侵食は、実装が意図したアーキテクチャから外れるので、保守と進化に有害な影響を与える。 これを防ぐためには、開発チームは浸食の症状、特に意図したアーキテクチャの違反を十分に早期に理解する必要がある。 これを実現する1つの方法は、アーキテクチャ違反をテキストアーティファクト、特にコードレビューから自動的に識別することです。 本稿では,機械学習に基づく15の分類器と,事前学習された3つの単語埋め込みを用いた4つの深層学習に基づく分類器を開発した。 具体的には、OpenStack(NovaとNeutron)とQt(Qt BaseとQt Creator)の4つの大きなオープンソースプロジェクトのコードレビューコメントを調べました。 次に、コードレビューでアーキテクチャ違反について議論した参加者からのフィードバックを得て、トレーニング済みの分類器の有用性を検証する調査を行った。 その結果,Word2vec事前学習語埋め込みに基づくSVM分類器はF1スコア0.779で最良となることがわかった。 多くの場合、fastText事前訓練された単語埋め込みモデルを用いた分類器は比較的優れた性能が得られる。 さらに,200次元事前学習語埋め込みモデルは,100次元および300次元モデルを用いた分類器よりも優れている。 また、多数決戦略に基づくアンサンブル分類器は、さらにその分類器を強化し、個々の分類器より優れる。 最後に、関係する開発者のオンライン調査により、我々のアプローチによって特定された違反症状は実用的価値があり、差し迫ったアーキテクチャの侵食に対する早期警告を提供できることが明らかとなった。

Architecture erosion has a detrimental effect on maintenance and evolution, as the implementation drifts away from the intended architecture. To prevent this, development teams need to understand early enough the symptoms of erosion, and particularly violations of the intended architecture. One way to achieve this, is through the automatic identification of architecture violations from textual artifacts, and particularly code reviews. In this paper, we developed 15 machine learning-based and 4 deep learning-based classifiers with three pre-trained word embeddings to identify violation symptoms of architecture erosion from developer discussions in code reviews. Specifically, we looked at code review comments from four large open-source projects from the OpenStack (Nova and Neutron) and Qt (Qt Base and Qt Creator) communities. We then conducted a survey to acquire feedback from the involved participants who discussed architecture violations in code reviews, to validate the usefulness of our trained classifiers. The results show that the SVM classifier based on word2vec pre-trained word embedding performs the best with an F1-score of 0.779. In most cases, classifiers with the fastText pre-trained word embedding model can achieve relatively good performance. Furthermore, 200-dimensional pre-trained word embedding models outperform classifiers that use 100 and 300-dimensional models. In addition, an ensemble classifier based on the majority voting strategy can further enhance the classifier and outperforms the individual classifiers. Finally, an online survey of the involved developers reveals that the violation symptoms identified by our approaches have practical value and can provide early warnings for impending architecture erosion.
翻訳日:2023-11-13 18:04:04 公開日:2023-11-10
# 過パラメータニューラルネットワークの有効不確かさの定量化と低減

Efficient Uncertainty Quantification and Reduction for Over-Parameterized Neural Networks ( http://arxiv.org/abs/2306.05674v2 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam, Haofeng Zhang(参考訳) 不確実性定量化(UQ)は、機械学習モデルの信頼性評価と強化に重要である。 ディープラーニングでは、不確実性はデータだけでなく、重大なノイズやバイアスを注入する訓練手順からも生じる。 これにより、統計的保証の達成が妨げられ、また、繰り返しのネットワーク再トレーニングの必要性により、UQに計算上の課題が課される。 近年のニューラル・タンジェント・カーネル理論を基礎として,計算労力の少ないオーバーパラメータ化ニューラルネットワークの不確実性である,主に \emph{characterize} と \emph{remove} に対する統計的に保証されたスキームを作成する。 特に,提案手法はプロシージャノイズ補正(PNC)予測器(Procedural-noise-correcting, PNC)に基づいて,深層アンサンブルで使用される多くのリトレーニングネットワークではなく,適切なラベル付きデータセットでトレーニングされた 'emph{one} 補助ネットワークのみを用いることで,プロシージャの不確実性を除去する。 さらに,PNC予測器と適切な光計算再サンプリング手法を組み合わせることで,新たなオーバーヘッドを伴わない4つのトレーニングネットワークを用いて,漸近的に正確な被覆信頼区間を構築するためのいくつかのアプローチを構築した。

Uncertainty quantification (UQ) is important for reliability assessment and enhancement of machine learning models. In deep learning, uncertainties arise not only from data, but also from the training procedure that often injects substantial noises and biases. These hinder the attainment of statistical guarantees and, moreover, impose computational challenges on UQ due to the need for repeated network retraining. Building upon the recent neural tangent kernel theory, we create statistically guaranteed schemes to principally \emph{characterize}, and \emph{remove}, the uncertainty of over-parameterized neural networks with very low computation effort. In particular, our approach, based on what we call a procedural-noise-correcting (PNC) predictor, removes the procedural uncertainty by using only \emph{one} auxiliary network that is trained on a suitably labeled dataset, instead of many retrained networks employed in deep ensembles. Moreover, by combining our PNC predictor with suitable light-computation resampling methods, we build several approaches to construct asymptotically exact-coverage confidence intervals using as low as four trained networks without additional overheads.
翻訳日:2023-11-13 18:03:40 公開日:2023-11-10
# M3Exam: 大規模言語モデルを調べるための多言語・マルチモーダル・マルチレベルベンチマーク

M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models ( http://arxiv.org/abs/2306.05179v2 )

ライセンス: Link先を確認
Wenxuan Zhang, Sharifah Mahani Aljunied, Chang Gao, Yew Ken Chia, Lidong Bing(参考訳) 自然言語処理モデルを評価するための様々なベンチマークが存在するにもかかわらず、人間試験は、言語理解、ドメイン知識、問題解決スキルなど、より広い範囲の能力を要求するため、大規模言語モデル(llm)のための汎用知性を評価するより適切な方法であると主張する。 この目的のために,多言語,マルチモーダル,多レベル環境においてllmを評価するための,実および公式の人間試験質問から得られた新しいベンチマークであるm3examを紹介する。 M3Examは,(1)多言語能力と文化的知識を必要とする複数の国からの質問を包含する多言語主義,(2)多モーダル性,2)モデルの多モーダル理解能力をテストするための多くの試験質問の多モーダル性,3)3つの重要な教育期間の試験を包括的に評価する多段階構造,の3つの特徴を示す。 合計で、m3examは3つの教育レベルを持つ9つの多様な言語で12,317の質問を含んでいる。 M3Exam上でのLLMの性能評価を行い、GPT-4を含む現在のモデルは、特に低リソースおよび非ラテン文字言語において、多言語テキストに苦戦している。 マルチモーダル LLM は複雑なマルチモーダル問題でも不十分である。 我々は,M3Examが多言語および多モーダルの能力を検証し,その開発を追跡することで,LLMを包括的に評価するための貴重な資源であると考えている。 データおよび評価コードは \url{https://github.com/DAMO-NLP-SG/M3Exam} で公開されている。

Despite the existence of various benchmarks for evaluating natural language processing models, we argue that human exams are a more suitable means of evaluating general intelligence for large language models (LLMs), as they inherently demand a much wider range of abilities such as language understanding, domain knowledge, and problem-solving skills. To this end, we introduce M3Exam, a novel benchmark sourced from real and official human exam questions for evaluating LLMs in a multilingual, multimodal, and multilevel context. M3Exam exhibits three unique characteristics: (1) multilingualism, encompassing questions from multiple countries that require strong multilingual proficiency and cultural knowledge; (2) multimodality, accounting for the multimodal nature of many exam questions to test the model's multimodal understanding capability; and (3) multilevel structure, featuring exams from three critical educational periods to comprehensively assess a model's proficiency at different levels. In total, M3Exam contains 12,317 questions in 9 diverse languages with three educational levels, where about 23\% of the questions require processing images for successful solving. We assess the performance of top-performing LLMs on M3Exam and find that current models, including GPT-4, still struggle with multilingual text, particularly in low-resource and non-Latin script languages. Multimodal LLMs also perform poorly with complex multimodal questions. We believe that M3Exam can be a valuable resource for comprehensively evaluating LLMs by examining their multilingual and multimodal abilities and tracking their development. Data and evaluation code is available at \url{https://github.com/DAMO-NLP-SG/M3Exam}.
翻訳日:2023-11-13 18:03:16 公開日:2023-11-10
# チャンネルレベルのスカラー学習システム「Dynamic Sparsity」

Dynamic Sparsity Is Channel-Level Sparsity Learner ( http://arxiv.org/abs/2305.19454v2 )

ライセンス: Link先を確認
Lu Yin, Gen Li, Meng Fang, Li Shen, Tianjin Huang, Zhangyang Wang, Vlado Menkovski, Xiaolong Ma, Mykola Pechenizkiy, Shiwei Liu(参考訳) スパーストレーニングは、トレーニングプロセス全体と推論に対する具体的な貯蓄能力によって、機械学習への関心が高まっている。 ダイナミックスパーストレーニング(DST)は、スパークストレーニングの先駆的なアプローチであり、深いニューラルネットワークをスクラッチから高い間隔でトレーニングすることで、密度の高いニューラルネットワークのパフォーマンスを満足させることができる。 しかし、ほとんどのDST先行技術は、非常に不規則なスパースパターンを持つ非構造的スパース性に対して効果を示し、共通のハードウェアでしかサポートされない。 この制限は実際にはDSTの使用を妨げる。 本稿では,非構造化動的スパース性の約束を,アドホックな操作を伴わずに,一方のエンドツーエンドトレーニングプロセスにおいて,gpuフレンドリーなチャネルレベルのスパース性(細粒度n:mやグループスパース性ではない)にシームレスに翻訳するチャネルアウェア動的スパース(chase)を提案する。 結果として生じる小さなスパースネットワークは、特に疎いハードウェアアクセラレータを使わずに、コモディティハードウェアによって直接加速することができる。 既成の非構造dstは暗黙的にチャネル間のバイアス付きパラメータの再配置を伴い、多くのチャネル(最大60%)は他のチャネルよりもスパースである。 トレーニング中にこれらのチャネルを段階的に識別・除去することにより,非構造的疎度からチャネルワイド疎度へ変換する。 実験の結果,画像ネット上でのResNet-50の精度を損なうことなく,一般的なGPUデバイス上での1.7X推論スループットの高速化を実現した。 コードはhttps://github.com/luuyin/chaseでリリースします。

Sparse training has received an upsurging interest in machine learning due to its tantalizing saving potential for the entire training process as well as inference. Dynamic sparse training (DST), as a leading sparse training approach, can train deep neural networks at high sparsity from scratch to match the performance of their dense counterparts. However, most if not all DST prior arts demonstrate their effectiveness on unstructured sparsity with highly irregular sparse patterns, which receives limited support in common hardware. This limitation hinders the usage of DST in practice. In this paper, we propose Channel-aware dynamic sparse (Chase), which for the first time seamlessly translates the promise of unstructured dynamic sparsity to GPU-friendly channel-level sparsity (not fine-grained N:M or group sparsity) during one end-to-end training process, without any ad-hoc operations. The resulting small sparse networks can be directly accelerated by commodity hardware, without using any particularly sparsity-aware hardware accelerators. This appealing outcome is partially motivated by a hidden phenomenon of dynamic sparsity: off-the-shelf unstructured DST implicitly involves biased parameter reallocation across channels, with a large fraction of channels (up to 60%) being sparser than others. By progressively identifying and removing these channels during training, our approach translates unstructured sparsity to channel-wise sparsity. Our experimental results demonstrate that Chase achieves 1.7 X inference throughput speedup on common GPU devices without compromising accuracy with ResNet-50 on ImageNet. We release our codes in https://github.com/luuyin/chase.
翻訳日:2023-11-13 18:02:27 公開日:2023-11-10
# 価値の欠落に公正な介入を適用する

Adapting Fairness Interventions to Missing Values ( http://arxiv.org/abs/2305.19429v2 )

ライセンス: Link先を確認
Raymond Feng, Flavio P. Calmon, Hao Wang(参考訳) 実世界のデータにおける値の欠落は、アルゴリズムの公正性に顕著でユニークな課題をもたらす。 異なる人口集団は、欠落したデータによって不平等に影響を受ける可能性があり、最初のデータがインプットされた場合に欠落した値を扱う標準的な手順では、インプットされたデータが分類に使用される。 本稿では,値の欠如がアルゴリズムの公平性に与える影響を分析する。 まず,偽データからの分類器の訓練は,グループフェアネスと平均精度の達成可能な値を著しく悪化させる可能性があることを証明した。 これは、インパルスデータによってデータの欠落パターンが失われ、しばしば予測ラベルに関する情報が伝達されるためである。 我々は,値の欠落を伴う公平な分類のためのスケーラブルで適応的なアルゴリズムを提案する。 これらのアルゴリズムは、既存のフェアネス干渉アルゴリズムと組み合わせることで、欠落パターンの中にエンコードされた情報を保存しながら、可能なすべての欠落パターンを処理することができる。 最先端のフェアネス介入による数値実験により、我々の適応アルゴリズムは、異なるデータセットをまたいだインプット-then-classifyよりも常に高いフェアネスと精度を達成することを示した。

Missing values in real-world data pose a significant and unique challenge to algorithmic fairness. Different demographic groups may be unequally affected by missing data, and the standard procedure for handling missing values where first data is imputed, then the imputed data is used for classification -- a procedure referred to as "impute-then-classify" -- can exacerbate discrimination. In this paper, we analyze how missing values affect algorithmic fairness. We first prove that training a classifier from imputed data can significantly worsen the achievable values of group fairness and average accuracy. This is because imputing data results in the loss of the missing pattern of the data, which often conveys information about the predictive label. We present scalable and adaptive algorithms for fair classification with missing values. These algorithms can be combined with any preexisting fairness-intervention algorithm to handle all possible missing patterns while preserving information encoded within the missing patterns. Numerical experiments with state-of-the-art fairness interventions demonstrate that our adaptive algorithms consistently achieve higher fairness and accuracy than impute-then-classify across different datasets.
翻訳日:2023-11-13 18:01:53 公開日:2023-11-10
# state2explanation: エージェント学習とユーザ理解に役立つ概念に基づく説明

State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User Understanding ( http://arxiv.org/abs/2309.12482v2 )

ライセンス: Link先を確認
Devleena Das, Sonia Chernova, Been Kim(参考訳) 非AI専門家が日々のタスクに複雑なAIシステムを使用するようになるにつれ、AIの専門家以外の専門家が理解できるようなAI意思決定の説明を作成する方法の開発が増えている。 この取り組みに向けて、ハイレベルな概念の活用と概念に基づく説明の作成が一般的な方法となっている。 概念に基づくほとんどの説明は分類技術のために開発されており、逐次的意思決定の手法はスコープに限られていると仮定する。 本研究では,まず,逐次意思決定における概念定義のためのデシデラタを提案する。 さらに,知識の説明が自己学習を補強する,というプロテジエフェクトに触発されて,RLエージェントの意思決定に関する概念に基づく説明がエージェントの学習率を向上し,エージェントの意思決定に対するエンドユーザの理解を向上させる方法について考察する。 この目的のために、状態-動作ペアと概念-ベース説明の結合埋め込みモデルを学習し、(1)エージェントのトレーニング中に報酬形成を通知すること、(2)タスクパフォーマンスを改善するためにエンドユーザーに説明を提供する統合フレームワークState2Explanation(S2E)をコントリビュートする。 Connect 4 と Lunar Lander での実験的な検証を行ったところ、S2E は双対ベネフィットを実現し、報酬形成を成功させ、エージェント学習率を向上し、デプロイメント時のエンドユーザータスク性能を大幅に改善することに成功した。

As more non-AI experts use complex AI systems for daily tasks, there has been an increasing effort to develop methods that produce explanations of AI decision making that are understandable by non-AI experts. Towards this effort, leveraging higher-level concepts and producing concept-based explanations have become a popular method. Most concept-based explanations have been developed for classification techniques, and we posit that the few existing methods for sequential decision making are limited in scope. In this work, we first contribute a desiderata for defining concepts in sequential decision making settings. Additionally, inspired by the Protege Effect which states explaining knowledge often reinforces one's self-learning, we explore how concept-based explanations of an RL agent's decision making can in turn improve the agent's learning rate, as well as improve end-user understanding of the agent's decision making. To this end, we contribute a unified framework, State2Explanation (S2E), that involves learning a joint embedding model between state-action pairs and concept-based explanations, and leveraging such learned model to both (1) inform reward shaping during an agent's training, and (2) provide explanations to end-users at deployment for improved task performance. Our experimental validations, in Connect 4 and Lunar Lander, demonstrate the success of S2E in providing a dual-benefit, successfully informing reward shaping and improving agent learning rate, as well as significantly improving end user task performance at deployment time.
翻訳日:2023-11-13 17:54:53 公開日:2023-11-10
# 超薄原子層における協調光学パターン形成

Cooperative optical pattern formation in an ultrathin atomic layer ( http://arxiv.org/abs/2309.10412v3 )

ライセンス: Link先を確認
C. D. Parmee, J. Ruostekoski(参考訳) 一様状態からの自発的パターン形成は、他の科学領域における非平衡パターン形成と類似性を共有する広く研究された非線形光学現象である。 ここでは、アレイ内の原子の1つの層が非線形に揺らぎを増幅し、複雑な光学パターンを形成する方法を示す。 パターンの起源は本質的に協調的であり、鏡や空洞の必要性は排除されるが、原子の近傍に鏡を導入することで散乱プロファイルが著しく変化する。 これらの光学パターンの出現は、光カー媒体やリングキャビティの非線形シュリンガー方程式と同様に、長波長近似によって定性的に記述できる双安定な集合応答と結びついている。 これらの集合励起は特異な欠陥を形成し、波状歪みによって原子位置のゆらぎを露呈する能力を持つ。

Spontaneous pattern formation from a uniform state is a widely studied nonlinear optical phenomenon that shares similarities with non-equilibrium pattern formation in other scientific domains. Here we show how a single layer of atoms in an array can undergo nonlinear amplification of fluctuations, leading to the formation of intricate optical patterns. The origin of the patterns is intrinsically cooperative, eliminating the necessity of mirrors or cavities, although introduction of a mirror in the vicinity of the atoms significantly modifies the scattering profiles. The emergence of these optical patterns is tied to a bistable collective response, which can be qualitatively described by a long-wavelength approximation, similar to a nonlinear Schr\"odinger equation of optical Kerr media or ring cavities. These collective excitations have the ability to form singular defects and unveil atomic position fluctuations through wave-like distortions.
翻訳日:2023-11-13 17:54:24 公開日:2023-11-10
# BEA:Budding Ensemble Architectureを用いたアンカーベースのオブジェクト検出DNNの再検討

BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture ( http://arxiv.org/abs/2309.08036v4 )

ライセンス: Link先を確認
Syed Sha Qutub and Neslihan Kose and Rafael Rosales and Michael Paulitsch and Korbinian Hagn and Florian Geissler and Yang Peng and Gereon Hinz and Alois Knoll(参考訳) 本稿では,アンカーベースオブジェクト検出モデルのための新しいアンサンブルアーキテクチャであるBudding Ensemble Architecture (BEA)を紹介する。 物体検出モデルは視覚に基づくタスク、特に自律システムにおいて重要である。 正確なバウンディングボックス検出を提供すると同時に、予測された信頼度スコアを調整し、高品質の不確実性推定につながるはずだ。 しかし、現在のモデルは、高いスコアを受けた偽陽性や低いスコアで捨てられた真陽性のために誤った判断を下す可能性がある。 BEAはこれらの問題に対処することを目指している。 提案する損失関数は信頼度スコア校正を改善し,不確実性誤差を低減し,真正と偽陽性の区別が向上し,オブジェクト検出モデルの精度が向上する。 Base-YOLOv3 と SSD はBEA 法と損失関数を用いて拡張された。 KITTIデータセットでトレーニングされたBase-YOLOv3上のBEAは、それぞれmAPとAP50の6%と3.7%増加している。 バランスの取れた不確実性推定しきい値を利用してサンプルをリアルタイムに破棄することは、ベースモデルよりも9.6%高いap50となる。 これは、信頼性スコアのキャリブレーションの質を測定するために使用されるAP50ベースの保持曲線の下で、面積が40%増加したためである。 さらに、KITTIでトレーニングされたBEA-YOLOV3は、YOLOv3とGaussian-YOLOv3のアンサンブルやバニラモデルと比較して、Citypersons、BDD100K、COCOデータセットに優れたアウトオブディストリビューション検出を提供する。

This paper introduces the Budding Ensemble Architecture (BEA), a novel reduced ensemble architecture for anchor-based object detection models. Object detection models are crucial in vision-based tasks, particularly in autonomous systems. They should provide precise bounding box detections while also calibrating their predicted confidence scores, leading to higher-quality uncertainty estimates. However, current models may make erroneous decisions due to false positives receiving high scores or true positives being discarded due to low scores. BEA aims to address these issues. The proposed loss functions in BEA improve the confidence score calibration and lower the uncertainty error, which results in a better distinction of true and false positives and, eventually, higher accuracy of the object detection models. Both Base-YOLOv3 and SSD models were enhanced using the BEA method and its proposed loss functions. The BEA on Base-YOLOv3 trained on the KITTI dataset results in a 6% and 3.7% increase in mAP and AP50, respectively. Utilizing a well-balanced uncertainty estimation threshold to discard samples in real-time even leads to a 9.6% higher AP50 than its base model. This is attributed to a 40% increase in the area under the AP50-based retention curve used to measure the quality of calibration of confidence scores. Furthermore, BEA-YOLOV3 trained on KITTI provides superior out-of-distribution detection on Citypersons, BDD100K, and COCO datasets compared to the ensembles and vanilla models of YOLOv3 and Gaussian-YOLOv3.
翻訳日:2023-11-13 17:54:08 公開日:2023-11-10
# 量子アニーリングによる調整可能な迷路の難易度評価

Individual subject evaluated difficulty of adjustable mazes generated using quantum annealing ( http://arxiv.org/abs/2309.04792v2 )

ライセンス: Link先を確認
Yuto Ishikawa, Takuma Yoshihara, Keita Okamura and Masayuki Ohzeki(参考訳) 本稿では,量子アニールを用いた迷路生成法を提案する。 量子アニールの入力に適した2次非制約二元最適化問題の特定の形式に迷路を生成するための標準的なアルゴリズムを再構成する。 より難しい迷路を生成するために、コスト関数を$Q_{update}$に追加し、難易度を高める。 迷路の難易度は,12人の迷路を解く時間によって評価された。 本研究では,maze作成の効率性を確認するため,量子処理ユニット,古典コンピュータ,ハイブリッドソルバの解解時間について検討した。

In this paper, the maze generation using quantum annealing is proposed. We reformulate a standard algorithm to generate a maze into a specific form of a quadratic unconstrained binary optimization problem suitable for the input of the quantum annealer. To generate more difficult mazes, we introduce an additional cost function $Q_{update}$ to increase the difficulty. The difficulty of the mazes was evaluated by the time to solve the maze of 12 human subjects. To check the efficiency of our scheme to create the maze, we investigated the time-to-solution of a quantum processing unit, classical computer, and hybrid solver.
翻訳日:2023-11-13 17:53:41 公開日:2023-11-10
# 視覚言語少数ショット学習のための読み取り専用プロンプト最適化

Read-only Prompt Optimization for Vision-Language Few-shot Learning ( http://arxiv.org/abs/2308.14960v2 )

ライセンス: Link先を確認
Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee, and Hyunwoo J.Kim(参考訳) 近年、事前訓練された視覚言語モデルの下流タスクへの適応において、プロンプトチューニングが効果的であることが証明されている。 これらの方法は、学習可能なプロンプトを導入し、事前訓練された重量を凍結させながら、事前訓練されたモデルに適応することを目的としている。 しかし、学習可能なプロンプトは自己認識モジュールの内部表現に影響を与え、特にデータ不足の環境ではパフォーマンスのばらつきや一般化に悪影響を及ぼす可能性がある。 これらの問題に対処するため,新しい手法,RPO(Read-only Prompt Optimization)を提案する。 RPOは、事前訓練されたモデルの内部表現シフトを防止するためにマスクされた注意を利用する。 さらに、RPOの最適化を容易にするために、事前訓練されたモデルの特別なトークンに基づいて読み取り専用プロンプトを初期化する。 RPOはCLIPやCoCoOpよりも高い性能を示し,高ロバスト性を示しながら,新たな一般化とドメインの一般化を実現している。 また,提案手法は,パラメータ効率と計算オーバーヘッドを改善しつつ,極めてデータ不足な設定を最適化する。 コードはhttps://github.com/mlvlab/rpoで入手できる。

In recent years, prompt tuning has proven effective in adapting pre-trained vision-language models to downstream tasks. These methods aim to adapt the pre-trained models by introducing learnable prompts while keeping pre-trained weights frozen. However, learnable prompts can affect the internal representation within the self-attention module, which may negatively impact performance variance and generalization, especially in data-deficient settings. To address these issues, we propose a novel approach, Read-only Prompt Optimization (RPO). RPO leverages masked attention to prevent the internal representation shift in the pre-trained model. Further, to facilitate the optimization of RPO, the read-only prompts are initialized based on special tokens of the pre-trained model. Our extensive experiments demonstrate that RPO outperforms CLIP and CoCoOp in base-to-new generalization and domain generalization while displaying better robustness. Also, the proposed method achieves better generalization on extremely data-deficient settings, while improving parameter efficiency and computational overhead. Code is available at https://github.com/mlvlab/RPO.
翻訳日:2023-11-13 17:53:31 公開日:2023-11-10
# 予測を超えて:確率力学系の残留動的モード分解と分散

Beyond expectations: Residual Dynamic Mode Decomposition and Variance for Stochastic Dynamical Systems ( http://arxiv.org/abs/2308.10697v3 )

ライセンス: Link先を確認
Matthew J. Colbrook, Qin Li, Ryan V. Raut, Alex Townsend(参考訳) クープマン作用素は非線形力学系を線形化し、そのスペクトル情報を重要な関心を持つ。 これらのスペクトル特性を近似するために多くのアルゴリズムが開発されており、ダイナミックモード分解 (dmd) は射影に基づく手法の先駆者となっている。 クープマン作用素自身は線型であるが、無限次元の可観測空間で作用するという事実は問題を引き起こす。 これにはスプリアスモード、必須スペクトル、クープマンモード分解の検証が含まれる。 最近の研究は、決定論的システムに対するこれらの課題に対処しているが、koopman演算子が可観測性の期待値を測定する確率的システムに対する検証されたdmd法には、注目すべきギャップがある。 これらの問題に対処するためには、期待を超える必要があることを示します。 Koopmanフレームワークに分散を組み込むことで、これらの課題に対処する。 追加のMDD型行列を用いて,2乗残差項と分散項の和を近似し,それぞれがバッチスナップショットデータを用いて個別に近似することができる。 これにより、確率的クープマン作用素のスペクトル特性を検証し、射影誤差を制御できる。 また,統計コヒーレンシを計測するために分散・プソドスペクタの概念も導入する。 最後に、確率的クープマン作用素のスペクトル情報に対する一連の収束結果を示す。 本研究はシミュレーションデータと実験データの両方を用いた実用的応用により結論づける。 覚醒マウスの神経記録では、標準期待に基づく力学モデルでは不可能な生理学的に重要な情報を明らかにすることが示される。

Koopman operators linearize nonlinear dynamical systems, making their spectral information of crucial interest. Numerous algorithms have been developed to approximate these spectral properties, and Dynamic Mode Decomposition (DMD) stands out as the poster child of projection-based methods. Although the Koopman operator itself is linear, the fact that it acts in an infinite-dimensional space of observables poses challenges. These include spurious modes, essential spectra, and the verification of Koopman mode decompositions. While recent work has addressed these challenges for deterministic systems, there remains a notable gap in verified DMD methods for stochastic systems, where the Koopman operator measures the expectation of observables. We show that it is necessary to go beyond expectations to address these issues. By incorporating variance into the Koopman framework, we address these challenges. Through an additional DMD-type matrix, we approximate the sum of a squared residual and a variance term, each of which can be approximated individually using batched snapshot data. This allows verified computation of the spectral properties of stochastic Koopman operators, controlling the projection error. We also introduce the concept of variance-pseudospectra to gauge statistical coherency. Finally, we present a suite of convergence results for the spectral information of stochastic Koopman operators. Our study concludes with practical applications using both simulated and experimental data. In neural recordings from awake mice, we demonstrate how variance-pseudospectra can reveal physiologically significant information unavailable to standard expectation-based dynamical models.
翻訳日:2023-11-13 17:53:13 公開日:2023-11-10
# 無線通信ネットワークにおける高効率連帯学習のための安全深層強化学習手法

A Safe Deep Reinforcement Learning Approach for Energy Efficient Federated Learning in Wireless Communication Networks ( http://arxiv.org/abs/2308.10664v2 )

ライセンス: Link先を確認
Nikolaos Koursioumpas, Lina Magoula, Nikolaos Petropouleas, Alexandros-Ioannis Thanopoulos, Theodora Panagea, Nancy Alonistioti, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) 新たな人工知能(AI)時代に向けて - 無線ネットワークを有効にし、AIの環境への影響に関する懸念が業界と学界の両方で高まっている。 Federated Learning(FL)は、分散AI技術を保存する重要なプライバシとして登場した。 現在FLで行われている努力にもかかわらず、その環境影響は未解決の問題である。 FLプロセスの全体エネルギー消費の最小化を目標とし,モデルの性能を確保しつつ,必要な総エネルギーを最小化するために,関連機器の計算・通信資源のオーケストレーションを提案する。 そこで本研究では,訓練中にペナルティ関数を導入し,環境制約に違反する戦略をペナルティ化し,安全なRLプロセスに寄与するソフトアクタ批判的深層強化学習(DRL)ソリューションを提案する。 エネルギー消費と通信のオーバーヘッドを更に低減することを目的として,計算コスト効率のよいfl環境とともにデバイスレベルの同期手法を提案する。 評価の結果,提案手法の有効性と頑健性は,ネットワーク環境やflアーキテクチャの異なる4つの最先端のベースラインソリューションと比較し,最大94%の消費電力削減を達成した。

Progressing towards a new era of Artificial Intelligence (AI) - enabled wireless networks, concerns regarding the environmental impact of AI have been raised both in industry and academia. Federated Learning (FL) has emerged as a key privacy preserving decentralized AI technique. Despite efforts currently being made in FL, its environmental impact is still an open problem. Targeting the minimization of the overall energy consumption of an FL process, we propose the orchestration of computational and communication resources of the involved devices to minimize the total energy required, while guaranteeing a certain performance of the model. To this end, we propose a Soft Actor Critic Deep Reinforcement Learning (DRL) solution, where a penalty function is introduced during training, penalizing the strategies that violate the constraints of the environment, and contributing towards a safe RL process. A device level synchronization method, along with a computationally cost effective FL environment are proposed, with the goal of further reducing the energy consumption and communication overhead. Evaluation results show the effectiveness and robustness of the proposed scheme compared to four state-of-the-art baseline solutions on different network environments and FL architectures, achieving a decrease of up to 94% in the total energy consumption.
翻訳日:2023-11-13 17:52:52 公開日:2023-11-10
# マルチオブジェクト6DoFポース推定のためのより良いキーポイントの学習

Learning Better Keypoints for Multi-Object 6DoF Pose Estimation ( http://arxiv.org/abs/2308.07827v2 )

ライセンス: Link先を確認
Yangzheng Wu and Michael Greenspan(参考訳) 本稿では,キーポイント選択の問題に対処し,事前定義されたキーポイント位置が学習されると,従来の手法のようにヒューリスティックに選択されるのではなく,6DoFポーズ推定手法の性能が向上することを示した。 グラフネットワークをトレーニングして分散キーポイントのセットを同じ分散投票で選択することで,精度と効率性が向上することがわかった。 これらの投票は回帰ネットワークによって学習され、キーポイントの位置の証拠を蓄積し、従来のヒューリスティックなキーポイントアルゴリズムよりも正確に回帰することができる。 提案するkeygnetは,wasserstein距離と分散値の両方の損失測定を併用し,対象物体の色と形状の特徴を学習し,最適なキーポイント位置を推定する。 KeyGNetが選択したキーポイントは、テストされた7つのデータセットのすべての評価指標の精度を3つのキーポイント投票法で改善した。 挑戦的なOcclusion LINEMODデータセットは、PVN3DでADD(S)を+16.4%改善し、すべてのコアBOPデータセットは、+1%から+21.5%までのすべてのオブジェクトに対してARの改善を示した。 また、単一オブジェクトからKeyGNetキーポイントを使用した複数オブジェクトトレーニングへの移行時のパフォーマンスも顕著に向上し、Occlusion LINEMODのSISO-MIMOギャップを排除した。

We address the problem of keypoint selection, and find that the performance of 6DoF pose estimation methods can be improved when pre-defined keypoint locations are learned, rather than being heuristically selected as has been the standard approach. We found that accuracy and efficiency can be improved by training a graph network to select a set of disperse keypoints with similarly distributed votes. These votes, learned by a regression network to accumulate evidence for the keypoint locations, can be regressed more accurately compared to previous heuristic keypoint algorithms. The proposed KeyGNet, supervised by a combined loss measuring both Wasserstein distance and dispersion, learns the color and geometry features of the target objects to estimate optimal keypoint locations. Experiments demonstrate the keypoints selected by KeyGNet improved the accuracy for all evaluation metrics of all seven datasets tested, for three keypoint voting methods. The challenging Occlusion LINEMOD dataset notably improved ADD(S) by +16.4% on PVN3D, and all core BOP datasets showed an AR improvement for all objects, of between +1% and +21.5%. There was also a notable increase in performance when transitioning from single object to multiple object training using KeyGNet keypoints, essentially eliminating the SISO-MIMO gap for Occlusion LINEMOD.
翻訳日:2023-11-13 17:52:03 公開日:2023-11-10
# kNNグラフ構築のための分布インフォームド適応

Distribution-Informed Adaptation for kNN Graph Construction ( http://arxiv.org/abs/2308.02442v3 )

ライセンス: Link先を確認
Shaojie Min, Ji Liu(参考訳) グラフベースのkNNアルゴリズムは、その単純さと有効性から、機械学習タスクで広く普及している。 しかし、実データはしばしば複雑な分布を継承するので、従来のkNNグラフが統一k値に依存しているため、その性能は低下する。 この課題の背後にある重要な要因は、不明瞭なサンプルが決定境界に沿って存在することである。 そこで本研究では,適応kNNと分散対応グラフ構築を組み合わせた分散インフォームド適応kNNグラフ(DaNNG)を提案する。 最適化されたk適応基準で分布の近似を組み込むことで、DANNGはあいまいなサンプルの性能を大幅に改善し、全体的な精度と一般化能力を向上させることができる。 さまざまなベンチマークデータセットの厳密な評価を通じて、DaNNGは最先端のアルゴリズムを上回り、その適応性と実世界のさまざまなシナリオにおける有効性を示している。

Graph-based kNN algorithms have garnered widespread popularity for machine learning tasks due to their simplicity and effectiveness. However, as factual data often inherit complex distributions, the conventional kNN graph's reliance on a unified k-value can hinder its performance. A crucial factor behind this challenge is the presence of ambiguous samples along decision boundaries that are inevitably more prone to incorrect classifications. To address the situation, we propose the Distribution-Informed adaptive kNN Graph (DaNNG), which combines adaptive kNN with distribution-aware graph construction. By incorporating an approximation of the distribution with customized k-adaption criteria, DaNNG can significantly improve performance on ambiguous samples, and hence enhance overall accuracy and generalization capability. Through rigorous evaluations on diverse benchmark datasets, DaNNG outperforms state-of-the-art algorithms, showcasing its adaptability and efficacy across various real-world scenarios.
翻訳日:2023-11-13 17:51:36 公開日:2023-11-10
# ラベル不足下でのラーニング・トゥ・ランドにおけるGBDTよりも優れた事前学習深度モデル

Pretrained deep models outperform GBDTs in Learning-To-Rank under label scarcity ( http://arxiv.org/abs/2308.00177v2 )

ライセンス: Link先を確認
Charlie Hou, Kiran Koshy Thekumparampil, Michael Shavlovsky, Giulia Fanti, Yesh Dattatreya, Sujay Sanghavi(参考訳) 深層学習(DL)モデルは、テキストや画像領域では最先端であるが、表層学習とランド(LTR)の問題に対して、まだGBDT(Gradient Boosted Decision Trees)を一貫して上回っているわけではない。 テキストや画像タスクでdlモデルによって達成された最近のパフォーマンス向上のほとんどは教師なし事前トレーニングを使用しており、ラベル付きデータよりもラベルなしデータの方が桁違いに多い。 我々の知る限りでは、大量のラベルなしデータを生成するLTR問題には教師なし事前学習は適用されていない。 本研究では,深層モデルの教師なし事前学習がGBDTや他の非事前学習モデルよりもLTR性能を向上させるかを検討する。 ラベル付きデータよりもラベル付きデータが多い場合、LTR固有の事前学習損失であるSimCLR-Rankを含む単純な設計選択を組み込むことで、GBDT(および他の非事前学習ローダ)を一貫して上回る事前学習モデルを生成する。 このパフォーマンス改善は、平均だけでなく、外れ値クエリにも起こります。 我々は,(1)公開ベンチマーク表のLTRデータセット,(2)大規模産業用独自のランキングデータセットに基づく実験から,実証的な結論を導いた。 コードはhttps://anonymous.4open.science/r/ltr-pretrain-0DAD/README.mdで提供されている。

While deep learning (DL) models are state-of-the-art in text and image domains, they have not yet consistently outperformed Gradient Boosted Decision Trees (GBDTs) on tabular Learning-To-Rank (LTR) problems. Most of the recent performance gains attained by DL models in text and image tasks have used unsupervised pretraining, which exploits orders of magnitude more unlabeled data than labeled data. To the best of our knowledge, unsupervised pretraining has not been applied to the LTR problem, which often produces vast amounts of unlabeled data. In this work, we study whether unsupervised pretraining of deep models can improve LTR performance over GBDTs and other non-pretrained models. By incorporating simple design choices--including SimCLR-Rank, an LTR-specific pretraining loss--we produce pretrained deep learning models that consistently (across datasets) outperform GBDTs (and other non-pretrained rankers) in the case where there is more unlabeled data than labeled data. This performance improvement occurs not only on average but also on outlier queries. We base our empirical conclusions off of experiments on (1) public benchmark tabular LTR datasets, and (2) a large industry-scale proprietary ranking dataset. Code is provided at https://anonymous.4open.science/r/ltr-pretrain-0DAD/README.md.
翻訳日:2023-11-13 17:51:22 公開日:2023-11-10
# 不均一参加者に対する効果的な半教師付き連合学習

Efficient Semi-Supervised Federated Learning for Heterogeneous Participants ( http://arxiv.org/abs/2307.15870v2 )

ライセンス: Link先を確認
Zhipeng Sun, Yang Xu, Hongli Xu, Zhiyuan Wang, Yunming Liao(参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントがプライベートデータ上で協調的に機械学習モデルをトレーニングできるようにする。 しかし、リソース制約のあるクライアントでの大規模モデルのトレーニングとデプロイは困難である。 幸運にも、slit federated learning(sfl)は、クライアントの計算と通信の負担を軽減することで、実現可能なソリューションを提供する。 しかし、既存のSFLの作業はクライアントに十分なラベル付きデータを仮定することが多い。 さらに、クライアント間のデータ非IIDnessは、効率的なモデルトレーニングを保証するための別の課題となる。 我々の知る限り、上記の2つの問題はSFLでは同時に解決されていない。 そこで本研究では,クラスタリングの正規化を取り入れた新しいセミSFLシステムを提案し,非ラベル付きおよび非IIDクライアントデータを用いたより実用的なシナリオ下でSFLを実行する。 さらに,モデル収束に関する理論的および実験的研究により,ラベル付きデータおよびラベルなしデータに対する一貫性のないトレーニングプロセスがクラスタリング正規化の有効性に影響を及ぼすことが明らかとなった。 そこで我々は,トレーニングの不整合を緩和し,トレーニング性能を向上させるために,グローバル更新頻度を動的に調整する制御アルゴリズムを開発した。 ベンチマークモデルとデータセットに関する広範な実験により,本システムはトレーニング時間の3.0倍のスピードアップを提供し,目標精度に達すると通信コストを約70.3%削減し,最先端のベースラインと比較して最大5.1%の精度向上を達成していることが示された。

Federated Learning (FL) has emerged to allow multiple clients to collaboratively train machine learning models on their private data. However, training and deploying large-scale models on resource-constrained clients is challenging. Fortunately, Split Federated Learning (SFL) offers a feasible solution by alleviating the computation and/or communication burden on clients. However, existing SFL works often assume sufficient labeled data on clients, which is usually impractical. Besides, data non-IIDness across clients poses another challenge to ensure efficient model training. To our best knowledge, the above two issues have not been simultaneously addressed in SFL. Herein, we propose a novel Semi-SFL system, which incorporates clustering regularization to perform SFL under the more practical scenario with unlabeled and non-IID client data. Moreover, our theoretical and experimental investigations into model convergence reveal that the inconsistent training processes on labeled and unlabeled data have an influence on the effectiveness of clustering regularization. To this end, we develop a control algorithm for dynamically adjusting the global updating frequency, so as to mitigate the training inconsistency and improve training performance. Extensive experiments on benchmark models and datasets show that our system provides a 3.0x speed-up in training time and reduces the communication cost by about 70.3% while reaching the target accuracy, and achieves up to 5.1% improvement in accuracy under non-IID scenarios compared to the state-of-the-art baselines.
翻訳日:2023-11-13 17:50:58 公開日:2023-11-10
# TRansPose:透明オブジェクトのための大規模マルチスペクトルデータセット

TRansPose: Large-Scale Multispectral Dataset for Transparent Object ( http://arxiv.org/abs/2307.05016v3 )

ライセンス: Link先を確認
Jeongyun Kim, Myung-Hwan Jeon, Sangwoo Jung, Wooseong Yang, Minwoo Jung, Jaeho Shin, Ayoung Kim(参考訳) 透明な物体は私たちの日常生活で頻繁に遭遇するが、RGBや奥行きカメラでは認識されない、独特の物質特性のため、従来の視覚センサーには課題が生じる。 この制限を克服するため、サーマル赤外線カメラがソリューションとして登場し、透明物体の視界と形状情報を改善した。 本稿では,ステレオRGB-D,熱赤外(TIR)画像とオブジェクトのポーズを組み合わせて,透明物体の研究を促進する,最初の大規模マルチスペクトルデータセットTRansPoseを提案する。 データセットには、43の家庭用品、27のリサイクル可能なゴミ、29の化学実験室相当品、12の非透明物体を含む99の透明物体が含まれている。 333,819の画像と4,000,056のアノテーションの膨大なコレクションで構成されており、インスタンスレベルのセグメンテーションマスク、地対地ポーズ、完成度情報を提供している。 このデータはFLIR A65熱赤外カメラ、2台のIntel RealSense L515 RGB-Dカメラ、そしてフランカ・エミカ・パンダのロボットマニピュレータを用いて取得された。 Spanning 87 sequences, TRansPoseは、水で満たされたオブジェクト、多様な照明条件、重いクラッタ、透明で半透明な容器、ビニール袋の中のオブジェクト、マルチスタックオブジェクトなど、さまざまな困難な現実シナリオをカバーしている。 TRansPoseデータセットは以下のリンクからアクセスできる。

Transparent objects are encountered frequently in our daily lives, yet recognizing them poses challenges for conventional vision sensors due to their unique material properties, not being well perceived from RGB or depth cameras. Overcoming this limitation, thermal infrared cameras have emerged as a solution, offering improved visibility and shape information for transparent objects. In this paper, we present TRansPose, the first large-scale multispectral dataset that combines stereo RGB-D, thermal infrared (TIR) images, and object poses to promote transparent object research. The dataset includes 99 transparent objects, encompassing 43 household items, 27 recyclable trashes, 29 chemical laboratory equivalents, and 12 non-transparent objects. It comprises a vast collection of 333,819 images and 4,000,056 annotations, providing instance-level segmentation masks, ground-truth poses, and completed depth information. The data was acquired using a FLIR A65 thermal infrared (TIR) camera, two Intel RealSense L515 RGB-D cameras, and a Franka Emika Panda robot manipulator. Spanning 87 sequences, TRansPose covers various challenging real-life scenarios, including objects filled with water, diverse lighting conditions, heavy clutter, non-transparent or translucent containers, objects in plastic bags, and multi-stacked objects. TRansPose dataset can be accessed from the following link: https://sites.google.com/view/transpose-dataset
翻訳日:2023-11-13 17:49:25 公開日:2023-11-10
# PAC-ベイズ理論を用いた変分オートエンコーダの統計的保証

Statistical Guarantees for Variational Autoencoders using PAC-Bayesian Theory ( http://arxiv.org/abs/2310.04935v2 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) その誕生以来、変分オートエンコーダ(VAE)は機械学習の中心となっている。 広く使われているにもかかわらず、理論上の性質について多くの疑問が残る。 PAC-ベイジアン理論を用いて、この研究はVAEの統計的保証を発展させる。 まず、データ生成分布から個々のサンプルに条件付き後続分布に対する最初のPAC-Bayesian境界を導出する。 そして,この結果を用いて,vaeの復元損失に対する一般化保証と,入力と再生分布との間の距離の上限を定式化する。 さらに重要なことは、入力分布とVAEの生成モデルで定義される分布の間のワッサーシュタイン距離の上限を与えることである。

Since their inception, Variational Autoencoders (VAEs) have become central in machine learning. Despite their widespread use, numerous questions regarding their theoretical properties remain open. Using PAC-Bayesian theory, this work develops statistical guarantees for VAEs. First, we derive the first PAC-Bayesian bound for posterior distributions conditioned on individual samples from the data-generating distribution. Then, we utilize this result to develop generalization guarantees for the VAE's reconstruction loss, as well as upper bounds on the distance between the input and the regenerated distributions. More importantly, we provide upper bounds on the Wasserstein distance between the input distribution and the distribution defined by the VAE's generative model.
翻訳日:2023-11-13 17:41:54 公開日:2023-11-10
# 難読化と回復: 視覚障害難読化に基づく自己教師付き異常検出戦略

Excision And Recovery: Visual Defect Obfuscation Based Self-Supervised Anomaly Detection Strategy ( http://arxiv.org/abs/2310.04010v2 )

ライセンス: Link先を確認
YeongHyeon Park, Sungho Kang, Myung Jin Kim, Yeonho Lee, Hyeong Seok Kim, Juneho Yi(参考訳) 早期製造段階における異常状況の欠如により,非教師付き異常検出(UAD)アプローチが広く採用されており,通常のサンプルのみをトレーニングに用いている。 このアプローチは、訓練されたuadモデルが正常なパターンを正確に再構成するが、目に見えない異常なパターンに苦しむという仮定に基づいている。 UAD性能を高めるため,近年,修復・塗り替え方式が研究され,特に障害領域のマスキング戦略について検討されている。 しかし、克服すべき問題がまだ残っている。 1)多重マスキングによる時間的推測 2)ランダムマスキング戦略による出力不整合、及び 3) マスキング面積が大きい場合の正常なパターンの正確な再構成。 そこで本研究では,imagenet で事前学習した dino-vit に基づく単一決定論的マスキングと,ヒント提示のための視覚的難読化を特徴とする,新たな復元・修復法を提案する。 MVTec ADデータセットの実験結果から,事前学習した注意による決定論的マスキングは,疑わしい障害領域を効果的に排除し,上記の課題1と解決することを示した。 また、モザイクによるヒント提供は、これらの領域を二分マスクで空にするよりもUAD性能を高めることが証明され、課題を克服する。 提案手法は,ニューラルネットワーク構造の変化を伴わずに高いUAD性能を実現する。 そこで本研究では, EARを実用化可能なソリューションとして, 様々な製造業に採用することを提案する。

Due to scarcity of anomaly situations in the early manufacturing stage, an unsupervised anomaly detection (UAD) approach is widely adopted which only uses normal samples for training. This approach is based on the assumption that the trained UAD model will accurately reconstruct normal patterns but struggles with unseen anomalous patterns. To enhance the UAD performance, reconstruction-by-inpainting based methods have recently been investigated, especially on the masking strategy of suspected defective regions. However, there are still issues to overcome: 1) time-consuming inference due to multiple masking, 2) output inconsistency by random masking strategy, and 3) inaccurate reconstruction of normal patterns when the masked area is large. Motivated by this, we propose a novel reconstruction-by-inpainting method, dubbed Excision And Recovery (EAR), that features single deterministic masking based on the ImageNet pre-trained DINO-ViT and visual obfuscation for hint-providing. Experimental results on the MVTec AD dataset show that deterministic masking by pre-trained attention effectively cuts out suspected defective regions and resolve the aforementioned issues 1 and 2. Also, hint-providing by mosaicing proves to enhance the UAD performance than emptying those regions by binary masking, thereby overcomes issue 3. Our approach achieves a high UAD performance without any change of the neural network structure. Thus, we suggest that EAR be adopted in various manufacturing industries as a practically deployable solution.
翻訳日:2023-11-13 17:41:44 公開日:2023-11-10
# 教室におけるジェネレーティブAI:学生はアクティブラーニングを継続できるか?

Generative AI in the Classroom: Can Students Remain Active Learners? ( http://arxiv.org/abs/2310.03192v2 )

ライセンス: Link先を確認
Rania Abdelghani, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) 生成型人工知能(gai:generative artificial intelligence)は、教育における二重刃兵器と見なすことができる。 実際に、生徒の本質的なモチベーション、積極的エンゲージメント、学習に対するより制御力を高めるために、パーソナライズされ、対話的で、力強い教育シーケンスを提供するかもしれない。 しかし同時に、失敗例(特にLarge Language Models (LLMs))でさえ不確実性信号の欠如のような他のGAI特性は、自身の能力の過大評価、受動的性、好奇的で批判的な感覚の喪失など、反対の効果をもたらす可能性がある。 これらのネガティブな影響は、特にモデル行動における教育的スタンスが欠如しているためである。 実際、標準的な教育活動とは対照的に、GAIシステムは、学習プロセスや成果に焦点をあてることなく、ユーザの質問に簡単に、便利に答えるように設計されていることが多い。 本稿は,学生のアクティブラーニング戦略と関連するメタ認知能力への影響に着目し,教育におけるガイの利用に関するこれらの機会と課題を概説することから始まる。 そして、GAIベースの教育アプリケーションに教育的透明性を導入するための枠組みを提案する。 この枠組みは 1) モデルに教育原則を含むための訓練方法 2)GAIとの業務設計における制御・教育的相互作用の確保方法 3) 学習者の学習活動(メタ認知能力, GAIリテラシー)において, GAIを適切に活用することで, 関連するスキルを習得することができる教育方法。

Generative Artificial Intelligence (GAI) can be seen as a double-edged weapon in education. Indeed, it may provide personalized, interactive and empowering pedagogical sequences that could favor students' intrinsic motivation, active engagement and help them have more control over their learning. But at the same time, other GAI properties such as the lack of uncertainty signalling even in cases of failure (particularly with Large Language Models (LLMs)) could lead to opposite effects, e.g. over-estimation of one's own competencies, passiveness, loss of curious and critical-thinking sense, etc. These negative effects are due in particular to the lack of a pedagogical stance in these models' behaviors. Indeed, as opposed to standard pedagogical activities, GAI systems are often designed to answers users' inquiries easily and conveniently, without asking them to make an effort, and without focusing on their learning process and/or outcomes. This article starts by outlining some of these opportunities and challenges surrounding the use of GAI in education, with a focus on the effects on students' active learning strategies and related metacognitive skills. Then, we present a framework for introducing pedagogical transparency in GAI-based educational applications. This framework presents 1) training methods to include pedagogical principles in the models, 2) methods to ensure controlled and pedagogically-relevant interactions when designing activities with GAI and 3) educational methods enabling students to acquire the relevant skills to properly benefit from the use of GAI in their learning activities (meta-cognitive skills, GAI litteracy).
翻訳日:2023-11-13 17:41:16 公開日:2023-11-10
# ベースエディタ結果予測のための注意に基づくマルチタスク学習

Attention-based Multi-task Learning for Base Editor Outcome Prediction ( http://arxiv.org/abs/2310.02919v2 )

ライセンス: Link先を確認
Amina Mollaysa, Ahmed Allam, Michael Krauthammer(参考訳) ヒトの遺伝病はしばしば点突然変異から生じ、正確なゲノム編集技術の必要性を強調する。 これらのうち、塩基編集は単一のヌクレオチドレベルで標的となる改変を可能にするため際立っている。 しかし、その臨床応用は編集効率の低下と意図しない突然変異によって妨げられ、実験室での広範囲な試行錯誤実験が必要となる。 この過程を高速化するために、あるゲノム標的配列に対する全ての編集結果の可能性を予測するために、注目に基づく2段階機械学習モデルを提案する。 さらに,複数のベースエディタ(変種)を同時に学習するためのマルチタスク学習スキーマを提案する。 本モデルの予測は,複数のデータセットおよびベースエディタの実際の実験結果と一貫して強い相関を示した。 これらの結果は、ベース編集設計を改良するプロセスを強化し、加速するためのモデルの能力のさらなる検証を提供する。

Human genetic diseases often arise from point mutations, emphasizing the critical need for precise genome editing techniques. Among these, base editing stands out as it allows targeted alterations at the single nucleotide level. However, its clinical application is hindered by low editing efficiency and unintended mutations, necessitating extensive trial-and-error experimentation in the laboratory. To speed up this process, we present an attention-based two-stage machine learning model that learns to predict the likelihood of all possible editing outcomes for a given genomic target sequence. We further propose a multi-task learning schema to jointly learn multiple base editors (i.e. variants) at once. Our model's predictions consistently demonstrated a strong correlation with the actual experimental results on multiple datasets and base editor variants. These results provide further validation for the models' capacity to enhance and accelerate the process of refining base editing designs.
翻訳日:2023-11-13 17:40:49 公開日:2023-11-10
# amortized optimizationにおける目的関数近似のためのパラメータ化凸マイノアント

Parameterized Convex Minorant for Objective Function Approximation in Amortized Optimization ( http://arxiv.org/abs/2310.02519v3 )

ライセンス: Link先を確認
Jinrae Kim, Youdan Kim(参考訳) アモータイズされた最適化における目的関数の近似に対して,パラメータ付き凸分母法 (PCM) を提案する。 提案手法では、目的関数近似器をPCMと非負ギャップ関数の和で表現し、最適化変数のPCM凸により目的関数近似器を下から有界にする。 提案した目的関数近似器は連続関数の普遍近似器であり,PCMの大域最小化器は目的関数近似器のグローバル最小化を実現する。 したがって、目的関数近似器のグローバル最小化は、単一の凸最適化によって得ることができる。 提案手法を実現するために,PCMとしてパラメータ化log-sum-expネットワークを用いて拡張パラメータ化log-sum-expネットワークを提案する。 パラメータ化非凸目的関数近似と学習に基づく非線形モデル予測制御について数値シミュレーションを行い,提案手法の性能と特性を検証した。 シミュレーションの結果,提案手法は対象関数の学習や,凸最適化アルゴリズムを用いた大域的最小化器の探索に有効であることがわかった。

Parameterized convex minorant (PCM) method is proposed for the approximation of the objective function in amortized optimization. In the proposed method, the objective function approximator is expressed by the sum of a PCM and a nonnegative gap function, where the objective function approximator is bounded from below by the PCM convex in the optimization variable. The proposed objective function approximator is a universal approximator for continuous functions, and the global minimizer of the PCM attains the global minimum of the objective function approximator. Therefore, the global minimizer of the objective function approximator can be obtained by a single convex optimization. As a realization of the proposed method, extended parameterized log-sum-exp network is proposed by utilizing a parameterized log-sum-exp network as the PCM. Numerical simulation is performed for parameterized non-convex objective function approximation and for learning-based nonlinear model predictive control to demonstrate the performance and characteristics of the proposed method. The simulation results support that the proposed method can be used to learn objective functions and to find a global minimizer reliably and quickly by using convex optimization algorithms.
翻訳日:2023-11-13 17:40:34 公開日:2023-11-10
# HoloNets: スペクトル畳み込みは方向性グラフに拡張される

HoloNets: Spectral Convolutions do extend to Directed Graphs ( http://arxiv.org/abs/2310.02232v2 )

ライセンス: Link先を確認
Christian Koke, Daniel Cremers(参考訳) グラフ学習コミュニティ内では、従来の知識は、スペクトル畳み込みネットワークは無向グラフにのみ展開できる、と定めている。 ここでは、グラフフーリエ変換への伝統的な依存が超流動であることを示し、複素解析やスペクトル理論の高度なツールを用いて、スペクトル畳み込みを有向グラフに拡張する。 本稿では,新たに開発されたフィルタの周波数応答解釈を行い,フィルタ表現に使用するベースの影響を調査し,ネットワークを基盤とする特性演算子との相互作用について議論する。 開発した理論を徹底的に検証するために,実世界における実験を行い,有向スペクトル畳み込みネットワークは,多くのデータセットにおける親和性ノード分類のための新たな技術結果を提供し,ベースラインとは対照的に,解像度スケールの異なる位相摂動に対して安定的に表現できることを示した。

Within the graph learning community, conventional wisdom dictates that spectral convolutional networks may only be deployed on undirected graphs: Only there could the existence of a well-defined graph Fourier transform be guaranteed, so that information may be translated between spatial- and spectral domains. Here we show this traditional reliance on the graph Fourier transform to be superfluous and -- making use of certain advanced tools from complex analysis and spectral theory -- extend spectral convolutions to directed graphs. We provide a frequency-response interpretation of newly developed filters, investigate the influence of the basis used to express filters and discuss the interplay with characteristic operators on which networks are based. In order to thoroughly test the developed theory, we conduct experiments in real world settings, showcasing that directed spectral convolutional networks provide new state of the art results for heterophilic node classification on many datasets and -- as opposed to baselines -- may be rendered stable to resolution-scale varying topological perturbations.
翻訳日:2023-11-13 17:40:00 公開日:2023-11-10
# hoh: 大きなオブジェクト数を持つマーカーレスマルチモーダル人間-オブジェクト-ヒューマンハンドオーバデータセット

HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v3 )

ライセンス: Link先を確認
Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 本研究では,136個のオブジェクトからなる大規模オブジェクトカウントデータセットであるhoh(human-object-human)ハンドオーバデータセットを提案し,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,ハンドオーバパラメータ推定におけるai(artificial intelligence)のデータ駆動研究を,人インタラクションの2dおよび3dデータから加速する。 HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。 また,hohを用いて学習したニューラルネットワークを用いて,把握,方向,軌道予測を行う実験結果を示す。 唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカー付きデータセットによる課題を克服し、高解像度の手追跡を欠いている。 これまでのところ、hohはオブジェクト数、参加者数、役割反転を持つペア数、総相互作用において最大のハンドオーバデータセットである。

We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured.
翻訳日:2023-11-13 17:39:41 公開日:2023-11-10
# DYNAP-SE2:スケーラブルなマルチコア動的ニューロモルフィック非同期スパイクニューラルネットワークプロセッサ

DYNAP-SE2: a scalable multi-core dynamic neuromorphic asynchronous spiking neural network processor ( http://arxiv.org/abs/2310.00564v2 )

ライセンス: Link先を確認
Ole Richter, Chenxi Wu, Adrian M. Whatley, German K\"ostinger, Carsten Nielsen, Ning Qiao and Giacomo Indiveri(参考訳) 技術が驚くべき進歩を遂げたことにより、エッジのセンサー付近でデータを処理する必要性が劇的に高まった。 これらのアプリケーションで使用される電子システムは、データをリアルタイムで連続的に処理し、最小のエネルギー予算を用いて関連情報を抽出しなければならない。 オンデマンド、スパース、エッジコンピューティングをサポートする知覚信号の常時処理を実装するための有望なアプローチは、生物学的神経系からインスピレーションを得ることである。 このアプローチに従って,リアルタイムイベントベーススパイキングニューラルネットワーク(SNN)をプロトタイピングするための,脳に触発されたプラットフォームを提案する。 提案システムは, 短期可塑性, NMDA ゲーティング, AMPA拡散, ホメオスタシス, スパイク周波数適応, コンダクタンス系デンドライトコンパートメント, スパイク伝達遅延などの動的および現実的なニューラル処理現象の直接エミュレーションを支援する。 このようなプリミティブを実装するアナログ回路は、ルーティングやマッピングイベントのための低遅延非同期デジタル回路とペアリングされる。 この非同期インフラストラクチャは、異なるネットワークアーキテクチャの定義を可能にし、イベントベースおよび連続信号センサからのデータを変換およびエンコードするための直接イベントベースのインターフェースを提供する。 本稿では、システム全体のアーキテクチャを説明し、ニューラルダイナミクスをエミュレートする混合信号アナログデジタル回路を特徴付け、その特徴を実験的に示すとともに、システム構成に使用できる低レベルのソフトウェアエコシステムを提示する。 異なる生物学的に有望なニューラルネットワークをエミュレートする柔軟性と、個体群と単一ニューロンの信号の両方をリアルタイムで監視できるチップの能力により、基礎研究とエッジコンピューティングの両方で複雑なニューラルネットワークモデルを開発し検証することができる。

With the remarkable progress that technology has made, the need for processing data near the sensors at the edge has increased dramatically. The electronic systems used in these applications must process data continuously, in real-time, and extract relevant information using the smallest possible energy budgets. A promising approach for implementing always-on processing of sensory signals that supports on-demand, sparse, and edge-computing is to take inspiration from biological nervous system. Following this approach, we present a brain-inspired platform for prototyping real-time event-based Spiking Neural Networks (SNNs). The system proposed supports the direct emulation of dynamic and realistic neural processing phenomena such as short-term plasticity, NMDA gating, AMPA diffusion, homeostasis, spike frequency adaptation, conductance-based dendritic compartments and spike transmission delays. The analog circuits that implement such primitives are paired with a low latency asynchronous digital circuits for routing and mapping events. This asynchronous infrastructure enables the definition of different network architectures, and provides direct event-based interfaces to convert and encode data from event-based and continuous-signal sensors. Here we describe the overall system architecture, we characterize the mixed signal analog-digital circuits that emulate neural dynamics, demonstrate their features with experimental measurements, and present a low- and high-level software ecosystem that can be used for configuring the system. The flexibility to emulate different biologically plausible neural networks, and the chip's ability to monitor both population and single neuron signals in real-time, allow to develop and validate complex models of neural processing for both basic research and edge-computing applications.
翻訳日:2023-11-13 17:39:07 公開日:2023-11-10
# ダウンダウンウォッチ:extreme event regularizerによる早期停止予測

Outage-Watch: Early Prediction of Outages using Extreme Event Regularizer ( http://arxiv.org/abs/2309.17340v2 )

ライセンス: Link先を確認
Shubham Agarwal, Sarthak Chakraborty, Shaddy Garg, Sumit Bisht, Chahat Jain, Ashritha Gonuguntla and Shiv Saini(参考訳) クラウドサービスは全社的に存在し、クラウドサービスの失敗は命の事実である。 顧客を維持し、収益損失を防止するためには、これらのサービスに高い信頼性保証を提供することが重要である。 この方法の1つは、障害を事前に予測することで、重症度を低減し、回復までの時間を短縮することができる。 これらのイベントの豪華さのため、重大な障害を予測することは困難である。 さらに、クリティカルな障害は観測可能なデータの観点からは定義できない。 提案手法であるOutage-Watchでは、重要なサービス停止を、メトリクスセットによってキャプチャされたQuality of Service(QoS)の劣化として定義する。 Outage-Watchは、現在のシステム状態を使用して、QoSメトリクスがしきい値を越えて極端なイベントを開始するかどうかを事前に検出する。 ガウスの混合物はqosメトリクスの分布を柔軟にモデル化するために使われ、極端なイベントレギュラライザーは分布の尾での学習を改善するのに役立つ。 qosメトリックス交差しきい値のいずれかの確率が著しく変化した場合、停止が予測される。 現実のSaaS企業のデータセットに対する我々の評価は、Outage-Watchが従来の手法を平均0.98で大幅に上回っていることを示している。 さらに、Outage-Watchは、サービスメトリクスの変化を示すすべての障害を検出し、提案手法の有効性を実証し、エンタープライズクラウドサービスシステムにデプロイすると、障害の平均時間検出(MTTD)を最大88%削減する。

Cloud services are omnipresent and critical cloud service failure is a fact of life. In order to retain customers and prevent revenue loss, it is important to provide high reliability guarantees for these services. One way to do this is by predicting outages in advance, which can help in reducing the severity as well as time to recovery. It is difficult to forecast critical failures due to the rarity of these events. Moreover, critical failures are ill-defined in terms of observable data. Our proposed method, Outage-Watch, defines critical service outages as deteriorations in the Quality of Service (QoS) captured by a set of metrics. Outage-Watch detects such outages in advance by using current system state to predict whether the QoS metrics will cross a threshold and initiate an extreme event. A mixture of Gaussian is used to model the distribution of the QoS metrics for flexibility and an extreme event regularizer helps in improving learning in tail of the distribution. An outage is predicted if the probability of any one of the QoS metrics crossing threshold changes significantly. Our evaluation on a real-world SaaS company dataset shows that Outage-Watch significantly outperforms traditional methods with an average AUC of 0.98. Additionally, Outage-Watch detects all the outages exhibiting a change in service metrics and reduces the Mean Time To Detection (MTTD) of outages by up to 88% when deployed in an enterprise cloud-service system, demonstrating efficacy of our proposed method.
翻訳日:2023-11-13 17:38:19 公開日:2023-11-10
# 神経による階層型マルチモーダル学習

Neuro-Inspired Hierarchical Multimodal Learning ( http://arxiv.org/abs/2309.15877v2 )

ライセンス: Link先を確認
Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan(参考訳) 様々な情報源やモダリティからの情報の統合や処理は、現実世界の包括的かつ正確な認識を得るために重要である。 神経科学からインスピレーションを得て,情報ボトルネックの概念を利用した情報理論的階層的知覚(ithp)モデルを開発した。 すべてのモダリティを入力として組み込むことを目的とした従来の核融合モデルとは異なり、我々のモデルは素モダリティを入力として指定し、残りのモダリティは情報経路の検出器として機能する。 提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。 このアプローチは、冗長性を最小化しながら関連情報を保持し、ダウンストリームタスクの性能を大幅に向上させる。 MUStARDデータセットとCMU-MOSIデータセットの両方の実験評価により、我々のモデルはマルチモーダル学習シナリオにおいて、常に重要な情報を蒸留し、最先端のベンチマークより優れていることが示された。

Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Distinct from most traditional fusion models that aim to incorporate all modalities as input, our model designates the prime modality as input, while the remaining modalities act as detectors in the information pathway. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of downstream tasks. Experimental evaluations on both the MUStARD and CMU-MOSI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks.
翻訳日:2023-11-13 17:37:54 公開日:2023-11-10
# 単語化:英語の綴りのパターンを教える新しい方法

Wordification: A New Way of Teaching English Spelling Patterns ( http://arxiv.org/abs/2309.12981v2 )

ライセンス: Link先を確認
Lexington Whalen, Nathan Bickel, Shash Comandur, Dalton Craven, Stanley Dubinsky, Homayoun Valafar(参考訳) リテラシー(英: Literacy)または読み書き能力は、人生とより大きな社会における成功の重要な指標である。 青少年非行者の85%は、適切な読み書きができず、薬物乱用問題に悩む人の半数以上が読み書きが困難であり、高校を卒業していない人の3分の2は適切な識字能力に欠けていると推定されている。 また, 小学校4年生の読み書きスキルを身につけていない幼児は, ほとんど追いつかない可能性が約80%ある。 多くの人は、アメリカ合衆国のような先進国ではリテラシーが問題にならないと信じているが、これは危険な誤解である。 世界的には、リテラシーの問題により毎年119兆ドルが失われており、アメリカでは300億ドルと見積もられている。 よりショッキングな言葉で言えば、アメリカ人成人の5人に1人は、基本的な文章を理解できない。 さらに悪いことに、読み書き能力の欠如を修正するために現在利用可能なツールは、高価な家庭教師や他のプログラムで、要求されるオーディエンスに届かないことが多い。 本稿では,米国の小学生に英語の綴りと単語認識を教える新しい方法である単語化について述べる。 Wordification は、英語のリテラシーを教えるために設計されたウェブアプリケーションである。言語学の原則を、あらゆるコンピュータベースの教育アプリケーションで以前には十分に利用されていなかった方法で、単語の正書法や音韻学的特性に適用する。

Literacy, or the ability to read and write, is a crucial indicator of success in life and greater society. It is estimated that 85% of people in juvenile delinquent systems cannot adequately read or write, that more than half of those with substance abuse issues have complications in reading or writing and that two-thirds of those who do not complete high school lack proper literacy skills. Furthermore, young children who do not possess reading skills matching grade level by the fourth grade are approximately 80% likely to not catch up at all. Many may believe that in a developed country such as the United States, literacy fails to be an issue; however, this is a dangerous misunderstanding. Globally an estimated 1.19 trillion dollars are lost every year due to issues in literacy; in the USA, the loss is an estimated 300 billion. To put it in more shocking terms, one in five American adults still fail to comprehend basic sentences. Making matters worse, the only tools available now to correct a lack of reading and writing ability are found in expensive tutoring or other programs that oftentimes fail to be able to reach the required audience. In this paper, our team puts forward a new way of teaching English spelling and word recognitions to grade school students in the United States: Wordification. Wordification is a web application designed to teach English literacy using principles of linguistics applied to the orthographic and phonological properties of words in a manner not fully utilized previously in any computer-based teaching application.
翻訳日:2023-11-13 17:37:14 公開日:2023-11-10
# VDIP-TGV:全一般化変分を前提とした変分深度画像によるブラインド画像デコンボリューション

VDIP-TGV: Blind Image Deconvolution via Variational Deep Image Prior Empowered by Total Generalized Variation ( http://arxiv.org/abs/2310.19477v2 )

ライセンス: Link先を確認
Tingting Wu, Zhiyan Du, Zhi Li, Feng-Lei Fan, Tieyong Zeng(参考訳) ぼやけたイメージから未知のぼやけたカーネルで鮮明なイメージを復元することは難しい問題である。 deep image prior (dip) では、教師付きモデルではなく、単一の画像の正規化としてディープネットワークを使用することを提案している。 しかし、画像とネットワークアーキテクチャの関係は不明確であるため、推定されたぼやけカーネルとクリーンイメージに十分な制約を与える適切なアーキテクチャを見つけることは困難である。 また、ディップは後方のスパース最大値(map)を使い、回復画像の選択を強制するには不十分である。 近年、ボケカーネルとリカバリイメージの両方に制約を課し、変分原理による最適化過程において、画像の標準偏差を考慮した変分深部画像前処理(VDIP)が提案されている。 しかし,VDIPは画像の細部処理に苦慮し,ぼやけたカーネルが大きければ準最適結果を生成する傾向がある。 そこで本論文では,全一般化変分法(TGV)をVDIPと組み合わせ,VDIPの欠点を克服する。 TGVはフレキシブルな正則化であり、様々な順序の偏微分の特性を利用して異なるスケールで画像を正則化し、シャープエッジを維持しながら油絵のアーチファクトを減らす。 提案したVDIP-TGVは、TGVを介して余分な勾配情報を補足することにより、画像のエッジと詳細を効果的に回復する。 さらに、このモデルは従来のアルゴリズムとディープラーニングを効果的に組み合わせた乗算器の交互方向法(ADMM)によって解決される。 実験により,提案するVDIP-TGVは,様々な最先端モデルを定量的かつ定性的に超えることがわかった。

Recovering clear images from blurry ones with an unknown blur kernel is a challenging problem. Deep image prior (DIP) proposes to use the deep network as a regularizer for a single image rather than as a supervised model, which achieves encouraging results in the nonblind deblurring problem. However, since the relationship between images and the network architectures is unclear, it is hard to find a suitable architecture to provide sufficient constraints on the estimated blur kernels and clean images. Also, DIP uses the sparse maximum a posteriori (MAP), which is insufficient to enforce the selection of the recovery image. Recently, variational deep image prior (VDIP) was proposed to impose constraints on both blur kernels and recovery images and take the standard deviation of the image into account during the optimization process by the variational principle. However, we empirically find that VDIP struggles with processing image details and tends to generate suboptimal results when the blur kernel is large. Therefore, we combine total generalized variational (TGV) regularization with VDIP in this paper to overcome these shortcomings of VDIP. TGV is a flexible regularization that utilizes the characteristics of partial derivatives of varying orders to regularize images at different scales, reducing oil painting artifacts while maintaining sharp edges. The proposed VDIP-TGV effectively recovers image edges and details by supplementing extra gradient information through TGV. Additionally, this model is solved by the alternating direction method of multipliers (ADMM), which effectively combines traditional algorithms and deep learning methods. Experiments show that our proposed VDIP-TGV surpasses various state-of-the-art models quantitatively and qualitatively.
翻訳日:2023-11-13 17:27:42 公開日:2023-11-10
# oracle によるコンテクスト・バンディットのリラクゼーション改善

An Improved Relaxation for Oracle-Efficient Adversarial Contextual Bandits ( http://arxiv.org/abs/2310.19025v2 )

ライセンス: Link先を確認
Kiarash Banihashem, MohammadTaghi Hajiaghayi, Suho Shin, Max Springer(参考訳) 我々は,既知の分布から文脈が順次引き起こされ,コストシーケンスがオンラインの敵によって選択される,敵対的文脈的バンディット問題に対するoracleの効率的な緩和を提案する。 我々のアルゴリズムは、$O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$の後悔のバウンダリを持ち、少なくとも$O(K)$コールをオフラインの最適化オラクルに呼び出し、$K$はアクションの数を表し、$T$はラウンドの数を表し、$\Pi$はポリシーの集合を示す。 これは、NeurIPS 2016 で Syrgkanis et al. によって得られたような$O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}})$ の事前の最高境界を改善する最初の結果であり、NeurIPS 2007 で得られるラングフォードと張の元の境界と一致する最初の結果である。

We present an oracle-efficient relaxation for the adversarial contextual bandits problem, where the contexts are sequentially drawn i.i.d from a known distribution and the cost sequence is chosen by an online adversary. Our algorithm has a regret bound of $O(T^{\frac{2}{3}}(K\log(|\Pi|))^{\frac{1}{3}})$ and makes at most $O(K)$ calls per round to an offline optimization oracle, where $K$ denotes the number of actions, $T$ denotes the number of rounds and $\Pi$ denotes the set of policies. This is the first result to improve the prior best bound of $O((TK)^{\frac{2}{3}}(\log(|\Pi|))^{\frac{1}{3}})$ as obtained by Syrgkanis et al. at NeurIPS 2016, and the first to match the original bound of Langford and Zhang at NeurIPS 2007 which was obtained for the stochastic case.
翻訳日:2023-11-13 17:26:48 公開日:2023-11-10
# バイアス分散分解による半教師付き不均衡ノード分類の再検討

Rethinking Semi-Supervised Imbalanced Node Classification from Bias-Variance Decomposition ( http://arxiv.org/abs/2310.18765v2 )

ライセンス: Link先を確認
Divin Yan, Gengchen Wei, Chen Yang, Shengzhong Zhang, Zengfeng Huang(参考訳) 本稿では,グラフ構造データ学習のためのグラフニューラルネットワーク(GNN)におけるクラス不均衡問題に対する新しいアプローチを提案する。 提案手法は不均衡ノード分類とバイアス分散分解を統合し,データ不均衡とモデル分散を密接に関連付ける理論的枠組みを確立する。 また,グラフ増分手法を利用して分散を推定し,不均衡の影響を軽減するために正規化項を設計する。 自然に不均衡なデータセットや、パブリックなクラス不均衡なデータセットを含む複数のベンチマークで試験を行い、我々の手法が様々な不均衡なシナリオで最先端の手法よりも優れていることを示した。 この研究は、GNNにおける不均衡ノード分類の問題に対処するための新しい理論的視点を提供する。

This paper introduces a new approach to address the issue of class imbalance in graph neural networks (GNNs) for learning on graph-structured data. Our approach integrates imbalanced node classification and Bias-Variance Decomposition, establishing a theoretical framework that closely relates data imbalance to model variance. We also leverage graph augmentation technique to estimate the variance, and design a regularization term to alleviate the impact of imbalance. Exhaustive tests are conducted on multiple benchmarks, including naturally imbalanced datasets and public-split class-imbalanced datasets, demonstrating that our approach outperforms state-of-the-art methods in various imbalanced scenarios. This work provides a novel theoretical perspective for addressing the problem of imbalanced node classification in GNNs.
翻訳日:2023-11-13 17:26:19 公開日:2023-11-10
# 連続フェルミオン類のリーブ・ロビンソン境界について

On Lieb-Robinson bounds for a class of continuum fermions ( http://arxiv.org/abs/2310.17736v2 )

ライセンス: Link先を確認
Benjamin Hinrichs, Marius Lemm, Oliver Siebert(参考訳) 我々は, [m] で以前に研究したように, 紫外正規化対相互作用を持つ r^d$ の多重フェルミオン系の量子力学を考える。 Gebert, B. Nachtergaele, J. Reschke, R. Sims, Ann アンリ・ポアンカー 21.11 (2020)] 我々は、ポテンシャルに対する実質的に緩和された仮定の下で束縛されたリーブ・ロビンソンを提供する。 また、同じ緩和された仮定の下で、L^2$-オーバーラップ上の関連する一体リーブ・ロビンソンを、ほぼ弾道的な(すなわち、ほぼ直線的な光円錐)に改善する。 応用例としては、スペクトルギャップの存在下での無限体積ダイナミクスの存在と基底状態のクラスタリングがある。 また、条件付き予想というフェルミオン連続体の概念を開発し、それを局所的に時間発展するフェルミオン可観測物に近似させ、リーブ・ロビンソン境界の他の応用への扉を開く。

We consider the quantum dynamics of a many-fermion system in $\mathbb R^d$ with an ultraviolet regularized pair interaction as previously studied in [M. Gebert, B. Nachtergaele, J. Reschke, and R. Sims, Ann. Henri Poincar\'e 21.11 (2020)]. We provide a Lieb-Robinson bound under substantially relaxed assumptions on the potentials. We also improve the associated one-body Lieb-Robinson bound on $L^2$-overlaps to an almost ballistic one (i.e., an almost linear light cone) under the same relaxed assumptions. Applications include the existence of the infinite-volume dynamics and clustering of ground states in the presence of a spectral gap. We also develop a fermionic continuum notion of conditional expectation and use it to approximate time-evolved fermionic observables by local ones, which opens the door to other applications of the Lieb-Robinson bounds.
翻訳日:2023-11-13 17:26:06 公開日:2023-11-10
# 潜在誘導拡散とネストセンブルを用いた医用画像分類におけるロバスト性と信頼性の向上

Improving Robustness and Reliability in Medical Image Classification with Latent-Guided Diffusion and Nested-Ensembles ( http://arxiv.org/abs/2310.15952v3 )

ライセンス: Link先を確認
Xing Shen, Hengguan Huang, Brennan Nichyporuk, Tal Arbel(参考訳) 深層学習モデルは、様々な医療画像解析タスクにおいて顕著な成功を収めてきたが、実際の臨床状況におけるこれらのモデルの展開には、取得した画像のばらつきに対して堅牢である必要がある。 多くの方法は、トレーニングデータを拡張してテスト時の堅牢性を高めるために事前定義された変換を適用するが、これらの変換は、患者画像に見られる多様な変数に対するモデルの堅牢性を保証するものではない。 本稿では,条件付き拡散モデルと組み合わされたトランスフォーマーに基づく新しい3段階アプローチを提案する。 この目的のために、複数の画像エンコーダはまず階層的な特徴表現を学習し、識別可能な潜在空間を構築する。 次に、潜在コードに導かれる逆拡散過程が、情報的事前に作用し、予測候補を生成的手法で提案する。 最後に、予測候補を2レベル集約プロトコルに集約し、最終的な出力を生成する。 医用イメージングベンチマークデータセットの広範な実験を通じて,本手法はロバスト性と信頼性のキャリブレーションの観点から最先端の手法により改善されることを示す。 さらに, 症例レベルでの予測の不確実性を定量化し, 臨床実習における臨床医への信頼性を高める戦略を導入する。

While deep learning models have achieved remarkable success across a range of medical image analysis tasks, deployment of these models in real clinical contexts requires that they be robust to variability in the acquired images. While many methods apply predefined transformations to augment the training data to enhance test-time robustness, these transformations may not ensure the model's robustness to the diverse variability seen in patient images. In this paper, we introduce a novel three-stage approach based on transformers coupled with conditional diffusion models, with the goal of improving model robustness to the kinds of imaging variability commonly encountered in practice without the need for pre-determined data augmentation strategies. To this end, multiple image encoders first learn hierarchical feature representations to build discriminative latent spaces. Next, a reverse diffusion process, guided by the latent code, acts on an informative prior and proposes prediction candidates in a generative manner. Finally, several prediction candidates are aggregated in a bi-level aggregation protocol to produce the final output. Through extensive experiments on medical imaging benchmark datasets, we show that our method improves upon state-of-the-art methods in terms of robustness and confidence calibration. Additionally, we introduce a strategy to quantify the prediction uncertainty at the instance level, increasing their trustworthiness to clinicians using them in clinical practice.
翻訳日:2023-11-13 17:25:48 公開日:2023-11-10
# Rosetta Stone at the Arabic Reverse Dictionary Shared Task: AHop from Language Modeling to Word-Definition Alignment (英語)

Rosetta Stone at the Arabic Reverse Dictionary Shared Task: A Hop From Language Modeling To Word--Definition Alignment ( http://arxiv.org/abs/2310.15823v2 )

ライセンス: Link先を確認
Ahmed ElBakry, Mohamed Gabr, Muhammad ElNokrashy, Badr AlKhamissi(参考訳) 逆辞書は、ユーザーが提供された定義、意味、記述に基づいて単語を発見できるツールである。 このような手法は様々なシナリオで有用であり、同一性のない単語の記述を持つ言語学習者を支援し、正確な用語を求める作家に利益をもたらす。 これらのシナリオは、しばしば"Tip-of-the-Tongue"(TOT)現象と呼ばれる現象をカプセル化する。 本稿では,アラビア語逆辞書共有タスクの勝利解を提案する。 この課題は、アラビア語のベクトル表現を付随する記述から導出することに焦点を当てている。 共有タスクは2つの異なるサブタスクを含む: 1つはアラビア語の定義を入力として含み、もう1つは英語の定義を用いる。 最初のサブタスクに対して、我々のアプローチは、与えられた定義に埋め込まれた単語を予測し、微調整されたアラビアBERTベースのモデルの集合に依存する。 最終的な表現は、アンサンブル内の各モデルからの出力埋め込み平均化によって得られる。 対照的に、第2サブタスクの最も効果的な解決策は、英語のテスト定義をアラビア語に翻訳し、最初は第1サブタスクのために訓練された微調整モデルに適用することである。 この簡単な方法は両方のサブタスクで最高点を達成する。

A Reverse Dictionary is a tool enabling users to discover a word based on its provided definition, meaning, or description. Such a technique proves valuable in various scenarios, aiding language learners who possess a description of a word without its identity, and benefiting writers seeking precise terminology. These scenarios often encapsulate what is referred to as the "Tip-of-the-Tongue" (TOT) phenomena. In this work, we present our winning solution for the Arabic Reverse Dictionary shared task. This task focuses on deriving a vector representation of an Arabic word from its accompanying description. The shared task encompasses two distinct subtasks: the first involves an Arabic definition as input, while the second employs an English definition. For the first subtask, our approach relies on an ensemble of finetuned Arabic BERT-based models, predicting the word embedding for a given definition. The final representation is obtained through averaging the output embeddings from each model within the ensemble. In contrast, the most effective solution for the second subtask involves translating the English test definitions into Arabic and applying them to the finetuned models originally trained for the first subtask. This straightforward method achieves the highest score across both subtasks.
翻訳日:2023-11-13 17:25:25 公開日:2023-11-10
# ディトラクタ対応イベントベーストラッキング

Distractor-aware Event-based Tracking ( http://arxiv.org/abs/2310.14194v3 )

ライセンス: Link先を確認
Yingkai Fu, Meng Li, Wenxi Liu, Yuanchen Wang, Jiqing Zhang, Baocai Yin, Xiaopeng Wei, Xin Yang(参考訳) イベントカメラ(ダイナミックビジョンセンサー)は、近年、基本的な視覚タスクからハイレベル視覚研究まで成功している。 光強度の変化を非同期に捉えることができるため、イベントカメラは、低照度、高ダイナミックレンジ、高速移動中のオブジェクトなど、困難なシナリオで動くオブジェクトをキャプチャする固有の利点がある。 したがって、イベントカメラはビジュアルオブジェクト追跡に自然である。 しかし、RGBトラッカーから派生した現在のイベントベースのトラッカーは、単に入力イメージをイベントフレームに変更するだけで、ターゲットの区別のために主にオブジェクトテクスチャに焦点を当てた従来の追跡パイプラインに従っている。 結果として、トラッカーは、移動カメラや散らかった前景などの困難なシナリオに頑丈ではないかもしれない。 本稿では,シャムネットワークアーキテクチャ(danet)にトランスフォーマーモジュールを導入するイベントベースのトラッカを提案する。 具体的には,動き認識ネットワークとターゲット認識ネットワークを主とし,イベントデータから動きの手がかりと物体の輪郭を同時に活用し,動きの物体を発見し,動的に注意をそらして対象物体を識別する。 私たちのDANetは、後処理なしでエンドツーエンドでトレーニングでき、単一のV100上で80FPS以上で実行できます。 提案モデルを検証するため、2つの大きなイベント追跡データセットに関する包括的な実験を行った。 我々のトラッカーは精度と効率の両面において最先端トラッカーに対して優れた性能を示す。

Event cameras, or dynamic vision sensors, have recently achieved success from fundamental vision tasks to high-level vision researches. Due to its ability to asynchronously capture light intensity changes, event camera has an inherent advantage to capture moving objects in challenging scenarios including objects under low light, high dynamic range, or fast moving objects. Thus event camera are natural for visual object tracking. However, the current event-based trackers derived from RGB trackers simply modify the input images to event frames and still follow conventional tracking pipeline that mainly focus on object texture for target distinction. As a result, the trackers may not be robust dealing with challenging scenarios such as moving cameras and cluttered foreground. In this paper, we propose a distractor-aware event-based tracker that introduces transformer modules into Siamese network architecture (named DANet). Specifically, our model is mainly composed of a motion-aware network and a target-aware network, which simultaneously exploits both motion cues and object contours from event data, so as to discover motion objects and identify the target object by removing dynamic distractors. Our DANet can be trained in an end-to-end manner without any post-processing and can run at over 80 FPS on a single V100. We conduct comprehensive experiments on two large event tracking datasets to validate the proposed model. We demonstrate that our tracker has superior performance against the state-of-the-art trackers in terms of both accuracy and efficiency.
翻訳日:2023-11-13 17:25:03 公開日:2023-11-10
# 会話型金融情報検索モデル(ConFIRM)

Conversational Financial Information Retrieval Model (ConFIRM) ( http://arxiv.org/abs/2310.13001v2 )

ライセンス: Link先を確認
Stephen Choi, William Gazeley, Siu Ho Wong, Tingting Li(参考訳) 大規模言語モデル(LLM)の指数的な成長に伴い、金融メリット探索(英語版)のような専門分野の創発的特性を活用する。 しかし、金融などの規制された分野は、ドメイン最適化フレームワークを必要とする独自の制約を課す。 質問意図分類と知識ベースラベリングに適したLLMベースの対話型財務情報検索モデルであるConFIRMを提案する。 ConFIRMは、1)ドメイン固有の問合せペアを合成する手法と、2)クエリ分類タスクのためのパラメータ効率の良い微調整手法の評価からなる。 4000以上のサンプルのデータセットを生成し、別々のテストセットで精度を評価します。 確認は90%以上の精度を達成し、規制の遵守に不可欠である。 confirmは金融ダイアログシステムの正確なクエリインテントを抽出するためのデータ効率の良いソリューションを提供する。

With the exponential growth in large language models (LLMs), leveraging their emergent properties for specialized domains like finance merits exploration. However, regulated fields such as finance pose unique constraints, requiring domain-optimized frameworks. We present ConFIRM, an LLM-based conversational financial information retrieval model tailored for query intent classification and knowledge base labeling. ConFIRM comprises two modules: 1) a method to synthesize finance domain-specific question-answer pairs, and 2) evaluation of parameter efficient fine-tuning approaches for the query classification task. We generate a dataset of over 4000 samples, assessing accuracy on a separate test set. ConFIRM achieved over 90% accuracy, essential for regulatory compliance. ConFIRM provides a data-efficient solution to extract precise query intent for financial dialog systems.
翻訳日:2023-11-13 17:24:37 公開日:2023-11-10
# 超伝導ナノワイヤ単光子検出器は光子数をどの程度解決できるか?

How well can superconducting nanowire single-photon detectors resolve photon number? ( http://arxiv.org/abs/2310.12471v2 )

ライセンス: Link先を確認
Timon Schapeler, Niklas Lamberty, Thomas Hummel, Fabian Schlue, Michael Stefszky, Benjamin Brecht, Christine Silberhorn, and Tim J. Bartley(参考訳) 市販の超伝導ナノワイヤ単光子検出器(SNSPD)からの一連の出力信号に主成分分析(PCA)を適用し,光子数分解能について検討する。 電気信号の振幅とともに上昇するエッジは光子数に最も依存していることが判明した。 パルス振幅の電圧を同時に測定しながら立ち上がりエッジを正確に測定し、SNSPDの光子数分解能を最大化する。 原理成分の最適基底を用いて、1-および2-光子事象と最大5光子部分分解能の曖昧な識別を示す。 これにより、検出器多重化アーキテクチャを必要とせず、SNSPDの使用例を光子計数実験に拡張する。

We apply principal component analysis (PCA) to a set of electrical output signals from a commercially available superconducting nanowire single-photon detector (SNSPD) to investigate their photon-number-resolving capability. We find that the rising edge as well as the amplitude of the electrical signal have the most dependence on photon number. Accurately measuring the rising edge while simultaneously measuring the voltage of the pulse amplitude maximizes the photon-number resolution of SNSPDs. Using an optimal basis of principle components, we show unambiguous discrimination between one- and two-photon events, as well as partial resolution up to five photons. This expands the use-case of SNSPDs to photon-counting experiments, without the need of detector multiplexing architectures.
翻訳日:2023-11-13 17:24:24 公開日:2023-11-10
# SeUNet-Trans:医療画像セグメンテーションのためのシンプルで効果的なUNet-Transformerモデル

SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation ( http://arxiv.org/abs/2310.09998v3 )

ライセンス: Link先を確認
Tan-Hanh Pham, Xianqi Li, Kim-Doang Nguyen(参考訳) 正確な診断の必要性の高まり、パーソナライズされた治療計画の推進、機械学習アルゴリズムの進歩、特に深層学習法の導入によって、医療画像の自動分割が現代の臨床実践にとってますます重要になっている。 畳み込みニューラルネットワーク(cnn)はこれらの手法で普及しているが、コンピュータビジョンタスクにおけるトランスフォーマーベースのモデルの注目すべきポテンシャルは、より認識されつつある。 cnnモデルとトランスフォーマモデルの両方の利点を活用するため、医療画像分割のための単純かつ効果的なunet-transformer(seunet-trans)モデルを提案する。 このアプローチでは、unetモデルは入力画像から複数の特徴マップを生成するための特徴抽出器として設計され、次に地図がブリッジ層に伝播され、unetとトランスフォーマーをシーケンシャルに接続するために導入された。 本稿では,位置埋め込みベクトルを使わずに画素レベルの埋め込み技術にアプローチし,モデルをより効率的にすることを目的とする。 さらに,トランスフォーマーの空間的減算による計算/メモリオーバーヘッドの低減を図る。 UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。 提案モデルは,Polypセグメンテーションを含む7つの医用画像セグメンテーションデータセットを用いて,その有効性を実証する。 これらのデータセット上での最先端セグメンテーションモデルとの比較により,提案したseUNet-Transネットワークの優れた性能を示す。

Automated medical image segmentation is becoming increasingly crucial to modern clinical practice, driven by the growing demand for precise diagnosis, the push towards personalized treatment plans, and the advancements in machine learning algorithms, especially the incorporation of deep learning methods. While convolutional neural networks (CNN) have been prevalent among these methods, the remarkable potential of Transformer-based models for computer vision tasks is gaining more acknowledgment. To harness the advantages of both CNN-based and Transformer-based models, we propose a simple yet effective UNet-Transformer (seUNet-Trans) model for medical image segmentation. In our approach, the UNet model is designed as a feature extractor to generate multiple feature maps from the input images, then the maps are propagated into a bridge layer, which is introduced to sequentially connect the UNet and the Transformer. In this stage, we approach the pixel-level embedding technique without position embedding vectors, aiming to make the model more efficient. Moreover, we apply spatial-reduction attention in the Transformer to reduce the computational/memory overhead. By leveraging the UNet architecture and the self-attention mechanism, our model not only retains the preservation of both local and global context information but also is capable of capturing long-range dependencies between input elements. The proposed model is extensively experimented on seven medical image segmentation datasets including polyp segmentation to demonstrate its efficacy. Comparison with several state-of-the-art segmentation models on these datasets shows the superior performance of our proposed seUNet-Trans network.
翻訳日:2023-11-13 17:24:11 公開日:2023-11-10
# pre: フェデレーション学習で見過ごされる情報をリアクションするためにパーソナライズされた事前

PRIOR: Personalized Prior for Reactivating the Information Overlooked in Federated Learning ( http://arxiv.org/abs/2310.09183v2 )

ライセンス: Link先を確認
Mingjia Shi, Yuhao Zhou, Kai Wang, Huaizheng Zhang, Shudong Huang, Qing Ye, Jiangcheng Lv(参考訳) 古典的なフェデレーション学習(fl)は、プライバシ保護のためのデータを共有することなく、機械学習モデルのトレーニングを可能にするが、異種データ特性は、ローカライズモデルのパフォーマンスを低下させる。 パーソナライズドfl(pfl)は、ローカルデータのトレーニングを通じてグローバルモデルからパーソナライズされたモデルを合成することで、これに対処する。 このようなグローバルモデルは、クライアントがサンプリングした特定の情報を見落としてしまう可能性がある。 本稿では,PFLにおける不完全情報問題を軽減するために,各クライアントのグローバルモデルにパーソナライズされた事前知識を注入する手法を提案する。 提案手法の中心となるフレームワークは,Bregman Divergence (pFedBreD) を用いた PFL であり,Bregman divergence によって正規化された局所目的関数からパーソナライズされた事前を分離し,パーソナライズされたシナリオにおける適応性を高める。 また,鏡面降下 (RMD) を緩和し,予め明示的に抽出し,任意の戦略を提供する。 さらに、pFedBreDは収束解析によってバックアップされる。 十分な実験により、我々の手法は5つのデータセット上で最先端のパフォーマンスに到達し、8つのベンチマークで最大3.5%の精度で他の手法を上回ります。 広範な分析により,提案する設計の堅牢性と必要性が検証された。

Classical federated learning (FL) enables training machine learning models without sharing data for privacy preservation, but heterogeneous data characteristic degrades the performance of the localized model. Personalized FL (PFL) addresses this by synthesizing personalized models from a global model via training on local data. Such a global model may overlook the specific information that the clients have been sampled. In this paper, we propose a novel scheme to inject personalized prior knowledge into the global model in each client, which attempts to mitigate the introduced incomplete information problem in PFL. At the heart of our proposed approach is a framework, the PFL with Bregman Divergence (pFedBreD), decoupling the personalized prior from the local objective function regularized by Bregman divergence for greater adaptability in personalized scenarios. We also relax the mirror descent (RMD) to extract the prior explicitly to provide optional strategies. Additionally, our pFedBreD is backed up by a convergence analysis. Sufficient experiments demonstrate that our method reaches the state-of-the-art performances on 5 datasets and outperforms other methods by up to 3.5% across 8 benchmarks. Extensive analyses verify the robustness and necessity of proposed designs.
翻訳日:2023-11-13 17:23:43 公開日:2023-11-10
# 制御変数による共有値の推定の安定化

Stabilizing Estimates of Shapley Values with Control Variates ( http://arxiv.org/abs/2310.07672v2 )

ライセンス: Link先を確認
Jeremy Goldwasser and Giles Hooker(参考訳) シェープ値は、ブラックボックス機械学習モデルの予測を説明する最も一般的なツールのひとつである。 しかし、その高い計算コストはサンプリング近似の使用を動機付け、かなりの不確実性を引き起こす。 これらのモデル説明を安定させるために,モンテカルロ法に基づく制御変分法である制御SHAPを提案する。 私たちの方法論はどんな機械学習モデルにも適用でき、計算やモデリングをほとんど必要としません。 いくつかの高次元データセットでは、シェープリー推定のモンテカルロ変動率を劇的に減少させることができる。

Shapley values are among the most popular tools for explaining predictions of blackbox machine learning models. However, their high computational cost motivates the use of sampling approximations, inducing a considerable degree of uncertainty. To stabilize these model explanations, we propose ControlSHAP, an approach based on the Monte Carlo technique of control variates. Our methodology is applicable to any machine learning model and requires virtually no extra computation or modeling effort. On several high-dimensional datasets, we find it can produce dramatic reductions in the Monte Carlo variability of Shapley estimates.
翻訳日:2023-11-13 17:23:16 公開日:2023-11-10
# オフザシェルフ大言語モデルを用いた自動臨床コーディング

Automated clinical coding using off-the-shelf large language models ( http://arxiv.org/abs/2310.06552v2 )

ライセンス: Link先を確認
Joseph S. Boyle, Antanas Kascenas, Pat Lok, Maria Liakata, Alison Q. O'Neil(参考訳) 診断用ICD符号を患者病院入院に割り当てる作業は、典型的には熟練した人間のコーダーによって行われる。 自動icdコーディングへの取り組みは、教師付きディープラーニングモデルによって支配されている。 しかし、多くの稀なコードを予測することの難しさは、臨床実践における導入の障壁となっている。 本研究では,既成の事前学習型大言語モデル(llms)を用いて,ゼロショットと少数ショットのコード割り当てに適した実用的なソリューションを開発する。 教師なし事前学習だけでは、ICDオントロジーの正確な知識と専門的な臨床コーディングタスクが保証されないため、タスクを情報抽出として枠づけ、各コード概念の説明を提供し、関連する言及の検索をモデルに依頼する。 効率性のために、すべてのコードを反復するのではなく、ICDオントロジーの階層的な性質を活用して、関連コードを探す。 次に,「メタリファインメント」と呼ぶ第2段階において,関連するラベルのサブセットを予測として選択するためにGPT-4を利用する。 ICD 符号化臨床症例文書の CodiEsp データセット上で Llama-2, GPT-3.5, GPT-4 を用いて本手法の有効性を検証した。 PLM-ICD から 0.216 と 0.219 に対して 0.157 のマイクロ F1 をわずかに下限に抑えながら 0.225 のマクロ F1 を達成する。 我々の知る限りでは、これはタスク固有の学習を必要としない自動ICD符号化のための最初の方法である。

The task of assigning diagnostic ICD codes to patient hospital admissions is typically performed by expert human coders. Efforts towards automated ICD coding are dominated by supervised deep learning models. However, difficulties in learning to predict the large number of rare codes remain a barrier to adoption in clinical practice. In this work, we leverage off-the-shelf pre-trained generative large language models (LLMs) to develop a practical solution that is suitable for zero-shot and few-shot code assignment. Unsupervised pre-training alone does not guarantee precise knowledge of the ICD ontology and specialist clinical coding task, therefore we frame the task as information extraction, providing a description of each coded concept and asking the model to retrieve related mentions. For efficiency, rather than iterating over all codes, we leverage the hierarchical nature of the ICD ontology to sparsely search for relevant codes. Then, in a second stage, which we term 'meta-refinement', we utilise GPT-4 to select a subset of the relevant labels as predictions. We validate our method using Llama-2, GPT-3.5 and GPT-4 on the CodiEsp dataset of ICD-coded clinical case documents. Our tree-search method achieves state-of-the-art performance on rarer classes, achieving the best macro-F1 of 0.225, whilst achieving slightly lower micro-F1 of 0.157, compared to 0.216 and 0.219 respectively from PLM-ICD. To the best of our knowledge, this is the first method for automated ICD coding requiring no task-specific learning.
翻訳日:2023-11-13 17:22:54 公開日:2023-11-10
# 逆強化学習のための新しい変分下限

A Novel Variational Lower Bound for Inverse Reinforcement Learning ( http://arxiv.org/abs/2311.03698v2 )

ライセンス: Link先を確認
Yikang Gui, Prashant Doshi(参考訳) 逆強化学習(IRL)は、専門家の軌道から報酬関数を学習し、模倣や協力の課題を理解し、手動の報酬工学の必要性を取り除く。 しかし、未知のダイナミクスを持つ大規模で高次元的な問題の文脈におけるIRLは特に困難である。 本稿では、最適ノードを持つ確率的グラフィカルモデルの枠組みに基づいて、新しい変動下界IRL(VLB-IRL)を提案する。 提案手法は,学習した報奨関数の下での報酬関数とポリシーを同時に学習し,与えられた報奨関数の最適度分布と与えられた軌道の最適度の真の分布との逆のクルバック・リーブラー偏差を最小化することと等価な下界を最大化する。 これにより、学習された報酬のポリシーがいくつかの既知のドメインで専門家レベルのパフォーマンスを達成するように、有効な報酬関数を学習する新しいirlメソッドが導かれる。 重要なことは、この手法がこれらの領域における既存の最先端IRLアルゴリズムより優れており、学習方針からの報奨がより優れていることを示している。

Inverse reinforcement learning (IRL) seeks to learn the reward function from expert trajectories, to understand the task for imitation or collaboration thereby removing the need for manual reward engineering. However, IRL in the context of large, high-dimensional problems with unknown dynamics has been particularly challenging. In this paper, we present a new Variational Lower Bound for IRL (VLB-IRL), which is derived under the framework of a probabilistic graphical model with an optimality node. Our method simultaneously learns the reward function and policy under the learned reward function by maximizing the lower bound, which is equivalent to minimizing the reverse Kullback-Leibler divergence between an approximated distribution of optimality given the reward function and the true distribution of optimality given trajectories. This leads to a new IRL method that learns a valid reward function such that the policy under the learned reward achieves expert-level performance on several known domains. Importantly, the method outperforms the existing state-of-the-art IRL algorithms on these domains by demonstrating better reward from the learned policy.
翻訳日:2023-11-13 17:15:45 公開日:2023-11-10
# 代謝可塑性機構としてのアストロサイトとネットワーク機能

Astrocytes as a mechanism for meta-plasticity and contextually-guided network function ( http://arxiv.org/abs/2311.03508v2 )

ライセンス: Link先を確認
Lulu Gong, Fabio Pasqualetti, Thomas Papouin and ShiNung Ching(参考訳) アストロサイトはユビキタスでエニグマティックな非神経細胞であり、全ての脊椎動物の脳で見られる。 伝統的に神経細胞を支持すると考えられているが、アストロサイトは脳の機能や神経計算においてより直接的かつ活発な役割を果たすことが認識されている。 生理的共変体に対する感受性と、より遅い時間スケールで神経細胞の活動と接続を調節する能力を考えると、アストロサイトは機能的に健全な方法で神経回路のダイナミクスを調節するのに特に適しているかもしれない。 本稿では,ニューロン-星細胞相互作用の計算モデルにおいて,作用可能な抽象化によってこれらの特徴を捉えようとしている。 具体的には、分離された時間スケールに作用するニューロン-星細胞相互作用のネスト化されたフィードバックループが、タスクパラメータの変動がタスク内要求よりもずっと遅い場合の、コンテキスト依存の学習を可能にするアストロサイトに与える可能性がある。 神経-シナプス-アストロサイト相互作用の一般的なモデルを構築し、アストロサイトーシスの調節がメタ可塑性の形式をどのように形成するかを形式的に解析し、シナプスとニューロンが時間の関数として適応するかを変化させる。 次に,このモデルをバンディットに基づく強化学習タスク環境に組み込むことにより,時間スケールの分離されたアストロサイト変調が,複数の変動するコンテキストを学習できることを示す。 実際、これらのネットワークは動的に均質なネットワークや従来の非ネットワークベースの帯域幅アルゴリズムよりもはるかに確実に学習する。 本研究は,脳内における神経細胞-アストロサイト相互作用の存在が,異なる時間スケールでの学習およびタスク関連コンテキスト情報の回路力学への伝達にどのような効果があるかを示す。

Astrocytes are a ubiquitous and enigmatic type of non-neuronal cell and are found in the brain of all vertebrates. While traditionally viewed as being supportive of neurons, it is increasingly recognized that astrocytes may play a more direct and active role in brain function and neural computation. On account of their sensitivity to a host of physiological covariates and ability to modulate neuronal activity and connectivity on slower time scales, astrocytes may be particularly well poised to modulate the dynamics of neural circuits in functionally salient ways. In the current paper, we seek to capture these features via actionable abstractions within computational models of neuron-astrocyte interaction. Specifically, we engage how nested feedback loops of neuron-astrocyte interaction, acting over separated time-scales may endow astrocytes with the capability to enable learning in context-dependent settings, where fluctuations in task parameters may occur much more slowly than within-task requirements. We pose a general model of neuron-synapse-astrocyte interaction and use formal analysis to characterize how astrocytic modulation may constitute a form of meta-plasticity, altering the ways in which synapses and neurons adapt as a function of time. We then embed this model in a bandit-based reinforcement learning task environment, and show how the presence of time-scale separated astrocytic modulation enables learning over multiple fluctuating contexts. Indeed, these networks learn far more reliably versus dynamically homogeneous networks and conventional non-network-based bandit algorithms. Our results indicate how the presence of neuron-astrocyte interaction in the brain may benefit learning over different time-scales and the conveyance of task-relevant contextual information onto circuit dynamics.
翻訳日:2023-11-13 17:15:26 公開日:2023-11-10
# 原子物理学実験のための低位相ノイズ共振器自己注入型レーザーシステム

A low phase noise cavity transmission self-injection locked laser system for atomic physics experiments ( http://arxiv.org/abs/2311.03461v2 )

ライセンス: Link先を確認
Ludwig Krinner, Kai Dietze, Lennart Pelzer, Nicolas Spethmann, Piet O. Schmidt(参考訳) スペクトル純度の高いレーザーは、量子計算や量子シミュレーションのような応用のために、光時計や原子および分子量子ビットのコヒーレント操作には不可欠である。 基準値へのレーザーの安定化は、狭い線幅と高いスペクトル純度を与えることができる。 しかし、広く使われているダイオードレーザーは高速位相ノイズを示し、高忠実度量子ビット操作を防止する。 ここでは, 媒体微細空洞を用いた自己注入型ロックダイオードレーザーシステムについて述べる。 キャビティは安定した共振周波数を提供するだけでなく、約100kHzのキャビティ線幅を超える位相ノイズの低通過フィルタとして機能し、結果としてdcから注入ロック限界までの低位相ノイズが生じる。 我々は、期待されるレーザー性能をモデル化し、スペクトル分析器として1つのトラップ付き$^{40}$Ca$^{+}$-ionを用いてベンチマークする。 本研究では,100kHz〜2MHzのフーリエ周波数におけるレーザの高速位相ノイズを,最先端のポウンド・ドレーバー・ホール安定化型拡張キャビティレーザーよりも20-30dBの-110dBc/Hzと-120dBc/Hzのノイズフロアに抑制することを示した。 この強い抑制は、光量子ビットの操作中に不整合(spurious)スピンフリップを回避し、量子論理分光法、量子シミュレーション、量子計算に応用したダイオードレーザーを用いたレーザー駆動ゲートを改善する。

Lasers with high spectral purity are indispensable for optical clocks and coherent manipulation of atomic and molecular qubits for applications such as quantum computing and quantum simulation. Stabilisation of the laser to a reference can provide a narrow linewidth and high spectral purity. However, widely-used diode lasers exhibit fast phase noise that prevents high fidelity qubit manipulation. Here we demonstrate a self-injection locked diode laser system utilizing a medium finesse cavity. The cavity not only provides a stable resonance frequency, but at the same time acts as a low-pass filter for phase noise beyond the cavity linewidth of around 100 kHz, resulting in low phase noise from dc to the injection lock limit. We model the expected laser performance and benchmark it using a single trapped $^{40}$Ca$^{+}$-ion as a spectrum analyser. We show that the fast phase noise of the laser at relevant Fourier frequencies of 100 kHz to >2 MHz is suppressed to a noise floor of between -110 dBc/Hz and -120 dBc/Hz, an improvement of 20 to 30 dB over state-of-the-art Pound-Drever-Hall-stabilized extended-cavity diode lasers. This strong suppression avoids incoherent (spurious) spin flips during manipulation of optical qubits and improves laser-driven gates in using diode lasers with applications in quantum logic spectroscopy, quantum simulation and quantum computation.
翻訳日:2023-11-13 17:14:53 公開日:2023-11-10
# 複合臓器マスクガイド放射線治療報告の作成

Complex Organ Mask Guided Radiology Report Generation ( http://arxiv.org/abs/2311.02329v2 )

ライセンス: Link先を確認
Tiancheng Gu, Dongnan Liu, Zhiyuan Li, Weidong Cai(参考訳) 自動レポート生成の目的は、単一のX線画像から臨床的に正確で一貫性のあるフレーズを生成することである。 しかし、現実のシナリオでは、多くの医用画像から広範なレポートを生成するという課題にしばしば直面するため、多視点からの医用レポート作成が必要となる。 本稿では,複数の臓器(骨,肺,心臓,縦隔など)のマスクを組み込んだ複合臓器マスクガイド(COMG)レポート生成モデルを提案する。 具体的には, 融合過程における各臓器に対応する疾患の事前知識を活用して, 報告生成過程における疾患識別フェーズを増強する。 さらに、コサイン類似度損失を目標関数として、クロスモーダル一貫性の収束を保証し、モデルの最適化を促進するとともに、COMGがそれぞれIU-Xray上のSOTAモデルKiUTとMIMICのBLEU@4スコアで11.4%と9.7%の改善を達成したことを示す。 コードはhttps://github.com/GaryGuTC/COMG_modelで公開されている。

The goal of automatic report generation is to generate a clinically accurate and coherent phrase from a single given X-ray image, which could alleviate the workload of traditional radiology reporting. However, in a real-world scenario, radiologists frequently face the challenge of producing extensive reports derived from numerous medical images, thereby medical report generation from multi-image perspective is needed. In this paper, we propose the Complex Organ Mask Guided (termed as COMG) report generation model, which incorporates masks from multiple organs (e.g., bones, lungs, heart, and mediastinum), to provide more detailed information and guide the model's attention to these crucial body regions. Specifically, we leverage prior knowledge of the disease corresponding to each organ in the fusion process to enhance the disease identification phase during the report generation process. Additionally, cosine similarity loss is introduced as target function to ensure the convergence of cross-modal consistency and facilitate model optimization.Experimental results on two public datasets show that COMG achieves a 11.4% and 9.7% improvement in terms of BLEU@4 scores over the SOTA model KiUT on IU-Xray and MIMIC, respectively. The code is publicly available at https://github.com/GaryGuTC/COMG_model.
翻訳日:2023-11-13 17:14:28 公開日:2023-11-10
# 工学環境における非平衡ボース凝縮制御

Controlling Nonequilibrium Bose Condensation with Engineered Environments ( http://arxiv.org/abs/2311.02170v2 )

ライセンス: Link先を確認
Francesco Petiziol and Andr\'e Eckardt(参考訳) 熱平衡のため、ボソニック量子系は基底状態からボース凝縮することができ、励起状態の巨視的占有や、いわゆるボース選択シナリオにおいて複数の状態を含む。 量子ジャンプの非平衡運動、理論的理解、実用的な戦略の発展により、そのような効果を説明する理論が開発されているが、システムの制御と所望のボース凝縮パターンへの推進には不足している。 システムと人工量子バスを結合させることにより、相対的な占有を含む微調整された単一あるいは複数の凝縮モードがどのように構築されるかを示す。 さらに, 超電導回路で実験的に実装可能なボース凝縮器を提案し, 共振器列の固有状態へのターゲットボース凝縮を誘導する補助駆動減衰二段系によりバス工学を実現する。 さらに, 増幅, 熱流量制御, 高構造量子浴の設計に応用可能な, 異なるボース凝縮構成間の遷移点の工学的考察を行った。

Out of thermal equilibrium, bosonic quantum systems can Bose-condense away from the ground state, featuring a macroscopic occupation of an excited state, or even of multiple states in the so-called Bose-selection scenario. While theory has been developed describing such effects as they result from the nonequilibrium kinetics of quantum jumps, a theoretical understanding, and the development of practical strategies, to control and drive the system into desired Bose condensation patterns have been lacking. We show how fine-tuned single or multiple condensate modes, including their relative occupation, can be engineered by coupling the system to artificial quantum baths. Moreover, we propose a Bose `condenser', experimentally implementable in a superconducting circuit, where bath engineering is realized via auxiliary driven-damped two-level systems, that induces targeted Bose condensation into eigenstates of a chain of resonators. We further discuss the engineering of transition points between different Bose condensation configurations, which may find application for amplification, heat-flow control, and the design of highly-structured quantum baths.
翻訳日:2023-11-13 17:14:04 公開日:2023-11-10
# FlashDecoding++:GPU上での高速な大規模言語モデル推論

FlashDecoding++: Faster Large Language Model Inference on GPUs ( http://arxiv.org/abs/2311.01282v3 )

ライセンス: Link先を確認
Ke Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Yuhan Dong, Yu Wang(参考訳) 大規模言語モデル(LLM)が様々な領域でますます重要になっている。 しかし, LLM推論の高速化には, 1) 同期部分ソフトマックス更新という課題がまだ未解決である。 ソフトマックス演算は、各部分ソフトマックス結果間の同期更新操作を必要とし、LLMにおける注意計算のオーバーヘッドはおよそ20%である。 2)フラットGEMMのアンダーユース計算 LLM推論でGEMMを行う行列の形状は平坦であり、従来の設計ではゼロをパッドした後に計算が未使用となり、50%以上の性能損失が生じる。 (3)静的データフローによるパフォーマンス損失。 LLMのカーネル性能は、様々な入力データ機能、ハードウェア構成などに依存する。 単一かつ静的なデータフローは、LLM推論において異なる形状のGEMMに対して50.25%のパフォーマンス損失をもたらす可能性がある。 メインストリームLLMとハードウェアバックエンドをサポートする高速LLM推論エンジンであるFlashDecoding++を紹介する。 上記の課題に対処するため、FlashDecoding++は次のように創造的に提案している。 flashdecoding++は、同期を避けるために、異なる部分ソフトマックス計算のための統一されたmax値技術を導入する。 2) ダブルバッファリングによるフラットGEMM最適化 FlashDecoding++は、形状の異なるフラットなGEMMがボトルネックに直面していることを指摘している。 次に,ダブルバッファリングなどの手法を導入する。 (3)ハードウェアリソース適応によるヒューリスティックデータフロー FlashDecoding++は入力ダイナミクスを考慮して異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。 flashdecoding++の最適化が多岐にわたるため、flashdecoding++はnvidiaとamdの両方のgpuで最大4.86倍と2.18倍のスピードアップを達成できる。 FlashDecoding++は、主流のLLM上の最先端のLLM推論エンジンと比較して平均1.37倍の高速化を実現している。

As the Large Language Model (LLM) becomes increasingly important in various domains. However, the following challenges still remain unsolved in accelerating LLM inference: (1) Synchronized partial softmax update. The softmax operation requires a synchronized update operation among each partial softmax result, leading to ~20% overheads for the attention computation in LLMs. (2) Under-utilized computation of flat GEMM. The shape of matrices performing GEMM in LLM inference is flat, leading to under-utilized computation and >50% performance loss after padding zeros in previous designs. (3) Performance loss due to static dataflow. Kernel performance in LLM depends on varied input data features, hardware configurations, etc. A single and static dataflow may lead to a 50.25% performance loss for GEMMs of different shapes in LLM inference. We present FlashDecoding++, a fast LLM inference engine supporting mainstream LLMs and hardware back-ends. To tackle the above challenges, FlashDecoding++ creatively proposes: (1) Asynchronized softmax with unified max value. FlashDecoding++ introduces a unified max value technique for different partial softmax computations to avoid synchronization. (2) Flat GEMM optimization with double buffering. FlashDecoding++ points out that flat GEMMs with different shapes face varied bottlenecks. Then, techniques like double buffering are introduced. (3) Heuristic dataflow with hardware resource adaptation. FlashDecoding++ heuristically optimizes dataflow using different hardware resource considering input dynamics. Due to the versatility of optimizations in FlashDecoding++, FlashDecoding++ can achieve up to 4.86x and 2.18x speedup on both NVIDIA and AMD GPUs compared to Hugging Face implementations. FlashDecoding++ also achieves an average speedup of 1.37x compared to state-of-the-art LLM inference engines on mainstream LLMs.
翻訳日:2023-11-13 17:13:27 公開日:2023-11-10
# ChineseWebText: 効果的な評価モデルによる大規模高品質な中国語Webテキスト抽出

ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with Effective Evaluation Model ( http://arxiv.org/abs/2311.01149v2 )

ライセンス: Link先を確認
Jianghao Chen, Pu Jian, Tengxiao Xi, Dongyi Yi, Qianlong Du, Chenglin Ding, Guibo Zhu, Chengqing Zong, Jinqiao Wang, Jiajun Zhang(参考訳) 大規模言語モデル(LLM)の開発において、事前学習データのスケールと品質はLLMの能力を形成する上で重要な役割を果たす。 llmsの研究を加速するために、c4 [1]、pill [2]、refineweb [3]、wanjuan [4]のようないくつかの大規模データセットが公開された。 しかし、リリースされているコーパスの大部分は英語に焦点を当てており、webデータからクリーンテキストを抽出するための完全なツールチェーンが不足している。 さらに、コーパスの細かな情報(例えば、各テキストの品質)が欠落している。 これらの課題に対処するため,我々は,ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。 まず、以前の作業と同様、手作業によるルールを使用して、生のクロールされたWebコンテンツから明確なノイズのあるテキストを破棄する。 第二に、十分に設計された評価モデルを用いて、残りの比較的クリーンなデータを評価し、各テキストに特定の品質スコアを割り当てる。 最後に、適切なしきい値を利用して、中国語の高品質な事前学習データを選択する。 提案手法を用いて,最大かつ最新の大規模高品質中国語 web テキスト chinesewebtext をリリースし,各テキストに品質スコアが関連付けられ,llm 研究者が所望の品質閾値に応じてデータを選択することができるようにした。 また、品質が90%を超える600GBの中国データのよりクリーンなサブセットもリリースしています。

During the development of large language models (LLMs), the scale and quality of the pre-training data play a crucial role in shaping LLMs' capabilities. To accelerate the research of LLMs, several large-scale datasets, such as C4 [1], Pile [2], RefinedWeb [3] and WanJuan [4], have been released to the public. However, most of the released corpus focus mainly on English, and there is still lack of complete tool-chain for extracting clean texts from web data. Furthermore, fine-grained information of the corpus, e.g. the quality of each text, is missing. To address these challenges, we propose in this paper a new complete tool-chain EvalWeb to extract Chinese clean texts from noisy web data. First, similar to previous work, manually crafted rules are employed to discard explicit noisy texts from the raw crawled web contents. Second, a well-designed evaluation model is leveraged to assess the remaining relatively clean data, and each text is assigned a specific quality score. Finally, we can easily utilize an appropriate threshold to select the high-quality pre-training data for Chinese. Using our proposed approach, we release the largest and latest large-scale high-quality Chinese web text ChineseWebText, which consists of 1.42 TB and each text is associated with a quality score, facilitating the LLM researchers to choose the data according to the desired quality thresholds. We also release a much cleaner subset of 600 GB Chinese data with the quality exceeding 90%.
翻訳日:2023-11-13 17:13:03 公開日:2023-11-10
# 身体ナビゲーション用LCMの開発

The Development of LLMs for Embodied Navigation ( http://arxiv.org/abs/2311.00530v2 )

ライセンス: Link先を確認
Jinzhou Lin, Han Gao, Rongtao Xu, Changwei Wang, Li Guo, Shibiao Xu(参考訳) 近年、ジェネラティブ・プレトレーニングトランス(gpt)のような大型言語モデル(llm)の急速な進歩が、様々な実用的応用の可能性から注目を集めている。 エンボディード・インテリジェンス(Embodied Intelligence)によるLLMの応用は、重要な分野として現れている。 LLMの無数の応用の中で、ナビゲーションタスクは環境の深い理解と迅速かつ正確な意思決定を必要とするため特に注目すべきである。 LLMは、洗練された環境認識と意思決定支援を備えたインテリジェンスシステムを強化し、堅牢な言語と画像処理機能を活用する。 本稿では, LLMとインボディードインテリジェンスとの共生について, ナビゲーションを中心に概説する。 最先端のモデル、研究方法論をレビューし、既存の埋め込みナビゲーションモデルとデータセットの利点とデメリットを評価する。 最後に, 本論文は, インテリジェンスにおけるLLMの役割を解明し, 今後の方向性を予測している。 この調査の包括的な研究リストはhttps://github.com/Rongtao-Xu/Awesome-LLM-ENで公開されている。

In recent years, the rapid advancement of Large Language Models (LLMs) such as the Generative Pre-trained Transformer (GPT) has attracted increasing attention due to their potential in a variety of practical applications. The application of LLMs with Embodied Intelligence has emerged as a significant area of focus. Among the myriad applications of LLMs, navigation tasks are particularly noteworthy because they demand a deep understanding of the environment and quick, accurate decision-making. LLMs can augment embodied intelligence systems with sophisticated environmental perception and decision-making support, leveraging their robust language and image-processing capabilities. This article offers an exhaustive summary of the symbiosis between LLMs and embodied intelligence with a focus on navigation. It reviews state-of-the-art models, research methodologies, and assesses the advantages and disadvantages of existing embodied navigation models and datasets. Finally, the article elucidates the role of LLMs in embodied intelligence, based on current research, and forecasts future directions in the field. A comprehensive list of studies in this survey is available at https://github.com/Rongtao-Xu/Awesome-LLM-EN
翻訳日:2023-11-13 17:12:38 公開日:2023-11-10
# 高速拡散指数積分器サンプリング器のスコア正規化

Score Normalization for a Faster Diffusion Exponential Integrator Sampler ( http://arxiv.org/abs/2311.00157v2 )

ライセンス: Link先を確認
Guoxuan Xia, Duolikun Danier, Ayan Das, Stathi Fotiadis, Farhang Nabiei, Ushnish Sengupta, Alberto Bernacchia(参考訳) 近年、Zhangらは拡散モデルからサンプルを高速に生成するための拡散指数積分器サンプリング(DEIS)を提案している。 確率フロー常微分方程式(ODE)の半線形性を利用して、積分誤差を大幅に低減し、低数の関数評価(NFE)における生成品質を向上させる。 このアプローチの鍵はスコア関数の再パラメータ化であり、各統合ステップで固定スコア関数推定を使用することで生じる統合エラーを低減する。 オリジナルの著者はノイズ予測のために訓練されたモデルで使用されるデフォルトパラメータ化を使い、条件付き前方雑音分布の標準偏差によってスコアを乗算する。 このスコアパラメータ化の平均絶対値は、逆サンプリングプロセスの大部分では一定に近いが、サンプリング終了時には急速に変化する。 簡単な修正として、オフライン高NFE世代から収集した前のスコア推定値の平均絶対値によってスコア(推測値)を再パラメータ化することを提案する。 スコア正規化(deis-sn)はバニラ・ディースに比べて一貫してfidが向上し,cifar-10では6.44から5.57,lsun-church 64x64では5.9から4.95に改善した。 私たちのコードはhttps://github.com/mtkresearch/Diffusion-DEIS-SNで利用可能です。

Recently, Zhang et al. have proposed the Diffusion Exponential Integrator Sampler (DEIS) for fast generation of samples from Diffusion Models. It leverages the semi-linear nature of the probability flow ordinary differential equation (ODE) in order to greatly reduce integration error and improve generation quality at low numbers of function evaluations (NFEs). Key to this approach is the score function reparameterisation, which reduces the integration error incurred from using a fixed score function estimate over each integration step. The original authors use the default parameterisation used by models trained for noise prediction -- multiply the score by the standard deviation of the conditional forward noising distribution. We find that although the mean absolute value of this score parameterisation is close to constant for a large portion of the reverse sampling process, it changes rapidly at the end of sampling. As a simple fix, we propose to instead reparameterise the score (at inference) by dividing it by the average absolute value of previous score estimates at that time step collected from offline high NFE generations. We find that our score normalisation (DEIS-SN) consistently improves FID compared to vanilla DEIS, showing an improvement at 10 NFEs from 6.44 to 5.57 on CIFAR-10 and from 5.9 to 4.95 on LSUN-Church 64x64. Our code is available at https://github.com/mtkresearch/Diffusion-DEIS-SN
翻訳日:2023-11-13 17:12:21 公開日:2023-11-10
# シンボリックフレームワークを用いた解釈型ニューラルPDE解法

Interpretable Neural PDE Solvers using Symbolic Frameworks ( http://arxiv.org/abs/2310.20463v2 )

ライセンス: Link先を確認
Yolanne Yi Ran Lee(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、熱や音から量子システムへの現象をモデル化する。 ディープラーニングの最近の進歩は強力なニューラルネットワークの開発につながったが、これらの手法は精度と計算効率の両方において最先端のパフォーマンスを示しているが、その解釈可能性には大きな課題がある。 既存の方法論の多くは、モデルの決定を駆動するメカニズムの明確さよりも予測精度を優先している。 特に神経pdeソルバが最も影響を与えるかもしれない科学的および工学的領域において、解釈可能性は信頼性と幅広い適用性に不可欠である。 この文脈において、現在の研究における注目すべきギャップは、これらの解法へのシンボリックフレームワーク(シンボリック回帰など)の統合である。 シンボリックフレームワークは、複雑な神経操作を人間の読みやすい数学的表現に蒸留し、ブラックボックス予測と解の間の隔たりを橋渡しする可能性がある。

Partial differential equations (PDEs) are ubiquitous in the world around us, modelling phenomena from heat and sound to quantum systems. Recent advances in deep learning have resulted in the development of powerful neural solvers; however, while these methods have demonstrated state-of-the-art performance in both accuracy and computational efficiency, a significant challenge remains in their interpretability. Most existing methodologies prioritize predictive accuracy over clarity in the underlying mechanisms driving the model's decisions. Interpretability is crucial for trustworthiness and broader applicability, especially in scientific and engineering domains where neural PDE solvers might see the most impact. In this context, a notable gap in current research is the integration of symbolic frameworks (such as symbolic regression) into these solvers. Symbolic frameworks have the potential to distill complex neural operations into human-readable mathematical expressions, bridging the divide between black-box predictions and solutions.
翻訳日:2023-11-13 17:11:58 公開日:2023-11-10
# 「人」=光肌、西洋男性、有色女性のセクシュアリゼーション--安定拡散におけるステレオタイプ

'Person' == Light-skinned, Western Man, and Sexualization of Women of Color: Stereotypes in Stable Diffusion ( http://arxiv.org/abs/2310.19981v2 )

ライセンス: Link先を確認
Sourojit Ghosh, Aylin Caliskan(参考訳) 我々は、最も人気のあるテキスト・画像生成装置の1つに埋め込まれたステレオタイプについて研究する。 本研究では,性別・国籍・大陸アイデンティティのステレオタイプが,どのような性別・国籍・大陸アイデンティティが「人」に割り当てられているか,あるいは「アジア出身者」にどのような性別・国籍・大陸アイデンティティが割り当てられているかを示す。 視覚言語モデルクリップのコサイン類似性を用いて,クリップベース安定拡散v2.1で生成した画像を手作業による検査で比較した。 我々は,男女・国籍情報のない「人」の安定拡散が,男性像,少なくとも非二元性イメージ,アフリカ・アジア上空のヨーロッパ・北米の人物とどのように一致しているかを観察し,人格表現を欧州・北米の男性に向けた。 また,パプアニューギニアとオセアニア全体の両方の植民者の子孫に対して多数を占める先住民族が絶滅したことを指摘して,オセアニアの人がオーストラリア/ニュージーランド人であると考えられるような大陸のステレオタイプと結果としての被害を示す。 最後に,女性,特にラテンアメリカ人,メキシコ人,インド人,エジプト人の他民族に対する過性化のパターンを,NSFW検出器で測定した。 このことは、安定拡散が、メディアにおける客観化を通じて、西洋の色の女性のフェティシュ化を持続させることを示す。 イメージデータセットは公開されています。

We study stereotypes embedded within one of the most popular text-to-image generators: Stable Diffusion. We examine what stereotypes of gender and nationality/continental identity does Stable Diffusion display in the absence of such information i.e. what gender and nationality/continental identity is assigned to `a person', or to `a person from Asia'. Using vision-language model CLIP's cosine similarity to compare images generated by CLIP-based Stable Diffusion v2.1 verified by manual examination, we chronicle results from 136 prompts (50 results/prompt) of front-facing images of persons from 6 different continents, 27 nationalities and 3 genders. We observe how Stable Diffusion outputs of `a person' without any additional gender/nationality information correspond closest to images of men and least with persons of nonbinary gender, and to persons from Europe/North America over Africa/Asia, pointing towards Stable Diffusion having a concerning representation of personhood to be a European/North American man. We also show continental stereotypes and resultant harms e.g. a person from Oceania is deemed to be Australian/New Zealander over Papua New Guinean, pointing to the erasure of Indigenous Oceanic peoples, who form a majority over descendants of colonizers both in Papua New Guinea and in Oceania overall. Finally, we unexpectedly observe a pattern of oversexualization of women, specifically Latin American, Mexican, Indian and Egyptian women relative to other nationalities, measured through an NSFW detector. This demonstrates how Stable Diffusion perpetuates Western fetishization of women of color through objectification in media, which if left unchecked will amplify this stereotypical representation. Image datasets are made publicly available.
翻訳日:2023-11-13 17:11:43 公開日:2023-11-10
# オフライン-オンライン強化学習におけるサンプル効率向上

Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning ( http://arxiv.org/abs/2310.19805v2 )

ライセンス: Link先を確認
Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang(参考訳) オフライン強化学習(RL)の先進的な応用は、既存の静的データセットを使用してトレーニング済みのポリシーを初期化することである。 しかし、オフライン事前訓練されたポリシーを直接微調整することは、しばしば準最適性能をもたらす。 主な理由は、オフラインの保守的手法によってエージェントの探索能力が低下し、オンラインの微調整性能に影響を及ぼすためである。 オンラインファインチューニングにおける探索の強化と,オンラインのファインチューニング性能の向上を目的として,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強フレームワークを導入する。 seraは、エージェントの探索を促す固有の報酬を設計することによって、オンラインの微調整のパフォーマンスを向上させることを目指している。 具体的には、暗黙的にstate marginal matching(smm)を実装し、out-of-distribution(ood)状態アクションを罰する。 さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、非漸近的な改善を持続的に行うことができる。 さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証される。

A prospective application of offline reinforcement learning (RL) involves initializing a pre-trained policy using existing static datasets for subsequent online fine-tuning. However, direct fine-tuning of the offline pre-trained policy often results in sub-optimal performance. A primary reason is that offline conservative methods diminish the agent's capability of exploration, thereby impacting online fine-tuning performance. To enhance exploration during online fine-tuning and thus enhance the overall online fine-tuning performance, we introduce a generalized reward augmentation framework called Sample Efficient Reward Augmentation (SERA). SERA aims to improve the performance of online fine-tuning by designing intrinsic rewards that encourage the agent to explore. Specifically, it implicitly implements State Marginal Matching (SMM) and penalizes out-of-distribution (OOD) state actions, thus encouraging agents to cover the target state density, and achieving better online fine-tuning results. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement, showing the versatility as well as the effectiveness of SERA. Moreover, extensive experimental results will demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.
翻訳日:2023-11-13 17:11:05 公開日:2023-11-10
# 生成言語モデルにおける学習困難度軽減のための情報エントロピー損失

InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models ( http://arxiv.org/abs/2310.19531v3 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu(参考訳) 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。 最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。 しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。 これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見渡すことができる。 そこで我々は,情報エントロピー損失(InfoEntropy Loss)関数を提案する。 学習中,語彙上の予測確率分布の情報エントロピーに応じて,to-be-learnedトークンの学習難易度を動的に評価することができる。 その後、トレーニング損失を適応的にスケーリングし、モデルをより理解の難しいトークンに集中させようとする。 Pileデータセットでは、468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。 提案されたInfoEntropy Lossを組み込んだモデルでは、ダウンストリームベンチマークで一貫したパフォーマンス向上が期待できる。

Generative language models are usually pretrained on large text corpus via predicting the next token (i.e., sub-word/word/phrase) given the previous ones. Recent works have demonstrated the impressive performance of large generative language models on downstream tasks. However, existing generative language models generally neglect an inherent challenge in text corpus during training, i.e., the imbalance between frequent tokens and infrequent ones. It can lead a language model to be dominated by common and easy-to-learn tokens, thereby overlooking the infrequent and difficult-to-learn ones. To alleviate that, we propose an Information Entropy Loss (InfoEntropy Loss) function. During training, it can dynamically assess the learning difficulty of a to-be-learned token, according to the information entropy of the corresponding predicted probability distribution over the vocabulary. Then it scales the training loss adaptively, trying to lead the model to focus more on the difficult-to-learn tokens. On the Pile dataset, we train generative language models at different scales of 468M, 1.2B, and 6.7B parameters. Experiments reveal that models incorporating the proposed InfoEntropy Loss can gain consistent performance improvement on downstream benchmarks.
翻訳日:2023-11-13 17:10:41 公開日:2023-11-10
# 制約付き線形バンディットの凸法

Convex Methods for Constrained Linear Bandits ( http://arxiv.org/abs/2311.04338v2 )

ライセンス: Link先を確認
Amirhossein Afsharrad, Ahmadreza Moradipari, Sanjay Lall(参考訳) 近年,人間との交流が繰り返される現実世界の安全クリティカルシステムにおいて,帯域最適化が注目されている。 文献には性能保証のある様々なアルゴリズムが存在するが、実際のアルゴリズムの実装はそれほど注目されていない。 本研究は,convexプログラミングツールを活用して計算効率のよいポリシを作成するフレームワークを導入することにより,安全バンディットアルゴリズム,特に安全線形バンディットの計算的側面を包括的に研究する。 特に,我々はまず,安全な線形バンディット問題に対する最適ポリシーの特性を特徴付け,次いで凸問題のみを解決できる安全な線形バンディットアルゴリズムのエンドツーエンドパイプラインを提案する。 また,提案手法の性能を数値的に評価した。

Recently, bandit optimization has received significant attention in real-world safety-critical systems that involve repeated interactions with humans. While there exist various algorithms with performance guarantees in the literature, practical implementation of the algorithms has not received as much attention. This work presents a comprehensive study on the computational aspects of safe bandit algorithms, specifically safe linear bandits, by introducing a framework that leverages convex programming tools to create computationally efficient policies. In particular, we first characterize the properties of the optimal policy for safe linear bandit problem and then propose an end-to-end pipeline of safe linear bandit algorithms that only involves solving convex problems. We also numerically evaluate the performance of our proposed methods.
翻訳日:2023-11-13 16:57:51 公開日:2023-11-10
# CFBenchmark: 大規模言語モデルのための中国の金融アシスタントベンチマーク

CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model ( http://arxiv.org/abs/2311.05812v1 )

ライセンス: Link先を確認
Yang Lei, Jiangtong Li, Ming Jiang, Junjie Hu, Dawei Cheng, Zhijun Ding, Changjun Jiang(参考訳) 大規模言語モデル(LLM)は金融分野で大きな可能性を証明している。 したがって、金融業務におけるllmの性能を評価することが重要となる。 本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。 CFBenchmarkの基本バージョンは、8つのタスクを含む3つの側面~(\emph{i.e.}認識、分類、生成)から中国の金融テキスト処理の基本能力を評価するために設計されており、50文字から1,800文字を超える金融テキストを含んでいる。 CFBenchmark-Basic を用いていくつかの LLM 実験を行い、実験結果から、いくつかの LLM は特定のタスクにおいて優れた性能を示すが、全体としては、既存のモデルによる財務テキスト処理の基本的なタスクを改善するための重要な余地があることを示している。 将来的には,中国の金融アシスタントとして,言語モデルの広範な能力をさらに深めることを目指して,cfbenchmarkの高度なバージョンを探求する予定です。 私たちのコードはhttps://github.com/TongjiFinLab/CFBenchmarkで公開されています。

Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic version of CFBenchmark is designed to evaluate the basic ability in Chinese financial text processing from three aspects~(\emph{i.e.} recognition, classification, and generation) including eight tasks, and includes financial texts ranging in length from 50 to over 1,800 characters. We conduct experiments on several LLMs available in the literature with CFBenchmark-Basic, and the experimental results indicate that while some LLMs show outstanding performance in specific tasks, overall, there is still significant room for improvement in basic tasks of financial text processing with existing models. In the future, we plan to explore the advanced version of CFBenchmark, aiming to further explore the extensive capabilities of language models in more profound dimensions as a financial assistant in Chinese. Our codes are released at https://github.com/TongjiFinLab/CFBenchmark.
翻訳日:2023-11-13 16:25:22 公開日:2023-11-10
# 周期整合型交感神経回路を用いた変形性膝関節症x線画像の双方向時間状態の合成

Synthesizing Bidirectional Temporal States of Knee Osteoarthritis Radiographs with Cycle-Consistent Generative Adversarial Neural Networks ( http://arxiv.org/abs/2311.05798v1 )

ライセンス: Link先を確認
Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Suvi Lahtinen, Timo Ojala(参考訳) 世界の障害の主な原因である膝関節症(KOA)は, 微妙なX線学的指標により早期発見が困難である。 多様なデータセットが必要であるが、プライバシ、データ収集の制限、そして KOA の進歩的な性質のためにコンパイルが困難である。 しかし、本物のラジオグラフを異なるOAステージに投影できるモデルは、データプールを拡張し、アルゴリズムの訓練を強化し、プリエンプティブな予測的洞察を提供する。 本研究では,CycleGANモデルを用いて,COAの過去と将来の段階を真のラジオグラフィーで合成する訓練を行った。 このモデルは、コンボリューショナルニューラルネットワークを用いて、変換画像中の疾患ステージを誤って分類し、CycleGANの疾患特性を前方または後方に効果的に変換する能力を実証した。 このモデルは、将来の疾患状態の合成に特に効果的であり、骨芽腫を取り除き膝関節腔を拡大することで、後期のx線を早期に遡及的に移行する能力、無または疑わしいkoaの特徴を示した。 このモデルの結果は、医療における診断モデル、データ拡張、教育的および予後的利用の強化に有望な可能性を示している。 それにもかかわらず、さらなる改良、検証、CNNに基づく評価と専門的な医学的フィードバックの両方を含む幅広い評価プロセスが将来の研究開発のために強調されている。

Knee Osteoarthritis (KOA), a leading cause of disability worldwide, is challenging to detect early due to subtle radiographic indicators. Diverse, extensive datasets are needed but are challenging to compile because of privacy, data collection limitations, and the progressive nature of KOA. However, a model capable of projecting genuine radiographs into different OA stages could augment data pools, enhance algorithm training, and offer pre-emptive prognostic insights. In this study, we trained a CycleGAN model to synthesize past and future stages of KOA on any genuine radiograph. The model was validated using a Convolutional Neural Network that was deceived into misclassifying disease stages in transformed images, demonstrating the CycleGAN's ability to effectively transform disease characteristics forward or backward in time. The model was particularly effective in synthesizing future disease states and showed an exceptional ability to retroactively transition late-stage radiographs to earlier stages by eliminating osteophytes and expanding knee joint space, signature characteristics of None or Doubtful KOA. The model's results signify a promising potential for enhancing diagnostic models, data augmentation, and educational and prognostic usage in healthcare. Nevertheless, further refinement, validation, and a broader evaluation process encompassing both CNN-based assessments and expert medical feedback are emphasized for future research and development.
翻訳日:2023-11-13 16:24:28 公開日:2023-11-10
# 距離ベース正規化によるノード分類の不確実性定量化の改善

Improvements on Uncertainty Quantification for Node Classification via Distance-Based Regularization ( http://arxiv.org/abs/2311.05795v1 )

ライセンス: Link先を確認
Russell Alan Hart, Linlin Yu, Yifei Lou, Feng Chen(参考訳) ディープニューラルネットワークはここ数十年で大きな成功を収めてきたが、十分に校正されておらず、しばしば信頼できない予測を生み出している。 多くの文献は、学習モデルの信頼性を評価するために不確実な定量化に依存しており、特にアウト・オブ・ディストリビューション(OOD)の検出と誤分類検出の応用において重要である。 我々は、依存ノードレベル分類の不確実性定量化に関心がある。 我々は,不確実性クロスエントロピー(UCE)に基づく損失関数を最適化するグラフ後続ネットワーク(GPN)に基づいて解析を開始する。 広く使われているUCE損失の理論的限界について述べる。 同定された欠点を軽減するために,クラスタ化されたOODノードが潜時空間に留まることを奨励する距離ベース正規化を提案する。 8つの標準データセットについて広範な比較実験を行い,提案手法がood検出と誤分類検出の両方において最先端のものよりも優れていることを示す。

Deep neural networks have achieved significant success in the last decades, but they are not well-calibrated and often produce unreliable predictions. A large number of literature relies on uncertainty quantification to evaluate the reliability of a learning model, which is particularly important for applications of out-of-distribution (OOD) detection and misclassification detection. We are interested in uncertainty quantification for interdependent node-level classification. We start our analysis based on graph posterior networks (GPNs) that optimize the uncertainty cross-entropy (UCE)-based loss function. We describe the theoretical limitations of the widely-used UCE loss. To alleviate the identified drawbacks, we propose a distance-based regularization that encourages clustered OOD nodes to remain clustered in the latent space. We conduct extensive comparison experiments on eight standard datasets and demonstrate that the proposed regularization outperforms the state-of-the-art in both OOD detection and misclassification detection.
翻訳日:2023-11-13 16:23:55 公開日:2023-11-10
# 悲観的政策最適化のためのクリッピング客観的政策勾配

Clipped-Objective Policy Gradients for Pessimistic Policy Optimization ( http://arxiv.org/abs/2311.05846v1 )

ライセンス: Link先を確認
Jared Markowitz and Edward W. Staley(参考訳) 効率的な学習を容易にするために、深層強化学習(RL)への政策勾配アプローチは、通常、ばらつき低減対策と組み合わせられ、大規模なが安全な政策変更を一連の経験に基づいて行う。 信頼地域政策最適化(TRPO)を含む自然政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。 Proximal Policy Optimization (PPO) は、ロスクリッピングを用いてデータバッチ毎に複数の安全な最適化ステップを処理し、TRPOの単一ステップのバウンダリを複数のステップの正規化に置き換えるアルゴリズムである。 本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。 PPOの重要度を抽出する目的の代わりに、等価な方法でクリッピングされた基本方針勾配を推奨する。 両目的はRL目標に対する偏り勾配推定を導出する一方で, 偏りのない非政治政策勾配と比較して, 差を著しく減少させる。 さらに,(1)クリッピング対象政策勾配(COPG)の目的はPPOの目的と比べ平均的な「悲観的」であり,(2)この悲観主義は探索の強化を促進する。 その結果, COPGは計算コストや複雑さを増大させることなく, シングルタスク, 制約付き, マルチタスク学習において, PPOと比較して学習効率が向上することを示した。 TRPOと比較して、COPGアプローチは、一階法の単純さを維持しながら、同等または優れたパフォーマンスを提供する。

To facilitate efficient learning, policy gradient approaches to deep reinforcement learning (RL) are typically paired with variance reduction measures and strategies for making large but safe policy changes based on a batch of experiences. Natural policy gradient methods, including Trust Region Policy Optimization (TRPO), seek to produce monotonic improvement through bounded changes in policy outputs. Proximal Policy Optimization (PPO) is a commonly used, first-order algorithm that instead uses loss clipping to take multiple safe optimization steps per batch of data, replacing the bound on the single step of TRPO with regularization on multiple steps. In this work, we find that the performance of PPO, when applied to continuous action spaces, may be consistently improved through a simple change in objective. Instead of the importance sampling objective of PPO, we instead recommend a basic policy gradient, clipped in an equivalent fashion. While both objectives produce biased gradient estimates with respect to the RL objective, they also both display significantly reduced variance compared to the unbiased off-policy policy gradient. Additionally, we show that (1) the clipped-objective policy gradient (COPG) objective is on average "pessimistic" compared to both the PPO objective and (2) this pessimism promotes enhanced exploration. As a result, we empirically observe that COPG produces improved learning compared to PPO in single-task, constrained, and multi-task learning, without adding significant computational cost or complexity. Compared to TRPO, the COPG approach is seen to offer comparable or superior performance, while retaining the simplicity of a first-order method.
翻訳日:2023-11-13 16:11:31 公開日:2023-11-10
# Tamil-Llama: Llama 2に基づいた新しいタミル語モデル

Tamil-Llama: A New Tamil Language Model Based on Llama 2 ( http://arxiv.org/abs/2311.05845v1 )

ライセンス: Link先を確認
Abhinand Balachandran(参考訳) 言語モデリングは、ChatGPTのような大規模言語モデル(LLM)が人間のようなテキスト生成で非並列ベンチマークを設定するなど、近年顕著な進歩を見せている。 しかしながら、一般的な制限は、これらの最先端モデルにおけるタミル語のような言語の過小評価であり、多様な言語的文脈において最適以下のパフォーマンスをもたらす。 本稿では,オープンソースのLLaMAモデルを16,000個のタミルトークンを追加して拡張し,タミル語における優れたテキスト生成と理解の実現を目指す。 我々は,総合的なタミルコーパス上での効率的なモデルトレーニングのためのLoRA手法を戦略的に活用し,計算可能性とモデル堅牢性を確保する。 さらに、Alpacaデータセットのタミル訳バージョンと、命令の微調整に適したOpenOrcaデータセットのサブセットを導入する。 以上の結果から,タミル語テキスト生成の性能は大幅に向上し,インド語におけるLLMのより広い景観に影響を及ぼす可能性が示唆された。 オープンリサーチへのコミットメントをさらに強調し、モデル、データセット、コードを公開アクセス可能にし、言語モデリングのさらなるイノベーションを促進します。

Language modeling has witnessed remarkable advancements in recent years, with Large Language Models (LLMs) like ChatGPT setting unparalleled benchmarks in human-like text generation. However, a prevailing limitation is the underrepresentation of languages like Tamil in these cutting-edge models, leading to suboptimal performance in diverse linguistic contexts. This paper addresses this lacuna, enhancing the open-source LLaMA model with an addition of 16,000 Tamil tokens, aiming to achieve superior text generation and comprehension in the Tamil language. We strategically employ the LoRA methodology for efficient model training on a comprehensive Tamil corpus, ensuring computational feasibility and model robustness. Moreover, we introduce a Tamil-translated version of the Alpaca dataset and a subset of the OpenOrca dataset tailored for instruction fine-tuning. Our results showcase significant performance improvements in Tamil text generation, with potential implications for the broader landscape of LLMs in Indian languages. We further underscore our commitment to open research by making our models, datasets, and code publicly accessible, fostering further innovations in language modeling.
翻訳日:2023-11-13 16:10:57 公開日:2023-11-10
# 6Gシステムにおける大規模言語モデル統合のためのAIネイティブインターコネクトフレームワーク

AI-native Interconnect Framework for Integration of Large Language Model Technologies in 6G Systems ( http://arxiv.org/abs/2311.05842v1 )

ライセンス: Link先を確認
Sasu Tarkoma, Roberto Morabito, Jaakko Sauvola(参考訳) 6Gアーキテクチャへの進化は、人工知能(AI)が重要な役割を果たし、通信ネットワークの変革的なシフトを約束する。 本稿では,Large Language Models (LLMs) とGeneralized Pretrained Transformer (GPT) を6Gシステムでシームレスに統合する方法について述べる。 意図を把握し、戦略を立て、複雑なコマンドを実行する能力は、ネットワーク機能やインタラクションを再定義する上で重要である。 この中心となるのは、ネットワーク内のAI中心の操作を促進するために、複雑に織られたAIインターコネクトフレームワークである。 最先端の継続的な進化を基盤として,次世代のモバイルネットワークに対する新しいアーキテクチャ的視点を提案する。 ここでは、LLMとGPTが、従来の前世代AIと機械学習(ML)アルゴリズムと並行して、中心的なステージに立つ。 この連合は、古い、そして新しい、試行錯誤した手法と、変革的なAI技術との新たな融合を約束する。 この進化の概念的な概要を提供するとともに、そのような統合から生じる実用的な応用のニュアンスを考察する。 本稿では,AIが次世代コミュニケーションパラダイムの基盤となり,AIネイティブな6Gネットワークの構造と機能に関する洞察を提供する共生的な統合を提案する。

The evolution towards 6G architecture promises a transformative shift in communication networks, with artificial intelligence (AI) playing a pivotal role. This paper delves deep into the seamless integration of Large Language Models (LLMs) and Generalized Pretrained Transformers (GPT) within 6G systems. Their ability to grasp intent, strategize, and execute intricate commands will be pivotal in redefining network functionalities and interactions. Central to this is the AI Interconnect framework, intricately woven to facilitate AI-centric operations within the network. Building on the continuously evolving current state-of-the-art, we present a new architectural perspective for the upcoming generation of mobile networks. Here, LLMs and GPTs will collaboratively take center stage alongside traditional pre-generative AI and machine learning (ML) algorithms. This union promises a novel confluence of the old and new, melding tried-and-tested methods with transformative AI technologies. Along with providing a conceptual overview of this evolution, we delve into the nuances of practical applications arising from such an integration. Through this paper, we envisage a symbiotic integration where AI becomes the cornerstone of the next-generation communication paradigm, offering insights into the structural and functional facets of an AI-native 6G network.
翻訳日:2023-11-13 16:10:37 公開日:2023-11-10
# 医療用ニューラルラジアンスフィールドのための不確かさを意識した単一視容積レンダリング

Uncertainty-aware Single View Volumetric Rendering for Medical Neural Radiance Fields ( http://arxiv.org/abs/2311.05836v1 )

ライセンス: Link先を確認
Jing Hu, Qinrui Fan, Shu Hu, Siwei Lyu, Xi Wu, Xin Wang(参考訳) 臨床医学の分野ではCT(Computerd tomography)は様々な病態の診断に有効な医用画像モダリティである。 X線画像と比較すると、CT画像は多平面スライスや臨床診断のための3次元構造など、より多くの情報を提供することができる。 しかし、CT画像では、患者が大量の電離放射線に長時間曝されることが要求され、これは不可逆的な身体的損傷を引き起こす可能性がある。 本稿では,発生した放射場に基づく不確実性を考慮したMedNeRF(UMedNeRF)ネットワークを提案する。 ネットワークは、内部構造と深度情報を取得し、適応損失重みを用いて2次元X線画像からCT投影の連続表現を学習し、生成画像の品質を確保する。 本モデルは, 人工膝関節と胸部データセットを用いて訓練し, 単一のX線によるCTプロジェクションレンダリングの結果を示し, 生成放射線場に基づく他の方法との比較を行った。

In the field of clinical medicine, computed tomography (CT) is an effective medical imaging modality for the diagnosis of various pathologies. Compared with X-ray images, CT images can provide more information, including multi-planar slices and three-dimensional structures for clinical diagnosis. However, CT imaging requires patients to be exposed to large doses of ionizing radiation for a long time, which may cause irreversible physical harm. In this paper, we propose an Uncertainty-aware MedNeRF (UMedNeRF) network based on generated radiation fields. The network can learn a continuous representation of CT projections from 2D X-ray images by obtaining the internal structure and depth information and using adaptive loss weights to ensure the quality of the generated images. Our model is trained on publicly available knee and chest datasets, and we show the results of CT projection rendering with a single X-ray and compare our method with other methods based on generated radiation fields.
翻訳日:2023-11-13 16:10:15 公開日:2023-11-10
# Wrinkle-Accurate Cloth Registration に先立つ拡散形状

Diffusion Shape Prior for Wrinkle-Accurate Cloth Registration ( http://arxiv.org/abs/2311.05828v1 )

ライセンス: Link先を確認
Jingfan Guo, Fabian Prada, Donglai Xiang, Javier Romero, Chenglei Wu, Hyun Soo Park, Takaaki Shiratori, Shunsuke Saito(参考訳) 頂点精度対応による4Dスキャンからの衣服の登録は困難であるが,動的外観モデリングや実世界のデータからの物理パラメータ推定には重要である。 しかし,従来の手法では必ずしも信頼できないテクスチャ情報に頼るか,粗いレベルのアライメントしか達成していない。 本研究では, テクスチャレス衣服の表面を大変形で正確に登録する手法を提案する。 我々の重要なアイデアは、拡散モデルを用いて、予め取得した衣服から学習した形状を効果的に活用することである。 また,訓練データと大きく異なる場合であっても大規模変形の登録を安定させる学習機能マップに基づく多段階誘導手法を提案する。 そこで本研究では, 拡散モデルに基づく提案手法が, vae や pca を用いた事前記述よりも一般化され, 補間および補間テストにおいて, 最適化ベースおよび学習ベース非剛性登録法を上回っていることを示す。

Registering clothes from 4D scans with vertex-accurate correspondence is challenging, yet important for dynamic appearance modeling and physics parameter estimation from real-world data. However, previous methods either rely on texture information, which is not always reliable, or achieve only coarse-level alignment. In this work, we present a novel approach to enabling accurate surface registration of texture-less clothes with large deformation. Our key idea is to effectively leverage a shape prior learned from pre-captured clothing using diffusion models. We also propose a multi-stage guidance scheme based on learned functional maps, which stabilizes registration for large-scale deformation even when they vary significantly from training data. Using high-fidelity real captured clothes, our experiments show that the proposed approach based on diffusion models generalizes better than surface registration with VAE or PCA-based priors, outperforming both optimization-based and learning-based non-rigid registration methods for both interpolation and extrapolation tests.
翻訳日:2023-11-13 16:09:58 公開日:2023-11-10
# accept: エッジパイプライン並列トレーニングの高速化のための加速方式

AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel Training ( http://arxiv.org/abs/2311.05827v1 )

ライセンス: Link先を確認
Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He, Zhiguo Shi, Jiming Chen(参考訳) 通常、リソースが限られているため、単一のエッジデバイスを使用して、大規模なディープニューラルネットワーク(DNN)モデル全体を適合させ、トレーニングすることは不可能である。 エッジデバイス間のインテリジェントなアプリケーションを容易にするために、研究者は大きなモデルを複数のサブモデルに分割し、それぞれを異なるエッジデバイスにデプロイしてdnnモデルを協調的にトレーニングすることを提案している。 しかし、訓練中にあるデバイスから他のデバイスに送信される大量のデータによる通信オーバーヘッドや、各エッジデバイスでの計算の不正確な遅延予測による最適以下の分割ポイントは、トレーニングを著しく遅くすることができる。 本稿では,エッジ協調パイプライン並列訓練を高速化するアクセラレーションスキームであるAccEPTを提案する。 特に,異なるデバイスにおける各レイヤの計算遅延を正確に推定する軽量適応遅延予測器を提案する。 したがって,提案するレイテンシ予測器は,計算負荷のバランスをとるモデルパーティショニングが向上する。 さらに,トレーニング中にデバイス間で送信されるデータを圧縮するビットレベル計算効率のデータ圧縮方式を提案する。 数値計算の結果,提案手法により,実験条件下でのエッジパイプラインの並列訓練を最大3倍高速化できることがわかった。

It is usually infeasible to fit and train an entire large deep neural network (DNN) model using a single edge device due to the limited resources. To facilitate intelligent applications across edge devices, researchers have proposed partitioning a large model into several sub-models, and deploying each of them to a different edge device to collaboratively train a DNN model. However, the communication overhead caused by the large amount of data transmitted from one device to another during training, as well as the sub-optimal partition point due to the inaccurate latency prediction of computation at each edge device can significantly slow down training. In this paper, we propose AccEPT, an acceleration scheme for accelerating the edge collaborative pipeline-parallel training. In particular, we propose a light-weight adaptive latency predictor to accurately estimate the computation latency of each layer at different devices, which also adapts to unseen devices through continuous learning. Therefore, the proposed latency predictor leads to better model partitioning which balances the computation loads across participating devices. Moreover, we propose a bit-level computation-efficient data compression scheme to compress the data to be transmitted between devices during training. Our numerical results demonstrate that our proposed acceleration approach is able to significantly speed up edge pipeline parallel training up to 3 times faster in the considered experimental settings.
翻訳日:2023-11-13 16:09:36 公開日:2023-11-10
# ステップバイステップで補強しましょう

Let's Reinforce Step by Step ( http://arxiv.org/abs/2311.05821v1 )

ライセンス: Link先を確認
Sarah Pan, Vladislav Lialin, Sherin Muckatira, and Anna Rumshisky(参考訳) 近年の進歩は、言語ベンチマークにおけるLMの熟練度を高める一方で、LMは数学のような複雑なタスクを正しく推論するのに一貫して苦労している。 我々は、モデル推論プロセスを形成する方法として、人間フィードバックからの強化学習(RLHF)に目を向ける。 特に、論理的な推論のために最適化する2つの報酬スキーム(outcome-supervised reward model (orm) と process-supervised reward models (prm) を探索する。 以上の結果から, PRM法により得られる微粒な報酬は, 単純数理推論(GSM8K)の精度を高める一方で, 意外なことに, 複雑なタスク(MATH)の性能を低下させることを示した。 さらに,モデル性能において,報酬集約関数が果たす重要な役割を示す。 本研究は,将来的な研究の道筋として,より信頼性の高い言語モデルのための細粒度報酬モデリングの必要性を浮き彫りにしている。

While recent advances have boosted LM proficiency in linguistic benchmarks, LMs consistently struggle to reason correctly on complex tasks like mathematics. We turn to Reinforcement Learning from Human Feedback (RLHF) as a method with which to shape model reasoning processes. In particular, we explore two reward schemes, outcome-supervised reward models (ORMs) and process-supervised reward models (PRMs), to optimize for logical reasoning. Our results show that the fine-grained reward provided by PRM-based methods enhances accuracy on simple mathematical reasoning (GSM8K) while, unexpectedly, reducing performance in complex tasks (MATH). Furthermore, we show the critical role reward aggregation functions play in model performance. Providing promising avenues for future research, our study underscores the need for further exploration into fine-grained reward modeling for more reliable language models.
翻訳日:2023-11-13 16:09:15 公開日:2023-11-10
# 混合密度ネットワークを用いた確率電子機器の機械学習によるコンパクトモデリング

Machine Learning-powered Compact Modeling of Stochastic Electronic Devices using Mixture Density Networks ( http://arxiv.org/abs/2311.05820v1 )

ライセンス: Link先を確認
Jack Hutchins, Shamiul Alam, Dana S. Rampini, Bakhrom G. Oripov, Adam N. McCaughan, Ahmedullah Aziz(参考訳) 電子機器の小型化と性能向上の無関係な追求は、回路設計とシミュレーションの分野における根本的な課題につながった。 従来の決定論的モデルは回路設計者にとって欠かせないツールとして機能してきたが、多くの電子部品が示す微妙で重要な変動を捉えるには不足している。 本稿では,機械学習,特に混合密度ネットワーク(MDN)の力を利用して,電子機器の確率的挙動を忠実に表現し,シミュレートすることで,従来のモデリング手法の限界を超越する革新的なアプローチを提案する。 我々は,実験で観測された確率的スイッチングダイナミクスをモデルとして,熱源クライオトロンをモデル化するアプローチを実証する。 本モデルはスイッチング確率の絶対誤差が0.82%であることを示す。 本稿では,電子回路の領域における革新を推し進めるための,正確で汎用的なコンパクトモデルの探求において重要な一歩を踏み出した。

The relentless pursuit of miniaturization and performance enhancement in electronic devices has led to a fundamental challenge in the field of circuit design and simulation: how to accurately account for the inherent stochastic nature of certain devices. While conventional deterministic models have served as indispensable tools for circuit designers, they fall short when it comes to capture the subtle yet critical variability exhibited by many electronic components. In this paper, we present an innovative approach that transcends the limitations of traditional modeling techniques by harnessing the power of machine learning, specifically Mixture Density Networks (MDNs), to faithfully represent and simulate the stochastic behavior of electronic devices. We demonstrate our approach to model heater cryotrons, where the model is able to capture the stochastic switching dynamics observed in the experiment. Our model shows 0.82% mean absolute error for switching probability. This paper marks a significant step forward in the quest for accurate and versatile compact models, poised to drive innovation in the realm of electronic circuits.
翻訳日:2023-11-13 16:08:57 公開日:2023-11-10
# Scale-MIA:潜時空間再構成によるセキュアフェデレーション学習に対するスケーラブルモデル反転攻撃

Scale-MIA: A Scalable Model Inversion Attack against Secure Federated Learning via Latent Space Reconstruction ( http://arxiv.org/abs/2311.05808v1 )

ライセンス: Link先を確認
Shanghao Shi, Ning Wang, Yang Xiao, Chaoyu Zhang, Yi Shi, Y.Thomas Hou, Wenjing Lou(参考訳) フェデレーション学習は参加者のデータプライバシーを保護する能力で知られている。 しかし,最近出現したモデル逆転攻撃 (MIA) は,悪意のあるパラメータサーバが,モデル更新を通じて個々のユーザのローカルデータサンプルを再構築可能であることを示した。 最先端の攻撃は、計算集約的な検索ベースの最適化プロセスに依存して、各入力バッチを回復し、スケーリングを難しくするか、あるいはグローバルモデルアーキテクチャの前に追加モジュールを追加する悪意のあるパラメータサーバを巻き込み、攻撃を目立たず簡単に検出する。 このような制限を克服するために,堅牢なセキュアなアグリゲーションプロトコルの保護下にある場合でも,クライアントのトレーニングサンプルを集約された更新から効率的にかつ正確に回収できる新しいMIAであるScale-MIAを提案する。 モデルをブラックボックスとして扱う既存のアプローチとは異なり、Scale-MIAは複雑なアーキテクチャと機械学習モデルの内部動作の重要性を認識している。 潜在空間をプライバシを侵害する重要なレイヤとして識別し、複雑なリカバリタスクを革新的な2段階のプロセスに分解し、計算の複雑さを低減します。 最初のステップは、閉じた形式反転機構を使用して集約されたモデル更新から潜在空間表現(LSR)を再構築し、特別に製作された逆線形層を活用することである。 第2のステップでは、入力バッチ全体は、細調整された生成デコーダに入力することでLSRから回収される。 複数の一般的な機械学習モデルにスケール-MIAを実装し、様々な設定で包括的な実験を行った。 その結果、スケール・ミアは様々なデータセットにおいて優れたリカバリ性能を達成し、最先端miasと比較して高い再構成率、正確性、攻撃効率を示すことが示された。

Federated learning is known for its capability to safeguard participants' data privacy. However, recently emerged model inversion attacks (MIAs) have shown that a malicious parameter server can reconstruct individual users' local data samples through model updates. The state-of-the-art attacks either rely on computation-intensive search-based optimization processes to recover each input batch, making scaling difficult, or they involve the malicious parameter server adding extra modules before the global model architecture, rendering the attacks too conspicuous and easily detectable. To overcome these limitations, we propose Scale-MIA, a novel MIA capable of efficiently and accurately recovering training samples of clients from the aggregated updates, even when the system is under the protection of a robust secure aggregation protocol. Unlike existing approaches treating models as black boxes, Scale-MIA recognizes the importance of the intricate architecture and inner workings of machine learning models. It identifies the latent space as the critical layer for breaching privacy and decomposes the complex recovery task into an innovative two-step process to reduce computation complexity. The first step involves reconstructing the latent space representations (LSRs) from the aggregated model updates using a closed-form inversion mechanism, leveraging specially crafted adversarial linear layers. In the second step, the whole input batches are recovered from the LSRs by feeding them into a fine-tuned generative decoder. We implemented Scale-MIA on multiple commonly used machine learning models and conducted comprehensive experiments across various settings. The results demonstrate that Scale-MIA achieves excellent recovery performance on different datasets, exhibiting high reconstruction rates, accuracy, and attack efficiency on a larger scale compared to state-of-the-art MIAs.
翻訳日:2023-11-13 16:08:40 公開日:2023-11-10
# 量子光顕微鏡

Quantum light microscopy ( http://arxiv.org/abs/2311.05807v1 )

ライセンス: Link先を確認
W. P. Bowen, Helen M. Chrzanowski, Dan Oron, Sven Ramelow, Dmitry Tabakaev, Alex Terrasson and Rob Thew(参考訳) 微生物の理解の進歩の多くは、顕微鏡の進歩に支えられている。 例えば、超高分解能顕微鏡は生体構造を原子規模に近い解像度で観察できるのに対し、多光子顕微鏡は組織の奥深くをイメージングできる。 しかし、生体構造や力学は既存の顕微鏡には及ばないことが多く、信号対雑音、分解能、そしてそれらにアクセスするのに必要な速度がさらに進歩している。 多くの場合、顕微鏡の性能は、光子への光の量子化によるノイズや、多光子散乱の低断面積の多光子顕微鏡などの量子効果によって制限されている。 これらの制限は、絡み合いのような量子力学の特徴を活用することで克服できる。 量子効果はまた、新しい超解像技術や波長に達するのが困難な新しい技術など、顕微鏡の性能を向上させる新しい方法を提供することができる。 このレビューは、最近の実験的進歩を含む、量子技術が顕微鏡を改善できる様々な方法の概要を提供する。 それは、何が可能か、どんな制約と機会があるのか、現実的なイメージを提供しようとしている。

Much of our progress in understanding microscale biology has been powered by advances in microscopy. For instance, super-resolution microscopes allow the observation of biological structures at near-atomic-scale resolution, while multi-photon microscopes allow imaging deep into tissue. However, biological structures and dynamics still often remain out of reach of existing microscopes, with further advances in signal-to-noise, resolution and speed needed to access them. In many cases, the performance of microscopes is now limited by quantum effects -- such as noise due to the quantisation of light into photons or, for multi-photon microscopes, the low cross-section of multi-photon scattering. These limitations can be overcome by exploiting features of quantum mechanics such as entanglement. Quantum effects can also provide new ways to enhance the performance of microscopes, such as new super-resolution techniques and new techniques to image at difficult to reach wavelengths. This review provides an overview of these various ways in which quantum techniques can improve microscopy, including recent experimental progress. It seeks to provide a realistic picture of what is possible, and what the constraints and opportunities are.
翻訳日:2023-11-13 16:08:08 公開日:2023-11-10
# モデル・アズ・ア・サービス(MaaS)の調査

Model-as-a-Service (MaaS): A Survey ( http://arxiv.org/abs/2311.05804v1 )

ライセンス: Link先を確認
Wensheng Gan, Shicheng Wan, Philip S. Yu(参考訳) 事前訓練されたモデルのパラメータやデータ数が一定のレベルを超えるため、基礎モデル(例えば、大きな言語モデル)は、下流のタスクパフォーマンスを著しく向上させ、これまで存在しなかった新しい特殊能力(ディープラーニング、複雑な推論、人間のアライメントなど)を出現させることができる。 ファウンデーションモデルは生成人工知能(GenAI)の一形態であり、モデル・アズ・ア・サービス(MaaS)はGenAIモデルの展開と利用に革命をもたらす画期的なパラダイムとして登場した。 MaaSは、AIテクノロジの使用方法のパラダイムシフトであり、開発者やユーザが、モデルトレーニングにおける広範なインフラストラクチャや専門知識を必要とせずに、事前トレーニングされたAIモデルを活用するための、スケーラブルでアクセス可能なソリューションを提供する。 本稿では,MaaSとその意義,および各種産業におけるその意義を包括的に概観することを目的とする。 クラウドコンピューティングに基づく"X-as-a-Service"の開発経緯を概観し、MaaSに関わる重要な技術を紹介する。 GenAIモデルの開発は民主化され、繁栄するでしょう。 MaaSの最近の応用研究についてもレビューする。 最後に、この有望な領域におけるいくつかの課題と今後の課題を取り上げる。 MaaSは、さまざまなAIベースのモデルのための、新しいデプロイメントとサービスパラダイムである。 このレビューがMaaSの分野における将来の研究を刺激することを期待している。

Due to the increased number of parameters and data in the pre-trained model exceeding a certain level, a foundation model (e.g., a large language model) can significantly improve downstream task performance and emerge with some novel special abilities (e.g., deep learning, complex reasoning, and human alignment) that were not present before. Foundation models are a form of generative artificial intelligence (GenAI), and Model-as-a-Service (MaaS) has emerged as a groundbreaking paradigm that revolutionizes the deployment and utilization of GenAI models. MaaS represents a paradigm shift in how we use AI technologies and provides a scalable and accessible solution for developers and users to leverage pre-trained AI models without the need for extensive infrastructure or expertise in model training. In this paper, the introduction aims to provide a comprehensive overview of MaaS, its significance, and its implications for various industries. We provide a brief review of the development history of "X-as-a-Service" based on cloud computing and present the key technologies involved in MaaS. The development of GenAI models will become more democratized and flourish. We also review recent application studies of MaaS. Finally, we highlight several challenges and future issues in this promising area. MaaS is a new deployment and service paradigm for different AI-based models. We hope this review will inspire future research in the field of MaaS.
翻訳日:2023-11-13 16:07:51 公開日:2023-11-10
# Azure Quantum Resource Estimator を用いたフォールトトレラント量子計算の性能評価

Using Azure Quantum Resource Estimator for Assessing Performance of Fault Tolerant Quantum Computation ( http://arxiv.org/abs/2311.05801v1 )

ライセンス: Link先を確認
Wim van Dam, Mariia Mykhailova, Mathias Soeken(参考訳) Azure QuantumとMicrosoft Quantum Development Kitが提供するリソース推定ツールについて説明する。 これらのツールを使うことで、フォールトトレラントな量子コンピュータ上でアルゴリズムを実行するのに必要な論理的および物理的リソースを自動的に評価することができる。 例えば、3つの異なる乗算アルゴリズムの量子フォールトトレラント実装のリソース推定値を得る。

The resource estimation tools provided by Azure Quantum and Microsoft Quantum Development Kit are described. Using these tools one can automatically evaluate the logical and physical resources required to run algorithms on fault-tolerant quantum computers. An example is given of obtaining resource estimates for quantum fault-tolerant implementations of three different multiplication algorithms.
翻訳日:2023-11-13 16:07:28 公開日:2023-11-10
# 多言語多言語検索における学習データの合成のためのLLMの活用

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval ( http://arxiv.org/abs/2311.05800v1 )

ライセンス: Link先を確認
Nandan Thakur, Jianmo Ni, Gustavo Hern\'andez \'Abrego, John Wieting, Jimmy Lin, Daniel Cer(参考訳) デンス検索モデルは主に英語で研究されており、人間ラベルのトレーニングペアが利用できるため、モデルは非常に成功している。 しかし、複数の言語でトレーニングデータが不均一か、あるいはほとんど利用できないため、多言語検索では成功例が限られている。 合成トレーニングデータ生成は将来性があり(例えば、InParsやPromptagator)、英語でのみ研究されている。 そこで本研究では,言語横断検索と単言語検索の両方にまたがるモデル機能について検討するため,人的監督を必要とせず,多言語密集検索モデルを訓練するための33言語を含む合成検索訓練データセットSWIM-IRを開発した。 そこで、大言語モデル(llm)がクエリ生成ステップの前にテキスト要約を生成するsap(summarize-then-ask prompting)を提案する。 SAPはLLMがターゲット言語で情報クエリを生成するのを支援する。 SWIM-IRを用いて、多言語高密度検索モデルの合成微調整を行い、XOR-Retrieve(言語横断)、XTREME-UP(言語横断)、MIRACL(言語横断)の3つの検索ベンチマークで頑健に評価する。 SWIM-Xと呼ばれる我々のモデルは、例えばmContrieverのような人間に監督された密集した検索モデルと競合する。

Dense retrieval models have predominantly been studied for English, where models have shown great success, due to the availability of human-labeled training pairs. However, there has been limited success for multilingual retrieval so far, as training data is uneven or scarcely available across multiple languages. Synthetic training data generation is promising (e.g., InPars or Promptagator), but has been investigated only for English. Therefore, to study model capabilities across both cross-lingual and monolingual retrieval tasks, we develop SWIM-IR, a synthetic retrieval training dataset containing 33 (high to very-low resource) languages for training multilingual dense retrieval models without requiring any human supervision. To construct SWIM-IR, we propose SAP (summarize-then-ask prompting), where the large language model (LLM) generates a textual summary prior to the query generation step. SAP assists the LLM in generating informative queries in the target language. Using SWIM-IR, we explore synthetic fine-tuning of multilingual dense retrieval models and evaluate them robustly on three retrieval benchmarks: XOR-Retrieve (cross-lingual), XTREME-UP (cross-lingual) and MIRACL (monolingual). Our models, called SWIM-X, are competitive with human-supervised dense retrieval models, e.g., mContriever, finding that SWIM-IR can cheaply substitute for expensive human-labeled retrieval training data.
翻訳日:2023-11-13 16:07:22 公開日:2023-11-10
# Adaptive Variance Thresholding: 既存のDeep Transfer Vision Modelの改善と高度な自動膝関節関節症分類のための新しいアプローチ

Adaptive Variance Thresholding: A Novel Approach to Improve Existing Deep Transfer Vision Models and Advance Automatic Knee-Joint Osteoarthritis Classification ( http://arxiv.org/abs/2311.05799v1 )

ライセンス: Link先を確認
Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Suvi Lahtinen, Timo Ojala(参考訳) Knee-Joint型変形性関節症 (KOA) は世界的な障害の原因であり, 微妙なX線マーカーと個別化進行により診断が困難である。 しかし、これらの手法は広範囲で多様なデータセットを必要とするため、医療データ収集の制限によって大きな課題が生じる。 既存のプラクティスは通常、小さなデータセットと転送学習に頼る。 しかし、このアプローチはしばしば、分類器のベクトル空間を乱し、性能を阻害する可能性のある不要な事前学習機能を継承する。 本研究では,適応分散しきい値処理(AVT)を導入した後,ニューラルネットワーク探索(NAS)による学習後特殊分類器の改良手法を提案する。 このアプローチは、事前訓練されたKOAモデルの初期精度の向上とNAS入力ベクトル空間の60倍の削減という2つの重要な結果をもたらし、より高速な推論速度とより効率的なハイパーパラメータ探索を可能にした。 また、この手法をKOA分類のために訓練された外部モデルに適用した。 初期性能にもかかわらず,提案手法の適用により平均精度が向上し,上位3つのKOA分類モデルの一つとなった。

Knee-Joint Osteoarthritis (KOA) is a prevalent cause of global disability and is inherently complex to diagnose due to its subtle radiographic markers and individualized progression. One promising classification avenue involves applying deep learning methods; however, these techniques demand extensive, diversified datasets, which pose substantial challenges due to medical data collection restrictions. Existing practices typically resort to smaller datasets and transfer learning. However, this approach often inherits unnecessary pre-learned features that can clutter the classifier's vector space, potentially hampering performance. This study proposes a novel paradigm for improving post-training specialized classifiers by introducing adaptive variance thresholding (AVT) followed by Neural Architecture Search (NAS). This approach led to two key outcomes: an increase in the initial accuracy of the pre-trained KOA models and a 60-fold reduction in the NAS input vector space, thus facilitating faster inference speed and a more efficient hyperparameter search. We also applied this approach to an external model trained for KOA classification. Despite its initial performance, the application of our methodology improved its average accuracy, making it one of the top three KOA classification models.
翻訳日:2023-11-13 16:06:51 公開日:2023-11-10
# 多状態メモリを内蔵したプログラマブル超伝導光電子一光子シナプス

Programmable Superconducting Optoelectronic Single-Photon Synapses with Integrated Multi-State Memory ( http://arxiv.org/abs/2311.05881v1 )

ライセンス: Link先を確認
Bryce A. Primavera, Saeed Khan, Richard P. Mirin, Sae Woo Nam, Jeffrey M. Shainline(参考訳) 記憶と処理のコロケーションは、ニューロモルフィックコンピューティングのコア原則である。 シナプス重み記憶のための局所記憶装置は、大規模で高性能なニューロモルフィックハードウェアの有効要素として長年認識されてきた。 本研究は,超伝導光電子ニューラルシステムに用いる集積メモリを用いたプログラム可能な超伝導シナプスを実証する。 超伝導ナノワイヤ単一光子検出器とジョセフソン接合は、単一光子感度を示すプログラマブルシナプス回路、400以上の内部状態を持つメモリセル、入力スパイクイベントのリーク統合、および0.4 fjプログラミングエネルギー(冷却電力を含む)に結合される。 これらの結果は,教師付きおよび教師なしの学習アルゴリズムの実装や,大規模スパイクネットワークアクセラレータに最適化された新しいハードウェアプラットフォームの基盤となる上で,魅力的なものだ。

The co-location of memory and processing is a core principle of neuromorphic computing. A local memory device for synaptic weight storage has long been recognized as an enabling element for large-scale, high-performance neuromorphic hardware. In this work, we demonstrate programmable superconducting synapses with integrated memories for use in superconducting optoelectronic neural systems. Superconducting nanowire single-photon detectors and Josephson junctions are combined into programmable synaptic circuits that exhibit single-photon sensitivity, memory cells with more than 400 internal states, leaky integration of input spike events, and 0.4 fJ programming energies (including cooling power). These results are attractive for implementing a variety of supervised and unsupervised learning algorithms and lay the foundation for a new hardware platform optimized for large-scale spiking network accelerators.
翻訳日:2023-11-13 15:58:57 公開日:2023-11-10
# 360度ホログラフィックコンテンツの中央角度最適化

Central Angle Optimization for 360-degree Holographic 3D Content ( http://arxiv.org/abs/2311.05878v1 )

ライセンス: Link先を確認
Hakdong Kim, Minsung Yoon, and Cheongwon Kim(参考訳) 本研究では,実際のホログラフィックコンテンツを作成するために,深層学習に基づく深層地図推定において最適な中央角を求める手法を提案する。 高い計算コストにもかかわらず、高画質のホログラムを生成するために、可能な限り詳細なRGB深度マップ画像の取得を行う必要がある。 そこで本研究では,オブジェクト中心環境の起源から,隣接するカメラ視点間の中心角度の様々な値を分析するための新しいパイプラインを提案する。 次に,高品質なホログラフィックコンテンツを生成するための最適中心角度を提案する。 提案するパイプラインは,推定深度マップの比較,rgb画像から再構成されたcgh(コンピュータ生成ホログラム)と推定深度マップの比較など,重要なステップを含む。 本研究では,デジタルホログラフィックコンテンツの品質と中心角度の関係を実験的に検証し,議論する。

In this study, we propose a method to find an optimal central angle in deep learning-based depth map estimation used to produce realistic holographic content. The acquisition of RGB-depth map images as detailed as possible must be performed to generate holograms of high quality, despite the high computational cost. Therefore, we introduce a novel pipeline designed to analyze various values of central angles between adjacent camera viewpoints equidistant from the origin of an object-centered environment. Then we propose the optimal central angle to generate high-quality holographic content. The proposed pipeline comprises key steps such as comparing estimated depth maps and comparing reconstructed CGHs (Computer-Generated Holograms) from RGB images and estimated depth maps. We experimentally demonstrate and discuss the relationship between the central angle and the quality of digital holographic content.
翻訳日:2023-11-13 15:58:34 公開日:2023-11-10
# タブラルディープラーニングにおける特徴選択のための性能駆動ベンチマーク

A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning ( http://arxiv.org/abs/2311.05877v1 )

ライセンス: Link先を確認
Valeriia Cherepanova, Roman Levin, Gowthami Somepalli, Jonas Geiping, C. Bayan Bruss, Andrew Gordon Wilson, Tom Goldstein, Micah Goldblum(参考訳) 学術的な表型ベンチマークは、しばしばキュレートされた機能の小さなセットを含む。 対照的に、データサイエンティストは通常、できるだけ多くの機能をデータセットに集め、既存のものから新しい機能を設計する。 その後の下流モデリングにおける過度な適合を防ぐため、実践者は一般的に、情報的特徴の少ないサブセットを識別する自動特徴選択手法を使用する。 既存の表型特徴選択ベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価しない。 表層深層学習の普及に触発されて、トランスフォーマーを含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築し、実際のデータセットと、外部特徴を生成する複数の方法を構築した。 また、ニューラルネットワークに対するLassoのインプット・グラディエント・ベース・アナログを提案する。これは、破損した特徴や二階特徴から選択するといった問題に対して古典的特徴選択法より優れている。

Academic tabular benchmarks often contain small sets of curated features. In contrast, data scientists typically collect as many features as possible into their datasets, and even engineer new features from existing ones. To prevent overfitting in subsequent downstream modeling, practitioners commonly use automated feature selection methods that identify a reduced subset of informative features. Existing benchmarks for tabular feature selection consider classical downstream models, toy synthetic datasets, or do not evaluate feature selectors on the basis of downstream performance. Motivated by the increasing popularity of tabular deep learning, we construct a challenging feature selection benchmark evaluated on downstream neural networks including transformers, using real datasets and multiple methods for generating extraneous features. We also propose an input-gradient-based analogue of Lasso for neural networks that outperforms classical feature selection methods on challenging problems such as selecting from corrupted or second-order features.
翻訳日:2023-11-13 15:58:12 公開日:2023-11-10
# 知識モデルと大規模言語モデルの統合動向:方法・ベンチマーク・応用に関する調査と分類

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications ( http://arxiv.org/abs/2311.05876v1 )

ライセンス: Link先を確認
Zhangyin Feng, Weitao Ma, Weijiang Yu, Lei Huang, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, Ting liu(参考訳) 大規模言語モデル(llm)は、様々な自然言語タスクにおいて優れた性能を示すが、古いデータやドメイン固有の制限に起因する問題に影響を受けやすい。 これらの課題に対処するため、研究者は知識編集と検索強化という2つの主要な戦略を追求し、異なる側面から外部情報を取り込むことでLSMを強化する。 それにもかかわらず、包括的調査がいまだに顕著に欠落している。 本稿では,手法,ベンチマーク,アプリケーションなどの分類学を含む知識モデルと大規模言語モデルの統合動向を論じるレビューを提案する。 さらに,異なる手法の詳細な分析を行い,将来的な研究の方向性を指摘する。 この調査がコミュニティのクイックアクセスと、今後の研究を刺激する目的で、この研究領域の包括的概要を提供することを期待している。

Large language models (LLMs) exhibit superior performance on various natural language tasks, but they are susceptible to issues stemming from outdated data and domain-specific limitations. In order to address these challenges, researchers have pursued two primary strategies, knowledge editing and retrieval augmentation, to enhance LLMs by incorporating external information from different aspects. Nevertheless, there is still a notable absence of a comprehensive survey. In this paper, we propose a review to discuss the trends in integration of knowledge and large language models, including taxonomy of methods, benchmarks, and applications. In addition, we conduct an in-depth analysis of different methods and point out potential research directions in the future. We hope this survey offers the community quick access and a comprehensive overview of this research area, with the intention of inspiring future research endeavors.
翻訳日:2023-11-13 15:57:46 公開日:2023-11-10
# ラベルなしデータベースの依存性テスト

Testing Dependency of Unlabeled Databases ( http://arxiv.org/abs/2311.05874v1 )

ライセンス: Link先を確認
Vered Paslev and Wasim Huleihel(参考訳) 本稿では、2つのランダムデータベース $\mathsf{X}\in\mathcal{X}^{n\times d}$ と $\mathsf{Y}\in\mathcal{Y}^{n\times d}$ が統計的に依存するか否かを決定する問題について検討する。 これは仮説テスト問題として定式化されており、ヌル仮説の下では、これらの2つのデータベースは統計的に独立であるが、別の方法では、$\mathsf{x}$ と $\mathsf{y}^\sigma$($\mathsf{y}$ の置換版)が既知のジョイント分布に統計的に依存するが、ヌルと同じ限界分布を持つような、未知の行置換 $\sigma$ が存在する。 最適なテストが情報理論上不可能で可能な閾値を、n$、$d$、およびデータセットの生成分布のスペクトル特性の関数として特徴付ける。 例えば、確率関数の固有値と$d$の特定の関数が、$d\to\infty$のようにあるしきい値以下であれば、$n$の値が何であれ、弱い検出(ランダムな推測よりもわずかに優れている)は統計的に不可能である。 これは、観測された行列のログ様関数の中心バージョンを閾値付けする効率的なテストのパフォーマンスを模倣する。 また、$d$が固定された場合の分析を行い、その場合、強い(消滅エラー)と弱い検出の下限と上限を導出する。

In this paper, we investigate the problem of deciding whether two random databases $\mathsf{X}\in\mathcal{X}^{n\times d}$ and $\mathsf{Y}\in\mathcal{Y}^{n\times d}$ are statistically dependent or not. This is formulated as a hypothesis testing problem, where under the null hypothesis, these two databases are statistically independent, while under the alternative, there exists an unknown row permutation $\sigma$, such that $\mathsf{X}$ and $\mathsf{Y}^\sigma$, a permuted version of $\mathsf{Y}$, are statistically dependent with some known joint distribution, but have the same marginal distributions as the null. We characterize the thresholds at which optimal testing is information-theoretically impossible and possible, as a function of $n$, $d$, and some spectral properties of the generative distributions of the datasets. For example, we prove that if a certain function of the eigenvalues of the likelihood function and $d$, is below a certain threshold, as $d\to\infty$, then weak detection (performing slightly better than random guessing) is statistically impossible, no matter what the value of $n$ is. This mimics the performance of an efficient test that thresholds a centered version of the log-likelihood function of the observed matrices. We also analyze the case where $d$ is fixed, for which we derive strong (vanishing error) and weak detection lower and upper bounds.
翻訳日:2023-11-13 15:57:02 公開日:2023-11-10
# 証明可能訓練可能な回転同値量子機械学習

Provably Trainable Rotationally Equivariant Quantum Machine Learning ( http://arxiv.org/abs/2311.05873v1 )

ライセンス: Link先を確認
Maxwell T. West, Jamie Heredge, Martin Sevior and Muhammad Usman(参考訳) 優れた機械学習アルゴリズムを実現するために量子計算のパワーを爆発させることは、近年では大きな研究の焦点となっているが、量子機械学習(QML)の展望は、かなりの技術的課題によって低下している。 特に重要な問題は、一般的なQMLモデルは、トレーニングランドスケープにおいていわゆる不毛の台地に悩まされていることだ。 この効果に対抗するための主要な戦略は、ヒルベルト空間のより小さく関連する部分集合に集中するために、データの対称性を考慮した問題固有のモデルを構築することである。 本研究では、量子フーリエ変換に基づいて構築された回転同変QMLモデルの族を導入し、リー代数的なQMLモデルの最近の知見を活用し、我々のモデルのサブセットがバレンプラトーを示さないことを示す。 解析結果に加えて, シリコン中のリン不純物の走査型トンネル顕微鏡画像のデータセット上で, 回転対称性が自然に生じる場合の回転同変モデルを数値的に解析し, それらが実用上劇的に向上していることを見出した。

Exploiting the power of quantum computation to realise superior machine learning algorithmshas been a major research focus of recent years, but the prospects of quantum machine learning (QML) remain dampened by considerable technical challenges. A particularly significant issue is that generic QML models suffer from so-called barren plateaus in their training landscapes -- large regions where cost function gradients vanish exponentially in the number of qubits employed, rendering large models effectively untrainable. A leading strategy for combating this effect is to build problem-specific models which take into account the symmetries of their data in order to focus on a smaller, relevant subset of Hilbert space. In this work, we introduce a family of rotationally equivariant QML models built upon the quantum Fourier transform, and leverage recent insights from the Lie-algebraic study of QML models to prove that (a subset of) our models do not exhibit barren plateaus. In addition to our analytical results we numerically our rotationally equivariant models on a dataset of simulated scanning tunnelling microscope images of phosphorus impurities in silicon, where rotational symmetry naturally arises, and find that they dramatically outperform their generic counterparts in practice.
翻訳日:2023-11-13 15:56:19 公開日:2023-11-10
# 断熱的離散レベルハミルトニアンの特殊WKB解析

Exact WKB analysis for adiabatic discrete-level Hamiltonians ( http://arxiv.org/abs/2311.05871v1 )

ライセンス: Link先を確認
Takayuki Suzuki, Eiki Taniguchi, Kaito Iwamura(参考訳) 断熱的ハミルトニアンの下での量子系の力学は、量子制御だけでなく、凝縮物質物理学から高エネルギー物理学まで幅広い分野にも注目されている。 ここでは,非摂動解析の一つであるWKB解析を用いて,二段階系と多段階系の断熱力学を解析する。 その結果、二段階系における既知の公式に類似した遷移確率の公式が得られる。 多層系に対しては、ハミルトニアンが実対称行列である限り、同じ解析が適用可能であることを示す。 この結果は、物理学の様々な分野における正確な wkb 解析の応用の基礎となる。

The dynamics of quantum systems under the adiabatic Hamiltonian has attracted attention not only in quantum control but also in a wide range of fields from condensed matter physics to high-energy physics because of its non-perturbative behavior. Here we analyze the adiabatic dynamics in the two-level systems and the multilevel systems using the exact WKB analysis, which is one of the non-perturbative analysis. As a result, we obtain the formula of the transition probability which is similar to the known formula in the two-level system. For multilevel systems, we show that the same analysis can be applied as long as the Hamiltonian is a real symmetric matrix. The results will serve as a basis for the application of the exact WKB analysis in various fields of physics.
翻訳日:2023-11-13 15:55:57 公開日:2023-11-10
# マルチモデルディープラーニング推定パイプラインのヘテロジニアス低ビット量子化

Automated Heterogeneous Low-Bit Quantization of Multi-Model Deep Learning Inference Pipeline ( http://arxiv.org/abs/2311.05870v1 )

ライセンス: Link先を確認
Jayeeta Mondal, Swarnava Dey, Arijit Mukherjee(参考訳) 複数のDeep Neural Networks(DNN)は、MTL(Multi-Task Learning)やEL(Ensemble Learning)など、単一のDeep Learning(DL)推論パイプラインに統合されている。 これらのシステムでは、モデルの量子化耐性とリソース要求が異なり、精度とレイテンシのバランスを正確に調整する必要がある。 本稿では,複数のDNNを用いたDL推論パイプラインの自動均一量子化手法を提案する。

Multiple Deep Neural Networks (DNNs) integrated into single Deep Learning (DL) inference pipelines e.g. Multi-Task Learning (MTL) or Ensemble Learning (EL), etc., albeit very accurate, pose challenges for edge deployment. In these systems, models vary in their quantization tolerance and resource demands, requiring meticulous tuning for accuracy-latency balance. This paper introduces an automated heterogeneous quantization approach for DL inference pipelines with multiple DNNs.
翻訳日:2023-11-13 15:55:44 公開日:2023-11-10
# 感性属性の単純なランダムサンプリングによる公正な教師付き学習

Fair Supervised Learning with A Simple Random Sampler of Sensitive Attributes ( http://arxiv.org/abs/2311.05866v1 )

ライセンス: Link先を確認
Jinwon Sohn, Qifan Song, Guang Lin(参考訳) データ駆動型意思決定プロセスが産業アプリケーションで優位に立つにつれ、フェアネス対応機械学習は様々な分野で大きな注目を集めている。 本研究は,ニューラルネットワークによって学習された公正な罰則を,非識別的教師付き学習のための感度属性の単純なランダムサンプリングを用いて提案する。 センシティブな属性と応答変数の離散性に批判的に依存する多くの既存の作品とは対照的に、提案されたペナルティはセンシティブな属性の多彩なフォーマットを扱えるため、多くの既存のアルゴリズムよりも実用的に適用できる。 このペナルティにより、計算効率のよいグループレベルのフェアネス対応トレーニングフレームワークを構築することができる。 実証的な証拠は、我々のフレームワークは、競合するメソッドよりも人気のあるベンチマークデータセットの利便性と公平性が良いことを示している。 また,提案するニューラルペナライズドリスク最小化問題において,推定誤差と有用性の喪失を理論的に特徴付ける。

As the data-driven decision process becomes dominating for industrial applications, fairness-aware machine learning arouses great attention in various areas. This work proposes fairness penalties learned by neural networks with a simple random sampler of sensitive attributes for non-discriminatory supervised learning. In contrast to many existing works that critically rely on the discreteness of sensitive attributes and response variables, the proposed penalty is able to handle versatile formats of the sensitive attributes, so it is more extensively applicable in practice than many existing algorithms. This penalty enables us to build a computationally efficient group-level in-processing fairness-aware training framework. Empirical evidence shows that our framework enjoys better utility and fairness measures on popular benchmark data sets than competing methods. We also theoretically characterize estimation errors and loss of utility of the proposed neural-penalized risk minimization problem.
翻訳日:2023-11-13 15:55:34 公開日:2023-11-10
# dpr:レコメンデーションフィードバックループにおけるバイアスの蓄積を軽減するアルゴリズム

DPR: An Algorithm Mitigate Bias Accumulation in Recommendation feedback loops ( http://arxiv.org/abs/2311.05864v1 )

ライセンス: Link先を確認
Hangtong Xu and Yuanbo Xu and Yongjian Yang and Fuzhen Zhuang and Hui Xiong(参考訳) デプロイされたレコメンデーションシステムから収集されたユーザフィードバックに基づいてトレーニングされたレコメンデーションモデルは、一般的にバイアスを受けます。 ユーザからのフィードバックは、露出したアイテムに対してのみフィードバックを提供し、未公開アイテムを受動的に無視することで、多数の偽陰性サンプルを生成するため、露出メカニズムに大きく影響を受ける。 必然的に、そのようなユーザフィードバックによるバイアスは、新しいモデルによって継承され、フィードバックループを介して増幅される。 さらに,偽陰性サンプルの存在は負サンプリングを困難にし,モデルのユーザ嗜好モデリングプロセスにスプリアス情報を導入する。 最近の研究は、フィードバックループと未知の露出メカニズムが推奨品質とユーザエクスペリエンスに負の影響を調査し、基本的にそれらを独立した要因として扱い、相互効果を無視している。 これらの問題に対処するために,データ反復とフィードバックループの観点からデータ露光機構を深く分析し,フィードバックループ下での露光機構の変換における利用可能な安定化因子の存在を理論的に証明した。 さらに、動的再重み付けを用いて、追加情報なしで露出機構とフィードバックループの相互効果を緩和する非バイアスアルゴリズムである動的パーソナライズランキング(\textbf{DPR})を提案する。 さらに、偽陰性問題の負の影響を軽減するために、Universal Anti-False Negative (\textbf{UFN}) というプラグインを設計する。 提案手法は,フィードバックループと未知の露出機構の負の効果を緩和するものである。 実世界のデータセットによる実験結果から、DPRを用いたモデルでは、主流損失法におけるバイアス蓄積とUFNの普遍性をよりうまく扱えることが示された。

Recommendation models trained on the user feedback collected from deployed recommendation systems are commonly biased. User feedback is considerably affected by the exposure mechanism, as users only provide feedback on the items exposed to them and passively ignore the unexposed items, thus producing numerous false negative samples. Inevitably, biases caused by such user feedback are inherited by new models and amplified via feedback loops. Moreover, the presence of false negative samples makes negative sampling difficult and introduces spurious information in the user preference modeling process of the model. Recent work has investigated the negative impact of feedback loops and unknown exposure mechanisms on recommendation quality and user experience, essentially treating them as independent factors and ignoring their cross-effects. To address these issues, we deeply analyze the data exposure mechanism from the perspective of data iteration and feedback loops with the Missing Not At Random (\textbf{MNAR}) assumption, theoretically demonstrating the existence of an available stabilization factor in the transformation of the exposure mechanism under the feedback loops. We further propose Dynamic Personalized Ranking (\textbf{DPR}), an unbiased algorithm that uses dynamic re-weighting to mitigate the cross-effects of exposure mechanisms and feedback loops without additional information. Furthermore, we design a plugin named Universal Anti-False Negative (\textbf{UFN}) to mitigate the negative impact of the false negative problem. We demonstrate theoretically that our approach mitigates the negative effects of feedback loops and unknown exposure mechanisms. Experimental results on real-world datasets demonstrate that models using DPR can better handle bias accumulation and the universality of UFN in mainstream loss methods.
翻訳日:2023-11-13 15:55:20 公開日:2023-11-10
# マルチモーダル・エンベディング・アズ・ア・サービスのための透かしビジョン言語事前学習モデル

Watermarking Vision-Language Pre-trained Models for Multi-modal Embedding as a Service ( http://arxiv.org/abs/2311.05863v1 )

ライセンス: Link先を確認
Yuanmin Tang, Jing Yu, Keke Gai, Xiangyan Qu, Yue Hu, Gang Xiong, Qi Wu(参考訳) 視覚言語事前学習モデル(VLP)の最近の進歩は、視覚的理解とクロスモーダル分析能力を大幅に向上させた。 企業は、vlp(例えばクリップベースのvlp)に基づいたマルチモーダル組み込みサービス(eaas)を提供するように出現し、高性能サービスのために大量のトレーニングデータとリソースを必要としている。 しかし、既存の研究では、EaaSはVLPの所有者に大きな損失をもたらすモデル抽出攻撃に弱いことが示されている。 VLPの知的財産権と商業所有権を保護することは、ますます重要で難しい。 EaaSのウォーターマーキングモデルの主要なソリューションは、検証可能なトリガの埋め込みをテキストに挿入することで、モデルにバックドアを埋め込むが、これは大きな言語モデルにのみ適用でき、データとモデルのプライバシによって非現実的である。 本稿では,VLPマーカと呼ばれるVLPの安全で堅牢な組込み透かし手法を提案する。 VLPMarkerは埋め込み直交変換を利用してモデルパラメータに干渉することなくVLPにトリガを効果的に注入し、高品質な著作権検証とモデル性能への影響を最小限に抑える。 透かしの堅牢性を高めるため,バックドアトリガと埋め込み分布に基づく協調的著作権検証戦略を提案し,様々な攻撃に対するレジリエンスを高める。 我々は,分散トリガ選択アプローチによるウォーターマークの実践性を高め,モデルのトレーニングデータへのアクセスをなくし,現実のシナリオの多くに適用可能にする。 提案手法は,多モードeaasに対するvlpの著作権の検証に有効かつ安全であり,モデル抽出攻撃に対するロバストであることを示す。 私たちのコードはhttps://github.com/pter61/vlpmarkerで利用可能です。

Recent advances in vision-language pre-trained models (VLPs) have significantly increased visual understanding and cross-modal analysis capabilities. Companies have emerged to provide multi-modal Embedding as a Service (EaaS) based on VLPs (e.g., CLIP-based VLPs), which cost a large amount of training data and resources for high-performance service. However, existing studies indicate that EaaS is vulnerable to model extraction attacks that induce great loss for the owners of VLPs. Protecting the intellectual property and commercial ownership of VLPs is increasingly crucial yet challenging. A major solution of watermarking model for EaaS implants a backdoor in the model by inserting verifiable trigger embeddings into texts, but it is only applicable for large language models and is unrealistic due to data and model privacy. In this paper, we propose a safe and robust backdoor-based embedding watermarking method for VLPs called VLPMarker. VLPMarker utilizes embedding orthogonal transformation to effectively inject triggers into the VLPs without interfering with the model parameters, which achieves high-quality copyright verification and minimal impact on model performance. To enhance the watermark robustness, we further propose a collaborative copyright verification strategy based on both backdoor trigger and embedding distribution, enhancing resilience against various attacks. We increase the watermark practicality via an out-of-distribution trigger selection approach, removing access to the model training data and thus making it possible for many real-world scenarios. Our extensive experiments on various datasets indicate that the proposed watermarking approach is effective and safe for verifying the copyright of VLPs for multi-modal EaaS and robust against model extraction attacks. Our code is available at https://github.com/Pter61/vlpmarker.
翻訳日:2023-11-13 15:54:49 公開日:2023-11-10
# 原始的医用画像情報から学ぶドメインの一般化

Domain Generalization by Learning from Privileged Medical Imaging Information ( http://arxiv.org/abs/2311.05861v1 )

ライセンス: Link先を確認
Steven Korevaar, Ruwan Tennakoon, Ricky O'Brien, Dwarikanath Mahapatra, Alireza Bab-Hadiasha(参考訳) 類似のコンテキスト間で知識を一般化する能力を学ぶことは、医療画像において特に重要である。 一般化を強化するため、ほとんどの最先端技術は、学習した特徴に制約を課したり、パラメータを正規化することで、データ分散の知識を注入する。 我々は、特権的医用画像情報(lpmii)からの学習という別のアプローチを提案する。 腫瘍の形状や位置などの特権情報を利用することで,現在の最先端技術よりもドメイン一般化能力が向上することを示す。 本稿では,光コヒーレンストモグラフィースキャンにおける層内網膜液の重症度予測に特権情報を用いることで,分布外データを用いたディープラーニングモデルの分類精度が0.911$から0.934$に向上することを示した。 本稿では,一般化を必要とする他の医療問題において,特権情報を使用するための強力な出発点を提供する。

Learning the ability to generalize knowledge between similar contexts is particularly important in medical imaging as data distributions can shift substantially from one hospital to another, or even from one machine to another. To strengthen generalization, most state-of-the-art techniques inject knowledge of the data distribution shifts by enforcing constraints on learned features or regularizing parameters. We offer an alternative approach: Learning from Privileged Medical Imaging Information (LPMII). We show that using some privileged information such as tumor shape or location leads to stronger domain generalization ability than current state-of-the-art techniques. This paper demonstrates that by using privileged information to predict the severity of intra-layer retinal fluid in optical coherence tomography scans, the classification accuracy of a deep learning model operating on out-of-distribution data improves from $0.911$ to $0.934$. This paper provides a strong starting point for using privileged information in other medical problems requiring generalization.
翻訳日:2023-11-13 15:54:16 公開日:2023-11-10
# 非定常テスト時間適応のための層間自動重み付け

Layer-wise Auto-Weighting for Non-Stationary Test-Time Adaptation ( http://arxiv.org/abs/2311.05858v1 )

ライセンス: Link先を確認
Junyoung Park, Jin Kim, Hyeongjun Kwon, Ilhoon Yoon, Kwanghoon Sohn(参考訳) 実世界のアプリケーションにおける推論中のドメインシフトの必然性を考えると、テスト時間適応(TTA)はデプロイ後のモデル適応に不可欠である。 しかし、目標分布を継続的に変化させる現実のシナリオは、破滅的な忘れ込みやエラーの蓄積といった課題を呈している。 非定常領域シフトのための既存のTTAメソッドは、有効ではあるが過剰な計算負荷を発生させ、デバイス上の設定では実用的ではない。 本稿では,保存や集中的適応のための層を自律的に識別する連続的および漸進的ttaの自動重み付けアルゴリズムを提案する。 fim(fisher information matrix)を活用することで,まず学習重みを設計,無関係なものを保存しつつ,ログライクな変化に関連するレイヤを選択的に重視する。 そこで我々はさらに,特定の層をほぼ凍結させる指数的min-maxスケーラを提案する。 これにより、忘れとエラーの蓄積を最小限に抑え、非定常目標分布に効率よく適応する。 CIFAR-10C, CIFAR-100C, ImageNet-C を用いた実験により,本手法は従来の連続的および漸進的TTA手法より優れ, 計算負荷を著しく低減し, 連続的あるいは漸進的な目標領域への適応におけるFIMベースの学習重みの重要性を強調した。

Given the inevitability of domain shifts during inference in real-world applications, test-time adaptation (TTA) is essential for model adaptation after deployment. However, the real-world scenario of continuously changing target distributions presents challenges including catastrophic forgetting and error accumulation. Existing TTA methods for non-stationary domain shifts, while effective, incur excessive computational load, making them impractical for on-device settings. In this paper, we introduce a layer-wise auto-weighting algorithm for continual and gradual TTA that autonomously identifies layers for preservation or concentrated adaptation. By leveraging the Fisher Information Matrix (FIM), we first design the learning weight to selectively focus on layers associated with log-likelihood changes while preserving unrelated ones. Then, we further propose an exponential min-max scaler to make certain layers nearly frozen while mitigating outliers. This minimizes forgetting and error accumulation, leading to efficient adaptation to non-stationary target distribution. Experiments on CIFAR-10C, CIFAR-100C, and ImageNet-C show our method outperforms conventional continual and gradual TTA approaches while significantly reducing computational load, highlighting the importance of FIM-based learning weight in adapting to continuously or gradually shifting target domains.
翻訳日:2023-11-13 15:54:00 公開日:2023-11-10
# 確率密度推定レンズによるオーディエンス拡大の補正

Reframing Audience Expansion through the Lens of Probability Density Estimation ( http://arxiv.org/abs/2311.05853v1 )

ライセンス: Link先を確認
Claudio Carvalhaes(参考訳) オーディエンス拡大は将来的なマーケティングの重要な要素となり、マーケターは現在の顧客ベースを代表するサンプルに基づいてターゲットのオーディエンスを作成する。 機械学習の領域では、このサンプルをより広いオーディエンスにスケールするための好まれるアルゴリズムがバイナリ分類タスクに依存しており、クラス確率推定が重要な役割を果たす。 本稿では,この手法をレビューし,生成したオーディエンスの品質を確保するために,トレーニング例を選択する方法の重要な変化を紹介する。 広範に使われているMNISTデータセットに基づくシミュレーション研究を行い、一貫した高精度とリコール値を用いて、拡張されたオーディエンスにとって最も関連性の高いユーザを特定する能力を示す。 私たちの結果は簡単に再現可能で、pythonの実装はgithubで公開されています。

Audience expansion has become an important element of prospective marketing, helping marketers create target audiences based on a mere representative sample of their current customer base. Within the realm of machine learning, a favored algorithm for scaling this sample into a broader audience hinges on a binary classification task, with class probability estimates playing a crucial role. In this paper, we review this technique and introduce a key change in how we choose training examples to ensure the quality of the generated audience. We present a simulation study based on the widely used MNIST dataset, where consistent high precision and recall values demonstrate our approach's ability to identify the most relevant users for an expanded audience. Our results are easily reproducible and a Python implementation is openly available on GitHub: \url{https://github.com/carvalhaes-ai/audience-expansion}
翻訳日:2023-11-13 15:53:35 公開日:2023-11-10
# 人間と生成AIの共通基盤共有に向けた認知的アーキテクチャ:タングラムナーミングタスクにおけるモデル-モデル相互作用の試み

Cognitive Architecture Toward Common Ground Sharing Among Humans and Generative AIs: Trial on Model-Model Interactions in Tangram Naming Task ( http://arxiv.org/abs/2311.05851v1 )

ライセンス: Link先を確認
Junya Morita, Tatsuya Yui, Takeru Amaya, Ryuichiro Higashinaka, Yugo Takeuchi(参考訳) 生成AIが信頼できるためには、人間との透明な共通基盤を確立することが不可欠である。 本研究は,人間モデル共通接地に向けた準備として,モデルモデル共通接地プロセスについて検討する。 この文脈では、共通基盤はコミュニケーションにおいてエージェント間で共有される認知的枠組みとして定義され、エージェント間で交換されるシンボルと各エージェント固有の意味との接続を可能にする。 この接続は、関係するエージェント間の共有認知フレームワークによって促進される。 本研究では,タングラム命名タスク(TNT)に着目し,共通地盤構築過程の検証を行う。 このタスクのために設計された従来のモデルとは異なり、我々のアプローチはモデルの内部プロセスの可視化に生成AIを使用する。 この課題において、送信者はモデル内の抽象図形の比喩画像を構築し、この画像に基づいて詳細な記述を生成する。 受信者は、生成した記述を相手から解釈し、別の画像を構築し、元の抽象図形を再構成する。 本研究の予備的な結果は、モデルに実装された共通認知フレームワークの効果を示すとともに、チャンスレベルを超えたタスクパフォーマンスの向上を示す。 さらに, モデルコンポーネントの通信成功事例を活用した漸進的バックプロパゲーションにより, 統計的に顕著な性能向上が得られた。 これらの結果は、生成的AIによる共通基盤のメカニズムに関する貴重な洞察を与え、未来の社会における進化的知能機械との人間コミュニケーションを改善する。

For generative AIs to be trustworthy, establishing transparent common grounding with humans is essential. As a preparation toward human-model common grounding, this study examines the process of model-model common grounding. In this context, common ground is defined as a cognitive framework shared among agents in communication, enabling the connection of symbols exchanged between agents to the meanings inherent in each agent. This connection is facilitated by a shared cognitive framework among the agents involved. In this research, we focus on the tangram naming task (TNT) as a testbed to examine the common-ground-building process. Unlike previous models designed for this task, our approach employs generative AIs to visualize the internal processes of the model. In this task, the sender constructs a metaphorical image of an abstract figure within the model and generates a detailed description based on this image. The receiver interprets the generated description from the partner by constructing another image and reconstructing the original abstract figure. Preliminary results from the study show an improvement in task performance beyond the chance level, indicating the effect of the common cognitive framework implemented in the models. Additionally, we observed that incremental backpropagations leveraging successful communication cases for a component of the model led to a statistically significant increase in performance. These results provide valuable insights into the mechanisms of common grounding made by generative AIs, improving human communication with the evolving intelligent machines in our future society.
翻訳日:2023-11-13 15:53:19 公開日:2023-11-10
# マニフォールド正規化と正規化更新集約によるフェデレーション学習

Federated Learning with Manifold Regularization and Normalized Update Reaggregation ( http://arxiv.org/abs/2311.05924v1 )

ライセンス: Link先を確認
Xuming An, Li Shen, Han Hu, Yong Luo(参考訳) Federated Learning(FL)は、複数のクライアントが独自のデータセットを共有することなくグローバルモデルをトレーニングする、新たなコラボレーティブ機械学習フレームワークである。 flでは、クライアント間のローカルデータの不均一性に起因するモデルの不整合が、クライアント更新の直交性に近い結果となり、グローバル更新規範の低減と収束の低下につながる。 これまでのほとんどの研究は、機械学習モデルの複雑な構造と有意な幾何学的表現におけるユークリッド空間の制限のためにモデルの不整合を反映できないかもしれない局所的モデルと大域的モデルの間のパラメータ(あるいは勾配)の差を取り除くことに重点を置いている。 本稿では, 多様体モデル融合方式と, 負の影響を緩和する新しい大域最適化手法を用いてFedMRURを提案する。 具体的には、FedMRURは局所モデルと大域モデルのデータの表現を低次元部分空間で互いに近接させる双曲グラフ多様体正規化器を採用する。 機械学習モデルはグラフ構造を持つため、双曲空間における距離はユークリッド距離よりもモデルバイアスを良く反映することができる。 このように、FedMRURは表現の多様体構造を利用してモデルの不整合を著しく減少させる。 FedMRURはまた、クライアントの更新ノルムをグローバルアップデートノルムとして集約することで、各クライアントのグローバルアップデートへのコントリビューションを適切に拡大し、クライアント更新のほぼ直交性によってもたらされるノルムの削減を緩和することができる。 さらに,提案アルゴリズムは,部分的クライアント参加下での非凸設定に対して線形高速化特性を達成できることを理論的に証明し,FedMRURがより少ない通信で新しい最先端(SOTA)の精度を達成できることを実証した。

Federated Learning (FL) is an emerging collaborative machine learning framework where multiple clients train the global model without sharing their own datasets. In FL, the model inconsistency caused by the local data heterogeneity across clients results in the near-orthogonality of client updates, which leads to the global update norm reduction and slows down the convergence. Most previous works focus on eliminating the difference of parameters (or gradients) between the local and global models, which may fail to reflect the model inconsistency due to the complex structure of the machine learning model and the Euclidean space's limitation in meaningful geometric representations. In this paper, we propose FedMRUR by adopting the manifold model fusion scheme and a new global optimizer to alleviate the negative impacts. Concretely, FedMRUR adopts a hyperbolic graph manifold regularizer enforcing the representations of the data in the local and global models are close to each other in a low-dimensional subspace. Because the machine learning model has the graph structure, the distance in hyperbolic space can reflect the model bias better than the Euclidean distance. In this way, FedMRUR exploits the manifold structures of the representations to significantly reduce the model inconsistency. FedMRUR also aggregates the client updates norms as the global update norm, which can appropriately enlarge each client's contribution to the global update, thereby mitigating the norm reduction introduced by the near-orthogonality of client updates. Furthermore, we theoretically prove that our algorithm can achieve a linear speedup property for non-convex setting under partial client participation.Experiments demonstrate that FedMRUR can achieve a new state-of-the-art (SOTA) accuracy with less communication.
翻訳日:2023-11-13 15:46:11 公開日:2023-11-10
# ファウショット関係抽出のための明示的エビデンス推論による思考の連鎖

Chain of Thought with Explicit Evidence Reasoning for Few-shot Relation Extraction ( http://arxiv.org/abs/2311.05922v1 )

ライセンス: Link先を確認
Xilai Ma, Jing Li and Min Zhang(参考訳) わずかなショット関係抽出は、限られた数の注釈付きサンプルを使用して、テキスト内の2つの特定のエンティティ間の関係のタイプを識別することを含む。 この問題に対する様々な解決策は、メタラーニングとニューラルグラフ技術を適用し、適応のためのトレーニングプロセスを必要としている。 近年,文脈内学習の戦略は,学習を必要とせずに顕著な成果を上げている。 ゼロショット情報抽出にコンテキスト内学習を利用した研究はほとんどない。 不幸なことに、推論の証拠は、チェーン・オブ・ソート・プロンプトの構築中に考慮または暗黙的にモデル化されない。 本稿では,大規模な言語モデルであるcot-erを用いて,明示的な証拠推論をともなう連鎖的思考モデルを用いた,二発的関係抽出のための新しい手法を提案する。 特に、CoT-ERはタスク固有の知識と概念レベルの知識を用いて証拠を生成するために、まず大きな言語モデルを誘導する。 その後、これらの証拠は、関係抽出を促そうとする思考の連鎖に明示的に組み込まれる。 実験結果から,FewRel1.0およびFewRel2.0データセットにおけるCoT-ERアプローチ(トレーニングデータ0%)は,完全教師付き(100%トレーニングデータ)の最先端アプローチと比較して,競争性能が向上することが示された。

Few-shot relation extraction involves identifying the type of relationship between two specific entities within a text, using a limited number of annotated samples. A variety of solutions to this problem have emerged by applying meta-learning and neural graph techniques which typically necessitate a training process for adaptation. Recently, the strategy of in-context learning has been demonstrating notable results without the need of training. Few studies have already utilized in-context learning for zero-shot information extraction. Unfortunately, the evidence for inference is either not considered or implicitly modeled during the construction of chain-of-thought prompts. In this paper, we propose a novel approach for few-shot relation extraction using large language models, named CoT-ER, chain-of-thought with explicit evidence reasoning. In particular, CoT-ER first induces large language models to generate evidences using task-specific and concept-level knowledge. Then these evidences are explicitly incorporated into chain-of-thought prompting for relation extraction. Experimental results demonstrate that our CoT-ER approach (with 0% training data) achieves competitive performance compared to the fully-supervised (with 100% training data) state-of-the-art approach on the FewRel1.0 and FewRel2.0 datasets.
翻訳日:2023-11-13 15:45:40 公開日:2023-11-10
# ビンゴ摂食障害とブリミアとデジタル食品の相互作用の理解

Understanding How People with Binge Eating Disorder and Bulimia Interact with Digital Food Content ( http://arxiv.org/abs/2311.05920v1 )

ライセンス: Link先を確認
Ryuhaerang Choi, Subin Park, Sujin Han, Sung-Ju Lee(参考訳) 多くの研究は、オンラインコンテンツと無秩序な食事行動がどのように関連しているかを理解することに焦点を当てている。 しかし、食障害のある個人に対するデジタル食品コンテンツの影響を総合的に調査する研究は乏しい。 食事障害のある人を対象に, デジタル食品摂取の動機と実践を理解するため, 2回の調査(n=23, 22)を行った。 本研究は,摂食障害のある人は,デジタル食品メディアの症状を克服する効果を期待するが,実際には障害を悪化させることが多いことを明らかにした。 また、多くの個人が、デジタル食品の消費を辞めて戻るサイクルを経験していることも分かりました。 これらの結果に基づき,デジタル食品コンテンツおよびマルチメディアプラットフォームの設計上の意味を,日常的なオンラインプラットフォームインタラクションにおいて脆弱な個人を支援するために明確化する。

A large body of research has focused on understanding how online content and disordered eating behaviors are associated. However, there is a lack of comprehensive studies investigating digital food content's influence on individuals with eating disorders. We conducted two rounds of studies (N=23 and 22, respectively) with individuals with eating disorders to understand their motivations and practices of consuming digital food content. Our study reveals that individuals with eating disorders anticipate positive effects from digital food media to overcome their condition, but in practice, it often exacerbates their disorder. We also discovered that many individuals have experienced a cycle of quitting and returning to digital food content consumption. Based on these findings, we articulate design implications for digital food content and multimedia platforms to support individuals vulnerable in everyday online platform interactions.
翻訳日:2023-11-13 15:45:21 公開日:2023-11-10
# 室内シーン認識のための物体間識別グラフモデリング

Inter-object Discriminative Graph Modeling for Indoor Scene Recognition ( http://arxiv.org/abs/2311.05919v1 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li(参考訳) さまざまなシーンレイアウトや、シーン間のオブジェクトの共存によって、屋内シーン認識は依然として困難な課題となっている。 特徴表現の識別性を高めるために、シーン内でオブジェクト情報を活用することが、このドメインの重要なアプローチとして現れました。 現在、ほとんどのオブジェクトアシストメソッドは別々のブランチを使用してオブジェクト情報を処理する。 しかし、オブジェクト情報の中に隠された識別的知識を扱うために注意を払っているものはほとんどない。 本稿では,シーン特徴表現を強化するために識別対象知識を活用することを提案する。 まず,対象間の判別関係を確率論的視点から捉え,対象間識別プロトタイプ (iodp) へと変換する。 iodpからの豊富な事前知識を考慮し,画素レベルのシーン特徴をノードとして定義し,ノード特徴間の判別関係をエッジとして符号化する識別グラフネットワーク(dgn)を構築した。 dgnは、グラフ畳み込みを通じて対象間の識別知識を画像表現に組み込むことを目指している。 提案するiodpとdgnを用いて,広く使用されているシーンデータセットから最先端の結果を得るとともに,提案手法の有効性を示す。

Variable scene layouts and coexisting objects across scenes make indoor scene recognition still a challenging task. Leveraging object information within scenes to enhance the distinguishability of feature representations has emerged as a key approach in this domain. Currently, most object-assisted methods use a separate branch to process object information, combining object and scene features heuristically. However, few of them pay attention to interpretably handle the hidden discriminative knowledge within object information. In this paper, we propose to leverage discriminative object knowledge to enhance scene feature representations. Initially, we capture the object-scene discriminative relationships from a probabilistic perspective, which are transformed into an Inter-Object Discriminative Prototype (IODP). Given the abundant prior knowledge from IODP, we subsequently construct a Discriminative Graph Network (DGN), in which pixel-level scene features are defined as nodes and the discriminative relationships between node features are encoded as edges. DGN aims to incorporate inter-object discriminative knowledge into the image representation through graph convolution. With the proposed IODP and DGN, we obtain state-of-the-art results on several widely used scene datasets, demonstrating the effectiveness of the proposed approach.
翻訳日:2023-11-13 15:45:05 公開日:2023-11-10
# フェイクアライメント:LLMは本当にアライメントが良いのか?

Fake Alignment: Are LLMs Really Aligned Well? ( http://arxiv.org/abs/2311.05915v1 )

ライセンス: Link先を確認
Yixu Wang, Yan Teng, Kexin Huang, Chengqi Lyu, Songyang Zhang, Wenwei Zhang, Xingjun Ma, Yingchun Wang(参考訳) 大規模言語モデル(LLM)における安全性に対する意識の高まりは、現在の研究成果における安全性評価に大きな関心を喚起している。 本研究は,LLMの評価に係わる興味深い問題,すなわち,複数質問とオープンエンド質問の相違点について考察する。 脱獄攻撃パターンの研究に触発されて、これは不一致の一般化によって引き起こされると主張している。 すなわち、LLMは、複雑な安全性の概念を包括的に理解していない。 その代わり、オープンエンドの安全問題に対して何に答えるべきかしか覚えていないため、他のタイプの安全テストは解決できない。 この現象を偽アライメントと呼び、LLMにおけるその存在を実証的に検証するための比較ベンチマークを構築する。 このような偽アライメントは、以前の評価プロトコルを信頼できないものにする。 そこで本研究では,faefフレームワークと2つの新しいメトリクス\textemdash一貫性スコア (cs) と一貫性安全性スコア (css) について紹介する。 広く使用されている14のllmにfaefを適用すると、安全性が不十分なモデルがいくつかあることが分かる。 我々の研究は、普及するアライメント方法論の潜在的な限界を強調している。

The growing awareness of safety concerns in large language models (LLMs) has sparked considerable interest in the evaluation of safety within current research endeavors. This study investigates an interesting issue pertaining to the evaluation of LLMs, namely the substantial discrepancy in performance between multiple-choice questions and open-ended questions. Inspired by research on jailbreak attack patterns, we argue this is caused by mismatched generalization. That is, the LLM does not have a comprehensive understanding of the complex concept of safety. Instead, it only remembers what to answer for open-ended safety questions, which makes it unable to solve other forms of safety tests. We refer to this phenomenon as fake alignment and construct a comparative benchmark to empirically verify its existence in LLMs. Such fake alignment renders previous evaluation protocols unreliable. To address this, we introduce the FAEF framework and two novel metrics\textemdash Consistency Score (CS) and Consistent Safety Score (CSS), which jointly assess two complementary forms of evaluation to quantify fake alignment and obtain corrected performance estimates. Applying FAEF to 14 widely-used LLMs reveals several models with purported safety are poorly aligned in practice. Our work highlights potential limitations in prevailing alignment methodologies.
翻訳日:2023-11-13 15:44:45 公開日:2023-11-10
# ニューラルネットワークモデルにおける one-hot encoding の代替法

An alternative for one-hot encoding in neural network models ( http://arxiv.org/abs/2311.05911v1 )

ライセンス: Link先を確認
Lazar Zlati\'c(参考訳) This paper proposes an algorithm that implements binary encoding of the categorical features of neural network model input data, while also implementing changes in the forward and backpropagation procedures in order to achieve the property of having model weight changes, that result from the neural network learning process for certain data instances of some feature category, only affect the forward pass calculations for input data instances of that same feature category, as it is in the case of utilising one-hot encoding for categorical features.

This paper proposes an algorithm that implements binary encoding of the categorical features of neural network model input data, while also implementing changes in the forward and backpropagation procedures in order to achieve the property of having model weight changes, that result from the neural network learning process for certain data instances of some feature category, only affect the forward pass calculations for input data instances of that same feature category, as it is in the case of utilising one-hot encoding for categorical features.
翻訳日:2023-11-13 15:44:21 公開日:2023-11-10
# FlashFFTConv: テンソルコアによる長いシーケンスの効率的な畳み込み

FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor Cores ( http://arxiv.org/abs/2311.05908v1 )

ライセンス: Link先を確認
Daniel Y. Fu, Hermann Kumbong, Eric Nguyen, Christopher R\'e(参考訳) 長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示しているが、ウォールクロック時間において最も最適化されたトランスフォーマーよりも遅れている。 A major bottleneck is the Fast Fourier Transform (FFT)--which allows long convolutions to run in $O(N logN)$ time in sequence length $N$ but has poor hardware utilization. In this paper, we study how to optimize the FFT convolution. We find two key bottlenecks: the FFT does not effectively use specialized matrix multiply units, and it incurs expensive I/O between layers of the memory hierarchy. In response, we propose FlashFFTConv. FlashFFTConv uses a matrix decomposition that computes the FFT using matrix multiply units and enables kernel fusion for long sequences, reducing I/O. We also present two sparse convolution algorithms--1) partial convolutions and 2) 周波数スパース畳み込みは,行列分解のブロックをスキップするだけで実現でき,メモリと計算の節約が可能となる。 FlashFFTConvは、PyTorch上でFFTの正確な畳み込みを最大7.93$\times$でスピードアップし、最大4.4$\times$エンドツーエンドをスピードアップする。 同じ計算予算で、FlashFFTConvはHyena-GPT-sがPILEとM2-BERTベースで2.3ポイント、GLUEスコアマッチングモデルが3.3ポイント向上し、パラメータ数が2倍になった。 また、FlashFFTConvはPth-512で96.1%の精度を達成している。 さらに、部分的な畳み込みにより、より長いシーケンスモデル、すなわち、最も長いヒト遺伝子(2.3M塩基対)を処理できる最初のDNAモデルが得られる。

Convolution models with long filters have demonstrated state-of-the-art reasoning abilities in many long-sequence tasks but lag behind the most optimized Transformers in wall-clock time. A major bottleneck is the Fast Fourier Transform (FFT)--which allows long convolutions to run in $O(N logN)$ time in sequence length $N$ but has poor hardware utilization. In this paper, we study how to optimize the FFT convolution. We find two key bottlenecks: the FFT does not effectively use specialized matrix multiply units, and it incurs expensive I/O between layers of the memory hierarchy. In response, we propose FlashFFTConv. FlashFFTConv uses a matrix decomposition that computes the FFT using matrix multiply units and enables kernel fusion for long sequences, reducing I/O. We also present two sparse convolution algorithms--1) partial convolutions and 2) frequency-sparse convolutions--which can be implemented simply by skipping blocks in the matrix decomposition, enabling further opportunities for memory and compute savings. FlashFFTConv speeds up exact FFT convolutions by up to 7.93$\times$ over PyTorch and achieves up to 4.4$\times$ speedup end-to-end. Given the same compute budget, FlashFFTConv allows Hyena-GPT-s to achieve 2.3 points better perplexity on the PILE and M2-BERT-base to achieve 3.3 points higher GLUE score--matching models with twice the parameter count. FlashFFTConv also achieves 96.1% accuracy on Path-512, a high-resolution vision task where no model had previously achieved better than 50%. Furthermore, partial convolutions enable longer-sequence models--yielding the first DNA model that can process the longest human genes (2.3M base pairs)--and frequency-sparse convolutions speed up pretrained models while maintaining or improving model quality.
翻訳日:2023-11-13 15:44:16 公開日:2023-11-10
# 異種冷間結合原子配列における原子励起トラップ

Atomic excitation trapping in dissimilar chirally-coupled atomic arrays ( http://arxiv.org/abs/2311.05906v1 )

ライセンス: Link先を確認
I Gusti Ngurah Yudi Handayana, Chun-Chi Wu, Sumit Goswami, Ying-Cheng Chen, H. H. Jen(参考訳) 1次元のナノフォトニック導波管に結合された原子配列は、光子を介する双極子-双極子相互作用と非相互減衰チャネルを許容する。 この原子導波路量子システムにおいて、原子励起ダイナミクスとその輸送特性、特に粒子間距離が異なる異種原子配列の界面について理論的に研究する。 原子励起ダイナミクスは異種配列の粒子間距離と非相反結合の方向性に大きく依存していることがわかった。 これらのパラメータをチューニングすることで、配列のインターフェイスで支配的な励起反射を実現することができる。 さらに、外部駆動の輸送特性と複数の原子上の単一励起非局在化に対する2つの効果について検討し、輸送特性を決定する際、多点励起と相対位相との相互作用を明らかにした。 最後に、異なる配列の複数のゾーンを設計することで、原子励起の興味深いトラップ効果を示す。 この結果から, 量子情報処理に有用な量子レジスタの精細化と制御に関する非平衡量子力学の知見が得られる。

Atomic array coupled to a one-dimensional nanophotonic waveguide allows photon-mediated dipole-dipole interactions and nonreciprocal decay channels, which hosts many intriguing quantum phenomena owing to its distinctive and emergent quantum correlations. In this atom-waveguide quantum system, we theoretically investigate the atomic excitation dynamics and its transport property, specifically at an interface of dissimilar atomic arrays with different interparticle distances. We find that the atomic excitation dynamics hugely depends on the interparticle distances of dissimilar arrays and the directionality of nonreciprocal couplings. By tuning these parameters, a dominant excitation reflection can be achieved at the interface of the arrays. We further study two effects on the transport property-of external drive and of single excitation delocalization over multiple atoms, where we manifest a rich interplay between multi-site excitation and the relative phase in determining the transport properties. Finally, we present an intriguing trapping effect of atomic excitation by designing multiple zones of dissimilar arrays. Our results can provide insights to nonequilibrium quantum dynamics in dissimilar arrays and shed light on confining and controlling quantum registers useful for quantum information processing.
翻訳日:2023-11-13 15:43:43 公開日:2023-11-10
# 非専門LLMユーザのための微調整・検索・拡張・ソフトプロンピングにおけるパフォーマンスベースラインの確立

Establishing Performance Baselines in Fine-Tuning, Retrieval-Augmented Generation and Soft-Prompting for Non-Specialist LLM Users ( http://arxiv.org/abs/2311.05903v1 )

ライセンス: Link先を確認
Jennifer Dodgson, Lin Nanzheng, Julian Peh, Akira Rafhael Janson Pattirane, Alfath Daryl Alhajir, Eko Ridho Dinarto, Joseph Lim, Syed Danyal Ahmad(参考訳) 小型言語モデル(llm)の性能向上のための細かなチューニング、検索型生成(rag)、ソフトプロパンティングによる手法の研究は、高度に技術的または高コストな技術の使用に焦点をあてる傾向にあり、新しく発見されたアプローチの多くは、非技術ユーザに対して比較的アクセス不能である。 本稿では,GPT 3.5の修正されていないバージョン,微調整されたバージョン,およびベクトル化RAGデータベースへのアクセスを分離した上で,基本的でないソフトプロンプトと組み合わせて検討した。 それぞれのケースで、2021年9月以降(GPT 3.5のトレーニングデータセットが終了する時点)に主に発生したイベントに関連する100の質問に答えるモデルの能力をテストしました。 市販のプラットフォームを使用して,出力のベースラインセットを確立するために,デフォルト設定をイテレーションなしで適用した場合,微調整モデルの方がGPT 3.5 Turboより優れ,RAGアプローチはどちらも優れることがわかった。 ソフトプロンプトの適用は、各アプローチのパフォーマンスを大幅に改善した。

Research into methods for improving the performance of large language models (LLMs) through fine-tuning, retrieval-augmented generation (RAG) and soft-prompting has tended to focus on the use of highly technical or high-cost techniques, making many of the newly discovered approaches comparatively inaccessible to non-technical users. In this paper we tested an unmodified version of GPT 3.5, a fine-tuned version, and the same unmodified model when given access to a vectorised RAG database, both in isolation and in combination with a basic, non-algorithmic soft prompt. In each case we tested the model's ability to answer a set of 100 questions relating primarily to events that occurred after September 2021 (the point at which GPT 3.5's training data set ends). We found that if commercial platforms are used and default settings are applied with no iteration in order to establish a baseline set of outputs, a fine-tuned model outperforms GPT 3.5 Turbo, while the RAG approach out-performed both. The application of a soft prompt significantly improved the performance of each approach.
翻訳日:2023-11-13 15:43:23 公開日:2023-11-10
# 学術的法律記事の引用推薦

Citation Recommendation on Scholarly Legal Articles ( http://arxiv.org/abs/2311.05902v1 )

ライセンス: Link先を確認
Do\u{g}ukan Arslan, Saadet Sena Erdo\u{g}an and G\"ul\c{s}en Eryi\u{g}it(参考訳) 引用推薦は、与えられたテキストに基づいて適切な引用を見つけるタスクである。 このタスクのために提案されたデータセットは、主にいくつかの科学分野で構成され、法のような中核的な分野が欠如している。 さらに、引用勧告は法的領域内で、非学術的法的記事を利用して、支持する議論を特定するために使用される。 既存の研究の限界を緩和するために,引用推薦作業のための最初の学術的法的データセットを収集する。 また,最先端モデルを用いて実験を行い,このデータセットでの性能を比較する。 この研究は、BM25は法的引用推薦タスクの強力なベンチマークであるが、最も効果的な方法は、BM25+で事前フェッチを行う2段階のプロセスを実装し、SciNCLで再ランク付けし、ベースラインの性能を0.26から0.30 MAP@10に向上させることを示唆している。 さらに、微調整により事前学習モデルの性能が著しく向上し、これらのモデルのトレーニングデータに法的項目を含めることの重要性が示されている。

Citation recommendation is the task of finding appropriate citations based on a given piece of text. The proposed datasets for this task consist mainly of several scientific fields, lacking some core ones, such as law. Furthermore, citation recommendation is used within the legal domain to identify supporting arguments, utilizing non-scholarly legal articles. In order to alleviate the limitations of existing studies, we gather the first scholarly legal dataset for the task of citation recommendation. Also, we conduct experiments with state-of-the-art models and compare their performance on this dataset. The study suggests that, while BM25 is a strong benchmark for the legal citation recommendation task, the most effective method involves implementing a two-step process that entails pre-fetching with BM25+, followed by re-ranking with SciNCL, which enhances the performance of the baseline from 0.26 to 0.30 MAP@10. Moreover, fine-tuning leads to considerable performance increases in pre-trained models, which shows the importance of including legal articles in the training data of these models.
翻訳日:2023-11-13 15:43:00 公開日:2023-11-10
# 一次元実時間量子力学のためのダイヤモンド型量子回路

Diamond-shaped quantum circuit for real-time quantum dynamics in one dimension ( http://arxiv.org/abs/2311.05900v1 )

ライセンス: Link先を確認
S. Miyakoshi, T. Sugimoto, T. Shirakawa, S. Yunoki and H. Ueda(参考訳) 近年、量子コンピューティングはエキサイティングなフロンティアとして発展し、量子多体状態を表す量子回路を構築するための多くのアルゴリズムが開発された。 しかし、この領域は初期段階にあり、量子回路内の高エンタングル量子状態の効果的な構成をより理解するためにさらなる改良が必要である。 ここでは、量子多体状態が多量子ビットゲートからなる量子回路を用いて普遍的に表現できることを実証する。 さらに,横磁場イジングモデルのクエンチダイナミクスにおける2量子ビットゲートを用いた量子回路の効率評価を行った。 この特定のモデルでは、初期状態は古典的であり、絡み合いがないにもかかわらず、長い時間進化し、最終的に高絡み合いの量子状態となる。 その結果,多量子ビットゲート型量子回路を近似するダイヤモンド形状の量子回路は,システムの長時間ダイナミクスを正確に表現するのに優れていることがわかった。 さらに、ダイヤモンド形回路は、絡み合いエントロピーにおける体積則挙動に従い、2量子ビットゲートを用いた代替量子回路構成よりも大きな利点がある。

In recent years, quantum computing has evolved as an exciting frontier, with the development of numerous algorithms dedicated to constructing quantum circuits that adeptly represent quantum many-body states. However, this domain remains in its early stages and requires further refinement to understand better the effective construction of highly-entangled quantum states within quantum circuits. Here, we demonstrate that quantum many-body states can be universally represented using a quantum circuit comprising multi-qubit gates. Furthermore, we evaluate the efficiency of a quantum circuit constructed with two-qubit gates in quench dynamics for the transverse-field Ising model. In this specific model, despite the initial state being classical without entanglement, it undergoes long-time evolution, eventually leading to a highly-entangled quantum state. Our results reveal that a diamond-shaped quantum circuit, designed to approximate the multi-qubit gate-based quantum circuit, remarkably excels in accurately representing the long-time dynamics of the system. Moreover, the diamond-shaped circuit follows the volume law behavior in entanglement entropy, offering a significant advantage over alternative quantum circuit constructions employing two-qubit gates.
翻訳日:2023-11-13 15:42:42 公開日:2023-11-10
# 実空間再正規化群からみた2次元と3次元の相違

Essential difference between 2D and 3D from the perspective of real-space renormalization group ( http://arxiv.org/abs/2311.05891v1 )

ライセンス: Link先を確認
Xinliang Lyu and Naoki Kawashima(参考訳) 量子情報概念の領域法則は、ブロック変換の制限と、より優れた rg スキームの設計を導く実空間再正規化群 (rg) マップを示していることを指摘した。 相互情報領域法則は、ブロックの境界上のスピン間の短スケール相関の増大による2次元(2D)以上のカダノフのブロックスピン法の難しさを示唆している。 テンソル・ネットワークのRGへの跳躍は、相互情報のガイダンスに従い、2Dの量子的視点と古典的視点の混合と2Dの絡み合いエントロピーの飽和のおかげで、2Dで効率的である。 しかし、3次元(3D)では、絡み合いは領域法則に従って増大し、3次元ブロックテンソル写像はアプティブRG変換として脅威となる。 数値的な証拠として、3次元イジング臨界指数の推定は、より多くの結合を維持することによって改善しないことを示す。 提案手法は,3次元エンタングルメント-エントロピー領域法則を捉えるために,テンソルネットワークトイモデルを提案する。

We point out that area laws of quantum-information concepts indicate limitations of block transformations as well-behaved real-space renormalization group (RG) maps, which in turn guides the design of better RG schemes. Mutual-information area laws imply the difficulty of Kadanoff's block-spin method in two dimensions (2D) or higher due to the growth of short-scale correlations among the spins on the boundary of a block. A leap to the tensor-network RG, in hindsight, follows the guidance of mutual information and is efficient in 2D, thanks to its mixture of quantum and classical perspectives and the saturation of entanglement entropy in 2D. In three dimensions (3D), however, entanglement grows according to the area law, posing a threat to 3D block-tensor map as an apt RG transformation. As a numerical evidence, we show that estimations of 3D Ising critical exponents fail to improve by retaining more couplings. As a guidance to proceed, a tensor-network toy model is proposed to capture the 3D entanglement-entropy area law.
翻訳日:2023-11-13 15:42:23 公開日:2023-11-10
# 拡散モデルを用いた無線カプセル内視鏡画像のセマンティックマップガイド合成

Semantic Map Guided Synthesis of Wireless Capsule Endoscopy Images using Diffusion Models ( http://arxiv.org/abs/2311.05889v1 )

ライセンス: Link先を確認
Haejin Lee, Jeongwoo Ju, Jonghyuck Lee, Yeoun Joo Lee, Heechul Jung(参考訳) ワイヤレスカプセル内視鏡(Wireless capsule endoscopy, WCE)は, 消化器疾患の診断に不可欠な消化管の非侵襲的可視化法である。 しかし、wceの結果の解釈には時間がかかる。 既存の研究では、深層ニューラルネットワーク(dnn)を使用して自動的に血管病変を検出するが、特にプライバシー上の懸念から十分なトレーニング例を取得することは依然として課題である。 パブリックなWCEデータベースには多様性と量がない。 そこで本研究では,生成モデル,特に拡散モデル(DM)を利用して,多様なWCE画像を生成する手法を提案する。 本モデルは可視化スケール(vs)エンジンから得られたセマンティックマップを取り入れ,生成画像の制御性と多様性を高める。 我々は,視覚検査と視覚チューリングテストを用いてアプローチを評価し,現実的で多様なWCE画像を生成する上での有効性を実証した。

Wireless capsule endoscopy (WCE) is a non-invasive method for visualizing the gastrointestinal (GI) tract, crucial for diagnosing GI tract diseases. However, interpreting WCE results can be time-consuming and tiring. Existing studies have employed deep neural networks (DNNs) for automatic GI tract lesion detection, but acquiring sufficient training examples, particularly due to privacy concerns, remains a challenge. Public WCE databases lack diversity and quantity. To address this, we propose a novel approach leveraging generative models, specifically the diffusion model (DM), for generating diverse WCE images. Our model incorporates semantic map resulted from visualization scale (VS) engine, enhancing the controllability and diversity of generated images. We evaluate our approach using visual inspection and visual Turing tests, demonstrating its effectiveness in generating realistic and diverse WCE images.
翻訳日:2023-11-13 15:42:01 公開日:2023-11-10
# 低マルチランク高次ベイズロバストテンソル因子分解

Low-Multi-Rank High-Order Bayesian Robust Tensor Factorization ( http://arxiv.org/abs/2311.05888v1 )

ライセンス: Link先を確認
Jianan Liu and Chunguang Li(参考訳) 最近提案されたテンソル特異値分解(t-SVD)に基づくテンソルロバスト主成分分析(TRPCA)法は多くの分野で成功している。 しかし、これらの手法のほとんどは3階テンソルにしか適用できないが、実際には4階カラービデオ、4階ハイパースペクトルビデオ、および5階ライトフィールド画像などの高階で取得されることが多い。 さらに、t-SVDフレームワークでは、テンソルのマルチランクは、テンソル内のよりきめ細かい低ランク構造を記述することができる。 しかし、テンソルの多重ランクを決定することは、管状ランクを決定するよりもはるかに難しい問題である。 さらに、既存のTRPCA法の多くはスパースノイズ以外のノイズを明示的にモデル化していないため、低ランクテンソルの推定精度を損なう可能性がある。 本研究では, ベイジアンフレームワーク内で, 低マルチランク高次ベイジアンロバストテンソル因子分解 (lmh-brtf) と呼ばれる新しい高次trpca法を提案する。 具体的には, 観測された崩壊テンソルを, 低ランク成分, スパース成分, ノイズ成分の3成分に分解する。 注文$d$ t-SVDに基づいてローランクコンポーネントのローランクモデルを構築し、モデルに適切な事前設定を導入することで、LMH-BRTFはテンソルのマルチランクを自動的に決定できる。 一方、スパース成分とノイズ成分の両方の明示的なモデリングにより、提案手法はノイズからの情報をより効果的に活用することができ、TRPCAの性能が向上する。 そして、パラメータ推定のために効率的な変分推論アルゴリズムを確立する。 合成および実世界のデータセットに関する実証的研究は、定性的および定量的な結果の両方の観点から提案手法の有効性を示す。

The recently proposed tensor robust principal component analysis (TRPCA) methods based on tensor singular value decomposition (t-SVD) have achieved numerous successes in many fields. However, most of these methods are only applicable to third-order tensors, whereas the data obtained in practice are often of higher order, such as fourth-order color videos, fourth-order hyperspectral videos, and fifth-order light-field images. Additionally, in the t-SVD framework, the multi-rank of a tensor can describe more fine-grained low-rank structure in the tensor compared with the tubal rank. However, determining the multi-rank of a tensor is a much more difficult problem than determining the tubal rank. Moreover, most of the existing TRPCA methods do not explicitly model the noises except the sparse noise, which may compromise the accuracy of estimating the low-rank tensor. In this work, we propose a novel high-order TRPCA method, named as Low-Multi-rank High-order Bayesian Robust Tensor Factorization (LMH-BRTF), within the Bayesian framework. Specifically, we decompose the observed corrupted tensor into three parts, i.e., the low-rank component, the sparse component, and the noise component. By constructing a low-rank model for the low-rank component based on the order-$d$ t-SVD and introducing a proper prior for the model, LMH-BRTF can automatically determine the tensor multi-rank. Meanwhile, benefiting from the explicit modeling of both the sparse and noise components, the proposed method can leverage information from the noises more effectivly, leading to an improved performance of TRPCA. Then, an efficient variational inference algorithm is established for parameters estimation. Empirical studies on synthetic and real-world datasets demonstrate the effectiveness of the proposed method in terms of both qualitative and quantitative results.
翻訳日:2023-11-13 15:41:46 公開日:2023-11-10
# Hiformer: Recommenderシステムのためのトランスフォーマーを用いた異種特徴相互作用学習

Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems ( http://arxiv.org/abs/2311.05884v1 )

ライセンス: Link先を確認
Huan Gui, Ruoxi Wang, Ke Yin, Long Jin, Maciej Kula, Taibai Xu, Lichan Hong, Ed H. Chi(参考訳) 機能インタラクションの学習は、レコメンダシステム構築における重要なバックボーンである。 ウェブスケールのアプリケーションでは、スパースで大規模な入力機能空間のため、学習機能相互作用は極めて困難であり、一方、指数的解空間のため、効果的な機能相互作用を手作業で作成することは不可能である。 本稿では,注目層を持つトランスフォーマティブベースのアーキテクチャを活用して,特徴的インタラクションを自動的にキャプチャする手法を提案する。 トランスフォーマーアーキテクチャは自然言語処理やコンピュータビジョンなど、多くの領域で大きな成功を収めている。 しかし、産業における特徴的相互作用モデリングにトランスフォーマティブアーキテクチャがあまり採用されていない。 私たちはそのギャップを縮めることを目指している。 我々は,webスケールのレコメンダシステムにバニラトランスアーキテクチャを適用する上で,(1)トランスフォーマアーキテクチャがセルフアテンション層における異種特徴の相互作用を捉えられなかったこと,(2)トランスフォーマアーキテクチャのサービス遅延がwebスケールレコメンダシステムにデプロイするには高すぎる可能性があること,の2つの重要な課題を明らかにする。 まず, 特徴的相互作用の多様性を考慮し, トランスフォーマの自己付着層をシンプルかつ効果的に修正する不均一な自己付着層を提案する。 次に、モデル表現性を改善するために、 \textsc{Hiformer} (\textbf{H}eterogeneous \textbf{I}nteraction Trans\textbf{former})を導入する。 低ランク近似とモデルプルーニングにより、 \hiformerはオンラインデプロイメントの迅速な推論を享受できる。 大規模なオフライン実験の結果は、textsc{Hiformer} モデルの有効性と効率を裏付けるものである。 Google Playのアプリケーションランキングモデルでは,‘textsc{Hiformer}モデルが実世界の大規模にデプロイされ,キーエンゲージメントの指標(+2.66\%まで)が大幅に向上しました。

Learning feature interaction is the critical backbone to building recommender systems. In web-scale applications, learning feature interaction is extremely challenging due to the sparse and large input feature space; meanwhile, manually crafting effective feature interactions is infeasible because of the exponential solution space. We propose to leverage a Transformer-based architecture with attention layers to automatically capture feature interactions. Transformer architectures have witnessed great success in many domains, such as natural language processing and computer vision. However, there has not been much adoption of Transformer architecture for feature interaction modeling in industry. We aim at closing the gap. We identify two key challenges for applying the vanilla Transformer architecture to web-scale recommender systems: (1) Transformer architecture fails to capture the heterogeneous feature interactions in the self-attention layer; (2) The serving latency of Transformer architecture might be too high to be deployed in web-scale recommender systems. We first propose a heterogeneous self-attention layer, which is a simple yet effective modification to the self-attention layer in Transformer, to take into account the heterogeneity of feature interactions. We then introduce \textsc{Hiformer} (\textbf{H}eterogeneous \textbf{I}nteraction Trans\textbf{former}) to further improve the model expressiveness. With low-rank approximation and model pruning, \hiformer enjoys fast inference for online deployment. Extensive offline experiment results corroborates the effectiveness and efficiency of the \textsc{Hiformer} model. We have successfully deployed the \textsc{Hiformer} model to a real world large scale App ranking model at Google Play, with significant improvement in key engagement metrics (up to +2.66\%).
翻訳日:2023-11-13 15:41:16 公開日:2023-11-10
# 定量蒸留:資源制約環境におけるドライバアクティビティ認識モデル最適化

Quantized Distillation: Optimizing Driver Activity Recognition Models for Resource-Constrained Environments ( http://arxiv.org/abs/2311.05970v1 )

ライセンス: Link先を確認
Calvin Tanama, Kunyu Peng, Zdravko Marinov, Rainer Stiefelhagen, and Alina Roitberg(参考訳) ディープラーニングベースのモデルは、目覚ましい精度のため、ほとんどのドライバー観察ベンチマークの最前線にあるが、高い計算コストも伴っている。 リソースは現実の運転シナリオで制限されることが多いため、これは難しい。 本稿では,資源効率のよいドライバアクティビティ認識のための軽量フレームワークを提案する。 このフレームワークは、モデル精度と計算効率のバランスをとるために、知識蒸留とモデル量子化を組み込むことにより、ビデオ分類のスピードに最適化された3d mobilenetを強化する。 知識蒸留は、オリジナルの真実データのみに頼るのではなく、より大きな教師モデル(I3D)からのソフトラベルを活用することで、モデルサイズを削減しつつ精度を維持するのに役立つ。 モデル量子化は、モデル重みとアクティベーションのためにより精度の低い整数を用いることで、メモリと計算の要求を大幅に削減する。 自動運転中の車両内監視のための公開データセットの広範なテストは、この新しいフレームワークがモデルサイズを3倍に削減し、推論時間を1.4倍改善したことを実証している。 この研究のコードはhttps://github.com/calvintanama/qd-driver-activity-recoで入手できる。

Deep learning-based models are at the forefront of most driver observation benchmarks due to their remarkable accuracies but are also associated with high computational costs. This is challenging, as resources are often limited in real-world driving scenarios. This paper introduces a lightweight framework for resource-efficient driver activity recognition. The framework enhances 3D MobileNet, a neural architecture optimized for speed in video classification, by incorporating knowledge distillation and model quantization to balance model accuracy and computational efficiency. Knowledge distillation helps maintain accuracy while reducing the model size by leveraging soft labels from a larger teacher model (I3D), instead of relying solely on original ground truth data. Model quantization significantly lowers memory and computation demands by using lower precision integers for model weights and activations. Extensive testing on a public dataset for in-vehicle monitoring during autonomous driving demonstrates that this new framework achieves a threefold reduction in model size and a 1.4-fold improvement in inference time, compared to an already optimized architecture. The code for this study is available at https://github.com/calvintanama/qd-driver-activity-reco.
翻訳日:2023-11-13 15:34:07 公開日:2023-11-10
# フーリエニューラル演算子を用いたプラズマサーロゲートモデリング

Plasma Surrogate Modelling using Fourier Neural Operators ( http://arxiv.org/abs/2311.05967v1 )

ライセンス: Link先を確認
Vignesh Gopakumar, Stanislas Pamela, Lorenzo Zanisi, Zongyi Li, Ander Gray, Daniel Brennand, Nitesh Bhatia, Gregory Stathopoulos, Matt Kusner, Marc Peter Deisenroth, Anima Anandkumar, JOREK Team and MAST Team(参考訳) トカマク反応器内のプラズマ進化を予測することは、持続的核融合の目的を達成するために重要である。 プラズマの時空間的進化を迅速かつ正確に予測する能力は、現在のトカマク装置と将来の原子炉の設計と制御戦略を迅速に繰り返しることができる。 数値解法を用いてプラズマの進化をモデル化することは、しばしば高価であり、スーパーコンピュータで多くの時間を要する。 深層学習に基づく代理モデリングツールviz., Fourier Neural Operators (FNO) を用いて, シミュレーションと実験領域の両方でプラズマの進化の正確な予測を行う。 その結果、FNOは磁気流体力学モデルからシミュレーションされたプラズマ力学を予測し、高い精度(MSE$\approx$10^{-5}$)を維持しながら、従来の解法よりも6桁のスピードアップを示した。 我々の修正版FNOは多変数部分微分方程式(PDE)を解くことができ、異なる変数間の依存を単一のモデルで捉えることができる。 fnosはまた、マストトカマクにあるカメラ、すなわち中央ソレノイドとトカマクのダイバータを横切るカメラによって観察された実世界の実験データからプラズマの進化を予測することができる。 我々は,FNOがプラズマの進化を正確に予測し,リアルタイムモニタリングに利用することができることを示した。 また,プラズマ形状の予測,血漿と中心ソレノイドとの相互作用の場所,マスト内のプラズマショットの全期間のダイバータについて,その能力について述べる。 fnoは、トレーニングや推論が簡単で、データポイントが少なく、ゼロショットのスーパーレゾリューションと高精細度なソリューションを実現できるため、surrogateモデリングの有効な代替手段を提供する。

Predicting plasma evolution within a Tokamak reactor is crucial to realizing the goal of sustainable fusion. Capabilities in forecasting the spatio-temporal evolution of plasma rapidly and accurately allow us to quickly iterate over design and control strategies on current Tokamak devices and future reactors. Modelling plasma evolution using numerical solvers is often expensive, consuming many hours on supercomputers, and hence, we need alternative inexpensive surrogate models. We demonstrate accurate predictions of plasma evolution both in simulation and experimental domains using deep learning-based surrogate modelling tools, viz., Fourier Neural Operators (FNO). We show that FNO has a speedup of six orders of magnitude over traditional solvers in predicting the plasma dynamics simulated from magnetohydrodynamic models, while maintaining a high accuracy (MSE $\approx$ $10^{-5}$). Our modified version of the FNO is capable of solving multi-variable Partial Differential Equations (PDE), and can capture the dependence among the different variables in a single model. FNOs can also predict plasma evolution on real-world experimental data observed by the cameras positioned within the MAST Tokamak, i.e., cameras looking across the central solenoid and the divertor in the Tokamak. We show that FNOs are able to accurately forecast the evolution of plasma and have the potential to be deployed for real-time monitoring. We also illustrate their capability in forecasting the plasma shape, the locations of interactions of the plasma with the central solenoid and the divertor for the full duration of the plasma shot within MAST. The FNO offers a viable alternative for surrogate modelling as it is quick to train and infer, and requires fewer data points, while being able to do zero-shot super-resolution and getting high-fidelity solutions.
翻訳日:2023-11-13 15:33:47 公開日:2023-11-10
# 大きな言語モデルはゼロショット仮説の提案者です

Large Language Models are Zero Shot Hypothesis Proposers ( http://arxiv.org/abs/2311.05965v1 )

ライセンス: Link先を確認
Biqing Qi, Kaiyan Zhang, Haoxiang Li, Kai Tian, Sihang Zeng, Zhang-Ren Chen, Bowen Zhou(参考訳) 重要な科学的発見が人類文明の進展を促した。 科学文献やデータの爆発は、科学的な発見のペースを遅くする分野にまたがる情報障壁を生み出した。 大規模言語モデル(llm)は、これらの情報障壁を壊し、新たな科学的発見の波を育むことを約束する、グローバルかつ学際的な知識を豊富に持っている。 しかし、科学的な発見のためのLLMの可能性は公式には検討されていない。 本稿では,llmが科学的仮説を提案できるかどうかの検討から始める。 この目的のために,生物医学文献の背景知識と仮説ペアからなるデータセットを構築する。 データセットは、可視性を制御するために、公開日に基づいてトレーニング、見る、見えないテストセットに分割される。 その後,ゼロショット,少数ショット,微調整設定,クローズドおよびオープンソース llm を含む様々な最上位指示モデルの仮説生成能力を評価した。 さらに,様々なロールデザインと外部ツールを備えたllmベースのマルチエージェント協調フレームワークを導入し,仮説生成に関する能力を高める。 また,ChatGPTに基づく評価と人的評価の両方で生成された仮説を評価するために,総合的なレビューを通じて4つの指標を設計する。 実験と分析の結果,以下の結果が得られた。 1) LLMは, 実験文献から未学習で検証された仮説を驚くほど生成する。 2) 不確実性の増加は候補生成を促進し、ゼロショット仮説生成能力を高める可能性がある。 これらの知見は、新たな科学的発見の触媒としてLLMの可能性を強く支持し、さらなる探索を導く。

Significant scientific discoveries have driven the progress of human civilisation. The explosion of scientific literature and data has created information barriers across disciplines that have slowed the pace of scientific discovery. Large Language Models (LLMs) hold a wealth of global and interdisciplinary knowledge that promises to break down these information barriers and foster a new wave of scientific discovery. However, the potential of LLMs for scientific discovery has not been formally explored. In this paper, we start from investigating whether LLMs can propose scientific hypotheses. To this end, we construct a dataset consist of background knowledge and hypothesis pairs from biomedical literature. The dataset is divided into training, seen, and unseen test sets based on the publication date to control visibility. We subsequently evaluate the hypothesis generation capabilities of various top-tier instructed models in zero-shot, few-shot, and fine-tuning settings, including both closed and open-source LLMs. Additionally, we introduce an LLM-based multi-agent cooperative framework with different role designs and external tools to enhance the capabilities related to generating hypotheses. We also design four metrics through a comprehensive review to evaluate the generated hypotheses for both ChatGPT-based and human evaluations. Through experiments and analyses, we arrive at the following findings: 1) LLMs surprisingly generate untrained yet validated hypotheses from testing literature. 2) Increasing uncertainty facilitates candidate generation, potentially enhancing zero-shot hypothesis generation capabilities. These findings strongly support the potential of LLMs as catalysts for new scientific discoveries and guide further exploration.
翻訳日:2023-11-13 15:33:16 公開日:2023-11-10
# 時間非依存pdes解のためのマルチスケールニューラル演算子

Multiscale Neural Operators for Solving Time-Independent PDEs ( http://arxiv.org/abs/2311.05964v1 )

ライセンス: Link先を確認
Winfried Ripken, Lisa Coiffard, Felix Pieper, Sebastian Dziadzio(参考訳) 大規模メッシュ上の時間非依存部分微分方程式(PDE)は、データ駆動型ニューラルネットワークPDEソルバに重大な課題をもたらす。 本稿では,新しいグラフリワイリング手法を導入して,スケールや不規則なメッシュ上の情報を集約するなど,これらの課題に挑戦する。 提案手法は,遠隔ノードをブリッジし,GNNのグローバルなインタラクション能力を向上する。 3つのデータセットに対する実験により、GNNベースの手法が不規則メッシュ上での時間非依存PDEの性能基準を新たに設定していることが判明した。 最後に,我々のグラフリウィリング戦略がベースライン手法の性能を向上し,タスクの1つで最先端の結果が得られることを示す。

Time-independent Partial Differential Equations (PDEs) on large meshes pose significant challenges for data-driven neural PDE solvers. We introduce a novel graph rewiring technique to tackle some of these challenges, such as aggregating information across scales and on irregular meshes. Our proposed approach bridges distant nodes, enhancing the global interaction capabilities of GNNs. Our experiments on three datasets reveal that GNN-based methods set new performance standards for time-independent PDEs on irregular meshes. Finally, we show that our graph rewiring strategy boosts the performance of baseline methods, achieving state-of-the-art results in one of the tasks.
翻訳日:2023-11-13 15:32:56 公開日:2023-11-10
# 階層型ディープラーニングによるマルチスケールシミュレーションのための適応時間ステップ方式

Hierarchical deep learning-based adaptive time-stepping scheme for multiscale simulations ( http://arxiv.org/abs/2311.05961v1 )

ライセンス: Link先を確認
Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid Bazaz(参考訳) マルチスケールは複雑な非線形システムの特徴である。 古典的数値法を用いたシミュレーションは局所的 \textit{Taylor} 級数制約によって制限されるが、マルチスケール手法はヒューリスティック閉包を見つけることで制限されることが多い。 本研究では,ディープニューラルネットワークを用いたマルチスケール問題のシミュレーション手法を提案する。 ニューラルネットワークの時間ステップの階層的学習を活用し、時間スケールをまたいだ動的システムフローマップの近似に時間ステップを適用する。 このアプローチは、固定ステップニューラルネットワークソルバと比較して計算時間が少なくて最先端の性能を実現する。 提案手法は複数の非線形力学系上で実証され,実装のためのソースコードが提供される。 この手法は複雑なシステムのマルチスケール解析に有効であり、この分野のさらなる研究を促進する可能性がある。

Multiscale is a hallmark feature of complex nonlinear systems. While the simulation using the classical numerical methods is restricted by the local \textit{Taylor} series constraints, the multiscale techniques are often limited by finding heuristic closures. This study proposes a new method for simulating multiscale problems using deep neural networks. By leveraging the hierarchical learning of neural network time steppers, the method adapts time steps to approximate dynamical system flow maps across timescales. This approach achieves state-of-the-art performance in less computational time compared to fixed-step neural network solvers. The proposed method is demonstrated on several nonlinear dynamical systems, and source codes are provided for implementation. This method has the potential to benefit multiscale analysis of complex systems and encourage further investigation in this area.
翻訳日:2023-11-13 15:32:45 公開日:2023-11-10
# 両眼光度ステレオ問題に対するニューラルハイトマップアプローチ

A Neural Height-Map Approach for the Binocular Photometric Stereo Problem ( http://arxiv.org/abs/2311.05958v1 )

ライセンス: Link先を確認
Fotios Logothetis, Ignas Budvytis, Roberto Cipolla(参考訳) 本研究は,単視点PSと同等の取得速度を持つ新規で実用性の高い両眼測光ステレオ(PS)フレームワークを提案するが,推定幾何の質は著しく向上する。 近年のNeRF, SIREN, Inverse graphics approach to multi-view photometric stereo (例:PS-NeRF) のようなニューラル・マルチビュー形状推定フレームワークにおいて, 2つのビューの複数の異なる光画像から推定される正常な表面の正規差を最小化し, 表面強度と観察された画像との差を最小化することにより, 形状推定タスクを微分可能な表面とテクスチャ表現の学習として定式化する。 本手法は, 従来の多視点形状推定手法とは大きく異なる。 まず、表面は体積ではなく、深層ニューラルネットワークによって表面上の点の高さが計算されるニューラルハイプマップとして表現される。 第2に,PS-NeRFとしての平均強度を予測したり,Guoなどとしてランベルト的な物質仮定を導入する代わりに,学習したBRDFを用いて点強度のレンダリングを行う。 本手法は両眼立体装置に適応したDiLiGenT-MVデータセットの最先端性能と新しい両眼測光ステレオデータセットLUCES-STを実現する。

In this work we propose a novel, highly practical, binocular photometric stereo (PS) framework, which has same acquisition speed as single view PS, however significantly improves the quality of the estimated geometry. As in recent neural multi-view shape estimation frameworks such as NeRF, SIREN and inverse graphics approaches to multi-view photometric stereo (e.g. PS-NeRF) we formulate shape estimation task as learning of a differentiable surface and texture representation by minimising surface normal discrepancy for normals estimated from multiple varying light images for two views as well as discrepancy between rendered surface intensity and observed images. Our method differs from typical multi-view shape estimation approaches in two key ways. First, our surface is represented not as a volume but as a neural heightmap where heights of points on a surface are computed by a deep neural network. Second, instead of predicting an average intensity as PS-NeRF or introducing lambertian material assumptions as Guo et al., we use a learnt BRDF and perform near-field per point intensity rendering. Our method achieves the state-of-the-art performance on the DiLiGenT-MV dataset adapted to binocular stereo setup as well as a new binocular photometric stereo dataset - LUCES-ST.
翻訳日:2023-11-13 15:32:23 公開日:2023-11-10
# マルチモーダルレコメンデーションのためのコンテンツと構造の部分的特徴としてのID埋め込み

ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation ( http://arxiv.org/abs/2311.05956v1 )

ライセンス: Link先を確認
Yuting Liu, Enneng Yang, Yizhou Dang, Guibing Guo, Qiang Liu, Yuliang Liang, Linying Jiang, Xingwei Wang(参考訳) マルチモーダルレコメンデーションは,マルチメディアコンテンツの関与を包括的にモデル化し,効果的なレコメンデーションを実現することを目的としている。 既存の研究では、(ユーザとアイテムの)ID埋め込みとマルチモーダルな有能な特徴を組み合わせ、IDの価値を示すレコメンデーションパフォーマンスが有益であることが示されている。 しかし、文学における特徴的意味論の観点から、ID埋め込みの徹底的な分析が欠如している。 本稿では,マルチモーダル・レコメンデーションのためのid埋め込みの価値を再検討し,その意味論について徹底的な研究を行い,内容や構造の微妙な特徴として認識する。 次に,コンテンツと構造の両方の意味的特徴を高めるために,id埋め込みを組み込んだ新しいレコメンデーションモデルを提案する。 具体的には,id埋め込みをモダリティfusingに組み込む階層的注意機構と,コンテント表現の強化を目的としたコントラスト学習を行った。 一方,アマルガメート近傍へのモダリティと構造表現改善のためのID埋め込みのための軽量グラフ畳み込みネットワークを提案する。 最後に、コンテンツと構造表現を組み合わせることで、推奨のための究極の項目埋め込みを形成する。 実世界の3つのデータセット(Baby, Sports, Clothing)に対する大規模な実験により,最先端のマルチモーダルレコメンデーション手法よりも提案手法が優れていること,さらに詳細なID埋め込みの有効性が示された。

Multimodal recommendation aims to model user and item representations comprehensively with the involvement of multimedia content for effective recommendations. Existing research has shown that it is beneficial for recommendation performance to combine (user- and item-) ID embeddings with multimodal salient features, indicating the value of IDs. However, there is a lack of a thorough analysis of the ID embeddings in terms of feature semantics in the literature. In this paper, we revisit the value of ID embeddings for multimodal recommendation and conduct a thorough study regarding its semantics, which we recognize as subtle features of content and structures. Then, we propose a novel recommendation model by incorporating ID embeddings to enhance the semantic features of both content and structures. Specifically, we put forward a hierarchical attention mechanism to incorporate ID embeddings in modality fusing, coupled with contrastive learning, to enhance content representations. Meanwhile, we propose a lightweight graph convolutional network for each modality to amalgamate neighborhood and ID embeddings for improving structural representations. Finally, the content and structure representations are combined to form the ultimate item embedding for recommendation. Extensive experiments on three real-world datasets (Baby, Sports, and Clothing) demonstrate the superiority of our method over state-of-the-art multimodal recommendation methods and the effectiveness of fine-grained ID embeddings.
翻訳日:2023-11-13 15:31:45 公開日:2023-11-10
# 太陽光発電充電のための学習強化スケジューリング

Learning-Augmented Scheduling for Solar-Powered Electric Vehicle Charging ( http://arxiv.org/abs/2311.05941v1 )

ライセンス: Link先を確認
Tongxin Li(参考訳) 我々は、ソーラーパネルとバッテリーを搭載した電気自動車(ev)の充電をスケジューリングする複雑な課題に特にood(out-of-distribution)条件下で対処する。 強化学習(RL)やモデル予測制御(MPC)といった従来のスケジューリング手法では、OODデータに直面すると満足な結果が得られず、堅牢性と一貫性(最適平均性能に近い)のバランスがとれない場合が多い。 このギャップに対処するために,新しい学習指導方針を提案する。 この方針は動的堅牢性予算を採用しており、強化学習政策のパフォーマンスに基づいてリアルタイムで適応される。 具体的には、学習方針の予測精度の尺度である時間差(td)誤差を利用して、機械学習方針の信頼性を評価する。 この方法は、EV充電スケジュールにおける一貫性と堅牢性の間のより効果的なバランスを可能にし、現実の予測不可能な環境における適応性と効率を大幅に向上させる。 提案手法は,特にOODコンテキストにおけるスケジューリング効率と信頼性を著しく向上し,よりレジリエンスで適応的なEV充電システムの実現に寄与することを示す。

We tackle the complex challenge of scheduling the charging of electric vehicles (EVs) equipped with solar panels and batteries, particularly under out-of-distribution (OOD) conditions. Traditional scheduling approaches, such as reinforcement learning (RL) and model predictive control (MPC), often fail to provide satisfactory results when faced with OOD data, struggling to balance robustness (worst-case performance) and consistency (near-optimal average performance). To address this gap, we introduce a novel learning-augmented policy. This policy employs a dynamic robustness budget, which is adapted in real-time based on the reinforcement learning policy's performance. Specifically, it leverages the temporal difference (TD) error, a measure of the learning policy's prediction accuracy, to assess the trustworthiness of the machine-learned policy. This method allows for a more effective balance between consistency and robustness in EV charging schedules, significantly enhancing adaptability and efficiency in real-world, unpredictable environments. Our results demonstrate that this approach markedly improves scheduling effectiveness and reliability, particularly in OOD contexts, paving the way for more resilient and adaptive EV charging systems.
翻訳日:2023-11-13 15:31:03 公開日:2023-11-10
# 親選択機構と突然変異における深層強化学習による遺伝的アルゴリズム : 置換フローショップスケジューリング問題の最小化

Genetic Algorithm enhanced by Deep Reinforcement Learning in parent selection mechanism and mutation : Minimizing makespan in permutation flow shop scheduling problems ( http://arxiv.org/abs/2311.05937v1 )

ライセンス: Link先を確認
Maissa Irmouli, Nourelhouda Benazzoug, Alaa Dania Adimi, Fatma Zohra Rezkellah, Imane Hamzaoui, Thanina Hamitouche(参考訳) 本稿では,遺伝的アルゴリズム(GA)の設定と最適化に関わる課題に対処するための強化学習(RL)アプローチを提案する。 RL+GA法はフローショップスケジューリング問題(FSP)で特に試験された。 このハイブリッドアルゴリズムは、ニューラルネットワーク(NN)を組み込んでおり、親選択機構と突然変異の2つの主要な遺伝的アルゴリズム(GA)オペレータを制御するために、Qラーニング(Q-learning)法またはSarsa(0)法を用いる。 各世代において、RLエージェントの作用は、選択方法、親選択の確率、子孫突然変異の確率を決定することである。 これにより、RLエージェントは学習されたポリシーに基づいて選択と突然変異を動的に調整できる。 本研究の結果は,RL+GAアプローチがプリミティブGAの性能向上に有効であることを示す。 また、集団の多様性とソリューションの改善から学習し、適応する能力も示している。 この適応性は、進化過程を通じて集団の多様性を維持しつつ、静的パラメータの設定と比較してスケジューリングソリューションを改善する。

This paper introduces a reinforcement learning (RL) approach to address the challenges associated with configuring and optimizing genetic algorithms (GAs) for solving difficult combinatorial or non-linear problems. The proposed RL+GA method was specifically tested on the flow shop scheduling problem (FSP). The hybrid algorithm incorporates neural networks (NN) and uses the off-policy method Q-learning or the on-policy method Sarsa(0) to control two key genetic algorithm (GA) operators: parent selection mechanism and mutation. At each generation, the RL agent's action is determining the selection method, the probability of the parent selection and the probability of the offspring mutation. This allows the RL agent to dynamically adjust the selection and mutation based on its learned policy. The results of the study highlight the effectiveness of the RL+GA approach in improving the performance of the primitive GA. They also demonstrate its ability to learn and adapt from population diversity and solution improvements over time. This adaptability leads to improved scheduling solutions compared to static parameter configurations while maintaining population diversity throughout the evolutionary process.
翻訳日:2023-11-13 15:30:19 公開日:2023-11-10
# 一般化境界推定によるフェデレーション学習の集約重み付け

Aggregation Weighting of Federated Learning via Generalization Bound Estimation ( http://arxiv.org/abs/2311.05936v1 )

ライセンス: Link先を確認
Mingwei Xu, Xiaofeng Cao, Ivor W.Tsang, and James T.Kwok(参考訳) フェデレーション学習(fl)は通常、サンプル比率によって決定される重み付けアプローチを用いてクライアントモデルのパラメータを集約する。 しかし, この単純重み付け手法は, 統計的不均一性によるモデル性能の不公平さや劣化, クライアント間のノイズデータを含めることにつながる可能性がある。 理論上、分布ロバスト性解析により、任意のシフト分布に対する学習モデルの一般化性能が有界であることが示されている。 これにより、連合学習における重み付けアプローチを再考するモチベーションが生まれます。 本稿では,上記の重み付け手法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。 具体的には、現在の局所モデルにおけるシフト分布の2次原点の上下境界を推定し、各通信ラウンドにおける重み付けのアグリゲーション比としてこれらの境界不一致を用いる。 実験により,提案手法はベンチマークデータセット上でのいくつかの代表FLアルゴリズムの性能を大幅に向上させることが示された。

Federated Learning (FL) typically aggregates client model parameters using a weighting approach determined by sample proportions. However, this naive weighting method may lead to unfairness and degradation in model performance due to statistical heterogeneity and the inclusion of noisy data among clients. Theoretically, distributional robustness analysis has shown that the generalization performance of a learning model with respect to any shifted distribution is bounded. This motivates us to reconsider the weighting approach in federated learning. In this paper, we replace the aforementioned weighting method with a new strategy that considers the generalization bounds of each local model. Specifically, we estimate the upper and lower bounds of the second-order origin moment of the shifted distribution for the current local model, and then use these bounds disagreements as the aggregation proportions for weightings in each communication round. Experiments demonstrate that the proposed weighting strategy significantly improves the performance of several representative FL algorithms on benchmark datasets.
翻訳日:2023-11-13 15:29:56 公開日:2023-11-10
# 大規模量子プロセッサのパフォーマンスベンチマーク

Benchmarking Quantum Processor Performance at Scale ( http://arxiv.org/abs/2311.05933v1 )

ライセンス: Link先を確認
David C. McKay and Ian Hincks and Emily J. Pritchett and Malcolm Carroll and Luke C. G. Govia and Seth T. Merkel(参考訳) 量子プロセッサが成長するにつれて、デバイスの全品質を大規模に捉えるために、新しいパフォーマンスベンチマークが必要になる。 量子ボリュームは優れたベンチマークであるが、デバイスの最高品質サブセットに焦点を当てているため、多数の接続量子ビット上での平均性能を示すことはできない。 さらに、これは離散パス/フェイルであり、ハードウェアの継続的な改善を反映していないし、大規模アルゴリズムに定量的な方向を与えていない。 例えば、デバイスが厳密な量子ボリュームテストに合格できないようなスケールでの誤差軽減ハミルトンシミュレーションには価値があるかもしれない。 本稿では,同時直接ランダム化ベンチマークを用いて,ゲートエラーを計測することにより,n$ qubits 上の2量子ビットゲートの接続集合の忠実度を測定するスケーラブルなベンチマークについて述べる。 我々の層忠実度は、Refで定義された$\gamma$を介して、アルゴリズムの実行時間と容易に関連付けられる。 \cite{berg2022probabilistic} エラー緩和に必要な回路数を推定するために使用できる。 プロトコルは効率的で、階層構造における全てのペアレートを得る。 通常の(分離された)rbと比較して、このアプローチはcrosstalkに敏感である。 例えば、0.26(0.19)の127キュービットの固定結合型"Eagle"プロセッサと0.61(0.26)の133キュービットのチューナブル結合型"Heron"プロセッサ(ibm\_montecarlo)上で、$N=80~(100)$ qubit層の忠実度を測定する。 ibm\_sherbrookeは1.7\times10^{-2}(1.7\times10^{-2})$、ibm\_montecarloは6.2\times10^{-3}(1.2\times10^{-2})$である。

As quantum processors grow, new performance benchmarks are required to capture the full quality of the devices at scale. While quantum volume is an excellent benchmark, it focuses on the highest quality subset of the device and so is unable to indicate the average performance over a large number of connected qubits. Furthermore, it is a discrete pass/fail and so is not reflective of continuous improvements in hardware nor does it provide quantitative direction to large-scale algorithms. For example, there may be value in error mitigated Hamiltonian simulation at scale with devices unable to pass strict quantum volume tests. Here we discuss a scalable benchmark which measures the fidelity of a connecting set of two-qubit gates over $N$ qubits by measuring gate errors using simultaneous direct randomized benchmarking in disjoint layers. Our layer fidelity can be easily related to algorithmic run time, via $\gamma$ defined in Ref.\cite{berg2022probabilistic} that can be used to estimate the number of circuits required for error mitigation. The protocol is efficient and obtains all the pair rates in the layered structure. Compared to regular (isolated) RB this approach is sensitive to crosstalk. As an example we measure a $N=80~(100)$ qubit layer fidelity on a 127 qubit fixed-coupling "Eagle" processor (ibm\_sherbrooke) of 0.26(0.19) and on the 133 qubit tunable-coupling "Heron" processor (ibm\_montecarlo) of 0.61(0.26). This can easily be expressed as a layer size independent quantity, error per layered gate (EPLG), which is here $1.7\times10^{-2}(1.7\times10^{-2})$ for ibm\_sherbrooke and $6.2\times10^{-3}(1.2\times10^{-2})$ for ibm\_montecarlo.
翻訳日:2023-11-13 15:29:34 公開日:2023-11-10
# 早期ニューラルネットワークにおける不確実性推定のためのanytime-valid confidence sequence

Anytime-Valid Confidence Sequences for Consistent Uncertainty Estimation in Early-Exit Neural Networks ( http://arxiv.org/abs/2311.05931v1 )

ライセンス: Link先を確認
Metod Jazbec and Patrick Forr\'e and Stephan Mandt and Dan Zhang and Eric Nalisnick(参考訳) 早期排他ニューラルネットワーク(EENN)は、前方通過の複数の段階で予測を生成することで適応推論を促進する。 安全クリティカルなアプリケーションでは、これらの予測は信頼できる不確実性の推定を補完するときにのみ意味を持つ。 しかし、そのシーケンシャルな構造のため、eennの不確実性の推定も一貫性を持つべきである: 1つの出口で不可能であると考えられるラベルは、後の出口の信頼区間/セット内に再出現してはならない。 ベイズ法や共形予測法のような標準不確実性定量化手法は,出口間の不整合につながる可能性がある。 本稿では,EENNの出口にAVCS(time-valid confidence sequence)を適用することでこの問題に対処する。 設計上、AVCSは出口間の一貫性を維持している。 本稿では,AVCSをEENNに適用する理論的,実践的な課題について検討し,回帰タスクと分類タスクの両方に対するアプローチを実証的に検証する。

Early-exit neural networks (EENNs) facilitate adaptive inference by producing predictions at multiple stages of the forward pass. In safety-critical applications, these predictions are only meaningful when complemented with reliable uncertainty estimates. Yet, due to their sequential structure, an EENN's uncertainty estimates should also be consistent: labels that are deemed improbable at one exit should not reappear within the confidence interval / set of later exits. We show that standard uncertainty quantification techniques, like Bayesian methods or conformal prediction, can lead to inconsistency across exits. We address this problem by applying anytime-valid confidence sequences (AVCSs) to the exits of EENNs. By design, AVCSs maintain consistency across exits. We examine the theoretical and practical challenges of applying AVCSs to EENNs and empirically validate our approach on both regression and classification tasks.
翻訳日:2023-11-13 15:28:58 公開日:2023-11-10
# box-supervisedアプローチに基づく鉱石画像のテクスチャを用いた効率的なセグメンテーション

Efficient Segmentation with Texture in Ore Images Based on Box-supervised Approach ( http://arxiv.org/abs/2311.05929v1 )

ライセンス: Link先を確認
Guodong Sun and Delong Huang and Yuting Peng and Le Cheng and Bo Wu and Yang Zhang(参考訳) 破砕鉱石の粒度分布を決定するために, 画像分割法が用いられている。 複雑な作業環境のため、高出力コンピューティング機器の展開は困難である。 同時に、鉱石分布は積み重なり、完全な特徴を特定することは困難である。 この問題に対処するために,完全かつ独立した鉱石を識別可能な,テクスチャ機能を備えた効果的なボックス教師付き手法が,鉱石画像分割に提供される。 まず,ゴースト特徴ピラミッドネットワーク (ghost-fpn) の提案により,複雑なネットワークが生成する冗長な意味情報と計算量を削減するために,バックボーンから得られた特徴を処理する。 そして、精度を維持するために最適化された検出ヘッドを提案する。 最後に、ラベル色空間(Lab)と局所二分パターン(LBP)テクスチャ特徴を組み合わせることで、融合特徴類似性に基づく損失関数を形成し、損失を生じずに精度を向上する。 MS COCOの実験では、提案された融合機能は、他の種類のデータセットについても研究する価値があることが示されている。 21.6MBの小型モデルサイズで毎秒50フレーム以上を達成できる提案手法の有効性を実験的に実証した。 一方、この手法は、鉱石画像データセットの最先端アプローチと比較して高い精度を維持している。 ソースコードは \url{https://github.com/MVME-HBUT/OREINST} で入手できる。

Image segmentation methods have been utilized to determine the particle size distribution of crushed ores. Due to the complex working environment, high-powered computing equipment is difficult to deploy. At the same time, the ore distribution is stacked, and it is difficult to identify the complete features. To address this issue, an effective box-supervised technique with texture features is provided for ore image segmentation that can identify complete and independent ores. Firstly, a ghost feature pyramid network (Ghost-FPN) is proposed to process the features obtained from the backbone to reduce redundant semantic information and computation generated by complex networks. Then, an optimized detection head is proposed to obtain the feature to maintain accuracy. Finally, Lab color space (Lab) and local binary patterns (LBP) texture features are combined to form a fusion feature similarity-based loss function to improve accuracy while incurring no loss. Experiments on MS COCO have shown that the proposed fusion features are also worth studying on other types of datasets. Extensive experimental results demonstrate the effectiveness of the proposed method, which achieves over 50 frames per second with a small model size of 21.6 MB. Meanwhile, the method maintains a high level of accuracy compared with the state-of-the-art approaches on ore image dataset. The source code is available at \url{https://github.com/MVME-HBUT/OREINST}.
翻訳日:2023-11-13 15:28:43 公開日:2023-11-10
# 学習の形状:変圧器モデルにおける異方性と内在次元

The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models ( http://arxiv.org/abs/2311.05928v1 )

ライセンス: Link先を確認
Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov(参考訳) 本研究では,エンコーダとデコーダの分離に着目し,トランスフォーマアーキテクチャにおける組込みの異方性ダイナミクスと固有次元について検討する。 その結果,変圧器デコーダの異方性プロファイルはベル形状曲線を示し,中間層で最も異方性が高いことがわかった。 このパターンはエンコーダで観測されるより均一に分布する異方性から分岐する。 さらに, 組込みの固有次元はトレーニングの初期段階において増加し, 高次元空間への展開を示すことがわかった。 その後、次元が減少する訓練の終わりに圧縮フェーズが続き、よりコンパクトな表現への洗練が示唆される。 その結果,エンコーダとデコーダの埋め込み特性の理解に新たな知見が得られた。

In this study, we present an investigation into the anisotropy dynamics and intrinsic dimension of embeddings in transformer architectures, focusing on the dichotomy between encoders and decoders. Our findings reveal that the anisotropy profile in transformer decoders exhibits a distinct bell-shaped curve, with the highest anisotropy concentrations in the middle layers. This pattern diverges from the more uniformly distributed anisotropy observed in encoders. In addition, we found that the intrinsic dimension of embeddings increases in the initial phases of training, indicating an expansion into higher-dimensional space. Which is then followed by a compression phase towards the end of training with dimensionality decrease, suggesting a refinement into more compact representations. Our results provide fresh insights to the understanding of encoders and decoders embedding properties.
翻訳日:2023-11-13 15:28:20 公開日:2023-11-10
# 精子自動評価フレームワークと精子映像認識に特化したニューラルネットワーク

Automated Sperm Assessment Framework and Neural Network Specialized for Sperm Video Recognition ( http://arxiv.org/abs/2311.05927v1 )

ライセンス: Link先を確認
Takuro Fujii, Hayato Nakagawa, Teppei Takeshima, Yasushi Yumura, Tomoki Hamagami(参考訳) 不妊は世界的な健康問題であり、多くのカップルが生殖のために医療援助を求めており、その半分は男性によって引き起こされている。 補助生殖技術の成功率は、精子の形態と運動性に基づいて精子を生殖に使用できるかどうかを専門家が判断する精子アセスメントに依存する。 従来、深層学習を用いた精子評価研究では、精子の運動性やその他の精子の形態を考慮できない精子頭部のみを含む画像からなるデータセットを使用していた。 さらに、データセットのラベルは、専門家間の評価結果が一貫性がなく、絶対的な回答がないため、専門家に不十分なサポートを提供する。 そこで我々は,精子の頭部,頸部,尾部を含む精子評価のためのビデオデータセットを構築し,そのラベルにソフトラベルを付与した。 さらに,精子映像認識のための精子評価フレームワークとニューラルネットワークであるrostfineを提案した。 実験の結果、RoSTFineは既存のビデオ認識モデルと比較して精子評価性能を改善し、重要な精子部分(頭と首)に強く焦点を合わせることができた。

Infertility is a global health problem, and an increasing number of couples are seeking medical assistance to achieve reproduction, at least half of which are caused by men. The success rate of assisted reproductive technologies depends on sperm assessment, in which experts determine whether sperm can be used for reproduction based on morphology and motility of sperm. Previous sperm assessment studies with deep learning have used datasets comprising images that include only sperm heads, which cannot consider motility and other morphologies of sperm. Furthermore, the labels of the dataset are one-hot, which provides insufficient support for experts, because assessment results are inconsistent between experts, and they have no absolute answer. Therefore, we constructed the video dataset for sperm assessment whose videos include sperm head as well as neck and tail, and its labels were annotated with soft-label. Furthermore, we proposed the sperm assessment framework and the neural network, RoSTFine, for sperm video recognition. Experimental results showed that RoSTFine could improve the sperm assessment performances compared to existing video recognition models and focus strongly on important sperm parts (i.e., head and neck).
翻訳日:2023-11-13 15:28:08 公開日:2023-11-10
# 半教師型医用画像分割のための対角的階層的一貫性学習

Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.06031v1 )

ライセンス: Link先を確認
Heejoon Koo(参考訳) 多くの臨床応用に欠かせない医療画像セグメンテーションは、データ駆動深層学習技術によってほぼ人間レベルのパフォーマンスを達成した。 それでもそのパフォーマンスは、大量の医療画像に手動で注釈を付けるコストのかかるプロセスに基づいている。 そこで本研究では,対角的階層整合性(DiHC-Net)を用いた半教師付き医用画像セグメンテーションのための新しいフレームワークを提案する。 まず、同一のマルチスケールアーキテクチャを持つ複数のサブモデルで構成され、アップサンプリングや正規化といった異なるサブレイヤを持つ。 第二に、あるモデルの中間および最終予測と他のモデルのソフト擬似ラベルとの間に、対角的階層的な新しい整合性が強制される。 実験結果は,従来の左心房データセットのアプローチを上回って,簡単なフレームワークの有効性を検証した。

Medical image segmentation, which is essential for many clinical applications, has achieved almost human-level performance via data-driven deep learning techniques. Nevertheless, its performance is predicated on the costly process of manually annotating a large amount of medical images. To this end, we propose a novel framework for robust semi-supervised medical image segmentation using diagonal hierarchical consistency (DiHC-Net). First, it is composed of multiple sub-models with identical multi-scale architecture but with distinct sub-layers, such as up-sampling and normalisation layers. Second, a novel diagonal hierarchical consistency is enforced between one model's intermediate and final prediction and other models' soft pseudo labels in a diagonal hierarchical fashion. Experimental results verify the efficacy of our simple framework, outperforming all previous approaches on public Left Atrium (LA) dataset.
翻訳日:2023-11-13 15:20:51 公開日:2023-11-10
# 非局所量子状態アンサンブルと量子データ隠れ

Nonlocal quantum state ensembles and quantum data hiding ( http://arxiv.org/abs/2311.06029v1 )

ライセンス: Link先を確認
Donghoon Ha and Jeong San Kim(参考訳) 両部量子状態の識別を考察し,非局所量子状態アンサンブルと量子データ隠蔽処理の関係を確立する。 二成分量子状態の最適局所的識別のバウンドを用いて、量子データハイディングスキームを構築するために二成分量子状態アンサンブルを使用するのに十分な条件を与える。 この結果は多次元二部量子系における例によって示される。

We consider the discrimination of bipartite quantum states and establish a relation between nonlocal quantum state ensemble and quantum data hiding processing. Using a bound on optimal local discrimination of bipartite quantum states, we provide a sufficient condition for a bipartite quantum state ensemble to be used to construct a quantum data-hiding scheme. Our results are illustrated by examples in multidimensional bipartite quantum systems.
翻訳日:2023-11-13 15:20:37 公開日:2023-11-10
# 機械・深層学習回帰作業の特徴工学的手法としての記号回帰

Symbolic Regression as Feature Engineering Method for Machine and Deep Learning Regression Tasks ( http://arxiv.org/abs/2311.06028v1 )

ライセンス: Link先を確認
Assaf Shmuel, Oren Glickman, Teddy Lazebnik(参考訳) 機械学習とディープラーニングの回帰タスクの領域では、効果的な特徴工学(FE)の役割がモデル性能の向上に重要である。 従来のFEのアプローチは、しばしば機械学習モデルの機能を手動で設計するドメインの専門知識に依存している。 ディープラーニングモデルのコンテキストでは、FEはニューラルネットワークのアーキテクチャに組み込まれており、解釈が難しい。 本研究では,機械学習モデルに先立って,シンボル回帰(SR)をFEプロセスに統合し,その性能を改善することを提案する。 合成および実世界の物理関連データセットに関する広範な実験を通じて、SRから派生した特徴の組み入れにより、合成データセットの34~86%のルート平均二乗誤差(RMSE)の改善と実世界のデータセットの4~11.5%の改善により、機械学習およびディープラーニング回帰モデルの予測能力が著しく向上することを示した。 さらに, 実例として, この提案手法は, RMSE の観点でEliashberg 理論に基づく超伝導臨界温度の予測において, 機械学習の性能を20%以上向上することを示す。 これらの結果は、データ駆動モデルにおける FE コンポーネントとしての SR の可能性の概要である。

In the realm of machine and deep learning regression tasks, the role of effective feature engineering (FE) is pivotal in enhancing model performance. Traditional approaches of FE often rely on domain expertise to manually design features for machine learning models. In the context of deep learning models, the FE is embedded in the neural network's architecture, making it hard for interpretation. In this study, we propose to integrate symbolic regression (SR) as an FE process before a machine learning model to improve its performance. We show, through extensive experimentation on synthetic and real-world physics-related datasets, that the incorporation of SR-derived features significantly enhances the predictive capabilities of both machine and deep learning regression models with 34-86% root mean square error (RMSE) improvement in synthetic datasets and 4-11.5% improvement in real-world datasets. In addition, as a realistic use-case, we show the proposed method improves the machine learning performance in predicting superconducting critical temperatures based on Eliashberg theory by more than 20% in terms of RMSE. These results outline the potential of SR as an FE component in data-driven models.
翻訳日:2023-11-13 15:20:31 公開日:2023-11-10
# ChiMed-GPT:フルトレーニングレギュムと人間の嗜好への適応性を備えた中国医学大言語モデル

ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences ( http://arxiv.org/abs/2311.06025v1 )

ライセンス: Link先を確認
Yuanhe Tian, Ruyi Gan, Yan Song, Jiaxing Zhang, Yongdong Zhang(参考訳) 近年,医療サービスに対する需要の高まりが,医療インフラの格差を浮き彫りにしている。 ビッグデータ、特にテキストは医療サービスの基盤を形成するため、医療領域に合わせた効果的な自然言語処理(NLP)ソリューションが必要不可欠である。 事前学習モデルを活用する従来のアプローチは、この領域で有望な結果をもたらし、現在の大規模言語モデル(LLM)は、医療テキスト処理の高度な基盤を提供する。 しかし、ほとんどの医療用LDMは、医用指導の理解と対応を効率よく行うが、ドメイン知識の習得や人間の嗜好の整合には効果がないにもかかわらず、教師付き微調整(SFT)でしか訓練されない。 現在の医療用LLMがテキスト処理能力を改善するのを防ぐもう1つの工学的障壁は、制限されたコンテキスト長(2,048トークンなど)であり、医学領域で頻繁に必要とされる長いコンテキストを処理するのが困難である。 本研究では,中国医学領域向けに明示的に設計された新しいベンチマーク LLM であるChiMed-GPT を提案する。 情報抽出,質問応答,対話生成などの実世界のタスクの評価は,一般的なドメインLLMよりもChiMed-GPTの方が優れた性能を示している。 さらに,ChiMed-GPTに患者の識別に関する態度尺度を実施させ,医療領域におけるLCMのさらなる発展に寄与する可能性が示唆された。 コードとモデルはhttps://github.com/synlp/ChiMed-GPTで公開されている。

Recently, the increasing demand for superior medical services has highlighted the discrepancies in the medical infrastructure. With big data, especially texts, forming the foundation of medical services, there is an exigent need for effective natural language processing (NLP) solutions tailored to the healthcare domain. Conventional approaches leveraging pre-trained models present promising results in this domain and current large language models (LLMs) offer advanced foundation for medical text processing. However, most medical LLMs are trained only with supervised fine-tuning (SFT), even though it efficiently empowers LLMs to understand and respond to medical instructions but is ineffective in learning domain knowledge and aligning with human preference. Another engineering barrier that prevents current medical LLM from better text processing ability is their restricted context length (e.g., 2,048 tokens), making it hard for the LLMs to process long context, which is frequently required in the medical domain. In this work, we propose ChiMed-GPT, a new benchmark LLM designed explicitly for Chinese medical domain, with enlarged context length to 4,096 tokens and undergoes a comprehensive training regime with pre-training, SFT, and RLHF. Evaluations on real-world tasks including information extraction, question answering, and dialogue generation demonstrate ChiMed-GPT's superior performance over general domain LLMs. Furthermore, we analyze possible biases through prompting ChiMed-GPT to perform attitude scales regarding discrimination of patients, so as to contribute to further responsible development of LLMs in the medical domain. The code and model are released at https://github.com/synlp/ChiMed-GPT.
翻訳日:2023-11-13 15:20:10 公開日:2023-11-10
# u3ds$^3$:教師なし3dセマンティックシーンセグメンテーション

U3DS$^3$: Unsupervised 3D Semantic Scene Segmentation ( http://arxiv.org/abs/2311.06018v1 )

ライセンス: Link先を確認
Jiaxu Liu, Zhengdi Yu, Toby P. Breckon, Hubert P.H. Shum(参考訳) 現代のクラウドセグメンテーションアプローチは、リッチなアノテーション付き3Dトレーニングデータに依存している。 しかし,このような3次元シーンデータに対して,一貫した正確なアノテーションを得ることは,時間的かつ困難である。 さらに、特に全体像的な3dシーンにおいて、点雲の完全な教師なしシーンセグメンテーションに関する調査が不足している。 本稿では,u3ds$^3$を,任意の3dシーンに対して完全に教師なしのポイントクラウドセグメンテーションを行うためのステップとして提示する。 これを実現するために、U3DS$^3$は、3Dシーンの完全なセグメンテーションを実現するためにポイントクラウドの本質的な情報のみを活用することにより、モデル事前トレーニングを必要とせずに、屋内および屋外の静的3Dポイントクラウドの両方にわたってオブジェクトと背景の両方を一般化した教師なしセグメンテーション手法を利用する。 提案手法の最初のステップは,各シーンの幾何学的特徴に基づくスーパーポイントの生成である。 その後、空間クラスタリングに基づく手法で学習プロセスを行い、その後、クラスタセンタロイドに応じて生成された擬似ラベルを用いた反復トレーニングを行う。 さらに,体積表現の不変性と等価性を活用することで,ボクセル化特徴の幾何学的変換を適用し,ロバスト表現学習のための2組のディスクリプタを提供する。 最後に,ScanNet と SemanticKITTI の最先端結果とベンチマークデータセットである S3DIS の競合結果を提供する。

Contemporary point cloud segmentation approaches largely rely on richly annotated 3D training data. However, it is both time-consuming and challenging to obtain consistently accurate annotations for such 3D scene data. Moreover, there is still a lack of investigation into fully unsupervised scene segmentation for point clouds, especially for holistic 3D scenes. This paper presents U3DS$^3$, as a step towards completely unsupervised point cloud segmentation for any holistic 3D scenes. To achieve this, U3DS$^3$ leverages a generalized unsupervised segmentation method for both object and background across both indoor and outdoor static 3D point clouds with no requirement for model pre-training, by leveraging only the inherent information of the point cloud to achieve full 3D scene segmentation. The initial step of our proposed approach involves generating superpoints based on the geometric characteristics of each scene. Subsequently, it undergoes a learning process through a spatial clustering-based methodology, followed by iterative training using pseudo-labels generated in accordance with the cluster centroids. Moreover, by leveraging the invariance and equivariance of the volumetric representations, we apply the geometric transformation on voxelized features to provide two sets of descriptors for robust representation learning. Finally, our evaluation provides state-of-the-art results on the ScanNet and SemanticKITTI, and competitive results on the S3DIS, benchmark datasets.
翻訳日:2023-11-13 15:19:41 公開日:2023-11-10
# RSG:スキルグラフによる四足歩行ロボットの高速学習適応スキル

RSG: Fast Learning Adaptive Skills for Quadruped Robots by Skill Graph ( http://arxiv.org/abs/2311.06015v1 )

ライセンス: Link先を確認
Hongyin Zhang, Diyuan Shi, Zifeng Zhuang, Han Zhao, Zhenyu Wei, Feng Zhao, Sibo Gai, Shangke Lyu, and Donglin Wang(参考訳) 無人ロボットに素早く適応できるインテリジェントなシステムを開発することは、自律ロボットを追求する上で重要な課題の1つだ。 脚のあるロボットの分野における歩行安定性とスキル学習において、いくつかの顕著な進歩があったが、その迅速な適応能力は、自然界の動物のそれよりも劣っている。 動物は生存に必要な膨大なスキルを持って生まれ、経験が限られた基本的なスキルを作曲することで、新しいスキルを素早く獲得することができる。 そこで我々は,ロボットの基本的スキルを体系化し,それらを高速な適応のために巧みに再利用するための新しいフレームワーク,Robot Skill Graph(RSG)を提案する。 知識グラフ(KG)に似た構造を持つRSGは、KGの静的な知識ではなく、巨大な動的行動スキルで構成されており、学習コンテキストとロボットの獲得スキルの間に存在する暗黙の関係を発見し、ロボットのスキル学習に存在する微妙なパターンを理解する出発点となる。 広範な実験結果は、rsgが新しいタスクや環境に対して合理的なスキル推論を提供し、四足ロボットが新しいシナリオに適応し、新しいスキルを迅速に学習できることを示している。

Developing robotic intelligent systems that can adapt quickly to unseen wild situations is one of the critical challenges in pursuing autonomous robotics. Although some impressive progress has been made in walking stability and skill learning in the field of legged robots, their ability to fast adaptation is still inferior to that of animals in nature. Animals are born with massive skills needed to survive, and can quickly acquire new ones, by composing fundamental skills with limited experience. Inspired by this, we propose a novel framework, named Robot Skill Graph (RSG) for organizing massive fundamental skills of robots and dexterously reusing them for fast adaptation. Bearing a structure similar to the Knowledge Graph (KG), RSG is composed of massive dynamic behavioral skills instead of static knowledge in KG and enables discovering implicit relations that exist in be-tween of learning context and acquired skills of robots, serving as a starting point for understanding subtle patterns existing in robots' skill learning. Extensive experimental results demonstrate that RSG can provide rational skill inference upon new tasks and environments and enable quadruped robots to adapt to new scenarios and learn new skills rapidly.
翻訳日:2023-11-13 15:19:12 公開日:2023-11-10
# 時間データからの二重ロバスト構造同定

Doubly Robust Structure Identification from Temporal Data ( http://arxiv.org/abs/2311.06012v1 )

ライセンス: Link先を確認
Emmanouil Angelis, Francesco Quinzan, Ashkan Soleymani, Patrick Jaillet, Stefan Bauer(参考訳) 時系列データの原因を学ぶことは、金融から地球科学、生物医学まで、多くの応用において基本的な課題である。 このタスクに対する一般的なアプローチはベクトル自己回帰に基づいており、潜在的な原因間の未知の一致を考慮しない。 しかし、多くの潜在的な原因と騒がしいデータを持つ設定では、これらのアプローチは実質的に偏っている可能性がある。 さらに、潜在的な原因は実際の応用で相関する可能性がある。 さらに、既存のアルゴリズムは繰り返しデータを処理しないことが多い。 これらの課題に対処するため,我々は時間的データ( sitd )から構造同定を行う新しい二重ロバストな手法を提案する。 我々は,本手法が真の因果構造を漸近的に回復することを示す理論的保証を提供する。 我々の分析は、潜在的な原因がサイクルを持ち、それらが確立されるケースにまで及んでいる。 さらに,本手法の優れた性能を示すため,広範な実験を行った。

Learning the causes of time-series data is a fundamental task in many applications, spanning from finance to earth sciences or bio-medical applications. Common approaches for this task are based on vector auto-regression, and they do not take into account unknown confounding between potential causes. However, in settings with many potential causes and noisy data, these approaches may be substantially biased. Furthermore, potential causes may be correlated in practical applications. Moreover, existing algorithms often do not work with cyclic data. To address these challenges, we propose a new doubly robust method for Structure Identification from Temporal Data ( SITD ). We provide theoretical guarantees, showing that our method asymptotically recovers the true underlying causal structure. Our analysis extends to cases where the potential causes have cycles and they may be confounded. We further perform extensive experiments to showcase the superior performance of our method.
翻訳日:2023-11-13 15:18:51 公開日:2023-11-10
# Polar-Net:OCTA画像におけるアルツハイマー病検出のための臨床フレンドリーモデル

Polar-Net: A Clinical-Friendly Model for Alzheimer's Disease Detection in OCTA Images ( http://arxiv.org/abs/2311.06009v1 )

ライセンス: Link先を確認
Shouyue Liu, Jinkui Hao, Yanwu Xu, Huazhu Fu, Xinyu Guo, Jiang Liu, Yalin Zheng, Yonghuai Liu, Jiong Zhang and Yitian Zhao(参考訳) オプティカルコヒーレンス・トモグラフィー(OCTA)は、網膜微小血管のイメージングによりアルツハイマー病(AD)を検出するための有望なツールである。 眼科医は、一般的にETDRSグリッドのような地域ベースの分析を使用して、OCTA画像バイオマーカーを研究し、ADとの相関を理解する。 しかし、既存の研究では一般的な深層コンピュータビジョン法を用いており、解釈可能な結果の提供と臨床先行知識の活用に挑戦している。 これらの課題に対処するため,我々はpolar-netと呼ばれる新しいディープラーニングフレームワークを提案する。 提案手法では,カルト座標から極座標へのOCTA画像のマッピングを行い,近似セクター畳み込みを可能とし,臨床で一般的に用いられるETDRSグリッドを用いた地域分析手法の実装を可能にする。 さらに、Polar-Netは、各セクター地域の臨床事前情報をトレーニングプロセスに組み込んで、そのパフォーマンスをさらに向上させる。 さらに,本フレームワークは網膜領域の重要性の獲得に適応し,ADの検出におけるモデル決定過程の理解を支援し,臨床観察への適合性を評価する。 プライベートおよびパブリックデータセットの評価を通じて、Polar-Netは既存の最先端手法よりも優れており、網膜血管変化とADとの関連性に関するより貴重な病理学的証拠を提供することを示した。 さらに、我々のフレームワークで導入された2つの革新的なモジュールが全体的なパフォーマンス改善に大きな影響を与えていることも示しています。

Optical Coherence Tomography Angiography (OCTA) is a promising tool for detecting Alzheimer's disease (AD) by imaging the retinal microvasculature. Ophthalmologists commonly use region-based analysis, such as the ETDRS grid, to study OCTA image biomarkers and understand the correlation with AD. However, existing studies have used general deep computer vision methods, which present challenges in providing interpretable results and leveraging clinical prior knowledge. To address these challenges, we propose a novel deep-learning framework called Polar-Net. Our approach involves mapping OCTA images from Cartesian coordinates to polar coordinates, which allows for the use of approximate sector convolution and enables the implementation of the ETDRS grid-based regional analysis method commonly used in clinical practice. Furthermore, Polar-Net incorporates clinical prior information of each sector region into the training process, which further enhances its performance. Additionally, our framework adapts to acquire the importance of the corresponding retinal region, which helps researchers and clinicians understand the model's decision-making process in detecting AD and assess its conformity to clinical observations. Through evaluations on private and public datasets, we have demonstrated that Polar-Net outperforms existing state-of-the-art methods and provides more valuable pathological evidence for the association between retinal vascular changes and AD. In addition, we also show that the two innovative modules introduced in our framework have a significant impact on improving overall performance.
翻訳日:2023-11-13 15:18:36 公開日:2023-11-10
# キーストローク検証チャレンジ(KVC: Biometric and Fairness Benchmark Evaluation)

Keystroke Verification Challenge (KVC): Biometric and Fairness Benchmark Evaluation ( http://arxiv.org/abs/2311.06000v1 )

ライセンス: Link先を確認
Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales, Naser Damer, Julian Fierrez, Javier Ortega-Garcia(参考訳) 生体認証のためのキーストロークダイナミクス(KD)の分析にはいくつかの利点がある:最も差別的な行動特性の一つであり、キーボードはユーザーがテキストデータを入力するための主要な手段であり、その獲得には追加のハードウェアが必要であり、その処理は比較的軽量であり、透過的に被験者を認識することができる。 しかし、実験プロトコルとメトリクスの不均一性と、文献で採用されているデータベースのサイズが限られているため、異なるシステム間の直接比較が妨げられ、キーストロークバイオメトリックスの進歩の障害となっている。 そこで本稿では,Aalto Keystroke Databases から抽出したデスクトップおよびモバイルキーボードを用いて取得した185,000件以上の可変転写テキストのツイート長シーケンスに基づいて,KD に基づく生体認証性能と公平性をベンチマークする実験フレームワークを提案する。 このフレームワークは、Keystroke Verification Challenge (KVC)という形でCodaLab上で動作する。 さらに,新しい公平度指標であるsweted impostor ratio (sir) を導入し,検証スコアにおけるデム間およびデム内群バイアスパターンを捉えた。 提案手法は,2つの最先端キーストローク検証システム「typenet」と「typeformer」を用いて異なる入力特徴の比較を行い,時間領域に拡張された特徴を優先してテキスト内容(押したキーのascii符号)の分析を破棄することで,プライバシーを侵害しないシステムを実現する。 我々の実験は、このアプローチが満足なパフォーマンスを維持することができることを示している。

Analyzing keystroke dynamics (KD) for biometric verification has several advantages: it is among the most discriminative behavioral traits; keyboards are among the most common human-computer interfaces, being the primary means for users to enter textual data; its acquisition does not require additional hardware, and its processing is relatively lightweight; and it allows for transparently recognizing subjects. However, the heterogeneity of experimental protocols and metrics, and the limited size of the databases adopted in the literature impede direct comparisons between different systems, thus representing an obstacle in the advancement of keystroke biometrics. To alleviate this aspect, we present a new experimental framework to benchmark KD-based biometric verification performance and fairness based on tweet-long sequences of variable transcript text from over 185,000 subjects, acquired through desktop and mobile keyboards, extracted from the Aalto Keystroke Databases. The framework runs on CodaLab in the form of the Keystroke Verification Challenge (KVC). Moreover, we also introduce a novel fairness metric, the Skewed Impostor Ratio (SIR), to capture inter- and intra-demographic group bias patterns in the verification scores. We demonstrate the usefulness of the proposed framework by employing two state-of-the-art keystroke verification systems, TypeNet and TypeFormer, to compare different sets of input features, achieving a less privacy-invasive system, by discarding the analysis of text content (ASCII codes of the keys pressed) in favor of extended features in the time domain. Our experiments show that this approach allows to maintain satisfactory performance.
翻訳日:2023-11-13 15:18:11 公開日:2023-11-10
# JARVIS-1:メモリ拡張マルチモーダル言語モデルを用いたオープンワールドマルチタスクエージェント

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models ( http://arxiv.org/abs/2311.05997v1 )

ライセンス: Link先を確認
Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang(参考訳) オープンワールドにおけるマルチモーダルな観察による人間のような計画と制御の実現は、より機能的なジェネラリストエージェントにとって重要なマイルストーンである。 既存のアプローチは、オープンワールドにおける特定のロングホリゾンタスクを処理できる。 しかし、オープンワールドタスクの数が無限になる可能性があり、ゲーム時間が進むにつれてタスク完了を徐々に向上させる能力が欠如している。 オープンワールドエージェントであるJARVIS-1を導入し,マルチモーダルなインプット(視覚的観察と人間の指示)を知覚し,高度な計画を生成し,具体的制御を行う。 具体的には,事前学習したマルチモーダル言語モデル上にjarvis-1を開発し,視覚観察とテキスト指示を計画にマッピングする。 計画は最終的にゴールコンディショナーのコントローラに送られる。 JARVIS-1をマルチモーダルメモリで構成し、事前学習した知識と実際のゲームサバイバル体験の両方を計画する。 実験では、jarvis-1は入力レベルから中間レベルまで、minecraft universeベンチマークから200以上の様々なタスクでほぼ完璧なパフォーマンスを示しました。 JARVIS-1は12.5%の完成率を達成した。 これは以前の記録に比べて5倍の大幅な増加である。 さらに、JARVIS-1は、マルチモーダルメモリによる生涯学習パラダイムに従って$\textit{self-improve}$を達成できることを示し、より汎用的なインテリジェンスと自律性の向上を実現している。 プロジェクトページはhttps://craftjarvis-jarvis1.github.ioで入手できる。

Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.
翻訳日:2023-11-13 15:17:41 公開日:2023-11-10
# 強結合鎖中のフェルミオン粒子の共鳴輸送とアンダーソン局在に及ぼす内部および外部脱コヒーレンスの影響

Effects of internal and external decoherence on the resonant transport and Anderson localization of fermionic particles in the tight-binding chain ( http://arxiv.org/abs/2311.05995v1 )

ライセンス: Link先を確認
Andrey R. Kolovsky(参考訳) 接点に対する半微視的モデルを用いて,非相互作用フェルミ粒子の密結合鎖を横断する二端輸送の問題を再検討し,リンドブラッド緩和演算子を用いて接点の自己熱特性を模倣する。 接触の散逸ダイナミクスは、本質的にランダウアー・B\ユティカー理論と比較して共鳴ピークのライン形状を変更することができると論じられている。 また、この散逸ダイナミクス(外部脱コヒーレンス)が障害連鎖の粒子輸送に及ぼす影響についても検討する。 外部デコヒーレンスによりコンダクタンス変動は減少するが、アンダーソン局在長には影響しない。

We revisit the problem of two-terminal transport of non-interacting Fermi particles across the tight-binding chain by employing the semi-microscopic model for the contacts, where we mimic the self-thermalization property of the contacts by using the Lindblad relaxation operators. It is argued that the dissipative dynamics of the contacts can essentially modify the line-shape of resonant peaks as compared to the Landauer-B\"uttiker theory. We also address the effect of this dissipative dynamics, which we refer to as external decoherence, on particle transport in disorder chains. It is shown that external decoherence reduces conductance fluctuations but does not affect the Anderson localization length.
翻訳日:2023-11-13 15:17:12 公開日:2023-11-10
# 深層学習に基づく空間レンデブーの相対時間推定のためのロバスト逆攻撃検出

Robust Adversarial Attacks Detection for Deep Learning based Relative Pose Estimation for Space Rendezvous ( http://arxiv.org/abs/2311.05992v1 )

ライセンス: Link先を確認
Ziwei Wang, Nabil Aouf, Jose Pizarro, Christophe Honvault(参考訳) 近年,自律型宇宙船の相対航法課題に対する深層学習技術の開発が続けられている。 これらのテクニックを採用することで、パフォーマンスが向上する。 しかし、このようなアプローチは、敵対的攻撃に対する感受性を通じて、このような深層学習手法の信頼性と安全性に関する高い理解も導入している。 本研究では,説明可能性の概念に基づく深層ニューラルネットワークに基づく相対ポーズ推定手法に対する,新たな攻撃検出手法を提案する。 我々は,提案した畳み込みニューラルネットワーク(CNN)を応用し,追跡者の搭載カメラから画像を取得し,目標の相対位置と回転を正確に出力する,革新的な相対ポーズ推定手法を開発する。 我々はFGSM(Fast Gradient Sign Method)によって生成される敵攻撃を用いて入力画像をシームレスに摂動する。 敵攻撃検知器はLong Short Term Memory (LSTM) ネットワークに基づいて構築され、CNNベースのポーズ推定器からSHapley Valueを計測し、アクション時に敵攻撃を検出するようにフラグを立てる。 シミュレーションの結果,提案手法は99.21%の精度で検出できることがわかった。 深部相対ポーズ推定器と対向攻撃検知器は、実験室が設計した装置から取得した実際のデータに基づいて試験される。 実験室が設計した装置による実験結果から,提案した対向攻撃検出器は96.29%の平均検出精度を達成できた。

Research on developing deep learning techniques for autonomous spacecraft relative navigation challenges is continuously growing in recent years. Adopting those techniques offers enhanced performance. However, such approaches also introduce heightened apprehensions regarding the trustability and security of such deep learning methods through their susceptibility to adversarial attacks. In this work, we propose a novel approach for adversarial attack detection for deep neural network-based relative pose estimation schemes based on the explainability concept. We develop for an orbital rendezvous scenario an innovative relative pose estimation technique adopting our proposed Convolutional Neural Network (CNN), which takes an image from the chaser's onboard camera and outputs accurately the target's relative position and rotation. We perturb seamlessly the input images using adversarial attacks that are generated by the Fast Gradient Sign Method (FGSM). The adversarial attack detector is then built based on a Long Short Term Memory (LSTM) network which takes the explainability measure namely SHapley Value from the CNN-based pose estimator and flags the detection of adversarial attacks when acting. Simulation results show that the proposed adversarial attack detector achieves a detection accuracy of 99.21%. Both the deep relative pose estimator and adversarial attack detector are then tested on real data captured from our laboratory-designed setup. The experimental results from our laboratory-designed setup demonstrate that the proposed adversarial attack detector achieves an average detection accuracy of 96.29%.
翻訳日:2023-11-13 15:16:57 公開日:2023-11-10
# Vision Big Bird: 完全な注意のためのランダムなスパシフィケーション

Vision Big Bird: Random Sparsification for Full Attention ( http://arxiv.org/abs/2311.05988v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 しかし、グローバル・セルフ・アテンションの高コストはトランスフォーマー、特に高解像度視覚タスクにとって依然として困難である。 NLPにおいて最も成功したトランスフォーマーモデルであるBig Birdにインスパイアされ、視覚変換器(ViT)の新しいスパースアテンション機構を提案する。 具体的には,頭部を3つのグループに分け,第1群は畳み込みニューラルネットワーク(CNN)を用いて局所的な特徴を抽出し,モデルの位置情報を提供する。 これらの成分に基づいて、ViTはBig Birdの利点を維持しながら自己注意の空間を維持している(つまり、モデルはシーケンス関数の普遍近似器であり、チューリング完全である)。 さらに,本モデルでは,ViTの重要成分である位置符号化を安全に除去できることが示唆された。 実験によると、big birdは共通のビジョンタスクで競争力を示す。

Recently, Transformers have shown promising performance in various vision tasks. However, the high costs of global self-attention remain challenging for Transformers, especially for high-resolution vision tasks. Inspired by one of the most successful transformers-based models for NLP: Big Bird, we propose a novel sparse attention mechanism for Vision Transformers (ViT). Specifically, we separate the heads into three groups, the first group used convolutional neural network (CNN) to extract local features and provide positional information for the model, the second group used Random Sampling Windows (RS-Win) for sparse self-attention calculation, and the third group reduces the resolution of the keys and values by average pooling for global attention. Based on these components, ViT maintains the sparsity of self-attention while maintaining the merits of Big Bird (i.e., the model is a universal approximator of sequence functions and is Turing complete). Moreover, our results show that the positional encoding, a crucial component in ViTs, can be safely removed in our model. Experiments show that Vision Big Bird demonstrates competitive performance on common vision tasks.
翻訳日:2023-11-13 15:16:31 公開日:2023-11-10
# ResNet-50 と VGG-16 を用いた転帰学習による雄のNyala と雄の Kudu 分類の比較

Comparing Male Nyala and Male Kudu Classification using Transfer Learning with ResNet-50 and VGG-16 ( http://arxiv.org/abs/2311.05981v1 )

ライセンス: Link先を確認
T.T Lemani and T.L. van Zyl(参考訳) 野生動物の信頼性と効率的なモニタリングは、管理と保全の決定を知らせる上で重要である。 動物種を手動で識別するプロセスは、時間がかかり、単調で高価である。 本稿では, 深層学習とコンピュータビジョンの進歩を活かし, vgg-16モデルとresnet-50モデルを用いて, 自然環境における雄クドゥと雄ナイアラの同定を行った。 これらの事前訓練されたモデルは、一般に動物同定において効率的であることが証明されている。 それでも、クドゥやニャラのような動物についての研究はほとんどなく、彼らは通常よくカモフラージュされ、類似した特徴を持っている。 本論文で使用する転送学習の方法は,微調整法である。 モデルは微調整前後で評価される。 実験結果は,vgg-16モデルとresnet-50モデルでそれぞれ93.2\%,97.7\%の精度を,微調整後に97.7\%の精度で達成した。 これらの結果は印象的ではあるが、550枚の画像の小さなサンプルサイズを2つのクラスの間に半分に分割したものであり、モデルの有効性の完全な結論を得るのに十分なシナリオにはならないかもしれないことに注意する必要がある。 そのため、より広範なデータセットを取得してテストし、これらの種の雌とアンテロープ種全体に拡張する余地がある。

Reliable and efficient monitoring of wild animals is crucial to inform management and conservation decisions. The process of manually identifying species of animals is time-consuming, monotonous, and expensive. Leveraging on advances in deep learning and computer vision, we investigate in this paper the efficiency of pre-trained models, specifically the VGG-16 and ResNet-50 model, in identifying a male Kudu and a male Nyala in their natural habitats. These pre-trained models have proven to be efficient in animal identification in general. Still, there is little research on animals like the Kudu and Nyala, who are usually well camouflaged and have similar features. The method of transfer learning used in this paper is the fine-tuning method. The models are evaluated before and after fine-tuning. The experimental results achieved an accuracy of 93.2\% and 97.7\% for the VGG-16 and ResNet-50 models, respectively, before fine-tuning and 97.7\% for both models after fine-tuning. Although these results are impressive, it should be noted that they were taken over a small sample size of 550 images split in half between the two classes; therefore, this might not cater to enough scenarios to get a full conclusion of the efficiency of the models. Therefore, there is room for more work in getting a more extensive dataset and testing and extending to the female counterparts of these species and the whole antelope species.
翻訳日:2023-11-13 15:16:08 公開日:2023-11-10
# Sum-max サブモジュラバンド

Sum-max Submodular Bandits ( http://arxiv.org/abs/2311.05975v1 )

ライセンス: Link先を確認
Stephen Pasteris, Alberto Rumi, Fabio Vitale, Nicol\`o Cesa-Bianchi(参考訳) 多くのオンライン意思決定問題は、部分モジュラ函数の列の最大化に対応する。 本研究では,sum-max関数(sum-max function)を導入する。sum-max関数は,$k$-bandits, combinatorial bandits,および施設ロケーションにおけるbanditバージョン,$m$-medians,およびhitsetなど,いくつかの興味深い問題をキャプチャするモノトーンサブモジュラー関数のサブクラスである。 このクラス内のすべての関数は、疑似コンビニティと呼ばれる重要な特性を満たす。 これにより、$t$が時間軸であり、$m$が濃度制約であるような、$\sqrt{mkt}$(ログ因子を無視する)の順序の非確率的な設定において、バンドイットフィードバックのための$\big(1 - \frac{1}{e}\big)$-regret境界を証明できる。 この境界は、単純で効率的なアルゴリズムによって達成され、ブレイジットフィードバックによるオンラインモノトン部分モジュラー最大化に対する$\widetilde{O}\big(T^{2/3}\big)$ regret boundで大幅に改善される。

Many online decision-making problems correspond to maximizing a sequence of submodular functions. In this work, we introduce sum-max functions, a subclass of monotone submodular functions capturing several interesting problems, including best-of-$K$-bandits, combinatorial bandits, and the bandit versions on facility location, $M$-medians, and hitting sets. We show that all functions in this class satisfy a key property that we call pseudo-concavity. This allows us to prove $\big(1 - \frac{1}{e}\big)$-regret bounds for bandit feedback in the nonstochastic setting of the order of $\sqrt{MKT}$ (ignoring log factors), where $T$ is the time horizon and $M$ is a cardinality constraint. This bound, attained by a simple and efficient algorithm, significantly improves on the $\widetilde{O}\big(T^{2/3}\big)$ regret bound for online monotone submodular maximization with bandit feedback.
翻訳日:2023-11-13 15:15:43 公開日:2023-11-10
# 脳状態特異的apical-amplification,-isolation,-drive regimeを発現する2成分神経スパイキングモデル

Two-compartment neuronal spiking model expressing brain-state specific apical-amplification, -isolation and -drive regimes ( http://arxiv.org/abs/2311.06074v1 )

ライセンス: Link先を確認
Elena Pastorelli, Alper Yegenoglu, Nicole Kolodziej, Willem Wybo, Francesco Simula, Sandra Diaz, Johan Frederik Storm, Pier Stanislao Paolucci(参考訳) コネクトロミックアーキテクチャによって支持される脳状態特異的神経機構が、過去の知識と文脈的知識を現在の、例えば感覚システムから来るエビデンスの流れとを結びつけるのに役立つという実験的な証拠が生まれている。 このようなメカニズムは、複数の空間的および時間的スケールに分散し、個々のニューロンとシナプスのレベルに専用の支持を必要とする。 新皮質の顕著な特徴は、円錐状樹状突起と基底状樹状/近位体間区画の特異な分離を示す大きな錐体ニューロンの構造であり、入射する接続のパターンと脳状態特異的活性化機構、すなわち、覚醒、深いNREM睡眠ステージ、REM睡眠に関連する円錐体増幅、-イソレーション、-ドライブである。 アピカルメカニズムの認知的役割は、行動動物において実証されている。 対照的に、古典的な学習スパイクネットワークのモデルは、根尖情報と基底/体性情報を組み合わせたメカニズムの記述を欠いた単一区画ニューロンに基づいている。 本研究の目的は,脳状態の特定の学習を支援するのに不可欠な機能と,大規模バイオインスパイアされた人工知能システムで使用される,高い抽象レベルでの線形伝達関数(ThetaPlanes)を含む,2部構成のスパイクニューロンモデルを提供することである。 一連の適合関数に制約された機械学習アルゴリズムは、所望の尖端機構を表すニューロンを定義するパラメータを選択した。

There is mounting experimental evidence that brain-state specific neural mechanisms supported by connectomic architectures serve to combine past and contextual knowledge with current, incoming flow of evidence (e.g. from sensory systems). Such mechanisms are distributed across multiple spatial and temporal scales and require dedicated support at the levels of individual neurons and synapses. A prominent feature in the neocortex is the structure of large, deep pyramidal neurons which show a peculiar separation between an apical dendritic compartment and a basal dentritic/peri-somatic compartment, with distinctive patterns of incoming connections and brain-state specific activation mechanisms, namely apical-amplification, -isolation and -drive associated to the wakefulness, deeper NREM sleep stages and REM sleep. The cognitive roles of apical mechanisms have been demonstrated in behaving animals. In contrast, classical models of learning spiking networks are based on single compartment neurons that miss the description of mechanisms to combine apical and basal/somatic information. This work aims to provide the computational community with a two-compartment spiking neuron model which includes features that are essential for supporting brain-state specific learning and with a piece-wise linear transfer function (ThetaPlanes) at highest abstraction level to be used in large scale bio-inspired artificial intelligence systems. A machine learning algorithm, constrained by a set of fitness functions, selected the parameters defining neurons expressing the desired apical mechanisms.
翻訳日:2023-11-13 15:09:07 公開日:2023-11-10
# ポイントクラウド分類のための学習に基づくバイハーモニック拡張

Learning-Based Biharmonic Augmentation for Point Cloud Classification ( http://arxiv.org/abs/2311.06070v1 )

ライセンス: Link先を確認
Jiacheng Wei, Guosheng Lin, Henghui Ding, Jie Hu, Kim-Hui Yap(参考訳) ポイントクラウドデータセットは、イメージデータセットと比較してサンプルサイズが不適切な場合が多いため、データの増大が難しくなる。 厳格な変換やスケーリングといった従来の手法は,個々のサンプル形状の変更に制約があるため,データセットの多様性を増加させる可能性も低いが,biharmonic augmentation (ba)法を導入する。 BAは、既存の3D構造にスムーズな非剛性変形を与えることによって、点雲データを多様化する、新しくて効率的なデータ拡張技術である。 このアプローチは変形関数のバイハーモニック座標を計算し、多様な変形プロトタイプを学習する。 提案手法は,CoefNetを用いて,これらのプロトタイプのアマルガメート係数を予測し,包括的変形を確実にする。 さらに,対戦型トレーニングを統合した高度なオンライン強化システムであるAdvTuneを提案する。 このシステムは、CoefNetと分類ネットワークを相乗的に洗練し、学習者の状況に応じて適応的な形状変形の自動生成を容易にする。 総合的な実験分析により、バイハーモニック拡張の優位性を検証し、様々なネットワーク設計における一般的な点雲増強技術よりも顕著な性能向上を示す。

Point cloud datasets often suffer from inadequate sample sizes in comparison to image datasets, making data augmentation challenging. While traditional methods, like rigid transformations and scaling, have limited potential in increasing dataset diversity due to their constraints on altering individual sample shapes, we introduce the Biharmonic Augmentation (BA) method. BA is a novel and efficient data augmentation technique that diversifies point cloud data by imposing smooth non-rigid deformations on existing 3D structures. This approach calculates biharmonic coordinates for the deformation function and learns diverse deformation prototypes. Utilizing a CoefNet, our method predicts coefficients to amalgamate these prototypes, ensuring comprehensive deformation. Moreover, we present AdvTune, an advanced online augmentation system that integrates adversarial training. This system synergistically refines the CoefNet and the classification network, facilitating the automated creation of adaptive shape deformations contingent on the learner status. Comprehensive experimental analysis validates the superiority of Biharmonic Augmentation, showcasing notable performance improvements over prevailing point cloud augmentation techniques across varied network designs.
翻訳日:2023-11-13 15:08:36 公開日:2023-11-10
# コーシー地平線上の重力猫

The gravitational cat on the Cauchy horizon ( http://arxiv.org/abs/2311.06068v1 )

ライセンス: Link先を確認
Christiane Klein, Jochen Zahn(参考訳) 我々は、Reissner-Nordstr{\"o}m-deSitter 時空上の実スカラー量子場の応力テンソルがコーシー地平線近傍のマクロ距離の相関を示すことを示した。 コーシーの地平線は近づき、普遍的、すなわち状態独立である。 これはコーシー地平線付近の半古典近似の崩壊を意味する。 また,スカラー場の電荷を回転させる効果について検討し,ケール・ド・ジッター時空のコーシー地平線の2極間の応力テンソルの相関について検討した。

We show that the stress tensor of a real scalar quantum field on Reissner-Nordstr{\"o}m-deSitter spacetime exhibits correlations over macroscopic distances near the Cauchy horizon. These diverge as the Cauchy horizon is approached and are universal, i.e., state-independent. This signals a breakdown of the semi-classical approximation near the Cauchy horizon. We also investigate the effect of turning on a charge of the scalar field and consider the correlation of the stress tensor between the two poles of the Cauchy horizon of Kerr-de Sitter spacetime.
翻訳日:2023-11-13 15:08:18 公開日:2023-11-10
# 微細画像検索のための属性グループ化とマイニングハッシュ

Attributes Grouping and Mining Hashing for Fine-Grained Image Retrieval ( http://arxiv.org/abs/2311.06067v1 )

ライセンス: Link先を確認
Xin Lu, Shikun Chen, Yichao Cao, Xin Zhou, Xiaobo Lu(参考訳) 近年, 大規模メディア検索において, 低ストレージと強力な表現能力のハッシュ法が普及している。 外観が似ているが微妙な違いのあるオブジェクトを記述するために、ハッシュベースのきめ細かい画像検索に焦点を当てる研究がますます増えている。 既存のハッシュネットワークは通常、同じディープアクティベーションテンソルに対する注意ガイダンスを通じてローカルとグローバルの両方の特徴を生成し、特徴表現の多様性を制限する。 この制限に対処するために,注意誘導特徴に対して畳み込み記述子を代用し,カテゴリ特異的な視覚的属性を複数記述子にグループ化し組み込む属性グループ化・マイニングハッシュ(agmh)を提案する。 特に注意分散損失(adl)は、記述者が様々な地方に出席し、様々な微妙な詳細を捉えるように設計されている。 さらに,各ディスクリプタに重要な属性をマイニングし,細粒度属性とオブジェクト間の相関関係を構築するステップワイズインタラクティブな外部アテンション(siea)を提案する。 注意機構は離散属性の学習に特化しており、ハッシュコード生成に余分な計算コストはかからない。 最後に、コンパクトなバイナリコードはペアの類似性を保存することで学習される。 実験結果から, AGMHは, きめ細かいベンチマークデータセット上での最先端手法に対して, 常に最高の性能を示すことがわかった。

In recent years, hashing methods have been popular in the large-scale media search for low storage and strong representation capabilities. To describe objects with similar overall appearance but subtle differences, more and more studies focus on hashing-based fine-grained image retrieval. Existing hashing networks usually generate both local and global features through attention guidance on the same deep activation tensor, which limits the diversity of feature representations. To handle this limitation, we substitute convolutional descriptors for attention-guided features and propose an Attributes Grouping and Mining Hashing (AGMH), which groups and embeds the category-specific visual attributes in multiple descriptors to generate a comprehensive feature representation for efficient fine-grained image retrieval. Specifically, an Attention Dispersion Loss (ADL) is designed to force the descriptors to attend to various local regions and capture diverse subtle details. Moreover, we propose a Stepwise Interactive External Attention (SIEA) to mine critical attributes in each descriptor and construct correlations between fine-grained attributes and objects. The attention mechanism is dedicated to learning discrete attributes, which will not cost additional computations in hash codes generation. Finally, the compact binary codes are learned by preserving pairwise similarities. Experimental results demonstrate that AGMH consistently yields the best performance against state-of-the-art methods on fine-grained benchmark datasets.
翻訳日:2023-11-13 15:08:09 公開日:2023-11-10
# 深層学習を用いたlidarに基づくノルウェーの樹種検出

Lidar-based Norwegian tree species detection using deep learning ( http://arxiv.org/abs/2311.06066v1 )

ライセンス: Link先を確認
Martijn Vermeer and Jacob Alexander Hay and David V\"olgyes and Zs\'ofia Koma and Johannes Breidenbach and Daniele Stefano Maria Fantin(参考訳) 背景:ノルウェーの森林における樹木種のマッピングは時間を要するプロセスであり、専門家による手作業によるラベル付けに依存する森林協会が関与する。 このプロセスは、空中画像、個人的な親しみ、または現場での参照、およびリモートセンシングデータの両方を含むことができる。 最先端の手法は通常、セマンティックセグメンテーション法による高解像度空中画像を使用する。 方法:lidar(light detection and ranging)データのみを活用したディープラーニングに基づく木種分類モデルを提案する。 ライダー画像は、U-Netベースのネットワークで4つのクラス(Norway Spruce, Scots Pine, Birch, background)に分けられる。 このモデルは偏弱ラベルに対する焦点損失で訓練される。 このアプローチの大きな利点は、lidarイメージとラベルのベースマップの両方が自由かつオープンなアクセスを持っていることである。 結果:本種分類モデルでは,NFI(National Forest Inventory)による独立性検証において,平均F1スコア0.70を達成している。 これはほぼ同じだが、航空、または航空、lidarの組み合わせモデルの性能よりは低い。

Background: The mapping of tree species within Norwegian forests is a time-consuming process, involving forest associations relying on manual labeling by experts. The process can involve both aerial imagery, personal familiarity, or on-scene references, and remote sensing data. The state-of-the-art methods usually use high resolution aerial imagery with semantic segmentation methods. Methods: We present a deep learning based tree species classification model utilizing only lidar (Light Detection And Ranging) data. The lidar images are segmented into four classes (Norway Spruce, Scots Pine, Birch, background) with a U-Net based network. The model is trained with focal loss over partial weak labels. A major benefit of the approach is that both the lidar imagery and the base map for the labels have free and open access. Results: Our tree species classification model achieves a macro-averaged F1 score of 0.70 on an independent validation with National Forest Inventory (NFI) in-situ sample plots. That is close to, but below the performance of aerial, or aerial and lidar combined models.
翻訳日:2023-11-13 15:07:42 公開日:2023-11-10
# riga: 後悔に基づく対話型遺伝的アルゴリズム

RIGA: A Regret-Based Interactive Genetic Algorithm ( http://arxiv.org/abs/2311.06063v1 )

ライセンス: Link先を確認
Nawal Benabbou and Cassandre Leroy and Thibaut Lust(参考訳) 本稿では,多目的組合せ最適化問題を解くための対話型遺伝的アルゴリズムを提案する。 より正確には、解に対する意思決定者の選好をパラメータ化された集計関数(例えば、重み付き和、owa演算子、コケ積分)で表現できる問題を考える。 良質な推薦を迅速に行うために、私たちは次の方法で説明と検索を組み合わせる。 1) パラメータ空間を効率的に削減するために, 後悔に基づく推論手法を用いる。 2) パラメータ空間をよりよく探索するために, パラメータインスタンス(解ではなく)に遺伝的演算子を適用する。 3) 既知の選好問題に対する既存の解法を用いて, 期待できる解(人口)を生成する。 このアルゴリズムは riga と呼ばれ, 任意の多目的組合せ最適化問題に適用可能であり, 集約関数はそのパラメータにおいて線形であり, 既知の選好問題に対して(近傍)最適解を効率的に決定できる。 RIGAは、多項式数以上のクエリを要求しながら、多項式時間で実行されるように実装できる。 この方法は多目的クナップサック問題とトラベルセールスマン問題でテストされている。 いくつかのパフォーマンス指標(計算時間、最適性とクエリ数のギャップ)に対して、RIGAは最先端のアルゴリズムよりも優れた結果を得る。

In this paper, we propose an interactive genetic algorithm for solving multi-objective combinatorial optimization problems under preference imprecision. More precisely, we consider problems where the decision maker's preferences over solutions can be represented by a parameterized aggregation function (e.g., a weighted sum, an OWA operator, a Choquet integral), and we assume that the parameters are initially not known by the recommendation system. In order to quickly make a good recommendation, we combine elicitation and search in the following way: 1) we use regret-based elicitation techniques to reduce the parameter space in a efficient way, 2) genetic operators are applied on parameter instances (instead of solutions) to better explore the parameter space, and 3) we generate promising solutions (population) using existing solving methods designed for the problem with known preferences. Our algorithm, called RIGA, can be applied to any multi-objective combinatorial optimization problem provided that the aggregation function is linear in its parameters and that a (near-)optimal solution can be efficiently determined for the problem with known preferences. We also study its theoretical performances: RIGA can be implemented in such way that it runs in polynomial time while asking no more than a polynomial number of queries. The method is tested on the multi-objective knapsack and traveling salesman problems. For several performance indicators (computation times, gap to optimality and number of queries), RIGA obtains better results than state-of-the-art algorithms.
翻訳日:2023-11-13 15:07:28 公開日:2023-11-10
# 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃

Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration ( http://arxiv.org/abs/2311.06062v1 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang(参考訳) メンバーシップ推論攻撃(mia)は、対象のデータレコードがモデルトレーニングに利用されたかどうかを推測することを目的としている。 以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。 LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。 どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。 しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。 基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高い会員信号を測定するLLMにおいて有望な効果を達成しているように見える。 しかしながら、参照ベースの攻撃のパフォーマンスは、トレーニングデータセットに非常に近い参照データセットに大きく依存している。 全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。 本稿では,自補的確率的変動(spv-mia)に基づくメンバシップ推論攻撃を提案する。 具体的には, 学習過程においてllmの記憶は避けられず, オーバーフィッティング前に発生するため, オーバーフィッティングよりも記憶に基づく, より信頼性の高いメンバーシップ信号, 確率的変動を導入する。 さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。 このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。

Membership Inference Attacks (MIA) aim to infer whether a target data record has been utilized for model training or not. Prior attempts have quantified the privacy risks of language models (LMs) via MIAs, but there is still no consensus on whether existing MIA algorithms can cause remarkable privacy leakage on practical Large Language Models (LLMs). Existing MIAs designed for LMs can be classified into two categories: reference-free and reference-based attacks. They are both based on the hypothesis that training records consistently strike a higher probability of being sampled. Nevertheless, this hypothesis heavily relies on the overfitting of target models, which will be mitigated by multiple regularization methods and the generalization of LLMs. The reference-based attack seems to achieve promising effectiveness in LLMs, which measures a more reliable membership signal by comparing the probability discrepancy between the target model and the reference model. However, the performance of reference-based attack is highly dependent on a reference dataset that closely resembles the training dataset, which is usually inaccessible in the practical scenario. Overall, existing MIAs are unable to effectively unveil privacy leakage over practical fine-tuned LLMs that are overfitting-free and private. We propose a Membership Inference Attack based on Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since memorization in LLMs is inevitable during the training process and occurs before overfitting, we introduce a more reliable membership signal, probabilistic variation, which is based on memorization rather than overfitting. Furthermore, we introduce a self-prompt approach, which constructs the dataset to fine-tune the reference model by prompting the target LLM itself. In this manner, the adversary can collect a dataset with a similar distribution from public APIs.
翻訳日:2023-11-13 15:07:02 公開日:2023-11-10
# 入射ニューラル表現に基づくコンパクトデータ表現のための位置符号化の改良

Improved Positional Encoding for Implicit Neural Representation based Compact Data Representation ( http://arxiv.org/abs/2311.06059v1 )

ライセンス: Link先を確認
Bharath Bhushan Damodaran, Francois Schnitzler, Anne Lambert, Pierre Hellier(参考訳) 位置符号化を用いて、暗黙の神経表現(INR)において符号化された信号の高周波情報をキャプチャする。 本稿では,INRの再構成品質を向上させる新しい位置符号化手法を提案する。 提案手法は,従来の手法よりも周波数ベースが大きいため,コンパクトなデータ表現に有利である。 提案手法は, 圧縮作業の複雑さや新規ビュー合成の再現性の向上を伴わずに, 速度歪み性能を著しく向上することを示す。

Positional encodings are employed to capture the high frequency information of the encoded signals in implicit neural representation (INR). In this paper, we propose a novel positional encoding method which improves the reconstruction quality of the INR. The proposed embedding method is more advantageous for the compact data representation because it has a greater number of frequency basis than the existing methods. Our experiments shows that the proposed method achieves significant gain in the rate-distortion performance without introducing any additional complexity in the compression task and higher reconstruction quality in novel view synthesis.
翻訳日:2023-11-13 15:06:31 公開日:2023-11-10
# アクティブラーニングと生成データ増強を併用した潰瘍性大腸炎マヨ内視鏡検査

Ulcerative Colitis Mayo Endoscopic Scoring Classification with Active Learning and Generative Data Augmentation ( http://arxiv.org/abs/2311.06057v1 )

ライセンス: Link先を確認
\"Umit Mert \c{C}a\u{g}lar, Alperen \.Inci, O\u{g}uz Hano\u{g}lu, G\"orkem Polat, Alptekin Temizel(参考訳) 内視鏡イメージングは潰瘍性大腸炎(uc)の診断や重症度分類に一般的に用いられる。 深層学習に基づく手法は, これらの画像の自動解析に有効であり, 医師の助けとなる可能性があることが示されている。 これらの手法の完全な可能性を解き放つことは、大量のラベル付き画像の可用性に依存するが、これらの画像の取得とラベル付けは極めて困難である。 本稿では,能動的学習に基づく生成促進手法を提案する。 この方法は、実際の内視鏡画像からなる小さなデータセットを使用して、多数の合成サンプルを生成することを含む。 得られたデータプールは、アクティブな学習方法を使用して最も情報性の高いサンプルを選択し、次に分類器を訓練する。 提案手法の有効性を実演し,公開画像データセットを用いた実験を行った。 その結果, アクティブラーニングと組み合わせて合成サンプルを用いることで, 従来のラベル付きサンプルよりも分類性能が向上し, 準重み付きカッパスコアでは68.1%のベースライン分類性能が74.5%に向上した。 また、実データのみを使用して同等の性能を達成するには、画像の3倍の精度が必要となるという観測もある。

Endoscopic imaging is commonly used to diagnose Ulcerative Colitis (UC) and classify its severity. It has been shown that deep learning based methods are effective in automated analysis of these images and can potentially be used to aid medical doctors. Unleashing the full potential of these methods depends on the availability of large amount of labeled images; however, obtaining and labeling these images are quite challenging. In this paper, we propose a active learning based generative augmentation method. The method involves generating a large number of synthetic samples by training using a small dataset consisting of real endoscopic images. The resulting data pool is narrowed down by using active learning methods to select the most informative samples, which are then used to train a classifier. We demonstrate the effectiveness of our method through experiments on a publicly available endoscopic image dataset. The results show that using synthesized samples in conjunction with active learning leads to improved classification performance compared to using only the original labeled examples and the baseline classification performance of 68.1% increases to 74.5% in terms of Quadratic Weighted Kappa (QWK) Score. Another observation is that, attaining equivalent performance using only real data necessitated three times higher number of images.
翻訳日:2023-11-13 15:06:21 公開日:2023-11-10
# 限られたサンプルを対象とする超高次視覚分類のための学習コントラスト自己蒸留法

Learning Contrastive Self-Distillation for Ultra-Fine-Grained Visual Categorization Targeting Limited Samples ( http://arxiv.org/abs/2311.06056v1 )

ライセンス: Link先を確認
Ziye Fang, Xin Jiang, Hao Tang, Zechao Li(参考訳) インテリジェントマルチメディア分析の分野では、Ultra-FGVC(Ultra-FGVC)はより広いカテゴリの複雑なサブカテゴリを区別する上で重要な役割を担っている。 しかし、この課題は、カテゴリ区分の複雑な粒度と、カテゴリごとのデータ可用性の制限により本質的に困難である。 これらの課題に対処するため、この研究は、Ultra-FGVCタスク用に特別に設計された識別表現を学習するために、対照的な学習と自己蒸留を効果的に探求する先駆的なフレームワークであるCSDNetを提案する。 CSDNetは3つの主要なモジュールで構成されている: Subcategory-Specific Discrepancy Parsing (SSDP)、Dynamic Discrepancy Learning (DDL)、Subcategory-Specific Discrepancy Transfer (SSDT)。 トレーニングサンプルの多様性を高めるため、SSDPモジュールは異なる視点から、スポットライトのサブカテゴリ固有の相違点に拡張サンプルを導入する。 同時に提案するDDLモジュールは,動的メモリキューによって履歴中間機能を格納し,反復的コントラスト学習により特徴学習空間を最適化する。 さらに、SSDTモジュールは、生サンプルと増補サンプルのロジット予測レベルでの新しい自己蒸留パラダイムによって開発され、追加アノテーションを必要とせず、限られたトレーニングデータ固有の構造から、よりサブカテゴリ固有の不一致知識を効果的に蒸留する。 実験の結果、CSDNetは現在のUltra-FGVC法よりも優れており、Ultra-FGVCタスクに対処する上で、その強力な有効性と適応性を強調している。

In the field of intelligent multimedia analysis, ultra-fine-grained visual categorization (Ultra-FGVC) plays a vital role in distinguishing intricate subcategories within broader categories. However, this task is inherently challenging due to the complex granularity of category subdivisions and the limited availability of data for each category. To address these challenges, this work proposes CSDNet, a pioneering framework that effectively explores contrastive learning and self-distillation to learn discriminative representations specifically designed for Ultra-FGVC tasks. CSDNet comprises three main modules: Subcategory-Specific Discrepancy Parsing (SSDP), Dynamic Discrepancy Learning (DDL), and Subcategory-Specific Discrepancy Transfer (SSDT), which collectively enhance the generalization of deep models across instance, feature, and logit prediction levels. To increase the diversity of training samples, the SSDP module introduces augmented samples from different viewpoints to spotlight subcategory-specific discrepancies. Simultaneously, the proposed DDL module stores historical intermediate features by a dynamic memory queue, which optimizes the feature learning space through iterative contrastive learning. Furthermore, the SSDT module is developed by a novel self-distillation paradigm at the logit prediction level of raw and augmented samples, which effectively distills more subcategory-specific discrepancies knowledge from the inherent structure of limited training data without requiring additional annotations. Experimental results demonstrate that CSDNet outperforms current state-of-the-art Ultra-FGVC methods, emphasizing its powerful efficacy and adaptability in addressing Ultra-FGVC tasks.
翻訳日:2023-11-13 15:05:58 公開日:2023-11-10
# 光パワー制限状態における連続・パルス窒素空洞直流磁力計の比較

Comparing continuous and pulsed nitrogen-vacancy DC magnetometry in the optical-power-limited regime ( http://arxiv.org/abs/2311.06055v1 )

ライセンス: Link先を確認
Maggie Wang, Michael Caouette-Mansour, Adrian Solyom and Lilian Childress(参考訳) ダイヤモンド中の窒素空孔(NV)中心スピンのアンサンブルは、堅牢で正確で正確な磁気センサを提供する。 応用が実験室を超えて進むにつれて、サイズ、複雑さ、消費電力といった実践的な考察が重要になる。 ここでは、連続波(CW)とパルス磁気共鳴の2つの一般的なNV磁気計測技術を比較する。 我々は、nvフォトフィジカルスを組み込んだ各プロトコルの磁気感度に関する一貫した理論モデル(特に、制限された光学パワーに関連する不完全スピン偏光を含む)を開発し、モデルの挙動を実験と比較し、cwの相対直流感度と光パワー制限ショットノイズ制限nvアンサンブル磁気センサのパルス動作を予測した。 パルス演算に対する感度が$\sim 2-3 \times$ゲインであることは、パワー無制限の単一NV実験で見られるよりもはるかに小さい。 本研究は,光学パワーの制約下でのセンサ開発,プロトコル選択,最適動作条件の特定を行うためのリソースを提供する。

Ensembles of nitrogen-vacancy (NV) center spins in diamond offer a robust, precise and accurate magnetic sensor. As their applications move beyond the laboratory, practical considerations including size, complexity, and power consumption become important. Here, we compare two commonly-employed NV magnetometry techniques -- continuous-wave (CW) vs pulsed magnetic resonance -- in a scenario limited by total available optical power. We develop a consistent theoretical model for the magnetic sensitivity of each protocol that incorporates NV photophysics - in particular, including the incomplete spin polarization associated with limited optical power; after comparing the models' behaviour to experiments, we use them to predict the relative DC sensitivity of CW versus pulsed operation for an optical-power-limited, shot-noise-limited NV ensemble magnetometer. We find a $\sim 2-3 \times$ gain in sensitivity for pulsed operation, which is significantly smaller than seen in power-unlimited, single-NV experiments. Our results provide a resource for practical sensor development, informing protocol choice and identifying optimal operation regimes when optical power is constrained.
翻訳日:2023-11-13 15:05:06 公開日:2023-11-10
# ハイパーパラメータチューニングによるONCEベンチマークの精査

Refining the ONCE Benchmark with Hyperparameter Tuning ( http://arxiv.org/abs/2311.06054v1 )

ライセンス: Link先を確認
Maksim Golyadkin, Alexander Gambashidze, Ildar Nurgaliev, Ilya Makarov(参考訳) 自動運転やロボティクス、拡張現実といったアプリケーションにおける3dオブジェクト検出の需要が高まっている中、本研究はポイントクラウドデータの半教師あり学習手法の評価に焦点を当てている。 点雲表現は、LiDARセンサーの進歩により、照明条件に関わらず、信頼性が高く一貫した観察を提供する。 データアノテーションは、LiDARアプリケーションのコンテキストにおいて最重要であり、半教師付きメソッドによる3Dデータアノテーションの自動化は、関連するワークロードを削減し、コスト効率の良いLiDARソリューションの出現を促進する重要な課題である。 それでも、秩序のない点雲データの文脈における半教師あり学習の課題は、正確な擬似ラベルの生成を妨げる固有の空間性や不完全な形状のために、いまだに厳しいままである。 本研究では,これらの課題について,「ラベルなしのデータがモデル性能の向上にどの程度寄与するか」という疑問を呈することで考察する。 従来の半教師付き手法による改善は,従来考えられていたほど深くない可能性がある。 以上の結果から,教師付きモデルに適用した単純なグリッド探索ハイパーパラメータチューニングがONCEデータセットの最先端性能に繋がる可能性が示唆された。

In response to the growing demand for 3D object detection in applications such as autonomous driving, robotics, and augmented reality, this work focuses on the evaluation of semi-supervised learning approaches for point cloud data. The point cloud representation provides reliable and consistent observations regardless of lighting conditions, thanks to advances in LiDAR sensors. Data annotation is of paramount importance in the context of LiDAR applications, and automating 3D data annotation with semi-supervised methods is a pivotal challenge that promises to reduce the associated workload and facilitate the emergence of cost-effective LiDAR solutions. Nevertheless, the task of semi-supervised learning in the context of unordered point cloud data remains formidable due to the inherent sparsity and incomplete shapes that hinder the generation of accurate pseudo-labels. In this study, we consider these challenges by posing the question: "To what extent does unlabelled data contribute to the enhancement of model performance?" We show that improvements from previous semi-supervised methods may not be as profound as previously thought. Our results suggest that simple grid search hyperparameter tuning applied to a supervised model can lead to state-of-the-art performance on the ONCE dataset, while the contribution of unlabelled data appears to be comparatively less exceptional.
翻訳日:2023-11-13 15:04:30 公開日:2023-11-10
# フェデレーショングラフ学習による個人レベルウイルス感染予測のプライバシ保護

Privacy-Preserving Individual-Level COVID-19 Infection Prediction via Federated Graph Learning ( http://arxiv.org/abs/2311.06049v1 )

ライセンス: Link先を確認
Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang(参考訳) 個別の感染状況の正確な予測は、感染の被害を減らすのに不可欠な役割であるため、非常に重要である。 しかし,個人レベルの感染予測が要求する細粒度のユーザモビリティトラジェクタでは,プライバシの漏えいリスクは避けられない。 本稿では,フェデレートラーニング(FL)とグラフニューラルネットワーク(GNN)に基づく,プライバシ保護のための個人レベルの感染予測フレームワークの開発に焦点をあてる。 プライバシを保全する個人レベルの感染予測のためのフェデレーショングラフ学習手法であるfalconを提案する。 空間的ハイパーエッジを持つ新しいハイパーグラフ構造を用いて、感染過程における個人と場所の間の複雑な相互作用を記述する。 flフレームワークとハイパーグラフニューラルネットワークを有機的に結合することにより、グラフ機械学習の情報伝達プロセスは、サーバとクライアントに分散した2つのステージに分割され、高レベルの情報を送信しながらユーザのプライバシを効果的に保護することができる。 さらに,ユーザプライバシをグラフ構造に保持するための,差分プライバシー摂動機構と,疑似位置情報生成手法を精巧に設計した。 さらに, 個別レベル予測モデルと追加領域レベルモデルとの協調結合機構を導入し, 注入された難読化機構による有害影響を緩和する。 広範な実験結果から,本手法は最先端アルゴリズムよりも優れており,ユーザのプライバシを実際のプライバシ攻撃から保護できることがわかった。 私たちのコードとデータセットはリンクで利用可能です。

Accurately predicting individual-level infection state is of great value since its essential role in reducing the damage of the epidemic. However, there exists an inescapable risk of privacy leakage in the fine-grained user mobility trajectories required by individual-level infection prediction. In this paper, we focus on developing a framework of privacy-preserving individual-level infection prediction based on federated learning (FL) and graph neural networks (GNN). We propose Falcon, a Federated grAph Learning method for privacy-preserving individual-level infeCtion predictiON. It utilizes a novel hypergraph structure with spatio-temporal hyperedges to describe the complex interactions between individuals and locations in the contagion process. By organically combining the FL framework with hypergraph neural networks, the information propagation process of the graph machine learning is able to be divided into two stages distributed on the server and the clients, respectively, so as to effectively protect user privacy while transmitting high-level information. Furthermore, it elaborately designs a differential privacy perturbation mechanism as well as a plausible pseudo location generation approach to preserve user privacy in the graph structure. Besides, it introduces a cooperative coupling mechanism between the individual-level prediction model and an additional region-level model to mitigate the detrimental impacts caused by the injected obfuscation mechanisms. Extensive experimental results show that our methodology outperforms state-of-the-art algorithms and is able to protect user privacy against actual privacy attacks. Our code and datasets are available at the link: https://github.com/wjfu99/FL-epidemic.
翻訳日:2023-11-13 15:03:39 公開日:2023-11-10
# 自律走行における3次元物体検出・追跡のための深層学習:簡単な調査

Deep learning for 3D Object Detection and Tracking in Autonomous Driving: A Brief Survey ( http://arxiv.org/abs/2311.06043v1 )

ライセンス: Link先を確認
Yang Peng(参考訳) オブジェクトの検出と追跡は、シーン内で事前に定義されたカテゴリからオブジェクトを特定し、配置することを目的として、自律運転にとって不可欠で基本的なタスクである。 3d point cloud learningは、他のあらゆる自動運転データにますます注目を集めている。 現在,3次元物体検出のための深層学習法が多数存在する。 しかしながら、ポイントクラウドデータのユニークな特徴から、オブジェクト検出とポイントクラウド追跡のタスクは依然として集中的な研究が必要である。 本研究では,3次元物体検出・追跡のための深層学習手法の最近の進歩について述べる。

Object detection and tracking are vital and fundamental tasks for autonomous driving, aiming at identifying and locating objects from those predefined categories in a scene. 3D point cloud learning has been attracting more and more attention among all other forms of self-driving data. Currently, there are many deep learning methods for 3D object detection. However, the tasks of object detection and tracking for point clouds still need intensive study due to the unique characteristics of point cloud data. To help get a good grasp of the present situation of this research, this paper shows recent advances in deep learning methods for 3D object detection and tracking.
翻訳日:2023-11-13 15:03:06 公開日:2023-11-10
# 閉塞条件下での潜時空間回帰による2次元画像頭部ポーズ推定

2D Image head pose estimation via latent space regression under occlusion settings ( http://arxiv.org/abs/2311.06038v1 )

ライセンス: Link先を確認
Jos\'e Celestino, Manuel Marques, Jacinto C. Nascimento and Jo\~ao Paulo Costeira(参考訳) ヘッドオリエンテーションはコンピュータビジョンの問題であり、様々な用途で広く研究されている。 しかし、現在の最先端システムは、隠蔽の存在下ではまだ性能が低く、そのようなシナリオにおける多くのタスクアプリケーションには信頼できない。 本研究は,隠蔽下での頭部ポーズ推定問題に対する新しい深層学習手法を提案する。 この戦略は、隠されたシナリオの問題をよりよく構造化するための基本的な鍵として、潜在空間回帰に基づいている。 本モデルはオクルードhpeの最先端手法を数種類超え,非オクルードシナリオでも同様の精度を実現する。 提案手法の有用性を示す。 (i)BIWIとAFLW2000データセットの2つの合成外用バージョン (ii)pandoraデータセットの実生活閉塞、及び 三 顔の閉塞がしばしば発生する人間とロボットの相互作用シナリオに対する現実的な応用。 具体的には、ロボットアームからの自律給餌です。

Head orientation is a challenging Computer Vision problem that has been extensively researched having a wide variety of applications. However, current state-of-the-art systems still underperform in the presence of occlusions and are unreliable for many task applications in such scenarios. This work proposes a novel deep learning approach for the problem of head pose estimation under occlusions. The strategy is based on latent space regression as a fundamental key to better structure the problem for occluded scenarios. Our model surpasses several state-of-the-art methodologies for occluded HPE, and achieves similar accuracy for non-occluded scenarios. We demonstrate the usefulness of the proposed approach with: (i) two synthetically occluded versions of the BIWI and AFLW2000 datasets, (ii) real-life occlusions of the Pandora dataset, and (iii) a real-life application to human-robot interaction scenarios where face occlusions often occur. Specifically, the autonomous feeding from a robotic arm.
翻訳日:2023-11-13 15:02:49 公開日:2023-11-10
# 火で戦う:パターンランダム化された防御パッチによる敵のパッチ攻撃

Fight Fire with Fire: Combating Adversarial Patch Attacks using Pattern-randomized Defensive Patches ( http://arxiv.org/abs/2311.06122v1 )

ライセンス: Link先を確認
Jianan Feng, Jiachun Li, Changqing Miao, Jianjun Huang, Wei You, Wenchang Shi, Bin Liang(参考訳) オブジェクト検出は様々なタスクで広範囲に応用されているが、敵のパッチ攻撃にも影響される。 既存の防御方法は、しばしばターゲットモデルの変更を必要とするか、あるいは許容できない時間オーバーヘッドをもたらす。 本稿では,「火炎と戦え」という原則に従って反撃アプローチを採り,敵対的攻撃を防御するための新規で汎用的な手法を提案する。 本研究では,2種類の防御パッチ,カナリアパッチ,ウッドペッカーを入力に注入し,標的モデルを変更することなく,潜在的な敵パッチを積極的に調査または弱めることにより,アクティブな防御戦略を利用する。 さらに,ソフトウェアセキュリティにおけるランダム化手法に着想を得て,ランダム化カナリアとウッドペッカーの注入パターンを用いて防御アウェア攻撃を防御する。 提案手法の有効性と実用性を総合実験により実証した。 その結果,カナリアとウッドペッカーは未知の攻撃手法に直面する場合でも高い性能を達成でき,時間的オーバーヘッドも少ないことがわかった。 さらに,アダプティブアタック実験で示されたように,防御認識攻撃に対する十分なロバスト性を示す。

Object detection has found extensive applications in various tasks, but it is also susceptible to adversarial patch attacks. Existing defense methods often necessitate modifications to the target model or result in unacceptable time overhead. In this paper, we adopt a counterattack approach, following the principle of "fight fire with fire," and propose a novel and general methodology for defending adversarial attacks. We utilize an active defense strategy by injecting two types of defensive patches, canary and woodpecker, into the input to proactively probe or weaken potential adversarial patches without altering the target model. Moreover, inspired by randomization techniques employed in software security, we employ randomized canary and woodpecker injection patterns to defend against defense-aware attacks. The effectiveness and practicality of the proposed method are demonstrated through comprehensive experiments. The results illustrate that canary and woodpecker achieve high performance, even when confronted with unknown attack methods, while incurring limited time overhead. Furthermore, our method also exhibits sufficient robustness against defense-aware attacks, as evidenced by adaptive attack experiments.
翻訳日:2023-11-13 14:55:05 公開日:2023-11-10
# 本当にもっと大きいの? 情報処理に応用したクレーム検出用LMの総合的研究

Is it indeed bigger better? The comprehensive study of claim detection LMs applied for disinformation tackling ( http://arxiv.org/abs/2311.06121v1 )

ライセンス: Link先を確認
Martin Hyben, Sebastian Kula, Ivan Srba, Robert Moro, Jakub Simko(参考訳) 本研究は,(1)微調整モデルと(2)チェック値クレーム検出タスクにおける超大規模言語モデルの性能を比較する。 比較のために,様々な情報源やスタイルのテキストからなる多言語・多言語データセットを構築した。 これに基づいて,最も一般的な多言語および多話題クレーム検出器を決定するためのベンチマーク解析を行った。 我々は、チェック価値のあるクレーム検出タスクで3つの最先端モデルを選択し、それらを微調整した。 さらに、3つの最先端の超大規模言語モデルを微調整なしで選択した。 我々は,多言語設定や広範囲な実験,評価を通じて,モデルの変更を行った。 ドメイン内およびクロスドメインシナリオにおける精度,リコール,F1スコアの観点から,すべてのモデルの性能を評価した。 以上の結果から,自然言語処理分野における技術進歩にもかかわらず,チェック価値の高いクレーム検出のタスク用に微調整されたモデルは,クロスドメイン設定におけるゼロショットアプローチよりも優れていた。

This study compares the performance of (1) fine-tuned models and (2) extremely large language models on the task of check-worthy claim detection. For the purpose of the comparison we composed a multilingual and multi-topical dataset comprising texts of various sources and styles. Building on this, we performed a benchmark analysis to determine the most general multilingual and multi-topical claim detector. We chose three state-of-the-art models in the check-worthy claim detection task and fine-tuned them. Furthermore, we selected three state-of-the-art extremely large language models without any fine-tuning. We made modifications to the models to adapt them for multilingual settings and through extensive experimentation and evaluation. We assessed the performance of all the models in terms of accuracy, recall, and F1-score in in-domain and cross-domain scenarios. Our results demonstrate that despite the technological progress in the area of natural language processing, the models fine-tuned for the task of check-worthy claim detection still outperform the zero-shot approaches in a cross-domain settings.
翻訳日:2023-11-13 14:54:46 公開日:2023-11-10
# 変形性膝関節症に対するDeep Learning-based Radiograph 分類におけるベースデータ拡張法の有用性の検討

Exploring the Efficacy of Base Data Augmentation Methods in Deep Learning-Based Radiograph Classification of Knee Joint Osteoarthritis ( http://arxiv.org/abs/2311.06118v1 )

ライセンス: Link先を確認
Fabi Prezja, Leevi Annala, Sampsa Kiiskinen, Timo Ojala(参考訳) 世界規模の障害の主な原因である膝関節症(KOA)の診断は、微妙なX線学的指標と疾患の進展により困難である。 KOA診断にディープラーニングを使用するには、広範囲で包括的なデータセットが必要である。 しかし、これらのデータセットを取得することは、患者のプライバシーの懸念とデータ収集の制限のために重大な課題をもたらす。 データ可変性を高める付加的なデータ拡張は、有望なソリューションとして現れます。 しかし、どの拡張テクニックがKOAに最も有効かは明らかではない。 本研究では,敵対的拡張を含む様々なデータ拡張手法と,そのkoa分類モデル性能への影響について検討した。 いくつかの技術は性能を改善したが、他の技術は性能が低かった。 画像中の潜在的結合領域を, 逆加法を用いて同定した。 これは,KL0とKL4を正確に分類し,膝関節を省略したモデルによって証明された。 この観察は、現在ラジオグラフに存在する分類に関係のない特徴を利用するモデルバイアスを示唆した。 興味深いことに、膝関節の除去もKL1分類精度の予期せぬ改善につながった。 これらのパラドックス効果をよりよく可視化するために、我々はGrad-CAMを使用し、関連する領域を強調した。 本研究は, 深層学習において, モデル性能向上のための慎重な手法選択の必要性を指摘する。

Diagnosing knee joint osteoarthritis (KOA), a major cause of disability worldwide, is challenging due to subtle radiographic indicators and the varied progression of the disease. Using deep learning for KOA diagnosis requires broad, comprehensive datasets. However, obtaining these datasets poses significant challenges due to patient privacy concerns and data collection restrictions. Additive data augmentation, which enhances data variability, emerges as a promising solution. Yet, it's unclear which augmentation techniques are most effective for KOA. This study explored various data augmentation methods, including adversarial augmentations, and their impact on KOA classification model performance. While some techniques improved performance, others commonly used underperformed. We identified potential confounding regions within the images using adversarial augmentation. This was evidenced by our models' ability to classify KL0 and KL4 grades accurately, with the knee joint omitted. This observation suggested a model bias, which might leverage unrelated features for classification currently present in radiographs. Interestingly, removing the knee joint also led to an unexpected improvement in KL1 classification accuracy. To better visualize these paradoxical effects, we employed Grad-CAM, highlighting the associated regions. Our study underscores the need for careful technique selection for improved model performance and identifying and managing potential confounding regions in radiographic KOA deep learning.
翻訳日:2023-11-13 14:54:25 公開日:2023-11-10
# 離散ベイズネットワークの分布的ロバストスケルトン学習

Distributionally Robust Skeleton Learning of Discrete Bayesian Networks ( http://arxiv.org/abs/2311.06117v1 )

ライセンス: Link先を確認
Yeshu Li and Brian D. Ziebart(参考訳) 我々は,一般的な離散ベイズネットワークの正確な骨格を,潜在的に破損したデータから学習する問題を考える。 分布的ロバストな最適化と回帰的アプローチに基づいて,バウンダリ・ワッサースタイン距離内の分布群に対する最も悪いリスクの最適化や,経験的分布へのkl発散を提案する。 最悪の場合のリスクは異常値の影響を負う。 提案手法は, 信頼度, 順序関係, 条件分布の特定の形式を仮定することなく, 一般カテゴリー確率変数に適用する。 本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。 穏やかな仮定の下では、有界次グラフに対する対数サンプル複素性を持つ構造学習を成功させるための非漸近的保証を導出する。 合成データと実データに関する数値的研究により,本手法の有効性が検証された。 コードはhttps://github.com/danielleee/drslbnで入手できる。

We consider the problem of learning the exact skeleton of general discrete Bayesian networks from potentially corrupted data. Building on distributionally robust optimization and a regression approach, we propose to optimize the most adverse risk over a family of distributions within bounded Wasserstein distance or KL divergence to the empirical distribution. The worst-case risk accounts for the effect of outliers. The proposed approach applies for general categorical random variables without assuming faithfulness, an ordinal relationship or a specific form of conditional distribution. We present efficient algorithms and show the proposed methods are closely related to the standard regularized regression approach. Under mild assumptions, we derive non-asymptotic guarantees for successful structure learning with logarithmic sample complexities for bounded-degree graphs. Numerical study on synthetic and real datasets validates the effectiveness of our method. Code is available at https://github.com/DanielLeee/drslbn.
翻訳日:2023-11-13 14:54:03 公開日:2023-11-10
# 減衰振動子モードを含む複合オープン量子システムのモーメント展開法

Moment expansion method for composite open quantum systems including a damped oscillator mode ( http://arxiv.org/abs/2311.06113v1 )

ライセンス: Link先を確認
Masaaki Tokieda(参考訳) 我々は、振動子モードを共振駆動とし、位置二次演算子を介して任意の目標系に結合する。 このような複合開放量子系に対して、対象系の還元密度行列と二次作用素の低次モーメントを計算する数値計算法を開発する。 本手法では,従来の手法のように密度行列の要素ではなく,二次作用素のモーメントに関連する量の進化方程式を解く。 光学的手法の適用により,計算コストを大幅に削減して相関関数を正確に計算できることが示されている。 本手法は抽象的な定式化自体に近似を含まないため,数値的精度をよく検討する。 本研究は,特定のパラメータ構造における新しいアプローチの数値感度を明らかにする。 この問題は、一般的に使われているFockベースの代わりに位置ベースを使用することで緩和できる。

We consider a damped oscillator mode that is resonantly driven and is coupled to an arbitrary target system via the position quadrature operator. For such a composite open quantum system, we develop a numerical method to compute the reduced density matrix of the target system and the low-order moments of the quadrature operators. In this method, we solve the evolution equations for quantities related to moments of the quadrature operators, rather than for the density matrix elements as in the conventional approach. The application to an optomechanical setting shows that the new method can compute the correlation functions accurately with a significant reduction in the computational cost. Since the method does not involve any approximation in its abstract formulation itself, we investigate the numerical accuracy closely. This study reveals the numerical sensitivity of the new approach in certain parameter regimes. We find that this issue can be alleviated by using the position basis instead of the commonly used Fock basis.
翻訳日:2023-11-13 14:53:49 公開日:2023-11-10
# ディープラーニング拡散生成モデルからの乱流スケーリング

Turbulence Scaling from Deep Learning Diffusion Generative Models ( http://arxiv.org/abs/2311.06112v1 )

ライセンス: Link先を確認
Tim Whittaker and Romuald A. Janik and Yaron Oz(参考訳) 複雑な空間構造と時間構造は乱流の固有特性であり、それらを分解することが大きな課題となる。 この相補性は乱流構成の空間の理解を必要とする。 拡散モデルを用いて乱流渦の分布を学習し,非圧縮性ナビエ・ストークス方程式に対する乱流解のスナップショットを生成する。 逆カスケードを2つの空間次元で検討し、トレーニングデータセットとは異なる多様な乱流解を生成する。 我々は,新しい乱流プロファイルの統計的スケーリング特性を分析し,その構造関数,エネルギーパワースペクトル,速度分布関数,局所エネルギー散逸のモーメントを計算した。 学習したスケーリング指数はすべて、期待されるKolmogorovスケーリングと一致しており、トレーニングよりもエラーが少ない。 確立された乱流特性とのこの合意は、モデルが現実世界の乱流の本質的な特徴を捉える能力の強い証拠となる。

Complex spatial and temporal structures are inherent characteristics of turbulent fluid flows and comprehending them poses a major challenge. This comprehesion necessitates an understanding of the space of turbulent fluid flow configurations. We employ a diffusion-based generative model to learn the distribution of turbulent vorticity profiles and generate snapshots of turbulent solutions to the incompressible Navier-Stokes equations. We consider the inverse cascade in two spatial dimensions and generate diverse turbulent solutions that differ from those in the training dataset. We analyze the statistical scaling properties of the new turbulent profiles, calculate their structure functions, energy power spectrum, velocity probability distribution function and moments of local energy dissipation. All the learnt scaling exponents are consistent with the expected Kolmogorov scaling and have lower errors than the training ones. This agreement with established turbulence characteristics provides strong evidence of the model's capability to capture essential features of real-world turbulence.
翻訳日:2023-11-13 14:53:36 公開日:2023-11-10
# ニューヨーク市における新型コロナウイルスパンデミック前後の自転車シェア需要に対する解釈可能な機械学習フレームワーク

An Interpretable Machine Learning Framework to Understand Bikeshare Demand before and during the COVID-19 Pandemic in New York City ( http://arxiv.org/abs/2311.06110v1 )

ライセンス: Link先を確認
Majbah Uddin, Ho-Ling Hwang, Md Sami Hasnine(参考訳) 近年、自転車シェアリングシステムは安価で持続可能なマイクロモビリティソリューションとして人気が高まっている。 機械学習のような高度な数学モデルは、自転車シェアの需要を適切に予測するために必要である。 そこで本研究では,大規模自転車シェアリングシステムにおける時間需要を推定する機械学習モデリングフレームワークを提案する。 新型コロナウイルス(covid-19)パンデミック前のデータ(2019年3月~2020年2月)と、パンデミック時のデータ(2020年3月~2021年2月)の2つの極端な勾配上昇モデルが開発された。 さらに、SHapley Additive exPlanationsに基づくモデル解釈フレームワークを実装した。 本研究で考慮された説明変数の相対的重要性に基づき,両モデルにおいて女性利用者と時間帯の共有が2つの重要な説明変数であった。 しかし,パンデミック前モデルよりもパンデミック前モデルの方が月間変動が重要であった。

In recent years, bikesharing systems have become increasingly popular as affordable and sustainable micromobility solutions. Advanced mathematical models such as machine learning are required to generate good forecasts for bikeshare demand. To this end, this study proposes a machine learning modeling framework to estimate hourly demand in a large-scale bikesharing system. Two Extreme Gradient Boosting models were developed: one using data from before the COVID-19 pandemic (March 2019 to February 2020) and the other using data from during the pandemic (March 2020 to February 2021). Furthermore, a model interpretation framework based on SHapley Additive exPlanations was implemented. Based on the relative importance of the explanatory variables considered in this study, share of female users and hour of day were the two most important explanatory variables in both models. However, the month variable had higher importance in the pandemic model than in the pre-pandemic model.
翻訳日:2023-11-13 14:53:22 公開日:2023-11-10
# 楕円対称分布の混合に基づく最大推定とクラスタリングのための非パラメトリック整合性

Nonparametric consistency for maximum likelihood estimation and clustering based on mixtures of elliptically-symmetric distributions ( http://arxiv.org/abs/2311.06108v1 )

ライセンス: Link先を確認
Pietro Coretto and Christian Hennig(参考訳) 集団バージョンを推定するための楕円対称分布の混合物に対する最大極大推定器の整合性を示し、基礎となる分布$P$は非パラメトリックであり、その推定器が基底となる混合物のクラスに必ずしも属さない。 P$ が十分に分離されているが非パラメトリック分布の混合である場合、推定器の集団バージョンの成分は、よく分離された$P$ の成分に対応することが示される。 このことは、もしこれらのサブポピュレーションが混合モデルが仮定したものと異なるとしても、$P$が十分に分離されたサブポピュレーションを持つ場合のクラスタ分析にそのような推定子を使用するための理論的正当化を与える。

The consistency of the maximum likelihood estimator for mixtures of elliptically-symmetric distributions for estimating its population version is shown, where the underlying distribution $P$ is nonparametric and does not necessarily belong to the class of mixtures on which the estimator is based. In a situation where $P$ is a mixture of well enough separated but nonparametric distributions it is shown that the components of the population version of the estimator correspond to the well separated components of $P$. This provides some theoretical justification for the use of such estimators for cluster analysis in case that $P$ has well separated subpopulations even if these subpopulations differ from what the mixture model assumes.
翻訳日:2023-11-13 14:53:05 公開日:2023-11-10
# 1-Lipschitz ニューラルネットワークは N-Activation でより表現力が高い

1-Lipschitz Neural Networks are more expressive with N-Activations ( http://arxiv.org/abs/2311.06103v1 )

ライセンス: Link先を確認
Bernd Prach, Christoph H. Lampert(参考訳) セキュアで信頼性が高く、解釈可能なディープラーニングシステムを実現するための重要な特性は、その堅牢性である。 数学的には、これは小さなリプシッツ定数を持つネットワークを追求することを意味する。 近年のいくつかの研究は、重み行列に制約を課すことで、そのようなリプシッツネットワークを構築する方法に焦点を当てている。 本研究では,活性化機能の役割という直交的側面について検討する。 その結果, マックスミンなどの活性化関数と, 2つのセグメントが無条件に表現可能な関数のクラスを制限できる部分線形関数は, 最も単純な一次元設定であってもすべて適用可能であることがわかった。 さらに,現在普及しているアクティベーション関数よりも明らかに表現力が高い新しいN-アクティベーション関数を導入する。 コードはhttps://github.com/berndprach/nactivated.comで提供します。

A crucial property for achieving secure, trustworthy and interpretable deep learning systems is their robustness: small changes to a system's inputs should not result in large changes to its outputs. Mathematically, this means one strives for networks with a small Lipschitz constant. Several recent works have focused on how to construct such Lipschitz networks, typically by imposing constraints on the weight matrices. In this work, we study an orthogonal aspect, namely the role of the activation function. We show that commonly used activation functions, such as MaxMin, as well as all piece-wise linear ones with two segments unnecessarily restrict the class of representable functions, even in the simplest one-dimensional setting. We furthermore introduce the new N-activation function that is provably more expressive than currently popular activation functions. We provide code at https://github.com/berndprach/NActivation.
翻訳日:2023-11-13 14:52:52 公開日:2023-11-10
# LLMを1ペニー1ドルの価値に - 銀行業におけるリソース制限によるテキスト分類

Making LLMs Worth Every Penny: Resource-Limited Text Classification in Banking ( http://arxiv.org/abs/2311.06102v1 )

ライセンス: Link先を確認
Lefteris Loukas, Ilias Stogiannidis, Odysseas Diamantopoulos, Prodromos Malakasiotis, Stavros Vassos(参考訳) NLPの標準完全データ分類器は数千のラベル付き例を要求するが、これはデータ制限ドメインでは実用的ではない。 対照的な学習技術を利用することで、1クラスあたり20例のサンプルで効果的に利用することができる。 同様に、GPT-4のようなLarge Language Models (LLM) は、クラス毎にたった1-5例で効果的に実行できる。 しかし、これらの手法のパフォーマンスコストトレードオフは未熟であり、予算制限された組織にとって重要な懸念である。 本研究は,OpenAI や Cohere , Anthropic による最先端 LLM の評価を含む,Bunding77 財務意図検出データセットに対する上記のアプローチを検討することで,このギャップに対処する。 まず,検索型生成(rag, search-augmented generation)に基づくllmsの費用対効果の高いクエリ手法により,従来のマイストショット方式に比べて複数回運用コストを削減し,さらにgpt-4を用いたデータ拡張手法により,データ制限シナリオの性能向上を図る。 最後に、今後の研究に刺激を与えるため、人間の専門家によるバンクス77のキュレートされたサブセットと広範なエラー解析を提供する。

Standard Full-Data classifiers in NLP demand thousands of labeled examples, which is impractical in data-limited domains. Few-shot methods offer an alternative, utilizing contrastive learning techniques that can be effective with as little as 20 examples per class. Similarly, Large Language Models (LLMs) like GPT-4 can perform effectively with just 1-5 examples per class. However, the performance-cost trade-offs of these methods remain underexplored, a critical concern for budget-limited organizations. Our work addresses this gap by studying the aforementioned approaches over the Banking77 financial intent detection dataset, including the evaluation of cutting-edge LLMs by OpenAI, Cohere, and Anthropic in a comprehensive set of few-shot scenarios. We complete the picture with two additional methods: first, a cost-effective querying method for LLMs based on retrieval-augmented generation (RAG), able to reduce operational costs multiple times compared to classic few-shot approaches, and second, a data augmentation method using GPT-4, able to improve performance in data-limited scenarios. Finally, to inspire future research, we provide a human expert's curated subset of Banking77, along with extensive error analysis.
翻訳日:2023-11-13 14:52:37 公開日:2023-11-10
# 変圧器に基づく系列モデルを用いたMIMO等化のインコンテキスト学習

In-Context Learning for MIMO Equalization Using Transformer-Based Sequence Models ( http://arxiv.org/abs/2311.06101v1 )

ライセンス: Link先を確認
Matteo Zecchin, Kai Yu, Osvaldo Simeone(参考訳) トランスフォーマーベースのアーキテクチャのような大規模な事前学習シーケンスモデルは、最近、コンテキスト内学習(ICL)を実行する能力があることが示されている。 ICLでは、新しい入力に関する決定は、入力の直接マッピングと、タスクのコンテキストとして機能する与えられたタスクから出力変数へのいくつかの例を通して行われる。 決定を新しいタスクに合わせるために、モデルパラメータの明示的な更新は必要ない。 事前学習はメタラーニングの一形態であり、いくつかの関連するタスクから例を観察することに基づいている。 先行研究では線形回帰のためのicl能力が示されている。 本研究では,パイロットシンボルが与える文脈に基づく多入力・多出力(mimo)等化の逆問題に対処するために icl を利用する。 タスクは未知のフェーディングチャネルと、既知の信号対雑音比(SNR)レベルによって定義される。 提案手法の実用的可能性を強調するため,受信した信号の量子化の存在を許容する。 本研究では, 変圧器をベースとしたICLのしきい値挙動を数値的に示し, 事前学習タスクの数が増加するにつれて, 最小平均二乗誤差(MMSE)等化器から実データ生成前のMMSE等化器に切り替わることを示す。

Large pre-trained sequence models, such as transformer-based architectures, have been recently shown to have the capacity to carry out in-context learning (ICL). In ICL, a decision on a new input is made via a direct mapping of the input and of a few examples from the given task, serving as the task's context, to the output variable. No explicit updates of model parameters are needed to tailor the decision to a new task. Pre-training, which amounts to a form of meta-learning, is based on the observation of examples from several related tasks. Prior work has shown ICL capabilities for linear regression. In this study, we leverage ICL to address the inverse problem of multiple-input and multiple-output (MIMO) equalization based on a context given by pilot symbols. A task is defined by the unknown fading channel and by the signal-to-noise ratio (SNR) level, which may be known. To highlight the practical potential of the approach, we allow for the presence of quantization of the received signals. We demonstrate via numerical results that transformer-based ICL has a threshold behavior, whereby, as the number of pre-training tasks grows, the performance switches from that of a minimum mean squared error (MMSE) equalizer with a prior determined by the pre-trained tasks to that of an MMSE equalizer with the true data-generating prior.
翻訳日:2023-11-13 14:52:12 公開日:2023-11-10
# 視線追跡ライン割り当て用デュアル入力ストリームトランス

Dual input stream transformer for eye-tracking line assignment ( http://arxiv.org/abs/2311.06095v1 )

ライセンス: Link先を確認
Thomas M. Mercier, Marcin Budka, Martin R. Vasilev, Julie A. Kirkby, Bernhard Angele, Timothy J. Slattery(参考訳) 本稿では,読解中に収集した視線追跡データから,実際に注目されていたテキスト行に固定点を割り当てるという問題に対して,新しいDist(Dual Input Stream Transformer)を導入する。 この後処理ステップは, 垂直ドリフト形態における雑音の存在から, 読み出しデータの解析に不可欠である。 DISTを9つの多様なデータセットからなる包括的スイート上で,9つの古典的アプローチに対して評価し,DISTの優位性を実証した。 DISTモデルの複数のインスタンスをアンサンブルに組み合わせることで、すべてのデータセットの平均精度は98.5倍になる。 本手法は,読解研究における手作業ライン割り当てのボトルネックに対処するための重要なステップを示す。 本研究では,DISTの成功に寄与する重要な要因として,ラインオーバーラップ機能の導入,第2入力ストリームの利用などについて検討する。 多様なデータセットの評価を通じて、DISTは様々な実験的な設定に対して堅牢であることを示し、この分野の実践者にとって安全な第1選択となる。

We introduce a novel Dual Input Stream Transformer (DIST) for the challenging problem of assigning fixation points from eye-tracking data collected during passage reading to the line of text that the reader was actually focused on. This post-processing step is crucial for analysis of the reading data due to the presence of noise in the form of vertical drift. We evaluate DIST against nine classical approaches on a comprehensive suite of nine diverse datasets, and demonstrate DIST's superiority. By combining multiple instances of the DIST model in an ensemble we achieve an average accuracy of 98.5\% across all datasets. Our approach presents a significant step towards addressing the bottleneck of manual line assignment in reading research. Through extensive model analysis and ablation studies, we identify key factors that contribute to DIST's success, including the incorporation of line overlap features and the use of a second input stream. Through evaluation on a set of diverse datasets we demonstrate that DIST is robust to various experimental setups, making it a safe first choice for practitioners in the field.
翻訳日:2023-11-13 14:51:43 公開日:2023-11-10
# 部分的情報に基づく量子状態関数の証明

Certification of quantum state functions under partial information ( http://arxiv.org/abs/2311.06094v1 )

ライセンス: Link先を確認
Leonardo Zambrano, Donato Farina, Egle Pagliaro, Marcio M. Taddei, Antonio Acin(参考訳) 量子状態の凸函数は、ベルの不等式からフォン・ノイマンエントロピーまで、量子物理学において重要な役割を果たす。 しかし、実験シナリオでは、これらの関数の直接測定はしばしば実用的ではない。 情報的不完全測定に基づいて凸関数の厳密な信頼境界を決定する2つの方法を導入することでこの問題に対処する。 我々のアプローチは、一定の信頼度レベルと測定値数に対してより厳密な境界を提供することで、既存のプロトコルよりも優れています。 数値データと実験データの両方を用いて,本手法の性能評価を行った。 提案手法の有効性を実証し,実世界の応用における量子状態認証の改善の道を開く。

Convex functions of quantum states play a key role in quantum physics, with examples ranging from Bell inequalities to von Neumann entropy. However, in experimental scenarios, direct measurements of these functions are often impractical. We address this issue by introducing two methods for determining rigorous confidence bounds for convex functions based on informationally incomplete measurements. Our approach outperforms existing protocols by providing tighter bounds for a fixed confidence level and number of measurements. We evaluate the performance of our methods using both numerical and experimental data. Our findings demonstrate the efficacy of our approach, paving the way for improved quantum state certification in real-world applications.
翻訳日:2023-11-13 14:51:26 公開日:2023-11-10
# 最大表現率における量子ニューラルネットワークの回帰

Regressions on quantum neural networks at maximal expressivity ( http://arxiv.org/abs/2311.06090v1 )

ライセンス: Link先を確認
Iv\'an Panadero, Yue Ban, Hilario Espin\'os, Ricardo Puebla, Jorge Casanova and Erik Torrontegui(参考訳) 本研究では,一連のネストした量子ビット回転として構成できる汎用深層ニューラルネットワークの表現性を分析し,データ再アップロードの調整によって実現する。 最大表現力はネットワークの深さとキュービット数によって増加するが、基本的にはデータ符号化機構によって制限される。 回帰問題に着目し,異なる測定値とアーキテクチャの表現限界を体系的に検討した。 層間の絡み合いや大域的な測定による絡み合いの存在は、この境界に向かって飽和する。 このような場合、絡み合いは、非絡み合いネットワークにおける個々のキュービットの局所的な読み出しと比較して、ネットワークの近似能力の向上につながる。 この拡張は、出力信号の分解時にフーリエ高調波のより大きなサバイバルセットを特徴付ける。

We analyze the expressivity of a universal deep neural network that can be organized as a series of nested qubit rotations, accomplished by adjustable data re-uploads. While the maximal expressive power increases with the depth of the network and the number of qubits, it is fundamentally bounded by the data encoding mechanism. Focusing on regression problems, we systematically investigate the expressivity limits for different measurements and architectures. The presence of entanglement, either by entangling layers or global measurements, saturate towards this bound. In these cases, entanglement leads to an enhancement of the approximation capabilities of the network compared to local readouts of the individual qubits in non-entangling networks. We attribute this enhancement to a larger survival set of Fourier harmonics when decomposing the output signal.
翻訳日:2023-11-13 14:51:15 公開日:2023-11-10
# ディジタルロック物理における岩石画像分割の強化:生成AIと最先端ニューラルネットワークの融合

Enhancing Rock Image Segmentation in Digital Rock Physics: A Fusion of Generative AI and State-of-the-Art Neural Networks ( http://arxiv.org/abs/2311.06079v1 )

ライセンス: Link先を確認
Zhaoyang Ma, Xupeng He, Hyung Kwak, Jun Gao, Shuyu Sun, Bicheng Yan(参考訳) デジタル岩石物理学において、ctおよびsemスキャンによる微細構造の分析は、細孔性や細孔接続性などの特性の推定に不可欠である。 しきい値やCNNのような従来のセグメンテーション手法は、しばしば岩の微細構造を正確に詳細に記述するに足りず、ノイズを生じやすい。 U-Netはセグメンテーションの精度を改善したが、複雑な細孔形状のため、多くの専門家による注釈付きサンプルを必要とした。 我々の研究は、これらの制限を克服するために、高度な生成AIモデルである拡散モデルを使用した。 このモデルは、小さな初期データセットから、CT/SEMとバイナリセグメンテーションペアの膨大なデータセットを生成した。 U-Net, Attention-U-net, TransUNetの3つのニューラルネットワークによる画像分割の有効性を検討した。 拡散モデルは, 深層学習モデルの一般化とロバスト性を向上し, 効果的なデータ拡張手法であることが証明された。 Transformer構造を取り入れたTransU-Netは、セグメンテーション精度とIoUメトリクスが優れており、U-NetとAttention-U-netの両方を上回っている。 本研究では, 拡散モデルと最先端ニューラルネットワークを組み合わせることにより, 広範なエキスパートデータへの依存性を低減し, セグメンテーション精度とロバスト性を高めることにより, 岩盤画像のセグメンテーションを向上させる。 transu-netはデジタル岩石物理学の新しい標準を定め、将来の地球科学と工学のブレークスルーへの道を開く。

In digital rock physics, analysing microstructures from CT and SEM scans is crucial for estimating properties like porosity and pore connectivity. Traditional segmentation methods like thresholding and CNNs often fall short in accurately detailing rock microstructures and are prone to noise. U-Net improved segmentation accuracy but required many expert-annotated samples, a laborious and error-prone process due to complex pore shapes. Our study employed an advanced generative AI model, the diffusion model, to overcome these limitations. This model generated a vast dataset of CT/SEM and binary segmentation pairs from a small initial dataset. We assessed the efficacy of three neural networks: U-Net, Attention-U-net, and TransUNet, for segmenting these enhanced images. The diffusion model proved to be an effective data augmentation technique, improving the generalization and robustness of deep learning models. TransU-Net, incorporating Transformer structures, demonstrated superior segmentation accuracy and IoU metrics, outperforming both U-Net and Attention-U-net. Our research advances rock image segmentation by combining the diffusion model with cutting-edge neural networks, reducing dependency on extensive expert data and boosting segmentation accuracy and robustness. TransU-Net sets a new standard in digital rock physics, paving the way for future geoscience and engineering breakthroughs.
翻訳日:2023-11-13 14:51:02 公開日:2023-11-10
# 予め訓練した視覚変換器を用いた病理画像の自動レポート生成

Automatic Report Generation for Histopathology images using pre-trained Vision Transformers ( http://arxiv.org/abs/2311.06176v1 )

ライセンス: Link先を確認
Saurav Sengupta, Donald E. Brown(参考訳) 病理組織学の深層学習は、疾患の分類、画像分割などに有効である。 しかし,病理組織像の高分解能化により,最先端の手法による画像とテキストの融合が課題となっている。 病理画像の自動レポート生成はそのような課題である。 本稿では,既存の事前学習済み視覚トランスフォーマを用いて,まず4096x4096 サイズのスライド画像(wsi)のパッチを符号化し,それをエンコーダとlstmデコーダとしてレポート生成に使用する2段階のプロセスにおいて,高い解像度の画像全体を考慮した,かなり高性能でポータブルなレポート生成機構を構築できることを示す。 また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなくレポート生成にも有用であることを示す。

Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer in a two-step process of first using it to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and then using it as the encoder and an LSTM decoder for report generation, we can build a fairly performant and portable report generation mechanism that takes into account the whole of the high resolution image, instead of just the patches. We are also able to use representations from an existing powerful pre-trained hierarchical vision transformer and show its usefulness in not just zero shot classification but also for report generation.
翻訳日:2023-11-13 14:42:58 公開日:2023-11-10
# 検索ベースフェアネステスト:概要

Search-Based Fairness Testing: An Overview ( http://arxiv.org/abs/2311.06175v1 )

ライセンス: Link先を確認
Hussaini Mamman, Shuib Basri, Abdullateef Oluwaqbemiga Balogun, Abdullahi Abubakar Imam, Ganesh Kumar, Luiz Fernando Capretz(参考訳) 人工知能(AI)は、採用、財務、医療、司法などの領域で顕著な能力を発揮している。 しかし、AIシステムのバイアスは倫理的および社会的関心を高め、効果的な公平性テスト方法の必要性を強調している。 本稿では,フェアネステスト,特に検索ベーステストの応用に関する最近の研究を概観する。 我々の分析は、AIシステムのバイアスに対処する上での進歩を強調し、改善の領域を特定する。 今後の研究は、確立した検索ベースのテスト手法を公平性テストに活用することに集中すべきである。

Artificial Intelligence (AI) has demonstrated remarkable capabilities in domains such as recruitment, finance, healthcare, and the judiciary. However, biases in AI systems raise ethical and societal concerns, emphasizing the need for effective fairness testing methods. This paper reviews current research on fairness testing, particularly its application through search-based testing. Our analysis highlights progress and identifies areas of improvement in addressing AI systems biases. Future research should focus on leveraging established search-based testing methodologies for fairness testing.
翻訳日:2023-11-13 14:42:39 公開日:2023-11-10
# Time Scale Network: 時系列データのための浅層ニューラルネットワーク

Time Scale Network: A Shallow Neural Network For Time Series Data ( http://arxiv.org/abs/2311.06170v1 )

ライセンス: Link先を確認
Trevor Meyer, Camden Shultz, Najim Dehak, Laureano Moro-Velazquez, Pedro Irazoqui(参考訳) 時系列データは、特にバイオメディカルデータにおいて、複数の時間スケールの情報で構成されていることが多い。 この情報を捉えるための多くのディープラーニング戦略が存在するが、ネットワークを大きくし、より多くのデータを必要とし、計算を要求され、解釈が困難である。 これにより、控えめな計算やデータ制約に直面する現実世界のアプリケーションでの有用性を制限し、さらに複雑な翻訳を行うことができる。 本稿では,離散ウェーブレット変換と従来の畳み込みニューラルネットワークとバックプロパゲーションを組み合わせた,最小かつ計算効率の良い時間スケールネットワークを提案する。 ネットワークは、パラメータや操作を大幅に削減したシーケンス分類のための多くの時間スケールで機能を同時に学習する。 心房機能障害検出の利点として, より優れた精度/パラメータ, 精度/操作, 高速トレーニング, 推論速度, 心房機能障害検出における学習パターンの可視化と解釈などを挙げる。 また脳波信号を用いた発作予知にも優れた性能を示した。 1,133個のアクティブパラメータのみを使用して90.9%の精度を達成するために戦略的に選択可能ないくつかの時間スケールを分離し,脈動波形形状に一貫して収束させた。 この方法は信号内容に関するいかなる制約や仮定にも依存せず、多くの時間スケールで特徴を含む信号を扱う時系列分析のあらゆる領域で利用することができる。

Time series data is often composed of information at multiple time scales, particularly in biomedical data. While numerous deep learning strategies exist to capture this information, many make networks larger, require more data, are more demanding to compute, and are difficult to interpret. This limits their usefulness in real-world applications facing even modest computational or data constraints and can further complicate their translation into practice. We present a minimal, computationally efficient Time Scale Network combining the translation and dilation sequence used in discrete wavelet transforms with traditional convolutional neural networks and back-propagation. The network simultaneously learns features at many time scales for sequence classification with significantly reduced parameters and operations. We demonstrate advantages in Atrial Dysfunction detection including: superior accuracy-per-parameter and accuracy-per-operation, fast training and inference speeds, and visualization and interpretation of learned patterns in atrial dysfunction detection on ECG signals. We also demonstrate impressive performance in seizure prediction using EEG signals. Our network isolated a few time scales that could be strategically selected to achieve 90.9% accuracy using only 1,133 active parameters and consistently converged on pulsatile waveform shapes. This method does not rest on any constraints or assumptions regarding signal content and could be leveraged in any area of time series analysis dealing with signals containing features at many time scales.
翻訳日:2023-11-13 14:42:34 公開日:2023-11-10
# Deep Fast Vision: 高速なDeep Transfer Learning VisionプロトタイピングのためのPythonライブラリ

Deep Fast Vision: A Python Library for Accelerated Deep Transfer Learning Vision Prototyping ( http://arxiv.org/abs/2311.06169v1 )

ライセンス: Link先を確認
Fabi Prezja(参考訳) 深層学習に基づくビジョンは、しばしば深い理解を必要とする複雑なフレームワークによって特徴付けられる。 多くの研究者がより小さなデータセットの制約に対処しているため、特に画像分類のようなタスクでは、トレーニング済みのニューラルネットワークに依存しています。 この依存度は、膨大なデータセットの取得が難しいニッチな撮像領域でさらに増大する。 小さなデータセットジレンマに対する対策としてトランスファーラーニングが広く使用されているにもかかわらず、カスタマイズされた自動MLソリューションが明らかに欠如している。 これらの課題に対処する"Deep Fast Vision"は、ディープラーニングプロセスを合理化するピソンライブラリである。 このツールはユーザフレンドリーなエクスペリエンスを提供し、単純なネストした辞書定義を通じて結果を可能にする。 シンプルさとスケーラビリティのために設計されたDeep Fast Visionはブリッジとして現れ、既存のディープラーニングフレームワークの複雑さと多様なユーザベースのニーズを結びつける。

Deep learning-based vision is characterized by intricate frameworks that often necessitate a profound understanding, presenting a barrier to newcomers and limiting broad adoption. With many researchers grappling with the constraints of smaller datasets, there's a pronounced reliance on pre-trained neural networks, especially for tasks such as image classification. This reliance is further intensified in niche imaging areas where obtaining vast datasets is challenging. Despite the widespread use of transfer learning as a remedy to the small dataset dilemma, a conspicuous absence of tailored auto-ML solutions persists. Addressing these challenges is "Deep Fast Vision", a python library that streamlines the deep learning process. This tool offers a user-friendly experience, enabling results through a simple nested dictionary definition, helping to democratize deep learning for non-experts. Designed for simplicity and scalability, Deep Fast Vision appears as a bridge, connecting the complexities of existing deep learning frameworks with the needs of a diverse user base.
翻訳日:2023-11-13 14:42:10 公開日:2023-11-10
# 言語モデルは論理的解になる

Language Models can be Logical Solvers ( http://arxiv.org/abs/2311.06158v1 )

ライセンス: Link先を確認
Jiazhan Feng, Ruochen Xu, Junheng Hao, Hiteshi Sharma, Yelong Shen, Dongyan Zhao, Weizhu Chen(参考訳) 論理的推論は人間の知性の基本的側面であり、問題解決や意思決定といったタスクの重要な構成要素である。 近年の進歩により、Large Language Models (LLM) は推論能力を示す可能性があるが、複雑な論理的推論は依然として課題である。 最先端のソルバ推論言語モデルは、自然言語論理問題をまず記号表現に解析するためにllmを使用し、それから外部論理ソルバを採用して記号表現を取り込んで結果を出力する。 印象的なパフォーマンスにもかかわらず、構文解析のエラーは、必然的に外部論理ソルバの実行が失敗し、論理的な疑問に対する答えがなくなる。 本稿では,論理的解法の推論過程を直接エミュレートし,解法構文や文法への厳密な順守を学ぶことによって解析誤差を回避した新しい言語モデルLoGiPTを紹介する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。 2つのパブリック・デダクティブ推論データセットによる実験結果から、LoGiPTはChatGPTやGPT-4のような競合するLLM上で、最先端のソルバ拡張LMと数発のプロンプト法より優れていることが示された。

Logical reasoning is a fundamental aspect of human intelligence and a key component of tasks like problem-solving and decision-making. Recent advancements have enabled Large Language Models (LLMs) to potentially exhibit reasoning capabilities, but complex logical reasoning remains a challenge. The state-of-the-art, solver-augmented language models, use LLMs to parse natural language logical questions into symbolic representations first and then adopt external logical solvers to take in the symbolic representations and output the answers. Despite their impressive performance, any parsing errors will inevitably result in the failure of the execution of the external logical solver and no answer to the logical questions. In this paper, we introduce LoGiPT, a novel language model that directly emulates the reasoning processes of logical solvers and bypasses the parsing errors by learning to strict adherence to solver syntax and grammar. LoGiPT is fine-tuned on a newly constructed instruction-tuning dataset derived from revealing and refining the invisible reasoning process of deductive solvers. Experimental results on two public deductive reasoning datasets demonstrate that LoGiPT outperforms state-of-the-art solver-augmented LMs and few-shot prompting methods on competitive LLMs like ChatGPT or GPT-4.
翻訳日:2023-11-13 14:41:54 公開日:2023-11-10
# 勾配注意マップを用いた解釈可能なグラフ異常検出

Interpretable Graph Anomaly Detection using Gradient Attention Maps ( http://arxiv.org/abs/2311.06153v1 )

ライセンス: Link先を確認
Yifei Yang, Peng Wang, Xiaofan He, Dongmian Zou(参考訳) グラフデータの異常なパターンを検出することは、データマイニングにおいて重要なタスクです。 しかし、既存の手法は、常に満足な性能を達成し、解釈可能性の欠如に直面することが多く、異常判定の決定に対する私たちの理解を妨げる。 本稿では,解析可能性のパワーを活用して性能を向上させるグラフ異常検出手法を提案する。 具体的には,グラフニューラルネットワークの勾配に基づくアテンションマップを抽出し,アノマリーのスコア付けの基礎となる手法を提案する。 さらに,合成データを用いて理論的解析を行い,その方法の検証と意思決定プロセスの洞察を得る。 提案手法の有効性を示すため,最先端のグラフ異常検出技術に対するアプローチを広範囲に評価した。 その結果,本手法はベースラインに比べて優れた性能を示した。

Detecting unusual patterns in graph data is a crucial task in data mining. However, existing methods often face challenges in consistently achieving satisfactory performance and lack interpretability, which hinders our understanding of anomaly detection decisions. In this paper, we propose a novel approach to graph anomaly detection that leverages the power of interpretability to enhance performance. Specifically, our method extracts an attention map derived from gradients of graph neural networks, which serves as a basis for scoring anomalies. In addition, we conduct theoretical analysis using synthetic data to validate our method and gain insights into its decision-making process. To demonstrate the effectiveness of our method, we extensively evaluate our approach against state-of-the-art graph anomaly detection techniques. The results consistently demonstrate the superior performance of our method compared to the baselines.
翻訳日:2023-11-13 14:41:29 公開日:2023-11-10
# 永続的ホモロジーを用いた永続的ホモロジーを越えて

Going beyond persistent homology using persistent homology ( http://arxiv.org/abs/2311.06152v1 )

ライセンス: Link先を確認
Johanna Immonen, Amauri H. Souza, Vikas Garg(参考訳) メッセージパッシンググラフニューラルネットワーク(MP-GNN)の表現限界は、例えば、同型性のWeisfeiler-Leman(WL)テストの観点からよく理解されている。 永続ホモロジー (PH) によるトポロジ的特徴を持つグラフモデルの拡大が注目されているが、PHが認識できる属性グラフのクラスは依然としてオープンである。 この重要な問題に対する完全な解決を提供するために、色分離集合という新しい概念を導入する。 具体的には,頂点およびエッジカラーのフィルタ関数から得られる連結成分の持続性に基づいて,グラフを識別するための必要十分条件を確立する。 我々の構成は頂点レベルのPHとエッジレベルのPHの限界を露呈し、どちらのカテゴリーも他方を仮定しないことを示した。 これらの理論的知見を活用し,グラフ上のトポロジ的特徴を学習するためのRePHINEを提案する。 RePHINEは頂点レベルのPHとエッジレベルのPHを効率よく結合し、双方よりも確実に強力なスキームを実現する。 MP-GNNにRePHINEを組み込むことは表現力を高め、グラフ分類のためのいくつかのベンチマークにおいて標準PHよりも向上する。

Representational limits of message-passing graph neural networks (MP-GNNs), e.g., in terms of the Weisfeiler-Leman (WL) test for isomorphism, are well understood. Augmenting these graph models with topological features via persistent homology (PH) has gained prominence, but identifying the class of attributed graphs that PH can recognize remains open. We introduce a novel concept of color-separating sets to provide a complete resolution to this important problem. Specifically, we establish the necessary and sufficient conditions for distinguishing graphs based on the persistence of their connected components, obtained from filter functions on vertex and edge colors. Our constructions expose the limits of vertex- and edge-level PH, proving that neither category subsumes the other. Leveraging these theoretical insights, we propose RePHINE for learning topological features on graphs. RePHINE efficiently combines vertex- and edge-level PH, achieving a scheme that is provably more powerful than both. Integrating RePHINE into MP-GNNs boosts their expressive power, resulting in gains over standard PH on several benchmarks for graph classification.
翻訳日:2023-11-13 14:41:17 公開日:2023-11-10
# 遺伝的アルゴリズムを用いた高密度ビジュアルオドメトリー

Dense Visual Odometry Using Genetic Algorithm ( http://arxiv.org/abs/2311.06149v1 )

ライセンス: Link先を確認
Slimane Djema, Zoubir Abdeslem Benselama, Ramdane Hedjar, Krabi Abdallah(参考訳) 本研究の目的は,移動ロボットや移動物体の頭部に装着したカメラの動きを,静的シーンにおけるRGB-D画像から推定することである。 運動推定の問題は非線形最小二乗関数に変換される。 このような問題を解決する方法は反復的である。 様々な古典的手法がこの関数を線形化することで反復解を与えた。 また,メタヒューリスティック最適化法を用いてこの問題の解決と結果の改善を行う。 本稿では,RGB-D画像の系列を用いた視覚計測のための新しいアルゴリズムを提案する。 このアルゴリズムは遺伝的アルゴリズムに基づいている。 提案する反復遺伝的アルゴリズムは, 粒子を用いて最適運動を推定し, 従来の手法と比較する。 本手法を評価するために,ルート平均二乗誤差を用いて基礎エネルギー法とメタヒューリスティック法との比較を行った。 我々は、多数の画像に対して、革新的アルゴリズムの効率性を証明する。

Our work aims to estimate the camera motion mounted on the head of a mobile robot or a moving object from RGB-D images in a static scene. The problem of motion estimation is transformed into a nonlinear least squares function. Methods for solving such problems are iterative. Various classic methods gave an iterative solution by linearizing this function. We can also use the metaheuristic optimization method to solve this problem and improve results. In this paper, a new algorithm is developed for visual odometry using a sequence of RGB-D images. This algorithm is based on a genetic algorithm. The proposed iterative genetic algorithm searches using particles to estimate the optimal motion and then compares it to the traditional methods. To evaluate our method, we use the root mean square error to compare it with the based energy method and another metaheuristic method. We prove the efficiency of our innovative algorithm on a large set of images.
翻訳日:2023-11-13 14:40:57 公開日:2023-11-10
# ニューラルネットワークに十分な物理情報を組み込む:物理に基づくラオブラックウェル化による保証された改善

Incorporating sufficient physical information into artificial neural networks: a guaranteed improvement via physics-based Rao-Blackwellization ( http://arxiv.org/abs/2311.06147v1 )

ライセンス: Link先を確認
Gian-Luca Geuken, J\"orn Mosler and Patrick Kurzeja(参考訳) rao-blackwellizationの概念は、物理情報によるニューラルネットワークの予測を改善するために用いられる。 誤差ノルムと改善の証明は、物理ベースの条件に関する十分な情報を用いて、元の統計概念から決定論的概念に移される。 提案手法は材料モデリングに適用され, 降伏関数の同定, 弾塑性鋼のシミュレーション, 準脆性損傷に対する駆動力の同定, ゴム実験の例で示される。 十分な物理情報は、例えば不変量の形で、最小化問題、次元解析、等方性、微分可能性のパラメータが用いられる。 情報への直感的な付加が、物理的に十分であれば改善をもたらすだけでなく、情報不足や過剰な情報がいかに障害を引き起こすかが証明されている。 ニューラルネットワークの改良の機会は、トレーニングデータセット、ネットワークの構造、および出力フィルタの観点から検討される。 粗い初期予測でさえノイズ、過剰フィッティング、データ要求を減らすことで著しく改善されている。

The concept of Rao-Blackwellization is employed to improve predictions of artificial neural networks by physical information. The error norm and the proof of improvement are transferred from the original statistical concept to a deterministic one, using sufficient information on physics-based conditions. The proposed strategy is applied to material modeling and illustrated by examples of the identification of a yield function, elasto-plastic steel simulations, the identification of driving forces for quasi-brittle damage and rubber experiments. Sufficient physical information is employed, e.g., in the form of invariants, parameters of a minimization problem, dimensional analysis, isotropy and differentiability. It is proven how intuitive accretion of information can yield improvement if it is physically sufficient, but also how insufficient or superfluous information can cause impairment. Opportunities for the improvement of artificial neural networks are explored in terms of the training data set, the networks' structure and output filters. Even crude initial predictions are remarkably improved by reducing noise, overfitting and data requirements.
翻訳日:2023-11-13 14:40:45 公開日:2023-11-10
# 法医学的顔認証の評価

An Evaluation of Forensic Facial Recognition ( http://arxiv.org/abs/2311.06145v1 )

ライセンス: Link先を確認
Justin Norman, Shruti Agarwal, Hany Farid(参考訳) 機械学習とコンピュータビジョンの最近の進歩は、人間のパフォーマンスを上回る顔認識の精度を報告している。 これらのシステムは、低解像度で品質の低い部分排除画像が、標準的な顔データベースと比較される、現実世界の法医学的なシナリオに変換されるかどうか疑問である。 本稿では,大規模な合成顔データセットの構築と,実世界のさまざまな条件下での顔認識の制御評価を可能にする,顔の法医学的ラインアップについて述べる。 この合成データセットと、実顔の一般的なデータセットを用いて、2つの一般的なニューラルネットワーク認識システムの精度を評価する。 以前報告された顔認識の精度は95%以上低下し、このより困難な法医学的シナリオでは65%まで低下した。

Recent advances in machine learning and computer vision have led to reported facial recognition accuracies surpassing human performance. We question if these systems will translate to real-world forensic scenarios in which a potentially low-resolution, low-quality, partially-occluded image is compared against a standard facial database. We describe the construction of a large-scale synthetic facial dataset along with a controlled facial forensic lineup, the combination of which allows for a controlled evaluation of facial recognition under a range of real-world conditions. Using this synthetic dataset, and a popular dataset of real faces, we evaluate the accuracy of two popular neural-based recognition systems. We find that previously reported face recognition accuracies of more than 95% drop to as low as 65% in this more challenging forensic scenario.
翻訳日:2023-11-13 14:40:27 公開日:2023-11-10
# リモートセンシング画像分類のための分散・非共有アーカイブ間の連合学習

Federated Learning Across Decentralized and Unshared Archives for Remote Sensing Image Classification ( http://arxiv.org/abs/2311.06141v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} B\"uy\"ukta\c{s}, Gencer Sumbul, Beg\"um Demir(参考訳) federated learning(fl)は、複数のディープラーニングモデルのコラボレーションによって、クライアントのデータにアクセスせずに、分散データアーカイブ(すなわち、クライアント)から学ぶことができる。 FLは、分散画像アーカイブからの知識発見に十分な機会を提供するが、リモートセンシング(RS)ではめったに考えられない。 本稿では,rsにおける第1回として,最先端flアルゴリズムの比較研究を行う。 そこで,我々はまず,画像分類問題に対してコンピュータビジョンコミュニティで提示されるflアルゴリズムの系統的レビューを行い,その効果に基づいて,クライアント間のデータ不均質性(非iidデータとして知られる)のトレーニングを行うための最先端flアルゴリズムをいくつか選択する。 選択したアルゴリズムの広範な概要を提示した後、これらのアルゴリズムの理論的比較を行う。 1) 局所訓練の複雑さ 2)集約の複雑さ 3) 学習効率 4) 通信コスト,及び 5) クライアント数の面でのスケーラビリティ。 分類課題として、RS画像は一般に複数のクラスから構成されるため、マルチラベル分類(MLC)の問題を考える。 理論的な比較を行った後,mlc性能の観点から異なる分散化シナリオで比較する実験解析を行った。 包括的解析に基づいて,最終的に,適切な fl アルゴリズムを rs で選択するためのガイドラインを導出する。 この作業のコードはhttps://git.tu-berlin.de/rsim/FL-RSで公開される。

Federated learning (FL) enables the collaboration of multiple deep learning models to learn from decentralized data archives (i.e., clients) without accessing data on clients. Although FL offers ample opportunities in knowledge discovery from distributed image archives, it is seldom considered in remote sensing (RS). In this paper, as a first time in RS, we present a comparative study of state-of-the-art FL algorithms. To this end, we initially provide a systematic review of the FL algorithms presented in the computer vision community for image classification problems, and select several state-of-the-art FL algorithms based on their effectiveness with respect to training data heterogeneity across clients (known as non-IID data). After presenting an extensive overview of the selected algorithms, a theoretical comparison of the algorithms is conducted based on their: 1) local training complexity; 2) aggregation complexity; 3) learning efficiency; 4) communication cost; and 5) scalability in terms of number of clients. As the classification task, we consider multi-label classification (MLC) problem since RS images typically consist of multiple classes, and thus can simultaneously be associated with multi-labels. After the theoretical comparison, experimental analyses are presented to compare them under different decentralization scenarios in terms of MLC performance. Based on our comprehensive analyses, we finally derive a guideline for selecting suitable FL algorithms in RS. The code of this work will be publicly available at https://git.tu-berlin.de/rsim/FL-RS.
翻訳日:2023-11-13 14:40:17 公開日:2023-11-10
# 知覚による最小ノルム補間:明示正規化と暗黙バイアス

Minimum norm interpolation by perceptra: Explicit regularization and implicit bias ( http://arxiv.org/abs/2311.06138v1 )

ライセンス: Link先を確認
Jiyoung Park, Ian Pelakh, Stephan Wojtowytsch(参考訳) 本研究では,既知領域間における浅層reluネットワークの相互干渉について検討する。 本研究では,重み減衰正規化器がネットワーク幅とデータ点数の増加に伴って正確な速度で消滅する係数でペナルティ化されると,データ点数とパラメータが無限大になるため,経験的リスク最小化器は最小のノルム補間値に収束することを示す。 明示的な正則化がなければ、既知の最小ノルム補間に対する共通最適化アルゴリズムの暗黙のバイアスを数値的に研究する。

We investigate how shallow ReLU networks interpolate between known regions. Our analysis shows that empirical risk minimizers converge to a minimum norm interpolant as the number of data points and parameters tends to infinity when a weight decay regularizer is penalized with a coefficient which vanishes at a precise rate as the network width and the number of data points grow. With and without explicit regularization, we numerically study the implicit bias of common optimization algorithms towards known minimum norm interpolants.
翻訳日:2023-11-13 14:39:54 公開日:2023-11-10
# MonoProb: 解釈不能な不確かさによる自己監視型単分子深さ推定

MonoProb: Self-Supervised Monocular Depth Estimation with Interpretable Uncertainty ( http://arxiv.org/abs/2311.06137v1 )

ライセンス: Link先を確認
Remi Marsal Florian Chabot, Angelique Loesch, William Grolleau and Hichem Sahbi(参考訳) 自己監督型単眼深度推定法は, 環境分析における自律走行車などの重要な応用に利用されることを目的としている。 これらの手法の潜在的な欠陥を回避するため、予測信頼性の定量化は、深さ推定に依存する意思決定システムを導くために重要である。 本稿では,不確実性がネットワークの予測における期待誤差を反映した,解釈可能な不確実性を返す,教師なし単眼深度推定法であるmonoprobを提案する。 我々は、教師なし単分子深度モデルのトレーニングに使用されるステレオや構造からのパラダイムを確率論的問題として再考する。 単一のフォワードパス推論内では、このモデルは、推測時間を増やすことなく、深度予測と信頼度の測定を提供する。 次に,教師が出力する深さの確率分布である疑似基底真理に生徒が監督する新しい自己蒸留損失を用いて,深さと不確実性のパフォーマンスを向上させる。 モデルのパフォーマンスを定量化するために、従来の指標とは異なり、不確実性予測の絶対的なパフォーマンスを測定する新しいメトリクスを設計します。 実験では,標準深度と不確実性の測定値,および調整した測定値について,本手法が達成した改善点を強調した。 https://github.com/CEA-LIST/MonoProb

Self-supervised monocular depth estimation methods aim to be used in critical applications such as autonomous vehicles for environment analysis. To circumvent the potential imperfections of these approaches, a quantification of the prediction confidence is crucial to guide decision-making systems that rely on depth estimation. In this paper, we propose MonoProb, a new unsupervised monocular depth estimation method that returns an interpretable uncertainty, which means that the uncertainty reflects the expected error of the network in its depth predictions. We rethink the stereo or the structure-from-motion paradigms used to train unsupervised monocular depth models as a probabilistic problem. Within a single forward pass inference, this model provides a depth prediction and a measure of its confidence, without increasing the inference time. We then improve the performance on depth and uncertainty with a novel self-distillation loss for which a student is supervised by a pseudo ground truth that is a probability distribution on depth output by a teacher. To quantify the performance of our models we design new metrics that, unlike traditional ones, measure the absolute performance of uncertainty predictions. Our experiments highlight enhancements achieved by our method on standard depth and uncertainty metrics as well as on our tailored metrics. https://github.com/CEA-LIST/MonoProb
翻訳日:2023-11-13 14:39:41 公開日:2023-11-10
# 非適応性クリフォードチャネルのキャラクタリゼーション

Characterization of non-adaptive Clifford channels ( http://arxiv.org/abs/2311.06133v1 )

ライセンス: Link先を確認
Vsevolod I. Yashin and Maria A. Elovenkova(参考訳) 古典制御のない安定化回路(クリフォードチャネル)によって実現される多ビット量子チャネルは、特に単純な構造を持つことを示す。 これらは、混合安定化器状態を保存するチャネル、または安定化器チョイ状態を保持するチャネルと等価に定義することができる。 クリフォードチャネルは、一元的エンコーディングとデコードマップまで、安定化状態の準備、クビットの破棄、アイデンティティチャネル、デファージングチャネルの産物である。 この単純な構造は、そのようなチャネルの情報理論的性質を特徴づけることができる。

We show that multiqubit quantum channels which may be realised via stabilizer circuits without classical control (Clifford channels) have a particularly simple structure. They can be equivalently defined as channels that preserve mixed stabilizer states, or the channels with stabilizer Choi state. Up to unitary encoding and decoding maps any Clifford channel is a product of stabilizer state preparations, qubit discardings, identity channels and dephasing channels. This simple structure allows to characterise information-theoretic properties of such channels.
翻訳日:2023-11-13 14:39:03 公開日:2023-11-10
# 高次元混合分類ガウス過程とグリーン航空機の多分野設計最適化への応用

High-dimensional mixed-categorical Gaussian processes with application to multidisciplinary design optimization for a green aircraft ( http://arxiv.org/abs/2311.06130v1 )

ライセンス: Link先を確認
Paul Saves, Youssef Diouane, Nathalie Bartoli, Thierry Lefebvre, Joseph Morlier(参考訳) 多分野設計最適化(MDO)手法は、複数の分野を含む工学系の設計に数値最適化手法を適用することを目的としている。 この文脈では、最適化プロセス中に多数の混合連続、整数、カテゴリー変数が発生し、実用的な応用にはかなりの数の設計変数が含まれる。 近年,ベイズ最適化のためのガウス過程(GP)に基づく混合カテゴリーメタモデルへの関心が高まっている。 特に、混合分類変数を扱うために、既存のいくつかのアプローチはgpを構築するために異なる戦略を採用している。 これらの戦略は、連続緩和やゴワー距離に基づくカーネルのような連続的なカーネルを使うか、指数ホモシedastic hypersphere(ehh)やhomoscedastic hypersphere(hh)カーネルのような相関行列を直接推定する。 EHH と HH の核は非常に効率的で正確な GP をもたらすことが示されているが、それらは多数のハイパーパラメータに基づいている。 本稿では,部分最小方形回帰(PLS)を用いて,ハイパーパラメータの少ない混合カテゴリーGPを構築することでこの問題に対処する。 当社の目標は,連続入力に一般的に使用されるplsを使って,混合カテゴリ入力を処理するkrigingを一般化することにあります。 提案手法はオープンソースソフトウェアsmtで実装され,構造的および多分野の応用に効率的に適用されている。 本手法は、カンチレバービームの構造挙動を効果的に実証し、グリーン航空機のMDOを促進するため、単一の航空機ミッションで消費される燃料量を439キログラム削減する。

Multidisciplinary design optimization (MDO) methods aim at adapting numerical optimization techniques to the design of engineering systems involving multiple disciplines. In this context, a large number of mixed continuous, integer, and categorical variables might arise during the optimization process, and practical applications involve a significant number of design variables. Recently, there has been a growing interest in mixed-categorical metamodels based on Gaussian Process (GP) for Bayesian optimization. In particular, to handle mixed-categorical variables, several existing approaches employ different strategies to build the GP. These strategies either use continuous kernels, such as the continuous relaxation or the Gower distance-based kernels, or direct estimation of the correlation matrix, such as the exponential homoscedastic hypersphere (EHH) or the Homoscedastic Hypersphere (HH) kernel. Although the EHH and HH kernels are shown to be very efficient and lead to accurate GPs, they are based on a large number of hyperparameters. In this paper, we address this issue by constructing mixed-categorical GPs with fewer hyperparameters using Partial Least Squares (PLS) regression. Our goal is to generalize Kriging with PLS, commonly used for continuous inputs, to handle mixed-categorical inputs. The proposed method is implemented in the open-source software SMT and has been efficiently applied to structural and multidisciplinary applications. Our method is used to effectively demonstrate the structural behavior of a cantilever beam and facilitates MDO of a green aircraft, resulting in a 439-kilogram reduction in the amount of fuel consumed during a single aircraft mission.
翻訳日:2023-11-13 14:38:48 公開日:2023-11-10
# Instant3D:スパースビュー生成と大規模再構成モデルによる高速テキストから3D

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model ( http://arxiv.org/abs/2311.06214v1 )

ライセンス: Link先を確認
Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi(参考訳) 拡散モデルを用いたtext-to-3dは近年著しく進歩している。 しかし, 従来の方法では, 低い推算, 低多様性, ジャヌス問題に悩まされる, あるいは3次元トレーニングデータ不足による低品質な結果を生成するフィードフォワード法に依拠している。 本稿では,テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。 我々はまず,2次元テキスト・画像拡散モデルを用いてテキストから4つの構造的・一貫したビューのスパースセットを1ショットで生成し,その後,新しいトランスフォーマー・ベース・スパース・ビュー・コンストラクタを用いて生成画像から直接NeRFを回帰する2段階のパラダイムを採用する。 広範な実験により,提案手法は20秒以内に高品質で多彩でジャヌスフリーな3dアセットを生成できることを実証した。 私たちのプロジェクトwebページは、https://jiahao.ai/instant3d/です。

Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
翻訳日:2023-11-13 14:30:44 公開日:2023-11-10
# ロバスト白色物質ストリームライン符号化のための微分可能VQ-VAE

Differentiable VQ-VAE's for Robust White Matter Streamline Encodings ( http://arxiv.org/abs/2311.06212v1 )

ライセンス: Link先を確認
Andrew Lizarraga, Brandon Taraku, Edouardo Honig, Ying Nian Wu, Shantanu H. Joshi(参考訳) 白色物質流線型の複雑な幾何学を考えると、オートエンコーダは低次元潜在空間における解析流線型を単純化する次元還元ツールとして提案されている。 しかし、近年の成功にもかかわらず、エンコーダアーキテクチャの大部分は、ストリームラインの完全なバンドルとは対照的に、単一のストリームラインの次元削減のみを実行する。 これはエンコーダアーキテクチャの厳しい制限であり、個々のファイバーを犠牲にして、ストリームラインの全体幾何構造を完全に無視する。 さらに、潜在空間は十分に構造化されておらず、解釈可能性に疑問が生じる。 本稿では,単一のデータポイントとしてストリームラインの全バンドルを取り込み,信頼性の高いエンコーディングを提供し,後に遅延空間におけるストリームラインの分析に使用できる新しい微分ベクトル量子変分オートコーダを提案する。 オートエンコーダは符号化と合成の両方において優れた性能を示す。

Given the complex geometry of white matter streamlines, Autoencoders have been proposed as a dimension-reduction tool to simplify the analysis streamlines in a low-dimensional latent spaces. However, despite these recent successes, the majority of encoder architectures only perform dimension reduction on single streamlines as opposed to a full bundle of streamlines. This is a severe limitation of the encoder architecture that completely disregards the global geometric structure of streamlines at the expense of individual fibers. Moreover, the latent space may not be well structured which leads to doubt into their interpretability. In this paper we propose a novel Differentiable Vector Quantized Variational Autoencoder, which are engineered to ingest entire bundles of streamlines as single data-point and provides reliable trustworthy encodings that can then be later used to analyze streamlines in the latent space. Comparisons with several state of the art Autoencoders demonstrate superior performance in both encoding and synthesis.
翻訳日:2023-11-13 14:30:21 公開日:2023-11-10
# ASSIST: スケーラブルでリアルな室内シミュレーションのためのインタラクティブなシーンノード

ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor Simulation ( http://arxiv.org/abs/2311.06211v1 )

ライセンス: Link先を確認
Zhide Zhong, Jiakai Cao, Songen Gu, Sirui Xie, Weibo Gao, Liyi Luo, Zike Yan, Hao Zhao, Guyue Zhou(参考訳) 本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。 我々のアプローチの中心は、各オブジェクトの情報を統一的に保存する新しいシーンノードデータ構造であり、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。 識別可能なニューラルネットワークと関連するバウンディングボックスとセマンティック特徴を組み合わせることで、提案した構造は、独立オブジェクトに対するユーザフレンドリなインタラクションを保証し、新しいビューシミュレーションをスケールアップする。 シーン内のオブジェクトは、マウス/キーボードコントロールや言語命令を通じて、クエリ、追加、複製、削除、変換、あるいは単に置き換えることができる。 カラー画像,深度画像,およびパノプティックセグメンテーションマスクを3次元一貫した方法で生成し,インタラクティブな編集と合成レンダリングにより,スケールド・リアルなシミュレーションを実現する方法の有効性を実験により実証した。

We present ASSIST, an object-wise neural radiance field as a panoptic representation for compositional and realistic simulation. Central to our approach is a novel scene node data structure that stores the information of each object in a unified fashion, allowing online interaction in both intra- and cross-scene settings. By incorporating a differentiable neural network along with the associated bounding box and semantic features, the proposed structure guarantees user-friendly interaction on independent objects to scale up novel view simulation. Objects in the scene can be queried, added, duplicated, deleted, transformed, or swapped simply through mouse/keyboard controls or language instructions. Experiments demonstrate the efficacy of the proposed method, where scaled realistic simulation can be achieved through interactive editing and compositional rendering, with color images, depth images, and panoptic segmentation masks generated in a 3D consistent manner.
翻訳日:2023-11-13 14:30:06 公開日:2023-11-10
# 雑音とコミュニケーションを伴わない最適協調型マルチプレイヤー学習バンド

Optimal Cooperative Multiplayer Learning Bandits with Noisy Rewards and No Communication ( http://arxiv.org/abs/2311.06210v1 )

ライセンス: Link先を確認
William Chang, Yuanhao Lu(参考訳) 我々は,プレイヤーが事前に戦略に合意できるだけでなく,学習プロセス中にコミュニケーションができないような,協調的なマルチプレイヤーバンディット学習問題を考える。 この問題では、各プレイヤーが同時にアクションを選択する。 すべてのプレイヤーが選択したアクションに基づいて、プレイヤーのチームは報酬を受け取る。 すべての選手の行動は一般に観察される。 しかし、各プレイヤーは、他のプレイヤーと共有できない報酬のノイズバージョンを受け取る。 プレイヤーは潜在的に異なる報酬を受けるため、アクションの選択に使用される情報には非対称性がある。 本稿では,報酬情報の非対称性に拘わらず,プレイヤーが最適な行動を選択するために使用できる,上下の信頼境界に基づくアルゴリズムを提案する。 このアルゴリズムが対数的に$o(\frac{\log t}{\delta_{\bm{a}}})$(gapに依存しない)後悔と$o(\sqrt{t\log t})$(gap非依存)後悔を実現できることを示す。 これは漸近的に$T$で最適である。 また,この環境におけるアートアルゴリズムの現況よりも経験的に優れていることを示す。

We consider a cooperative multiplayer bandit learning problem where the players are only allowed to agree on a strategy beforehand, but cannot communicate during the learning process. In this problem, each player simultaneously selects an action. Based on the actions selected by all players, the team of players receives a reward. The actions of all the players are commonly observed. However, each player receives a noisy version of the reward which cannot be shared with other players. Since players receive potentially different rewards, there is an asymmetry in the information used to select their actions. In this paper, we provide an algorithm based on upper and lower confidence bounds that the players can use to select their optimal actions despite the asymmetry in the reward information. We show that this algorithm can achieve logarithmic $O(\frac{\log T}{\Delta_{\bm{a}}})$ (gap-dependent) regret as well as $O(\sqrt{T\log T})$ (gap-independent) regret. This is asymptotically optimal in $T$. We also show that it performs empirically better than the current state of the art algorithm for this environment.
翻訳日:2023-11-13 14:29:48 公開日:2023-11-10
# Vox Populi, Vox ChatGPT: 大規模言語モデル,教育,民主主義

Vox Populi, Vox ChatGPT: Large Language Models, Education and Democracy ( http://arxiv.org/abs/2311.06207v1 )

ライセンス: Link先を確認
Niina Zuber and Jan Gogoll(参考訳) ChatGPTによって実証された、生成AIと特に大きな言語モデル(LLM)の時代において、人工知能と人間の推論の交わりは、世界的な注目の的になっている。 従来の検索エンジンとは異なり、LLMは単なる情報検索を超えて、談話文化の領域に入る。 そのアウトプットはよく考えられた独立した意見や事実のステートメントを模倣し、知恵のセンスを示している。 本稿では, LLMが民主社会に与える影響について考察する。 チャットgptが生成するテキストと人間の出力との区別が難しいという懸念が浮かび上がっている。 この議論は、自由社会における民主的談話と協力の成功に欠かせない品質である、理性のためのユニークな人間の能力に根ざした著者の本質を強調している。 本稿では,民主主義に対する潜在的な脅威を浮き彫りにして,代替論,正当性論,ファクト論の3つの論点を示す。 これらの議論は、LSMの過度な信頼に関連する潜在的なリスクを浮き彫りにする。 中央論文は、llmの広範な展開が民主主義の生地に悪影響を及ぼす可能性があると示唆している。 解決策の提案では、リスクを軽減する手段として教育に重点を置くことを提唱する。 我々は,子どもの思考スキルの育成,コヒーレント思考の定式化の育成,機械出力と真の推論,すなわち人間を区別することを提案する。 LLMの開発と利用に責任を負うべきであり、その代替ではなく、思考、熟考、意思決定において人間の能力を高めることを目的としている。

In the era of generative AI and specifically large language models (LLMs), exemplified by ChatGPT, the intersection of artificial intelligence and human reasoning has become a focal point of global attention. Unlike conventional search engines, LLMs go beyond mere information retrieval, entering into the realm of discourse culture. Its outputs mimic well-considered, independent opinions or statements of facts, presenting a pretense of wisdom. This paper explores the potential transformative impact of LLMs on democratic societies. It delves into the concerns regarding the difficulty in distinguishing ChatGPT-generated texts from human output. The discussion emphasizes the essence of authorship, rooted in the unique human capacity for reason - a quality indispensable for democratic discourse and successful collaboration within free societies. Highlighting the potential threats to democracy, this paper presents three arguments: the Substitution argument, the Authenticity argument, and the Facts argument. These arguments highlight the potential risks that are associated with an overreliance on LLMs. The central thesis posits that widespread deployment of LLMs may adversely affect the fabric of a democracy if not comprehended and addressed proactively and properly. In proposing a solution, we advocate for an emphasis on education as a means to mitigate risks. We suggest cultivating thinking skills in children, fostering coherent thought formulation, and distinguishing between machine-generated output and genuine, i.e. human, reasoning. The focus should be on responsible development and usage of LLMs, with the goal of augmenting human capacities in thinking, deliberating and decision-making rather than substituting them.
翻訳日:2023-11-13 14:29:32 公開日:2023-11-10
# BanglaBait:Bangla Clickbaitデータセット上のClickbait検出のための半スーパーバイザーアプローチ

BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection on Bangla Clickbait Dataset ( http://arxiv.org/abs/2311.06204v1 )

ライセンス: Link先を確認
Md. Motahar Mahtab, Monirul Haque, Mehedi Hasan and Farig Sadeque(参考訳) 好奇心を利用して、読者に特定のコンテンツをクリックするよう意図的に誘惑する。 英語記事におけるクリックベイトタイトルの検出に焦点を当てた研究はいくつかあるが、Banglaのような低リソース言語は十分に注目されていない。 バングラデシュのclickbaitタイトルに取り組むために、私たちは15,056のラベル付きニュース記事と65,406のラベル付きニュース記事を含む最初のバングラクリックベイト検出データセットを構築しました。 各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。 ラベル付きおよび非ラベル付きデータを組み込むことにより、Semi Supervised Generative Adversarial Networks (SS GANs) を用いて、事前学習したバングラ変圧器モデルを逆向きに微調整する。 提案モデルは,従来のニューラルネットワークモデル(LSTM, GRU, CNN)と言語的特徴ベースモデルを上回る,このデータセットのよいベースラインとして機能する。 このデータセットとこれらのクリックベイト検出モデルの詳細な分析と比較が,ベンガル語記事におけるクリックベイトタイトルの検出に関する今後の研究の基盤となることを期待する。 対応するコードとデータセットをリリースしました。

Intentionally luring readers to click on a particular content by exploiting their curiosity defines a title as clickbait. Although several studies focused on detecting clickbait titles in English articles, low resource language like Bangla has not been given adequate attention. To tackle clickbait titles in Bangla, we have constructed the first Bangla clickbait detection dataset containing 15,056 labeled news articles and 65,406 unlabelled news articles extracted from clickbait dense news sites. Each article has been labeled by three expert linguists and includes an article's title, body, and other metadata. By incorporating labeled and unlabelled data, we finetune a pretrained Bangla transformer model in an adversarial fashion using Semi Supervised Generative Adversarial Networks (SS GANs). The proposed model acts as a good baseline for this dataset, outperforming traditional neural network models (LSTM, GRU, CNN) and linguistic feature based models. We expect that this dataset and the detailed analysis and comparison of these clickbait detection models will provide a fundamental basis for future research into detecting clickbait titles in Bengali articles. We have released the corresponding code and dataset.
翻訳日:2023-11-13 14:29:07 公開日:2023-11-10
# ソフトウェアテストのキャリアに関する神話とFacts:学生の信念と専門家の経験の比較

Myths and Facts about a Career in Software Testing: A Comparison between Students' Beliefs and Professionals' Experience ( http://arxiv.org/abs/2311.06201v1 )

ライセンス: Link先を確認
Ronnie de Souza Santos, Luiz Fernando Capretz, Cleyton Magalhaes, Rodrigo Souza(参考訳) テストはソフトウェア開発に欠かせない部分です。 しかしながら、ソフトウェアテストのキャリアは、コンピュータ科学と関連分野の学生の間では不人気であると報告されている。 これは将来、ソフトウェア業界のテスターが不足する可能性がある。 問題は、大学生がソフトウェアテストについて持っているという認識が正確かどうかと、ソフトウェア開発業界でテスト活動に従事している人が報告した経験との違いである。 この調査は、ソフトウェアテストのキャリアが、学生が信じているよりも、現場で働く専門家によって報告されるように、よりエキサイティングで報いることを示している。 したがって、ソフトウェア品質に焦点を当てた労働力を保証するために、アカデミーとソフトウェア産業は協力して、学生にソフトウェアテストとそのソフトウェア開発における重要な役割を知らせる必要がある。

Testing is an indispensable part of software development. However, a career in software testing is reported to be unpopular among students in computer science and related areas. This can potentially create a shortage of testers in the software industry in the future. The question is, whether the perception that undergraduate students have about software testing is accurate and whether it differs from the experience reported by those who work in testing activities in the software development industry. This investigation demonstrates that a career in software testing is more exciting and rewarding, as reported by professionals working in the field, than students may believe. Therefore, in order to guarantee a workforce focused on software quality, the academy and the software industry need to work together to better inform students about software testing and its essential role in software development.
翻訳日:2023-11-13 14:28:42 公開日:2023-11-10
# トラップイオン量子シミュレータによる非平衡散逸相転移の探索

Probing non-equilibrium dissipative phase transitions with trapped-ion quantum simulators ( http://arxiv.org/abs/2311.06199v1 )

ライセンス: Link先を確認
Casey Haack, Naushad Ahmad Kamar, Daniel Paz, Mohammad Maghrebi, Zhexuan Gong(参考訳) 制御可能な散逸を持つ開量子多体系は、そのダイナミクスと定常状態において新しい特徴を示すことができる。 パラダイム的な例として、散逸的横フィールドイジングモデルがある。 近年、全対全相互作用を持つこのモデルの定常状態は真に非平衡に近い臨界性であり、時間反転対称性が修正され、ゆらぎ散逸定理に違反していることが示されている。 しかし、そのような非平衡定常相転移の実験的研究は不十分である。 そこで本研究では, 連続弱光ポンピングレーザを用いて制御可能な散逸を制御可能な相転移を実証するために, 電流捕捉型量子シミュレータの現実的な実験セットアップと測定手法を提案する。 広い数値計算により、この散逸相転移とその非平衡特性の強いシグネチャは、幅広いシステムパラメータにわたって小さなシステムサイズで観測可能であることを示す。 さらに、スピンの周期的および確率的リセットを伴うフロケダイナミクスによって散逸が達成された場合、同じシグネチャも見られることを示す。 この方法で構築された散逸は、より一般的な駆動散逸系のシミュレーションや、有用な多体の絡み合った状態の散逸的な準備を容易にすることができる。

Open quantum many-body systems with controllable dissipation can exhibit novel features in their dynamics and steady states. A paradigmatic example is the dissipative transverse field Ising model. It has been shown recently that the steady state of this model with all-to-all interactions is genuinely non-equilibrium near criticality, exhibiting a modified time-reversal symmetry and violating the fluctuation-dissipation theorem. Experimental study of such non-equilibrium steady-state phase transitions is however lacking. Here we propose realistic experimental setups and measurement schemes for current trapped-ion quantum simulators to demonstrate this phase transition, where controllable dissipation is engineered via a continuous weak optical pumping laser. With extensive numerical calculations, we show that strong signatures of this dissipative phase transition and its non-equilibrium properties can be observed with a small system size across a wide range of system parameters. In addition, we show that the same signatures can also be seen if the dissipation is instead achieved via Floquet dynamics with periodic and probabilistic resetting of the spins. Dissipation engineered in this way may allow the simulation of more general types of driven-dissipative systems or facilitate the dissipative preparation of useful many-body entangled states.
翻訳日:2023-11-13 14:28:28 公開日:2023-11-10
# Greedy PIG: Adaptive Integrated Gradients

Greedy PIG: Adaptive Integrated Gradients ( http://arxiv.org/abs/2311.06192v1 )

ライセンス: Link先を確認
Kyriakos Axiotis, Sami Abu-al-haija, Lin Chen, Matthew Fahrbach, Gang Fu(参考訳) ディープラーニングは多くの機械学習タスクの標準的なアプローチになっている。 その影響は否定できないが、人間の視点からディープラーニングモデルの予測を解釈することは依然として困難である。 モデルトレーニングとは対照的に、モデル解釈可能性は定量化が難しく、明確な最適化問題として機能する。 auc softmax information curve (auc sic) メトリックにインスパイアされて特徴帰属評価を行い,部分集合選択に基づく特徴帰属と特徴選択のための統一的離散最適化フレームワークを提案する。 これにより、Greedy PIGと呼ばれる特徴属性に対するパス積分勾配法(PIG)の自然な適応的一般化が導かれる。 本稿では、画像特徴属性、グラフ圧縮/説明、グラフデータに対するポストホック特徴選択など、さまざまなタスクにおけるGreedy PIGの成功例を示す。 その結果,適応性の導入は,帰属法をより強力にするための強力で多用途な手法であることがわかった。

Deep learning has become the standard approach for most machine learning tasks. While its impact is undeniable, interpreting the predictions of deep learning models from a human perspective remains a challenge. In contrast to model training, model interpretability is harder to quantify and pose as an explicit optimization problem. Inspired by the AUC softmax information curve (AUC SIC) metric for evaluating feature attribution methods, we propose a unified discrete optimization framework for feature attribution and feature selection based on subset selection. This leads to a natural adaptive generalization of the path integrated gradients (PIG) method for feature attribution, which we call Greedy PIG. We demonstrate the success of Greedy PIG on a wide variety of tasks, including image feature attribution, graph compression/explanation, and post-hoc feature selection on tabular data. Our results show that introducing adaptivity is a powerful and versatile method for making attribution methods more powerful.
翻訳日:2023-11-13 14:28:08 公開日:2023-11-10
# FourierGNN: 純粋なグラフから見た多変量時系列予測の再考

FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective ( http://arxiv.org/abs/2311.06190v1 )

ライセンス: Link先を確認
Kun Yi, Qi Zhang, Wei Fan, Hui He, Liang Hu, Pengyang Wang, Ning An, Longbing Cao, Zhendong Niu(参考訳) 多変量時系列(MTS)予測は多くの産業で非常に重要である。 現在の最先端グラフニューラルネットワーク(GNN)ベースの予測手法は、通常、シリーズ間(空間)のダイナミックスとシリーズ内(時間)の依存関係をキャプチャするために、グラフネットワーク(GCNなど)と時間ネットワーク(LSTMなど)の両方を必要とする。 しかし、2つのネットワークの不確実性は、手作りのモデル設計に余分な負担を与える。 さらに、空間的・時間的モデリングは、現実の空間的相互依存性の統一に自然に違反し、予測性能を阻害する。 これらの問題を克服するために、グラフネットワークを直接適用する興味深い方向を探り、純粋なグラフの観点から MTS 予測を再考する。 まず,各時系列値(変数やタイムスタンプによらず)をグラフノードとみなし,スライディングウィンドウを時空間完全連結グラフとして表現する,新しいデータ構造であるハイパーバリアイトグラフを定義する。 この視点は時空間力学を統一し、古典的mts予測を超変量グラフの予測へと再構成する。 次に,提案するフーリエグラフ演算子(fgo)を積み重ねてフーリエ空間における行列乗算を行う,新しいアーキテクチャであるフーリエグラフニューラルネットワーク(fouriergnn)を提案する。 FourierGNNは適切な表現性に対応し、より少ない複雑さを実現し、予測を効果的かつ効率的に行うことができる。 さらに、FGOの時間領域におけるグラフ畳み込みに対する等価性を明らかにし、フーリエGNNの有効性をさらに検証する。 7つのデータセットに対する大規模な実験は、最先端の手法と比較して高い効率と少ないパラメータで優れた性能を示した。

Multivariate time series (MTS) forecasting has shown great importance in numerous industries. Current state-of-the-art graph neural network (GNN)-based forecasting methods usually require both graph networks (e.g., GCN) and temporal networks (e.g., LSTM) to capture inter-series (spatial) dynamics and intra-series (temporal) dependencies, respectively. However, the uncertain compatibility of the two networks puts an extra burden on handcrafted model designs. Moreover, the separate spatial and temporal modeling naturally violates the unified spatiotemporal inter-dependencies in real world, which largely hinders the forecasting performance. To overcome these problems, we explore an interesting direction of directly applying graph networks and rethink MTS forecasting from a pure graph perspective. We first define a novel data structure, hypervariate graph, which regards each series value (regardless of variates or timestamps) as a graph node, and represents sliding windows as space-time fully-connected graphs. This perspective considers spatiotemporal dynamics unitedly and reformulates classic MTS forecasting into the predictions on hypervariate graphs. Then, we propose a novel architecture Fourier Graph Neural Network (FourierGNN) by stacking our proposed Fourier Graph Operator (FGO) to perform matrix multiplications in Fourier space. FourierGNN accommodates adequate expressiveness and achieves much lower complexity, which can effectively and efficiently accomplish the forecasting. Besides, our theoretical analysis reveals FGO's equivalence to graph convolutions in the time domain, which further verifies the validity of FourierGNN. Extensive experiments on seven datasets have demonstrated our superior performance with higher efficiency and fewer parameters compared with state-of-the-art methods.
翻訳日:2023-11-13 14:27:50 公開日:2023-11-10
# 構文論的インタフェース:代数モデル

Syntax-semantics interface: an algebraic model ( http://arxiv.org/abs/2311.06189v1 )

ライセンス: Link先を確認
Matilde Marcolli, Robert C. Berwick, Noam Chomsky(参考訳) 我々は、ホップ代数の観点からマージとミニマリズムの定式化を、構文-意味論的インターフェースの代数モデルに拡張する。 理論物理学における再正規化(有意義な物理値の抽出)の定式化に採用される手法は,構文表現からの意味の抽出を記述できることを示す。 この定式化が意味論の計算モデルとどのように関係しているかを示し、大言語モデルの現在の機能に関する生成言語学に関する最近の議論に答える。

We extend our formulation of Merge and Minimalism in terms of Hopf algebras to an algebraic model of a syntactic-semantic interface. We show that methods adopted in the formulation of renormalization (extraction of meaningful physical values) in theoretical physics are relevant to describe the extraction of meaning from syntactic expressions. We show how this formulation relates to computational models of semantics and we answer some recent controversies about implications for generative linguistics of the current functioning of large language models.
翻訳日:2023-11-13 14:27:21 公開日:2023-11-10
# teslaのセーフティレポートのクラッシュ率の改訂に関するメモ

A Note on Tesla's Revised Safety Report Crash Rates ( http://arxiv.org/abs/2311.06187v1 )

ライセンス: Link先を確認
Noah Goodall(参考訳) 2018年6月から2022年12月までの間に、TeslaはTesla車両の衝突事故の平均マイルを引用して四半期の安全レポートを発表した。 2021年3月までに、事故率を分類した。 1)saeレベル2自動運転システムによる自動操縦 2)自動操縦は不要だが、自動緊急ブレーキ等の安全機能を有する。 3)オートパイロットやアクティブな安全機能がない。 2022年1月、Teslaは過去レポートを改訂し、Autopilotが関与する新しいカテゴリーを反映し、最近発見されたレポートの2倍のカウントと、エアバッグやアクティブな安全規制のアクティベーションのしきい値に届かなかった事故を除外した小さな調整を行った。 このリビジョンは、ドライバーがほとんどのアクティブな安全機能を有効に保っていることを示す以前の研究から見ても、意外な結果だ。 Teslaの安全レポートは、レベル2先進運転支援システムのクラッシュ率の唯一の国家的情報源であり、その方法の明確化は研究者や規制当局にとって不可欠である。 本項では、変更について記述し、相違点について解説する。

Between June 2018 and December 2022, Tesla released quarterly safety reports citing average miles between crashes for Tesla vehicles. Prior to March 2021, crash rates were categorized as 1) with their SAE Level 2 automated driving system Autopilot engaged, 2) without Autopilot but with active safety features such as automatic emergency braking, and 3) without Autopilot and without active safety features. In January 2022, Tesla revised past reports to reflect their new categories of with and without Autopilot engaged, in addition to making small adjustments based on recently discovered double counting of reports and excluding previously recorded crashes that did not meet their thresholds of airbag or active safety restraint activation. The revisions are heavily biased towards no-active-safety-features$\unicode{x2014}$a surprising result given prior research showing that drivers predominantly keep most active safety features enabled. As Tesla's safety reports represent the only national source of Level 2 advanced driver assistance system crash rates, clarification of their methods is essential for researchers and regulators. This note describes the changes and considers possible explanations for the discrepancies.
翻訳日:2023-11-13 14:27:11 公開日:2023-11-10
# 乳癌における腫瘍浸潤リンパ球スコーリングの自動化パイプライン

An Automated Pipeline for Tumour-Infiltrating Lymphocyte Scoring in Breast Cancer ( http://arxiv.org/abs/2311.06185v1 )

ライセンス: Link先を確認
Adam J Shephard, Mostafa Jahanifar, Ruoyu Wang, Muhammad Dawood, Simon Graham, Kastytis Sidlauskas, Syed Ali Khurram, Nasir M Rajpoot, Shan E Ahmed Raza(参考訳) 腫瘍浸潤リンパ球(TIL)は、3重陰性およびヒト上皮成長因子受容体2(HER2)乳癌の予後マーカーとして有用であると考えられている。 本研究では,乳がん全画像のtilsスコアを計算するために,効率的な不均一アーキテクチャに基づく革新的な深層学習パイプラインを提案する。 我々のパイプラインはまず、腫瘍-間質領域をセグメンテーションし、腫瘍バルクマスクを生成する。 その後、腫瘍関連ストロマ内のtilsを検出し、病理学者のワークフローを忠実に反映することでtilsスコアを生成する。 本手法は,TiGER Challengeのトレーニングデータセットにおける内部クロスバリデーションと最終リーダーボードの評価により,腫瘍/ストローマ領域のセグメンテーションにおける最先端性能とTILの検出を示す。 さらに,我々のTILスコアは,乳がん診断ツールとしてのTIL自動スコアシステムの臨床的意義と可能性について,同じ課題の中で生存率を予測する上での競争力を示す。

Tumour-infiltrating lymphocytes (TILs) are considered as a valuable prognostic markers in both triple-negative and human epidermal growth factor receptor 2 (HER2) breast cancer. In this study, we introduce an innovative deep learning pipeline based on the Efficient-UNet architecture to compute a TILs score for breast cancer whole slide images. Our pipeline first segments tumour-stroma regions and generates a tumour bulk mask. Subsequently, it detects TILs within the tumour-associated stroma, generating a TILs score by closely mirroring the pathologist's workflow. Our method exhibits state-of-the-art performance in segmenting tumour/stroma areas and TILs detection, as demonstrated by internal cross-validation on the TiGER Challenge training dataset and evaluation on the final leaderboards. Additionally, our TILs score proves competitive in predicting survival outcomes within the same challenge, underscoring the clinical relevance and potential of our automated TILs scoring system as a breast cancer prognostic tool.
翻訳日:2023-11-13 14:26:53 公開日:2023-11-10
# 時系列予測における周波数領域 MLP の有用性

Frequency-domain MLPs are More Effective Learners in Time Series Forecasting ( http://arxiv.org/abs/2311.06184v1 )

ライセンス: Link先を確認
Kun Yi, Qi Zhang, Wei Fan, Shoujin Wang, Pengyang Wang, Hui He, Defu Lian, Ning An, Longbing Cao, Zhendong Niu(参考訳) 時系列予測は、金融、交通、エネルギー、医療ドメインなど、さまざまな産業において重要な役割を担っている。 既存の文献は、RNN、GNN、トランスフォーマーに基づく多くの高度なアーキテクチャを設計しているが、マルチ層パーセプトロン(MLP)に基づく別のアプローチは、単純な構造、低い複雑さ、およびより優れたパフォーマンスで提案されている。 しかし、ほとんどのmlpベースの予測手法は、ポイントワイズマッピングと情報ボトルネックに苦しむため、予測性能を損なう。 この問題を解決するために,周波数領域にMLPを適用する新たな方向を時系列予測のために検討する。 周波数領域 MLP の学習パターンを調査し,その2つの特性が予測に有用であることを示す。 (i)グローバルビュー:周波数スペクトルにより、MLPは信号の完全なビューを所有し、グローバル依存関係をより容易に学習する。 (II) エネルギー圧縮: 周波数領域 MLP は、コンパクトな信号エネルギーを持つ周波数成分の小さな鍵部分に集中する。 そして、時系列予測のための周波数領域 MLP をベースとした、シンプルで効果的なアーキテクチャ FreTS を提案する。 FreTSは主に2つのステージを含む。 (i)時間領域信号を周波数領域の複素数に変換する領域変換 (II)周波数成分の現実的および想像的部分の学習のために再設計されたMLPを実行する周波数学習。 シリーズ間およびシリーズ内の両方のスケールで動作する上記のステージは、チャネルワイドおよびタイムワイドの依存性学習にさらに寄与する。 13の実世界のベンチマーク(短期予測のための7つのベンチマークと長期予測のための6つのベンチマークを含む)に関する広範な実験は、最先端の手法よりも一貫した優位性を示している。

Time series forecasting has played the key role in different industrial, including finance, traffic, energy, and healthcare domains. While existing literatures have designed many sophisticated architectures based on RNNs, GNNs, or Transformers, another kind of approaches based on multi-layer perceptrons (MLPs) are proposed with simple structure, low complexity, and {superior performance}. However, most MLP-based forecasting methods suffer from the point-wise mappings and information bottleneck, which largely hinders the forecasting performance. To overcome this problem, we explore a novel direction of applying MLPs in the frequency domain for time series forecasting. We investigate the learned patterns of frequency-domain MLPs and discover their two inherent characteristic benefiting forecasting, (i) global view: frequency spectrum makes MLPs own a complete view for signals and learn global dependencies more easily, and (ii) energy compaction: frequency-domain MLPs concentrate on smaller key part of frequency components with compact signal energy. Then, we propose FreTS, a simple yet effective architecture built upon Frequency-domain MLPs for Time Series forecasting. FreTS mainly involves two stages, (i) Domain Conversion, that transforms time-domain signals into complex numbers of frequency domain; (ii) Frequency Learning, that performs our redesigned MLPs for the learning of real and imaginary part of frequency components. The above stages operated on both inter-series and intra-series scales further contribute to channel-wise and time-wise dependency learning. Extensive experiments on 13 real-world benchmarks (including 7 benchmarks for short-term forecasting and 6 benchmarks for long-term forecasting) demonstrate our consistent superiority over state-of-the-art methods.
翻訳日:2023-11-13 14:26:36 公開日:2023-11-10
# コンテキスト・セマンティック・シンタクティック・キューを用いた異種テキストデータセットの多次元参照モデル

A Novel Multidimensional Reference Model For Heterogeneous Textual Datasets Using Context, Semantic And Syntactic Clues ( http://arxiv.org/abs/2311.06183v1 )

ライセンス: Link先を確認
Ganesh Kumar, Shuib Basri, Abdullahi Abubakar Imam, Abdullateef Oluwaqbemiga Balogun, Hussaini Mamman, Luiz Fernando Capretz(参考訳) テクノロジーの出現と最新のデバイスの使用により、彼らは輝かしいデータを生み出す。 うち80%は構造化されておらず、残りの20%は構造化され半構造化されている。 生成されたデータは異種フォーマットであり、標準に従わない。 ヘテロジニアス(構造化、半構造化、非構造化)データの中で、テキストデータは、現在、将来の課題の予測と可視化のために業界によって使われている。 語彙的および意味的マッチングのため、利害関係者にとって有用な情報を抽出するのは本当に難しい。 オントロジーとセマンティックツールを用いてこの問題を解決している研究はほとんどないが、提案された研究の主な制限は多次元項のカバレッジの低下であった。 そこで本研究では,異種テキストデータセットを対象とした言語カテゴリーを用いた新しい多次元参照モデルを提案する。 文脈、意味、構文の手がかりといったカテゴリは、スコアとともに焦点を合わせます。 MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。 実験の結果, MRMの比率は, より網羅的, 言語学的カテゴリ, 異種データセットの観点から, 最先端の単一次元参照モデルよりも優れていることがわかった。

With the advent of technology and use of latest devices, they produces voluminous data. Out of it, 80% of the data are unstructured and remaining 20% are structured and semi-structured. The produced data are in heterogeneous format and without following any standards. Among heterogeneous (structured, semi-structured and unstructured) data, textual data are nowadays used by industries for prediction and visualization of future challenges. Extracting useful information from it is really challenging for stakeholders due to lexical and semantic matching. Few studies have been solving this issue by using ontologies and semantic tools, but the main limitations of proposed work were the less coverage of multidimensional terms. To solve this problem, this study aims to produce a novel multidimensional reference model using linguistics categories for heterogeneous textual datasets. The categories such context, semantic and syntactic clues are focused along with their score. The main contribution of MRM is that it checks each tokens with each term based on indexing of linguistic categories such as synonym, antonym, formal, lexical word order and co-occurrence. The experiments show that the percentage of MRM is better than the state-of-the-art single dimension reference model in terms of more coverage, linguistics categories and heterogeneous datasets.
翻訳日:2023-11-13 14:26:09 公開日:2023-11-10
# バタフライ因子分解によるパラメータ効率直交微調整

Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization ( http://arxiv.org/abs/2311.06243v1 )

ライセンス: Link先を確認
Weiyang Liu, Zeju Qiu, Yao Feng, Yuliang Xiu, Yuxuan Xue, Longhui Yu, Haiwen Feng, Zhen Liu, Juyeon Heo, Songyou Peng, Yandong Wen, Michael J. Black, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 大規模な基礎モデルは普及しつつあるが、それらをゼロから訓練することは違法に高価である。 したがって、これらの強力なモデルを下流タスクに効率的に適応させることがますます重要である。 本稿では,下流タスク適応のための原理的微調整パラダイム (ortogonal finetuning (oft)) について検討する。 優れた一般化性を示すにもかかわらず、OFTは直交行列の高次元性のため、かなり多くのトレーニング可能なパラメータを使用する。 これを解決するために、情報伝達の観点からOFTを調べ、パラメータ効率を向上するいくつかのキーデシラタを特定します。 クーリー・タキー高速フーリエ変換アルゴリズムが効率的な情報伝達を実現する方法に着想を得て,バタフライ構造を用いた効率的な直交パラメータ化を提案する。 我々はこのパラメータ化をOFTに適用し、Orthogonal Butterfly (BOFT)と呼ばれる新しいパラメータ効率の微調整法を開発した。 特別な場合として OFT を仮定することにより、BOFT は一般化直交微調整フレームワークを導入する。 最後に, 大規模視覚トランスフォーマ, 大規模言語モデル, テキストから画像への拡散モデルを視覚と言語における様々な下流タスクに適用する, 広範な実証研究を行った。

Large foundation models are becoming ubiquitous, but training them from scratch is prohibitively expensive. Thus, efficiently adapting these powerful models to downstream tasks is increasingly important. In this paper, we study a principled finetuning paradigm -- Orthogonal Finetuning (OFT) -- for downstream task adaptation. Despite demonstrating good generalizability, OFT still uses a fairly large number of trainable parameters due to the high dimensionality of orthogonal matrices. To address this, we start by examining OFT from an information transmission perspective, and then identify a few key desiderata that enable better parameter-efficiency. Inspired by how the Cooley-Tukey fast Fourier transform algorithm enables efficient information transmission, we propose an efficient orthogonal parameterization using butterfly structures. We apply this parameterization to OFT, creating a novel parameter-efficient finetuning method, called Orthogonal Butterfly (BOFT). By subsuming OFT as a special case, BOFT introduces a generalized orthogonal finetuning framework. Finally, we conduct an extensive empirical study of adapting large vision transformers, large language models, and text-to-image diffusion models to various downstream tasks in vision and language.
翻訳日:2023-11-13 14:18:39 公開日:2023-11-10
# florence-2: 多様な視覚タスクのための統一表現の進歩

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks ( http://arxiv.org/abs/2311.06242v1 )

ライセンス: Link先を確認
Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan(参考訳) 様々なコンピュータビジョンと視覚言語タスクの統一されたプロンプトベース表現を備えた,新たなビジョン基盤モデルであるflorence-2を紹介する。 既存の大きな視覚モデルは伝達学習に優れているが、様々な空間的階層と意味的な粒度の複雑さを扱う能力である単純な命令でタスクの多様性を実行するのに苦労している。 Florence-2はテキストプロンプトをタスク命令とし、キャプション、オブジェクト検出、グラウンド、セグメンテーションなどのテキスト形式で望ましい結果を生成するように設計された。 このマルチタスク学習セットアップは、大規模で高品質なアノテートデータを必要とする。 この目的のために、自動画像アノテーションとモデル改良の反復戦略を用いて、1億2600万画像に対する包括的視覚アノテーションからなるFLD-5Bを開発した。 フローレンス2の訓練にシーケンシャル・ツー・シーケンス構造を採用し,汎用的かつ総合的な視覚タスクを遂行した。 多数のタスクに対する広範囲な評価により、Florence-2は前例のないゼロショットと微調整能力を持つ強力なビジョン基盤モデル候補となった。

We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models excel in transfer learning, they struggle to perform a diversity of tasks with simple instructions, a capability that implies handling the complexity of various spatial hierarchy and semantic granularity. Florence-2 was designed to take text-prompt as task instructions and generate desirable results in text forms, whether it be captioning, object detection, grounding or segmentation. This multi-task learning setup demands large-scale, high-quality annotated data. To this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive visual annotations on 126 million images, using an iterative strategy of automated image annotation and model refinement. We adopted a sequence-to-sequence structure to train Florence-2 to perform versatile and comprehensive vision tasks. Extensive evaluations on numerous tasks demonstrated Florence-2 to be a strong vision foundation model contender with unprecedented zero-shot and fine-tuning capabilities.
翻訳日:2023-11-13 14:18:21 公開日:2023-11-10
# XLNetを用いた調停要素アノテーションモデリング

Argumentation Element Annotation Modeling using XLNet ( http://arxiv.org/abs/2311.06239v1 )

ライセンス: Link先を確認
Christopher Ormerod, Amy Burkhardt, Mackenzie Young, and Sue Lottridge(参考訳) 本研究は,説得的エッセイにおける議論的要素を注釈するトランスフォーマティブ言語モデルであるxlnetの有効性を示す。 XLNetのアーキテクチャには、長文の長期依存をモデル化するための繰り返しメカニズムが組み込まれている。 微調整されたXLNetモデルは、さまざまなスキームで注釈付けされた3つのデータセット(ARROW(Annotations for Revisions and Reflections on Writing)スキーム、PERSUADEコーパス、Argument Annotated Essays(AAE)データセット)に適用された。 XLNetモデルはすべてのデータセットで強力なパフォーマンスを実現し、場合によっては人間の合意レベルを超えている。 これはXLNetが様々なアノテーションスキームや長いエッセイを扱えることを示している。 異なるデータセットにおけるモデル出力の比較も、アノテーションタグ間の関係に関する洞察を明らかにした。 全体として、さまざまなデータセットにわたる議論構造をモデル化するxlnetの強みは、エッセイ組織に自動フィードバックを提供するのに適している点を強調している。

This study demonstrates the effectiveness of XLNet, a transformer-based language model, for annotating argumentative elements in persuasive essays. XLNet's architecture incorporates a recurrent mechanism that allows it to model long-term dependencies in lengthy texts. Fine-tuned XLNet models were applied to three datasets annotated with different schemes - a proprietary dataset using the Annotations for Revisions and Reflections on Writing (ARROW) scheme, the PERSUADE corpus, and the Argument Annotated Essays (AAE) dataset. The XLNet models achieved strong performance across all datasets, even surpassing human agreement levels in some cases. This shows XLNet capably handles diverse annotation schemes and lengthy essays. Comparisons between the model outputs on different datasets also revealed insights into the relationships between the annotation tags. Overall, XLNet's strong performance on modeling argumentative structures across diverse datasets highlights its suitability for providing automated feedback on essay organization.
翻訳日:2023-11-13 14:18:04 公開日:2023-11-10
# 悪魔を召喚し、それを縛る: llm red teaming in the wild の根拠のある理論

Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming in the Wild ( http://arxiv.org/abs/2311.06237v1 )

ライセンス: Link先を確認
Nanna Inie, Jonathan Stray, Leon Derczynski(参考訳) 大規模言語モデル(llm)からの異常出力の意図的な生成に攻撃を加えることは、新しい人間の活動である。 本稿では、このような攻撃を行う方法と理由を詳細に解説する。 フォーマルな定性的な方法論を使用して、幅広いバックグラウンドを持つ数十人の実践者、すべてのコントリビュータにLLMを失敗させようとするこの新しい仕事についてインタビューしました。 私たちは、実践者のモチベーションと目標、それらが展開する戦略と技術、そしてコミュニティが果たす重要な役割を関連づけ、関連付けます。 その結果,大規模言語モデルに対してどのように,なぜ人々が攻撃するかという基礎的な理論が提示された: LLM Red Teaming in the wild。

Engaging in the deliberate generation of abnormal outputs from large language models (LLMs) by attacking them is a novel human activity. This paper presents a thorough exposition of how and why people perform such attacks. Using a formal qualitative methodology, we interviewed dozens of practitioners from a broad range of backgrounds, all contributors to this novel work of attempting to cause LLMs to fail. We relate and connect this activity between its practitioners' motivations and goals; the strategies and techniques they deploy; and the crucial role the community plays. As a result, this paper presents a grounded theory of how and why people attack large language models: LLM red teaming in the wild.
翻訳日:2023-11-13 14:17:48 公開日:2023-11-10
# EVORA:リスクを意識したオフロードオートノミーのためのディープエビデンシャルトラバーサビリティ学習

EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy ( http://arxiv.org/abs/2311.06234v1 )

ライセンス: Link先を確認
Xiaoyi Cai, Siddharth Ancha, Lakshay Sharma, Philip R. Osteen, Bernadette Bucher, Stephen Phillips, Jiuguang Wang, Michael Everett, Nicholas Roy, Jonathan P. How(参考訳) 高いトラクションで地形を横切ることは、高速のオフロードナビゲーションを達成するために不可欠である。 地形特性に基づくコストを手動で設計する代わりに、既存の手法は自己スーパービジョンを通じてデータから直接地形特性を学習するが、学習モデルの不確実性によるリスクを適切に定量化し軽減することが課題である。 本研究は,トラクション予測者の潜在特徴の離散的トラクション分布と確率密度を学習することにより,アレテータと認識的不確実性の両方を効率的に定量化する。 本研究では,ネットワーク出力を用いたディリクレ分布のパラメータ化を行い,学習精度とナビゲーション性能を向上させるクローズドフォーム式を用いて,新たな不確実性を考慮した2乗地球移動機の距離損失を提案する。 提案したリスク対応プランナーは,アレタリック不確実性に対処するために,最悪のシナリオで状態軌跡をシミュレートし,高度の疫学的不確実性を伴う地形中を移動する軌跡を罰する。 提案手法はシミュレーションや車輪付き四足歩行ロボットにおいて広範囲に検証され,スリップを前提とせず,予想されるトラクションを仮定し,最悪の場合の予測コストを最適化する手法と比較して,ナビゲーション性能が向上した。

Traversing terrain with good traction is crucial for achieving fast off-road navigation. Instead of manually designing costs based on terrain features, existing methods learn terrain properties directly from data via self-supervision, but challenges remain to properly quantify and mitigate risks due to uncertainties in learned models. This work efficiently quantifies both aleatoric and epistemic uncertainties by learning discrete traction distributions and probability densities of the traction predictor's latent features. Leveraging evidential deep learning, we parameterize Dirichlet distributions with the network outputs and propose a novel uncertainty-aware squared Earth Mover's distance loss with a closed-form expression that improves learning accuracy and navigation performance. The proposed risk-aware planner simulates state trajectories with the worst-case expected traction to handle aleatoric uncertainty, and penalizes trajectories moving through terrain with high epistemic uncertainty. Our approach is extensively validated in simulation and on wheeled and quadruped robots, showing improved navigation performance compared to methods that assume no slip, assume the expected traction, or optimize for the worst-case expected cost.
翻訳日:2023-11-13 14:17:34 公開日:2023-11-10
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v1 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) 本研究では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な検出手法であるData Contamination Quizを提案する。 具体的には、データの汚染検出を複数の質問にまとめる。 我々は、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。 これらの変更は、単語レベルの摂動のみを含み、単語を文脈的同義語に置き換え、意味構造と文構造が元のインスタンスと全く同じであることを保証する。 元の例とともに、これらの摂動バージョンはクイズの選択を構成する。 これらの選択の中で唯一識別される信号は正確な単語であるllmであり、元のインスタンスを選択から識別するタスクを行うと、llmに固有の特徴である事前学習フェーズで記憶している場合、元の信号を選択する。 データセットのパーティションは、クイズ上のLCMのパフォーマンスがランダムな確率を超えると汚染されるとマークされる。 評価は, GPT-4 と GPT-3.5 の2つの最先端 LLM 上で, 7 つのデータセットとそれぞれの分割(トレインとテスト/バリデーション)にまたがる。 事前学習データへのアクセスを欠くが,本手法はデータ汚染の検出を向上させるだけでなく,汚染信号が弱い場合でもその範囲を正確に推定できることを示す。

We propose the Data Contamination Quiz, a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions. We devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations, replacing words with their contextual synonyms, ensuring both the semantic and sentence structure remain exactly the same as the original instance. Together with the original instance, these perturbed versions constitute the choices in the quiz. Given that the only distinguishing signal among these choices is the exact wording, an LLM, when tasked with identifying the original instance from the choices, opts for the original if it has memorized it in its pre-training phase--a trait intrinsic to LLMs. A dataset partition is then marked as contaminated if the LLM's performance on the quiz surpasses what random chance suggests. Our evaluation spans seven datasets and their respective splits (train and test/validation) on two state-of-the-art LLMs: GPT-4 and GPT-3.5. While lacking access to the pre-training data, our results suggest that our approach not only enhances the detection of data contamination but also provides an accurate estimation of its extent, even when the contamination signal is weak.
翻訳日:2023-11-13 14:17:10 公開日:2023-11-10
# 実人のいない人間の行動認識表現の学習

Learning Human Action Recognition Representations Without Real Humans ( http://arxiv.org/abs/2311.06231v1 )

ライセンス: Link先を確認
Howard Zhong, Samarth Mishra, Donghyun Kim, SouYoung Jin, Rameswar Panda, Hilde Kuehne, Leonid Karlinsky, Venkatesh Saligrama, Aude Oliva, Rogerio Feris(参考訳) 大規模ビデオデータセットの事前トレーニングは、より小さなダウンストリームデータセットで高いアクション認識性能を達成するために不可欠である。 しかし、ほとんどの大規模ビデオデータセットには人々の画像が含まれており、プライバシー、倫理、データ保護に関する問題に付随しており、しばしば再現可能な研究のために一般に共有されることを妨げている。 既存の研究は、顔のぼやけ、ビデオのサンプルダウン、合成データのトレーニングによってこれらの問題を緩和しようと試みている。 一方で,プライバシ保存型事前学習モデルのダウンストリームタスクへの転送可能性の分析が制限されている。 本研究では、まず、実際の人間を含まないデータを用いて、人間の行動認識のためのモデルを事前訓練できるか? この目的のために,仮想人間を含む合成データを用いて,実世界ビデオを活用するベンチマークを初めて提示し,モデルを事前学習する。 次に,このデータから得られた表現の下流行動認識ベンチマークへの転送性を評価する。 さらに,プライバシ保存MAE-Alignと呼ばれる新しい事前学習戦略を提案し,人工データと人間の除去した実データとを効果的に組み合わせた。 提案手法は, 線形探索と微調整の両方において, 従来のベースラインを最大5%上回り, 下流タスクにおける人間と非人間の行動認識表現のパフォーマンスギャップを埋める。 ベンチマーク、コード、モデルはhttps://github.com/howardzh01/ppmaで利用可能です。

Pre-training on massive video datasets has become essential to achieve high action recognition performance on smaller downstream datasets. However, most large-scale video datasets contain images of people and hence are accompanied with issues related to privacy, ethics, and data protection, often preventing them from being publicly shared for reproducible research. Existing work has attempted to alleviate these problems by blurring faces, downsampling videos, or training on synthetic data. On the other hand, analysis on the transferability of privacy-preserving pre-trained models to downstream tasks has been limited. In this work, we study this problem by first asking the question: can we pre-train models for human action recognition with data that does not include real humans? To this end, we present, for the first time, a benchmark that leverages real-world videos with humans removed and synthetic data containing virtual humans to pre-train a model. We then evaluate the transferability of the representation learned on this data to a diverse set of downstream action recognition benchmarks. Furthermore, we propose a novel pre-training strategy, called Privacy-Preserving MAE-Align, to effectively combine synthetic data and human-removed real data. Our approach outperforms previous baselines by up to 5% and closes the performance gap between human and no-human action recognition representations on downstream tasks, for both linear probing and fine-tuning. Our benchmark, code, and models are available at https://github.com/howardzh01/PPMA .
翻訳日:2023-11-13 14:16:43 公開日:2023-11-10
# qesセクシー・ポテンシャルのスージー・パートナーが再訪

The SUSY partners of the QES sextic potential revisited ( http://arxiv.org/abs/2311.06230v1 )

ライセンス: Link先を確認
Alonso Contreras-Astorga, A. M. Escobar-Ruiz, Rom\'an Linares(参考訳) 本稿では、準特殊可解(QES)性ポテンシャル $V^{\rm qes}(x) = \nu\, x^{6} + 2\, \nu\, \mu\,x^{4} + \left[\mu^2-(4N+3)\nu \right]\, x^{2}$, $N \in \mathbb{Z}^+$ のSUSYパートナーハミルトニアンは、リー代数の観点から再検討する。 変数 $ \tau=x^2$ において、基礎となる $\mathfrak{sl}_2(\mathbb{R})$ hidden algebra of $V^{\rm qes}(x)$ が SUSY パートナーポテンシャル $V_1(x)$ によって継承されることが示されている。 固定 $n>0$ において、代数多項式作用素 $h(x,\,\partial_x;\,n)$ は、$n$ の完全固有多項解である $v_1$ を明示的に導出する。 これらの奇パリティ解はゼロモードの形で現れる。 V_1$のポテンシャルは多項式と有理部分の和として表すことができる。 特に、多項式成分は異なる非整数(コホモロジー)パラメータ $n_1=n-\frac{3}{2}$ を持つ $v^{\rm qes}$ によって与えられることが示されている。 収束二階SUSY変換はエネルギー反射対称性を持つ改良QES性ポテンシャルに対しても実装される。 連続実定数としてn$を取り、lagrange-meshメソッドを使用することで、高精度な値($\sim 20$ s)が得られる。 d. N \in [-1,3]$の間隔におけるエネルギー$E_n=E_n(N)$の3つの最低状態$n=0,1,2$に対して算出する。 また、トンネル効果(スタントンのような項)を生じ得る臨界値$n_c$も得られる。 n=0$ では、$v^{\rm qes}$ のスペクトルの非代数的セクタは、コンパクトな物理的関連試行関数によって記述される。 これらの解により、近似固有関数のレベルに一階SUSYアプローチを適用すると、精度で効果を決定することができる。

In this paper, the SUSY partner Hamiltonians of the quasi-exactly solvable (QES) sextic potential $V^{\rm qes}(x) = \nu\, x^{6} + 2\, \nu\, \mu\,x^{4} + \left[\mu^2-(4N+3)\nu \right]\, x^{2}$, $N \in \mathbb{Z}^+$, are revisited from a Lie algebraic perspective. It is demonstrated that, in the variable $ \tau=x^2$, the underlying $\mathfrak{sl}_2(\mathbb{R})$ hidden algebra of $V^{\rm qes}(x)$ is inherited by its SUSY partner potential $V_1(x)$ only for $N=0$. At fixed $N>0$, the algebraic polynomial operator $h(x,\,\partial_x;\,N)$ that governs the $N$ exact eigenpolynomial solutions of $V_1$ is derived explicitly. These odd-parity solutions appear in the form of zero modes. The potential $V_1$ can be represented as the sum of a polynomial and rational parts. In particular, it is shown that the polynomial component is given by $V^{\rm qes}$ with a different non-integer (cohomology) parameter $N_1=N-\frac{3}{2}$. A confluent second-order SUSY transformation is also implemented for a modified QES sextic potential possessing the energy reflection symmetry. By taking $N$ as a continuous real constant and using the Lagrange-mesh method, highly accurate values ($\sim 20$ s. d.) of the energy $E_n=E_n(N)$ in the interval $N \in [-1,3]$ are calculated for the three lowest states $n=0,1,2$ of the system. The critical value $N_c$ above which tunneling effects (instanton-like terms) can occur is obtained as well. At $N=0$, the non-algebraic sector of the spectrum of $V^{\rm qes}$ is described by means of compact physically relevant trial functions. These solutions allow us to determine the effects in accuracy when the first-order SUSY approach is applied on the level of approximate eigenfunctions.
翻訳日:2023-11-13 14:16:19 公開日:2023-11-10
# データ融合による学習材料合成-構造-プロパティ関係:ベイジアンコリージョン化N次元Piecewise Function Learning

Learning material synthesis-structure-property relationship by data fusion: Bayesian Co-regionalization N-Dimensional Piecewise Function Learning ( http://arxiv.org/abs/2311.06228v1 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald, Brian DeCost(参考訳) 量子コンピューティング、カーボンキャプチャー、低コスト医療イメージングなどの次世代技術には、高度な材料が必要である。 しかし、高度な材料発見は、高次元の複雑な材料探索空間の課題と、知識、すなわち機器や実験室間のデータ融合の課題の2つの基本的な課題によって構築されている。 最初の課題を克服するために、研究者は材料構造が機能的特性を予測し、その逆も予測されるため、基盤となる物質合成-構造-プロパティ関係の知識を用いる。 例えば、最適材料は、しばしば組成-相境界に沿って、あるいは特定の相領域内で起こる。 さらに、合成-構造-プロパティ関係の知識は、基礎となる物理的メカニズムを理解するのに不可欠である。 しかし、合成-構造-適合関係の定量化には、第二の課題を克服する必要がある。 研究者は、計器、測定モダリティ、実験室に集められた知識をマージしなければならない。 合成-構造-プロパティ relAtionship coreGionalized lEarner (SAGE) アルゴリズムを提案する。 マルチモーダルなコリージョン化を用いて、データソース間の知識をマージして、合成-構造-プロパティ関係を学習する完全ベイズアルゴリズム。

Advanced materials are needed to further next-generation technologies such as quantum computing, carbon capture, and low-cost medical imaging. However, advanced materials discovery is confounded by two fundamental challenges: the challenge of a high-dimensional, complex materials search space and the challenge of combining knowledge, i.e., data fusion across instruments and labs. To overcome the first challenge, researchers employ knowledge of the underlying material synthesis-structure-property relationship, as a material's structure is often predictive of its functional property and vice versa. For example, optimal materials often occur along composition-phase boundaries or within specific phase regions. Additionally, knowledge of the synthesis-structure-property relationship is fundamental to understanding underlying physical mechanisms. However, quantifying the synthesis-structure-property relationship requires overcoming the second challenge. Researchers must merge knowledge gathered across instruments, measurement modalities, and even laboratories. We present the Synthesis-structure-property relAtionship coreGionalized lEarner (SAGE) algorithm. A fully Bayesian algorithm that uses multimodal coregionalization to merge knowledge across data sources to learn synthesis-structure-property relationships.
翻訳日:2023-11-13 14:15:26 公開日:2023-11-10
# 差別化プライバシはバックドア攻撃を防ぐか?

Does Differential Privacy Prevent Backdoor Attacks in Practice? ( http://arxiv.org/abs/2311.06227v1 )

ライセンス: Link先を確認
Fereshteh Razmi, Jian Lou, and Li Xiong(参考訳) 微分プライバシー(DP)は、もともとプライバシーを保護するために開発された。 しかし、最近、DP-SGDがかなりの注目を集めている中毒発作から機械学習(ML)モデルを保護するために利用されてきた。 それにもかかわらず、バックドア攻撃の防止に異なるDP手法の有効性を評価するためには、徹底的な調査が必要である。 本稿では,DP-SGDの有効性について検討し,文献ではじめてバックドア攻撃の文脈におけるPATEについて検討する。 また,バックドア攻撃に対する防御におけるdpアルゴリズムのさまざまなコンポーネントの役割について検討し,pateが採用する教師モデルの袋詰め構造により,これらの攻撃に対して有効であることを示す。 実験の結果,トレーニングデータセットのハイパーパラメータとバックドア数がDPアルゴリズムの成功に影響を及ぼすことがわかった。 さらに,DP-SGDとPATEの高速かつ高精度な代替手段としてラベルDPを提案する。 label-dpアルゴリズムは一般により弱いプライバシー保護を提供するが、正確なハイパーパラメータチューニングはモデル精度を維持しつつバックドア攻撃に対してdpメソッドよりも効果的である。

Differential Privacy (DP) was originally developed to protect privacy. However, it has recently been utilized to secure machine learning (ML) models from poisoning attacks, with DP-SGD receiving substantial attention. Nevertheless, a thorough investigation is required to assess the effectiveness of different DP techniques in preventing backdoor attacks in practice. In this paper, we investigate the effectiveness of DP-SGD and, for the first time in literature, examine PATE in the context of backdoor attacks. We also explore the role of different components of DP algorithms in defending against backdoor attacks and will show that PATE is effective against these attacks due to the bagging structure of the teacher models it employs. Our experiments reveal that hyperparameters and the number of backdoors in the training dataset impact the success of DP algorithms. Additionally, we propose Label-DP as a faster and more accurate alternative to DP-SGD and PATE. We conclude that while Label-DP algorithms generally offer weaker privacy protection, accurate hyper-parameter tuning can make them more effective than DP methods in defending against backdoor attacks while maintaining model accuracy.
翻訳日:2023-11-13 14:15:06 公開日:2023-11-10
# 合成データセットを活用した深層ニューラルネットワークの一般化における形状バイアスの役割

Harnessing Synthetic Datasets: The Role of Shape Bias in Deep Neural Network Generalization ( http://arxiv.org/abs/2311.06224v1 )

ライセンス: Link先を確認
Elior Benarous, Sotiris Anagnostidis, Luca Biggio, Thomas Hofmann(参考訳) ディープラーニングの最近の進歩は主に、ますます膨大なデータセットでトレーニングされた大規模モデルの利用によってもたらされている。 ニューラルネットワークのスケーリング法は、特定の計算リソースのレベルに応じてネットワークのパフォーマンスを予測するために登場したが、拡張性のあるデータセットに対する需要の増加は懸念を呼んでいる。 これに対処するため、新しい研究の方向性が生まれ、代替として合成データの作成に焦点が当てられている。 本研究では,合成データ品質の指標として,合成データセットのトレーニング中にニューラルネットワークがどのように形状バイアスを示すかを検討する。 特に,(1)ネットワークアーキテクチャや監督のタイプによって形状バイアスが異なり,一般化の予測要因としての信頼性や,モデル認識と人間の能力との差異を説明する能力に疑問を投げかけること,の3点が示唆された。 2) 形状バイアスのみに頼って一般化を推定することは,多様性と自然主義に絡み合っているため信頼できない。 3)データセット内のサンプルの多様性を推定するためのツールとして,形状バイアスの新しい解釈を提案する。 本研究では,合成データとその形状バイアスが深層学習に与える影響を明らかにすることを目的として,一般化とデータセットの品質に関する懸念に対処する。

Recent advancements in deep learning have been primarily driven by the use of large models trained on increasingly vast datasets. While neural scaling laws have emerged to predict network performance given a specific level of computational resources, the growing demand for expansive datasets raises concerns. To address this, a new research direction has emerged, focusing on the creation of synthetic data as a substitute. In this study, we investigate how neural networks exhibit shape bias during training on synthetic datasets, serving as an indicator of the synthetic data quality. Specifically, our findings indicate three key points: (1) Shape bias varies across network architectures and types of supervision, casting doubt on its reliability as a predictor for generalization and its ability to explain differences in model recognition compared to human capabilities. (2) Relying solely on shape bias to estimate generalization is unreliable, as it is entangled with diversity and naturalism. (3) We propose a novel interpretation of shape bias as a tool for estimating the diversity of samples within a dataset. Our research aims to clarify the implications of using synthetic data and its associated shape bias in deep learning, addressing concerns regarding generalization and dataset quality.
翻訳日:2023-11-13 14:14:45 公開日:2023-11-10
# 地球観測利用のための拡散モデル:雲除去から都市変化検出まで

Diffusion Models for Earth Observation Use-cases: from cloud removal to urban change detection ( http://arxiv.org/abs/2311.06222v1 )

ライセンス: Link先を確認
Fulvio Sanguigni, Mikolaj Czerkawski, Lorenzo Papa, Irene Amerini, Bertrand Le Saux(参考訳) 拡散モデルによってもたらされる生成型人工知能(ai)の現状の進歩は、地球観測データを含む新しい文脈において非常に有益である。 この新たな生成モデルを導入した後、衛星画像データへの拡散に基づくアプローチの可能性を示す3つのユースケースを提案し、分析する。 すなわち、クラウドの除去と塗装、変更検出タスクのためのデータセット生成、都市再計画に取り組む。

The advancements in the state of the art of generative Artificial Intelligence (AI) brought by diffusion models can be highly beneficial in novel contexts involving Earth observation data. After introducing this new family of generative models, this work proposes and analyses three use cases which demonstrate the potential of diffusion-based approaches for satellite image data. Namely, we tackle cloud removal and inpainting, dataset generation for change-detection tasks, and urban replanning.
翻訳日:2023-11-13 14:14:26 公開日:2023-11-10
# 語彙ベースとMLベースの感性分析の比較:不整形語はあるか?

A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There Outlier Words? ( http://arxiv.org/abs/2311.06221v1 )

ライセンス: Link先を確認
Siddhant Jaydeep Mahajani and Shashank Srivastava and Alan F. Smeaton(参考訳) レキシコンに基づくテキストの感情分析のアプローチは、それぞれの単語またはその感情極性を表す事前定義された重みを持つ語彙エントリに基づいている。 これらは通常手動で割り当てられるが、マシンの傾きに基づくコンピュータ感情に対するアプローチと比較した場合の精度は分かっていない。 感情値がレキシコンベースのアプローチで、機械学習のアプローチとは大きく異なる結果を与える語彙的エントリがあるかもしれない。 本稿では,lexiconベースの手法であるhedonometerと,使い易いazure cognitive servicesファミリの一部である現代機械学習ベースのアプローチであるazureを用いて,4つのドメインから描かれた15万以上の英語テキストに対する感情を計算する。 回帰分析を用いて各領域の文書に対する感情スコアの差異をモデル化し、各単語の重要性とスコア差への寄与を示す指標として独立変数(ヘドメータ語彙項目)を分析した。 その結果,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書は存在しないことがわかった。

Lexicon-based approaches to sentiment analysis of text are based on each word or lexical entry having a pre-defined weight indicating its sentiment polarity. These are usually manually assigned but the accuracy of these when compared against machine leaning based approaches to computing sentiment, are not known. It may be that there are lexical entries whose sentiment values cause a lexicon-based approach to give results which are very different to a machine learning approach. In this paper we compute sentiment for more than 150,000 English language texts drawn from 4 domains using the Hedonometer, a lexicon-based technique and Azure, a contemporary machine-learning based approach which is part of the Azure Cognitive Services family of APIs which is easy to use. We model differences in sentiment scores between approaches for documents in each domain using a regression and analyse the independent variables (Hedonometer lexical entries) as indicators of each word's importance and contribution to the score differences. Our findings are that the importance of a word depends on the domain and there are no standout lexical entries which systematically cause differences in sentiment scores.
翻訳日:2023-11-13 14:14:20 公開日:2023-11-10
# アクション認識のための意味認識型ビデオ表現

Semantic-aware Video Representation for Few-shot Action Recognition ( http://arxiv.org/abs/2311.06218v1 )

ライセンス: Link先を確認
Yutao Tang, Benjamin Bejar, Rene Vidal(参考訳) 近年の動作認識の研究は3次元特徴とテキスト情報を活用して最先端の性能を実現する。 しかし、現在のノンショットアクション認識手法のほとんどは、2dフレームレベルの表現に依存しており、しばしば時間関係をモデル化するために追加のコンポーネントを必要とし、これらの表現の正確なアライメントを達成するために複雑な距離関数を用いる。 さらに、既存の手法では、テキスト意味論を効果的に統合するのに苦労し、テキストと視覚的特徴の結合や追加を頼りにするものや、テキストを単に追加の監督として使うものも、機能融合や異なるモダリティからの情報伝達を真に達成することができない。 本研究では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。 本研究では,3次元特徴抽出器と効果的な特徴融合方式とを併用して,時間的モデリングや複雑な距離関数の余分な部品を必要とせずに,分類のための単純なコサイン類似性を向上できることを示す。 我々は,テキストと映像の機能を適応的に融合する映像表現にテキスト意味論をエンコードする革新的な手法を導入し,視覚エンコーダがより意味的に一貫性のある特徴を抽出するように促す。 このスキームでは、SAFSARはコンパクトな方法でアライメントと融合を達成する。 様々な条件下での5つの挑戦的な数発動作認識ベンチマーク実験は、提案するsafsarモデルが最先端の性能を大幅に改善することを示している。

Recent work on action recognition leverages 3D features and textual information to achieve state-of-the-art performance. However, most of the current few-shot action recognition methods still rely on 2D frame-level representations, often require additional components to model temporal relations, and employ complex distance functions to achieve accurate alignment of these representations. In addition, existing methods struggle to effectively integrate textual semantics, some resorting to concatenation or addition of textual and visual features, and some using text merely as an additional supervision without truly achieving feature fusion and information transfer from different modalities. In this work, we propose a simple yet effective Semantic-Aware Few-Shot Action Recognition (SAFSAR) model to address these issues. We show that directly leveraging a 3D feature extractor combined with an effective feature-fusion scheme, and a simple cosine similarity for classification can yield better performance without the need of extra components for temporal modeling or complex distance functions. We introduce an innovative scheme to encode the textual semantics into the video representation which adaptively fuses features from text and video, and encourages the visual encoder to extract more semantically consistent features. In this scheme, SAFSAR achieves alignment and fusion in a compact way. Experiments on five challenging few-shot action recognition benchmarks under various settings demonstrate that the proposed SAFSAR model significantly improves the state-of-the-art performance.
翻訳日:2023-11-13 14:14:01 公開日:2023-11-10
# MultiIoT:モノのインターネットのための大規模マルチセンサー学習を目指して

MultiIoT: Towards Large-scale Multisensory Learning for the Internet of Things ( http://arxiv.org/abs/2311.06217v1 )

ライセンス: Link先を確認
Shentong Mo, Paul Pu Liang, Russ Salakhutdinov, Louis-Philippe Morency(参考訳) IoT(Internet of Things)は、センサー、ソフトウェア、通信技術に埋め込まれた何十億ものスマート物理デバイスを統合するネットワークで、他のデバイスやシステムとデータを接続し交換することを目的としています。 IoTエコシステムは、人間のポーズ、視線、活動、ジェスチャー、タッチ、コンタクト、ポーズ、物理オブジェクトの3Dを含む予測タスクのために、モーション、熱、ジオロケーション、イメージング、ディープ、センサー、ビデオ、オーディオなどの現実世界のモダリティの豊富なソースを提供する。 機械学習は、iotデータを大規模に自動的に処理する豊富な機会を提供し、人間の健康状態の理解、物理機器の制御、スマートシティの相互接続における影響の効率的な推論を可能にする。 本稿は、IoTのための機械学習技術を開発するために、12のモダリティと8タスクから115万以上のサンプルを含む、これまでで最も拡張性の高いIoTベンチマークであるMulti IoTを提案する。 マルチオットは,(1)多数の感覚モダリティから学習すること,(2)長い時間範囲にわたるきめ細かな相互作用,(3)現実世界のセンサにおける特異な構造とノイズトポロジによる極度の異質性など,独特の課題を提起する。 我々はまた、IoTのためのマルチセンサー表現学習における将来の研究を促進するために、多感覚モデルとマルチタスクモデルにモダリティとタスク固有のメソッドをまたいだ、強力なモデリングベースラインのセットもリリースした。

The Internet of Things (IoT), the network integrating billions of smart physical devices embedded with sensors, software, and communication technologies for the purpose of connecting and exchanging data with other devices and systems, is a critical and rapidly expanding component of our modern world. The IoT ecosystem provides a rich source of real-world modalities such as motion, thermal, geolocation, imaging, depth, sensors, video, and audio for prediction tasks involving the pose, gaze, activities, and gestures of humans as well as the touch, contact, pose, 3D of physical objects. Machine learning presents a rich opportunity to automatically process IoT data at scale, enabling efficient inference for impact in understanding human wellbeing, controlling physical devices, and interconnecting smart cities. To develop machine learning technologies for IoT, this paper proposes MultiIoT, the most expansive IoT benchmark to date, encompassing over 1.15 million samples from 12 modalities and 8 tasks. MultiIoT introduces unique challenges involving (1) learning from many sensory modalities, (2) fine-grained interactions across long temporal ranges, and (3) extreme heterogeneity due to unique structure and noise topologies in real-world sensors. We also release a set of strong modeling baselines, spanning modality and task-specific methods to multisensory and multitask models to encourage future research in multisensory representation learning for IoT.
翻訳日:2023-11-13 14:13:34 公開日:2023-11-10
# ヨーロッパにおけるニュースと誤情報消費 : 縦断的横断的視点

News and Misinformation Consumption in Europe: A Longitudinal Cross-Country Perspective ( http://arxiv.org/abs/2311.05487v2 )

ライセンス: Link先を確認
Anees Baqir, Alessandro Galeazzi, Fabiana Zollo(参考訳) インターネットとソーシャルメディアはニュースの可用性とアクセシビリティを変革し、情報消費と生産を変革した。 しかし、誤情報の急速な拡散を促進することもでき、社会的な大きな課題となる。 誤情報を効果的に扱うためには,オンライン情報環境とニュース消費パターンを理解することが重要である。 既存の研究のほとんどは、国間比較を欠いた単一のトピックや個々の国に焦点を当てている。 本研究は,4カ国における情報消費を調査し,フランス,ドイツ,イタリア,イギリスのニュースメディアアカウントから3年間のTwitter活動を分析し,誤情報ソースの役割に着目した。 我々の研究は、ヨーロッパの重要性のトピックが各国でどのように解釈されるかという視点を提供する。 信頼性のある情報源が情報ランドスケープを支配していることを示しているが、信頼性の低いコンテンツは依然としてすべての国やトピックに存在している。 ほとんどのユーザーは信頼できるソースを消費するが、少数のユーザーは疑わしいコンテンツを消費する。 興味深いことに、類似性ネットワークにおける疑わしいニュースと信頼できるニュースのギャップを埋める情報ダイエットを持っているユーザーは少ない。 クロスカントリー比較の結果、ニュースソースのオーディエンス重なりの違いが明らかとなり、政策立案者や学者が誤った情報と戦うための効果的かつ調整されたソリューションを開発する上で貴重なガイダンスとなった。

The Internet and social media have transformed news availability and accessibility, reshaping information consumption and production. However, they can also facilitate the rapid spread of misinformation, posing significant societal challenges. To combat misinformation effectively, it is crucial to understand the online information environment and news consumption patterns. Most existing research has primarily focused on single topics or individual countries, lacking cross-country comparisons. This study investigated information consumption in four European countries, analyzing three years of Twitter activity from news outlet accounts in France, Germany, Italy, and the UK and focusing on the role of misinformation sources. Our work offers a perspective on how topics of European significance are interpreted across various countries. Results indicate that reliable sources dominate the information landscape, although unreliable content is still present across all countries and topics. While most users engage with reliable sources, a small percentage consume questionable content. Interestingly, few users have a mixed information diet, bridging the gap between questionable and reliable news in the similarity network. Cross-country comparisons revealed differences in audience overlap of news sources, offering valuable guidance for policymakers and scholars in developing effective and tailored solutions to combat misinformation.
翻訳日:2023-11-13 12:28:53 公開日:2023-11-10
# 限られた接続性を持つガウスボソンサンプリングの古典シミュレーションの高速化

Speeding up the classical simulation of Gaussian boson sampling with limited connectivity ( http://arxiv.org/abs/2311.05355v2 )

ライセンス: Link先を確認
Tian-Yu Yang, Xiang-Bin Wang(参考訳) ガウスボソンサンプリング(GBS)は量子優位性を示す上で重要な役割を果たす。 主な欠陥として、線形光ネットワークの限られた接続は、最近の実験で量子優位性を弱める。 ここでは、限られた接続でGBSプロセスをシミュレートする高速な古典的アルゴリズムを提案する。 本稿では,接続性が制限されたgbsプロセスシミュレーションのための拡張古典アルゴリズムを提案する。 ループhafnianをn \times n$対称行列で計算し、帯域幅$w$ in $o(nw2^w)$ time で計算する。 この古典的アルゴリズムは、GBSの計算複雑性に限定的な接続がどう影響するかを明確にし、GBS問題における量子優位性の境界を狭めるのに役立つ。

Gaussian Boson sampling (GBS) plays a crucially important role in demonstrating quantum advantage. As a major imperfection, the limited connectivity of the linear optical network weakens the quantum advantage result in recent experiments. Here we present a faster classical algorithm to simulate the GBS process with limited connectivity. In this work, we introduce an enhanced classical algorithm for simulating GBS processes with limited connectivity. It computes the loop Hafnian of an $n \times n$ symmetric matrix with bandwidth $w$ in $O(nw2^w)$ time which is better than the previous fastest algorithm which runs in $O(nw^2 2^w)$ time. This classical algorithm is helpful on clarifying how limited connectivity affects the computational complexity of GBS and tightening the boundary of quantum advantage in the GBS problem.
翻訳日:2023-11-13 12:28:31 公開日:2023-11-10
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v2 )

ライセンス: Link先を確認
Tim Kr\"auter, Adrian Rutle, Harald K\"onig, Yngve Lamo(参考訳) ビジネスプロセスモデリング表記法(BPMN)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの困難をもたらす。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 当社のアプローチは、bpmnモデルからグラフ変換システムへの高次変換に基づいている。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool.
翻訳日:2023-11-13 12:28:15 公開日:2023-11-10
# facsをストレートに - 妨害された顔の特徴の再構築

Let's Get the FACS Straight -- Reconstructing Obstructed Facial Features ( http://arxiv.org/abs/2311.05221v2 )

ライセンス: Link先を確認
Tim B\"uchner and Sven Sickert and Gerd Fabian Volk and Christoph Anders and Orlando Guntinas-Lichius and Joachim Denzler(参考訳) 人間の顔は、人間間コミュニケーションにおいて最も重要な部分の1つである。 顔の一部が隠されたり邪魔されたりしても、下層の顔の動きは理解できる。 機械学習のアプローチは、顔の構造が複雑であるために失敗することが多い。 この問題を緩和するために、そのような特定のアプリケーションのためにモデルを微調整する共通のアプローチがある。 しかし、これは計算量が多く、所望の分析タスクごとに繰り返す必要がある。 本稿では, 繰り返し微調整の作業を避けるため, 閉塞した顔面部を再構築することを提案する。 その結果、既存の顔分析手法は、データに関してさらなる変更を加えることなく利用できる。 本手法では,顔の特徴の復元を異なる記録装置間のスタイル伝達タスクとして解釈する。 サイクルガンアーキテクチャを使用することで、しばしば満たすのが難しいマッチしたペアの要求を排除できる。 提案手法の実用性を証明するため,実記録との比較を行った。 実験対象者の顔に62個の表面筋電図センサを装着した状態で36名の被験者を記録した。 評価では、顔の動作単位の計算や感情の検出など、典型的な顔分析タスクを特徴とする。 さらに,修復の質を評価するために,知覚距離を比較する。 このスコアは、センサーを妨害することなく、ビデオと同じようなものになります。

The human face is one of the most crucial parts in interhuman communication. Even when parts of the face are hidden or obstructed the underlying facial movements can be understood. Machine learning approaches often fail in that regard due to the complexity of the facial structures. To alleviate this problem a common approach is to fine-tune a model for such a specific application. However, this is computational intensive and might have to be repeated for each desired analysis task. In this paper, we propose to reconstruct obstructed facial parts to avoid the task of repeated fine-tuning. As a result, existing facial analysis methods can be used without further changes with respect to the data. In our approach, the restoration of facial features is interpreted as a style transfer task between different recording setups. By using the CycleGAN architecture the requirement of matched pairs, which is often hard to fullfill, can be eliminated. To proof the viability of our approach, we compare our reconstructions with real unobstructed recordings. We created a novel data set in which 36 test subjects were recorded both with and without 62 surface electromyography sensors attached to their faces. In our evaluation, we feature typical facial analysis tasks, like the computation of Facial Action Units and the detection of emotions. To further assess the quality of the restoration, we also compare perceptional distances. We can show, that scores similar to the videos without obstructing sensors can be achieved.
翻訳日:2023-11-13 12:28:05 公開日:2023-11-10
# scaat: サリエンシー制約付き適応敵訓練によるニューラルネットワークの解釈性の向上

SCAAT: Improving Neural Network Interpretability via Saliency Constrained Adaptive Adversarial Training ( http://arxiv.org/abs/2311.05143v2 )

ライセンス: Link先を確認
Rui Xu, Wenkang Qin, Peixiang Huang, Hao Wang, Lin Luo(参考訳) ディープニューラルネットワーク(dnn)は、ユーザがブラックボックス予測を理解するための説明を提供する。 塩分マップは特徴属性のヒートマップを示す一般的な説明であるが、重要な特徴を区別するのにノイズが伴う。 本稿では,このようなDNN解釈性を向上させるために,Saliency Constrained Adversarial Training (SCAAT) と呼ばれるモデルに依存しない学習手法を提案する。 逆さまのサンプルをサリエンシーマップの指導の下で構築することで、スカアトは実質的にほとんどのノイズを除去し、モデルアーキテクチャを変更することなく、サリエンシーマップをスペアリングし、より忠実にする。 複数のDNNにSCAATを適用し,様々な自然・病理画像データセット上で生成したサリエンシマップの品質を評価する。 異なる領域とメトリクスの評価から、SCAATは予測力を犠牲にすることなくより忠実な忠実度マップを提供することにより、DNNの解釈可能性を大幅に改善することを示している。

Deep Neural Networks (DNNs) are expected to provide explanation for users to understand their black-box predictions. Saliency map is a common form of explanation illustrating the heatmap of feature attributions, but it suffers from noise in distinguishing important features. In this paper, we propose a model-agnostic learning method called Saliency Constrained Adaptive Adversarial Training (SCAAT) to improve the quality of such DNN interpretability. By constructing adversarial samples under the guidance of saliency map, SCAAT effectively eliminates most noise and makes saliency maps sparser and more faithful without any modification to the model architecture. We apply SCAAT to multiple DNNs and evaluate the quality of the generated saliency maps on various natural and pathological image datasets. Evaluations on different domains and metrics show that SCAAT significantly improves the interpretability of DNNs by providing more faithful saliency maps without sacrificing their predictive power.
翻訳日:2023-11-13 12:27:46 公開日:2023-11-10
# マルチタスク学習における共通想定の充足

Challenging Common Assumptions in Multi-task Learning ( http://arxiv.org/abs/2311.04698v2 )

ライセンス: Link先を確認
Cathrin Elich, Lukas Kirchdorfer, Jan M. K\"ohler, Lukas Schott(参考訳) 近年,マルチタスク学習(MTL)が注目されているが,その基盤となるメカニズムはよく分かっていない。 最近の手法ではシングルタスク学習(stl)ベースラインよりも一貫したパフォーマンス改善が得られず、mtl特有の課題に関する深い洞察を得ることの重要性が強調された。 本研究では,stlの文脈におけるmtlの一般的な仮定に挑戦する: まず,mtlではオプティマイザの選択が軽度に検討されている。 MTLにおけるAdam Optimizationrのような一般的なSTLツールの役割を示す。 我々はAdamの有効性をその部分的損失スケール不変性に推定する。 第二に、勾配衝突の概念は、しばしばMTLの特定の問題として表現される。 MTLにおける勾配衝突の役割を探求し、STLと比較する。 角勾配アライメントに対しては、これが MTL の唯一の問題であることを示す証拠は見つからない。 主な要因として勾配等級の違いを強調した。 最後に,MTL と STL を用いて学習した特徴の変換可能性を比較し,MTL がより優れた転送可能性をもたらすという決定的な証拠は見つからない。 全体として、STLとMTLの驚くべき類似性は、より広い文脈で両方の分野からの手法を検討することを示唆している。

While multi-task learning (MTL) has gained significant attention in recent years, its underlying mechanisms remain poorly understood. Recent methods did not yield consistent performance improvements over single task learning (STL) baselines, underscoring the importance of gaining more profound insights about challenges specific to MTL. In our study, we challenge common assumptions in MTL in the context of STL: First, the choice of optimizer has only been mildly investigated in MTL. We show the pivotal role of common STL tools such as the Adam optimizer in MTL. We deduce the effectiveness of Adam to its partial loss-scale invariance. Second, the notion of gradient conflicts has often been phrased as a specific problem in MTL. We delve into the role of gradient conflicts in MTL and compare it to STL. For angular gradient alignment we find no evidence that this is a unique problem in MTL. We emphasize differences in gradient magnitude as the main distinguishing factor. Lastly, we compare the transferability of features learned through MTL and STL on common image corruptions, and find no conclusive evidence that MTL leads to superior transferability. Overall, we find surprising similarities between STL and MTL suggesting to consider methods from both fields in a broader context.
翻訳日:2023-11-13 12:27:30 公開日:2023-11-10
# 分解と神経常微分方程式に基づく長期時系列予測

Long-term Time Series Forecasting based on Decomposition and Neural Ordinary Differential Equations ( http://arxiv.org/abs/2311.04522v2 )

ライセンス: Link先を確認
Seonkyu Lim, Jaehyeon Park, Seojin Kim, Hyowon Wi, Haksoo Lim, Jinsung Jeon, Jeongwhan Choi, Noseong Park(参考訳) 長期時系列予測(ltsf:long-term time series forecasting)は、金融投資、医療、交通、気象予報など様々な分野で研究されてきた課題である。 近年,線形型ltsfモデルの性能が向上し,時間的情報損失の原因となるトランスフォーマティブ・アプローチの問題が指摘されている。 しかし、Linearベースのアプローチには、データセットの特徴を包括的に活用するにはモデルが単純すぎるという制限もある。 これらの制約を解決するために,線形常微分方程式(ODE)に基づくモデルと,データ統計特性に応じた時系列分解法を応用したLTSF-DNODEを提案する。 LTSF-DNODEは様々な実世界のデータセットのベースラインよりも優れていることを示す。 さらに、各データセットに対して、ニューラル常微分方程式(NODE)フレームワークにおける正規化の影響について検討する。

Long-term time series forecasting (LTSF) is a challenging task that has been investigated in various domains such as finance investment, health care, traffic, and weather forecasting. In recent years, Linear-based LTSF models showed better performance, pointing out the problem of Transformer-based approaches causing temporal information loss. However, Linear-based approach has also limitations that the model is too simple to comprehensively exploit the characteristics of the dataset. To solve these limitations, we propose LTSF-DNODE, which applies a model based on linear ordinary differential equations (ODEs) and a time series decomposition method according to data statistical characteristics. We show that LTSF-DNODE outperforms the baselines on various real-world datasets. In addition, for each dataset, we explore the impacts of regularization in the neural ordinary differential equation (NODE) framework.
翻訳日:2023-11-13 12:27:11 公開日:2023-11-10
# NExT-Chat: チャット、検出、セグメンテーションのためのLMM

NExT-Chat: An LMM for Chat, Detection and Segmentation ( http://arxiv.org/abs/2311.04498v2 )

ライセンス: Link先を確認
Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)の開発は、多モーダル理解の分野を大幅に進歩させ、大規模多モーダルモデル(LMM)の出現につながった。 視覚的理解のレベルを高めるため、近年の研究では、オブジェクト境界ボックス座標を一連のテキストシーケンス(ピクセル2seq)として表現することで、領域レベルの理解能力を備えたLMMを実装している。 本稿では,Pixel2emb法と呼ばれるオブジェクト位置モデリングのための新しいパラダイムを紹介し,LMMに位置埋め込みを出力させ,異なるデコーダでデコードする。 このパラダイムでは、異なる位置フォーマット(バウンディングボックスやマスクなど)をマルチモーダルな会話で使用できるだけでなく、このような組み込みベースのロケーションモデリングによって、検出やセグメンテーションといったローカライゼーションタスクにおける既存のプラクティスの活用が可能になる。 資源が限られているシナリオでは、我々のピクセル2embは、位置入力と出力タスクの両方において、既存のSOTA(State-of-the-art)アプローチよりも優れた性能を示す。 提案手法を活用することで,NExT-ChatというLMMを訓練し,視覚的接地,領域キャプション,接地推論などの複数のタスクを処理可能であることを示す。

The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.
翻訳日:2023-11-13 12:26:58 公開日:2023-11-10
# 造形回復性脳状態復号のためのホップフィールド強化深層ニューラルネットワーク

Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain State Decoding ( http://arxiv.org/abs/2311.03421v3 )

ライセンス: Link先を確認
Arnau Marin-Llobet and Arnau Manasanch and Maria V. Sanchez-Vives(参考訳) 睡眠覚醒サイクルのような、高度に同期した状態から非同期な神経パターンまで、脳の状態の研究は、脳の時空間的ダイナミクスと行動との密接な関係を評価するための基礎となる。 しかし、これらを正確に識別する新しい技術の開発は、ノイズ、アーティファクト、および準最適記録品質の存在によってしばしば損なわれるため、依然として課題である。 本研究では, ホップフィールド・ネットワークとコンボリューショナル・ニューラル・ネットワーク(CNN)を組み合わせた2段階の計算フレームワークを提案し, 麻酔レベルの違いによるラット神経記録の脳状態の分類を行った。 枠組みの堅牢性を評価するため,我々は意図的にノイズアーティファクトを神経記録に導入した。 2つの比較モデル – 同じノイズの入力を処理するスタンドアロンCNNと,アーティファクトフリーなデータでトレーニングおよびテストされた別のCNN – に対して,私たちのハイブリッドHopfield-CNNパイプラインを評価した。 様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークが効果的にアーティファクトを軽減し、より低いノイズレベルでクリーンデータcnnと同等のレベルに到達できることを示しました。 本研究は主に小規模実験に有効であるが, 多様な実世界の環境におけるスケーラビリティとロバスト性を改善するために, 高度なディープラーニングモデルとホップフィールドネットワークモデルの必要性を強調した。

The study of brain states, ranging from highly synchronous to asynchronous neuronal patterns like the sleep-wake cycle, is fundamental for assessing the brain's spatiotemporal dynamics and their close connection to behavior. However, the development of new techniques to accurately identify them still remains a challenge, as these are often compromised by the presence of noise, artifacts, and suboptimal recording quality. In this study, we propose a two-stage computational framework combining Hopfield Networks for artifact data preprocessing with Convolutional Neural Networks (CNNs) for classification of brain states in rat neural recordings under different levels of anesthesia. To evaluate the robustness of our framework, we deliberately introduced noise artifacts into the neural recordings. We evaluated our hybrid Hopfield-CNN pipeline by benchmarking it against two comparative models: a standalone CNN handling the same noisy inputs, and another CNN trained and tested on artifact-free data. Performance across various levels of data compression and noise intensities showed that our framework can effectively mitigate artifacts, allowing the model to reach parity with the clean-data CNN at lower noise levels. Although this study mainly benefits small-scale experiments, the findings highlight the necessity for advanced deep learning and Hopfield Network models to improve scalability and robustness in diverse real-world settings.
翻訳日:2023-11-13 12:26:35 公開日:2023-11-10
# 勾配最適化法によるカーネルリッジ回帰の解法

Solving Kernel Ridge Regression with Gradient-Based Optimization Methods ( http://arxiv.org/abs/2306.16838v4 )

ライセンス: Link先を確認
Oskar Allerbo(参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は、データでは非線形であるがパラメータでは線形である線形リッジ回帰の一般化である。 本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。 連続時間の観点からは、勾配降下による核回帰(カーネル勾配流、kgf)を解くための閉形式解を導出し、krrとkgfの差を理論的に拘束し、後者については早期停止によって正規化が得られる。 リッジペナルティをそれぞれ$\ell_1$と$\ell_\infty$のペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性、$\ell_1$の正則化と前段階回帰(座標降下)、$\ell_\infty$の正則化と符号勾配勾配が同様の解経路に従うという事実を用いる。 したがって、近位勾配降下に基づく計算量の多いアルゴリズムの必要性を緩和することができる。 理論的および経験的に、$\ell_1$ と $\ell_\infty$ のペナルティと対応する勾配に基づく最適化アルゴリズムがそれぞれスパースおよびロバストなカーネル回帰解を生成する方法を示す。

Kernel ridge regression, KRR, is a generalization of linear ridge regression that is non-linear in the data, but linear in the parameters. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using penalties other than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution for solving kernel regression with gradient descent, something we refer to as kernel gradient flow, KGF, and theoretically bound the differences between KRR and KGF, where, for the latter, regularization is obtained through early stopping. We also generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties, respectively, and use the fact that analogous to the similarities between KGF and KRR, $\ell_1$ regularization and forward stagewise regression (also known as coordinate descent), and $\ell_\infty$ regularization and sign gradient descent, follow similar solution paths. We can thus alleviate the need for computationally heavy algorithms based on proximal gradient descent. We show theoretically and empirically how the $\ell_1$ and $\ell_\infty$ penalties, and the corresponding gradient-based optimization algorithms, produce sparse and robust kernel regression solutions, respectively.
翻訳日:2023-11-13 12:26:12 公開日:2023-11-10