このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231220となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# SecV: マルチランゲージのセキュアな値によるセキュアなコード分割
SecV: Secure Code Partitioning via Multi-Language Secure Values ( http://arxiv.org/abs/2310.15582v2 ) ライセンス: Link先を確認 | Peterson Yuhala, Pascal Felber, Hugo Guiroux, Jean-Pierre Lozi, Alain Tchana, Valerio Schiavoni, Gaël Thomas, | (参考訳) Intel SGXのような信頼できる実行環境は、アプリケーションに対して強力なセキュリティ保証を提供する \emph{enclaves} を提供する。
エンクレーブ内でアプリケーション全体を実行することは可能だが、このアプローチは大規模な信頼できるコンピューティング基盤(TCB)につながる。
そのため、C言語やJavaなどの言語で記述されたプログラムを、それぞれエンクレーブ内および外で動作する \emph{trusted} と \emph{untrusted} に分割する様々なツールが開発されている。
しかし、これらのツールは言語固有のテイント分析とパーティショニング技術に依存している。
他の言語では再利用できないため、この言語障壁を超越するツールが必要である。
この課題に対処するために、機密性のあるコードやデータを指定するための多言語技術と、Intel SGXのような信頼できる実行環境に対して、結果のプログラムを分析および分割する多言語ツールを提案する。
プログラムに言語に依存しない抽象構文木(AST)表現を提供するGraalVMのTruffleフレームワークを活用し、センシティブなプログラム情報をカプセル化した 'emph{secure node' と呼ばれる特殊なASTノードを提供する。
セキュアなノードは、Truffleの \emph{polyglot API} を通じて、幅広い言語のASTに簡単に組み込むことができる。
我々の技術には、汎用的なセキュアノードに基づいてアプリケーションを解析、分割するための多言語動的テナント追跡ツールが含まれている。
マイクロベンチマークとマクロベンチマークによる広範な評価は,2つの言語(Javascript と \python)で,分割プログラムが未分割バージョンと比較して最大14.5\%の性能向上が得られることを示している。
Trusted execution environments like Intel SGX provide \emph{enclaves}, which offer strong security guarantees for applications. Running entire applications inside enclaves is possible, but this approach leads to a large trusted computing base (TCB). As such, various tools have been developed to partition programs written in languages such as C or Java into \emph{trusted} and \emph{untrusted} parts, which are run in and out of enclaves respectively. However, those tools depend on language-specific taint-analysis and partitioning techniques. They cannot be reused for other languages and there is thus a need for tools that transcend this language barrier. We address this challenge by proposing a multi-language technique to specify sensitive code or data, as well as a multi-language tool to analyse and partition the resulting programs for trusted execution environments like Intel SGX. We leverage GraalVM's Truffle framework, which provides a language-agnostic abstract syntax tree (AST) representation for programs, to provide special AST nodes called \emph{secure nodes} that encapsulate sensitive program information. Secure nodes can easily be embedded into the ASTs of a wide range of languages via Truffle's \emph{polyglot API}. Our technique includes a multi-language dynamic taint tracking tool to analyse and partition applications based on our generic secure nodes. Our extensive evaluation with micro- and macro-benchmarks shows that we can use our technique for two languages (Javascript and \python), and that partitioned programs can obtain up to $14.5\%$ performance improvement as compared to unpartitioned versions. | 翻訳日:2024-03-25 14:05:29 公開日:2023-12-20 |
# グラフ畳み込みと二重注意:複数ラベルテキスト分類によるオンラインプライバシー開示検出
When Graph Convolution Meets Double Attention: Online Privacy Disclosure Detection with Multi-Label Text Classification ( http://arxiv.org/abs/2311.15917v2 ) ライセンス: Link先を確認 | Zhanbo Liang, Jie Guo, Weidong Qiu, Zheng Huang, Shujun Li, | (参考訳) オンラインソーシャルメディアなどのWeb 2.0プラットフォームが台頭し、その場所、職業、さらには家族の情報といった人々の個人情報が、オンラインの議論を通じて不注意に開示されることがしばしばある。
したがって、影響を受ける人々やオンラインプラットフォームに警告する上で、そのような望ましくないプライバシー開示を検出することが重要である。
本稿では,マルチラベルテキスト分類(MLTC)問題としてプライバシ開示検出をモデル化し,オンラインプライバシ開示を検出するためのMLTC分類器を構築するために,新たなプライバシ開示検出モデルを提案する。
この分類器はオンライン投稿を入力として受け取り、複数のラベルを出力する。
提案手法は,入力テキスト自体,ラベルとテキストの相関,ラベルとラベルの相関の3つの異なる情報源を組み合わせる。
最初の2つの情報ソースを結合するために二重アテンション機構を使用し、最初の2つの情報ソースから抽出された特徴を融合するために使用される第3の情報ソースを抽出するためにグラフ畳み込みネットワーク(GCN)を用いる。
Twitter上のプライバシー開示投稿の公開データセットで得られた大規模な実験結果は、提案したプライバシー開示検出手法が、すべての重要なパフォーマンス指標の観点から、他の最先端手法よりも大幅に、一貫して優れていたことを実証した。
With the rise of Web 2.0 platforms such as online social media, people's private information, such as their location, occupation and even family information, is often inadvertently disclosed through online discussions. Therefore, it is important to detect such unwanted privacy disclosures to help alert people affected and the online platform. In this paper, privacy disclosure detection is modeled as a multi-label text classification (MLTC) problem, and a new privacy disclosure detection model is proposed to construct an MLTC classifier for detecting online privacy disclosures. This classifier takes an online post as the input and outputs multiple labels, each reflecting a possible privacy disclosure. The proposed presentation method combines three different sources of information, the input text itself, the label-to-text correlation and the label-to-label correlation. A double-attention mechanism is used to combine the first two sources of information, and a graph convolutional network (GCN) is employed to extract the third source of information that is then used to help fuse features extracted from the first two sources of information. Our extensive experimental results, obtained on a public dataset of privacy-disclosing posts on Twitter, demonstrated that our proposed privacy disclosure detection method significantly and consistently outperformed other state-of-the-art methods in terms of all key performance indicators. | 翻訳日:2024-03-18 15:42:08 公開日:2023-12-20 |
# Fortress: 信頼できる実行環境でIoT周辺をセキュアにする
Fortress: Securing IoT Peripherals with Trusted Execution Environments ( http://arxiv.org/abs/2312.02542v2 ) ライセンス: Link先を確認 | Peterson Yuhala, Jämes Ménétrey, Pascal Felber, Marcelo Pasin, Valerio Schiavoni, | (参考訳) IoT(Internet of Things)デバイスの普及に伴い、機密性の高いユーザデータの保護が大きな課題となっている。
これらのデバイスは、マイクロフォンやカメラなどの周辺入力を通じて、オーディオや視覚データなどの機密情報を収集することが多い。
このようなセンシティブな情報は、高レベルのアクセス権を持つ悪意のあるソフトウェアから、あるいは(時には不注意に)信頼できないクラウドサービスに送信される、潜在的な脅威にさらされる。
本稿では、信頼された実行環境(TEE)のセキュアなカーネル空間において、周辺I/Oメモリ領域を分離することにより、IoTベースのシステムのプライバシを高めるための汎用設計を提案する。
安全カーネル内に存在する最小限の周辺ドライバコードだけが、この保護されたメモリ領域にアクセスすることができる。
この設計は、オペレーティングシステムやハイパーバイザを含むシステムソフトウェアによる不正アクセスを効果的に制限する。
そして、センシティブな周辺データをユーザ空間TEEに安全に転送し、クラウドなど第三者に中継する前に難読化機構を適用する。
アーキテクチャのアプローチを検証するため,IC音声(I2S)に基づくオーディオ周辺機器を保証し,デバイスを相互接続するシリアルバスを提供することにより,設計のコンセプト実証を行う。
実験結果から,我々の設計は計算オーバーヘッドを許容できるような堅牢なセキュリティソリューションを提供することが示された。
With the increasing popularity of Internet of Things (IoT) devices, securing sensitive user data has emerged as a major challenge. These devices often collect confidential information, such as audio and visual data, through peripheral inputs like microphones and cameras. Such sensitive information is then exposed to potential threats, either from malicious software with high-level access rights or transmitted (sometimes inadvertently) to untrusted cloud services. In this paper, we propose a generic design to enhance the privacy in IoT-based systems by isolating peripheral I/O memory regions in a secure kernel space of a trusted execution environment (TEE). Only a minimal set of peripheral driver code, resident within the secure kernel, can access this protected memory area. This design effectively restricts any unauthorised access by system software, including the operating system and hypervisor. The sensitive peripheral data is then securely transferred to a user-space TEE, where obfuscation mechanisms can be applied before it is relayed to third parties, e.g., the cloud. To validate our architectural approach, we provide a proof-of-concept implementation of our design by securing an audio peripheral based on inter-IC sound (I2S), a serial bus to interconnect audio devices. The experimental results show that our design offers a robust security solution with an acceptable computational overhead. | 翻訳日:2024-03-18 13:05:51 公開日:2023-12-20 |
# DynamiQS:電気自動車の動的充電のための量子セキュア認証
DynamiQS: Quantum Secure Authentication for Dynamic Charging of Electric Vehicles ( http://arxiv.org/abs/2312.12879v1 ) ライセンス: Link先を確認 | Tommaso Bianchi, Alessandro Brighente, Mauro Conti, | (参考訳) Dynamic Wireless Power Transfer (DWPT)は、専用の道路インフラのおかげで、運転中に電気自動車を充電できる新しい技術である。
DWPTは、ユーザーの介入なしに充電セッションと請求を自動的に設定する能力は、サイバーセキュリティ攻撃を招きやすい。
したがって、不正行為、不正行為、ユーザー追跡の防止にはセキュリティが不可欠である。
この目的のために、研究者はユーザ認証のための様々なソリューションを提案した。
しかし、近年の量子コンピューティングの進歩は、古典的な公開鍵暗号を危険にさらし、現在DWPT認証における既存のソリューションを無効にしている。
技術アップグレードによる資源負担を回避するためには,ポスト量子耐性ソリューションの開発が不可欠である。
本稿では,動的ワイヤレス充電のための最初の量子後セキュア認証プロトコルであるDynamiQSを提案する。
DynamiQSはプライバシーを保護し、DWPTに対する攻撃に対して安全である。
Ring Learning With Errorフレームワークでは,レイテンシによるアイデンティティベースの暗号化を活用しています。
さらに,実環境におけるDynamiQSの使用の可能性を示し,実際の制約のあるデバイスやシミュレーション上での暗号計算結果を活用する。
DynamiQSは合計で約281msで、動的充電設定(車と充電インフラ)で実行可能である。
Dynamic Wireless Power Transfer (DWPT) is a novel technology that allows charging an electric vehicle while driving thanks to a dedicated road infrastructure. DWPT's capabilities in automatically establishing charging sessions and billing without users' intervention make it prone to cybersecurity attacks. Hence, security is essential in preventing fraud, impersonation, and user tracking. To this aim, researchers proposed different solutions for authenticating users. However, recent advancements in quantum computing jeopardize classical public key cryptography, making currently existing solutions in DWPT authentication nonviable. To avoid the resource burden imposed by technology upgrades, it is essential to develop post-quantum-resistant solutions. In this paper, we propose DynamiQS, the first post-quantum secure authentication protocol for dynamic wireless charging. DynamiQS is privacy-preserving and secure against attacks on the DWPT. We leverage an Identity-Based Encryption with Lattices in the Ring Learning With Error framework. Furthermore, we show the possibility of using DynamiQS in a real environment, leveraging the results of cryptographic computation on real constrained devices and simulations. DynamiQS reaches a total time cost of around 281 ms, which is practicable in dynamic charging settings (car and charging infrastructure). | 翻訳日:2024-03-18 11:47:54 公開日:2023-12-20 |
# クラスタベースベクトルアドホックネットワーク(VANET:Secure Authentication Mechanism)に関する調査
Secure Authentication Mechanism for Cluster based Vehicular Adhoc Network (VANET): A Survey ( http://arxiv.org/abs/2312.12925v1 ) ライセンス: Link先を確認 | Rabia Nasir, Humaira Ashraf, NZ Jhanjhi, | (参考訳) Vehicular Ad Hoc Networks (VANETs) は、車とインフラ間の通信を容易にすることにより、インテリジェントトランスポーテーションシステム (ITS) において重要な役割を担っている。
このコミュニケーションは、道路安全の向上、交通効率の向上、乗客の快適性の向上を目的としている。
安全で信頼性の高い情報交換はデータの完全性と機密性を確保するために最重要であり、一方、不正アクセスや悪意のある行為を防ぐためには、車両とメッセージの認証が不可欠である。
本稿では,クラスタベースVANETにおける既存の認証機構を包括的に分析する。
各種シナリオに対するこれらのメカニズムの強度,弱点,適合性を慎重に検討した。
さらに、セキュリティキー管理技術の統合について論じ、全体的な認証プロセスを強化する。
クラスタベースのVANETは、ネットワークを小さなグループまたはクラスタに分割することで形成され、指定されたクラスタヘッドは1つ以上の車両から構成される。
さらに,本研究では,既存文献のギャップを,過去の調査を通じて把握する。
スループット、検出率、セキュリティ、パケット配信率、エンドツーエンド遅延などの要因を考慮して、異なる手法に基づくいくつかのスキームを批判的に評価する。
本稿では,クラスタベースのVANETにおいて,AIおよびMLベースのルーティングベースのスキームに最適な認証方法を提案する。
これらのアプローチは、クラスタベースのVANETネットワーク内の認証を強化するために、人工知能と機械学習技術を活用する。
最後に、クラスタベースのVehicular Adhoc Networksの認証領域に存在するオープンな研究課題について検討し、さらなる調査と開発を必要とする領域に光を当てる。
Vehicular Ad Hoc Networks (VANETs) play a crucial role in Intelligent Transportation Systems (ITS) by facilitating communication between vehicles and infrastructure. This communication aims to enhance road safety, improve traffic efficiency, and enhance passenger comfort. The secure and reliable exchange of information is paramount to ensure the integrity and confidentiality of data, while the authentication of vehicles and messages is essential to prevent unauthorized access and malicious activities. This survey paper presents a comprehensive analysis of existing authentication mechanisms proposed for cluster-based VANETs. The strengths, weaknesses, and suitability of these mechanisms for various scenarios are carefully examined. Additionally, the integration of secure key management techniques is discussed to enhance the overall authentication process. Cluster-based VANETs are formed by dividing the network into smaller groups or clusters, with designated cluster heads comprising one or more vehicles. Furthermore, this paper identifies gaps in the existing literature through an exploration of previous surveys. Several schemes based on different methods are critically evaluated, considering factors such as throughput, detection rate, security, packet delivery ratio, and end-to-end delay. To provide optimal solutions for authentication in cluster-based VANETs, this paper highlights AI- and ML-based routing-based schemes. These approaches leverage artificial intelligence and machine learning techniques to enhance authentication within the cluster-based VANET network. Finally, this paper explores the open research challenges that exist in the realm of authentication for cluster-based Vehicular Adhoc Networks, shedding light on areas that require further investigation and development. | 翻訳日:2024-03-18 11:47:54 公開日:2023-12-20 |
# CARGO: 信頼されたサーバを使わずに暗号化支援された差分プライベートな三角形カウント
CARGO: Crypto-Assisted Differentially Private Triangle Counting without Trusted Servers ( http://arxiv.org/abs/2312.12938v1 ) ライセンス: Link先を確認 | Shang Liu, Yang Cao, Takao Murakami, Jinfei Liu, Masatoshi Yoshikawa, | (参考訳) グラフ内の異なるプライベートな三角形カウントは、機密情報を保護しながら、接続パターンを分析し、クラスタリング係数を計算するのに不可欠である。
これまでの研究は、偏微分プライバシーを強制するために、中央モデルまたはローカルモデルに頼っていた。
しかし、信頼されたサーバが必要かどうかによっては、差分的にプライベートな三角形をカウントする中央モデルと局所モデルの間に大きなユーティリティギャップが存在する。
特に、中央モデルは高い精度を提供するが、信頼できるサーバを必要とする。
ローカルモデルは信頼できるサーバを必要としないが、精度が限られている。
本稿では,CARGOと呼ばれる暗号支援型差分プライベートな三角形計数システムを導入し,信頼サーバの仮定なしでの差分プライベートな三角形計数の有効性を向上する。
中央モデルと同様の高ユーティリティを実現するが、ローカルモデルのような信頼できるサーバを必要としない。
CARGOは3つの主要コンポーネントから構成される。
まず, 類似性に基づく投影法を導入し, 三角形の均質性によってより多くの三角形を保ちながら大域的な感度を低下させる。
第2に,付加的な秘密共有に基づく三角カウント方式を提案し,機密情報を保護しながら,その三角形を安全かつ正確に計算する。
第3に、最小でも十分な雑音で三角形数を摂動する分散摂動アルゴリズムを設計する。
また,提案手法の総合的理論的,実証的な分析も行う。
広汎な実験により,我々のCARGOは,有効性の観点から局所モデルを著しく上回り,中央モデルに匹敵する高実用性三角形を数えることを示した。
Differentially private triangle counting in graphs is essential for analyzing connection patterns and calculating clustering coefficients while protecting sensitive individual information. Previous works have relied on either central or local models to enforce differential privacy. However, a significant utility gap exists between the central and local models of differentially private triangle counting, depending on whether or not a trusted server is needed. In particular, the central model provides a high accuracy but necessitates a trusted server. The local model does not require a trusted server but suffers from limited accuracy. Our paper introduces a crypto-assisted differentially private triangle counting system, named CARGO, leveraging cryptographic building blocks to improve the effectiveness of differentially private triangle counting without assumption of trusted servers. It achieves high utility similar to the central model but without the need for a trusted server like the local model. CARGO consists of three main components. First, we introduce a similarity-based projection method that reduces the global sensitivity while preserving more triangles via triangle homogeneity. Second, we present a triangle counting scheme based on the additive secret sharing that securely and accurately computes the triangles while protecting sensitive information. Third, we design a distributed perturbation algorithm that perturbs the triangle count with minimal but sufficient noise. We also provide a comprehensive theoretical and empirical analysis of our proposed methods. Extensive experiments demonstrate that our CARGO significantly outperforms the local model in terms of utility and achieves high-utility triangle counting comparable to the central model. | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# スレッドにおけるメッシュコミッショニングプロトコルのシンボル的セキュリティ検証(拡張バージョン)
Symbolic Security Verification of Mesh Commissioning Protocol in Thread (extended version) ( http://arxiv.org/abs/2312.12958v1 ) ライセンス: Link先を確認 | Pankaj Upadhyay, Subodh Sharma, Guangdong Bai, | (参考訳) Threadプロトコル(Thread Protocol、またはThread )は、IoT(Internet of Things)用の人気のあるネットワークプロトコルである。
一連のアプリケーションやプロトコルをシームレスに統合することで、異なるアプリケーションやユーザプロトコル間の非互換性のリスクを低減することができる。
Threadは、Apple TV、Apple HomePod mini、eero 6, Nest Hub、Nest Wifiなど、多くのIoTメーカによって、多くのポピュラーなスマートホーム製品にデプロイされている。
Threadのセキュリティに関する実証的な分析はいくつかあるが、この急成長するIoTエコシステムのインフラストラクチャに関する公式な分析は、まだ不十分である。
本研究では,Threadのセキュリティ特性に関する公式なシンボル解析を行った。
当社の主な焦点は、Threadの主要なサブプロトコルであるMeshCoP(Mesh Commissioning Protocol)です。
このケーススタディでは、MeshCoPのモデリングにおける課題と解決策を提案する。
我々は、MeshCoPのセキュリティ特性を検証するために、 {\pi}-計算モデルのシンボル検証ツールであるProVerifを使用している。
The Thread protocol (or simply Thread ) is a popular networking protocol for the Internet of Things (IoT). It allows seamless integration of a set of applications and protocols, hence reducing the risk of incompatibility among different applications or user protocols. Thread has been deployed in many popular smart home products by the majority of IoT manufacturers, such as Apple TV, Apple HomePod mini, eero 6, Nest Hub, and Nest Wifi. Despite a few empirical analyses on the security of Thread, there is still a lack of formal analysis on this infrastructure of the booming IoT ecosystem. In this work, we performed a formal symbolic analysis of the security properties of Thread. Our main focus is on MeshCoP (Mesh Commissioning Protocol), the main subprotocol in Thread for secure authentication and commissioning of new, untrusted devices inside an existing Thread network. This case study presents the challenges and proposed solutions in modeling MeshCoP. We use ProVerif, a symbolic verification tool of {\pi}-calculus models, for verifying the security properties of MeshCoP. | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# 高速データセンターにおけるSQLインジェクション検出の高速化:カスケードNLPを用いた新しいアプローチ
Advancing SQL Injection Detection for High-Speed Data Centers: A Novel Approach Using Cascaded NLP ( http://arxiv.org/abs/2312.13041v1 ) ライセンス: Link先を確認 | Kasim Tasdemir, Rafiullah Khan, Fahad Siddiqui, Sakir Sezer, Fatih Kurugollu, Sena Busra Yengec-Tasdemir, Alperen Bolat, | (参考訳) SQLインジェクション(SQLi)攻撃の検出は、Webベースのデータセンタセキュリティにとって重要であるが、特に高速ネットワークにおいて、正確性と計算効率のバランスをとることは困難である。
従来の手法はこのバランスに苦しむが、NLPベースのアプローチは正確ではあるが計算に重きを置いている。
従来型と変圧器ベースのNLPモデルを混合した新しいカスケードSQLi検出法を導入し、99.86%の精度で、変圧器ベースのモデルのみを使用する場合に比べて計算要求が大幅に小さく、20倍高速である。
私たちのアプローチは現実的な設定でテストされ、3万以上のSQL文のデータセット上で、BERTのような機械学習ベースおよびトランスフォーマーモデルを含む35の他の手法と比較されます。
本手法は, 高トラフィック環境下でSQLiを効果的に検出し, 計算効率でSQLiの脆弱性を効果的かつ正確に保護する。
コードはhttps://github.com/gdrlab/cascaded-sqli-detection で公開されている。
Detecting SQL Injection (SQLi) attacks is crucial for web-based data center security, but it is challenging to balance accuracy and computational efficiency, especially in high-speed networks. Traditional methods struggle with this balance, while NLP-based approaches, although accurate, are computationally intensive. We introduce a novel cascade SQLi detection method, blending classical and transformer-based NLP models, achieving a 99.86% detection accuracy with significantly lower computational demands-20 times faster than using transformer-based models alone. Our approach is tested in a realistic setting and compared with 35 other methods, including Machine Learning-based and transformer models like BERT, on a dataset of over 30,000 SQL sentences. Our results show that this hybrid method effectively detects SQLi in high-traffic environments, offering efficient and accurate protection against SQLi vulnerabilities with computational efficiency. The code is available at https://github.com/gdrlab/cascaded-sqli-detection . | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# ネットワークセキュリティのためのサボタージュゲームの複雑さについて
On the complexity of sabotage games for network security ( http://arxiv.org/abs/2312.13132v1 ) ライセンス: Link先を確認 | Dhananjay Raju, Georgios Bakirtzis, Ufuk Topcu, | (参考訳) 複雑なネットワーク構造内の敵の実体による戦略的破壊を予測し、対処する必要があるため、敵の行動に対する動的ネットワークの確保は困難である。
従来のゲーム理論モデルは、洞察に富んでいるが、現実の脅威評価シナリオの予測不可能性と制約をモデル化できないことが多い。
サボタージュゲームは、サボタージュとネットワークオペレーターの現実的な制限を反映して洗練されている。
サボタージュゲームを到達可能性問題に変換することで,ゲーム内の攻撃者やディフェンダーに対する現実的な制約をモデル化するために,既存の計算ソリューションを適用することが可能になる。
サボタージュゲームを動的ネットワークセキュリティ問題に修正することは、動的ネットワークセキュリティにおける戦略と不確実性の微妙な相互作用をうまく捉えている。
理論的には、サボタージュゲームを拡張してネットワークセキュリティコンテキストをモデル化し、追加の制限が計算複雑性を高めるかどうかを徹底的に検討する。
この研究は、脅威下で動的に変化するネットワークにおいて、どのようなリスクが軽減されるかを理解することによって、堅牢な防御メカニズムを開発するための実行可能な洞察のステージを実際に設定する。
Securing dynamic networks against adversarial actions is challenging because of the need to anticipate and counter strategic disruptions by adversarial entities within complex network structures. Traditional game-theoretic models, while insightful, often fail to model the unpredictability and constraints of real-world threat assessment scenarios. We refine sabotage games to reflect the realistic limitations of the saboteur and the network operator. By transforming sabotage games into reachability problems, our approach allows applying existing computational solutions to model realistic restrictions on attackers and defenders within the game. Modifying sabotage games into dynamic network security problems successfully captures the nuanced interplay of strategy and uncertainty in dynamic network security. Theoretically, we extend sabotage games to model network security contexts and thoroughly explore if the additional restrictions raise their computational complexity, often the bottleneck of game theory in practical contexts. Practically, this research sets the stage for actionable insights for developing robust defense mechanisms by understanding what risks to mitigate in dynamically changing networks under threat. | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# メモリマッピングの攻撃:ARM Cortex-M FPBユニットの(ミス)使用について
When Memory Mappings Attack: On the (Mis)use of the ARM Cortex-M FPB Unit ( http://arxiv.org/abs/2312.13189v1 ) ライセンス: Link先を確認 | Haoqi Shan, Dean Sullivan, Orlando Arias, | (参考訳) 近年,IoT(Internet of Things,モノのインターネット)デバイスの普及により,組込みデバイスにおける低コストで低消費電力のマイクロコントローラ(MCU)の利用が爆発的に増加した。
これは経済的な見地から見れば良いことだが、マイクロコントローラベースのシステムが現在攻撃対象となっているため、セキュリティにも有害である。
研究者らは、これらのリソース制約された組込みシステムのセキュリティを改善するために、様々な保護機構を開発した。
本稿では、MCUベンダーが製品に付加した良性メモリマップド・デザイン・フォー・デバッギング(DfD)構造を利用すると、これらの防御効果は低下することを示す。
特に、ARM Cortex-Mファミリに存在するFlash Patch and Breakpoint(FPB)ユニットを使用して、組み込みデバイスに対する共通の防御を回避できる新しい攻撃プリミティブを構築します。
私たちの仕事は、現代のマイクロコントローラにおけるセキュリティとデバッグ構造のバランスをとる上で、警告と呼び出しとして役立ちます。
In recent years we have seen an explosion in the usage of low-cost, low-power microcontrollers (MCUs) in embedded devices around us due to the popularity of Internet of Things (IoT) devices. Although this is good from an economics perspective, it has also been detrimental for security as microcontroller-based systems are now a viable attack target. In response, researchers have developed various protection mechanisms dedicated to improve security in these resource-constrained embedded systems. We demonstrate in this paper these defenses fall short when we leverage benign memory mapped design-for-debug (DfD) structures added by MCU vendors in their products. In particular, we utilize the Flash Patch and Breakpoint (FPB) unit present in the ARM Cortex-M family to build new attack primitives which can be used to bypass common defenses for embedded devices. Our work serves as a warning and a call in balancing security and debug structures in modern microcontrollers. | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# HeisenTrojans: トリガーされるまでは存在しない
HeisenTrojans: They Are Not There Until They Are Triggered ( http://arxiv.org/abs/2312.13190v1 ) ライセンス: Link先を確認 | Akshita Reddy Mavurapu, Haoqi Shan, Xiaolong Guo, Orlando Arias, Dean Sullivan, | (参考訳) ハードウェアセキュリティコミュニティは、ソフトウェアファジングにインスパイアされた自動分析を使用して、ハードウェアトロイの木馬の脆弱性を検出するために大きな進歩を遂げた。
しかし、Electronic Design Automation (EDA) のコードベース自体も、同じ技術によって過小評価されている。
EDAツールをファジィングする実験は、実際、ソフトウェアバグを起こしやすいことを実証しています。
その結果,HeisenTrojan攻撃は有害なハードウェアを発生させるのではなく,EDAツール自体のソフトウェア脆弱性を悪用する新たなハードウェア攻撃であることがわかった。
HeisenTrojan攻撃の重要な特徴は、悪意のあるペイロードをEDAツールをホストするシステムにデプロイできることだ。
HeisenTrojan攻撃の目的は、脆弱なEDAツールがホストされているシステム上で任意のコードを実行することである。
分析の結果、分析されたEDAツールの83%が、悪用可能なバグがあることが判明した。
以下に示すのは、エンド・ツー・エンドの攻撃を実証し、その実用性とそれらに対するEDAツールの確保の必要性を強調するために、HeisenTrojan攻撃を見つけるファッジャの既存の能力について分析する。
The hardware security community has made significant advances in detecting Hardware Trojan vulnerabilities using software fuzzing-inspired automated analysis. However, the Electronic Design Automation (EDA) code base itself remains under-examined by the same techniques. Our experiments in fuzzing EDA tools demonstrate that, indeed, they are prone to software bugs. As a consequence, this paper unveils HeisenTrojan attacks, a new hardware attack that does not generate harmful hardware, but rather, exploits software vulnerabilities in the EDA tools themselves. A key feature of HeisenTrojan attacks is that they are capable of deploying a malicious payload on the system hosting the EDA tools without triggering verification tools because HeisenTrojan attacks do not rely on superfluous or malicious hardware that would otherwise be noticeable. The aim of a HeisenTrojan attack is to execute arbitrary code on the system on which the vulnerable EDA tool is hosted, thereby establishing a permanent presence and providing a beachhead for intrusion into that system. Our analysis reveals 83% of the EDA tools analyzed have exploitable bugs. In what follows, we demonstrate an end- to-end attack and provide analysis on the existing capabilities of fuzzers to find HeisenTrojan attacks in order to emphasize their practicality and the need to secure EDA tools against them. | 翻訳日:2024-03-18 11:38:03 公開日:2023-12-20 |
# 騒音測定は重要で、国勢調査製品のデザインはずっと重要
Noisy Measurements Are Important, the Design of Census Products Is Much More Important ( http://arxiv.org/abs/2312.14191v1 ) ライセンス: Link先を確認 | John M. Abowd, | (参考訳) McCartan et al (2023) は「国勢調査データ利用者のために差分プライバシー業務を行う」と呼びかけている。
このコメントは、2020年の国勢調査ノイズ計測ファイル(NMFs)が、この嘆願の最良の焦点ではない理由を説明している。
2021年8月、62人の著名な研究者が2020年国勢調査のために展開された差分プライバシーシステムの直接出力を要求した手紙は、12年の国勢調査データ製品の設計における学術コミュニティの関与を示唆している。
NMFsは、2020年国勢調査開示回避システム(Census Disclosure Avoidance System)が後処理を行う前に生み出した統計データであり、その設計の1つの構成要素である、クエリ戦略の出力である。さらに重要なコンポーネントは、クエリワークロードの出力、すなわち、一般に公開された統計である。
クエリのワークロードを最適化する - Redistricting Data (P.L. 94-171) 概要ファイル、具体的には、プライバシロスの予算をより効率的に管理できるようにする。
ノイズの少ない測定値、後処理バイアスがなく、各公表された統計データに対する開示回避からの不確実性を直接見積もることもできる。
McCartan et al. (2023) call for "making differential privacy work for census data users." This commentary explains why the 2020 Census Noisy Measurement Files (NMFs) are not the best focus for that plea. The August 2021 letter from 62 prominent researchers asking for production of the direct output of the differential privacy system deployed for the 2020 Census signaled the engagement of the scholarly community in the design of decennial census data products. NMFs, the raw statistics produced by the 2020 Census Disclosure Avoidance System before any post-processing, are one component of that design--the query strategy output. The more important component is the query workload output--the statistics released to the public. Optimizing the query workload--the Redistricting Data (P.L. 94-171) Summary File, specifically--could allow the privacy-loss budget to be more effectively managed. There could be fewer noisy measurements, no post-processing bias, and direct estimates of the uncertainty from disclosure avoidance for each published statistic. | 翻訳日:2024-03-18 11:28:19 公開日:2023-12-20 |
# ベンガルミームにおける説明可能なマルチモーダル感情分析 Explainable Multimodal Sentiment Analysis on Bengali Memes ( http://arxiv.org/abs/2401.09446v1 ) ライセンス: Link先を確認 | Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir Sarker, Sajib Kumar Saha Joy, Faisal Muhammad Shah | (参考訳) ミームはデジタル時代に独特で効果的なコミュニケーション形態となり、オンラインコミュニティを惹きつけ、文化的な障壁を越えている。
ミームはユーモアと頻繁に結びついているが、幸福、皮肉、フラストレーションなど、幅広い感情を伝達できる素晴らしい能力を持っている。
ミームの根底にある感情を理解し解釈することは、情報の時代において重要になっている。
これまでの研究では、テキストベース、画像ベース、マルチモーダルアプローチが検討されており、様々なミームカテゴリを検出するためのCAPSANやPromptHateのようなモデルの開発につながっている。
しかし、ベンガルミームのような低リソース言語の研究は少ないままであり、公開アクセス可能なデータセットは限られている。
最近のコントリビューションには、MemoSenデータセットの導入が含まれている。
しかし、達成された精度は顕著に低く、データセットは不均衡な分布に苦しむ。
本研究では,ResNet50とBanglishBERTを用いたマルチモーダル手法を用いて,0.71重み付きF1スコアの満足度を達成し,非モーダル手法との比較を行い,説明可能な人工知能(XAI)技術を用いてモデルの振る舞いを解釈した。 Memes have become a distinctive and effective form of communication in the digital era, attracting online communities and cutting across cultural barriers. Even though memes are frequently linked with humor, they have an amazing capacity to convey a wide range of emotions, including happiness, sarcasm, frustration, and more. Understanding and interpreting the sentiment underlying memes has become crucial in the age of information. Previous research has explored text-based, image-based, and multimodal approaches, leading to the development of models like CAPSAN and PromptHate for detecting various meme categories. However, the study of low-resource languages like Bengali memes remains scarce, with limited availability of publicly accessible datasets. A recent contribution includes the introduction of the MemoSen dataset. However, the achieved accuracy is notably low, and the dataset suffers from imbalanced distribution. In this study, we employed a multimodal approach using ResNet50 and BanglishBERT and achieved a satisfactory result of 0.71 weighted F1-score, performed comparison with unimodal approaches, and interpreted behaviors of the models using explainable artificial intelligence (XAI) techniques. | 翻訳日:2024-01-22 09:27:10 公開日:2023-12-20 |
# オンラインハンドブック of argumentation for ai: volume 4 Online Handbook of Argumentation for AI: Volume 4 ( http://arxiv.org/abs/2401.09444v1 ) ライセンス: Link先を確認 | Lars Bengel, Lydia Bl\"umel, Elfia Bezou-Vrakatseli, Federico Castagna, Giulia D'Agostino, Isabelle Kuhlmann, Jack Mumford, Daphne Odekerken, Fabrizio Russo, Stefan Sarkadi, Madeleine Waller, Andreas Xydis | (参考訳) 本巻は、OHAAI(Online Handbook of Argumentation for AI)の第4巻に選択された論文の改訂版を含む。
従来、議論と議論の相互作用の形式理論が提案され研究され、近年では議論の計算モデルが研究されている。
人工知能(AI)の分野としての論証は、知識の象徴的表現や実現不可能な推論に関心を持つ研究者にとって非常に重要である。
このハンドブックの目的は、議論研究コミュニティにオープンアクセスとキュレートされたアンソロジーを提供することである。
OHAAIは、AIに関連するあらゆる分野における議論の理論と応用に関する、最新のおよび今後の博士主導の研究を追跡するための研究ハブとして設計されている。 This volume contains revised versions of the papers selected for the fourth volume of the Online Handbook of Argumentation for AI (OHAAI). Previously, formal theories of argument and argument interaction have been proposed and studied, and this has led to the more recent study of computational models of argument. Argumentation, as a field within artificial intelligence (AI), is highly relevant for researchers interested in symbolic representations of knowledge and defeasible reasoning. The purpose of this handbook is to provide an open access and curated anthology for the argumentation research community. OHAAI is designed to serve as a research hub to keep track of the latest and upcoming PhD-driven research on the theory and application of argumentation in all areas related to AI. | 翻訳日:2024-01-22 09:26:49 公開日:2023-12-20 |
# CRD:実用的異常検出のための協調表現距離 CRD: Collaborative Representation Distance for Practical Anomaly Detection ( http://arxiv.org/abs/2401.09443v1 ) ライセンス: Link先を確認 | Chao Han and Yudong Yan | (参考訳) 視覚欠陥検出は知的産業において重要な役割を果たす。
パッチベースの手法では、画像は位置に応じた画像パッチの集合であり、例えば錠剤の傷など、製品の小さな欠陥に対してより強力な識別能力を持つ。
しかし、最も近いクエリイメージとストアドパッチの検索は、時間と空間の要求の観点からO(n)$の複雑さを占有し、エッジ環境へのデプロイには厳しい課題が生じる。
本稿では,協調表現モデルを用いた画像パッチの距離計算のための代替手法を提案する。
L_0$制約で近接する距離から始めると、制約を$L_2$制約に緩和し、元の保存されたイメージパッチのコレクションに実際にアクセスすることなく、閉じた状態での距離を素早く解決する。
さらに、この密接なソリューションの主な計算負荷は、デプロイ前に高性能サーバによって事前に計算できることを指摘した。
したがって、エッジデバイス上の距離計算は、非常に軽量でGPUフレンドリーな単純な行列乗算のみを必要とする。
実産業シナリオのパフォーマンスは、既存の最先端手法と比較して、この距離は、わずかな性能低下を伴う計算効率の数百倍の改善を実現し、メモリオーバーヘッドを大幅に低減することを示した。 Visual defect detection plays an important role in intelligent industry. Patch based methods consider visual images as a collection of image patches according to positions, which have stronger discriminative ability for small defects in products, e.g. scratches on pills. However, the nearest neighbor search for the query image and the stored patches will occupy $O(n)$ complexity in terms of time and space requirements, posing strict challenges for deployment in edge environments. In this paper, we propose an alternative approach to the distance calculation of image patches via collaborative representation models. Starting from the nearest neighbor distance with $L_0$ constraint, we relax the constraint to $L_2$ constraint and solve the distance quickly in close-formed without actually accessing the original stored collection of image patches. Furthermore, we point out that the main computational burden of this close-formed solution can be pre-computed by high-performance server before deployment. Consequently, the distance calculation on edge devices only requires a simple matrix multiplication, which is extremely lightweight and GPU-friendly. Performance on real industrial scenarios demonstrates that compared to the existing state-of-the-art methods, this distance achieves several hundred times improvement in computational efficiency with slight performance drop, while greatly reducing memory overhead. | 翻訳日:2024-01-22 09:26:38 公開日:2023-12-20 |
# 視覚的質問応答における対象属性 Object Attribute Matters in Visual Question Answering ( http://arxiv.org/abs/2401.09442v1 ) ライセンス: Link先を確認 | Peize Li, Qingyi Si, Peng Fu, Zheng Lin, Yan Wang | (参考訳) 視覚的質問応答は、視覚情報とテキスト情報の共同理解を必要とするマルチモーダルタスクである。
しかしながら、注意層のみを通して視覚とテキストのセマンティクスを統合することは、両方のモダリティから情報を総合的に理解し調整するには不十分である。
直感的には、オブジェクト属性は自然にそれらを統一するためのブリッジとして機能することができる。
本稿では,オブジェクト属性の利用の観点から,オブジェクトレベルの視覚的アライメントとマルチモーダルシーン理解の実現を目的とした,新しいVQAアプローチを提案する。
具体的には,属性融合モジュールと対照的な知識蒸留モジュールを設計する。
attribute fusionモジュールは、メッセージパッシングを通じて属性と視覚的特徴を融合するマルチモーダルグラフニューラルネットワークを構築する。
オブジェクトレベルの視覚的特徴の強化は、カウントクエストのようなきめ細かい問題の解決に寄与する。
より優れたオブジェクトレベルの視覚言語アライメントは、マルチモーダルシーンを理解するのに役立つ。
さらに, シーン理解と分散性能を高めるため, コントラスト的知識蒸留モジュールでは, 一連の暗黙的知識を導入する。
我々は,属性特徴の表現学習を強化し,視覚言語的アライメントを促進するために,知識を属性に抽出する。
また,COCO-QA,VQAv2,VQA-CPv2,VQA-CPv1,VQAvs,TDIUCの6つのデータセットに対して,提案手法の優位性を示す。 Visual question answering is a multimodal task that requires the joint comprehension of visual and textual information. However, integrating visual and textual semantics solely through attention layers is insufficient to comprehensively understand and align information from both modalities. Intuitively, object attributes can naturally serve as a bridge to unify them, which has been overlooked in previous research. In this paper, we propose a novel VQA approach from the perspective of utilizing object attribute, aiming to achieve better object-level visual-language alignment and multimodal scene understanding. Specifically, we design an attribute fusion module and a contrastive knowledge distillation module. The attribute fusion module constructs a multimodal graph neural network to fuse attributes and visual features through message passing. The enhanced object-level visual features contribute to solving fine-grained problem like counting-question. The better object-level visual-language alignment aids in understanding multimodal scenes, thereby improving the model's robustness. Furthermore, to augment scene understanding and the out-of-distribution performance, the contrastive knowledge distillation module introduces a series of implicit knowledge. We distill knowledge into attributes through contrastive loss, which further strengthens the representation learning of attribute features and facilitates visual-linguistic alignment. Intensive experiments on six datasets, COCO-QA, VQAv2, VQA-CPv2, VQA-CPv1, VQAvs and TDIUC, show the superiority of the proposed method. | 翻訳日:2024-01-22 09:26:16 公開日:2023-12-20 |
# Voxceleb-ESP:スペイン人有名人を音声から検出する予備実験 Voxceleb-ESP: preliminary experiments detecting Spanish celebrities from their voices ( http://arxiv.org/abs/2401.09441v1 ) ライセンス: Link先を確認 | Beltr\'an Labrador, Manuel Otero-Gonzalez, Alicia Lozano-Diez, Daniel Ramos, Doroteo T. Toledano, Joaquin Gonzalez-Rodriguez | (参考訳) 本稿では,新しい話者認識データセットの作成を容易にするyoutubeビデオへのポインタとタイムスタンプの収集であるvoxceleb-espを提案する。
voxceleb-espは、さまざまなスピーキングスタイル、ノイズ、チャネル歪みを含む、現実世界のシナリオをキャプチャする。
スペインでは160人の有名人が様々なカテゴリーにまたがっており、年齢層やスペインの地理的地域を代表して分布している。
ResNet事前学習モデルの言語間評価を伴い、話者識別タスクを2つの話者トライアルリストとして、それぞれが同じビデオまたは異なるビデオのターゲットトライアルを行う。
予備的な話者識別結果は、VoxCeleb-ESPにおける検出タスクの複雑さが、英語のVoxCelebと同等であることを示している。
VoxCeleb-ESPは、スペイン語のための包括的で多様なデータセットによる話者認識ベンチマークの拡大に貢献している。 This paper presents VoxCeleb-ESP, a collection of pointers and timestamps to YouTube videos facilitating the creation of a novel speaker recognition dataset. VoxCeleb-ESP captures real-world scenarios, incorporating diverse speaking styles, noises, and channel distortions. It includes 160 Spanish celebrities spanning various categories, ensuring a representative distribution across age groups and geographic regions in Spain. We provide two speaker trial lists for speaker identification tasks, each of them with same-video or different-video target trials respectively, accompanied by a cross-lingual evaluation of ResNet pretrained models. Preliminary speaker identification results suggest that the complexity of the detection task in VoxCeleb-ESP is equivalent to that of the original and much larger VoxCeleb in English. VoxCeleb-ESP contributes to the expansion of speaker recognition benchmarks with a comprehensive and diverse dataset for the Spanish language. | 翻訳日:2024-01-22 09:25:48 公開日:2023-12-20 |
# マイノリティゲームにおける最適協調:強化学習からの解法 Optimal coordination in Minority Game: A solution from reinforcement learning ( http://arxiv.org/abs/2312.14970v1 ) ライセンス: Link先を確認 | Guozhong Zheng, Weiran Cai, Guanxiao Qi, Jiqiang Zhang, and Li Chen | (参考訳) 効率的な割り当ては、個人が有限資源を競う自然と人間社会において重要である。
マイノリティゲームはおそらく、資源利用を最大化するための人間のコーディネート方法に関する深い洞察を提供する最も単純なモデルである。
しかし、このモデルは、それらの適応的な性質を捉えるのに失敗し、先入観を提供する静的戦略を仮定する。
ここでは,過去の経験と報酬の両方を評価することによって,個人の戦略が進化する強化学習のパラダイムに目を向ける。
具体的には、各プレイヤーが意思決定を導くqテーブルを付与するq-learningアルゴリズムを採用する。
今後,個人が過去の経験と報酬の両方を評価でき,q表の利用とランダムな行動による探索のバランスをとることで,人口が最適な配分に到達できることを明らかにする。
最適な割り当ては、個人が搾取のみまたは探索のみを使用する傾向があり、部分的な調整と反コーディネーションが観察される場合、崩壊する。
機構解析により、中程度の探索は準安定周期状態の局所的最小値から逃れることができ、大域的最小値として最適調整に達することが分かる。
興味深いことに、最適な調整は行動選好の対称性を破り、人口の半数近くが一方を選択し、残りの半分は他方を好む。
最適コーディネーションの出現は、人口規模や他のゲームパラメータに対して堅牢である。
それゆえ,我々の研究はマイノリティゲームに対する自然な解決策を提供し,資源配分問題全般に対する洞察を与えている。
さらに,社会経済的文脈における多くのパズルの解読における強化学習パラダイムの可能性を示す。 Efficient allocation is important in nature and human society where individuals often compete for finite resources. The Minority Game is perhaps the simplest model that provides deep insights into how human coordinate to maximize the resource utilization. However, this model assumes the static strategies that are provided a priori, failing to capture their adaptive nature. Here, we turn to the paradigm of reinforcement learning, where individuals' strategies are evolving by evaluating both the past experience and rewards in the future. Specifically, we adopt the Q-learning algorithm, each player is endowed with a Q-table that guides their decision-making. We reveal that the population is able to reach the optimal allocation when individuals appreciate both the past experience and rewards in the future, and they are able to balance the exploitation of their Q-tables and the exploration by randomly acting. The optimal allocation is ruined when individuals tend to use either exploitation-only or exploration-only, where only partial coordination and even anti-coordination are observed. Mechanism analysis reveals that a moderate level of exploration can escape local minimums of metastable periodic states, and reaches the optimal coordination as the global minimum. Interestingly, the optimal coordination is underlined by a symmetry-breaking of action preferences, where nearly half of the population choose one side while the other half prefer the other side. The emergence of optimal coordination is robust to the population size and other game parameters. Our work therefore provides a natural solution to the Minority Game and sheds insights into the resource allocation problem in general. Besides, our work demonstrates the potential of the proposed reinforcement learning paradigm in deciphering many puzzles in the socio-economic context. | 翻訳日:2024-01-15 13:04:22 公開日:2023-12-20 |
# 学習可能な損失混合を用いた単チャンネル音声強調 Single-channel speech enhancement using learnable loss mixup ( http://arxiv.org/abs/2312.17255v1 ) ライセンス: Link先を確認 | Oscar Chang, Dung N. Tran, Kazuhito Koishida | (参考訳) 一般化は単一チャンネル音声強調の教師あり学習において依然として大きな問題である。
本研究では,深層学習に基づく音声強調モデルの一般化を改善するために,単純で無力な学習ダイアグラムである学習可能損失混合(llm)を提案する。
学習可能な損失混合が特別な変種であるロスミックスアップは、ランダムサンプルペアの損失関数の混合を最適化し、これらのペアから構築された仮想トレーニングデータに基づいてモデルをトレーニングする。
学習可能な損失混合では、混合データに条件付けすることにより、損失関数を非線形混合関数を用いて混合し、ニューラルパラメータ化により自動的に学習する。
VCTKベンチマーク実験の結果,学習可能な損失混合は3.26 PESQを達成し,最先端よりも優れていた。 Generalization remains a major problem in supervised learning of single-channel speech enhancement. In this work, we propose learnable loss mixup (LLM), a simple and effortless training diagram, to improve the generalization of deep learning-based speech enhancement models. Loss mixup, of which learnable loss mixup is a special variant, optimizes a mixture of the loss functions of random sample pairs to train a model on virtual training data constructed from these pairs of samples. In learnable loss mixup, by conditioning on the mixed data, the loss functions are mixed using a non-linear mixing function automatically learned via neural parameterization. Our experimental results on the VCTK benchmark show that learnable loss mixup achieves 3.26 PESQ, outperforming the state-of-the-art. | 翻訳日:2024-01-15 12:48:40 公開日:2023-12-20 |
# 雑音・不完全データからのネットワーク拡散モデルの学習 Learning of networked spreading models from noisy and incomplete data ( http://arxiv.org/abs/2401.00011v1 ) ライセンス: Link先を確認 | Mateusz Wilinski and Andrey Y. Lokhov | (参考訳) 近年、完全データと部分データの両方からダイナミクスを拡散するパラメータを学ぶアルゴリズムが進歩している。
残る課題には、未知のネットワーク構造のシナリオによるモデル選択、ノイズデータ、時間内の観測の欠如、正確な学習に必要なサンプル数を最小限に抑えるための事前情報の効率的な導入などが含まれる。
本稿では,実データで頻繁に発生する課題を解決するスケーラブルな動的メッセージパッシング手法に基づく普遍的な学習手法を提案する。
このアルゴリズムは、モデルとデータに関する利用可能な事前知識を活用し、拡散モデルのネットワーク構造とパラメータの両方を再構成する。
キーモデルパラメータを持つ手法の線形計算複雑性は,アルゴリズムを大規模ネットワークインスタンスにスケーラブルにすることを示す。 Recent years have seen a lot of progress in algorithms for learning parameters of spreading dynamics from both full and partial data. Some of the remaining challenges include model selection under the scenarios of unknown network structure, noisy data, missing observations in time, as well as an efficient incorporation of prior information to minimize the number of samples required for an accurate learning. Here, we introduce a universal learning method based on scalable dynamic message-passing technique that addresses these challenges often encountered in real data. The algorithm leverages available prior knowledge on the model and on the data, and reconstructs both network structure and parameters of a spreading model. We show that a linear computational complexity of the method with the key model parameters makes the algorithm scalable to large network instances. | 翻訳日:2024-01-15 12:25:27 公開日:2023-12-20 |
# 自動アライメントと適応光学を用いた光ツイーザ生成 Optical tweezer generation using automated alignment and adaptive optics ( http://arxiv.org/abs/2401.00860v1 ) ライセンス: Link先を確認 | Bharath Hebbe Madhusudhana, Karatzyna Krzyzanowska, Malcolm Boshier | (参考訳) 超低温原子を用いた量子技術の最近の進歩は、レーザーの空間的微調整制御と回折制限イメージングによって推進されている。
この微調整を実現するための光学アライメントの最先端の精度は、手動制御の限界に達している。
ここでは、このプロセスの自動化方法を示す。
光学手動アライメントの基本的な技法の1つはレーザービームの横断歩行である。
ここでは,この手法を多変量横断歩行に一般化する。
数学的には、これは凸最適化におけるよく知られた交代最小化アルゴリズムの変種であり、ガウス・シーデルアルゴリズムと密接に関連している。
そこで我々は,多変数横断歩行アルゴリズムを改良AMアルゴリズムと呼ぶ。
手動で2つ以上の変数を横断歩行することは難しいが、機械制御変数では簡単にできる。
このアルゴリズムを,高数値開口(na)目標を機械的に整列させ,高品質の回折制限トワイザーと点拡散関数(psf)を生成できることを示す。
粗いアライメントの後、アルゴリズムは約1時間かけて光学系を調整し、高品質のトワイザーを生成する。
また,同じアルゴリズムを用いて変形可能なミラーの形状を機械変数とともに最適化し,ツイーザーや撮像点源を作製する際に,ガラス厚による光学収差を補正できることを示した。
変形可能なミラーの形状は、最初の14個の非自明なツェルニケ多項式を用いてパラメータ化され、対応する係数は機械的アライメント変数と共に最適化される。
psfはstrehl比が1近く、tweezersはstrehl比が0.8以下である。
このアルゴリズムは、ノイズ環境によって引き起こされる重要な機械的ゆらぎの存在下で効果的に動作する、例外的な堅牢性を示す。 Recent progress in quantum technologies with ultracold atoms has been propelled by spatially fine-tuned control of lasers and diffraction-limited imaging. The state-of-the-art precision of optical alignment to achieve this fine-tuning is reaching the limits of manual control. Here, we show how to automate this process. One of the elementary techniques of manual alignment of optics is cross-walking of laser beams. Here, we generalize this technique to multi-variable cross-walking. Mathematically, this is a variant of the well-known Alternating Minimization (AM) algorithm in convex optimization and is closely related to the Gauss-Seidel algorithm. Therefore, we refer to our multi-variable cross-walking algorithm as the modified AM algorithm. While cross-walking more than two variables manually is challenging, one can do this easily for machine-controlled variables. We apply this algorithm to mechanically align high numerical aperture (NA) objectives and show that we can produce high-quality diffraction-limited tweezers and point spread functions (PSF). After a rudimentary coarse alignment, the algorithm takes about 1 hour to align the optics to produce high-quality tweezers. Moreover, we use the same algorithm to optimize the shape of a deformable mirror along with the mechanical variables and show that it can be used to correct for optical aberrations produced, for example, by glass thickness when producing tweezers and imaging point sources. The shape of the deformable mirror is parametrized using the first 14 non-trivial Zernike polynomials, and the corresponding coefficients are optimized together with the mechanical alignment variables. We show PSF with a Strehl ratio close to 1 and tweezers with a Strehl ratio >0.8. The algorithm demonstrates exceptional robustness, effectively operating in the presence of significant mechanical fluctuations induced by a noisy environment. | 翻訳日:2024-01-15 12:18:11 公開日:2023-12-20 |
# RFRL Gym:認知無線応用のための強化学習ベッド RFRL Gym: A Reinforcement Learning Testbed for Cognitive Radio Applications ( http://arxiv.org/abs/2401.05406v1 ) ライセンス: Link先を確認 | Daniel Rosen (1), Illa Rochez (1), Caleb McIrvin (1), Joshua Lee (1), Kevin D'Alessandro (1), Max Wiecek (1), Nhan Hoang (1), Ramzy Saffarini (1), Sam Philips (1), Vanessa Jones (1), Will Ivey (1), Zavier Harris-Smart (2), Zavion Harris-Smart (2), Zayden Chin (2), Amos Johnson (2), Alyse M. Jones (1), William C. Headley (1) ((1) Virginia Tech, (2) Morehouse College) | (参考訳) RFRL(Radio Frequency Reinforcement Learning)は、次世代の無線通信システム、特に6Gおよび次世代の軍事通信において広く応用される技術として期待されている。
本研究は、スペクトルセンシングを利用したRFRL技術の開発を促進するツールの開発に重点を置いている。
特にこのツールは、ダイナミックスペクトラムアクセスとジャミングという2つの認知無線アプリケーションに対処するために設計された。
これらの応用のために強化学習(rl)アルゴリズムを訓練し、テストするためには、無線周波数(rf)スペクトル内でエージェントが遭遇する条件をシミュレートするシミュレーション環境が必要である。
本稿では,このような環境が開発され,以下rfrl体育館と呼ぶ。
RFRL Gymを通じて、ユーザーは独自のシナリオを設計し、RFスペクトル内でRLエージェントが遭遇するものをモデル化し、異なるスペクトルセンシング技術を試すことができる。
さらに、RFRL GymはOpenAIのサブクラスであり、サードパーティのML/RLライブラリの使用を可能にする。
我々は、他の研究者が自身のシナリオとRLアルゴリズムをテストするためにRFRL Gymを利用できるように、このコードベースをオープンソースにすることを計画している。
本稿では,体育館の構成要素,事例シナリオの結果,今後の追加計画について詳しく述べる。
インデックス用語-機械学習、強化学習、無線通信、ダイナミックスペクトラムアクセス、openaiジム Radio Frequency Reinforcement Learning (RFRL) is anticipated to be a widely applicable technology in the next generation of wireless communication systems, particularly 6G and next-gen military communications. Given this, our research is focused on developing a tool to promote the development of RFRL techniques that leverage spectrum sensing. In particular, the tool was designed to address two cognitive radio applications, specifically dynamic spectrum access and jamming. In order to train and test reinforcement learning (RL) algorithms for these applications, a simulation environment is necessary to simulate the conditions that an agent will encounter within the Radio Frequency (RF) spectrum. In this paper, such an environment has been developed, herein referred to as the RFRL Gym. Through the RFRL Gym, users can design their own scenarios to model what an RL agent may encounter within the RF spectrum as well as experiment with different spectrum sensing techniques. Additionally, the RFRL Gym is a subclass of OpenAI gym, enabling the use of third-party ML/RL Libraries. We plan to open-source this codebase to enable other researchers to utilize the RFRL Gym to test their own scenarios and RL algorithms, ultimately leading to the advancement of RL research in the wireless communications domain. This paper describes in further detail the components of the Gym, results from example scenarios, and plans for future additions. Index Terms-machine learning, reinforcement learning, wireless communications, dynamic spectrum access, OpenAI gym | 翻訳日:2024-01-15 08:33:42 公開日:2023-12-20 |
# SelfEEG:脳波の自己監督学習のためのPythonライブラリ SelfEEG: A Python library for Self-Supervised Learning in Electroencephalography ( http://arxiv.org/abs/2401.05405v1 ) ライセンス: Link先を確認 | Federico Del Pup, Andrea Zanola, Louis Fabrice Tshimanga, Paolo Emilio Mazzon, Manfredo Atzori | (参考訳) SelfEEGは、研究者が脳波(EEG)データに対して自己監視学習(SSL)実験を行うのを支援するために開発されたオープンソースのPythonライブラリである。
その主な目的は、ユーザフレンドリで高度にカスタマイズ可能な環境を提供することで、EEGデータ上で自己教師付き学習タスクを効率的に設計し、実行できるようにすることである。
SelfEEGは、データインポートからモデル設計、トレーニングまで、一般的なSSLパイプラインのすべてのステージをカバーする。
様々な粒度のデータを分割するモジュール(セッション、主題、データセットベースの分割など)、ミニバッチ構築中に異なる設定(ファイル拡張、データタイプなど)で格納されたデータを効果的に管理するモジュール、EEGデータに適用される幅広い標準ディープラーニングモデル、データ拡張、SSLベースラインメソッドを提供する。
selfeegが提供する機能のほとんどは、gpuとcpuの両方で実行でき、セルフ教師付き学習領域を超えてユーザビリティが拡張される。
さらに、これらの機能は、筋電図や心電図データなどの脳波と結合する他の生体医学的信号の解析に利用できる。
これらの機能により、セルフEEGはバイオメディカルアプリケーションのための汎用的なディープラーニングツールとなり、現在最もアクティブな人工知能分野の一つであるSSLの有用なリソースとなる。 SelfEEG is an open-source Python library developed to assist researchers in conducting Self-Supervised Learning (SSL) experiments on electroencephalography (EEG) data. Its primary objective is to offer a user-friendly but highly customizable environment, enabling users to efficiently design and execute self-supervised learning tasks on EEG data. SelfEEG covers all the stages of a typical SSL pipeline, ranging from data import to model design and training. It includes modules specifically designed to: split data at various granularity levels (e.g., session-, subject-, or dataset-based splits); effectively manage data stored with different configurations (e.g., file extensions, data types) during mini-batch construction; provide a wide range of standard deep learning models, data augmentations and SSL baseline methods applied to EEG data. Most of the functionalities offered by selfEEG can be executed both on GPUs and CPUs, expanding its usability beyond the self-supervised learning area. Additionally, these functionalities can be employed for the analysis of other biomedical signals often coupled with EEGs, such as electromyography or electrocardiography data. These features make selfEEG a versatile deep learning tool for biomedical applications and a useful resource in SSL, one of the currently most active fields of Artificial Intelligence. | 翻訳日:2024-01-15 08:33:17 公開日:2023-12-20 |
# 幼児期教育における人工知能の重要技術 : レビュー The Key Artificial Intelligence Technologies in Early Childhood Education: A Review ( http://arxiv.org/abs/2401.05403v1 ) ライセンス: Link先を確認 | Yi Honghu and Liu Ting and Lan Gongjin | (参考訳) 人工知能(AI)技術は、幼児教育(ECE)など、様々な分野で応用されている。
AI教育技術の統合は、ECEの最近の重要なトレンドである。
現在、ECEにはAIの研究がますます増えている。
現在、ECEにおけるAIの研究について議論する調査記事が不足している。
本稿では,eceにおける重要なai技術について,歴史的視点を提供し,代表的成果を要約し,オープン質問を概説し,詳細な書誌分析を通じてトレンドと課題を議論し,今後の研究への洞察に富んだ勧告を提供する。
我々は主に、自閉症スペクトラム障害児の社会的相互作用を改善することを含む、AIベースのロボットとAI技術をECEに適用する研究について論じる。
本稿では,ECEにおける初心者のAI入門教材として,高度ユーザのための補助材料として好適な,最新かつ詳細な調査の提供に大きく貢献する。 Artificial Intelligence (AI) technologies have been applied in various domains, including early childhood education (ECE). Integration of AI educational technology is a recent significant trend in ECE. Currently, there are more and more studies of AI in ECE. To date, there is a lack of survey articles that discuss the studies of AI in ECE. In this paper, we provide an up-to-date and in-depth overview of the key AI technologies in ECE that provides a historical perspective, summarizes the representative works, outlines open questions, discusses the trends and challenges through a detailed bibliometric analysis, and provides insightful recommendations for future research. We mainly discuss the studies that apply AI-based robots and AI technologies to ECE, including improving the social interaction of children with an autism spectrum disorder. This paper significantly contributes to provide an up-to-date and in-depth survey that is suitable as introductory material for beginners to AI in ECE, as well as supplementary material for advanced users. | 翻訳日:2024-01-15 08:32:53 公開日:2023-12-20 |
# 結晶材料生成のためのベクトル場指向拡散モデル Vector Field Oriented Diffusion Model for Crystal Material Generation ( http://arxiv.org/abs/2401.05402v1 ) ライセンス: Link先を確認 | Astrid Klipfel, Ya\"el Fregier, Adlane Sayede, Zied Bouraoui | (参考訳) 特定の化学的性質を持つ結晶構造の発見は、物質科学においてますます重要視されている。
しかし、現在のモデルは原子の位置や化学組成のみを考えるため、新しい結晶格子を生成する能力に制限がある。
この問題に対処するために,幾何学的同変GNNを用いて原子位置と結晶格子を共同で検討する確率拡散モデルを提案する。
本モデルの有効性を評価するために,frechetインセプション距離にインスパイアされた新しい世代のメトリックを導入するが,コンピュータビジョンで使用されるインセプションv3ではなくgnnエネルギー予測に基づいている。
構造物の妥当性を評価する妥当性などの一般的なメトリクスに加えて、この新しいメトリクスはモデルの能力をより包括的に評価する。
既存のベンチマーク実験では拡散モデルの重要性が示された。
また,本手法は意味表現を効果的に学習できることを示す。 Discovering crystal structures with specific chemical properties has become an increasingly important focus in material science. However, current models are limited in their ability to generate new crystal lattices, as they only consider atomic positions or chemical composition. To address this issue, we propose a probabilistic diffusion model that utilizes a geometrically equivariant GNN to consider atomic positions and crystal lattices jointly. To evaluate the effectiveness of our model, we introduce a new generation metric inspired by Frechet Inception Distance, but based on GNN energy prediction rather than InceptionV3 used in computer vision. In addition to commonly used metrics like validity, which assesses the plausibility of a structure, this new metric offers a more comprehensive evaluation of our model's capabilities. Our experiments on existing benchmarks show the significance of our diffusion model. We also show that our method can effectively learn meaningful representations. | 翻訳日:2024-01-15 08:32:35 公開日:2023-12-20 |
# 一般水中物体検出のためのドメイン類似性評価ラベルアサインメント Domain Similarity-Perceived Label Assignment for Domain Generalized Underwater Object Detection ( http://arxiv.org/abs/2401.05401v1 ) ライセンス: Link先を確認 | Xisheng Li, Wei Li, Pinhao Song, Mingjun Zhang, and Jie Zhou | (参考訳) 水域の固有特性と光のゆらぎは、水中環境における異なる層と領域の間に大きな差をもたらす。
訓練セットと異なる海域でテストセットが収集されると、ドメインシフトの問題が発生し、モデルの一般化能力が著しく損なわれる。
DAL(Domain Adversarial Learning)トレーニング戦略は、これまでこのような課題に対処するために使用されてきた。
しかし、DALは手動で1ホットのドメインラベルに大きく依存しており、同じドメインのサンプルに差はない。
このような仮定は、DALの不安定性をもたらす。
本稿ではドメイン類似性-知覚ラベル割り当て(DSP)の概念を紹介する。
各画像のドメインラベルは、指定されたドメインと類似していると見なされる。
ドメイン固有のデータ拡張技術により、水中クロスドメインオブジェクト検出ベンチマークS-UODAC2020で最先端の結果を得た。
さらに,Cityscapesデータセットにおける手法の有効性を検証した。 The inherent characteristics and light fluctuations of water bodies give rise to the huge difference between different layers and regions in underwater environments. When the test set is collected in a different marine area from the training set, the issue of domain shift emerges, significantly compromising the model's ability to generalize. The Domain Adversarial Learning (DAL) training strategy has been previously utilized to tackle such challenges. However, DAL heavily depends on manually one-hot domain labels, which implies no difference among the samples in the same domain. Such an assumption results in the instability of DAL. This paper introduces the concept of Domain Similarity-Perceived Label Assignment (DSP). The domain label for each image is regarded as its similarity to the specified domains. Through domain-specific data augmentation techniques, we achieved state-of-the-art results on the underwater cross-domain object detection benchmark S-UODAC2020. Furthermore, we validated the effectiveness of our method in the Cityscapes dataset. | 翻訳日:2024-01-15 08:32:21 公開日:2023-12-20 |
# 人工知能話者との協調学習(clais) : 初等科目教員の試作品に対する反応 Collaborative Learning with Artificial Intelligence Speakers (CLAIS): Pre-Service Elementary Science Teachers' Responses to the Prototype ( http://arxiv.org/abs/2401.05400v1 ) ライセンス: Link先を確認 | Gyeong-Geon Lee, Seonyeong Mun, Myeong-Kyeong Shin, and Xiaoming Zhai | (参考訳) この研究は、AIが学習のツールとしてだけでなく、人間が科学教室で疫学の実践を変えるために協調学習(CL)に参加するインテリジェントエージェントとしても機能することを実証することを目的としている。
我々は、Analytic, Design, Development, Implementation and Evaluation (ADDIE)モデルに従い、AIスピーカーを用いた協調学習(CLAIS)と呼ばれる有形教育システムの試作に設計・開発研究アプローチを採用した。
CLAISシステムは、3、4人の人間の学習者がAIスピーカーに参加して小さなグループを形成し、人間とAIはJigsaw学習プロセスに参加する仲間と見なされるように設計されている。
開発は、NUGU AIスピーカープラットフォームを使用して行われた。
CLAISシステムは,15人の小学校教員による理科教育講習会で実施された。
CLAISシステムの評価は,教師,学習者,友人,ユーザといった混合手法を用いて行った。
定量的データは,CLAISセッションの後に参加者の知能・技術・教育・コンテンツ知識が有意に向上し,CLAIS学習経験の認知は肯定的であり,AI話者と人間ピアのピアアセスメントは異なっており,ユーザエクスペリエンスは曖昧であった。
質的データから,科学教室における認識過程の今後の変化を予測し,音声認識性能や応答遅延などの技術的課題を認めた。
本研究は,真正な教室環境における知識共構築のための人間とAIのコラボレーションの可能性を強調し,教室における先天的な実践の将来の景観をAIがどう形成するかを実証する。 This research aims to demonstrate that AI can function not only as a tool for learning, but also as an intelligent agent with which humans can engage in collaborative learning (CL) to change epistemic practices in science classrooms. We adopted a design and development research approach, following the Analysis, Design, Development, Implementation and Evaluation (ADDIE) model, to prototype a tangible instructional system called Collaborative Learning with AI Speakers (CLAIS). The CLAIS system is designed to have 3-4 human learners join an AI speaker to form a small group, where humans and AI are considered as peers participating in the Jigsaw learning process. The development was carried out using the NUGU AI speaker platform. The CLAIS system was successfully implemented in a Science Education course session with 15 pre-service elementary science teachers. The participants evaluated the CLAIS system through mixed methods surveys as teachers, learners, peers, and users. Quantitative data showed that the participants' Intelligent-Technological, Pedagogical, And Content Knowledge was significantly increased after the CLAIS session, the perception of the CLAIS learning experience was positive, the peer assessment on AI speakers and human peers was different, and the user experience was ambivalent. Qualitative data showed that the participants anticipated future changes in the epistemic process in science classrooms, while acknowledging technical issues such as speech recognition performance and response latency. This study highlights the potential of Human-AI Collaboration for knowledge co-construction in authentic classroom settings and exemplify how AI could shape the future landscape of epistemic practices in the classroom. | 翻訳日:2024-01-15 08:32:09 公開日:2023-12-20 |
# タスク駆動型因果的特徴蒸留 : 信頼できるリスク予測を目指して Task-Driven Causal Feature Distillation: Towards Trustworthy Risk Prediction ( http://arxiv.org/abs/2312.16113v1 ) ライセンス: Link先を確認 | Zhixuan Chu, Mengxuan Hu, Qing Cui, Longfei Li, Sheng Li | (参考訳) 人工知能は近年、多くの分野で大きな成功を収めているため、信頼性と解釈可能なリスク予測の可能性に大きな関心を寄せている。
しかし、ほとんどのモデルは因果推論やクラス不均衡に苦しむため、正確さやリコールに乏しい。
そこで本研究では,タスク駆動型因果的特徴蒸留モデル(TDCFD)を提案する。
因果的特徴属性は、この機能の価値がリスク予測結果にどの程度貢献できるかを説明するのに役立つ。
因果的特徴蒸留の後、ディープニューラルネットワークを適用し、因果的解釈可能性と高精度/リコールを伴う信頼できる予測結果を生成する。
本研究では,TDCFD法の性能評価を行い,その精度,リコール,解釈可能性,因果性について,最先端の手法よりも優れていることを示す。 Since artificial intelligence has seen tremendous recent successes in many areas, it has sparked great interest in its potential for trustworthy and interpretable risk prediction. However, most models lack causal reasoning and struggle with class imbalance, leading to poor precision and recall. To address this, we propose a Task-Driven Causal Feature Distillation model (TDCFD) to transform original feature values into causal feature attributions for the specific risk prediction task. The causal feature attribution helps describe how much contribution the value of this feature can make to the risk prediction result. After the causal feature distillation, a deep neural network is applied to produce trustworthy prediction results with causal interpretability and high precision/recall. We evaluate the performance of our TDCFD method on several synthetic and real datasets, and the results demonstrate its superiority over the state-of-the-art methods regarding precision, recall, interpretability, and causality. | 翻訳日:2023-12-31 03:16:04 公開日:2023-12-20 |
# スケールダウンからスケールアップ: OpenAI の GPT-4 を自己ホスト型オープンソース SLM で置き換えたコストベネフィット分析 Scaling Down to Scale Up: A Cost-Benefit Analysis of Replacing OpenAI's GPT-4 with Self-Hosted Open Source SLMs in Production ( http://arxiv.org/abs/2312.14972v1 ) ライセンス: Link先を確認 | Chandra Irugalbandara, Ashish Mahendra, Roland Daynauth, Tharuka Kasthuri Arachchige, Krisztian Flautner, Lingjia Tang, Yiping Kang, Jason Mars | (参考訳) 多くの企業は、OpenAIのGPT-4のようなマネージドAIモデルのAPIを使用して、製品内でAI対応エクスペリエンスを作成している。
使いやすさと運用時間短縮のメリットに加えて、プロプライエタリなAPIへの依存は、モデル制御、パフォーマンス信頼性、アップタイム予測可能性、コストの面でマイナス面がある。
同時に、商用で利用可能なオープンソースの小型言語モデル(SLM)が急増している。
しかし、既存の機能を置き換える準備が整っていないため、これらのモデルをテストするための体系的なアプローチは容易には利用できない。
本稿では,LLMのプロプライエタリなAPIを現実の製品機能に置き換える際の,現代的なオープンソースSLMとそのトレードオフの体系的評価手法を提案する。
SLaMは、任意のSLMを用いて製品機能の定量的かつ質的なテストを可能にする自動分析ツールである。
SLaMを用いて、既存のOpenAIベースの実装と比較して、現代のSLMの品質特性と性能特性について検討する。
9種類のSLMと29種類のSLMに対して,OpenAI GPT-4と比較した場合の競合品質,大幅な性能改善,5x-29xのコスト削減について検討した。 Many companies rely on APIs of managed AI models such as OpenAI's GPT-4 to create AI-enabled experiences in their products. Along with the benefits of ease of use and shortened time to production, this reliance on proprietary APIs has downsides in terms of model control, performance reliability, up-time predictability, and cost. At the same time, there has been a flurry of open source small language models (SLMs) that have been made available for commercial use. However, their readiness to replace existing capabilities remains unclear, and a systematic approach to test these models is not readily available. In this paper, we present a systematic evaluation methodology for, and characterization of, modern open source SLMs and their trade-offs when replacing a proprietary LLM APIs for a real-world product feature. We have designed SLaM, an automated analysis tool that enables the quantitative and qualitative testing of product features utilizing arbitrary SLMs. Using SLaM, we examine both the quality and the performance characteristics of modern SLMs relative to an existing customer-facing OpenAI-based implementation. We find that across 9 SLMs and 29 variants, we observe competitive quality-of-results for our use case, significant performance consistency improvement, and a cost reduction of 5x-29x when compared to OpenAI GPT-4. | 翻訳日:2023-12-31 03:14:16 公開日:2023-12-20 |
# OpenRL: 統一強化学習フレームワーク OpenRL: A Unified Reinforcement Learning Framework ( http://arxiv.org/abs/2312.16189v1 ) ライセンス: Link先を確認 | Shiyu Huang, Wentse Chen, Yiwen Sun, Fuqing Bie, Wei-Wei Tu | (参考訳) 我々は,単一エージェントの課題から複雑なマルチエージェントシステムに至るまで,さまざまなタスクに対応するための高度な強化学習(RL)フレームワークであるOpenRLを提案する。
OpenRLのセルフプレイトレーニングに対する堅牢なサポートにより、エージェントは競争環境において高度な戦略を開発することができる。
特に、OpenRLは自然言語処理(NLP)とRLを統合しており、研究者はRLトレーニングと言語中心のタスクを効果的に組み合わせることができる。
PyTorchの堅牢な機能を活用することで、OpenRLはモジュール化とユーザ中心のアプローチを実証する。
イノベーションやアルゴリズム開発に必要な柔軟性を維持しながら、初心者のユーザエクスペリエンスをシンプルにするユニバーサルインターフェースを提供する。
この均衡はフレームワークの実用性、適応性、拡張性を高め、RL研究において新しい標準を確立する。
OpenRLの機能を調べるために、研究者や愛好家のGitHubリポジトリをhttps://github.com/OpenRL-Lab/openrlで探索し、https://openrl-docs.readthedocs.ioで包括的なドキュメントにアクセスしてください。 We present OpenRL, an advanced reinforcement learning (RL) framework designed to accommodate a diverse array of tasks, from single-agent challenges to complex multi-agent systems. OpenRL's robust support for self-play training empowers agents to develop advanced strategies in competitive settings. Notably, OpenRL integrates Natural Language Processing (NLP) with RL, enabling researchers to address a combination of RL training and language-centric tasks effectively. Leveraging PyTorch's robust capabilities, OpenRL exemplifies modularity and a user-centric approach. It offers a universal interface that simplifies the user experience for beginners while maintaining the flexibility experts require for innovation and algorithm development. This equilibrium enhances the framework's practicality, adaptability, and scalability, establishing a new standard in RL research. To delve into OpenRL's features, we invite researchers and enthusiasts to explore our GitHub repository at https://github.com/OpenRL-Lab/openrl and access our comprehensive documentation at https://openrl-docs.readthedocs.io. | 翻訳日:2023-12-31 03:00:48 公開日:2023-12-20 |
# Meta Co-Training: 2つのビューは1より優れている Meta Co-Training: Two Views are Better than One ( http://arxiv.org/abs/2311.18083v2 ) ライセンス: Link先を確認 | Jay C. Rothenberger, Dimitrios I. Diochnos | (参考訳) 多くの実用的なコンピュータビジョンシナリオでは、ラベルのないデータは豊富だが、ラベルは乏しく入手が難しい。
その結果,教師付き分類器の性能を高めるためにラベル付きデータを活用した半教師付き学習が近年注目されている。
半教師付きアルゴリズムの主要なクラスはコトレーニングである。
共同トレーニングでは、2つの異なるモデルが異なる独立性と十分なデータ"ビュー"を活用して、より優れた予測を行う。
共トレーニングの間、各モデルは他のモデルを改善するために使用されるラベルのない点に擬似ラベルを作成する。
独立ビューが利用できない一般的なケースでは、事前学習したモデルを使って安価にビューを構築することができる。
構築されたビューを共同トレーニングすることで、構築した個々のビューよりもパフォーマンスが向上し、セミ教師付き学習のアプローチに匹敵するパフォーマンスになりますが、望ましくない特性がいくつかあります。
共同学習に伴う問題を軽減するため,Meta Pseudo Labels アプローチの拡張である Meta Co-Training を2つの視点で紹介する。
提案手法は,ImageNet-10%において,トレーニングリソースの少ない新たな最先端性能を実現するとともに,他の細粒度画像分類データセットに対する半教師付き作業よりも優れる。 In many practical computer vision scenarios unlabeled data is plentiful, but labels are scarce and difficult to obtain. As a result, semi-supervised learning which leverages unlabeled data to boost the performance of supervised classifiers have received significant attention in recent literature. One major class of semi-supervised algorithms is co-training. In co-training two different models leverage different independent and sufficient "views" of the data to jointly make better predictions. During co-training each model creates pseudo labels on unlabeled points which are used to improve the other model. We show that in the common case when independent views are not available we can construct such views inexpensively using pre-trained models. Co-training on the constructed views yields a performance improvement over any of the individual views we construct and performance comparable with recent approaches in semi-supervised learning, but has some undesirable properties. To alleviate the issues present with co-training we present Meta Co-Training which is an extension of the successful Meta Pseudo Labels approach to two views. Our method achieves new state-of-the-art performance on ImageNet-10% with very few training resources, as well as outperforming prior semi-supervised work on several other fine-grained image classification datasets. | 翻訳日:2023-12-25 17:57:30 公開日:2023-12-20 |
# FastSR-NeRF: 簡易超解像パイプラインを用いた消費者デバイスにおけるNeRF効率の向上 FastSR-NeRF: Improving NeRF Efficiency on Consumer Devices with A Simple Super-Resolution Pipeline ( http://arxiv.org/abs/2312.11537v2 ) ライセンス: Link先を確認 | Chien-Yu Lin, Qichen Fu, Thomas Merth, Karren Yang, Anurag Ranjan | (参考訳) ニューラルレイディアンスフィールド(NeRF)の出力をアップスケールし、推論速度を向上した高品質な画像を生成するための超解像(SR)技術が最近提案されている。
しかし, 既存のNeRF+SR法は, 付加的な入力特徴, 損失関数, 知識蒸留などの高価な訓練手順を用いることで, トレーニングのオーバーヘッドを増大させる。
本稿では,SRをコストのかかるトレーニングやアーキテクチャの変更なしに効率向上に活用することを目的とする。
具体的には、既存のモジュールを直接結合する単純なNeRF+SRパイプラインを構築し、トレーニングのための軽量な拡張手法、ランダムパッチサンプリングを提案する。
既存のNeRF+SR手法と比較して、私たちのパイプラインはSRコンピューティングのオーバーヘッドを軽減し、最大で23倍高速にトレーニングできるため、Apple MacBookのような消費者向けデバイス上で実行することが可能です。
実験により、パイプラインは高品質を維持しながら2~4倍のNeRF出力をアップスケールでき、NVIDIA V100 GPUでは18倍、M1 Proチップでは12.8倍の推論速度が向上した。
我々は、SRは、消費者デバイスにおけるNeRFモデルの効率を改善するための、シンプルだが効果的な手法であると結論付けている。 Super-resolution (SR) techniques have recently been proposed to upscale the outputs of neural radiance fields (NeRF) and generate high-quality images with enhanced inference speeds. However, existing NeRF+SR methods increase training overhead by using extra input features, loss functions, and/or expensive training procedures such as knowledge distillation. In this paper, we aim to leverage SR for efficiency gains without costly training or architectural changes. Specifically, we build a simple NeRF+SR pipeline that directly combines existing modules, and we propose a lightweight augmentation technique, random patch sampling, for training. Compared to existing NeRF+SR methods, our pipeline mitigates the SR computing overhead and can be trained up to 23x faster, making it feasible to run on consumer devices such as the Apple MacBook. Experiments show our pipeline can upscale NeRF outputs by 2-4x while maintaining high quality, increasing inference speeds by up to 18x on an NVIDIA V100 GPU and 12.8x on an M1 Pro chip. We conclude that SR can be a simple but effective technique for improving the efficiency of NeRF models for consumer devices. | 翻訳日:2023-12-25 17:48:25 公開日:2023-12-20 |
# 粒子物理学における異常検出のための機械学習 Machine Learning for Anomaly Detection in Particle Physics ( http://arxiv.org/abs/2312.14190v1 ) ライセンス: Link先を確認 | Vasilis Belis, Patrick Odagiu, Thea Kl{\ae}boe {\AA}rrestad | (参考訳) 分配外データポイントの検出は、粒子物理学において一般的な課題である。
複雑な粒子検出器の監視や、標準モデルを超えた新しい現象や物理を示唆する稀で予期せぬ事象の特定に使用される。
異常検出のための機械学習の最近の進歩は、粒子物理問題におけるそのような技術の利用を促している。
本稿では,機械学習を用いた粒子物理学における異常検出技術の概要を紹介する。
高エネルギー粒子衝突型加速器などの大規模かつ複雑なデータセットにおける異常検出に関する課題について考察し,素粒子物理学実験における異常検出の応用について述べる。 The detection of out-of-distribution data points is a common task in particle physics. It is used for monitoring complex particle detectors or for identifying rare and unexpected events that may be indicative of new phenomena or physics beyond the Standard Model. Recent advances in Machine Learning for anomaly detection have encouraged the utilization of such techniques on particle physics problems. This review article provides an overview of the state-of-the-art techniques for anomaly detection in particle physics using machine learning. We discuss the challenges associated with anomaly detection in large and complex data sets, such as those produced by high-energy particle colliders, and highlight some of the successful applications of anomaly detection in particle physics experiments. | 翻訳日:2023-12-25 17:38:18 公開日:2023-12-20 |
# データ拡張と動的サンプリング法による神経定理の証明の強化 Enhancing Neural Theorem Proving through Data Augmentation and Dynamic Sampling Method ( http://arxiv.org/abs/2312.14188v1 ) ライセンス: Link先を確認 | Rahul Vishwakarma and Subhankar Mishra | (参考訳) 定理証明は数学の基本的な課題である。
リーンのような大規模言語モデル(LLM)や対話型定理証明器(ITP)の出現により、LLMとIPPを統合することへの関心が高まっている。
このアプローチでは、LCMは証明ステップ(戦術)を生成し、IPPは現在の目標における戦術の適用性をチェックする。
2つのシステムが協力して証明を完成させる。
本稿では,定理証明のための新しい動的サンプリング手法であるDS-Proverを紹介する。
この方法は、定理を証明するために割り当てられた合計時間と比較して、現在の目標を拡大するための戦術の数を動的に決定する。
これにより、時間経過とともに探索と搾取のバランスを調整することにより、証明探索プロセスの効率が向上する。
また、単純化と書き直しの戦術を複数の前提で1つの前提で戦術に分解することで、トレーニングデータセットも強化します。
これにより、モデルが学ぶべき実例が増え、前提でより正確に戦術を予測するのに役立ちます。
我々は,Lean定理証明器のMathlibデータセットを用いて実験を行い,MiniF2FとProofNetの2つの標準データセットのパフォーマンスを報告する。
提案手法は,両データセットで有意な性能向上を実現する。
最先端のパフォーマンス(pass@1)をプルーフネットデータセットで14.2%、minif2fで29.8%、リーンで29.6%のpass@1をわずかに上回って達成しました。 Theorem proving is a fundamental task in mathematics. With the advent of large language models (LLMs) and interactive theorem provers (ITPs) like Lean, there has been growing interest in integrating LLMs and ITPs to automate theorem proving. In this approach, the LLM generates proof steps (tactics), and the ITP checks the applicability of the tactics at the current goal. The two systems work together to complete the proof. In this paper, we introduce DS-Prover, a novel dynamic sampling method for theorem proving. This method dynamically determines the number of tactics to apply to expand the current goal, taking into account the remaining time compared to the total allocated time for proving a theorem. This makes the proof search process more efficient by adjusting the balance between exploration and exploitation as time passes. We also augment the training dataset by decomposing simplification and rewrite tactics with multiple premises into tactics with single premises. This gives the model more examples to learn from and helps it to predict the tactics with premises more accurately. We perform our experiments using the Mathlib dataset of the Lean theorem prover and report the performance on two standard datasets, MiniF2F and ProofNet. Our methods achieve significant performance gains on both datasets. We achieved a state-of-the-art performance (Pass@1) of 14.2% on the ProofNet dataset and a performance of 29.8% on MiniF2F, slightly surpassing the best-reported Pass@1 of 29.6% using Lean. | 翻訳日:2023-12-25 17:38:00 公開日:2023-12-20 |
# WaveCoder: 改良されたデータ生成による広範かつVersatile拡張インストラクションチューニング WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation ( http://arxiv.org/abs/2312.14187v1 ) ライセンス: Link先を確認 | Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin | (参考訳) 最近の研究は、高品質な命令データセットに微調整された後、様々なタスクに対処する印象的な能力が得られることを示した。
しかし、既存の命令データ生成手法はしばしば重複データを生成し、データ品質を十分に制御できない。
本稿では,命令データを4つのコード関連タスクに分類することで,命令チューニングの一般化を拡張し,オープンソースコードから多種多様な高品質な命令データを生成するLLMベースのジェネレータデータ処理フレームワークを提案する。
そこで我々は,4つの普遍的なコード関連タスクにまたがる20,000の命令インスタンスからなるデータセットであるCodeOceanを紹介した。
次に、WidespreadとVersatile拡張命令チューニングを備えた微調整コードLLMであるWaveCoderを紹介する。
このモデルは、特にコード言語モデル(llms)の命令チューニングを強化するために設計されている。
我々の実験では、Wavecoderモデルは、異なるコード関連タスクを同じレベルの微調整スケールで一般化する能力において、他のオープンソースモデルよりも優れていることを示した。
さらに、Wavecoderは、以前のコード生成タスクで高い効率を示す。
そこで本稿では,命令データ生成と微調整モデルに多大な貢献を行い,コード関連タスクのパフォーマンス向上のための新たな洞察とツールを提供する。 Recent work demonstrates that, after being fine-tuned on a high-quality instruction dataset, the resulting model can obtain impressive capabilities to address a wide range of tasks. However, existing methods for instruction data generation often produce duplicate data and are not controllable enough on data quality. In this paper, we extend the generalization of instruction tuning by classifying the instruction data to 4 code-related tasks and propose a LLM-based Generator-Discriminator data process framework to generate diverse, high-quality instruction data from open source code. Hence, we introduce CodeOcean, a dataset comprising 20,000 instruction instances across 4 universal code-related tasks,which is aimed at augmenting the effectiveness of instruction tuning and improving the generalization ability of fine-tuned model. Subsequently, we present WaveCoder, a fine-tuned Code LLM with Widespread And Versatile Enhanced instruction tuning. This model is specifically designed for enhancing instruction tuning of Code Language Models (LLMs). Our experiments demonstrate that Wavecoder models outperform other open-source models in terms of generalization ability across different code-related tasks at the same level of fine-tuning scale. Moreover, Wavecoder exhibits high efficiency in previous code generation tasks. This paper thus offers a significant contribution to the field of instruction data generation and fine-tuning models, providing new insights and tools for enhancing performance in code-related tasks. | 翻訳日:2023-12-25 17:37:34 公開日:2023-12-20 |
# 機械学習によるSAFARI-1制御Follower Assembly Axial Neutron Flux Profileのクラスタリングと不確かさ解析による予測 Clustering and Uncertainty Analysis to Improve the Machine Learning-based Predictions of SAFARI-1 Control Follower Assembly Axial Neutron Flux Profiles ( http://arxiv.org/abs/2312.14193v1 ) ライセンス: Link先を確認 | Lesego Moloko and Pavel Bokov and Xu Wu and Kostadin Ivanov | (参考訳) 本研究の目的は,SAFARI-1 実験炉の組立軸軸流束プロファイルを予測する機械学習(ML)モデルを開発することである。
MLモデルのデータ駆動性は、トレーニングデータのノイズ、ドメインの不完全なカバレッジ、外挿、不完全なモデルアーキテクチャなどのソースによって導入された不確実性に影響を受けやすい。
この目的のために,MLモデル予測の近似の不確かさの定量化も目指している。
ディープニューラルネットワーク(DNN)を用いた以前の研究は、SAFARI-1の燃料集合体では成功したが、追従体集合体の制御にはそれほど正確ではない。
本研究の目的は,教師付きMLアルゴリズムと教師なしMLアルゴリズムを組み合わせることで,制御アセンブリのMLモデルを改善することである。
k$-means および Affinity Propagation unsupervised ML アルゴリズムを用いて測定された軸流中性子フラックスプロファイルの集合内のクラスターを同定する。
次に、DNN(モンテカルロのドロップアウトで定量化された予測不確かさを伴う)とガウス過程(GP)を用いた回帰に基づく教師付きMLモデルを異なるクラスタに対して訓練し、予測不確かさを推定する。
提案手法の適用により,制御アセンブリの予測精度が向上し,予測の不確実性を低減できることがわかった。
DNNとGPによって予測されるフラックス形状は非常に近く、全体の精度は燃料集合体と同等になった。
しかし、予測の不確実性はGPモデルでは小さい。 The goal of this work is to develop accurate Machine Learning (ML) models for predicting the assembly axial neutron flux profiles in the SAFARI-1 research reactor, trained by measurement data from historical cycles. The data-driven nature of ML models makes them susceptible to uncertainties which are introduced by sources such as noise in training data, incomplete coverage of the domain, extrapolation and imperfect model architectures. To this end, we also aim at quantifying the approximation uncertainties of the ML model predictions. Previous work using Deep Neural Networks (DNNs) has been successful for fuel assemblies in SAFARI-1, however, not as accurate for control follower assemblies. The aim of this work is to improve the ML models for the control assemblies by a combination of supervised and unsupervised ML algorithms. The $k$-means and Affinity Propagation unsupervised ML algorithms are employed to identify clusters in the set of the measured axial neutron flux profiles. Then, regression-based supervised ML models using DNN (with prediction uncertainties quantified with Monte Carlo dropout) and Gaussian Process (GP) are trained for different clusters and the prediction uncertainty is estimated. It was found that applying the proposed procedure improves the prediction accuracy for the control assemblies and reduces the prediction uncertainty. Flux shapes predicted by DNN and GP are very close, and the overall accuracy became comparable to the fuel assemblies. The prediction uncertainty is however smaller for GP models. | 翻訳日:2023-12-25 17:21:38 公開日:2023-12-20 |
# Manifold hypothesis による逆行性精製 Adversarial Purification with the Manifold Hypothesis ( http://arxiv.org/abs/2210.14404v5 ) ライセンス: Link先を確認 | Zhaoyuan Yang, Zhiwei Xu, Jing Zhang, Richard Hartley, Peter Tu | (参考訳) 本研究では, 多様体仮説を用いて, 対向ロバスト性に関する新しい枠組みを定式化する。
この枠組みは敵の例に対する防御に十分な条件を提供する。
この枠組みを用いた逆浄化法を開発した。
本手法は,高額な対向訓練を必要とせずに,多様体学習と変分推論を組み合わせることで,対向ロバスト性を提供する。
実験的に,攻撃者が防御の存在を認識している場合でも,敵の堅牢性を提供することができる。
また,本手法は可変オートエンコーダのテスト時間防御機構としても機能する。 In this work, we formulate a novel framework for adversarial robustness using the manifold hypothesis. This framework provides sufficient conditions for defending against adversarial examples. We develop an adversarial purification method with this framework. Our method combines manifold learning with variational inference to provide adversarial robustness without the need for expensive adversarial training. Experimentally, our approach can provide adversarial robustness even if attackers are aware of the existence of the defense. In addition, our method can also serve as a test-time defense mechanism for variational autoencoders. | 翻訳日:2023-12-22 19:46:33 公開日:2023-12-20 |
# nlpにおける忠実なモデル説明に向けて:調査 Towards Faithful Model Explanation in NLP: A Survey ( http://arxiv.org/abs/2209.11326v3 ) ライセンス: Link先を確認 | Qing Lyu, Marianna Apidianaki, Chris Callison-Burch | (参考訳) エンドツーエンドのニューラル自然言語処理(nlp)モデルは理解が難しいことで悪名高い。
これは近年、モデル説明可能性への多くの取り組みを引き起こしている。
モデル説明のデシドラタムの一つは忠実性であり、つまりモデル予測の背後にある推論過程を正確に表現すべきである。
本研究では,NLPにおける110以上のモデル説明手法を忠実度レンズを用いて検討した。
まず,忠実性の定義と評価,説明可能性の意義について論じる。
次に, 既存手法を類似性に基づく手法, モデル内部構造の解析, バックプロパゲーションに基づく手法, 反ファクト介入, 自己探索モデルという5つのカテゴリに分類する。
各カテゴリについて、代表的研究、強度、弱点を合成する。
最後に,それらの共通美徳と課題を要約し,nlpの忠実な説明可能性に向けた今後の作業の方向性を考察する。 End-to-end neural Natural Language Processing (NLP) models are notoriously difficult to understand. This has given rise to numerous efforts towards model explainability in recent years. One desideratum of model explanation is faithfulness, i.e. an explanation should accurately represent the reasoning process behind the model's prediction. In this survey, we review over 110 model explanation methods in NLP through the lens of faithfulness. We first discuss the definition and evaluation of faithfulness, as well as its significance for explainability. We then introduce recent advances in faithful explanation, grouping existing approaches into five categories: similarity-based methods, analysis of model-internal structures, backpropagation-based methods, counterfactual intervention, and self-explanatory models. For each category, we synthesize its representative studies, strengths, and weaknesses. Finally, we summarize their common virtues and remaining challenges, and reflect on future work directions towards faithful explainability in NLP. | 翻訳日:2023-12-22 19:44:54 公開日:2023-12-20 |
# ラテントコンビネーションゲーム設計 Latent Combinational Game Design ( http://arxiv.org/abs/2206.14203v3 ) ライセンス: Link先を確認 | Anurag Sarkar, Seth Cooper | (参考訳) 我々は,あるゲームセットを所望の組合せにブレンドしたプレイ可能なゲームを生成するために,深層生成潜在変数モデルを用いた潜在組合せゲーム設計を提案する。
ガウス混合変分オートエンコーダ (gmvaes) を用いて, ガウス成分の混合によりvae潜在空間をモデル化する。
教師付きトレーニングを通じて、各コンポーネントは1つのゲームからレベルをエンコードし、これらのコンポーネントの線形結合としてブレンドゲームを定義する。
これにより、入力ゲームをブレンドする新しいゲームを生成すると同時に、ブレンド中の各ゲームの相対比率を制御することができる。
また,条件付きVAEを用いた先行ブレンディング作業を拡張し,GMVAEと比較し,また,全ブレンドレベルとレイアウトを生成するためのハイブリッドコンディショナルGAVAE(CGMVAE)アーキテクチャを導入する。
これらの手法は,入力ゲームと特定の組み合わせを混合したプレイ可能なゲームを生成することができる。
プラットフォームとダンジョンベースのゲームの両方を使って結果を示しています。 We present latent combinational game design -- an approach for generating playable games that blend a given set of games in a desired combination using deep generative latent variable models. We use Gaussian Mixture Variational Autoencoders (GMVAEs) which model the VAE latent space via a mixture of Gaussian components. Through supervised training, each component encodes levels from one game and lets us define blended games as linear combinations of these components. This enables generating new games that blend the input games as well as controlling the relative proportions of each game in the blend. We also extend prior blending work using conditional VAEs and compare against the GMVAE and additionally introduce a hybrid conditional GMVAE (CGMVAE) architecture which lets us generate whole blended levels and layouts. Results show that these approaches can generate playable games that blend the input games in specified combinations. We use both platformers and dungeon-based games to demonstrate our results. | 翻訳日:2023-12-22 19:44:39 公開日:2023-12-20 |
# KitBit: インテリジェンステストと数値シリーズの解決のための新しいAIモデル KitBit: A New AI Model for Solving Intelligence Tests and Numerical Series ( http://arxiv.org/abs/2206.08965v3 ) ライセンス: Link先を確認 | V\'ictor Corsino, Jos\'e Manuel Gilp\'erez, Luis Herrera | (参考訳) インテリジェンステストの解決、特に数値シーケンスは、AIシステムの評価に大きな関心を寄せている。
そこで我々は,減算アルゴリズムとそれらの組み合わせを用いて,IQテストなどの数値列の下位パターンを検出する予測モデルを構築するKitBitという新しい計算モデルを提案する。
我々は,モデルの基礎と応用について異なるケースで述べる。
まず、システムは様々なソースから収集されたiqテストで使用される一連の数列でテストされる。
次に,本論文で報告したモデルの評価に用いる配列に対して,本モデルを適用した。
どちらの場合でも、このシステムは標準的な計算能力を使って1秒足らずでこれらの問題を解決することができる。
最後に、KitBitのアルゴリズムは、よく知られたOEISデータベースの全シーケンスの完全なセットに初めて適用された。
我々は、アルゴリズムのリストの形式でパターンを見つけ、今までで最大のシリーズ数で次の用語を予測する。
これらの結果は,kitbit が数値的に表現できる複雑な問題を解く可能性を示している。 The resolution of intelligence tests, in particular numerical sequences, has been of great interest in the evaluation of AI systems. We present a new computational model called KitBit that uses a reduced set of algorithms and their combinations to build a predictive model that finds the underlying pattern in numerical sequences, such as those included in IQ tests and others of much greater complexity. We present the fundamentals of the model and its application in different cases. First, the system is tested on a set of number series used in IQ tests collected from various sources. Next, our model is successfully applied on the sequences used to evaluate the models reported in the literature. In both cases, the system is capable of solving these types of problems in less than a second using standard computing power. Finally, KitBit's algorithms have been applied for the first time to the complete set of entire sequences of the well-known OEIS database. We find a pattern in the form of a list of algorithms and predict the following terms in the largest number of series to date. These results demonstrate the potential of KitBit to solve complex problems that could be represented numerically. | 翻訳日:2023-12-22 19:44:22 公開日:2023-12-20 |
# ksd集計適合性試験 KSD Aggregated Goodness-of-fit Test ( http://arxiv.org/abs/2202.00824v6 ) ライセンス: Link先を確認 | Antonin Schrab and Benjamin Guedj and Arthur Gretton | (参考訳) Kernel Stein Discrepancy (KSD) に基づく適合性試験の特性について検討した。
我々は、異なるカーネルで複数のテストを集約するKSDAggと呼ばれるテストを構築する戦略を導入する。
KSDAggは、データを分割してカーネル選択(テストパワーの損失につながる)することを避け、むしろカーネルのコレクション上でテストパワーを最大化する。
我々はKSDAggのパワーに関する漸近的でない保証を提供し、対数項まで、コレクションの最小一様分離率を達成することを示す。
有界モデルスコア関数を持つコンパクトに支持された密度に対しては、制限されたソボレフ球上のksdaggの速度を導出する。
ksdaggはパラメトリックブートストラップまたはワイルドブートストラップに依存して量子量とレベル補正を推定するため、実際に正確に計算することができる。
特に、固定カーネルの帯域幅を決定的に選択するためには、任意のヒューリスティック(中央値や標準偏差など)やデータの分割を避ける。
我々は、KSDAggが他の最先端の二次時間適応型KSDベースの良質なテスト手順よりも優れる合成データと実世界のデータの両方を見いだした。 We investigate properties of goodness-of-fit tests based on the Kernel Stein Discrepancy (KSD). We introduce a strategy to construct a test, called KSDAgg, which aggregates multiple tests with different kernels. KSDAgg avoids splitting the data to perform kernel selection (which leads to a loss in test power), and rather maximises the test power over a collection of kernels. We provide non-asymptotic guarantees on the power of KSDAgg: we show it achieves the smallest uniform separation rate of the collection, up to a logarithmic term. For compactly supported densities with bounded model score function, we derive the rate for KSDAgg over restricted Sobolev balls; this rate corresponds to the minimax optimal rate over unrestricted Sobolev balls, up to an iterated logarithmic term. KSDAgg can be computed exactly in practice as it relies either on a parametric bootstrap or on a wild bootstrap to estimate the quantiles and the level corrections. In particular, for the crucial choice of bandwidth of a fixed kernel, it avoids resorting to arbitrary heuristics (such as median or standard deviation) or to data splitting. We find on both synthetic and real-world data that KSDAgg outperforms other state-of-the-art quadratic-time adaptive KSD-based goodness-of-fit testing procedures. | 翻訳日:2023-12-22 19:42:25 公開日:2023-12-20 |
# ネットワークベース転送学習における効率的な推論のための基底スケーリングとダブルプルーニング Basis Scaling and Double Pruning for Efficient Inference in Network-Based Transfer Learning ( http://arxiv.org/abs/2108.02893v2 ) ライセンス: Link先を確認 | Ken C. L. Wong, Satyananda Kashyap, Mehdi Moradi | (参考訳) ネットワークベースの転送学習は、限られたデータでディープラーニング機能の再利用を可能にするが、結果として得られるモデルは不要に大きくなる可能性がある。
ネットワークプルーニングは推論効率を向上させるが、既存のアルゴリズムは通常、小さなデータセットには適さない微調整を必要とする。
本稿では,特異値分解を用いた畳み込み層を,正規直交基底ベクトルをフィルタとする畳み込み層と,特徴の再スケーリングと元の空間への変換を行う"basisscalingconv"層とに分解する。
各分解層におけるフィルタは線形独立であるため,Taylor近似を用いて提案した基底スケーリング係数を用いることで,より効果的かつ微調整の個々の重み付けが不要となる。
さらに、元の畳み込み層の入出力チャネルの数は、ベースプルーニング後に変化しないため、事実上全てのアーキテクチャに適用可能であり、ダブルプルーニングのための既存のプルーニングアルゴリズムと組み合わせることで、プルーニング能力をさらに向上させることができる。
imagenetで事前訓練されたモデルから異なるターゲットドメインに知識を転送する場合、分類精度が1%未満で、cifar-10では74.6%、モデルパラメータでは98.9%のプルーニング率を達成できる。 Network-based transfer learning allows the reuse of deep learning features with limited data, but the resulting models can be unnecessarily large. Although network pruning can improve inference efficiency, existing algorithms usually require fine-tuning that may not be suitable for small datasets. In this paper, using the singular value decomposition, we decompose a convolutional layer into two layers: a convolutional layer with the orthonormal basis vectors as the filters, and a "BasisScalingConv" layer which is responsible for rescaling the features and transforming them back to the original space. As the filters in each decomposed layer are linearly independent, when using the proposed basis scaling factors with the Taylor approximation of importance, pruning can be more effective and fine-tuning individual weights is unnecessary. Furthermore, as the numbers of input and output channels of the original convolutional layer remain unchanged after basis pruning, it is applicable to virtually all architectures and can be combined with existing pruning algorithms for double pruning to further increase the pruning capability. When transferring knowledge from ImageNet pre-trained models to different target domains, with less than 1% reduction in classification accuracies, we can achieve pruning ratios up to 74.6% for CIFAR-10 and 98.9% for MNIST in model parameters. | 翻訳日:2023-12-22 19:41:39 公開日:2023-12-20 |
# PIFON-EPT:物理インフォームドフーリエネットワークを用いたMR特性トモグラフィ PIFON-EPT: MR-Based Electrical Property Tomography Using Physics-Informed Fourier Networks ( http://arxiv.org/abs/2302.11883v4 ) ライセンス: Link先を確認 | Xinling Yu, Jos\'e E. C. Serrall\'es, Ilias I. Giannakopoulos, Ziyue Liu, Luca Daniel, Riccardo Lattanzi, Zheng Zhang | (参考訳) ノイズおよび/または不完全な磁気共鳴(MR)測定を用いたEP再構成のための新しい深層学習手法であるPFON-EPT(Physical-Informed Fourier Networks for Electrical Properties)トモグラフィーを提案する。
提案手法では、ヘルムホルツ方程式を利用して2つのネットワークを制約し、それぞれ送信フィールドの分断と完了、および対象のepの推定を行う。
ネットワークにランダムなフーリエ特徴マッピングを埋め込み、送信フィールドにエンコードされた高周波詳細の効率的な学習を可能にします。
PIFON-EPTの有効性を3および7 tesla (T) MR画像で実証し, 物理的に一貫したEPを再構成し, 送信フィールドを再現できることを実証した。
具体的には、ノイズ測定フィールドの20\%しか入力として使用しなかった場合、PIFON-EPTは、ファントムのEPを$\leq 5\%$エラーで再構成し、$\leq 1\%$エラーでデノライズし、測定を完了した。
さらに、不均一性の間のEPの勾配を考慮した一般化ヘルムホルツ方程式を解くために、PIFON-EPTを適用した。
これにより、境界条件を明示的に知ることなく、異なる材料間の界面におけるより良い結果が得られる。
PIFON-EPTは、EPを同時に再構成し、不完全ノイズMR測定からフィールドを送信し、EPT研究の新しい機会を提供する最初の方法である。 We propose Physics-Informed Fourier Networks for Electrical Properties (EP) Tomography (PIFON-EPT), a novel deep learning-based method for EP reconstruction using noisy and/or incomplete magnetic resonance (MR) measurements. Our approach leverages the Helmholtz equation to constrain two networks, responsible for the denoising and completion of the transmit fields, and the estimation of the object's EP, respectively. We embed a random Fourier features mapping into our networks to enable efficient learning of high-frequency details encoded in the transmit fields. We demonstrated the efficacy of PIFON-EPT through several simulated experiments at 3 and 7 tesla (T) MR imaging, and showed that our method can reconstruct physically consistent EP and transmit fields. Specifically, when only $20\%$ of the noisy measured fields were used as inputs, PIFON-EPT reconstructed the EP of a phantom with $\leq 5\%$ error, and denoised and completed the measurements with $\leq 1\%$ error. Additionally, we adapted PIFON-EPT to solve the generalized Helmholtz equation that accounts for gradients of EP between inhomogeneities. This yielded improved results at interfaces between different materials without explicit knowledge of boundary conditions. PIFON-EPT is the first method that can simultaneously reconstruct EP and transmit fields from incomplete noisy MR measurements, providing new opportunities for EPT research. | 翻訳日:2023-12-22 19:34:45 公開日:2023-12-20 |
# 一般ガウス雑音機構と非バイアス平均推定の最適性 General Gaussian Noise Mechanisms and Their Optimality for Unbiased Mean Estimation ( http://arxiv.org/abs/2301.13850v2 ) ライセンス: Link先を確認 | Aleksandar Nikolov and Haohua Tang | (参考訳) 偏りのない高次元平均推定器を微分プライバシーで検討する。
固定有界領域$d$-dimensional 領域$K$から引き出されたすべてのデータセットに対して、期待出力が入力データセットの平均値に等しいような、微分プライベートなメカニズムを考える。
プライベート平均推定に対する古典的なアプローチは、真の平均を計算し、バイアスのないがおそらく相関のあるガウスノイズを加えることである。
本論文の第1部では、与えられた領域に対してガウスノイズ機構により達成可能な最適誤差を、いくつかの$p \ge 2$に対して$\ell_p$ノルムで測定した場合に検討する。
最適な仮定の下で与えられた$k$ に対するガウス雑音の最適共分散を計算するアルゴリズムを与え、最適誤差の幾何的性質をいくつも証明する。
これらの結果は、対称かつ有限(あるいは同値な対称ポリトープ)の領域 $k$ から任意の有界な領域への分解機構の理論を一般化する。
論文の第2部では、ガウス雑音機構が、非常に強い意味で、全てのプライベートな非バイアス平均推定機構の中でほぼ最適な誤差を達成することを示す。
特に、全ての入力データセットに対して、集中した差分プライバシーを満たす非バイアス平均推定器は、最高のガウス雑音機構と同じくらいの誤差をもたらす。
この結果を局所的な差分プライバシーに拡張し、差分プライバシーを近似するが、後者の場合、エラーの下位境界はデータセットか近隣のデータセットに保持され、この緩和が必要である。 We investigate unbiased high-dimensional mean estimators in differential privacy. We consider differentially private mechanisms whose expected output equals the mean of the input dataset, for every dataset drawn from a fixed bounded $d$-dimensional domain $K$. A classical approach to private mean estimation is to compute the true mean and add unbiased, but possibly correlated, Gaussian noise to it. In the first part of this paper, we study the optimal error achievable by a Gaussian noise mechanism for a given domain $K$ when the error is measured in the $\ell_p$ norm for some $p \ge 2$. We give algorithms that compute the optimal covariance for the Gaussian noise for a given $K$ under suitable assumptions, and prove a number of nice geometric properties of the optimal error. These results generalize the theory of factorization mechanisms from domains $K$ that are symmetric and finite (or, equivalently, symmetric polytopes) to arbitrary bounded domains. In the second part of the paper we show that Gaussian noise mechanisms achieve nearly optimal error among all private unbiased mean estimation mechanisms in a very strong sense. In particular, for every input dataset, an unbiased mean estimator satisfying concentrated differential privacy introduces approximately at least as much error as the best Gaussian noise mechanism. We extend this result to local differential privacy, and to approximate differential privacy, but for the latter the error lower bound holds either for a dataset or for a neighboring dataset, and this relaxation is necessary. | 翻訳日:2023-12-22 19:34:01 公開日:2023-12-20 |
# ディープラーニングを用いた骨格ビデオ異常検出:調査,課題,今後の方向性 Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions ( http://arxiv.org/abs/2301.00114v3 ) ライセンス: Link先を確認 | Pratik K. Mishra, Alex Mihailidis, Shehroz S. Khan | (参考訳) 既存のビデオ異常検出法では、顔の特徴と外見に基づく特徴を識別するビデオがほとんどである。
顔が特定可能なビデオを使うことは、特に病院やコミュニティベースの環境で使用される場合、プライバシーの懸念を生じさせる。
外観に基づく機能はピクセルベースのノイズにも敏感であり、背景の変化をモデル化するために異常検出手法を歪め、前景での人間の行動に焦点を合わせることが困難になる。
ビデオの中の人間の動きを記述する骨格の構造情報はプライバシー保護であり、外見に基づく特徴によって引き起こされる問題を克服することができる。
本稿では,ビデオから抽出したスケルトンを用いたプライバシー保護型ディープラーニング異常検出手法について検討する。
様々な学習手法に基づくアルゴリズムの新しい分類法を提案する。
我々は,異常検出のためのスケルトンベースのアプローチは,ビデオ異常検出のプライバシ保護の選択肢になり得ると結論づける。
最後に、主要なオープンな研究課題を特定し、それらに取り組むためのガイドラインを提供する。 The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them. | 翻訳日:2023-12-22 19:32:52 公開日:2023-12-20 |
# Floquet-assisted superradiant phaseのロバスト性とレーザー操作の可能性 Robustness of the Floquet-assisted superradiant phase and possible laser operation ( http://arxiv.org/abs/2211.01320v2 ) ライセンス: Link先を確認 | Lukas Broers and Ludwig Mathey | (参考訳) グラフェンの光誘起動力学にインスパイアされたパラメトリック駆動散逸ディックモデルのFloquet-assisted Superradiant相の強靭性を示す。
特に, 鍵不完全性に対するこの状態のロバスト性を示し, レーザー操作への利用の可能性について論じる。
位相拡散によりモデル化された駆動場の有限線幅の影響について考察する。
共振器内の光界の直線幅は、FSP遷移で大幅に狭まり、レーザ遷移で狭まる線を連想させる。
次に、FSPは光強度の低減を図りながら、不均一な拡張に対して堅牢であることを示す。
近共振フロッケ状態の欠落した集団反転は不均一に拡大したフロッケスペクトルに穴をあけることを示した。
最後に、FSPは散逸過程に対して堅牢であり、実験的に利用可能な値まで係数を持つことを示す。
FSPは, 現実的なレーザー操作が可能な頑健な機構を提示する。 We demonstrate the robustness of the recently established Floquet-assisted superradiant phase of the parametrically driven dissipative Dicke model, inspired by light-induced dynamics in graphene. In particular, we show the robustness of this state against key imperfections and argue for the feasibility of utilizing it for laser operation. We consider the effect of a finite linewidth of the driving field, modelled via phase diffusion. We find that the linewidth of the light field in the cavity narrows drastically across the FSP transition, reminiscent of a line narrowing at the laser transition. We then demonstrate that the FSP is robust against inhomogeneous broadening, while displaying a reduction of light intensity. We show that the depleted population inversion of near-resonant Floquet states leads to hole burning in the inhomogeneously broadened Floquet spectra. Finally, we show that the FSP is robust against dissipation processes, with coefficients up to values that are experimentally available. We conclude that the FSP presents a robust mechanism that is capable of realistic laser operation. | 翻訳日:2023-12-22 19:29:38 公開日:2023-12-20 |
# 説明制約による学習 Learning with Explanation Constraints ( http://arxiv.org/abs/2303.14496v2 ) ライセンス: Link先を確認 | Rattana Pukdee, Dylan Sam, J. Zico Kolter, Maria-Florina Balcan, Pradeep Ravikumar | (参考訳) 大規模なディープラーニングモデルは解釈が難しいため、最近はブラックボックスモデルの説明に焦点が当てられている。
対照的に、モデルがどのように振る舞うべきかという apriori の説明があるかもしれない。
本稿では,説明制約からの学習としてこの概念を定式化し,その説明がモデル学習をいかに改善できるかを分析するための学習論的枠組みを提案する。
これらの説明はいつ役に立つのか?
私たちの最初の重要な貢献は、新しいデータに対する期待でこれらの説明制約を満たす一連のモデルを通じてこの問題に対処します。
線形モデルと2層ニューラルネットワークの両方の設定における勾配情報から得られる説明の標準クラスに対して、これらのモデルの利点(Rademacher複雑性の低減の観点から)を特徴づける。
さらに,より単純な拡張ラグランジアン法と比較して,より優れた性能を実現し,より頻繁な制約を満たす変分近似によって,我々のフレームワークのアルゴリズム的解を提供する。
我々は,大規模な合成および実世界の実験に対するアプローチの利点を実証する。 As larger deep learning models are hard to interpret, there has been a recent focus on generating explanations of these black-box models. In contrast, we may have apriori explanations of how models should behave. In this paper, we formalize this notion as learning from explanation constraints and provide a learning theoretic framework to analyze how such explanations can improve the learning of our models. One may naturally ask, "When would these explanations be helpful?" Our first key contribution addresses this question via a class of models that satisfies these explanation constraints in expectation over new data. We provide a characterization of the benefits of these models (in terms of the reduction of their Rademacher complexities) for a canonical class of explanations given by gradient information in the settings of both linear models and two layer neural networks. In addition, we provide an algorithmic solution for our framework, via a variational approximation that achieves better performance and satisfies these constraints more frequently, when compared to simpler augmented Lagrangian methods to incorporate these explanations. We demonstrate the benefits of our approach over a large array of synthetic and real-world experiments. | 翻訳日:2023-12-22 19:21:36 公開日:2023-12-20 |
# adalora:パラメータ効率の良い微調整のための適応予算割り当て AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2303.10512v2 ) ライセンス: Link先を確認 | Qingru Zhang, Minshuo Chen, Alexander Bukharin, Nikos Karampatziakis, Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao | (参考訳) 下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
しかし、多くの下流タスクが存在する場合には、事前訓練されたモデルでパラメータの全てを微調整する。
そのため,事前学習された重みのインクリメンタルな更新をパラメータ効率良く,例えば低ランクのインクリメンタルに学習するために,多くの微調整手法が提案されている。
これらの手法はしばしば、事前訓練された全ての重量行列に漸進的な更新の予算を均等に分配し、異なる重量パラメータの異なる重要性を見落としている。
その結果、微調整性能が準最適となる。
このギャップを埋めるために、重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
特に、AdaLoRAは特異値分解の形でインクリメンタル更新をパラメータ化する。
このような新しいアプローチにより、重要でない更新の特異値を効果的に創り出すことができ、本質的にはパラメータ予算を削減できるが、正確なSVD計算を回避できる。
adaloraの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルをいくつか実施した。
その結果,adaloraは,特に低予算環境において,ベースラインよりも顕著な改善が見られた。
私たちのコードはhttps://github.com/QingruZhang/AdaLoRAで公開されています。 Fine-tuning large pre-trained language models on downstream tasks has become an important paradigm in NLP. However, common practice fine-tunes all of the parameters in a pre-trained model, which becomes prohibitive when a large number of downstream tasks are present. Therefore, many fine-tuning methods are proposed to learn incremental updates of pre-trained weights in a parameter efficient way, e.g., low-rank increments. These methods often evenly distribute the budget of incremental updates across all pre-trained weight matrices, and overlook the varying importance of different weight parameters. As a consequence, the fine-tuning performance is suboptimal. To bridge this gap, we propose AdaLoRA, which adaptively allocates the parameter budget among weight matrices according to their importance score. In particular, AdaLoRA parameterizes the incremental updates in the form of singular value decomposition. Such a novel approach allows us to effectively prune the singular values of unimportant updates, which is essentially to reduce their parameter budget but circumvent intensive exact SVD computations. We conduct extensive experiments with several pre-trained models on natural language processing, question answering, and natural language generation to validate the effectiveness of AdaLoRA. Results demonstrate that AdaLoRA manifests notable improvement over baselines, especially in the low budget settings. Our code is publicly available at https://github.com/QingruZhang/AdaLoRA . | 翻訳日:2023-12-22 19:20:45 公開日:2023-12-20 |
# マルチモード Gottesman-Kitaev-Preskill 符号の最も近い格子点復号法 Closest lattice point decoding for multimode Gottesman-Kitaev-Preskill codes ( http://arxiv.org/abs/2303.04702v3 ) ライセンス: Link先を確認 | Mao Lin, Christopher Chamberland, Kyungjoo Noh | (参考訳) 量子誤り訂正(QEC)は、フォールトトレラントな量子アルゴリズムの実現において重要な役割を果たす。
QECに対する様々なアプローチの中で、調和振動子モードで論理量子情報を符号化することは有望でハードウェア効率が良いことが示されている。
本研究では,多モードの Gottesman-Kitaev-Preskill (GKP) 符号について検討し,多くの振動子に量子ビットを符号化する。
特に,ランダムガウスシフト誤差を補正するための最接近点復号法を実装した。
一般的な多モードGKP符号の復号には、まず対応する格子を識別し、次にシンプレクティック双対格子の最も近い格子点と、エラーシンドロームと互換性のある候補シフト誤差を見出す。
本手法は,複数の既知の多モードGKP符号の符号距離や忠実度を含む誤り訂正能力を特徴付ける。
また、最大10モードまでのマルチモードGKP符号の数値最適化を行い、同じモード数のGKP符号と比較して符号距離と忠実度が良い3つのインスタンス(3、7、9モード)を探索する。
一般の非構造化GKP符号のモード数において、正確に最も近い点復号法は指数時間コストを発生させるが、最も近い点復号法は線形時間で正確に実行できるような構造化GKP符号の例をいくつか挙げる。
表面GKP符号に対しては,最小長マッチングアルゴリズム(MWPM)の助けを借りて,多項式時間で最も近い点復号を行うことができることを示す。
このMWPM最寄りのポイントデコーダは、従来研究されてきたMWPMデコーダと比較して、表面GKP符号の忠実度とノイズ閾値の両方を0.602に改善し、ノイズ閾値が0.599となるログ状アナログ情報によって支援されている。 Quantum error correction (QEC) plays an essential role in fault-tolerantly realizing quantum algorithms of practical interest. Among different approaches to QEC, encoding logical quantum information in harmonic oscillator modes has been shown to be promising and hardware efficient. In this work, we study multimode Gottesman-Kitaev-Preskill (GKP) codes, encoding a qubit in many oscillators, through a lattice perspective. In particular, we implement a closest point decoding strategy for correcting random Gaussian shift errors. For decoding a generic multimode GKP code, we first identify its corresponding lattice followed by finding the closest lattice point in its symplectic dual lattice to a candidate shift error compatible with the error syndrome. We use this method to characterize the error correction capabilities of several known multimode GKP codes, including their code distances and fidelities. We also perform numerical optimization of multimode GKP codes up to ten modes and find three instances (with three, seven and nine modes) with better code distances and fidelities compared to the known GKP codes with the same number of modes. While exact closest point decoding incurs exponential time cost in the number of modes for general unstructured GKP codes, we give several examples of structured GKP codes (i.e., of the repetition-rectangular GKP code types) where the closest point decoding can be performed exactly in linear time. For the surface-GKP code, we show that the closest point decoding can be performed exactly in polynomial time with the help of a minimum-weight-perfect-matching algorithm (MWPM). We show that this MWPM closest point decoder improves both the fidelity and the noise threshold of the surface-GKP code to 0.602 compared to the previously studied MWPM decoder assisted by log-likelihood analog information which yields a noise threshold of 0.599. | 翻訳日:2023-12-22 19:19:07 公開日:2023-12-20 |
# FAIR-Ensemble: フェアネスが深層から自然に生まれるとき FAIR-Ensemble: When Fairness Naturally Emerges From Deep Ensembling ( http://arxiv.org/abs/2303.00586v2 ) ライセンス: Link先を確認 | Wei-Yin Ko, Daniel D'souza, Karina Nguyen, Randall Balestriero, Sara Hooker | (参考訳) 複数のディープニューラルネットワーク(DNN)を組み立てることは、トップラインのメトリクスを改善し、より大きな単一モデルを上回る、シンプルで効果的な方法である。
この作業では、トップラインメトリクスを越えて、サブグループのパフォーマンスに対するアンサンブルの影響を調査します。
驚いたことに、単純な均質なアンサンブル -- 個々のdnnが同じトレーニングセット、アーキテクチャ、デザインの選択を共有している -- であっても、少数グループのパフォーマンスは、多数派に比べてモデル数で不釣り合いに改善される。
さらに驚くべきことに、アンサンブル高原の平均的なパフォーマンスがより少ないにもかかわらず、例えば20ドルといった多くのモデルが検討されている場合でも、この上昇は引き続き起こる。
我々の研究は、単純なDNNアンサンブルが、DNN分類器から異なる影響を緩和し、アルゴリズムの害を抑える強力なツールであることを示す。
また、その理由についても検討する。
一様アンサンブルにおいても,パラメータ初期化,ミニバッチサンプリング,データ提供実現などを通じて確率性の源を変化させることで,公平性が異なることが判明した。 Ensembling multiple Deep Neural Networks (DNNs) is a simple and effective way to improve top-line metrics and to outperform a larger single model. In this work, we go beyond top-line metrics and instead explore the impact of ensembling on subgroup performances. Surprisingly, we observe that even with a simple homogeneous ensemble -- all the individual DNNs share the same training set, architecture, and design choices -- the minority group performance disproportionately improves with the number of models compared to the majority group, i.e. fairness naturally emerges from ensembling. Even more surprising, we find that this gain keeps occurring even when a large number of models is considered, e.g. $20$, despite the fact that the average performance of the ensemble plateaus with fewer models. Our work establishes that simple DNN ensembles can be a powerful tool for alleviating disparate impact from DNN classifiers, thus curbing algorithmic harm. We also explore why this is the case. We find that even in homogeneous ensembles, varying the sources of stochasticity through parameter initialization, mini-batch sampling, and data-augmentation realizations, results in different fairness outcomes. | 翻訳日:2023-12-22 19:17:57 公開日:2023-12-20 |
# Pix2Repair:画像から形状を復元する Pix2Repair: Implicit Shape Restoration from Images ( http://arxiv.org/abs/2305.18273v3 ) ライセンス: Link先を確認 | Xinchao Song, Nikolas Lamb, Sean Banerjee, Natasha Kholgade Banerjee | (参考訳) Pix2Repairは、画像から復元形状を生成し、破折した物体を修復する自動形状修復手法である。
以前の修理アプローチでは、入力として破砕した物体の高分解能の防水3dメッシュが必要だった。
入力3Dメッシュは高価な3Dスキャナーを使用して取得し、スキャンされたメッシュは手作業によるクリーンアップ、アクセシビリティとスケーラビリティの制限を必要とする。
Pix2Repairは、壊れた物体の画像を入力として、自動的に3Dプリント可能な復元形状を生成する。
本稿では, 破壊対象を表す潜在符号を, 完全な形状と破壊面に分解する新しい形状関数を提案する。
また,画像に基づく形状復元手法をトレーニングし評価するために,11,653個の実世界画像の大規模データセットであるファンタスティック・ブレイクズ・イメージdを導入する。
私たちのデータセットにはFantastic Breaksからのオブジェクトの画像が含まれています。
我々は、データセットから実際の骨折を修復し、Geometric BreaksとBreaking Badデータセットから合成骨折を修復する。
本手法は, 形状補修に適応した形状補修アプローチよりも, シャムハ距離, 正規性, 修復率の点で優れている。 We present Pix2Repair, an automated shape repair approach that generates restoration shapes from images to repair fractured objects. Prior repair approaches require a high-resolution watertight 3D mesh of the fractured object as input. Input 3D meshes must be obtained using expensive 3D scanners, and scanned meshes require manual cleanup, limiting accessibility and scalability. Pix2Repair takes an image of the fractured object as input and automatically generates a 3D printable restoration shape. We contribute a novel shape function that deconstructs a latent code representing the fractured object into a complete shape and a break surface. We also introduce Fantastic Breaks Imaged, the first large-scale dataset of 11,653 real-world images of fractured objects for training and evaluating image-based shape repair approaches. Our dataset contains images of objects from Fantastic Breaks, complete with rich annotations. We show restorations for real fractures from our dataset, and for synthetic fractures from the Geometric Breaks and Breaking Bad datasets. Our approach outperforms shape completion approaches adapted for shape repair in terms of chamfer distance, normal consistency, and percent restorations generated. | 翻訳日:2023-12-22 19:10:17 公開日:2023-12-20 |
# 全医用画像のワンプロンプト One-Prompt to Segment All Medical Images ( http://arxiv.org/abs/2305.10300v3 ) ライセンス: Link先を確認 | Junde Wu, Jiayuan Zhu, Yuanpei Liu, Yueming Jin, Min Xu | (参考訳) 強力なゼロショット一般化で知られる大規模基礎モデルは、ビジュアルおよび言語アプリケーションにおいて優れている。
しかし、多様な画像タイプとターゲットラベルを持つ医療画像セグメンテーションに適用することは、まだ未解決の課題である。
SAM(Segment Anything Model)のようなインタラクティブセグメンテーションモデルの適用など、現在のアプローチでは、推論中に各サンプルに対してユーザプロンプトが必要になる。
あるいは、少数/1ショットモデルのような転送学習手法はラベル付きサンプルを要求するため、高いコストがかかる。
本稿では,「one-prompt segmentation」と呼ばれる万能医用画像セグメンテーションの新たなパラダイムを提案する。
ワンプロンプトセグメンテーションはワンショットとインタラクティブな手法の強みを組み合わせたものである。
推論の段階では、ただ \textbf{one prompted sample} だけで、1回のフォワードパスで未処理のタスクを適切に処理できる。
私たちは64のオープンソース医療データセットでOne-Prompt Modelをトレーニングし、3,000以上のクリニックラベルのプロンプトを収集しています。
14の未確認タスクでテストされたOne-Prompt Modelは、優れたゼロショットセグメンテーション能力を示し、幅広い関連手法より優れている。
コードと注釈付きデータは公開される予定だ。 Large foundation models, known for their strong zero-shot generalization, have excelled in visual and language applications. However, applying them to medical image segmentation, a domain with diverse imaging types and target labels, remains an open challenge. Current approaches, such as adapting interactive segmentation models like Segment Anything Model (SAM), require user prompts for each sample during inference. Alternatively, transfer learning methods like few/one-shot models demand labeled samples, leading to high costs. This paper introduces a new paradigm toward the universal medical image segmentation, termed 'One-Prompt Segmentation.' One-Prompt Segmentation combines the strengths of one-shot and interactive methods. In the inference stage, with just \textbf{one prompted sample}, it can adeptly handle the unseen task in a single forward pass. We train One-Prompt Model on 64 open-source medical datasets, accompanied by the collection of over 3,000 clinician-labeled prompts. Tested on 14 previously unseen tasks, the One-Prompt Model showcases superior zero-shot segmentation capabilities, outperforming a wide range of related methods. The code and annotated data will be publicly released. | 翻訳日:2023-12-22 19:08:17 公開日:2023-12-20 |
# 変圧器を用いた視覚セグメンテーション:調査 Transformer-Based Visual Segmentation: A Survey ( http://arxiv.org/abs/2304.09854v3 ) ライセンス: Link先を確認 | Xiangtai Li, Henghui Ding, Haobo Yuan, Wenwei Zhang, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy | (参考訳) ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
この技術には、自動運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。
過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。
近年,自然言語処理用に設計された自己認識に基づくニューラルネットワークであるtransformersが,様々な視覚処理タスクにおける従来の畳み込みや再帰的アプローチを大きく上回っている。
具体的には、視覚トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
本調査は、トランスフォーマティブに基づく視覚セグメンテーションの概観を提供し、最近の進歩を要約する。
まず、問題定義、データセット、および事前畳み込みメソッドを含む背景をレビューする。
次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。
このメタアーキテクチャに基づき、メタアーキテクチャおよび関連するアプリケーションの変更を含む様々なメソッド設計について検討する。
また、3dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、密接に関連する設定も提示する。
さらに、いくつかの確立されたデータセットでレビューされたメソッドをコンパイルし、再評価します。
最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。
プロジェクトのページはhttps://github.com/lxtGH/Awesome-Segmentation-With-Transformerにある。
この急速に発展する分野での開発も継続的に監視します。 Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmentation-With-Transformer. We will also continually monitor developments in this rapidly evolving field. | 翻訳日:2023-12-22 19:06:22 公開日:2023-12-20 |
# 雑音ラベルを用いた線形距離メトリック学習 Linear Distance Metric Learning with Noisy Labels ( http://arxiv.org/abs/2306.03173v3 ) ライセンス: Link先を確認 | Meysam Alishahi, Anna Little, and Jeff M. Phillips | (参考訳) 線形距離距離学習では、あるユークリッド距離空間内のデータを与えられ、ある距離条件を可能な限り尊重する別のユークリッド距離空間への適切な線型写像を見つけることが目的である。
本稿では,一般連続凸損失最適化問題に還元する単純でエレガントな手法を定式化し,異なる雑音モデルに対して対応する損失関数を導出する。
その結果、データがノイズである場合でも、十分なサンプルへのアクセスを提供する精度で基底真理線形計量を学習できることを示し、対応するサンプル複雑性を限定する。
さらに,学習したモデルを低ランクモデルに切り離し,損失関数とパラメータの精度を良好に維持する効果的な手法を提案する。
合成および実データ集合に関するいくつかの実験的な観察は、我々の理論的結果を支持し、知らせる。 In linear distance metric learning, we are given data in one Euclidean metric space and the goal is to find an appropriate linear map to another Euclidean metric space which respects certain distance conditions as much as possible. In this paper, we formalize a simple and elegant method which reduces to a general continuous convex loss optimization problem, and for different noise models we derive the corresponding loss functions. We show that even if the data is noisy, the ground truth linear metric can be learned with any precision provided access to enough samples, and we provide a corresponding sample complexity bound. Moreover, we present an effective way to truncate the learned model to a low-rank model that can provably maintain the accuracy in loss function and in parameters -- the first such results of this type. Several experimental observations on synthetic and real data sets support and inform our theoretical results. | 翻訳日:2023-12-22 18:57:26 公開日:2023-12-20 |
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v7 ) ライセンス: Link先を確認 | Pengcheng Lu, Liang Cai, and Keting Yin | (参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。
スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。
Ethereum上のスマートPonziスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、Ponziスキームの動作特性を真に特徴づけることができないため、検出精度と誤警報率の点で一般的には不十分である。
本稿では,事前訓練されたモデルとデータフローを用いてEthereumプラットフォーム上のスマートPonziスキームを検出する方法であるSourcePを提案する。
SourcePは、既存の検出方法のデータの取得と特徴抽出の難しさを軽減する。
具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。
実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。
我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。 As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, which are unable to truly characterize the behavioral features of Ponzi schemes, and thus generally perform poorly in terms of detection accuracy and false alarm rates. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability. | 翻訳日:2023-12-22 18:57:12 公開日:2023-12-20 |
# 量子太陽モデルにおける多体運動エッジ Many-Body Mobility Edge in Quantum Sun models ( http://arxiv.org/abs/2308.01073v2 ) ライセンス: Link先を確認 | Konrad Pawlik, Piotr Sierant, Lev Vidmar, and Jakub Zakrzewski | (参考訳) 量子太陽モデル(Quantum Sun model)は、エルゴディディティ破壊相転移の鋭いシグネチャを示す相互作用モデルである。
ここでは,モデルが多体移動エッジを示すことを示す。
我々は、ギャップ比、Thouless時間、および固有状態の絡み合いエントロピーを分析する最先端の数値シミュレーションによって補完される、その存在に関する解析的議論を提供する。
また、粒子数保存を伴う量子太陽モデルを導入し、制約のない前者と多くの類似点を共有していると論じる。 The Quantum Sun model is an interacting model that exhibits sharp signatures of ergodicity breaking phase transition. Here, we show that the model exhibits a many-body mobility edge. We provide analytical arguments for its existence, complemented by the state-of-the-art numerical simulations analysing gap ratios, Thouless times as well as entanglement entropy of eigenstates. We also introduce the Quantum Sun model with particle number conservation, and we argue that it shares many similarities with his unrestricted predecessor. | 翻訳日:2023-12-22 18:47:50 公開日:2023-12-20 |
# バイレベル最適化入門:信号処理と機械学習の基礎と応用 An Introduction to Bi-level Optimization: Foundations and Applications in Signal Processing and Machine Learning ( http://arxiv.org/abs/2308.00788v3 ) ライセンス: Link先を確認 | Yihua Zhang, Prashant Khanduri, Ioannis Tsaknakis, Yuguang Yao, Mingyi Hong, Sijia Liu | (参考訳) 近年,信号処理 (SP) と機械学習 (ML) の分野において,バイレベル最適化 (BLO) が注目されている。
大まかに言えば、BLOは古典的な最適化問題であり、2段階の階層構造(上層と下層)を伴い、上層問題の解を得るためには、下位層を解く必要がある。
BLOは主に、ネストされた目的関数の最適化を含むSPやMLのモデリング問題に強力なため人気がある。
BLOの代表的な応用は、無線システムのリソース割り当てから敵機械学習まで様々である。
本研究では,SP や ML アプリケーションによく現れるトラクタブルな BLO 問題に焦点をあてる。
本稿では,BLO問題の基本概念として,最適化条件,標準アルゴリズム(最適化原理や実践的実装を含む),およびいくつかの主要なSPおよびMLアプリケーションに対する最先端結果の取得方法について概説する。
さらに,BLO理論の最近の進歩,応用への含意,将来的な研究に必要な最先端技術の限界についても論じる。
全体として、この記事は、幅広い新興SPおよびMLアプリケーション上でモデリング、分析、革新を行う汎用ツールとして、BLOの採用を加速するのに役立つことを願っている。 Recently, bi-level optimization (BLO) has taken center stage in some very exciting developments in the area of signal processing (SP) and machine learning (ML). Roughly speaking, BLO is a classical optimization problem that involves two levels of hierarchy (i.e., upper and lower levels), wherein obtaining the solution to the upper-level problem requires solving the lower-level one. BLO has become popular largely because it is powerful in modeling problems in SP and ML, among others, that involve optimizing nested objective functions. Prominent applications of BLO range from resource allocation for wireless systems to adversarial machine learning. In this work, we focus on a class of tractable BLO problems that often appear in SP and ML applications. We provide an overview of some basic concepts of this class of BLO problems, such as their optimality conditions, standard algorithms (including their optimization principles and practical implementations), as well as how they can be leveraged to obtain state-of-the-art results for a number of key SP and ML applications. Further, we discuss some recent advances in BLO theory, its implications for applications, and point out some limitations of the state-of-the-art that require significant future research efforts. Overall, we hope that this article can serve to accelerate the adoption of BLO as a generic tool to model, analyze, and innovate on a wide array of emerging SP and ML applications. | 翻訳日:2023-12-22 18:47:21 公開日:2023-12-20 |
# 言語モデルに対する普遍的および移動可能な敵攻撃 Universal and Transferable Adversarial Attacks on Aligned Language Models ( http://arxiv.org/abs/2307.15043v2 ) ライセンス: Link先を確認 | Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, Matt Fredrikson | (参考訳) アウト・オブ・ボックス」な大規模言語モデルは、多くの不快なコンテンツを生成することができるため、最近の研究は、望ましくない生成を防ぐためにこれらのモデルを調整することに注力している。
LLMに対するいわゆる「ジェイルブレイク(jailbreak)」の回避にはいくつかの成功があったが、これらの攻撃には重大な人間の創発が必要であり、実際は脆弱である。
本稿では,協調した言語モデルに不利な振る舞いを生じさせる簡易かつ効果的な攻撃手法を提案する。
特に,本手法では,LLM が好ましくないコンテンツを生成するための広範囲なクエリにアタッチすると,モデルが肯定的な応答を生成する確率を最大化することを目的としている(回答を拒むのではなく)。
しかし,本手法は手動工学に頼らず,グリーディと勾配に基づく探索手法を組み合わせることで,これらの接尾辞を自動生成し,過去の自動プロンプト生成手法を改良する。
意外なことに、我々のアプローチによって生成された敵のプロンプトは、ブラックボックスや公開LLMなど、かなり転送可能である。
具体的には、複数のプロンプト(例えば、さまざまな種類の反対コンテンツを要求するクエリ)と複数のモデル(この場合、Vicuna-7Bと13B)で敵攻撃接尾辞を訓練する。
これにより、結果として生じる攻撃サフィックスは、チャットgpt、bard、claude、およびllama-2-chat、pythia、falconなどのオープンソースllmに対して、公開インターフェースの不快なコンテンツを誘導することができる。
全体として、この研究は、協調言語モデルに対する敵対的攻撃の最先端性を著しく向上させ、そのようなシステムが不適切な情報を生成できないかという重要な疑問を提起する。
コードはgithub.com/llm-attacks/llm-attacksで入手できる。 Because "out-of-the-box" large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing these measures -- so-called "jailbreaks" against LLMs -- these attacks have required significant human ingenuity and are brittle in practice. In this paper, we propose a simple and effective attack method that causes aligned language models to generate objectionable behaviors. Specifically, our approach finds a suffix that, when attached to a wide range of queries for an LLM to produce objectionable content, aims to maximize the probability that the model produces an affirmative response (rather than refusing to answer). However, instead of relying on manual engineering, our approach automatically produces these adversarial suffixes by a combination of greedy and gradient-based search techniques, and also improves over past automatic prompt generation methods. Surprisingly, we find that the adversarial prompts generated by our approach are quite transferable, including to black-box, publicly released LLMs. Specifically, we train an adversarial attack suffix on multiple prompts (i.e., queries asking for many different types of objectionable content), as well as multiple models (in our case, Vicuna-7B and 13B). When doing so, the resulting attack suffix is able to induce objectionable content in the public interfaces to ChatGPT, Bard, and Claude, as well as open source LLMs such as LLaMA-2-Chat, Pythia, Falcon, and others. In total, this work significantly advances the state-of-the-art in adversarial attacks against aligned language models, raising important questions about how such systems can be prevented from producing objectionable information. Code is available at github.com/llm-attacks/llm-attacks. | 翻訳日:2023-12-22 18:45:03 公開日:2023-12-20 |
# スケーラブルCMOSプラットフォームによるスピン光子界面の不均一結合 Heterogeneous integration of spin-photon interfaces with a scalable CMOS platform ( http://arxiv.org/abs/2308.14289v2 ) ライセンス: Link先を確認 | Linsen Li, Lorenzo De Santis, Isaac Harris, Kevin C. Chen, Yihuai Gao, Ian Christen, Matthew Trusheim, Hyeongrak Choi, Yixuan Song, Carlos Errando-Herranz, Jiahui Du, Yong Hu, Genevieve Clark, Mohamed I. Ibrahim, Gerald Gilbert, Ruonan Han and Dirk Englund | (参考訳) ダイアモンドのカラーセンターは、ディヴィンチェンツォの基準を満たし、最近秘密鍵分布における量子優位を達成した量子技術の発展のための主要な固体プラットフォームとして登場した。
最近の理論的研究は、局所的な量子通信ネットワークを用いた汎用量子コンピューティングは数千の論理量子ビットを符号化するために数百万の物理量子ビットを必要とすると見積もっている。
未解決のスケーリング問題に対処するため,我々はまず,低温アプリケーション専用集積回路(ASIC)上に,スズ空き(SnV-)スピンキュービットを含むコンパクトな2次元配列 "量子マイクロチップ" (QMC) を備えたスケーラブルなハードウェアモジュールアーキテクチャ "Quantum System-on-Chip" (QSoC) を導入する。
1) 大規模異種統合のためのロック・アンド・リリース法によるqsoc生成, (2) スピン量子ビットスペクトル不均質登録のためのqsocの高スループットキャリブレーション, 3) スピン量子ビットスペクトル調整機能による不均質補償, (4) スピン状態の効率的な作成と測定, スピンおよび光学特性の改善など, 重要なアーキテクチャサブコンポーネントを実証する。
QSoCアーキテクチャは、異なる共振周波数の量子メモリアレイの完全な接続をサポートし、より大きく密度の高いQMCアレイと光周波数多重ネットワークを介して、固体物理量子ビットの数をさらにスケーリングすることを可能にする。 Color centers in diamonds have emerged as a leading solid-state platform for advancing quantum technologies, satisfying the DiVincenzo criteria and recently achieving a quantum advantage in secret key distribution. Recent theoretical works estimate that general-purpose quantum computing using local quantum communication networks will require millions of physical qubits to encode thousands of logical qubits, which presents a substantial challenge to the hardware architecture at this scale. To address the unanswered scaling problem, in this work, we first introduce a scalable hardware modular architecture "Quantum System-on-Chip" (QSoC) that features compact two-dimensional arrays "quantum microchiplets" (QMCs) containing tin-vacancy (SnV-) spin qubits integrated on a cryogenic application-specific integrated circuit (ASIC). We demonstrate crucial architectural subcomponents, including (1) QSoC fabrication via a lock-and-release method for large-scale heterogeneous integration; (2) a high-throughput calibration of the QSoC for spin qubit spectral inhomogenous registration; (3) spin qubit spectral tuning functionality for inhomogenous compensation; (4) efficient spin-state preparation and measurement for improved spin and optical properties. QSoC architecture supports full connectivity for quantum memory arrays in a set of different resonant frequencies and offers the possibility for further scaling the number of solid-state physical qubits via larger and denser QMC arrays and optical frequency multiplexing networking. | 翻訳日:2023-12-22 18:35:14 公開日:2023-12-20 |
# 信頼の輪郭:不確かさを意識した医用セマンティックセグメンテーション Confidence Contours: Uncertainty-Aware Annotation for Medical Semantic Segmentation ( http://arxiv.org/abs/2308.07528v2 ) ライセンス: Link先を確認 | Andre Ye, Quan Ze Chen, Amy Zhang | (参考訳) 医用画像セグメンテーションモデリングは、視覚的曖昧性に対処するために不確実性を理解することが不可欠である、高い視点の課題である。
先行研究は、アノテータが特異な境界を描くラベルから不確かさを推測するために確率的あるいは生成的メカニズムを利用したセグメンテーションモデルを開発した。
しかし、これらのアノテーションは個々のアノテーションの不確実性を表現できないため、それらに基づいて訓練されたモデルは解釈が難しい不確実性マップを生成する。
本研究では,不確実性を直接捉えるために,高信頼感と低信頼感を用いた新しいセグメンテーション表現である信頼度輪郭を提案し,輪郭を収集するための新しいアノテーションシステムを開発した。
我々はLung Image Dataset Consortium(LIDC)と合成データセットの評価を行う。
30名を対象にした注釈研究から,信頼性コンターはアノテータの努力を著しく高めることなく,高い代表能力を提供することが示された。
また、汎用セグメンテーションモデルは標準特異アノテーションと同じパフォーマンスレベルで信頼度パターンを学習することができる。
最後に、5人の医療専門家とのインタビューから、信頼度コンターマップは構造的不確実性の表現によりベイズ地図よりも解釈可能であることがわかった。 Medical image segmentation modeling is a high-stakes task where understanding of uncertainty is crucial for addressing visual ambiguity. Prior work has developed segmentation models utilizing probabilistic or generative mechanisms to infer uncertainty from labels where annotators draw a singular boundary. However, as these annotations cannot represent an individual annotator's uncertainty, models trained on them produce uncertainty maps that are difficult to interpret. We propose a novel segmentation representation, Confidence Contours, which uses high- and low-confidence ``contours'' to capture uncertainty directly, and develop a novel annotation system for collecting contours. We conduct an evaluation on the Lung Image Dataset Consortium (LIDC) and a synthetic dataset. From an annotation study with 30 participants, results show that Confidence Contours provide high representative capacity without considerably higher annotator effort. We also find that general-purpose segmentation models can learn Confidence Contours at the same performance level as standard singular annotations. Finally, from interviews with 5 medical experts, we find that Confidence Contour maps are more interpretable than Bayesian maps due to representation of structural uncertainty. | 翻訳日:2023-12-22 18:31:56 公開日:2023-12-20 |
# 深部演算子ネットワークのためのサイズダウンバウンド Size Lowerbounds for Deep Operator Networks ( http://arxiv.org/abs/2308.06338v2 ) ライセンス: Link先を確認 | Anirbit Mukherjee and Amartya Roy | (参考訳) ディープ・オペレーター・ネットワークは無限次元の回帰を解き、従ってPDEの族を1ショットで解くためのパラダイムとして人気が高まっている。
本研究は,ノイズデータに対する経験的誤差を低減できる深層ネットのサイズに対して,最初のデータ依存下限を確立することを目的としている。
特に、$n$のデータポイント上で低トレーニング誤差を得るには、ブランチとトランクネットの共通出力次元を$\Omega \left ( \sqrt[\leftroot{-1}\uproot{-1}6]{n} \right )$とスケーリングする必要がある。
このことがDeepONetsによる実験にインスピレーションを与え、このモデルサイズが固定された場合、この共通出力次元の増加を活用でき、トレーニングエラーの単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。 Deep Operator Networks are an increasingly popular paradigm for solving regression in infinite dimensions and hence solve families of PDEs in one shot. In this work, we aim to establish a first-of-its-kind data-dependent lowerbound on the size of DeepONets required for them to be able to reduce empirical error on noisy data. In particular, we show that for low training errors to be obtained on $n$ data points it is necessary that the common output dimension of the branch and the trunk net be scaling as $\Omega \left ( \sqrt[\leftroot{-1}\uproot{-1}6]{n} \right )$. This inspires our experiments with DeepONets solving the advection-diffusion-reaction PDE, where we demonstrate the possibility that at a fixed model size, to leverage increase in this common output dimension and get monotonic lowering of training error, the size of the training data might necessarily need to scale at least quadratically with it. | 翻訳日:2023-12-22 18:31:05 公開日:2023-12-20 |
# TacoGFN:構造に基づく医薬品設計のためのターゲット条件付きGFlowNet TacoGFN: Target Conditioned GFlowNet for Structure-Based Drug Design ( http://arxiv.org/abs/2310.03223v3 ) ライセンス: Link先を確認 | Tony Shen, Mohit Pandey, Jason Smith, Artem Cherkasov and Martin Ester | (参考訳) 我々は,特定のタンパク質ポケットターゲットに調和した薬物様化合物の自動生成を目指している。
現在の方法のほとんどは有限データセットのタンパク質-分子分布を近似しており、トレーニングデータセットよりも結合性が大幅に向上した分子を生成するのに苦労している。
代わりに、ポケットコンディショニングされた分子生成タスクをRL問題とし、ターゲット条件生成フローネットワークモデルであるTacoGFNを開発する。
本手法は,既存のデータ分布に適合するのに対して,所望の特性を持つ分子を生成することを強く推奨する。
そこで本研究では,ドッキングスコア計算を高速化するトランスフォーマーベースのドッキングスコア予測を開発し,分子空間を効率的に探索するTacoGFNを提案する。
さらに,ドッキングスコア予測を改善するために,ドッキングオラクルを用いて生成されたサンプルを検索する,アクティブラーニングのラウンドを複数組み込んだ。
このアプローチによって、計算で得る限りの分子の景観を正確に探索することができます。
経験上、tacogfnとその変異体を用いて生成された分子は、全ての特性(ドッキングスコア、qed、sa、リピンスキー)における全てのベースラインメソッドを著しく上回っているが、桁違いに速い。 We seek to automate the generation of drug-like compounds conditioned to specific protein pocket targets. Most current methods approximate the protein-molecule distribution of a finite dataset and, therefore struggle to generate molecules with significant binding improvement over the training dataset. We instead frame the pocket-conditioned molecular generation task as an RL problem and develop TacoGFN, a target conditional Generative Flow Network model. Our method is explicitly encouraged to generate molecules with desired properties as opposed to fitting on a pre-existing data distribution. To this end, we develop transformer-based docking score prediction to speed up docking score computation and propose TacoGFN to explore molecule space efficiently. Furthermore, we incorporate several rounds of active learning where generated samples are queried using a docking oracle to improve the docking score prediction. This approach allows us to accurately explore as much of the molecule landscape as we can afford computationally. Empirically, molecules generated using TacoGFN and its variants significantly outperform all baseline methods across every property (Docking score, QED, SA, Lipinski), while being orders of magnitude faster. | 翻訳日:2023-12-22 18:23:47 公開日:2023-12-20 |
# 拡散生成フローサンプリング:部分軌道最適化による学習信号の改善 Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization ( http://arxiv.org/abs/2310.02679v2 ) ライセンス: Link先を確認 | Dinghuai Zhang, Ricky T. Q. Chen, Cheng-Hao Liu, Aaron Courville, Yoshua Bengio | (参考訳) 機械学習や統計学でよく見られる基本課題である,難解な高次元密度関数からのサンプリング問題に取り組む。
対象密度から近似サンプルをモデル化するために,制御確率過程を利用した最近のサンプリングベースアプローチを拡張する。
これらのアプローチの主な欠点は、トレーニング対象が計算に完全な軌道を必要とすることであり、結果として、全軌道と終端時間のみに存在する学習信号の使用によるクレジット割り当ての問題が緩やかになる。
そこで本研究では, 学習過程を比較的短い部分的軌道セグメントに分割し, 追加の「フロー関数」をパラメータ化できるサンプリングベースフレームワークである拡散生成フローサンプラー(dgfs)を提案する。
本手法は,生成フローネットワーク(gflownets)で開発された理論に着想を得て,中間学習信号の利用を可能にした。
様々な挑戦的な実験を通して、DGFSは密接な関係を持つ先行手法よりも正確な正規化定数の推定を達成できることを示した。 We tackle the problem of sampling from intractable high-dimensional density functions, a fundamental task that often appears in machine learning and statistics. We extend recent sampling-based approaches that leverage controlled stochastic processes to model approximate samples from these target densities. The main drawback of these approaches is that the training objective requires full trajectories to compute, resulting in sluggish credit assignment issues due to use of entire trajectories and a learning signal present only at the terminal time. In this work, we present Diffusion Generative Flow Samplers (DGFS), a sampling-based framework where the learning process can be tractably broken down into short partial trajectory segments, via parameterizing an additional "flow function". Our method takes inspiration from the theory developed for generative flow networks (GFlowNets), allowing us to make use of intermediate learning signals. Through various challenging experiments, we demonstrate that DGFS achieves more accurate estimates of the normalization constant than closely-related prior methods. | 翻訳日:2023-12-22 18:23:25 公開日:2023-12-20 |
# AV-MaskEnhancer:AV-Visual Masked Autoencoderによるビデオ表現の強化 AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder ( http://arxiv.org/abs/2309.08738v2 ) ライセンス: Link先を確認 | Xingjian Diao, Ming Cheng, and Shitong Cheng | (参考訳) 高品質なビデオ表現の学習はコンピュータビジョンにおいて重要な応用例であり、依然として挑戦的である。
imagemaeやvideomaeのようなマスク自動エンコーダに基づく以前の研究は、視覚モダリティにおける再構成戦略を通じて画像やビデオの表現を学習することの有効性を証明している。
しかし、これらのモデルには固有の制限があり、特に低解像度でぼやけたオリジナルビデオを扱う場合など、視覚的モダリティのみから特徴を抽出する場合には困難である。
そこで我々は,視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。
本手法は,モーダリティコンテンツにおける音声と映像の相補的な特徴を実証することによる課題に対処する。
さらに,UCF101データセット上の映像分類タスクの結果は,既存の作業よりも優れ,トップ1の精度98.8%,トップ5の精度99.9%に到達した。 Learning high-quality video representation has shown significant applications in computer vision and remains challenging. Previous work based on mask autoencoders such as ImageMAE and VideoMAE has proven the effectiveness of learning representations in images and videos through reconstruction strategy in the visual modality. However, these models exhibit inherent limitations, particularly in scenarios where extracting features solely from the visual modality proves challenging, such as when dealing with low-resolution and blurry original videos. Based on this, we propose AV-MaskEnhancer for learning high-quality video representation by combining visual and audio information. Our approach addresses the challenge by demonstrating the complementary nature of audio and video features in cross-modality content. Moreover, our result of the video classification task on the UCF101 dataset outperforms the existing work and reaches the state-of-the-art, with a top-1 accuracy of 98.8% and a top-5 accuracy of 99.9%. | 翻訳日:2023-12-22 18:20:30 公開日:2023-12-20 |
# FoodFresh: 施設間フードサプライチェーンネットワークのためのマルチチェーン設計 FoodFresh: Multi-Chain Design for an Inter-Institutional Food Supply Chain Network ( http://arxiv.org/abs/2310.19461v3 ) ライセンス: Link先を確認 | Philipp Stangl, Christoph P. Neumann | (参考訳) ブロックチェーン対応サプライチェーンネットワークにおけるサプライチェーンデータの可視性の問題を考える。
既存の方法は通常、サプライチェーンで発生したトランザクションを単一のブロックチェーンで記録するが、異なるレベルのデータの可視性を扱う能力には制限がある。
この制限に対処するため、私たちは、ブロックチェーン上に不変データを格納するマルチチェーンコンソーシアムであるFoodFreshを紹介します。
分散ハブは、異種ブロックチェーン間のデジタル資産のクロスチェーン交換を調整する。
ブロックチェーンの相互運用性を実現するメカニズムは、ブロックチェーン境界を越えたデータ共有を可能にしながら、独立した主権ブロックチェーンのメリットを維持するのに役立つ。 We consider the problem of supply chain data visibility in a blockchain-enabled supply chain network. Existing methods typically record transactions happening in a supply chain on a single blockchain and are limited in their ability to deal with different levels of data visibility. To address this limitation, we present FoodFresh -- a multi-chain consortium where organizations store immutable data on their blockchains. A decentralized hub coordinates the cross-chain exchange of digital assets among the heterogeneous blockchains. Mechanisms for enabling blockchain interoperability help to preserve the benefits of independent sovereign blockchains while allowing for data sharing across blockchain boundaries. | 翻訳日:2023-12-22 18:12:41 公開日:2023-12-20 |
# クラウドやフォグコンピューティングベースのAIアプリケーションのセキュリティ問題 Security Challenges for Cloud or Fog Computing-Based AI Applications ( http://arxiv.org/abs/2310.19459v3 ) ライセンス: Link先を確認 | Amir Pakmehr, Andreas A{\ss}muth, Christoph P. Neumann, Gerald Pirkl | (参考訳) クラウドやフォグベースの機械学習サービスのセキュリティ上の課題には、いくつかの懸念がある。
基盤となるクラウドあるいはフォグサービスのセキュリティが不可欠であり、マシンラーニングアプリケーションが依存するサービスに対する攻撃が成功すると、アプリケーションの大幅な障害が発生する可能性がある。
aiアプリケーションの要件も異なる可能性があるため、クラウドやフォグコンピューティングネットワークで使用されているかどうかによって違いがあります。
これはまた、異なる脅威や攻撃の可能性をもたらす。
クラウドプラットフォームでは、セキュリティに対する責任を異なるパーティに分割することができる。
低レベルのセキュリティ欠陥は、ユーザデータが格納されるより高いレベルに直接的な影響を与える可能性がある。
フォグコンピューティングネットワークの責務は単純ですが、サービスをネットワークの端に移すことで、デバイスへの物理的アクセスに対してそれらを保護する必要があります。
AIアプリケーションの特定の情報セキュリティ要件の概要をまとめて結論付けます。 Security challenges for Cloud or Fog-based machine learning services pose several concerns. Securing the underlying Cloud or Fog services is essential, as successful attacks against these services, on which machine learning applications rely, can lead to significant impairments of these applications. Because the requirements for AI applications can also be different, we differentiate according to whether they are used in the Cloud or in a Fog Computing network. This then also results in different threats or attack possibilities. For Cloud platforms, the responsibility for security can be divided between different parties. Security deficiencies at a lower level can have a direct impact on the higher level where user data is stored. While responsibilities are simpler for Fog Computing networks, by moving services to the edge of the network, we have to secure them against physical access to the devices. We conclude by outlining specific information security requirements for AI applications. | 翻訳日:2023-12-22 18:12:30 公開日:2023-12-20 |
# 静的長距離双極子相互作用による量子位置相関を持つ冷エミッタアンサンブル中の光伝播 Propagation of light in cold emitter ensembles with quantum position correlations due to static long-range dipolar interactions ( http://arxiv.org/abs/2310.16158v2 ) ライセンス: Link先を確認 | G. J. Bean, N. D. Drummond, J. Ruostekoski | (参考訳) 我々は、不規則な位置が静的な長距離双極子-双極子相互作用によって引き起こされる相関を示す双極子エミッタからの光の散乱を分析する。
量子力学的位置相関は、変動量子および拡散量子モンテカルロ法によるゼロ温度ボゾン原子または分子に対して計算される。
低光強度の極限における高密度アンサンブル中の定常原子に対して、シミュレーションは、電子基底状態と励起状態を含む全ての位置相関関数に対する光学応答の解を与える。
我々は,コヒーレントかつ非コヒーレントな散乱,集合線幅,直線シフト,固有モード,および障害誘発励起局在が静的相互作用と密度に影響されるかを計算する。
強く閉じ込められたオービタントトラップとプロラトトラップの強い反発的な静的相互作用は、光を介する共鳴双極子-双極子相互作用において大きな変動を緩和する双極子間の短距離秩序をもたらす。
典型的には、コヒーレント反射と光学的深さが増大し、コヒーレント散乱が減少する。
静的双極子相互作用の存在は、密度の強い雲におけるサブラジアント固有モードの高選択的励起を可能にする。
この効果は、自然の線幅より下にある共鳴が狭いプロラトトラップにおいてさらに顕著になる。
静的双極子相互作用が光遷移周波数に影響を及ぼすとき、アンサンブルは協調効果を抑制する不均一に経験した静的双極子相互作用によって不均一な拡大を示すが、例えば、不均一な拡大を示すdy原子は無視できる。 We analyze the scattering of light from dipolar emitters whose disordered positions exhibit correlations induced by static, long-range dipole-dipole interactions. The quantum-mechanical position correlations are calculated for zero temperature bosonic atoms or molecules using variational and diffusion quantum Monte Carlo methods. For stationary atoms in dense ensembles in the limit of low light intensity, the simulations yield solutions for the optical responses to all orders of position correlation functions that involve electronic ground and excited states. We calculate how coherent and incoherent scattering, collective linewidths, line shifts, and eigenmodes, and disorder-induced excitation localization are influenced by the static interactions and the density. We find that dominantly repulsive static interactions in strongly confined oblate and prolate traps introduce short-range ordering among the dipoles which curtails large fluctuations in the light-mediated resonant dipole-dipole interactions. This typically results in an increase in coherent reflection and optical depth, accompanied by reduced incoherent scattering. The presence of static dipolar interactions permits the highly selective excitation of subradiant eigenmodes in dense clouds. This effect becomes even more pronounced in a prolate trap, where the resonances narrow below the natural linewidth. When the static dipolar interactions affect the optical transition frequencies, the ensemble exhibits inhomogeneous broadening due to the nonuniformly experienced static dipolar interactions that suppress cooperative effects, but we argue that, e.g., for Dy atoms such inhomogeneous broadening is negligible. | 翻訳日:2023-12-22 18:10:57 公開日:2023-12-20 |
# 放射線医学レポート作成における臨床医と専門的基礎モデルとのコンセンサス、不満、相乗効果 Consensus, dissensus and synergy between clinicians and specialist foundation models in radiology report generation ( http://arxiv.org/abs/2311.18260v3 ) ライセンス: Link先を確認 | Ryutaro Tanno, David G.T. Barrett, Andrew Sellergren, Sumedh Ghaisas, Sumanth Dathathri, Abigail See, Johannes Welbl, Karan Singhal, Shekoofeh Azizi, Tao Tu, Mike Schaekermann, Rhys May, Roy Lee, SiWai Man, Zahra Ahmed, Sara Mahdavi, Yossi Matias, Joelle Barral, Ali Eslami, Danielle Belgrave, Vivek Natarajan, Shravya Shetty, Pushmeet Kohli, Po-Sen Huang, Alan Karthikesalingam, Ira Ktena | (参考訳) 放射線医学報告は近代医学の道具的部分であり、診断や治療などの重要な臨床的決定を伝える。
しかし、世界中の放射線科医の不足は専門家のケアへのアクセスを制限し、重労働を課し、レポート配信のエラーや遅延を回避している。
視覚言語モデルによる自動レポート生成の最近の進歩は、状況を改善するための明確な可能性を秘めているが、実際の採用への道は、AIが生成するレポートの臨床的品質を評価することの難しさに悩まされている。
本研究では,胸部x線写真に対する最先端のレポート生成システムである$\textit{flamingo-cxr}$を構築し,放射線データを用いた視覚言語基礎モデルの微調整を行った。
AI生成レポートの品質を評価するため、16人の認定放射線学者のグループが、米国の集中治療施設とインドの入院施設から、AI生成およびヒトによる胸部X線レポートの詳細な評価を行っている。
少なくとも1人の放射線学者(1件あたり2件のうち)は、両方のデータセットの60$\%以上のケースで、AIレポートを真実レポートよりも好んだ。
エラーを含むAI生成レポートのサブセットの中で、最も頻繁に引用される理由は場所と発見に関するものであり、人間による報告では、ほとんどのミスは重大さと発見に関するものだった。
この格差は、私たちのAIシステムと人間の専門家の潜在的な相補性を示し、Flamingo-CXRが最初のドラフトレポートを生成する補助シナリオを開発することを促した。
これは報告執筆のための臨床医とaiのコラボレーションの最初の実演であり、その結果として得られた報告は少なくとも1人の放射線科医が80$%$の患者と60$%の集中治療患者で専門家が書いた報告と同等か好んで評価した。 Radiology reports are an instrumental part of modern medicine, informing key clinical decisions such as diagnosis and treatment. The worldwide shortage of radiologists, however, restricts access to expert care and imposes heavy workloads, contributing to avoidable errors and delays in report delivery. While recent progress in automated report generation with vision-language models offer clear potential in ameliorating the situation, the path to real-world adoption has been stymied by the challenge of evaluating the clinical quality of AI-generated reports. In this study, we build a state-of-the-art report generation system for chest radiographs, $\textit{Flamingo-CXR}$, by fine-tuning a well-known vision-language foundation model on radiology data. To evaluate the quality of the AI-generated reports, a group of 16 certified radiologists provide detailed evaluations of AI-generated and human written reports for chest X-rays from an intensive care setting in the United States and an inpatient setting in India. At least one radiologist (out of two per case) preferred the AI report to the ground truth report in over 60$\%$ of cases for both datasets. Amongst the subset of AI-generated reports that contain errors, the most frequently cited reasons were related to the location and finding, whereas for human written reports, most mistakes were related to severity and finding. This disparity suggested potential complementarity between our AI system and human experts, prompting us to develop an assistive scenario in which Flamingo-CXR generates a first-draft report, which is subsequently revised by a clinician. This is the first demonstration of clinician-AI collaboration for report writing, and the resultant reports are assessed to be equivalent or preferred by at least one radiologist to reports written by experts alone in 80$\%$ of in-patient cases and 60$\%$ of intensive care cases. | 翻訳日:2023-12-22 18:01:30 公開日:2023-12-20 |
# HIDRO-VQA:ビデオ品質評価のための高ダイナミックレンジOracle HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment ( http://arxiv.org/abs/2311.11059v2 ) ライセンス: Link先を確認 | Shreshth Saini, Avinab Saha, Alan C. Bovik | (参考訳) 我々は,ハイダイナミックレンジ(HDR)ビデオの正確な品質評価を提供するために,非参照(NR)ビデオ品質評価モデルであるHIDRO-VQAを紹介する。
HDRビデオは、標準ダイナミックレンジ(SDR)ビデオよりも輝度、ディテール、色の範囲が広い。
HDRコンテンツが普及するにつれて、HDRコンテンツ特有の歪みに効果的に対処するビデオ品質評価アルゴリズム(VQA)の需要が高まっている。
この課題に対処するために、ラベルなしHDRビデオを利用して、品質認識機能をSDRからHDRドメインに転送する自己教師付きコントラスト微調整手法を提案する。
本研究は,HDRコンテンツ用VQAデータベースであるLIV-HDR VQAデータベース上で,制限されたラベル付きHDRビデオを用いて,SDRコンテンツ上の自己教師付き事前学習ニューラルネットワークをさらに微調整し,最先端のパフォーマンスを達成可能であることを示す。
さらに,本アルゴリズムをフルリファレンスVQA設定に拡張し,最先端性能を実現する。
私たちのコードはhttps://github.com/avinabsaha/HIDRO-VQA.comで公開されています。 We introduce HIDRO-VQA, a no-reference (NR) video quality assessment model designed to provide precise quality evaluations of High Dynamic Range (HDR) videos. HDR videos exhibit a broader spectrum of luminance, detail, and color than Standard Dynamic Range (SDR) videos. As HDR content becomes increasingly popular, there is a growing demand for video quality assessment (VQA) algorithms that effectively address distortions unique to HDR content. To address this challenge, we propose a self-supervised contrastive fine-tuning approach to transfer quality-aware features from the SDR to the HDR domain, utilizing unlabeled HDR videos. Our findings demonstrate that self-supervised pre-trained neural networks on SDR content can be further fine-tuned in a self-supervised setting using limited unlabeled HDR videos to achieve state-of-the-art performance on the only publicly available VQA database for HDR content, the LIVE-HDR VQA database. Moreover, our algorithm can be extended to the Full Reference VQA setting, also achieving state-of-the-art performance. Our code is available publicly at https://github.com/avinabsaha/HIDRO-VQA. | 翻訳日:2023-12-22 18:00:00 公開日:2023-12-20 |
# アンサンブル精度の教師なし推定 Unsupervised Estimation of Ensemble Accuracy ( http://arxiv.org/abs/2311.10940v2 ) ライセンス: Link先を確認 | Simi Haber, Yonatan Wexler | (参考訳) アンサンブル学習はいくつかの個別モデルを組み合わせてより良い一般化性能を得る。
本研究では,複数の分類器の結合力を推定するための実用的手法を提案する。
ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。
これにより、巨大なデータセットを持つ教師なし学習の現代的な設定において、正確かつ実用的なものになる。
メソッドの心臓は、アンサンブルが犯すであろうミスの数に束縛された組合せである。
境界はサンプル数で線形な時間に効率的に近似することができる。
そこで本研究では,性能予測器としての有用性を示す。
本手法は,多くのクラスにまたがるノイズの多いデータを用いた細粒度分類作業に有用なグラウンドを提供する,大規模な顔認識データセット上で実証する。 Ensemble learning combines several individual models to obtain a better generalization performance. In this work we present a practical method for estimating the joint power of several classifiers. It differs from existing approaches which focus on "diversity" measures by not relying on labels. This makes it both accurate and practical in the modern setting of unsupervised learning with huge datasets. The heart of the method is a combinatorial bound on the number of mistakes the ensemble is likely to make. The bound can be efficiently approximated in time linear in the number of samples. We relate the bound to actual misclassifications, hence its usefulness as a predictor of performance. We demonstrate the method on popular large-scale face recognition datasets which provide a useful playground for fine-grain classification tasks using noisy data over many classes. | 翻訳日:2023-12-22 17:59:42 公開日:2023-12-20 |
# クロスモーダル・プロンプト:大規模事前学習モデルによる映像下流タスクの適応 Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks ( http://arxiv.org/abs/2311.05152v2 ) ライセンス: Link先を確認 | Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu, Zhou Zhao | (参考訳) 近年,視聴覚下タスクにおける大規模事前学習モデルの導入が目覚ましい結果をもたらしている。
しかしながら、これらのモデルは、主にシングルモダリティ非制約データセットでトレーニングされており、マルチモダリティタスクの機能抽出における課題に遭遇し、サブ最適パフォーマンスに繋がる。
この制限は、エンコーディング中に無関係なモダリティ固有の情報が導入されることによって生じ、下流タスクのパフォーマンスに悪影響を及ぼす。
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
このメカニズムは、ソフトプロンプトとしてオーディオと視覚のモダリティを活用し、現在のマルチモーダル入力特徴に基づいて事前訓練されたモデルのパラメータを動的に調整する。
具体的には、DG-SCTモジュールはトレーニング可能なクロスモーダル相互作用層を事前訓練されたオーディオ-視覚エンコーダに組み込み、大規模な事前訓練されたモデルの凍結パラメータを保存しながら、空間、チャネル、時間次元にわたる現在のモードから重要な情報を適応的に抽出することができる。
実験評価の結果,提案モデルはav,avvp,avs,avqaなど,複数の下流タスクにおいて最先端の結果が得られることが示された。
さらに,本モデルでは,数ショットとゼロショットのシナリオにおいて,有望な性能を示す。
ソースコードと事前訓練されたモデルはhttps://github.com/haoyi-duan/DG-SCTで入手できる。 In recent years, the deployment of large-scale pre-trained models in audio-visual downstream tasks has yielded remarkable outcomes. However, these models, primarily trained on single-modality unconstrained datasets, still encounter challenges in feature extraction for multi-modal tasks, leading to suboptimal performance. This limitation arises due to the introduction of irrelevant modality-specific information during encoding, which adversely affects the performance of downstream tasks. To address this challenge, this paper proposes a novel Dual-Guided Spatial-Channel-Temporal (DG-SCT) attention mechanism. This mechanism leverages audio and visual modalities as soft prompts to dynamically adjust the parameters of pre-trained models based on the current multi-modal input features. Specifically, the DG-SCT module incorporates trainable cross-modal interaction layers into pre-trained audio-visual encoders, allowing adaptive extraction of crucial information from the current modality across spatial, channel, and temporal dimensions, while preserving the frozen parameters of large-scale pre-trained models. Experimental evaluations demonstrate that our proposed model achieves state-of-the-art results across multiple downstream tasks, including AVE, AVVP, AVS, and AVQA. Furthermore, our model exhibits promising performance in challenging few-shot and zero-shot scenarios. The source code and pre-trained models are available at https://github.com/haoyi-duan/DG-SCT. | 翻訳日:2023-12-22 17:58:52 公開日:2023-12-20 |
# 深層学習に基づくセグメンテーションモデルにおける画像の効率的なアノテート方法--弱くうるさいアノテーションとセグメンテーションオールモデルを用いた実験的検討 How to Efficiently Annotate Images for Best-Performing Deep Learning Based Segmentation Models: An Empirical Study with Weak and Noisy Annotations and Segment Anything Model ( http://arxiv.org/abs/2312.10600v2 ) ライセンス: Link先を確認 | Yixin Zhang, Shen Zhao, Hanxue Gu, Maciej A. Mazurowski | (参考訳) ディープニューラルネットワーク(DNN)は多くのイメージセグメンテーションタスクにデプロイされ、優れたパフォーマンスを実現している。
しかし、DNNのセグメンテーションをトレーニングするためのデータセットの作成は、通常、興味のあるオブジェクトごとにピクセルレベルのアノテーションが提供されるため、面倒でコストがかかる。
この問題を軽減するために、バウンディングボックスやスクリブルのような弱いラベルしか提供できないし、オブジェクトの正確な(ノイズの多い)アノテーションも提供できない。
これらは生成が大幅に速くなり、結果として同じ時間予算でより注釈付きの画像が得られる。
しかし、品質の低下は結果モデルのセグメンテーション性能に悪影響を及ぼす可能性がある。
本研究では,弱音ラベルと雑音ラベルの費用対効果を徹底的に評価する。
11種類のアノテーション戦略と4つのデータセットを検討した。
注記時間が限られている場合(注記時間10秒)に、興味のある対象を正確にアウトラインする一般的な方法は、事実上最適なアプローチではないと結論付けている。
このようなシナリオで際立ったアノテーションアプローチは、(1)粗い連続トレースを持つ輪郭ベースのアノテーション、(2)頂点がほとんどないポリゴンベースのアノテーション、(3)セグメントオールモデル(sam)と組み合わせたボックスアノテーションである。
無制限のアノテーション時間が利用できる状況では、正確なアノテーションは最も高いセグメンテーションモデルのパフォーマンスをもたらす。 Deep neural networks (DNNs) have been deployed for many image segmentation tasks and achieved outstanding performance. However, preparing a dataset for training segmentation DNNs is laborious and costly since typically pixel-level annotations are provided for each object of interest. To alleviate this issue, one can provide only weak labels such as bounding boxes or scribbles, or less accurate (noisy) annotations of the objects. These are significantly faster to generate and thus result in more annotated images given the same time budget. However, the reduction in quality might negatively affect the segmentation performance of the resulting model. In this study, we perform a thorough cost-effectiveness evaluation of several weak and noisy labels. We considered 11 variants of annotation strategies and 4 datasets. We conclude that the common practice of accurately outlining the objects of interest is virtually never the optimal approach when the annotation time is limited, even if notable annotation time is available (10s of hours). Annotation approaches that stood out in such scenarios were (1) contour-based annotation with rough continuous traces, (2) polygon-based annotation with few vertices, and (3) box annotations combined with the Segment Anything Model (SAM). In situations where unlimited annotation time was available, precise annotations still lead to the highest segmentation model performance. | 翻訳日:2023-12-22 17:50:21 公開日:2023-12-20 |
# speedupnet:テキストから画像への拡散を高速化するプラグイン・アンド・プレイハイパーネットワーク SpeedUpNet: A Plug-and-Play Hyper-Network for Accelerating Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.08887v3 ) ライセンス: Link先を確認 | Weilong Chai, DanDan Zheng, Jiajiong Cao, Zhiquan Chen, Changbao Wang, Chenguang Ma | (参考訳) テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で大きな進歩を示す。
多くの加速法が提案されているが、それらは新しい微調整モデルに一般化した生成品質劣化や余分な訓練コストに悩まされている。
これらの制約に対処するため,我々はSpeedUpNet(SUN)と呼ばれる,新奇で普遍的なSDアクセラレーションモジュールを提案する。
SUNは追加の訓練なしに様々な細調整されたSDモデルに直接接続することができる。
この手法はクロスアテンション層を利用して、負プロンプトと正プロンプトの間の生成画像結果の相対的オフセットを学習し、負プロンプトを制御可能な分類器フリーガイダンス蒸留を行い、多段階一貫性(msc)損失を導入し、推論ステップの削減と生成出力の一貫性の維持との調和バランスを確保する。
その結果、SUNは推論ステップの数をわずか4ステップに減らし、分類器フリーガイダンスの必要性を排除した。
これは、最先端の25ステップのDPM-solver++と比較して、SDモデルの全体的な10倍のスピードアップをもたらし、(1)制御可能な負のプロンプトを持つ分類子なし誘導蒸留と(2)訓練なしで様々な微調整された安定拡散モデルへのシームレスな統合の2つの利点を提供する。
SUNの有効性は広範な実験を通じて検証されている。
プロジェクトページ: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Though many acceleration methods have been proposed, they suffer from generation quality degradation or extra training cost generalizing to new fine-tuned models. To address these limitations, we propose a novel and universal Stable-Diffusion (SD) acceleration module called SpeedUpNet(SUN). SUN can be directly plugged into various fine-tuned SD models without extra training. This technique utilizes cross-attention layers to learn the relative offsets in the generated image results between negative and positive prompts achieving classifier-free guidance distillation with negative prompts controllable, and introduces a Multi-Step Consistency (MSC) loss to ensure a harmonious balance between reducing inference steps and maintaining consistency in the generated output. Consequently, SUN significantly reduces the number of inference steps to just 4 steps and eliminates the need for classifier-free guidance. It leads to an overall speedup of more than 10 times for SD models compared to the state-of-the-art 25-step DPM-solver++, and offers two extra advantages: (1) classifier-free guidance distillation with controllable negative prompts and (2) seamless integration into various fine-tuned Stable-Diffusion models without training. The effectiveness of the SUN has been verified through extensive experimentation. Project Page: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io | 翻訳日:2023-12-22 17:47:56 公開日:2023-12-20 |
# 量子ワンウェイネスの計算硬度について On the Computational Hardness of Quantum One-Wayness ( http://arxiv.org/abs/2312.08363v2 ) ライセンス: Link先を確認 | Bruno Cavalar, Eli Goldin, Matthew Gray, Peter Hall, Yanyi Liu, Angelos Pelecanos | (参考訳) 古典的暗号を実現するのにどのような計算の困難さが必要かを研究する多くの研究がある。
特に、一方通行関数と擬似乱数発生器は互いに組み合わさり、それを実現するには等価な計算仮定が必要である。
さらに、これらのプリミティブのいずれかの存在は、$\rm{P} \neq \rm{NP}$ であり、必要な硬さの低い境界を与えることを意味する。
また、それぞれのプリミティブのバージョンを量子出力で定義することもできる:それぞれ一方通行状態生成器と擬似ランダム状態生成器である。
古典的な設定とは異なり、どちらのプリミティブも他方から構築できるかどうかは不明である。
擬似乱数状態生成器が一方向状態生成器を構築するのに利用できることが示されているが、その影響は一般には知られていない。
さらに、我々の知る限りでは、一方向状態生成器の存在は複雑性理論において既知の意味を持たない。
我々は、$n$bitsを$\log n + 1$ qubitsに圧縮する擬似ランダム状態が片道状態発生器や擬似ランダム状態の生成に利用でき、$n$bitsを$\omega(\log n)$ qubitsは片道状態発生器であることを示す。
これは、$c \log n$-qubit 出力未満の擬ランダム状態が無条件に存在することを示すため、ほぼ最適な結果である。
また、任意の一方向状態生成器は、$\rm{pp}$ oracle への古典的なアクセスを持つ量子アルゴリズムによって破壊される。
この結果の興味深い意味は、すべての$t(n) = o(n/\log n)$ に対して、$t(n)$-copy one-way state generator が無条件に存在するということである。
これは、$O(n)$-copy 1-way状態生成器が計算の困難さを必要とするという事実とよく対照的である。
また、一方の状態発生器と量子ビットのコミットメントの間のブラックボックス分離に向けた新たな経路を概説する。 There is a large body of work studying what forms of computational hardness are needed to realize classical cryptography. In particular, one-way functions and pseudorandom generators can be built from each other, and thus require equivalent computational assumptions to be realized. Furthermore, the existence of either of these primitives implies that $\rm{P} \neq \rm{NP}$, which gives a lower bound on the necessary hardness. One can also define versions of each of these primitives with quantum output: respectively one-way state generators and pseudorandom state generators. Unlike in the classical setting, it is not known whether either primitive can be built from the other. Although it has been shown that pseudorandom state generators for certain parameter regimes can be used to build one-way state generators, the implication has not been previously known in full generality. Furthermore, to the best of our knowledge, the existence of one-way state generators has no known implications in complexity theory. We show that pseudorandom states compressing $n$ bits to $\log n + 1$ qubits can be used to build one-way state generators and pseudorandom states compressing $n$ bits to $\omega(\log n)$ qubits are one-way state generators. This is a nearly optimal result since pseudorandom states with fewer than $c \log n$-qubit output can be shown to exist unconditionally. We also show that any one-way state generator can be broken by a quantum algorithm with classical access to a $\rm{PP}$ oracle. An interesting implication of our results is that a $t(n)$-copy one-way state generator exists unconditionally, for every $t(n) = o(n/\log n)$. This contrasts nicely with the previously known fact that $O(n)$-copy one-way state generators require computational hardness. We also outline a new route towards a black-box separation between one-way state generators and quantum bit commitments. | 翻訳日:2023-12-22 17:47:27 公開日:2023-12-20 |
# 特徴領域適応による低照度画像の学習 Learning to See Low-Light Images via Feature Domain Adaptation ( http://arxiv.org/abs/2312.06723v3 ) ライセンス: Link先を確認 | Qirui Yang, Qihua Cheng, Huanjing Yue, Le Zhang, Yihao Liu, Jingyu Yang | (参考訳) raw low light image enhancement (llie) は生データの利点により、srgbドメイン拡張法よりもはるかに優れた性能を達成している。
しかし、ノイズとクリーンと生とsRGBマッピングのあいまいさは、シングルステージエンハンスメントネットワークを誤解させる可能性がある。
2段階のネットワークは、2つのマッピングを分離することで曖昧さを避けるが、計算の複雑さは大きい。
そこで本研究では,特徴領域適応 (FDA) によって強化された単一段階ネットワークを提案し,生のLLIEにおけるデノイングとカラーマッピングのタスクを分離する。
清浄な生画像によって復調エンコーダを監督し、その復調された特徴をFDAモジュールによるカラーマッピングタスクに適合させる。
本稿では,fdaとして機能するラインフォーマを提案する。ラインバッファの少ないグローバルおよびローカル相関を(ラインベースの撮像プロセスに好適な)検討できる。
推測中、生の監視ブランチを除去する。
このようにして、我々のネットワークは、2段階拡張プロセスの利点と1段階推論の効率を組み合わせている。
4つのベンチマークデータセットを用いた実験により,2段法DNFの60%FLOPを演算コストの少ない最先端性能を実現することができた。
この作業の受理後、私たちのコードは解放されます。 Raw low light image enhancement (LLIE) has achieved much better performance than the sRGB domain enhancement methods due to the merits of raw data. However, the ambiguity between noisy to clean and raw to sRGB mappings may mislead the single-stage enhancement networks. The two-stage networks avoid ambiguity by decoupling the two mappings but usually have large computing complexity. To solve this problem, we propose a single-stage network empowered by Feature Domain Adaptation (FDA) to decouple the denoising and color mapping tasks in raw LLIE. The denoising encoder is supervised by the clean raw image, and then the denoised features are adapted for the color mapping task by an FDA module. We propose a Lineformer to serve as the FDA, which can well explore the global and local correlations with fewer line buffers (friendly to the line-based imaging process). During inference, the raw supervision branch is removed. In this way, our network combines the advantage of a two-stage enhancement process with the efficiency of single-stage inference. Experiments on four benchmark datasets demonstrate that our method achieves state-of-the-art performance with fewer computing costs (60% FLOPs of the two-stage method DNF). Our codes will be released after the acceptance of this work. | 翻訳日:2023-12-22 17:45:49 公開日:2023-12-20 |
# 結果:電子健康記録作成のための論理制約付きシーケンスの合成 ConSequence: Synthesizing Logically Constrained Sequences for Electronic Health Record Generation ( http://arxiv.org/abs/2312.05964v2 ) ライセンス: Link先を確認 | Brandon Theodorou, Shrusti Jain, Cao Xiao, and Jimeng Sun | (参考訳) 生成モデルは、実際のデータが使用できない、あるいは制限された場合に、分析タスクのための合成患者記録を生成することができる。
しかし、現在の手法はドメイン固有の知識に固執し、無効なデータを削除するのに苦労している。
本稿では,逐次生成型ニューラルネットワーク出力にドメイン知識を統合するための効果的な手法を提案する。
我々の規則に基づく定式化は時間的集約と先行評価モジュールを含み、効率的な行列乗算定式化によって保証され、時間ステップ間のハードかつソフトな論理的制約を満たす。
既存の制約手法は、しばしば制約満足度を保証することができず、時間的制約を扱う能力がなく、モデルの学習と計算効率を妨げる。
対照的に,本手法は論理コヒーレンスを保証することで,全ての制約を効率的に処理する。
本研究は,電子健康記録の作成において,実行時性能や生成的品質を損なうことなく,完全な時間的・空間的制約満足度を達成するための競争相手を上回り,その結果の有効性を示す。
具体的には、ConSequenceは、モデル品質を改善しながら、テストの難易度を5%削減し、制約のないモデルに比べて生成速度が13%以下に低下する。 Generative models can produce synthetic patient records for analytical tasks when real data is unavailable or limited. However, current methods struggle with adhering to domain-specific knowledge and removing invalid data. We present ConSequence, an effective approach to integrating domain knowledge into sequential generative neural network outputs. Our rule-based formulation includes temporal aggregation and antecedent evaluation modules, ensured by an efficient matrix multiplication formulation, to satisfy hard and soft logical constraints across time steps. Existing constraint methods often fail to guarantee constraint satisfaction, lack the ability to handle temporal constraints, and hinder the learning and computational efficiency of the model. In contrast, our approach efficiently handles all types of constraints with guaranteed logical coherence. We demonstrate ConSequence's effectiveness in generating electronic health records, outperforming competitors in achieving complete temporal and spatial constraint satisfaction without compromising runtime performance or generative quality. Specifically, ConSequence successfully prevents all rule violations while improving the model quality in reducing its test perplexity by 5% and incurring less than a 13% slowdown in generation speed compared to an unconstrained model. | 翻訳日:2023-12-22 17:45:32 公開日:2023-12-20 |
# faac:アンカーフレームと条件制御による顔アニメーション生成による忠実性と編集性の向上 FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability ( http://arxiv.org/abs/2312.03775v2 ) ライセンス: Link先を確認 | Linze Li, Sunqi Fan, Hengjun Pu, Zhaodong Bing, Yao Tang, Tianzhu Ye, Tong Yang, Liangyu Chen, Jiajun Liang | (参考訳) 近年、拡散モデルはビデオ生成の大幅な進歩を促している。
しかし、顔に関連したビデオの作成は、低い顔の忠実度、フレームの一貫性の欠如、編集可能性の制限、コントロール不能な人間のポーズといった問題に直面している。
これらの課題に対処するために,フレーム一貫性を確保しつつ,顔の同一性と編集能力を両立させる顔アニメーション生成手法を提案する。
この手法は、アンカーフレームの概念を取り入れ、モーションモジュールを組み込む際にオリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処する。
トレーニングフリーとトレーニングベースのアンカーフレーム方式の2つの戦略を提案する。
提案手法の有効性は,複数の代表的なDreamBoothモデルとLoRAモデルで検証され,顔の忠実度,テキスト・ツー・イメージの編集性,ビデオモーションといった面で,当初の結果よりも大幅に改善されている。
さらに, 3次元パラメトリック顔モデルを用いた条件制御により, 正確な顔の動きや表情をキャプチャする。
このソリューションは、複数の制御信号の統合により、顔アニメーション生成の創造性を高める。
追加サンプルはhttps://paper-faac.github.io/をご覧ください。 Over recent years, diffusion models have facilitated significant advancements in video generation. Yet, the creation of face-related videos still confronts issues such as low facial fidelity, lack of frame consistency, limited editability and uncontrollable human poses. To address these challenges, we introduce a facial animation generation method that enhances both face identity fidelity and editing capabilities while ensuring frame consistency. This approach incorporates the concept of an anchor frame to counteract the degradation of generative ability in original text-to-image models when incorporating a motion module. We propose two strategies towards this objective: training-free and training-based anchor frame methods. Our method's efficacy has been validated on multiple representative DreamBooth and LoRA models, delivering substantial improvements over the original outcomes in terms of facial fidelity, text-to-image editability, and video motion. Moreover, we introduce conditional control using a 3D parametric face model to capture accurate facial movements and expressions. This solution augments the creative possibilities for facial animation generation through the integration of multiple control signals. For additional samples, please visit https://paper-faac.github.io/. | 翻訳日:2023-12-22 17:45:10 公開日:2023-12-20 |
# ECAMP: エンティティ中心のコンテキスト対応医療ビジョン言語事前トレーニング ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training ( http://arxiv.org/abs/2312.13316v1 ) ライセンス: Link先を確認 | Rongsheng Wang, Qingsong Yao, Haoran Lai, Zhiyang He, Xiaodong Tao, Zihang Jiang, S.Kevin Zhou | (参考訳) 医学的視覚言語前訓練の大幅な進歩にもかかわらず、既存の方法は、放射線学レポートに固有の実体固有の文脈や、テキストと画像の間の複雑な相互モダリティの文脈関係を見落としてきた。
このギャップを埋めるために、我々は、よりエンティティ中心でコンテキストに敏感な医療データの解釈を可能にするために設計された、エンティティ中心のコンテキスト対応医療ビジョン言語事前学習(ECAMP)フレームワークを提案する。
近年の強力な大規模言語モデルを用いて,医療報告からエンティティ中心のコンテキストを抽出し,テキストモダリティからECAMPをより効果的に管理することができる。
さらに、慎重に設計されたエンティティ認識、コンテキスト強化されたマスク付き言語モデリング、コンテキスト誘導された超解像タスクでモデルを事前学習することにより、ECAMPはテキストと画像のモダリティ間の相互作用を著しく改善し、エンティティ中心のコンテキスト特徴を抽出する能力が向上する。
さらに,提案するマルチスケールコンテキスト融合設計は,粗い画像表現と細かい画像表現のセマンティクス統合を改善し,マルチスケール下流アプリケーションの性能を向上させる。
これらのコンポーネントを組み合わせることで、現在の最先端の手法よりも大幅にパフォーマンスが向上し、医療画像におけるクロスモダリティ学習の新たな標準を確立します。
コードとモデルはhttps://github.com/ToniChopp/ECAMPで入手できる。 Despite significant advancements in medical vision-language pre-training, existing methods have largely overlooked the inherent entity-specific context within radiology reports and the complex cross-modality contextual relationships between text and images. To close this gap, we propose a novel Entity-centered Context-aware Medical Vision-language Pre-training (ECAMP) framework, which is designed to enable a more entity-centered and context-sensitive interpretation of medical data. Utilizing the recent powerful large language model, we distill entity-centered context from medical reports, which enables ECAMP to gain more effective supervision from the text modality. By further pre-training our model with carefully designed entity-aware, context-enhanced masked language modeling and context-guided super-resolution tasks, ECAMP significantly refines the interplay between text and image modalities, leading to an enhanced ability to extract entity-centered contextual features. Besides, our proposed multi-scale context fusion design also improves the semantic integration of both coarse and fine-level image representations, prompting better performance for multi-scale downstream applications. Combining these components leads to significant performance leaps over current state-of-the-art methods and establishes a new standard for cross-modality learning in medical imaging, whose effectiveness is demonstrated by our extensive experiments on various tasks including classification, segmentation, and detection across several public datasets. Code and models are available at https://github.com/ToniChopp/ECAMP. | 翻訳日:2023-12-22 17:16:05 公開日:2023-12-20 |
# 任意の時間プロファイルを持つ時変媒体における量子真空増幅 Quantum vacuum amplification in time-varying media with arbitrary temporal profiles ( http://arxiv.org/abs/2312.13315v1 ) ライセンス: Link先を確認 | Antonio Ganfornina-Andrades, J. Enrique V\'azquez-Lozano and I\~nigo Liberal | (参考訳) 本稿では,任意の時間変調プロファイルを持つ時変媒体における量子真空増幅効果について述べる。
この目的のために,共役調和振動子の概念に基づく理論的定式化を提案し,時間境界における遷移時間への影響を評価し,量子効果を観測するための実用的な要件に光を付与する。
さらに、最も高速かつ最強の変調が光子生成を最大化しないパルス変調において、非自明な効果が見いだされる。
そこで本研究では,時間変調系列の設計に重要な洞察を与え,量子現象の増大を図った。 In this work we address quantum vacuum amplification effects in time-varying media with an arbitrary time-modulation profile. To this end, we propose a theoretical formalism based on the concept of conjugated harmonic oscillators, evaluating the impact on the transition time in temporal boundaries, shedding light into the practical requirements to observe quantum effects at them. In addition, we find nontrivial effects in pulsed-modulations, where the swiftest and strongest modulation does not lead to the highest photon production. Thus, our results provide key insights for the design of temporal modulation sequences to enhance quantum phenomena. | 翻訳日:2023-12-22 17:15:37 公開日:2023-12-20 |
# セマンティック画像合成のための訓練済み画像バックボーンのアンロック Unlocking Pre-trained Image Backbones for Semantic Image Synthesis ( http://arxiv.org/abs/2312.13314v1 ) ライセンス: Link先を確認 | Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari | (参考訳) セマンティック画像合成、すなわちユーザが提供するセマンティックラベルマップから画像を生成することは、生成された画像のコンテンツと空間的レイアウトの両方を制御できる重要な条件付き画像生成タスクである。
拡散モデルは生成的画像モデリングにおいて技術の状態を推し進めてきたが、それらの推論プロセスの反復的性質はそれらを計算的に要求する。
ganのような他のアプローチは、生成に単一のフィードフォワードパスしか必要としないため効率が良いが、画像品質は大規模で多様なデータセットに苦しむ傾向がある。
本研究では,画像分類などのタスクのために事前学習された特徴バックボーンネットワークを活用し,高度に現実的な画像を生成する意味画像合成のためのgan判別器を提案する。
また,新たなジェネレータアーキテクチャを導入して,コンテキストモデリングを改良し,潜在変数にノイズを注入するクロスアテンションを用いることにより,より多様な画像を生成する。
DP-SIMSをダブした我々のモデルは、ADE-20K、COCO-Stuff、Cityscapesの入力ラベルマップの画質と一貫性の点から、最新の拡散モデルを超え、推論に2桁も少ない計算を必要とする。 Semantic image synthesis, i.e., generating images from user-provided semantic label maps, is an important conditional image generation task as it allows to control both the content as well as the spatial layout of generated images. Although diffusion models have pushed the state of the art in generative image modeling, the iterative nature of their inference process makes them computationally demanding. Other approaches such as GANs are more efficient as they only need a single feed-forward pass for generation, but the image quality tends to suffer on large and diverse datasets. In this work, we propose a new class of GAN discriminators for semantic image synthesis that generates highly realistic images by exploiting feature backbone networks pre-trained for tasks such as image classification. We also introduce a new generator architecture with better context modeling and using cross-attention to inject noise into latent variables, leading to more diverse generated images. Our model, which we dub DP-SIMS, achieves state-of-the-art results in terms of image quality and consistency with the input label maps on ADE-20K, COCO-Stuff, and Cityscapes, surpassing recent diffusion models while requiring two orders of magnitude less compute for inference. | 翻訳日:2023-12-22 17:15:28 公開日:2023-12-20 |
# ParamISP: カメラパラメータを用いた前方および逆ISPの学習 ParamISP: Learned Forward and Inverse ISPs using Camera Parameters ( http://arxiv.org/abs/2312.13313v1 ) ライセンス: Link先を確認 | Woohyeok Kim, Geonu Kim, Junyong Lee, Seungyong Lee, Seung-Hwan Baek, Sunghyun Cho | (参考訳) RAW画像は、カメラISPが取得したsRGB画像に比べてデータサイズが大きすぎるため、ほとんど共有されない。
近年,カメラISPの前方・逆過程の学習が実証されており,入力sRGB画像に対する物理的に意味のあるRAWレベルの画像処理が可能になっている。
しかし、既存の学習ベースのISPメソッドは、ISOや露光時間などのカメラパラメータに関して、ISPプロセスの大きなバリエーションを処理できず、様々なアプリケーションで使用される場合に制限がある。
本稿では,srgbとraw画像のフォワードおよび逆変換を行う学習ベース手法であるparamispを提案する。
EXIFデータに提供されるカメラパラメータを考えると、ParamNetはISPネットワークを制御するために特徴ベクトルに変換する。
大規模な実験により、ParamISPは従来の方法に比べて優れたRAWおよびsRGB再構成結果が得られることが示され、データセット合成の劣化、生の劣化、HDR再構成、カメラ・カメラ間転送など様々な用途に効果的に利用できる。 RAW images are rarely shared mainly due to its excessive data size compared to their sRGB counterparts obtained by camera ISPs. Learning the forward and inverse processes of camera ISPs has been recently demonstrated, enabling physically-meaningful RAW-level image processing on input sRGB images. However, existing learning-based ISP methods fail to handle the large variations in the ISP processes with respect to camera parameters such as ISO and exposure time, and have limitations when used for various applications. In this paper, we propose ParamISP, a learning-based method for forward and inverse conversion between sRGB and RAW images, that adopts a novel neural-network module to utilize camera parameters, which is dubbed as ParamNet. Given the camera parameters provided in the EXIF data, ParamNet converts them into a feature vector to control the ISP networks. Extensive experiments demonstrate that ParamISP achieve superior RAW and sRGB reconstruction results compared to previous methods and it can be effectively used for a variety of applications such as deblurring dataset synthesis, raw deblurring, HDR reconstruction, and camera-to-camera transfer. | 翻訳日:2023-12-22 17:15:01 公開日:2023-12-20 |
# プライバシラベルからのマルチラベル学習 Multi-label Learning from Privacy-Label ( http://arxiv.org/abs/2312.13312v1 ) ライセンス: Link先を確認 | Zhongnian Li, Haotian Ren, Tongfeng Sun, Zhichen Li | (参考訳) マルチアベル学習(mll:multi-abel learning)は、各インスタンスに複数の関連するラベルを割り当てることによって、インスタンスに関する機密情報(喫煙、病気など)が漏洩する可能性がある。
しかし、既存のMLLは機密情報の保護に失敗している。
本稿では、プライバシ・ラベル・ユニット(CLPLU)を介してラベルを収集するMLLPL(Multi-Label Learning from Privacy-Label)という新しい設定を提案する。
具体的には、ラベル付けフェーズにおいて、各プライバシラベルをランダムに非プライバシラベルと組み合わせてプライバシラベルユニット(PLU)を形成する。
PLU内のラベルが正であれば、その単位は正とラベル付けされ、そうでなければ、図1に示すように負とラベル付けされる。
PLUは、プライバシラベルだけがラベルセットに表示され、プライバシラベルが隠されていることを保証します。
さらに,pluのリスクを最小化することにより,最適分類器を学習するためのプライバシラベル単位損失(plul)を提案する。
複数のベンチマークデータセットに対する実験結果は,提案手法の有効性と優位性を示す。 Multi-abel Learning (MLL) often involves the assignment of multiple relevant labels to each instance, which can lead to the leakage of sensitive information (such as smoking, diseases, etc.) about the instances. However, existing MLL suffer from failures in protection for sensitive information. In this paper, we propose a novel setting named Multi-Label Learning from Privacy-Label (MLLPL), which Concealing Labels via Privacy-Label Unit (CLPLU). Specifically, during the labeling phase, each privacy-label is randomly combined with a non-privacy label to form a Privacy-Label Unit (PLU). If any label within a PLU is positive, the unit is labeled as positive; otherwise, it is labeled negative, as shown in Figure 1. PLU ensures that only non-privacy labels are appear in the label set, while the privacy-labels remain concealed. Moreover, we further propose a Privacy-Label Unit Loss (PLUL) to learn the optimal classifier by minimizing the empirical risk of PLU. Experimental results on multiple benchmark datasets demonstrate the effectiveness and superiority of the proposed method. | 翻訳日:2023-12-22 17:14:42 公開日:2023-12-20 |
# Unlocking Deep Learning: ニューラルネットワークの並列ブロック幅トレーニングのためのBPフリーアプローチ Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise Training of Neural Networks ( http://arxiv.org/abs/2312.13311v1 ) ライセンス: Link先を確認 | Anzhe Cheng, Zhenkun Wang, Chenzhong Yin, Mingxi Cheng, Heng Ping, Xiongye Xiao, Shahin Nazarian, Paul Bogdan | (参考訳) バックプロパゲーション(BP)はディープラーニングモデルの最適化手法として成功している。
しかし、その制限、例えば後方ロックや更新ロック、生物学的な不確実性は、レイヤーの同時更新を妨げ、人間の脳で観察される局所的な学習プロセスを模倣しない。
これらの問題に対処するため、最近の研究では、ネットワークブロックを非同期にトレーニングするためにローカルエラー信号を使うことが提案されている。
しかしながら、このアプローチでは、ローカルトレーニングの最適な構成を決定するために、広範囲にわたる試行錯誤を繰り返します。
これには、ネットワークブロックの分離方法や、各ブロックで使用する補助ネットワークに関する決定が含まれる。
本研究では,ブロックワイズbpフリー(bwbpf)ニューラルネットワークを用いて,局所的エラー信号を利用して異なるサブニューラルネットワークを別々に最適化する手法を提案する。
bpフリーモデルで使用される局所的エラー信号は並列に計算でき、並列実装による重み付け更新プロセスの潜在的な高速化を可能にする。
CIFAR-10 や Tiny-ImageNet などのデータセット上で,VGG と ResNet のばらつきの伝達可能な疎結合アーキテクチャ,エンドツーエンドのバックプロパゲーションで訓練されたモデル,その他最先端のブロックワイズ学習技術で訓練されたモデル,などについて一貫した実験結果を得た。
コードはhttps://github.com/belis0811/bwbpfでリリースされる。 Backpropagation (BP) has been a successful optimization technique for deep learning models. However, its limitations, such as backward- and update-locking, and its biological implausibility, hinder the concurrent updating of layers and do not mimic the local learning processes observed in the human brain. To address these issues, recent research has suggested using local error signals to asynchronously train network blocks. However, this approach often involves extensive trial-and-error iterations to determine the best configuration for local training. This includes decisions on how to decouple network blocks and which auxiliary networks to use for each block. In our work, we introduce a novel BP-free approach: a block-wise BP-free (BWBPF) neural network that leverages local error signals to optimize distinct sub-neural networks separately, where the global loss is only responsible for updating the output layer. The local error signals used in the BP-free model can be computed in parallel, enabling a potential speed-up in the weight update process through parallel implementation. Our experimental results consistently show that this approach can identify transferable decoupled architectures for VGG and ResNet variations, outperforming models trained with end-to-end backpropagation and other state-of-the-art block-wise learning techniques on datasets such as CIFAR-10 and Tiny-ImageNet. The code is released at https://github.com/Belis0811/BWBPF. | 翻訳日:2023-12-22 17:14:24 公開日:2023-12-20 |
# 統一符号化モデルを用いた計算スペクトルイメージング : 比較研究と超越 Computational Spectral Imaging with Unified Encoding Model: A Comparative Study and Beyond ( http://arxiv.org/abs/2312.13310v1 ) ライセンス: Link先を確認 | Xinyuan Liu, Lizhi Wang, Lingen Li, Chang Chen, Xue Hu, Fenglong Song, Youliang Yan | (参考訳) スペクトルイメージングはスナップショットの利点により注目を集めており、振幅、位相、波長のエンコーディングシステムは3種類の代表的な実装である。
これらのシステムの性能をかなり比較し理解することは不可欠であるが、エンコーディング設計の多様性のために困難である。
この制限を克服するために,3種類の符号化方式を用いて物理系を網羅する統一符号化モデル (UEM) を提案する。
具体的には、ジョイントエンコーダ・デコーダ最適化フレームワークにおいて、デジタルデコードモデルと組み合わせて、3つのシステムを統一実験的な設定で比較することができる物理振幅、物理位相、物理波長符号化モデルを含む。
さらに,UEMの理想的なバージョン,すなわち理想振幅,理想位相,理想波長符号化モデルに拡張して,3種類の計算スペクトルイメージングシステムのフルポテンシャルを探索する。
最後に,3種類のスペクトルイメージングシステムの総合的な比較を行い,将来これらのシステムの設計と活用に有用な知見を提供する。 Computational spectral imaging is drawing increasing attention owing to the snapshot advantage, and amplitude, phase, and wavelength encoding systems are three types of representative implementations. Fairly comparing and understanding the performance of these systems is essential, but challenging due to the heterogeneity in encoding design. To overcome this limitation, we propose the unified encoding model (UEM) that covers all physical systems using the three encoding types. Specifically, the UEM comprises physical amplitude, physical phase, and physical wavelength encoding models that can be combined with a digital decoding model in a joint encoder-decoder optimization framework to compare the three systems under a unified experimental setup fairly. Furthermore, we extend the UEMs to ideal versions, namely, ideal amplitude, ideal phase, and ideal wavelength encoding models, which are free from physical constraints, to explore the full potential of the three types of computational spectral imaging systems. Finally, we conduct a holistic comparison of the three types of computational spectral imaging systems and provide valuable insights for designing and exploiting these systems in the future. | 翻訳日:2023-12-22 17:13:55 公開日:2023-12-20 |
# カテゴリー共通性とパーソナライズスタイルの統合によるeコマース製品背景の生成 Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style ( http://arxiv.org/abs/2312.13309v1 ) ライセンス: Link先を確認 | Haohan Wang, Wei Feng, Yang Lu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Lixing Bo, Jingping Shao | (参考訳) eコマース製品バックグラウンド生成の最先端の手法は、生産拡大時に製品設計の非効率と、特定のブランドのパーソナライズされた背景をカスタマイズする際の粒度の細かいスタイルの記述の非効率に苦しむ。
これらの障害に対処するため、カテゴリ共通性とパーソナライズされたスタイルを拡散モデルに統合します。
具体的には,大規模なバックグラウンド生成を初めて実現するカテゴリワイズ生成器を提案する。
プロンプト内の一意な識別子は、各カテゴリに割り当てられ、そのカテゴリのスタイルを学ぶために、マスク誘導クロスアテンション層によって背景に注意が向けられる。
さらに、レイアウトや要素等の具体的かつきめ細かい要件を持つ製品に対しては、参照画像から直接パーソナライズされたスタイルを学習してテキストのあいまいさを解消し、より効率的なトレーニングデータ使用のために自己指導的な方法で訓練する。
この分野での研究を進めるために、最初の大規模eコマース製品背景生成データセットであるBG60kを構築し、2k以上のカテゴリから60k以上の製品画像をカバーする。
実験により,異なるカテゴリに対して高品質な背景を生成でき,参照画像のパーソナライズされた背景スタイルを維持できることを示した。
BG60kとコードへのリンクは近く提供される。 The state-of-the-art methods for e-commerce product background generation suffer from the inefficiency of designing product-wise prompts when scaling up the production, as well as the ineffectiveness of describing fine-grained styles when customizing personalized backgrounds for some specific brands. To address these obstacles, we integrate the category commonality and personalized style into diffusion models. Concretely, we propose a Category-Wise Generator to enable large-scale background generation for the first time. A unique identifier in the prompt is assigned to each category, whose attention is located on the background by a mask-guided cross attention layer to learn the category-wise style. Furthermore, for products with specific and fine-grained requirements in layout, elements, etc, a Personality-Wise Generator is devised to learn such personalized style directly from a reference image to resolve textual ambiguities, and is trained in a self-supervised manner for more efficient training data usage. To advance research in this field, the first large-scale e-commerce product background generation dataset BG60k is constructed, which covers more than 60k product images from over 2k categories. Experiments demonstrate that our method could generate high-quality backgrounds for different categories, and maintain the personalized background style of reference images. The link to BG60k and codes will be available soon. | 翻訳日:2023-12-22 17:13:38 公開日:2023-12-20 |
# swags:動的3次元gaussian splattingのために適応的にwindowsをサンプリングする SWAGS: Sampling Windows Adaptively for Dynamic 3D Gaussian Splatting ( http://arxiv.org/abs/2312.13308v1 ) ライセンス: Link先を確認 | Richard Shaw, Jifei Song, Arthur Moreau, Michal Nazarczuk, Sibi Catley-Chandar, Helisa Dhamo, Eduardo Perez-Pellitero | (参考訳) 新たなビュー合成は急速に進歩しており、さらに多くのフォトリアリスティックな結果を生み出すことができる。
3d gaussian splattingは特に有望な手法として登場し、静的シーンの高品質なレンダリングを生成し、リアルタイムフレームレートでインタラクティブな視聴を可能にする。
ただし、現在は静的シーンのみに限られている。
本研究では,動的シーンを再構築するために3次元ガウススプレートを拡張する。
本研究では,標準空間からフレーム毎の3次元ガウスアン集合への変形場を学習する可変MPPを用いてシーンのダイナミクスをモデル化する。
シーンの静的な部分と動的部分を切り離すために、各ガウスパラメータの調整可能なパラメータを学習し、各MLPパラメータを重み付け、動的部分に集中する。
これにより、静的領域と動的領域のバランスが不均衡なシーンでダイナミックをキャプチャできるモデルの性能が向上する。
高いレンダリング品質を維持しながら任意の長さのシーンを処理するために、シーケンスの移動量に基づいてシーケンスをウィンドウに分割する適応型ウィンドウサンプリング戦略を導入する。
各ウィンドウの動的ガウス型スプラッティングモデルを訓練し,正準表現の変更を可能にし,幾何学的あるいはトポロジカルな変化を伴うシーンの再構築を可能にした。
時間的一貫性は、ランダムにサンプリングされたノベルビュー上の自己教師あり一貫性損失を伴う微調整ステップを使用して実施される。
その結果,本手法は,ダイナミック・インタラクティブ・ビューアでリアルタイムに見ることのできる,競争力のある定量的性能を備えた一般的な動的シーンの高品質なレンダリングを実現する。 Novel view synthesis has shown rapid progress recently, with methods capable of producing evermore photo-realistic results. 3D Gaussian Splatting has emerged as a particularly promising method, producing high-quality renderings of static scenes and enabling interactive viewing at real-time frame rates. However, it is currently limited to static scenes only. In this work, we extend 3D Gaussian Splatting to reconstruct dynamic scenes. We model the dynamics of a scene using a tunable MLP, which learns the deformation field from a canonical space to a set of 3D Gaussians per frame. To disentangle the static and dynamic parts of the scene, we learn a tuneable parameter for each Gaussian, which weighs the respective MLP parameters to focus attention on the dynamic parts. This improves the model's ability to capture dynamics in scenes with an imbalance of static to dynamic regions. To handle scenes of arbitrary length whilst maintaining high rendering quality, we introduce an adaptive window sampling strategy to partition the sequence into windows based on the amount of movement in the sequence. We train a separate dynamic Gaussian Splatting model for each window, allowing the canonical representation to change, thus enabling the reconstruction of scenes with significant geometric or topological changes. Temporal consistency is enforced using a fine-tuning step with self-supervising consistency loss on randomly sampled novel views. As a result, our method produces high-quality renderings of general dynamic scenes with competitive quantitative performance, which can be viewed in real-time with our dynamic interactive viewer. | 翻訳日:2023-12-22 17:13:09 公開日:2023-12-20 |
# すべてのステップが等しくない:進行拡散モデルによる効率的な生成 Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models ( http://arxiv.org/abs/2312.13307v1 ) ライセンス: Link先を確認 | Wenhao Li, Xiu Su, Shan You, Tao Huang, Fei Wang, Chen Qian, Chang Xu | (参考訳) 拡散モデルは様々な生成的タスクにおいて、デノイジンモデルによる予測能力と共に顕著な効果を示す。
現在、これらのモデルは全ての時間ステップで一様デノイジングアプローチを採用している。
しかし、各段階における雑音性潜伏剤の固有の変動は、訓練中に衝突を引き起こし、拡散モデルのポテンシャルを制約する。
この課題に対処するために,ステップ適応型トレーニングと呼ばれる新しい2段階トレーニング戦略を提案する。
初期段階では、ベース・デノイジング・モデルがすべてのタイムステップを包含するように訓練される。
その後、時間ステップを別々のグループに分割し、各グループ内でモデルを微調整し、特殊化能力を達成する。
異なる時間ステップでノイズを予測することの難しさを認識し,多様なモデルサイズ要件を導入する。
微調整前の信号対雑音比に基づいてタスク難易度を推定することにより,各時間ステップのモデルサイズを動的に調整する。
この調整は、プロキシベースの構造重要度評価機構によって促進され、ベースデノイジングモデルの正確かつ効率的なプルーニングを可能にする。
提案手法の有効性を検証し,CIFAR10のFIDスコアを0.3以上向上させるとともに,計算資源の80%しか利用していないことを実証した。
この革新的なアプローチはモデルの性能を向上させるだけでなく、計算コストを大幅に削減し、拡散モデルの開発と応用のための新しい道を開く。 Diffusion models have demonstrated remarkable efficacy in various generative tasks with the predictive prowess of denoising model. Currently, these models employ a uniform denoising approach across all timesteps. However, the inherent variations in noisy latents at each timestep lead to conflicts during training, constraining the potential of diffusion models. To address this challenge, we propose a novel two-stage training strategy termed Step-Adaptive Training. In the initial stage, a base denoising model is trained to encompass all timesteps. Subsequently, we partition the timesteps into distinct groups, fine-tuning the model within each group to achieve specialized denoising capabilities. Recognizing that the difficulties of predicting noise at different timesteps vary, we introduce a diverse model size requirement. We dynamically adjust the model size for each timestep by estimating task difficulty based on its signal-to-noise ratio before fine-tuning. This adjustment is facilitated by a proxy-based structural importance assessment mechanism, enabling precise and efficient pruning of the base denoising model. Our experiments validate the effectiveness of the proposed training strategy, demonstrating an improvement in the FID score on CIFAR10 by over 0.3 while utilizing only 80\% of the computational resources. This innovative approach not only enhances model performance but also significantly reduces computational costs, opening new avenues for the development and application of diffusion models. | 翻訳日:2023-12-22 17:12:43 公開日:2023-12-20 |
# インセンティブメカニズムによる公平グラフフェデレーション学習に向けて Towards Fair Graph Federated Learning via Incentive Mechanisms ( http://arxiv.org/abs/2312.13306v1 ) ライセンス: Link先を確認 | Chenglu Pan, Jiarong Xu, Yue Yu, Ziqi Yang, Qingbiao Wu, Chunping Wang, Lei Chen, Yang Yang | (参考訳) graph federated learning(fl)は、複数のエージェントがローカルデータのプライバシを維持しながら、グラフモデルを協調的にトレーニングできる重要なパラダイムとして登場した。
エージェントは自己関心があり、公正で満足のいくインセンティブなしでデータを共有することをためらう。
本稿では,グラフフェデレーション学習のインセンティブ機構を研究することで,この問題に取り組む最初の試みである。
グラフフェデレーション学習において,フェデレーションに潜在的害をもたらすエージェントの存在と,遅延に寄与するエージェントの存在という特異な現象を同定する。
これは従来のflインセンティブ機構とは対照的で、すべてのエージェントがポジティブに、タイムリーに貢献していると仮定する。
本稿では,モデル勾配とペイオフの両方から得られるインセンティブを統合することにより,公平なグラフフェデレーション学習に適した新しいインセンティブ機構を提案する。
これを実現するために,まず,勾配アライメントとグラフの多様性という2つの基準を導入することにより,エージェント貢献の定量化を目的としたエージェント評価関数を導入する。
さらに,グラフフェデレーション学習における不均一性が高いことから,精度と公平性のバランスを崩すことが特に重要である。
精度の向上,サーバとエージェント間の通信,グローバルモデルアグリゲーションの強化,ローカルモデル最適化におけるエージェント支援などを目的としたモチーフプロトタイプを提案する。
実験により, 精度とモデル勾配の公平性との最良のトレードオフが達成され, 対価の公平性も向上した。 Graph federated learning (FL) has emerged as a pivotal paradigm enabling multiple agents to collaboratively train a graph model while preserving local data privacy. Yet, current efforts overlook a key issue: agents are self-interested and would hesitant to share data without fair and satisfactory incentives. This paper is the first endeavor to address this issue by studying the incentive mechanism for graph federated learning. We identify a unique phenomenon in graph federated learning: the presence of agents posing potential harm to the federation and agents contributing with delays. This stands in contrast to previous FL incentive mechanisms that assume all agents contribute positively and in a timely manner. In view of this, this paper presents a novel incentive mechanism tailored for fair graph federated learning, integrating incentives derived from both model gradient and payoff. To achieve this, we first introduce an agent valuation function aimed at quantifying agent contributions through the introduction of two criteria: gradient alignment and graph diversity. Moreover, due to the high heterogeneity in graph federated learning, striking a balance between accuracy and fairness becomes particularly crucial. We introduce motif prototypes to enhance accuracy, communicated between the server and agents, enhancing global model aggregation and aiding agents in local model optimization. Extensive experiments show that our model achieves the best trade-off between accuracy and the fairness of model gradient, as well as superior payoff fairness. | 翻訳日:2023-12-22 17:12:24 公開日:2023-12-20 |
# dvis++:ユニバーサルビデオセグメンテーションのためのデカップリングフレームワーク DVIS++: Improved Decoupled Framework for Universal Video Segmentation ( http://arxiv.org/abs/2312.13305v1 ) ライセンス: Link先を確認 | Tao Zhang and Xingye Tian and Yikang Zhou and Shunping Ji and Xuebo Wang and Xin Tao and Yuan Zhang and Pengfei Wan and Zhongyuan Wang and Yu Wu | (参考訳) ビデオインスタンスセグメンテーション(vis)、ビデオセグメンテーションセグメンテーション(vss)、ビデオパオプティクスセグメンテーション(vps)を含む、ユニバーサルビデオセグメンテーションの挑戦的なタスクに対する新しいアプローチである、 \textbf{d}ecoupled \textbf{vi}deo \textbf{s}egmentation(dvis)フレームワークを提案する。
ビデオセグメンテーションをエンドツーエンドでモデル化する従来の手法とは異なり,本手法では映像セグメンテーションを3つのサブタスク(セグメンテーション,トラッキング,リファインメント)に分解する。
このデカップリング設計により、特に複雑なシーンや長いビデオにおいて、オブジェクトの時空間表現をよりシンプルかつ効果的にモデル化することができる。
そこで本研究では,レファレンストラッカとテンポラリファインダという2つの新しいコンポーネントを紹介する。
これらのコンポーネントはフレームごとにオブジェクトを追跡し、事前調整された特徴に基づいて時空間表現をモデル化する。
DVISのトラッキング機能を改善するために,DVIS++というより堅牢なフレームワークが提案される。
さらに、オープン語彙や凍結事前学習したバックボーンなど、様々な設定でDVIS++を評価する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
私たちは、VIS、VSS、VPSデータセットを含む6つの主要なベンチマークで広範な実験を行います。
統一アーキテクチャを使用して、DVIS++は、クローズドおよびオープンボキャブラリ設定の両方で、これらのベンチマークで最先端の特殊なメソッドを著しく上回っている。
コード:~\url{https://github.com/zhang-tao-whu/dvis_plus} We present the \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) framework, a novel approach for the challenging task of universal video segmentation, including video instance segmentation (VIS), video semantic segmentation (VSS), and video panoptic segmentation (VPS). Unlike previous methods that model video segmentation in an end-to-end manner, our approach decouples video segmentation into three cascaded sub-tasks: segmentation, tracking, and refinement. This decoupling design allows for simpler and more effective modeling of the spatio-temporal representations of objects, especially in complex scenes and long videos. Accordingly, we introduce two novel components: the referring tracker and the temporal refiner. These components track objects frame by frame and model spatio-temporal representations based on pre-aligned features. To improve the tracking capability of DVIS, we propose a denoising training strategy and introduce contrastive learning, resulting in a more robust framework named DVIS++. Furthermore, we evaluate DVIS++ in various settings, including open vocabulary and using a frozen pre-trained backbone. By integrating CLIP with DVIS++, we present OV-DVIS++, the first open-vocabulary universal video segmentation framework. We conduct extensive experiments on six mainstream benchmarks, including the VIS, VSS, and VPS datasets. Using a unified architecture, DVIS++ significantly outperforms state-of-the-art specialized methods on these benchmarks in both close- and open-vocabulary settings. Code:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}. | 翻訳日:2023-12-22 17:11:58 公開日:2023-12-20 |
# RAW画像による雨害除去 End-to-end Rain Streak Removal with RAW Images ( http://arxiv.org/abs/2312.13304v1 ) ライセンス: Link先を確認 | GuoDong Du, HaoJian Deng, JiaHao Su, Yuan Huang | (参考訳) 本研究では,RAW画像による雨害除去の問題に対処する。
一般的なアプローチは、まずRAWデータをRGBイメージに処理し、RGBイメージでレインストリークを取り除くことである。
実際、RAW画像の雨の本来の情報は、非線形アルゴリズム、予期せぬノイズ、アーティファクトなどを含む画像信号処理(ISP)パイプラインの影響を受けている。
RGBフォーマットに処理する前に、RAWデータの雨を直接除去するメリットがさらに増える。
この問題を解決するために,雨天のRAW画像からクリーンなカラー画像を得るために,雨天除去とRAW処理のジョイントソリューションを提案する。
具体的には,カラーレインストリークをraw spaceに変換し,簡易かつ効率的なraw処理アルゴリズムを設計し,雨色画像とクリーンカラー画像の両方を合成することにより,雨の生データを生成する。
雨色の画像は、色補正の参考として使用される。
異なるバックボーンは,カラー画像に焦点をあてた他のいくつかの最先端のデラミニング手法と比較して,より優れた結果を示す。
さらに、提案したネットワークは、選択したRAWデータセット以外の他のカメラによく当てはまる。
最後に、異なるISPパイプラインで処理された画像に対してテストした結果、カラー画像の手法と比較して、モデルの一般化性能が優れていることを示す。 In this work we address the problem of rain streak removal with RAW images. The general approach is firstly processing RAW data into RGB images and removing rain streak with RGB images. Actually the original information of rain in RAW images is affected by image signal processing (ISP) pipelines including none-linear algorithms, unexpected noise, artifacts and so on. It gains more benefit to directly remove rain in RAW data before being processed into RGB format. To solve this problem, we propose a joint solution for rain removal and RAW processing to obtain clean color images from rainy RAW image. To be specific, we generate rainy RAW data by converting color rain streak into RAW space and design simple but efficient RAW processing algorithms to synthesize both rainy and clean color images. The rainy color images are used as reference to help color corrections. Different backbones show that our method conduct a better result compared with several other state-of-the-art deraining methods focused on color image. In addition, the proposed network generalizes well to other cameras beyond our selected RAW dataset. Finally, we give the result tested on images processed by different ISP pipelines to show the generalization performance of our model is better compared with methods on color images. | 翻訳日:2023-12-22 17:11:17 公開日:2023-12-20 |
# 長距離及び短距離ネットワーク上での量子暗号におけるマルチパーティ・エンタングルメントの利点 Advantage of multi-partite entanglement for quantum cryptography over long and short ranged networks ( http://arxiv.org/abs/2312.13376v1 ) ライセンス: Link先を確認 | Janka Memmen, Jens Eisert, Nathan Walk | (参考訳) 利用可能な量子ネットワークの高度化は、マルチパート暗号プロトコルの追求と対応する成長を遂げている。
マルチパーティ・エンタングルメントの使用は、抽象的に動機づけられた特定の文脈で有利に働くことが知られているが、実用的なアドバンテージ・シナリオを見つけようとする試みは進行中であり、複数のパーティ・セキュリティ・証明を一般化する上でかなりの困難が残っている。
これらの課題に同時に対処する厳格な結果を提示します。
まず,従来のGHZ状態スキームのセキュリティを損なう参加者攻撃を含む一般攻撃に対して,GHZ状態ベースの秘密共有プロトコルの変種が安全であることを実証する。
そして、現実的なボトルネックネットワークよりもパフォーマンスに有利なパラメータを特定します。
チャネル損失は、直接伝送ネットワーク上の短距離のアドバンテージ領域を制限するが、量子リピータの追加は、長距離量子暗号におけるポイント・ツー・ポイントのアプローチに対するマルチパーティショニングの利点を解き放つことを示した。 The increasing sophistication of available quantum networks has seen a corresponding growth in the pursuit of multi-partite cryptographic protocols. Whilst the use of multi-partite entanglement is known to offer an advantage in certain abstractly motivated contexts, the quest to find practical advantage scenarios is ongoing and substantial difficulties in generalising some bi-partite security proofs still remain. We present rigorous results that address both these challenges at the same time. First, we prove the security of a variant of the GHZ state based secret sharing protocol against general attacks, including participant attacks which break the security of the original GHZ state scheme. We then identify parameters for a performance advantage over realistic bottleneck networks. We show that whilst channel losses limit the advantage region to short distances over direct transmission networks, the addition of quantum repeaters unlocks the performance advantage of multi-partite entanglement over point-to-point approaches for long distance quantum cryptography. | 翻訳日:2023-12-22 17:04:07 公開日:2023-12-20 |
# 一般共変量子系のテンソル構造について On the tensorial structure of general covariant quantum systems ( http://arxiv.org/abs/2312.13374v1 ) ライセンス: Link先を確認 | Gabriel M.Carral, I\~naki Garay, Francesca Vidotto | (参考訳) 量子系の定義にはヒルベルト空間、力学を定義する方法、可観測物の代数が必要である。
可観測代数の構造はヒルベルト空間のテンソル積分解と関連しており、システムの構成をサブシステムで表す。
ハミルトニアンはこのテンソル積の構造を決定できることが指摘されている。
ここで、この事実はいくつかのケースで疑わしい結果をもたらす可能性があり、ハミルトニアンがハミルトニアン制約に置き換えられるより一般的な背景独立なケースに拡張される。
これらの観察は、観測可能性の特定とそれらが力学と相互作用する方法が量子論を定義するのに不可欠であるという考えを補強する。
また、量子論において系分解が持つ一般的な役割についても考察する。 The definition of a quantum system requires a Hilbert space, a way to define the dynamics, and an algebra of observables. The structure of the observable algebra is related to a tensor product decomposition of the Hilbert space and represents the composition of the system by subsystems. It has been remarked that the Hamiltonian may determine this tensor product structure. Here we observe that this fact may lead to questionable consequences in some cases, and does extend to the more general background-independent case, where the Hamiltonian is replaced by a Hamiltonian constraint. These observations reinforces the idea that specifying the observables and the way they interplay with the dynamics, is essential to define a quantum theory. We also reflect on the general role that system decomposition has in the quantum theory. | 翻訳日:2023-12-22 17:03:48 公開日:2023-12-20 |
# ハードウェアレベルのパルス並列化によるマルチキュービットゲートの忠実度向上 Improving fidelity of multi-qubit gates using hardware-level pulse parallelization ( http://arxiv.org/abs/2312.13350v1 ) ライセンス: Link先を確認 | Sagar Silva Pratapsi, Diogo Cruz | (参考訳) 量子計算は古典的に難解な計算問題を解くという約束を果たす。
しかし実際には、量子デバイスは比較的短いコヒーレンス時間と不完全な回路ハードウェアマッピングによって制限されている。
本稿では,量子ゲートを最適化する簡単な実装戦略として,ハードウェアレベルでの事前校正パルスの並列化を提案する。
R_{ZX}$ゲートに着目して、シリアル連結と比較して、そのような並列化が忠実度とゲート時間短縮を改善することを示した。
cycle benchmarkingによって測定されたように、1つの共有キュービットを持つ2つの$r_{zx}(\pi/2)$ゲートの適用において、我々の最も控えめな忠実度向上は98.16(7)%から99.15(3)%であった。
我々は,この戦略がCNOTやCZといった他のゲートに適用できることを示し,ハミルトンシミュレーション問題,振幅増幅,誤り訂正符号などのタスクに有効であることを示した。 Quantum computation holds the promise of solving computational problems which are believed to be classically intractable. However, in practice, quantum devices are still limited by their relatively short coherence times and imperfect circuit-hardware mapping. In this work, we present the parallelization of pre-calibrated pulses at the hardware level as an easy-to-implement strategy to optimize quantum gates. Focusing on $R_{ZX}$ gates, we demonstrate that such parallelization leads to improved fidelity and gate time reduction, when compared to serial concatenation. As measured by Cycle Benchmarking, our most modest fidelity gain was from 98.16(7)% to 99.15(3)% for the application of two $R_{ZX}(\pi/2)$ gates with one shared qubit. We show that this strategy can be applied to other gates like the CNOT and CZ, and it may benefit tasks such as Hamiltonian simulation problems, amplitude amplification, and error-correction codes. | 翻訳日:2023-12-22 17:03:36 公開日:2023-12-20 |
# 無質量スカラー場のスメア双分布に対する閉形式表現:相対論的量子情報に対する非摂動的および漸近的結果 Closed-form expressions for smeared bi-distributions of a massless scalar field: non-perturbative and asymptotic results in relativistic quantum information ( http://arxiv.org/abs/2312.13343v1 ) ライセンス: Link先を確認 | T. Rick Perche | (参考訳) 時空ガウステスト関数を用いて、ミンコフスキー時空の真空における無質量スカラー場のスミア・ワイトマン関数、ファインマン・プロパゲーター、グリーン関数、因果プロパゲーター、対称プロパゲーターの閉形式式を求める。
本研究では,ガウス時空領域の量子場と相互作用する局所量子系に適用し,異なる相対論的量子情報プロトコルについて検討する。
エンタングルメント収穫のプロトコルでは、ガウス時空領域で相互作用し、プロトコルの漸近的な結果を得るプローブによって得られるエンタングルメントの閉形式式が見つかる。
また、2つのギャップレス検出器のケースを再検討し、その相互作用領域間に双方向信号が存在する場合、検出器が絡み合う可能性があることを示し、検出器の最終状態に対する閉形式表現を提供する。 Using spacetime Gaussian test functions, we find closed-form expressions for the smeared Wightman function, Feynman propagator, retarded and advanced Green's functions, causal propagator and symmetric propagator of a massless scalar field in the vacuum of Minkowski spacetime. We apply our results to localized quantum systems which interact with a quantum field in Gaussian spacetime regions and study different relativistic quantum information protocols. In the protocol of entanglement harvesting, we find a closed-form expression for the entanglement that can be acquired by probes which interact in Gaussian spacetime regions and obtain asymptotic results for the protocol. We also revisit the case of two gapless detectors and show that the detectors can become entangled if there is two-way signalling between their interaction regions, providing closed-form expressions for the detectors' final state. | 翻訳日:2023-12-22 17:03:19 公開日:2023-12-20 |
# 透明性とプライバシ:金融詐欺検出における説明可能なAIとフェデレーション学習の役割 Transparency and Privacy: The Role of Explainable AI and Federated Learning in Financial Fraud Detection ( http://arxiv.org/abs/2312.13334v1 ) ライセンス: Link先を確認 | Tomisin Awosika, Raj Mani Shukla, and Bernardi Pranggono | (参考訳) 不正取引とその検出方法は、世界中の金融機関にとって重要な問題である。
資産の保護と顧客の信頼を維持するための高度な不正検知システムの必要性は金融機関にとって最重要であるが、有効かつ効率的な不正検出システムの開発が課題となっている要因もある。
このような要因の1つは、不正取引は稀であり、多くのトランザクションデータセットが不均衡であるという事実である。
このデータ不均衡は不正検出モデルの性能や信頼性に影響を与える可能性がある。
さらに、すべての金融機関が従うデータプライバシー法により、より高いパフォーマンスの集中モデルを促進するために顧客データを共有することは不可能である。
さらに,不正検出技術は,ユーザエクスペリエンスに影響を与えないように透明でなければならない。
そこで本研究では,これらの課題に対処するために,Federated Learning (FL) と Explainable AI (XAI) を用いた新しいアプローチを提案する。
FLにより、金融機関は顧客データを直接共有することなく不正取引を検出するモデルを協調的に訓練し、データのプライバシと機密性を保護できる。
一方、XAIの統合により、モデルによってなされた予測が人間の専門家によって理解され解釈され、システムに透明性と信頼のレイヤが加えられることが保証される。
現実的なトランザクションデータセットをベースとした実験結果から,FLに基づく不正検出システムは高いパフォーマンス指標を一貫して示していることがわかった。
本研究は、flが不正との戦いにおける効果的なプライバシー保護ツールとなる可能性を根拠としている。 Fraudulent transactions and how to detect them remain a significant problem for financial institutions around the world. The need for advanced fraud detection systems to safeguard assets and maintain customer trust is paramount for financial institutions, but some factors make the development of effective and efficient fraud detection systems a challenge. One of such factors is the fact that fraudulent transactions are rare and that many transaction datasets are imbalanced; that is, there are fewer significant samples of fraudulent transactions than legitimate ones. This data imbalance can affect the performance or reliability of the fraud detection model. Moreover, due to the data privacy laws that all financial institutions are subject to follow, sharing customer data to facilitate a higher-performing centralized model is impossible. Furthermore, the fraud detection technique should be transparent so that it does not affect the user experience. Hence, this research introduces a novel approach using Federated Learning (FL) and Explainable AI (XAI) to address these challenges. FL enables financial institutions to collaboratively train a model to detect fraudulent transactions without directly sharing customer data, thereby preserving data privacy and confidentiality. Meanwhile, the integration of XAI ensures that the predictions made by the model can be understood and interpreted by human experts, adding a layer of transparency and trust to the system. Experimental results, based on realistic transaction datasets, reveal that the FL-based fraud detection system consistently demonstrates high performance metrics. This study grounds FL's potential as an effective and privacy-preserving tool in the fight against fraud. | 翻訳日:2023-12-22 17:02:58 公開日:2023-12-20 |
# 医療機器としてのソフトウェアのための責任あるディープラーニング Responsible Deep Learning for Software as a Medical Device ( http://arxiv.org/abs/2312.13333v1 ) ライセンス: Link先を確認 | Pratik Shah, Jenna Lester, Jana G Deflino, Vinay Pai | (参考訳) 信号処理や医用画像解析、ディープラーニングモデルのトレーニングのためのツール、モデル、統計手法が、臨床応用のための研究プロトタイプを作成することは、バイオメディカルイメージングコミュニティに特に関心を寄せている。
しかし、生体組織の物質と光学的性質は複雑であり、イメージング装置で簡単には捉えられない。
深層学習のための人種や民族からの医療画像の過剰表現と、新興人工知能(ai)と医療画像分析のための機械学習(ml)技術の商業化と安全性に必要な規制フレームワークに関する限られた知識を持つデータセットによって、さらに複雑さが導入された。
2022年IEEE 19th International Symposium on Biomedical Imagingの特別セッションで発表されたワークショップ論文の拡張版では、機械学習(第1節)と臨床研究(第2節)、科学工学研究所(OSEL)第III節、および米国食品医薬品局(FDA)のCDRH(Center for Devices & Radiological Health)第IV節の職員による戦略と機会が説明されている。
皮膚(rgb)、組織生検(デジタル病理)、肺および腎臓(磁気共鳴、x線、ct)の医療画像の規制評価と実際の展開に関する性能評価について検討した。 Tools, models and statistical methods for signal processing and medical image analysis and training deep learning models to create research prototypes for eventual clinical applications are of special interest to the biomedical imaging community. But material and optical properties of biological tissues are complex and not easily captured by imaging devices. Added complexity can be introduced by datasets with underrepresentation of medical images from races and ethnicities for deep learning, and limited knowledge about the regulatory framework needed for commercialization and safety of emerging Artificial Intelligence (AI) and Machine Learning (ML) technologies for medical image analysis. This extended version of the workshop paper presented at the special session of the 2022 IEEE 19th International Symposium on Biomedical Imaging, describes strategy and opportunities by University of California professors engaged in machine learning (section I) and clinical research (section II), the Office of Science and Engineering Laboratories (OSEL) section III, and officials at the US FDA in Center for Devices & Radiological Health (CDRH) section IV. Performance evaluations of AI/ML models of skin (RGB), tissue biopsy (digital pathology), and lungs and kidneys (Magnetic Resonance, X-ray, Computed Tomography) medical images for regulatory evaluations and real-world deployment are discussed. | 翻訳日:2023-12-22 17:02:34 公開日:2023-12-20 |
# RGB-only NeRF-SLAMのための3次元型オパシティとハイブリッドオドメトリー Ternary-type Opacity and Hybrid Odometry for RGB-only NeRF-SLAM ( http://arxiv.org/abs/2312.13332v1 ) ライセンス: Link先を確認 | Junru Lin, Asen Nachkov, Songyou Peng, Luc Van Gool, Danda Pani Paudel | (参考訳) 不透明な表面を持つ立体的な3dシーンの不透明性はバイナリタイプであると考えられている。
しかし,この特性は既存のRGBのみのNeRF-SLAMに従わないことがわかった。
そのため,RGBのみのNeRF-SLAMパイプラインに導入する動機がある。
残念なことに、ボリュームトリップレンダリング機能による最適化は、望ましい事前の統合を容易化しない。
その代わり, 3次型 (TT) の不透明度は良好に支持されている。
本研究では,三元型不透明性が手作業に適している理由について検討する。
特に、ボリュームレンダリングプロセスを通じて放射率と不透明度を共同最適化する過程に関する理論的知見を提供する。
ベンチマークデータセットに関する徹底的な実験を通じて、我々の主張を検証し、最適化プロセスに関する洞察を提供する。
そこで本研究では,ボリュームとワーピングを併用した画像レンダリングを併用した,シンプルながら斬新なビジュアルオドメトリー手法を提案する。
より具体的には、提案されたハイブリッドオドメトリ(ho)は、イメージウォーピングベースの粗オドメトリも使用し、最終的なスピードアップを桁違いに導く。
さらに,提案するttとhoが相互に補完し,速度と精度の両面でベンチマークデータセットに最先端の結果を提供することを示した。 The opacity of rigid 3D scenes with opaque surfaces is considered to be of a binary type. However, we observed that this property is not followed by the existing RGB-only NeRF-SLAM. Therefore, we are motivated to introduce this prior into the RGB-only NeRF-SLAM pipeline. Unfortunately, the optimization through the volumetric rendering function does not facilitate easy integration of the desired prior. Instead, we observed that the opacity of ternary-type (TT) is well supported. In this work, we study why ternary-type opacity is well-suited and desired for the task at hand. In particular, we provide theoretical insights into the process of jointly optimizing radiance and opacity through the volumetric rendering process. Through exhaustive experiments on benchmark datasets, we validate our claim and provide insights into the optimization process, which we believe will unleash the potential of RGB-only NeRF-SLAM. To foster this line of research, we also propose a simple yet novel visual odometry scheme that uses a hybrid combination of volumetric and warping-based image renderings. More specifically, the proposed hybrid odometry (HO) additionally uses image warping-based coarse odometry, leading up to an order of magnitude final speed-up. Furthermore, we show that the proposed TT and HO well complement each other, offering state-of-the-art results on benchmark datasets in terms of both speed and accuracy. | 翻訳日:2023-12-22 17:02:08 公開日:2023-12-20 |
# 主題指向ビデオキャプション Subject-Oriented Video Captioning ( http://arxiv.org/abs/2312.13330v1 ) ライセンス: Link先を確認 | Yunchuan Ma, Chang Teng, Yuankai Qi, Guorong Li, Laiyu Qing, Qi Wu, and Qingming Huang | (参考訳) ユーザのニーズに応じてビデオコンテンツを記述することは、長年の目標です。
既存の動画キャプション手法は大きな進歩を遂げているが、生成されたキャプションはユーザーが特に興味を持っているエンティティに焦点を合わせない可能性がある。
この問題に対処するために,提案する新しい映像キャプションタスクである主題指向ビデオキャプションを提案する。
この課題を支援するために,2つのビデオキャプションデータセット(MSVDとMSRVTT)をベースとして,各キャプション毎に各ビデオに注釈を付けることによって2つの動画キャプションデータセットを構築した。
これらのデータセットは将来の技術開発の道を開く。
最初の試みとして、最先端のビデオキャプションモデル4つを評価し、大きなパフォーマンス低下を観測した。
次に、望ましいターゲットを記述するためのいくつかの戦略を検討します。
実験の結果、明らかに改善が見られたが、この分野のさらなる調査の余地はまだ大きい。 Describing video content according to users' needs is a long-held goal. Although existing video captioning methods have made significant progress, the generated captions may not focus on the entity that users are particularly interested in. To address this problem, we propose a new video captioning task, subject-oriented video captioning, which allows users to specify the describing target via a bounding box. To support this task, we construct two subject-oriented video captioning datasets based on two widely used video captioning datasets: MSVD and MSRVTT, by annotating subjects in each video for each caption. These datasets pave the way for future technique development. As the first attempt, we evaluate four state-of-the-art general video captioning models, and have observed a large performance drop. We then explore several strategies to enable them to describe the desired target. Experimental results show obvious improvement, but there is still a large room for further exploration in this field. | 翻訳日:2023-12-22 17:01:45 公開日:2023-12-20 |
# NeLF-Pro: ニューラルネットワークプローブ NeLF-Pro: Neural Light Field Probes ( http://arxiv.org/abs/2312.13328v1 ) ライセンス: Link先を確認 | Zinuo You, Andreas Geiger, Anpei Chen | (参考訳) 本稿では,様々な自然場面における光場のモデリングと再構成のための新しい表現であるnelf-proを提案する。
3dシーンをグローバルに表現する従来の高速再構成手法とは対照的に,各シーンの光野を,位置と多チャンネル2d特徴マップでパラメータ化された局所光場特徴プローブの集合としてモデル化する。
中心となるアイデアは、シーンの光場を空間的に変化する学習可能な表現に焼き込み、カメラの近くにあるプローブを重み付けてブレンドすることでポイントの特徴を問い合わせることです。
We introduce a novel vector-matrix-matrix (VMM) factorization technique that effectively represents the light field feature probes as products of core factors (i.e., VM) shared among local feature probes, and a basis factor (i.e., M) - efficiently encoding internal relationships and patterns within the scene.Experimentally, we demonstrate that NeLF-Pro significantly boosts the performance of feature grid-based representations, and achieves fast reconstruction with better rendering quality while maintaining compact modeling. We present NeLF-Pro, a novel representation for modeling and reconstructing light fields in diverse natural scenes that vary in extend and spatial granularity. In contrast to previous fast reconstruction methods that represent the 3D scene globally, we model the light field of a scene as a set of local light field feature probes, parameterized with position and multi-channel 2D feature maps. Our central idea is to bake the scene's light field into spatially varying learnable representations and to query point features by weighted blending of probes close to the camera - allowing for mipmap representation and rendering. We introduce a novel vector-matrix-matrix (VMM) factorization technique that effectively represents the light field feature probes as products of core factors (i.e., VM) shared among local feature probes, and a basis factor (i.e., M) - efficiently encoding internal relationships and patterns within the scene.Experimentally, we demonstrate that NeLF-Pro significantly boosts the performance of feature grid-based representations, and achieves fast reconstruction with better rendering quality while maintaining compact modeling. | 翻訳日:2023-12-22 17:01:29 公開日:2023-12-20 |
# 可変動作空間に対するインコンテキスト強化学習 In-Context Reinforcement Learning for Variable Action Spaces ( http://arxiv.org/abs/2312.13327v1 ) ライセンス: Link先を確認 | Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov | (参考訳) 近年の研究では、RLアルゴリズムの学習履歴を教師付き事前学習することで、学習過程を捉え、環境との相互作用を通じて新しいタスクの文脈を改善することができるモデルが得られることが示されている。
この領域の進歩にもかかわらず、既存の文献、特に新しいアクション空間への文脈内一般化においてはまだギャップがある。
既存の手法では報酬分布が異なる新しいタスクに対して高いパフォーマンスを示すが、そのアーキテクチャ設計とトレーニングプロセスは評価中に新しいアクションを導入するのに適していない。
このギャップを埋めるために、新しいアクション空間に一般化するタスクに特化したアーキテクチャとトレーニング方法論を開発する。
Headless LLMにインスパイアされた我々は、アクション埋め込みを直接予測することで、アクションの数への依存を取り除く。
さらに、文脈からのアクションの意味的推論を強制するためにランダム埋め込みを使用し、テスト時間中に新しい未知の埋め込みに備える。
腕数可変のマルチアームバンディット環境を用いることで,新たな環境毎に再トレーニングを必要とせず,データ生成アルゴリズムの性能を実現できることを示す。 Recent work has shown that supervised pre-training on learning histories of RL algorithms results in a model that captures the learning process and is able to improve in-context on novel tasks through interactions with an environment. Despite the progress in this area, there is still a gap in the existing literature, particularly in the in-context generalization to new action spaces. While existing methods show high performance on new tasks created by different reward distributions, their architectural design and training process are not suited for the introduction of new actions during evaluation. We aim to bridge this gap by developing an architecture and training methodology specifically for the task of generalizing to new action spaces. Inspired by Headless LLM, we remove the dependence on the number of actions by directly predicting the action embeddings. Furthermore, we use random embeddings to force the semantic inference of actions from context and to prepare for the new unseen embeddings during test time. Using multi-armed bandit environments with a variable number of arms, we show that our model achieves the performance of the data generation algorithm without requiring retraining for each new environment. | 翻訳日:2023-12-22 17:01:11 公開日:2023-12-20 |
# ShowRoom3D:3Dプリミティブを用いた高品質な3Dルーム生成 ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors ( http://arxiv.org/abs/2312.13324v1 ) ライセンス: Link先を確認 | Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou | (参考訳) テキストから高品質な3Dルームスケールシーンを生成するための3段階アプローチであるShowRoom3Dを紹介する。
従来の2次元拡散前処理による室内シーン生成のためのニューラルラジアンスフィールドの最適化手法は,不満足な品質を示した。
これは主に、トレーニング方法論における3D認識と制約を欠いた2D事前の制限に起因する。
本稿では,3次元拡散前駆体mvdiffusionを用いて3次元ルームスケールシーンを最適化する。
私たちの貢献には2つの側面があります。
まず,nrfを最適化するためのプログレッシブビュー選択プロセスを提案する。
これはトレーニングプロセスを3つのステージに分割し、カメラのサンプリング範囲を徐々に拡大することを含む。
次に,第2段階におけるポーズ変換手法を提案する。
MVDiffusionは正確なビューガイダンスを提供する。
その結果、ShowRoom3Dは、構造的整合性の向上、あらゆる視点からの明確性の向上、コンテンツ反復の削減、異なる視点での一貫性の向上といった、部屋の生成を可能にする。
広範な実験により,本手法は,ユーザ調査の観点で,最先端のアプローチを著しく上回っていることが示された。 We introduce ShowRoom3D, a three-stage approach for generating high-quality 3D room-scale scenes from texts. Previous methods using 2D diffusion priors to optimize neural radiance fields for generating room-scale scenes have shown unsatisfactory quality. This is primarily attributed to the limitations of 2D priors lacking 3D awareness and constraints in the training methodology. In this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D room-scale scene. Our contributions are in two aspects. Firstly, we propose a progressive view selection process to optimize NeRF. This involves dividing the training process into three stages, gradually expanding the camera sampling scope. Secondly, we propose the pose transformation method in the second stage. It will ensure MVDiffusion provide the accurate view guidance. As a result, ShowRoom3D enables the generation of rooms with improved structural integrity, enhanced clarity from any view, reduced content repetition, and higher consistency across different perspectives. Extensive experiments demonstrate that our method, significantly outperforms state-of-the-art approaches by a large margin in terms of user study. | 翻訳日:2023-12-22 17:00:53 公開日:2023-12-20 |
# ドメイン特化コード言語モデル:HPCコードとタスクの可能性を明らかにする Domain-Specific Code Language Models: Unraveling the Potential for HPC Codes and Tasks ( http://arxiv.org/abs/2312.13322v1 ) ライセンス: Link先を確認 | Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Mihai Capota, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, Gal Oren | (参考訳) 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIは、様々なプログラミングタスクに対処するより大きな言語モデル(LLM)を開発する傾向にある。
ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズであり、トレーニングに高価な計算リソースを必要とする。
これは、HPCタスクのためのこれらのLLMが、いくつかの自然および/またはプログラミング言語をサポートする既存のLLMを微調整することによって得られるためである。
HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされた大規模なLMが必要なのでしょうか?
この一連の作業では、特定のドメインに対してより小さなLMを開発することで、既存のLLMによる選択を問うことを目指しています。
具体的には、hpcをドメインとして始め、既存のlmsよりも桁違いに小さいが、hpcやhpc以外のタスクで同様の性能を提供する、monocoderと呼ばれるhpc固有のlmを構築します。
具体的には、GitHubから採掘されたCとC++プログラムのHPC固有のデータセット(HPCorpusという名前)でMonoCoderを事前トレーニングしました。
従来の多言語LLMに対するMonoCoderの性能評価を行った。
その結果、MonoCoderは既存のLMよりもはるかに小さいが、通常のパープレキシティテストと、高性能で並列なコード生成のためのCodeBLEUコンピテンスにおいて、同様の結果が得られることがわかった。
さらに、並列コード生成の特定のタスクのベースモデルを微調整すると、特にローカルなミスリードセマンティクスが新しいプリプロセッサであるTokompilerによって削除された場合、HPC関連タスクを補助するドメイン固有モデルの能力を示すGPTと比較して、優れた結果が得られる。 With easier access to powerful compute resources, there is a growing trend in AI for software development to develop larger language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size and demand expensive compute resources for training. This is partly because these LLMs for HPC tasks are obtained by finetuning existing LLMs that support several natural and/or programming languages. We found this design choice confusing - why do we need large LMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question choices made by existing LLMs by developing smaller LMs for specific domains - we call them domain-specific LMs. Specifically, we start off with HPC as a domain and build an HPC-specific LM, named MonoCoder, that is orders of magnitude smaller than existing LMs but delivers similar, if not better performance, on non-HPC and HPC tasks. Specifically, we pre-trained MonoCoder on an HPC-specific dataset (named HPCorpus) of C and C++ programs mined from GitHub. We evaluated the performance of MonoCoder against conventional multi-lingual LLMs. Results demonstrate that MonoCoder, although much smaller than existing LMs, achieves similar results on normalized-perplexity tests and much better ones in CodeBLEU competence for high-performance and parallel code generations. Furthermore, fine-tuning the base model for the specific task of parallel code generation (OpenMP parallel for pragmas) demonstrates outstanding results compared to GPT, especially when local misleading semantics are removed by our novel pre-processor Tokompiler, showcasing the ability of domain-specific models to assist in HPC-relevant tasks. | 翻訳日:2023-12-22 17:00:36 公開日:2023-12-20 |
# in2set:デュアルカメラ圧縮ハイパースペクトルイメージングのための相互間類似性を利用したトランスフォーマー In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral Imaging ( http://arxiv.org/abs/2312.13319v1 ) ライセンス: Link先を確認 | Xin Wang, Lizhi Wang, Xiangtian Ma, Maoqing Zhang, Lin Zhu, Hua Huang | (参考訳) Dual-Camera Compressed Hyperspectral Imaging (DCCHI)は、3Dハイパースペクトル画像(HSI)を圧縮およびパンクロマティック(PAN)画像に融合させて再構成する機能を提供する。
本稿では,新しいDCCHI再構成ネットワークであるIntra-Inter similarity Exploiting Transformer(In2SET)を紹介する。
私たちの重要な洞察は、PANイメージをフル活用して再建を支援することです。
そこで本研究では, PAN画像内の類似度を, 元のHSIの類似度を近似するプロキシとして利用し, より正確なHSI再構成に先立って, 拡張コンテンツを提供することを提案する。
さらに,基礎となるHSIとPAN画像の特徴を一致させ,意味的整合性を維持し,再構築プロセスに新たなコンテキスト情報を導入することを目的とする。
In2SETを Pan-Guided Unrolling フレームワークに統合することにより,再構成画像の空間スペクトルの忠実度と詳細性を大幅に向上し,より包括的で正確なシーン描写を実現する。
実データとシミュレーションデータの両方で行った広範な実験により,本手法は,コンストラクション品質と計算複雑性の観点から,既存の最先端手法を一貫して上回っていることが示された。
コードはリリースされる。 Dual-Camera Compressed Hyperspectral Imaging (DCCHI) offers the capability to reconstruct 3D Hyperspectral Image (HSI) by fusing compressive and Panchromatic (PAN) image, which has shown great potential for snapshot hyperspectral imaging in practice. In this paper, we introduce a novel DCCHI reconstruction network, the Intra-Inter Similarity Exploiting Transformer (In2SET). Our key insight is to make full use of the PAN image to assist the reconstruction. To this end, we propose using the intra-similarity within the PAN image as a proxy for approximating the intra-similarity in the original HSI, thereby offering an enhanced content prior for more accurate HSI reconstruction. Furthermore, we aim to align the features from the underlying HSI with those of the PAN image, maintaining semantic consistency and introducing new contextual information for the reconstruction process. By integrating In2SET into a PAN-guided unrolling framework, our method substantially enhances the spatial-spectral fidelity and detail of the reconstructed images, providing a more comprehensive and accurate depiction of the scene. Extensive experiments conducted on both real and simulated datasets demonstrate that our approach consistently outperforms existing state-of-the-art methods in terms of reconstruction quality and computational complexity. Code will be released. | 翻訳日:2023-12-22 17:00:03 公開日:2023-12-20 |
# 低軌道におけるワンショット初期軌道決定 One-Shot Initial Orbit Determination in Low-Earth Orbit ( http://arxiv.org/abs/2312.13318v1 ) ライセンス: Link先を確認 | Ricardo Ferreira, Marta Guimar\~aes, Filipa Valdeira, Cl\'audia Soares | (参考訳) 社会における衛星の重要性と、軌道上の天体の指数的な増加のため、これらの居住空間オブジェクト(RSO)の状態(例えば、位置と速度)を、いつでもタイムリーに正確に決定することが重要である。
初期軌道決定のための最先端の方法論は、拡張カルマンフィルタ(英語版)(EKF)と同様に、時間とともに逐次データを処理し、物体の状態と関連する不確実性を返すカルマン型フィルタからなる。
しかしながら、これらの手法は状態ベクトルのよい初期推定に依存しており、大気抵抗や太陽放射圧などの摂動力を正確にモデル化するのは難しいため、通常は物理的力学モデルを単純化する。
他のアプローチでは、トリラテレーション法のような力学系に関する仮定は必要とせず、特にトリラテレーションの場合のレンジとレンジレートの3つの測定のような同時測定を必要とする。
我々は,時間遅延とドップラーシフト測定を併用した同時測定(ワンショット)について検討した。
ソナー多重静電システムの移動目標定位問題における最近の進展に基づき、初期軌道決定問題を重み付き最小二乗として定式化することができる。
このアプローチにより、Fisher's Information Matrix (FIM) からオブジェクトの状態(位置と速度)と関連する共分散行列を直接取得できる。
小さい雑音に対して,我々の推定器はCram\'er-Rao下界の精度,すなわち最小分散の非バイアス推定器で得られる精度を達成できることを実証する。
また, この推定器は, 三角法よりも状態推定精度が向上し, 推定に係わる不確実性が小さいことを数値的に示す。 Due to the importance of satellites for society and the exponential increase in the number of objects in orbit, it is important to accurately determine the state (e.g., position and velocity) of these Resident Space Objects (RSOs) at any time and in a timely manner. State-of-the-art methodologies for initial orbit determination consist of Kalman-type filters that process sequential data over time and return the state and associated uncertainty of the object, as is the case of the Extended Kalman Filter (EKF). However, these methodologies are dependent on a good initial guess for the state vector and usually simplify the physical dynamical model, due to the difficulty of precisely modeling perturbative forces, such as atmospheric drag and solar radiation pressure. Other approaches do not require assumptions about the dynamical system, such as the trilateration method, and require simultaneous measurements, such as three measurements of range and range-rate for the particular case of trilateration. We consider the same setting of simultaneous measurements (one-shot), resorting to time delay and Doppler shift measurements. Based on recent advancements in the problem of moving target localization for sonar multistatic systems, we are able to formulate the problem of initial orbit determination as a Weighted Least Squares. With this approach, we are able to directly obtain the state of the object (position and velocity) and the associated covariance matrix from the Fisher's Information Matrix (FIM). We demonstrate that, for small noise, our estimator is able to attain the Cram\'er-Rao Lower Bound accuracy, i.e., the accuracy attained by the unbiased estimator with minimum variance. We also numerically demonstrate that our estimator is able to attain better accuracy on the state estimation than the trilateration method and returns a smaller uncertainty associated with the estimation. | 翻訳日:2023-12-22 16:59:38 公開日:2023-12-20 |
# ディープハイブリッドカメラの劣化 Deep Hybrid Camera Deblurring ( http://arxiv.org/abs/2312.13317v1 ) ライセンス: Link先を確認 | Jaesung Rim and Junyong Lee and Heemin Yang and Sunghyun Cho | (参考訳) モバイルカメラは、大きな進歩にもかかわらず、コンパクトなセンサーとレンズによって依然として低照度の課題に直面している。
ブラインドデコンボリューションや学習ベースの手法のような従来のソリューションは、しばしばデバリング問題の不適切さを扱うのに不足する。
そこで本稿では,ハイブリッドイメージング技術を用いて,マルチカメラスマートフォンのための新しいデブラリングフレームワークを提案する。
我々は,スマートフォンから長時間露光された広角画像と超広角バースト画像を同時に撮影し,シャープバーストを用いて広角画像のぼやけたカーネルを推定する。
ネットワークの学習と評価のために,ぼやけた広角画像と鋭い超広角バースト画像のペアと,鋭い広角画像を含むhcblurデータセットを紹介する。
提案手法を広範囲に評価し,その結果,最先端の品質を示す。 Mobile cameras, despite their significant advancements, still face low-light challenges due to compact sensors and lenses, leading to longer exposures and motion blur. Traditional solutions like blind deconvolution and learning-based methods often fall short in handling ill-posedness of the deblurring problem. To address this, we propose a novel deblurring framework for multi-camera smartphones, utilizing a hybrid imaging technique. We simultaneously capture a long exposure wide-angle image and ultra-wide burst images from a smartphone, and use the sharp burst to estimate blur kernels for deblurring the wide-angle image. For learning and evaluation of our network, we introduce the HCBlur dataset, which includes pairs of blurry wide-angle and sharp ultra-wide burst images, and their sharp wide-angle counterparts. We extensively evaluate our method, and the result shows the state-of-the-art quality. | 翻訳日:2023-12-22 16:59:08 公開日:2023-12-20 |
# 非アベリアゲージ理論のための固有状態熱化仮説の検証 Testing Eigenstate Thermalization Hypothesis for Non-Abelian Gauge Theories ( http://arxiv.org/abs/2312.13408v1 ) ライセンス: Link先を確認 | Xiaojun Yao, Lukas Ebner, Berndt M\"uller, Andreas Sch\"afer and Clemens Seidl | (参考訳) 非可換ゲージ理論における熱化の量子理解の進展について報告する。
具体的には、(2+1)次元SU(2)格子ゲージ理論の固有状態熱化仮説をテストする。 We report on progress in full quantum understanding of thermalization in non-Abelian gauge theories. Specifically, we test the eigenstate thermalization hypothesis for (2+1)-dimensional SU(2) lattice gauge theory. | 翻訳日:2023-12-22 16:52:12 公開日:2023-12-20 |
# 量子チャネルのゼロエラー容量の条件 A condition for the zero-error capacity of quantum channels ( http://arxiv.org/abs/2312.13406v1 ) ライセンス: Link先を確認 | Marciel M. Oliveira, Francisco M. de Assis and Micael A. Dias | (参考訳) 本稿では,量子チャネルのゼロエラー容量の条件を提案する。
この結果を達成するために、量子チャネルを表すクラウス作用素に共通な固有ベクトル(あるいは固有状態)がチャネルの不動点であることを最初に証明する。
この事実から、これらのクラウス作用素が少なくとも2つの固有状態を持つと仮定し、全ての量子チャネルが少なくとも1つの固定点を持つことを考慮すれば、量子チャネルのゼロエラー能力は正であることが証明される。
さらに、このゼロエラー容量条件は、量子チャネルのゼロエラー容量に対する下限である。
この量子チャネルのゼロエラー容量条件は、量子チャネルを表すクラウス作用素を知っている場合の検証が容易であるという特徴を持つ。 In this paper, we present a condition for the zero-error capacity of quantum channels. To achieve this result we first prove that the eigenvectors (or eigenstates) common to the Kraus operators representing the quantum channel are fixed points of the channel. From this fact and assuming that these Kraus operators have at least two eigenstates in common and also considering that every quantum channel has at least one fixed point, it is proved that the zero-error capacity of the quantum channel is positive. Moreover, this zero-error capacity condition is a lower bound for the zero-error capacity of the quantum channel. This zero-error capacity condition of quantum channels has a peculiar feature that it is easy to verify when one knows the Kraus operators representing the quantum channel. | 翻訳日:2023-12-22 16:52:10 公開日:2023-12-20 |
# 円形翼形状推定のための充填型サーロゲートモデル Packed-Ensemble Surrogate Models for Fluid Flow Estimation Arround Airfoil Geometries ( http://arxiv.org/abs/2312.13403v1 ) ライセンス: Link先を確認 | Anthony Kalaydjian, Anton Balykov, Alexi Semiz, Adrien Chan-Hon-Tong | (参考訳) 物理ベースのシミュレーションは非常に時間と計算に要求されるタスクである。
これらのプロセスを加速する1つの方法は、既存のシミュレーションから学ぶデータ駆動の代理モデルを使用することである。
センシング法は、その滑らかさ特性が物理現象の滑らかさと一致するため、この領域で特に関係がある。
欠点は、コストがかかることだ。
この研究プロジェクトは、ディープ・アンサンブルを一般化するが訓練を速くするパッケージ・アンサンブルの研究に焦点を当てた。
いくつかのモデルがトレーニングされ、複数の重要な指標で比較されている。
pe(8,4,1)は、このタスクの明確な勝者として特定されており、トレーニング時間を25%短縮しながら、深いアンサンブルのコンタパートを打ち負かしている。 Physical based simulations can be very time and computationally demanding tasks. One way of accelerating these processes is by making use of data-driven surrogate models that learn from existing simulations. Ensembling methods are particularly relevant in this domain as their smoothness properties coincide with the smoothness of physical phenomena. The drawback is that they can remain costly. This research project focused on studying Packed-Ensembles that generalize Deep Ensembles but remain faster to train. Several models have been trained and compared in terms of multiple important metrics. PE(8,4,1) has been identified as the clear winner in this particular task, beating down its Deep Ensemble conterpart while accelerating the training time by 25%. | 翻訳日:2023-12-22 16:51:57 公開日:2023-12-20 |
# 微調整言語モデルの重みに時間がエンコードされる Time is Encoded in the Weights of Finetuned Language Models ( http://arxiv.org/abs/2312.13401v1 ) ライセンス: Link先を確認 | Kai Nylund, Suchin Gururangan, Noah A. Smith | (参考訳) 新しい期間に言語モデルをカスタマイズするためのシンプルなツールであるtime vectorsを提案する。
時間ベクトルは、単一の時間(例えば、1年または月)からデータに基づいて言語モデルを微調整し、元の事前学習されたモデルの重みを減じて作成される。
このベクトルは、我々の実験が示すように、その期間からテキストの性能を向上させる重量空間の方向を特定する。
隣接した時間周期に特化した時間ベクトルは、多様体内でより近い位置にあるように見える。
この構造を用いて、時間ベクトル間の補間を行い、追加のトレーニングをすることなく、インターベンションと将来の時間により良いパフォーマンスを示す新しいモデルを誘導する。
我々は、異なるタスク、ドメイン、モデルサイズ、時間スケールにわたる発見の一貫性を実証する。
以上の結果から,時間は微調整モデルの重み空間に符号化されることが示唆された。 We present time vectors, a simple tool to customize language models to new time periods. Time vectors are created by finetuning a language model on data from a single time (e.g., a year or month), and then subtracting the weights of the original pretrained model. This vector specifies a direction in weight space that, as our experiments show, improves performance on text from that time period. Time vectors specialized to adjacent time periods appear to be positioned closer together in a manifold. Using this structure, we interpolate between time vectors to induce new models that perform better on intervening and future time periods, without any additional training. We demonstrate the consistency of our findings across different tasks, domains, model sizes, and time scales. Our results suggest that time is encoded in the weight space of finetuned models. | 翻訳日:2023-12-22 16:51:43 公開日:2023-12-20 |
# SICと三角形群(3,3,3) SICs and the triangle group (3,3,3) ( http://arxiv.org/abs/2312.13400v1 ) ライセンス: Link先を確認 | Danylo Yakymenko | (参考訳) 対称情報完備な正値測度 (SICs for short) がすべての次元に存在するという問題は、ザウナー予想として知られており、今日まで残っている。
既知のSICの例のほとんどは、ワイル・ハイゼンベルク群の作用の軌道として構成されている。
これらの場合、sic はワイル・ハイゼンベルク群の自己同型を定義するいわゆる正準位 3 ユニタリの下で不変であるように見える。
この注記では、これらの順序 3 ユニタリは、三角形群 $(3,3,3)$ の射影ユニタリ表現に現れる。
このような表現の完全な記述と、正準次数 3 のユニタリの構造に関する結果を得るためにどのように使用できるかを示す。
特に、任意の正準位数 3 が、次元 $d>3$ が素数であれば、ザウナーのユニタリに共役であるという事実を証明する別の方法を示す。 The problem of existence of symmetric informationally-complete positive operator-valued measures (SICs for short) in every dimension is known as Zauner's conjecture and remains open to this day. Most of the known SIC examples are constructed as an orbit of the Weyl-Heisenberg group action. It appears that in these cases SICs are invariant under so-called canonical order 3 unitaries, which define automorphisms of the Weyl-Heisenberg group. In this note we show that those order 3 unitaries appear in projective unitary representations of the triangle group $(3,3,3)$. We give a full description of such representations and show how it can be used to obtain results about the structure of canonical order 3 unitaries. In particular, we present an alternative way of proving the fact that any canonical order 3 unitary is conjugate to Zauner's unitary if dimension $d>3$ is prime. | 翻訳日:2023-12-22 16:51:28 公開日:2023-12-20 |
# 低温原子実験の最適化のための機械学習アルゴリズムのレビューと実験的ベンチマーク Review and experimental benchmarking of machine learning algorithms for efficient optimization of cold atom experiments ( http://arxiv.org/abs/2312.13397v1 ) ライセンス: Link先を確認 | Oliver Anton, Victoria A. Henderson, Elisa Da Ros, Ivan Sekulic, Sven Burger, Philipp-Immanuel Schneider, Markus Krutzik | (参考訳) コールド原子雲の生成は、高次元パラメータ空間におけるノイズデータの最適化を含む複雑なプロセスである。
最適化は、時間、専門知識の欠如、長い手動最適化へのアクセスのため、特に研究室の外では難しい場合がある。
近年,実験自体の知識を必要とせず,高次元問題を迅速に最適化できるため,機械学習が解を提供することが示された。
本稿では,ルビジウム(Rb)低温原子実験の最適化とともに,9種類の最適化手法と実装のベンチマーク結果を示す。
実験は10と18の調整可能なパラメータを持つ3D $^{87}$Rbモラスで行われ、そこで吸収イメージングにより得られた原子番号が試験問題として選択された。
さらに、2D+MOTの原子蒸気圧と検出レーザ周波数の安定性を適応させることにより、画像の信号対雑音比を低減し、異なる有効雑音条件下での最適なオプティマイザを比較する。 The generation of cold atom clouds is a complex process which involves the optimization of noisy data in high dimensional parameter spaces. Optimization can be challenging both in and especially outside of the lab due to lack of time, expertise, or access for lengthy manual optimization. In recent years, it was demonstrated that machine learning offers a solution since it can optimize high dimensional problems quickly, without knowledge of the experiment itself. In this paper we present results showing the benchmarking of nine different optimization techniques and implementations, alongside their ability to optimize a Rubidium (Rb) cold atom experiment. The investigations are performed on a 3D $^{87}$Rb molasses with 10 and 18 adjustable parameters, respectively, where the atom number obtained by absorption imaging was chosen as the test problem. We further compare the best performing optimizers under different effective noise conditions by reducing the Signal-to-Noise ratio of the images via adapting the atomic vapor pressure in the 2D+ MOT and the detection laser frequency stability. | 翻訳日:2023-12-22 16:51:09 公開日:2023-12-20 |
# EPNet: 計算要求を低減したシングルイメージ超解像高効率ピラミッドネットワーク EPNet: An Efficient Pyramid Network for Enhanced Single-Image Super-Resolution with Reduced Computational Requirements ( http://arxiv.org/abs/2312.13396v1 ) ライセンス: Link先を確認 | Xin Xu, Jinman Park and Paul Fieguth | (参考訳) シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
しかし、既存の手法のかなりの計算およびメモリ要件は、しばしば実用的応用を制限する。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法,特に計算効率の限界を克服する,EPNet(Efficient Pyramid Network)を提案する。
ESPMはピラミッドベースのチャネル分離戦略を適用し、計算効率を維持しながら特徴抽出を促進する。
cnnとトランスフォーマー構造の新規な融合であるpfemは、局所的およびグローバルな特徴の同時抽出を可能にし、画像景観のパノラマビューを提供する。
我々のアーキテクチャはPFEMを統合し、特徴情報の簡潔な交換を容易にし、画像テクスチャの詳細をさらに洗練することができる。
実験結果から,本モデルは既存手法よりも画質が優れており,計算コストやメモリコストも大幅に削減できることがわかった。
本研究は、コンピュータビジョンの分野においてより広範な意味を持つ、効率的かつ実用的なSISR方法論の進化に寄与する。 Single-image super-resolution (SISR) has seen significant advancements through the integration of deep learning. However, the substantial computational and memory requirements of existing methods often limit their practical application. This paper introduces a new Efficient Pyramid Network (EPNet) that harmoniously merges an Edge Split Pyramid Module (ESPM) with a Panoramic Feature Extraction Module (PFEM) to overcome the limitations of existing methods, particularly in terms of computational efficiency. The ESPM applies a pyramid-based channel separation strategy, boosting feature extraction while maintaining computational efficiency. The PFEM, a novel fusion of CNN and Transformer structures, enables the concurrent extraction of local and global features, thereby providing a panoramic view of the image landscape. Our architecture integrates the PFEM in a manner that facilitates the streamlined exchange of feature information and allows for the further refinement of image texture details. Experimental results indicate that our model outperforms existing state-of-the-art methods in image resolution quality, while considerably decreasing computational and memory costs. This research contributes to the ongoing evolution of efficient and practical SISR methodologies, bearing broader implications for the field of computer vision. | 翻訳日:2023-12-22 16:50:51 公開日:2023-12-20 |
# イノベーションによる最適化の強化:マルチストラテジー改善ブラックウィドウ最適化アルゴリズム(MSBWOA) Enhancing Optimization Through Innovation: The Multi-Strategy Improved Black Widow Optimization Algorithm (MSBWOA) ( http://arxiv.org/abs/2312.13395v1 ) ライセンス: Link先を確認 | Xin Xu | (参考訳) 本稿では,複雑な最適化問題の解法における標準ブラックウィドウアルゴリズム(BW)の性能向上を目的としたマルチストラテジー改良ブラックウィドウ最適化アルゴリズム(MSBWOA)を提案する。
提案アルゴリズムは,多様性と探索能力を高めるためにテントカオスマッピングを用いて人口を初期化すること,動的集団の維持と早期収束を防ぐために最も適していない個体に突然変異を最適化すること,グローバルな探索と局所的利用のバランスをとるために非線形慣性重みを組み込むこと,局所的オプティマから逃れるためのランダムな摂動戦略を追加すること,の4つの主要な戦略を統合する。
一連の標準的なテスト機能を通じて評価され、MSBWOAは様々な次元、特に収束速度と解の質において、大幅な性能向上を示す。
実験の結果,従来のBWアルゴリズムや既存の最適化手法と比較して,MSBWOAは様々な最適化問題に対処する際の安定性と効率性が向上していることがわかった。
これらの結果は,提案手法の有効性を検証し,複雑な最適化課題に対する新しい解法を提案する。 This paper introduces a Multi-Strategy Improved Black Widow Optimization Algorithm (MSBWOA), designed to enhance the performance of the standard Black Widow Algorithm (BW) in solving complex optimization problems. The proposed algorithm integrates four key strategies: initializing the population using Tent chaotic mapping to enhance diversity and initial exploratory capability; implementing mutation optimization on the least fit individuals to maintain dynamic population and prevent premature convergence; incorporating a non-linear inertia weight to balance global exploration and local exploitation; and adding a random perturbation strategy to enhance the algorithm's ability to escape local optima. Evaluated through a series of standard test functions, the MSBWOA demonstrates significant performance improvements in various dimensions, particularly in convergence speed and solution quality. Experimental results show that compared to the traditional BW algorithm and other existing optimization methods, the MSBWOA exhibits better stability and efficiency in handling a variety of optimization problems. These findings validate the effectiveness of the proposed strategies and offer a new solution approach for complex optimization challenges. | 翻訳日:2023-12-22 16:50:29 公開日:2023-12-20 |
# MUST(Multistage Smpling Technique)によるプライバシ、ユーティリティ、計算効率のトレードオフの強化 Enhancing Trade-offs in Privacy, Utility, and Computational Efficiency through MUltistage Sampling Technique (MUST) ( http://arxiv.org/abs/2312.13389v1 ) ライセンス: Link先を確認 | Xingyuan Zhao, Fang Liu | (参考訳) データセット全体ではなくデータセットのサブセットにランダム化アルゴリズムを適用することは、リリース情報におけるプライバシの保証を強化する一般的なアプローチである。
差分プライバシー(DP)の文脈において,プライバシ増幅(PA)のためのMUST(MUltistage Smpling Technique)というサブサンプリング手法のクラスを提案する。
2段階の必須手続きである must.wo, must.ow, must.ww を,それぞれ (w), without (o), with (w) でサンプリングし, (o), without (w) でサンプリングし, stage i で描画された部分集合から stage ii で (w) を置換して,pa 効果と有用性を包括的に解析する。
また、フーリエ会計アルゴリズムを用いてMUSTの繰り返し適用に関するプライバシー構成分析を行う。
理論的および実証的な結果から,MUST.OWとMUST.WWのPA値が,ポアソンサンプリング,交換なしサンプリング,置換によるサンプリングを含む一般的な1段階サンプリング法よりも強いことが示唆された。
また、MUST.WOはPAで置換したサンプリングと等価であることを示す。
さらに、MUSTプロシージャによって生成される最後のサブセットはマルチセットであり、同一のデータポイントの複数のコピーを含むことができるため、異なるデータポイント(例えば勾配降下)で複雑な関数計算を必要とするアルゴリズムの計算効率が向上する。
我々のユーティリティ実験は、MUSTが同様の、または改善されたユーティリティと安定性をプライバシー保護出力で提供することを示す。
MUSTは、DP保証が必要な場合、並列または同時サブサンプリング(例えば、バッグとサブサンプリングブートストラップ)を含む確率最適化アルゴリズムや手順にシームレスに統合することができる。 Applying a randomized algorithm to a subset of a dataset rather than the entire dataset is a common approach to amplify its privacy guarantees in the released information. We propose a class of subsampling methods named MUltistage Sampling Technique (MUST) for privacy amplification (PA) in the context of differential privacy (DP). We conduct comprehensive analyses of the PA effects and utility for several 2-stage MUST procedures, namely, MUST.WO, MUST.OW, and MUST.WW that respectively represent sampling with (W), without (O), with (W) replacement from the original dataset in stage I and then sampling without (O), with (W), with (W) replacement in stage II from the subset drawn in stage I. We also provide the privacy composition analysis over repeated applications of MUST via the Fourier accountant algorithm. Our theoretical and empirical results suggest that MUST.OW and MUST.WW have stronger PA in $\epsilon$ than the common one-stage sampling procedures including Poisson sampling, sampling without replacement, and sampling with replacement, while the results on $\delta$ vary case by case. We also prove that MUST.WO is equivalent to sampling with replacement in PA. Furthermore, the final subset generated by a MUST procedure is a multiset that may contain multiple copies of the same data points due to sampling with replacement involved, which enhances the computational efficiency of algorithms that require complex function calculations on distinct data points (e.g., gradient descent). Our utility experiments show that MUST delivers similar or improved utility and stability in the privacy-preserving outputs compared to one-stage subsampling methods at similar privacy loss. MUST can be seamlessly integrated into stochastic optimization algorithms or procedures that involve parallel or simultaneous subsampling (e.g., bagging and subsampling bootstrap) when DP guarantees are necessary. | 翻訳日:2023-12-22 16:50:03 公開日:2023-12-20 |
# 時間的量子情報スクランブルと創発的メレオロジー Long-time Quantum Information Scrambling and Emergent Mereology ( http://arxiv.org/abs/2312.13386v1 ) ライセンス: Link先を確認 | Faidon Andreadakis, Emanuel Dallas, Paolo Zanardi | (参考訳) Zanardi et al. (arXiv:2212.14340) による最近の研究は、量子系の各パーティションを操作的サブ代数に関連付けており、代数的アウト・オブ・タイム・オーダー・コレレータ($\mathcal{A}$-OTOC)の短期的な成長は、系のユニタリ力学から自然にパーティションが生じるかを決定するのに適した基準である。
我々はこの仕事を長期体制に拡張する。
具体的には、$\mathcal{A}$-OTOCの長期平均がサブシステムの出現の指標となる。
この枠組みの下では、自然システムの分割は、長期間のスケールで情報を最小にスクランブルする傾向によって特徴づけられる。
非共鳴条件下での$\mathcal{A}$-OTOC long-time averageの解析式を導出する。
次に、いくつかの実例を考察し、代数の関連族に対して解析的および数値的にこの量の最小化を行う。
非共振条件の単純な場合では、最小の$\mathcal{a}$-otoc の長い時間平均は、創発的な系分割を横断するハミルトン固有状態の最小の絡み合いに関係している。
最後に、我々は非共鳴ハミルトニアンの平均を最小化する代数の一般構造についての予想と証拠を提供する。 Recent work by Zanardi et al. (arXiv:2212.14340) has associated each possible partition of a quantum system with an operational subalgebra and proposed that the short-time growth of the algebraic out-of-time-order-correlator ("$\mathcal{A}$-OTOC") is a suitable criterion to determine which partition arises naturally from the system's unitary dynamics. We extend this work to the long-time regime. Specifically, the long-time average of the $\mathcal{A}$-OTOC serves as our metric of subsystem emergence. Under this framework, natural system partitions are characterized by the tendency to minimally scramble information over long time scales. We derive an analytic expression for the $\mathcal{A}$-OTOC long-time average under the non-resonance condition. We then consider several physical examples and perform minimization of this quantity both analytically and numerically over relevant families of algebras. For simple cases subject to the non-resonant condition, minimal $\mathcal{A}$-OTOC long-time average is shown to be related to minimal entanglement of the Hamiltonian eigenstates across the emergent system partition. Finally, we conjecture and provide evidence for a general structure of the algebra that minimizes the average for non-resonant Hamiltonians. | 翻訳日:2023-12-22 16:49:21 公開日:2023-12-20 |
# orbslam3による自律型玩具ドローン:室内探査の先駆者 ORBSLAM3-Enhanced Autonomous Toy Drones: Pioneering Indoor Exploration ( http://arxiv.org/abs/2312.13385v1 ) ライセンス: Link先を確認 | Murad Tukan, Fares Fares, Yotam Grufinkle, Ido Talmor, Loay Mualem, Vladimir Braverman, Dan Feldman | (参考訳) おもちゃのドローンを非チャージされたGPSで屋内空間を移動させることは、位置決定にGPSに依存するため、重大な困難を伴う。
このような状況下では、適切なナビゲーションを実現する必要性が主な関心事である。
この難題に対応するために,単眼カメラを搭載したドローンに適した,リアルタイムの屋内探査システムを導入する。
我々のシステムは、最先端のビジョン機能ベースのSLAMである‘emph{ORB-SLAM3}を使って、おもちゃドローンのローカライゼーションと、マッピングされていない屋内地形のマッピングの両方を処理している。
emph{orb-slam3} の実用性とは別に、生成されたマップはスパースポイント雲として表現され、外れたデータの存在に近づいた。
この課題に対処するため,証明可能な保証付き外乱除去アルゴリズムを提案する。
さらに,新しい出口検出アルゴリズムを導入し,おもちゃのドローンによる室内環境中連続探査を実現する。
また、スパースポイントを変換して、既存のパスプランナを用いた適切なパス計画を保証する。
提案システムの有効性と有効性を検証するため,室内空間の自律探索に関するオフラインおよびリアルタイム実験を行った。
これらの成果は,本手法の有効性を示すものである。 Navigating toy drones through uncharted GPS-denied indoor spaces poses significant difficulties due to their reliance on GPS for location determination. In such circumstances, the necessity for achieving proper navigation is a primary concern. In response to this formidable challenge, we introduce a real-time autonomous indoor exploration system tailored for drones equipped with a monocular \emph{RGB} camera. Our system utilizes \emph{ORB-SLAM3}, a state-of-the-art vision feature-based SLAM, to handle both the localization of toy drones and the mapping of unmapped indoor terrains. Aside from the practicability of \emph{ORB-SLAM3}, the generated maps are represented as sparse point clouds, making them prone to the presence of outlier data. To address this challenge, we propose an outlier removal algorithm with provable guarantees. Furthermore, our system incorporates a novel exit detection algorithm, ensuring continuous exploration by the toy drone throughout the unfamiliar indoor environment. We also transform the sparse point to ensure proper path planning using existing path planners. To validate the efficacy and efficiency of our proposed system, we conducted offline and real-time experiments on the autonomous exploration of indoor spaces. The results from these endeavors demonstrate the effectiveness of our methods. | 翻訳日:2023-12-22 16:48:55 公開日:2023-12-20 |
# DSPy Assertions:自己精製言語モデルパイプラインの計算制約 DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines ( http://arxiv.org/abs/2312.13382v1 ) ライセンス: Link先を確認 | Arnav Singhvi, Manish Shetty, Shangyin Tan, Christopher Potts, Koushik Sen, Matei Zaharia, Omar Khattab | (参考訳) 組込み言語モデル(LM)は構成可能なモジュールと呼ばれ、新しい強力なプログラミング方法を生み出している。
しかし、LMが重要な制約に従うことを保証することは重要な課題であり、しばしばヒューリスティックな「プロンプトエンジニアリング」で対処される。
lmsが満たすべき計算制約を表現するための新しいプログラミング構成であるlmアサーションを紹介する。
我々は、最近のDSPyプログラミングモデルと統合し、DSPyが任意のLMアサーションでプログラムをより信頼性と精度の高いシステムにコンパイルできる新しい戦略を提案する。
dspyでは、lmアサーションはコンパイル時に、自動的なプロンプト最適化および/または推論時間を通じて、自動自己定義とバックトラッキングによって統合することができる。
本稿では,複合質問応答 (QA) の2つの早期事例について報告し,LMプログラムは複数のホップの情報を反復的に検索し,長文の回答を引用とともに合成しなければならない。
LMアサーションは、規定やガイドラインの遵守だけでなく、ダウンストリームタスクのパフォーマンスも向上し、それぞれ35.7%と13.3%の内在的なゲインを提供する。
LM Assertionsのリファレンス実装は、https://github.com/stanfordnlp/dspyでDSPyに統合されます。 Chaining language model (LM) calls as composable modules is fueling a new powerful way of programming. However, ensuring that LMs adhere to important constraints remains a key challenge, one often addressed with heuristic "prompt engineering". We introduce LM Assertions, a new programming construct for expressing computational constraints that LMs should satisfy. We integrate our constructs into the recent DSPy programming model for LMs, and present new strategies that allow DSPy to compile programs with arbitrary LM Assertions into systems that are more reliable and more accurate. In DSPy, LM Assertions can be integrated at compile time, via automatic prompt optimization, and/or at inference time, via automatic selfrefinement and backtracking. We report on two early case studies for complex question answering (QA), in which the LM program must iteratively retrieve information in multiple hops and synthesize a long-form answer with citations. We find that LM Assertions improve not only compliance with imposed rules and guidelines but also enhance downstream task performance, delivering intrinsic and extrinsic gains up to 35.7% and 13.3%, respectively. Our reference implementation of LM Assertions is integrated into DSPy at https://github.com/stanfordnlp/dspy | 翻訳日:2023-12-22 16:48:35 公開日:2023-12-20 |
# Fed-QSSL: ビット幅とデータの均一性の下での個人化フェデレーション学習のためのフレームワーク Fed-QSSL: A Framework for Personalized Federated Learning under Bitwidth and Data Heterogeneity ( http://arxiv.org/abs/2312.13380v1 ) ライセンス: Link先を確認 | Yiyue Chen, Haris Vikalo, Chianing Wang | (参考訳) 集中型機械学習スキームの高リソースコストとデータプライバシの懸念により、フェデレーション学習(FL)は、クライアントの潜在的プライベートデータを集めるのではなく、ローカルにトレーニングされたモデルの集約に依存する効率的な代替手段として登場した。
実際には、利用可能なリソースとデータ分布はクライアントによって異なるため、従来のFLアルゴリズムの性能が低下する固有のシステム不均一性を生成する。
本稿では,flシステムの不均一性に対処するために設計された,フェデレート量子化に基づく自己教師付き学習方式(fed-qssl)を提案する。
クライアント側では、データの不均一性に取り組むために、ローカルインフラストラクチャや限られた通信リソースの制約を満たすために、低ビット量子化を活用しながら分散自己教師付き学習を利用する。
サーバ側では、Fed-QSSLは非量子化、重み付けされたアグリゲーション、再量子化をデプロイし、最終的に各クライアントのデバイスの特定のインフラストラクチャだけでなく、データ分散の両方にパーソナライズされたモデルを作成する。
提案アルゴリズムを実世界データセット上で検証し,その効果を実証し,学習モデルの収束性とロバスト性に対する低ビットトレーニングの影響を理論的に解析した。 Motivated by high resource costs of centralized machine learning schemes as well as data privacy concerns, federated learning (FL) emerged as an efficient alternative that relies on aggregating locally trained models rather than collecting clients' potentially private data. In practice, available resources and data distributions vary from one client to another, creating an inherent system heterogeneity that leads to deterioration of the performance of conventional FL algorithms. In this work, we present a federated quantization-based self-supervised learning scheme (Fed-QSSL) designed to address heterogeneity in FL systems. At clients' side, to tackle data heterogeneity we leverage distributed self-supervised learning while utilizing low-bit quantization to satisfy constraints imposed by local infrastructure and limited communication resources. At server's side, Fed-QSSL deploys de-quantization, weighted aggregation and re-quantization, ultimately creating models personalized to both data distribution as well as specific infrastructure of each client's device. We validated the proposed algorithm on real world datasets, demonstrating its efficacy, and theoretically analyzed impact of low-bit training on the convergence and robustness of the learned models. | 翻訳日:2023-12-22 16:48:13 公開日:2023-12-20 |
# 深部近似空間のサンプリング複雑性 Sampling Complexity of Deep Approximation Spaces ( http://arxiv.org/abs/2312.13379v1 ) ライセンス: Link先を確認 | Ahmed Abdeljawad, Philipp Grohs | (参考訳) ニューラルネットワークは優れた近似能力を持っていることはよく知られているが、ポイントサンプルからそのような近似を計算することは大きな課題である。
情報に基づく複雑さのツールに基づいて、grohsとvoigtlaenderの最近の研究(journal of the focm (2023))は、このいわゆる「理論と実践のギャップ」を評価するための厳格な枠組みを開発した。
より正確には、この研究において、ReLUアクティベーション関数を持つニューラルネットワークによって任意の速度で近似できる関数が存在することが示され、その数値計算には指数的に(入力次元において)サンプルの数を必要とする。
本研究は、ReQU活性化関数に類似した結果を示すことにより、これらの知見を拡張した。 While it is well-known that neural networks enjoy excellent approximation capabilities, it remains a big challenge to compute such approximations from point samples. Based on tools from Information-based complexity, recent work by Grohs and Voigtlaender [Journal of the FoCM (2023)] developed a rigorous framework for assessing this so-called "theory-to-practice gap". More precisely, in that work it is shown that there exist functions that can be approximated by neural networks with ReLU activation function at an arbitrary rate while requiring an exponentially growing (in the input dimension) number of samples for their numerical computation. The present study extends these findings by showing analogous results for the ReQU activation function. | 翻訳日:2023-12-22 16:47:50 公開日:2023-12-20 |
# sada: 時間的行動局所化のための意味的敵対的非教師なしドメイン適応 SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization ( http://arxiv.org/abs/2312.13377v1 ) ライセンス: Link先を確認 | David Pujol-Perich, Albert Clap\'es and Sergio Escalera | (参考訳) 時間的アクションローカライゼーション(TAL)は複雑なタスクであり、特に現実世界のアプリケーションで新しい-目に見えない-ドメインを一般化しようとする場合に、関連する課題を引き起こす。
これらのシナリオは現実的であるにもかかわらず、文献ではしばしば無視され、これらのソリューションが重要なパフォーマンス劣化を引き起こす。
本研究では,SADA(Semantic Adversarial Unsupervised Domain Adaptation)と呼ぶ,非教師付きドメイン適応(Unsupervised Domain Adaptation, UDA)のスパースTALへのアプローチを初めて導入することによって,この問題に対処する。
我々は,(1)現実的なスパース行動検出ベンチマークを用いたドメイン適応モデルの開発を開拓し,(2)局所的なクラス分布に敏感で,よりきめ細かい適応を確保できる新たな逆方向の損失を導入することにより,グローバルな分散アライメント手法の限界に対処し,(3)EpicKitchens100をベースとした,複数のタイプのドメインシフトを包括的に評価する新しい実験的なセットアップを提案する。
以上の結果から,SADAは完全教師付きおよび代替UDA手法と比較して,ドメイン間の適応性を向上し,相対的な性能が最大14%向上することが示唆された。 Temporal Action Localization (TAL) is a complex task that poses relevant challenges, particularly when attempting to generalize on new -- unseen -- domains in real-world applications. These scenarios, despite realistic, are often neglected in the literature, exposing these solutions to important performance degradation. In this work, we tackle this issue by introducing, for the first time, an approach for Unsupervised Domain Adaptation (UDA) in sparse TAL, which we refer to as Semantic Adversarial unsupervised Domain Adaptation (SADA). Our contribution is threefold: (1) we pioneer the development of a domain adaptation model that operates on realistic sparse action detection benchmarks; (2) we tackle the limitations of global-distribution alignment techniques by introducing a novel adversarial loss that is sensitive to local class distributions, ensuring finer-grained adaptation; and (3) we present a novel experimental setup, based on EpicKitchens100, that evaluates multiple types of domain shifts in a comprehensive manner. Our experimental results indicate that SADA improves the adaptation across domains when compared to fully supervised state-of-the-art and alternative UDA methods, attaining a relative performance boost of up to 14%. | 翻訳日:2023-12-22 16:47:35 公開日:2023-12-20 |
# 神経野を伴う神経感覚--手操作のための視覚触覚 Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation ( http://arxiv.org/abs/2312.13469v1 ) ライセンス: Link先を確認 | Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam | (参考訳) 人間レベルのデキスタリティを達成するには、ロボットはマルチモーダルセンシングから空間認識を推論し、接触相互作用を推論する必要がある。
新しい物体を手作業で操作する場合、そのような空間認識は物体のポーズや形状を推定する。
対人知覚の現況は、主に視覚を用いており、先行する既知の物体の追跡に制限されている。
さらに、操作中に物体の視覚的隠蔽が差し迫っているため、現在のシステムは隠蔽なしでタスクを超越することができない。
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
シミュレーションと実世界におけるマルチモーダル・イン・ハンド知覚について検討し,プロピオセプション・ドリブン・ポリシーを用いて異なる物体と相互作用する。
私たちの実験では、最終的な復元f-scoreは$1$%で、平均ポーズドリフトは$4.7\,\text{mm}$で、既知のcadモデルでは$2.3\,\text{mm}$になった。
さらに,視力のみの手法と比較して,視力の重く排除された場合,トラッキングが最大で94ドル%向上することが確認できた。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
この領域におけるベンチマークに向けたステップとして,70の実験である feelsight の評価データセットをリリースします。
マルチモーダルセンシングによって駆動される私たちの神経表現は、ロボットのデキスタリティ向上に向けた知覚のバックボーンとして機能する。
ビデオはプロジェクトのWebサイトhttps://suddhu.github.io/neural-feels/にある。 To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object's pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object's pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of $81$% and average pose drifts of $4.7\,\text{mm}$, further reduced to $2.3\,\text{mm}$ with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to $94$% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/ | 翻訳日:2023-12-22 16:42:38 公開日:2023-12-20 |
# 地質炭素隔離における鉱化制御因子の学習 Learning the Factors Controlling Mineralization for Geologic Carbon Sequestration ( http://arxiv.org/abs/2312.13451v1 ) ライセンス: Link先を確認 | Aleksandra Pachalieva, Jeffrey D. Hyman, Daniel O'Malley, Hari Viswanathan, Gowri Srinivasan | (参考訳) 我々は3次元フラクチャーネットワーク内の流れおよび反応性輸送シミュレーションを行い、鉱物反応を制御する要因を学習する。
CO$2$の鉱化にはCO$2$の溶存水が必要であり、鉱石が溶存するとCO$2$の鉱石が沈殿する。
我々の離散破壊ネットワーク(DFN)は、準定常状態に達するまで徐々に溶解する石英で部分的に満たされている。
シミュレーションの最後には, 領域内の各フラクチャーに残存する石英を測定した。
我々は, クォーツが完全に溶解し, 流れと輸送が増大する小さな背骨が存在することを観察した。
しかし, dfnトポロジーと溶解速度によっては, 破壊ネットワーク構造と地球化学的溶解の影響との相互作用を示す大きな変動性が観察される。
本研究では,溶解の形で鉱化をサポートする重要な特徴を抽出するための機械学習フレームワークを開発した。
さらに, フラクチャーネットワークの構造的およびトポロジ的特徴を用いて, 準定常状態における残りのクォーツ体積を予測する。
炭素鉱化を特徴付けるための第一歩として, この枠組みによる溶解について検討する。
フラクチャーネットワークにおける様々な反応および破壊パラメータと石英の溶解への影響について検討した。
その結果, 石英の溶解反応速度定数とフラクチャーネットワーク内の流れバックボーンまでの距離は, 系内に残留する石英量を制御する2つの最も重要な特徴であることがわかった。
まず, 有限体積貯留層モデルとグラフモデルを組み合わせて, 複雑な破壊ネットワークにおける反応輸送の研究を行い, 溶解を制御する重要な特徴を明らかにした。 We perform a set of flow and reactive transport simulations within three-dimensional fracture networks to learn the factors controlling mineral reactions. CO$_2$ mineralization requires CO$_2$-laden water, dissolution of a mineral that then leads to precipitation of a CO$_2$-bearing mineral. Our discrete fracture networks (DFN) are partially filled with quartz that gradually dissolves until it reaches a quasi-steady state. At the end of the simulation, we measure the quartz remaining in each fracture within the domain. We observe that a small backbone of fracture exists, where the quartz is fully dissolved which leads to increased flow and transport. However, depending on the DFN topology and the rate of dissolution, we observe a large variability of these changes, which indicates an interplay between the fracture network structure and the impact of geochemical dissolution. In this work, we developed a machine learning framework to extract the important features that support mineralization in the form of dissolution. In addition, we use structural and topological features of the fracture network to predict the remaining quartz volume in quasi-steady state conditions. As a first step to characterizing carbon mineralization, we study dissolution with this framework. We studied a variety of reaction and fracture parameters and their impact on the dissolution of quartz in fracture networks. We found that the dissolution reaction rate constant of quartz and the distance to the flowing backbone in the fracture network are the two most important features that control the amount of quartz left in the system. For the first time, we use a combination of a finite-volume reservoir model and graph-based approach to study reactive transport in a complex fracture network to determine the key features that control dissolution. | 翻訳日:2023-12-22 16:42:08 公開日:2023-12-20 |
# 航空画像からのレーンレベルマップの構築 Building Lane-Level Maps from Aerial Images ( http://arxiv.org/abs/2312.13449v1 ) ライセンス: Link先を確認 | Jiawei Yao and Xiaochao Pan and Tong Wu and Xiaofeng Zhang | (参考訳) センサーから車線を検出することは、自動運転システムの重要な部分になりつつある。
しかし、航空画像に基づく高精細レーンレベルの地図の開発は少ないため、自動走行システムのオフラインマップを自動構築および更新することができる。
この目的のために、我々は、そのトポロジ的構造とともに細部まで詳細な線線を抽出することに焦点を当てている。
このタスクは、さまざまなレーンタイプ、地形、地域をカバーする大量のデータを必要とするため、難しい。
本稿では,道路約80kmの高解像度画像に高品質のポリラインレーンアノテーションを付加した,レーン検出のための大規模空中画像データセットを初めて紹介する。
さらに,AerialLaneNetと呼ばれる2段階からなる空中画像からベースラインディープラーニングレーンを検出する手法を開発した。
第1段階は粗粒度を点レベルで生成し、第2段階は粗粒度と特徴を利用して頂点マッチングタスクを行い、トポロジーを持つ細粒度レーンを生成する。
実験により,新しいデータセットにおける最先端手法と比較して,我々のアプローチは大幅に改善することが示された。
私たちのコードと新しいデータセットはhttps://github.com/Jiawei-Yao0812/AerialLaneNetで公開されています。 Detecting lane lines from sensors is becoming an increasingly significant part of autonomous driving systems. However, less development has been made on high-definition lane-level mapping based on aerial images, which could automatically build and update offline maps for auto-driving systems. To this end, our work focuses on extracting fine-level detailed lane lines together with their topological structures. This task is challenging since it requires large amounts of data covering different lane types, terrain and regions. In this paper, we introduce for the first time a large-scale aerial image dataset built for lane detection, with high-quality polyline lane annotations on high-resolution images of around 80 kilometers of road. Moreover, we developed a baseline deep learning lane detection method from aerial images, called AerialLaneNet, consisting of two stages. The first stage is to produce coarse-grained results at point level, and the second stage exploits the coarse-grained results and feature to perform the vertex-matching task, producing fine-grained lanes with topology. The experiments show our approach achieves significant improvement compared with the state-of-the-art methods on our new dataset. Our code and new dataset are available at https://github.com/Jiawei-Yao0812/AerialLaneNet. | 翻訳日:2023-12-22 16:41:42 公開日:2023-12-20 |
# Tavis-Cummings量子電池の最適エネルギー貯蔵 Optimal energy storage in the Tavis-Cummings quantum battery ( http://arxiv.org/abs/2312.13444v1 ) ライセンス: Link先を確認 | Hui-Yu Yang, Hai-Long Shi, Qing-Kun Wan, Kun Zhang, Xiao-Hui Wang, and Wen-Li Yang | (参考訳) 量子電池の自然な物理実現として機能するTavis-Cummings(TC)モデルは、電池セルとしてN_b$原子を含み、共有光子フィールドと一括して相互作用し、最初は$n_0$光子を含むチャージャーとして機能する。
本研究では,TC電池の量子力学を効果的に表現するための不変部分空間法を提案する。
以上の結果から,$n_0\!
やれ!
n_b$ または $n_b\!
n_0$, 特異なsu(2)対称性が力学に現れ、最適なエネルギー貯蔵の実現が保証される。
また,バッテリ・チャージャーの絡み合いとエネルギー貯蔵容量の負の関係も確立した。
その結果,この漸近的最適エネルギー貯蔵は,$N_b\!のシナリオで達成できることが実証された。
=\!
n_0\!
やれ!
1$.
我々のアプローチは、TCモデルに固有の代数構造に対する理解を深めるだけでなく、量子電池のより広範な理論的枠組みにも貢献する。
さらに、エネルギー移動と量子相関の関係に関する重要な洞察を提供する。 The Tavis-Cummings (TC) model, which serves as a natural physical realization of a quantum battery, comprises $N_b$ atoms as battery cells that collectively interact with a shared photon field, functioning as the charger, initially containing $n_0$ photons. In this study, we introduce the invariant subspace method to effectively represent the quantum dynamics of the TC battery. Our findings indicate that in the limiting case of $n_0\!\gg\! N_b$ or $N_b\!\gg\! n_0$, a distinct SU(2) symmetry emerges in the dynamics, thereby ensuring the realization of optimal energy storage. We also establish a negative relationship between the battery-charger entanglement and the energy storage capacity. As a result, we demonstrate that the asymptotically optimal energy storage can be achieved in the scenario where $N_b\!=\!n_0\!\gg\! 1$. Our approach not only enhances our comprehension of the algebraic structure inherent in the TC model but also contributes to the broader theoretical framework of quantum batteries. Furthermore, it provides crucial insights into the relation between energy transfer and quantum correlations. | 翻訳日:2023-12-22 16:41:22 公開日:2023-12-20 |
# MGAug:画像変形の潜在空間におけるマルチモーダル幾何学的拡張 MGAug: Multimodal Geometric Augmentation in Latent Spaces of Image Deformations ( http://arxiv.org/abs/2312.13440v1 ) ライセンス: Link先を確認 | Tonmoy Hossain, Jian Wang, Miaomiao Zhang | (参考訳) 幾何変換はトレーニング画像のサイズを強化するために広く用いられてきた。
既存の手法では、イメージ間の変換のユニモーダル分布を仮定することが多く、マルチモーダル分布を持つデータの場合、そのパワーを制限する。
本稿では,MGAug(Multimodal Geometric Augmentation)と呼ばれる新しいモデルを提案する。
そこで我々はまず,微分同相変換の潜在幾何学空間(微分同相写像)の学習を変分オートエンコーダ(VAE)に組み込むディープネットワークを開発した。
多変量ガウスの混合は微分同相の接空間で定式化され、画像変換の隠れた分布を近似する前の役割を果たす。
次に、vaeの学習されたマルチモーダル潜在空間からランダムにサンプリングされた変換を用いて画像の変形により、元のトレーニングデータセットを増強する。
モデルの有効性を検証するために,我々は,2次元合成データセットのマルチクラス分類と実脳磁気共鳴画像(MRI)のセグメンテーションという,ドメイン固有の2つのタスクで拡張戦略を共同で学習した。
また,MGAugと最先端の変換に基づく画像強調アルゴリズムを比較した。
実験の結果,提案手法は予測精度が大幅に向上し,すべてのベースラインを上回った。
私たちのコードはhttps://github.com/tonmoy-hossain/MGAug.comで公開されています。 Geometric transformations have been widely used to augment the size of training images. Existing methods often assume a unimodal distribution of the underlying transformations between images, which limits their power when data with multimodal distributions occur. In this paper, we propose a novel model, Multimodal Geometric Augmentation (MGAug), that for the first time generates augmenting transformations in a multimodal latent space of geometric deformations. To achieve this, we first develop a deep network that embeds the learning of latent geometric spaces of diffeomorphic transformations (a.k.a. diffeomorphisms) in a variational autoencoder (VAE). A mixture of multivariate Gaussians is formulated in the tangent space of diffeomorphisms and serves as a prior to approximate the hidden distribution of image transformations. We then augment the original training dataset by deforming images using randomly sampled transformations from the learned multimodal latent space of VAE. To validate the efficiency of our model, we jointly learn the augmentation strategy with two distinct domain-specific tasks: multi-class classification on 2D synthetic datasets and segmentation on real 3D brain magnetic resonance images (MRIs). We also compare MGAug with state-of-the-art transformation-based image augmentation algorithms. Experimental results show that our proposed approach outperforms all baselines by significantly improved prediction accuracy. Our code is publicly available at https://github.com/tonmoy-hossain/MGAug. | 翻訳日:2023-12-22 16:40:48 公開日:2023-12-20 |
# 独立機構解析とマニフォールド仮説 Independent Mechanism Analysis and the Manifold Hypothesis ( http://arxiv.org/abs/2312.13438v1 ) ライセンス: Link先を確認 | Shubhangi Ghosh, Luigi Gresele, Julius von K\"ugelgen, Michel Besserve, Bernhard Sch\"olkopf | (参考訳) 独立機構解析(ima)は、混合関数のヤコビアンが直交列を持つと仮定して、非線形独立成分分析(ica)における非識別性に対処する。
icaの典型的なように、以前の研究は、同じ数の潜在成分と観察された混合物のケースに焦点を当てた。
ここでは、IMA を、表現学習における多様体仮説に則って、潜在空間よりも高次元に埋め込まれた多様体上に存在する多くの混合の集合に拡張する。
この設定のために、 ima は依然としていくつかの非識別可能性問題を回避していることを示し、多様体仮説が成り立つ場合の高次元観測の有益な原理でもあることを示唆する。
さらに、IMAの原理は、潜伏成分が観測に影響を及ぼす方向がランダムに独立に選択される場合、高い確率(観測混合数の増加)でほぼ満たされていることを証明した。
これはIMAの新しい厳密な統計解釈を提供する。 Independent Mechanism Analysis (IMA) seeks to address non-identifiability in nonlinear Independent Component Analysis (ICA) by assuming that the Jacobian of the mixing function has orthogonal columns. As typical in ICA, previous work focused on the case with an equal number of latent components and observed mixtures. Here, we extend IMA to settings with a larger number of mixtures that reside on a manifold embedded in a higher-dimensional than the latent space -- in line with the manifold hypothesis in representation learning. For this setting, we show that IMA still circumvents several non-identifiability issues, suggesting that it can also be a beneficial principle for higher-dimensional observations when the manifold hypothesis holds. Further, we prove that the IMA principle is approximately satisfied with high probability (increasing with the number of observed mixtures) when the directions along which the latent components influence the observations are chosen independently at random. This provides a new and rigorous statistical interpretation of IMA. | 翻訳日:2023-12-22 16:40:07 公開日:2023-12-20 |
# 単純・複雑・多目的アノテーションタスクにまたがってアノテーションを集約する汎用モデル A General Model for Aggregating Annotations Across Simple, Complex, and Multi-Object Annotation Tasks ( http://arxiv.org/abs/2312.13437v1 ) ライセンス: Link先を確認 | Alexander Braylan, Madalyn Marabella, Omar Alonso, Matthew Lease | (参考訳) ヒューマンアノテーションは教師付き学習には不可欠であるが、アノテーションタスクの複雑さが増すため、注釈者は正しいラベルについてしばしば同意しない。
ラベルの品質を改善する戦略は、複数のアノテーションに同じアイテムにラベルを付けて、ラベルを集約するように要求することです。
多くのアグリゲーションモデルが分類的あるいは数値的なアノテーションタスクのために提案されているが、より複雑なアノテーションタスクは、オープンエンド、マルチ変数、構造化された応答を含む。
特定のタスクに対して様々なbespokeモデルが提案されているが、我々の研究は、シーケンスラベリング、翻訳、構文解析、ランキング、バウンディングボックス、キーポイントなど、様々な複雑なタスクを一般化するアグリゲーションメソッドを導入する最初のものである。
この一般化は、ラベル自体よりもラベル間の距離をモデル化するタスク非依存の手法を考案することで達成される。
本論では,3つの新たな研究課題について検討する。
まず、複雑なアノテーションプロパティが集約精度にどのように影響するか。
第二に、タスクオーナは、アグリゲーションの精度を最大化するために、多くのモデリング選択をいかにナビゲートすべきか?
最後に、アグリゲーションモデルが与えられたデータに対して正しく指定されていることを診断できるものは何か?
様々な要因が精度にどのように影響するかを理解し,モデル選択に通知するために,実データを用いたシミュレーション研究と実験を行う。
テストに関して、アグリゲーションモデルのユニットテストを導入し、与えられたモデルが誤って特定されず、期待される振る舞いを示すために、それらのテストスイートを提供する。
上記の研究の他に、アノテーションの複雑さの基礎概念を考察し、従来のモデルと私たち自身の橋渡しとして新しいアグリゲーションモデルを提示し、事前の作業より優れた複雑なラベルアグリゲーションのための新しい半教師付き学習方法を提案する。 Human annotations are vital to supervised learning, yet annotators often disagree on the correct label, especially as annotation tasks increase in complexity. A strategy to improve label quality is to ask multiple annotators to label the same item and aggregate their labels. Many aggregation models have been proposed for categorical or numerical annotation tasks, but far less work has considered more complex annotation tasks involving open-ended, multivariate, or structured responses. While a variety of bespoke models have been proposed for specific tasks, our work is the first to introduce aggregation methods that generalize across many diverse complex tasks, including sequence labeling, translation, syntactic parsing, ranking, bounding boxes, and keypoints. This generality is achieved by devising a task-agnostic method to model distances between labels rather than the labels themselves. This article extends our prior work with investigation of three new research questions. First, how do complex annotation properties impact aggregation accuracy? Second, how should a task owner navigate the many modeling choices to maximize aggregation accuracy? Finally, what diagnoses can verify that aggregation models are specified correctly for the given data? To understand how various factors impact accuracy and to inform model selection, we conduct simulation studies and experiments on real, complex datasets. Regarding testing, we introduce unit tests for aggregation models and present a suite of such tests to ensure that a given model is not mis-specified and exhibits expected behavior. Beyond investigating these research questions above, we discuss the foundational concept of annotation complexity, present a new aggregation model as a bridge between traditional models and our own, and contribute a new semi-supervised learning method for complex label aggregation that outperforms prior work. | 翻訳日:2023-12-22 16:39:40 公開日:2023-12-20 |
# 対戦型マルコフゲーム:適応的決定に基づく攻撃と防御について Adversarial Markov Games: On Adaptive Decision-Based Attacks and Defenses ( http://arxiv.org/abs/2312.13435v1 ) ライセンス: Link先を確認 | Ilias Tsingenopoulos, Vera Rimmer, Davy Preuveneers, Fabio Pierazzi, Lorenzo Cavallaro, Wouter Joosen | (参考訳) 現実のMLベースのシステムは、堅牢化へのかなりの努力にもかかわらず、決定に基づく攻撃には弱いままである。
堅牢性評価における標準的アプローチは、防御の完全な知識を持ち、それをバイパスするように調整された適応攻撃を要求する。
本研究では,適応性(adaptive)という概念をより広範に導入し,攻撃だけでなく防御力も相互に作用することで,相互に利益を享受できることを示す。
そこで我々は,ブラックボックス攻撃を適応的に最適化し,対戦ゲームを通じて互いに防御する枠組みを提案し,評価する。
堅牢性を確実に測定するには,現実的かつ最悪の攻撃に対する評価が重要である。
したがって, 適応制御により攻撃と回避兵器の双方を増強し, 防御にも同様が可能であることを観察し, それらを最初に評価し, 共同的にマルチエージェントの視点で評価する。
システムがどのように反応するかを制御するアクティブディフェンスは、意思決定ベースの攻撃に直面した際のモデル強化に必須の補完であり、これらのディフェンスが適応的な攻撃によってどのように回避され、最終的にアクティブで適応的なディフェンスが引き出されるかを示す。
我々は、幅広い理論的および実証的な調査を通じて、AI対応の敵がブラックボックスMLベースのシステムに重大な脅威をもたらすことを確認し、防衛もAI対応でなければならない先例の武器競争を再燃させた。
そこで我々は,適応的敵による課題に対処し,適応的防御を開発し,現実世界に展開するMLベースのシステムの堅牢性を確保するための効果的な戦略を立案する。 Despite considerable efforts on making them robust, real-world ML-based systems remain vulnerable to decision based attacks, as definitive proofs of their operational robustness have so far proven intractable. The canonical approach in robustness evaluation calls for adaptive attacks, that is with complete knowledge of the defense and tailored to bypass it. In this study, we introduce a more expansive notion of being adaptive and show how attacks but also defenses can benefit by it and by learning from each other through interaction. We propose and evaluate a framework for adaptively optimizing black-box attacks and defenses against each other through the competitive game they form. To reliably measure robustness, it is important to evaluate against realistic and worst-case attacks. We thus augment both attacks and the evasive arsenal at their disposal through adaptive control, and observe that the same can be done for defenses, before we evaluate them first apart and then jointly under a multi-agent perspective. We demonstrate that active defenses, which control how the system responds, are a necessary complement to model hardening when facing decision-based attacks; then how these defenses can be circumvented by adaptive attacks, only to finally elicit active and adaptive defenses. We validate our observations through a wide theoretical and empirical investigation to confirm that AI-enabled adversaries pose a considerable threat to black-box ML-based systems, rekindling the proverbial arms race where defenses have to be AI-enabled too. Succinctly, we address the challenges posed by adaptive adversaries and develop adaptive defenses, thereby laying out effective strategies in ensuring the robustness of ML-based systems deployed in the real-world. | 翻訳日:2023-12-22 16:38:38 公開日:2023-12-20 |
# Zero-1-to-3:3つの診断対象に対する早期学生の1バッチによるドメインレベルのゼロショット認知診断 Zero-1-to-3: Domain-level Zero-shot Cognitive Diagnosis via One Batch of Early-bird Students towards Three Diagnostic Objectives ( http://arxiv.org/abs/2312.13434v1 ) ライセンス: Link先を確認 | Weibo Gao, Qi Liu, Hao Wang, Linan Yue, Haoyang Bi, Yin Gu, Fangzhou Yao, Zheng Zhangm Xin Li, Yuanjing He | (参考訳) 認知診断は、記録された実践クイズデータを探索することで、学生の認知状態を推定しようとする。
知的教育システムにおけるパーソナライズされた学習指導において重要な役割を果たす。
本稿では,新たに立ち上げられたドメインに学生の実践ログがないために生じる,ドメインレベルのゼロショット認知診断(DZCD)という,重要かつ実用的だがしばしば未発見の課題に焦点を当てる。
最近のクロスドメイン診断モデルはDZCDにとって有望な戦略であることが示されている。
これらの手法は主に、ドメイン間で学生状態を転送する方法に焦点を当てている。
しかし、生徒の表現に不注意な情報を組み込むことで、知識伝達の有効性を制限できる。
そこで本研究では,早期学習者の3つの診断目的に向けて,ドメインレベルのゼロショット認知診断フレームワークZero-1-to-3を提案する。
本手法は, 学生状態をドメイン共有部分とドメイン固有部分に分離する2つの正則化器を用いた診断モデルの事前学習から始める。
共有された認知信号は対象領域に転送することができ、新しい領域の認知的事前を豊かにすることにより、認知状態の伝播目標が保証される。
その後,早期学習者の行動パターンを解析し,ドメイン適応目標を達成し,冷間開始学生のための模擬実践ログを作成する戦略を考案した。
その結果, コールドスタート学生の認知状態は, 仮想データによる診断結果として洗練され, 診断目標と一致した。
最後に、実世界の6つのデータセットに対する広範な実験により、DZCDに対する我々のモデルの有効性と、その課題に対する実践的応用を強調した。 Cognitive diagnosis seeks to estimate the cognitive states of students by exploring their logged practice quiz data. It plays a pivotal role in personalized learning guidance within intelligent education systems. In this paper, we focus on an important, practical, yet often underexplored task: domain-level zero-shot cognitive diagnosis (DZCD), which arises due to the absence of student practice logs in newly launched domains. Recent cross-domain diagnostic models have been demonstrated to be a promising strategy for DZCD. These methods primarily focus on how to transfer student states across domains. However, they might inadvertently incorporate non-transferable information into student representations, thereby limiting the efficacy of knowledge transfer. To tackle this, we propose Zero-1-to-3, a domain-level zero-shot cognitive diagnosis framework via one batch of early-bird students towards three diagnostic objectives. Our approach initiates with pre-training a diagnosis model with dual regularizers, which decouples student states into domain-shared and domain-specific parts. The shared cognitive signals can be transferred to the target domain, enriching the cognitive priors for the new domain, which ensures the cognitive state propagation objective. Subsequently, we devise a strategy to generate simulated practice logs for cold-start students through analyzing the behavioral patterns from early-bird students, fulfilling the domain-adaption goal. Consequently, we refine the cognitive states of cold-start students as diagnostic outcomes via virtual data, aligning with the diagnosis-oriented goal. Finally, extensive experiments on six real-world datasets highlight the efficacy of our model for DZCD and its practical application in question recommendation. | 翻訳日:2023-12-22 16:37:48 公開日:2023-12-20 |
# エルゴディック力学系の連続的長期予測 Consistent Long-Term Forecasting of Ergodic Dynamical Systems ( http://arxiv.org/abs/2312.13426v1 ) ライセンス: Link先を確認 | Prune Inzerilli, Vladimir Kostic, Karim Lounici, Pietro Novelli, Massimiliano Pontil | (参考訳) 自然界において確率的かもしれないエルゴード力学系の作用下での分布の進化を研究する。
koopman と transfer operator theory のツールを使用することで、状態の初期分布を事前に進化させ、これらの演算子の推定器が長期予測においてどのように振る舞うかを調べることができる。
この課題において標準推定器が失敗するかもしれないという観測に動機づけられて,固有値デフレの古典的手法を演算子理論から巧みに組み合わせた学習パラダイムを導入する。
このパラダイムは、経験的リスク最小化に基づく任意の演算子推定器に適用され、将来の分布の軌道全体に対して均一に保持される学習境界を満たし、予測された分布ごとに質量の保存を遵守する。
数値実験は、実際に我々のアプローチの利点を示します。 We study the evolution of distributions under the action of an ergodic dynamical system, which may be stochastic in nature. By employing tools from Koopman and transfer operator theory one can evolve any initial distribution of the state forward in time, and we investigate how estimators of these operators perform on long-term forecasting. Motivated by the observation that standard estimators may fail at this task, we introduce a learning paradigm that neatly combines classical techniques of eigenvalue deflation from operator theory and feature centering from statistics. This paradigm applies to any operator estimator based on empirical risk minimization, making them satisfy learning bounds which hold uniformly on the entire trajectory of future distributions, and abide to the conservation of mass for each of the forecasted distributions. Numerical experiments illustrates the advantages of our approach in practice. | 翻訳日:2023-12-22 16:37:19 公開日:2023-12-20 |
# VADIS -- 可変検出・リンク・要約システム VADIS -- a VAriable Detection, Interlinking and Summarization system ( http://arxiv.org/abs/2312.13423v1 ) ライセンス: Link先を確認 | Yavuz Selim Kartal, Muhammad Ahsan Shahid, Sotaro Takeshita, Tornike Tsereteli, Andrea Zielinski, Benjamin Zapilko, Philipp Mayr | (参考訳) VADISシステムは、社会科学の領域で強化された情報アクセスを提供することの要求に対処する。
これは、ユーザが調査変数を、基礎となる研究データや相互にリンクされた学術出版物のコンテキストで検索して使用できるようにすることによって達成される。 The VADIS system addresses the demand of providing enhanced information access in the domain of the social sciences. This is achieved by allowing users to search and use survey variables in context of their underlying research data and scholarly publications which have been interlinked with each other. | 翻訳日:2023-12-22 16:37:03 公開日:2023-12-20 |
# CT画像強調のためのテクスチャマッチングGAN Texture Matching GAN for CT Image Enhancement ( http://arxiv.org/abs/2312.13422v1 ) ライセンス: Link先を確認 | Madhuri Nagare, Gregery T. Buzzard, Charles A. Bouman | (参考訳) ディープニューラルネットワーク(DNN)は、再建品質を維持しつつ、患者のX線量を減らすことを目的として、X線CT画像の劣化と鮮明化に一般的に使用される。
しかし, 臨床応用では望ましくない画像テクスチャをDNNに応用することは困難である。
あるいは、GAN(Generative Adversarial Network)ベースの手法は、適切なテクスチャを生成することができるが、GANの自然な応用は、不正確な、あるいは非現実的な画像の詳細を導入することができる。
本稿では,対象のテクスチャにマッチング可能な画像テクスチャを生成しながら,CT画像を強化するテクスチャマッチング生成ネットワーク(TMGAN)を提案する。
並列生成器を用いて,生成したテクスチャから解剖学的特徴を分離する。それによってganは,基礎となるct画像に直接影響することなく,所望のテクスチャにマッチするように訓練できる。
我々は,TMGANが画像の質を向上させると同時に,臨床応用に適した画像テクスチャを生成することを示した。 Deep neural networks (DNN) are commonly used to denoise and sharpen X-ray computed tomography (CT) images with the goal of reducing patient X-ray dosage while maintaining reconstruction quality. However, naive application of DNN-based methods can result in image texture that is undesirable in clinical applications. Alternatively, generative adversarial network (GAN) based methods can produce appropriate texture, but naive application of GANs can introduce inaccurate or even unreal image detail. In this paper, we propose a texture matching generative adversarial network (TMGAN) that enhances CT images while generating an image texture that can be matched to a target texture. We use parallel generators to separate anatomical features from the generated texture, which allows the GAN to be trained to match the desired texture without directly affecting the underlying CT image. We demonstrate that TMGAN generates enhanced image quality while also producing image texture that is desirable for clinical application. | 翻訳日:2023-12-22 16:36:58 公開日:2023-12-20 |
# 非マルコフ力学の幾何学的シグネチャ Geometric signature of non-Markovian dynamics ( http://arxiv.org/abs/2312.13421v1 ) ライセンス: Link先を確認 | Da-Wei Luo, Ting Yu | (参考訳) 開システムダイナミクスの非マルコフ効果は、一般に、システムから環境への非単調な情報の流れや、環境からシステムへの情報バックフローによって特徴づけられる。
散逸性単一モード空洞に結合した2レベル系(TLS)を用いることで、開量子系の幾何学的デコヒーレンスが非マルコフ力学の信頼できる証人となることを示す。
この幾何学的アプローチは、非マルコフ的挙動が作用する時間点のような力学の詳細を明らかにすることもできる。
具体的には、TLSの幾何学的デコヒーレンス係数のばらつきが非マルコフ力学にとって十分であることを示す。
驚くべきことに、特定のケースでは必要十分条件になることもある。 Non-Markovian effects of an open system dynamics are typically characterized by non-monotonic information flows from the system to its environment or information backflows from the environment to the system. By using a two-level system (TLS) coupled to a dissipative single-mode cavity, we show that the geometric decoherence of the open quantum system of interest can serve as a reliable witness of non-Markovian dynamics. This geometric approach can also reveal the finer details about the dynamics such as the time points where the non-Markovian behaviors come into operation. Specifically, we show that the divergence of the geometric decoherence factor of the TLS can be a sufficient condition for the non-Markovian dynamics. Remarkably, it can even become a necessary and sufficient condition in certain cases. | 翻訳日:2023-12-22 16:36:40 公開日:2023-12-20 |
# lビット多体局在モデルにおける数エントロピーの超低成長 Ultraslow Growth of Number Entropy in an l-bit Model of Many-Body Localization ( http://arxiv.org/abs/2312.13420v1 ) ライセンス: Link先を確認 | David Aceituno Ch\'avez, Claudia Artiaco, Thomas Klein Kvorning, Lo\"ic Herviou, Jens H. Bardarson | (参考訳) 局所積状態からのクエンチ後の数エントロピーの緩やかな成長は多体局在と一致していることを示す。
これを実現するために、指数的局所化 l-bit と指数的に減衰する相互作用を持つランダム回路 l-bit モデルを構築した。
我々は,N'eel状態から始まる数エントロピーの超低速成長を観測し,システムサイズで成長する値で飽和する。
このことは、顕微鏡モデルにおけるそのような成長の観察が多体局在を除外するには不十分であることを示唆している。 We demonstrate that slow growth of the number entropy following a quench from a local product state is consistent with many-body localization. To do this we construct a random circuit l-bit model with exponentially localized l-bits and exponentially decaying interactions between them. We observe an ultraslow growth of the number entropy starting from a N\'eel state, saturating at a value that grows with system size. This suggests that the observation of such growth in microscopic models is not sufficient to rule out many-body localization. | 翻訳日:2023-12-22 16:36:29 公開日:2023-12-20 |
# 監視系における絡み合いダイナミクスと量子ジャンプの役割 Entanglement Dynamics in Monitored Systems and the Role of Quantum Jumps ( http://arxiv.org/abs/2312.13419v1 ) ライセンス: Link先を確認 | Youenn Le Gal, Xhek Turkeshi, Marco Schir\`o | (参考訳) 監視された量子多体系は、この非ユニタリな設定に特有のエンタングルメントダイナミクスの豊かなパターンを示す。
この研究は、決定論的非エルミート進化に対応する無クリック極限を超える絡み合い力学に対する量子ジャンプの効果を研究する。
観測されたSSHモデルと量子イジングチェーンの2つの例を考えると、ジャンプは待ち時間分布でエンコードされた統計と同じ統計を持つにもかかわらず、アンタングルメントに著しく異なる効果を示す。
この違いを理解するために,ジャンプと非エルミット進化による絡み合いの利得と損失の統計を新たに導入する。
この洞察により、部分的なリセットを伴うランダムウォークの単純な確率モデルを構築し、エンタングルメントダイナミクスを再現し、エンタングルメントスケーリングにおけるジャンプと非ヘルミット進化の相互の役割を分断することができる。
非クリック限界からのかなりの偏差は、弱い監視におけるsshモデルや大きな横磁場におけるイジング連鎖の場合のように、量子ジャンプが非エルミート力学を強く再正規化するときに生じる。
一方,イジング鎖の弱い監視相は,弱再正規化非エルミート力学によるロバストなサブボリューム対数相をもたらすことを示した。 Monitored quantum many-body systems display a rich pattern of entanglement dynamics, which is unique to this non-unitary setting. This work studies the effect of quantum jumps on the entanglement dynamics beyond the no-click limit corresponding to a deterministic non-Hermitian evolution. We consider two examples, a monitored SSH model and a quantum Ising chain, for which we show the jumps have remarkably different effects on the entanglement despite having the same statistics as encoded in their waiting-time distribution. To understand this difference, we introduce a new metric, the statistics of entanglement gain and loss due to jumps and non-Hermitian evolution. This insight allows us to build a simple stochastic model of a random walk with partial resetting, which reproduces the entanglement dynamics, and to dissect the mutual role of jumps and non-Hermitian evolution on the entanglement scaling. We demonstrate that significant deviations from the no-click limit arise whenever quantum jumps strongly renormalize the non-Hermitian dynamics, as in the case of the SSH model at weak monitoring or in the Ising chain at large transverse field. On the other hand, we show that the weak monitoring phase of the Ising chain leads to a robust sub-volume logarithmic phase due to weakly renormalized non-Hermitian dynamics. | 翻訳日:2023-12-22 16:36:20 公開日:2023-12-20 |
# 知識のモデリングのためのフォトグラムデータへの埋め込み形状マッチング Embedded Shape Matching in Photogrammetry Data for Modeling Making Knowledge ( http://arxiv.org/abs/2312.13489v1 ) ライセンス: Link先を確認 | Demircan Tas, Mine \"Ozkar | (参考訳) 既存の構造のフォトグラムから得られる3次元モデルでは、眼が選択できる全ての形状は、常にモデルの幾何学的構成要素で同等のものを見つけることはできない。
しかしながら、迅速かつ詳細な文書化手法で取得した記録と有意義な部分と集合のマッチングは、既存の構造の情報モデルの作成に有利である。
この問題に対する回答と3次元モデルにおけるパターン認識の難しさを克服するために,投影法により得られた2次元サンプルを用いた。
環境オクルージョン、曲率、正規写像などの処理技術は、二次元データセットにおける三次元表面特性の表現を可能にする現代のコンピュータグラフィックスアプリケーションで一般的に使われている。
提案手法は,通常の光ベースの可視化ではなく,これらのマッピングによるパターン認識に基づいている。
応用の第1段階は、Zeugmaモザイクのいくつかの例のフォトグラム化と、建築史の文献から得られた知識に基づくセルジューク時代のレンガ壁の3次元デジタルモデリングである。
第2段階は、alice vision、opencv-python、autodesk mayaを用いて、このデータから得られた表面表現を処理して、壁の作り方に関する情報を含むデジタルモデルの作成である。
次の段階で想定されるのは、マッピングデータがルールベースの設計と文化遺産のプロセスの知識に貢献し、支援することです。 In three-dimensional models obtained by photogrammetry of existing structures, all of the shapes that the eye can select cannot always find their equivalents in the geometric components of the model. However, the matching of meaningful parts and assemblages with the records acquired with rapid and detailed documentation methods will provide an advantage for the creation of information models of existing structures. While aiming to produce answers to this problem and in order to overcome the difficulties of pattern recognition in three-dimensional models, we used two-dimensional samples obtained by projection. Processing techniques such as ambient occlusion, curvature and normal maps are commonly used in modern computer graphics applications that enable the representation of three-dimensional surface properties in two-dimensional data sets. The method we propose is based on the recognition of patterns through these mappings instead of the usual light-based visualization. The first stage of the application is photogrammetric capture of a few examples of Zeugma mosaics and three-dimensional digital modeling of a set of Seljuk era brick walls based on knowledge obtained through architectural history literature. The second stage covers the creation of digital models byprocessing the surface representation obtained from this data using Alice Vision, OpenCV-Python, and Autodesk Maya to include information on aspects of the making of the walls. What is envisioned for the next stages is that the mapping data contributes and supports the knowledge for rule-based design and making processesof cultural heritage. | 翻訳日:2023-12-22 16:28:30 公開日:2023-12-20 |
# ドメイン間の複雑さの理解と推定 Understanding and Estimating Domain Complexity Across Domains ( http://arxiv.org/abs/2312.13487v1 ) ライセンス: Link先を確認 | Katarina Doctor, Mayank Kejriwal, Lawrence Holder, Eric Kildebeck, Emma Resmini, Christopher Pereyda, Robert J. Steininger, Daniel V. Oliven\c{c}a | (参考訳) 制御された環境で訓練された人工知能(AI)システムは、しばしば現実世界の複雑さに苦しむ。
オープンワールド学習や実世界のアプリケーションなど,さまざまな環境にまたがるドメインの複雑さを推定するための一般的なフレームワークを提案する。
このフレームワークは、本質的な複雑性(ドメインに固有)と、(aiエージェントに依存した)外部的な複雑さを区別する。
これらのカテゴリにおける次元、スパーシティ、多様性を分析することで、ドメインの課題の包括的なビューを提供する。
このアプローチは、環境遷移中のAIの難易度を定量的に予測し、新しい状況におけるバイアスを回避し、オープンワールドドメインの広大な検索空間をナビゲートするのに役立つ。 Artificial Intelligence (AI) systems, trained in controlled environments, often struggle in real-world complexities. We propose a general framework for estimating domain complexity across diverse environments, like open-world learning and real-world applications. This framework distinguishes between intrinsic complexity (inherent to the domain) and extrinsic complexity (dependent on the AI agent). By analyzing dimensionality, sparsity, and diversity within these categories, we offer a comprehensive view of domain challenges. This approach enables quantitative predictions of AI difficulty during environment transitions, avoids bias in novel situations, and helps navigate the vast search spaces of open-world domains. | 翻訳日:2023-12-22 16:28:07 公開日:2023-12-20 |
# ミラー降下を用いた高速適応のための汎用的損失ジオメトリを用いたメタラーニング Meta-Learning with Versatile Loss Geometries for Fast Adaptation Using Mirror Descent ( http://arxiv.org/abs/2312.13486v1 ) ライセンス: Link先を確認 | Yilang Zhang, Bingcong Li, Georgios B. Giannakis | (参考訳) メタラーニングは、関連するタスクから抽出されたタスク不変の事前知識を利用して、特にデータレコードが制限された場合に新しいタスクの学習を促進する原則付きフレームワークである。
メタラーニングにおける基本的な課題は、いくつかの最適化ステップでタスク固有のモデルをトレーニングするために、抽出された事前を迅速に"適応"する方法である。
既存のアプローチは、タスク毎のトレーニングプロセスの収束性を高めるプリコンディショナーを使用して、この課題に対処する。
局所的に二次的な訓練損失を表すのに効果的であるが、これらの単純な線形プレコンディショナーは複雑な損失測度をほとんど捉えない。
本研究は,多角的距離測定を誘導する非線形ミラーマップを学習し,広帯域の損失測度を捕捉・最適化し,タスクごとのトレーニングを容易にすることにより,この制限に対処する。
数ショットの学習データセットの数値実験は、提唱されたアプローチの優れた表現性と収束性を示す。 Utilizing task-invariant prior knowledge extracted from related tasks, meta-learning is a principled framework that empowers learning a new task especially when data records are limited. A fundamental challenge in meta-learning is how to quickly "adapt" the extracted prior in order to train a task-specific model within a few optimization steps. Existing approaches deal with this challenge using a preconditioner that enhances convergence of the per-task training process. Though effective in representing locally a quadratic training loss, these simple linear preconditioners can hardly capture complex loss geometries. The present contribution addresses this limitation by learning a nonlinear mirror map, which induces a versatile distance metric to enable capturing and optimizing a wide range of loss geometries, hence facilitating the per-task training. Numerical tests on few-shot learning datasets demonstrate the superior expressiveness and convergence of the advocated approach. | 翻訳日:2023-12-22 16:27:56 公開日:2023-12-20 |
# ベイズ転校学習 Bayesian Transfer Learning ( http://arxiv.org/abs/2312.13484v1 ) ライセンス: Link先を確認 | Piotr M. Suder, Jason Xu, David B. Dunson | (参考訳) 転送学習は、関連する領域のデータを活用することによって、関心領域における推論および/または予測精度を向上させることを目的とした、統計的機械学習における急成長する概念である。
転校学習」という用語は近年の関心を集めているが、その基本原理は様々な状況下で何年も存在してきた。
コンピュータ科学と電気工学の先行文献レビューは、これらのアイデアに焦点をあてようとしており、主にこれらの分野から一般的な方法論と研究を調査している。
本稿は,新しい学習タスクを指導するための事前知識の描画の概念と本質的互換性があるにもかかわらず,比較的限定的な注目を集めているベイズ的学習アプローチを強調する。
本調査は,様々な実践的設定に適用可能なベイズ転校学習フレームワークの多岐にわたる。
本稿では,これらの手法がドメイン間の伝達に最適な情報を見つける問題にどのように対処するかについて議論する。
本研究では,ベイズ移動学習手法の有用性をシミュレーション実験により示し,その性能を頻繁な競争相手と比較する。 Transfer learning is a burgeoning concept in statistical machine learning that seeks to improve inference and/or predictive accuracy on a domain of interest by leveraging data from related domains. While the term "transfer learning" has garnered much recent interest, its foundational principles have existed for years under various guises. Prior literature reviews in computer science and electrical engineering have sought to bring these ideas into focus, primarily surveying general methodologies and works from these disciplines. This article highlights Bayesian approaches to transfer learning, which have received relatively limited attention despite their innate compatibility with the notion of drawing upon prior knowledge to guide new learning tasks. Our survey encompasses a wide range of Bayesian transfer learning frameworks applicable to a variety of practical settings. We discuss how these methods address the problem of finding the optimal information to transfer between domains, which is a central question in transfer learning. We illustrate the utility of Bayesian transfer learning methods via a simulation study where we compare performance against frequentist competitors. | 翻訳日:2023-12-22 16:27:39 公開日:2023-12-20 |
# SQuADDS:超伝導量子ビット設計のための検証済み設計データベースとシミュレーションワークフロー SQuADDS: A validated design database and simulation workflow for superconducting qubit design ( http://arxiv.org/abs/2312.13483v1 ) ライセンス: Link先を確認 | Sadman Shanto, Andre Kuo, Clark Miyamoto, Haimeng Zhang, Vivek Maurya, Evangelos Vlachos, Malida Hecht, Chung Wa Shum, Eli Levenson-Falk | (参考訳) 本稿では,量子デバイス設計をカスタマイズしたデバイスの出発点として用いることのできる,量子デバイス設計のオープンソースデータベースを提案する。
それぞれの設計はオープンソースのQiskit Metalパッケージを使ってプログラムで生成でき、有限要素電磁解法を用いてシミュレートできる。
本稿では,設計シミュレーションにおける高精度なワークフローを提案する。
データベースにおける多くの設計は実験的に検証され、シミュレーションパラメータと測定パラメータの良好な一致を示す。
我々のデータベースにはフロントエンドインタフェースが含まれており、ユーザーは所望の回路パラメータに基づいて ``best-guess'' の設計を生成できる。
このプロジェクトは、新しいタイプのデバイスを作ろうとする研究グループの参入障壁を低くし、それらのデザインを洗練するための優れた特性を持った出発点を提供する。 We present an open-source database of superconducting quantum device designs that may be used as the starting point for customized devices. Each design can be generated programmatically using the open-source Qiskit Metal package, and simulated using finite-element electromagnetic solvers. We present a robust workflow for achieving high accuracy on design simulations. Many designs in the database are experimentally validated, showing excellent agreement between simulated and measured parameters. Our database includes a front-end interface that allows users to generate ``best-guess'' designs based on desired circuit parameters. This project lowers the barrier to entry for research groups seeking to make a new class of devices by providing them a well-characterized starting point from which to refine their designs. | 翻訳日:2023-12-22 16:27:22 公開日:2023-12-20 |
# InvertibleNetworks.jl: スケーラブルなフロー正規化のためのJuliaパッケージ InvertibleNetworks.jl: A Julia package for scalable normalizing flows ( http://arxiv.org/abs/2312.13480v1 ) ライセンス: Link先を確認 | Rafael Orozco, Philipp Witte, Mathias Louboutin, Ali Siahkoohi, Gabrio Rizzuti, Bas Peters, Felix J. Herrmann | (参考訳) InvertibleNetworks.jlは、高次元分布における密度推定とサンプリングの方法である正規化フローのスケーラブルな実装のために設計されたJuliaパッケージである。
このパッケージは、正規化フローの固有の可逆性を活用することにより、メモリ効率を向上し、自動微分フレームワークに依存する既存の正規化フローパッケージと比較して、バックプロパゲーション時のメモリ要求を大幅に削減する。
invertiblenetworks.jlは地震イメージング、医用イメージング、co2モニタリングなど様々な応用に応用され、高次元分布の学習にその効果を示している。 InvertibleNetworks.jl is a Julia package designed for the scalable implementation of normalizing flows, a method for density estimation and sampling in high-dimensional distributions. This package excels in memory efficiency by leveraging the inherent invertibility of normalizing flows, which significantly reduces memory requirements during backpropagation compared to existing normalizing flow packages that rely on automatic differentiation frameworks. InvertibleNetworks.jl has been adapted for diverse applications, including seismic imaging, medical imaging, and CO2 monitoring, demonstrating its effectiveness in learning high-dimensional distributions. | 翻訳日:2023-12-22 16:27:09 公開日:2023-12-20 |
# 防衛強化:電力網のサイバーセキュリティを強化するための戦略的予算配分 Fortify Your Defenses: Strategic Budget Allocation to Enhance Power Grid Cybersecurity ( http://arxiv.org/abs/2312.13476v1 ) ライセンス: Link先を確認 | Rounak Meyur, Sumit Purohit and Braden K. Webb | (参考訳) 現代の電力網におけるサイバー物理コンポーネントの多様さとソフトウェア脆弱性は、それらが高度な永続的脅威(APT)から守るのを困難にしている。
サイバー物理的システムの重大な弱点を特定するために、初期アクセスポイントから最終目標への潜在的なサイバー攻撃シーケンスの伝播を示す攻撃グラフが不可欠である。
サイバーセキュリティ担当者は、サイバー攻撃シーケンスに対処する特定弱点に対する予防緩和措置を計画することができる。
しかし、利用可能なサイバーセキュリティ予算の制限は緩和策の選択を制限する。
電力網におけるサイバーフィジカルコンポーネントの潜在的なサイバー攻撃シーケンスが与えられたとき、必要な予防対策を実施するために利用可能な予算を割り当てる最適な方法を見つける。
我々は,この問題をMILP(Mixed integer linear program)として定式化し,サイバー物理成分の脆弱性を最小化する最適予算分割と緩和策のセットを特定する。
予算配分は緩和措置の効果に影響すると仮定する。
資産管理やサイバーセキュリティインフラの改善,インシデント対応計画,従業員訓練といったタスクに対する予算配分の変更が,予防対策の最適セットの選択にどのように影響し,関連するサイバーセキュリティリスクを修正するかを示す。
提案されたフレームワークは、サイバー政策立案者とシステム所有者がサイバーフィジカルシステムの全体的なセキュリティを改善するのに必要な様々なタスクの最適な予算を割り当てるために使用できる。 The abundance of cyber-physical components in modern day power grid with their diverse hardware and software vulnerabilities has made it difficult to protect them from advanced persistent threats (APTs). An attack graph depicting the propagation of potential cyber-attack sequences from the initial access point to the end objective is vital to identify critical weaknesses of any cyber-physical system. A cyber security personnel can accordingly plan preventive mitigation measures for the identified weaknesses addressing the cyber-attack sequences. However, limitations on available cybersecurity budget restrict the choice of mitigation measures. We address this aspect through our framework, which solves the following problem: given potential cyber-attack sequences for a cyber-physical component in the power grid, find the optimal manner to allocate an available budget to implement necessary preventive mitigation measures. We formulate the problem as a mixed integer linear program (MILP) to identify the optimal budget partition and set of mitigation measures which minimize the vulnerability of cyber-physical components to potential attack sequences. We assume that the allocation of budget affects the efficacy of the mitigation measures. We show how altering the budget allocation for tasks such as asset management, cybersecurity infrastructure improvement, incident response planning and employee training affects the choice of the optimal set of preventive mitigation measures and modifies the associated cybersecurity risk. The proposed framework can be used by cyber policymakers and system owners to allocate optimal budgets for various tasks required to improve the overall security of a cyber-physical system. | 翻訳日:2023-12-22 16:26:57 公開日:2023-12-20 |
# 確率過程の量子シミュレーションにおける精度とメモリアドバンテージ Accuracy vs Memory Advantage in the Quantum Simulation of Stochastic Processes ( http://arxiv.org/abs/2312.13473v1 ) ライセンス: Link先を確認 | Leonardo Banchi | (参考訳) 多くの推論シナリオは、将来の予測を行うために既知のデータから関連する情報を抽出することに依存している。
基礎となる確率過程が特定の仮定を満たすとき、その正確な古典的および量子シミュレータ間の直接写像が存在し、後者は漸近的に少ないメモリを使用する。
ここでは、これらの仮定が満たされていないとき、そのような量子的優位性が持続するかどうかの研究に焦点をあてる。
精度とメモリ要件のトレードオフを研究することで、量子モデルはより少ないメモリで同じ精度に到達し、代わりに同じメモリでより良い精度が得られることを示す。
最後に,この結果が学習課題に与える影響について考察する。 Many inference scenarios rely on extracting relevant information from known data in order to make future predictions. When the underlying stochastic process satisfies certain assumptions, there is a direct mapping between its exact classical and quantum simulators, with the latter asymptotically using less memory. Here we focus on studying whether such quantum advantage persists when those assumptions are not satisfied, and the model is doomed to have imperfect accuracy. By studying the trade-off between accuracy and memory requirements, we show that quantum models can reach the same accuracy with less memory, or alternatively, better accuracy with the same memory. Finally, we discuss the implications of this result for learning tasks. | 翻訳日:2023-12-22 16:26:33 公開日:2023-12-20 |
# NeRF-VO:ニューラルラジアンス場を用いたリアルタイムスパース視覚計測 NeRF-VO: Real-Time Sparse Visual Odometry with Neural Radiance Fields ( http://arxiv.org/abs/2312.13471v1 ) ライセンス: Link先を確認 | Jens Naumann, Binbin Xu, Stefan Leutenegger, Xingxing Zuo | (参考訳) 本稿では,低遅延カメラ追跡のための学習ベースのスパースビジュアルオドメトリと,高度な高密度再構成と新しいビュー合成のためのニューラルネットワークラミアンスシーン表現を統合した,新しい単眼視覚オドメトリ(vo)システムであるnerf-voを提案する。
本システムでは、カメラポーズを疎視オドメトリを用いて初期化し、単眼深度予測ネットワークから視点依存の密度幾何を事前取得する。
我々はポーズの規模と密な幾何学を調和させ、それらを神経暗黙のシーン表現を訓練するための監督的手がかりとして扱う。
nerf-voは、キーフレームポーズのスライディングウインドウと基礎となる密度幾何を共同で最適化することで、シーン表現の測光と幾何学的忠実性の両方において例外的な性能を示す。
本研究では,ポーズ推定精度,新規なビュー合成精度,多種多様な合成データと実世界のデータセット間の密集したコンストラクション品質において最先端の手法を超越し,高いカメラトラッキング周波数と少ないgpuメモリを実現する。 We introduce a novel monocular visual odometry (VO) system, NeRF-VO, that integrates learning-based sparse visual odometry for low-latency camera tracking and a neural radiance scene representation for sophisticated dense reconstruction and novel view synthesis. Our system initializes camera poses using sparse visual odometry and obtains view-dependent dense geometry priors from a monocular depth prediction network. We harmonize the scale of poses and dense geometry, treating them as supervisory cues to train a neural implicit scene representation. NeRF-VO demonstrates exceptional performance in both photometric and geometric fidelity of the scene representation by jointly optimizing a sliding window of keyframed poses and the underlying dense geometry, which is accomplished through training the radiance field with volume rendering. We surpass state-of-the-art methods in pose estimation accuracy, novel view synthesis fidelity, and dense reconstruction quality across a variety of synthetic and real-world datasets, while achieving a higher camera tracking frequency and consuming less GPU memory. | 翻訳日:2023-12-22 16:26:20 公開日:2023-12-20 |
# the devil is in the command line: コンパイラフラグとバイナリの関連付けとビルドメタデータ The Devil Is in the Command Line: Associating the Compiler Flags With the Binary and Build Metadata ( http://arxiv.org/abs/2312.13463v1 ) ライセンス: Link先を確認 | Gunnar Kudrjavets (University of Groningen), Aditya Kumar (Google), Jeff Thomas (Meta Platforms, Inc.), Ayushi Rastogi (University of Groningen) | (参考訳) エンジニアは、複数のアーキテクチャ、オペレーティングシステム、構成のための大規模なソフトウェアシステムを構築する。
不整合または欠落したコンパイラフラグは、システムの振る舞いに壊滅的に影響を及ぼすコードを生成する。
著者の業界経験では、望ましくないコンパイラフラグの組み合わせによる欠陥は、非自明なソフトウェアプロジェクトでよく見られる。
私たちは、コンパイラがどのように特定のバイナリを構造化された方法で生成するかを追跡するビルドシステムやci/cdシステムを知らない。
我々は、ソフトウェアシステムのコンパイルとリンク方法に関するクエリ可能なデータベースが、早期に欠陥を検出し、デバッグ時間を短縮するのに役立つと仮定する。 Engineers build large software systems for multiple architectures, operating systems, and configurations. A set of inconsistent or missing compiler flags generates code that catastrophically impacts the system's behavior. In the authors' industry experience, defects caused by an undesired combination of compiler flags are common in nontrivial software projects. We are unaware of any build and CI/CD systems that track how the compiler produces a specific binary in a structured manner. We postulate that a queryable database of how the compiler compiled and linked the software system will help to detect defects earlier and reduce the debugging time. | 翻訳日:2023-12-22 16:25:57 公開日:2023-12-20 |
# 記憶って どういうこと?
エンジニアが複雑さの迷路に迷うとき What Do You Mean by Memory? When Engineers Are Lost in the Maze of Complexity ( http://arxiv.org/abs/2312.13462v1 ) ライセンス: Link先を確認 | Gunnar Kudrjavets (University of Groningen), Aditya Kumar (Google), Jeff Thomas (Meta Platforms, Inc.), Ayushi Rastogi (University of Groningen) | (参考訳) アプリケーションのメモリ使用量を減らすための慣例は、メモリ割り当ての量と頻度を減らすことである。
要因など
(a)out-of-memory(oom)キラーの発生率。
(b)暗黙的に行われる近代プログラミング言語におけるメモリ割り当て
(c) linuxカーネルのデフォルト戦略を過度にコミットすること、
(d)メモリ管理に関連する複雑さや用語の増加は、既存のガイダンスを非効率にする。
業界には、特定のオペレーティングシステム(os)とプログラミング言語タイプをターゲットにしたメモリ使用量を最適化するための詳細なガイドラインが必要である。 An accepted practice to decrease applications' memory usage is to reduce the amount and frequency of memory allocations. Factors such as (a) the prevalence of out-of-memory (OOM) killers, (b) memory allocations in modern programming languages done implicitly, (c) overcommitting being a default strategy in the Linux kernel, and (d) the rise in complexity and terminology related to memory management makes the existing guidance inefficient. The industry needs detailed guidelines for optimizing memory usage targeting specific operating systems (OS) and programming language types. | 翻訳日:2023-12-22 16:25:48 公開日:2023-12-20 |
# フーリエ量子プロセストモグラフィ Fourier Quantum Process Tomography ( http://arxiv.org/abs/2312.13458v1 ) ライセンス: Link先を確認 | Francesco Di Colandrea, Nazanin Dehghan, Alessio D'Errico, Ebrahim Karimi | (参考訳) 量子デバイスの特徴付けは、量子実験の開発において重要なステップである。
これは量子プロセストモグラフィーによって実現され、異なる投影計測結果を組み合わせて、基礎となるプロセスの再構築を可能にする。
トモグラフィーは通常、過剰な測定セットを処理し、最大類似度推定からプロセス行列を抽出することによって行われる。
本稿では,Fourier Quantum Process Tomography(フーリエ量子プロセス・トモグラフィ)と呼ばれる新しい手法を提案する。
フーリエ量子プロセストモグラフィーは、2つの共役空間における状態準備と投影の確率分布の測定に基づいている。
位相探索の概念を駆使して, ほぼ最小の計測値の集合を処理し, セットアップの完全かつ堅牢な特徴付けを実現する。
本研究では,空間依存性の偏光変換を用いて実験を行い,平均忠実度は90%以上であり,有意な計算優位性を示した。 The characterization of a quantum device is a crucial step in the development of quantum experiments. This is accomplished via Quantum Process Tomography, which combines the outcomes of different projective measurements to deliver a possible reconstruction of the underlying process. The tomography is typically performed by processing an overcomplete set of measurements and extracting the process matrix from maximum-likelihood estimation. Here, we introduce a new technique, referred to as Fourier Quantum Process Tomography, which requires a reduced number of measurements, and benchmark its performance against the standard maximum-likelihood approach. Fourier Quantum Process Tomography is based on measuring probability distributions in two conjugate spaces for different state preparations and projections. Exploiting the concept of phase retrieval, our scheme achieves a complete and robust characterization of the setup by processing a near-minimal set of measurements. We experimentally test the technique on different space-dependent polarization transformations, reporting average fidelities higher than 90% and significant computational advantage. | 翻訳日:2023-12-22 16:25:40 公開日:2023-12-20 |
# 深部一般化正準相関解析の再検討 Revisiting Deep Generalized Canonical Correlation Analysis ( http://arxiv.org/abs/2312.13455v1 ) ライセンス: Link先を確認 | Paris A. Karakasis, Nicholas D. Sidiropoulos | (参考訳) カノニカル相関解析(Canonical correlation analysis, CCA)は、2つ以上の観測されたランダムベクトルの基盤となる潜時共変を発見するための古典的な統計手法である。
CCAの様々な拡張とバリエーションが提案され、マルチビューデータセットから一般的なランダム要因を明らかにすることで、我々の能力を強化した。
本稿では,近年の深部CCAの決定論的拡張について再考し,これらの最先端手法の強みと限界を強調した。
自明な解を許す方法もあるが、弱い共通因子を見逃す方法もある。
ビュー間で共通でないもの、すなわち各ビューを完全に再構築するために必要なプライベートコンポーネントを明らかにすることで、問題を過負荷にする者もいる。
後者は問題とその計算とサンプルの複雑さを過負荷する傾向がある。
これらの制約を改善すべく,現行の制約を緩和する新規かつ効率的な定式化をデザインする。
主なアイデアは、提案されたコンパクトな定式化を可能にする共通成分を条件独立にモデル化することである。
さらに,共通確率因子を同定するのに十分な条件も提示する。
合成および実データを用いた司法実験は,我々の主張の有効性と提案手法の有効性を示す。 Canonical correlation analysis (CCA) is a classic statistical method for discovering latent co-variation that underpins two or more observed random vectors. Several extensions and variations of CCA have been proposed that have strengthened our capabilities in terms of revealing common random factors from multiview datasets. In this work, we first revisit the most recent deterministic extensions of deep CCA and highlight the strengths and limitations of these state-of-the-art methods. Some methods allow trivial solutions, while others can miss weak common factors. Others overload the problem by also seeking to reveal what is not common among the views -- i.e., the private components that are needed to fully reconstruct each view. The latter tends to overload the problem and its computational and sample complexities. Aiming to improve upon these limitations, we design a novel and efficient formulation that alleviates some of the current restrictions. The main idea is to model the private components as conditionally independent given the common ones, which enables the proposed compact formulation. In addition, we also provide a sufficient condition for identifying the common random factors. Judicious experiments with synthetic and real datasets showcase the validity of our claims and the effectiveness of the proposed approach. | 翻訳日:2023-12-22 16:25:21 公開日:2023-12-20 |
# mixehr-surg:電子健康記録から死亡関連トピックを推測するための共同比例ハザードとガイドトピックモデル MixEHR-SurG: a joint proportional hazard and guided topic model for inferring mortality-associated topics from electronic health records ( http://arxiv.org/abs/2312.13454v1 ) ライセンス: Link先を確認 | Yixuan Li, Ariane Marelli, Archer Y. Yang, Yue Li | (参考訳) 目的: EHRデータを用いた生存分析を改善するため、異種EHRデータとモデル生存ハザードを同時に統合するMixEHR-SurGと呼ばれる教師付きトピックモデルを開発することを目的とする。
資料と方法:1) EHR トピック推論と Cox 比例的ハザードの可能性の統合,2) PheCode の概念を用いて患者固有のトピックハイパーパラメータを推定することにより,各トピックを PheCode 関連表現型と正確に同一化することができること,(3) マルチモーダルサバイバルトピック推論。
これは、患者死亡に関連するPheCode固有の表現型トピックを推測できる、高度に解釈可能な生存とガイド付きトピックモデルをもたらす。
シミュレーションデータセットと2つの実世界EHRデータセットを用いてMixEHR-Gを評価した。ケベック先天性心疾患(CHD)データでは,75,187名,ユニークなICD符号が1,767名,MIMIC-IIIは1,458名,マルチモーダルEHRレコードが1,458名であった。
結果:MixEHR-Gは,シミュレーションデータセットでは平均AUROCスコア0.89,CHDデータセットでは平均AUROC0.645であった。
定性的には、MixEHR-Gは心不全入院後のCHD患者の重症心疾患とICU退院後のMIMIC-III患者の死亡率の増加を伴う重症脳損傷を関連付ける。
結論: MixEHR-SurG における Cox 比例的ハザードモデルと EHR トピック推論の統合は, 競争的死亡率予測だけでなく, 組織的生存分析のための有意義な表現型トピックにも繋がった。
ソフトウェアはGitHubで入手できる: https://github.com/li-lab-mcgill/MixEHR-SurG。 Objective: To improve survival analysis using EHR data, we aim to develop a supervised topic model called MixEHR-SurG to simultaneously integrate heterogeneous EHR data and model survival hazard. Materials and Methods: Our technical contributions are three-folds: (1) integrating EHR topic inference with Cox proportional hazards likelihood; (2) inferring patient-specific topic hyperparameters using the PheCode concepts such that each topic can be identified with exactly one PheCode-associated phenotype; (3) multi-modal survival topic inference. This leads to a highly interpretable survival and guided topic model that can infer PheCode-specific phenotype topics associated with patient mortality. We evaluated MixEHR-G using a simulated dataset and two real-world EHR datasets: the Quebec Congenital Heart Disease (CHD) data consisting of 8,211 subjects with 75,187 outpatient claim data of 1,767 unique ICD codes; the MIMIC-III consisting of 1,458 subjects with multi-modal EHR records. Results: Compared to the baselines, MixEHR-G achieved a superior dynamic AUROC for mortality prediction, with a mean AUROC score of 0.89 in the simulation dataset and a mean AUROC of 0.645 on the CHD dataset. Qualitatively, MixEHR-G associates severe cardiac conditions with high mortality risk among the CHD patients after the first heart failure hospitalization and critical brain injuries with increased mortality among the MIMIC-III patients after their ICU discharge. Conclusion: The integration of the Cox proportional hazards model and EHR topic inference in MixEHR-SurG led to not only competitive mortality prediction but also meaningful phenotype topics for systematic survival analysis. The software is available at GitHub: https://github.com/li-lab-mcgill/MixEHR-SurG. | 翻訳日:2023-12-22 16:25:02 公開日:2023-12-20 |
# Fairy: 高速パラレル化インストラクションガイドによるビデオ合成 Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis ( http://arxiv.org/abs/2312.13834v1 ) ライセンス: Link先を確認 | Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda | (参考訳) 本稿では,映像編集拡散モデルの最小主義的かつロバストな適応であるfairyについて紹介する。
提案手法は,フレーム間の拡散特性を暗黙的に伝播させ,時間的コヒーレンスと高忠実度合成を向上する機構であるアンカーベースクロスフレームアテンションの概念に焦点を当てる。
Fairyは、メモリや処理速度など、以前のモデルの制限に対処するだけではない。
また、ユニークなデータ拡張戦略によって時間的一貫性も向上する。
この戦略は、ソース画像とターゲット画像の両方でアフィン変換に同値なモデルを記述する。
極めて効率的なのは、わずか14秒で120フレームの512x384ビデオ(30fpsで4秒持続)を生成できることだ。
1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法を上回ることを確認します。 In this paper, we introduce Fairy, a minimalist yet robust adaptation of image-editing diffusion models, enhancing them for video editing applications. Our approach centers on the concept of anchor-based cross-frame attention, a mechanism that implicitly propagates diffusion features across frames, ensuring superior temporal coherence and high-fidelity synthesis. Fairy not only addresses limitations of previous models, including memory and processing speed. It also improves temporal consistency through a unique data augmentation strategy. This strategy renders the model equivariant to affine transformations in both source and target images. Remarkably efficient, Fairy generates 120-frame 512x384 videos (4-second duration at 30 FPS) in just 14 seconds, outpacing prior works by at least 44x. A comprehensive user study, involving 1000 generated samples, confirms that our approach delivers superior quality, decisively outperforming established methods. | 翻訳日:2023-12-22 14:54:21 公開日:2023-12-20 |
# 物理インフォームドニューラルネットワークによる軟組織非線形生体力学モデルにおける材料特性の推定 Physics-informed Neural Network Estimation of Material Properties in Soft Tissue Nonlinear Biomechanical Models ( http://arxiv.org/abs/2312.09787v2 ) ライセンス: Link先を確認 | Federica Caforio and Francesco Regazzoni and Stefano Pagani and Elias Karabelas and Christoph Augustin and Gundolf Haase and Gernot Plank and Alfio Quarteroni | (参考訳) 臨床応用のためのバイオフィジカルモデルの開発は、その予測的性質と臨床データの解釈を支援する能力のおかげで、研究コミュニティで急速に進んでいる。
しかし、高分解能で高精度なマルチフィジカル計算モデルは計算コストが高く、そのパーソナライズには、空間に依存しない多くのパラメータの微調整が含まれ、臨床翻訳に挑戦している。
本研究では,物理に変形したニューラルネットワーク(pinns)と三次元軟組織非線形生体力学モデルを組み合わせて,変位場を再構成し,患者固有の生体物理特性を推定する手法を提案する。
提案する学習アルゴリズムは, 限られた変位量から情報を符号化し, 場合によっては, 臨床で日常的に取得できるひずみデータと, 偏微分方程式に基づく数理モデルで表される問題の物理を組み合わせることで, 問題を正則化し, 収束性を向上させる。
提案手法の精度とロバスト性を示し, 患者特異的で不均一な物理的特性, 組織硬度特性の堅牢かつ効果的な同定を可能にする大きな可能性を示す。
特に, 傷痕組織の存在, 位置, 重症度を検出するPINNの能力を実証し, 特に心臓疾患の診断における個人化シミュレーションモデルの開発に有用であることを示す。 The development of biophysical models for clinical applications is rapidly advancing in the research community, thanks to their predictive nature and their ability to assist the interpretation of clinical data. However, high-resolution and accurate multi-physics computational models are computationally expensive and their personalisation involves fine calibration of a large number of parameters, which may be space-dependent, challenging their clinical translation. In this work, we propose a new approach which relies on the combination of physics-informed neural networks (PINNs) with three-dimensional soft tissue nonlinear biomechanical models, capable of reconstructing displacement fields and estimating heterogeneous patient-specific biophysical properties. The proposed learning algorithm encodes information from a limited amount of displacement and, in some cases, strain data, that can be routinely acquired in the clinical setting, and combines it with the physics of the problem, represented by a mathematical model based on partial differential equations, to regularise the problem and improve its convergence properties. Several benchmarks are presented to show the accuracy and robustness of the proposed method and its great potential to enable the robust and effective identification of patient-specific, heterogeneous physical properties, s.a. tissue stiffness properties. In particular, we demonstrate the capability of the PINN to detect the presence, location and severity of scar tissue, which is beneficial to develop personalised simulation models for disease diagnosis, especially for cardiac applications. | 翻訳日:2023-12-22 03:35:47 公開日:2023-12-20 |
# FedECA:分散環境での時系列データを用いた因果推論のためのフェデレーション外部制御アーム手法 FedECA: A Federated External Control Arm Method for Causal Inference with Time-To-Event Data in Distributed Settings ( http://arxiv.org/abs/2311.16984v2 ) ライセンス: Link先を確認 | Jean Ogier du Terrail, Quentin Klopfenstein, Honghao Li, Imke Mayer, Nicolas Loiseau, Mohammad Hallal, F\'elix Balazard, Mathieu Andreux | (参考訳) 外部制御アーム(ECA)は、実験薬の初期臨床開発を知らせ、非ランダム化環境での規制承認の有効な証拠を提供する。
しかし、ECAを実装する主な課題は、現実世界のデータや歴史的な臨床試験にアクセスすることである。
実際、データ共有は、元々の収集センターを離れるデータに関するプライバシー上の考慮と、製薬会社の競争動機によって実現できないことが多い。
本稿では,フェデレーション学習(FL)と呼ばれるプライバシ向上技術を活用し,データ共有の障壁を取り除く。
我々は,患者のデータ露出を制限することにより,ECAの実装を容易化するFedECAと呼ばれる,治療重み付け(IPTW)方式のフェデレーション学習逆確率を導入する。
我々は,FedECAが最も近い競合相手であるMAIC(Match-adjusted indirect comparison)よりも,統計的パワーと治療と対照群のバランスの点で優れていることを示す。
このようなメソッドの使用を促進するため、プライバシーに敏感なコンテキストで実証された経験を持つオープンソースのFLソフトウェアであるSubstraに依存したコードを公開しています。 External control arms (ECA) can inform the early clinical development of experimental drugs and provide efficacy evidence for regulatory approval in non-randomized settings. However, the main challenge of implementing ECA lies in accessing real-world data or historical clinical trials. Indeed, data sharing is often not feasible due to privacy considerations related to data leaving the original collection centers, along with pharmaceutical companies' competitive motives. In this paper, we leverage a privacy-enhancing technology called federated learning (FL) to remove some of the barriers to data sharing. We introduce a federated learning inverse probability of treatment weighted (IPTW) method for time-to-event outcomes called FedECA which eases the implementation of ECA by limiting patients' data exposure. We show with extensive experiments that FedECA outperforms its closest competitor, matching-adjusted indirect comparison (MAIC), in terms of statistical power and ability to balance the treatment and control groups. To encourage the use of such methods, we publicly release our code which relies on Substra, an open-source FL software with proven experience in privacy-sensitive contexts. | 翻訳日:2023-12-22 03:35:21 公開日:2023-12-20 |
# 次元フリー remez の不等式とノルム設計 Dimension-free Remez Inequalities and norm designs ( http://arxiv.org/abs/2310.07926v5 ) ライセンス: Link先を確認 | Lars Becker, Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang | (参考訳) 古典的 Remez の不等式は、任意の部分集合 $Y\subset X$ の正のルベーグ測度上の上限で、境界次多項式の上限を区間 $X$ で有界とする。
レメス不等式には多変量一般化が多数存在するが、その多くは次元に強く依存する定数を持つ。
ここで、x$ と test の広いクラスが \emph{norm design} と呼ばれる $y$ を設定していることを示す。
Instantiations of this theorem allow us for example \emph{a}) to bound the supremum of an $n$-variate degree-$d$ polynomial on the solid cube $[0,1]^n$ by its supremum on the regular grid $\{0,1/d,2/d,\ldots, 1\}^n$ independent of dimension; and \emph{b}) in the case of a degree-$d$ polynomial $f:\mathbf{Z}_K^n\to\mathbf{C}$ on the $n$-fold product of cyclic groups of order $K$, to show the supremum of $f$ does not increase by more than $\mathcal{O}(\log K)^{2d}$ when $f$ is extended to the polytorus as $f:\mathbf{T}^n\to\mathbf{C}$. The classical Remez inequality bounds the supremum of a bounded-degree polynomial on an interval $X$ by its supremum on any subset $Y\subset X$ of positive Lebesgue measure. There are many multivariate generalizations of the Remez inequality, but most have constants that depend strongly on dimension. Here we show that a broad class of domains $X$ and test sets $Y$ -- termed \emph{norm designs} -- enjoy dimension-free Remez-type estimates. Instantiations of this theorem allow us for example \emph{a}) to bound the supremum of an $n$-variate degree-$d$ polynomial on the solid cube $[0,1]^n$ by its supremum on the regular grid $\{0,1/d,2/d,\ldots, 1\}^n$ independent of dimension; and \emph{b}) in the case of a degree-$d$ polynomial $f:\mathbf{Z}_K^n\to\mathbf{C}$ on the $n$-fold product of cyclic groups of order $K$, to show the supremum of $f$ does not increase by more than $\mathcal{O}(\log K)^{2d}$ when $f$ is extended to the polytorus as $f:\mathbf{T}^n\to\mathbf{C}$. | 翻訳日:2023-12-22 03:34:56 公開日:2023-12-20 |
# MIMOのフェイディングチャンネル上での個人的オーバーエアフェデレーション学習 Differentially Private Over-the-Air Federated Learning Over MIMO Fading Channels ( http://arxiv.org/abs/2306.10982v2 ) ライセンス: Link先を確認 | Hang Liu, Jia Yan, and Ying-Jun Angela Zhang | (参考訳) フェデレートラーニング(FL)は、エッジデバイスが直接データアップロードを置き換えるモデル通信によって、機械学習モデルを協調的にトレーニングすることを可能にする。
無線によるモデル集約は通信効率を向上させるが、無線ネットワーク上のエッジサーバへのモデルアップロードはプライバシのリスクをもたらす可能性がある。
differential privacy (dp) は fl における統計データプライバシーを測定するために広く用いられている定量的手法である。
従来,ユーザレベルのDPを高めるために通信ノイズを活用する単一アンテナサーバを用いた無線FLに重点を置いてきた。
この手法は, 送電電力を制御し, 人工雑音などのデバイスにDP保存機構を導入することにより, いわゆる「自由DP」を実現する。
本稿では,マルチ入力多重出力(mimo)フェージングチャネル上での空気中flについて検討する。
複数のアンテナサーバとのflモデル通信は、モデル集約と情報推論のために別々の受信の組み合わせを用いるため、プライバシリークを増幅する。
したがって、マルチインプット単一出力システムにおける通信ノイズのみに依存して高いプライバシー要件を満たすことができず、最適なDP設計にはデバイス側プライバシ保護機構が必要である。
本研究では,flシステムの学習収束とプライバシー損失を分析し,交互最適化に基づくトランシーバ設計アルゴリズムを提案する。
計算結果から,提案手法は従来の作業よりも優れたプライバシー学習トレードオフを実現することが示された。 Federated learning (FL) enables edge devices to collaboratively train machine learning models, with model communication replacing direct data uploading. While over-the-air model aggregation improves communication efficiency, uploading models to an edge server over wireless networks can pose privacy risks. Differential privacy (DP) is a widely used quantitative technique to measure statistical data privacy in FL. Previous research has focused on over-the-air FL with a single-antenna server, leveraging communication noise to enhance user-level DP. This approach achieves the so-called "free DP" by controlling transmit power rather than introducing additional DP-preserving mechanisms at devices, such as adding artificial noise. In this paper, we study differentially private over-the-air FL over a multiple-input multiple-output (MIMO) fading channel. We show that FL model communication with a multiple-antenna server amplifies privacy leakage as the multiple-antenna server employs separate receive combining for model aggregation and information inference. Consequently, relying solely on communication noise, as done in the multiple-input single-output system, cannot meet high privacy requirements, and a device-side privacy-preserving mechanism is necessary for optimal DP design. We analyze the learning convergence and privacy loss of the studied FL system and propose a transceiver design algorithm based on alternating optimization. Numerical results demonstrate that the proposed method achieves a better privacy-learning trade-off compared to prior work. | 翻訳日:2023-12-22 03:34:21 公開日:2023-12-20 |
# 熱力学極限における断熱定理:一様ギャップを持つ系 Adiabatic theorem in the thermodynamic limit: Systems with a uniform gap ( http://arxiv.org/abs/2012.15238v3 ) ライセンス: Link先を確認 | Joscha Henheik and Stefan Teufel | (参考訳) 有限格子上のガッピング多体系に対する断熱理論の最近の結果は熱力学的極限において有効である。
より正確には、可観測体の準局所代数上の無限体積ダイナミクスを記述する自己同型群に対する一般化された超断熱定理を証明する。
鍵となる仮定は、ガッピング有限体積ハミルトニアン列の存在であり、熱力学的極限において同じ無限体積ダイナミクスを生成する。
我々のアディバティック定理は、スペクトルギャップを閉じるギャップのある基底状態の摂動(つまり共鳴とこの意味では「一般化された」)についても成り立ち、アディバティックパラメータ(しばしば「スーパー・アディバティック」と呼ばれる性質)の全ての順序に対するアディバティック近似を提供する。
有限格子に対する既存の結果に加えて、断熱膨張の再開を行い、厳密な局所性を持たない可観測性を可能にする。
最後に、無限系の摂動のクラスに対しても線形および高次応答理論の有効性を証明した。
結果とその証明はそれ自体が新しく興味深いものだと考えていますが、後続の記事で示されるように、バルクにのみギャップがあるシステムに対する断熱的な定理の証明の基盤でもあるのです。 We show that recent results on adiabatic theory for interacting gapped many-body systems on finite lattices remain valid in the thermodynamic limit. More precisely, we prove a generalised super-adiabatic theorem for the automorphism group describing the infinite volume dynamics on the quasi-local algebra of observables. The key assumption is the existence of a sequence of gapped finite volume Hamiltonians which generates the same infinite volume dynamics in the thermodynamic limit. Our adiabatic theorem holds also for certain perturbations of gapped ground states that close the spectral gap (so it is an adiabatic theorem also for resonances and in this sense `generalised'), and it provides an adiabatic approximation to all orders in the adiabatic parameter (a property often called `super-adiabatic'). In addition to existing results for finite lattices, we also perform a resummation of the adiabatic expansion and allow for observables that are not strictly local. Finally, as an application, we prove the validity of linear and higher order response theory for our class of perturbations also for infinite systems. While we consider the result and its proof as new and interesting in itself, they also lay the foundation for the proof of an adiabatic theorem for systems with a gap only in the bulk, which will be presented in a follow-up article. | 翻訳日:2023-12-21 22:41:48 公開日:2023-12-20 |
# ゼロ温度でのガッピング系に対する kubo の公式の正当化: 簡単なレビューと新しい結果 Justifying Kubo's formula for gapped systems at zero temperature: a brief review and some new results ( http://arxiv.org/abs/2002.08669v2 ) ライセンス: Link先を確認 | Joscha Henheik and Stefan Teufel | (参考訳) まず,gapped extended hamiltonian quantum systems における移動係数に関する kubo の公式の厳密な正当化の問題について検討した。
特に量子ホール効果の理論的な理解は、そのようなシステムに対するkuboの公式の妥当性にかかっている。
次に,非平衡準定常状態(neass)に基づく線形応答理論のアプローチと,有限格子上のフェルミオン系を相互作用させるための[51]の1人によって最近提唱され,検討されたそのような系に対する対応する断熱定理に注目した。
論文の第2部では、[51]の結果を熱力学の限界に乗じて無限系に引き上げる方法について述べる。 We first review the problem of a rigorous justification of Kubo's formula for transport coefficients in gapped extended Hamiltonian quantum systems at zero temperature. In particular, the theoretical understanding of the quantum Hall effect rests on the validity of Kubo's formula for such systems, a connection that we review briefly as well. We then highlight an approach to linear response theory based on non-equilibrium almost-stationary states (NEASS) and on a corresponding adiabatic theorem for such systems that was recently proposed and worked out by one of us in [51] for interacting fermionic systems on finite lattices. In the second part of our paper we show how to lift the results of [51] to infinite systems by taking a thermodynamic limit. | 翻訳日:2023-12-21 22:41:24 公開日:2023-12-20 |
# 計画的同変ネットワークの探索 In Search of Projectively Equivariant Networks ( http://arxiv.org/abs/2209.14719v3 ) ライセンス: Link先を確認 | Georg B\"okman, Axel Flinth, Fredrik Kahl | (参考訳) 線形ニューラルネットワーク層の等価性はよく研究されている。
この研究において、同値条件は射影的意味でのみ真となるように緩和する。
本稿では,各中間特徴空間に作用する線形群表現が射影群表現の「乗法修正リフト」である標準同変ネットワークを構築することにより,射影同変ニューラルネットワークを構築する方法を提案する。
線形層の射影的および線形同値な関係を理論的に研究することで、このアプローチは線形層からネットワークを構築する際に最も一般的であることを示す。
この理論は2つの単純な実験で示される。 Equivariance of linear neural network layers is well studied. In this work, we relax the equivariance condition to only be true in a projective sense. We propose a way to construct a projectively equivariant neural network through building a standard equivariant network where the linear group representations acting on each intermediate feature space are "multiplicatively modified lifts" of projective group representations. By theoretically studying the relation of projectively and linearly equivariant linear layers, we show that our approach is the most general possible when building a network out of linear layers. The theory is showcased in two simple experiments. | 翻訳日:2023-12-21 22:38:19 公開日:2023-12-20 |
# 等価連続流をもつ格子量子場理論の学習 Learning Lattice Quantum Field Theories with Equivariant Continuous Flows ( http://arxiv.org/abs/2207.00283v3 ) ライセンス: Link先を確認 | Mathis Gerdes, Pim de Haan, Corrado Rainone, Roberto Bondesan, Miranda C. N. Cheng | (参考訳) 本稿では,単一神経ode層を基盤とし,問題の全対称性を包含した格子場理論の高次元確率分布からサンプリングする新しい機械学習手法を提案する。
提案したフローベース手法をサンプリング効率で体系的に上回っており,特に大きな格子に対して改善が顕著であることを示す。
さらに、我々のモデルは理論の連続的なファミリーを一度に学習できることを示し、学習結果をより大きな格子に転送することができる。
このような一般化は、機械学習の利点をさらに強調する。 We propose a novel machine learning method for sampling from the high-dimensional probability distributions of Lattice Field Theories, which is based on a single neural ODE layer and incorporates the full symmetries of the problem. We test our model on the $\phi^4$ theory, showing that it systematically outperforms previously proposed flow-based methods in sampling efficiency, and the improvement is especially pronounced for larger lattices. Furthermore, we demonstrate that our model can learn a continuous family of theories at once, and the results of learning can be transferred to larger lattices. Such generalizations further accentuate the advantages of machine learning methods. | 翻訳日:2023-12-21 22:38:09 公開日:2023-12-20 |
# 充電用量子電池の最適量子制御 Optimal Quantum Control of Charging Quantum Batteries ( http://arxiv.org/abs/2207.00094v3 ) ライセンス: Link先を確認 | R. R. Rodriguez, B. Ahmadi, G. Suarez, P. Mazurek, S. Barzanjeh and P. Horodecki | (参考訳) 量子制御により、特別な目的のために工学的量子力学の問題に対処できる。
近年、量子電池の分野が注目されているが、その充電の最適化は量子制御の方法の恩恵を受けていない。
ここでは最適化手法を用いてこのギャップを埋める。
この収束反復法が初めて2つのケースにおいて2成分量子系の集団の制御に応用し、量子ビット量子ビットの場合から始める。
量子チャージャー・バッテリ系(quantum charger-battery system)は、外部の古典電磁場によってチャージャーにエネルギーを注入するシステムである。
次に,ガウス系における2つの高調波発振器の手法を体系的に定式化する。
どちらの場合も、充電器は開放散逸系であると考えられる。
我々の最適化は、充電外部フィールドのオン・オフに関する実験的に実行可能な問題を考慮に入れている。
パルスの形状を最適化すると、正弦波駆動と比較して充電プロセスのパワーと効率が大幅に向上する。
量子電池の高調波発振器の設定は、最適な駆動パルスが環境温度とは独立に残るため、特に興味深い。 Quantum control allows us to address the problem of engineering quantum dynamics for special purposes. While recently the field of quantum batteries has attracted much attention, optimization of their charging has not benefited from the quantum control methods. Here we fill this gap by using an optimization method. We apply for the first time this convergent iterative method for the control of the population of a bipartite quantum system in two cases, starting with a qubit-qubit case. The quantum charger-battery system is considered here, where the energy is pumped into the charger by an external classical electromagnetic field. Secondly, we systematically develop the original formulation of the method for two harmonic oscillators in the Gaussian regime. In both cases, the charger is considered to be an open dissipative system. Our optimization takes into account experimentally viable problem of turning-on and off of the charging external field. Optimising the shape of the pulse significantly boosts both the power and efficiency of the charging process in comparison to the sinusoidal drive. The harmonic oscillator setting of quantum batteries is of a particular interest, as the optimal driving pulse remains so independently of the temperature of environment. | 翻訳日:2023-12-21 22:38:00 公開日:2023-12-20 |
# 森林型不均質処理効果を推定する要因について What Makes Forest-Based Heterogeneous Treatment Effect Estimators Work? ( http://arxiv.org/abs/2206.10323v2 ) ライセンス: Link先を確認 | Susanne Dandl and Torsten Hothorn and Heidi Seibold and Erik Sverdrup and Stefan Wager and Achim Zeileis | (参考訳) ヘテロジニアス治療効果(hte)の評価は、パーソナライズされた医療から経済学まで、多くの分野において最も重要なものである。
ランダム森林は、ランダム化試験と観測研究の両方において、HTE推定に対する柔軟で強力なアプローチであることが示されている。
Athey, Tibshirani, Wager (2019) が導入した "Causal forests" は, パッケージグラーフのR実装とともに急速に採用された。
Rパッケージモデル4youのモジュール実装とともに、Seebold、Zeileis、Hothorn (2018)によって、ランダム化試行と予測変数の効果を同時にキャプチャする「モデルベース森林」と呼ばれる関連するアプローチが導入された。
本稿では,理論的な動機を越え,どの計算要素が因果樹林を成功させるのか,モデルベース林の強みとどのように融合するかを検討する。
そこで本研究では,l2損失下の加法モデルに対して,同一パラメータとモデル仮定を用いて両手法を理解できることを示す。
この理論的な洞察により、モデルに基づく因果樹林のいくつかのフレーバーを実装し、シリコの異なる要素を識別することができる。
原生林とモデルベース林は、ランダム化試験と観測条件の両方を調査するベンチマーク研究において、新しいブレンドバージョンと比較された。
ランダムな設定では、どちらのアプローチも同じように実行された。
データ生成プロセスにコンファウンディングが存在した場合、治療指標の局所的な中心化と対応する傾向が、優れたパフォーマンスの原動力となることが分かりました。
結果の局所的な中心化は重要ではなく、予後および予測的効果の両方に関して、同時分割選択によって置き換えまたは強化される可能性がある。 Estimation of heterogeneous treatment effects (HTE) is of prime importance in many disciplines, ranging from personalized medicine to economics among many others. Random forests have been shown to be a flexible and powerful approach to HTE estimation in both randomized trials and observational studies. In particular "causal forests", introduced by Athey, Tibshirani and Wager (2019), along with the R implementation in package grf were rapidly adopted. A related approach, called "model-based forests", that is geared towards randomized trials and simultaneously captures effects of both prognostic and predictive variables, was introduced by Seibold, Zeileis and Hothorn (2018) along with a modular implementation in the R package model4you. Here, we present a unifying view that goes beyond the theoretical motivations and investigates which computational elements make causal forests so successful and how these can be blended with the strengths of model-based forests. To do so, we show that both methods can be understood in terms of the same parameters and model assumptions for an additive model under L2 loss. This theoretical insight allows us to implement several flavors of "model-based causal forests" and dissect their different elements in silico. The original causal forests and model-based forests are compared with the new blended versions in a benchmark study exploring both randomized trials and observational settings. In the randomized setting, both approaches performed akin. If confounding was present in the data generating process, we found local centering of the treatment indicator with the corresponding propensities to be the main driver for good performance. Local centering of the outcome was less important, and might be replaced or enhanced by simultaneous split selection with respect to both prognostic and predictive effects. | 翻訳日:2023-12-21 22:37:42 公開日:2023-12-20 |
# 多項式法への逆について On converses to the polynomial method ( http://arxiv.org/abs/2204.12303v3 ) ライセンス: Link先を確認 | Jop Bri\"et and Francisco Escudero Guti\'errez | (参考訳) Aaronson et al. (CCC'16) の驚くべき「多項式法への逆」は、任意の有界二次多項式は、有名なグロタンディーク定数に関連する普遍的乗法係数まで1-クエリアルゴリズムによって正確に計算できることを示している。
そこで提起された自然の質問は、有界なクォート多項式が2$キューリー量子アルゴリズムによって近似できるかどうかを問うものである。
arunachalam, palazuelos, そして最初の著者は、aaronsonらの結果の直接的な類似性がないことを示した。
まず、立方体からクォート多項式への変換に関係のある構成において小さな誤りを指摘し、修正する。
第二に、加法コンビネータの技法に基づく完全に明示的な例を示す。
第3に,小さな加算誤差を許容した場合,結果が持続することを示す。
これに対し、完全有界近似度に対して、Gribling and Laurent (QIP'19) のSDP特性を適用する。 A surprising 'converse to the polynomial method' of Aaronson et al. (CCC'16) shows that any bounded quadratic polynomial can be computed exactly in expectation by a 1-query algorithm up to a universal multiplicative factor related to the famous Grothendieck constant. A natural question posed there asks if bounded quartic polynomials can be approximated by $2$-query quantum algorithms. Arunachalam, Palazuelos and the first author showed that there is no direct analogue of the result of Aaronson et al. in this case. We improve on this result in the following ways: First, we point out and fix a small error in the construction that has to do with a translation from cubic to quartic polynomials. Second, we give a completely explicit example based on techniques from additive combinatorics. Third, we show that the result still holds when we allow for a small additive error. For this, we apply an SDP characterization of Gribling and Laurent (QIP'19) for the completely-bounded approximate degree. | 翻訳日:2023-12-21 22:37:10 公開日:2023-12-20 |
# ランダム化実験における汎用機械学習による異種処理効果の統計的推測 Statistical Inference for Heterogeneous Treatment Effects Discovered by Generic Machine Learning in Randomized Experiments ( http://arxiv.org/abs/2203.14511v2 ) ライセンス: Link先を確認 | Kosuke Imai, Michael Lingzhi Li | (参考訳) 研究者たちは、ランダム化実験における因果不均一性を調べるために、機械学習(ML)アルゴリズムに目を向けている。
その約束にもかかわらず、MLアルゴリズムは、多くの共変量と小さなサンプルサイズを持つ実用的な設定の下で、不均一な処理効果を正確に確認できないかもしれない。
さらに、推定の不確実性の定量化は依然として課題である。
汎用MLアルゴリズムによって発見された不均一な処理効果の統計的推測に対する一般手法を開発する。
本研究では,Neymanの繰り返しサンプリングフレームワークを,MLアルゴリズムを用いて条件平均処理効果を推定し,推定した効果の大きさに基づいてサンプルを複数のグループに分割する,共通の設定に適用する。
本研究は,各群の平均治療効果を推定する方法を示し,有効信頼区間を構築する。
さらに, 群間における治療効果の均一性, 群内平均治療効果のランク一貫性に関する非パラメトリックテストを行った。
本手法の有効性は,処理代入のランダム化と単位のランダムサンプリングにのみ依存するため,MLアルゴリズムの特性に依存しない。
最後に,データのランダム分割によって引き起こされる付加的不確実性を考慮し,提案手法をクロスフィッティング手法に一般化する。 Researchers are increasingly turning to machine learning (ML) algorithms to investigate causal heterogeneity in randomized experiments. Despite their promise, ML algorithms may fail to accurately ascertain heterogeneous treatment effects under practical settings with many covariates and small sample size. In addition, the quantification of estimation uncertainty remains a challenge. We develop a general approach to statistical inference for heterogeneous treatment effects discovered by a generic ML algorithm. We apply the Neyman's repeated sampling framework to a common setting, in which researchers use an ML algorithm to estimate the conditional average treatment effect and then divide the sample into several groups based on the magnitude of the estimated effects. We show how to estimate the average treatment effect within each of these groups, and construct a valid confidence interval. In addition, we develop nonparametric tests of treatment effect homogeneity across groups, and rank-consistency of within-group average treatment effects. The validity of our methodology does not rely on the properties of ML algorithms because it is solely based on the randomization of treatment assignment and random sampling of units. Finally, we generalize our methodology to the cross-fitting procedure by accounting for the additional uncertainty induced by the random splitting of data. | 翻訳日:2023-12-21 22:36:17 公開日:2023-12-20 |
# 量子ランダムナンバージェネレータの総合的レビュー:ランダムネスの概念・分類・起源 A Comprehensive Review of Quantum Random Number Generators: Concepts, Classification and the Origin of Randomness ( http://arxiv.org/abs/2203.00261v3 ) ライセンス: Link先を確認 | Vaisakh Mannalath, Sandeep Mishra and Anirban Pathak | (参考訳) ランダム数は暗号やその他の様々なタスクの中心である。
量子力学の本質的な確率論的性質により、従来の真の数生成器とは異なる多数の量子乱数生成器(qrng)を構築することができた。
この記事では、古典的な世界で実現できないさまざまな機能(デバイス独立性、半デバイス独立性など)に焦点を当てて、既存のqrngのレビューを提供する。
また、ランダム性の起源、適用性、その他の面についても論じている。
具体的には、無作為性の起源は、量子力学の階層的公理の集合の観点から検討され、従前の公理によって構築された構造の上に構築された超構造と見なすことができることを示唆する。
Q1)不適合性と不確実性、(Q2)文脈性、(Q3)絡み合い、(Q4)非局所性、(Q5)同一粒子の区別不可能である。
関連玩具一般化確率論(GPT)を導入し、今日知られているQRNGの異なる種類の乱数の起源は、非古典理論の異なる層に関連付けられており、それらすべてが量子力学の全ての特徴を必要としないことを示した。
さらに、利用可能なQRNGの分類が行われ、各クラスに関連する技術的課題が批判的に分析されている。
市販のQRNGも比較されている。 Random numbers are central to cryptography and various other tasks. The intrinsic probabilistic nature of quantum mechanics has allowed us to construct a large number of quantum random number generators (QRNGs) that are distinct from the traditional true number generators. This article provides a review of the existing QRNGs with a focus on their various possible features (e.g., device independence, semi-device independence) that are not achievable in the classical world. It also discusses the origin, applicability, and other facets of randomness. Specifically, the origin of randomness is explored from the perspective of a set of hierarchical axioms for quantum mechanics, implying that succeeding axioms can be regarded as a superstructure constructed on top of a structure built by the preceding axioms. The axioms considered are: (Q1) incompatibility and uncertainty; (Q2) contextuality; (Q3) entanglement; (Q4) nonlocality and (Q5) indistinguishability of identical particles. Relevant toy generalized probability theories (GPTs) are introduced, and it is shown that the origin of random numbers in different types of QRNGs known today are associated with different layers of nonclassical theories and all of them do not require all the features of quantum mechanics. Further, classification of the available QRNGs has been done and the technological challenges associated with each class are critically analyzed. Commercially available QRNGs are also compared. | 翻訳日:2023-12-21 22:35:25 公開日:2023-12-20 |
# 自律運転のための画像からの3次元物体検出:調査 3D Object Detection from Images for Autonomous Driving: A Survey ( http://arxiv.org/abs/2202.02980v4 ) ライセンス: Link先を確認 | Xinzhu Ma, Wanli Ouyang, Andrea Simonelli, Elisa Ricci | (参考訳) 自動運転における基本的かつ困難な問題の一つである画像からの3dオブジェクト検出は、近年、産学界からも注目を集めている。
ディープラーニング技術の急速な発展により、画像に基づく3D検出は目覚ましい進歩を遂げた。
特に、2015年から2021年にかけて200以上の著作がこの問題を研究しており、幅広い理論、アルゴリズム、応用を含んでいる。
しかし、この知識を収集・整理するための最近の調査は存在しない。
本稿では,このギャップを文献に埋めて,この新規かつ継続的な研究分野の包括的調査を行い,イメージベース3d検出のための最も一般的なパイプラインを要約し,各コンポーネントを深く分析する。
さらに,最新の手法を異なるカテゴリに整理するための2つの新しい分類法を提案し,既存の手法をより体系的に検討し,今後の手法との公平な比較を促進することを意図した。
これまでの成果を振り返って,この分野の課題を分析し,画像に基づく3次元検出研究の今後の方向性について考察する。 3D object detection from images, one of the fundamental and challenging problems in autonomous driving, has received increasing attention from both industry and academia in recent years. Benefiting from the rapid development of deep learning technologies, image-based 3D detection has achieved remarkable progress. Particularly, more than 200 works have studied this problem from 2015 to 2021, encompassing a broad spectrum of theories, algorithms, and applications. However, to date no recent survey exists to collect and organize this knowledge. In this paper, we fill this gap in the literature and provide the first comprehensive survey of this novel and continuously growing research field, summarizing the most commonly used pipelines for image-based 3D detection and deeply analyzing each of their components. Additionally, we also propose two new taxonomies to organize the state-of-the-art methods into different categories, with the intent of providing a more systematic review of existing methods and facilitating fair comparisons with future works. In retrospect of what has been achieved so far, we also analyze the current challenges in the field and discuss future directions for image-based 3D detection research. | 翻訳日:2023-12-21 22:34:38 公開日:2023-12-20 |
# 早期行動予測のためのリッチアクションセマンティック一貫性知識 Rich Action-semantic Consistent Knowledge for Early Action Prediction ( http://arxiv.org/abs/2201.09169v3 ) ライセンス: Link先を確認 | Xiaoli Liu, Jianqin Yin, Di Guo, and Huaping Liu | (参考訳) 早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。
以前の作品のほとんどは、部分的または完全なビデオ全体を扱い、ビデオに隠されたリッチなアクション知識を無視している。
対照的に、オリジナルまたはフルビデオは、新しい部分的ビデオのシリーズを形成するために分割し、任意の進行レベルで進化するこれらの新しい部分的ビデオのうち、アクション・セマンティック一貫性知識(ASCK)をマイニングする。
さらに,教師・学生の枠組みに基づくRACK(Rich Action-Semantic Consistent Knowledge Network)を提案する。
まず,2ストリーム事前学習モデルを用いて映像の特徴を抽出する。
次に,部分映像のrgb特徴やフロー特徴をノードとして扱い,その動作意味をエッジとして扱う。
次に,教師ネットワークのための双方向意味グラフと,学生ネットワークのための単方向意味グラフを構築し,部分的ビデオ間のリッチ asck をモデル化する。
MSEとMDDの損失は,教師から学生ネットワークへの部分的なビデオのASCKを豊かにする蒸留損失として組み込まれている。
最後に,異なるサブネットワークのロジットをサマーリングし,ソフトマックス層を適用して最終予測を行う。
EAPのためのリッチASCKのモデリングの有効性を実証する大規模な実験とアブレーション研究が実施されている。
提案したRACKでは、3つのベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/lily2lab/rack.gitで入手できる。 Early action prediction (EAP) aims to recognize human actions from a part of action execution in ongoing videos, which is an important task for many practical applications. Most prior works treat partial or full videos as a whole, ignoring rich action knowledge hidden in videos, i.e., semantic consistencies among different partial videos. In contrast, we partition original partial or full videos to form a new series of partial videos and mine the Action-Semantic Consistent Knowledge (ASCK) among these new partial videos evolving in arbitrary progress levels. Moreover, a novel Rich Action-semantic Consistent Knowledge network (RACK) under the teacher-student framework is proposed for EAP. Firstly, we use a two-stream pre-trained model to extract features of videos. Secondly, we treat the RGB or flow features of the partial videos as nodes and their action semantic consistencies as edges. Next, we build a bi-directional semantic graph for the teacher network and a single-directional semantic graph for the student network to model rich ASCK among partial videos. The MSE and MMD losses are incorporated as our distillation loss to enrich the ASCK of partial videos from the teacher to the student network. Finally, we obtain the final prediction by summering the logits of different subnetworks and applying a softmax layer. Extensive experiments and ablative studies have been conducted, demonstrating the effectiveness of modeling rich ASCK for EAP. With the proposed RACK, we have achieved state-of-the-art performance on three benchmarks. The code is available at https://github.com/lily2lab/RACK.git. | 翻訳日:2023-12-21 22:34:21 公開日:2023-12-20 |
# 石油会社の株価予測におけるLSTMモデルの解釈可能性:関連性の影響 The Interpretability of LSTM Models for Predicting Oil Company Stocks: Impact of Correlated Features ( http://arxiv.org/abs/2201.00350v5 ) ライセンス: Link先を確認 | Javad T. Firouzjaee and Pouriya Khaliliyan | (参考訳) 石油会社は、世界の株式市場における経済指標が世界経済と市場に与える影響に大きな影響を与えている世界最大の企業の一つである。
本研究では,石油在庫予測のための長短期記憶モデル(LSTM)\cite{ec04})の解釈性に対する相関特性の影響について検討した。
そこで我々は,LSTM(Standard Long Short-Term Memory)ネットワークを設計し,様々な相関データセットを用いて学習した。
本研究の目的は、原油価格、金価格、米ドルといった市場に影響を与える複数の要因を考慮し、株価予測の精度を向上させることである。
その結果,石油在庫と相関する機能を追加してもLSTMモデルの解釈性は向上しないことがわかった。
これらの結果から,LSTMモデルは株価の予測に有効であるが,解釈可能性には限界があることが示唆された。
株価の変動を引き起こす要因を十分に理解することが困難になる可能性があるため、株価予測にlstmモデルのみに頼る場合、注意すべきである。
我々は、金融市場が物理複合システム『cite{ec05}』の形式を含むことを考慮し、複雑性分析を用いて議論を支援してきた。
金融市場におけるLSTMモデルの利用において直面する根本的な課題の1つは、その内部の予期せぬフィードバックのダイナミクスを解釈することである。 Oil companies are among the largest companies in the world whose economic indicators in the global stock market have a great impact on the world economy\cite{ec00} and market due to their relation to gold\cite{ec01}, crude oil\cite{ec02}, and the dollar\cite{ec03}. This study investigates the impact of correlated features on the interpretability of Long Short-Term Memory(LSTM)\cite{ec04} models for predicting oil company stocks. To achieve this, we designed a Standard Long Short-Term Memory (LSTM) network and trained it using various correlated datasets. Our approach aims to improve the accuracy of stock price prediction by considering the multiple factors affecting the market, such as crude oil prices, gold prices, and the US dollar. The results demonstrate that adding a feature correlated with oil stocks does not improve the interpretability of LSTM models. These findings suggest that while LSTM models may be effective in predicting stock prices, their interpretability may be limited. Caution should be exercised when relying solely on LSTM models for stock price prediction as their lack of interpretability may make it difficult to fully understand the underlying factors driving stock price movements. We have employed complexity analysis to support our argument, considering that financial markets encompass a form of physical complex system\cite{ec05}. One of the fundamental challenges faced in utilizing LSTM models for financial markets lies in interpreting the unexpected feedback dynamics within them. | 翻訳日:2023-12-21 22:33:54 公開日:2023-12-20 |
# アナログ量子アルゴリズムプロトコルの時間非局所最適化における緩和バレン高原 Mitigated barren plateaus in the time-nonlocal optimization of analog quantum-algorithm protocols ( http://arxiv.org/abs/2111.08085v3 ) ライセンス: Link先を確認 | Lukas Broers and Ludwig Mathey | (参考訳) 量子機械学習は、短期的な量子計算デバイスの有望な利用として登場した。
しかし、変分量子アルゴリズムのようなアルゴリズムクラスは、パラメータ空間における勾配の消失によって不毛高原に苦しむことが示されている。
本稿では,ハミルトニアン系パラメータの学習可能なフーリエ係数に基づく量子アルゴリズム最適化手法を提案する。
我々の ansatz は離散量子変分アルゴリズムのアナログ量子最適制御スキームへの拡張に排他的であり、非局所的である。
我々は、量子フーリエ変換をコンパイルし、ランダム問題ハミルトニアンの基底状態を作成するという目的に対して、ansatzの有効性を実証する。
量子最適制御とパラメータ化回路における時間局所離散化ans\"atzeと比較すると、ansatzはより高速で一貫性のある収束を示す。
パラメータ空間全体で客観的な勾配を均一にサンプリングし、我々のアンサッツでは分散は量子ビット数と非指数速度で減衰するのに対し、時間的局所ベンチマークアンサッツでは指数速度で崩壊する。
これは我々のアンサッツにおける不毛高原の緩和を示している。
我々は、ansatzを近い将来の量子機械学習の候補として提案する。 Quantum machine learning has emerged as a promising utilization of near-term quantum computation devices. However, algorithmic classes such as variational quantum algorithms have been shown to suffer from barren plateaus due to vanishing gradients in their parameters spaces. We present an approach to quantum algorithm optimization that is based on trainable Fourier coefficients of Hamiltonian system parameters. Our ansatz is exclusive to the extension of discrete quantum variational algorithms to analog quantum optimal control schemes and is non-local in time. We demonstrate the viability of our ansatz on the objectives of compiling the quantum Fourier transform and preparing ground states of random problem Hamiltonians. In comparison to the temporally local discretization ans\"atze in quantum optimal control and parameterized circuits, our ansatz exhibits faster and more consistent convergence. We uniformly sample objective gradients across the parameter space and find that in our ansatz the variance decays at a non-exponential rate with the number of qubits, while it decays at an exponential rate in the temporally local benchmark ansatz. This indicates the mitigation of barren plateaus in our ansatz. We propose our ansatz as a viable candidate for near-term quantum machine learning. | 翻訳日:2023-12-21 22:33:23 公開日:2023-12-20 |
# 位相量子鎖の厳密な相関 Exact correlations in topological quantum chains ( http://arxiv.org/abs/2105.13359v3 ) ライセンス: Link先を確認 | Nick G. Jones, Ruben Verresen | (参考訳) 自由フェルミオン系は正確には解くことができると考えられるが、位相的弦相関や絡み合い測度のような非局所的な量に対する閉表現は一般に認めない。
位相的フェルミオンワイヤ(BDI と AIII のクラス)の特定のクラスにおいて、そのような量の閉表現を導出する。
この結果は一般化クラスタモデルと呼ばれるスピン鎖にも適用できる。
While there is a bijection between general models in these classes and Laurent polynomials, restricting to polynomials with degenerate zeros leads to a plethora of exact results: (1) we derive closed expressions for the string correlation functions - the order parameters for the topological phases in these classes; (2) we obtain an exact formula for the characteristic polynomial of the correlation matrix, giving insight into ground state entanglement; (3) the latter implies that the ground state can be described by a matrix product state (MPS) with a finite bond dimension in the thermodynamic limit - an independent and explicit construction for the BDI class is given in a concurrent work [Phys. Rev. Res. 3 (2021), 033265, 26 pages, arXiv:2105.12143]; (4) for BDI models with even integer topological invariant, all non-zero eigenvalues of the transfer matrix are identified as products of zeros and inverse zeros of the aforementioned polynomial.
これらのクラスの一般的なモデルは、我々が分析するモデルの限界を取り、その結果をさらに応用することで得られる。
我々の知る限りでは、これらの結果はデイの公式とゴロデツキーの公式の多体量子物理学へのトエプリッツ行列式の最初の応用である。 Although free-fermion systems are considered exactly solvable, they generically do not admit closed expressions for nonlocal quantities such as topological string correlations or entanglement measures. We derive closed expressions for such quantities for a dense subclass of certain classes of topological fermionic wires (classes BDI and AIII). Our results also apply to spin chains called generalised cluster models. While there is a bijection between general models in these classes and Laurent polynomials, restricting to polynomials with degenerate zeros leads to a plethora of exact results: (1) we derive closed expressions for the string correlation functions - the order parameters for the topological phases in these classes; (2) we obtain an exact formula for the characteristic polynomial of the correlation matrix, giving insight into ground state entanglement; (3) the latter implies that the ground state can be described by a matrix product state (MPS) with a finite bond dimension in the thermodynamic limit - an independent and explicit construction for the BDI class is given in a concurrent work [Phys. Rev. Res. 3 (2021), 033265, 26 pages, arXiv:2105.12143]; (4) for BDI models with even integer topological invariant, all non-zero eigenvalues of the transfer matrix are identified as products of zeros and inverse zeros of the aforementioned polynomial. General models in these classes can be obtained by taking limits of the models we analyse, giving a further application of our results. To the best of our knowledge, these results constitute the first application of Day's formula and Gorodetsky's formula for Toeplitz determinants to many-body quantum physics. | 翻訳日:2023-12-21 22:33:01 公開日:2023-12-20 |
# 熱力学的極限における断熱的定理:バルクにギャップを持つ系 Adiabatic theorem in the thermodynamic limit: Systems with a gap in the bulk ( http://arxiv.org/abs/2012.15239v3 ) ライセンス: Link先を確認 | Joscha Henheik and Stefan Teufel | (参考訳) バルク内のみのスペクトルギャップを仮定する拡張フェルミオン系に対する一般化された超断熱定理を証明した。
より正確には、無限系が一意な基底状態を持ち、対応する GNS-ハミルトニアンがその固有値 0 より上のスペクトルギャップを持つと仮定する。
さらに、類似の断熱定理は、対応する有限体積ハミルトニアンがスペクトルギャップを持たないにもかかわらず、システムサイズの逆の力よりも早く消える誤差まで、有限系の大部分を保っていることを示す。 We prove a generalised super-adiabatic theorem for extended fermionic systems assuming a spectral gap only in the bulk. More precisely, we assume that the infinite system has a unique ground state and that the corresponding GNS-Hamiltonian has a spectral gap above its eigenvalue zero. Moreover, we show that a similar adiabatic theorem also holds in the bulk of finite systems up to errors that vanish faster than any inverse power of the system size, although the corresponding finite volume Hamiltonians need not have a spectral gap. | 翻訳日:2023-12-21 22:32:40 公開日:2023-12-20 |
# Snippet-Feature 推定による時間的行動位置推定 Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature ( http://arxiv.org/abs/2303.12332v2 ) ライセンス: Link先を確認 | Wulian Yun, Mengshi Qi, Chuanming Wang, Huadong Ma | (参考訳) 弱教師付き時間的行動ローカライゼーションは、ビデオレベルラベルのみを監督として、アクション領域を特定し、未トリミングビデオ内のアクションカテゴリを同時に特定することを目的としている。
疑似ラベル生成は課題を解決するための有望な戦略であるが、現在の手法では映像の自然な時間構造を無視し、そのような生成プロセスを支援するために豊富な情報を提供できる。
本稿では,salient snippet-featureを推定し,新しい弱教師付き時間的行動定位法を提案する。
まず, 時間的近傍スニペット間の変動関係を利用して, 映像中の顕著な動的変化を反映した, 顕著なスニペット特徴を検出するサリエンシ推論モジュールを設計する。
第2に,情報インタラクションユニットを通じて,スニペット機能を強化した境界改良モジュールを提案する。
そして、スニペット特徴の識別性を高めるために識別強化モジュールを導入する。
最後に,高信頼な擬似ラベルを生成するために,洗練されたスニペット機能を採用し,アクションローカライズネットワークのトレーニングを監督する。
THUMOS14とActivityNet v1.3の2つの公開データセットに対する大規模な実験により、提案手法は最先端の手法と比較して大幅に改善されていることを示す。 Weakly-supervised temporal action localization aims to locate action regions and identify action categories in untrimmed videos simultaneously by taking only video-level labels as the supervision. Pseudo label generation is a promising strategy to solve the challenging problem, but the current methods ignore the natural temporal structure of the video that can provide rich information to assist such a generation process. In this paper, we propose a novel weakly-supervised temporal action localization method by inferring salient snippet-feature. First, we design a saliency inference module that exploits the variation relationship between temporal neighbor snippets to discover salient snippet-features, which can reflect the significant dynamic change in the video. Secondly, we introduce a boundary refinement module that enhances salient snippet-features through the information interaction unit. Then, a discrimination enhancement module is introduced to enhance the discriminative nature of snippet-features. Finally, we adopt the refined snippet-features to produce high-fidelity pseudo labels, which could be used to supervise the training of the action localization network. Extensive experiments on two publicly available datasets, i.e., THUMOS14 and ActivityNet v1.3, demonstrate our proposed method achieves significant improvements compared to the state-of-the-art methods. | 翻訳日:2023-12-21 22:26:22 公開日:2023-12-20 |
# 3D-CLFusion: テキストから3Dへの高速レンダリング 3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion ( http://arxiv.org/abs/2303.11938v2 ) ライセンス: Link先を確認 | Yu-Jhe Li, Tao Xu, Ji Hou, Bichen Wu, Xiaoliang Dai, Albert Pumarola, Peizhao Zhang, Peter Vajda, Kris Kitani | (参考訳) 入力潜在コードに対して3dオブジェクトを生成するnerf(pre-trained latent-based nerfs)を用いて,テキスト対3d生成の課題に取り組む。
最近のDreamFusionやMagic3Dのような作品では、NeRFとテキストプロンプトを使って3Dコンテンツを生成することに成功している。
1)非常に時間がかかり、
2) しばしば低解像度出力につながる。
これらの課題に対処するために,事前学習した潜伏型nerfを活用し,高速3dコンテンツ作成を1分以内で行う3d-clfusionという新しい手法を提案する。
特に,入力CLIPテキスト/画像埋め込みからw潜時を学習するための潜時拡散事前ネットワークを提案する。
このパイプラインにより、推論中にさらに最適化することなくw latentを生成でき、事前トレーニングされたnerfは、latntに基づいてマルチビューの高解像度3d合成を実行できます。
モデルの新規性は,拡散前のトレーニングにおいて,有効なビュー不変遅延コードの生成を可能にするコントラスト学習を導入することにある。
本研究では,DreamFusionの100倍の速度でテキストから3Dまでを高速に作成するためのビュー不変拡散プロセスの有効性を示す。
我々のモデルは,事前学習したNeRFを用いたテキストから3Dへのプラグイン・アンド・プレイツールの役割を担っている。 We tackle the task of text-to-3D creation with pre-trained latent-based NeRFs (NeRFs that generate 3D objects given input latent code). Recent works such as DreamFusion and Magic3D have shown great success in generating 3D content using NeRFs and text prompts, but the current approach of optimizing a NeRF for every text prompt is 1) extremely time-consuming and 2) often leads to low-resolution outputs. To address these challenges, we propose a novel method named 3D-CLFusion which leverages the pre-trained latent-based NeRFs and performs fast 3D content creation in less than a minute. In particular, we introduce a latent diffusion prior network for learning the w latent from the input CLIP text/image embeddings. This pipeline allows us to produce the w latent without further optimization during inference and the pre-trained NeRF is able to perform multi-view high-resolution 3D synthesis based on the latent. We note that the novelty of our model lies in that we introduce contrastive learning during training the diffusion prior which enables the generation of the valid view-invariant latent code. We demonstrate through experiments the effectiveness of our proposed view-invariant diffusion process for fast text-to-3D creation, e.g., 100 times faster than DreamFusion. We note that our model is able to serve as the role of a plug-and-play tool for text-to-3D with pre-trained NeRFs. | 翻訳日:2023-12-21 22:25:59 公開日:2023-12-20 |
# sgformer:ポイントクラウドベースの3dシーングラフ生成のためのセマンティックグラフトランスフォーマ SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene Graph Generation ( http://arxiv.org/abs/2303.11048v3 ) ライセンス: Link先を確認 | Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma | (参考訳) 本稿では,ポイントクラウドを用いた3次元シーングラフ生成のためのSGFormer, Semantic Graph TransFormerという新しいモデルを提案する。
このタスクは、ポイントクラウドベースのシーンをセマンティックな構造グラフに解析することを目的としている。
グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報のみを伝搬することができる。
対照的に、sgformerは3dシーングラフ生成タスク用に新たに設計された2つのレイヤを備えたグローバル情報転送を可能にするために、トランスフォーマー層をベースビルディングブロックとして使用する。
具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。
さらに,大規模言語モデル(chatgpt)からの言語知識を活用し,オブジェクトの視覚機能を高めるための意味注入層を提案する。
我々は、確立された3DSSGデータセット上でSGFormerをベンチマークし、関係予測のR@50の40.94%の絶対的な改善と、最先端の複雑なシーンを持つサブセットの88.36%のアップを達成した。
さらに,SGFormerの長テールおよびゼロショットシナリオにおける優位性を示す。
ソースコードはhttps://github.com/andy20178/sgformerから入手できます。 In this paper, we propose a novel model called SGFormer, Semantic Graph TransFormer for point cloud-based 3D scene graph generation. The task aims to parse a point cloud-based scene into a semantic structural graph, with the core challenge of modeling the complex global structure. Existing methods based on graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and can only propagate information from limited neighboring nodes. In contrast, SGFormer uses Transformer layers as the base building block to allow global information passing, with two types of newly-designed layers tailored for the 3D scene graph generation task. Specifically, we introduce the graph embedding layer to best utilize the global information in graph edges while maintaining comparable computation costs. Furthermore, we propose the semantic injection layer to leverage linguistic knowledge from large-scale language model (i.e., ChatGPT), to enhance objects' visual features. We benchmark our SGFormer on the established 3DSSG dataset and achieve a 40.94% absolute improvement in relationship prediction's R@50 and an 88.36% boost on the subset with complex scenes over the state-of-the-art. Our analyses further show SGFormer's superiority in the long-tail and zero-shot scenarios. Our source code is available at https://github.com/Andy20178/SGFormer. | 翻訳日:2023-12-21 22:25:33 公開日:2023-12-20 |
# 合成画像検索のためのデータローミングと品質評価 Data Roaming and Quality Assessment for Composed Image Retrieval ( http://arxiv.org/abs/2303.09429v2 ) ライセンス: Link先を確認 | Matan Levy, Rami Ben-Ari, Nir Darshan, Dani Lischinski | (参考訳) Composed Image Retrieval (CoIR)のタスクは、画像とテキストのモダリティを組み合わせたクエリを伴い、ユーザがより効果的にインテントを表現できるようにする。
しかし、現在のCoIRデータセットは他のビジョンや言語(V&L)データセットに比べて桁違いに小さい。
さらに、これらのデータセットの中には冗長なモダリティを含むクエリなど、注目すべき問題もある。
これらの欠点に対処するために、我々は、既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセット(Large Scale Composed Image Retrieval)を紹介した。
LaSCoの事前トレーニングでは、ゼロショットでも、注目すべきパフォーマンス向上が示されています。
さらに,クエリにおけるモダリティ冗長性や必要性を検出するcoirデータセットと手法を新たに分析する手法を提案する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift Encoder)も導入する。
このベースラインは、クロスアテンションモジュールを使用してモダリティの早期統合を可能にし、トレーニング中に追加の補助タスクを使用する。
この新たなベースラインは、FashionIQやCIRRのような確立されたベンチマークにおいて、現在の最先端の手法よりも優れていることを示す。 The task of Composed Image Retrieval (CoIR) involves queries that combine image and text modalities, allowing users to express their intent more effectively. However, current CoIR datasets are orders of magnitude smaller compared to other vision and language (V&L) datasets. Additionally, some of these datasets have noticeable issues, such as queries containing redundant modalities. To address these shortcomings, we introduce the Large Scale Composed Image Retrieval (LaSCo) dataset, a new CoIR dataset which is ten times larger than existing ones. Pre-training on our LaSCo, shows a noteworthy improvement in performance, even in zero-shot. Furthermore, we propose a new approach for analyzing CoIR datasets and methods, which detects modality redundancy or necessity, in queries. We also introduce a new CoIR baseline, the Cross-Attention driven Shift Encoder (CASE). This baseline allows for early fusion of modalities using a cross-attention module and employs an additional auxiliary task during training. Our experiments demonstrate that this new baseline outperforms the current state-of-the-art methods on established benchmarks like FashionIQ and CIRR. | 翻訳日:2023-12-21 22:25:05 公開日:2023-12-20 |
# エントロピー関数の臨界点としての共形場理論基底状態 Conformal Field Theory Ground States as Critical Points of an Entropy Function ( http://arxiv.org/abs/2303.05444v2 ) ライセンス: Link先を確認 | Ting-Chun Lin, John McGreevy | (参考訳) 1+1D共形場理論の基底状態で満たされるエントロピー式を導出する。
この公式は基底状態がエントロピー関数の臨界点であることを示している。
この公式は、従来の代数的定義とは異なる共形場理論の情報理論的基準として機能する可能性がある。
これらの発見に加えて、同じ証明法を用いて共形場理論の6つの大域共形生成体を基底状態から抽出する。
我々は、異なる臨界格子モデル上で、優れた一致でテストすることで結果を検証する。 We derive an entropy formula satisfied by the ground states of 1+1D conformal field theories. The formula implies that the ground state is the critical point of an entropy function. We conjecture that this formula may serve as an information-theoretic criterion for conformal field theories, which differs from the conventional algebraic definition. In addition to these findings, we use the same proof method to extract the six global conformal generators of the conformal field theory from its ground state. We validate our results by testing them on different critical lattice models with excellent agreement. | 翻訳日:2023-12-21 22:24:48 公開日:2023-12-20 |
# SEAM: 読み上げにおける文処理と眼球運動の統合的活性化結合モデル SEAM: An Integrated Activation-Coupled Model of Sentence Processing and Eye Movements in Reading ( http://arxiv.org/abs/2303.05221v4 ) ライセンス: Link先を確認 | Maximilian M. Rabe, Dario Paape, Daniela Mertzen, Shravan Vasishth, Ralf Engbert | (参考訳) 読書中の眼球運動制御のモデルは、主に心理学内で発達し、視覚的、注意的、語彙的、運動的プロセスに焦点をあてるが、語彙後言語処理は無視する。
眼球運動制御と文処理を統合した2つの研究スレッドを組み合わせたモデルを提案する。
このような統合モデルの開発は極めて困難かつ計算的に要求されるが、このような統合は自然言語理解の完全な数学的モデルへの重要な一歩である。
我々は、眼球運動制御のSWIFTモデル(Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313)とLewis & Vasishth文処理モデルのキーコンポーネント(Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25)を組み合わせる。
この統合は、動的モデルにおけるパラメータ識別が成功した最近の進歩により、初めて可能となり、個々のモデルパラメータのプロファイルログライク度を調査できる。
本手法は,マルコフ連鎖モンテカルロ(mcmc)サンプリングを用いたベイズモデル推論を主要な計算ツールとして用いた。
統合されたセンテンス・プロセシングとアイモーメント・アクティベーション・カップリング・モデル(SEAM)は、類似性に基づく読書の干渉によって生じる眼球運動パターンをうまく再現することができる。
我々の知る限り、これは文理解における言語依存補完プロセスと眼球運動制御の完全なプロセスモデルの統合として初めてである。
今後の研究では、この概念モデルを包括的なベンチマークデータを用いて評価する必要がある。 Models of eye-movement control during reading, developed largely within psychology, usually focus on visual, attentional, lexical, and motor processes but neglect post-lexical language processing; by contrast, models of sentence comprehension processes, developed largely within psycholinguistics, generally focus only on post-lexical language processes. We present a model that combines these two research threads, by integrating eye-movement control and sentence processing. Developing such an integrated model is extremely challenging and computationally demanding, but such an integration is an important step toward complete mathematical models of natural language comprehension in reading. We combine the SWIFT model of eye-movement control (Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313) with key components of the Lewis and Vasishth sentence processing model (Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25). This integration becomes possible, for the first time, due in part to recent advances in successful parameter identification in dynamical models, which allows us to investigate profile log-likelihoods for individual model parameters. We present a fully implemented proof-of-concept model demonstrating how such an integrated model can be achieved; our approach includes Bayesian model inference with Markov Chain Monte Carlo (MCMC) sampling as a key computational tool. The integrated Sentence-Processing and Eye-Movement Activation-Coupled Model (SEAM) can successfully reproduce eye movement patterns that arise due to similarity-based interference in reading. To our knowledge, this is the first-ever integration of a complete process model of eye-movement control with linguistic dependency completion processes in sentence comprehension. In future work, this proof of concept model will need to be evaluated using a comprehensive set of benchmark data. | 翻訳日:2023-12-21 22:24:37 公開日:2023-12-20 |
# M-Tuning: オープンセットシナリオでラベルバイアスを緩和したプロンプトチューニング M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios ( http://arxiv.org/abs/2303.05122v2 ) ライセンス: Link先を確認 | Ning Liao, Xiaopeng Zhang, Min Cao, Junchi Yan, Qi Tian | (参考訳) テストデータの一部のラベルが完全に未知である現実的なオープンセットのシナリオでは、視覚言語(VL)が未知のクラス(訓練中は見られない)に関連する入力に遭遇する学習メソッドを、常にトレーニングクラスの1つとして予測する。
表示されたラベルバイアスは、画像が既知のクラスまたは未知のクラスの1つとして正しく予測されるべきであるオープンセット認識(OSR)において困難を引き起こす。
この目的を達成するために,ラベルバイアス(mチューニング)を軽減した視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
さらに,大規模なデータセットを直接分類することで,小さなデータセットよりもはるかに偽陽性率が高いという観察にインスピレーションを得て,パフォーマンス向上のための Combinatorial Tuning and Testing(CTT)戦略を提案する。
CTTは、大規模データセット上のM-Tuningを、より少ないクラスの複数の独立したグループワイドチューニングとして分解し、最適なサブプロンプトを選択することで正確で包括的な予測を行う。
最後に、文献におけるvlベースのosrベースラインの欠如、特にプロンプトメソッドについては、公平な比較のために新しいベースラインを提供する。
本手法は,様々なスケールのデータセット上で最高の性能を達成し,その有効性も検証した。 In realistic open-set scenarios where labels of a part of testing data are totally unknown, when vision-language (VL) prompt learning methods encounter inputs related to unknown classes (i.e., not seen during training), they always predict them as one of the training classes. The exhibited label bias causes difficulty in open set recognition (OSR), in which an image should be correctly predicted as one of the known classes or the unknown one. To achieve this goal, we propose a vision-language prompt tuning method with mitigated label bias (M-Tuning). It introduces open words from the WordNet to extend the range of words forming the prompt texts from only closed-set label words to more, and thus prompts are tuned in a simulated open-set scenario. Besides, inspired by the observation that classifying directly on large datasets causes a much higher false positive rate than on small datasets, we propose a Combinatorial Tuning and Testing (CTT) strategy for improving performance. CTT decomposes M-Tuning on large datasets as multiple independent group-wise tuning on fewer classes, then makes accurate and comprehensive predictions by selecting the optimal sub-prompt. Finally, given the lack of VL-based OSR baselines in the literature, especially for prompt methods, we contribute new baselines for fair comparisons. Our method achieves the best performance on datasets with various scales, and extensive ablation studies also validate its effectiveness. | 翻訳日:2023-12-21 22:24:00 公開日:2023-12-20 |
# 赤外光波センシングによる非接触呼吸異常検出 Non-contact Respiratory Anomaly Detection using Infrared Light-wave Sensing ( http://arxiv.org/abs/2301.03713v3 ) ライセンス: Link先を確認 | Md Zobaer Islam, Brenden Martin, Carly Gotcher, Tyler Martinez, John F. O'Hara, Sabit Ekin | (参考訳) ヒト呼吸速度とそのパターンは、被験者の身体的および心理的状態に関する重要な情報を伝える。
異常呼吸は致命的な健康上の問題を示し、さらなる診断と治療につながる。
非コヒーレント赤外線光を用いた無線光波センシング(lws)は、プライバシーの懸念を生じさせることなく、安全、慎重、効率的、非侵襲的な人間の呼吸監視を約束している。
呼吸異常を識別するためには呼吸パターンの異なる種類の呼吸パターンをトレーニングする必要があるが, 呼吸波形として収集したデータを検証し, 外部中断, ユーザ移動, システム故障による異常データを捨てる必要がある。
これらのニーズに対処するために,人間の呼吸パターンを模倣するロボットを用いて,正常および異なる種類の呼吸異常をシミュレートした。
そして, 赤外線センシング技術を用いて時系列呼吸データを収集した。
3つの機械学習アルゴリズム、決定木、ランダムフォレスト、XGBoostを適用し、呼吸異常と異常データを検出する。
モデル性能をクロスバリデーション,分類精度,精度,リコールスコアで評価した。
ランダム森林モデルは、0.5mの距離で収集されたデータで96.75%の分類精度を達成した。
一般に、ランダムフォレストやXGBoostのようなアンサンブルモデルは、光波検知装置から複数の距離で収集されたデータを分類する際に、1つのモデルよりも優れている。 Human respiratory rate and its pattern convey essential information about the physical and psychological states of the subject. Abnormal breathing can indicate fatal health issues leading to further diagnosis and treatment. Wireless light-wave sensing (LWS) using incoherent infrared light shows promise in safe, discreet, efficient, and non-invasive human breathing monitoring without raising privacy concerns. The respiration monitoring system needs to be trained on different types of breathing patterns to identify breathing anomalies.The system must also validate the collected data as a breathing waveform, discarding any faulty data caused by external interruption, user movement, or system malfunction. To address these needs, this study simulated normal and different types of abnormal respiration using a robot that mimics human breathing patterns. Then, time-series respiration data were collected using infrared light-wave sensing technology. Three machine learning algorithms, decision tree, random forest and XGBoost, were applied to detect breathing anomalies and faulty data. Model performances were evaluated through cross-validation, assessing classification accuracy, precision and recall scores. The random forest model achieved the highest classification accuracy of 96.75% with data collected at a 0.5m distance. In general, ensemble models like random forest and XGBoost performed better than a single model in classifying the data collected at multiple distances from the light-wave sensing setup. | 翻訳日:2023-12-21 22:22:57 公開日:2023-12-20 |
# 予測区間生成のための2重精度品質駆動ニューラルネットワーク Dual Accuracy-Quality-Driven Neural Network for Prediction Interval Generation ( http://arxiv.org/abs/2212.06370v3 ) ライセンス: Link先を確認 | Giorgio Morales and John W. Sheppard | (参考訳) 実世界のアプリケーションにおけるディープラーニングモデルの信頼性を高めるためには,正確な不確かさの定量化が不可欠である。
回帰タスクの場合、深層学習モデルの決定論的予測とともに予測間隔(PI)を提供する必要がある。
このようなpiは、十分に狭く、確率密度の大部分を捉える限り、有用または「高品質」である。
本稿では,従来の目標予測に加えて,回帰型ニューラルネットワークの予測間隔を自動的に学習する手法を提案する。
特に,1つの出力,対象推定,および2つの出力,対応するPIの上と下の境界を使用するニューラルネットワークを訓練する。
我々の主な貢献は、目標推定ネットワークの出力を考慮に入れ、平均予測間隔幅を最小化し、予測間隔確率を暗黙的に最大化する制約を用いてPI整合性を確保するという2つの最適化目標を持つPI世代ネットワークの新規損失関数の設計である。
さらに,損失関数内の目的と目的のバランスをとる自己適応係数を導入し,微調整作業の軽減を図る。
合成データセット,8つのベンチマークデータセット,実世界の作物収量予測データセットを用いた実験により,本手法は3つの最先端ニューラルネットワーク法で生成されたpiと比較して,その推定精度を損なうことなく,名目的確率範囲を維持し,極めて狭いpiを生成することができた。
言い換えれば,本手法は高品質なPIを生成する。 Accurate uncertainty quantification is necessary to enhance the reliability of deep learning models in real-world applications. In the case of regression tasks, prediction intervals (PIs) should be provided along with the deterministic predictions of deep learning models. Such PIs are useful or "high-quality" as long as they are sufficiently narrow and capture most of the probability density. In this paper, we present a method to learn prediction intervals for regression-based neural networks automatically in addition to the conventional target predictions. In particular, we train two companion neural networks: one that uses one output, the target estimate, and another that uses two outputs, the upper and lower bounds of the corresponding PI. Our main contribution is the design of a novel loss function for the PI-generation network that takes into account the output of the target-estimation network and has two optimization objectives: minimizing the mean prediction interval width and ensuring the PI integrity using constraints that maximize the prediction interval probability coverage implicitly. Furthermore, we introduce a self-adaptive coefficient that balances both objectives within the loss function, which alleviates the task of fine-tuning. Experiments using a synthetic dataset, eight benchmark datasets, and a real-world crop yield prediction dataset showed that our method was able to maintain a nominal probability coverage and produce significantly narrower PIs without detriment to its target estimation accuracy when compared to those PIs generated by three state-of-the-art neural-network-based methods. In other words, our method was shown to produce higher-quality PIs. | 翻訳日:2023-12-21 22:22:34 公開日:2023-12-20 |
# 非定常学習における崩壊のインスタンス条件時間スケール Instance-Conditional Timescales of Decay for Non-Stationary Learning ( http://arxiv.org/abs/2212.05908v2 ) ライセンス: Link先を確認 | Nishant Jain, Pradeep Shenoy | (参考訳) slow concept driftは、実用的な機械学習システムにおいて、ユビキタスだが未熟な問題である。
このような設定では、最近のデータはより将来のデータを示すが、最近のインスタンスを無意識に優先順位付けすることで、過去から貴重な情報を失うリスクがある。
大規模トレーニングウィンドウ上でインスタンスの重要性のバランスをとるための最適化駆動アプローチを提案する。
まず、複数の時間スケールの崩壊を混合してインスタンス関連性をモデル化し、豊富な時間的傾向を捉える。
第二に、インスタンス自体の関数として適切な時間スケールの混合を回復する補助スコアラーモデルを学ぶ。
最後に,学習モデルのフォワード転送を最大化する,スコアラー学習のためのネスト最適化目標を提案する。
9年間で39億枚の写真からなる大規模な実世界のデータセットでの実験は、他の堅牢な学習ベースラインと比較して、15%の精度向上を示している。
私たちは、非定常学習のための現実世界のデータセットの2つのコレクションで成果を再現し、作業を継続的な学習環境に拡張します。 Slow concept drift is a ubiquitous, yet under-studied problem in practical machine learning systems. In such settings, although recent data is more indicative of future data, naively prioritizing recent instances runs the risk of losing valuable information from the past. We propose an optimization-driven approach towards balancing instance importance over large training windows. First, we model instance relevance using a mixture of multiple timescales of decay, allowing us to capture rich temporal trends. Second, we learn an auxiliary scorer model that recovers the appropriate mixture of timescales as a function of the instance itself. Finally, we propose a nested optimization objective for learning the scorer, by which it maximizes forward transfer for the learned model. Experiments on a large real-world dataset of 39M photos over a 9 year period show upto 15% relative gains in accuracy compared to other robust learning baselines. We replicate our gains on two collections of real-world datasets for non-stationary learning, and extend our work to continual learning settings where, too, we beat SOTA methods by large margins. | 翻訳日:2023-12-21 22:22:05 公開日:2023-12-20 |
# 熱行列化ポリトープとその退化 The Thermomajorization Polytope and Its Degeneracies ( http://arxiv.org/abs/2212.04305v4 ) ライセンス: Link先を確認 | Frederik vom Ende, Emanuel Malvetti | (参考訳) 本研究は,輸送理論からインスピレーションを得て,< well-structured' と ``stable'' のギブス状態の概念を導入し,量子熱力学とその熱操作による資源理論のアプローチについて考察する。
準古典的領域では、ギブス状態が安定であるときと場合に限り、大域的な巡回状態遷移は不可能である。
さらに、いわゆる熱大化ポリトープの研究による幾何学的アプローチを用いて、平衡の任意のサブシステムを熱操作によって平衡から引き出すことができることを証明した。
興味深いことに、平衡状態にあるいくつかのサブシステムの場合、系のギブス状態が十分に構成されていると仮定して、熱大化ポリトープの縮退極点を通して見ることができる。
これらの物理的考察は、ポリトープの極端点と極端ギブス-確率行列の重要なクラスに対する単純な新しい構成によって補完される。 Drawing inspiration from transportation theory, in this work we introduce the notions of ``well-structured'' and ``stable'' Gibbs states and we investigate their implications for quantum thermodynamics and its resource theory approach via thermal operations. It turns out that, in the quasi-classical realm, global cyclic state transfers are impossible if and only if the Gibbs state is stable. Moreover, using a geometric approach by studying the so-called thermomajorization polytope we prove that any subsystem in equilibrium can be brought out of equilibrium via thermal operations. Interestingly, the case of some subsystem being in equilibrium can be witnessed via degenerate extreme points of the thermomajorization polytope, assuming the Gibbs state of the system is well structured. These physical considerations are complemented by simple new constructions for the polytope's extreme points as well as for an important class of extremal Gibbs-stochastic matrices. | 翻訳日:2023-12-21 22:21:49 公開日:2023-12-20 |
# 微分未校正画像 Differentiable Uncalibrated Imaging ( http://arxiv.org/abs/2211.10525v3 ) ライセンス: Link先を確認 | Sidharth Gupta, Konik Kothari, Valentin Debarnot, Ivan Dokmani\'c | (参考訳) センサの位置や投影角などの測定座標の不確実性に対処するための微分可能なイメージングフレームワークを提案する。
フォワード演算子によって制御される未知ノードにおける計測補間として問題を定式化する。
これを解決するために、入力座標に対して自然に微分可能な暗黙のニューラルネットワーク、別名ニューラルフィールドを適用します。
また,ニューラルネットワークと同様に動作し,最適化に要する時間が少なく,よく理解されている特性を持つ,微分可能なスプライン補間器を開発した。
測定表現を協調的に適合させ、不確実な測定座標を最適化し、一貫したキャリブレーションを保証する画像再構成を行うため、微分性は鍵となる。
本手法を2次元および3次元CTに応用し,キャリブレーションの欠如を考慮に入れないベースラインと比較して,再現性が向上したことを示す。
提案するフレームワークの柔軟性により、ほぼ任意の画像問題への拡張が容易になる。 We propose a differentiable imaging framework to address uncertainty in measurement coordinates such as sensor locations and projection angles. We formulate the problem as measurement interpolation at unknown nodes supervised through the forward operator. To solve it we apply implicit neural networks, also known as neural fields, which are naturally differentiable with respect to the input coordinates. We also develop differentiable spline interpolators which perform as well as neural networks, require less time to optimize and have well-understood properties. Differentiability is key as it allows us to jointly fit a measurement representation, optimize over the uncertain measurement coordinates, and perform image reconstruction which in turn ensures consistent calibration. We apply our approach to 2D and 3D computed tomography, and show that it produces improved reconstructions compared to baselines that do not account for the lack of calibration. The flexibility of the proposed framework makes it easy to extend to almost arbitrary imaging problems. | 翻訳日:2023-12-21 22:21:03 公開日:2023-12-20 |
# 視聴覚同期用マルチモーダル変圧器蒸留 Multimodal Transformer Distillation for Audio-Visual Synchronization ( http://arxiv.org/abs/2210.15563v2 ) ライセンス: Link先を確認 | Xuanjun Chen, Haibin Wu, Chung-Che Wang, Hung-yi Lee, Jyh-Shing Roger Jang | (参考訳) 音声と視覚の同期は、ビデオ中の口の動きと音声が同期しているかどうかを決定することを目的としている。
VocaLiSTは、マルチモーダルトランスフォーマーを組み込んで、音声と視覚の対話情報をモデル化することで、最先端のパフォーマンスを実現する。
しかし、それは高いコンピューティングリソースを必要とし、現実のアプリケーションでは実用的でない。
本稿では,提案するマルチモーダル変圧器蒸留(mtd)の損失から学習するmtdvocalistモデルを提案する。
MTD損失により、MTDVocaLiSTモデルはVocaLiSTの変換器のクロスアテンション分布と値関係を深く模倣することができる。
さらに、すべての層にわたる相互作用情報を完全に活用するために不確実性重み付けを利用する。
提案手法は, 蒸留法の観点から, MTD損失は他の強い蒸留ベースラインよりも優れた性能を示す。
蒸留したモデルのパフォーマンスの観点からすると
1)MTDVocaLiSTは、同様のサイズのSOTAモデル、SyncNet、Perfect Matchモデルを15.65%、そして3.35%で上回る。
2) MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。 Audio-visual synchronization aims to determine whether the mouth movements and speech in the video are synchronized. VocaLiST reaches state-of-the-art performance by incorporating multimodal Transformers to model audio-visual interact information. However, it requires high computing resources, making it impractical for real-world applications. This paper proposed an MTDVocaLiST model, which is trained by our proposed multimodal Transformer distillation (MTD) loss. MTD loss enables MTDVocaLiST model to deeply mimic the cross-attention distribution and value-relation in the Transformer of VocaLiST. Additionally, we harness uncertainty weighting to fully exploit the interaction information across all layers. Our proposed method is effective in two aspects: From the distillation method perspective, MTD loss outperforms other strong distillation baselines. From the distilled model's performance perspective: 1) MTDVocaLiST outperforms similar-size SOTA models, SyncNet, and Perfect Match models by 15.65% and 3.35%; 2) MTDVocaLiST reduces the model size of VocaLiST by 83.52%, yet still maintaining similar performance. | 翻訳日:2023-12-21 22:20:47 公開日:2023-12-20 |
# TEC-Net:医療画像分割のためのビジョントランスフォーマーエンブレス畳み込みニューラルネットワーク TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for Medical Image Segmentation ( http://arxiv.org/abs/2306.04086v3 ) ライセンス: Link先を確認 | Rui Sun, Tao Lei, Weichuan Zhang, Yong Wan, Yong Xia, Asoke K. Nandi | (参考訳) 畳み込みニューラルネットワーク(cnn)とトランスフォーマーのハイブリッドアーキテクチャは、医用画像セグメンテーションの最も一般的な方法である。
しかし、ハイブリッドアーキテクチャに基づく既存のネットワークには2つの問題がある。
第1に、cnnブランチは畳み込み操作によって画像局所的な特徴をキャプチャできるが、バニラ畳み込みは画像特徴の適応的な抽出を達成することができない。
第2に、変圧器ブランチは画像のグローバル情報をモデル化できるが、従来のセルフアテンションは画像の空間的自己アテンションのみに焦点を当て、複雑な背景を持つ医療画像のセグメンテーション精度を低下させるチャンネルやクロス次元の自己アテンションを無視する。
これらの問題を解決するために,医療画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを用いたビジョントランスフォーマーを提案する。
我々のネットワークには2つの利点がある。
まず、動的変形可能な畳み込み(DDConv)はCNNブランチで設計され、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解消し、CNNブランチの機能表現能力を効果的に改善する。
第2に、Transformerブランチでは、パラメータや計算の少ない医用画像のクロス次元長距離依存性を完全に学習できるように、(シフト)ウィンドウ適応相補的注意モジュール((S)W-ACAM)とコンパクトな畳み込み投影を設計する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
さらに、我々のTEC-Netはパラメータや計算コストを少なくし、事前学習に依存しない。
コードはhttps://github.com/SR0920/TEC-Netで公開されている。 The hybrid architecture of convolution neural networks (CNN) and Transformer has been the most popular method for medical image segmentation. However, the existing networks based on the hybrid architecture suffer from two problems. First, although the CNN branch can capture image local features by using convolution operation, the vanilla convolution is unable to achieve adaptive extraction of image features. Second, although the Transformer branch can model the global information of images, the conventional self-attention only focuses on the spatial self-attention of images and ignores the channel and cross-dimensional self-attention leading to low segmentation accuracy for medical images with complex backgrounds. To solve these problems, we propose vision Transformer embrace convolutional neural networks for medical image segmentation (TEC-Net). Our network has two advantages. First, dynamic deformable convolution (DDConv) is designed in the CNN branch, which not only overcomes the difficulty of adaptive feature extraction using fixed-size convolution kernels, but also solves the defect that different inputs share the same convolution kernel parameters, effectively improving the feature expression ability of CNN branch. Second, in the Transformer branch, a (shifted)-window adaptive complementary attention module ((S)W-ACAM) and compact convolutional projection are designed to enable the network to fully learn the cross-dimensional long-range dependency of medical images with few parameters and calculations. Experimental results show that the proposed TEC-Net provides better medical image segmentation results than SOTA methods including CNN and Transformer networks. In addition, our TEC-Net requires fewer parameters and computational costs and does not rely on pre-training. The code is publicly available at https://github.com/SR0920/TEC-Net. | 翻訳日:2023-12-21 22:14:13 公開日:2023-12-20 |
# マニピュレーションのための木枝運動のシミュレーション学習 Learning to Simulate Tree-Branch Dynamics for Manipulation ( http://arxiv.org/abs/2306.03410v3 ) ライセンス: Link先を確認 | Jayadeep Jacob, Tirthankar Bandyopadhyay, Jason Williams, Paulo Borges and Fabio Ramos | (参考訳) 本稿では,操作中の木の枝のダイナミクスをモデル化するシミュレーション駆動逆推論手法を提案する。
枝のダイナミックスを学び、変形可能な植生を操作する能力を得ることは、密集した葉の果実の摘み取りや、密集した植生の航行のために過剰なブドウや枝を移動させるなど、閉塞し易いタスクに役立つ。
基礎となる変形可能なツリー幾何学は、並列で微分不可能なシミュレータ上で実行される粗いスプリング抽象としてカプセル化されている。
シミュレータによって定義された暗黙の統計モデル、基底真理を積極的に探究した参照軌道、ベイズ形式は、スプリングパラメータの後方密度推定を導く。
スタイン変分勾配降下に基づく非パラメトリック推定アルゴリズムは、生物学的に動機づけられた仮定をニューラルネットワーク駆動学習者関節前駆として推論プロセスに組み込むとともに、勾配近似のための有限差分スキームを利用する。
実およびシミュレーション実験により, 本モデルが変形軌跡を予測し, 推定の不確かさを定量化し, 他の推論アルゴリズム, 特にモンテカルロ系に対してベースライン化した場合, 性能が向上することを確認した。
このモデルは、ヘテロセダスティックなセンサノイズの存在下で強い強靭性を示し、さらに、把握できない場所に一般化することができる。 We propose to use a simulation driven inverse inference approach to model the dynamics of tree branches under manipulation. Learning branch dynamics and gaining the ability to manipulate deformable vegetation can help with occlusion-prone tasks, such as fruit picking in dense foliage, as well as moving overhanging vines and branches for navigation in dense vegetation. The underlying deformable tree geometry is encapsulated as coarse spring abstractions executed on parallel, non-differentiable simulators. The implicit statistical model defined by the simulator, reference trajectories obtained by actively probing the ground truth, and the Bayesian formalism, together guide the spring parameter posterior density estimation. Our non-parametric inference algorithm, based on Stein Variational Gradient Descent, incorporates biologically motivated assumptions into the inference process as neural network driven learnt joint priors; moreover, it leverages the finite difference scheme for gradient approximations. Real and simulated experiments confirm that our model can predict deformation trajectories, quantify the estimation uncertainty, and it can perform better when base-lined against other inference algorithms, particularly from the Monte Carlo family. The model displays strong robustness properties in the presence of heteroscedastic sensor noise; furthermore, it can generalise to unseen grasp locations. | 翻訳日:2023-12-21 22:13:37 公開日:2023-12-20 |
# cit-net:医療画像セグメンテーションのための視覚トランスフォーマーを用いた畳み込みニューラルネットワーク CiT-Net: Convolutional Neural Networks Hand in Hand with Vision Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2306.03373v2 ) ライセンス: Link先を確認 | Tao Lei, Rui Sun, Xuan Wang, Yingbo Wang, Xi He, Asoke Nandi | (参考訳) 畳み込みニューラルネットワーク(CNN)とTransformerのハイブリッドアーキテクチャは、医療画像セグメンテーションで非常に人気がある。
しかし、それは2つの課題に苦しむ。
まず、cnnsブランチはバニラ畳み込みを使って局所的な画像特徴をキャプチャできるが、適応的特徴学習は実現できない。
第二に、Transformerブランチはグローバルな特徴をキャプチャできるが、チャネルとクロス次元の自己アテンションを無視し、複雑なコンテンツ画像のセグメンテーション精度を低くする。
そこで本研究では, 医用画像分割のための視覚トランスフォーマー(cit-net)を用いた畳み込みニューラルネットワークのハイブリッドアーキテクチャを提案する。
我々のネットワークには2つの利点がある。
まず、動的変形可能な畳み込みを設計、cnnsブランチに適用し、固定サイズの畳み込みカーネルによる弱い特徴抽出能力を克服し、異なる入力間でカーネルパラメータを共有する強固な設計を行う。
第2に,シフトウインド適応補完アテンションモジュールとコンパクト畳み込みプロジェクションを設計した。
これらをトランスフォーマーブランチに適用し,医療画像の長期的依存性を学習する。
実験の結果,一般的なSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
さらに、cit-netはパラメータを小さくし、計算コストを削減し、事前トレーニングに依存しません。
コードはhttps://github.com/SR0920/CiT-Netで公開されている。 The hybrid architecture of convolutional neural networks (CNNs) and Transformer are very popular for medical image segmentation. However, it suffers from two challenges. First, although a CNNs branch can capture the local image features using vanilla convolution, it cannot achieve adaptive feature learning. Second, although a Transformer branch can capture the global features, it ignores the channel and cross-dimensional self-attention, resulting in a low segmentation accuracy on complex-content images. To address these challenges, we propose a novel hybrid architecture of convolutional neural networks hand in hand with vision Transformers (CiT-Net) for medical image segmentation. Our network has two advantages. First, we design a dynamic deformable convolution and apply it to the CNNs branch, which overcomes the weak feature extraction ability due to fixed-size convolution kernels and the stiff design of sharing kernel parameters among different inputs. Second, we design a shifted-window adaptive complementary attention module and a compact convolutional projection. We apply them to the Transformer branch to learn the cross-dimensional long-term dependency for medical images. Experimental results show that our CiT-Net provides better medical image segmentation results than popular SOTA methods. Besides, our CiT-Net requires lower parameters and less computational costs and does not rely on pre-training. The code is publicly available at https://github.com/SR0920/CiT-Net. | 翻訳日:2023-12-21 22:13:14 公開日:2023-12-20 |
# 量子コンピュータのための効率的な安定化器エントロピー Efficient stabilizer entropies for quantum computers ( http://arxiv.org/abs/2305.19152v2 ) ライセンス: Link先を確認 | Tobias Haug, Soovin Lee, M.S. Kim | (参考訳) 安定化器エントロピー(ses)は、状態が安定化器によって記述される程度を定量化する非安定性の尺度または「魔法」である。
SEは特に興味深いのは、スクランブルやローカライゼーション、プロパティテストとのつながりのためです。
しかし、従来のses測定プロトコルは量子ビット数に指数関数的に制限されている。
ここでは,ベル測定による整数指数$n>1$のSEを効率的に測定する方法を示す。
数量子ビットを超える計算が可能となる様々な非安定化性モノトンの効率的な境界を提供する。
イオンq量子コンピュータを用いて、非クリフォードゲートをドープしたランダムクリフォード回路のsesを測定し、魔法の安定化忠実性、安定化度、頑健性の境界を与える。
アプリケーションとして,4n$-point out-of-time-ordercorrelator と multifractal flatness を測定する効率的なアルゴリズムを提供する。
その結果,量子コンピュータによる非安定性の探索が可能となった。 Stabilizer entropies (SEs) are measures of nonstabilizerness or `magic' that quantify the degree to which a state is described by stabilizers. SEs are especially interesting due to their connections to scrambling, localization and property testing. However, applications have been limited so far as previously known measurement protocols for SEs scale exponentially with the number of qubits. Here, we show how to efficiently measure SEs for integer index $n>1$ via Bell measurements. We provide efficient bounds of various nonstabilizerness monotones which are intractable to compute beyond a few qubits. Using the IonQ quantum computer, we measure SEs of random Clifford circuits doped with non-Clifford gates and give bounds for the stabilizer fidelity, stabilizer extent and robustness of magic. As applications, we provide efficient algorithms to measure $4n$-point out-of-time-order correlators and multifractal flatness. Our results open up the exploration of nonstabilizerness with quantum computers. | 翻訳日:2023-12-21 22:12:33 公開日:2023-12-20 |
# シーンテキスト認識のためのマスキングおよび置換暗黙的文脈学習 Masked and Permuted Implicit Context Learning for Scene Text Recognition ( http://arxiv.org/abs/2305.16172v2 ) ライセンス: Link先を確認 | Xiaomeng Yang, Zhi Qiao, Jin Wei, Dongbao Yang, Yu Zhou | (参考訳) 場面のテキスト認識(str)は、テキストのスタイル、形状、背景が多様であるため困難である。
言語情報の統合によりモデルの性能が向上するが、置換言語モデリング(PLM)またはマスキング言語モデリング(MLM)に基づく既存の手法には落とし穴がある。
PLMの自己回帰復号法は後続の文字に対する監視を欠いているが、MLMはキャラクタ間の依存関係を見落としている。
これらの問題に対処するため,STR の暗黙的文脈学習ネットワークを提案する。このネットワークは PLM と MLM を1つのデコーダに統一し,両方のアプローチの利点を継承する。
我々は、PLMのトレーニング手順を利用し、MLMを統合するために、単語長情報を復号処理に組み込み、未決定文字をマスクトークンに置き換える。
また、潜在的な長さ予測誤差に対してより堅牢なモデルをトレーニングするために摂動訓練が用いられる。
我々の経験的評価は、我々のモデルの性能を示す。
一般的なベンチマークで優れたパフォーマンスを達成するだけでなく、より挑戦的なUnion14M-Benchmarkで9.1\%の大幅な改善を達成している。 Scene Text Recognition (STR) is difficult because of the variations in text styles, shapes, and backgrounds. Though the integration of linguistic information enhances models' performance, existing methods based on either permuted language modeling (PLM) or masked language modeling (MLM) have their pitfalls. PLM's autoregressive decoding lacks foresight into subsequent characters, while MLM overlooks inter-character dependencies. Addressing these problems, we propose a masked and permuted implicit context learning network for STR, which unifies PLM and MLM within a single decoder, inheriting the advantages of both approaches. We utilize the training procedure of PLM, and to integrate MLM, we incorporate word length information into the decoding process and replace the undetermined characters with mask tokens. Besides, perturbation training is employed to train a more robust model against potential length prediction errors. Our empirical evaluations demonstrate the performance of our model. It not only achieves superior performance on the common benchmarks but also achieves a substantial improvement of $9.1\%$ on the more challenging Union14M-Benchmark. | 翻訳日:2023-12-21 22:11:42 公開日:2023-12-20 |
# 量子離散写像:データ駆動型量子力学埋め込み法による短期量子コンピュータの長期予測 Quantum Discrete Maps: Data-driven Quantum Dynamical Embedding Method for Long-term Prediction on a Near-term Quantum Computer ( http://arxiv.org/abs/2305.15976v2 ) ライセンス: Link先を確認 | Tai-Ping Sun, Zhao-Yun Chen, Cheng Xue, Huan-Yu Liu, Xi-Ning Zhuang, Yun-Jie Wang, Shi-Xin Ma, Hai-Feng Zhang, Yu-Chun Wu, Guo-Ping Guo | (参考訳) 様々な分野にわたる長期時系列予測への焦点の増大は、量子計算の進歩によって著しく強化されている。
本稿では,量子力学埋め込みを用いた長期時系列予測のためのデータ駆動方式である量子離散写像(QDM)を提案する。
このアプローチでは、トレーニング可能なデータ空間を拡張状態空間に埋め込み、時系列情報の再帰的な検索を可能にする。
本手法は, 時間列長の非依存性に基づいて, 短期量子コンピュータにとって重要な深度効率の量子回路を実現する。
数値シミュレーションにより,既存の手法に対する予測精度と資源効率の向上が示された。
本モデルは,Lucleable error-cancellation Layer (LECL) を用いた量子プロセッサのOriginq Wu-Kong上に実装し,近距離量子デバイスへのアプローチの適用性を検証した。
さらに、QDMの力学特性とその普遍性の理論解析により、時系列予測の可能性を高める。
本研究は、データ駆動学習と離散時間量子マップの統合による予測能力の向上により、短期量子コンピュータにおける長期時系列処理への大きな一歩を定めている。 The increasing focus on long-term time series prediction across various fields has been significantly strengthened by advancements in quantum computation. In this paper, we introduce quantum discrete maps (QDMs), a data-driven method designed for long-term time series prediction with quantum dynamical embedding. This approach enables a trainable embedding of the data space into an extended state space, allowing for the recursive retrieval of time series information. Based on its independency of time series length, this method achieves depth-efficient quantum circuits that are crucial for near-term quantum computers. Numerical simulations demonstrate the model's improved performance in prediction accuracy and resource efficiency over existing methods. We implement this model on the Originq Wu-Kong superconducting quantum processor with a learnable error-cancellation layer (LECL) for error mitigation, further validates the practical applicability of our approach on near-term quantum devices. Furthermore, the theoretical analysis of the QDM's dynamical properties and its universality enhances its potential for time series prediction. This study establishes a significant step towards the processing of long-term time series on near-term quantum computers, integrating data-driven learning with discrete time quantum maps for enhanced forecasting capabilities. | 翻訳日:2023-12-21 22:11:12 公開日:2023-12-20 |
# 複数原子アンサンブルを用いた光格子時計の不安定性低減 Reducing the instability of an optical lattice clock using multiple atomic ensembles ( http://arxiv.org/abs/2305.12315v2 ) ライセンス: Link先を確認 | Xin Zheng, Jonathan Dolde, and Shimon Kolkowitz | (参考訳) 光原子時計の安定性は、ほとんど全てのクロック応用にとって重要なメリットである。
この目的のために、多くの光学原子時計の研究は、原子番号を増大させ、コヒーレントな尋問時間を延長し、標準量子限界を超えるエンタングルメントを導入することで、クロック不安定性を低減することに重点を置いている。
本研究では、ストロンチウム(sr)光格子時計における個別に制御された原子アンサンブルに基づく位相推定手法を用いて、クロック不安定性を低減するための代替手法を実験的に実証する。
まず,空間分解された2つの原子アンサンブルを「四分法ラムゼイ分光法」とよばれ,絶対時計不安定度が1.36(5)減少する要因を自己相関で測定した。
次に、${}^{87}$srの豊富な超微細構造を利用して、グローバルレーザーアドレスのみを含む複数のアンサンブル上の独立コヒーレント制御を実現する。
最後に、この4個の原子アンサンブルに対する独立制御を用いて位相推定を行い、コヒーレントな尋問時間における3倍以上の係数と、同じ局所振動子と同じ原子数を持つ同一の単一アンサンブルクロック上での不安定性の係数2.08(6)を達成した。
ここで示されるようなマルチアンサンブルプロトコルは、局所発振器によって制限された尋問時間を持つ任意の光学格子クロックの不安定性を低下させる。 The stability of an optical atomic clock is a critical figure of merit for almost all clock applications. To this end, much optical atomic clock research has focused on reducing clock instability by increasing the atom number, lengthening the coherent interrogation times, and introducing entanglement to push beyond the standard quantum limit. In this work, we experimentally demonstrate an alternative approach to reducing clock instability using a phase estimation approach based on individually controlled atomic ensembles in a strontium (Sr) optical lattice clock. We first demonstrate joint Ramsey interrogation of two spatially-resolved atom ensembles that are out of phase with respect to each other, which we call "quadrature Ramsey spectroscopy," resulting in a factor of 1.36(5) reduction in absolute clock instability as measured with interleaved self-comparisons. We then leverage the rich hyperfine structure of ${}^{87}$Sr to realize independent coherent control over multiple ensembles with only global laser addressing. Finally, we utilize this independent control over 4 atom ensembles to implement a form of phase estimation, achieving a factor of greater than 3 enhancement in coherent interrogation time and a factor of 2.08(6) reduction in instability over an otherwise identical single ensemble clock with the same local oscillator and the same number of atoms. We expect that multi-ensemble protocols similar to those demonstrated here will result in reduction in the instability of any optical lattice clock with an interrogation time limited by the local oscillator. | 翻訳日:2023-12-21 22:10:45 公開日:2023-12-20 |
# ルールベースのLTLfプロセス仕様の測定:確率的データ駆動アプローチ Measuring Rule-based LTLf Process Specifications: A Probabilistic Data-driven Approach ( http://arxiv.org/abs/2305.05418v2 ) ライセンス: Link先を確認 | Alessio Cecconi, Luca Barbaro, Claudio Di Ciccio, Arik Senderovich | (参考訳) 宣言的プロセス仕様は、有限トレース上の線形時間論理(LTLf)に基づくルールによってプロセスの振る舞いを定義する。
マイニングのコンテキストでは、これらの仕様は情報システム(つまりイベントログ)によって記録された複数の実行を推測し、チェックする。
この目的のために、どのプロセスデータが仕様に準拠しているかを評価できることが重要です。
しかし、既存の鉱業や検証技術はルールを個別に分析し、相互行為を無視している。
本稿では,宣言的プロセス仕様の確率的尺度を考案する枠組みを提案する。
そこで本稿では,イベントログに対する仕様の満足度を計測する手法を提案する。
提案手法を評価するために,実世界のデータを用いて評価を行い,発見,チェック,ドリフト検出における適用性を評価する。 Declarative process specifications define the behavior of processes by means of rules based on Linear Temporal Logic on Finite Traces (LTLf). In a mining context, these specifications are inferred from, and checked on, multi-sets of runs recorded by information systems (namely, event logs). To this end, being able to gauge the degree to which process data comply with a specification is key. However, existing mining and verification techniques analyze the rules in isolation, thereby disregarding their interplay. In this paper, we introduce a framework to devise probabilistic measures for declarative process specifications. Thereupon, we propose a technique that measures the degree of satisfaction of specifications over event logs. To assess our approach, we conduct an evaluation with real-world data, evidencing its applicability in discovery, checking, and drift detection contexts. | 翻訳日:2023-12-21 22:10:19 公開日:2023-12-20 |
# transhp:階層的プロンプトによる画像分類 TransHP: Image Classification with Hierarchical Prompting ( http://arxiv.org/abs/2304.06385v5 ) ライセンス: Link先を確認 | Wenhao Wang, Yifan Sun, Wei Li, Yi Yang | (参考訳) 本稿では階層画像分類(HIC)タスクの階層的プロンプト機構について検討する。
従来のhicメソッドと異なり、私たちの階層的プロンプトは、祖先クラス識別の恩恵を受けるトークン化されたヒントとして、祖先クラス情報を明示的に注入する最初の方法です。
これは人間の視覚認識をよく模倣している、すなわち、人間は祖先のクラスを、子孫のクラス間の微妙な違いに焦点を合わせるための手掛かりとして使うかもしれない。
このプロンプト機構を階層型プロンプト(transhp)によるトランスフォーマーにモデル化する。
TransHPは3つのステップから構成される。
1)粗い(祖先)クラスを表現するために一連のプロンプトトークンを学ぶ。
2)中間ブロックにおける入力画像の粗いクラスをオンザフライで予測する。
3) 予測された粗いクラスのプロンプトトークンを中間機能に注入する。
transhpのパラメータは、全ての入力画像で同じだが、注入された粗クラスプロンプト条件は、次の特徴抽出を修飾し、後続クラス間の比較的微妙な違いに動的に焦点を合わせる。
広範な実験により、transhpは精度(例えば、vit-b/16を+2.83%のimagenet分類精度で改善)、トレーニングデータ効率(例えば、10%のimagenetトレーニングデータで+12.69%改善)、モデル説明可能性の向上が示されている。
さらに、TransHPは従来のHIC手法に対して良好に動作し、TransHPが階層的な情報をうまく活用していることを示す。
コードは以下の通り。 https://github.com/WangWenhao0716/TransHP。 This paper explores a hierarchical prompting mechanism for the hierarchical image classification (HIC) task. Different from prior HIC methods, our hierarchical prompting is the first to explicitly inject ancestor-class information as a tokenized hint that benefits the descendant-class discrimination. We think it well imitates human visual recognition, i.e., humans may use the ancestor class as a prompt to draw focus on the subtle differences among descendant classes. We model this prompting mechanism into a Transformer with Hierarchical Prompting (TransHP). TransHP consists of three steps: 1) learning a set of prompt tokens to represent the coarse (ancestor) classes, 2) on-the-fly predicting the coarse class of the input image at an intermediate block, and 3) injecting the prompt token of the predicted coarse class into the intermediate feature. Though the parameters of TransHP maintain the same for all input images, the injected coarse-class prompt conditions (modifies) the subsequent feature extraction and encourages a dynamic focus on relatively subtle differences among the descendant classes. Extensive experiments show that TransHP improves image classification on accuracy (e.g., improving ViT-B/16 by +2.83% ImageNet classification accuracy), training data efficiency (e.g., +12.69% improvement under 10% ImageNet training data), and model explainability. Moreover, TransHP also performs favorably against prior HIC methods, showing that TransHP well exploits the hierarchical information. The code is available at: https://github.com/WangWenhao0716/TransHP. | 翻訳日:2023-12-21 22:09:44 公開日:2023-12-20 |
# モデル非依存性偏差画像キャプション Model-Agnostic Gender Debiased Image Captioning ( http://arxiv.org/abs/2304.03693v2 ) ライセンス: Link先を確認 | Yusuke Hirota, Yuta Nakashima, Noa Garcia | (参考訳) 画像キャプションモデルは、トレーニングセット内の有害な社会バイアスを持続し、増幅することが知られている。
本研究では,画像キャプションモデルにおける性別バイアスを軽減することを目的とする。
先行研究は、モデルに性別の誤分類を減らすよう人々に強制することによってこの問題に対処してきたが、逆に、正しい性別を予測するために、性別のステレオタイプな単語を生成する。
この観察から、画像キャプションモデルに影響を及ぼす性別バイアスは2種類あると仮定する。
1)性別を予測するために文脈を利用するバイアス
2) 性別によって特定の(しばしばステレオタイプな)単語を生成する確率のバイアス。
両性バイアスを緩和するため, 合成バイアスサンプルから学習し, 男女間の偏見を低減し, 性別の誤分類を補正し, ジェンダー・ステレオタイプの単語をより中立なものに変更する枠組みであるLIBRAを提案する。
コードはhttps://github.com/rebnej/LIBRAで入手できる。 Image captioning models are known to perpetuate and amplify harmful societal bias in the training set. In this work, we aim to mitigate such gender bias in image captioning models. While prior work has addressed this problem by forcing models to focus on people to reduce gender misclassification, it conversely generates gender-stereotypical words at the expense of predicting the correct gender. From this observation, we hypothesize that there are two types of gender bias affecting image captioning models: 1) bias that exploits context to predict gender, and 2) bias in the probability of generating certain (often stereotypical) words because of gender. To mitigate both types of gender biases, we propose a framework, called LIBRA, that learns from synthetically biased samples to decrease both types of biases, correcting gender misclassification and changing gender-stereotypical words to more neutral ones. Code is available at https://github.com/rebnej/LIBRA. | 翻訳日:2023-12-21 22:09:15 公開日:2023-12-20 |
# 自動運転のためのLiDARシーンフローの再評価 Re-Evaluating LiDAR Scene Flow for Autonomous Driving ( http://arxiv.org/abs/2304.02150v2 ) ライセンス: Link先を確認 | Nathaniel Chodosh, Deva Ramanan, Simon Lucey | (参考訳) 自己監督型LiDARシーンフロー(stereoKITTI、FlyingThings3D)の一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
結果として、これらのベンチマークの進歩は誤解を招き、研究者が間違った問題に集中する可能性がある。
実世界のデータセット(Argoverse 2.0、Waymo、NuScenes)でトップメソッドのスイートを評価し、いくつかの結論を報告する。
まず,ステレオKITTIの性能は実世界のデータと負の相関関係にあることがわかった。
第二に、このタスクの重要なコンポーネントの1つ、支配的なエゴモーションを取り除くことは、テスト方法よりも古典的なICPによって解決される。
最後に,学習に重点が置かれているにもかかわらず,ほとんどの性能向上は前処理と後処理のステップによって引き起こされることを示す。
本研究では,これらの処理ステップを学習不要なテスト時間フロー最適化と組み合わせたベースライン手法によりこれを実証する。
この基準線は評価されたすべての方法より優れている。 Popular benchmarks for self-supervised LiDAR scene flow (stereoKITTI, and FlyingThings3D) have unrealistic rates of dynamic motion, unrealistic correspondences, and unrealistic sampling patterns. As a result, progress on these benchmarks is misleading and may cause researchers to focus on the wrong problems. We evaluate a suite of top methods on a suite of real-world datasets (Argoverse 2.0, Waymo, and NuScenes) and report several conclusions. First, we find that performance on stereoKITTI is negatively correlated with performance on real-world data. Second, we find that one of this task's key components -- removing the dominant ego-motion -- is better solved by classic ICP than any tested method. Finally, we show that despite the emphasis placed on learning, most performance gains are caused by pre- and post-processing steps: piecewise-rigid refinement and ground removal. We demonstrate this through a baseline method that combines these processing steps with a learning-free test-time flow optimization. This baseline outperforms every evaluated method. | 翻訳日:2023-12-21 22:08:58 公開日:2023-12-20 |
# データ拡張なしでディープオンラインクラスタリングの崩壊を防ぐ厳格な正規化 Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation ( http://arxiv.org/abs/2303.16521v2 ) ライセンス: Link先を確認 | Louis Mahon, Thomas Lukasiewicz | (参考訳) オンラインディープクラスタリング(英語: online deep clustering)とは、特徴抽出ネットワークとクラスタモデルを併用して、処理される各新しいデータポイントまたはバッチにクラスタラベルを割り当てることである。
オフラインメソッドよりも高速で汎用性は高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマップし、すべてひとつのクラスタに配置する、崩壊したソリューションに容易に到達できる。
既存のモデルの成功例では、この問題を回避するためにさまざまなテクニックを採用しており、そのほとんどがデータ拡張を必要とするか、あるいはクラスタ毎に平均的なソフト割り当てを同じものにすることを目的としている。
本研究では,データ拡張を必要とせず,既存の手法と異なり,ハード代入を規則化する手法を提案する。
ベイズフレームワークを用いることで、エンコーダネットワークのトレーニングに簡単に組み込むことができる直感的な最適化目標を導出する。
4つのイメージデータセットと1つのヒューマンアクティビティ認識データセットでテストすると、他の方法よりも一貫して崩壊を回避し、より正確なクラスタリングに繋がる。
また、ハードクラスタ割り当てを規則化する選択を正当化するさらなる実験や分析も行います。
コードはhttps://github.com/Lou1sM/online_hard_clusteringで入手できる。 Online deep clustering refers to the joint use of a feature extraction network and a clustering model to assign cluster labels to each new data point or batch as it is processed. While faster and more versatile than offline methods, online clustering can easily reach the collapsed solution where the encoder maps all inputs to the same point and all are put into a single cluster. Successful existing models have employed various techniques to avoid this problem, most of which require data augmentation or which aim to make the average soft assignment across the dataset the same for each cluster. We propose a method that does not require data augmentation, and that, differently from existing methods, regularizes the hard assignments. Using a Bayesian framework, we derive an intuitive optimization objective that can be straightforwardly included in the training of the encoder network. Tested on four image datasets and one human-activity recognition dataset, it consistently avoids collapse more robustly than other methods and leads to more accurate clustering. We also conduct further experiments and analyses justifying our choice to regularize the hard cluster assignments. Code is available at https://github.com/Lou1sM/online_hard_clustering. | 翻訳日:2023-12-21 22:08:22 公開日:2023-12-20 |
# Devignet: アダプティブチャネルを拡張したデュアルアグリゲーション・フュージョン・トランスによる高分解能Vignetting除去 Devignet: High-Resolution Vignetting Removal via a Dual Aggregated Fusion Transformer With Adaptive Channel Expansion ( http://arxiv.org/abs/2308.13739v2 ) ライセンス: Link先を確認 | Shenghong Luo, Xuhang Chen, Weiwen Chen, Zinuo Li, Shuqiang Wang, Chi-Man Pun | (参考訳) Vignettingは一般的に、レンズ設計、不適切なレンズフードの使用、カメラセンサーの制限などの要因から生じる画像の劣化として発生する。
この劣化は、画像の詳細、色精度に影響を与え、計算写真における課題を示す。
既存の重力除去アルゴリズムは主に理想的な物理仮定と手作りパラメータに依存しており、不規則な重力除去と準最適結果の非効率な除去をもたらす。
さらに、実世界のビグネッティングデータセットの実質的な欠如は、ビグネッティング削除の客観的かつ総合的な評価を妨げる。
そこで我々は,これらの課題に対処するために,ビゲータ除去のための先駆的なデータセットであるvigsetを提案する。
vigsetには、様々な条件下でのvinettingとvignetting-freeの両方の高精細度画像(5340\times3697$)が含まれている。
さらに,新たな周波数認識トランスフォーマアーキテクチャであるdevignetを導入する。
ラプラシアンピラミッド分解により,グローバルな特徴を処理し,低周波領域での磁化を除去するDual Aggregated Fusion Transformerを提案する。
さらに,高周波領域の詳細を強化するための適応チャネル拡張モジュールを提案する。
実験により,提案モデルが既存の最先端手法より優れていることが示された。
コード、モデル、データセットは \url{https://github.com/CXH-Research/DeVigNet} で入手できる。 Vignetting commonly occurs as a degradation in images resulting from factors such as lens design, improper lens hood usage, and limitations in camera sensors. This degradation affects image details, color accuracy, and presents challenges in computational photography. Existing vignetting removal algorithms predominantly rely on ideal physics assumptions and hand-crafted parameters, resulting in the ineffective removal of irregular vignetting and suboptimal results. Moreover, the substantial lack of real-world vignetting datasets hinders the objective and comprehensive evaluation of vignetting removal. To address these challenges, we present Vigset, a pioneering dataset for vignetting removal. Vigset includes 983 pairs of both vignetting and vignetting-free high-resolution ($5340\times3697$) real-world images under various conditions. In addition, We introduce DeVigNet, a novel frequency-aware Transformer architecture designed for vignetting removal. Through the Laplacian Pyramid decomposition, we propose the Dual Aggregated Fusion Transformer to handle global features and remove vignetting in the low-frequency domain. Additionally, we propose the Adaptive Channel Expansion Module to enhance details in the high-frequency domain. The experiments demonstrate that the proposed model outperforms existing state-of-the-art methods. The code, models, and dataset are available at \url{https://github.com/CXH-Research/DeVigNet}. | 翻訳日:2023-12-21 22:01:32 公開日:2023-12-20 |
# システムモデルからクラスモデルへ:コンテキスト内学習パラダイム From system models to class models: An in-context learning paradigm ( http://arxiv.org/abs/2308.13380v2 ) ライセンス: Link先を確認 | Marco Forgione, Filippo Pura, Dario Piga | (参考訳) 入力/出力パターンだけでなく、同じクラス内の他のシステムの振る舞いを観察することで、動的システムの複雑さを理解することができるのか?
この中心的な疑問は、この論文で示された研究を導く。
そこで本研究では,1ステップ・アヘッド予測とマルチステップシミュレーションという2つの主要な課題を解決する,システム同定のための新しいパラダイムを提案する。
従来の手法とは異なり、特定のシステムのモデルを直接見積もることはできない。
その代わりに、動的システムのクラスを表すメタモデルを学びます。
このメタモデルは、確率分布からランダムに抽出されたシミュレータによって生成される無限の合成データのストリームで訓練される。
新しいシステムからのコンテキストが与えられたとき、入出力シーケンス-メタモデルは、そのダイナミクスを暗黙的に認識し、その振る舞いの予測を可能にする。
提案手法は,emph{in-context learning} 能力で有名な Transformer の力を利用する。
一段階予測にはgptライクなデコーダのみのアーキテクチャを用いるが、シミュレーションではエンコーダ-デコーダ構造を用いる。
最初の実験結果は我々の基礎的な疑問に肯定的に答え、システム同定の新たな研究道への扉を開く。 Is it possible to understand the intricacies of a dynamical system not solely from its input/output pattern, but also by observing the behavior of other systems within the same class? This central question drives the study presented in this paper. In response to this query, we introduce a novel paradigm for system identification, addressing two primary tasks: one-step-ahead prediction and multi-step simulation. Unlike conventional methods, we do not directly estimate a model for the specific system. Instead, we learn a meta model that represents a class of dynamical systems. This meta model is trained on a potentially infinite stream of synthetic data, generated by simulators whose settings are randomly extracted from a probability distribution. When provided with a context from a new system-specifically, an input/output sequence-the meta model implicitly discerns its dynamics, enabling predictions of its behavior. The proposed approach harnesses the power of Transformers, renowned for their \emph{in-context learning} capabilities. For one-step prediction, a GPT-like decoder-only architecture is utilized, whereas the simulation problem employs an encoder-decoder structure. Initial experimental results affirmatively answer our foundational question, opening doors to fresh research avenues in system identification. | 翻訳日:2023-12-21 22:01:11 公開日:2023-12-20 |
# scp:球座標ベースの学習点クラウド圧縮 SCP: Spherical-Coordinate-based Learned Point Cloud Compression ( http://arxiv.org/abs/2308.12535v2 ) ライセンス: Link先を確認 | Ao Luo, Linxin Song, Keisuke Nonaka, Kyohei Unno, Heming Sun, Masayuki Goto, Jiro Katto | (参考訳) 近年,学習ポイントクラウド圧縮の課題が注目されている。
重要なタイプの点雲、すなわち回転するLiDAR点雲は、車両上でLiDARを回転させることによって生成される。
この過程は、点雲内の多数の円形形状と方位角不変性をもたらす。
しかし、これら2つの特徴は、以前の手法では見過ごされていた。
本稿では,Spherical-Coordinate-based learned Point cloud compression (SCP)と呼ばれるモデルに依存しない手法を提案する。
さらに,球面座標系Octree内における遠隔領域の復元誤差を軽減するため,SCP用マルチレベルOctreeを提案する。
SCPは優れた普遍性を示し、様々な学習点クラウド圧縮技術に適用できる。
実験の結果、PSNR BD-Rateでは、SCPが従来の最先端手法を29.14%上回ることがわかった。 In recent years, the task of learned point cloud compression has gained prominence. An important type of point cloud, the spinning LiDAR point cloud, is generated by spinning LiDAR on vehicles. This process results in numerous circular shapes and azimuthal angle invariance features within the point clouds. However, these two features have been largely overlooked by previous methodologies. In this paper, we introduce a model-agnostic method called Spherical-Coordinate-based learned Point cloud compression (SCP), designed to leverage the aforementioned features fully. Additionally, we propose a multi-level Octree for SCP to mitigate the reconstruction error for distant areas within the Spherical-coordinate-based Octree. SCP exhibits excellent universality, making it applicable to various learned point cloud compression techniques. Experimental results demonstrate that SCP surpasses previous state-of-the-art methods by up to 29.14% in point-to-point PSNR BD-Rate. | 翻訳日:2023-12-21 22:00:52 公開日:2023-12-20 |
# MeDM:時間対応誘導によるビデオ間翻訳のための画像拡散モデル MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance ( http://arxiv.org/abs/2308.10079v3 ) ライセンス: Link先を確認 | Ernie Chu, Tzuhsuan Huang, Shuo-Yen Lin, Jun-Cheng Chen | (参考訳) 本研究では,一貫した時間的流れを伴うビデオ間翻訳において,事前学習した画像拡散モデルを用いた効率よく効果的なMeDMを提案する。
提案フレームワークでは,通常のGバッファなどのシーン位置情報から映像をレンダリングしたり,現実のシナリオで撮影した映像のテキストガイド編集を行うことができる。
我々は,生成するフレームに物理的制約を課し,独立したフレーム毎のスコアを調停する実用的なコーディングを構築するために,明示的なオプティカルフローを用いる。
このコーディングを活用することで、生成されたビデオの時間的一貫性をクローズドフォームソリューションによる最適化問題としてフレーム化することができる。
安定拡散モデルとの互換性を確保するため,潜在拡散モデルにおける観測空間のスコアを変更するための回避策を提案する。
特に、MeDMは拡散モデルの微調整やテストタイムの最適化を必要としない。
様々なベンチマークにおける定性的、定量的、主観的な実験を通じて、提案手法の有効性と優位性を示す。
プロジェクトのページはhttps://medm2023.github.ioで閲覧できます。 This study introduces an efficient and effective method, MeDM, that utilizes pre-trained image Diffusion Models for video-to-video translation with consistent temporal flow. The proposed framework can render videos from scene position information, such as a normal G-buffer, or perform text-guided editing on videos captured in real-world scenarios. We employ explicit optical flows to construct a practical coding that enforces physical constraints on generated frames and mediates independent frame-wise scores. By leveraging this coding, maintaining temporal consistency in the generated videos can be framed as an optimization problem with a closed-form solution. To ensure compatibility with Stable Diffusion, we also suggest a workaround for modifying observation-space scores in latent Diffusion Models. Notably, MeDM does not require fine-tuning or test-time optimization of the Diffusion Models. Through extensive qualitative, quantitative, and subjective experiments on various benchmarks, the study demonstrates the effectiveness and superiority of the proposed approach. Our project page can be found at https://medm2023.github.io | 翻訳日:2023-12-21 22:00:39 公開日:2023-12-20 |
# DeSCo: 汎用的でスケーラブルなディープグラフカウントを目指す DeSCo: Towards Generalizable and Scalable Deep Subgraph Counting ( http://arxiv.org/abs/2308.08198v2 ) ライセンス: Link先を確認 | Tianyu Fu, Chiyue Wei, Yu Wang, Rex Ying | (参考訳) 単一トレーニング後のターゲットグラフ上のクエリのカウント位置と出現位置の両方を正確に予測するために設計された,スケーラブルなニューラルディープグラフカウントパイプラインであるDeSCoを導入する。
第一に、DeSCoは新たな標準分割を使用し、大きなターゲットグラフを小さな近傍グラフに分割する。
第二に、近傍カウントは表現力のある部分グラフベースの異種グラフニューラルネットワークを使用して、各近傍を正確にカウントする。
最後に、ゴシップ伝播は、モチーフカウントの帰納バイアスを利用するために、学習可能なゲートで近隣のカウントを伝搬する。
DeSCoは、さまざまなドメインから8つの実世界のデータセットで評価される。
多項式ランタイムの複雑さを維持しつつ、カウント予測の平均二乗誤差を137倍改善することで、最先端のニューラルメソッドよりも優れています。
私たちのオープンソースプロジェクトはhttps://github.com/fuvty/DeSCoにあります。 We introduce DeSCo, a scalable neural deep subgraph counting pipeline, designed to accurately predict both the count and occurrence position of queries on target graphs post single training. Firstly, DeSCo uses a novel canonical partition and divides the large target graph into small neighborhood graphs, greatly reducing the count variation while guaranteeing no missing or double-counting. Secondly, neighborhood counting uses an expressive subgraph-based heterogeneous graph neural network to accurately count in each neighborhood. Finally, gossip propagation propagates neighborhood counts with learnable gates to harness the inductive biases of motif counts. DeSCo is evaluated on eight real-world datasets from various domains. It outperforms state-of-the-art neural methods with 137x improvement in the mean squared error of count prediction, while maintaining the polynomial runtime complexity. Our open source project is at https://github.com/fuvty/DeSCo. | 翻訳日:2023-12-21 22:00:04 公開日:2023-12-20 |
# エンタングルフェルミオン対の崩壊とポストセレクション Decay of entangled fermion pairs with post-selection ( http://arxiv.org/abs/2308.07412v3 ) ライセンス: Link先を確認 | J. A. Aguilar-Saavedra | (参考訳) スピンエンタングル状態における1対の不安定フェルミオンを考える。
1つのフェルミオンが崩壊した後、Stern-Gerlach実験等により、生き残ったパートナー上でスピン測定が行われる。
この測定は、現存するフェルミオンのスピンを投影するだけでなく、崩壊したフェルミオンのスピン投影と物理的に等価である。
この後選択効果は、スカラー粒子の崩壊または広い角度での衝突によって生じる、最大エンタングル状態のミューオン対を用いて実験的にアクセスすることができる。 We consider a pair of unstable fermions in a spin-entangled state. After the decay of one fermion, a spin measurement is performed on the surviving partner, with a Stern-Gerlach experiment or similar. The measurement not only projects the spin of the surviving fermion, but is also physically equivalent to a spin projection for the decayed one -- even when it no longer exists. This post-selection effect would be experimentally accessible using muon pairs in a maximally-entangled state, produced either in the decay of a scalar particle, or in $e^+ e^-$ collisions at wide angles. | 翻訳日:2023-12-21 21:59:48 公開日:2023-12-20 |
# SAAM: 単眼深度推定における正反対攻撃 SAAM: Stealthy Adversarial Attack on Monocular Depth Estimation ( http://arxiv.org/abs/2308.03108v2 ) ライセンス: Link先を確認 | Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, Muhammad Shafique | (参考訳) 本稿では,敵パッチに対するMDEの脆弱性について検討する。
本稿では, 推定距離を劣化させたり, 物体を周囲にシームレスに混入させたりすることで, MDE を損なう新規な \underline{S}tealthy \underline{A}dversarial \underline{A}ttacks on \underline{M}DE (SAAM) を提案する。
我々の実験は、デザインされたステルスパッチがDNNベースのMDEにオブジェクトの深さを誤って推定することに成功したことを実証した。
実際,提案した対向パッチは,影響領域の99.%の深さ誤差を有意に達成している。
重要なのは、その敵対的な性質にもかかわらず、パッチは自然主義的な外観を保ち、人間の観察者には目立たないことである。
我々はこの研究が、エッジデバイス上でのMDEの文脈における敵攻撃の脅威に光を当てていると信じている。
このような攻撃による現実的な被害に対するコミュニティ内の認識を高め、より堅牢で適応的な防御メカニズムの開発に関するさらなる研究を促進することを願っている。 In this paper, we investigate the vulnerability of MDE to adversarial patches. We propose a novel \underline{S}tealthy \underline{A}dversarial \underline{A}ttacks on \underline{M}DE (SAAM) that compromises MDE by either corrupting the estimated distance or causing an object to seamlessly blend into its surroundings. Our experiments, demonstrate that the designed stealthy patch successfully causes a DNN-based MDE to misestimate the depth of objects. In fact, our proposed adversarial patch achieves a significant 60\% depth error with 99\% ratio of the affected region. Importantly, despite its adversarial nature, the patch maintains a naturalistic appearance, making it inconspicuous to human observers. We believe that this work sheds light on the threat of adversarial attacks in the context of MDE on edge devices. We hope it raises awareness within the community about the potential real-life harm of such attacks and encourages further research into developing more robust and adaptive defense mechanisms. | 翻訳日:2023-12-21 21:59:36 公開日:2023-12-20 |
# グラフニューラルネットワークを改善する機能トランスポーテーション Feature Transportation Improves Graph Neural Networks ( http://arxiv.org/abs/2307.16092v2 ) ライセンス: Link先を確認 | Moshe Eliasof, Eldad Haber, Eran Treister | (参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データの学習表現において顕著な成功を収めている。
しかし、GNNは機能輸送に関わる複雑な現象をモデル化する上で依然として課題に直面している。
本稿では,ADR-GNNと呼ばれるAdvection-Diffusion-Reactionシステムにインスパイアされた新しいGNNアーキテクチャを提案する。
移流モデルは輸送を特徴とし、拡散は特徴の局所的な平滑化を捉え、反応は特徴チャネル間の非線形変換を表す。
本研究では, ADR-GNNの定性的挙動の解析を行い, 対流, 拡散, 反応の組み合わせの利点を示す。
実世界のノード分類と時空間データセットに基づいてADR-GNNを評価し,現状のネットワークと比較して競争性能の向上や性能向上を図っている。 Graph neural networks (GNNs) have shown remarkable success in learning representations for graph-structured data. However, GNNs still face challenges in modeling complex phenomena that involve feature transportation. In this paper, we propose a novel GNN architecture inspired by Advection-Diffusion-Reaction systems, called ADR-GNN. Advection models feature transportation, while diffusion captures the local smoothing of features, and reaction represents the non-linear transformation between feature channels. We provide an analysis of the qualitative behavior of ADR-GNN, that shows the benefit of combining advection, diffusion, and reaction. To demonstrate its efficacy, we evaluate ADR-GNN on real-world node classification and spatio-temporal datasets, and show that it improves or offers competitive performance compared to state-of-the-art networks. | 翻訳日:2023-12-21 21:59:16 公開日:2023-12-20 |
# 不確かさを意識したマルチオブジェクト追跡 Uncertainty-aware Unsupervised Multi-Object Tracking ( http://arxiv.org/abs/2307.15409v2 ) ライセンス: Link先を確認 | Kai Liu, Sheng Jin, Zhihang Fu, Ze Chen, Rongxin Jiang, Jieping Ye | (参考訳) 手動でアノテートされたIDがなければ、教師なしマルチオブジェクトトラッカーは信頼できる特徴埋め込みを学習するよりも劣る。
類似性に基づくフレーム間関連ステージもエラーを起こし、不確実性が発生する。
フレーム単位の累積不確実性は、トラッカが時間の変動に対して一貫した特徴を学習することを妨げる。
この不確実性を回避するため、最近の自己監督技術が採用されているが、時間的関係を捉えられなかった。
フレーム間の不確実性はまだ存在する。
実際、不確実性問題は避けられないが、不確実性自体を利用して学習された一貫性を次々に改善することが可能である。
特に、リスク関連を検証・修正するために不確実性に基づく計量が開発されている。
その結果、正確な擬似トラックレットは、機能の一貫性の学習を促進する。
そして正確なトラックレットは、時間情報を空間変換に組み込むことができる。
本稿では,ハードサンプルマイニングのための階層的不確実性に基づくサンプリング機構を適用し,トラックレットの動きをシミュレートするトラックレット誘導強化手法を提案する。
究極の教師なしMOTフレームワークであるU2MOTは、MOT-ChallengesとVisDrone-MOTベンチマークで有効であることが証明されている。
U2MOTは、公表された教師なしトラッカーと教師なしトラッカーの間でSOTA性能を達成する。 Without manually annotated identities, unsupervised multi-object trackers are inferior to learning reliable feature embeddings. It causes the similarity-based inter-frame association stage also be error-prone, where an uncertainty problem arises. The frame-by-frame accumulated uncertainty prevents trackers from learning the consistent feature embedding against time variation. To avoid this uncertainty problem, recent self-supervised techniques are adopted, whereas they failed to capture temporal relations. The interframe uncertainty still exists. In fact, this paper argues that though the uncertainty problem is inevitable, it is possible to leverage the uncertainty itself to improve the learned consistency in turn. Specifically, an uncertainty-based metric is developed to verify and rectify the risky associations. The resulting accurate pseudo-tracklets boost learning the feature consistency. And accurate tracklets can incorporate temporal information into spatial transformation. This paper proposes a tracklet-guided augmentation strategy to simulate tracklets' motion, which adopts a hierarchical uncertainty-based sampling mechanism for hard sample mining. The ultimate unsupervised MOT framework, namely U2MOT, is proven effective on MOT-Challenges and VisDrone-MOT benchmark. U2MOT achieves a SOTA performance among the published supervised and unsupervised trackers. | 翻訳日:2023-12-21 21:59:02 公開日:2023-12-20 |
# 下肢筋骨格分節におけるベイズアクティブラーニングのためのハイブリッド表現強調サンプリング Hybrid Representation-Enhanced Sampling for Bayesian Active Learning in Musculoskeletal Segmentation of Lower Extremities ( http://arxiv.org/abs/2307.13986v2 ) ライセンス: Link先を確認 | Ganping Li, Yoshito Otake, Mazen Soufi, Masashi Taniguchi, Masahide Yagi, Noriaki Ichihashi, Keisuke Uemura, Masaki Takao, Nobuhiko Sugano, Yoshinobu Sato | (参考訳) 目的: 自動セグメンテーションでディープラーニング(dl)モデルをトレーニングするための手動アノテーションは、時間を要する。
本研究では,不確実性に基づくベイズアクティブラーニング(bal)フレームワークにおける密度と多様性の基準を統合し,最も有益なトレーニングサンプルを選択することでアノテーションの労力を削減するハイブリッド表現強調サンプリング戦略を提案する。
方法: 大腿骨, 骨盤, 仙骨, 大腿四頭筋, ハムストリング, アドダクタ, サルトリアス, iliopsoas のセグメンテーションに着目し, u-net ベースの bal フレームワークを用いて, mri および ct 画像の下肢(le) データセットを用いて実験を行った。
本手法は,手動リビジョンのための高密度・多彩な不確実なサンプルを選択し,ラベル付きインスタンスとの最大類似度と既存のトレーニングデータとの最小類似度を最適化する。
提案手法である減算アノテーションコスト (rac) を用いて, dice の精度と効率を評価した。
さらに, 各種取得規則がBAL性能に及ぼす影響を評価し, 有効性評価のためのアブレーション研究を設計する。
結果: MRI と CT のデータセットでは,CT では 0.8 % Dice と 1.0 % RAC の増加 (統計的に有意) ,MRI では 0.8 % Dice と 1.1 % RAC の増加 (統計的には有意ではない) が得られた。
本研究は,密度と多様性の基準を組み合わせることで筋骨格の分節におけるbalの効率が向上することを示す。
結論: 画像分割作業におけるアノテーションコストの削減には, サンプリング手法が有効であることが証明された。
提案手法とbalフレームワークの組み合わせは医用画像データセットの効率的なアノテーションのための半自動的な方法を提供する。 Purpose: Manual annotations for training deep learning (DL) models in auto-segmentation are time-intensive. This study introduces a hybrid representation-enhanced sampling strategy that integrates both density and diversity criteria within an uncertainty-based Bayesian active learning (BAL) framework to reduce annotation efforts by selecting the most informative training samples. Methods: The experiments are performed on two lower extremity (LE) datasets of MRI and CT images, focusing on the segmentation of the femur, pelvis, sacrum, quadriceps femoris, hamstrings, adductors, sartorius, and iliopsoas, utilizing a U-net-based BAL framework. Our method selects uncertain samples with high density and diversity for manual revision, optimizing for maximal similarity to unlabeled instances and minimal similarity to existing training data. We assess the accuracy and efficiency using Dice and a proposed metric called reduced annotation cost (RAC), respectively. We further evaluate the impact of various acquisition rules on BAL performance and design an ablation study for effectiveness estimation. Results: In MRI and CT datasets, our method was superior or comparable to existing ones, achieving a 0.8\% Dice and 1.0\% RAC increase in CT (statistically significant), and a 0.8\% Dice and 1.1\% RAC increase in MRI (not statistically significant) in volume-wise acquisition. Our ablation study indicates that combining density and diversity criteria enhances the efficiency of BAL in musculoskeletal segmentation compared to using either criterion alone. Conclusion: Our sampling method is proven efficient in reducing annotation costs in image segmentation tasks. The combination of the proposed method and our BAL framework provides a semi-automatic way for efficient annotation of medical image datasets. | 翻訳日:2023-12-21 21:58:46 公開日:2023-12-20 |
# 物理駆動型変分量子固有解法への計測に基づく量子計算の適用性 Applicability of Measurement-based Quantum Computation towards Physically-driven Variational Quantum Eigensolver ( http://arxiv.org/abs/2307.10324v2 ) ライセンス: Link先を確認 | Zheng Qin, Xiufan Li, Yang Zhou, Shikun Zhang, Rui Li, Chunxiao Du, Zhisong Xiao | (参考訳) 変分量子アルゴリズムは、短期量子の利点を得る最も有望な方法の1つと考えられているが、これらのアルゴリズムのほとんどは従来の量子回路方式でのみ表現される。
測定ベースの量子計算(mbqc)スキームを用いた量子アルゴリズム開発への道のりはリソースコストである。
近年,マルチキュービット回転操作を実現するには,mbqc方式で一定数のシングルキュービット計測が必要となり,資源コストの面での利点が期待できることがわかった。
ハミルトニアン変分アンサッツ(HVA)の構造はこの性質とよく一致している。
そこで本研究では, 量子多体系シミュレーションタスクのための効率的な計測ベース量子アルゴリズムである計測ベースハミルトン変分 ansatz (mbhva) を提案する。
次に,2次元ハイゼンベルクモデルとフェルミ・ハバード連鎖の有効性,効率,利点を示す。
数値実験により、MBHVAは、特に大規模なマルチキュービット回転操作が存在する場合、量子回路と比較してリソースオーバーヘッドを低減することが期待される。
さらに、測定ベースのハードウェア効率アンサッツ(MBHEA)と比較して、MBHVAは優れた性能を示す。
MBQC方式は、特にフォトニックプラットフォームにおいて、資源効率とエラー軽減の両面において、短期的な量子優位性を達成することが可能である。 Variational quantum algorithms are considered one of the most promising methods for obtaining near-term quantum advantages; however, most of these algorithms are only expressed in the conventional quantum circuit scheme. The roadblock to developing quantum algorithms with the measurement-based quantum computation (MBQC) scheme is resource cost. Recently, we discovered that the realization of multi-qubit rotation operations requires a constant number of single-qubit measurements with the MBQC scheme, providing a potential advantage in terms of resource cost. The structure of the Hamiltonian variational ansatz (HVA) aligns well with this characteristic. Thus, we propose an efficient measurement-based quantum algorithm for quantum many-body system simulation tasks, called measurement-based Hamiltonian variational ansatz (MBHVA). We then demonstrate the effectiveness, efficiency, and advantages of the two-dimensional Heisenberg model and the Fermi-Hubbard chain. Numerical experiments show that MBHVA is expected to reduce resource overhead compared to quantum circuits, especially in the presence of large multi-qubit rotation operations. Furthermore, when compared to Measurement-based Hardware Efficient Ansatz (MBHEA), MBHVA also demonstrates superior performance. We conclude that the MBQC scheme is potentially feasible for achieving near-term quantum advantages in terms of both resource efficiency and error mitigation, particularly for photonic platforms. | 翻訳日:2023-12-21 21:58:08 公開日:2023-12-20 |
# 効率的なニューラル画像圧縮のための階層的先行と適応的空間分解能 Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient Neural Image Compression ( http://arxiv.org/abs/2307.02273v3 ) ライセンス: Link先を確認 | Ahmed Ghorbel, Wassim Hamidouche and Luce Morin | (参考訳) 近年,従来のコーデックに到達したり,性能を向上したりすることで,ニューラルイメージ圧縮(NIC)の性能は着実に向上している。
大幅な進歩にもかかわらず、現在のNICメソッドは依然としてConvNetベースのエントロピー符号化に依存しており、ローカル接続性やアーキテクチャ上のバイアスや事前の増大による長距離依存性のモデリングに制限されている。
swint-charm と呼ばれる tranformer-based transform coding framework の効率性の検討に動機づけられ,まず,より単純かつ効果的なtranformer-based channel-wise auto-regressive prior モデルにより,絶対画像圧縮トランスフォーマ (ict) を実現することを提案する。
提案したICTにより、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
さらに,サンドイッチconvnextベースのプリ/ポストプロセッサを用いた学習可能なスケーリングモジュールを用いて,よりコンパクトな潜在コードを高精度に抽出し,高品質な画像を再構成する。
ベンチマークデータセットの広範な実験結果から,vvc基準エンコーダ(vtm-18.0)とニューラルコーデックswint-charmよりも,符号化効率とデコーダ複雑性のトレードオフを大幅に改善した。
さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,適応型画像圧縮変換器(aict)とニューラルネットワークコーデックswint-charmの性能差を予見するために,目的的および主観的な分析を行った。 Recently, the performance of neural image compression (NIC) has steadily improved thanks to the last line of study, reaching or outperforming state-of-the-art conventional codecs. Despite significant progress, current NIC methods still rely on ConvNet-based entropy coding, limited in modeling long-range dependencies due to their local connectivity and the increasing number of architectural biases and priors, resulting in complex underperforming models with high decoding latency. Motivated by the efficiency investigation of the Tranformer-based transform coding framework, namely SwinT-ChARM, we propose to enhance the latter, as first, with a more straightforward yet effective Tranformer-based channel-wise auto-regressive prior model, resulting in an absolute image compression transformer (ICT). Through the proposed ICT, we can capture both global and local contexts from the latent representations and better parameterize the distribution of the quantized latents. Further, we leverage a learnable scaling module with a sandwich ConvNeXt-based pre-/post-processor to accurately extract more compact latent codes while reconstructing higher-quality images. Extensive experimental results on benchmark datasets showed that the proposed framework significantly improves the trade-off between coding efficiency and decoder complexity over the versatile video coding (VVC) reference encoder (VTM-18.0) and the neural codec SwinT-ChARM. Moreover, we provide model scaling studies to verify the computational efficiency of our approach and conduct several objective and subjective analyses to bring to the fore the performance gap between the adaptive image compression transformer (AICT) and the neural codec SwinT-ChARM. | 翻訳日:2023-12-21 21:57:45 公開日:2023-12-20 |
# GloptiNets: Certificatesによるスケーラブルな非凸最適化 GloptiNets: Scalable Non-Convex Optimization with Certificates ( http://arxiv.org/abs/2306.14932v3 ) ライセンス: Link先を確認 | Gaspard Beugnot (PSL, DI-ENS), Julien Mairal, Alessandro Rudi (PSL, DI-ENS) | (参考訳) 本稿では,ハイパーキューブやトーラス上のスムーズな関数を扱う証明書を用いた非凸最適化手法を提案する。
従来の代数的性質に依存する手法とは異なり、このアルゴリズムはフーリエスペクトルの減衰に内在する対象関数の正則性を利用する。
抽出可能なモデルのファミリを定義することにより、正確な認証を取得し、ニューラルネットワークを最適化するために開発された高度な強力な計算技術を活用することができる。
このように、我々のアプローチのスケーラビリティはGPUによる並列コンピューティングによって自然に向上します。
我々のアプローチは、中等次元の多項式に適用されるが、数千の係数を持つ場合、ラッサールの階層に基づく証明による最先端の最適化手法よりも優れ、競合相手にとって難解な問題に対処する。 We present a novel approach to non-convex optimization with certificates, which handles smooth functions on the hypercube or on the torus. Unlike traditional methods that rely on algebraic properties, our algorithm exploits the regularity of the target function intrinsic in the decay of its Fourier spectrum. By defining a tractable family of models, we allow at the same time to obtain precise certificates and to leverage the advanced and powerful computational techniques developed to optimize neural networks. In this way the scalability of our approach is naturally enhanced by parallel computing with GPUs. Our approach, when applied to the case of polynomials of moderate dimensions but with thousands of coefficients, outperforms the state-of-the-art optimization methods with certificates, as the ones based on Lasserre's hierarchy, addressing problems intractable for the competitors. | 翻訳日:2023-12-21 21:57:08 公開日:2023-12-20 |
# タンパク質-リガンド結合親和性予測のためのマルチタスクバイオアッセイ事前トレーニング Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity Prediction ( http://arxiv.org/abs/2306.04886v2 ) ライセンス: Link先を確認 | Jiaxian Yan, Zhaofeng Ye, Ziyi Yang, Chengqiang Lu, Shengyu Zhang, Qi Liu, Jiezhong Qiu | (参考訳) タンパク質リガンド結合親和性(PLBA)予測は薬物発見の基本的な課題である。
近年,タンパク質-リガンド複合体の3次元構造を入力として組み込んで結合親和性を予測し,驚くべき進歩を達成している。
しかし、高品質なトレーニングデータの不足により、現在のモデルの一般化能力はまだ限られている。
さらに、異なるバイオアッセイは様々なアフィニティ測定ラベル(IC50、Ki、Kd)を使用し、様々な実験条件が必然的にシステマティックノイズを導入し、高精度なアフィニティ予測モデルを構築する上で大きな課題となる。
これらの問題に対処するために,(1)構造ベースplba予測のための事前学習フレームワークであるマルチタスクバイオアッセイプレトレーニング(mbp)を提案し,(2)300k以上の実験的アフィニティラベルと約2.8mのドッキングドッキング構造を持つchembl-dockと呼ばれる事前学習データセットを構築した。
異なる親和性ラベルの予測を異なるタスクとして扱うためにマルチタスク事前学習を導入し、同じバイオアッセイからサンプル間の相対ランキングを分類することで、mbpは、変動ラベルとノイズラベルを持つ新しいchembl-dockデータセットから堅牢で転送可能な構造知識を学習する。
実験は、主流構造に基づくPLBA予測タスクの改善と調整が可能な一般的なフレームワークとしてのMBPの能力を裏付けるものである。
我々の知る限り、MBPは最初の親和性事前学習モデルであり、将来の発展に大きな可能性を示している。 Protein-ligand binding affinity (PLBA) prediction is the fundamental task in drug discovery. Recently, various deep learning-based models predict binding affinity by incorporating the three-dimensional structure of protein-ligand complexes as input and achieving astounding progress. However, due to the scarcity of high-quality training data, the generalization ability of current models is still limited. In addition, different bioassays use varying affinity measurement labels (i.e., IC50, Ki, Kd), and different experimental conditions inevitably introduce systematic noise, which poses a significant challenge to constructing high-precision affinity prediction models. To address these issues, we (1) propose Multi-task Bioassay Pre-training (MBP), a pre-training framework for structure-based PLBA prediction; (2) construct a pre-training dataset called ChEMBL-Dock with more than 300k experimentally measured affinity labels and about 2.8M docked three-dimensional structures. By introducing multi-task pre-training to treat the prediction of different affinity labels as different tasks and classifying relative rankings between samples from the same bioassay, MBP learns robust and transferrable structural knowledge from our new ChEMBL-Dock dataset with varied and noisy labels. Experiments substantiate the capability of MBP as a general framework that can improve and be tailored to mainstream structure-based PLBA prediction tasks. To the best of our knowledge, MBP is the first affinity pre-training model and shows great potential for future development. | 翻訳日:2023-12-21 21:56:54 公開日:2023-12-20 |
# 繰り返し拘束された部分観測可能なマルコフ決定過程 Recursively-Constrained Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2310.09688v2 ) ライセンス: Link先を確認 | Qi Heng Ho, Tyler Becker, Benjamin Kraske, Zakariya Laouar, Martin S. Feather, Federico Rossi, Morteza Lahijanian, Zachary N. Sunberg | (参考訳) 多くの問題において、他の目的に制約を課しながら目的関数を最適化することが望ましい。
制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。
通常、C-POMDPの制約は、初期状態分布から始まる期待される累積コストの閾値を強制する。
本稿では,まず,c-pomdp政策がベルマンの最適性原理に違反する可能性を示し,その結果,いくつかの(例えば,安全クリティカルな)アプリケーションでは望ましくない非直観的行動を示すことができることを示した。
さらに、C-POMDPによるオンライン再計画は、ベルマンの最適性原理に違反した結果として生じる矛盾のため、しばしば効果がない。
これらの欠点に対処するために、C-POMDPに履歴依存のコスト制約を加えるRecursively-Constrained POMDP (RC-POMDP) という新しい定式化を導入する。
C-POMDPとは異なり、RC-POMDPは常に決定論的最適ポリシーを持ち、最適ポリシーはベルマンの最適性原理に従う。
また、RC-POMDPに対して許容に近い近似ポリシーを合成する点ベース動的プログラミングアルゴリズムを提案する。
ベンチマーク問題に対する評価は,本アルゴリズムの有効性を示し,rc-pomdpsのポリシーがc-pomdpsのポリシーよりも望ましい行動を生み出すことを示す。 In many problems, it is desirable to optimize an objective function while imposing constraints on some other objectives. A Constrained Partially Observable Markov Decision Process (C-POMDP) allows modeling of such problems under transition uncertainty and partial observability. Typically, the constraints in C-POMDPs enforce a threshold on expected cumulative costs starting from an initial state distribution. In this work, we first show that optimal C-POMDP policies may violate Bellman's principle of optimality and thus may exhibit unintuitive behaviors, which can be undesirable for some (e.g., safety critical) applications. Additionally, online re-planning with C-POMDPs is often ineffective due to the inconsistency resulting from the violation of Bellman's principle of optimality. To address these drawbacks, we introduce a new formulation: the Recursively-Constrained POMDP (RC-POMDP), that imposes additional history-dependent cost constraints on the C-POMDP. We show that, unlike C-POMDPs, RC-POMDPs always have deterministic optimal policies, and that optimal policies obey Bellman's principle of optimality. We also present a point-based dynamic programming algorithm that synthesizes admissible near-optimal policies for RC-POMDPs. Evaluations on a set of benchmark problems demonstrate the efficacy of our algorithm and show that policies for RC-POMDPs produce more desirable behaviors than policies for C-POMDPs. | 翻訳日:2023-12-21 21:50:58 公開日:2023-12-20 |
# 汎用機械学習を用いたサブグループ識別のための統計的性能保証 Statistical Performance Guarantee for Subgroup Identification with Generic Machine Learning ( http://arxiv.org/abs/2310.07973v2 ) ライセンス: Link先を確認 | Michael Lingzhi Li, Kosuke Imai | (参考訳) 幅広い分野にまたがって、多くの研究者は機械学習(ML)アルゴリズムを使用して、治療の恩恵を受ける可能性が最も高いサブグループ( ``Exceptionional responseers'')や、その影響を受けているサブグループを特定する。
この部分群識別問題に対する一般的なアプローチは2つのステップからなる。
まず,条件付き平均治療効果(cate)をmlアルゴリズムを用いて推定する。
次に、推定CATEを使用して、治療によって最も影響を受けやすいと予測された個人を選択する。
残念なことに、CATEの見積もりはバイアスがありうる。
さらに、同じデータを使用してサブグループを特定し、グループ平均治療効果を見積もることで、複数のテスト問題が発生する。
これらの課題に対処するために、ジェネリックMLアルゴリズム(GATES)によってソートされたグループ平均処理効果を推定するための統一信頼バンドを開発する。
これらの一様信頼帯を用いて、研究者は、この効果の大きさがどう選択されるかに関わらず、ゲートが特定の効果サイズを超える部分群を統計的に保証して特定することができる。
提案手法の有効性は, 処理のランダム化と単位のランダムサンプリングにのみ依存する。
重要なことに、本手法は仮定のモデル化を必要とせず、計算集約的な再サンプリング手順を回避できる。
シミュレーション実験により,サンプルサイズが100以下であっても,一様信頼帯は合理的に情報的であり,適切な経験的カバレッジを有することが示された。
晩期前立腺癌の臨床試験を解析し,稀な患者の割合が比較的多いことを発見した。 Across a wide array of disciplines, many researchers use machine learning (ML) algorithms to identify a subgroup of individuals who are likely to benefit from a treatment the most (``exceptional responders'') or those who are harmed by it. A common approach to this subgroup identification problem consists of two steps. First, researchers estimate the conditional average treatment effect (CATE) using an ML algorithm. Next, they use the estimated CATE to select those individuals who are predicted to be most affected by the treatment, either positively or negatively. Unfortunately, CATE estimates are often biased and noisy. In addition, utilizing the same data to both identify a subgroup and estimate its group average treatment effect results in a multiple testing problem. To address these challenges, we develop uniform confidence bands for estimation of the group average treatment effect sorted by generic ML algorithm (GATES). Using these uniform confidence bands, researchers can identify, with a statistical guarantee, a subgroup whose GATES exceeds a certain effect size, regardless of how this effect size is chosen. The validity of the proposed methodology depends solely on randomization of treatment and random sampling of units. Importantly, our method does not require modeling assumptions and avoids a computationally intensive resampling procedure. A simulation study shows that the proposed uniform confidence bands are reasonably informative and have an appropriate empirical coverage even when the sample size is as small as 100. We analyze a clinical trial of late-stage prostate cancer and find a relatively large proportion of exceptional responders. | 翻訳日:2023-12-21 21:50:33 公開日:2023-12-20 |
# グラフニューラルネットワークに基づく脳波分類:調査 Graph Neural Network-based EEG Classification: A Survey ( http://arxiv.org/abs/2310.02152v2 ) ライセンス: Link先を確認 | Dominik Klepl, Min Wu, Fei He | (参考訳) グラフニューラルネットワーク(GNN)は、感情認識、運動画像、神経疾患、障害などのタスクにおいて、脳波の分類にますます用いられる。
GNNベースの分類器を設計するための幅広い手法が提案されている。
したがって、これらのアプローチの体系的なレビューと分類が必要である。
我々は本トピックに関する出版文献を徹底的に検索し,比較のためにいくつかのカテゴリを導出する。
これらの分類は、方法の類似点と相違点を強調する。
その結果,空間上のスペクトルグラフ畳み込み層の存在が示唆された。
さらに、ノードの特徴の標準的な形態を特定し、最も人気のあるものは生の脳波信号と差動エントロピーである。
脳波分類のためのGNNベースのアプローチの出現傾向を要約した。
最後に,トランスファー学習手法の可能性や周波数間相互作用の適切なモデリングなど,有望な研究の方向性について考察する。 Graph neural networks (GNN) are increasingly used to classify EEG for tasks such as emotion recognition, motor imagery and neurological diseases and disorders. A wide range of methods have been proposed to design GNN-based classifiers. Therefore, there is a need for a systematic review and categorisation of these approaches. We exhaustively search the published literature on this topic and derive several categories for comparison. These categories highlight the similarities and differences among the methods. The results suggest a prevalence of spectral graph convolutional layers over spatial. Additionally, we identify standard forms of node features, with the most popular being the raw EEG signal and differential entropy. Our results summarise the emerging trends in GNN-based approaches for EEG classification. Finally, we discuss several promising research directions, such as exploring the potential of transfer learning methods and appropriate modelling of cross-frequency interactions. | 翻訳日:2023-12-21 21:50:08 公開日:2023-12-20 |
# 医用画像のための機械学習における解釈可能性の枠組み A Framework for Interpretability in Machine Learning for Medical Imaging ( http://arxiv.org/abs/2310.01685v2 ) ライセンス: Link先を確認 | Alan Q. Wang, Batuhan K. Karaman, Heejong Kim, Jacob Rosenthal, Rachit Saluja, Sean I. Young, Mert R. Sabuncu | (参考訳) 医療画像(MLMI)における機械学習モデルの解釈可能性は研究の重要な方向である。
しかし、解釈可能性の意味には全般的な混乱感がある。
なぜMLMIにおける解釈可能性の必要性が生じるのか?
解釈可能性が必要なとき、実際に対処しようとする目標は何でしょう?
これらの疑問に答えるために、MLMIにおける解釈可能性の目標と要素を形式化する必要性を特定する。
医用画像解析と機械学習との共通点の両方に共通する実世界の課題と目標を推論することにより、我々は、解釈可能性の5つの中核となる要素を同定する。
そこから、MLMIの解釈可能性のためのフレームワークに到達し、このコンテキストにおける解釈可能性へのステップバイステップガイドとして機能します。
本稿では,医療画像の文脈における解釈可能性の必要性を定式化し,具体的MLMI固有の目標と考察を明確にし,手法設計の指導と実世界の利用改善を図る。
私たちの目標は、モデル設計者や実践者に対して実践的でディダクティックな情報を提供し、医療画像分野のモデルの開発者を刺激し、解釈可能性の達成についてより深く推論し、解釈可能性研究の今後の方向性を提案することである。 Interpretability for machine learning models in medical imaging (MLMI) is an important direction of research. However, there is a general sense of murkiness in what interpretability means. Why does the need for interpretability in MLMI arise? What goals does one actually seek to address when interpretability is needed? To answer these questions, we identify a need to formalize the goals and elements of interpretability in MLMI. By reasoning about real-world tasks and goals common in both medical image analysis and its intersection with machine learning, we identify five core elements of interpretability: localization, visual recognizability, physical attribution, model transparency, and actionability. From this, we arrive at a framework for interpretability in MLMI, which serves as a step-by-step guide to approaching interpretability in this context. Overall, this paper formalizes interpretability needs in the context of medical imaging, and our applied perspective clarifies concrete MLMI-specific goals and considerations in order to guide method design and improve real-world usage. Our goal is to provide practical and didactic information for model designers and practitioners, inspire developers of models in the medical imaging field to reason more deeply about what interpretability is achieving, and suggest future directions of interpretability research. | 翻訳日:2023-12-21 21:49:55 公開日:2023-12-20 |
# ディラック方程式の厳密な量子復元 Exact quantum revivals for the Dirac equation ( http://arxiv.org/abs/2309.12471v2 ) ライセンス: Link先を確認 | Fernando Chamizo and Osvaldo P. Santill\'an | (参考訳) 本研究は,トーラス上での相対論的フェルミオン波動関数の復活に関する[1]で得られた結果を大幅に拡大する。
実際、リバイバルを示す全ての可能な量子状態は、完全に特徴づけられる。
復活は、つまり、非相対論的なような特定の制限を取らずに、真の復活である。
この結果は、タルボット効果とシュル=オディンガー方程式の非零質量の相対論的状況への復活を一般化するので興味深い。
これにより、分散関係が変更され線型ではないため、問題は非自明である。
本結果は,特定の詳細で記述した算術ツールを用いて得られる。
さらに、テキストに沿って提案された手順を実証するのに有用な、復元のいくつかのプロットが提示される。 In the present work, the results obtained in [1] about the revivals of a relativistic fermion wave function on a torus are considerably enlarged. In fact, all the possible quantum states exhibiting revivals are fully characterized. The revivals are exact, that is, are true revivals without taking any particular limit such as the non relativistic one. The present results are of interest since they generalize the Talbot effect and the revivals of the Schr\"odinger equation to a relativistic situation with non zero mass. This makes the problem nontrivial, as the dispersion relation is modified and is not linear. The present results are obtained by the use of arithmetic tools which are described in certain detail. In addition, several plots of the revivals are presented, which are useful for exemplifying the procedure proposed along the text. | 翻訳日:2023-12-21 21:49:33 公開日:2023-12-20 |
# ReShader:シングルイメージビュー合成のためのビュー依存ハイライト ReShader: View-Dependent Highlights for Single Image View-Synthesis ( http://arxiv.org/abs/2309.10689v2 ) ライセンス: Link先を確認 | Avinash Paliwal, Brandon Nguyen, Andrii Tsarov, Nima Khademi Kalantari | (参考訳) 近年では3次元シーン表現の急速な進歩と画像インパインティング技術により,単一画像からの新規なビュー合成が著しい進歩を遂げている。
現在のアプローチでは、幾何学的に一貫した新しいビューを合成できるが、ビュー依存効果を適切に扱えないことが多い。
特に、合成画像のハイライトは通常表面に接着されているように見え、新しい視点は非現実的である。
この大きな問題に対処するために,新たなビューを合成するプロセスでは,新しいカメラに基づいて画素のシェーディングを変更し,適切な場所に移動する必要がある,という重要な観察を行う。
そこで本研究では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割する。
再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。
そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新しいビュー画像を生成する。
本稿では,ニューラルネットワークを用いてリシェーディングを行い,多数の合成入力-リシェードペアを生成し,ネットワークをトレーニングすることを提案する。
提案手法は,様々な現実世界のシーンにリアルな動きのハイライトを付加した,可愛らしい新しいビュー画像を生成する。 In recent years, novel view synthesis from a single image has seen significant progress thanks to the rapid advancements in 3D scene representation and image inpainting techniques. While the current approaches are able to synthesize geometrically consistent novel views, they often do not handle the view-dependent effects properly. Specifically, the highlights in their synthesized images usually appear to be glued to the surfaces, making the novel views unrealistic. To address this major problem, we make a key observation that the process of synthesizing novel views requires changing the shading of the pixels based on the novel camera, and moving them to appropriate locations. Therefore, we propose to split the view synthesis process into two independent tasks of pixel reshading and relocation. During the reshading process, we take the single image as the input and adjust its shading based on the novel camera. This reshaded image is then used as the input to an existing view synthesis method to relocate the pixels and produce the final novel view image. We propose to use a neural network to perform reshading and generate a large set of synthetic input-reshaded pairs to train our network. We demonstrate that our approach produces plausible novel view images with realistic moving highlights on a variety of real world scenes. | 翻訳日:2023-12-21 21:49:20 公開日:2023-12-20 |
# 原子干渉型ダークマター検出におけるクロック遷移とブラッグ回折 Clock Transitions Versus Bragg Diffraction in Atom-interferometric Dark-matter Detection ( http://arxiv.org/abs/2309.09538v2 ) ライセンス: Link先を確認 | Daniel Derr and Enno Giese | (参考訳) 長いベースラインを持つ原子干渉計は、ダークマターの探索を補完すると考えられている。
これらは内部(クロック)遷移や状態保存原子回折に基づく原子操作に依存している。
主に、ダークマターは内部だけでなく、原子干渉計の両方が影響を受けやすい外部の自由度にも作用することができる。
そこで我々は,暗黒物質が内部原子構造と原子の動きに及ぼす影響について考察した。
特に, 原子遷移周波数は, 関連する状態とダークマターとの平均結合と差分結合に依存し, 摂動しない原子遷移周波数とコンプトン周波数とをそれぞれスケーリングすることを示した。
微分結合は、内部状態が変化したときのみ関連し、例えば、両方の結合パラメータに敏感な単光子遷移に基づく検出器となる。
ブラッグ回折のような状態保存回折機構によって生成されるセンサでは、平均結合は原子の運動のみを支配的な寄与として修飾する。
最後に、地上の暗黒物質検出器で観測された両方の効果を比較した。 Atom interferometers with long baselines are envisioned to complement the ongoing search for dark matter. They rely on atomic manipulation based on internal (clock) transitions or state-preserving atomic diffraction. Principally, dark matter can act on the internal as well as the external degrees of freedom to both of which atom interferometers are susceptible. We therefore study in this contribution the effects of dark matter on the internal atomic structure and the atoms' motion. In particular, we show that the atomic transition frequency depends on the mean coupling and the differential coupling of the involved states to dark matter, scaling with the unperturbed atomic transition frequency and the Compton frequency, respectively. The differential coupling is only of relevance when internal states change, which makes detectors, e.g., based on single-photon transitions sensitive to both coupling parameters. For sensors generated by state-preserving diffraction mechanisms like Bragg diffraction, the mean coupling modifies only the motion of the atom as the dominant contribution. Finally, we compare both effects observed in terrestrial dark-matter detectors. | 翻訳日:2023-12-21 21:49:00 公開日:2023-12-20 |
# ChainForge: プロンプトエンジニアリングとLLM仮説テストのためのビジュアルツールキット ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing ( http://arxiv.org/abs/2309.09128v2 ) ライセンス: Link先を確認 | Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg, Elena Glassman | (参考訳) 大規模言語モデル(llm)のアウトプットの評価は困難であり、多くの応答を -- 理解し -- する必要がある。
しかし、基本的なプロンプトを超えたツールは、プログラミングAPIの知識、狭いドメインにフォーカスしたり、クローズドソースになる傾向がある。
テキスト生成llmのプロンプトエンジニアリングとオンデマンド仮説テストのための,オープンソースのビジュアルツールキットであるchainforgeを提案する。
chainforgeは、モデル間の応答とプロンプトのバリエーションを比較するためのグラフィカルなインターフェースを提供する。
提案システムは,モデル選択,プロンプトテンプレート設計,仮説テスト(監査など)の3つのタスクをサポートするように設計された。
当社は開発の初期段階にchainforgeをリリースし、アカデミックやオンラインユーザによる設計を繰り返し行いました。
インラボやインタビュー研究を通じて、ChainForgeを使って、現実世界の設定を含む、自分たちにとって重要な仮説を調査できることがわかりました。
我々は,3種類の即時エンジニアリングとLLM仮説テスト(機会探索,限られた評価,反復的改善)を同定した。 Evaluating outputs of large language models (LLMs) is challenging, requiring making -- and making sense of -- many responses. Yet tools that go beyond basic prompting tend to require knowledge of programming APIs, focus on narrow domains, or are closed-source. We present ChainForge, an open-source visual toolkit for prompt engineering and on-demand hypothesis testing of text generation LLMs. ChainForge provides a graphical interface for comparison of responses across models and prompt variations. Our system was designed to support three tasks: model selection, prompt template design, and hypothesis testing (e.g., auditing). We released ChainForge early in its development and iterated on its design with academics and online users. Through in-lab and interview studies, we find that a range of people could use ChainForge to investigate hypotheses that matter to them, including in real-world settings. We identify three modes of prompt engineering and LLM hypothesis testing: opportunistic exploration, limited evaluation, and iterative refinement. | 翻訳日:2023-12-21 21:48:44 公開日:2023-12-20 |
# Data-Juicer:大規模言語モデルのためのワンストップデータ処理システム Data-Juicer: A One-Stop Data Processing System for Large Language Models ( http://arxiv.org/abs/2309.02033v3 ) ライセンス: Link先を確認 | Daoyuan Chen, Yilun Huang, Zhijian Ma, Hesen Chen, Xuchen Pan, Ce Ge, Dawei Gao, Yuexiang Xie, Zhaoyang Liu, Jinyang Gao, Yaliang Li, Bolin Ding, Jingren Zhou | (参考訳) 大規模言語モデル(LLM)の膨大な進化は、大規模で異質で高品質なデータの重要性を強調している。
データレシピは、LLMのパフォーマンスにおいて重要な役割を果たすLLMをトレーニングするための異なるソースからのデータの混合である。
LLMデータ処理のための既存のオープンソースツールは、主に特定のデータレシピに適したものだ。
llmの可能性を継続的に解明し、新たなソースからのデータを取り込んで、llmsのパフォーマンスを向上させるために、さまざまなデータレシピを効率的に生成し、データ混合の形成におけるさまざまな可能性を調査し、モデルパフォーマンスへの影響を評価する、data-juicerという新しいシステムを構築した。
従来のデータ分析パイプラインとは異なり、Data-Juicerにはいくつかの固有の課題がある。
第一に、データレシピを形成するためのデータソースは、真に異質で、様々な性質を持つ。
第2に、LCMの性能に対するデータレシピの影響を正確に評価することは極めて高価である。
第3に,モデル開発者であるdata-juicerのエンドユーザは,さまざまなデータレシピの設定と評価に十分な柔軟性が必要です。
data-juicerは、データレシピ構築のためのパイプラインの詳細な抽象化と、構成と拡張を簡単にするための50以上の組み込みオペレータを備えている。
可視化と自動評価機能を組み込むことで、Data-JuicerはLLM事前トレーニングと微調整の両方のタイムリーなフィードバックループを可能にする。
さらに、Data-JuicerはLLMトレーニング、評価、分散コンピューティングのためのエコシステムに最適化され、統合されている。
Data-Juicer から派生したデータレシピは、最先端の LLM に対して顕著に改善され、16 LLM ベンチマークの平均スコアは7.45%増加し、ペアワイド GPT-4 評価では17.5%上昇した。
我々のシステム、データレシピ、チュートリアルがリリースされ、LLMの学習と理解に関するより広範なデータ中心の研究が求められます。 The immense evolution in Large Language Models (LLMs) has underscored the importance of massive, heterogeneous, and high-quality data. A data recipe is a mixture of data from different sources for training LLMs, which plays a vital role in LLMs' performance. Existing open-source tools for LLM data processing are mostly tailored for specific data recipes. To continuously uncover the potential of LLMs, incorporate data from new sources, and improve LLMs' performance, we build a new system named Data-Juicer, with which we can efficiently generate diverse data recipes, explore different possibilities in forming data mixtures, and evaluate their effects on model performance. Different from traditional data-analytics pipelines, Data-Juicer faces some unique challenges. Firstly, the possible data sources for forming data recipes are truly heterogeneous and massive with various qualities. Secondly, it is extremely expensive to precisely evaluate data recipes' impact on LLMs' performance. Thirdly, the end users of Data-Juicer, model developers, need sufficient flexibility to configure and evaluate different data recipes. Data-Juicer features a fine-grained abstraction of pipelines for constructing data recipes, with over 50 built-in operators for easy composition and extension. By incorporating visualization and auto-evaluation capabilities, Data-Juicer enables a timely feedback loop for both LLM pre-training and fine-tuning. Further, Data-Juicer is optimized and integrated with ecosystems for LLM training, evaluation, and distributed computing. The data recipes derived with Data-Juicer gain notable improvements on state-of-the-art LLMs, by up to 7.45% increase in averaged score across 16 LLM benchmarks and 17.5% higher win rate in pair-wise GPT-4 evaluations. Our system, data recipes, and tutorials are released, calling for broader data-centric research on training and understanding LLMs. | 翻訳日:2023-12-21 21:48:07 公開日:2023-12-20 |
# 量子回路と代数関係:効率的なスピン-1ハミルトニアンシミュレーションへの経路 Qutrit Circuits and Algebraic Relations: A Pathway to Efficient Spin-1 Hamiltonian Simulation ( http://arxiv.org/abs/2309.00740v2 ) ライセンス: Link先を確認 | Oluwadara Ogunkoya, Joonho Kim, Bo Peng, A. Bar{\i}\c{s} \"Ozg\"uler, Yuri Alexeev | (参考訳) 量子情報処理は、普遍ゲートセット内に量子ビットベースの技術を適用することで、大きな進歩をみせた。
最近、量子ビットパラダイムを越えて、d$-dimensional quantum unit(qudits)への探索が、計算効率を改善するための新しい道を開いた。
本稿では,quditベースの回路の高信頼化における課題を,複雑化に伴う課題として,quditベースの手法を考察する。
クディット回路の忠実性を高めるための革新的なアプローチとして、回路圧縮と最適化を可能にするヤン・バクスター型ターンオーバー方程式のような代数的関係を探索する。
本稿では,3量子時間プロパゲータのターンオーバー関係とその回路深さ低減への応用について紹介する。
さらに、この関係が高次元量子回路に一般化できるかどうかを考察し、1次元スピン-1ハイゼンベルクモデルについての研究を含む。
我々の研究は、この一般化を実現するための厳密かつ数値的なアプローチを概説し、キューディットベースの量子コンピューティングの分野におけるさらなる探索の基礎となる。 Quantum information processing has witnessed significant advancements through the application of qubit-based techniques within universal gate sets. Recently, exploration beyond the qubit paradigm to $d$-dimensional quantum units or qudits has opened new avenues for improving computational efficiency. This paper delves into the qudit-based approach, particularly addressing the challenges presented in the high-fidelity implementation of qudit-based circuits due to increased complexity. As an innovative approach towards enhancing qudit circuit fidelity, we explore algebraic relations, such as the Yang-Baxter-like turnover equation, that may enable circuit compression and optimization. The paper introduces the turnover relation for the three-qutrit time propagator and its potential use in reducing circuit depth. We further investigate whether this relation can be generalized for higher-dimensional quantum circuits, including a focused study on the one-dimensional spin-1 Heisenberg model. Our work outlines both rigorous and numerically efficient approaches to potentially achieve this generalization, providing a foundation for further explorations in the field of qudit-based quantum computing. | 翻訳日:2023-12-21 21:46:55 公開日:2023-12-20 |
# 光ハーベスティング効率は配向秩序のない光コヒーレンスに依存しない Light-harvesting efficiency cannot depend on optical coherence in the absence of orientational order ( http://arxiv.org/abs/2308.14771v2 ) ライセンス: Link先を確認 | Dominic M Rouse, Adesh Kushwaha, Stefano Tomasi, Brendon W Lovett, Erik M Gauger, Ivan Kassal | (参考訳) 光のコヒーレンスは、光ハーベッティング効率を高めるための量子力学的制御として提案されている。
特に、光の偏光状態またはスペクトル位相を変更して光コヒーレンスを操作することができる。
ここでは, 弱光下では光損失効率は, 分子光損失系における光学コヒーレンスを用いれば制御できないこと, より広い意味では, 向きが乱れたサブユニットで構成され, ウルトラファストよりも長い時間スケールで動作することを示す。
これらの条件下では、光コヒーレンスは光ハーベスティング効率に影響を与えず、制御には使用できない。
具体的には、偏光状態制御が乱れた試料や光ハーベスティングの時間スケールに適合する分子で失われ、効率が光コヒーレンス時間よりも長い場合、スペクトル位相制御が失われる。
実際には、効率は常に長い時間にわたって平均化されるため、配向次数を持つ系の偏光によってのみコヒーレントな光制御が可能となる。 The coherence of light has been proposed as a quantum-mechanical control for enhancing light-harvesting efficiency. In particular, optical coherence can be manipulated by changing either the polarization state or spectral phase of the light. Here, we show that, in weak light, light-harvesting efficiency cannot be controlled using any form of optical coherence in molecular light-harvesting systems and, more broadly, those comprising orientationally disordered sub-units and operating on longer-than-ultrafast timescales. Under those conditions, optical coherence does not affect light-harvesting efficiency, meaning that it cannot be used for control. Specifically, polarization-state control is lost in disordered samples or when the molecules reorient on the timescales of the light-harvesting, and spectral-phase control is lost when the efficiency is time-averaged for longer than the optical coherence time. In practice, efficiency is always averaged over long times, meaning that coherent optical control is only possible through polarisation in systems with orientational order. | 翻訳日:2023-12-21 21:46:18 公開日:2023-12-20 |
# 分散学習におけるプライバシー保護とビザンチン・ロバストネスのトレードオフについて On the Tradeoff between Privacy Preservation and Byzantine-Robustness in Decentralized Learning ( http://arxiv.org/abs/2308.14606v3 ) ライセンス: Link先を確認 | Haoxiang Ye, Heng Zhu, and Qing Ling | (参考訳) 本稿では,分散学習におけるプライバシー保護とビザンチン・ロバストネスについて考察する。
分散ネットワークでは、正直なエージェントは所定のアルゴリズムに忠実に従うが、学習プロセス中に受信したメッセージから隣人のプライベートデータを推測することを期待し、不正なエージェントは所定のアルゴリズムに従わず、故意に隣人に間違ったメッセージを分散して学習プロセスにバイアスを与える。
本稿では,プライバシ保護とビザンツの分散化確率勾配降下(SGD)フレームワークについて検討し,プライバシ保護のためにガウスノイズを注入し,ビザンツ攻撃に対するロバストなアグリゲーションルールを適用した。
我々は,その学習誤りとプライバシ保証を分析し,分散学習におけるプライバシー保護とビザンチン・ロバストネスとの間に本質的なトレードオフを見出した。
最先端のロバストアグリゲーションルールのクラスでは、「混合能力」の統一分析を行う。
この分析に基づいて,「混合能力」がプライバシー保護とビザンチン・ロバストネスのトレードオフにどのように影響するかを明らかにする。
理論的結果は、堅牢な集約ルールを適切に設計した良好なトレードオフを達成するためのガイドラインを提供する。
数値実験を行い,理論的な知見を裏付ける。 This paper jointly considers privacy preservation and Byzantine-robustness in decentralized learning. In a decentralized network, honest-but-curious agents faithfully follow the prescribed algorithm, but expect to infer their neighbors' private data from messages received during the learning process, while dishonest-and-Byzantine agents disobey the prescribed algorithm, and deliberately disseminate wrong messages to their neighbors so as to bias the learning process. For this novel setting, we investigate a generic privacy-preserving and Byzantine-robust decentralized stochastic gradient descent (SGD) framework, in which Gaussian noise is injected to preserve privacy and robust aggregation rules are adopted to counteract Byzantine attacks. We analyze its learning error and privacy guarantee, discovering an essential tradeoff between privacy preservation and Byzantine-robustness in decentralized learning -- the learning error caused by defending against Byzantine attacks is exacerbated by the Gaussian noise added to preserve privacy. For a class of state-of-the-art robust aggregation rules, we give unified analysis of the "mixing abilities". Building upon this analysis, we reveal how the "mixing abilities" affect the tradeoff between privacy preservation and Byzantine-robustness. The theoretical results provide guidelines for achieving a favorable tradeoff with proper design of robust aggregation rules. Numerical experiments are conducted and corroborate our theoretical findings. | 翻訳日:2023-12-21 21:45:55 公開日:2023-12-20 |
# 量子ビット同期型コスト効率量子アクセスネットワーク A cost-efficient quantum access network with qubit-based synchronization ( http://arxiv.org/abs/2308.14385v2 ) ライセンス: Link先を確認 | Chunfeng Huang, Ye Chen, Tingting Luo, Wenjie He, Xin Liu, Zhenrong Zhang, and Kejin Wei | (参考訳) 量子鍵分配(Quantum Key Distribution, QKD)は、2つの異なるパーティが秘密鍵と情報理論のセキュリティを交換できる物理層暗号化技術である。
過去20年間、QKDは研究所の研究から、マルチユーザ量子アクセスネットワーク(QAN)を含む現実世界のアプリケーションへと移行してきた。
このネットワーク構造により、時間分割多重化により、ネットワークノードで単一光子検出器を共有することができ、ネットワークコストを大幅に削減することができる。
しかし、現在のQAN実装では、時間同期のような補助的なタスクのために追加のハードウェアが必要である。
この問題に対処するため,量子ビット同期を用いたコスト効率の高いqanを提案する。
このアプローチでは、送信されたキュービットは時間同期を容易にし、追加の同期ハードウェアを不要にする。
当社では,2ユーザ用のネットワークを実装して,50kmの商用ファイバースプール上で,平均安全キーレート53.84$ kbpsと711.90$ kbpsを達成した。
さらに,クロストークおよび損失条件下でのアクセスネットワークの容量について検討した。
シミュレーションの結果,キーレートが最大1070~bpsの64ユーザのqanをサポートすることができた。
本研究は,マルチユーザQKDネットワークを実現するための実現可能で費用対効果の高い方法を提供し,QKDの普及を促進する。 Quantum Key Distribution (QKD) is a physical layer encryption technique that enables two distant parties to exchange secure keys with information-theoretic security. In the last two decades, QKD has transitioned from laboratory research to real-world applications, including multi-user quantum access networks (QANs). This network structure allows users to share a single-photon detector at a network node through time-division multiplexing, thereby significantly reducing the network cost. However, current QAN implementations require additional hardware for auxiliary tasks such as time synchronization. To address this issue, we propose a cost-efficient QAN that uses qubit-based synchronization. In this approach, the transmitted qubits facilitate time synchronization, eliminating the need for additional synchronization hardware. We tested our scheme by implementing a network for two users and successfully achieved average secure key rates of $53.84$ kbps and $71.90$ kbps for each user over a 50-km commercial fiber spool. In addition, we investigated the capacity of the access network under cross-talk and loss conditions. The simulation results demonstrate that this scheme can support a QAN with 64 users with key rates up to 1070~bps. Our work provides a feasible and cost-effective way to implement a multi-user QKD network, further promoting the widespread application of QKD. | 翻訳日:2023-12-21 21:45:30 公開日:2023-12-20 |
# スパース3D:スパースビューからのオブジェクト再構成のための多視点連続拡散の蒸留 Sparse3D: Distilling Multiview-Consistent Diffusion for Object Reconstruction from Sparse Views ( http://arxiv.org/abs/2308.14078v2 ) ライセンス: Link先を確認 | Zi-Xin Zou, Weihao Cheng, Yan-Pei Cao, Shi-Sheng Huang, Ying Shan, Song-Hai Zhang | (参考訳) 極めてスパースなビューから3dオブジェクトを再構築することは、長年の課題である。
最近の技術では、新しい視点で可塑性画像を生成するための画像拡散モデルや、スコア蒸留サンプリング(SDS)を用いた3次元表現への事前学習拡散先行画像の蒸留に用いられているが、これらの手法は、新しい視点合成(NVS)と幾何学の両方において、高品質で一貫性のある詳細な結果の同時達成に苦慮することが多い。
本研究では,スパースビュー入力に適した新しい3次元再構成手法であるsparse3dを提案する。
本手法では,多視点整合拡散モデルからロバスト前駆体を抽出し,神経放射場を精製する。
具体的には、入力ビューからエピポーラ特徴を利用するコントローラを用いて、安定拡散のような事前学習された拡散モデルを誘導し、入力との3次元整合性を維持する新しいビュー画像を生成する。
強力な画像拡散モデルから2dプリミティブを導入することで、オープンワールドオブジェクトに直面した場合でも、当社の統合モデルは一貫して高品質な結果を提供します。
従来のSDSで導入された曖昧さに対処するために,カテゴリスコア蒸留サンプリング(C-SDS)を導入する。
実世界のオブジェクトのマルチビューデータセットであるCO3DV2の実験を行った。
定量的および定性的評価は,NVSおよび幾何再構成に関する指標について,従来の最先端技術よりも優れていることを示す。 Reconstructing 3D objects from extremely sparse views is a long-standing and challenging problem. While recent techniques employ image diffusion models for generating plausible images at novel viewpoints or for distilling pre-trained diffusion priors into 3D representations using score distillation sampling (SDS), these methods often struggle to simultaneously achieve high-quality, consistent, and detailed results for both novel-view synthesis (NVS) and geometry. In this work, we present Sparse3D, a novel 3D reconstruction method tailored for sparse view inputs. Our approach distills robust priors from a multiview-consistent diffusion model to refine a neural radiance field. Specifically, we employ a controller that harnesses epipolar features from input views, guiding a pre-trained diffusion model, such as Stable Diffusion, to produce novel-view images that maintain 3D consistency with the input. By tapping into 2D priors from powerful image diffusion models, our integrated model consistently delivers high-quality results, even when faced with open-world objects. To address the blurriness introduced by conventional SDS, we introduce the category-score distillation sampling (C-SDS) to enhance detail. We conduct experiments on CO3DV2 which is a multi-view dataset of real-world objects. Both quantitative and qualitative evaluations demonstrate that our approach outperforms previous state-of-the-art works on the metrics regarding NVS and geometry reconstruction. | 翻訳日:2023-12-21 21:45:06 公開日:2023-12-20 |
# 衝撃力学の拡張を伴う不確定応力関数に対するディープニューラルネットワークの利用 Use of Deep Neural Networks for Uncertain Stress Functions with Extensions to Impact Mechanics ( http://arxiv.org/abs/2311.16135v2 ) ライセンス: Link先を確認 | Garrett Blum and Ryan Doris and Diego Klabjan and Horacio Espinosa and Ron Szalkowski | (参考訳) 応力-ひずみ曲線(より一般的には応力関数)は、材料の力学特性の非常に重要な特徴付けである。
しかし、ストレス機能は導出が難しく、特定の材料に狭く調整されることが多い。
さらに, 大きな変形, ひずみ速度, 温度感度, 材料パラメータの複合モデリングが課題となっている。
本稿では,不確実性を捉えるために,量子回帰を用いた状態関数としてストレスをモデル化するための一般化されたディープニューラルネットワーク手法を提案する。
これらのモデルを確率微分方程式を用いて一軸衝撃力学に拡張し、この不確実性を考慮した応力関数を実装するためのフレームワークを提供する。
提案手法は, 機械学習, 機械学習, 移動学習によるストレスに対するアプローチと, 新たに提示されたデータセット上での力学モデリングへの影響をベンチマークする実験である。
複数の競合する影響シナリオを考慮して、材料パラメーターを最適化するフレームワークも提供します。 Stress-strain curves, or more generally, stress functions, are an extremely important characterization of a material's mechanical properties. However, stress functions are often difficult to derive and are narrowly tailored to a specific material. Further, large deformations, high strain-rates, temperature sensitivity, and effect of material parameters compound modeling challenges. We propose a generalized deep neural network approach to model stress as a state function with quantile regression to capture uncertainty. We extend these models to uniaxial impact mechanics using stochastic differential equations to demonstrate a use case and provide a framework for implementing this uncertainty-aware stress function. We provide experiments benchmarking our approach against leading constitutive, machine learning, and transfer learning approaches to stress and impact mechanics modeling on publicly available and newly presented data sets. We also provide a framework to optimize material parameters given multiple competing impact scenarios. | 翻訳日:2023-12-21 21:38:00 公開日:2023-12-20 |
# SOAC: ニューラルラジアンス場を用いた時空間オーバーラップ対応マルチセンサ校正 SOAC: Spatio-Temporal Overlap-Aware Multi-Sensor Calibration using Neural Radiance Fields ( http://arxiv.org/abs/2311.15803v2 ) ライセンス: Link先を確認 | Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur, C\'edric Demonceaux | (参考訳) 自動運転のような急速に進化する領域では、高い運用精度と安定性を確保するためには、異なるモードを持つ複数のセンサを使用することが不可欠である。
各センサが提供した情報を単一の共通フレームで正確に活用するためには、これらのセンサを正確に校正することが不可欠である。
本稿では,ニューラル・ラジアンス・フィールド(NeRF)を用いて,一般的なボリューム表現における異なるセンサのモダリティを表現し,ロバストかつ高精度な時空間センサキャリブレーションを実現する。
各センサのシーンの可視部分に基づいて分割法を設計することにより,重なり合う領域のみを用いてキャリブレーション問題を定式化する。
この戦略により、より堅牢で正確なキャリブレーションが可能になり、失敗しやすい。
提案手法は、複数の確立された運転データセット上で検証することにより、屋外の都市景観に作用することを示す。
その結果,本手法は既存手法に比べて精度と堅牢性が高いことがわかった。 In rapidly-evolving domains such as autonomous driving, the use of multiple sensors with different modalities is crucial to ensure high operational precision and stability. To correctly exploit the provided information by each sensor in a single common frame, it is essential for these sensors to be accurately calibrated. In this paper, we leverage the ability of Neural Radiance Fields (NeRF) to represent different sensors modalities in a common volumetric representation to achieve robust and accurate spatio-temporal sensor calibration. By designing a partitioning approach based on the visible part of the scene for each sensor, we formulate the calibration problem using only the overlapping areas. This strategy results in a more robust and accurate calibration that is less prone to failure. We demonstrate that our approach works on outdoor urban scenes by validating it on multiple established driving datasets. Results show that our method is able to get better accuracy and robustness compared to existing methods. | 翻訳日:2023-12-21 21:37:45 公開日:2023-12-20 |
# GaussianEditor: Swiftとコントロール可能な3D編集 GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting ( http://arxiv.org/abs/2311.14521v4 ) ライセンス: Link先を確認 | Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, Zhongang Cai, Lei Yang, Huaping Liu, Guosheng Lin | (参考訳) 3D編集はゲームや仮想現実など多くの分野で重要な役割を果たしている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
一方,neural radiance field(nerf)のような暗黙の3d表現に基づく手法では,複雑なシーンを効果的に描画するが,処理速度の低下や特定のシーン領域の制御が制限される。
これらの課題に応えて,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
GaussianEditorは、トレーニングプロセスを通して編集対象をトレースする提案したGaussianセマンティックトレースを通じて、編集の精度と制御を強化する。
さらに,2次元拡散モデルから確率的生成誘導下での安定化および微細化を実現するために階層型ガウススプラッティング(HGS)を提案する。
また,オブジェクトの効率的な削除と統合のための編集戦略を開発し,既存の手法では難しい課題である。
総合的な実験により,gaussianeditorの優れた制御,有効性,高速性能が示され,3d編集の著しい進歩が示された。
プロジェクトページ: https://buaacyw.github.io/gaussian-editor/ 3D editing plays a crucial role in many areas such as gaming and virtual reality. Traditional 3D editing methods, which rely on representations like meshes and point clouds, often fall short in realistically depicting complex scenes. On the other hand, methods based on implicit 3D representations, like Neural Radiance Field (NeRF), render complex scenes effectively but suffer from slow processing speeds and limited control over specific scene areas. In response to these challenges, our paper presents GaussianEditor, an innovative and efficient 3D editing algorithm based on Gaussian Splatting (GS), a novel 3D representation. GaussianEditor enhances precision and control in editing through our proposed Gaussian semantic tracing, which traces the editing target throughout the training process. Additionally, we propose Hierarchical Gaussian splatting (HGS) to achieve stabilized and fine results under stochastic generative guidance from 2D diffusion models. We also develop editing strategies for efficient object removal and integration, a challenging task for existing methods. Our comprehensive experiments demonstrate GaussianEditor's superior control, efficacy, and rapid performance, marking a significant advancement in 3D editing. Project Page: https://buaacyw.github.io/gaussian-editor/ | 翻訳日:2023-12-21 21:37:30 公開日:2023-12-20 |
# ツリーテンソルネットワーク演算子を決定する状態ダイアグラム State Diagrams to determine Tree Tensor Network Operators ( http://arxiv.org/abs/2311.13433v2 ) ライセンス: Link先を確認 | Richard M. Milbradt, Qunsheng Huang, Christian B. Mendl | (参考訳) この研究は、量子ハミルトニアンを表現するためのツリーテンソルネットワーク演算子(TTNO)に関するものである。
まず、木トポロジーと状態図を結びつける数学的枠組みを確立する。
これらに基づき、ハミルトニアンを与えられたTTNOを構成するアルゴリズムを考案する。
このアルゴリズムはハミルトニアンのテンソル積構造を利用して状態図に経路を追加し、可能であれば局所作用素を組み合わせる。
我々は、与えられた木構造に対するランダムハミルトニアンのアルゴリズムの能力をテストする。
さらに,木トポロジー上での近接相互作用に対して,TTNOを明示的に構築する。
さらに、木上の任意の相互作用を表すテンソル作用素の結合次元に有界を導出する。
最後に、ボソニック浴場と結合したハイゼンベルクスピン鎖の形で開かれた量子系を具体例として考察する。
木構造は、行列積作用素構造と比較してハミルトンテンソルネットワーク表現の結合次元を低くすることができる。
この減少は、スピン当たりの浴の数が3ドルに達するとすぐに必要なトータルテンソル要素の数を減らすのに十分である。 This work is concerned with tree tensor network operators (TTNOs) for representing quantum Hamiltonians. We first establish a mathematical framework connecting tree topologies with state diagrams. Based on these, we devise an algorithm for constructing a TTNO given a Hamiltonian. The algorithm exploits the tensor product structure of the Hamiltonian to add paths to a state diagram, while combining local operators if possible. We test the capabilities of our algorithm on random Hamiltonians for a given tree structure. Additionally, we construct explicit TTNOs for nearest neighbour interactions on a tree topology. Furthermore, we derive a bound on the bond dimension of tensor operators representing arbitrary interactions on trees. Finally, we consider an open quantum system in the form of a Heisenberg spin chain coupled to bosonic bath sites as a concrete example. We find that tree structures allow for lower bond dimensions of the Hamiltonian tensor network representation compared to a matrix product operator structure. This reduction is large enough to reduce the number of total tensor elements required as soon as the number of baths per spin reaches $3$. | 翻訳日:2023-12-21 21:37:04 公開日:2023-12-20 |
# 開量子系における二次元対称性保護位相と遷移 Two-dimensional symmetry-protected topological phases and transitions in open quantum systems ( http://arxiv.org/abs/2311.12619v3 ) ライセンス: Link先を確認 | Yuxuan Guo and Yuto Ashida | (参考訳) 2次元(2次元)クラスター状態の対称性保護位相(SPT)位相に対する局所デコヒーレンスの影響について検討した。
デコヒーレンスの下での2次元クラスター状態を古典的なスピンモデルにマッピングし、$\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT 位相の位相遷移を有限デコヒーレンス強度で生じる自明な位相に変換する。
位相遷移を特徴付けるために,異なる位相的エッジ状態を持つ2つの非結合spt状態間の相対エントロピー,$\mathbb{z}_2^{(1)}$ chargeの奇妙な相関関数,ディスク上の混合状態の多成分ネガティリティという,3つの異なる診断手法を用いた。
全ての診断は、対応する古典的モデルの特定の熱力学量として得ることができ、3つの診断結果が互いに一致している。
2次元クラスター状態が測定ベースの量子計算の文脈で普遍的な計算能力を持っていることを考慮すれば、ここで見られる位相遷移は計算力の遷移と解釈できる。 We investigate the influence of local decoherence on a symmetry-protected topological (SPT) phase of the two-dimensional (2D) cluster state. Mapping the 2D cluster state under decoherence to a classical spin model, we show a topological phase transition of a $\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT phase into the trivial phase occurring at a finite decoherence strength. To characterize the phase transition, we employ three distinct diagnostic methods, namely, the relative entropy between two decohered SPT states with different topological edge states, the strange correlation function of $\mathbb{Z}_2^{(1)}$ charge, and the multipartite negativity of the mixed state on a disk. All the diagnostics can be obtained as certain thermodynamic quantities in the corresponding classical model, and the results of three diagnostic tests are consistent with each other. Given that the 2D cluster state possesses universal computational capabilities in the context of measurement-based quantum computation, the topological phase transition found here can also be interpreted as a transition in the computational power. | 翻訳日:2023-12-21 21:36:51 公開日:2023-12-20 |
# ランダムな純ガウス状態とホーキング放射 Random pure Gaussian states and Hawking radiation ( http://arxiv.org/abs/2311.10562v2 ) ライセンス: Link先を確認 | Erik Aurell, Lucas Hackl, Pawe{\l} Horodecki, Robert H. Jonsson, Mario Kieburg | (参考訳) ブラックホールはホーキング放射によって蒸発する。
その放射のそれぞれのモードは熱的です。
全体状態が純粋である場合、モードは絡み合わなければならない。
この絡み合いの最小サイズを推定することは重要な問題である。
制約付きランダムシンプレクティック変換の新しい理論は、全状態が純粋かつガウス的かつ与えられた限界を持つという理論に基づいて展開する。
ランダムな制約付きシンプレクティックモデルでは、モードモード相関の分布を計算し、モードモードの絡み合いを計算します。
周波数のモードは$\frac{k_b t_{h}(t)}{\hbar}$よりもはるかに大きいが、t$の時点では存在せず、解析から外れる。
その他のモードでは、比較的人口密度の薄いモード(初期高周波モードおよび/または遅延モード)間の相関や絡み合いが強く抑制される。
一方、比較的人口密度の高いモード(早期の低周波モード)は強い相関性を持つが、詳細な分析によりそれらは弱く絡み合っていることが明らかとなった。
したがって、ブラックホールの完全な蒸発後の回復ユニタリティーは、任意の対のホーキングモード間の強い量子絡み合いを必要としない。
我々の分析は、ブラックホール物理学を超えて応用できるような、与えられた限界を持つランダムで純粋なガウス状態におけるモードモード相関の分布に関する正確な一般表現を与える。 A black hole evaporates by Hawking radiation. Each mode of that radiation is thermal. If the total state is nevertheless to be pure, modes must be entangled. Estimating the minimum size of this entanglement has been an important outstanding issue. We develop a new theory of constrained random symplectic transformations, based on that the total state is pure and Gaussian with given marginals. In the random constrained symplectic model we then compute the distribution of mode-mode correlations, from which we bound mode-mode entanglement. Modes of frequency much larger than $\frac{k_B T_{H}(t)}{\hbar}$ are not populated at time $t$ and drop out of the analysis. Among the other modes find that correlations and hence entanglement between relatively thinly populated modes (early-time high-frequency modes and/or late modes of any frequency) to be strongly suppressed. Relatively highly populated modes (early-time low-frequency modes) can on the other hand be strongly correlated, but a detailed analysis reveals that they are nevertheless also weakly entangled. Our analysis hence establishes that restoring unitarity after a complete evaporation of a black hole does not require strong quantum entanglement between any pair of Hawking modes. Our analysis further gives exact general expressions for the distribution of mode-mode correlations in random, pure, Gaussian states with given marginals, which may have applications beyond black hole physics. | 翻訳日:2023-12-21 21:36:04 公開日:2023-12-20 |
# ループ回路に接続された伝送線路の量子化に対する$\delta$-freeアプローチ A $\delta$-free approach to quantization of transmission lines connected to lumped circuits ( http://arxiv.org/abs/2311.09897v2 ) ライセンス: Link先を確認 | Carlo Forestiere and Giovanni Miano | (参考訳) 集積回路に接続された伝送線路からなるシステムの量子化は、連続的自由度と離散的自由度の間の相互作用から生じる重要な課題である。
yurke と denker の先駆的業績に基づく広く採用されている戦略は、ディラック $\delta$-関数を含むラグランジアン密度を用いた集中回路寄与を表すものである。
しかし, この手法は, 最近の文献で強調されているように, 多様な運動量密度を含む複雑化を伴い, 正則化手法を必要としない。
本研究では,伝送線路の離散化やモード展開を必要とせず,ランプ回路に結合した伝送線路に対して,$\delta$-free Lagrangian の定式化を導入する。
これは、ライン上の境界条件を最小作用の原理で明示的に強制することで達成される。
この枠組みでは、ネットワークのハイゼンベルク方程式の量子化と導出は単純である。
本稿では,LC回路に容量結合した半無限伝送線路からなる解析可解ネットワークに適用する。 The quantization of systems composed of transmission lines connected to lumped circuits poses significant challenges, arising from the interplay between continuous and discrete degrees of freedom. A widely adopted strategy, based on the pioneering work of Yurke and Denker, entails representing the lumped circuit contributions using Lagrangian densities that incorporate Dirac $\delta$-functions. However, this approach introduces complications, as highlighted in the recent literature, including divergent momentum densities, necessitating the use of regularization techniques. In this work, we introduce a $\delta$-free Lagrangian formulation for a transmission line coupled to a lumped circuit without the need for a discretization of the transmission line or mode expansions. This is achieved by explicitly enforcing boundary conditions at the line ends in the principle of least action. In this framework, the quantization and the derivation of the Heisenberg equations of the network are straightforward. We apply our approach to an analytically solvable network consisting of a semi-infinite transmission line capacitively coupled to a LC circuit. | 翻訳日:2023-12-21 21:35:37 公開日:2023-12-20 |
# フラストレーションキャビティQED実験における可変揺らぎ下でのスピンガラス形成のダイナミクス Dynamics of spin glass formation under tunable fluctuations in frustrated cavity QED experiments ( http://arxiv.org/abs/2311.05682v2 ) ライセンス: Link先を確認 | Hossein Hosseinabadi, Darrick E. Chang and Jamir Marino | (参考訳) 非摂動図式を用いたフラストレーション原子-光子カップリングによる多モードキャビティQEDのダイナミクスを解く。
本手法により, これらのプラットフォームにホストされるスピンガラス遷移の性質を徹底的に調査することができる。
特に、実験をモデル化したフラストレーションスピンネットワークを形成する原子アンサンブルのそれぞれにおける量子相関の役割に焦点を当てる。
拡張時間スケールでのガラス相の育成における強い量子ゆらぎの安定化効果について報告する。
半古典的極限において、スピンガラスの秩序は、個々の原子アンサンブルのレベルに存在する強磁性相関によって予熱的に阻害され、スピンガラスの形成が実質的に遅延し、競合する秩序として機能する。
本研究は, 量子揺らぎを用いたキャビティqed実験の段階を定式化し, 半古典型から強相関型オペレーションレジームへの移行に伴うものである。 We solve the dynamics of multi-mode cavity QED with frustrated atom-photon couplings using non-perturbative diagrammatics. Our technique enables a thorough investigation of the nature of the spin glass transition hosted in these platforms. We focus in particular on the role of quantum correlations in each of the atomic ensembles which form the frustrated spin network modeling the experiment. We report on the stabilizing effect of strong quantum fluctuations in fostering a glassy phase over extended time scales. At variance with this behaviour, in the semi-classical limit, spin glass order is pre-thermally obstructed by the ferromagnetic correlations present at the level of individual atomic ensembles, which substantially delay spin glass formation, acting as competing order. Our results set the stage for studying cavity QED experiments with tunable quantum fluctuations, and accompanying them in the transition from semi-classical to strongly correlated operational regimes. | 翻訳日:2023-12-21 21:35:12 公開日:2023-12-20 |
# 希薄測定による多体基底状態の冷却 Dilute measurement-induced cooling into many-body ground states ( http://arxiv.org/abs/2311.05258v2 ) ライセンス: Link先を確認 | Josias Langbehn, Kyrylo Snizhko, Igor Gornyi, Giovanna Morigi, Yuval Gefen, Christiane P. Koch | (参考訳) 量子システムを基底状態まで冷却することは、非自明な相互作用系の特徴づけや、様々な量子情報プラットフォームの文脈において重要である。
原則として、測定に基づく受動ステアリングプロトコルを用いることで、ステアリングステップが予め決められており、測定読み出しに基づいていない。
しかしながら、システムと補助的な量子自由度を結合する測定は、かなりコストがかかり、測定数とシステムサイズをスケールするプロトコルは、実用的適用性に制限がある。
本稿では、測定に基づく冷却プロトコルを希薄な限界に持ち込むことができる条件を特定する。
フラストレーションフリーな1次元スピン鎖の2つの例に対して、単一リンク上でのステアリングは、これらのシステムを独自の基底状態に冷却するのに十分であることを示す。
我々は,有限次元数値シミュレーションを用いて解析的議論を行い,さらなる応用について考察する。 Cooling a quantum system to its ground state is important for the characterization of non-trivial interacting systems, and in the context of a variety of quantum information platforms. In principle, this can be achieved by employing measurement-based passive steering protocols, where the steering steps are predetermined and are not based on measurement readouts. However, measurements, i.e., coupling the system to auxiliary quantum degrees of freedom, is rather costly, and protocols in which the number of measurements scales with system size will have limited practical applicability. Here, we identify conditions under which measurement-based cooling protocols can be taken to the dilute limit. For two examples of frustration-free one-dimensional spin chains, we show that steering on a single link is sufficient to cool these systems into their unique ground states. We corroborate our analytical arguments with finite-size numerical simulations and discuss further applications. | 翻訳日:2023-12-21 21:34:57 公開日:2023-12-20 |
# Uni-O4: マルチステップオンライン最適化によるオンラインとオフラインの深層強化学習の統合 Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization ( http://arxiv.org/abs/2311.03351v2 ) ライセンス: Link先を確認 | Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, Huazhe Xu | (参考訳) オフラインとオンライン強化学習(RL)を組み合わせることは、効率的かつ安全な学習に不可欠である。
しかし、従来の手法はオフラインとオンラインの学習を個別の手順として扱い、冗長な設計と限られた性能をもたらす。
余分な保守主義や正規化を導入することなく、簡単かつ効果的なオフラインおよびオンライン学習を実現できますか?
本研究では,オンライン学習とオフライン学習の両面において,政治目的のUni-o4を提案する。
目的のアライメントを2つのフェーズで保持することで、RLエージェントはオフラインとオンラインの学習をシームレスに転送することができる。
この特性は学習パラダイムの柔軟性を高め、事前学習、微調整、オフライン、オンライン学習の任意の組み合わせを可能にする。
特にオフラインフェーズでは、uni-o4はさまざまなアンサンブルポリシを活用して、推定された動作ポリシとオフラインデータセットのミスマッチ問題に対処する。
単純なオフラインポリシー評価(OPE)アプローチにより、Uni-o4はマルチステップポリシーを安全に改善することができる。
以上の手法を用いることで、これらの2つのパラダイムの融合により、より優れたオフライン初期化と、安定かつ迅速なオンライン微調整能力が得られることを示す。
現実のロボットタスクを通じて、このパラダイムの利点を、挑戦的で以前は目に見えない現実の環境に迅速に展開する上で強調する。
さらに,多数のシミュレーションベンチマークを用いた総合評価により,本手法がオフラインとオフラインのファインチューニング学習の両方で最先端の性能を実現することを実証した。
私たちのウェブサイト:https://lei-kun.github.io/uni-o4/ Combining offline and online reinforcement learning (RL) is crucial for efficient and safe learning. However, previous approaches treat offline and online learning as separate procedures, resulting in redundant designs and limited performance. We ask: Can we achieve straightforward yet effective offline and online learning without introducing extra conservatism or regularization? In this study, we propose Uni-o4, which utilizes an on-policy objective for both offline and online learning. Owning to the alignment of objectives in two phases, the RL agent can transfer between offline and online learning seamlessly. This property enhances the flexibility of the learning paradigm, allowing for arbitrary combinations of pretraining, fine-tuning, offline, and online learning. In the offline phase, specifically, Uni-o4 leverages diverse ensemble policies to address the mismatch issues between the estimated behavior policy and the offline dataset. Through a simple offline policy evaluation (OPE) approach, Uni-o4 can achieve multi-step policy improvement safely. We demonstrate that by employing the method above, the fusion of these two paradigms can yield superior offline initialization as well as stable and rapid online fine-tuning capabilities. Through real-world robot tasks, we highlight the benefits of this paradigm for rapid deployment in challenging, previously unseen real-world environments. Additionally, through comprehensive evaluations using numerous simulated benchmarks, we substantiate that our method achieves state-of-the-art performance in both offline and offline-to-online fine-tuning learning. Our website: https://lei-kun.github.io/uni-o4/ . | 翻訳日:2023-12-21 21:34:14 公開日:2023-12-20 |
# subalgebras と coupled cluster green's function の統合:励起多様体における量子埋め込みの理論的基礎 Integrating Subsystem Embedding Subalgebras and Coupled Cluster Green's Function: A Theoretical Foundation for Quantum Embedding in Excitation Manifold ( http://arxiv.org/abs/2310.17172v2 ) ライセンス: Link先を確認 | Bo Peng, Karol Kowalski | (参考訳) 本研究では、従来のCCGF理論と最先端のサブシステム埋め込みサブ代数結合クラスタ(SES-CC)をシームレスに統合することにより、結合クラスタグリーン関数(CCGF)の埋め込みに新しいアプローチを導入する。
この積分は、主に、活性軌道によって明示的に定義されたグリーン関数のサブシステムと対応するセグメントの特性を記述することに焦点を当てている。
重要なことに、我々の研究はSES-CCパラダイムの適応を含み、ハミルトン類似性変換の異なる形式を通して左固有値問題に対処する。
この進歩は、組み込みサブシステムとその周辺環境との相互作用を包括的に表現するだけでなく、特に創発的な量子フローアルゴリズムを用いることで、複数の埋め込みドメインの量子力学的記述への道を開く。
我々の理論的基盤は、さらに複数の組み込みサブシステムへの一般化の段階を定めている。
この拡張は非平衡量子系の探索と応用に大きな可能性を秘めており、システム-環境相互作用の理解を深めている。
この研究は、量子計算とマルチスケールシミュレーションの領域にSES-CCが埋め込まれる可能性を強調し、精度と計算効率のバランスが良いことを約束する。 In this study, we introduce a novel approach to coupled-cluster Green's function (CCGF) embedding by seamlessly integrating conventional CCGF theory with the state-of-the-art sub-system embedding sub-algebras coupled cluster (SES-CC) formalism. This integration focuses primarily on delineating the characteristics of the sub-system and the corresponding segments of the Green's function, defined explicitly by active orbitals. Crucially, our work involves the adaptation of the SES-CC paradigm, addressing the left eigenvalue problem through a distinct form of Hamiltonian similarity transformation. This advancement not only facilitates a comprehensive representation of the interaction between the embedded sub-system and its surrounding environment but also paves the way for the quantum mechanical description of multiple embedded domains, particularly by employing the emergent quantum flow algorithms. Our theoretical underpinnings further set the stage for a generalization to multiple embedded sub-systems. This expansion holds significant promise for the exploration and application of non-equilibrium quantum systems, enhancing the understanding of system-environment interactions. In doing so, the research underscores the potential of SES-CC embedding within the realm of quantum computations and multi-scale simulations, promising a good balance between accuracy and computational efficiency. | 翻訳日:2023-12-21 21:33:49 公開日:2023-12-20 |
# 不完全なスーパービジョンによる実世界の画像復調学習 Learning Real-World Image De-Weathering with Imperfect Supervision ( http://arxiv.org/abs/2310.14958v2 ) ライセンス: Link先を確認 | Xiaohui Liu and Zhilu Zhang and Xiaohe Wu and Chaoyu Feng and Xiaotao Wang and LEI LEI and Wangmeng Zuo | (参考訳) 現実のイメージデウェザリングは、さまざまな好ましくない気象関連アーティファクトを取り除くことを目的としている。
画像ペアを同時にキャプチャすることができないため、既存の現実世界のデウェザリングデータセットは、接地トラス画像と入力された劣化画像の間の一貫性のない照明、位置、テクスチャをしばしば示し、不完全な監視をもたらす。
このような非理想的監督は、学習に基づく脱湿法の訓練過程に悪影響を及ぼす。
本研究では,様々な不整合に対する統一解を用いてこの問題に対処する。
具体的には,情報ボトルネック理論に触発されて,入力劣化画像と可能な限り一貫性のある擬似ラベルを生成するための一貫性ラベルコンストラクタ(clc)を開発した。
特に、現在の入力の複数の隣接フレームもCLCに入力され、擬似ラベルが強化される。
次に,従来の不完全ラベルと擬似ラベルを組み合わせて,提案した情報割当戦略(IAS)による脱ウェザリングモデルを共同で監督する。
テスト中は、推論にデヒータリングモデルのみが使用される。
実世界のデウィータリングデータセットを2つ実験した結果,既存のデウィータリングモデルの性能向上に寄与することがわかった。
コードはhttps://github.com/1180300419/imperfect-deweatheringで入手できる。 Real-world image de-weathering aims at removing various undesirable weather-related artifacts. Owing to the impossibility of capturing image pairs concurrently, existing real-world de-weathering datasets often exhibit inconsistent illumination, position, and textures between the ground-truth images and the input degraded images, resulting in imperfect supervision. Such non-ideal supervision negatively affects the training process of learning-based de-weathering methods. In this work, we attempt to address the problem with a unified solution for various inconsistencies. Specifically, inspired by information bottleneck theory, we first develop a Consistent Label Constructor (CLC) to generate a pseudo-label as consistent as possible with the input degraded image while removing most weather-related degradations. In particular, multiple adjacent frames of the current input are also fed into CLC to enhance the pseudo-label. Then we combine the original imperfect labels and pseudo-labels to jointly supervise the de-weathering model by the proposed Information Allocation Strategy (IAS). During testing, only the de-weathering model is used for inference. Experiments on two real-world de-weathering datasets show that our method helps existing de-weathering models achieve better performance. Codes are available at https://github.com/1180300419/imperfect-deweathering. | 翻訳日:2023-12-21 21:33:27 公開日:2023-12-20 |
# agglomerative federated learning: エンド・エッジ・クラウドコラボレーションによる大規模モデルトレーニングの促進 Agglomerative Federated Learning: Empowering Larger Model Training via End-Edge-Cloud Collaboration ( http://arxiv.org/abs/2312.11489v2 ) ライセンス: Link先を確認 | Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Quyang Pan, Tianliu He, Xuefeng Jiang | (参考訳) federated learning(fl)は、プライバシを損なうことなく、エンドデバイス上で人工知能(ai)モデルをトレーニング可能にする。
コンピューティングタスクがクラウド、エッジ、エンドデバイスの組み合わせによってますます実行されるにつれて、FLは、リアルタイムアクセスによる協調的なデバイススケール拡張を実現するために、エンドエッジクラウドコラボレーション(EECC)パラダイムの恩恵を受けることができる。
階層的フェデレートラーニング(HFL)はEECCに適した多層モデルアグリゲーションをサポートしているが、以前の研究は全ての計算ノードで同じモデル構造を前提としており、最も弱い端末によってモデルスケールを制限している。
この問題に対処するため、我々はEECCを利用した新しいFLフレームワークであるAgglomerative Federated Learning (FedAgg)を提案する。
fedaggは、ブリッジサンプルベースのオンライン蒸留プロトコル(bsbodp)に基づいて、すべての層間で計算ノードを再帰的に編成する。
この設計は、FLのプライバシー制約とEECCの柔軟性要件の両方を満たすことにより、より大きなモデルの可能性を活用することで、パフォーマンスを向上させる。
様々な条件下での実験では、FedAggは平均4.53\%の精度向上と収束率の顕著な改善により最先端の手法よりも優れていた。 Federated Learning (FL) enables training Artificial Intelligence (AI) models over end devices without compromising their privacy. As computing tasks are increasingly performed by a combination of cloud, edge, and end devices, FL can benefit from this End-Edge-Cloud Collaboration (EECC) paradigm to achieve collaborative device-scale expansion with real-time access. Although Hierarchical Federated Learning (HFL) supports multi-tier model aggregation suitable for EECC, prior works assume the same model structure on all computing nodes, constraining the model scale by the weakest end devices. To address this issue, we propose Agglomerative Federated Learning (FedAgg), which is a novel EECC-empowered FL framework that allows the trained models from end, edge, to cloud to grow larger in size and stronger in generalization ability. FedAgg recursively organizes computing nodes among all tiers based on Bridge Sample Based Online Distillation Protocol (BSBODP), which enables every pair of parent-child computing nodes to mutually transfer and distill knowledge extracted from generated bridge samples. This design enhances the performance by exploiting the potential of larger models, with privacy constraints of FL and flexibility requirements of EECC both satisfied. Experiments under various settings demonstrate that FedAgg outperforms state-of-the-art methods by an average of 4.53\% accuracy gains and remarkable improvements in convergence rate. | 翻訳日:2023-12-21 21:27:37 公開日:2023-12-20 |
# CGS-Mask:時系列予測を直感的にする CGS-Mask: Making Time Series Predictions Intuitive for All ( http://arxiv.org/abs/2312.09513v2 ) ライセンス: Link先を確認 | Feng Lu, Wei Li, Yifei Sun, Cheng Song, Yufei Ren, Albert Y. Zomaya | (参考訳) 人工知能(AI)は時系列予測において大きな可能性を秘めているが、ほとんどの説明可能なツールは、時間とともに重要な機能の体系的な理解を提供する能力に制限がある。
これらのツールは一般的に、単一の時点を評価し、入力の時間順序を見落とし、時系列アプリケーションの時間に敏感な性質を無視する。
これらの要因は、特にドメイン知識のないユーザにとって、AIモデルの判断を理解し、意味のある説明を得るのを難しくする。
本稿では,これらの課題に対処するために,CGS-Maskを提案する。
CGS-Maskは、連続した時間ステップを結合的なエンティティとして使用し、最終的な予測に対する機能の影響を評価し、時間とともにバイナリと持続的な機能の重要度スコアを提供する。
本アルゴリズムはマスク数を反復的に最適化し,適切な時間で最適マスクを得る。
我々はCGS-Maskを合成および実世界のデータセット上で評価し、時間とともに特徴の重要性を解明する最先端の手法より優れていた。
アンケートによるパイロットユーザ調査によると、CGS-Maskは、容易に理解できる時系列予測結果を示す最も効果的なアプローチであり、AIモデルの意思決定プロセスを簡単に理解することができる。 Artificial intelligence (AI) has immense potential in time series prediction, but most explainable tools have limited capabilities in providing a systematic understanding of important features over time. These tools typically rely on evaluating a single time point, overlook the time ordering of inputs, and neglect the time-sensitive nature of time series applications. These factors make it difficult for users, particularly those without domain knowledge, to comprehend AI model decisions and obtain meaningful explanations. We propose CGS-Mask, a post-hoc and model-agnostic cellular genetic strip mask-based saliency approach to address these challenges. CGS-Mask uses consecutive time steps as a cohesive entity to evaluate the impact of features on the final prediction, providing binary and sustained feature importance scores over time. Our algorithm optimizes the mask population iteratively to obtain the optimal mask in a reasonable time. We evaluated CGS-Mask on synthetic and real-world datasets, and it outperformed state-of-the-art methods in elucidating the importance of features over time. According to our pilot user study via a questionnaire survey, CGS-Mask is the most effective approach in presenting easily understandable time series prediction results, enabling users to comprehend the decision-making process of AI models with ease. | 翻訳日:2023-12-21 21:27:10 公開日:2023-12-20 |
# クープマンモード分解機能 Featurizing Koopman Mode Decomposition ( http://arxiv.org/abs/2312.09146v2 ) ライセンス: Link先を確認 | David Aristoff, Jeremy Copperman, Nathan Mankovich, and Alexander Davies | (参考訳) 本稿では、時間埋め込みとMahalanobisスケーリングを用いて高次元力学系の解析と予測を強化する、高度なクープマンモード分解(KMD)技術(Featurized Koopman Mode Decomposition(FKMD))を紹介する。
時間埋め込みは観測空間を拡大して基礎となる多様体構造をよりよく捉え、マハラノビススケーリングはカーネルやランダムなフーリエ特徴に適用され、システムのダイナミクスに基づいて観測を調整する。
これは、優れた特徴が知られていない場合にkmdを実現するのに役立つ。
本手法は,高次元ローレンツ誘導器のKMD予測と,がん研究からの細胞シグナル伝達問題を改善する。 This article introduces an advanced Koopman mode decomposition (KMD) technique -- coined Featurized Koopman Mode Decomposition (FKMD) -- that uses time embedding and Mahalanobis scaling to enhance analysis and prediction of high dimensional dynamical systems. The time embedding expands the observation space to better capture underlying manifold structure, while the Mahalanobis scaling, applied to kernel or random Fourier features, adjusts observations based on the system's dynamics. This aids in featurizing KMD in cases where good features are not a priori known. We show that our method improves KMD predictions for a high dimensional Lorenz attractor and for a cell signaling problem from cancer research. | 翻訳日:2023-12-21 21:26:46 公開日:2023-12-20 |
# MCANet:マルチスケールクロス軸注意による医用画像セグメンテーション MCANet: Medical Image Segmentation with Multi-Scale Cross-Axis Attention ( http://arxiv.org/abs/2312.08866v2 ) ライセンス: Link先を確認 | Hao Shao, Quansheng Zeng, Qibin Hou, Jufeng Yang | (参考訳) 病変領域や臓器の大きさや形状が異なるため,多次元情報を効率的に捉え,画素間の長距離依存性を構築することは医用画像分割に不可欠である。
本稿では,効率的な軸方向注意に基づく課題を解決するために,MCA(Multi-scale Cross-axis Attention)を提案する。
水平方向と垂直方向に沿って軸方向の注意を逐次接続する代わりに、2つの平行軸方向の注意間の二重交差を計算し、グローバル情報をよりよく捉えることを提案する。
個々の大きさや形状の病変領域や臓器の顕著な変化を処理するために,各軸方向の注意経路に異なるカーネルサイズを持つストリップ形状のカーネルの複数コンボリューションを用いて空間情報の符号化におけるMCAの効率を向上させる。
我々は MSCAN のバックボーン上に MCA を構築し,そのネットワークを MCANet と呼ぶ。
4M以上のパラメータしか持たないMCANetは、皮膚病変のセグメンテーション、核のセグメンテーション、腹腔多臓器のセグメンテーション、ポリープセグメンテーションを含む4つの課題において、より重いバックボーン(例えば、Swin Transformer)を使用する場合よりも、さらに優れている。
コードはhttps://github.com/haoshao-nku/medical_segで入手できる。 Efficiently capturing multi-scale information and building long-range dependencies among pixels are essential for medical image segmentation because of the various sizes and shapes of the lesion regions or organs. In this paper, we present Multi-scale Cross-axis Attention (MCA) to solve the above challenging issues based on the efficient axial attention. Instead of simply connecting axial attention along the horizontal and vertical directions sequentially, we propose to calculate dual cross attentions between two parallel axial attentions to capture global information better. To process the significant variations of lesion regions or organs in individual sizes and shapes, we also use multiple convolutions of strip-shape kernels with different kernel sizes in each axial attention path to improve the efficiency of the proposed MCA in encoding spatial information. We build the proposed MCA upon the MSCAN backbone, yielding our network, termed MCANet. Our MCANet with only 4M+ parameters performs even better than most previous works with heavy backbones (e.g., Swin Transformer) on four challenging tasks, including skin lesion segmentation, nuclei segmentation, abdominal multi-organ segmentation, and polyp segmentation. Code is available at https://github.com/haoshao-nku/medical_seg. | 翻訳日:2023-12-21 21:26:33 公開日:2023-12-20 |
# 二次元ポーズ推定のためのpnp PnP for Two-Dimensional Pose Estimation ( http://arxiv.org/abs/2312.08488v2 ) ライセンス: Link先を確認 | Joshua Wang | (参考訳) 本研究では,2次元移動に制約されたカメラのためのpnpアルゴリズムを提案する(例えば,多くの車輪型ロボットプラットフォームに適用できる)。
この仮定を活用すれば,探索空間次元の削減による3d pnpアルゴリズムのパフォーマンス向上が可能になる。
また、曖昧なポーズ推定の発生率も減少させる(多くの場合、スプリアス解は運動面の外側に落ちる)。
本アルゴリズムは,幾何基準を用いて近似解を求め,その予測を反復的に洗練する。
このアルゴリズムを既存の3d pnpアルゴリズムと比較し,雑音に対する精度,性能,頑健性について検討した。 We propose a PnP algorithm for a camera constrained to two-dimensional movement (applicable, for instance, to many wheeled robotics platforms). Leveraging this assumption allows performance improvements over 3D PnP algorithms due to the reduction in search space dimensionality. It also reduces the incidence of ambiguous pose estimates (as, in most cases, the spurious solutions fall outside the plane of movement). Our algorithm finds an approximate solution using geometric criteria and refines its prediction iteratively. We compare this algorithm to existing 3D PnP algorithms in terms of accuracy, performance, and robustness to noise. | 翻訳日:2023-12-21 21:26:06 公開日:2023-12-20 |
# アースファシー:一モデルにおける垂直時空間力学系モデリング Earthfarseer: Versatile Spatio-Temporal Dynamical Systems Modeling in One Model ( http://arxiv.org/abs/2312.08403v2 ) ライセンス: Link先を確認 | Hao Wu, Shilong Wang, Yuxuan Liang, Zhengyang Zhou, Wei Huang, Wei Xiong, Kun Wang | (参考訳) 時空間(ST)物理過程と観察を効果的にモデル化することは、ディープラーニングコミュニティにとって難しい問題である。
最近の多くの研究は細心の注意を払って様々な利点を調整し、単純でも実用的でもない設計モデルへと導いてきた。
そこで本研究では, 市販モデルが抱える既存の欠点について, 局所的忠実性の欠如, 長期にわたる予測性能の低下, スケーラビリティの低下, 効率の低下など, 系統的に検討した。
並列局所畳み込みとグローバルフーリエに基づくトランスフォーマーアーキテクチャを組み合わせて,局所的空間的相互作用と依存関係を動的にキャプチャする,簡潔なフレームワークであるearthfarseerを提案する。
EarthFarseerはまた、時間的進化を効率的に効果的に捉えるために、マルチスケールの完全な畳み込みとフーリエアーキテクチャも組み込んでいる。
本提案は,様々なタスクやデータセットにまたがる強い適応性を示し,長い時間ステップ予測において高速収束と局所的忠実性の向上をもたらす。
8つの人間社会の物理と自然の物理的データセットに関する広範囲な実験と可視化は、earthfarseerの最先端のパフォーマンスを示している。
私たちはコードをhttps://github.com/easylearningscores/earthfarseerでリリースします。 Efficiently modeling spatio-temporal (ST) physical processes and observations presents a challenging problem for the deep learning community. Many recent studies have concentrated on meticulously reconciling various advantages, leading to designed models that are neither simple nor practical. To address this issue, this paper presents a systematic study on existing shortcomings faced by off-the-shelf models, including lack of local fidelity, poor prediction performance over long time-steps,low scalability, and inefficiency. To systematically address the aforementioned problems, we propose an EarthFarseer, a concise framework that combines parallel local convolutions and global Fourier-based transformer architectures, enabling dynamically capture the local-global spatial interactions and dependencies. EarthFarseer also incorporates a multi-scale fully convolutional and Fourier architectures to efficiently and effectively capture the temporal evolution. Our proposal demonstrates strong adaptability across various tasks and datasets, with fast convergence and better local fidelity in long time-steps predictions. Extensive experiments and visualizations over eight human society physical and natural physical datasets demonstrates the state-of-the-art performance of EarthFarseer. We release our code at https://github.com/easylearningscores/EarthFarseer. | 翻訳日:2023-12-21 21:25:56 公開日:2023-12-20 |
# RS-Corrector:潜伏拡散モデルにおける顔面ステレオタイプ補正 RS-Corrector: Correcting the Racial Stereotypes in Latent Diffusion Models ( http://arxiv.org/abs/2312.04810v2 ) ライセンス: Link先を確認 | Yue Jiang, Yueming Lyu, Tianxiang Ma, Bo Peng, Jing Dong | (参考訳) 近年のテキストコンディショニング画像生成モデルは、視覚的品質の高い多彩で創造的な画像を生成する能力を示した。
しかし、偏りのある人間の好みが存在するインターネットからランダムに収集された10億規模のデータセットを事前にトレーニングすると、これらのモデルは、特に特定の人種グループにおいて、共通のステレオタイプを持つ画像を生成する傾向がある。
本稿では,公開可能な安定拡散モデルとその誘導体について初期分析を行い,人種的ステレオタイプの存在を強調した。
これらのモデルはしばしば、特定の人種グループに対して歪んだ画像や偏りの画像を生成し、ステレオタイプの特徴を強調する。
これらの問題に対処するため、我々は、潜伏空間における反ステレオタイプ的嗜好を確立し、洗練された結果を得るために潜伏コードを更新する「RS-Corrector」というフレームワークを提案する。
補正プロセスは、原モデルの微調整を必要とせず、推論段階で発生する。
広範な経験的評価により、導入された \themodel は、訓練された安定拡散モデルの人種的ステレオタイプを効果的に修正し、元のモデルを変更しないことを示した。 Recent text-conditioned image generation models have demonstrated an exceptional capacity to produce diverse and creative imagery with high visual quality. However, when pre-trained on billion-sized datasets randomly collected from the Internet, where potential biased human preferences exist, these models tend to produce images with common and recurring stereotypes, particularly for certain racial groups. In this paper, we conduct an initial analysis of the publicly available Stable Diffusion model and its derivatives, highlighting the presence of racial stereotypes. These models often generate distorted or biased images for certain racial groups, emphasizing stereotypical characteristics. To address these issues, we propose a framework called "RS-Corrector", designed to establish an anti-stereotypical preference in the latent space and update the latent code for refined generated results. The correction process occurs during the inference stage without requiring fine-tuning of the original model. Extensive empirical evaluations demonstrate that the introduced \themodel effectively corrects the racial stereotypes of the well-trained Stable Diffusion model while leaving the original model unchanged. | 翻訳日:2023-12-21 21:25:35 公開日:2023-12-20 |
# invariant random forest: ood一般化のための木ベースモデル解 Invariant Random Forest: Tree-Based Model Solution for OOD Generalization ( http://arxiv.org/abs/2312.04273v2 ) ライセンス: Link先を確認 | Yufan Liao, Qi Wu, Xing Yan | (参考訳) Out-Of-Distribution (OOD) の一般化は機械学習において重要なトピックである。
しかし、最近の研究は、ニューラルネットワークの対応する方法のみに焦点を当てている。
Invariant Decision Tree (IDT) と呼ばれる決定木モデルのOOD一般化のための新しい効果的な解を提案する。
IDTは、木の成長中に異なる環境にまたがる分裂の不安定で変動的な挙動に関して、ペナルティ項を強制する。
そのアンサンブル版である不変ランダムフォレスト(irf)が構築されている。
提案手法は,温和な条件下での理論的結果に動機づけられ,合成データと実データの両方を用いた数値実験により検証された。
非OOD木モデルに比べて優れた性能は、木モデルのOOD一般化を考えることが絶対必要であり、より多くの注意を払わなければならないことを意味する。 Out-Of-Distribution (OOD) generalization is an essential topic in machine learning. However, recent research is only focusing on the corresponding methods for neural networks. This paper introduces a novel and effective solution for OOD generalization of decision tree models, named Invariant Decision Tree (IDT). IDT enforces a penalty term with regard to the unstable/varying behavior of a split across different environments during the growth of the tree. Its ensemble version, the Invariant Random Forest (IRF), is constructed. Our proposed method is motivated by a theoretical result under mild conditions, and validated by numerical tests with both synthetic and real datasets. The superior performance compared to non-OOD tree models implies that considering OOD generalization for tree models is absolutely necessary and should be given more attention. | 翻訳日:2023-12-21 21:25:14 公開日:2023-12-20 |
# hessian/jacobian-free確率的二値最適化における${o}(\epsilon^{-1.5})$の複雑性を達成する Achieving ${O}(\epsilon^{-1.5})$ Complexity in Hessian/Jacobian-free Stochastic Bilevel Optimization ( http://arxiv.org/abs/2312.03807v2 ) ライセンス: Link先を確認 | Yifan Yang, Peiyao Xiao, Kaiyi Ji | (参考訳) 本稿では,上層目標関数が一般に非凸であり,下層目標関数が強凸である二層最適化問題を再検討する。
この種の問題は広く研究されているが、ヘッセン・ヤコビアン自由確率二段階最適化における${O}(\epsilon^{-1.5})$サンプル複雑性を二階微分計算なしでどうやって達成するかは、まだ未解決のままである。
このギャップを埋めるために,単純な完全単一ループ構造,投影支援有限差分ヘッセン/ジャコビアンベクトル近似,運動量に基づく更新を特徴とする,新しいヘッセン/ジャコビアンフリー二レベル最適化器fdehboを提案する。
理論的には、FdeHBO は ${O}(\epsilon^{-1.5})$ iterations (それぞれ ${O}(1)$ sample と 1次勾配情報のみ) を必要とし、$\epsilon$-正確な定常点を求める。
我々が知る限り、これは非凸強凸確率的二値最適化のための${o}(\epsilon^{-1.5})$サンプル複雑性を持つ最初のヘッセン/ヤコビアンフリー法である。 In this paper, we revisit the bilevel optimization problem, in which the upper-level objective function is generally nonconvex and the lower-level objective function is strongly convex. Although this type of problem has been studied extensively, it still remains an open question how to achieve an ${O}(\epsilon^{-1.5})$ sample complexity in Hessian/Jacobian-free stochastic bilevel optimization without any second-order derivative computation. To fill this gap, we propose a novel Hessian/Jacobian-free bilevel optimizer named FdeHBO, which features a simple fully single-loop structure, a projection-aided finite-difference Hessian/Jacobian-vector approximation, and momentum-based updates. Theoretically, we show that FdeHBO requires ${O}(\epsilon^{-1.5})$ iterations (each using ${O}(1)$ samples and only first-order gradient information) to find an $\epsilon$-accurate stationary point. As far as we know, this is the first Hessian/Jacobian-free method with an ${O}(\epsilon^{-1.5})$ sample complexity for nonconvex-strongly-convex stochastic bilevel optimization. | 翻訳日:2023-12-21 21:25:00 公開日:2023-12-20 |
# AnimatableDreamer: テキストガイドによる非剛性3次元モデル生成とカノニカルスコア蒸留による再構成 AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation ( http://arxiv.org/abs/2312.03795v2 ) ライセンス: Link先を確認 | Xinzhou Wang, Yikai Wang, Junliang Ye, Zhengyi Wang, Fuchun Sun, Pengkun Liu, Ling Wang, Kai Sun, Xintong Wang, Bin He | (参考訳) テキストから3Dモデルへの適応は、高度な静的な3Dモデルの品質を持つが、特に大きな動きを持つアニマタブルオブジェクトに対しては、シーケンシャルな3Dモデル生成は依然として不十分である。
本研究は,モノクロ映像から抽出した物体の動きに付着しながら,多種多様な非剛体物体を生成できるテキストから4D生成フレームワークAnimatableDreamerを提案する。
animatabledreamerの中核となるのが、canonical score distillation(csd)と呼ばれる新しい最適化デザインです。これは、ビデオ毎に共有されるユニークな正準空間で蒸留処理を行いながら、時間的に変化するカメラ空間の異なるフレームをノイズにすることで、生成次元を4dから3dに単純化するものです。
具体的には、CSDは、スコア勾配が微分可能なワープによって正準空間に逆伝播することを保証し、したがって時間一貫性の生成を保証し、異なるポーズにおける形態的確率を維持する。
3dジェネレータをワーピング機能付き4dに引き上げることで、animatabledreamerは非剛性3dモデルの生成と再構成に関する新しい視点を提供する。
さらに、多視点一貫した拡散モデルからの帰納的知識により、CSDは新規な視点からの再構成を規則化し、生成過程を循環的に強化する。
広汎な実験により, モノクロ映像から高柔軟性テキスト誘導3次元モデルを生成するとともに, 通常の非剛性再構成法よりも再現性能が向上した。
プロジェクトページhttps://animatabledreamer.github.io.com Text-to-3D model adaptations have advanced static 3D model quality, but sequential 3D model generation, particularly for animatable objects with large motions, is still scarce. Our work proposes AnimatableDreamer, a text-to-4D generation framework capable of generating diverse categories of non-rigid objects while adhering to the object motions extracted from a monocular video. At its core, AnimatableDreamer is equipped with our novel optimization design dubbed Canonical Score Distillation (CSD), which simplifies the generation dimension from 4D to 3D by denoising over different frames in the time-varying camera spaces while conducting the distillation process in a unique canonical space shared per video. Concretely, CSD ensures that score gradients back-propagate to the canonical space through differentiable warping, hence guaranteeing the time-consistent generation and maintaining morphological plausibility across different poses. By lifting the 3D generator to 4D with warping functions, AnimatableDreamer offers a novel perspective on non-rigid 3D model generation and reconstruction. Besides, with inductive knowledge from a multi-view consistent diffusion model, CSD regularizes reconstruction from novel views, thus cyclically enhancing the generation process. Extensive experiments demonstrate the capability of our method in generating high-flexibility text-guided 3D models from the monocular video, while also showing improved reconstruction performance over typical non-rigid reconstruction methods. Project page https://AnimatableDreamer.github.io. | 翻訳日:2023-12-21 21:24:36 公開日:2023-12-20 |
# 地平線から遠く離れた島 Islands Far Outside the Horizon ( http://arxiv.org/abs/2312.03078v3 ) ライセンス: Link先を確認 | Raphael Bousso and Geoff Penington | (参考訳) 半古典重力の絡み合った島にある情報は、遠方の放射から非摂動的に再構成することができ、実効場理論の過激な崩壊を意味する。
この現象は、地平線を張ったブラックホールの外側でよく起こる。
4次元シュワルツシルトブラックホールの大角運動量ホーキングモードに関連する島を計算した。
これらのモードは典型的にはブラックホールに逆戻りするが、相対論的弦やより抽象的には時間的な管定理を用いて構築された漸近境界作用素によって無限大に抽出することができる。
驚くべきことに、それらの島は地平線外から$\sqrt{\ell_p r_{\rm hor}}$のオーダーの距離を突き出すことができる。
これはプランクスケールの$\ell_p$よりもパラメトリックに大きく、超大質量ブラックホールのボーア半径に匹敵する。
したがって、原理的には、遠方の観測者はブラックホール情報パラドックスが相補性やファイアウォールによって解決されるかどうかを実験的に決定することができる。 Information located in an entanglement island in semiclassical gravity can be nonperturbatively reconstructed from distant radiation, implying a radical breakdown of effective field theory. We show that this occurs well outside of the black hole stretched horizon. We compute the island associated to large-angular momentum Hawking modes of a four-dimensional Schwarzschild black hole. These modes typically fall back into the black hole but can be extracted to infinity by relativistic strings or, more abstractly, by asymptotic boundary operators constructed using the timelike tube theorem. Remarkably, we find that their island can protrude a distance of order $\sqrt{\ell_p r_{\rm hor}}$ outside the horizon. This is parametrically larger than the Planck scale $\ell_p$ and is comparable to the Bohr radius for supermassive black holes. Therefore, in principle, a distant observer can determine experimentally whether the black hole information paradox is resolved by complementarity, or by a firewall. | 翻訳日:2023-12-21 21:24:04 公開日:2023-12-20 |
# 物体と境界制約を考慮したリモートセンシングによるイメージセマンティクスセグメンテーション SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object and Boundary Constraints ( http://arxiv.org/abs/2312.02464v2 ) ライセンス: Link先を確認 | Xianping Ma, Qianqian Wu, Xingyu Zhao, Xiaokang Zhang, Man-On Pun, and Bo Huang | (参考訳) リモートセンシング画像のセマンティクスセグメンテーションは、ダウンストリームアプリケーションの正確な情報を抽出する上で重要な役割を果たす。
高度な汎用セグメンテーションモデルであるsegment anything model(sam)の開発は、この分野に革命をもたらし、正確かつ効率的なセグメンテーションのための新しい道を提示した。
しかし、SAMはクラス情報なしでセグメンテーション結果を生成することに制限されている。
これにより、リモートセンシング画像における意味セグメンテーションのための強力な汎用視覚モデルの利用が研究の焦点となっている。
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するための合理化フレームワークを提案する。
より具体的には、新しいオブジェクト損失を提案し、一般的なセマンティックセグメンテーションフレームワークにおけるモデル最適化を支援する拡張コンポーネントとして境界損失をさらに導入する。
SGOのコンテンツ特性を考慮し、セグメンテーションされた領域に意味情報を欠くオブジェクト一貫性の概念を導入する。
オブジェクト内の予測値の一貫性に制約を課すことで、オブジェクト損失はセマンティクスのセグメンテーション性能を高めることを目的としている。
さらに、境界損失は、モデルがオブジェクトの境界情報に注意を向けることによって、sgbの特徴的な特徴を浮き彫りにする。
ISPRS Vaihingen と LoveDA Urban の2つのよく知られたデータセットの実験結果から,提案手法の有効性が示された。
この作業のソースコードはhttps://github.com/sstary/SSRS.comからアクセスできる。 Semantic segmentation of remote sensing imagery plays a pivotal role in extracting precise information for diverse down-stream applications. Recent development of the Segment Anything Model (SAM), an advanced general-purpose segmentation model, has revolutionized this field, presenting new avenues for accurate and efficient segmentation. However, SAM is limited to generating segmentation results without class information. Consequently, the utilization of such a powerful general vision model for semantic segmentation in remote sensing images has become a focal point of research. In this paper, we present a streamlined framework aimed at leveraging the raw output of SAM by exploiting two novel concepts called SAM-Generated Object (SGO) and SAM-Generated Boundary (SGB). More specifically, we propose a novel object loss and further introduce a boundary loss as augmentative components to aid in model optimization in a general semantic segmentation framework. Taking into account the content characteristics of SGO, we introduce the concept of object consistency to leverage segmented regions lacking semantic information. By imposing constraints on the consistency of predicted values within objects, the object loss aims to enhance semantic segmentation performance. Furthermore, the boundary loss capitalizes on the distinctive features of SGB by directing the model's attention to the boundary information of the object. Experimental results on two well-known datasets, namely ISPRS Vaihingen and LoveDA Urban, demonstrate the effectiveness of our proposed method. The source code for this work will be accessible at https://github.com/sstary/SSRS. | 翻訳日:2023-12-21 21:23:47 公開日:2023-12-20 |
# GraphPro: 推奨のためのグラフ事前トレーニングとプロンプト学習 GraphPro: Graph Pre-training and Prompt Learning for Recommendation ( http://arxiv.org/abs/2311.16716v2 ) ライセンス: Link先を確認 | Yuhao Yang, Lianghao Xia, Da Luo, Kangyi Lin, Chao Huang | (参考訳) GNNベースのレコメンデータは、マルチホップメッセージパッシングによる複雑なユーザ-イテムインタラクションのモデリングに長けている。
しかし,既存手法ではユーザとイテムの相互作用の動的性質を無視することが多く,ユーザの嗜好の変化や,新たに到着したデータの分散シフトへの適応を阻害する。
したがって、現実世界の動的環境におけるスケーラビリティと性能は限られている。
本研究では,パラメータ効率と動的グラフ事前学習と即時学習を組み合わせたグラフプロを提案する。
この新しい組み合わせにより、GNNは長期的なユーザの好みと短期的な振る舞いのダイナミクスの両方を効果的に捉え、正確でタイムリーなレコメンデーションの提供を可能にします。
graphproフレームワークは,事前学習したgnnモデルに時間的プロンプト機構とグラフ構造的プロンプト学習機構をシームレスに統合することにより,ユーザの好みを進化させる課題に対処する。
時間的プロンプトメカニズムは、ユーザとイテムの相互作用に関する時間情報を符号化し、モデルが時間的コンテキストを自然に捉え、グラフ構造的プロンプト学習機構は、学習済みの知識を連続的なインクリメンタルトレーニングを必要とせずに、行動力学に適応させることができる。
さらに,実世界の動的シナリオを模倣するレコメンデーションのための動的評価設定を導入し,オフライン・オンラインギャップをよりよいレベルに橋渡しする。
大規模な産業展開を含む大規模な実験は、さまざまな最先端のレコメンデータと統合されたGraphProの軽量なプラグインスケーラビリティを示し、有効性、堅牢性、効率性の観点からGraphProの利点を強調します。 GNN-based recommenders have excelled in modeling intricate user-item interactions through multi-hop message passing. However, existing methods often overlook the dynamic nature of evolving user-item interactions, which impedes the adaption to changing user preferences and distribution shifts in newly arriving data. Thus, their scalability and performances in real-world dynamic environments are limited. In this study, we propose GraphPro, a framework that incorporates parameter-efficient and dynamic graph pre-training with prompt learning. This novel combination empowers GNNs to effectively capture both long-term user preferences and short-term behavior dynamics, enabling the delivery of accurate and timely recommendations. Our GraphPro framework addresses the challenge of evolving user preferences by seamlessly integrating a temporal prompt mechanism and a graph-structural prompt learning mechanism into the pre-trained GNN model. The temporal prompt mechanism encodes time information on user-item interaction, allowing the model to naturally capture temporal context, while the graph-structural prompt learning mechanism enables the transfer of pre-trained knowledge to adapt to behavior dynamics without the need for continuous incremental training. We further bring in a dynamic evaluation setting for recommendation to mimic real-world dynamic scenarios and bridge the offline-online gap to a better level. Our extensive experiments including a large-scale industrial deployment showcases the lightweight plug-in scalability of our GraphPro when integrated with various state-of-the-art recommenders, emphasizing the advantages of GraphPro in terms of effectiveness, robustness and efficiency. | 翻訳日:2023-12-21 21:21:56 公開日:2023-12-20 |
# ソフトコレクト:ソフト検出による音声認識のための誤り補正 SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition ( http://arxiv.org/abs/2212.01039v2 ) ライセンス: Link先を確認 | Yichong Leng, Xu Tan, Wenjie Liu, Kaitao Song, Rui Wang, Xiang-Yang Li, Tao Qin, Edward Lin, Tie-Yan Liu | (参考訳) 自動音声認識(ASR)における誤り訂正は,ASRモデルにより生成された文中の誤り語を訂正することを目的としている。
最近のASRモデルは、通常、単語誤り率(WER)が低いため、本来正しいトークンに影響を与えるのを避けるため、誤り訂正モデルは不正な単語を修正するだけでよい。
前回のエラー訂正では、ターゲットソースの注意を通して暗黙的にエラーワードを検出するか、ctc(connectionist temporal classification)の損失を検出するか、特定の削除/置換/停止エラーを明示的に特定する。
しかし、暗黙的エラー検出は、どのトークンが誤りであるかを明確に示さず、明示的なエラー検出は、検出精度の低下に苦しむ。
本稿では,明示的および暗黙的エラー検出の限界を回避するため,ソフトエラー検出機構を用いたソフト補正を提案する。
具体的には、専用言語モデルによって生成された確率でトークンが正しいか否かを最初に検出し、検出された不正トークンのみを複製してデコーダがエラートークンの修正に集中させる制約付きCTC損失を設計する。
暗黙的なエラー検出とCTC損失と比較すると、SoftCorrectは、どの単語が誤りであるかを明示的な信号を提供するため、すべてのトークンを複製する必要はなく、不正なトークンのみを複製する必要はない。
aishell-1とaidatatangデータセットの実験では、softcorrectがそれぞれ26.1%と9.4%のcer削減を達成し、従来よりも大きなマージンを誇りながら、並列生成の高速さを享受している。 Error correction in automatic speech recognition (ASR) aims to correct those incorrect words in sentences generated by ASR models. Since recent ASR models usually have low word error rate (WER), to avoid affecting originally correct tokens, error correction models should only modify incorrect words, and therefore detecting incorrect words is important for error correction. Previous works on error correction either implicitly detect error words through target-source attention or CTC (connectionist temporal classification) loss, or explicitly locate specific deletion/substitution/insertion errors. However, implicit error detection does not provide clear signal about which tokens are incorrect and explicit error detection suffers from low detection accuracy. In this paper, we propose SoftCorrect with a soft error detection mechanism to avoid the limitations of both explicit and implicit error detection. Specifically, we first detect whether a token is correct or not through a probability produced by a dedicatedly designed language model, and then design a constrained CTC loss that only duplicates the detected incorrect tokens to let the decoder focus on the correction of error tokens. Compared with implicit error detection with CTC loss, SoftCorrect provides explicit signal about which words are incorrect and thus does not need to duplicate every token but only incorrect tokens; compared with explicit error detection, SoftCorrect does not detect specific deletion/substitution/insertion errors but just leaves it to CTC loss. Experiments on AISHELL-1 and Aidatatang datasets show that SoftCorrect achieves 26.1% and 9.4% CER reduction respectively, outperforming previous works by a large margin, while still enjoying fast speed of parallel generation. | 翻訳日:2023-12-21 19:39:10 公開日:2023-12-20 |
# 反復的視覚・言語ナビゲーション Iterative Vision-and-Language Navigation ( http://arxiv.org/abs/2210.03087v2 ) ライセンス: Link先を確認 | Jacob Krantz, Shurjo Banerjee, Wang Zhu, Jason Corso, Peter Anderson, Stefan Lee and Jesse Thomason | (参考訳) 本稿では,永続環境における言語誘導エージェントの時間経過を評価するためのパラダイムである反復的視覚言語ナビゲーション(ivln)を提案する。
既存のVision-and-Language Navigation (VLN)ベンチマークは、各エピソードの開始時にエージェントのメモリを消去し、事前情報なしでコールドスタートナビゲーションを実行する機能をテストする。
しかし、展開されたロボットは同じ環境を長時間占有する。
IVLNパラダイムは、最大100の命令追従のRoom-to-Room(R2R)エピソードからなるシーンのツアーを通してメモリを維持するVLNエージェントをトレーニングし、評価することで、この格差に対処する。
室内80シーンに約400のツアーからなるir2rベンチマークを離散的かつ連続的に実施する。
高性能トランスフォーマーVLNエージェントの暗黙的メモリの拡張はIVLNには不十分であるが、マップを構築するエージェントは環境の持続性から恩恵を受け、VLNのマップ構築エージェントに新たな焦点をあてる動機となっている。 We present Iterative Vision-and-Language Navigation (IVLN), a paradigm for evaluating language-guided agents navigating in a persistent environment over time. Existing Vision-and-Language Navigation (VLN) benchmarks erase the agent's memory at the beginning of every episode, testing the ability to perform cold-start navigation with no prior information. However, deployed robots occupy the same environment for long periods of time. The IVLN paradigm addresses this disparity by training and evaluating VLN agents that maintain memory across tours of scenes that consist of up to 100 ordered instruction-following Room-to-Room (R2R) episodes, each defined by an individual language instruction and a target path. We present discrete and continuous Iterative Room-to-Room (IR2R) benchmarks comprising about 400 tours each in 80 indoor scenes. We find that extending the implicit memory of high-performing transformer VLN agents is not sufficient for IVLN, but agents that build maps can benefit from environment persistence, motivating a renewed focus on map-building agents in VLN. | 翻訳日:2023-12-21 19:38:35 公開日:2023-12-20 |
# 量子核の自動的かつ効果的な発見 Automatic and effective discovery of quantum kernels ( http://arxiv.org/abs/2209.11144v2 ) ライセンス: Link先を確認 | Massimiliano Incudini, Daniele Lizzio Bosco, Francesco Martini, Michele Grossi, Giuseppe Serra and Alessandra Di Pierro | (参考訳) 量子コンピューティングは、カーネルマシンが量子カーネルを利用してデータ間の類似度を表現できるようにすることで、機械学習モデルを強化することができる。
量子カーネルは、古典的なデバイスで効率的に計算できないデータの関係を捉えることができる。
しかし、特定のユースケースごとに最適な量子カーネルを設計する簡単な方法はない。
近年の文献では、量子カーネル構築のガイドとして、データに対称性が存在することによる可能性の活用に焦点が当てられているが、ここでは、ニューラルネットワーク検索やautomlのように最適化技術を用いて、ヒューリスティックな方法で最適なカーネルを自動的に発見する別のアプローチを採用する。
本アルゴリズムは,相似性尺度を組合せ対象として実装した量子回路を構築し,コスト関数に基づいて評価し,メタヒューリスティック最適化手法を用いて反復的に修正する。
コスト関数は、動的リー代数の階数のような候補解の適切な統計特性を保証する多くの基準を符号化することができる。
重要なことは、我々のアプローチは採用されている最適化手法とは無関係である。
その結果、高エネルギー物理問題に対する我々のアプローチを検証した結果、最良のシナリオでは、手作業による設計手法に関して、テストの精度を一致または向上させることができることが示され、より少ない労力で優れた結果を提供するための技術の可能性が示される。 Quantum computing can empower machine learning models by enabling kernel machines to leverage quantum kernels for representing similarity measures between data. Quantum kernels are able to capture relationships in the data that are not efficiently computable on classical devices. However, there is no straightforward method to engineer the optimal quantum kernel for each specific use case. While recent literature has focused on exploiting the potential offered by the presence of symmetries in the data to guide the construction of quantum kernels, we adopt here a different approach, which employs optimization techniques, similar to those used in neural architecture search and AutoML, to automatically find an optimal kernel in a heuristic manner. The algorithm we present constructs a quantum circuit implementing the similarity measure as a combinatorial object, which is evaluated based on a cost function and is then iteratively modified using a meta-heuristic optimization technique. The cost function can encode many criteria ensuring favorable statistical properties of the candidate solution, such as the rank of the Dynamical Lie Algebra. Importantly, our approach is independent of the optimization technique employed. The results obtained by testing our approach on a high-energy physics problem demonstrate that, in the best-case scenario, we can either match or improve testing accuracy with respect to the manual design approach, showing the potential of our technique to deliver superior results with reduced effort. | 翻訳日:2023-12-21 19:38:13 公開日:2023-12-20 |
# 分割線形ニューラルネットワークの領域数について On the Number of Regions of Piecewise Linear Neural Networks ( http://arxiv.org/abs/2206.08615v2 ) ライセンス: Link先を確認 | Alexis Goujon, Arian Etemadi and Michael Unser | (参考訳) 多くのfeedforward neural network (nns) は連続および区分線形(cpwl)マッピングを生成する。
具体的には、入力ドメインをマッピングがアフィンである領域に分割する。
これらのいわゆる線形領域の数は、CPWL NNの表現性を特徴付ける自然な計量を提供する。
この量の正確な決定は実際には達成できないことが多く、reluやmaxout nnsを含む特定のアーキテクチャで境界が提案されている。
本研究では,これらの境界を任意の多変量cpwl活性化関数を持つnnに一般化する。
まず, CPWL NNの線形領域の最大値について, その深さ, 幅, 活性化関数の線形領域の数について, 上限値と下限値を与える。
この結果は凸分割の組合せ構造に依拠し、それ自身で指数関数的に領域数を増やすことができる深さの特異な役割を確かめるものである。
次に,CPWL NN が生成する線形領域の平均数を推定するための補的確率的フレームワークを提案する。
合理的な仮定では、任意の1次元経路に沿った線形領域の期待密度は、深さ、幅、活性化複雑性(スケーリング係数まで)の積によって制限される。
これは表現力の3つの源と同一の役割をもたらす:深さを持つ指数的成長はもはや観察されない。 Many feedforward neural networks (NNs) generate continuous and piecewise-linear (CPWL) mappings. Specifically, they partition the input domain into regions on which the mapping is affine. The number of these so-called linear regions offers a natural metric to characterize the expressiveness of CPWL NNs. The precise determination of this quantity is often out of reach in practice, and bounds have been proposed for specific architectures, including for ReLU and Maxout NNs. In this work, we generalize these bounds to NNs with arbitrary and possibly multivariate CPWL activation functions. We first provide upper and lower bounds on the maximal number of linear regions of a CPWL NN given its depth, width, and the number of linear regions of its activation functions. Our results rely on the combinatorial structure of convex partitions and confirm the distinctive role of depth which, on its own, is able to exponentially increase the number of regions. We then introduce a complementary stochastic framework to estimate the average number of linear regions produced by a CPWL NN. Under reasonable assumptions, the expected density of linear regions along any 1D path is bounded by the product of depth, width, and a measure of activation complexity (up to a scaling factor). This yields an identical role to the three sources of expressiveness: no exponential growth with depth is observed anymore. | 翻訳日:2023-12-21 19:36:19 公開日:2023-12-20 |
# beyond grounding: モダリティを越えてきめ細かいイベント階層を抽出する Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities ( http://arxiv.org/abs/2206.07207v3 ) ライセンス: Link先を確認 | Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Long Chen, Yulei Niu, Xudong Lin, Xuande Feng, Jaywon Koo, Sounak Ray and Shih-Fu Chang | (参考訳) イベントは、重要な世界における出来事を記述します。
当然、マルチメディアコンテンツで言及されている出来事とそれらの関連性を理解することは、世界を理解する重要な方法となっている。
既存の文献は、テキストとビジュアル(ビデオ)ドメイン間のイベントが(グラウンド化によって)同一であるかどうかを推測することができる。
しかし、接地は、多くの意味レベルで言及されるのと同じ出来事のために存在する複雑な相互関係を捉えることに失敗する。
例えば、図1では、「戦争」の抽象的な出来事は、サブイベントの「タンクス」と飛行機の「ショット」(テキスト)を通して下位の意味レベルで現れ、これらの出来事の間に階層的でマルチモーダルな関係をもたらす。
本稿では,複数モーダル(ビデオとテキスト)データからイベント階層を抽出し,同じイベントが異なる意味レベルで異なるモダリティでどのように現れるかを把握するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解する上で重要である。
このタスクの研究を支援するために,マルチモーダル階層イベント(MultiHiEve)データセットを紹介する。
従来のビデオ言語データセットとは異なり、MultiHiEveはニュースビデオとアーティクルのペアで構成されており、イベント階層に富んでいる。
テストベンチマークを構築するためにデータセットの一部に密に注釈を付けます。
本稿では,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
さらに,MultiHiEve の未注釈ビデオ列ペアのみを利用する弱教師付きモデルにより,これらの制限に対処する。
提案手法の徹底的な評価を行い,本課題における性能向上と今後の研究の機会を明らかにする。 Events describe happenings in our world that are of importance. Naturally, understanding events mentioned in multimedia content and how they are related forms an important way of comprehending our world. Existing literature can infer if events across textual and visual (video) domains are identical (via grounding) and thus, on the same semantic level. However, grounding fails to capture the intricate cross-event relations that exist due to the same events being referred to on many semantic levels. For example, in Figure 1, the abstract event of "war" manifests at a lower semantic level through subevents "tanks firing" (in video) and airplane "shot" (in text), leading to a hierarchical, multimodal relationship between the events. In this paper, we propose the task of extracting event hierarchies from multimodal (video and text) data to capture how the same event manifests itself in different modalities at different semantic levels. This reveals the structure of events and is critical to understanding them. To support research on this task, we introduce the Multimodal Hierarchical Events (MultiHiEve) dataset. Unlike prior video-language datasets, MultiHiEve is composed of news video-article pairs, which makes it rich in event hierarchies. We densely annotate a part of the dataset to construct the test benchmark. We show the limitations of state-of-the-art unimodal and multimodal baselines on this task. Further, we address these limitations via a new weakly supervised model, leveraging only unannotated video-article pairs from MultiHiEve. We perform a thorough evaluation of our proposed method which demonstrates improved performance on this task and highlight opportunities for future research. | 翻訳日:2023-12-21 19:35:58 公開日:2023-12-20 |
# Recourseを提供する属性ベースの説明はロバストではない Attribution-based Explanations that Provide Recourse Cannot be Robust ( http://arxiv.org/abs/2205.15834v3 ) ライセンス: Link先を確認 | Hidde Fokkema, Rianne de Heide, Tim van Erven | (参考訳) 異なる機械学習のユーザは、目的に応じて異なる説明を必要とする。
機械学習を社会に説明責任を持たせるためには、recourseのアクション可能なオプションを得ることが重要な目標だ。これにより、影響を受けるユーザーが入力である$x$を限定的に変更することで、マシンラーニングシステムの$f(x)$を変更できるようになる。
我々は、リコメンデーションの感度の一般的な定義を提供することでこれを形式化する。これは、どの決定がユーザに関連するかを記述するユーティリティ関数でインスタンス化する必要がある。
この定義は各入力特徴に重要な重みを持つ局所帰属法に適用される。
このような局所帰属は、説明されている入力$x$の小さな変更が、機能重みに大きな変化を引き起こすべきではないという意味で、堅牢であるべきである、としばしば主張される。
しかし, 一つの帰属法が, 相互に敏感かつ頑健に同時に行うことは, 一般に不可能であることを示す。
これらの性質の少なくとも1つに対して、常に反例が存在することが従う。
我々は、LIME、SHAP、Integrated Gradients、SmoothGradなど、いくつかの一般的な属性手法に対する反例を提供する。
私たちの結果は、x$の摂動を記述する帰属と見なされる反事実的説明もカバーしています。
例えば、出力が複数の帰属を持つ集合からなるようにすることで、我々の不可能性(unossibility)な結果に対処するための可能な方法を更に議論し、連続関数の特定のクラスが帰結に敏感になるのに十分な条件を提供する。
最後に、ユーザが1つの属性を$x$だけ変更できる制限されたケースに対して、$f$を適用可能な関数の正確な特徴付けを提供することにより、我々の不可能性結果を強化する。 Different users of machine learning methods require different explanations, depending on their goals. To make machine learning accountable to society, one important goal is to get actionable options for recourse, which allow an affected user to change the decision $f(x)$ of a machine learning system by making limited changes to its input $x$. We formalize this by providing a general definition of recourse sensitivity, which needs to be instantiated with a utility function that describes which changes to the decisions are relevant to the user. This definition applies to local attribution methods, which attribute an importance weight to each input feature. It is often argued that such local attributions should be robust, in the sense that a small change in the input $x$ that is being explained, should not cause a large change in the feature weights. However, we prove formally that it is in general impossible for any single attribution method to be both recourse sensitive and robust at the same time. It follows that there must always exist counterexamples to at least one of these properties. We provide such counterexamples for several popular attribution methods, including LIME, SHAP, Integrated Gradients and SmoothGrad. Our results also cover counterfactual explanations, which may be viewed as attributions that describe a perturbation of $x$. We further discuss possible ways to work around our impossibility result, for instance by allowing the output to consist of sets with multiple attributions, and we provide sufficient conditions for specific classes of continuous functions to be recourse sensitive. Finally, we strengthen our impossibility result for the restricted case where users are only able to change a single attribute of $x$, by providing an exact characterization of the functions $f$ to which impossibility applies. | 翻訳日:2023-12-21 19:35:28 公開日:2023-12-20 |
# 機能混合 Functional Mixtures-of-Experts ( http://arxiv.org/abs/2202.02249v2 ) ライセンス: Link先を確認 | Fa\"icel Chamroukhi, Nhat Thien Pham, Van H\`a Hoang, Geoffrey J. McLachlan | (参考訳) 我々は,観測対象が関数を含む場合,通常は時系列を含む場合の予測のために,異種データの統計的解析を考える。
我々は、ベクトル観測による予測のためのデータの不均一性をモデル化するためのフレームワークとして、Mixtures-of-Experts (ME) を用いてモデリングを拡張した。
我々はまず,機能的ME(FME)と呼ばれる新しいMEモデルのファミリーを提示する。
さらに、予測器のデータ生成プロセスと実応答は、未知のパーティションを表す隠された離散変数によって制御される。
第二に、ラッソ様正則化(英語版)を通して基礎となる機能パラメータの微分にスパースを付与することにより、iFMEと呼ばれるFMEモデルのスパースかつ解釈可能な機能表現を提供する。
モデルに適合するラッソ様(em-lasso)正規化最大類似パラメータ推定戦略のための専用期待最大化アルゴリズムを開発した。
提案するモデルとアルゴリズムは,シミュレーションシナリオおよび2つの実データに適用して検討され,得られた結果は,複雑な非線形関係を正確に捉え,不均質な回帰データをクラスタリングする性能を示す。 We consider the statistical analysis of heterogeneous data for prediction in situations where the observations include functions, typically time series. We extend the modeling with Mixtures-of-Experts (ME), as a framework of choice in modeling heterogeneity in data for prediction with vectorial observations, to this functional data analysis context. We first present a new family of ME models, named functional ME (FME) in which the predictors are potentially noisy observations, from entire functions. Furthermore, the data generating process of the predictor and the real response, is governed by a hidden discrete variable representing an unknown partition. Second, by imposing sparsity on derivatives of the underlying functional parameters via Lasso-like regularizations, we provide sparse and interpretable functional representations of the FME models called iFME. We develop dedicated expectation--maximization algorithms for Lasso-like (EM-Lasso) regularized maximum-likelihood parameter estimation strategies to fit the models. The proposed models and algorithms are studied in simulated scenarios and in applications to two real data sets, and the obtained results demonstrate their performance in accurately capturing complex nonlinear relationships and in clustering the heterogeneous regression data. | 翻訳日:2023-12-21 19:34:59 公開日:2023-12-20 |
# 言語理解のための遅延調整型トランスエンコーダ Latency Adjustable Transformer Encoder for Language Understanding ( http://arxiv.org/abs/2201.03327v7 ) ライセンス: Link先を確認 | Sajjad Kachuee, Mohammad Sharifkhani | (参考訳) 自然言語理解モデルのレイテンシ、パワー、精度を調整することは、効率的なアーキテクチャの望ましい目的である。
本稿では,計算コストを所望の推論遅延速度で適応的に調整する効率的なトランスフォーマアーキテクチャを提案する。
提案手法では, 注意コンテキスト寄与(acc)メトリックを用いて, 重要でない隠れ配列要素(ワードベクトル)を検出し, エンコーダ層毎に除去する。
ファインチューニングフェーズの後、新しいオフラインチューニング特性により、モデルの推論遅延を、さらなるトレーニングなしで広範囲の推論スピードアップ選択で調整することができる。
提案手法をBERTベースモデルとGPT-2モデルに適用して評価を行った。
広範な実験により、より高いトランスフォーマ層にあるワードベクトルのほとんどがその後の層への寄与が少ないことが示され、推論遅延を改善するために取り除くことができる。
GLUEのような広範囲な感情分析,分類,テキスト生成タスク,回帰ベンチマークによる実験結果から,グローバルな文脈への影響を最小限に抑えた様々なデータセットに有効であることが示された。
提案手法は, bert-base と gpt-2 の推論遅延を最大 4.8 倍, 3.72 倍に改善し, 平均0.75% の精度低下, パッシブル・パープレキシティ (passable perplexity) が得られた。
提案手法では,大規模言語モデル (llms) では,トレーニングには完全なネットワークが必要であるが,微調整フェーズでは停止できることを示す。 Adjusting the latency, power, and accuracy of natural language understanding models is a desirable objective of an efficient architecture. This paper proposes an efficient Transformer architecture that adjusts the inference computational cost adaptively with a desired inference latency speedup. In fine-tuning phase, the proposed method detects less important hidden sequence elements (word-vectors) and eliminates them in each encoder layer using a proposed Attention Context Contribution (ACC) metric. After the fine-tuning phase, with the novel offline-tuning property, the inference latency of the model can be adjusted in a wide range of inference speedup selections without any further training. The proposed method is applied to the BERT-base and GPT-2 models for evaluation. Extensive experiments show that most of the word-vectors in higher Transformer layers have less contribution to the subsequent layers; hence, they can be eliminated to improve the inference latency. Experimental results on extensive sentiment analysis, classification, text generation tasks and regression benchmarks like GLUE showed that the method is effective in various datasets with minimal impact on global context. The proposed method mathematically and experimentally improves the inference latency of BERT-base and GPT-2 by up to 4.8 and 3.72 times with less than 0.75% accuracy drop and passable perplexity on average. The suggested approach posits that in Large Language Models (LLMs), although the complete network is necessary for training, it can be truncated during the fine-tuning phase. | 翻訳日:2023-12-21 19:34:34 公開日:2023-12-20 |
# 特徴学習におけるコントラストの力 : 理論的分析 The Power of Contrast for Feature Learning: A Theoretical Analysis ( http://arxiv.org/abs/2110.02473v4 ) ライセンス: Link先を確認 | Wenlong Ji, Zhun Deng, Ryumei Nakada, James Zou, Linjun Zhang | (参考訳) コントラスト学習は、様々な自己教師付き学習タスクにおいて最先端のパフォーマンスを達成した。
実証的な成功にもかかわらず、コントラスト学習の優位に関する理論的理解はまだ限られている。
本稿では,線形表現設定について述べる。
(i)コントラスト学習は、機能回復とドメイン内ダウンストリームタスクの両方において、2つの古典的な生成型非教師なし学習方法である標準オートエンコーダと生成型逆ネットワークよりも優れていることを示す。
(ii)教師付きコントラスト学習におけるラベル付きデータの影響についても述べる。
これにより、ラベルとの対比学習は、ドメイン内ダウンストリームタスクにおける学習表現のパフォーマンスを改善するが、転送学習のパフォーマンスに悪影響を及ぼすという最近の発見に対する理論的サポートを提供する。
我々は数値実験で理論を検証する。 Contrastive learning has achieved state-of-the-art performance in various self-supervised learning tasks and even outperforms its supervised counterpart. Despite its empirical success, theoretical understanding of the superiority of contrastive learning is still limited. In this paper, under linear representation settings, (i) we provably show that contrastive learning outperforms the standard autoencoders and generative adversarial networks, two classical generative unsupervised learning methods, for both feature recovery and in-domain downstream tasks; (ii) we also illustrate the impact of labeled data in supervised contrastive learning. This provides theoretical support for recent findings that contrastive learning with labels improves the performance of learned representations in the in-domain downstream task, but it can harm the performance in transfer learning. We verify our theory with numerical experiments. | 翻訳日:2023-12-21 19:34:07 公開日:2023-12-20 |
# すべての要件の優先順位付け基準が常に等しいとは限らない:定量的分析 Not All Requirements Prioritization Criteria Are Equal at All Times: A Quantitative Analysis ( http://arxiv.org/abs/2104.06033v4 ) ライセンス: Link先を確認 | Richard Berntsson Svensson and Richard Torkar | (参考訳) 要件の優先順位付けは要件工学とソフトウェア開発において重要な意思決定活動として認識されている。
要件の優先順位付けは、実装とリリースの要件を決定するために適用される。
要求を優先するために、異なる要求優先基準を使用するいくつかのアプローチ/技術/ツールがあり、どの基準が最も重要であるかの詳細な分析ではなく、直感によってしばしば識別される。
そこで本研究では,どの要件が実装・リリースされているかを決定する際に,どの要件優先基準が最も重要か,開発プロセスにおける要件がどこまで到達したかによって,基準の重要性が変化するかを検討する。
11,110件の要件優先基準に基づいて,32,139件の要件優先決定を抽出し,1つのソフトウェア開発企業から完了したプロジェクトの定量的調査を行った。
その結果、すべての要件優先順位基準が同等に重要であるわけではないことが示され、この変更は、開発プロセスにおける要件がどこまで到達したかによって異なります。 Requirement prioritization is recognized as an important decision-making activity in requirements engineering and software development. Requirement prioritization is applied to determine which requirements should be implemented and released. In order to prioritize requirements, there are several approaches/techniques/tools that use different requirements prioritization criteria, which are often identified by gut feeling instead of an in-depth analysis of which criteria are most important to use. Therefore, in this study we investigate which requirements prioritization criteria are most important to use in industry when determining which requirements are implemented and released, and if the importance of the criteria change depending on how far a requirement has reached in the development process. We conducted a quantitative study of one completed project from one software developing company by extracting 32,139 requirements prioritization decisions based on eight requirements prioritization criteria for 11,110 requirements. The results show that not all requirements prioritization criteria are equally important, and this change depending on how far a requirement has reached in the development process. | 翻訳日:2023-12-21 19:33:34 公開日:2023-12-20 |
# 重要な治療効果を有するサブグループを見つける Finding Subgroups with Significant Treatment Effects ( http://arxiv.org/abs/2103.07066v2 ) ライセンス: Link先を確認 | Jann Spiess and Vasilis Syrgkanis and Victor Yaneng Wang | (参考訳) 研究者はしばしばリソース集約的ランダム化制御試験(RCT)を実施し、関心の結果に対する介入の因果効果を推定する。
しかし、これらの結果はしばしば騒々しく、推定された全体的な効果は小さいか不正確である。
それでも、重要な効果を持つサブグループを見つけることによって、介入の有効性の確実な証拠を得ることができるかもしれない。
本稿では,ノイズデータ中のサブグループを見つけるのに最適化された機械学習手法を提案する。
パーソナライズされた治療法とは違って,本ツールは,統計的に有意な正の処置効果が得られる確率を最大化するために選択されたサブグループを生成する。
決定木を用いた計算効率の高い実装を提供し,正の(推定された)処理効果に基づく部分群選択の利得を示す。
標準的な木に基づく回帰と分類ツールと比較して、この手法は治療によるサブグループの検出において高いパワーをもたらす傾向にある。 Researchers often run resource-intensive randomized controlled trials (RCTs) to estimate the causal effects of interventions on outcomes of interest. Yet these outcomes are often noisy, and estimated overall effects can be small or imprecise. Nevertheless, we may still be able to produce reliable evidence of the efficacy of an intervention by finding subgroups with significant effects. In this paper, we propose a machine-learning method that is specifically optimized for finding such subgroups in noisy data. Unlike available methods for personalized treatment assignment, our tool is fundamentally designed to take significance testing into account: it produces a subgroup that is chosen to maximize the probability of obtaining a statistically significant positive treatment effect. We provide a computationally efficient implementation using decision trees and demonstrate its gain over selecting subgroups based on positive (estimated) treatment effects. Compared to standard tree-based regression and classification tools, this approach tends to yield higher power in detecting subgroups affected by the treatment. | 翻訳日:2023-12-21 19:33:17 公開日:2023-12-20 |
# マルチフュージョン:多言語多モード画像生成のための事前学習モデル MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation ( http://arxiv.org/abs/2305.15296v3 ) ライセンス: Link先を確認 | Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich, Bj\"orn Deiseroth, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Koen Oostermeijer, Andres Felipe Cruz-Salinas, Patrick Schramowski, Kristian Kersting, Samuel Weinbach | (参考訳) 最近のtext-to-image diffusion models(dm)の人気は、ユーザに提供する直感的なインターフェースに起因している。
意図された生成は自然言語で表現でき、モデルはテキストプロンプトの忠実な解釈を生成する。
しかし、複雑なアイデアやニュアンスをテキストだけで表現することは困難である。
画像生成を容易にするために,複数のモダリティや言語を任意にインターリーブした入力で複雑でニュアンスな概念を表現できるMultiFusionを提案する。
mutlifusionは事前トレーニングされたモデルを活用し、それらを結合システムに統合することで、スクラッチから広範なトレーニングの必要性を回避する。
実験結果は,個々のモジュールから下流モデルへの効率的な機能移行を実証する。
特に、すべての独立したコンポーネントの融合により、画像生成モジュールは単一の言語でモノモダルデータのみを訓練しているにもかかわらず、多言語、インターリーブされたマルチモーダル入力を利用することができる。 The recent popularity of text-to-image diffusion models (DM) can largely be attributed to the intuitive interface they provide to users. The intended generation can be expressed in natural language, with the model producing faithful interpretations of text prompts. However, expressing complex or nuanced ideas in text alone can be difficult. To ease image generation, we propose MultiFusion that allows one to express complex and nuanced concepts with arbitrarily interleaved inputs of multiple modalities and languages. MutliFusion leverages pre-trained models and aligns them for integration into a cohesive system, thereby avoiding the need for extensive training from scratch. Our experimental results demonstrate the efficient transfer of capabilities from individual modules to the downstream model. Specifically, the fusion of all independent components allows the image generation module to utilize multilingual, interleaved multimodal inputs despite being trained solely on monomodal data in a single language. | 翻訳日:2023-12-21 19:27:49 公開日:2023-12-20 |
# 形態と意味の分離:複数感覚におけるタスク理解の定量化に自己整合性を用いる Separating form and meaning: Using self-consistency to quantify task understanding across multiple senses ( http://arxiv.org/abs/2305.11662v3 ) ライセンス: Link先を確認 | Xenia Ohmer, Elia Bruni, Dieuwke Hupkes | (参考訳) 大規模言語モデル(LLM)の能力が増大する停滞するペースでは、その理解を評価するための将来的な評価セットがますます難しくなっている。
本稿では, 正しい世界理解は, 同じ意味の異なる(Fregean)感覚にまたがって整合するべきだという考え方を生かして, LLMを評価するための新しいパラダイムを提案する。
したがって、モデルの正確性ではなく、モデル自体によって生成される複数の感覚の一貫性を評価することで理解度を測定する。
我々は,異なる感覚が異なる言語であるテストのインスタンス化を行い,モデル理解のためのリトマステストとして多言語自己一貫性を用い,同時に多言語性の重要な話題に対処した。
そこで我々は,ChatGPTの最新バージョンを研究対象として,3言語にわたる2つのタスクの多言語一貫性を評価した。
その多言語一貫性は依然として欠如しており、そのタスクと世界理解は言語に依存しない。
我々のアプローチは英語以外の言語で静的評価コーパスを必要としないため、様々な言語やタスクに簡単かつ安価に拡張することができ、将来のベンチマーク活動の不可欠な部分となる可能性がある。 At the staggering pace with which the capabilities of large language models (LLMs) are increasing, creating future-proof evaluation sets to assess their understanding becomes more and more challenging. In this paper, we propose a novel paradigm for evaluating LLMs which leverages the idea that correct world understanding should be consistent across different (Fregean) senses of the same meaning. Accordingly, we measure understanding not in terms of correctness but by evaluating consistency across multiple senses that are generated by the model itself. We showcase our approach by instantiating a test where the different senses are different languages, hence using multilingual self-consistency as a litmus test for the model's understanding and simultaneously addressing the important topic of multilinguality. Taking one of the latest versions of ChatGPT as our object of study, we evaluate multilingual consistency for two different tasks across three different languages. We show that its multilingual consistency is still lacking, and that its task and world understanding are thus not language-independent. As our approach does not require any static evaluation corpora in languages other than English, it can easily and cheaply be extended to different languages and tasks and could become an integral part of future benchmarking efforts. | 翻訳日:2023-12-21 19:27:12 公開日:2023-12-20 |
# 共変量情報を用いた確率計画のためのデータ駆動型近似決定規則 Data-driven Piecewise Affine Decision Rules for Stochastic Programming with Covariate Information ( http://arxiv.org/abs/2304.13646v3 ) ライセンス: Link先を確認 | Yiyang Zhang, Junyi Liu, Xiaobo Zhao | (参考訳) 本稿では,共変量情報を用いた確率的プログラミング(SP)に着目し,特徴から最適決定への直接マッピングの学習を目的とした,非凸片方向アフィン決定規則(PADR)内に組み込んだ経験的リスク最小化(ERM)手法を提案する。
本研究では,制約のない問題に対するPADRに基づくERMモデルの漸近一貫性結果と制約のない問題に対する漸近一貫性結果を確立する。
非凸かつ微分不可能なEMM問題を解くため、拡張確率的偏極最小化アルゴリズムを開発し、複雑性解析とともに(強い)方向の定常性に対する漸近収束を確立する。
提案手法は,理論的整合性保証と計算的トラクタビリティを備えた,幅広い非凸SP問題に適用可能であることを示す。
本研究では, PADRを用いたERM法において, 各種条件下での最先端手法と比較して, コスト低減, 計算時間短縮, 特徴量に対するロバスト性, 基礎となる依存性の非線形性など, 優れた性能を示す。 Focusing on stochastic programming (SP) with covariate information, this paper proposes an empirical risk minimization (ERM) method embedded within a nonconvex piecewise affine decision rule (PADR), which aims to learn the direct mapping from features to optimal decisions. We establish the nonasymptotic consistency result of our PADR-based ERM model for unconstrained problems and asymptotic consistency result for constrained ones. To solve the nonconvex and nondifferentiable ERM problem, we develop an enhanced stochastic majorization-minimization algorithm and establish the asymptotic convergence to (composite strong) directional stationarity along with complexity analysis. We show that the proposed PADR-based ERM method applies to a broad class of nonconvex SP problems with theoretical consistency guarantees and computational tractability. Our numerical study demonstrates the superior performance of PADR-based ERM methods compared to state-of-the-art approaches under various settings, with significantly lower costs, less computation time, and robustness to feature dimensions and nonlinearity of the underlying dependency. | 翻訳日:2023-12-21 19:26:21 公開日:2023-12-20 |
# 確率的保証付き量子多体状態に対する指数的改善と高精度機械学習 Exponentially Improved Efficient and Accurate Machine Learning for Quantum Many-body States with Provable Guarantees ( http://arxiv.org/abs/2304.04353v2 ) ライセンス: Link先を確認 | Yanming Che and Clemens Gneiting and Franco Nori | (参考訳) 量子多体系の基底状態と基底状態の性質を解決することは、古典的アルゴリズムにとって一般的に難しい課題である。
物理パラメータの$m$-次元空間上で定義されるハミルトンの族に対して、任意のパラメータ構成における基底状態とその特性は、所定の予測誤差$\varepsilon$までの機械学習プロトコルを介して予測できる。
最近の研究(huang et al., science 377, eabk3333 (2022))で、そのような一般化に対する厳密な保証が証明された。
残念なことに、証明可能なサンプル複雑性の指数関数的スケーリングである$n=m^{{\cal{o}}\left(\frac{1}{\varepsilon}\right)}$は、ジェネリックガッピングハミルトニアンに普遍的であることがわかった。
この結果は、パラメータ空間の次元が大きくなる一方、精度でのスケーリングが緊急要因ではない状況に適用できる。
本研究では,予測誤差によるスケーリングが中心的な関心事となる間に,$m$が有限で必ずしも大きな定数であるようなシナリオを考える。
学習プロトコルにおける密度行列の基本特性を共に保存し、パラメータ範囲における量子状態の連続性を利用することにより、一様予測誤差$\varepsilon$と量子ビット数$n$に関して、量子多体状態とその特性を予測するための多項式サンプル複雑性を厳格に得る。
さらに、局所量子状態特性の学習に制限された場合、$n$のサンプル数は指数関数的に減少することができる。
この結果は、量子多体状態とその性質の効率的かつ正確な学習のための理論的保証を提供し、モデル非依存の応用はガッピングハミルトニアンの基底状態に限定されない。 Solving the ground state and the ground-state properties of quantum many-body systems is generically a hard task for classical algorithms. For a family of Hamiltonians defined on an $m$-dimensional space of physical parameters, the ground state and its properties at an arbitrary parameter configuration can be predicted via a machine learning protocol up to a prescribed prediction error $\varepsilon$, provided that a sample set (of size $N$) of the states can be efficiently prepared and measured. In a recent work [Huang et al., Science 377, eabk3333 (2022)], a rigorous guarantee for such a generalization was proved. Unfortunately, an exponential scaling for the provable sample complexity, $N=m^{{\cal{O}}\left(\frac{1}{\varepsilon}\right)}$, was found to be universal for generic gapped Hamiltonians. This result applies to the situation where the dimension of the parameter space is large while the scaling with the accuracy is not an urgent factor. In this work, we consider an alternative scenario where $m$ is a finite, not necessarily large constant while the scaling with the prediction error becomes the central concern. By jointly preserving the fundamental properties of density matrices in the learning protocol and utilizing the continuity of quantum states in the parameter range of interest, we rigorously obtain a polynomial sample complexity for predicting quantum many-body states and their properties, with respect to the uniform prediction error $\varepsilon$ and the number of qubits $n$. Moreover, if restricted to learning local quantum-state properties, the number of samples with respect to $n$ can be further reduced exponentially. Our results provide theoretical guarantees for efficient and accurate learning of quantum many-body states and their properties, with model-independent applications not restricted to ground states of gapped Hamiltonians. | 翻訳日:2023-12-21 19:26:01 公開日:2023-12-20 |
# コントラスト学習による知識強化による短いテキストマッチングモデル The Short Text Matching Model Enhanced with Knowledge via Contrastive Learning ( http://arxiv.org/abs/2304.03898v3 ) ライセンス: Link先を確認 | Ruiqiang Liu, Qiqiang Zhong, Mengmeng Cui, Hanjie Mai, Qiang Zhang, Shaohua Xu, Xiangzheng Liu, Yanlong Du | (参考訳) 近年,検索と推薦を宣伝する分野において,短いテキストマッチングタスクが広く採用されている。
この難しさは、テキストの短い長さによって生じる意味情報や単語の曖昧さの欠如にある。
以前の作品では、追加の特徴情報を提供するために補文や知識ベースを導入している。
しかし、これらの手法は原文と補文の間に完全には相互作用せず、外部知識ベースの導入によるノイズの問題も考慮していない。
そこで本稿では,コントラスト学習と外部知識を組み合わせた短いテキストマッチングモデルを提案する。
モデルは生成モデルを用いて対応する補文を生成し、コントラスト学習法を用いてモデルを導出し、より意味的に意味のある原文の符号化を得る。
さらに,ノイズを避けるために,原文の主文としてキーワードを用いて,知識ベースで対応する知識語を検索し,知識グラフを構築する。
グラフ符号化モデルは、知識ベース情報をモデルに統合するために使用される。
設計モデルは,2つの公開可能な中国語テキストマッチングデータセットの最先端性能を実現し,本モデルの有効性を実証する。 In recent years, short Text Matching tasks have been widely applied in the fields ofadvertising search and recommendation. The difficulty lies in the lack of semantic information and word ambiguity caused by the short length of the text. Previous works have introduced complement sentences or knowledge bases to provide additional feature information. However, these methods have not fully interacted between the original sentence and the complement sentence, and have not considered the noise issue that may arise from the introduction of external knowledge bases. Therefore, this paper proposes a short Text Matching model that combines contrastive learning and external knowledge. The model uses a generative model to generate corresponding complement sentences and uses the contrastive learning method to guide the model to obtain more semantically meaningful encoding of the original sentence. In addition, to avoid noise, we use keywords as the main semantics of the original sentence to retrieve corresponding knowledge words in the knowledge base, and construct a knowledge graph. The graph encoding model is used to integrate the knowledge base information into the model. Our designed model achieves state-of-the-art performance on two publicly available Chinese Text Matching datasets, demonstrating the effectiveness of our model. | 翻訳日:2023-12-21 19:25:25 公開日:2023-12-20 |
# RED-PSM:ダイナミックイメージングのための部分分離型モデルによる正規化 RED-PSM: Regularization by Denoising of Partially Separable Models for Dynamic Imaging ( http://arxiv.org/abs/2304.03483v3 ) ライセンス: Link先を確認 | Berk Iskender, Marc L. Klasky, Yoram Bresler | (参考訳) ダイナミックイメージング(dynamic imaging)は、2dまたは3dオブジェクトを瞬時にアンサンプした測定値を用いてリカバリする。
特に、ダイナミックトモグラフィの場合、一度に1つの角度で投影できるのは1つの投影のみであり、問題は非常に不適切である。
そこで本研究では,この課題に初めて2つの強力な手法を組み合わせたアプローチである red-psm を提案する。
1つ目は部分分離可能なモデルで、時空間オブジェクトの低ランクを効率よく導入するために使われてきた。
このフレームワークは、様々な逆問題に対して最先端の画像デノライゼーションアルゴリズムの印象的なパフォーマンスを利用するための柔軟なフレームワークを提供する。
本稿では,redによる部分分離目標と,可変分割とadmmを用いた計算効率良くスケーラブルな最適化スキームを提案する。
理論解析により、第一次最適条件を満たす定常点に対応する値への目的の収束が証明される。
収束は特定の射影領域に基づく初期化によって加速される。
本研究では,本提案手法とtd-dip法との比較により,red-psmの性能と計算性能の向上を示す。
主にダイナミックトモグラフィに焦点をあてるが, 心動的MRI設定におけるRED-PSMの有用性も示す。 Dynamic imaging addresses the recovery of a time-varying 2D or 3D object at each time instant using its undersampled measurements. In particular, in the case of dynamic tomography, only a single projection at a single view angle may be available at a time, making the problem severely ill-posed. In this work, we propose an approach, RED-PSM, which combines for the first time two powerful techniques to address this challenging imaging problem. The first, are partially separable models, which have been used to efficiently introduce a low-rank prior for the spatio-temporal object. The second is the recent \textit{Regularization by Denoising (RED)}, which provides a flexible framework to exploit the impressive performance of state-of-the-art image denoising algorithms, for various inverse problems. We propose a partially separable objective with RED and a computationally efficient and scalable optimization scheme with variable splitting and ADMM. Theoretical analysis proves the convergence of our objective to a value corresponding to a stationary point satisfying the first-order optimality conditions. Convergence is accelerated by a particular projection-domain-based initialization. We demonstrate the performance and computational improvements of our proposed RED-PSM with a learned image denoiser by comparing it to a recent deep-prior-based method known as TD-DIP. Although the main focus is on dynamic tomography, we also show performance advantages of RED-PSM in a cardiac dynamic MRI setting. | 翻訳日:2023-12-21 19:24:50 公開日:2023-12-20 |
# 大規模言語モデルにおける安全性分析:ChatGPTを用いたSTPAの事例 Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT ( http://arxiv.org/abs/2304.01246v3 ) ライセンス: Link先を確認 | Yi Qi, Xingyu Zhao, Siddartha Khastgir, Xiaowei Huang | (参考訳) 安全性分析は大規模言語モデル(llm)を活用できるか?
自動緊急ブレーキ(AEB)と電力需要側管理(DSM)システムに適用されたシステム理論プロセス分析(STPA)をChatGPTを用いて検討する。
協調スキーム,入力意味複雑性,ガイドラインがSTPAの結果に与える影響について検討する。
比較の結果,人間の介入を伴わないChatGPTの使用は信頼性に問題があるため不十分である可能性が示唆された。
入力意味複雑性の変化や共通プロンプトガイドラインの使用には統計的に有意な違いはなく、ドメイン固有のプロンプトエンジニアリングの開発の必要性が示唆されている。
LLMの信頼性に関する懸念や、この領域における標準化と規制の必要性など、今後の課題も強調する。 Can safety analysis make use of Large Language Models (LLMs)? A case study explores Systems Theoretic Process Analysis (STPA) applied to Automatic Emergency Brake (AEB) and Electricity Demand Side Management (DSM) systems using ChatGPT. We investigate how collaboration schemes, input semantic complexity, and prompt guidelines influence STPA results. Comparative results show that using ChatGPT without human intervention may be inadequate due to reliability related issues, but with careful design, it may outperform human experts. No statistically significant differences are found when varying the input semantic complexity or using common prompt guidelines, which suggests the necessity for developing domain-specific prompt engineering. We also highlight future challenges, including concerns about LLM trustworthiness and the necessity for standardisation and regulation in this domain. | 翻訳日:2023-12-21 19:24:26 公開日:2023-12-20 |
# 医用画像解析におけるラベル有効深層学習の課題と今後の方向性 Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions ( http://arxiv.org/abs/2303.12484v4 ) ライセンス: Link先を確認 | Cheng Jin, Zhengrui Guo, Yi Lin, Luyang Luo, Hao Chen | (参考訳) ディープラーニングは近年急速に成長し、幅広いアプリケーションで最先端のパフォーマンスを達成している。
しかし、トレーニングモデルは通常、大量のラベル付きデータの高価で時間を要する。
これは医療画像解析(MIA)の分野において特に当てはまり、データに制限があり、ラベルを取得するのに費用がかかる。
これにより、ラベル付きデータとラベルなしデータと弱いラベル付きデータとを包括的に利用するためのラベル効率の高いディープラーニング手法が開発される。
本調査では,最近300以上の論文を網羅的に調査し,MIAにおけるラベル効率学習戦略の最近の進歩を概観した。
まず,ラベル効率の高い学習の背景を示し,そのアプローチを異なるスキームに分類する。
次に、各スキームを通して現在の最先端手法を詳細に検討する。
具体的には,カノニカルな半教師付き,自己教師付き,マルチインスタンスの学習スキームだけでなく,最近ではアクティブでアノテーション効率のよい学習戦略も紹介する。
さらに, この分野への総合的な貢献として, 調査手法の共通点や特徴を解明するだけでなく, 現状の課題を詳細に分析し, 今後の研究への道のりを示唆する。 Deep learning has seen rapid growth in recent years and achieved state-of-the-art performance in a wide range of applications. However, training models typically requires expensive and time-consuming collection of large quantities of labeled data. This is particularly true within the scope of medical imaging analysis (MIA), where data are limited and labels are expensive to be acquired. Thus, label-efficient deep learning methods are developed to make comprehensive use of the labeled data as well as the abundance of unlabeled and weak-labeled data. In this survey, we extensively investigated over 300 recent papers to provide a comprehensive overview of recent progress on label-efficient learning strategies in MIA. We first present the background of label-efficient learning and categorize the approaches into different schemes. Next, we examine the current state-of-the-art methods in detail through each scheme. Specifically, we provide an in-depth investigation, covering not only canonical semi-supervised, self-supervised, and multi-instance learning schemes, but also recently emerged active and annotation-efficient learning strategies. Moreover, as a comprehensive contribution to the field, this survey not only elucidates the commonalities and unique features of the surveyed methods but also presents a detailed analysis of the current challenges in the field and suggests potential avenues for future research. | 翻訳日:2023-12-21 19:23:48 公開日:2023-12-20 |
# テンソルニューラルネットワークのロバスト一般化を支援する変換低ランクパラメータ化 Transformed Low-Rank Parameterization Can Help Robust Generalization for Tensor Neural Networks ( http://arxiv.org/abs/2303.00196v3 ) ライセンス: Link先を確認 | Andong Wang, Chao Li, Mingyuan Bai, Zhong Jin, Guoxu Zhou, Qibin Zhao | (参考訳) 効率的で堅牢なマルチチャネルデータ学習を実現することは、データサイエンスにおける課題である。
変換領域の低ランク性、すなわち変換低ランク性を活用することで、テンソル特異値分解(t-svd)はマルチチャネルデータ表現において大きな成功を収め、最近ではt-product layer(t-nns)を持つニューラルネットワークなどの関数表現にも拡張されている。
しかし、t-SVDがt-NNの学習行動に理論的にどのような影響を及ぼすかはまだ不明である。
本稿では,標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより,この問題に最初に答える。
完全変換された低ランクパラメータ化によって圧縮されたt-nnはより鋭い逆一般化を実現できる。
実際には、t-NNは正確に低ランクの重みを変換することはめったにないが、我々の分析は、勾配流(GF)を用いた対角訓練により、ReLUアクティベートによる過パラメータ化t-NNは、特定の条件下で変換された低ランクのパラメータ化に向けて暗黙の正規化で訓練されることを示している。
また,t-nnの逆一般化境界を概して低位重みを変換する。
分析の結果,変換された低ランクパラメータ化は,t-NNのロバストな一般化を促進することが示唆された。 Achieving efficient and robust multi-channel data learning is a challenging task in data science. By exploiting low-rankness in the transformed domain, i.e., transformed low-rankness, tensor Singular Value Decomposition (t-SVD) has achieved extensive success in multi-channel data representation and has recently been extended to function representation such as Neural Networks with t-product layers (t-NNs). However, it still remains unclear how t-SVD theoretically affects the learning behavior of t-NNs. This paper is the first to answer this question by deriving the upper bounds of the generalization error of both standard and adversarially trained t-NNs. It reveals that the t-NNs compressed by exact transformed low-rank parameterization can achieve a sharper adversarial generalization bound. In practice, although t-NNs rarely have exactly transformed low-rank weights, our analysis further shows that by adversarial training with gradient flow (GF), the over-parameterized t-NNs with ReLU activations are trained with implicit regularization towards transformed low-rank parameterization under certain conditions. We also establish adversarial generalization bounds for t-NNs with approximately transformed low-rank weights. Our analysis indicates that the transformed low-rank parameterization can promisingly enhance robust generalization for t-NNs. | 翻訳日:2023-12-21 19:22:55 公開日:2023-12-20 |
# 知識ニューロンの中心への旅:言語に依存しない知識ニューロンと変性知識ニューロンの発見 Journey to the Center of the Knowledge Neurons: Discoveries of Language-Independent Knowledge Neurons and Degenerate Knowledge Neurons ( http://arxiv.org/abs/2308.13198v2 ) ライセンス: Link先を確認 | Yuheng Chen, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao | (参考訳) 事前学習された言語モデル(PLM)には膨大な事実知識が含まれているが、その知識がパラメータにどのように格納されているかは未定である。
本稿では,事実知識が多言語plmにどのように格納されているかを理解するための複雑なタスクを考察し,アーキテクチャ適応型多言語統合勾配法を紹介し,知識ニューロンを現在の手法よりも高精度にローカライズし,様々なアーキテクチャや言語にまたがってより普遍的な手法を提案する。
さらに、我々は知識ニューロンの詳細な探索を行い、(1)言語に依存しない知識ニューロンの発見、すなわち、事実知識を言語を超越した形で保存する、という2つの重要な発見につながった。
我々は言語間知識編集実験を設計し、PLMが言語に依存しないニューロンに基づいてこのタスクを達成できることを実証する; (2) 異なる知識ニューロンが同じ事実を記憶できることを示す新しいタイプの神経である変性知識ニューロンの発見。
その機能的重複の性質は PLM に事実知識の堅牢な習得を与える。
我々はファクトチェック実験を設計し、変性した知識ニューロンがPLMが誤った事実を検出するのに役立つことを証明した。
実験はこれらの知見を裏付け、多言語PLMにおける事実的知識記憶のメカニズムに光を当て、この分野に貴重な洞察をもたらした。
コードはhttps://github.com/heng840/amigで入手できる。 Pre-trained language models (PLMs) contain vast amounts of factual knowledge, but how the knowledge is stored in the parameters remains unclear. This paper delves into the complex task of understanding how factual knowledge is stored in multilingual PLMs, and introduces the Architecture-adapted Multilingual Integrated Gradients method, which successfully localizes knowledge neurons more precisely compared to current methods, and is more universal across various architectures and languages. Moreover, we conduct an in-depth exploration of knowledge neurons, leading to the following two important discoveries: (1) The discovery of Language-Independent Knowledge Neurons, which store factual knowledge in a form that transcends language. We design cross-lingual knowledge editing experiments, demonstrating that the PLMs can accomplish this task based on language-independent neurons; (2) The discovery of Degenerate Knowledge Neurons, a novel type of neuron showing that different knowledge neurons can store the same fact. Its property of functional overlap endows the PLMs with a robust mastery of factual knowledge. We design fact-checking experiments, proving that the degenerate knowledge neurons can help the PLMs to detect wrong facts. Experiments corroborate these findings, shedding light on the mechanisms of factual knowledge storage in multilingual PLMs, and contribute valuable insights to the field. The code is available at https://github.com/heng840/AMIG. | 翻訳日:2023-12-21 19:16:59 公開日:2023-12-20 |
# 言語モデルにおける知識編集のリップル効果の評価 Evaluating the Ripple Effects of Knowledge Editing in Language Models ( http://arxiv.org/abs/2307.12976v2 ) ライセンス: Link先を確認 | Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva | (参考訳) 現代の言語モデルは、多くの事実知識を捉えている。
しかし、いくつかの事実は誤って引き起こされたり、時代とともに廃れたりし、結果として実際に誤った世代が生まれることがある。
これは、モデルによってエンコードされた事実を更新できる様々な編集方法の開発につながった。
これらの方法の評価は、主に個々の事実がうまく注入されたかどうか、他の被験者に対する同様の予測が変化していないかどうかをテストすることに焦点が当てられている。
ここでは、ある事実(例えば、Jack Deppはジョニー・デップの息子である)を注入すると、モデルが更新する必要があるという追加の事実(例えば、Jack Deppはリリー・ローズ・デップの兄弟である)の形で「リップル効果」を導入するので、そのような評価は限定的であると主張する。
この問題に対処するため,本稿では,関連する事実に対する編集の影響を考慮した評価基準を新たに提案する。
これらの基準を用いて、5Kの事実編集の診断ベンチマークであるRippleEditsを構築し、様々な種類のリップル効果をキャプチャする。
筆者らはRippleEdits上での顕著な編集手法の評価を行い、現在の手法がモデルの知識に一貫した変化を起こさないことを示す。
さらに, 簡単なテキスト内編集ベースラインがベンチマークで最高のスコアを得られることが分かり, モデル編集に有望な研究方向性が示唆された。 Modern language models capture a large body of factual knowledge. However, some facts can be incorrectly induced or become obsolete over time, resulting in factually incorrect generations. This has led to the development of various editing methods that allow updating facts encoded by the model. Evaluation of these methods has primarily focused on testing whether an individual fact has been successfully injected, and if similar predictions for other subjects have not changed. Here we argue that such evaluation is limited, since injecting one fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple effect'' in the form of additional facts that the model needs to update (e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we propose a novel set of evaluation criteria that consider the implications of an edit on related facts. Using these criteria, we then construct RippleEdits, a diagnostic benchmark of 5K factual edits, capturing a variety of types of ripple effects. We evaluate prominent editing methods on RippleEdits, showing that current methods fail to introduce consistent changes in the model's knowledge. In addition, we find that a simple in-context editing baseline obtains the best scores on our benchmark, suggesting a promising research direction for model editing. | 翻訳日:2023-12-21 19:16:34 公開日:2023-12-20 |
# 深層強化学習における報酬機械抽象化の文脈的事前計画 Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning ( http://arxiv.org/abs/2307.05209v2 ) ライセンス: Link先を確認 | Guy Azran, Mohamad H. Danesh, Stefano V. Albrecht, Sarah Keren | (参考訳) 近年の研究では、深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向が示されている。
未知のタスクに移行する際の学習の迅速化を目的として,現在のタスクを,現在のタスクの報酬やダイナミクスに基づいてサブタスクを誘導する状態マシン抽象化を用いて表現する手法を提案する。
本手法は,現在の抽象状態からの最適遷移の象徴表現をエージェントに与え,それらの遷移を達成するための報酬を与える。
これらの表現はタスク間で共有され、エージェントは以前に遭遇したシンボルや遷移の知識を活用できるため、転送が促進される。
実験結果から, 種々の領域におけるサンプル効率と少数ショット転送の改善が示された。 Recent studies show that deep reinforcement learning (DRL) agents tend to overfit to the task on which they were trained and fail to adapt to minor environment changes. To expedite learning when transferring to unseen tasks, we propose a novel approach to representing the current task using reward machines (RMs), state machine abstractions that induce subtasks based on the current task's rewards and dynamics. Our method provides agents with symbolic representations of optimal transitions from their current abstract state and rewards them for achieving these transitions. These representations are shared across tasks, allowing agents to exploit knowledge of previously encountered symbols and transitions, thus enhancing transfer. Empirical results show that our representations improve sample efficiency and few-shot transfer in a variety of domains. | 翻訳日:2023-12-21 19:15:45 公開日:2023-12-20 |
# PyPIにおけるディープラーニングパッケージ・サプライ・チェーンの特徴:ドメイン、クラスタ、ディスエンジメント Characterizing Deep Learning Package Supply Chains in PyPI: Domains, Clusters, and Disengagement ( http://arxiv.org/abs/2306.16307v2 ) ライセンス: Link先を確認 | Kai Gao, Runzhi He, Bing Xie, Minghui Zhou | (参考訳) ディープラーニング(DL)パッケージサプライチェーン(SC)は、DLフレームワークが競争力を維持するために不可欠である。
しかし、DLパッケージSCの性質に関する重要な知識はいまだに欠如している。
本稿では,この知識ギャップを埋めるため,2つの代表的なpypi dlパッケージscsにおいて,パッケージのドメイン,クラスタ,および解除について検討する。
約600万のPyPIパッケージディストリビューションのメタデータを分析し、人気のある2つのDLフレームワークであるTensorFlowとPyTorchのバージョンセンシティブなSCを構築します。
その結果,2つのSCは8つのカテゴリに属する34のドメインをカバーしている(月間ダウンロード数で測る)。
アプリケーション、インフラストラクチャ、科学のカテゴリはそれぞれ、SCとTensorFlowの人気のあるパッケージの85%以上を占めており、PyTorch SCはそれぞれ、インフラストラクチャとアプリケーションのパッケージに特化している。
我々は、Leidenコミュニティ検出アルゴリズムを用いて、2つのSCの131と100のクラスタを検出する。
クラスタは、主にアロー、スター、ツリー、フォレストという4つの形状を示し、依存関係の複雑さが増す。
ほとんどのクラスタはArrowまたはStarだが、TreeとForestのクラスタがほとんどのパッケージ(Tensorflow SC:70%、PyTorch SC:90%)を担っている。
パッケージがSCから切り離された3つの理由(すなわち、DLフレームワークとその依存物がインストール依存から削除される)、すなわち依存性の問題、機能改善、インストールの容易さの3つのグループを特定します。
2つのSCの最も一般的な解離原因は異なる。
本研究は,PyPI DL SCのメンテナンスと依存性管理の実践に深く影響している。 Deep learning (DL) package supply chains (SCs) are critical for DL frameworks to remain competitive. However, vital knowledge on the nature of DL package SCs is still lacking. In this paper, we explore the domains, clusters, and disengagement of packages in two representative PyPI DL package SCs to bridge this knowledge gap. We analyze the metadata of nearly six million PyPI package distributions and construct version-sensitive SCs for two popular DL frameworks: TensorFlow and PyTorch. We find that popular packages (measured by the number of monthly downloads) in the two SCs cover 34 domains belonging to eight categories. Applications, Infrastructure, and Sciences categories account for over 85% of popular packages in either SC and TensorFlow and PyTorch SC have developed specializations on Infrastructure and Applications packages respectively. We employ the Leiden community detection algorithm and detect 131 and 100 clusters in the two SCs. The clusters mainly exhibit four shapes: Arrow, Star, Tree, and Forest with increasing dependency complexity. Most clusters are Arrow or Star, but Tree and Forest clusters account for most packages (Tensorflow SC: 70%, PyTorch SC: 90%). We identify three groups of reasons why packages disengage from the SC (i.e., remove the DL framework and its dependents from their installation dependencies): dependency issues, functional improvements, and ease of installation. The most common disengagement reason in the two SCs are different. Our study provides rich implications on the maintenance and dependency management practices of PyPI DL SCs. | 翻訳日:2023-12-21 19:15:29 公開日:2023-12-20 |
# 自然視覚シーンに対する神経反応の時間的コンディショニングスパイク潜在変数モデル Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes ( http://arxiv.org/abs/2306.12045v6 ) ライセンス: Link先を確認 | Gehua Ma, Runhao Jiang, Rui Yan, Huajin Tang | (参考訳) 神経応答の計算モデルの開発は、感覚処理と神経計算を理解する上で重要である。
現在の最先端のニューラルネットワーク手法は、時間的依存関係を処理するために時間的フィルタを使用し、非現実的で柔軟な処理パラダイムをもたらす。
一方、これらの方法は試験的な平均射撃率を目標とし、スパイク列車の重要な特徴を捉えられなかった。
本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。
我々はスパイキングニューロンを用いて、記録された列車と直接一致するスパイク出力を生成する。
このアプローチは、オリジナルのスパイク列車に埋め込まれた情報を失うのを避けるのに役立つ。
モデルパラメータ空間から時間次元を除外し、時間条件付き操作を導入し、モデルが自然パラダイムにおける刺激配列の時間依存性を適応的に探索し活用できるようにする。
tecos-lvmモデルはより現実的なスパイクアクティビティを生成でき、強力な代替品よりもスパイク統計に正確に適合する。
さらに、学習したTeCoS-LVMモデルは、より長い時間スケールでうまく一般化することができる。
全体として、計算可能でありながら、我々のモデルは、ニューラルネットワークシステムの重要な特徴を効果的に捉えている。
これにより、様々な知覚知覚回路の正確な予測計算アカウントを構築するための有用なツールを提供する。 Developing computational models of neural response is crucial for understanding sensory processing and neural computations. Current state-of-the-art neural network methods use temporal filters to handle temporal dependencies, resulting in an unrealistic and inflexible processing paradigm. Meanwhile, these methods target trial-averaged firing rates and fail to capture important features in spike trains. This work presents the temporal conditioning spiking latent variable models (TeCoS-LVM) to simulate the neural response to natural visual stimuli. We use spiking neurons to produce spike outputs that directly match the recorded trains. This approach helps to avoid losing information embedded in the original spike trains. We exclude the temporal dimension from the model parameter space and introduce a temporal conditioning operation to allow the model to adaptively explore and exploit temporal dependencies in stimuli sequences in a {\it natural paradigm}. We show that TeCoS-LVM models can produce more realistic spike activities and accurately fit spike statistics than powerful alternatives. Additionally, learned TeCoS-LVM models can generalize well to longer time scales. Overall, while remaining computationally tractable, our model effectively captures key features of neural coding systems. It thus provides a useful tool for building accurate predictive computational accounts for various sensory perception circuits. | 翻訳日:2023-12-21 19:15:00 公開日:2023-12-20 |
# prompt sapper:aiチェーン構築のためのllm組み込み生産ツール Prompt Sapper: A LLM-Empowered Production Tool for Building AI Chains ( http://arxiv.org/abs/2306.12028v2 ) ライセンス: Link先を確認 | Yu Cheng, Jieshan Chen, Qing Huang, Zhenchang Xing, Xiwei Xu and Qinghua Lu | (参考訳) 大規模言語モデル(LLM) GPT-4 やテキスト・ツー・イメージモデル DALL-E といった基礎モデルの出現は、様々な領域に可能性を広げている。
自然言語(即ちプロンプト)を使ってAIとコミュニケーションしてタスクを実行できるようになった。
チャットボット(例えばChatGPT)を通じて基礎モデルを使用できるが、基礎となるモデルの能力に関係なく、チャットは再利用可能なAIサービスを構築するための生産ツールではない。
LangChainのようなAPIは、LLMベースのアプリケーション開発を可能にするが、かなりのプログラミング知識を必要とするため、障壁となる。
これを緩和するために、AIチェーンの概念を提案し、AIチェーンエンジニアリング方法論を体系化するために、ソフトウェア工学で何十年にもわたって蓄積されてきたベストプラクティスとプラクティスを導入します。
また、AIチェーンの構築プロセスにおいて、これらのAIチェーンのエンジニアリング原則とパターンを自然に具現化したコード統合開発環境であるPrompt Sapperを開発し、AIチェーンのパフォーマンスと品質を改善します。
Prompt Sapperを使用することで、AIチェーンエンジニアは、チャットベースの要求分析とビジュアルプログラミングを通じて、基礎モデルの上にプロンプトベースのAIサービスを構成できる。
本研究は,Prompt Sapperの有効性と妥当性について検討した。 The emergence of foundation models, such as large language models (LLMs) GPT-4 and text-to-image models DALL-E, has opened up numerous possibilities across various domains. People can now use natural language (i.e. prompts) to communicate with AI to perform tasks. While people can use foundation models through chatbots (e.g., ChatGPT), chat, regardless of the capabilities of the underlying models, is not a production tool for building reusable AI services. APIs like LangChain allow for LLM-based application development but require substantial programming knowledge, thus posing a barrier. To mitigate this, we propose the concept of AI chain and introduce the best principles and practices that have been accumulated in software engineering for decades into AI chain engineering, to systematise AI chain engineering methodology. We also develop a no-code integrated development environment, Prompt Sapper, which embodies these AI chain engineering principles and patterns naturally in the process of building AI chains, thereby improving the performance and quality of AI chains. With Prompt Sapper, AI chain engineers can compose prompt-based AI services on top of foundation models through chat-based requirement analysis and visual programming. Our user study evaluated and demonstrated the efficiency and correctness of Prompt Sapper. | 翻訳日:2023-12-21 19:14:40 公開日:2023-12-20 |
# 関係推論に先立つグラフダイナミクス A Graph Dynamics Prior for Relational Inference ( http://arxiv.org/abs/2306.06041v2 ) ライセンス: Link先を確認 | Liming Pan, Cheng Shi, Ivan Dokmani\'c | (参考訳) 関係推論は、観測されたダイナミクスから力学系の一部間の相互作用を識別することを目的としている。
現在の最先端手法は、学習可能なグラフ上のグラフニューラルネットワーク(GNN)に適合する。
マルチステップやスペクトルGNNの非局所性が直接的および間接的相互作用を混乱させる可能性があるため、直感的には正しい選択である。
しかし、textit{ Effective} 相互作用グラフはサンプリング率に依存しており、直接隣人に局所化されることは滅多になく、一段階モデルに対する局所最適化は不十分である。
本稿では,関係推論のための<textit{graph dynamics prior} (GDP)を提案する。
GDPは、非局所多項式フィルタの誤差増幅を用いて、基底トラスグラフの解を操る。
非特異性に対処するため、GDPは共有グラフトポロジーを持つ ``shallow'' ワンステップモデルと多項式多段階モデルとを同時に適合させる。
実験の結果、GDPは従来の方法よりもはるかに正確にグラフを再構築し、アンダーサンプリングに対する顕著な堅牢性を示している。
未知の力学系に対する適切なサンプリング率は事前には分かっていないため、この堅牢性によりgdpは科学的機械学習の実際の応用に適している。
reproducible codeはhttps://github.com/dadacheng/gdpで入手できる。 Relational inference aims to identify interactions between parts of a dynamical system from the observed dynamics. Current state-of-the-art methods fit the dynamics with a graph neural network (GNN) on a learnable graph. They use one-step message-passing GNNs -- intuitively the right choice since non-locality of multi-step or spectral GNNs may confuse direct and indirect interactions. But the \textit{effective} interaction graph depends on the sampling rate and it is rarely localized to direct neighbors, leading to poor local optima for the one-step model. In this work, we propose a \textit{graph dynamics prior} (GDP) for relational inference. GDP constructively uses error amplification in non-local polynomial filters to steer the solution to the ground-truth graph. To deal with non-uniqueness, GDP simultaneously fits a ``shallow'' one-step model and a polynomial multi-step model with shared graph topology. Experiments show that GDP reconstructs graphs far more accurately than earlier methods, with remarkable robustness to under-sampling. Since appropriate sampling rates for unknown dynamical systems are not known a priori, this robustness makes GDP suitable for real applications in scientific machine learning. Reproducible code is available at https://github.com/DaDaCheng/GDP. | 翻訳日:2023-12-21 19:13:47 公開日:2023-12-20 |
# 政策学習における異種治療効果の公平かつロバストな推定 Fair and Robust Estimation of Heterogeneous Treatment Effects for Policy Learning ( http://arxiv.org/abs/2306.03625v2 ) ライセンス: Link先を確認 | Kwangho Kim and Jos\'e R. Zubizarreta | (参考訳) フェアネス制約下での不均一な処理効果の非パラメトリック推定のための簡易かつ一般的なフレームワークを提案する。
標準正規性条件下では、得られた推定器が二重ロバスト性特性を持つことを示す。
我々は,この枠組みを用いて,公平性と最大福祉のトレードオフを最適政策によって特徴づける。
本研究はシミュレーション研究における手法の評価と実世界のケーススタディにおける評価である。 We propose a simple and general framework for nonparametric estimation of heterogeneous treatment effects under fairness constraints. Under standard regularity conditions, we show that the resulting estimators possess the double robustness property. We use this framework to characterize the trade-off between fairness and the maximum welfare achievable by the optimal policy. We evaluate the methods in a simulation study and illustrate them in a real-world case study. | 翻訳日:2023-12-21 19:13:28 公開日:2023-12-20 |
# 共分散適応型ベストアーム同定 Covariance Adaptive Best Arm Identification ( http://arxiv.org/abs/2306.02630v2 ) ライセンス: Link先を確認 | El Mehdi Saad (CentraleSup\'el\'ec), Gilles Blanchard (LMO, DATASHAPE), Nicolas Verzelen (MISTEA) | (参考訳) 我々は、固定信頼の下で、マルチアームバンディットモデルにおける最適な腕識別の問題を考える。
信頼度$\delta$が与えられた場合、ゴールは、腕のプル数を最小化しながら、少なくとも1-$\delta$の確率で、最も高い平均報酬を持つ腕を特定することである。
独立アーム分布を仮定して,この問題に対する文献は解決するが,本論文では,アームが依存し,報酬が同時にサンプリングできる,より柔軟なシナリオを提案する。
この枠組みにより、学習者は腕の分布の共分散を推定でき、最良の腕をより効率的に識別することができる。
本研究は,患者と薬剤の類似性から,その結果の相関関係が示唆される臨床試験など,様々な応用に関係している。
我々は、未知の腕の共分散に適応する新しいアルゴリズムを導入し、理論的な保証を通じて、標準設定よりも大幅に改善できることを示す。
さらに、緩和された設定に対する新しい下限と、それらの理論的結果を支持する数値シミュレーションを提案する。 We consider the problem of best arm identification in the multi-armed bandit model, under fixed confidence. Given a confidence input $\delta$, the goal is to identify the arm with the highest mean reward with a probability of at least 1 -- $\delta$, while minimizing the number of arm pulls. While the literature provides solutions to this problem under the assumption of independent arms distributions, we propose a more flexible scenario where arms can be dependent and rewards can be sampled simultaneously. This framework allows the learner to estimate the covariance among the arms distributions, enabling a more efficient identification of the best arm. The relaxed setting we propose is relevant in various applications, such as clinical trials, where similarities between patients or drugs suggest underlying correlations in the outcomes. We introduce new algorithms that adapt to the unknown covariance of the arms and demonstrate through theoretical guarantees that substantial improvement can be achieved over the standard setting. Additionally, we provide new lower bounds for the relaxed setting and present numerical simulations that support their theoretical findings. | 翻訳日:2023-12-21 19:13:22 公開日:2023-12-20 |
# セッションベースレコメンデーションのための自己コントラスト学習 Self Contrastive Learning for Session-based Recommendation ( http://arxiv.org/abs/2306.01266v2 ) ライセンス: Link先を確認 | Zhengxiang Shi, Xi Wang, Aldo Lipani | (参考訳) セッションベースレコメンデーションは,既存の項目のシーケンス間相互作用に従って,ユーザの関心の次の項目を予測することを目的として,ユーザと項目表現の改善を伴うコントラッシブラーニング(CL)の応用が増加している。
しかし、これらの対照的な目的は、(1)アイテム表現空間の最適化を無視しながら、クロスエントロピー損失としての役割を果たすこと、(2)複雑な正負のサンプル構成や追加のデータ拡張を含む複雑なモデリングを必要とすることである。
本研究では,CLの応用を簡略化し,最先端のCLベースレコメンデーション技術の性能を向上させるセルフコントラシブラーニング(SCL)を提案する。
具体的には、SCLは、アイテム表現間の一様分布を直接促進し、最先端モデルの既存のコントラスト的対象成分を効率的に置き換える目的関数として定式化される。
以前の研究とは異なり、SCLは正・負のサンプル構築やデータ拡張の必要性を排除し、アイテム表現空間の解釈性を高め、既存の推奨システムへの拡張を容易にする。
3つのベンチマークデータセットの実験を通して、SCLは統計的に有意な最先端モデルの性能を一貫して改善することを示した。
特に,SCLはP@10で8.2%,P@10で9.5%,MRR@10で9.9%,MRR@10で11.2%,それぞれ異なるベンチマークで平均8.2%向上した。
また,本解析により,表現のアライメントや一様性,計算コストの低さによるsclの有効性について検討した。 Session-based recommendation, which aims to predict the next item of users' interest as per an existing sequence interaction of items, has attracted growing applications of Contrastive Learning (CL) with improved user and item representations. However, these contrastive objectives: (1) serve a similar role as the cross-entropy loss while ignoring the item representation space optimisation; and (2) commonly require complicated modelling, including complex positive/negative sample constructions and extra data augmentation. In this work, we introduce Self-Contrastive Learning (SCL), which simplifies the application of CL and enhances the performance of state-of-the-art CL-based recommendation techniques. Specifically, SCL is formulated as an objective function that directly promotes a uniform distribution among item representations and efficiently replaces all the existing contrastive objective components of state-of-the-art models. Unlike previous works, SCL eliminates the need for any positive/negative sample construction or data augmentation, leading to enhanced interpretability of the item representation space and facilitating its extensibility to existing recommender systems. Through experiments on three benchmark datasets, we demonstrate that SCL consistently improves the performance of state-of-the-art models with statistical significance. Notably, our experiments show that SCL improves the performance of two best-performing models by 8.2% and 9.5% in P@10 (Precision) and 9.9% and 11.2% in MRR@10 (Mean Reciprocal Rank) on average across different benchmarks. Additionally, our analysis elucidates the improvement in terms of alignment and uniformity of representations, as well as the effectiveness of SCL with a low computational cost. | 翻訳日:2023-12-21 19:12:44 公開日:2023-12-20 |
# MADiff:拡散モデルを用いたオフラインマルチエージェント学習 MADiff: Offline Multi-agent Learning with Diffusion Models ( http://arxiv.org/abs/2305.17330v3 ) ライセンス: Link先を確認 | Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang | (参考訳) 拡散モデル (DM) は, オフライン強化学習を含む様々なシナリオにおいて, オンライン評価の軌跡を生かし, 計画の実施を学んでいる。
しかしながら、単一エージェント学習の有効性は示されているものの、エージェントが各エージェントの軌道を独立にモデル化することで、適切な調整なしにチームワークを完了できないマルチエージェント問題において、dmがどのように機能するかは、まだ不明である。
本稿では,この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
MADiffは注意に基づく拡散モデルを用いて実現され、複数の拡散剤の挙動間の複雑な協調をモデル化する。
私たちの知る限りでは、MADiffは分散ベースの最初のマルチエージェントオフラインRLフレームワークであり、分散ポリシーと集中型コントローラの両方として振る舞う。
分散実行中、MADiffは同時にチームメイトモデリングを行い、集中型コントローラはマルチエージェントの軌道予測にも適用できる。
本実験は,MADiffの複雑なマルチエージェントインタラクションをモデル化する上でのMADiffの有効性を強調した,多エージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
私たちのコードはhttps://github.com/zbzhu99/madiffで利用可能です。 Diffusion model (DM), as a powerful generative model, recently achieved huge success in various scenarios including offline reinforcement learning, where the policy learns to conduct planning by generating trajectory in the online evaluation. However, despite the effectiveness shown for single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent's trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple diffusion agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent offline RL framework, which behaves as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a wide range of multi-agent learning tasks, which emphasizes the effectiveness of MADiff in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff. | 翻訳日:2023-12-21 19:11:45 公開日:2023-12-20 |
# IndicTrans2:22言語すべてを対象とした高品質・アクセシブル機械翻訳モデル IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages ( http://arxiv.org/abs/2305.16307v3 ) ライセンス: Link先を確認 | Jay Gala and Pranjal A. Chitale and Raghavan AK and Varun Gumma and Sumanth Doddapaneni and Aswanth Kumar and Janki Nawale and Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar and Mitesh M. Khapra and Raj Dabre and Anoop Kunchukuttan | (参考訳) インドは10億人を超える人々が話す4つの主要な言語ファミリーの言語を持つ豊かな言語環境を持っている。
これらの言語のうち22言語はインド憲法(予定言語)に記載されており、この研究の焦点となっている。
言語の多様性を考えると、インドのような国では高品質でアクセスしやすい機械翻訳(mt)システムが不可欠である。
この作業の前には、
(i)22言語にまたがる並列トレーニングデータはない。
(ii)これらの言語をすべてカバーし、インドに関連する内容を含む堅牢なベンチマークは存在せず、
(3)インドの22の予定言語すべてをサポートする既存の翻訳モデルはない。
本研究は,22言語すべてを対象とした機械翻訳システムへの,広範かつ容易かつオープンなアクセスを可能にするために必要な欠片に着目して,このギャップに対処することを目的とする。
より大きなトレーニングデータセットのキュレーションと作成、多様で高品質なベンチマークの作成、多言語モデルのトレーニング、オープンアクセスモデルのリリースの4つです。
bharat parallel corpus collection (bpcc) は、indic 言語で利用可能な最大のパラレルコーパスである。
bpccには合計230mのバイテキストペアが含まれており、そのうち644kの手動翻訳文ペアを含む合計116mが新たに追加された。
第2のコントリビューションは、さまざまなドメイン、インドオリジンコンテンツ、ソース元のテストセットを特徴とする、22言語すべてをカバーする最初のn-way並列ベンチマークのリリースです。
次に、22言語すべてをサポートする最初のモデルであるIndicTrans2を紹介します。
最後に、アクセシビリティとコラボレーションを促進するために、我々のモデルと関連するデータをhttps://github.com/AI4Bharat/IndicTrans2でパーミッシブライセンスでリリースします。 India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at https://github.com/AI4Bharat/IndicTrans2. | 翻訳日:2023-12-21 19:11:21 公開日:2023-12-20 |
# mcc-kd:マルチcot一貫性のある知識蒸留 MCC-KD: Multi-CoT Consistent Knowledge Distillation ( http://arxiv.org/abs/2310.14747v3 ) ライセンス: Link先を確認 | Hongzhan Chen, Siyue Wu, Xiaojun Quan, Rui Wang, Ming Yan, Ji Zhang | (参考訳) 大規模言語モデル(LLM)は、思考の連鎖(CoT)による複雑な推論において顕著な能力を示した。
近年,LLMから小型モデルへの推論能力の移転への関心が高まっている。
しかし、合理化における多様性と一貫性の両立は困難である。
本稿では,これらの2つの側面の強化に焦点をあて,その推論能力の効率向上を図るために,MCC-KD(Multi-CoT Consistent Knowledge Distillation)を提案する。
MCC-KDでは,各質問に対して複数の有理数を生成し,回答分布間の双方向KL分割を最小化することにより,対応する予測間の一貫性を強制する。
本研究では,様々なモデルアーキテクチャ (LLaMA/FlanT5) と様々なモデルスケール (3B/7B/11B/13B) によるMCC-KDの有効性について検討した。
実験の結果は、MCC-KDの分布内データセットにおける優れた性能を確認するだけでなく、分布外データセットに対する堅牢な一般化能力を強調している。 Large language models (LLMs) have showcased remarkable capabilities in complex reasoning through chain of thought (CoT) prompting. Recently, there has been a growing interest in transferring these reasoning abilities from LLMs to smaller models. However, achieving both the diversity and consistency in rationales presents a challenge. In this paper, we focus on enhancing these two aspects and propose Multi-CoT Consistent Knowledge Distillation (MCC-KD) to efficiently distill the reasoning capabilities. In MCC-KD, we generate multiple rationales for each question and enforce consistency among the corresponding predictions by minimizing the bidirectional KL-divergence between the answer distributions. We investigate the effectiveness of MCC-KD with different model architectures (LLaMA/FlanT5) and various model scales (3B/7B/11B/13B) on both mathematical reasoning and commonsense reasoning benchmarks. The empirical results not only confirm MCC-KD's superior performance on in-distribution datasets but also highlight its robust generalization ability on out-of-distribution datasets. | 翻訳日:2023-12-21 19:04:15 公開日:2023-12-20 |
# オンラインrl in linearly $q^\pi$-realizable mdps if you learn what to ignore. (英語) Online RL in Linearly $q^\pi$-Realizable MDPs Is as Easy as in Linear MDPs If You Learn What to Ignore ( http://arxiv.org/abs/2310.07811v2 ) ライセンス: Link先を確認 | Gell\'ert Weisz and Andr\'as Gy\"orgy and Csaba Szepesv\'ari | (参考訳) オンライン強化学習 (rl) は, 線形$q^\pi$-実現可能性仮定の下でのマルコフ決定過程 (mdps) において, 全てのポリシーの動作値が状態動作特徴の線形関数として表現できると仮定する。
このクラスは線型 MDP よりも一般であることが知られており、遷移核と報酬関数は特徴ベクトルの線型函数であると仮定される。
最初の貢献として、2つのクラスの違いは、すべてのアクションがほぼ等しい値を持つ線形$q^\pi$-実現可能なmdpにおける状態の存在を示し、これらの状態における任意に固定されたポリシーに従うことで、問題を線形mdpに変換する。
この結果をもとに,線形に$q^\pi$-realizable MDPを学習する新しい学習アルゴリズムを考案し,その問題に隠れた線形MDP上で,どの状態をスキップすべきかを同時に学習し,別の学習アルゴリズムを実行する。
このメソッドは、$\text{polylog}(H, d)/\epsilon^2$ と MDP との相互作用の後、$\epsilon$-optimal policy を返す。
誤特定の場合、サンプルの複雑さは、誤特定エラーによって優雅に劣化することが示される。 We consider online reinforcement learning (RL) in episodic Markov decision processes (MDPs) under the linear $q^\pi$-realizability assumption, where it is assumed that the action-values of all policies can be expressed as linear functions of state-action features. This class is known to be more general than linear MDPs, where the transition kernel and the reward function are assumed to be linear functions of the feature vectors. As our first contribution, we show that the difference between the two classes is the presence of states in linearly $q^\pi$-realizable MDPs where for any policy, all the actions have approximately equal values, and skipping over these states by following an arbitrarily fixed policy in those states transforms the problem to a linear MDP. Based on this observation, we derive a novel (computationally inefficient) learning algorithm for linearly $q^\pi$-realizable MDPs that simultaneously learns what states should be skipped over and runs another learning algorithm on the linear MDP hidden in the problem. The method returns an $\epsilon$-optimal policy after $\text{polylog}(H, d)/\epsilon^2$ interactions with the MDP, where $H$ is the time horizon and $d$ is the dimension of the feature vectors, giving the first polynomial-sample-complexity online RL algorithm for this setting. The results are proved for the misspecified case, where the sample complexity is shown to degrade gracefully with the misspecification error. | 翻訳日:2023-12-21 19:03:53 公開日:2023-12-20 |
# 大規模言語モデルによるデジタルヘルスインタフェースの再定義 Redefining Digital Health Interfaces with Large Language Models ( http://arxiv.org/abs/2310.03560v2 ) ライセンス: Link先を確認 | Fergus Imrie, Paulius Rauba, Mihaela van der Schaar | (参考訳) デジタルヘルスツールは、医療サービスのデリバリーを大幅に改善する可能性がある。
しかし、ユーザビリティと信頼に関わる課題があるため、その採用は比較的限定されている。
近年,大規模言語モデル(llm)が,複雑な情報を処理し,質の高いテキストを生成する汎用モデルとして登場し,医療分野に豊富な応用可能性を示している。
LLMを臨床環境で直接適用することは簡単ではない。
臨床医とデジタル技術との新たなインターフェースを提供するために,LCMベースのシステムが外部ツールを利用する方法について述べる。
これにより、幻覚などの臨床設定でllmを使用する現在の問題に対処すると同時に、デジタルヘルスケアツールやaiモデルの実用性と実用性が向上する。
心血管疾患や糖尿病のリスク予測を例に LLM ベースのインターフェースを解説し,デジタルツールの従来のインターフェースと比較して,そのメリットを強調した。 Digital health tools have the potential to significantly improve the delivery of healthcare services. However, their adoption remains comparatively limited due, in part, to challenges surrounding usability and trust. Recently, Large Language Models (LLMs) have emerged as general-purpose models with the ability to process complex information and produce human-quality text, presenting a wealth of potential applications in healthcare. Directly applying LLMs in clinical settings is not straightforward, with LLMs susceptible to providing inconsistent or nonsensical answers. We describe how LLM-based systems can utilize external tools to provide a novel interface between clinicians and digital technologies. This enhances the utility and practical impact of digital healthcare tools and AI models while addressing current issues with using LLM in clinical settings such as hallucinations. We illustrate LLM-based interfaces with examples from cardiovascular disease and diabetes risk prediction, highlighting the benefit compared to traditional interfaces for digital tools. | 翻訳日:2023-12-21 19:03:05 公開日:2023-12-20 |
# 生命科学のための知識グラフ--最近の発展、挑戦、機会 Knowledge Graphs for the Life Sciences: Recent Developments, Challenges and Opportunities ( http://arxiv.org/abs/2309.17255v4 ) ライセンス: Link先を確認 | Jiaoyan Chen, Hang Dong, Janna Hastings, Ernesto Jim\'enez-Ruiz, Vanessa L\'opez, Pierre Monnin, Catia Pesquita, Petr \v{S}koda, Valentina Tamma | (参考訳) 生命科学という用語は、生物と生命の過程を研究する分野であり、化学、生物学、医学、その他の関連する分野を含む。
生命科学の研究は、膨大な量の科学データを生産し消費するため、データ駆動であり、その多くが本質的に関係性があり、グラフ構造である。
データ量と科学的な概念と関係の複雑さは、データの管理と解釈に先進的な知識駆動技術の適用を促進し、科学的な発見を促進するための究極の目的である。
本稿では,生命科学におけるグラフ技術の利用の最近の進展と進歩について論じ,これらの技術が将来,これらの分野にどのように影響するかを展望する。
我々は、知識グラフ(KG)の構築と管理、新しい知識の発見におけるKGとその関連技術の使用、説明(説明可能なAI)をサポートする人工知能アプリケーションにおけるKGの使用の3つの幅広いトピックに焦点を当てる。
各トピックの例を挙げるユースケースをいくつか選択し、これらのトピックにおける課題とオープンリサーチの質問について議論し、今後の研究の指針として、包括的な課題とその潜在的な解決策をまとめる視点と展望をまとめます。 The term life sciences refers to the disciplines that study living organisms and life processes, and include chemistry, biology, medicine, and a range of other related disciplines. Research efforts in life sciences are heavily data-driven, as they produce and consume vast amounts of scientific data, much of which is intrinsically relational and graph-structured. The volume of data and the complexity of scientific concepts and relations referred to therein promote the application of advanced knowledge-driven technologies for managing and interpreting data, with the ultimate aim to advance scientific discovery. In this survey and position paper, we discuss recent developments and advances in the use of graph-based technologies in life sciences and set out a vision for how these technologies will impact these fields into the future. We focus on three broad topics: the construction and management of Knowledge Graphs (KGs), the use of KGs and associated technologies in the discovery of new knowledge, and the use of KGs in artificial intelligence applications to support explanations (explainable AI). We select a few exemplary use cases for each topic, discuss the challenges and open research questions within these topics, and conclude with a perspective and outlook that summarizes the overarching challenges and their potential solutions as a guide for future research. | 翻訳日:2023-12-21 19:02:48 公開日:2023-12-20 |
# maptree:ベイズ決定木で"最適"決定木を破る MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees ( http://arxiv.org/abs/2309.15312v3 ) ライセンス: Link先を確認 | Colin Sullivan, Mo Tiwari, Sebastian Thrun | (参考訳) 決定木は今日でも最も人気のある機械学習モデルの1つであり、その主な原因は、アウト・オブ・ボックスのパフォーマンスと解釈性にある。
本研究では,木上の後方分布の最大後方推定による決定木誘導に対するベイズ的アプローチを提案する。
まず,決定木の最大後方推定とAND/OR探索の関連性を示す。
この接続を用いて,MAPTree と呼ばれる最大木を復元できるAND/OR探索アルゴリズムを提案する。
最後に, 合成データと実世界環境の両方において, 最大後葉樹の実証的性能を実証した。
16の実世界のデータセットでは、MAPTreeはベースラインを上回るか、同等のパフォーマンスを示すが、ツリーははるかに小さい。
合成データセット上では、MAPTreeは既存のアプローチよりもノイズに対する堅牢性とより優れた一般化を示す。
最後に、MAPTreeは、既存のサンプリング手法よりも早く、最大木を復元し、それらのアルゴリズムとは対照的に、最適な証明を提供することができる。
実験のコードはhttps://github.com/ThrunGroup/maptree.orgで公開されている。 Decision trees remain one of the most popular machine learning models today, largely due to their out-of-the-box performance and interpretability. In this work, we present a Bayesian approach to decision tree induction via maximum a posteriori inference of a posterior distribution over trees. We first demonstrate a connection between maximum a posteriori inference of decision trees and AND/OR search. Using this connection, we propose an AND/OR search algorithm, dubbed MAPTree, which is able to recover the maximum a posteriori tree. Lastly, we demonstrate the empirical performance of the maximum a posteriori tree both on synthetic data and in real world settings. On 16 real world datasets, MAPTree either outperforms baselines or demonstrates comparable performance but with much smaller trees. On a synthetic dataset, MAPTree also demonstrates greater robustness to noise and better generalization than existing approaches. Finally, MAPTree recovers the maxiumum a posteriori tree faster than existing sampling approaches and, in contrast with those algorithms, is able to provide a certificate of optimality. The code for our experiments is available at https://github.com/ThrunGroup/maptree. | 翻訳日:2023-12-21 19:02:26 公開日:2023-12-20 |
# 検索型生成における大規模言語モデルのベンチマーク Benchmarking Large Language Models in Retrieval-Augmented Generation ( http://arxiv.org/abs/2309.01431v2 ) ライセンス: Link先を確認 | Jiawei Chen, Hongyu Lin, Xianpei Han, Le Sun | (参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の幻覚を緩和するための有望なアプローチである。
しかし、既存の研究では、検索強化生成が異なる大言語モデルに与える影響を厳格に評価することはなく、異なるLLMに対するRAGの能力の潜在的なボトルネックを特定することは困難である。
本稿では,大規模言語モデルに対するRetrieval-Augmented Generationの効果を体系的に検討する。
本稿では,RAGに必要な4つの基本能力,雑音の頑健性,否定的拒絶性,情報統合,対実的堅牢性など,異なる大規模言語モデルの性能を解析する。
この目的のために、我々はRGB(Retrieval-Augmented Generation Benchmark)を設立し、RAG評価のための新しいコーパスを英語と中国語の両方で提供する。
RGBは、上記のケースを解決するために必要な基本的な能力に基づいて、ベンチマーク内のインスタンスを4つのテストベッドに分割する。
RGB 上の 6 つの代表 LLM を評価し,RAG を適用する際の現在の LLM の課題を診断する。
評価の結果、LLMはある程度のノイズ堅牢性を示すが、否定的な拒絶、情報統合、偽情報処理といった面では依然としてかなり苦労していることが明らかとなった。
以上の評価結果は、RAGをLCMに効果的に適用するには、まだかなりの道程があることを示している。 Retrieval-Augmented Generation (RAG) is a promising approach for mitigating the hallucination of large language models (LLMs). However, existing research lacks rigorous evaluation of the impact of retrieval-augmented generation on different large language models, which make it challenging to identify the potential bottlenecks in the capabilities of RAG for different LLMs. In this paper, we systematically investigate the impact of Retrieval-Augmented Generation on large language models. We analyze the performance of different large language models in 4 fundamental abilities required for RAG, including noise robustness, negative rejection, information integration, and counterfactual robustness. To this end, we establish Retrieval-Augmented Generation Benchmark (RGB), a new corpus for RAG evaluation in both English and Chinese. RGB divides the instances within the benchmark into 4 separate testbeds based on the aforementioned fundamental abilities required to resolve the case. Then we evaluate 6 representative LLMs on RGB to diagnose the challenges of current LLMs when applying RAG. Evaluation reveals that while LLMs exhibit a certain degree of noise robustness, they still struggle significantly in terms of negative rejection, information integration, and dealing with false information. The aforementioned assessment outcomes indicate that there is still a considerable journey ahead to effectively apply RAG to LLMs. | 翻訳日:2023-12-21 19:01:40 公開日:2023-12-20 |
# 計算研究における再現性を高めるためのソフトウェアプロヴァンス管理 Managing Software Provenance to Enhance Reproducibility in Computational Research ( http://arxiv.org/abs/2308.15637v2 ) ライセンス: Link先を確認 | Akash Dhruv, Anshu Dubey | (参考訳) 科学的プロセスは、データ取得、分析、発見の重要なツールとしてソフトウェアに依存している。
長年にわたり、持続可能なソフトウェア開発の実践は、研究の不可欠なコンポーネントであると考えられてきた。
しかしながら、計算に基づく科学研究の管理は、個人の好みと研究の性質に基づいて計算実験を設計する個々の研究者に委ねられることが多い。
計算に基づく科学的研究の質、効率、再現性は、研究者がトレーサビリティの明確な記録を提供するための実行環境を明示的に作成することによって改善できると考えている。
これはハイパフォーマンスコンピューティング(HPC)環境での複雑な計算研究に特に関係している。
本稿では,hpc計算実験の包括的な記録と再現性を維持するために必要な文書について述べる。
我々はまた、多分野の科学ソフトウェアであるFlash-Xに関する研究を行うために開発したツールやプラクティスの概要も提供している。 Scientific processes rely on software as an important tool for data acquisition, analysis, and discovery. Over the years sustainable software development practices have made progress in being considered as an integral component of research. However, management of computation-based scientific studies is often left to individual researchers who design their computational experiments based on personal preferences and the nature of the study. We believe that the quality, efficiency, and reproducibility of computation-based scientific research can be improved by explicitly creating an execution environment that allows researchers to provide a clear record of traceability. This is particularly relevant to complex computational studies in high-performance computing (HPC) environments. In this article, we review the documentation required to maintain a comprehensive record of HPC computational experiments for reproducibility. We also provide an overview of tools and practices that we have developed to perform such studies around Flash-X, a multi-physics scientific software. | 翻訳日:2023-12-21 19:01:17 公開日:2023-12-20 |
# 収束画像再構成アルゴリズムのための弱凸正則化器の学習 Learning Weakly Convex Regularizers for Convergent Image-Reconstruction Algorithms ( http://arxiv.org/abs/2308.10542v2 ) ライセンス: Link先を確認 | Alexis Goujon, Sebastian Neumayer, Michael Unser | (参考訳) 弱凸率係数に所定の上限を持つ非凸正則化器を学習することを提案する。
このような正則化器は凸エネルギーを最小化する変分分解器をもたらす。
パラメータは少なく(15,000未満)、手作りのスパーシティプロモート正規化器を模倣した信号処理の解釈を提供する。
数値実験により,このようなデノイザは,一般的なBM3Dデノイザと同様に凸正則化法よりも優れていることを示す。
さらに、学習された正規化器は、確実に収束する反復スキームで逆問題を解くためにデプロイできる。
CTとMRIの両方の再構成では、レギュラーライザは、他のデータ駆動アプローチと比較して、パフォーマンス、パラメータの数、保証、解釈可能性の間の優れたトレードオフを提供する。 We propose to learn non-convex regularizers with a prescribed upper bound on their weak-convexity modulus. Such regularizers give rise to variational denoisers that minimize a convex energy. They rely on few parameters (less than 15,000) and offer a signal-processing interpretation as they mimic handcrafted sparsity-promoting regularizers. Through numerical experiments, we show that such denoisers outperform convex-regularization methods as well as the popular BM3D denoiser. Additionally, the learned regularizer can be deployed to solve inverse problems with iterative schemes that provably converge. For both CT and MRI reconstruction, the regularizer generalizes well and offers an excellent tradeoff between performance, number of parameters, guarantees, and interpretability when compared to other data-driven approaches. | 翻訳日:2023-12-21 19:01:03 公開日:2023-12-20 |
# PMET: トランスによる精密モデル編集 PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v4 ) ライセンス: Link先を確認 | Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu | (参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。
既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。
彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。
しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。
既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。
これにより、モデル編集の性能が低下する。
より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。
これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。
以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。
実験の結果,PMET は COUNTERFACT と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。
我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。
私たちのコードはhttps://github.com/xpq-tech/pmetで利用可能です。 Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the COUNTERFACT and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at https://github.com/xpq-tech/PMET. | 翻訳日:2023-12-21 19:00:24 公開日:2023-12-20 |
# 2次半次スコアモデルによる3次元Ill-posed逆問題の解法 Two-and-a-half Order Score-based Model for Solving 3D Ill-posed Inverse Problems ( http://arxiv.org/abs/2308.08511v3 ) ライセンス: Link先を確認 | Zirong Li, Yanyang Wang, Jianjia Zhang and Weiwen Wu, Hengyong Yu | (参考訳) CT(CT)とMRI(MRI)は医療画像の分野で重要な技術である。
スコアベースモデルは、スパースビューCTや高速MRI再構成など、CTやMRIで発生する様々な逆問題に対処するのに有効であることが証明されている。
しかし、これらのモデルは正確な3次元(3次元)体積再構成を達成する上で困難に直面している。
既存のスコアベースモデルは主に2次元(2次元)データ分布の再構成に焦点を合わせており、再構成された3次元ボリューム画像の隣接スライス間の不整合をもたらす。
この制限を克服するために、新しい2次半スコアベースモデル(TOSM)を提案する。
トレーニング期間中、TOSMは2次元空間のデータ分布を学習し、3次元ボリュームで直接作業するよりも、トレーニングの複雑さを低減する。
しかし、再構成段階では、TOSMは3次元空間のデータ分布を更新し、3方向(矢状、コロナ、横軸)の相補的なスコアを利用してより正確な再構成を行う。
TOSMの開発は堅牢な理論原理に基づいており、信頼性と有効性を保証する。
大規模なスパークビューCTと高速MRIデータセットの広範囲な実験を通じて,本手法は顕著な進歩を示し,3次元不規則逆問題に対する最先端の結果を得る。
特に,TOSMはスライス不整合問題に対処し,高品質な3次元ボリューム再構成を実現する。 Computed Tomography (CT) and Magnetic Resonance Imaging (MRI) are crucial technologies in the field of medical imaging. Score-based models have proven to be effective in addressing different inverse problems encountered in CT and MRI, such as sparse-view CT and fast MRI reconstruction. However, these models face challenges in achieving accurate three dimensional (3D) volumetric reconstruction. The existing score-based models primarily focus on reconstructing two dimensional (2D) data distribution, leading to inconsistencies between adjacent slices in the reconstructed 3D volumetric images. To overcome this limitation, we propose a novel two-and-a-half order score-based model (TOSM). During the training phase, our TOSM learns data distributions in 2D space, which reduces the complexity of training compared to directly working on 3D volumes. However, in the reconstruction phase, the TOSM updates the data distribution in 3D space, utilizing complementary scores along three directions (sagittal, coronal, and transaxial) to achieve a more precise reconstruction. The development of TOSM is built on robust theoretical principles, ensuring its reliability and efficacy. Through extensive experimentation on large-scale sparse-view CT and fast MRI datasets, our method demonstrates remarkable advancements and attains state-of-the-art results in solving 3D ill-posed inverse problems. Notably, the proposed TOSM effectively addresses the inter-slice inconsistency issue, resulting in high-quality 3D volumetric reconstruction. | 翻訳日:2023-12-21 18:59:50 公開日:2023-12-20 |
# CoIE:多属性顔操作のためのChain-of-instruct Editing CoIE: Chain-of-Instruct Editing for Multi-Attribute Face Manipulation ( http://arxiv.org/abs/2312.07879v2 ) ライセンス: Link先を確認 | Zhenduo Zhang, Bo-Wen Zhang, Guang Liu | (参考訳) 現在のテキスト画像編集モデルは、単一の命令を使って複数の属性を滑らかに操作する問題にしばしば遭遇する。
言語モデルに活用されるChain-of-Instruct Editing(CoIE)からインスピレーションを得て,一連の命令を用いたステップバイステップ編集により,これらのモデルの能力を向上する,Chain-of-Instruct Editing(CoIE)と呼ばれる革新的な概念を提案する。
特に、顔操作の文脈では、GPT-4のような事前訓練された大規模言語モデル(LLM)の文脈学習能力を利用して、目的設計の1ショットテンプレートを用いて、元の入力から命令列を生成する。
編集ステップの精度をさらに向上するため,自己構築型指導誘導顔編集データセットであるInstruct-CelebAを用いて,編集モデルの微調整を行う。
さらに,編集性や品質劣化の悪影響を軽減するために,スーパーレゾリューションモジュールを組み込んだ。
様々な課題における実験結果から,チェーン・オブ・インストラクション編集による多属性顔画像操作の大幅な向上が確認された。
これは、clipsim と coverage metrics による編集成功率の向上、それぞれ 17.86% と 85.45% の改善、l1 と quality metrics の保持による制御性の向上、それぞれ 11.58% と 4.93% の改善である。 Current text-to-image editing models often encounter challenges with smoothly manipulating multiple attributes using a single instruction. Taking inspiration from the Chain-of-Thought prompting technique utilized in language models, we present an innovative concept known as Chain-of-Instruct Editing (CoIE), which enhances the capabilities of these models through step-by-step editing using a series of instructions. In particular, in the context of face manipulation, we leverage the contextual learning abilities of a pretrained Large Language Model (LLM), such as GPT-4, to generate a sequence of instructions from the original input, utilizing a purpose-designed 1-shot template. To further improve the precision of each editing step, we conduct fine-tuning on the editing models using our self-constructed instruction-guided face editing dataset, Instruct-CelebA. And additionally, we incorporate a super-resolution module to mitigate the adverse effects of editability and quality degradation. Experimental results across various challenging cases confirm the significant boost in multi-attribute facial image manipulation using chain-of-instruct editing. This is evident in enhanced editing success rates, measured by CLIPSim and Coverage metrics, improved by 17.86% and 85.45% respectively, and heightened controllability indicated by Preserve L1 and Quality metrics, improved by 11.58% and 4.93% respectively. | 翻訳日:2023-12-21 18:53:04 公開日:2023-12-20 |
# 抽象テキスト要約におけるデータ蒸留における表現バイアスの活用 Exploiting Representation Bias for Data Distillation in Abstractive Text Summarization ( http://arxiv.org/abs/2312.06022v2 ) ライセンス: Link先を確認 | Yash Kumar Atri, Vikram Goyal, Tanmoy Chakraborty | (参考訳) 抽象的なテキスト要約は、ディープラーニングモデルのニーズを満たすためのトレーニングサンプルの数とともに増えている。
これらのモデルは、訓練データ表現を利用して、結果要約の定量的要素を改善することにより、優れた性能を得る傾向がある。
しかしながら、トレーニングセットのサイズを増やすことは、常にパフォーマンスを最大化するための理想的なソリューションであるとは限らないため、トレーニングサンプルの品質とディープラーニングモデルの学習プロトコルを再検討する必要がある。
本稿では,入力埋め込み空間とモデルエンコーダ空間の間の特性を理解するために,抽象的テキスト要約モデルのベクトル空間を離散化することを目的とする。
深いモデルでは入力空間の多様性を捉えられていないことを示す。
さらに、エンコーダ空間におけるデータポイントの分布は、トレーニングサンプルの未チェック増加が付加価値をもたらさないことを示している。
我々は、モデルのサンプル空間の多様性と、埋め込み空間からエンコーダ空間へのデータポイントのマッピング方法を学ぶためにクラスタリング技術を採用している。
さらに,冗長なデータポイントをフィルタしてモデルをより堅牢かつ少ないデータ空腹にするために,メトリクスを考案する。
本稿では, BERTScore, FEQA, ピラミドスコアなどの定量値と定性値を用いて, 提案手法のベンチマークを行った。
また、モデルが様々な入力サンプルから多様性を学ぶことを妨げる理由を定量化する。 Abstractive text summarization is surging with the number of training samples to cater to the needs of the deep learning models. These models tend to exploit the training data representations to attain superior performance by improving the quantitative element of the resultant summary. However, increasing the size of the training set may not always be the ideal solution to maximize the performance, and therefore, a need to revisit the quality of training samples and the learning protocol of deep learning models is a must. In this paper, we aim to discretize the vector space of the abstractive text summarization models to understand the characteristics learned between the input embedding space and the models' encoder space. We show that deep models fail to capture the diversity of the input space. Further, the distribution of data points on the encoder space indicates that an unchecked increase in the training samples does not add value; rather, a tear-down of data samples is highly needed to make the models focus on variability and faithfulness. We employ clustering techniques to learn the diversity of a model's sample space and how data points are mapped from the embedding space to the encoder space and vice versa. Further, we devise a metric to filter out redundant data points to make the model more robust and less data hungry. We benchmark our proposed method using quantitative metrics, such as Rouge, and qualitative metrics, such as BERTScore, FEQA and Pyramid score. We also quantify the reasons that inhibit the models from learning the diversity from the varied input samples. | 翻訳日:2023-12-21 18:51:51 公開日:2023-12-20 |
# 学習遺伝子の線形拡張としてのトランス Transformer as Linear Expansion of Learngene ( http://arxiv.org/abs/2312.05614v2 ) ライセンス: Link先を確認 | Shiyu Xia, Miaosen Zhang, Xu Yang, Ruiming Chen, Haokun Chen, Xin Geng | (参考訳) 本稿では,共有トランスフォーマーモジュールを拡張して様々な深さのトランスフォーマーを生成・初期化する手法を提案する。
遺伝的拡張性に類似して、我々はそのようなモジュールを学習遺伝子と呼ぶ。
膨張機構を明らかにするために, 層の位置とそれに対応する重み値の関係を考察し, 線形関数がこの関係を適切に近似することを示す。
この知見に基づき,多種多様な深さの変圧器を柔軟に生産し初期化するための新しい手法である学習遺伝子(tleg)の線形展開としてトランスフォーマを提案する。
具体的には,学習遺伝子を学習するために,学習遺伝子から線形に拡張した補助トランスを構築し,その後ソフト蒸留を用いて学習する。
その後、訓練された学習遺伝子を線形に拡張し、様々な下流シナリオをサポートすることにより、様々な深さのトランスフォーマーを作成および初期化する。
ImageNet-1Kの大規模な実験では、TLEGはスクラッチからトレーニングされた多くの個別モデルと同等またはより良いパフォーマンスを実現し、トレーニングコストは約2倍削減されている。
いくつかの下流分類データセットに転送する場合、TLEGは既存の初期化手法をはるかに上回る(例えば、iNat 2019では+6.87%、CIFAR-100では+7.66%)。
資源制約に応じて異なる深さのモデルを作成する必要がある場合、TLEGは、これらのモデルを初期化するために格納される約19xパラメータと、事前学習と微調整のアプローチとは対照的に、約5倍の事前学習コストを削減しながら、同等の結果を得る。
異なるモデルを初期化するためにパラメータの固定セットを転送する際、TLEGは事前学習アプローチと比較して2.9倍のパラメータを初期化するために格納し、柔軟性と競争性能が向上する。 We propose expanding the shared Transformer module to produce and initialize Transformers of varying depths, enabling adaptation to diverse resource constraints. Drawing an analogy to genetic expansibility, we term such module as learngene. To identify the expansion mechanism, we delve into the relationship between the layer's position and its corresponding weight value, and find that linear function appropriately approximates this relationship. Building on this insight, we present Transformer as Linear Expansion of learnGene (TLEG), a novel approach for flexibly producing and initializing Transformers of diverse depths. Specifically, to learn learngene, we firstly construct an auxiliary Transformer linearly expanded from learngene, after which we train it through employing soft distillation. Subsequently, we can produce and initialize Transformers of varying depths via linearly expanding the well-trained learngene, thereby supporting diverse downstream scenarios. Extensive experiments on ImageNet-1K demonstrate that TLEG achieves comparable or better performance in contrast to many individual models trained from scratch, while reducing around 2x training cost. When transferring to several downstream classification datasets, TLEG surpasses existing initialization methods by a large margin (e.g., +6.87% on iNat 2019 and +7.66% on CIFAR-100). Under the situation where we need to produce models of varying depths adapting for different resource constraints, TLEG achieves comparable results while reducing around 19x parameters stored to initialize these models and around 5x pre-training costs, in contrast to the pre-training and fine-tuning approach. When transferring a fixed set of parameters to initialize different models, TLEG presents better flexibility and competitive performance while reducing around 2.9x parameters stored to initialize, compared to the pre-training approach. | 翻訳日:2023-12-21 18:51:26 公開日:2023-12-20 |
# 総合標準化試験におけるAIチャットボットの性能評価 : GREを用いた事例 Assessing AI Chatbots Performance in Comprehensive Standardized Test Preparation; A Case Study with GRE ( http://arxiv.org/abs/2312.03719v2 ) ライセンス: Link先を確認 | Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, and Ayman Ababneh | (参考訳) 本稿では、標準化されたテスト質問に対する3つの人工知能チャットボット(bing、chatgpt、gpt-4)の性能を総合的に評価する。
GREとして知られる大学院記録試験は,定量的推論と言語スキルの両方を含むケーススタディとして機能する。
チャットボットの能力を評価するために,多種多様なスタイルと157の言語質問を多種多様な難易度(易易度,中度,難易度)に分類した137の量的推論質問を行った。
本稿では、各チャットボットの性能を試験でテストされた様々なスキルやスタイルにまたがって提示することにより、標準化テスト準備における人工知能の利用に関する結果とその意義について詳細に検討する。
さらに,画像に基づく質問に対する人工知能の習熟度について検討し,各チャットボットの不確実性レベルについて述べる。
その結果、チャットボット全体の成功度が変化し、モデルの洗練度とトレーニングデータの影響が示された。
gpt-4は、特に複雑な言語理解タスクにおいて最も熟練し、言語理解における人工知能の進化と、高いスコアで試験に合格する能力を強調した。 This research paper presents a comprehensive evaluation of the performance of three artificial 10 intelligence chatbots: Bing, ChatGPT, and GPT-4, in addressing standardized test questions. Graduate record examination, known as GRE, serves as a case study in this paper, encompassing both quantitative reasoning and verbal skills. A total of 137 quantitative reasoning questions, featuring diverse styles and 157 verbal questions categorized into varying levels of difficulty (easy, medium, and hard) were administered to assess the chatbots' capabilities. This paper provides a detailed examination of the results and their implications for the utilization of artificial intelligence in standardized test preparation by presenting the performance of each chatbot across various skills and styles tested in the exam. Additionally, this paper explores the proficiency of artificial intelligence in addressing image-based questions and illustrates the uncertainty level of each chatbot. The results reveal varying degrees of success across the chatbots, demonstrating the influence of model sophistication and training data. GPT-4 emerged as the most proficient, especially in complex language understanding tasks, highlighting the evolution of artificial intelligence in language comprehension and its ability to pass the exam with a high score. | 翻訳日:2023-12-21 18:50:52 公開日:2023-12-20 |
# ps$^3$:セマンティックシンボリックシグネチャに基づく精密パッチ存在試験 PS$^3$: Precise Patch Presence Test based on Semantic Symbolic Signature ( http://arxiv.org/abs/2312.03393v2 ) ライセンス: Link先を確認 | Qi Zhan, Xing Hu, Zhiyang Li, Xin Xia, David Lo, and Shanping Li | (参考訳) ソフトウェア開発中、脆弱性はユーザにとって大きな脅威となった。
パッチは脆弱性に対処する最も効果的な方法です。
大規模ソフトウェアシステムでは,影響のあるバイナリ毎にセキュリティパッチをテストすることは,システムのセキュリティを確保する上で極めて重要である。
既知の脆弱性に対してバイナリがパッチされているかどうかを特定することは難しい。
既存のアプローチは主に、同じコンパイラオプションでコンパイルされるパッチの検出に重点を置いている。
しかし、開発者は異なる状況で異なるコンパイラオプションでプログラムをコンパイルすることが一般的であり、既存のメソッドでは不正確である。
本稿では,ps3と呼ばれる新しい手法を提案する。
PS3はシンボルエミュレーションを利用して、異なるコンパイラオプションの下で安定なシグネチャを抽出する。
そしてPS3は、参照とターゲットの署名をセマンティックレベルで比較することで、パッチの存在を正確にテストできる。
提案手法の有効性を評価するため、4つのC/C++プロジェクトにおいて,最新のCVEの3,631対(CVE,バイナリ)からなるデータセットを構築した。
実験の結果,PS3は精度,リコール,F1のスコアでそれぞれ0.82,0.97,0.89を得た。
PS3は、F1スコアの33%を改善して最先端のベースラインを上回り、異なるコンパイラオプションで安定している。 During software development, vulnerabilities have posed a significant threat to users. Patches are the most effective way to combat vulnerabilities. In a large-scale software system, testing the presence of a security patch in every affected binary is crucial to ensure system security. Identifying whether a binary has been patched for a known vulnerability is challenging, as there may only be small differences between patched and vulnerable versions. Existing approaches mainly focus on detecting patches that are compiled in the same compiler options. However, it is common for developers to compile programs with very different compiler options in different situations, which causes inaccuracy for existing methods. In this paper, we propose a new approach named PS3, referring to precise patch presence test based on semantic-level symbolic signature. PS3 exploits symbolic emulation to extract signatures that are stable under different compiler options. Then PS3 can precisely test the presence of the patch by comparing the signatures between the reference and the target at semantic level. To evaluate the effectiveness of our approach, we constructed a dataset consisting of 3,631 (CVE, binary) pairs of 62 recent CVEs in four C/C++ projects. The experimental results show that PS3 achieves scores of 0.82, 0.97, and 0.89 in terms of precision, recall, and F1 score, respectively. PS3 outperforms the state-of-the-art baselines by improving 33% in terms of F1 score and remains stable in different compiler options. | 翻訳日:2023-12-21 18:50:28 公開日:2023-12-20 |
# MIND:マルチタスクインクリメンタルネットワーク蒸留 MIND: Multi-Task Incremental Network Distillation ( http://arxiv.org/abs/2312.02916v2 ) ライセンス: Link先を確認 | Jacopo Bonato, Francesco Pelosin, Luigi Sabetta, Alessandro Nicolosi | (参考訳) 近年,データストリームを動的に生成するデバイスの普及により,学習システムがデータ分散シフトに継続的に適応する必要性が高まっている。
この課題に対処するため、研究コミュニティは、データを再生することなく、クラス増分学習の追求を求めるなど、様々な方法論を策定した。
本研究では,リプレイフリーソリューションの性能を著しく向上させ,広く研究されているデータセット上で最先端の結果を得るためのパラメータ分離手法であるmindを提案する。
提案手法では,各サブネットワークの蓄積した知識を増大させるMINDの効率を大幅に向上する2つの代替蒸留法と,サブネットワーク内のタスク間でのBachNorm層の最適化を提案する。
総じて、マインドはリハーサルフリーなクラスインクリメンタル学習(cifar-100/10ではおよそ+6%、tinyimagenet/10では+10%)の最先端の方法よりも優れています。
+40%の精度を示した。
さらに,それぞれの貢献を補足して,そのパフォーマンス向上への影響を実証した。
本研究は,資源制約環境におけるクラス増分学習とドメイン増分学習がもたらす課題に対処する可能性を示すMINDの優れた性能を示すものである。 The recent surge of pervasive devices that generate dynamic data streams has underscored the necessity for learning systems to adapt continually to data distributional shifts. To tackle this challenge, the research community has put forth a spectrum of methodologies, including the demanding pursuit of class-incremental learning without replay data. In this study, we present MIND, a parameter isolation method that aims to significantly enhance the performance of replay-free solutions and achieve state-of-the-art results on several widely studied datasets. Our approach introduces two main contributions: two alternative distillation procedures that significantly improve the efficiency of MIND increasing the accumulated knowledge of each sub-network, and the optimization of the BachNorm layers across tasks inside the sub-networks. Overall, MIND outperforms all the state-of-the-art methods for rehearsal-free Class-Incremental learning (with an increment in classification accuracy of approx. +6% on CIFAR-100/10 and +10% on TinyImageNet/10) reaching up to approx. +40% accuracy in Domain-Incremental scenarios. Moreover, we ablated each contribution to demonstrate its impact on performance improvement. Our results showcase the superior performance of MIND indicating its potential for addressing the challenges posed by Class-incremental and Domain-Incremental learning in resource-constrained environments. | 翻訳日:2023-12-21 18:50:04 公開日:2023-12-20 |
# 食品安全保障のトレンド予測--貯水池コンピューティングのアプローチ Forecasting Trends in Food Security: a Reservoir Computing Approach ( http://arxiv.org/abs/2312.00626v2 ) ライセンス: Link先を確認 | Joschka Herteux, Christoph R\"ath, Amine Baha, Giulia Martini, Duccio Piovani | (参考訳) 早期警戒システムは効果的な人道行動に不可欠な手段である。
差し迫った災害に対する前向きな警告は、タイムリーで目標とする対応を促進し、生活、生活、金融資源の不足を救える。
本研究は,マリ,ナイジェリア,シリア,イエメンの4カ国で,60日間連続して食料消費の水準を予測するための新しい定量的方法論を提案する。
この手法は、世界食糧プログラムが統合した飢餓モニタリングシステムから入手可能なデータに基づいて構築されており、90か国にわたる主要な食料安全保障指標、紛争、気象イベント、その他の食料不安全の要因に関する毎日のアップデートを収集、処理、表示している(https://hungermap.wfp.org/)。
本研究では, ARIMA, XGBoost, LSTMs, CNNs, Reservoir Computing (RC) などのモデルの性能を, Root Mean Squared Error (RMSE) との比較により評価した。
この包括的な分析は、古典統計学、機械学習、ディープラーニングのアプローチに及んでいる。
その結果,リザーバコンピューティングは,限られたデータサンプルの過剰充填に対する強い抵抗と効率的なトレーニング能力の両方を考慮し,食品セキュリティの分野において特に適したモデルとして注目された。
本手法は,食品の安全性の予測と検出を目的とした,グローバルなデータ駆動早期警報システムの基盤となる。 Early warning systems are an essential tool for effective humanitarian action. Advance warnings on impending disasters facilitate timely and targeted response which help save lives, livelihoods, and scarce financial resources. In this work we present a new quantitative methodology to forecast levels of food consumption for 60 consecutive days, at the sub-national level, in four countries: Mali, Nigeria, Syria, and Yemen. The methodology is built on publicly available data from the World Food Programme's integrated global hunger monitoring system which collects, processes, and displays daily updates on key food security metrics, conflict, weather events, and other drivers of food insecurity across 90 countries (https://hungermap.wfp.org/). In this study, we assessed the performance of various models including ARIMA, XGBoost, LSTMs, CNNs, and Reservoir Computing (RC), by comparing their Root Mean Squared Error (RMSE) metrics. This comprehensive analysis spanned classical statistical, machine learning, and deep learning approaches. Our findings highlight Reservoir Computing as a particularly well-suited model in the field of food security given both its notable resistance to over-fitting on limited data samples and its efficient training capabilities. The methodology we introduce establishes the groundwork for a global, data-driven early warning system designed to anticipate and detect food insecurity. | 翻訳日:2023-12-21 18:49:37 公開日:2023-12-20 |
# FusionFrames: テキスト・ビデオ生成パイプラインの効率的なアーキテクチャ面 FusionFrames: Efficient Architectural Aspects for Text-to-Video Generation Pipeline ( http://arxiv.org/abs/2311.13073v2 ) ライセンス: Link先を確認 | Vladimir Arkhipkin, Zein Shaheen, Viacheslav Vasilev, Elizaveta Dakhova, Andrey Kuznetsov, Denis Dimitrov | (参考訳) マルチメディア生成アプローチは人工知能研究において重要な位置を占める。
テキストから画像へのモデルはここ数年で高品質な結果を得た。
しかし、最近ビデオ合成法が発展し始めた。
本稿では,テキストから画像への拡散モデルに基づく2段階の潜在拡散テキスト対ビデオ生成アーキテクチャを提案する。
第1段階では、ビデオのストーリーラインを描くためのキーフレームの合成、第2段階はシーンとオブジェクトの動きをスムーズにするために補間フレームの生成に費やされる。
キーフレーム生成のための時間条件付け手法をいくつか比較した。
その結果,映像生成品質と人間の嗜好を反映する指標として,時間的レイヤ上で異なる時間的ブロックを使用することの利点が示された。
補間モデルの設計は,他のマスキングフレーム補間法と比較して計算コストを大幅に削減する。
さらに,PSNR,SSIM,MSE,LPIPSのスコアを向上するために,MoVQベースのビデオ復号方式の異なる構成を評価した。
最後に、当社のパイプラインを既存のソリューションと比較し、全体のtop-2スコアとtop-1をオープンソースソリューションで達成しました。
プロジェクトページ: https://ai-forever.github.io/kandinsky-video/ Multimedia generation approaches occupy a prominent place in artificial intelligence research. Text-to-image models achieved high-quality results over the last few years. However, video synthesis methods recently started to develop. This paper presents a new two-stage latent diffusion text-to-video generation architecture based on the text-to-image diffusion model. The first stage concerns keyframes synthesis to figure the storyline of a video, while the second one is devoted to interpolation frames generation to make movements of the scene and objects smooth. We compare several temporal conditioning approaches for keyframes generation. The results show the advantage of using separate temporal blocks over temporal layers in terms of metrics reflecting video generation quality aspects and human preference. The design of our interpolation model significantly reduces computational costs compared to other masked frame interpolation approaches. Furthermore, we evaluate different configurations of MoVQ-based video decoding scheme to improve consistency and achieve higher PSNR, SSIM, MSE, and LPIPS scores. Finally, we compare our pipeline with existing solutions and achieve top-2 scores overall and top-1 among open-source solutions: CLIPSIM = 0.2976 and FVD = 433.054. Project page: https://ai-forever.github.io/kandinsky-video/ | 翻訳日:2023-12-21 18:49:06 公開日:2023-12-20 |
# 大規模言語モデルを用いた脆弱性検出にどこまで関わったか How Far Have We Gone in Vulnerability Detection Using Large Language Models ( http://arxiv.org/abs/2311.12420v2 ) ライセンス: Link先を確認 | Zeyu Gao, Hao Wang, Yuchen Zhou, Wenyu Zhu, Chao Zhang | (参考訳) ソフトウェアはますます複雑になり、脆弱性が生じる傾向にあるため、自動脆弱性検出は極めて重要でありながら困難である。
様々なタスクにおける大規模言語モデル(llm)の著しい成功を考えると、脆弱性検出においてその効果が期待されている。
しかし、脆弱性検出におけるその可能性の定量的理解はいまだに欠けている。
このギャップを埋めるために,包括的脆弱性ベンチマークvulbenchを導入する。
このベンチマークは、幅広いCTF(Capture-the-Flag)課題と実世界のアプリケーションからの高品質なデータを集約し、脆弱性タイプとその根本原因を詳述した各脆弱性関数に対するアノテーションを提供する。
16のLLMと6つの最先端(SOTA)ディープラーニングベースモデルと静的アナライザを含む実験により、複数のLLMが脆弱性検出において従来のディープラーニングアプローチよりも優れており、LLMの未解決の可能性を明らかにしていることがわかった。
この作業は、ソフトウェアセキュリティ強化のためのllmの理解と利用に寄与する。 As software becomes increasingly complex and prone to vulnerabilities, automated vulnerability detection is critically important, yet challenging. Given the significant successes of large language models (LLMs) in various tasks, there is growing anticipation of their efficacy in vulnerability detection. However, a quantitative understanding of their potential in vulnerability detection is still missing. To bridge this gap, we introduce a comprehensive vulnerability benchmark VulBench. This benchmark aggregates high-quality data from a wide range of CTF (Capture-the-Flag) challenges and real-world applications, with annotations for each vulnerable function detailing the vulnerability type and its root cause. Through our experiments encompassing 16 LLMs and 6 state-of-the-art (SOTA) deep learning-based models and static analyzers, we find that several LLMs outperform traditional deep learning approaches in vulnerability detection, revealing an untapped potential in LLMs. This work contributes to the understanding and utilization of LLMs for enhanced software security. | 翻訳日:2023-12-21 18:48:48 公開日:2023-12-20 |
# TRAMS:長距離言語モデリングのためのトレーニング不要メモリ選択 TRAMS: Training-free Memory Selection for Long-range Language Modeling ( http://arxiv.org/abs/2310.15494v3 ) ライセンス: Link先を確認 | Haofei Yu, Cunxiang Wang, Yue Zhang, Wei Bi | (参考訳) トランスフォーマーアーキテクチャは多くのaiモデルにとって不可欠であるが、長距離言語モデリングの課題に直面している。
いくつかの特定のトランスフォーマーアーキテクチャは、長距離依存の問題に対処するために設計されているが、Transformer-XLのような既存のメソッドは、高頻度で非効率なメモリに悩まされている。
本研究では、1つの単純なメトリクスに基づいて注意計算に参加するトークンを選択できる「トレーニングフリーメモリ選択(tram)」と呼ばれるプラグ・アンド・プレイ戦略を提案する。
この戦略により、現在のクエリに高い注意点を持つ可能性のあるトークンを保持し、他のトークンを無視します。
我々は、単語レベルのベンチマーク(wikitext-103)と文字レベルのベンチマーク(enwik8)で、このアプローチをテストしました。 The Transformer architecture is crucial for numerous AI models, but it still faces challenges in long-range language modeling. Though several specific transformer architectures have been designed to tackle issues of long-range dependencies, existing methods like Transformer-XL are plagued by a high percentage of ineffective memories. In this study, we present a plug-and-play strategy, known as TRAining-free Memory Selection (TRAMS), that selects tokens participating in attention calculation based on one simple metric. This strategy allows us to keep tokens that are likely to have a high attention score with the current queries and ignore the other ones. We have tested our approach on the word-level benchmark (WikiText-103) and the character-level benchmark (enwik8), and the results indicate an improvement without having additional training or adding additional parameters. | 翻訳日:2023-12-21 18:47:29 公開日:2023-12-20 |
# 微分プライベートおよび遅延オンライン凸最適化の改善 Improved Differentially Private and Lazy Online Convex Optimization ( http://arxiv.org/abs/2312.11534v2 ) ライセンス: Link先を確認 | Naman Agarwal, Satyen Kale, Karan Singh, Abhradeep Guha Thakurta | (参考訳) 本稿では,$(\epsilon, \delta)$-differentially private online convex Optimization (OCO)の課題について検討する。
オンライン設定では、個々の決定または繰り返しのリリースは、プライバシーを失う可能性をもたらす。
この問題にはjainらから始まった長い研究の歴史がある。
2012年] と、epsilon が極めて小さいものではないことの最も知られている結果は agarwal et al で示される。
[2023].
本稿では,agarwal et alの結果について述べる。
[2023] 次元因子の面から,滑らかさの要件を取り除いた。
この体制では, DP-OCOの成績が最もよく知られている。
我々のアルゴリズムは[Asi et al., 2023] の成果に基づいており、リジェクションサンプリングによるスイッチ数を明示的に制限するという考え方を導入している。
アルゴリズムの主な革新は、強い対数凹密度からのサンプリングを使用することで、より優れた結果をもたらす次元因子のトレードオフを可能にすることである。 We study the task of $(\epsilon, \delta)$-differentially private online convex optimization (OCO). In the online setting, the release of each distinct decision or iterate carries with it the potential for privacy loss. This problem has a long history of research starting with Jain et al. [2012] and the best known results for the regime of {\epsilon} not being very small are presented in Agarwal et al. [2023]. In this paper we improve upon the results of Agarwal et al. [2023] in terms of the dimension factors as well as removing the requirement of smoothness. Our results are now the best known rates for DP-OCO in this regime. Our algorithms builds upon the work of [Asi et al., 2023] which introduced the idea of explicitly limiting the number of switches via rejection sampling. The main innovation in our algorithm is the use of sampling from a strongly log-concave density which allows us to trade-off the dimension factors better leading to improved results. | 翻訳日:2023-12-21 18:37:50 公開日:2023-12-20 |
# アンロック筋骨格障害危険因子:nlpに基づく分類とモードに基づくランク付け Unlocking Musculoskeletal Disorder Risk Factors: NLP-Based Classification and Mode-Based Ranking ( http://arxiv.org/abs/2312.11517v2 ) ライセンス: Link先を確認 | Md Abrar Jahin and Subrata Talapatra | (参考訳) 本研究は,自然言語処理 (nlp) 技術とモードベースのランキング手法の融合を用いて,筋骨格障害 (msd) のリスク要因の複雑な景観を解明する。
主な目的は、mddのリスク要因、その分類、およびそれらの相対的重大さの理解を前進させ、より標的とした予防および管理の介入を促進することである。
この研究は、事前訓練されたトランスフォーマー、コサイン類似性、および様々な距離メトリクスを統合して、リスク要因を個人、生体機械、職場、心理学、組織クラスに分類する8つの多様なモデルを利用している。
その結果,コサイン類似性のあるBERTモデルは全体の精度が28%に達し,文変換器はユークリッド,ブレイ・クールティス,ミンコフスキー距離と組み合わせて100%の精度で完全精度が得られることがわかった。
本研究は,msdリスク因子の重大度階層を識別するために,調査データに対するモードベースランキングアプローチを採用している。
興味深いことに、ランキングは以前の文献と正確に一致し、アプローチの一貫性と信頼性を再確認している。
作業姿勢」は,msd予防における適切な姿勢の重要役割を強調する最も重大なリスク要因として出現する。調査参加者の集団認識は,msdリスクに寄与する「job insecurity」,「effort reward unbalance」,「poor employee facility」といった要因の重要性を強調する。
ランキングの収束は、MSDの頻度を減らそうとする組織に実用的な洞察を与える。
研究は、対象とする介入、職場環境改善のための勧告、今後の研究への道筋について結論づける。 This research delves into the intricate landscape of Musculoskeletal Disorder (MSD) risk factors, employing a novel fusion of Natural Language Processing (NLP) techniques and mode-based ranking methodologies. The primary objective is to advance the comprehension of MSD risk factors, their classification, and their relative severity, facilitating more targeted preventive and management interventions. The study utilizes eight diverse models, integrating pre-trained transformers, cosine similarity, and various distance metrics to classify risk factors into personal, biomechanical, workplace, psychological, and organizational classes. Key findings reveal that the BERT model with cosine similarity attains an overall accuracy of 28%, while the sentence transformer, coupled with Euclidean, Bray-Curtis, and Minkowski distances, achieves a flawless accuracy score of 100%. In tandem with the classification efforts, the research employs a mode-based ranking approach on survey data to discern the severity hierarchy of MSD risk factors. Intriguingly, the rankings align precisely with the previous literature, reaffirming the consistency and reliability of the approach. ``Working posture" emerges as the most severe risk factor, emphasizing the critical role of proper posture in preventing MSDs. The collective perceptions of survey participants underscore the significance of factors like "Job insecurity," "Effort reward imbalance," and "Poor employee facility" in contributing to MSD risks. The convergence of rankings provides actionable insights for organizations aiming to reduce the prevalence of MSDs. The study concludes with implications for targeted interventions, recommendations for improving workplace conditions, and avenues for future research. | 翻訳日:2023-12-21 18:37:33 公開日:2023-12-20 |
# 偏見はない!
パーソナライズドレコメンデーションのためのフェアフェデレーショングラフニューラルネットワーク No prejudice! Fair Federated Graph Neural Networks for Personalized Recommendation ( http://arxiv.org/abs/2312.10080v2 ) ライセンス: Link先を確認 | Nimesh Agrawal, Anuj Kumar Sirohi, Jayadeva, Sandeep Kumar | (参考訳) パーソナライズされたヘルスケア、ファイナンス、eコマースといったアプリケーションへのrssの統合が増加しているため、グループ間でのレコメンデーションシステム(rss)の公平性を確保することが重要だ。
グラフベースのrssは、エンティティ間の複雑な高次インタラクションをキャプチャする上で重要な役割を果たす。
しかしながら、これらのグラフモデルを公正性制約を伴うフェデレートラーニング(FL)パラダイムに統合することは、インタラクショングラフ全体へのアクセスとセンシティブなユーザ情報(性別、年齢など)を中央サーバで必要とするため、重大な課題を引き起こす。
本稿では,グラフベースモデルを用いたfl環境における機密ユーザ属性のプライバシを損なうことなく,rss内固有のバイアスの広範にわたる問題に対処する。
グループバイアスに対処するため,F2PGNN(Fair Federated Personalized Graph Neural Network)を提案する。
さらに、プライバシー保護の強化に差分プライバシー技術を使用します。
3つの公開データセットに対する実験的評価では、プライバシを保ち、有効性を維持する一方で、最先端技術と比較して、グループ不公平を緩和するF2PGNNの有効性が47%から99%向上している。
結果は,flランドスケープにおけるgnnを用いた公平かつパーソナライズされたレコメンデーションの実現における,フレームワークの重要性を検証する。 Ensuring fairness in Recommendation Systems (RSs) across demographic groups is critical due to the increased integration of RSs in applications such as personalized healthcare, finance, and e-commerce. Graph-based RSs play a crucial role in capturing intricate higher-order interactions among entities. However, integrating these graph models into the Federated Learning (FL) paradigm with fairness constraints poses formidable challenges as this requires access to the entire interaction graph and sensitive user information (such as gender, age, etc.) at the central server. This paper addresses the pervasive issue of inherent bias within RSs for different demographic groups without compromising the privacy of sensitive user attributes in FL environment with the graph-based model. To address the group bias, we propose F2PGNN (Fair Federated Personalized Graph Neural Network), a novel framework that leverages the power of Personalized Graph Neural Network (GNN) coupled with fairness considerations. Additionally, we use differential privacy techniques to fortify privacy protection. Experimental evaluation on three publicly available datasets showcases the efficacy of F2PGNN in mitigating group unfairness by 47% - 99% compared to the state-of-the-art while preserving privacy and maintaining the utility. The results validate the significance of our framework in achieving equitable and personalized recommendations using GNN within the FL landscape. | 翻訳日:2023-12-21 18:37:00 公開日:2023-12-20 |
# 地球は平らである:―説得的会話を通してLLMの誤報に対する信念を調査する The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation ( http://arxiv.org/abs/2312.09085v2 ) ライセンス: Link先を確認 | Rongwu Xu, Brian S. Lin, Shujian Yang, Tianqi Zhang, Weiyan Shi, Tianwei Zhang, Zhixuan Fang, Wei Xu, Han Qiu | (参考訳) 大きな言語モデル(LLM)は膨大な量の知識をカプセル化するが、それでも外部の誤情報に弱いままである。
既存の研究は主に、この感受性の挙動を単一ターンで研究している。
しかし、信念は多面的な会話、特に説得力のある会話の間に変化する可能性がある。
そこで本研究では,llmの説得的会話に対する感受性,特に正解できる事実的質問について考察する。
我々はまず、体系的に生成された説得的誤報と組み合わせた事実質問を含むFact to Misinformデータセット(Fact to Misinform)をキュレートする。
そこで我々は,llmsの信念変化を説得力のある対話で追跡するテストフレームワークを開発した。
広範にわたる実験により,LLMの事実知識に対する正しい信念は,様々な説得戦略によって容易に操作できることがわかった。 Large Language Models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies. | 翻訳日:2023-12-21 18:36:35 公開日:2023-12-20 |
# ランダムニューラルネットワークの普遍近似特性 Universal Approximation Property of Random Neural Networks ( http://arxiv.org/abs/2312.08410v2 ) ライセンス: Link先を確認 | Ariel Neufeld, Philipp Schmocker | (参考訳) 本稿では,重みとバイアスがランダムに初期化される単層フィードフォワードニューラルネットワークであるランダムニューラルネットワークについて検討する。
このランダムな初期化の後、線形読み出しのみを訓練する必要があり、最小二乗法のように効率的に行うことができる。
確率ニューラルネットワークをバナッハ空間値確率変数として見ることにより、ボホナー空間の大きなクラス内で普遍近似定理を証明する。
ここで、対応するバナッハ空間はユークリッド空間のコンパクト部分集合(例えば、$l^p$-空間やソボレフ空間)上の連続函数の空間よりも大きく、後者は微分の近似を含む。
さらに,ランダムニューラルネットワークを用いて決定論的関数を学習するために近似率と明示的アルゴリズムを導出する。
さらに,入力・出力次元において,学習コストが最大に多項式的に大きくなるという意味で,ランダムニューラルネットワークが次元の呪いを克服した場合の完全な誤差解析と研究を行う。
さらに,完全訓練された決定論的ニューラルネットワークと比較して,ランダムニューラルネットワークの実証的利点を2つの数値例で示す。 In this paper, we study random neural networks which are single-hidden-layer feedforward neural networks whose weights and biases are randomly initialized. After this random initialization, only the linear readout needs to be trained, which can be performed efficiently, e.g., by the least squares method. By viewing random neural networks as Banach space-valued random variables, we prove a universal approximation theorem within a large class of Bochner spaces. Hereby, the corresponding Banach space can be significantly more general than the space of continuous functions over a compact subset of a Euclidean space, namely, e.g., an $L^p$-space or a Sobolev space, where the latter includes the approximation of the derivatives. Moreover, we derive approximation rates and an explicit algorithm to learn a deterministic function by a random neural network. In addition, we provide a full error analysis and study when random neural networks overcome the curse of dimensionality in the sense that the training costs scale at most polynomially in the input and output dimension. Furthermore, we show in two numerical examples the empirical advantages of random neural networks compared to fully trained deterministic neural networks. | 翻訳日:2023-12-21 18:36:20 公開日:2023-12-20 |
# ハイブリッドサンプル合成による限定データ設定における分類器の劣化 Hybrid Sample Synthesis-based Debiasing of Classifier in Limited Data Setting ( http://arxiv.org/abs/2312.08288v2 ) ライセンス: Link先を確認 | Piyush Arora, Pratik Mazumder | (参考訳) ディープラーニングモデルはバイアスの問題に苦しむことが知られており、研究者たちはこの問題に対処する方法を模索している。
しかし、これらの手法の多くはバイアスの事前知識を必要とし、必ずしも実用的ではない。
本稿では,バイアスに関する事前情報のない,より実践的な設定に焦点を当てる。
一般に、この設定では、モデルにバイアス付き予測を生じさせるバイアス整合サンプルと、バイアスに適合しないいくつかのバイアス競合サンプルが多数存在する。
トレーニングデータに制限がある場合,バイアスアライメントサンプルの影響がモデル予測にさらに強くなる可能性があり,その場合,既存のデバイアス化手法が苦しむことを実験的に実証する。
本稿では,小規模データセットにおける未知バイアスの影響を検証し,この問題を緩和するための新しいアプローチを提案する。
提案手法は, バイアス効果の低減に有効なハイブリッドサンプルを合成することにより, 限られたデータ環境下でのバイアス競合サンプルの発生が極端に低い問題に対処する。
いくつかのベンチマークデータセットで広範な実験を行い、限られたデータの存在下で未知のバイアスに対処するための提案手法の有効性を実験的に実証した。
具体的には, 崩壊したCIFAR-10 Type 1データセットの10%しか使用できない場合, バニラ, LfF, LDD, デビアンデバイアス法を10.39%, 9.08%, 8.07%, 9.67%で上回り, バイアス分散サンプル比0.05で利用できる。 Deep learning models are known to suffer from the problem of bias, and researchers have been exploring methods to address this issue. However, most of these methods require prior knowledge of the bias and are not always practical. In this paper, we focus on a more practical setting with no prior information about the bias. Generally, in this setting, there are a large number of bias-aligned samples that cause the model to produce biased predictions and a few bias-conflicting samples that do not conform to the bias. If the training data is limited, the influence of the bias-aligned samples may become even stronger on the model predictions, and we experimentally demonstrate that existing debiasing techniques suffer severely in such cases. In this paper, we examine the effects of unknown bias in small dataset regimes and present a novel approach to mitigate this issue. The proposed approach directly addresses the issue of the extremely low occurrence of bias-conflicting samples in limited data settings through the synthesis of hybrid samples that can be used to reduce the effect of bias. We perform extensive experiments on several benchmark datasets and experimentally demonstrate the effectiveness of our proposed approach in addressing any unknown bias in the presence of limited data. Specifically, our approach outperforms the vanilla, LfF, LDD, and DebiAN debiasing methods by absolute margins of 10.39%, 9.08%, 8.07%, and 9.67% when only 10% of the Corrupted CIFAR-10 Type 1 dataset is available with a bias-conflicting sample ratio of 0.05. | 翻訳日:2023-12-21 18:36:01 公開日:2023-12-20 |
# codell: コードのデータと言語モデルの共同進化をサポートする、生涯学習データセット CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code ( http://arxiv.org/abs/2312.12492v1 ) ライセンス: Link先を確認 | Martin Weyssow, Claudio Di Sipio, Davide Di Ruscio, and Houari Sahraoui | (参考訳) コードの言語モデル(LM)の生涯学習アプリケーションに関する最近の研究に触発され、コードの変更に焦点を当てた生涯学習データセットであるCodeLLを紹介した。
我々の貢献は、既存のコード変更データセットに長期的な時間次元がないことに特徴付けられる注目すべき研究ギャップに対処します。
対照的に、私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。
本稿では,ソフトウェア遺産から発掘された71の機械学習プロジェクトからなるcodellの初期バージョンを紹介する。
このデータセットは、メソッドとAPIレベルで2,483のリリースにまたがるコード変更の抽出と詳細な分析を可能にする。
codellは、コード変更を学習するための生涯の微調整設定におけるlmsの振る舞いを研究することができる。
さらに、データセットは、ソフトウェアリポジトリ内のデータの分散シフトと、時間とともにapiの使用方法の進化を研究するのに役立つ。 Motivated by recent work on lifelong learning applications for language models (LMs) of code, we introduce CodeLL, a lifelong learning dataset focused on code changes. Our contribution addresses a notable research gap marked by the absence of a long-term temporal dimension in existing code change datasets, limiting their suitability in lifelong learning scenarios. In contrast, our dataset aims to comprehensively capture code changes across the entire release history of open-source software repositories. In this work, we introduce an initial version of CodeLL, comprising 71 machine-learning-based projects mined from Software Heritage. This dataset enables the extraction and in-depth analysis of code changes spanning 2,483 releases at both the method and API levels. CodeLL enables researchers studying the behaviour of LMs in lifelong fine-tuning settings for learning code changes. Additionally, the dataset can help studying data distribution shifts within software repositories and the evolution of API usages over time. | 翻訳日:2023-12-21 18:16:26 公開日:2023-12-20 |
# 負の蒸留による極端に騒がしい顧客によるフェデレーション学習 Federated Learning with Extremely Noisy Clients via Negative Distillation ( http://arxiv.org/abs/2312.12703v1 ) ライセンス: Link先を確認 | Yang Lu, Lin Chen, Yonggang Zhang, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang | (参考訳) 連合学習 (federated learning, fl) は、一般的にノイズの多いラベルに苦しむ一方で、深層モデルの協調訓練において顕著な成功を示している。
先進的な研究は、弱いラベルノイズという強い仮定を持つ再重み付け戦略によってラベルノイズに取り組むことを提案する。
しかし、多くの現実世界のFLシナリオでは、高度に汚染されたクライアントが極端なノイズ比(例えば$>90%)をもたらすため、違反する可能性がある。
極端に騒がしいクライアントに取り組むために、我々は再重み付け戦略の堅牢性を調査し、悲観的な結論を示した: ノイズデータ上でトレーニングされたクライアントの重み付けを最小化することは再重み付け戦略を上回っている。
ノイズの多いクライアントで訓練されたモデルを活用するために,負蒸留(FedNed)と呼ばれる新しい手法を提案する。
fednedはまず、騒がしいクライアントを特定し、騒がしいクライアントを知識蒸留方式で捨てる代わりに雇用する。
特に、騒がしいと特定されたクライアントは、グローバルモデルによって得られた騒がしいラベルや擬似ラベルを使ってモデルを訓練する必要がある。
ノイズラベルで訓練されたモデルは知識蒸留における「悪い教師」として機能し、誤った情報を提供するリスクを減らすことを目的としている。
一方、擬似ラベルで訓練されたモデルは、ノイズの多いクライアントとして特定されない場合、モデル集約に関与します。
その結果、FedNedは疑似ラベル付けにより、ノイズの多いクライアントで訓練されたモデルの信頼性を徐々に向上させ、負の蒸留を通じてモデル集約にすべてのクライアントを活用する。
FedNedの有効性を検証するために,FedNedはベースラインを一貫して上回り,最先端の性能を達成することができることを示す。
私たちのコードはhttps://github.com/linchen99/fednedで利用可能です。 Federated learning (FL) has shown remarkable success in cooperatively training deep models, while typically struggling with noisy labels. Advanced works propose to tackle label noise by a re-weighting strategy with a strong assumption, i.e., mild label noise. However, it may be violated in many real-world FL scenarios because of highly contaminated clients, resulting in extreme noise ratios, e.g., $>$90%. To tackle extremely noisy clients, we study the robustness of the re-weighting strategy, showing a pessimistic conclusion: minimizing the weight of clients trained over noisy data outperforms re-weighting strategies. To leverage models trained on noisy clients, we propose a novel approach, called negative distillation (FedNed). FedNed first identifies noisy clients and employs rather than discards the noisy clients in a knowledge distillation manner. In particular, clients identified as noisy ones are required to train models using noisy labels and pseudo-labels obtained by global models. The model trained on noisy labels serves as a `bad teacher' in knowledge distillation, aiming to decrease the risk of providing incorrect information. Meanwhile, the model trained on pseudo-labels is involved in model aggregation if not identified as a noisy client. Consequently, through pseudo-labeling, FedNed gradually increases the trustworthiness of models trained on noisy clients, while leveraging all clients for model aggregation through negative distillation. To verify the efficacy of FedNed, we conduct extensive experiments under various settings, demonstrating that FedNed can consistently outperform baselines and achieve state-of-the-art performance. Our code is available at https://github.com/linChen99/FedNed. | 翻訳日:2023-12-21 17:30:15 公開日:2023-12-20 |
# fmriデータの因果的発見:課題,解決法,ケーススタディ Causal Discovery for fMRI data: Challenges, Solutions, and a Case Study ( http://arxiv.org/abs/2312.12678v1 ) ライセンス: Link先を確認 | Eric Rawls, Bryan Andrews, Kelvin Lim, Erich Kummerfeld | (参考訳) 因果発見を適用する研究の設計には、多くの研究者の自由度をナビゲートする必要がある。
この複雑さはfMRIデータによる研究によってさらに悪化する。
本論文では,
i) fMRIデータに因果発見を適用する際に生じる9つの課題について述べる。
(二)行うべき決定の空間を議論すること。
三 最近の事例研究がその決定を下したかの見直し。
(iv)新しい手法の開発によって解決される可能性のある既存のギャップを特定します。
全体として、因果発見はfMRIデータを解析するための有望なアプローチであり、従来のfMRI機能接続法よりも優れているが、現在のfMRIの因果発見法は改善の余地がある。 Designing studies that apply causal discovery requires navigating many researcher degrees of freedom. This complexity is exacerbated when the study involves fMRI data. In this paper we (i) describe nine challenges that occur when applying causal discovery to fMRI data, (ii) discuss the space of decisions that need to be made, (iii) review how a recent case study made those decisions, (iv) and identify existing gaps that could potentially be solved by the development of new methods. Overall, causal discovery is a promising approach for analyzing fMRI data, and multiple successful applications have indicated that it is superior to traditional fMRI functional connectivity methods, but current causal discovery methods for fMRI leave room for improvement. | 翻訳日:2023-12-21 17:29:45 公開日:2023-12-20 |
# ベイズ設定における組合せガウス過程帯域:エネルギー効率の良い航法の理論と応用 Combinatorial Gaussian Process Bandits in Bayesian Settings: Theory and Application for Energy-Efficient Navigation ( http://arxiv.org/abs/2312.12676v1 ) ライセンス: Link先を確認 | Jack Sandberg, Niklas {\AA}kerblom, Morteza Haghir Chehreghani | (参考訳) 時変アームアベイラビリティを伴うガウス過程の半帯域問題を考える。
各ラウンドごとにエージェントが利用可能なベースアームのセットを提供し、そのサブセットを選択して長期累積報酬を最大化しなければならない。
期待される報酬が腕空間上のガウス過程(GP)からサンプリングされるとすると、エージェントは効率的に学習できる。
GP-UCB, Bayes-GP-UCB, GP-TSの3つのアルゴリズムに対して, ベイズ設定について検討し, 新たなベイズ後悔境界を提供する。
gp-ucb と gp-ts の既往の結果を,arm の可用性の異なる組み合わせ設定に拡張し,我々の知る限りでは bayes-gp-ucb に対する最初のベイズ後悔を与える。
時変アーム・アベイラビリティーは、コンテキスト・バンディットのような他の広く検討されているバンディット問題を含んでいる。
オンラインエネルギー効率の良いナビゲーション問題をコンビネートリアル・コンテクスト・バンディットとして定式化し,詳細なシミュレーションによる合成・実世界の道路網に関する総合実験を行った。
文脈gpモデルは、非文脈ベイズ推論モデルと比較して、より低い後悔を得ることができ、前者の情報度に依存しない。
さらに、トンプソンサンプリングは文脈モデルと非文脈モデルの両方においてベイズUCBよりも低い後悔を得る。 We consider a combinatorial Gaussian process semi-bandit problem with time-varying arm availability. Each round, an agent is provided a set of available base arms and must select a subset of them to maximize the long-term cumulative reward. Assuming the expected rewards are sampled from a Gaussian process (GP) over the arm space, the agent can efficiently learn. We study the Bayesian setting and provide novel Bayesian regret bounds for three GP-based algorithms: GP-UCB, Bayes-GP-UCB and GP-TS. Our bounds extend previous results for GP-UCB and GP-TS to a combinatorial setting with varying arm availability and to the best of our knowledge, we provide the first Bayesian regret bound for Bayes-GP-UCB. Time-varying arm availability encompasses other widely considered bandit problems such as contextual bandits. We formulate the online energy-efficient navigation problem as a combinatorial and contextual bandit and provide a comprehensive experimental study on synthetic and real-world road networks with detailed simulations. The contextual GP model obtains lower regret and is less dependent on the informativeness of the prior compared to the non-contextual Bayesian inference model. In addition, Thompson sampling obtains lower regret than Bayes-UCB for both the contextual and non-contextual model. | 翻訳日:2023-12-21 17:29:33 公開日:2023-12-20 |
# AdvST: 単一ドメインの一般化のためのデータ拡張の再検討 AdvST: Revisiting Data Augmentations for Single Domain Generalization ( http://arxiv.org/abs/2312.12720v1 ) ライセンス: Link先を確認 | Guangtao Zheng, Mengdi Huai, Aidong Zhang | (参考訳) single domain generalization (sdg) は、単一のソースドメインのデータを使用して、未知のターゲットドメインシフトに対して堅牢なモデルをトレーニングすることを目的としている。
データ拡張はSDGに対する効果的なアプローチであることが証明されている。
しかし、Translateやinvertのような標準拡張の実用性はSDGでは十分に活用されておらず、実際、これらの拡張はデータ前処理の一部として使用される。
このような拡張を,分散領域シフトに対するモデルの堅牢性を高めるために利用するのは直感的ですが,これらの拡張によってもたらされるメリットを享受するための原則的なアプローチには欠けています。
ここでは,学習可能なパラメータを用いた標準データ拡張を,画像の形状や色など,サンプルの特定の意味を操作可能な意味変換として概念化する。
次に,セマンティクス変換によってソースドメインデータを強化し,拡張データを用いて頑健なモデルを学習する,セマンティクス変換(advst)を用いた逆学習を提案する。
理論的には、AdvSTは、セマンティクス変換のパラメータによって誘導されるセマンティクス分布の集合上で定義された分布的に堅牢な最適化目標を本質的に最適化する。
我々はadvstが対象ドメインデータのカバレッジを拡大するサンプルを生成できることを実証する。
最先端のメソッドと比較すると、AdvSTは単純なメソッドであるにもかかわらず驚くほど競争力があり、Digits、PACS、DomainNetデータセット上で最高の平均SDGパフォーマンスを達成する。
私たちのコードはhttps://github.com/gtzheng/AdvST.comで利用可能です。 Single domain generalization (SDG) aims to train a robust model against unknown target domain shifts using data from a single source domain. Data augmentation has been proven an effective approach to SDG. However, the utility of standard augmentations, such as translate, or invert, has not been fully exploited in SDG; practically, these augmentations are used as a part of a data preprocessing procedure. Although it is intuitive to use many such augmentations to boost the robustness of a model to out-of-distribution domain shifts, we lack a principled approach to harvest the benefit brought from multiple these augmentations. Here, we conceptualize standard data augmentations with learnable parameters as semantics transformations that can manipulate certain semantics of a sample, such as the geometry or color of an image. Then, we propose Adversarial learning with Semantics Transformations (AdvST) that augments the source domain data with semantics transformations and learns a robust model with the augmented data. We theoretically show that AdvST essentially optimizes a distributionally robust optimization objective defined on a set of semantics distributions induced by the parameters of semantics transformations. We demonstrate that AdvST can produce samples that expand the coverage on target domain data. Compared with the state-of-the-art methods, AdvST, despite being a simple method, is surprisingly competitive and achieves the best average SDG performance on the Digits, PACS, and DomainNet datasets. Our code is available at https://github.com/gtzheng/AdvST. | 翻訳日:2023-12-21 17:16:18 公開日:2023-12-20 |
# DoDo-Code: IDSチャネルとDNAストレージのためのディープレベンシュテイン距離埋め込みベースのコード DoDo-Code: a Deep Levenshtein Distance Embedding-based Code for IDS Channel and DNA Storage ( http://arxiv.org/abs/2312.12717v1 ) ライセンス: Link先を確認 | Alan J.X. Guo, Sihan Sun, Xiang Wei, Mengyi Wei, Xin Chen | (参考訳) 近年、DNAストレージは有望なデータストレージソリューションとして登場し、ストレージ密度、メンテナンスコスト効率、並列レプリケーション能力に大きな利点をもたらしている。
数学的には、DNA貯蔵パイプラインは挿入、削除、置換(IDS)チャネルと見なすことができる。
レヴェンシュテイン距離の数学的テラ認識のため、IDS訂正コードの設計は依然として課題である。
本稿では,これらの数学的課題を回避すべく,深部レベンシュテイン距離埋め込みを用いた革新的な手法を提案する。
2つの配列間のレヴェンシュテイン距離を、対応する埋め込みベクトル間の従来の距離として表現することにより、親密な埋め込み空間において、レヴェンシュテイン距離の性質を明らかにする。
この埋め込み空間を活用することで、レベンシュテイン距離の深い埋め込み、深埋め込みベースのコードワード検索、深埋め込みに基づくセグメント修正を組み込んだids訂正コードであるdodo-codeを導入する。
また,DNA保存の要件に対処するため,長周期デコードのための予備アルゴリズムを提案する。
私たちが知る限り、DoDo-Codeは、プラウシブルなディープラーニング方法論を使って設計された最初のIDS訂正コードであり、エラー修正コード研究における新たな方向性の道を開く可能性がある。
また、冗長性の観点から「最適」であることの特徴を示す最初のidsコードであり、コードレートでvarshamov-tenengoltsコードファミリーの主流ids訂正符号を著しく上回っている。 Recently, DNA storage has emerged as a promising data storage solution, offering significant advantages in storage density, maintenance cost efficiency, and parallel replication capability. Mathematically, the DNA storage pipeline can be viewed as an insertion, deletion, and substitution (IDS) channel. Because of the mathematical terra incognita of the Levenshtein distance, designing an IDS-correcting code is still a challenge. In this paper, we propose an innovative approach that utilizes deep Levenshtein distance embedding to bypass these mathematical challenges. By representing the Levenshtein distance between two sequences as a conventional distance between their corresponding embedding vectors, the inherent structural property of Levenshtein distance is revealed in the friendly embedding space. Leveraging this embedding space, we introduce the DoDo-Code, an IDS-correcting code that incorporates deep embedding of Levenshtein distance, deep embedding-based codeword search, and deep embedding-based segment correcting. To address the requirements of DNA storage, we also present a preliminary algorithm for long sequence decoding. As far as we know, the DoDo-Code is the first IDS-correcting code designed using plausible deep learning methodologies, potentially paving the way for a new direction in error-correcting code research. It is also the first IDS code that exhibits characteristics of being `optimal' in terms of redundancy, significantly outperforming the mainstream IDS-correcting codes of the Varshamov-Tenengolts code family in code rate. | 翻訳日:2023-12-21 17:15:53 公開日:2023-12-20 |
# BloomVQA:階層型マルチモーダル理解の評価 BloomVQA: Assessing Hierarchical Multi-modal Comprehension ( http://arxiv.org/abs/2312.12716v1 ) ライセンス: Link先を確認 | Yunye Gong, Robik Shrestha, Jared Claypoole, Michael Cogswell, Arijit Ray, Christopher Kanan, Ajay Divakaran | (参考訳) 幼児教育のための絵物語に基づく新しいvqaデータセットを提案し,理解課題における視覚言語モデルの包括的評価とキャラクタリゼーションを容易にすることを目的とした。
現在のvqaデータセットとは異なり、科学的な基礎づけのない事実に基づく記憶と単純な推論タスクにしばしば焦点をあてるが、我々は異なるレベルの理解と基礎となる認知過程を反映したタスクを含むデータを収集する。
提案されたbloomvqaデータセットは、ビジュアルストーリーの階層グラフベースの表現にマッピングすることができ、自動データ拡張と、基盤となる分類全体にわたるモデルの一貫性を特徴付ける新しい尺度を可能にする。
本稿では,最先端のビジョン言語モデルに基づく一貫性指標に基づく評価と信頼性解析について述べる。
以上の結果から,近年のモデルでは,低レベル理解タスクにおいて最も向上しているものの,VQAの精度が38.0%低下しているため,より高度な理解と認知スキルを必要とするハイレベルなタスクでは一般的に不足していることが示唆された。
さらに、現在のモデルでは、様々なシナリオにおける人間の理解と矛盾した一貫性パターンを示し、モデル行動の創発的構造を示唆している。 We propose a novel VQA dataset, based on picture stories designed for educating young children, that aims to facilitate comprehensive evaluation and characterization of vision-language models on comprehension tasks. Unlike current VQA datasets that often focus on fact-based memorization and simple reasoning tasks without principled scientific grounding, we collect data containing tasks reflecting different levels of comprehension and underlying cognitive processes, as laid out in Bloom's Taxonomy, a classic framework widely adopted in education research. The proposed BloomVQA dataset can be mapped to a hierarchical graph-based representation of visual stories, enabling automatic data augmentation and novel measures characterizing model consistency across the underlying taxonomy. We demonstrate graded evaluation and reliability analysis based on our proposed consistency metrics on state-of-the-art vision-language models. Our results suggest that, while current models achieve the most gain on low-level comprehension tasks, they generally fall short on high-level tasks requiring more advanced comprehension and cognitive skills, as 38.0% drop in VQA accuracy is observed comparing lowest and highest level tasks. Furthermore, current models show consistency patterns misaligned with human comprehension in various scenarios, suggesting emergent structures of model behaviors. | 翻訳日:2023-12-21 17:15:23 公開日:2023-12-20 |
# 説明可能性保証付きアンサンブルの学習性能最大化 Learning Performance Maximizing Ensembles with Explainability Guarantees ( http://arxiv.org/abs/2312.12715v1 ) ライセンス: Link先を確認 | Vincent Pisztora, Jia Li | (参考訳) 本稿では,本質的な説明可能なガラス箱モデルとブラックボックスモデルとの観測を最適に割り当てる手法を提案する。
任意の説明可能性レベル(すなわち、説明可能なモデルが予測関数である観察の割合)に対して最適な割り当てが定義され、基礎となるタスク上でのアンサンブルの性能を最大化し、最大アンサンブル性能条件の下で割り当てられた観測に対する説明可能なモデルの性能を最大化する。
提案手法は,様々な説明可能およびブラックボックスモデルタイプにわたる表型データセットのベンチマークスイート上で,説明可能性の最適割当を生成する。
これらの学習された割り当ては、非常に高い説明可能性レベルでアンサンブルのパフォーマンスを一貫して維持することが判明し(平均で74\%の観察値を示す)、説明可能性を改善しながら、コンポーネント説明可能モデルとブラックボックスモデルの両方を上回ることさえある。 In this paper we propose a method for the optimal allocation of observations between an intrinsically explainable glass box model and a black box model. An optimal allocation being defined as one which, for any given explainability level (i.e. the proportion of observations for which the explainable model is the prediction function), maximizes the performance of the ensemble on the underlying task, and maximizes performance of the explainable model on the observations allocated to it, subject to the maximal ensemble performance condition. The proposed method is shown to produce such explainability optimal allocations on a benchmark suite of tabular datasets across a variety of explainable and black box model types. These learned allocations are found to consistently maintain ensemble performance at very high explainability levels (explaining $74\%$ of observations on average), and in some cases even outperforming both the component explainable and black box models while improving explainability. | 翻訳日:2023-12-21 17:14:58 公開日:2023-12-20 |
# 電磁誘導透過は、ラマン勾配エコーメモリを適度なデチューニングで支援し、勾配秩序に依存する Electromagnetically-induced transparency assists the Raman gradient echo memory at moderate detuning, dependent on gradient order ( http://arxiv.org/abs/2312.12714v1 ) ライセンス: Link先を確認 | Jesse L. Everett, Ankit Papneja, Arindam Saha, Cameron Trainor, Aaron D. Tranter, Ben C. Buchler | (参考訳) 光量子メモリは、量子通信とフォトニック量子技術に不可欠である。
3レベル相互作用に基づくアンサンブル光メモリは、これらの記憶を実装するための一般的な基盤である。
しかし、ラマン勾配エコーメモリ(GEM)のような非共振3レベル相互作用に基づくアンサンブル光メモリは、中間状態からの散乱による損失を被る。
この散乱は通常、中間状態から大きくずれることによって減少する。
本研究は、ラマン吸収線に隣接した電磁誘導透過性により、GEMの損失が減少し、代わりに高い効率が適度な変形で達成されることを示す。
さらに、透明性の有効性、すなわちGEMの効率は、光の保存とリコールに勾配が適用される順序に依存する。
理論解析を行い,その効率が勾配次数とデチューニングにどのように依存するかを実験的に示す。 Optical quantum memories are essential for quantum communications and photonic quantum technologies. Ensemble optical memories based on 3-level interactions are a popular basis for implementing these memories. However, ensemble optical memories based on an off-resonant 3-level interaction, such as the Raman gradient echo memory (GEM), suffer loss due to scattering from the intermediate state. This scattering is normally reduced by a large detuning from the intermediate state. In this work we show that loss is reduced in GEM due to electromagnetically induced transparency adjacent to the Raman absorption line, and the highest efficiency is instead achieved at a moderate detuning. Furthermore, the effectiveness of the transparency, and therefore the efficiency of GEM, depends on the order in which gradients are applied to store and recall the light. We provide a theoretical analysis and show experimentally how the efficiency depends on gradient order and detuning. | 翻訳日:2023-12-21 17:14:39 公開日:2023-12-20 |
# 応答強化半教師付き対話クエリ生成 Response Enhanced Semi-Supervised Dialogue Query Generation ( http://arxiv.org/abs/2312.12713v1 ) ライセンス: Link先を確認 | Jianheng Huang, Ante Wang, Linfeng Gao, Linfeng Song, Jinsong Su | (参考訳) インターネットから広範囲かつ継続的に更新された知識を活用することは、対話システムにとって重要な能力であると考えられている。
そこで,対話履歴から検索クエリを生成するための対話クエリ生成タスクを提案し,関連するwebサイトをインターネット上で検索するための検索エンジンに提出する。
そこで本研究では,注釈付きクエリによる会話の収集と,標準教師あり学習によるクエリ生成者(QP)の訓練を行った。
しかし、これらの研究はデータ不足とドメイン適応の課題に直面している。
これらの課題に対処するため,本稿では,ラベルなし会話によるモデル性能向上を目的としたセミ教師付き学習フレームワークであるSemiDQGを提案する。
検索クエリが対話応答の話題と典型的に関連しているという観測に基づいて、応答型クエリ生成器(ra)を訓練し、qpにリッチで効果的なトレーニング信号を提供する。
まず、類似性に基づくクエリ選択手法を適用し、高品質なRA生成擬似クエリを選択し、QPとRAをトレーニングするための擬似インスタンスを構築する。
そこで, RAによる報酬を微粒化学習信号として, さらにQPを向上させるためにREINFORCEアルゴリズムを採用した。
3つのベンチマークの実験結果と詳細な分析により,クロスドメインおよび低リソースシナリオにおけるフレームワークの有効性が示された。
特にSemiDQGはChatGPTと競争ベースラインを大きく上回っている。
私たちのコードは \url{https://github.com/DeepLearnXMU/SemiDQG} で利用可能です。 Leveraging vast and continually updated knowledge from the Internet has been considered an important ability for a dialogue system. Therefore, the dialogue query generation task is proposed for generating search queries from dialogue histories, which will be submitted to a search engine for retrieving relevant websites on the Internet. In this regard, previous efforts were devoted to collecting conversations with annotated queries and training a query producer (QP) via standard supervised learning. However, these studies still face the challenges of data scarcity and domain adaptation. To address these issues, in this paper, we propose a semi-supervised learning framework -- SemiDQG, to improve model performance with unlabeled conversations. Based on the observation that the search query is typically related to the topic of dialogue response, we train a response-augmented query producer (RA) to provide rich and effective training signals for QP. We first apply a similarity-based query selection strategy to select high-quality RA-generated pseudo queries, which are used to construct pseudo instances for training QP and RA. Then, we adopt the REINFORCE algorithm to further enhance QP, with RA-provided rewards as fine-grained training signals. Experimental results and in-depth analysis of three benchmarks show the effectiveness of our framework in cross-domain and low-resource scenarios. Particularly, SemiDQG significantly surpasses ChatGPT and competitive baselines. Our code is available at \url{https://github.com/DeepLearnXMU/SemiDQG}. | 翻訳日:2023-12-21 17:14:24 公開日:2023-12-20 |
# 大規模言語モデルのためのフロンティアにおける分散トレーニングの最適化 Optimizing Distributed Training on Frontier for Large Language Models ( http://arxiv.org/abs/2312.12705v1 ) ライセンス: Link先を確認 | Sajal Dash, Isaac Lyngaas, Junqi Yin, Xiao Wang, Romain Egele, Guojing Cong, Feiyi Wang, Prasanna Balaprakash | (参考訳) 大きな言語モデル(LLM)は基礎モデルとして大きな成功を収めており、多くの下流アプリケーションは微調整の恩恵を受けている。
損失スケーリングに関する以前の研究は、より大きなLCMがより小さいものよりも優れた性能を示すことを示した。
しかし、20兆のトークン上で1兆GPTスタイルのモデルをトレーニングするには、1億2000万のアウトフロロップを実行する必要がある。
Frontierはオープンサイエンスのための世界初の高速なエクサスケールスーパーコンピュータであり、75264 MI250X GPUを搭載している。
この研究は、テンソル並列性、パイプライン並列性、シャードデータ並列性といった効率的な分散戦略を探求し、フロンティアエクサスケールスーパーコンピュータ上で1兆パラメータモデルをトレーニングする。
分散トレーニング手法と関連するパラメータを個別に分析し、どのテクニックを使うか、どのパラメータを選択するかを決定する。
我々はこれらの技術を用いてハイパーパラメータチューニングを行い、それらの複雑な相互作用を理解する。
これら2つのチューニングの取り組みを組み合わせることで、22B、175B、および1Tパラメータの3つのモデルに38.38\%$、36.14\%$、31.96\%$のスループットでトレーニングする最適な戦略を見出した。
175bのパラメータモデルと1tモデルのトレーニングでは、スケーリング効率が弱く、それぞれ89\%$と87\%$の強力なスケーリング効率を達成しました。
本研究は,実験結果とハイパーパラメータチューニングを通じて,LLMの分散トレーニングのための一連の戦略を示す。 Large language models (LLM) are showing tremendous success as foundation models, and many downstream applications benefit from fine-tuning. Prior works on loss scaling have demonstrated that the larger LLMs perform better than their smaller counterparts. However, training LLMs with billions of parameters requires considerable computational resources; to train a one trillion GPT-style model on 20 trillion tokens, we need to perform 120 million exaflops. Frontier is the world's first and fastest exascale supercomputer for open science and is equipped with 75264 MI250X GPUs. This work explores efficient distributed strategies such as tensor parallelism, pipeline parallelism, and sharded data parallelism to train a trillion-parameter model on the Frontier exascale supercomputer. We analyze these distributed training techniques and associated parameters individually to decide which techniques to use and what associated parameters to select for a particular technique. We perform hyperparameter tuning on these techniques to understand their complex interplay. Combined with these two tuning efforts, we have found optimal strategies to train three models of size 22B, 175B, and 1T parameters with $38.38\%$ , $36.14\%$ , and $31.96\%$ achieved throughput. For training the 175B parameter model and 1T model, we have achieved $100\%$ weak scaling efficiency and $89\%$ and $87\%$ strong scaling efficiency, respectively. Our work presents a set of strategies for distributed training of LLMs through experimental findings and hyperparameter tuning. | 翻訳日:2023-12-21 17:14:00 公開日:2023-12-20 |
# dgcluster:モジュラリティ最大化による属性付きグラフクラスタリングのためのニューラルフレームワーク DGCLUSTER: A Neural Framework for Attributed Graph Clustering via Modularity Maximization ( http://arxiv.org/abs/2312.12697v1 ) ライセンス: Link先を確認 | Aritra Bhowmick, Mert Kosan, Zexi Huang, Ambuj Singh, Sourav Medya | (参考訳) グラフクラスタリングは、グラフマイニングの分野において、グラフのトポロジーを考慮したノードをクラスタにグループ化することを目的とした、基本かつ挑戦的なタスクである。
ソーシャルネットワーク分析、レコメンデーターシステム、コンピュータビジョン、バイオインフォマティクスなど、様々な分野に応用されている。
本研究では,グラフニューラルネットワークを用いてモジュール性目標を最適化し,グラフサイズに線形にスケールする新しい手法であるdgclusterを提案する。
本手法では,入力の一部として指定するクラスタの数を必要とせず,補助ノードレベル情報の活用も可能である。
私たちはDGClusterを、さまざまなサイズの実世界のデータセットで、複数の一般的なクラスタ品質メトリクスで広範囲にテストしています。
われわれの手法は最先端の手法を一貫して上回り、ほぼすべての設定で大幅な性能向上を示す。 Graph clustering is a fundamental and challenging task in the field of graph mining where the objective is to group the nodes into clusters taking into consideration the topology of the graph. It has several applications in diverse domains spanning social network analysis, recommender systems, computer vision, and bioinformatics. In this work, we propose a novel method, DGCluster, which primarily optimizes the modularity objective using graph neural networks and scales linearly with the graph size. Our method does not require the number of clusters to be specified as a part of the input and can also leverage the availability of auxiliary node level information. We extensively test DGCluster on several real-world datasets of varying sizes, across multiple popular cluster quality metrics. Our approach consistently outperforms the state-of-the-art methods, demonstrating significant performance gains in almost all settings. | 翻訳日:2023-12-21 17:13:32 公開日:2023-12-20 |
# 逆問題の解法における深部生成モデルはどの程度優れているか? How Good Are Deep Generative Models for Solving Inverse Problems? ( http://arxiv.org/abs/2312.12691v1 ) ライセンス: Link先を確認 | Shichong Peng, Alireza Moazeni, Ke Li | (参考訳) 拡散モデル、GAN、IMLEといった深層生成モデルは、逆問題に対処する優れた能力を示している。
しかしながら、モデル生成解の妥当性、前方問題、関連する不確実性推定の信頼性は未定である。
本研究は, 拡散法, GAN法, IMLE法を3つの逆問題(超解像法, カラー化法, 画像圧縮法)で評価した。
これらのモデルのアウトプットの妥当性を逆問題に対する解として評価し,その解に対する不確実性推定の信頼性を徹底的に分析する。
全体として,IMLEに基づくCHIMLE法は,有効解の生成や信頼性の高い不確実性推定において,他の手法よりも優れていることがわかった。 Deep generative models, such as diffusion models, GANs, and IMLE, have shown impressive capability in tackling inverse problems. However, the validity of model-generated solutions w.r.t. the forward problem and the reliability of associated uncertainty estimates remain understudied. This study evaluates recent diffusion-based, GAN-based, and IMLE-based methods on three inverse problems, i.e., $16\times$ super-resolution, colourization, and image decompression. We assess the validity of these models' outputs as solutions to the inverse problems and conduct a thorough analysis of the reliability of the models' estimates of uncertainty over the solution. Overall, we find that the IMLE-based CHIMLE method outperforms other methods in terms of producing valid solutions and reliable uncertainty estimates. | 翻訳日:2023-12-21 17:13:16 公開日:2023-12-20 |
# 英語中心のLLMをポリグロットに変える: どのくらいの多言語性が必要か? Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed? ( http://arxiv.org/abs/2312.12683v1 ) ライセンス: Link先を確認 | Tannon Kew, Florian Schottmann, Rico Sennrich | (参考訳) 今日の大きな言語モデルの大半は英語中心であり、主に英語のテキストで事前訓練されている。
しかし、ユーザの期待に応えるためには、モデルがダウンストリームアプリケーションにデプロイされた複数の言語で適切に応答できる必要がある。
事前トレーニング中に他言語に限定的に露出することを考えると、非英語設定で適切なパフォーマンスを達成するためには言語間移動が重要である。
本研究では,タスクや対象言語にまたがる強い言語間一般化を実現するための微調整において,多言語性がどの程度必要かを検討する。
英語のみの微調整と比較すると、3つの言語での多言語指導は、入力/出力言語合意を前提とした生成タスクにおけるモデルの言語間変換能力を大幅に改善するが、高度に構造化されたタスクではそれほど重要ではない。
コードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuningで公開しています。 The vast majority of today's large language models are English-centric, having been pretrained predominantly on English text. Yet, in order to meet user expectations, models need to be able to respond appropriately in multiple languages once deployed in downstream applications. Given limited exposure to other languages during pretraining, cross-lingual transfer is important for achieving decent performance in non-English settings. In this work, we investigate just how much multilinguality is required during finetuning to elicit strong cross-lingual generalisation across a range of tasks and target languages. We find that, compared to English-only finetuning, multilingual instruction tuning with as few as three languages significantly improves a model's cross-lingual transfer abilities on generative tasks that assume input/output language agreement, while being of less importance for highly structured tasks. Our code and data is available at https://github.com/ZurichNLP/multilingual-instruction-tuning. | 翻訳日:2023-12-21 17:13:00 公開日:2023-12-20 |
# Mini-GPTs:コンテキストプラニングによる効率的な大規模言語モデル Mini-GPTs: Efficient Large Language Models through Contextual Pruning ( http://arxiv.org/abs/2312.12682v1 ) ライセンス: Link先を確認 | Tim Valicenti, Justice Vidal, Ritik Patnaik | (参考訳) AI研究において、LLM(Large Language Models)の最適化は、この分野の実践的応用と持続可能性を促進する上で重要な課題である。
本稿では,MITのSong Han教授の研究室の基礎研究に基づいて,コンテキストプラニングによるMini-GPTの開発に新たなアプローチを提案する。
我々の手法は、Phi-1.5のような従来のLLMの計算アーキテクチャを戦略的に立案し、コア機能を維持しながら、モデルサイズを大幅に削減する。
我々は、米国法、医学Q&A、スカイリム対話、英台湾翻訳、経済記事など、多種多様な複雑なデータセットにこの技術を適用している。
この結果は, 理論的概念としてだけではなく, ドメイン固有の資源効率の高いLCMを開発するための実践的ツールとして, 文脈プラニングの効率と有効性を強調した。
コンテキストプルーニング(Contextual pruning)はドメイン固有のLCMを構築するための有望な手法であり、この研究は、よりハードウェアコンピューティング、洗練された微調整、量子化による将来の開発に向けたビルディングブロックである。 In AI research, the optimization of Large Language Models (LLMs) remains a significant challenge, crucial for advancing the field's practical applications and sustainability. Building upon the foundational work of Professor Song Han's lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via contextual pruning. Our methodology strategically prunes the computational architecture of traditional LLMs, like Phi-1.5, focusing on retaining core functionalities while drastically reducing model sizes. We employ the technique across diverse and complex datasets, including US law, Medical Q&A, Skyrim dialogue, English-Taiwanese translation, and Economics articles. The results underscore the efficiency and effectiveness of contextual pruning, not merely as a theoretical concept but as a practical tool in developing domain-specific, resource-efficient LLMs. Contextual pruning is a promising method for building domain-specific LLMs, and this research is a building block towards future development with more hardware compute, refined fine-tuning, and quantization. | 翻訳日:2023-12-21 17:12:43 公開日:2023-12-20 |
# 生命の模倣: 生物にインスパイアされたデザインのための検索エンジン Imitation of Life: A Search Engine for Biologically Inspired Design ( http://arxiv.org/abs/2312.12681v1 ) ライセンス: Link先を確認 | Hen Emuna, Nadav Borenstein, Xin Qian, Hyeonsu Kang, Joel Chan, Aniket Kittur, Dafna Shahaf | (参考訳) BID(Bioologically Inspireed Design)は、工学的な課題を解決するために自然と類似する手法である。
例えばspeedoのエンジニアたちは、サメの皮膚に基づいて水着をデザインした。
現実世界の問題に対する関連する生物学的ソリューションを見つけることは、生物知識技術者やデザイナーが通常持つ限られたBIDリソースのために、大きな課題を引き起こす。
既存の入札データセットは手作りで小さく、スケールアップには高価な人的アノテーションが必要です。
本稿では,Webからバイオインスピレーションを自動的に抽出する検索エンジンであるBARcode(Biological Analogy Retriever)を紹介する。
自然言語の理解とデータプログラミングの進歩を利用して、BARcodeはエンジニアリングの課題に対する潜在的なインスピレーションを特定する。
我々の実験は、BARcodeがエンジニアやデザイナーにとって価値のあるインスピレーションを回収できることを示した。
私たちは、BARcodeを、歴史的にエンジニアリングイノベーションへのBIDの実践的応用を妨げる課題に対処するためのステップだと考えています。 Biologically Inspired Design (BID), or Biomimicry, is a problem-solving methodology that applies analogies from nature to solve engineering challenges. For example, Speedo engineers designed swimsuits based on shark skin. Finding relevant biological solutions for real-world problems poses significant challenges, both due to the limited biological knowledge engineers and designers typically possess and to the limited BID resources. Existing BID datasets are hand-curated and small, and scaling them up requires costly human annotations. In this paper, we introduce BARcode (Biological Analogy Retriever), a search engine for automatically mining bio-inspirations from the web at scale. Using advances in natural language understanding and data programming, BARcode identifies potential inspirations for engineering challenges. Our experiments demonstrate that BARcode can retrieve inspirations that are valuable to engineers and designers tackling real-world problems, as well as recover famous historical BID examples. We release data and code; we view BARcode as a step towards addressing the challenges that have historically hindered the practical application of BID to engineering innovation. | 翻訳日:2023-12-21 17:12:22 公開日:2023-12-20 |
# 前方カメラの位相相関に基づく映像の軌跡近似 Trajectory Approximation of Video Based on Phase Correlation for Forward Facing Camera ( http://arxiv.org/abs/2312.12680v1 ) ライセンス: Link先を確認 | Abdulkadhem A. Abdulkadhem | (参考訳) 本稿では,カメラセンサから映像オドメトリーを活用し,gpsを固定した環境での軌跡抽出手法を提案する。
このシステムは、車両に搭載された前方カメラの映像を入力として撮影し、出力はカメラの軌道を表すチェーンコードである。
提案手法にはいくつかの重要なステップがある。
まず,ビデオの連続フレーム間の位相相関を用いて重要な情報を抽出する。
次に, 位相相関から得られるxシフト値に基づいて, 動的連鎖符号(dynamic chain code)と呼ばれる新しい連鎖符号法を提案する。
3番目のステップは、しきい値を確立し、対応する連鎖コードを抽出することで、方向の変化(前方、左、右)を決定することである。
この抽出されたコードはバッファに格納され、さらなる処理を行う。
特に,本システムは空間的特徴に依存した従来の手法より優れ,ノイズの多い環境においてより高速で堅牢であることを示す。
本手法は,外部カメラキャリブレーション情報なしで動作可能である。
さらに,視覚計測を取り入れることで,カメラの動きを推定する精度が向上し,軌跡力学のより包括的理解がもたらされる。
最後に、システムは、正規化されたカメラの動きの軌跡を可視化する。 In this paper, we introduce an innovative approach for extracting trajectories from a camera sensor in GPS-denied environments, leveraging visual odometry. The system takes video footage captured by a forward-facing camera mounted on a vehicle as input, with the output being a chain code representing the camera's trajectory. The proposed methodology involves several key steps. Firstly, we employ phase correlation between consecutive frames of the video to extract essential information. Subsequently, we introduce a novel chain code method termed "dynamic chain code," which is based on the x-shift values derived from the phase correlation. The third step involves determining directional changes (forward, left, right) by establishing thresholds and extracting the corresponding chain code. This extracted code is then stored in a buffer for further processing. Notably, our system outperforms traditional methods reliant on spatial features, exhibiting greater speed and robustness in noisy environments. Importantly, our approach operates without external camera calibration information. Moreover, by incorporating visual odometry, our system enhances its accuracy in estimating camera motion, providing a more comprehensive understanding of trajectory dynamics. Finally, the system culminates in the visualization of the normalized camera motion trajectory. | 翻訳日:2023-12-21 17:12:03 公開日:2023-12-20 |
# 量子化ニューラルネットワークの有効検証に向けて Towards Efficient Verification of Quantized Neural Networks ( http://arxiv.org/abs/2312.12679v1 ) ライセンス: Link先を確認 | Pei Huang, Haoze Wu, Yuting Yang, Ieva Daukantas, Min Wu, Yedi Zhang and Clark Barrett | (参考訳) 量子化は、ディープニューラルネットワークモデルの浮動小数点演算を整数演算に置き換え、より少ない電力とメモリでより効率的なオンデバイス推論を提供する。
本研究では,量子化ニューラルネットワークの特性を正式に検証する枠組みを提案する。
本手法は,音質と完全性の両方を保証する整数線形計画に基づいている。
次に,グラデーションに基づくヒューリスティック探索法とバウンドプロパゲーション手法を用いることで,効率を向上させる方法を示す。
PyTorchで量子化された知覚ネットワークに対する我々のアプローチを評価する。
その結果,従来の技術よりもスケーラビリティと効率のよい量子化ネットワークを検証できることが示唆された。 Quantization replaces floating point arithmetic with integer arithmetic in deep neural network models, providing more efficient on-device inference with less power and memory. In this work, we propose a framework for formally verifying properties of quantized neural networks. Our baseline technique is based on integer linear programming which guarantees both soundness and completeness. We then show how efficiency can be improved by utilizing gradient-based heuristic search methods and also bound-propagation techniques. We evaluate our approach on perception networks quantized with PyTorch. Our results show that we can verify quantized networks with better scalability and efficiency than the previous state of the art. | 翻訳日:2023-12-21 17:11:44 公開日:2023-12-20 |
# リアルタイム広告システムにおける広告とクリエイティブの並列ランキング Parallel Ranking of Ads and Creatives in Real-Time Advertising Systems ( http://arxiv.org/abs/2312.12750v1 ) ライセンス: Link先を確認 | Zhiguang Yang, Lu Wang, Chun Gan, Liufang Sang, Haoran Wang, Wenlong Chen, Jie He, Changping Peng, Zhangang Lin, Jingping Shao | (参考訳) 「創造性は広告サービスの心と魂である。」
広告主はターゲットユーザーにリーチし、マーケティングの目的をより効果的に達成し、ユーザーはより迅速に興味のある製品を見つけることができ、プラットフォームはより多くの広告収入を生み出すことができる。
AI生成コンテンツの出現により、広告主は最小限のコストで大量のクリエイティブコンテンツを制作できるようになった。
現在の課題は、広告システムが個人ごとに最も関連する創造性をリアルタイムで選択する方法にある。
既存の手法は通常、広告や創造性を連続的にランク付けし、有効性と効率の両面で創造的なモジュールを制限する。
本稿では,オンライン広告とクリエイティビティランキングを並列に推定する新しいアーキテクチャと,それに対応するオフライン共同最適化モデルを提案する。
オンラインアーキテクチャは、全体的なレイテンシを削減しながら、洗練されたパーソナライズされたクリエイティブモデリングを可能にする。
CTR推定のためのオフラインジョイントモデルは、広告とクリエイティブの相互認識と協調最適化を可能にする。
さらに,広告クリエイティビティランキングにかかわる暗黙的なフィードバックソートタスクに対して,オフライン評価メトリクスを最適化する。
我々は2つの最先端のアプローチと比較するための広範囲な実験を行う。
その結果,オンラインのオフライン評価と実世界の広告プラットフォームにおけるアプローチの有効性を,応答時間,CTR,CPMの観点から示すことができた。 "Creativity is the heart and soul of advertising services". Effective creatives can create a win-win scenario: advertisers can reach target users and achieve marketing objectives more effectively, users can more quickly find products of interest, and platforms can generate more advertising revenue. With the advent of AI-Generated Content, advertisers now can produce vast amounts of creative content at a minimal cost. The current challenge lies in how advertising systems can select the most pertinent creative in real-time for each user personally. Existing methods typically perform serial ranking of ads or creatives, limiting the creative module in terms of both effectiveness and efficiency. In this paper, we propose for the first time a novel architecture for online parallel estimation of ads and creatives ranking, as well as the corresponding offline joint optimization model. The online architecture enables sophisticated personalized creative modeling while reducing overall latency. The offline joint model for CTR estimation allows mutual awareness and collaborative optimization between ads and creatives. Additionally, we optimize the offline evaluation metrics for the implicit feedback sorting task involved in ad creative ranking. We conduct extensive experiments to compare ours with two state-of-the-art approaches. The results demonstrate the effectiveness of our approach in both offline evaluations and real-world advertising platforms online in terms of response time, CTR, and CPM. | 翻訳日:2023-12-21 17:05:38 公開日:2023-12-20 |
# 大規模言語モデルにおける安全でない例の学習と忘れ方 Learning and Forgetting Unsafe Examples in Large Language Models ( http://arxiv.org/abs/2312.12736v1 ) ライセンス: Link先を確認 | Jiachen Zhao, Zhun Deng, David Madras, James Zou, Mengye Ren | (参考訳) 一般公開される大規模言語モデル(llm)の数が増えるにつれ、サードパーティのカスタム微調整データから学習するこれらのモデルに関連する安全性の意味を理解する必要がある。
バイアス、毒性、有害性を含むデータセットで表される、安全でないコンテンツを含むノイズの多いカスタムデータに基づいて微調整されたllmの挙動を調査し、アライメントされたllmは、この安全でないコンテンツを簡単に学習できるが、その後安全なコンテンツで微調整された場合、他の例よりもかなり忘れがちであることを示す。
このアルゴリズムは、モデルの忘れた信号がそのデータに対してどれだけ強いかに基づいて、安全でないデータをフィルタリングする。
このアルゴリズムは,逐次的安全性の微調整とは異なり,下流のタスク性能を損なうことなく,カスタマイズされた微調整の安全性を保証する。
ForgetFilterは、カスタム微調整中にLLMが安全でないコンテンツを同化する能力を抑えるために、リプレイや道徳的自己補正のような代替戦略、例えば、安全対策を適用しない場合よりも75%低く、毒性スコアで自己補正を使用する場合よりも62%低い。 As the number of large language models (LLMs) released to the public grows, there is a pressing need to understand the safety implications associated with these models learning from third-party custom finetuning data. We explore the behavior of LLMs finetuned on noisy custom data containing unsafe content, represented by datasets that contain biases, toxicity, and harmfulness, finding that while aligned LLMs can readily learn this unsafe content, they also tend to forget it more significantly than other examples when subsequently finetuned on safer content. Drawing inspiration from the discrepancies in forgetting, we introduce the "ForgetFilter" algorithm, which filters unsafe data based on how strong the model's forgetting signal is for that data. We demonstrate that the ForgetFilter algorithm ensures safety in customized finetuning without compromising downstream task performance, unlike sequential safety finetuning. ForgetFilter outperforms alternative strategies like replay and moral self-correction in curbing LLMs' ability to assimilate unsafe content during custom finetuning, e.g. 75% lower than not applying any safety measures and 62% lower than using self-correction in toxicity score. | 翻訳日:2023-12-21 17:05:18 公開日:2023-12-20 |
# metasegnet: リモートセンシング画像の意味セグメンテーションのためのメタデータ協調視覚言語表現学習 MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2312.12735v1 ) ライセンス: Link先を確認 | Libo Wang and Sijun Dong and Ying Chen and Xiaoliang Meng and Shenghui Fang | (参考訳) リモートセンシング画像のセマンティックセグメンテーションは、土地利用土地被覆マッピング、環境モニタリング、持続可能な開発など、幅広い地球観測(EO)応用において重要な役割を担っている。
人工知能(AI)の急速な発展によって、ディープラーニング(DL)がセマンティックセグメンテーションの主流となり、リモートセンシングの分野で多くのブレークスルーを達成した。
しかし、既存のDLベースの手法は、現実の世界に関わる豊富なマルチモーダル情報を無視しながら、単調な視覚データに重点を置いている。
視覚トランスフォーマーと大規模言語モデルの成功に触発されて,視覚言語表現学習をリモートセンシング画像の意味セグメンテーションに適用するメタデータ協調マルチモーダルセグメンテーションネットワーク(metasegnet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、利用可能なリモートセンシング画像メタデータから重要な特徴(気候帯)を抽出し、汎用的なChatGPTを介して知識ベースのテキストプロンプトに転送する。
そして、画像エンコーダ、テキストエンコーダ、およびクロスモーダルアテンション融合サブネットワークを構築し、画像とテキストの特徴を抽出し、画像とテキストの相互作用を適用する。
このような設計により、提案されたMetaSegNetは優れた一般化を示し、大規模OpenEarthMapデータセット(68.6% mIoU)とPotsdamデータセット(93.3%はF1スコア)とLoveDAデータセット(52.2% mIoU)の最先端セマンティックセマンティックセマンティックセグメンテーション手法との競合精度を達成する。 Semantic segmentation of remote sensing images plays a vital role in a wide range of Earth Observation (EO) applications, such as land use land cover mapping, environment monitoring, and sustainable development. Driven by rapid developments in Artificial Intelligence (AI), deep learning (DL) has emerged as the mainstream tool for semantic segmentation and achieved many breakthroughs in the field of remote sensing. However, the existing DL-based methods mainly focus on unimodal visual data while ignoring the rich multimodal information involved in the real world, usually demonstrating weak reliability and generlization. Inspired by the success of Vision Transformers and large language models, we propose a novel metadata-collaborative multimodal segmentation network (MetaSegNet) that applies vision-language representation learning for semantic segmentation of remote sensing images. Unlike the common model structure that only uses unimodal visual data, we extract the key characteristic (i.e. the climate zone) from freely available remote sensing image metadata and transfer it into knowledge-based text prompts via the generic ChatGPT. Then, we construct an image encoder, a text encoder and a crossmodal attention fusion subnetwork to extract the image and text feature and apply image-text interaction. Benefiting from such a design, the proposed MetaSegNet demonstrates superior generalization and achieves competitive accuracy with state-of-the-art semantic segmentation methods on the large-scale OpenEarthMap dataset (68.6% mIoU) and Potsdam dataset (93.3% mean F1 score) as well as LoveDA dataset (52.2% mIoU). | 翻訳日:2023-12-21 17:04:54 公開日:2023-12-20 |
# ライドバーグ巨大原子の導波路構造における光学制御キラルカップリングに基づく単一光子操作 Single-photon manipulations based on optically-controlled chiral couplings in waveguide structures of Rydberg giant atoms ( http://arxiv.org/abs/2312.12733v1 ) ライセンス: Link先を確認 | Yao-Tong Chen, Lei Du, Zhihai Wang, M. Artoni, G. C. La Rocca, and Jin-Hui Wu | (参考訳) 導波路に結合された2つの相互作用するリドバーグ原子は、例えば外部の駆動場の幾何学的チューニングによって、非相互光子散乱の方向を必要に応じて切り替えることができる制御可能な(位相依存)キラリティを示す巨大原子プラットフォームを実現する。
従来のキラル配置と異なり, ライドバーグ巨原子の2つの結合点間の局所位相差の光学的実装により, 提案プラットフォームの簡易なアプローチが得られた。
さらに、2つ以上の駆動場を用いることで、このプラットフォームは周波数変換器としても利用することができ、その効率は強い非対称性を示し、キラルカップリングによって著しく強化される。
以上の結果から,光学領域におけるキラル量子光学および波長変換の革新的かつ有望な拡張可能な巨大原子プラットフォームが示唆された。 Two interacting Rydberg atoms coupled to a waveguide realize a giant-atom platform that exhibits the controllable (phase-dependent) chirality where the direction of nonreciprocal photon scattering can be switched on demand, e.g., by the geometrical tuning of an external driving field. At variance with previous chiral setups, the simplified approach of our proposed platform arises from an optical implementation of the local phase difference between two coupling points of the Rydberg giant atom. Furthermore, employing two or more driving fields, this platform could also be used as a frequency converter with its efficiency exhibiting a strong asymmetry and being significantly enhanced via the chiral couplings. Our results suggest an extendable giant-atom platform that is both innovative and promising for chiral quantum optics and tunable frequency conversion in the optical domain. | 翻訳日:2023-12-21 17:04:16 公開日:2023-12-20 |
# オフラインデータの構築と選択による帯域幅アルゴリズムのロバスト改善:因果的アプローチ Robustly Improving Bandit Algorithms with Confounded and Selection Biased Offline Data: A Causal Approach ( http://arxiv.org/abs/2312.12731v1 ) ライセンス: Link先を確認 | Wen Huang and Xintao Wu | (参考訳) 本稿では,エージェントがオフラインデータにアクセスでき,各アームの報酬分布の推定精度が向上する可能性のあるバンディット問題について検討する。
この設定における大きな障害は、観測データからの複合バイアスの存在である。
これらのバイアスを無視してモデルをバイアスデータに盲目的に適合させることは、オンライン学習フェーズに悪影響を及ぼす可能性がある。
本研究では,因果的観点からこの問題を定式化する。
まず, それらのバイアスを, 因果構造に基づいて統合バイアスと選択バイアスに分類する。
次に、偏りのある観測データから、複合バイアスに対して頑健な各腕の因果関係を抽出する。
導出された境界は基底真理平均報酬を含み、バンディットエージェントに最適に近い決定方針を学ぶように効果的に導くことができる。
また,文脈的および非文脈的バンディット設定において後悔の分析を行い,先行因果境界が漸近的後悔の軽減に寄与することを示した。 This paper studies bandit problems where an agent has access to offline data that might be utilized to potentially improve the estimation of each arm's reward distribution. A major obstacle in this setting is the existence of compound biases from the observational data. Ignoring these biases and blindly fitting a model with the biased data could even negatively affect the online learning phase. In this work, we formulate this problem from a causal perspective. First, we categorize the biases into confounding bias and selection bias based on the causal structure they imply. Next, we extract the causal bound for each arm that is robust towards compound biases from biased observational data. The derived bounds contain the ground truth mean reward and can effectively guide the bandit agent to learn a nearly-optimal decision policy. We also conduct regret analysis in both contextual and non-contextual bandit settings and show that prior causal bounds could help consistently reduce the asymptotic regret. | 翻訳日:2023-12-21 17:04:00 公開日:2023-12-20 |
# 大型ビジョンランゲージモデルのFew-Shot適応について A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models ( http://arxiv.org/abs/2312.12730v1 ) ライセンス: Link先を確認 | Julio Silva-Rodriguez and Sina Hajimiri and Ismail Ben Ayed and Jose Dolz | (参考訳) 効率的な伝達学習(ETL)が注目され、いくつかのラベル付きサンプルを用いて、下流タスクに大規模な事前学習言語ビジョンモデルを適用するようになっている。
有意な進展がみられたが,etlアプローチは限定的な実験でのみ強力な性能を示し,ラベル付きサンプルの大規模なコーパスに基づいてハイパーパラメータを注意深く調整した。
特に、2つの興味深い、驚くべき経験的な観察を行います。
まず、単純な線形探索ベースラインを上回り、これらの手法は各タスクのハイパーパラメータを最適化する必要がある。
そして第2に、分布ドリフトの存在下での標準的なゼロショット予測を(時には劇的に)過小評価する。
既存の文献における非現実的な仮定、すなわち、最適なハイパーパラメーターに対する大規模な検証セットとケース固有のグリッド探索に動機付けられ、現実のシナリオの要件を満たす新しいアプローチを提案する。
より具体的には、この文脈に合わせて拡張ラグランジアン法を適応させることにより、バランス項を最適化するCLass-Adaptive linear Probe (CLAP) の目的を導入する。
CLAPを広範囲のデータセットとシナリオで総合的に評価し、SoTAアプローチを一貫して上回りながら、はるかに効率的な代替手段であることを実証した。 Efficient transfer learning (ETL) is receiving increasing attention to adapt large pre-trained language-vision models on downstream tasks with a few labeled samples. While significant progress has been made, we reveal that state-of-the-art ETL approaches exhibit strong performance only in narrowly-defined experimental setups, and with a careful adjustment of hyperparameters based on a large corpus of labeled samples. In particular, we make two interesting, and surprising empirical observations. First, to outperform a simple Linear Probing baseline, these methods require to optimize their hyper-parameters on each target task. And second, they typically underperform -- sometimes dramatically -- standard zero-shot predictions in the presence of distributional drifts. Motivated by the unrealistic assumptions made in the existing literature, i.e., access to a large validation set and case-specific grid-search for optimal hyperparameters, we propose a novel approach that meets the requirements of real-world scenarios. More concretely, we introduce a CLass-Adaptive linear Probe (CLAP) objective, whose balancing term is optimized via an adaptation of the general Augmented Lagrangian method tailored to this context. We comprehensively evaluate CLAP on a broad span of datasets and scenarios, demonstrating that it consistently outperforms SoTA approaches, while yet being a much more efficient alternative. | 翻訳日:2023-12-21 17:03:44 公開日:2023-12-20 |
# Segment Anything Modelが画像の調和に対応 Segment Anything Model Meets Image Harmonization ( http://arxiv.org/abs/2312.12729v1 ) ライセンス: Link先を確認 | Haoxing Chen and Yaohui Li and Zhangxuan Gu and Zhuoer Xu and Jun Lan and Huaxiong Li | (参考訳) 合成画像の前景を調整することで背景をシームレスに整合させる画像合成において,画像調和は重要な技術である。
現在の手法ではグローバルレベルかピクセルレベルの特徴マッチングが採用されている。
グローバルレベルの特徴マッチングは、前景と背景を別々のエンティティとして扱うことで、近接を無視する。
一方、ピクセルレベルの機能マッチングはコンテキスト情報を失う。
したがって、異なるオブジェクトを記述した意味地図からの情報を使って調和を導く必要がある。
本稿では,事前学習されたセグメンテーションモデル(SAM)によって出力されるセグメンテーションマップを利用して,前景と背景の特徴の視覚的整合性学習を導くセグメンテーションモデル(SRIN)を提案する。
最先端手法よりも画像調和法の方が優れていることを示す。 Image harmonization is a crucial technique in image composition that aims to seamlessly match the background by adjusting the foreground of composite images. Current methods adopt either global-level or pixel-level feature matching. Global-level feature matching ignores the proximity prior, treating foreground and background as separate entities. On the other hand, pixel-level feature matching loses contextual information. Therefore, it is necessary to use the information from semantic maps that describe different objects to guide harmonization. In this paper, we propose Semantic-guided Region-aware Instance Normalization (SRIN) that can utilize the semantic segmentation maps output by a pre-trained Segment Anything Model (SAM) to guide the visual consistency learning of foreground and background features. Abundant experiments demonstrate the superiority of our method for image harmonization over state-of-the-art methods. | 翻訳日:2023-12-21 17:03:21 公開日:2023-12-20 |
# Lookahead: ロスレス生成精度を持つ大規模言語モデルのための推論高速化フレームワーク Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy ( http://arxiv.org/abs/2312.12728v1 ) ライセンス: Link先を確認 | Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu | (参考訳) 大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクにおいて大きな進歩を遂げているため、情報処理の正確性の必要性は、特にAlipayのような数十億のユーザーを対象とする深刻な金融製品にとって重要である。
これを解決するために、Alipayは、最も正確かつ最新の情報に基づいてLSMを基盤とする検索・拡張生成システム(RAG)を開発した。
しかし, 数百万人のユーザを対象とする実世界の製品では, LLMの推論速度は, 単なる実験モデルと比較して重要な要因となる。
そこで,本論文では,推論処理を高速化する汎用フレームワークを提案し,RAGシステムの高速化とコスト削減を実現し,生成精度を損なうことなく実現した。
従来の推論プロセスでは、各トークンはLCMによって順次生成され、生成されたトークンの数に比例する時間消費につながる。
このプロセスを強化するために、我々のフレームワークは \textit{lookahead} と呼ばれ、 \textit{multi-branch} 戦略を導入しました。
一つのトークンを一度に生成する代わりに、複数のブランチを同時に生成できる \textit{Trie-based Retrieval} (TR) プロセスを提案し、それぞれがトークンのシーケンスである。
その後、各ブランチに対して \textit{Verification and Accept} (VA) プロセスを実行し、最も長い正しいサブシーケンスを最終出力として識別する。
提案手法は,(1) 出力の絶対正当性を保証する,(2) 近似アルゴリズムの回避,(2) アプローチの最悪の性能は従来のプロセスと同等である,という2つの異なる利点を提供する。
我々は、推論加速フレームワークの適用によって達成された重要な改善を実証するために、広範な実験を行う。 As Large Language Models (LLMs) have made significant advancements across various tasks, such as question answering, translation, text summarization, and dialogue systems, the need for accuracy in information becomes crucial, especially for serious financial products serving billions of users like Alipay. To address this, Alipay has developed a Retrieval-Augmented Generation (RAG) system that grounds LLMs on the most accurate and up-to-date information. However, for a real-world product serving millions of users, the inference speed of LLMs becomes a critical factor compared to a mere experimental model. Hence, this paper presents a generic framework for accelerating the inference process, resulting in a substantial increase in speed and cost reduction for our RAG system, with lossless generation accuracy. In the traditional inference process, each token is generated sequentially by the LLM, leading to a time consumption proportional to the number of generated tokens. To enhance this process, our framework, named \textit{lookahead}, introduces a \textit{multi-branch} strategy. Instead of generating a single token at a time, we propose a \textit{Trie-based Retrieval} (TR) process that enables the generation of multiple branches simultaneously, each of which is a sequence of tokens. Subsequently, for each branch, a \textit{Verification and Accept} (VA) process is performed to identify the longest correct sub-sequence as the final output. Our strategy offers two distinct advantages: (1) it guarantees absolute correctness of the output, avoiding any approximation algorithms, and (2) the worst-case performance of our approach is equivalent to the conventional process. We conduct extensive experiments to demonstrate the significant improvements achieved by applying our inference acceleration framework. | 翻訳日:2023-12-21 17:03:05 公開日:2023-12-20 |
# tiktokにおける黒人コンテンツクリエイターの反応と抵抗戦略 Black Content Creators' Responses and Resistance Strategies on TikTok ( http://arxiv.org/abs/2312.12727v1 ) ライセンス: Link先を確認 | Gianna Williams | (参考訳) ソーシャルメディアは、世界中の社会と経済のダイナミクスに大きな影響を与え、ソーシャルメディアの人々は創造的な労働力を通じて、オンライン存在を通じて生活を築き始めた。
ソーシャルメディアのコンテンツクリエーターの急増は、インターネットのトレンドと文化的景観を大きく変えた。
今日のソーシャルメディアのトレンドの多くは、ブラックコンテンツクリエーターの創造的な貢献によるものだが、デジタルプラットフォームは、黒人とブラウンの人々に対するシステム的偏見を生み出すアルゴリズム的レコメンデーションシステムを通じて、クリエーターを日常的に疎外し、弱体化させている。
この問題に対処するために,我々は,黒人コンテンツクリエーターに対する嫌がらせ,対話,不公平なターゲットのアルゴリズムを評価するために,コンテンツ分析を行った。 Social media wields a profound influence on social and economic dynamics worldwide, people on social media began to forge a livelihood through their online presence through creative labor. This surge in social media Content Creators significantly shaped the trends and cultural landscape of the internet. While many of the social media trends we observe today can be attributed to the creative contributions of Black Content Creators, digital platforms routinely marginalize and undermine these creators through algorithmic recommendation systems that produce systemic bias against Black and Brown people. To address this problem, we conducted a content analysis to assess how algorithms specifically illicit harassment, interact, and unfairly target Black Content Creators. | 翻訳日:2023-12-21 17:02:33 公開日:2023-12-20 |
# クローズドフォルム色推定法による放射光場における形状-照度あいまいさの低減 Reducing Shape-Radiance Ambiguity in Radiance Fields with a Closed-Form Color Estimation Method ( http://arxiv.org/abs/2312.12726v1 ) ライセンス: Link先を確認 | Qihang Fang, Yafei Song, Keqiang Li, Liefeng Bo | (参考訳) ニューラルレイディアンス場(NeRF)は、3Dシーンの最先端のリアルなノベルビュー画像の合成を可能にする。
それはそれぞれ、シーンの形状と放射率をモデル化する密度と色のフィールドを含んでいる。
エンドツーエンドのトレーニング方法での測光損失によって監督されるNeRFは、本質的には形状放射曖昧性問題、すなわち、トレーニングビューに完全に適合するが、2つのフィールドを正しく分離することを保証しない。
この問題に対処するため、既存の研究は、全変動損失、スパーシティ損失、歪み損失など、密度場の独立した監視信号を提供するために事前知識を取り入れている。
これらの損失は密度場に関する一般的な仮定に基づいており、例えば、特定のシーンに適応しない滑らかでスパースでコンパクトであるべきである。
本稿では,より適応的な形状のあいまいさ低減法を提案する。
キーは、密度場のみに基づいたレンダリングメソッドである。
具体的には,まず密度場とポーズ画像に基づいて色場をクローズド形式で推定する。
するとNeRFのレンダリングプロセスが進行する。
咬合や非一様分布ビューを含む色場の推定における問題点について考察する。
その後、NeRFの密度場を正則化する。
我々の正則化は測光損失によって導かれるので、既存のものよりも適応性が高い。
実験の結果,NeRFの密度場は定性的かつ定量的に向上することがわかった。
私たちのコードはhttps://github.com/qihanggh/closed-form-color-fieldで利用可能です。 Neural radiance field (NeRF) enables the synthesis of cutting-edge realistic novel view images of a 3D scene. It includes density and color fields to model the shape and radiance of a scene, respectively. Supervised by the photometric loss in an end-to-end training manner, NeRF inherently suffers from the shape-radiance ambiguity problem, i.e., it can perfectly fit training views but does not guarantee decoupling the two fields correctly. To deal with this issue, existing works have incorporated prior knowledge to provide an independent supervision signal for the density field, including total variation loss, sparsity loss, distortion loss, etc. These losses are based on general assumptions about the density field, e.g., it should be smooth, sparse, or compact, which are not adaptive to a specific scene. In this paper, we propose a more adaptive method to reduce the shape-radiance ambiguity. The key is a rendering method that is only based on the density field. Specifically, we first estimate the color field based on the density field and posed images in a closed form. Then NeRF's rendering process can proceed. We address the problems in estimating the color field, including occlusion and non-uniformly distributed views. Afterward, it is applied to regularize NeRF's density field. As our regularization is guided by photometric loss, it is more adaptive compared to existing ones. Experimental results show that our method improves the density field of NeRF both qualitatively and quantitatively. Our code is available at https://github.com/qihangGH/Closed-form-color-field. | 翻訳日:2023-12-21 17:02:17 公開日:2023-12-20 |
# 量子状態のアンタングル化の基準 A Criterion for Unentanglement of Quantum States ( http://arxiv.org/abs/2312.12725v1 ) ライセンス: Link先を確認 | Xufeng Liu | (参考訳) 絡み合いの概念は量子情報理論の核心にある。
本稿では、量子状態の非絡み合いの基準を提案し、証明する。
この基準は自然で、実用的で、簡単にチェックできます。 The concept of entanglement is at the core of the theory of quantum information. In this paper a criterion for unentanglement of quantum states is proposed and proved. This criterion is natural, practical and easy to check. | 翻訳日:2023-12-21 17:01:53 公開日:2023-12-20 |
# 訓練時間バックドア防御のためのプログレッシブ中毒データ分離 Progressive Poisoned Data Isolation for Training-time Backdoor Defense ( http://arxiv.org/abs/2312.12724v1 ) ライセンス: Link先を確認 | Yiming Chen, Haiwei Wu, and Jiantao Zhou | (参考訳) ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
したがって、潜在的に有毒なデータセットを使用してクリーンモデルのトレーニング戦略を開発することが不可欠である。
以前の訓練時防御機構は、通常は1回の隔離プロセスを採用し、しばしば最適以下の隔離結果をもたらす。
本研究では, 被毒データを段階的に分離し, 分離精度を高め, 被毒物として誤分類される危険を緩和する, 有毒データ(pipd)の漸進的分離法を提案する。
データセットの有毒な部分が特定されると、クリーンなモデルをトレーニングするための選択的なトレーニングプロセスを導入する。
これらの手法の実装により、トレーニングされたモデルが有毒データに対する攻撃成功率を著しく低下させることが保証される。
9つの最先端のバックドア攻撃に対して評価された複数のベンチマークデータセットとDNNモデルに対する大規模な実験は、バックドア防御のためのPIPD法の優れた性能を示している。
例えば、私たちのPIPDは、99.95%の平均真正レート(TPR)と、CIFAR-10データセットに対する多様な攻撃に対して平均偽正レート(FPR)を0.06%達成し、最先端の手法のパフォーマンスを大幅に上回っている。 Deep Neural Networks (DNN) are susceptible to backdoor attacks where malicious attackers manipulate the model's predictions via data poisoning. It is hence imperative to develop a strategy for training a clean model using a potentially poisoned dataset. Previous training-time defense mechanisms typically employ an one-time isolation process, often leading to suboptimal isolation outcomes. In this study, we present a novel and efficacious defense method, termed Progressive Isolation of Poisoned Data (PIPD), that progressively isolates poisoned data to enhance the isolation accuracy and mitigate the risk of benign samples being misclassified as poisoned ones. Once the poisoned portion of the dataset has been identified, we introduce a selective training process to train a clean model. Through the implementation of these techniques, we ensure that the trained model manifests a significantly diminished attack success rate against the poisoned data. Extensive experiments on multiple benchmark datasets and DNN models, assessed against nine state-of-the-art backdoor attacks, demonstrate the superior performance of our PIPD method for backdoor defense. For instance, our PIPD achieves an average True Positive Rate (TPR) of 99.95% and an average False Positive Rate (FPR) of 0.06% for diverse attacks over CIFAR-10 dataset, markedly surpassing the performance of state-of-the-art methods. | 翻訳日:2023-12-21 17:01:51 公開日:2023-12-20 |
# 知識に基づく視覚質問応答のためのメモリ拡張によるマルチキュー推論 Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering ( http://arxiv.org/abs/2312.12723v1 ) ライセンス: Link先を確認 | Chengxiang Yin, Zhengping Che, Kun Wu, Zhiyuan Xu, Jian Tang | (参考訳) VQA(Visual Question Answering)はそのマルチモーダルな性質のため、人工知能において最も困難なタスクの1つとして登場した。
しかしながら、既存のVQA手法の多くは知識に基づく視覚質問回答(KB-VQA)を扱うことができない。
この問題に対処するために,より一般的な質問に答える能力を持ち,メモリニューラルネットワーク (mcr-memnn) を用いた推論の手がかりを複数生成することで,外部知識のよりよい活用を実現する新しい枠組みを提案する。
具体的には、画像検索関連句の予測によく定義された検出器を用い、それぞれが2つの補完的な手がかりを提供し、外部知識ベース(kb)から支援事実を検索し、さらにコンテンツアドレス可能なメモリを用いて連続埋め込み空間に符号化する。
その後、視覚的セマンティック表現と記憶に記憶されている支援事実との間の相互相互作用を捉え、最も関連性の高い情報を3つのモード(画像、質問、KB)で抽出する。
そして、最も高いスコアで支持事実を選択することにより、最適な回答を予測する。
広範に使われている2つのベンチマークに対して広範な実験を行う。
実験結果はMCR-MemNNの有効性を正当化し,他のKB-VQA法よりも優れている。 Visual Question Answering (VQA) has emerged as one of the most challenging tasks in artificial intelligence due to its multi-modal nature. However, most existing VQA methods are incapable of handling Knowledge-based Visual Question Answering (KB-VQA), which requires external knowledge beyond visible contents to answer questions about a given image. To address this issue, we propose a novel framework that endows the model with capabilities of answering more general questions, and achieves a better exploitation of external knowledge through generating Multiple Clues for Reasoning with Memory Neural Networks (MCR-MemNN). Specifically, a well-defined detector is adopted to predict image-question related relation phrases, each of which delivers two complementary clues to retrieve the supporting facts from external knowledge base (KB), which are further encoded into a continuous embedding space using a content-addressable memory. Afterwards, mutual interactions between visual-semantic representation and the supporting facts stored in memory are captured to distill the most relevant information in three modalities (i.e., image, question, and KB). Finally, the optimal answer is predicted by choosing the supporting fact with the highest score. We conduct extensive experiments on two widely-used benchmarks. The experimental results well justify the effectiveness of MCR-MemNN, as well as its superiority over other KB-VQA methods. | 翻訳日:2023-12-21 17:01:25 公開日:2023-12-20 |
# 非例クラスインクリメンタルラーニングのための細粒度知識選択と復元 Fine-Grained Knowledge Selection and Restoration for Non-Exemplar Class Incremental Learning ( http://arxiv.org/abs/2312.12722v1 ) ライセンス: Link先を確認 | Jiang-Tian Zhai, Xialei Liu, Lu Yu, Ming-Ming Cheng | (参考訳) 非例のクラスインクリメンタル学習は、過去のトレーニングデータにアクセスせずに、新しいタスクと古いタスクの両方を学ぶことを目的としている。
この厳格な制限は、現在のタスクデータにのみ適用できるため、破滅的な忘れを緩和する難しさを増大させる。
この課題を考慮すると、我々はきめ細かい知識の選択と復元の新しい枠組みを提案する。
従来の知識蒸留法では, ネットワークパラメータや特徴に厳密な制約を課し, 新たなタスクの訓練を制限している。
この制約を緩和するため,我々は可塑性と安定性を適応的にバランスさせる新しい細粒度選択的パッチレベル蒸留法を提案した。
タスクに依存しないいくつかのパッチは、古いタスクの決定境界を保存するために使用することができる。
重要なフォアグラウンドを含むパッチは、新しいタスクを学ぶのに適している。
さらに,従来のタスクのより現実的なプロトタイプを生成するためのタスク非依存機構を現在のタスクサンプルに導入し,きめ細かい知識復元のための分類器バイアスを低減する。
CIFAR100, TinyImageNet, ImageNet-Subsetの大規模実験により, 本手法の有効性が示された。
コードはhttps://github.com/scok30/vit-cilで入手できる。 Non-exemplar class incremental learning aims to learn both the new and old tasks without accessing any training data from the past. This strict restriction enlarges the difficulty of alleviating catastrophic forgetting since all techniques can only be applied to current task data. Considering this challenge, we propose a novel framework of fine-grained knowledge selection and restoration. The conventional knowledge distillation-based methods place too strict constraints on the network parameters and features to prevent forgetting, which limits the training of new tasks. To loose this constraint, we proposed a novel fine-grained selective patch-level distillation to adaptively balance plasticity and stability. Some task-agnostic patches can be used to preserve the decision boundary of the old task. While some patches containing the important foreground are favorable for learning the new task. Moreover, we employ a task-agnostic mechanism to generate more realistic prototypes of old tasks with the current task sample for reducing classifier bias for fine-grained knowledge restoration. Extensive experiments on CIFAR100, TinyImageNet and ImageNet-Subset demonstrate the effectiveness of our method. Code is available at https://github.com/scok30/vit-cil. | 翻訳日:2023-12-21 17:01:03 公開日:2023-12-20 |
# ビデオ質問応答におけるイベント相関を用いたクロスモーダル推論 Cross-Modal Reasoning with Event Correlation for Video Question Answering ( http://arxiv.org/abs/2312.12721v1 ) ライセンス: Link先を確認 | Chengxiang Yin, Zhengping Che, Kun Wu, Zhiyuan Xu, Qinru Qiu, Jian Tang | (参考訳) video question answering (videoqa)は、2つのドメインからの異種データの複雑なセマンティクスを理解することを目的とした、非常に魅力的で挑戦的な研究方向である。
この2つのモード間の相互関係をモデル化し、文脈的表現を管理するために様々な注意機構が利用されてきたが、支配的なビデオQA手法の1つの限界は、イベント相関による推論の欠如である。
本稿では,新しい補助的・蒸留的事象関連情報として,密接なキャプションモダリティを導入し,その正解を推定する。
そこで本研究では,3つのモダリティ(キャプション,ビデオ,質問など)からの情報に対するクロスモーダルな推論を行うための,エンドツーエンドのトレーニング可能な新しいモデルであるイベント相関グラフニューラルネットワーク(EC-GNN)を提案する。
新たなモダリティの活用に加えて、モーダル間の関係を明示的にモデル化し、様々なモダリティにまたがる関連情報を集約するクロスモーダル推論モジュールを用いて、多段階推論による質問指向および事象関連証拠の収集を行う。
提案手法は,2つのベンチマークデータセット上で評価し,各コンポーネントの有効性を正当化するためのアブレーション研究を行う。 Video Question Answering (VideoQA) is a very attractive and challenging research direction aiming to understand complex semantics of heterogeneous data from two domains, i.e., the spatio-temporal video content and the word sequence in question. Although various attention mechanisms have been utilized to manage contextualized representations by modeling intra- and inter-modal relationships of the two modalities, one limitation of the predominant VideoQA methods is the lack of reasoning with event correlation, that is, sensing and analyzing relationships among abundant and informative events contained in the video. In this paper, we introduce the dense caption modality as a new auxiliary and distill event-correlated information from it to infer the correct answer. To this end, we propose a novel end-to-end trainable model, Event-Correlated Graph Neural Networks (EC-GNNs), to perform cross-modal reasoning over information from the three modalities (i.e., caption, video, and question). Besides the exploitation of a brand new modality, we employ cross-modal reasoning modules for explicitly modeling inter-modal relationships and aggregating relevant information across different modalities, and we propose a question-guided self-adaptive multi-modal fusion module to collect the question-oriented and event-correlated evidence through multi-step reasoning. We evaluate our model on two widely-used benchmark datasets and conduct an ablation study to justify the effectiveness of each proposed component. | 翻訳日:2023-12-21 17:00:34 公開日:2023-12-20 |
# セマンティック摂動による相互モダリティ逆行攻撃 Mutual-modality Adversarial Attack with Semantic Perturbation ( http://arxiv.org/abs/2312.12768v1 ) ライセンス: Link先を確認 | Jingwen Ye, Ruonan Yu, Songhua Liu, Xinchao Wang | (参考訳) 敵対的攻撃は、誤った予測と分類を誘発する可能性を考えると、機械学習システムに対する顕著な脅威となっている。
しかしながら、現実世界のコンテキストでは、デプロイされたモデルの必須仕様はしばしばブラックボックスとして扱われるため、そのような攻撃に対する脆弱性を緩和する。
したがって, 対向サンプルの転送可能性の向上は, 適切なサロゲートモデルの選択に大きく依存する重要な研究領域となっている。
そこで本研究では, 相互モダリティ最適化手法において, 逆攻撃を発生させる新しい手法を提案する。
私たちのアプローチは、事前訓練されたCLIPモデルを活用することで実現されます。
まず,アライメント埋め込み空間と他のテキストモダリティに意味的摂動を引き起こすクリーンイメージに対して視覚的な攻撃を行う。
そして,プロンプトを更新することにより,テキストのモダリティに対応する防御を施し,摂動埋め込み空間上の再マッチングを強制する。
最後に,攻撃伝達性を高めるために,視覚攻撃における反復的訓練戦略と,2つのプロセスが相互に最適化するテクスト防御を用いる。
本手法をいくつかのベンチマークデータセットで評価し,ターゲットネットワークによらず安定な高移動性攻撃を効果的に生成できることを実証した。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。 Adversarial attacks constitute a notable threat to machine learning systems, given their potential to induce erroneous predictions and classifications. However, within real-world contexts, the essential specifics of the deployed model are frequently treated as a black box, consequently mitigating the vulnerability to such attacks. Thus, enhancing the transferability of the adversarial samples has become a crucial area of research, which heavily relies on selecting appropriate surrogate models. To address this challenge, we propose a novel approach that generates adversarial attacks in a mutual-modality optimization scheme. Our approach is accomplished by leveraging the pre-trained CLIP model. Firstly, we conduct a visual attack on the clean image that causes semantic perturbations on the aligned embedding space with the other textual modality. Then, we apply the corresponding defense on the textual modality by updating the prompts, which forces the re-matching on the perturbed embedding space. Finally, to enhance the attack transferability, we utilize the iterative training strategy on the visual attack and the textual defense, where the two processes optimize from each other. We evaluate our approach on several benchmark datasets and demonstrate that our mutual-modal attack strategy can effectively produce high-transferable attacks, which are stable regardless of the target networks. Our approach outperforms state-of-the-art attack methods and can be readily deployed as a plug-and-play solution. | 翻訳日:2023-12-21 16:53:08 公開日:2023-12-20 |
# 相補的ニューラル言語モデルの大規模アンサンブルに基づく格子再構成 Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models ( http://arxiv.org/abs/2312.12764v1 ) ライセンス: Link先を確認 | Atsunori Ogawa, Naohiro Tawara, Marc Delcroix, Shoko Araki | (参考訳) 自動音声認識 (asr) 仮説に対する格子強調法として, 先進的ニューラルネットワークモデル (nlms) を用いた場合の有効性について検討した。
これまでの研究では、少数のNLMを組み合わせる効果が報告されている。
対照的に、本研究では最大8個のNLM、すなわち2つの異なるランダム初期化シードを用いて訓練された前後長短期記憶/トランスフォーマー-LMを組み合わせる。
これらのNLMを反復格子生成により結合する。
これらのNLMは相補的に機能するため、繰り返しの繰り返しごとに1つずつ組み合わせることで、与えられた格子弧に付随する言語スコアを徐々に洗練することができる。
これにより、ASR仮説の誤差を徐々に減少させることができる。
また,講義音声のような長い音声の格子列をまたいで,文脈情報(過去の再描画結果)を伝達する効果についても検討した。
講義音声コーパスを用いた実験では,8つのNLMを組み合わせ,文脈担持を用いて,ASR 1-bestベースラインから24.4%の単語誤り率を低減した。
さらに比較するために,NLMの大規模なアンサンブルを用いて,NLM結合と100-best再構成を同時実施し,繰り返しNLM結合による格子再構成の利点を確認した。 We investigate the effectiveness of using a large ensemble of advanced neural language models (NLMs) for lattice rescoring on automatic speech recognition (ASR) hypotheses. Previous studies have reported the effectiveness of combining a small number of NLMs. In contrast, in this study, we combine up to eight NLMs, i.e., forward/backward long short-term memory/Transformer-LMs that are trained with two different random initialization seeds. We combine these NLMs through iterative lattice generation. Since these NLMs work complementarily with each other, by combining them one by one at each rescoring iteration, language scores attached to given lattice arcs can be gradually refined. Consequently, errors of the ASR hypotheses can be gradually reduced. We also investigate the effectiveness of carrying over contextual information (previous rescoring results) across a lattice sequence of a long speech such as a lecture speech. In experiments using a lecture speech corpus, by combining the eight NLMs and using context carry-over, we obtained a 24.4% relative word error rate reduction from the ASR 1-best baseline. For further comparison, we performed simultaneous (i.e., non-iterative) NLM combination and 100-best rescoring using the large ensemble of NLMs, which confirmed the advantage of lattice rescoring with iterative NLM combination. | 翻訳日:2023-12-21 16:52:43 公開日:2023-12-20 |
# AMD:解釈可能な運動分解と融合を伴う解剖学的運動拡散 AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition and Fusion ( http://arxiv.org/abs/2312.12763v1 ) ライセンス: Link先を確認 | Beibei Jing, Youjia Zhang, Zikai Song, Junqing Yu, Wei Yang | (参考訳) Generating realistic human motion sequences from text descriptions is a challenging task that requires capturing the rich expressiveness of both natural language and human motion.Recent advances in diffusion models have enabled significant progress in human motion synthesis.However, existing methods struggle to handle text inputs that describe complex or long motions.In this paper, we propose the Adaptable Motion Diffusion (AMD) model, which leverages a Large Language Model (LLM) to parse the input text into a sequence of concise and interpretable anatomical scripts that correspond to the target motion.This process exploits the LLM's ability to provide anatomical guidance for complex motion synthesis.We then devise a two-branch fusion scheme that balances the influence of the input text and the anatomical scripts on the inverse diffusion process, which adaptively ensures the semantic fidelity and diversity of the synthesized motion.Our method can effectively handle texts with complex or long motion descriptions, where existing methods often fail.
CLCD1やCLCD2のような比較的複雑な動きを持つデータセットの実験は、我々のAMDが既存の最先端モデルよりも大幅に優れていることを示した。 Generating realistic human motion sequences from text descriptions is a challenging task that requires capturing the rich expressiveness of both natural language and human motion.Recent advances in diffusion models have enabled significant progress in human motion synthesis.However, existing methods struggle to handle text inputs that describe complex or long motions.In this paper, we propose the Adaptable Motion Diffusion (AMD) model, which leverages a Large Language Model (LLM) to parse the input text into a sequence of concise and interpretable anatomical scripts that correspond to the target motion.This process exploits the LLM's ability to provide anatomical guidance for complex motion synthesis.We then devise a two-branch fusion scheme that balances the influence of the input text and the anatomical scripts on the inverse diffusion process, which adaptively ensures the semantic fidelity and diversity of the synthesized motion.Our method can effectively handle texts with complex or long motion descriptions, where existing methods often fail. Experiments on datasets with relatively more complex motions, such as CLCD1 and CLCD2, demonstrate that our AMD significantly outperforms existing state-of-the-art models. | 翻訳日:2023-12-21 16:52:21 公開日:2023-12-20 |
# 自発4光波混合における原子アンサンブル密度の増大による高相関性2光子の観察 Observation of Highly Correlated Ultrabright Biphotons Through Increased Atomic Ensemble Density in Spontaneous Four-Wave Mixing ( http://arxiv.org/abs/2312.12758v1 ) ライセンス: Link先を確認 | Jiun-Shiuan Shiu, Zi-Yu Liu, Chin-Yao Cheng, Yu-Chiao Huang, Ite A. Yu, Ying-Cheng Chen, Chih-Sung Chuu, Che-Ming Li, Shiang-Yu Wang, Yong-Fan Chen | (参考訳) 双光子源が相関する光子対を生成する能力を評価する重要な指標であるペアリング比は、理論的な予測にもかかわらず未探索のままである。
本研究は、コールド原子中の2-$\lambda$自発的4波混合二光子源を用いたペアリング比に関する実験結果を示す。
20の光学深度(OD)では、超高2光子生成速度が1.3\times10^7$/秒となり、ペアリング比が6.1\%$で成功した。
ODを120に増やすことでペアリング比が89\%$に向上し、一貫した双光子生成率を維持した。
この成果は、高い生成速度と堅牢な二光子ペアリングによって特徴づけられ、量子通信と情報処理における効率の進歩に大きな期待を抱いている。
さらに、biphoton生成率が5.0 \times 10^4$ per secondのシナリオでは、biphoton wavepacketの信号対バックグランド比が241で、コーシー・シュワルツ基準を約1.5\times10^4$で上回った。 The pairing ratio, a crucial metric assessing a biphoton source's ability to generate correlated photon pairs, remains underexplored despite theoretical predictions. This study presents experimental findings on the pairing ratio, utilizing a double-$\Lambda$ spontaneous four-wave mixing biphoton source in cold atoms. At an optical depth (OD) of 20, we achieved an ultrahigh biphoton generation rate of up to $1.3\times10^7$ per second, with a successful pairing ratio of $61\%$. Increasing the OD to 120 significantly improved the pairing ratio to $89\%$, while maintaining a consistent biphoton generation rate. This achievement, marked by high generation rates and robust biphoton pairing, holds great promise for advancing efficiency in quantum communication and information processing. Additionally, in a scenario with a lower biphoton generation rate of $5.0 \times 10^4$ per second, we attained an impressive signal-to-background ratio of 241 for the biphoton wavepacket, surpassing the Cauchy-Schwarz criterion by approximately $1.5\times10^4$ times. | 翻訳日:2023-12-21 16:52:06 公開日:2023-12-20 |
# スペクトルプロンプトチューニング:ゼロショットセマンティクスセグメンテーションのための未発見のクラスを無視する Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2312.12754v1 ) ライセンス: Link先を確認 | Wenhao Xu, Rongtao Xu, Changwei Wang, Shibiao Xu, Li Guo, Man Zhang, Xiaopeng Zhang | (参考訳) 最近、CLIPはピクセルレベルのゼロショットセグメンテーションタスクの領域で実用性を見出した。
現在のランドスケープは、複雑なパイプラインや計算コストの上昇といった問題によって、2段階の方法論が設定されている。
現在のワンステージアプローチでは、これらの懸念を緩和し、CLIPの一般化能力を維持するためにVisual Prompt Training (VPT)を組み込んでいるが、CLIPのピクセルレベルの見えないクラス区切りと正確なピクセル予測に対するポテンシャルを完全に活用するには不足している。
クリップのゼロショット濃密な予測能力をさらに刺激するために,クリップの画像から画素への適応性を向上させる1段階のアプローチであるspt-segを提案する。
具体的には、まずSPT(Spectral Prompt Tuning)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込んで、画像の構造的複雑さを捉えることにより、目に見えないクラスの理解を深める。
次に、スペクトルガイドデコーダ(SGD)を導入し、高周波情報と低周波情報の両方を利用して、より顕著な分類特徴にネットワークの空間的焦点を向け、正確なピクセルレベルの予測結果を実現する。
2つの公開データセットに関する広範な実験を通じて、我々の手法が最先端のアプローチよりも優れていることを示した。
コードは:https://github.com/clearxu/sptで入手できる。 Recently, CLIP has found practical utility in the domain of pixel-level zero-shot segmentation tasks. The present landscape features two-stage methodologies beset by issues such as intricate pipelines and elevated computational costs. While current one-stage approaches alleviate these concerns and incorporate Visual Prompt Training (VPT) to uphold CLIP's generalization capacity, they still fall short in fully harnessing CLIP's potential for pixel-level unseen class demarcation and precise pixel predictions. To further stimulate CLIP's zero-shot dense prediction capability, we propose SPT-SEG, a one-stage approach that improves CLIP's adaptability from image to pixel. Specifically, we initially introduce Spectral Prompt Tuning (SPT), incorporating spectral prompts into the CLIP visual encoder's shallow layers to capture structural intricacies of images, thereby enhancing comprehension of unseen classes. Subsequently, we introduce the Spectral Guided Decoder (SGD), utilizing both high and low-frequency information to steer the network's spatial focus towards more prominent classification features, enabling precise pixel-level prediction outcomes. Through extensive experiments on two public datasets, we demonstrate the superiority of our method over state-of-the-art approaches, performing well across all classes and particularly excelling in handling unseen classes. Code is available at:https://github.com/clearxu/SPT. | 翻訳日:2023-12-21 16:51:40 公開日:2023-12-20 |
# 教育における人間中心学習分析とAI : 体系的文献レビュー Human-Centred Learning Analytics and AI in Education: a Systematic Literature Review ( http://arxiv.org/abs/2312.12751v1 ) ライセンス: Link先を確認 | Riordan Alfredo, Vanessa Echeverria, Yueqiao Jin, Lixiang Yan, Zachari Swiecki, Dragan Ga\v{s}evi\'c, Roberto Martinez-Maldonado | (参考訳) 学習分析(LA)とAIED(Artificial Intelligence in Education)の急速な拡張は、新しいスケーラブルでデータ集約的なシステムを提供すると同時に、データのプライバシとエージェンシーに対する懸念も高める。
設計プロセスから学生や教師のような利害関係者を排除することは、不信や不適切な連携ツールにつながる可能性がある。
最近のLAとAIEDの研究では、人間中心の設計へのシフトがあったが、これらのシステムの設計と実装における人間の制御、安全性、信頼性、信頼性の重要性に対する理解のギャップは依然として残っている。
我々はこれらの懸念とギャップを探るため、系統的な文献レビューを行った。
108の論文を分析して
i)人間中心のla/aied研究の現状
二 教育関係者が人中心のLA/AIEDシステムの設計に寄与した程度
三 人間の制御とそのようなシステムのコンピュータの自動化の現在のバランス
四 文献において、安全、信頼性及び信頼性が考慮されている程度
LA/AIEDシステム設計における人間制御の考察は, エンドユーザーによる実際の設計への関与は限られている。
これらの発見に基づいて、我々は次のように推奨する。
1)すべての設計フェーズにおいて、LA/AIEDシステムの設計およびデプロイにおけるステークホルダーの関与を慎重にバランスさせます。
2【目的のエンドユーザー、特に学生を積極的に巻き込み、人間の制御と自動化のバランスを定める】
3)将来のla/aiedシステムの原則としての安全性、信頼性、信頼性の検討。 The rapid expansion of Learning Analytics (LA) and Artificial Intelligence in Education (AIED) offers new scalable, data-intensive systems but also raises concerns about data privacy and agency. Excluding stakeholders -- like students and teachers -- from the design process can potentially lead to mistrust and inadequately aligned tools. Despite a shift towards human-centred design in recent LA and AIED research, there remain gaps in our understanding of the importance of human control, safety, reliability, and trustworthiness in the design and implementation of these systems. We conducted a systematic literature review to explore these concerns and gaps. We analysed 108 papers to provide insights about i) the current state of human-centred LA/AIED research; ii) the extent to which educational stakeholders have contributed to the design process of human-centred LA/AIED systems; iii) the current balance between human control and computer automation of such systems; and iv) the extent to which safety, reliability and trustworthiness have been considered in the literature. Results indicate some consideration of human control in LA/AIED system design, but limited end-user involvement in actual design. Based on these findings, we recommend: 1) carefully balancing stakeholders' involvement in designing and deploying LA/AIED systems throughout all design phases, 2) actively involving target end-users, especially students, to delineate the balance between human control and automation, and 3) exploring safety, reliability, and trustworthiness as principles in future human-centred LA/AIED systems. | 翻訳日:2023-12-21 16:51:12 公開日:2023-12-20 |
# ALMANACS: 言語モデルの説明可能性のためのシミュラビリティベンチマーク ALMANACS: A Simulatability Benchmark for Language Model Explainability ( http://arxiv.org/abs/2312.12747v1 ) ライセンス: Link先を確認 | Edmund Mills, Shiye Su, Stuart Russell, Scott Emmons | (参考訳) 言語モデル説明可能性手法の有効性をどう測定するか。
多くの説明可能な方法が開発されているが、通常は独創的なタスクで評価され、リンゴとリンゴの比較を妨げている。
このギャップを埋めるために、言語モデル説明可能性ベンチマークであるALMANACSを紹介する。
ALMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかを評価する。
ALMANACSのシナリオは、倫理的推論や高度なAI行動など、12の安全関連トピック、モデル固有の振る舞いを呼び出すための慣用的な前提、忠実な説明を促進するための列車-テストの分散シフトにまたがっている。
他の言語モデルを使用して説明に基づいて振る舞いを予測することで、ALMANACSは完全に自動化されたベンチマークである。
我々はALMANACSを用いて、反事実、合理化、注意、統合的グラディエンスの説明を評価する。
すべてのトピックを平均すると、説明の方法が説明のないコントロールを上回らないのです。
ALMANACS におけるシミュラビリティを補助する説明手法の開発は, 先行研究がやや成功したにもかかわらず, 未解決の課題である。 How do we measure the efficacy of language model explainability methods? While many explainability methods have been developed, they are typically evaluated on bespoke tasks, preventing an apples-to-apples comparison. To help fill this gap, we present ALMANACS, a language model explainability benchmark. ALMANACS scores explainability methods on simulatability, i.e., how well the explanations improve behavior prediction on new inputs. The ALMANACS scenarios span twelve safety-relevant topics such as ethical reasoning and advanced AI behaviors; they have idiosyncratic premises to invoke model-specific behavior; and they have a train-test distributional shift to encourage faithful explanations. By using another language model to predict behavior based on the explanations, ALMANACS is a fully automated benchmark. We use ALMANACS to evaluate counterfactuals, rationalizations, attention, and Integrated Gradients explanations. Our results are sobering: when averaged across all topics, no explanation method outperforms the explanation-free control. We conclude that despite modest successes in prior work, developing an explanation method that aids simulatability in ALMANACS remains an open challenge. | 翻訳日:2023-12-21 16:50:50 公開日:2023-12-20 |
# ChatFDA:医療記録のリスクアセスメント ChatFDA: Medical Records Risk Assessment ( http://arxiv.org/abs/2312.12746v1 ) ライセンス: Link先を確認 | M Tran, C Sun | (参考訳) 医療においては、患者の安全と医療ミスの最小化に重きを置くことはできない。
協力的な努力にもかかわらず、特に低リソース地域の多くの医療システムは、これらのエラーを効果的に防ぐことに苦慮している。
本研究は,医療用ノートから生じる潜在的なリスクを調査できる介護者を支援することにより,この課題に取り組むための先駆的応用について検討する。
アプリケーションはopenfdaのデータを利用して、処方薬に関するリアルタイムで実行可能な洞察を提供する。
mimic-iii \cite{mimic}データセットで実施した予備分析は、医療ミスの低減と患者の安全性の増幅を強調する概念実証を裏付けるものである。
このツールは限られたリソースで医療の成果を大幅に向上させると約束している。
再現性を高め、さらなる研究を促進するため、我々の方法論を支えるコードベースはhttps://github.com/autonlab/2023.hackAuton/tree/main/prescription_checkerでアクセスできる。
これは第30回HackAuton CMUへの提出です。 In healthcare, the emphasis on patient safety and the minimization of medical errors cannot be overstated. Despite concerted efforts, many healthcare systems, especially in low-resource regions, still grapple with preventing these errors effectively. This study explores a pioneering application aimed at addressing this challenge by assisting caregivers in gauging potential risks derived from medical notes. The application leverages data from openFDA, delivering real-time, actionable insights regarding prescriptions. Preliminary analyses conducted on the MIMIC-III \cite{mimic} dataset affirm a proof of concept highlighting a reduction in medical errors and an amplification in patient safety. This tool holds promise for drastically enhancing healthcare outcomes in settings with limited resources. To bolster reproducibility and foster further research, the codebase underpinning our methodology is accessible on https://github.com/autonlab/2023.hackAuton/tree/main/prescription_checker. This is a submission for the 30th HackAuton CMU. | 翻訳日:2023-12-21 16:50:30 公開日:2023-12-20 |
# 3D-CLMI:3D-CNNとLSTMの融合による運動画像脳波分類モデル 3D-CLMI: A Motor Imagery EEG Classification Model via Fusion of 3D-CNN and LSTM with Attention ( http://arxiv.org/abs/2312.12744v1 ) ライセンス: Link先を確認 | Shiwei Cheng and Yuejiang Hao | (参考訳) 現在の脳波分類アルゴリズム(eeg)の精度とロバスト性に限界があるため、実用的脳-コンピューターインタフェース(bci)への運動画像(mi)の適用は困難である。
本稿では,3次元畳み込みニューラルネットワーク(CNN)と長期記憶ネットワーク(LSTM)を組み合わせてMI-EEG信号を分類するモデルを提案する。
このモデルは、異なるチャネルからのMI-EEG信号を3次元の特徴に組み合わせ、異なるスケールの複数の3次元畳み込みカーネルによる畳み込み操作により空間的特徴を抽出する。
同時に、抽出したMI-EEG信号の時間的特徴の整合性を確保するため、LSTMネットワークは前処理された生信号に基づいて直接訓練された。
最後に,これら2つのネットワークから得られた特徴を組み合わせ,分類に用いた。
実験の結果、このモデルは、MIタスクの分野における最先端モデルよりも高いBCIコンペティションIVデータセット2aにおいて、92.7%、F1スコア0.91の分類精度を達成した。
さらに,実験室で4クラスMIタスクを完了させるために12名の参加者が招待され,収集したデータセットを用いた実験の結果,3D-CLMIモデルも最高分類精度とF1スコアを維持した。
このモデルは、ユーザの運動イメージの意図の分類精度を大幅に改善し、自律走行車や医療リハビリテーションといった新興分野における脳-コンピューターインターフェースの応用性を高めた。 Due to the limitations in the accuracy and robustness of current electroencephalogram (EEG) classification algorithms, applying motor imagery (MI) for practical Brain-Computer Interface (BCI) applications remains challenging. This paper proposed a model that combined a three-dimensional convolutional neural network (CNN) with a long short-term memory (LSTM) network with attention to classify MI-EEG signals. This model combined MI-EEG signals from different channels into three-dimensional features and extracted spatial features through convolution operations with multiple three-dimensional convolutional kernels of different scales. At the same time, to ensure the integrity of the extracted MI-EEG signal temporal features, the LSTM network was directly trained on the preprocessed raw signal. Finally, the features obtained from these two networks were combined and used for classification. Experimental results showed that this model achieved a classification accuracy of 92.7% and an F1-score of 0.91 on the public dataset BCI Competition IV dataset 2a, which were both higher than the state-of-the-art models in the field of MI tasks. Additionally, 12 participants were invited to complete a four-class MI task in our lab, and experiments on the collected dataset showed that the 3D-CLMI model also maintained the highest classification accuracy and F1-score. The model greatly improved the classification accuracy of users' motor imagery intentions, giving brain-computer interfaces better application prospects in emerging fields such as autonomous vehicles and medical rehabilitation. | 翻訳日:2023-12-21 16:50:10 公開日:2023-12-20 |
# PointeNet: 効率的なポイントクラウド分析のための軽量フレームワーク PointeNet: A Lightweight Framework for Effective and Efficient Point Cloud Analysis ( http://arxiv.org/abs/2312.12743v1 ) ライセンス: Link先を確認 | Lipeng Gu, Xuefeng Yan, Liangliang Nan, Dingkun Zhu, Honghua Chen, Weiming Wang, Mingqiang Wei | (参考訳) 点雲解析における現在の手法は、エンコーダにおける複雑な学習可能な幾何抽出器の導入や、繰り返しブロックを持つネットワークの深化によって達成される3次元測地を主に探索している。
しかし、これらのアプローチは必然的に大量の学習可能なパラメータをもたらし、計算コストが大きくなり、CPU/GPUのメモリ負荷が増大する。
さらに、既存の戦略は、主にオブジェクトレベルのポイントクラウド分類とセグメンテーションタスク用に調整されており、自動運転のような重要なシーンレベルのアプリケーションへの拡張は限られている。
このような制約に対応するため,我々は,ポイントクラウド解析に特化した効率的なネットワークであるpointenetを紹介する。
pointenetは、軽量なアーキテクチャ、低いトレーニングコスト、プラグ・アンド・プレイ機能で差別化し、代表的な機能を効果的に捉えている。
ネットワークは多変量幾何符号化(MGE)モジュールと、オプションで距離対応セマンティックエンハンスメント(DSE)モジュールで構成される。
MGEモジュールは、サンプリング、グルーピング、多変量幾何アグリゲーションの操作を使用して、軽量に多変量幾何学的特徴をキャプチャし、適応的に集約し、3次元幾何学の包括的描写を提供する。
実世界の自動運転シナリオ用に設計されたdseモジュールは、特に遠方の点に対するポイントクラウドの意味認識を高める。
本手法は,分類/分割ヘッドとシームレスに統合したり,市販の3Dオブジェクト検出ネットワークに組み込んだりすることで,柔軟性を実証する。
modelnet40、scanobjectnn、shapenetpart、scene-level dataset kittiなど、オブジェクトレベルのデータセットに関する広範な実験は、ポイントクラウド分析におけるpointenetの最先端メソッドよりも優れたパフォーマンスを示している。 Current methodologies in point cloud analysis predominantly explore 3D geometries, often achieved through the introduction of intricate learnable geometric extractors in the encoder or by deepening networks with repeated blocks. However, these approaches inevitably lead to a significant number of learnable parameters, resulting in substantial computational costs and imposing memory burdens on CPU/GPU. Additionally, the existing strategies are primarily tailored for object-level point cloud classification and segmentation tasks, with limited extensions to crucial scene-level applications, such as autonomous driving. In response to these limitations, we introduce PointeNet, an efficient network designed specifically for point cloud analysis. PointeNet distinguishes itself with its lightweight architecture, low training cost, and plug-and-play capability, effectively capturing representative features. The network consists of a Multivariate Geometric Encoding (MGE) module and an optional Distance-aware Semantic Enhancement (DSE) module. The MGE module employs operations of sampling, grouping, and multivariate geometric aggregation to lightweightly capture and adaptively aggregate multivariate geometric features, providing a comprehensive depiction of 3D geometries. The DSE module, designed for real-world autonomous driving scenarios, enhances the semantic perception of point clouds, particularly for distant points. Our method demonstrates flexibility by seamlessly integrating with a classification/segmentation head or embedding into off-the-shelf 3D object detection networks, achieving notable performance improvements at a minimal cost. Extensive experiments on object-level datasets, including ModelNet40, ScanObjectNN, ShapeNetPart, and the scene-level dataset KITTI, demonstrate the superior performance of PointeNet over state-of-the-art methods in point cloud analysis. | 翻訳日:2023-12-21 16:49:43 公開日:2023-12-20 |
# Cached Transformers: メモリキャッシュの異なるトランスフォーマーの改善 Cached Transformers: Improving Transformers with Differentiable Memory Cache ( http://arxiv.org/abs/2312.12742v1 ) ライセンス: Link先を確認 | Zhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo | (参考訳) この研究は、キャッシュトランスと呼ばれる新しいトランスフォーマーモデルを導入し、ゲートリカレントキャッシュ(grc)の注意力を利用して、トークンの微分可能なメモリキャッシュで自己アテンション機構を拡張する。
GRCアテンションは過去と現在のトークンの両方への参加を可能にし、アテンションの受容領域を増やし、長距離依存関係を探索することを可能にする。
再帰ゲーティングユニットを使用してキャッシュを継続的に更新することにより、言語モデリング、機械翻訳、listops、画像分類、オブジェクト検出、インスタンスセグメンテーションを含む、 \textbf{six}言語とビジョンタスクの大幅な進歩を実現する。
さらに,本手法は,言語モデリングなどのタスクにおける従来のメモリベース手法を超越し,幅広い状況に適応する能力を示す。 This work introduces a new Transformer model called Cached Transformer, which uses Gated Recurrent Cached (GRC) attention to extend the self-attention mechanism with a differentiable memory cache of tokens. GRC attention enables attending to both past and current tokens, increasing the receptive field of attention and allowing for exploring long-range dependencies. By utilizing a recurrent gating unit to continuously update the cache, our model achieves significant advancements in \textbf{six} language and vision tasks, including language modeling, machine translation, ListOPs, image classification, object detection, and instance segmentation. Furthermore, our approach surpasses previous memory-based techniques in tasks such as language modeling and displays the ability to be applied to a broader range of situations. | 翻訳日:2023-12-21 16:49:10 公開日:2023-12-20 |
# 変種不明の2アーマドガウスバンドにおける局所的最適固定ベストアーム同定 Locally Optimal Fixed-Budget Best Arm Identification in Two-Armed Gaussian Bandits with Unknown Variances ( http://arxiv.org/abs/2312.12741v1 ) ライセンス: Link先を確認 | Masahiro Kato | (参考訳) 両腕のガウスバンドの固定予算によるベストアーム識別(BAI)の問題に対処する。
複数の腕が与えられたBAIでは、適応的な実験を通じて、最高の腕、最も期待される報酬を持つ腕を見つけることを目指している。
Kaufmann et al. (2016) は、最良の腕を誤識別する確率の低い境界を開発する。
また、報酬の分散が知られていると仮定して戦略を提案し、予算が無限に近づくと、その誤認の確率が下限と一致するという意味で漸近的に最適であることを示す。
しかし、漸近的最適戦略は、分散が未知であるときに未知である。
本稿では,適応実験中にばらつきを推定し,推定された標準偏差の比率で腕を引く戦略を提案する。
この戦略をニーマン割当(na)による逆確率重み付け(aipw)戦略と呼ぶ。
次に,この戦略が漸近的最適であることを示すために,予算が無限大に近づくと誤認の確率が下限に一致し,両腕の期待報酬の差がゼロに近づくことを示す。
以上の結果から,小ギャップ体制を特徴とする最悪のシナリオでは,予測分散を用いた我々の戦略は,変動が未知であっても漸近的に最適であることが示唆された。 We address the problem of best arm identification (BAI) with a fixed budget for two-armed Gaussian bandits. In BAI, given multiple arms, we aim to find the best arm, an arm with the highest expected reward, through an adaptive experiment. Kaufmann et al. (2016) develops a lower bound for the probability of misidentifying the best arm. They also propose a strategy, assuming that the variances of rewards are known, and show that it is asymptotically optimal in the sense that its probability of misidentification matches the lower bound as the budget approaches infinity. However, an asymptotically optimal strategy is unknown when the variances are unknown. For this open issue, we propose a strategy that estimates variances during an adaptive experiment and draws arms with a ratio of the estimated standard deviations. We refer to this strategy as the Neyman Allocation (NA)-Augmented Inverse Probability weighting (AIPW) strategy. We then demonstrate that this strategy is asymptotically optimal by showing that its probability of misidentification matches the lower bound when the budget approaches infinity, and the gap between the expected rewards of two arms approaches zero (small-gap regime). Our results suggest that under the worst-case scenario characterized by the small-gap regime, our strategy, which employs estimated variance, is asymptotically optimal even when the variances are unknown. | 翻訳日:2023-12-21 16:48:55 公開日:2023-12-20 |
# 適応機械翻訳のための微調整大言語モデル Fine-tuning Large Language Models for Adaptive Machine Translation ( http://arxiv.org/abs/2312.12740v1 ) ライセンス: Link先を確認 | Yasmin Moslem, Rejwanul Haque, Andy Way | (参考訳) 本稿では、適応機械翻訳(MT)のための汎用大規模言語モデル(LLM)である微調整Mistral 7Bの結果について述べる。
微調整プロセスは、医療領域内でゼロショットとワンショットの翻訳プロンプトの組み合わせを利用する。
主な目的は、mistral 7bのリアルタイム適応型mt機能を拡張し、推論時に必要な領域への変換を適応させることである。
結果、特にスペイン語と英語のMTでは、微調整モデルの有効性を示し、ゼロショットとワンショットの両方の翻訳シナリオの品質改善を示し、Mistral 7Bのベースライン性能を上回った。
特に、微調整されたMistralは、ゼロショット翻訳においてChatGPT"gpt-3.5-turbo"を上回り、同等のワンショット翻訳品質を実現している。
さらに、微調整ミストラルのゼロショット翻訳はNLLB 3.3Bの性能と一致し、そのワンショット翻訳品質はNLLB 3.3Bを上回る。
これらの知見は、NLLB 3.3Bのようなタスク指向モデルに匹敵する高品質なゼロショット翻訳を実現するために、Mistral 7Bのような微調整効率の良いLLMの重要性を強調している。
さらに、ワンショット翻訳で達成される適応的なゲインは、ChatGPTのような商用LLMに匹敵する。
我々の実験は、ゼロショットとワンショットのプロンプトを混合した2万セグメントの比較的小さなデータセットを用いて、微調整により、特にリアルタイム適応MTにおいて、Mistralのテキスト内学習能力が著しく向上することを示した。 This paper presents the outcomes of fine-tuning Mistral 7B, a general-purpose large language model (LLM), for adaptive machine translation (MT). The fine-tuning process involves utilising a combination of zero-shot and one-shot translation prompts within the medical domain. The primary objective is to enhance real-time adaptive MT capabilities of Mistral 7B, enabling it to adapt translations to the required domain at inference time. The results, particularly for Spanish-to-English MT, showcase the efficacy of the fine-tuned model, demonstrating quality improvements in both zero-shot and one-shot translation scenarios, surpassing Mistral 7B's baseline performance. Notably, the fine-tuned Mistral outperforms ChatGPT "gpt-3.5-turbo" in zero-shot translation while achieving comparable one-shot translation quality. Moreover, the zero-shot translation of the fine-tuned Mistral matches NLLB 3.3B's performance, and its one-shot translation quality surpasses that of NLLB 3.3B. These findings emphasise the significance of fine-tuning efficient LLMs like Mistral 7B to yield high-quality zero-shot translations comparable to task-oriented models like NLLB 3.3B. Additionally, the adaptive gains achieved in one-shot translation are comparable to those of commercial LLMs such as ChatGPT. Our experiments demonstrate that, with a relatively small dataset of 20,000 segments that incorporate a mix of zero-shot and one-shot prompts, fine-tuning significantly enhances Mistral's in-context learning ability, especially for real-time adaptive MT. | 翻訳日:2023-12-21 16:48:32 公開日:2023-12-20 |
# FSscore: 人間の専門知識を活用する機械学習ベースの合成可能性スコア FSscore: A Machine Learning-based Synthetic Feasibility Score Leveraging Human Expertise ( http://arxiv.org/abs/2312.12737v1 ) ライセンス: Link先を確認 | Rebecca M. Neeser, Bruno Correia, Philippe Schwaller | (参考訳) 分子が合成できるかどうかを決定することは、化学と薬物発見の多くの面において重要であり、実験の優先順位付けとデ・ノボの設計タスクにおける分子のランク付けを可能にする。
既存のスコア付け手法は、分布外化学空間への外挿や、訓練された化学者にとって明らかなキラリティーのような小さな違いに基づく判別に失敗したりする。
本研究の目的は、グラフアテンションネットワークを用いて、二項選好に基づいて構造をランク付けするFocusted Synthesizability score (FSscore)を導入することにより、これらの制限に対処することである。
まず、一連の反応物-生成物ペアで訓練されたベースラインが確立され、その後、興味のある化学空間に対する専門家のフィードバックによって微調整される。
焦点を絞ったデータセットの微調整は、適度なパフォーマンスと一般化性を示す事前訓練されたモデルよりも、これらの化学領域のパフォーマンスを向上させる。
これにより、難しい分子と合成しやすい分子を区別し、生成モデル出力の合成アクセシビリティを向上させることができる。
限られたラベルで十分な利益を得る非常に複雑なスコープでは、依然として困難である。
fsscoreは、さまざまなアプリケーションに対する合成実現可能性の評価を最適化するために、人間のエキスパートフィードバックをどのように利用できるかを示す。 Determining whether a molecule can be synthesized is crucial for many aspects of chemistry and drug discovery, allowing prioritization of experimental work and ranking molecules in de novo design tasks. Existing scoring approaches to assess synthetic feasibility struggle to extrapolate to out-of-distribution chemical spaces or fail to discriminate based on minor differences such as chirality that might be obvious to trained chemists. This work aims to address these limitations by introducing the Focused Synthesizability score (FSscore), which learns to rank structures based on binary preferences using a graph attention network. First, a baseline trained on an extensive set of reactant-product pairs is established that subsequently is fine-tuned with expert human feedback on a chemical space of interest. Fine-tuning on focused datasets improves performance on these chemical scopes over the pre-trained model exhibiting moderate performance and generalizability. This enables distinguishing hard- from easy-to-synthesize molecules and improving the synthetic accessibility of generative model outputs. On very complex scopes with limited labels achieving satisfactory gains remains challenging. The FSscore showcases how human expert feedback can be utilized to optimize the assessment of synthetic feasibility for a variety of applications. | 翻訳日:2023-12-21 16:48:06 公開日:2023-12-20 |
# テキスト・画像拡散モデルにおけるモデル保存による外科的概念消去 All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.12807v1 ) ライセンス: Link先を確認 | Seunghoo Hong, Juhun Lee, Simon S. Woo | (参考訳) 安定拡散のようなテキスト間画像モデルは、大規模データセットの利用により、印象的な画像生成合成を示している。
しかし、これらのデータセットには性的に明示的、著作権的、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
個々の概念削除要求に対するこれらの大きなモデルの再訓練は不可能であるため、拡散モデルにおける概念消去に取り組むための微調整アルゴリズムが開発されている。
これらのアルゴリズムは良質な概念消去をもたらすが、いずれも次のような問題を提示している。
1) 崩壊した特徴空間は分解対象の合成をもたらす。
2)最初に合成されたコンテンツは、生成した画像における空間構造と意味論の両方において発散し、
3) 準最適トレーニング更新により,モデルの実用被害に対する感受性が高まる。
これらの問題は、生成モデルの本来の有用性を著しく低下させる。
本研究では,これらの課題をすべて解決する新しいアプローチを提案する。
分類器指導の概念から着想を得て,無条件スコア項のドリフトを制約しながら分類器指導項の外科的更新を提案する。
さらに,本アルゴリズムにより,消去概念の代替案を選択することができ,制御性が向上する。
実験の結果,本アルゴリズムは対象概念を効果的に消去するだけでなく,モデル生成能力も保持できることがわかった。 Text-to-Image models such as Stable Diffusion have shown impressive image generation synthesis, thanks to the utilization of large-scale datasets. However, these datasets may contain sexually explicit, copyrighted, or undesirable content, which allows the model to directly generate them. Given that retraining these large models on individual concept deletion requests is infeasible, fine-tuning algorithms have been developed to tackle concept erasing in diffusion models. While these algorithms yield good concept erasure, they all present one of the following issues: 1) the corrupted feature space yields synthesis of disintegrated objects, 2) the initially synthesized content undergoes a divergence in both spatial structure and semantics in the generated images, and 3) sub-optimal training updates heighten the model's susceptibility to utility harm. These issues severely degrade the original utility of generative models. In this work, we present a new approach that solves all of these challenges. We take inspiration from the concept of classifier guidance and propose a surgical update on the classifier guidance term while constraining the drift of the unconditional score term. Furthermore, our algorithm empowers the user to select an alternative to the erasing concept, allowing for more controllability. Our experimental results show that our algorithm not only erases the target concept effectively but also preserves the model's generation capability. | 翻訳日:2023-12-21 16:41:22 公開日:2023-12-20 |
# MedBench: 医療用大規模言語モデル評価のための大規模中国語ベンチマーク MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models ( http://arxiv.org/abs/2312.12806v1 ) ライセンス: Link先を確認 | Yan Cai, Linlin Wang, Ye Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, Liang He | (参考訳) 医学領域における様々な医学大言語モデル(LLM)の出現は、LCMのマニュアル評価が時間と労働集約性を証明し、統一的な評価基準の必要性を強調している。
この問題を解決するため,中国医学領域の総合的なベンチマークであるMedBenchを紹介した。
特に、このベンチマークは、中国の医療ライセンス試験、住民標準化研修試験、医師の資格試験、検査、診断、治療を含む現実世界の診療例の4つの主要な構成要素から構成されている。
メドベンチは、中国本土の医師の教育的進歩と臨床実践経験を再現し、医学言語学習モデルにおける知識と推論能力の習得を評価するための信頼性の高いベンチマークとして確立した。
1) 本ベンチマークでは, 臨床知識と診断精度の大幅な向上の必要性を強調し, 広範にわたる実験を行い, 様々な観点から詳細な分析を行った。
2)いくつかの一般ドメイン LLM は驚くほど医学的知識を持っている。
これらの知見は、医学研究コミュニティを支援するという究極の目標を掲げ、メドベンチの文脈におけるLSMの能力と限界を解明するものである。 The emergence of various medical large language models (LLMs) in the medical domain has highlighted the need for unified evaluation standards, as manual evaluation of LLMs proves to be time-consuming and labor-intensive. To address this issue, we introduce MedBench, a comprehensive benchmark for the Chinese medical domain, comprising 40,041 questions sourced from authentic examination exercises and medical reports of diverse branches of medicine. In particular, this benchmark is composed of four key components: the Chinese Medical Licensing Examination, the Resident Standardization Training Examination, the Doctor In-Charge Qualification Examination, and real-world clinic cases encompassing examinations, diagnoses, and treatments. MedBench replicates the educational progression and clinical practice experiences of doctors in Mainland China, thereby establishing itself as a credible benchmark for assessing the mastery of knowledge and reasoning abilities in medical language learning models. We perform extensive experiments and conduct an in-depth analysis from diverse perspectives, which culminate in the following findings: (1) Chinese medical LLMs underperform on this benchmark, highlighting the need for significant advances in clinical knowledge and diagnostic precision. (2) Several general-domain LLMs surprisingly possess considerable medical knowledge. These findings elucidate both the capabilities and limitations of LLMs within the context of MedBench, with the ultimate goal of aiding the medical research community. | 翻訳日:2023-12-21 16:41:04 公開日:2023-12-20 |
# autapsesを有する非線形スパイキング神経pニューロンによる多段階注目乳癌の分類 Multi-stages attention Breast cancer classification based on nonlinear spiking neural P neurons with autapses ( http://arxiv.org/abs/2312.12804v1 ) ライセンス: Link先を確認 | Bo Yang, Hong Peng, Xiaohui Luo, Jun Wang, Xianzhong Long | (参考訳) 乳癌(英: breast cancer、bc)は、女性の悪性腫瘍の一種である。
早期診断と治療は患者の生存率を高めるのに不可欠である。
深層ネットワークのダウンサンプリングは情報の損失につながる可能性があるため、詳細情報とエッジ情報を補正し、畳み込みニューラルネットワークが病変領域を探索するためにより注意を払うために、アタプスを持つnsnpニューロンに基づく多段階注意構造を提案する。
まず,既存手法の単一スケールの注意獲得方法とは違って,畳み込みネットワークの各特徴マップ尺度に空間的注意獲得を設定し,注意誘導に関する融合グローバル情報を得る。
次に,アタプを用いたNSNPニューロンと呼ばれる新しいNSNP変異体を紹介する。
具体的には、NSNPシステムは、特徴エンコーダとしてモジュール化され、畳み込みニューラルネットワークから抽出された特徴と注意情報の融合を復号し、特徴マップの重要な特徴要素を保存する。
これにより、高次元の複雑な情報を徐々に低次元に変換しながら、貴重なデータの保持が保証される。
提案手法は,公開データセットのBreakHisを様々な倍率および分類タスクで評価する。
分類精度は96.32%であり、最先端の手法よりも優れている。
アブレーション研究も行われ、提案モデルの有効性を検証する。
ソースコードはXhuBobYoung/Breast-cancer-Classificationで入手できる。 Breast cancer(BC) is a prevalent type of malignant tumor in women. Early diagnosis and treatment are vital for enhancing the patients' survival rate. Downsampling in deep networks may lead to loss of information, so for compensating the detail and edge information and allowing convolutional neural networks to pay more attention to seek the lesion region, we propose a multi-stages attention architecture based on NSNP neurons with autapses. First, unlike the single-scale attention acquisition methods of existing methods, we set up spatial attention acquisition at each feature map scale of the convolutional network to obtain an fusion global information on attention guidance. Then we introduce a new type of NSNP variants called NSNP neurons with autapses. Specifically, NSNP systems are modularized as feature encoders, recoding the features extracted from convolutional neural network as well as the fusion of attention information and preserve the key characteristic elements in feature maps. This ensures the retention of valuable data while gradually transforming high-dimensional complicated info into low-dimensional ones. The proposed method is evaluated on the public dataset BreakHis at various magnifications and classification tasks. It achieves a classification accuracy of 96.32% at all magnification cases, outperforming state-of-the-art methods. Ablation studies are also performed, verifying the proposed model's efficacy. The source code is available at XhuBobYoung/Breast-cancer-Classification. | 翻訳日:2023-12-21 16:40:39 公開日:2023-12-20 |
# Wigner-Yanaseスキュー情報に基づく量子チャネルの不確実性に関する一考察 A note on Wigner-Yanase skew information-based uncertainty of quantum channels ( http://arxiv.org/abs/2312.12800v1 ) ライセンス: Link先を確認 | Qing-Hua Zhang, Jing-Feng Wu, Shao-Ming Fei | (参考訳) 混合状態を含む量子チャネルの分散は、古典的および量子的不確実性のハイブリッドを与える。
Wigner-Yanaseスキュー情報の観点から、古典的および量子的部分への分散のある種の分解を求める。
量子観測可能な量子チャネルに対する不確実性関係を一般化し、量子チャネルの不確実性関係を記述するために、より優れた量子力学的性質を持つ新しい量を導入する。
分散とウィグナー・ヤネーゼスキュー情報による量子チャネルの不確実性関係を導出する。 The variance of quantum channels involving a mixed state gives a hybrid of classical and quantum uncertainties. We seek certain decomposition of variance into classical and quantum parts in terms of the Wigner-Yanase skew information. Generalizing the uncertainty relations for quantum observables to quantum channels, we introduce a new quantity with better quantum mechanical nature to describe the uncertainty relations for quantum channels. We derive several uncertainty relations for quantum channels via variances and the Wigner-Yanase skew information. | 翻訳日:2023-12-21 16:40:16 公開日:2023-12-20 |
# banditシーケンシャルな価格設定はハーフコンベビティ経由 Bandit Sequential Posted Pricing via Half-Concavity ( http://arxiv.org/abs/2312.12794v1 ) ライセンス: Link先を確認 | Sahil Singla, Yifan Wang | (参考訳) 列挙された価格オークションは、実践の単純さと理論のトラクタビリティによって人気がある。
彼らの研究における通常の仮定は、購入者のベイズ以前の分布は販売者に知られているが、実際にはこれらの事前分布は歴史的データからのみアクセスできるというものである。
この仮定を克服するために、バンディット学習モデルにおいて、売り手が$T$のラウンドで$n$の買い手と相互作用する連続的な価格について調査する: 各ラウンドでは、売り手は$n$の買い手に対して$n$の価格を投稿し、最初の買い手は、その商品を受け取った価格よりも高い価格で評価する。
販売者が各ラウンドで受け取る唯一のフィードバックは収益である。
本研究の主な成果は,帯域学習モデルにおける単一項目の逐次投稿価格に対して,ほぼ最適な後悔境界を求めることである。
特に、(myersonの)正規分布を持つ買い手に対して$\tilde{o}(\mathsf{poly}(n)\sqrt{t})$を、一般分布を持つ買い手に対して$\tilde{o}(\mathsf{poly}(n)t^{{2}/{3}})$を、どちらも$t$のラウンド数でタイトである。
正規分布に対する結果は,従来シングルバイヤー設定においても知られておらず,価値空間における収益関数の新たな半透明性に依存している。
シーケンシャルバイヤー$n$の場合、我々の技術は、すべてのバイヤーに対して一般化されたシングルバイヤーアルゴリズムを実行し、サフィックスバイヤーのサブ最適価格からの後悔を慎重に拘束することである。 Sequential posted pricing auctions are popular because of their simplicity in practice and their tractability in theory. A usual assumption in their study is that the Bayesian prior distributions of the buyers are known to the seller, while in reality these priors can only be accessed from historical data. To overcome this assumption, we study sequential posted pricing in the bandit learning model, where the seller interacts with $n$ buyers over $T$ rounds: In each round the seller posts $n$ prices for the $n$ buyers and the first buyer with a valuation higher than the price takes the item. The only feedback that the seller receives in each round is the revenue. Our main results obtain nearly-optimal regret bounds for single-item sequential posted pricing in the bandit learning model. In particular, we achieve an $\tilde{O}(\mathsf{poly}(n)\sqrt{T})$ regret for buyers with (Myerson's) regular distributions and an $\tilde{O}(\mathsf{poly}(n)T^{{2}/{3}})$ regret for buyers with general distributions, both of which are tight in the number of rounds $T$. Our result for regular distributions was previously not known even for the single-buyer setting and relies on a new half-concavity property of the revenue function in the value space. For $n$ sequential buyers, our technique is to run a generalized single-buyer algorithm for all the buyers and to carefully bound the regret from the sub-optimal pricing of the suffix buyers. | 翻訳日:2023-12-21 16:40:08 公開日:2023-12-20 |
# スパースニューラルダイナミクスを用いたモデルベース制御 Model-Based Control with Sparse Neural Dynamics ( http://arxiv.org/abs/2312.12791v1 ) ライセンス: Link先を確認 | Ziang Liu, Genggeng Zhou, Jeff He, Tobia Marcucci, Li Fei-Fei, Jiajun Wu, Yunzhu Li | (参考訳) ディープニューラルネットワーク(DNN)を用いた観測から予測モデルを学ぶことは、多くの現実世界の計画と制御の問題に対する有望な新しいアプローチである。
しかし、一般的なDNNは効率的な計画を立てるには非構造的すぎるため、現在の制御方法は一般的に広範囲のサンプリングや局所的な勾配勾配に依存する。
本稿では,効率的な最適化アルゴリズムに適したモデル学習と予測制御のための新しいフレームワークを提案する。
具体的には,システムダイナミクスのreluニューラルモデルから始めて,予測精度の低下を最小限に抑えながら,冗長なニューロンを取り除いて徐々にスパース化する。
この離散スパーシフィケーションプロセスは連続問題として近似され、モデルアーキテクチャと重みパラメータの両方をエンドツーエンドに最適化することができる。
スパーシファイドモデルはその後、ニューロンの活性化をバイナリ変数として表現し、効率的な分岐・結合アルゴリズムを使用する混合整数予測制御器によって使用される。
我々のフレームワークは、単純な多層パーセプトロンから複雑なグラフニューラルダイナミクスまで、多種多様なDNNに適用できる。
オブジェクトプッシュ、コンポジションオブジェクトソート、変形可能なオブジェクトの操作など、複雑な接触ダイナミクスに関わるタスクを効率的に処理できる。
数値およびハードウェア実験により,攻撃的なスパシフィケーションにもかかわらず,我々のフレームワークは既存の最先端手法よりもクローズドループ性能を向上できることが示された。 Learning predictive models from observations using deep neural networks (DNNs) is a promising new approach to many real-world planning and control problems. However, common DNNs are too unstructured for effective planning, and current control methods typically rely on extensive sampling or local gradient descent. In this paper, we propose a new framework for integrated model learning and predictive control that is amenable to efficient optimization algorithms. Specifically, we start with a ReLU neural model of the system dynamics and, with minimal losses in prediction accuracy, we gradually sparsify it by removing redundant neurons. This discrete sparsification process is approximated as a continuous problem, enabling an end-to-end optimization of both the model architecture and the weight parameters. The sparsified model is subsequently used by a mixed-integer predictive controller, which represents the neuron activations as binary variables and employs efficient branch-and-bound algorithms. Our framework is applicable to a wide variety of DNNs, from simple multilayer perceptrons to complex graph neural dynamics. It can efficiently handle tasks involving complicated contact dynamics, such as object pushing, compositional object sorting, and manipulation of deformable objects. Numerical and hardware experiments show that, despite the aggressive sparsification, our framework can deliver better closed-loop performance than existing state-of-the-art methods. | 翻訳日:2023-12-21 16:39:31 公開日:2023-12-20 |
# 一般化確率論における非分極基準デバイス Depolarizing Reference Devices in Generalized Probabilistic Theories ( http://arxiv.org/abs/2312.12790v1 ) ライセンス: Link先を確認 | Matthew B. Weiss | (参考訳) QBismは量子論の解釈であり、量子力学をいくつかの特別な規範的制約を補足した標準確率論とみなす。
基本的なギャンビットは、情報的に完全な参照装置に関して、状態や測定値、時間発展を表現することである。
この観点から、ボルンの規則は、全確率法則(LTP)の変形として現れるいくつかの異なる実験における確率割り当てのコヒーレンス条件として現れる。
本研究では、この変形が「簡単」な(短期的なアフィン)形式をとる参照デバイスを、完全に特徴づける。
一般化確率論(gpts)の枠組みにおいて、任意の基準測定値が与えられたとき、測定後の参照状態の組が常に選択され、その確率規則をこの形式で与えることができることを示した。
必須条件は、対応する測度とプレパアチャネルが脱分極可能であることである。
また, szymusiak と s{\l}omczy\'nski が最近導入した morphophoriity の概念と, 行列ノルムに基づく ltp 変形測定を批判的に再検討した。
この分析から QBist プロジェクトで際立つことは、それは、規範的に理解しなければならないボルンの規則の純粋な形式であるだけでなく、その内部の定数でもあるということである。
量子論の細部を担っているのが彼らです。 QBism is an interpretation of quantum theory which views quantum mechanics as standard probability theory supplemented with a few extra normative constraints. The fundamental gambit is to represent states and measurements, as well as time evolution, with respect to an informationally complete reference device. From this point of view, the Born rule appears as a coherence condition on probability assignments across several different experiments which manifests as a deformation of the law of total probability (LTP). In this work, we fully characterize those reference devices for which this deformation takes a "simplest possible" (term-wise affine) form. Working in the framework of generalized probability theories (GPTs), we show that, given any reference measurement, a set of post-measurement reference states can always be chosen to give its probability rule this very form. The essential condition is that the corresponding measure-and-prepare channel be depolarizing. We also relate our construction to Szymusiak and S{\l}omczy\'nski's recently introduced notion of morphophoricity and re-examine critically a matrix-norm-based measure of LTP deformation in light of our results. What stands out for the QBist project from this analysis is that it is not only the pure form of the Born rule that must be understood normatively, but the constants within it as well. It is they that carry the details of quantum theory. | 翻訳日:2023-12-21 16:39:08 公開日:2023-12-20 |
# SLP-Net:皮膚病変のセグメンテーションのための効率的な軽量ネットワーク SLP-Net:An efficient lightweight network for segmentation of skin lesions ( http://arxiv.org/abs/2312.12789v1 ) ライセンス: Link先を確認 | Bo Yang, Hong Peng, Chenggang Guo, Xiaohui Luo, Jun Wang, Xianzhong Long | (参考訳) メラノーマのプロンプト治療は重要である。
そこで本研究では,slp-netという,スパイキングニューラルp(snp)システムに基づく超軽量セグメンテーションネットワークを用いた皮膚病変セグメンテーション手法を提案する。
既存の畳み込みニューラルネットワークの多くは、高いハードウェアコストを無視しながら高いセグメンテーション精度を達成する。
一方、SLP-Netは非常に少ないパラメータと高い計算速度を持つ。
通常のエンコーダ・デコーダ構造を持たない軽量なマルチスケール特徴抽出器を設計する。
デコーダではなく、機能適応モジュールがデコーダを置き換え、マルチスケール情報デコードを実装するように設計されている。
ISIC2018チャレンジでの実験では、提案されたモデルが最先端の手法の中で最も高いAccとDSCを持ち、PH2データセットでの実験は良好な一般化能力を示している。
最後に,slp-netが全体の優越性が最も高い実験において,計算複雑性とモデルの計算速度を比較した。 Prompt treatment for melanoma is crucial. To assist physicians in identifying lesion areas precisely in a quick manner, we propose a novel skin lesion segmentation technique namely SLP-Net, an ultra-lightweight segmentation network based on the spiking neural P(SNP) systems type mechanism. Most existing convolutional neural networks achieve high segmentation accuracy while neglecting the high hardware cost. SLP-Net, on the contrary, has a very small number of parameters and a high computation speed. We design a lightweight multi-scale feature extractor without the usual encoder-decoder structure. Rather than a decoder, a feature adaptation module is designed to replace it and implement multi-scale information decoding. Experiments at the ISIC2018 challenge demonstrate that the proposed model has the highest Acc and DSC among the state-of-the-art methods, while experiments on the PH2 dataset also demonstrate a favorable generalization ability. Finally, we compare the computational complexity as well as the computational speed of the models in experiments, where SLP-Net has the highest overall superiority | 翻訳日:2023-12-21 16:38:43 公開日:2023-12-20 |
# 異種転送学習による異種データセットを用いた高次元一般化線形モデルの構築 Heterogeneous Transfer Learning for Building High-Dimensional Generalized Linear Models with Disparate Datasets ( http://arxiv.org/abs/2312.12786v1 ) ライセンス: Link先を確認 | Ruzhang Zhao, Prosenjit Kundu, Arkajyoti Saha, Nilanjan Chatterjee | (参考訳) 包括的な予測モデルの開発は科学の多くの分野において大きな関心を持つが、すべての望ましい特徴に関する情報を持つデータセットは通常、小さなサンプルサイズを持つ。
本稿では,すべての予測器について詳細な情報を持つ主研究データと,より限定された予測器の集合を確定した1つ以上の外部研究データを用いて,高次元一般化線形モデルを構築するための伝達学習手法について述べる。
本研究では, モデルモデルの構築に外部データセットを用い, 設計変数の学習固有の影響を考慮しつつ, キャリブレーション方程式を用いて主研究の分析のための基礎となるパラメータの情報を伝達することを提案する。
次に,パラメータ推定にペナリゼーションを伴う一般化モーメント法(gmm)を用い,一般的なglmnetパッケージを活用したモデル適合のための高スケーラブルなアルゴリズムを開発した。
さらに、適応ラッソペナルティを用いることで、基礎となるパラメータ推定のオラクル特性が得られ、より便利な選択後推論手順がもたらされることを示す。
提案手法の予測性能と選択後の推定特性の両方を調べるため,広範囲なシミュレーションを行った。
最後に,英国バイオバンクを用いた5つの共通疾患のリスク予測モデルの開発に,提案手法をタイムリーに応用し,全研究参加者(500k)のベースライン情報と,最近発表された高スループットプロテオミクスデータ(# protein = 1500)を,50kのサブセット上で組み合わせた。 Development of comprehensive prediction models are often of great interest in many disciplines of science, but datasets with information on all desired features typically have small sample sizes. In this article, we describe a transfer learning approach for building high-dimensional generalized linear models using data from a main study that has detailed information on all predictors, and from one or more external studies that have ascertained a more limited set of predictors. We propose using the external dataset(s) to build reduced model(s) and then transfer the information on underlying parameters for the analysis of the main study through a set of calibration equations, while accounting for the study-specific effects of certain design variables. We then use a generalized method of moment (GMM) with penalization for parameter estimation and develop highly scalable algorithms for fitting models taking advantage of the popular glmnet package. We further show that the use of adaptive-Lasso penalty leads to the oracle property of underlying parameter estimates and thus leads to convenient post-selection inference procedures. We conduct extensive simulation studies to investigate both predictive performance and post-selection inference properties of the proposed method. Finally, we illustrate a timely application of the proposed method for the development of risk prediction models for five common diseases using the UK Biobank study, combining baseline information from all study participants (500K) and recently released high-throughout proteomic data (# protein = 1500) on a subset (50K) of the participants. | 翻訳日:2023-12-21 16:38:26 公開日:2023-12-20 |
# グラフニューラルネットワークに基づく設計技術共最適化のための高速セルライブラリ特性評価 Fast Cell Library Characterization for Design Technology Co-Optimization Based on Graph Neural Networks ( http://arxiv.org/abs/2312.12784v1 ) ライセンス: Link先を確認 | Tianliang Ma, Zhihui Deng, Xuguang Sun, Leilai Shao | (参考訳) 設計技術共最適化(DTCO)は、半導体プロセス開発における最適電力、性能、面積(PPA)を達成する上で重要な役割を果たしている。
細胞ライブラリーの特徴はDTCOフローに必須であるが、従来の手法は時間と費用がかかる。
これらの課題を克服するため,我々は,高速かつ正確なセルライブラリ解析のためのグラフニューラルネットワーク(GNN)に基づく機械学習モデルを提案する。
本モデルはセル構造を組み込んで様々なプロセス電圧温度(pvt)コーナーと技術パラメータにわたって高い予測精度を示す。
512の技術コーナーと100万以上のテストデータポイントによる検証は、平均絶対パーセンテージ誤差(MAPE)0.95%、SPICEシミュレーションと比較して100倍の速度で、33種類のセルの遅延、電力、入力ピン容量の正確な予測を示している。
さらに,nnnモデルから得られた未発見コーナーでの予測値を用いて,最悪負のスラックス(wns),リーク電力,動的パワーなどのシステムレベルの指標を調査した。
このモデルは、wnsの絶対誤差$\le$3.0 ps、リーク電力のパーセンテージ誤差$\le$0.60%、golden referenceと比較して動的電力$0.99%という正確な予測を達成している。
さらに, 小型・中規模設計におけるPPA向上のための微粒化駆動強度補間法を提案し, ほぼ1-3%の改善を実現した。 Design technology co-optimization (DTCO) plays a critical role in achieving optimal power, performance, and area (PPA) for advanced semiconductor process development. Cell library characterization is essential in DTCO flow, but traditional methods are time-consuming and costly. To overcome these challenges, we propose a graph neural network (GNN)-based machine learning model for rapid and accurate cell library characterization. Our model incorporates cell structures and demonstrates high prediction accuracy across various process-voltage-temperature (PVT) corners and technology parameters. Validation with 512 unseen technology corners and over one million test data points shows accurate predictions of delay, power, and input pin capacitance for 33 types of cells, with a mean absolute percentage error (MAPE) $\le$ 0.95% and a speed-up of 100X compared with SPICE simulations. Additionally, we investigate system-level metrics such as worst negative slack (WNS), leakage power, and dynamic power using predictions obtained from the GNN-based model on unseen corners. Our model achieves precise predictions, with absolute error $\le$3.0 ps for WNS, percentage errors $\le$0.60% for leakage power, and $\le$0.99% for dynamic power, when compared to golden reference. With the developed model, we further proposed a fine-grained drive strength interpolation methodology to enhance PPA for small-to-medium-scale designs, resulting in an approximate 1-3% improvement. | 翻訳日:2023-12-21 16:37:56 公開日:2023-12-20 |
# 安定蒸留:低リソース自動音声認識のための連続事前学習の規則化 Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition ( http://arxiv.org/abs/2312.12783v1 ) ライセンス: Link先を確認 | Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha | (参考訳) 既存のSSLモデルをターゲット領域に適応させるためのSSL事前トレーニングは、低リソース自動音声認識(ASR)において極めて効果的であることが示されている。
本稿では、ラベル付きデータとラベルなしデータの両方が制限されたターゲット領域におけるASR性能を高めるSSLベースの継続事前トレーニングのための、シンプルで斬新なアプローチである安定蒸留を提案する。
安定蒸留は自己蒸留を継続前訓練の正則化として採用し、過剰充填問題を軽減するため、ソース領域とターゲット領域が異なっても前訓練を継続する共通問題である。
具体的には、まずターゲットドメインのASRデータセット上で、最初のSSL事前トレーニングモデルでバニラを事前トレーニングし、それを教師と呼ぶ。
次に,学生と同じ事前学習モデルを用いて,隠れた表現を教師のそれに近いものに強制しながら,継続した事前学習を行う(MSE損失)。
この学生は、ターゲットデータセットの下流ASR微調整に使用される。
実際、安定蒸留は様々な実験環境で評価した場合、すべてのベースラインを0.8から7 wer上回る。 Continued self-supervised (SSL) pre-training for adapting existing SSL models to the target domain has shown to be extremely effective for low-resource Automatic Speech Recognition (ASR). This paper proposes Stable Distillation, a simple and novel approach for SSL-based continued pre-training that boosts ASR performance in the target domain where both labeled and unlabeled data are limited. Stable Distillation employs self-distillation as regularization for continued pre-training, alleviating the over-fitting issue, a common problem continued pre-training faces when the source and target domains differ. Specifically, first, we perform vanilla continued pre-training on an initial SSL pre-trained model on the target domain ASR dataset and call it the teacher. Next, we take the same initial pre-trained model as a student to perform continued pre-training while enforcing its hidden representations to be close to that of the teacher (via MSE loss). This student is then used for downstream ASR fine-tuning on the target dataset. In practice, Stable Distillation outperforms all our baselines by 0.8 - 7 WER when evaluated in various experimental settings. | 翻訳日:2023-12-21 16:37:25 公開日:2023-12-20 |
# DynaLay: ディープネットワークのための動的層選択のイントロスペクティブアプローチ DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep Networks ( http://arxiv.org/abs/2312.12781v1 ) ライセンス: Link先を確認 | Mrinal Mathur, Sergey Plis | (参考訳) ディープラーニングモデルはますます計算集約化され、トレーニングと推論の両方に膨大な計算リソースと時間が必要である。
この課題への重要な貢献要因は、その複雑さに関係なく、各入力例に展開される一様計算労力である。
本稿では,各入力の処理に最も適した層を適応的に選択する決定エージェントを特徴とする代替アーキテクチャである‘textbf{DynaLay} を紹介する。
DynaLayは推論中により複雑な入力を再評価し、パフォーマンスと効率の両方を最適化するために計算作業を調整する。
システムのコアは、固定点反復(fpi)層を備えたメインモデルであり、複雑な機能を正確に近似することができる。
モデルはより難しい例を処理するのにより多くの時間を費やすが、簡単な例には最小の計算が必要である。
この内省的なアプローチは、"弾道的な"解答ではなく、"思考"と"指示"の深層学習モデルを開発するためのステップである。
実験により,DynaLayは従来のディープモデルに匹敵する精度を達成し,計算要求を大幅に低減することを示した。 Deep learning models have become increasingly computationally intensive, requiring extensive computational resources and time for both training and inference. A significant contributing factor to this challenge is the uniform computational effort expended on each input example, regardless of its complexity. We introduce \textbf{DynaLay}, an alternative architecture that features a decision-making agent to adaptively select the most suitable layers for processing each input, thereby endowing the model with a remarkable level of introspection. DynaLay reevaluates more complex inputs during inference, adjusting the computational effort to optimize both performance and efficiency. The core of the system is a main model equipped with Fixed-Point Iterative (FPI) layers, capable of accurately approximating complex functions, paired with an agent that chooses these layers or a direct action based on the introspection of the models inner state. The model invests more time in processing harder examples, while minimal computation is required for easier ones. This introspective approach is a step toward developing deep learning models that "think" and "ponder", rather than "ballistically'' produce answers. Our experiments demonstrate that DynaLay achieves accuracy comparable to conventional deep models while significantly reducing computational demands. | 翻訳日:2023-12-21 16:37:06 公開日:2023-12-20 |
# 協調型ビジネスインテリジェンスバーチャルアシスタント Collaborative business intelligence virtual assistant ( http://arxiv.org/abs/2312.12778v1 ) ライセンス: Link先を確認 | Olga Cherednichenko and Fahad Muhammad | (参考訳) 現在のビジネスランドスケープは、意思決定のために正確で信頼性の高い情報を迅速に提供できるインテリジェントな技術とツールを統合する新しい方法論を必要とする。
現代社会の特徴は、様々な領域にまたがる膨大な量の蓄積データによって特徴づけられ、意思決定プロセスのインフォームと導出の可能性を秘めている。
しかしながら、これらのデータは一般的に異なるソフトウェアシステムによって収集され、保存され、様々なフォーマットに格納され、様々なレベルのアクセシビリティとセキュリティを提供する。
このような大量のデータを処理する上での課題に対処するため、組織はしばしばデータアナリストに依存します。
それでも、蓄積されたデータの利点を活用するための大きなハードルは、技術専門家、意思決定者、ビジネスプロセスアナリスト間の直接的なコミュニケーションの欠如にある。
この問題を克服するために、コラボレーティブビジネスインテリジェンス(cbi)の応用が実行可能なソリューションとして現れます。
本研究は、データマイニングの応用に焦点を当て、ユーザとCBI仮想アシスタントのインタラクションを通じて、分散仮想チーム内のCBIプロセスをモデル化することを目的とする。
提案するcbi用仮想アシスタントは,幅広いユーザを対象としたデータ探索のアクセシビリティ向上と,データ解析に必要な時間と労力の合理化を目的としている。
本研究の主な貢献は以下のとおりである。
1) 言語理論に触発された協調的BIを表す参照モデル
2) ユーザクエリを実行可能なコマンドに変換することで,データ探索ソフトウェア内での利用を容易にするアプローチ。
3) データ分析用に設計された会話エージェントのワークフロー。 The present-day business landscape necessitates novel methodologies that integrate intelligent technologies and tools capable of swiftly providing precise and dependable information for decision-making purposes. Contemporary society is characterized by vast amounts of accumulated data across various domains, which hold considerable potential for informing and guiding decision-making processes. However, these data are typically collected and stored by disparate and unrelated software systems, stored in diverse formats, and offer varying levels of accessibility and security. To address the challenges associated with processing such large volumes of data, organizations often rely on data analysts. Nonetheless, a significant hurdle in harnessing the benefits of accumulated data lies in the lack of direct communication between technical specialists, decision-makers, and business process analysts. To overcome this issue, the application of collaborative business intelligence (CBI) emerges as a viable solution. This research focuses on the applications of data mining and aims to model CBI processes within distributed virtual teams through the interaction of users and a CBI Virtual Assistant. The proposed virtual assistant for CBI endeavors to enhance data exploration accessibility for a wider range of users and streamline the time and effort required for data analysis. The key contributions of this study encompass: 1) a reference model representing collaborative BI, inspired by linguistic theory; 2) an approach that enables the transformation of user queries into executable commands, thereby facilitating their utilization within data exploration software; and 3) the primary workflow of a conversational agent designed for data analytics. | 翻訳日:2023-12-21 16:36:41 公開日:2023-12-20 |
# メッシーテキストのセグメンテーション:歴史新聞画像から得られたテキスト境界の検出 Segmenting Messy Text: Detecting Boundaries in Text Derived from Historical Newspaper Images ( http://arxiv.org/abs/2312.12773v1 ) ライセンス: Link先を確認 | Carol Anderson and Phil Crone (Ancestry.com) | (参考訳) 文書をセクションに分割するタスクであるテキストセグメンテーションは、しばしば追加の自然言語処理タスクを実行するための前提条件である。
既存のテキストセグメンテーション手法は通常、異なるトピックを含むセグメントを持つクリーンな物語スタイルのテキストを使用して開発、テストされている。
ここでは、新聞の結婚発表リストを1つの発表単位に分割するという、難しいテキストセグメンテーションタスクについて検討する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
また、光学式文字認識による歴史新聞のイメージから派生した発表文には、多くのタイポグラフィー的誤りが含まれている。
その結果、これらの発表は既存の技術でセグメンテーションを行うのに適していない。
そこで本研究では,これらのテキストをセグメント化するための新しいディープラーニングモデルを提案する。 Text segmentation, the task of dividing a document into sections, is often a prerequisite for performing additional natural language processing tasks. Existing text segmentation methods have typically been developed and tested using clean, narrative-style text with segments containing distinct topics. Here we consider a challenging text segmentation task: dividing newspaper marriage announcement lists into units of one announcement each. In many cases the information is not structured into sentences, and adjacent segments are not topically distinct from each other. In addition, the text of the announcements, which is derived from images of historical newspapers via optical character recognition, contains many typographical errors. As a result, these announcements are not amenable to segmentation with existing techniques. We present a novel deep learning-based model for segmenting such text and show that it significantly outperforms an existing state-of-the-art method on our task. | 翻訳日:2023-12-21 16:36:17 公開日:2023-12-20 |
# CARLAシミュレータにおけるLiDARのリアル雨天シミュレーション Realistic Rainy Weather Simulation for LiDARs in CARLA Simulator ( http://arxiv.org/abs/2312.12772v1 ) ライセンス: Link先を確認 | Donglin Yang, Zhenfeng Liu, Wentao Jiang, Guohang Yan, Xing Gao, Botian Shi, Si Liu and Xinyu Cai | (参考訳) 近年,悪天候時の知覚性能向上のためのデータ拡張手法が注目されている。
lidar拡張手法のほとんどは、物理ベースのモデルや機械学習による既存のデータセットの処理後に行われる。
しかし, 環境アノテーションの制限や, 既存のデータセットの車両軌道の固定化などにより, シーンを編集し, 交通の流れやシナリオの多様性を拡大することは困難である。
そこで本研究では,このシナリオにおけるLiDARの知覚性能を向上させるため,降雨時のLiDARデータの拡張を目的としたシミュレータに基づく物理モデリング手法を提案する。
CARLAシミュレータにおける雨天候のモデリングタスクを完了し、LiDARデータ収集のためのパイプラインを確立する。
特に,降雨時の周囲車両の車輪に巻き上げられたスプレーとスプラッシュに特別な注意を払って,この特別シナリオのシミュレーションを,我々が開発したスプレーエミッタ法によるシミュレーションで完了させた。
さらに、異なる気象条件がLiDARエコーの強度に与える影響について検討し、LiDARエコーの強度を予測するネットワークを開発し、4重LiDAR点雲データのシミュレーションを完成させた。
実験では, Waymo Open Datasetの降雨シーケンスにおいて, 合成データにより強化されたモデルにより, 物体検出タスクの性能が向上することが確認された。
コードとデータセットはhttps://github.com/PJLab-ADG/PCSim#rainypcsimで公開される。 Employing data augmentation methods to enhance perception performance in adverse weather has attracted considerable attention recently. Most of the LiDAR augmentation methods post-process the existing dataset by physics-based models or machine-learning methods. However, due to the limited environmental annotations and the fixed vehicle trajectories in the existing dataset, it is challenging to edit the scene and expand the diversity of traffic flow and scenario. To this end, we propose a simulator-based physical modeling approach to augment LiDAR data in rainy weather in order to improve the perception performance of LiDAR in this scenario. We complete the modeling task of the rainy weather in the CARLA simulator and establish a pipeline for LiDAR data collection. In particular, we pay special attention to the spray and splash rolled up by the wheels of surrounding vehicles in rain and complete the simulation of this special scenario through the Spray Emitter method we developed. In addition, we examine the influence of different weather conditions on the intensity of the LiDAR echo, develop a prediction network for the intensity of the LiDAR echo, and complete the simulation of 4-feat LiDAR point cloud data. In the experiment, we observe that the model augmented by the synthetic data improves the object detection task's performance in the rainy sequence of the Waymo Open Dataset. Both the code and the dataset will be made publicly available at https://github.com/PJLab-ADG/PCSim#rainypcsim. | 翻訳日:2023-12-21 16:36:01 公開日:2023-12-20 |
# FedA3I: 異種アノテーションに対するフェデレーション医用画像分割のためのアグリゲーション FedA3I: Annotation Quality-Aware Aggregation for Federated Medical Image Segmentation Against Heterogeneous Annotation Noise ( http://arxiv.org/abs/2312.12838v1 ) ライセンス: Link先を確認 | Nannan Wu, Zhaobin Sun, Zengqiang Yan, Li Yu | (参考訳) 連合学習(federated learning, fl)は、プライバシ保護特性のため、分散医療データのセグメンテーションモデルをトレーニングするための有望なパラダイムとして登場した。
しかし、既存の研究では、FLの性能上限を制限する実世界の医療データセットで発生する一般的なアノテーションノイズを見落としている。
本稿では,この問題を初めて特定し,解決する。
問題定式化のために,非独立かつ同一分布する(非iid)ノイズを各クライアント内の画素間でモデル化し,それをマルチソースデータに拡張して異種雑音モデル(\textit{i.},非iidアノテーションノイズ)を形成するための輪郭進化を提案する。
このような2段階の非IIDノイズを持つアノテーションからの堅牢な学習では、モデルアグリゲーションにおけるデータ品質の重要性を強調し、高品質なクライアントがFLに大きな影響を与えます。
そこで本稿では,クライアント側ノイズ推定に基づく品質係数を導入し,それを実現するために,textbf{Fed}erated learning with \textbf{A}nnotation qu\textbf{A}lity-aware \textbf{A}ggregat\textbf{I}onを提案する。
具体的には,各クライアントにおけるノイズ推定をガウス混合モデルを用いて達成し,それをモデル集約に階層的に組み込む。
2つの実世界の医療画像セグメンテーションデータセットに対する大規模な実験は、クロスクオリエントアノテーションノイズに対する最先端アプローチに対するFedA$3$Iの優れた性能を示している。
コードは \color{blue}{https://github.com/wnn2000/fedaaai} で入手できる。 Federated learning (FL) has emerged as a promising paradigm for training segmentation models on decentralized medical data, owing to its privacy-preserving property. However, existing research overlooks the prevalent annotation noise encountered in real-world medical datasets, which limits the performance ceilings of FL. In this paper, we, for the first time, identify and tackle this problem. For problem formulation, we propose a contour evolution for modeling non-independent and identically distributed (Non-IID) noise across pixels within each client and then extend it to the case of multi-source data to form a heterogeneous noise model (\textit{i.e.}, Non-IID annotation noise across clients). For robust learning from annotations with such two-level Non-IID noise, we emphasize the importance of data quality in model aggregation, allowing high-quality clients to have a greater impact on FL. To achieve this, we propose \textbf{Fed}erated learning with \textbf{A}nnotation qu\textbf{A}lity-aware \textbf{A}ggregat\textbf{I}on, named \textbf{FedA$^3$I}, by introducing a quality factor based on client-wise noise estimation. Specifically, noise estimation at each client is accomplished through the Gaussian mixture model and then incorporated into model aggregation in a layer-wise manner to up-weight high-quality clients. Extensive experiments on two real-world medical image segmentation datasets demonstrate the superior performance of FedA$^3$I against the state-of-the-art approaches in dealing with cross-client annotation noise. The code is available at \color{blue}{https://github.com/wnn2000/FedAAAI}. | 翻訳日:2023-12-21 16:29:06 公開日:2023-12-20 |
# 1中心クラスタリングと1平均クラスタリングを用いた分散学習のための準最適レジリエントアグリゲーションルール Near-Optimal Resilient Aggregation Rules for Distributed Learning Using 1-Center and 1-Mean Clustering with Outliers ( http://arxiv.org/abs/2312.12835v1 ) ライセンス: Link先を確認 | Yuhao Yi, Ronghui You, Hong Liu, Changxin Liu, Yuan Wang, Jiancheng Lv | (参考訳) ビザンチン機械学習は、大規模分散学習システムで発生する予測不能な障害に照らして、かなりの注目を集めている。
分散学習におけるビザンチンマシンに対するレジリエンスを確保する鍵は、レジリエントアグリゲーションメカニズムである。
豊富なレジリエントアグリゲーションルールが提案されているが、パフォーマンス基準間のルールの比較、分析、改善に余分な障壁を課すアドホックな方法で設計されている。
本稿では,外乱の存在下でのクラスタリングを用いた準最適アグリゲーション規則について検討する。
outlier-robustクラスタリングアプローチでは,workersが提供する更新ベクトルの幾何学的性質を利用する。
分析の結果,1中心と1平均のクラスタリング問題に対する不均一な近似は,それぞれ同種および不均一なケースにおいて重要であることが判明した。
さらに,単一のアグリゲーションルールがナイーブ平均値で改善されることが保証されない2つの相反する攻撃について考察する。
そこで本研究では,二相弾性凝集フレームワークを提案する。
非凸損失関数を用いた画像分類実験を行った。
提案アルゴリズムは, 既知のアグリゲーション規則を, 非フォウティ作業者間での同質データ分布と異質データ分布で大差で上回っている。
コードと付録はhttps://github.com/jerry907/AAAI24-RASHBで入手できる。 Byzantine machine learning has garnered considerable attention in light of the unpredictable faults that can occur in large-scale distributed learning systems. The key to secure resilience against Byzantine machines in distributed learning is resilient aggregation mechanisms. Although abundant resilient aggregation rules have been proposed, they are designed in ad-hoc manners, imposing extra barriers on comparing, analyzing, and improving the rules across performance criteria. This paper studies near-optimal aggregation rules using clustering in the presence of outliers. Our outlier-robust clustering approach utilizes geometric properties of the update vectors provided by workers. Our analysis show that constant approximations to the 1-center and 1-mean clustering problems with outliers provide near-optimal resilient aggregators for metric-based criteria, which have been proven to be crucial in the homogeneous and heterogeneous cases respectively. In addition, we discuss two contradicting types of attacks under which no single aggregation rule is guaranteed to improve upon the naive average. Based on the discussion, we propose a two-phase resilient aggregation framework. We run experiments for image classification using a non-convex loss function. The proposed algorithms outperform previously known aggregation rules by a large margin with both homogeneous and heterogeneous data distributions among non-faulty workers. Code and appendix are available at https://github.com/jerry907/AAAI24-RASHB. | 翻訳日:2023-12-21 16:28:28 公開日:2023-12-20 |
# スペクトル超解法のための学習的排他的相関:空間スペクトルの統一が相互線形依存と出会う場合 Learning Exhaustive Correlation for Spectral Super-Resolution: Where Unified Spatial-Spectral Attention Meets Mutual Linear Dependence ( http://arxiv.org/abs/2312.12833v1 ) ライセンス: Link先を確認 | Hongyuan Wang, Lizhi Wang, Jiang Xu, Chang Chen, Xue Hu, Fenglong Song and Youliang Yan | (参考訳) 容易に取得可能なRGB画像からハイパースペクトル画像(HSI)へのスペクトル超解像は、計算写真分野への関心が高まっている。
スペクトル超解像の重要な側面は、HSI内の相関を利用することである。
しかし、既存のトランスフォーマーにおける2つのタイプのボトルネックは、性能改善と実用的な応用を制限している。
まず、既存のトランスフォーマーは、空間的またはスペクトル的相関を個別に強調し、HSIの3次元特徴を乱し、空間的・スペクトル的相関の統一を阻害する。
第二に、既存の自己注意機構はトークンのペア間の相関を学習し、フルランク相関行列をキャプチャし、複数のトークン間の相互線形依存を確立することができない。
これらの問題に対処するために,スペクトル超解像のための新しい Exhaustive correlation Transformer (ECT) を提案する。
まず,空間的連続分割とスペクトル的不連続分割を同時に利用することにより,空間的スペクトル相関を統一したスペクトル的不連続分割戦略を提案する。
第二に、動的に計算された低ランク依存マップを通して複数のトークン間の相互線形依存をキャプチャする動的低ランクマッピング(DLRM)モデルを提案する。
統一的な空間スペクトル注意と相互線形依存を統合することにより, ect は hsi 内の排他的相関を確立することができる。
シミュレーションデータと実データの両方を用いた実験結果から,本手法が最先端性能を実現することを示す。
コードと事前訓練されたモデルは後日公開される。 Spectral super-resolution from the easily obtainable RGB image to hyperspectral image (HSI) has drawn increasing interest in the field of computational photography. The crucial aspect of spectral super-resolution lies in exploiting the correlation within HSIs. However, two types of bottlenecks in existing Transformers limit performance improvement and practical applications. First, existing Transformers often separately emphasize either spatial-wise or spectral-wise correlation, disrupting the 3D features of HSI and hindering the exploitation of unified spatial-spectral correlation. Second, the existing self-attention mechanism learns the correlation between pairs of tokens and captures the full-rank correlation matrix, leading to its inability to establish mutual linear dependence among multiple tokens. To address these issues, we propose a novel Exhaustive Correlation Transformer (ECT) for spectral super-resolution. First, we propose a Spectral-wise Discontinuous 3D (SD3D) splitting strategy, which models unified spatial-spectral correlation by simultaneously utilizing spatial-wise continuous splitting and spectral-wise discontinuous splitting. Second, we propose a Dynamic Low-Rank Mapping (DLRM) model, which captures mutual linear dependence among multiple tokens through a dynamically calculated low-rank dependence map. By integrating unified spatial-spectral attention with mutual linear dependence, our ECT can establish exhaustive correlation within HSI. The experimental results on both simulated and real data indicate that our method achieves state-of-the-art performance. Codes and pretrained models will be available later. | 翻訳日:2023-12-21 16:28:04 公開日:2023-12-20 |
# ダストを金に変える: 負のデータを利用したLCMからの複雑な推論能力の蒸留 Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data ( http://arxiv.org/abs/2312.12832v1 ) ライセンス: Link先を確認 | Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Bin Sun, Xinglin Wang, Heda Wang, Kan Li | (参考訳) 大規模言語モデル(llm)は様々な推論タスクでうまく機能しているが、その到達可能性やパラメータの多さは、実際には幅広い応用を妨げる。
一つの有望な方法は、LLMから小さなモデルへの推論能力を、生成された連鎖推論経路によって蒸留することである。
しかし、いくつかのケースでは、LLMは特に複雑な数学的問題に直面している場合、誤った推論連鎖を生成する可能性がある。
これまでの研究では、正のサンプルから知識を転送し、間違った回答で合成データをドロップするしかなかった。
本研究は, 陰性データの利点を概説し, 正のサンプル以外の負のサンプルでLLMを蒸留するためのモデル特殊化フレームワークを提案する。
このフレームワークは、トレーニングから推論段階までをカバーする3つの段階から成り、負のデータから知識を吸収する。
LLMの蒸留における負データの役割を示すために,算術的推論タスクにまたがる広範な実験を行った。 Large Language Models (LLMs) have performed well on various reasoning tasks, but their inaccessibility and numerous parameters hinder wide application in practice. One promising way is distilling the reasoning ability from LLMs to small models by the generated chain-of-thought reasoning paths. In some cases, however, LLMs may produce incorrect reasoning chains, especially when facing complex mathematical problems. Previous studies only transfer knowledge from positive samples and drop the synthesized data with wrong answers. In this work, we illustrate the merit of negative data and propose a model specialization framework to distill LLMs with negative samples besides positive ones. The framework consists of three progressive steps, covering from training to inference stages, to absorb knowledge from negative data. We conduct extensive experiments across arithmetic reasoning tasks to demonstrate the role of negative data in distillation from LLM. | 翻訳日:2023-12-21 16:27:39 公開日:2023-12-20 |
# 量子コンピュータを用いたシュウィンガーモデルの一階相転移 First-Order Phase Transition of the Schwinger Model with a Quantum Computer ( http://arxiv.org/abs/2312.12831v1 ) ライセンス: Link先を確認 | Takis Angelides, Pranay Naredi, Arianna Crippa, Karl Jansen, Stefan K\"uhn, Ivano Tavernelli, Derek S. Wang | (参考訳) 本稿では,変分量子固有解法 (VQE) を用いてトポロジカル$\theta$-termの存在下での格子シュウィンガーモデルの1次位相遷移について検討する。
Wilson と Stagered fermion の2つの異なるフェミオン離散化を用いて、両離散化に適したパラメトリックアンサッツ回路を開発し、ノイズがない場合に理想的なVQE最適化を古典的にシミュレートしてそれらの性能を比較する。
古典的なシミュレーションによって得られた状態は、IBMの超伝導量子ハードウェア上で準備される。
そこで, 量子ハードウェアを用いて, 電界密度と粒子数, モデルの位相構造を明らかにする可観測性を用いて, 量子ハードウェアから確実に得られることを示す。
連続体外挿に必要な最小系サイズを調べるために,行列積状態を用いた連続体限界を調べ,連続体質量摂動理論と比較した。
付加的な質量再正規化を考慮に入れることは、より小さなシステムサイズで得られる精度を高めるのに不可欠である。
さらに,観測可能な観測対象について普遍性を観測し,両フェルミオンの離散化は同じ連続体極限を生成する。 We explore the first-order phase transition in the lattice Schwinger model in the presence of a topological $\theta$-term by means of the variational quantum eigensolver (VQE). Using two different fermion discretizations, Wilson and staggered fermions, we develop parametric ansatz circuits suitable for both discretizations, and compare their performance by simulating classically an ideal VQE optimization in the absence of noise. The states obtained by the classical simulation are then prepared on the IBM's superconducting quantum hardware. Applying state-of-the art error-mitigation methods, we show that the electric field density and particle number, observables which reveal the phase structure of the model, can be reliably obtained from the quantum hardware. To investigate the minimum system sizes required for a continuum extrapolation, we study the continuum limit using matrix product states, and compare our results to continuum mass perturbation theory. We demonstrate that taking the additive mass renormalization into account is vital for enhancing the precision that can be obtained with smaller system sizes. Furthermore, for the observables we investigate we observe universality, and both fermion discretizations produce the same continuum limit. | 翻訳日:2023-12-21 16:27:22 公開日:2023-12-20 |
# TagCLIP:CLIPのオープン語彙のマルチラベル分類を支援するローカル-グローバルフレームワーク TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP Without Training ( http://arxiv.org/abs/2312.12828v1 ) ライセンス: Link先を確認 | Yuqi Lin, Minghao Chen, Kaipeng Zhang, Hengjia Li, Mingming Li, Zheng Yang, Dongqin Lv, Binbin Lin, Haifeng Liu, Deng Cai | (参考訳) Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
画像エンコーダのクラストークンは、対照的な損失によって教師される異なるテキスト記述を区別するために、グローバルな特徴をキャプチャするために訓練される。
しかし、グローバルな特徴が最も顕著なクラスに支配される傾向にあり、ソフトマックス操作の対照的な性質が増すため、マルチラベルデータセットの性能は低い。
本研究では,複数ラベルの分類結果が識別的局所的特徴に大きく依存するが,CLIPでは見落としている。
結果として,CLIPにおけるパッチワイド空間情報の保存を識別し,画像タグを得るためのローカル・グローバル・フレームワークを提案する。
1)粗いスコアを得るためのパッチレベル分類,(2)粗いスコアを洗練するための二重マスキング注意改善(DMAR)モジュール,(3)世界的観点からの予測を改善するためのクラスワイド・リアイデンティティ(CWR)モジュールである。
このフレームワークはフリーズされたCLIPのみに基づいており、データセット固有のトレーニングなしでさまざまなベンチマーク上でのマルチラベル分類性能を大幅に向上させる。
また、生成タグの品質と実用性を総合的に評価するために、生成タグを画像レベル擬似ラベルとして、そのアプリケーションを下流タスク、すなわちwsss(weakly supervised semantic segmentation)に拡張する。
実験により、この分類・分類のパラダイムは、他のアノテーションのないセグメンテーション手法よりも劇的に優れており、生成したタグの有効性が検証されている。
私たちのコードはhttps://github.com/linyq2117/TagCLIPで利用可能です。 Contrastive Language-Image Pre-training (CLIP) has demonstrated impressive capabilities in open-vocabulary classification. The class token in the image encoder is trained to capture the global features to distinguish different text descriptions supervised by contrastive loss, making it highly effective for single-label classification. However, it shows poor performance on multi-label datasets because the global feature tends to be dominated by the most prominent class and the contrastive nature of softmax operation aggravates it. In this study, we observe that the multi-label classification results heavily rely on discriminative local features but are overlooked by CLIP. As a result, we dissect the preservation of patch-wise spatial information in CLIP and proposed a local-to-global framework to obtain image tags. It comprises three steps: (1) patch-level classification to obtain coarse scores; (2) dual-masking attention refinement (DMAR) module to refine the coarse scores; (3) class-wise reidentification (CWR) module to remedy predictions from a global perspective. This framework is solely based on frozen CLIP and significantly enhances its multi-label classification performance on various benchmarks without dataset-specific training. Besides, to comprehensively assess the quality and practicality of generated tags, we extend their application to the downstream task, i.e., weakly supervised semantic segmentation (WSSS) with generated tags as image-level pseudo labels. Experiments demonstrate that this classify-then-segment paradigm dramatically outperforms other annotation-free segmentation methods and validates the effectiveness of generated tags. Our code is available at https://github.com/linyq2117/TagCLIP. | 翻訳日:2023-12-21 16:27:02 公開日:2023-12-20 |
# ReCo-Diff:低照度画像強調のための拡散モデルにおけるRetinex-based Condition Strategyの探索 ReCo-Diff: Explore Retinex-Based Condition Strategy in Diffusion Model for Low-Light Image Enhancement ( http://arxiv.org/abs/2312.12826v1 ) ライセンス: Link先を確認 | Yuhui Wu, Guoqing Wang, Zhiwen Wang, Yang Yang, Tianyu Li, Peng Wang, Chongyi Li, Heng Tao Shen | (参考訳) 低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を達成した。
本研究では,retinex-based preを付加前処理条件として組み込んだ新しい手法であるreco-diffを提案する。
ReCo-Diffはまず、事前訓練された分解ネットワークを利用して、低照度画像の初期反射率と照明マップを生成する。
そして、リフレクタンスマップのノイズを抑える調整ネットワークを導入し、照明マップを明るくし、学習されたRetinexベースの状態を形成する。
この条件はリファインメントネットワークに統合され、機能レベルとイメージレベルの両方で十分なガイダンスを提供するretinexベースの条件モジュールを実装する。
Retinex理論を条件として扱うことで、ReCo-DiffはLLIE固有の拡散モデルを確立するためのユニークな視点を示す。
大規模な実験は、我々のReCo-Diffアプローチの合理性と優越性を検証した。
コードは公開される予定だ。 Low-light image enhancement (LLIE) has achieved promising performance by employing conditional diffusion models. In this study, we propose ReCo-Diff, a novel approach that incorporates Retinex-based prior as an additional pre-processing condition to regulate the generating capabilities of the diffusion model. ReCo-Diff first leverages a pre-trained decomposition network to produce initial reflectance and illumination maps of the low-light image. Then, an adjustment network is introduced to suppress the noise in the reflectance map and brighten the illumination map, thus forming the learned Retinex-based condition. The condition is integrated into a refinement network, implementing Retinex-based conditional modules that offer sufficient guidance at both feature- and image-levels. By treating Retinex theory as a condition, ReCo-Diff presents a unique perspective for establishing an LLIE-specific diffusion model. Extensive experiments validate the rationality and superiority of our ReCo-Diff approach. The code will be made publicly available. | 翻訳日:2023-12-21 16:26:30 公開日:2023-12-20 |
# FedSODA: 病理組織分離のためのクロスアセスメントと動的アグリゲーション FedSODA: Federated Cross-assessment and Dynamic Aggregation for Histopathology Segmentation ( http://arxiv.org/abs/2312.12824v1 ) ライセンス: Link先を確認 | Yuan Zhang, Yaolei Qi, Xiaoming Qi, Lotfi Senhadji, Yongyue Wei, Feng Chen, Guanyu Yang | (参考訳) 複数の医療施設を含む病理組織像分割のためのフェデレートラーニング(FL)は、正確な疾患診断と治療の分野で重要な役割を担っている。
しかしながら、クライアント間のサンプルの不均衡や、異種臓器からの大規模なデータの不均一性、可変分割タスク、多様な分散など、依然として大きな課題となっている。
そこで本研究では, 組織核・組織セグメント化のための新しいFLアプローチとして, 合成駆動型クロスアセスメント操作(SO)と動的層状層凝集(DA)を用いたFedSODAを提案する。
soはクライアントを接続し,サンプル不均衡下での表現バイアスを軽減するクロスアセスメント戦略を構築している。
daは層間相互作用と動的アグリゲーションを利用して不均一性を減少させ,一般化を促進する。
FedSODAの有効性は、7つの独立したデータセットから得られた最も広範な病理組織像セグメンテーションデータセットで評価されている。
コードはhttps://github.com/yuanzhang7/FedSODAで入手できる。 Federated learning (FL) for histopathology image segmentation involving multiple medical sites plays a crucial role in advancing the field of accurate disease diagnosis and treatment. However, it is still a task of great challenges due to the sample imbalance across clients and large data heterogeneity from disparate organs, variable segmentation tasks, and diverse distribution. Thus, we propose a novel FL approach for histopathology nuclei and tissue segmentation, FedSODA, via synthetic-driven cross-assessment operation (SO) and dynamic stratified-layer aggregation (DA). Our SO constructs a cross-assessment strategy to connect clients and mitigate the representation bias under sample imbalance. Our DA utilizes layer-wise interaction and dynamic aggregation to diminish heterogeneity and enhance generalization. The effectiveness of our FedSODA has been evaluated on the most extensive histopathology image segmentation dataset from 7 independent datasets. The code is available at https://github.com/yuanzhang7/FedSODA. | 翻訳日:2023-12-21 16:26:14 公開日:2023-12-20 |
# 産業レガシーシステムのためのスペクトルクラスタリングに基づくマイクロサービス同定法 A Microservices Identification Method Based on Spectral Clustering for Industrial Legacy Systems ( http://arxiv.org/abs/2312.12819v1 ) ライセンス: Link先を確認 | Teng Zhong, Yinglei Teng, Shijun Ma, Jiaxuan Chen, and Sicong Yu | (参考訳) 産業用モノのインターネット(Industrial Internet of Things, IIoT)の出現は、通信遅延、スケーラビリティ、保守性の観点から、産業用ソフトウェアに厳しい要件を課している。
クラウドコンピューティングとDevOpsから生まれた新しいソフトウェアアーキテクチャであるマイクロサービスアーキテクチャ(MSA)は、独立してデプロイ可能で疎結合な性質のため、自身を最も有望なソリューションとして提示する。
現在、多くの課題があるにもかかわらず、実践者は産業遺産システムをMSAに移行する傾向にある。
本稿では, 時間的, 労働力的, 高主観的な手作業抽出に関わる問題に対処するため, スペクトルグラフ理論に基づくマイクロサービス候補の自動抽出手法を提案する。
方法は3つのステップに分けられる。
まず、静的および動的解析ツールを用いてレガシーシステムの依存性情報を抽出する。
その後、情報は、レガシーシステムにおけるクラス間構造とパフォーマンスの関係をキャプチャするグラフ構造に変換される。
最後に、グラフベースのクラスタリングアルゴリズムを使用して、高凝集と低結合の原理に従う潜在的なマイクロサービス候補を特定する。
state of the-art法との比較実験により,提案手法の重要な利点が評価された。
さらに,本手法はドメインエキスパートの関与なしにも良好な結果が得られることを示す。 The advent of Industrial Internet of Things (IIoT) has imposed more stringent requirements on industrial software in terms of communication delay, scalability, and maintainability. Microservice architecture (MSA), a novel software architecture that has emerged from cloud computing and DevOps, presents itself as the most promising solution due to its independently deployable and loosely coupled nature. Currently, practitioners are inclined to migrate industrial legacy systems to MSA, despite numerous challenges it presents. In this paper, we propose an automated microservice decomposition method for extracting microservice candidates based on spectral graph theory to address the problems associated with manual extraction, which is time-consuming, labor intensive, and highly subjective. The method is divided into three steps. Firstly, static and dynamic analysis tools are employed to extract dependency information of the legacy system. Subsequently, information is transformed into a graph structure that captures inter-class structure and performance relationships in legacy systems. Finally, graph-based clustering algorithm is utilized to identify potential microservice candidates that conform to the principles of high cohesion and low coupling. Comparative experiments with state of-the-art methods demonstrate the significant advantages of our proposed method in terms of performance metrics. Moreover, Practice show that our method can yield favorable results even without the involvement of domain experts. | 翻訳日:2023-12-21 16:25:57 公開日:2023-12-20 |
# 材料ナノ構造による原子回折の量子記述 Quantum description of atomic diffraction by material nanostructures ( http://arxiv.org/abs/2312.12818v1 ) ライセンス: Link先を確認 | Quentin Bouton (LPL), G Dutier (LPL), Nathalie Fabre (LPL), Eric Charron (ISMO), Charles Garcion (LPL), Naceur Gaaloul, Lecoffre Julien (LPL) | (参考訳) 物質ナノ構造による物質波回折の理論モデルを提案する。
このモデルは、標準半古典的アプローチを超越した時間依存schr{\"o}dinger方程式の数値解に基づいている。
特に、高エネルギー変動の原因となる原子と物質の間の分散力相互作用を考える。
このような力の量子モデルへの影響と半古典的モデルとの比較について検討した。
特に、低速度で物質表面に近い原子の場合、半古典的なアプローチは失敗し、量子モデルは予想される回折パターンを正確に記述する。
この記述は、例えば気象学の応用など、精度の向上が必要な遅い低温原子実験に関係している。 We present a theoretical model of matter-wave diffraction through a material nanostructure. This model is based on the numerical solution of the time-dependent Schr{\"o}dinger equation, which goes beyond the standard semi-classical approach. In particular, we consider the dispersion force interaction between the atoms and the material, which is responsible for high energy variations. The effect of such forces on the quantum model is investigated, along with a comparison with the semi-classical model. In particular, for atoms at low velocity and close to the material surface, the semi-classical approach fails, while the quantum model accurately describes the expected diffraction pattern. This description is thus relevant for slow and cold atom experiments where increased precision is required, e.g. for metrological applications. | 翻訳日:2023-12-21 16:25:37 公開日:2023-12-20 |
# ブロックチェーン型分散型知的医療産業の開発に関する研究 -政策分析の観点から- Research on the Development of Blockchain-based Distributed Intelligent Healthcare Industry -- A Policy Analysis Perspective ( http://arxiv.org/abs/2312.12817v1 ) ライセンス: Link先を確認 | Yang Yue, Joseph Z. Shyu | (参考訳) デジタルインフラストラクチャにおける重要なイノベーションとして、ブロックチェーン台帳技術は、新たなビジネスパラダイムとアプリケーションをグローバルに発展させます。
rothwell氏とzegveld氏の12のイノベーションポリシツールの分類を用いることで、サプライ、環境、需要主導のポリシの次元を微妙に比較して、ブロックチェーンのヘルスケア採用に対する戦略的な方向性を掘り下げることが可能になる。
調査結果は、ブロックチェーン技術が医療業界で急速に成長していることを示している。
しかし、需給の面では、企業層と政策層の間に一定の不一致が存在する。
企業は技術的なアプリケーションに注力するが、既存のポリシーは規制とガバナンスに重点を置いている。
政府は、ブロックチェーン技術の標準化と規制を導くことを目的として、環境政策を通じた法的監督に重点を置いている。
これにより、イノベーションの促進と市場と法規制の秩序のバランスが保たれ、我が国の分散型インテリジェントヘルスケア産業の発展の参考となる。 As a pivotal innovation in digital infrastructure, blockchain ledger technology catalyzes the development of nascent business paradigms and applications globally. Utilizing Rothwell and Zegveld's taxonomy of twelve innovation policy tools, this study offers a nuanced comparison of domestic blockchain policies, dissecting supply, environment, and demand-driven policy dimensions to distill prevailing strategic orientations towards blockchain healthcare adoption. The findings indicate that blockchain technology has seen rapid growth in the healthcare industry. However, a certain misalignment exists between the corporate and policy layers in terms of supply and demand. While companies focus more on technological applications, existing policies are geared towards regulations and governance. Government emphasis lies on legal supervision through environmental policies, aiming to guide the standardization and regulation of blockchain technology. This maintains a balance between encouraging innovation and market and legal regulatory order, thereby providing a reference for the development of the distributed intelligent healthcare industry in our country. | 翻訳日:2023-12-21 16:25:25 公開日:2023-12-20 |
# 音声・視覚質問応答のための物体認識適応ポジティビティ学習 Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering ( http://arxiv.org/abs/2312.12816v1 ) ライセンス: Link先を確認 | Zhangbin Li, Dan Guo, Jinxing Zhou, Jing Zhang, Meng Wang | (参考訳) 本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
本稿では,映像フレーム(オブジェクトレベルの手掛かり)における細粒度の視対象を明示的に検討し,特徴的相互作用とモデル最適化の観点でマルチモーダル関係(すなわち,対象,音声,質問)を探索する。
前者に対しては、問合せ付き手がかり探索モジュールを用いて、問合せの各キーワードに音声・視覚的モダリティを集中させ、関連する音声セグメントや視覚オブジェクトをハイライトするモダリティ付き手がかり収集モジュールを設計する。
モデル最適化のために,高度にセマンティクスにマッチするマルチモーダルペアを肯定性として選択する,オブジェクト認識型適応ポジタリティ学習戦略を提案する。
具体的には,関連する質問対象対と音声対象対を識別するために,オブジェクト認識型コントラスト損失関数を2つ設計する。
これらの選択されたペアは、ミスマッチしたペアよりも大きな類似性値を持つように制約される。
各ビデオフレームで選択された肯定ペアが異なる場合、肯定選択プロセスが適応される。
これら2つのオブジェクト認識目的は、モデルがどのオブジェクトが問題と密接に関連していて、どのオブジェクトが音を立てているかを理解するのに役立つ。
music-avqaデータセットに関する広範囲な実験により、提案手法は良好な視聴覚手がかりを見つけるのに効果的であり、また、新しい最先端の質問応答性能も実現している。 This paper focuses on the Audio-Visual Question Answering (AVQA) task that aims to answer questions derived from untrimmed audible videos. To generate accurate answers, an AVQA model is expected to find the most informative audio-visual clues relevant to the given questions. In this paper, we propose to explicitly consider fine-grained visual objects in video frames (object-level clues) and explore the multi-modal relations(i.e., the object, audio, and question) in terms of feature interaction and model optimization. For the former, we present an end-to-end object-oriented network that adopts a question-conditioned clue discovery module to concentrate audio/visual modalities on respective keywords of the question and designs a modality-conditioned clue collection module to highlight closely associated audio segments or visual objects. For model optimization, we propose an object-aware adaptive-positivity learning strategy that selects the highly semantic-matched multi-modal pair as positivity. Specifically, we design two object-aware contrastive loss functions to identify the highly relevant question-object pairs and audio-object pairs, respectively. These selected pairs are constrained to have larger similarity values than the mismatched pairs. The positivity-selecting process is adaptive as the positivity pairs selected in each video frame may be different. These two object-aware objectives help the model understand which objects are exactly relevant to the question and which are making sounds. Extensive experiments on the MUSIC-AVQA dataset demonstrate the proposed method is effective in finding favorable audio-visual clues and also achieves new state-of-the-art question-answering performance. | 翻訳日:2023-12-21 16:25:10 公開日:2023-12-20 |
# OCTOPUS:混合現実における意味的理解を用いたオープン語彙コンテンツ追跡とオブジェクト配置 OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality ( http://arxiv.org/abs/2312.12815v1 ) ライセンス: Link先を確認 | Luke Yoffe, Aditya Sharma, Tobias H\"ollerer | (参考訳) 拡張現実における重要な課題のひとつは、自然な場所に仮想コンテンツを置くことだ。
既存の自動化技術は、クローズド・ボカブラリーで固定されたオブジェクトのセットでのみ機能する。
本稿では,オブジェクト配置のための新しいオープン語彙法を提案する。
私たちの8段階パイプラインは、セグメンテーションモデル、ビジョン言語モデル、LLMの最近の進歩を活用して、任意のARカメラフレームやシーンに仮想オブジェクトを配置します。
予備的なユーザスタディにおいて,提案手法は少なくとも人間の専門家の57%と同等の性能を発揮することを示した。 One key challenge in augmented reality is the placement of virtual content in natural locations. Existing automated techniques are only able to work with a closed-vocabulary, fixed set of objects. In this paper, we introduce a new open-vocabulary method for object placement. Our eight-stage pipeline leverages recent advances in segmentation models, vision-language models, and LLMs to place any virtual object in any AR camera frame or scene. In a preliminary user study, we show that our method performs at least as well as human experts 57% of the time. | 翻訳日:2023-12-21 16:24:36 公開日:2023-12-20 |
# Banditアルゴリズムに基づくソースコード生成ツールの選択 Selecting Source Code Generation Tools Based on Bandit Algorithms ( http://arxiv.org/abs/2312.12813v1 ) ライセンス: Link先を確認 | Ryoto Shima, Masateru Tsunoda, Yukasa Murakami, Akito Monden, Amjed Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai | (参考訳) 背景: 最近、ChatGPTのようなコード生成ツールがパフォーマンスに注目を集めています。
一般に、候補リストから新しいコード生成ツールを選択するには、パフォーマンスの事前分析が必要である。
このような分析がなければ、非効率的なツールを選択するリスクが高くなり、ソフトウェア開発の生産性に悪影響を及ぼす。
さらに、新しいコード生成ツールの事前分析を行うには、時間と労力を要する。
目的:事前分析なしに新しいコード生成ツールを使うが、リスクが低く、ソフトウェア開発(すなわちオンライン最適化)中に新しいツールを評価することを提案する。
方法:banditアルゴリズム(ba)アプローチを適用し,候補間の最適なコード生成ツールの選択を支援する。
開発者は、ツールの結果が正しいかどうかを評価する。
コード生成と評価を繰り返した場合には、評価結果を保存する。
保存された評価結果を利用して,baアプローチに基づいて最適なツールを選択する。
予備分析により,baを用いた5つのコード生成ツールと164のコード生成ケースを評価した。
結果: baアプローチは評価が進むにつれてchatgptを最良のツールとして選択し,評価中,baアプローチによる平均精度が2番目に優れたツールとなった。
その結果,最も優れたコード生成ツールの選択を支援するbaの実現可能性と有効性が明らかになった。 Background: Recently, code generation tools such as ChatGPT have drawn attention to their performance. Generally, a prior analysis of their performance is needed to select new code-generation tools from a list of candidates. Without such analysis, there is a higher risk of selecting an ineffective tool, negatively affecting software development productivity. Additionally, conducting prior analysis of new code generation tools takes time and effort. Aim: To use a new code generation tool without prior analysis but with low risk, we propose to evaluate the new tools during software development (i.e., online optimization). Method: We apply the bandit algorithm (BA) approach to help select the best code-generation tool among candidates. Developers evaluate whether the result of the tool is correct or not. When code generation and evaluation are repeated, the evaluation results are saved. We utilize the stored evaluation results to select the best tool based on the BA approach. Our preliminary analysis evaluated five code generation tools with 164 code generation cases using BA. Result: The BA approach selected ChatGPT as the best tool as the evaluation proceeded, and during the evaluation, the average accuracy by the BA approach outperformed the second-best performing tool. Our results reveal the feasibility and effectiveness of BA in assisting the selection of best-performing code generation tools. | 翻訳日:2023-12-21 16:24:26 公開日:2023-12-20 |
# LLMと対話シナリオを用いたマルチモーダル対話システムの一貫性向上 Enhancing Consistency in Multimodal Dialogue System Using LLM with Dialogue Scenario ( http://arxiv.org/abs/2312.12808v1 ) ライセンス: Link先を確認 | Hiroki Onozeki, Zhiyang Qi, Kazuma Akiyama, Ryutaro Asahara, Takumasa Kaneko, Michimasa Inaba | (参考訳) 本稿では,対話ロボットコンペティション2023に提案する対話システムについて述べる。
利用者を満足させる京都市内の観光地2カ所を、旅行代理店の利用者が訪問する計画を決定するのを支援する。
対話システムは柔軟で安定しており,対話シナリオに応じて対話フローを制御することでユーザ要求に応答する。
また,システム発話やユーザ状況に基づいた動作制御や音声制御を導入し,ユーザの満足度を向上させる。
予備ラウンドでは,全12チーム中,印象評価では第5位,計画評価では第6位であった。 This paper describes our dialogue system submitted to Dialogue Robot Competition 2023. The system's task is to help a user at a travel agency decide on a plan for visiting two sightseeing spots in Kyoto City that satisfy the user. Our dialogue system is flexible and stable and responds to user requirements by controlling dialogue flow according to dialogue scenarios. We also improved user satisfaction by introducing motion and speech control based on system utterances and user situations. In the preliminary round, our system was ranked fifth in the impression evaluation and sixth in the plan evaluation among all 12 teams. | 翻訳日:2023-12-21 16:24:07 公開日:2023-12-20 |
# ディープラーニングアルゴリズムに基づく人工知能とコンピュータビジョンの統合と性能解析 Integration and Performance Analysis of Artificial Intelligence and Computer Vision Based on Deep Learning Algorithms ( http://arxiv.org/abs/2312.12872v1 ) ライセンス: Link先を確認 | Bo Liu, Liqiang Yu, Chang Che, Qunwei Lin, Hao Hu, Xinyu Zhao | (参考訳) 本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。
ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。
コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
これら2つの分野の緊密な統合により、新しい世代の先進的なコンピュータビジョンシステムが生まれ、マシンビジョン画像分類やオブジェクト検出といった従来の手法をはるかに上回っている。
本稿では,一般的な画像分類を組み合わせることで,ディープニューラルネットワークモデルの優れた性能を解析し,その一般化と解釈可能性の限界を指摘し,今後の改善に向けた方向性を提案する。
全体として、大規模なビジュアルデータによるディープラーニングの効率的な統合と開発トレンドは、コンピュータビジョンの分野での技術革新とアプリケーション拡張を推進し続け、真にインテリジェントなマシンビジョンシステムの構築を可能にします。
この融合パラダイムの深化は、コンピュータビジョンにおける前例のないタスクや機能を強力に推進し、関連する分野や産業の発展の勢いを高めます。 This paper focuses on the analysis of the application effectiveness of the integration of deep learning and computer vision technologies. Deep learning achieves a historic breakthrough by constructing hierarchical neural networks, enabling end-to-end feature learning and semantic understanding of images. The successful experiences in the field of computer vision provide strong support for training deep learning algorithms. The tight integration of these two fields has given rise to a new generation of advanced computer vision systems, significantly surpassing traditional methods in tasks such as machine vision image classification and object detection. In this paper, typical image classification cases are combined to analyze the superior performance of deep neural network models while also pointing out their limitations in generalization and interpretability, proposing directions for future improvements. Overall, the efficient integration and development trend of deep learning with massive visual data will continue to drive technological breakthroughs and application expansion in the field of computer vision, making it possible to build truly intelligent machine vision systems. This deepening fusion paradigm will powerfully promote unprecedented tasks and functions in computer vision, providing stronger development momentum for related disciplines and industries. | 翻訳日:2023-12-21 16:17:13 公開日:2023-12-20 |
# オンライン実験における継続時間推薦の効果サイズ推定--階層モデルと客観的手法の活用- Effect Size Estimation for Duration Recommendation in Online Experiments: Leveraging Hierarchical Models and Objective Utility Approaches ( http://arxiv.org/abs/2312.12871v1 ) ライセンス: Link先を確認 | Yu Liu, Runzhe Wan, James McQueen, Doug Hains, Jinxiang Gu, Rui Song | (参考訳) 仮定効果サイズ(AES)の選択は実験の期間を決定的に決定し、その結果、その精度と効率が決定される。
伝統的に、実験者はドメイン知識に基づいてAESを決定する。
しかし,本手法は,多数の実験を管理するオンライン実験サービスにとって実用的ではなく,より自動化されたアプローチが求められている。
2つのソリューションを導入することで、オンライン実験サービスにおけるデータ駆動型AES選択の研究を開始する。
まず, 3層ガウス混合モデルを用いて, 実験間のヘテロスケーク性を考慮した実験を行い, 正実験中の真の期待効果の大きさを推定する。
実用理論に基づく第2の手法は,実験コストと意思決定精度のバランスをとることにより,最適効果の大きさを決定することを目的とする。
シミュレーションデータと実データの両方を用いたベースライン手法との比較により,提案手法の優れた性能を示す。 The selection of the assumed effect size (AES) critically determines the duration of an experiment, and hence its accuracy and efficiency. Traditionally, experimenters determine AES based on domain knowledge. However, this method becomes impractical for online experimentation services managing numerous experiments, and a more automated approach is hence of great demand. We initiate the study of data-driven AES selection in for online experimentation services by introducing two solutions. The first employs a three-layer Gaussian Mixture Model considering the heteroskedasticity across experiments, and it seeks to estimate the true expected effect size among positive experiments. The second method, grounded in utility theory, aims to determine the optimal effect size by striking a balance between the experiment's cost and the precision of decision-making. Through comparisons with baseline methods using both simulated and real data, we showcase the superior performance of the proposed approaches. | 翻訳日:2023-12-21 16:16:53 公開日:2023-12-20 |
# 音声-視覚対話グラフ:エゴセントリック-exocentricの視点から The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective ( http://arxiv.org/abs/2312.12870v1 ) ライセンス: Link先を確認 | Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg, Vamsi Krishna Ithapu, Ruohan Gao | (参考訳) 近年、エゴセントリックビデオに関する研究が盛んに進展し、視覚信号と音声信号の両方が重要な役割を果たす会話的インタラクションの研究に独自の視点が与えられている。
先行研究のほとんどがカメラ装着者に直接関与する行動について学ぶことに集中しているが、私たちはego-exocentric conversational graph prediction問題を紹介し、egocentric videoからexocentric conversational interactionを推測する最初の試みである。
我々は、カメラ装着者だけでなく、エゴセントリックビデオに登場した他のすべてのソーシャルパートナーに対して、会話行動(会話と聞き取り)の同時予測のための、マルチモーダル・マルチタスク・フレームワーク(Av-CONV)を提案する。
具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
提案手法を検証するために,一対一視点,複数話者,複数対話シナリオを含む,難易度の高いビデオデータセットの実験を行った。
本手法は,一連のベースラインと比較して優れた性能を示す。
また, モデルにおける各成分の寄与度を評価するため, 詳細なアブレーション研究を行った。
プロジェクトページ: https://vjwq.github.io/AV-CONV/。 In recent years, the thriving development of research related to egocentric videos has provided a unique perspective for the study of conversational interactions, where both visual and audio signals play a crucial role. While most prior work focus on learning about behaviors that directly involve the camera wearer, we introduce the Ego-Exocentric Conversational Graph Prediction problem, marking the first attempt to infer exocentric conversational interactions from egocentric videos. We propose a unified multi-modal, multi-task framework -- Audio-Visual Conversational Attention (Av-CONV), for the joint prediction of conversation behaviors -- speaking and listening -- for both the camera wearer as well as all other social partners present in the egocentric video. Specifically, we customize the self-attention mechanism to model the representations across-time, across-subjects, and across-modalities. To validate our method, we conduct experiments on a challenging egocentric video dataset that includes first-person perspective, multi-speaker, and multi-conversation scenarios. Our results demonstrate the superior performance of our method compared to a series of baselines. We also present detailed ablation studies to assess the contribution of each component in our model. Project page: https://vjwq.github.io/AV-CONV/. | 翻訳日:2023-12-21 16:16:37 公開日:2023-12-20 |
# パラメータ化射影ベルマン演算子 Parameterized Projected Bellman Operator ( http://arxiv.org/abs/2312.12869v1 ) ライセンス: Link先を確認 | Th\'eo Vincent, Alberto Maria Metelli, Boris Belousov, Jan Peters, Marcello Restelli and Carlo D'Eramo | (参考訳) 近似値反復~(avi)は、最適値関数の近似を得ることを目的とした強化学習〜(rl)のためのアルゴリズム群である。
一般に、AVIアルゴリズムは各ステップが構成される反復手順を実装している。
(i)ベルマン作用素の応用と
(ii)考慮された函数空間への射影ステップ。
ベルマン作用素はその挙動を強く決定する遷移サンプルを利用しており、非形式的なサンプルは無視できない更新や長いデトゥールを生じさせ、その有害な効果は計算的に集中的なプロジェクションステップによってさらに悪化する。
そこで本研究では, avi法のようにサンプルから推定するのではなく, ベルマン作用素の近似バージョンを学習することに基づく新しい代替手法を提案する。
このようにして、私たちは
(i)遷移サンプルを一般化し、
(ii)計算集約的な投影ステップを避ける。
このため、我々は新しい作用素をベルマン作用素 (PBO) と呼ぶ。
汎用的な逐次意思決定問題に対するpbo学習のための最適化問題を定式化し,その性質をrl問題の2つの代表的なクラスで理論的に解析する。
さらに,このアプローチをaviのレンズで理論的に検討し,ニューラルネットワークのパラメータ化を利用してオフラインおよびオンライン環境でpboを学習するアルゴリズムの実装を考案する。
最後に、いくつかのRL問題に対する正規ベルマン作用素 PBO w.r.t. の利点を実証的に示す。 Approximate value iteration~(AVI) is a family of algorithms for reinforcement learning~(RL) that aims to obtain an approximation of the optimal value function. Generally, AVI algorithms implement an iterated procedure where each step consists of (i) an application of the Bellman operator and (ii) a projection step into a considered function space. Notoriously, the Bellman operator leverages transition samples, which strongly determine its behavior, as uninformative samples can result in negligible updates or long detours, whose detrimental effects are further exacerbated by the computationally intensive projection step. To address these issues, we propose a novel alternative approach based on learning an approximate version of the Bellman operator rather than estimating it through samples as in AVI approaches. This way, we are able to (i) generalize across transition samples and (ii) avoid the computationally intensive projection step. For this reason, we call our novel operator projected Bellman operator (PBO). We formulate an optimization problem to learn PBO for generic sequential decision-making problems, and we theoretically analyze its properties in two representative classes of RL problems. Furthermore, we theoretically study our approach under the lens of AVI and devise algorithmic implementations to learn PBO in offline and online settings by leveraging neural network parameterizations. Finally, we empirically showcase the benefits of PBO w.r.t. the regular Bellman operator on several RL problems. | 翻訳日:2023-12-21 16:16:16 公開日:2023-12-20 |
# 信頼するマシンに向けて:AIエージェントは信頼ゲームで信頼を学ぶ Towards Machines that Trust: AI Agents Learn to Trust in the Trust Game ( http://arxiv.org/abs/2312.12868v1 ) ライセンス: Link先を確認 | Ardavan S. Nobandegani, Irina Rish, Thomas R. Shultz | (参考訳) 信頼は人間の道徳の基盤であり、人間の社会的相互作用の多くの側面を形作っている。
本研究では,行動科学と脳科学の信頼を研究するための標準課題である$\textit{trust game}$の理論的解析と,分析を支援するシミュレーション結果を示す。
具体的には、強化学習(RL)を利用してAIエージェントを訓練し、このタスクの様々なパラメータ化の下で学習信頼を体系的に調査する。
提案したシミュレーション結果と相関する理論解析は,信頼ゲームにおける信頼の出現に関する数学的基礎を提供する。 Widely considered a cornerstone of human morality, trust shapes many aspects of human social interactions. In this work, we present a theoretical analysis of the $\textit{trust game}$, the canonical task for studying trust in behavioral and brain sciences, along with simulation results supporting our analysis. Specifically, leveraging reinforcement learning (RL) to train our AI agents, we systematically investigate learning trust under various parameterizations of this task. Our theoretical analysis, corroborated by the simulations results presented, provides a mathematical basis for the emergence of trust in the trust game. | 翻訳日:2023-12-21 16:15:54 公開日:2023-12-20 |
# RadEdit:拡散画像編集によるストレステストバイオメディカルビジョンモデル RadEdit: stress-testing biomedical vision models via diffusion image editing ( http://arxiv.org/abs/2312.12865v1 ) ライセンス: Link先を確認 | Fernando P\'erez-Garc\'ia and Sam Bond-Taylor and Pedro P. Sanchez and Boris van Breugel and Daniel C. Castro and Harshita Sharma and Valentina Salvatelli and Maria T. A. Wetscherek and Hannah Richardson and Matthew P. Lungren and Aditya Nori and Javier Alvarez-Valle and Ozan Oktay and Maximilian Ilse | (参考訳) バイオメディカルイメージングデータセットは、しばしば小さく偏りがあり、予測モデルの現実世界のパフォーマンスは、内部テストの期待よりもかなり低い可能性がある。
本研究は,データセットシフトをシミュレートし,生体視覚モデルの障害モードを診断するための生成画像編集手法を提案する。
既存の編集手法は望ましくない変化を生じさせ、病気や治療介入の共起によって学習された素早い相関は、実用性を制限する。
これに対処するために,複数の胸部x線データセット上でテキストから画像への拡散モデルを訓練し,複数のマスクを用いた新たな編集方法radeditを導入することで,変更を制約し,編集画像の一貫性を確保する。
我々は、獲得シフト、表出シフト、人口シフトの3つのタイプのデータセットシフトを検討し、我々のアプローチが、追加のデータ収集なしに障害を診断し、モデルの堅牢性を定量化し、説明可能なaiのためのより質的なツールを補完できることを実証する。 Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI. | 翻訳日:2023-12-21 16:15:44 公開日:2023-12-20 |
# サービスとしてのモデル提供中のフェデレートラーニング:共同トレーニングと推論最適化 Federated Learning While Providing Model as a Service: Joint Training and Inference Optimization ( http://arxiv.org/abs/2312.12863v1 ) ライセンス: Link先を確認 | Pengchao Han, Shiqiang Wang, Yang Jiao, Jianwei Huang | (参考訳) ユーザの推論要求を処理するサービスとしてマシンラーニングモデルを提供する一方で、オンラインアプリケーションは、新たに収集したデータを使用して、定期的にモデルをアップグレードすることができる。
フェデレーション学習(fl)は、データをローカルに保持しながら、分散クライアント間でモデルのトレーニングを可能にする上で有用である。
しかし、既存の研究は、クライアントの限られたリソースの下でのモデルトレーニングと推論の共存を見落としている。
本稿では,モデル学習と推論の同時最適化に着目し,クライアントの推論性能を最大化する。
このような最適化にはいくつかの課題がある。
最初の課題は、クライアントがFLに参加する場合、クライアントの推論性能を特徴づけることである。
この課題を解決するために,クライアント側のモデルフレッシュネスを定量化するための新しいモデルエイジ・オブ・モデル(aom)の概念を導入し,flのグローバルモデル収束誤差を推定性能の近似尺度として用いる。
第2の課題は、FLへの参加確率、モデルダウンロード確率、サービスレートなど、クライアントの決定間の密結合である。
課題に向けて,問題の複雑性を低減し,モデルトレーニングと推論の必要性のバランスをとるために資源を最適化するオンライン問題近似を提案する。
実験の結果,提案アルゴリズムは平均推定精度を最大12%向上することがわかった。 While providing machine learning model as a service to process users' inference requests, online applications can periodically upgrade the model utilizing newly collected data. Federated learning (FL) is beneficial for enabling the training of models across distributed clients while keeping the data locally. However, existing work has overlooked the coexistence of model training and inference under clients' limited resources. This paper focuses on the joint optimization of model training and inference to maximize inference performance at clients. Such an optimization faces several challenges. The first challenge is to characterize the clients' inference performance when clients may partially participate in FL. To resolve this challenge, we introduce a new notion of age of model (AoM) to quantify client-side model freshness, based on which we use FL's global model convergence error as an approximate measure of inference performance. The second challenge is the tight coupling among clients' decisions, including participation probability in FL, model download probability, and service rates. Toward the challenges, we propose an online problem approximation to reduce the problem complexity and optimize the resources to balance the needs of model training and inference. Experimental results demonstrate that the proposed algorithm improves the average inference accuracy by up to 12%. | 翻訳日:2023-12-21 16:15:23 公開日:2023-12-20 |
# SkyScript: リモートセンシングのための大規模でセマンティックなビジョンランゲージデータセット SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing ( http://arxiv.org/abs/2312.12856v1 ) ライセンス: Link先を確認 | Zhecheng Wang, Rajanie Prabha, Tianyuan Huang, Jiajun Wu, Ram Rajagopal | (参考訳) リモートセンシング画像は、持続可能な開発目標達成と気候変動への取り組みに広く応用されているが、近年の多目的・タスクに依存しない視覚言語モデル(VLM)の進歩の恩恵を受けていない。
主な理由は、VLMの開発に必要な大規模で意味的に多様な画像テキストデータセットが、リモートセンシング画像にはまだ欠けていることである。
自然画像とは異なり、リモートセンシング画像とその関連テキスト記述は、大規模インターネットから効率的に収集することはできない。
本研究では,このギャップを埋めるために,ジオコーディネート(geo-coordinates)を用いて,openstreetmapでカバーされたリッチなセマンティクスを持つ,ラベルのない開いているリモートセンシングイメージを自動的に接続し,29kの異なるセマンティクスタグをカバーする26万のイメージテキストペアからなる,総合的なビジョン言語データセットであるskyscriptを構築する。
このデータセット上で連続的な事前トレーニングを行うことで、7つのベンチマークデータセットのゼロショットシーン分類において、平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、細粒度オブジェクト属性分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
このデータセットは、オープン語彙分類、検索、キャプション、テキスト・ツー・イメージ合成など、リモートセンシングにおける様々なマルチモーダルタスクのためのVLMの進歩をサポートすることを願っている。 Remote sensing imagery, despite its broad applications in helping achieve Sustainable Development Goals and tackle climate change, has not yet benefited from the recent advancements of versatile, task-agnostic vision language models (VLMs). A key reason is that the large-scale, semantically diverse image-text dataset required for developing VLMs is still absent for remote sensing images. Unlike natural images, remote sensing images and their associated text descriptions cannot be efficiently collected from the public Internet at scale. In this work, we bridge this gap by using geo-coordinates to automatically connect open, unlabeled remote sensing images with rich semantics covered in OpenStreetMap, and thus construct SkyScript, a comprehensive vision-language dataset for remote sensing images, comprising 2.6 million image-text pairs covering 29K distinct semantic tags. With continual pre-training on this dataset, we obtain a VLM that surpasses baseline models with a 6.2% average accuracy gain in zero-shot scene classification across seven benchmark datasets. It also demonstrates the ability of zero-shot transfer for fine-grained object attribute classification and cross-modal retrieval. We hope this dataset can support the advancement of VLMs for various multi-modal tasks in remote sensing, such as open-vocabulary classification, retrieval, captioning, and text-to-image synthesis. | 翻訳日:2023-12-21 16:15:01 公開日:2023-12-20 |
# CORECODE:中国語大言語モデルのためのベンチマークタスク付き共通センスアノテーション付き対話データセット CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models ( http://arxiv.org/abs/2312.12853v1 ) ライセンス: Link先を確認 | Dan Shi, Chaobin You, Jiantao Huang, Taihao Li, Deyi Xiong | (参考訳) インテリジェンスの必須要素として、現実世界のシナリオにおいて、大規模言語モデル(LLM)にとって常識推論が不可欠である。
本稿では,中国語llmの共通性推論と共通性競合検出能力を評価するために,dyadic対話に手作業でアノテートされた豊富な共通性知識を含むデータセットcorecodeを提案する。
日常会話における常識知識を,エンティティ,イベント,社会的相互作用の3次元に分類する。
容易かつ一貫したアノテーションのために、オープンドメイン対話におけるコモンセンス知識アノテーションの形式を「ドメイン: slot = value」として標準化する。
合計9つのドメインと37のスロットが定義され、様々なコモンセンスの知識を捉える。
これらの定義済みのドメインとスロットにより、クラウドソーシングを通じて、19,700の対話から76,787のコモンセンス知識アノテーションを収集する。
データセット上でのllmsの共通意味推論能力を評価・強化するために,共通意味知識充足,共通意味知識生成,共通意味競合句検出,ドメイン識別,スロット識別,イベント因果推論など,対話レベルの推論と検出タスクを連続的に確立する。
既存のオープンソースの中国語LLMを,これらのタスクをデータセット上で評価する。
実験の結果、これらのモデルはCORECODEの豊富な推論内容の予測には適していないことが示され、ChatGPTでさえゼロショット設定下のドメイン識別およびスロット識別タスクにおいて0.275と0.084の精度しか達成できなかった。
我々は,日常会話の文脈におけるLLMの常識推論評価と研究を促進するために,CORECODEのデータとコードをhttps://github.com/danshi777/CORECODEで公開する。 As an indispensable ingredient of intelligence, commonsense reasoning is crucial for large language models (LLMs) in real-world scenarios. In this paper, we propose CORECODE, a dataset that contains abundant commonsense knowledge manually annotated on dyadic dialogues, to evaluate the commonsense reasoning and commonsense conflict detection capabilities of Chinese LLMs. We categorize commonsense knowledge in everyday conversations into three dimensions: entity, event, and social interaction. For easy and consistent annotation, we standardize the form of commonsense knowledge annotation in open-domain dialogues as "domain: slot = value". A total of 9 domains and 37 slots are defined to capture diverse commonsense knowledge. With these pre-defined domains and slots, we collect 76,787 commonsense knowledge annotations from 19,700 dialogues through crowdsourcing. To evaluate and enhance the commonsense reasoning capability for LLMs on the curated dataset, we establish a series of dialogue-level reasoning and detection tasks, including commonsense knowledge filling, commonsense knowledge generation, commonsense conflict phrase detection, domain identification, slot identification, and event causal inference. A wide variety of existing open-source Chinese LLMs are evaluated with these tasks on our dataset. Experimental results demonstrate that these models are not competent to predict CORECODE's plentiful reasoning content, and even ChatGPT could only achieve 0.275 and 0.084 accuracy on the domain identification and slot identification tasks under the zero-shot setting. We release the data and codes of CORECODE at https://github.com/danshi777/CORECODE to promote commonsense reasoning evaluation and study of LLMs in the context of daily conversations. | 翻訳日:2023-12-21 16:14:35 公開日:2023-12-20 |
# オランダ語大言語モデリングのための言語資源 Language Resources for Dutch Large Language Modelling ( http://arxiv.org/abs/2312.12852v1 ) ライセンス: Link先を確認 | Bram Vanroy | (参考訳) 大規模言語モデルのタイプが急速に拡大したにもかかわらず、オランダ語用に特別に設計されたモデルには注目すべきギャップが残っている。
このギャップは、事前訓練されたオランダのモデルだけでなく、データ、ベンチマーク、リーダーボードも不足している。
この仕事は状況を改善するための小さなステップを提供します。
まず,llama 2 13bモデルの微調整版について紹介する。
まずオランダ固有のWebcrawledデータを用いてLlama 2を微調整し、その後、複数の合成命令とチャットデータセットに基づいてさらに改良した。
これらのデータセットとモデルの重み付けが利用可能である。
さらに、私たちは、複数の世代タスクにおける(Dutch)モデルのパフォーマンスを追跡するためのリーダーボードを提供しています。
最後に、オランダ語モデルとモデルを取り巻くエコシステム全体を推進するために必要なものについて、批判的な結論を与えます。 Despite the rapid expansion of types of large language models, there remains a notable gap in models specifically designed for the Dutch language. This gap is not only a shortage in terms of pretrained Dutch models but also in terms of data, and benchmarks and leaderboards. This work provides a small step to improve the situation. First, we introduce two fine-tuned variants of the Llama 2 13B model. We first fine-tuned Llama 2 using Dutch-specific web-crawled data and subsequently refined this model further on multiple synthetic instruction and chat datasets. These datasets as well as the model weights are made available. In addition, we provide a leaderboard to keep track of the performance of (Dutch) models on a number of generation tasks, and we include results of a number of state-of-the-art models, including our own. Finally we provide a critical conclusion on what we believe is needed to push forward Dutch language models and the whole eco-system around the models. | 翻訳日:2023-12-21 16:14:06 公開日:2023-12-20 |
# 英語地名の言語的特徴に関する確率論的分析 A Stochastic Analysis of the Linguistic Provenance of English Place Names ( http://arxiv.org/abs/2312.12850v1 ) ライセンス: Link先を確認 | Michael Dalvean | (参考訳) 英語の地名分析では、英語の地名に影響を与えた言語の1つで、地名のルートと地形的特徴、固有名および/または居住用語との類似から意味が導かれることが多い。
ここでの問題は、根の解釈に使用するベース言語を決定するのが難しい場合があります。
この論文の目的は、アイルランド、スコットランド、ウェールズ、デンマーク、ノルウェー、スウェーデン、フランス、ドイツ、オランダ、古代ローマの18799の地名と84685の地名の類似性を確率的に決定することである。
各英語の地名は、他国の地名に類似している程度に応じてランク付けされ、地名を解釈するために使用する可能性のある言語を決定する基礎となる。
提供されるランキングを使って、多くの観察を行うことができる。
特に、'Didlington' は英語のサンプルの中では最も古風な英語の地名であり、'Anna' は最小である。
さらに、非英語の地名はノルウェー語地名に最もよく似ており、ウェールズ語地名に最も似ていることが判明した。 In English place name analysis, meanings are often derived from the resemblance of roots in place names to topographical features, proper names and/or habitation terms in one of the languages that have had an influence on English place names. The problem here is that it is sometimes difficult to determine the base language to use to interpret the roots. The purpose of this paper is to stochastically determine the resemblance between 18799 English place names and 84685 place names from Ireland, Scotland, Wales, Denmark, Norway, Sweden, France, Germany, the Netherlands and Ancient Rome. Each English place name is ranked according to the extent to which it resembles place names from the other countries, and this provides a basis for determining the likely language to use to interpret the place name. A number of observations can be made using the ranking provided. In particular, it is found that `Didlington' is the most archetypically English place name in the English sample, and `Anna' is the least. Furthermore, it is found that the place names in the non-English datasets are most similar to Norwegian place names and least similar to Welsh place names. | 翻訳日:2023-12-21 16:13:52 公開日:2023-12-20 |
# 指数関数族の双対減算と分割正規化による発散とその凸変形 Divergences induced by dual subtractive and divisive normalizations of exponential families and their convex deformations ( http://arxiv.org/abs/2312.12849v1 ) ライセンス: Link先を確認 | Frank Nielsen | (参考訳) 指数関数系は統計学、情報理論、機械学習におけるワークホースである統計モデルである。
指数関数族はその累積関数によって減算的に正規化されるか、分割関数によって同値に正規化される。
減算正規化子と除算正規化子は、ブレグマンとジェンセンの発散を誘導する厳密に凸かつ滑らかな関数である。
指数族における確率密度間のスキュード・バタチャリヤ距離が、対応する自然パラメータ間の累積関数によって誘導されるスキュード・ジェンセン発散量と、一方のクルバック・リーブラー発散数が逆側ブレグマン発散量とに等しいことが知られている。
本報告では, 指数関数の非正規化密度間の$\alpha$-divergences が分割関数によって引き起こされる$\alpha$-skewed jensen divergences であることを示す。
次に、擬有界な一対の手段に対する比較凸性が凸函数を変形させ、通常の凸性が保存されたときに対応する発散を持つ双対平坦空間を定義できることを示す。 Exponential families are statistical models which are the workhorses in statistics, information theory, and machine learning. An exponential family can either be normalized subtractively by its cumulant function or equivalently normalized divisively by its partition function. Both subtractive and divisive normalizers are strictly convex and smooth functions inducing pairs of Bregman and Jensen divergences. It is well-known that skewed Bhattacharryya distances between probability densities of an exponential family amounts to skewed Jensen divergences induced by the cumulant function between their corresponding natural parameters, and in limit cases that the sided Kullback-Leibler divergences amount to reverse-sided Bregman divergences. In this note, we first show that the $\alpha$-divergences between unnormalized densities of an exponential family amounts scaled $\alpha$-skewed Jensen divergences induced by the partition function. We then show how comparative convexity with respect to a pair of quasi-arithmetic means allows to deform convex functions and define dually flat spaces with corresponding divergences when ordinary convexity is preserved. | 翻訳日:2023-12-21 16:13:33 公開日:2023-12-20 |
# コンピュータビジョン最小化問題に対する量子アニーリング Quantum Annealing for Computer Vision Minimization Problems ( http://arxiv.org/abs/2312.12848v1 ) ライセンス: Link先を確認 | Shahrokh Heidari, Michael J. Dinneen, Patrice Delmas | (参考訳) コンピュータビジョン(CV)ラベリングアルゴリズムは低レベルの視覚領域において重要な役割を果たす。
何十年もの間、これらの問題は確率的グラフィカルモデル(マルコフ確率場など)に由来する離散エネルギー最小化問題としてエレガントに定式化できることが知られている。
近年の推論アルゴリズム(グラフカットやメッセージパッシングアルゴリズムなど)の進歩にもかかわらず、結果として生じるエネルギー最小化問題は一般に難解と見なされる。
量子計算の出現は、古典的手法よりも特定の問題に対してより高速に解く可能性を提供し、難解な問題を克服するための量子特性の利用への関心を高めた。
近年、量子コンピュータビジョン(QCV)への関心も高まり、この分野におけるディープラーニングソリューションに対する信頼性の高い代替手段やアシスタントの提供が期待されている。
本研究では,cv離散エネルギー最小化問題に対する量子アニーリングに基づく新しい推論アルゴリズムについて検討する。
我々の貢献は、重要なCVラベル問題としてStereo Matchingに焦点をあてている。
概念の証明として、d-waveシステムが提供するハイブリッド量子古典解法を用いて、文献における最良の古典的推論アルゴリズムと比較する。 Computer Vision (CV) labelling algorithms play a pivotal role in the domain of low-level vision. For decades, it has been known that these problems can be elegantly formulated as discrete energy minimization problems derived from probabilistic graphical models (such as Markov Random Fields). Despite recent advances in inference algorithms (such as graph-cut and message-passing algorithms), the resulting energy minimization problems are generally viewed as intractable. The emergence of quantum computations, which offer the potential for faster solutions to certain problems than classical methods, has led to an increased interest in utilizing quantum properties to overcome intractable problems. Recently, there has also been a growing interest in Quantum Computer Vision (QCV), with the hope of providing a credible alternative or assistant to deep learning solutions in the field. This study investigates a new Quantum Annealing based inference algorithm for CV discrete energy minimization problems. Our contribution is focused on Stereo Matching as a significant CV labeling problem. As a proof of concept, we also use a hybrid quantum-classical solver provided by D-Wave System to compare our results with the best classical inference algorithms in the literature. | 翻訳日:2023-12-21 16:13:11 公開日:2023-12-20 |
# 同定可能なヘテロシドスティックノイズモデルによる因果発見 Causal Discovery under Identifiable Heteroscedastic Noise Model ( http://arxiv.org/abs/2312.12844v1 ) ライセンス: Link先を確認 | Naiyu Yin, Tian Gao, Yue Yu, Qiang Ji | (参考訳) DAG(Directed Acyclic Graphs)で表される構造因果関係のキャプチャは、さまざまなAI分野における基本的なタスクである。
継続的最適化フレームワークによる因果的DAG学習は、最近、正確性と効率の両面で有望なパフォーマンスを達成した。
しかし、ほとんどの手法はホモスセダスティックノイズの強い仮定をしており、例えば外因性ノイズは変数、観測、あるいはその両方に等しくばらつきがある。
実データのノイズは通常、異なるデータ収集プロセスによって引き起こされるバイアスのために両方の仮定に違反する。
ヘテロシドスティックノイズの問題に対処するために, 緩和・実装可能な十分条件を導入し, これらの条件に対するsemの一般クラスの識別可能性を証明する。
同定可能な一般SEMに基づいて,変数間のノイズ分散と観測値の変動を考慮したDAG学習のための新しい定式化を提案する。
そこで我々は,最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案し,不連続変動雑音を持つデータから因果DAGを学習する。
合成データと実データの両方に対する最先端手法に対する提案手法の実証的な効果を示す。 Capturing the underlying structural causal relations represented by Directed Acyclic Graphs (DAGs) has been a fundamental task in various AI disciplines. Causal DAG learning via the continuous optimization framework has recently achieved promising performance in terms of both accuracy and efficiency. However, most methods make strong assumptions of homoscedastic noise, i.e., exogenous noises have equal variances across variables, observations, or even both. The noises in real data usually violate both assumptions due to the biases introduced by different data collection processes. To address the issue of heteroscedastic noise, we introduce relaxed and implementable sufficient conditions, proving the identifiability of a general class of SEM subject to these conditions. Based on the identifiable general SEM, we propose a novel formulation for DAG learning that accounts for the variation in noise variance across variables and observations. We then propose an effective two-phase iterative DAG learning algorithm to address the increasing optimization difficulties and to learn a causal DAG from data with heteroscedastic variable noise under varying variance. We show significant empirical gains of the proposed approaches over state-of-the-art methods on both synthetic data and real data. | 翻訳日:2023-12-21 16:12:53 公開日:2023-12-20 |
# Union-free Generic Depthによる機械学習アルゴリズムの比較 Comparing Machine Learning Algorithms by Union-Free Generic Depth ( http://arxiv.org/abs/2312.12839v1 ) ライセンス: Link先を確認 | Hannah Blocher, Georg Schollmeyer, Malte Nalenz, Christoph Jansen | (参考訳) 本稿では,深度関数の概念に基づく部分順序集合を記述的に解析するフレームワークを提案する。
線形空間や距離空間における集中的な研究にもかかわらず、部分順序のような非標準データ型に対する深さ関数についてはほとんど議論がない。
我々は、よく知られたsimplicial depthをすべての部分順序、union-free generic (ufg) depthの集合に適応させる。
さらに,多次元性能測定に基づく機械学習アルゴリズムの比較のために,我々の ufg 深度を利用する。
具体的には、標準ベンチマークデータセットのサンプルに対する分類器比較の2つの例を示す。
本結果は, ufg 法に基づく多種多様な解析手法を有望に示すものである。
さらに,本手法が既存のベンチマーク手法と大きく異なることを概説し,分類比較に関する活発な議論に新たな視点を加えている。 We propose a framework for descriptively analyzing sets of partial orders based on the concept of depth functions. Despite intensive studies in linear and metric spaces, there is very little discussion on depth functions for non-standard data types such as partial orders. We introduce an adaptation of the well-known simplicial depth to the set of all partial orders, the union-free generic (ufg) depth. Moreover, we utilize our ufg depth for a comparison of machine learning algorithms based on multidimensional performance measures. Concretely, we provide two examples of classifier comparisons on samples of standard benchmark data sets. Our results demonstrate promisingly the wide variety of different analysis approaches based on ufg methods. Furthermore, the examples outline that our approach differs substantially from existing benchmarking approaches, and thus adds a new perspective to the vivid debate on classifier comparison. | 翻訳日:2023-12-21 16:12:33 公開日:2023-12-20 |
# 異常検出に2回利用した1回生産 Produce Once, Utilize Twice for Anomaly Detection ( http://arxiv.org/abs/2312.12913v1 ) ライセンス: Link先を確認 | Shuyuan Wang, Qi Li, Huiyuan Luo, Chengkan Lv, Zhengtao Zhang | (参考訳) 視覚異常検出は、正常な外観から逸脱する領域を分類し、位置決めすることを目的としている。
組込み型メソッドと再構成型メソッドは、2つの主要なアプローチである。
しかし、これらは効率が良くないか、工業的な検出に十分正確ではない。
この問題に対処するために、再構成ネットワークにおける識別情報電位を再利用することにより精度と効率を向上させるPOUTA(Produce Once Utilize Twice for Anomaly Detection)を導出する。
再構成ネットワークのエンコーダとデコーダの表現は、それぞれオリジナルの画像の特徴と再構成された画像の特徴を表現可能であることを観察する。
また、対称的再構成表現の相違により、ほぼ正確な異常情報が得られる。
この情報を洗練するために,高レベル表現と監督損失によって各識別層のセマンティクスを規定する粒度から粒度までのプロセスがpoutaで提案されている。
上記のモジュールを備えており、以前の芸術よりも正確な異常な場所を提供する能力を備えている。
さらに、表現再使用により、識別ネットワークにおける特徴抽出プロセスが排除され、パラメータが減少し、効率が向上する。
大規模な実験により、POUTAはより優れているか、より低コストで以前の方法に匹敵することを示した。
さらに,POUTAは,訓練データに固有の表現を学習する能力が強いことを示すため,特別な設計をすることなく,最新の数発の異常検出手法よりも優れた性能を実現している。 Visual anomaly detection aims at classifying and locating the regions that deviate from the normal appearance. Embedding-based methods and reconstruction-based methods are two main approaches for this task. However, they are either not efficient or not precise enough for the industrial detection. To deal with this problem, we derive POUTA (Produce Once Utilize Twice for Anomaly detection), which improves both the accuracy and efficiency by reusing the discriminant information potential in the reconstructive network. We observe that the encoder and decoder representations of the reconstructive network are able to stand for the features of the original and reconstructed image respectively. And the discrepancies between the symmetric reconstructive representations provides roughly accurate anomaly information. To refine this information, a coarse-to-fine process is proposed in POUTA, which calibrates the semantics of each discriminative layer by the high-level representations and supervision loss. Equipped with the above modules, POUTA is endowed with the ability to provide a more precise anomaly location than the prior arts. Besides, the representation reusage also enables to exclude the feature extraction process in the discriminative network, which reduces the parameters and improves the efficiency. Extensive experiments show that, POUTA is superior or comparable to the prior methods with even less cost. Furthermore, POUTA also achieves better performance than the state-of-the-art few-shot anomaly detection methods without any special design, showing that POUTA has strong ability to learn representations inherent in the training data. | 翻訳日:2023-12-21 16:06:16 公開日:2023-12-20 |
# 最適化ニューラルエンコーディングを用いたIM/DDシステムのエネルギー効率・スパイクニューラルネットワーク等化 Energy-efficient Spiking Neural Network Equalization for IM/DD Systems with Optimized Neural Encoding ( http://arxiv.org/abs/2312.12909v1 ) ライセンス: Link先を確認 | Alexander von Bank, Eike-Manuel Edelmann, Laurent Schmalen | (参考訳) スパイクニューラルネットワークに基づくIM/DDシステムのエネルギー効率等化器を提案する。
エネルギー消費を低減しつつ、イコライザの性能を高める神経スパイク符号化を最適化する。 We propose an energy-efficient equalizer for IM/DD systems based on spiking neural networks. We optimize a neural spike encoding that boosts the equalizer's performance while decreasing energy consumption. | 翻訳日:2023-12-21 16:05:35 公開日:2023-12-20 |
# 共通光音楽認識評価フレームワーク The Common Optical Music Recognition Evaluation Framework ( http://arxiv.org/abs/2312.12908v1 ) ライセンス: Link先を確認 | Pau Torras and Sanket Biswas and Alicia Forn\'es | (参考訳) オプティカル・ミュージック・認識(OMR)システムの品質は、測定するのがかなり難しい。
OMRデータセット間で共有される言語フランカは存在せず、システムのパフォーマンスを等しく比較することができる。
その結果、ほとんどの最先端の作品は、直接比較できないメトリクスを報告している。
本稿では、一般的な音楽表現言語の必要性を特定し、標準メトリクスの定義を可能にするため、音楽木表記(MTN)フォーマットを提案する。
この形式は、音楽をハイアストラクションノードにグループ化するプリミティブの集合として表現し、完全なグラフベースとシーケンシャルな表記形式の間の妥協である。
我々はまた、この概念の概念の実証として、omrメトリクスの特定のセットと型セットスコアデータセットも開発した。 The quality of Optical Music Recognition (OMR) systems is a rather difficult magnitude to measure. There is no lingua franca shared among OMR datasets that allows to compare systems' performance on equal grounds, since most of them are specialised on certain approaches. As a result, most state-of-the-art works currently report metrics that cannot be compared directly. In this paper we identify the need of a common music representation language and propose the Music Tree Notation (MTN) format, thanks to which the definition of standard metrics is possible. This format represents music as a set of primitives that group together into higher-abstraction nodes, a compromise between the expression of fully graph-based and sequential notation formats. We have also developed a specific set of OMR metrics and a typeset score dataset as a proof of concept of this idea. | 翻訳日:2023-12-21 16:05:29 公開日:2023-12-20 |
# PGN:深層強化学習のための摂動生成ネットワーク PGN: A perturbation generation network against deep reinforcement learning ( http://arxiv.org/abs/2312.12904v1 ) ライセンス: Link先を確認 | Xiangjuan Li, Feifan Li, Yang Li, Quan Pan | (参考訳) 深層強化学習は大きく進歩し、多くの分野で応用されている。
本稿では,エージェントを攻撃対象とする新しい生成モデルを提案することで,深層強化学習の脆弱性を探究する。
提案手法は標的攻撃と未目標攻撃の両方を達成できる。
深層強化学習の特異性を考慮して, ステルス性尺度としての行動整合性率と, 効果とステルス性の新しい測定指標を提案する。
実験の結果,本手法は他のアルゴリズムと比較して攻撃の有効性とステルス性が確保できることがわかった。
さらに,本手法はかなり高速であり,深層強化学習の脆弱性を迅速かつ効率的に検証することができる。 Deep reinforcement learning has advanced greatly and applied in many areas. In this paper, we explore the vulnerability of deep reinforcement learning by proposing a novel generative model for creating effective adversarial examples to attack the agent. Our proposed model can achieve both targeted attacks and untargeted attacks. Considering the specificity of deep reinforcement learning, we propose the action consistency ratio as a measure of stealthiness, and a new measurement index of effectiveness and stealthiness. Experiment results show that our method can ensure the effectiveness and stealthiness of attack compared with other algorithms. Moreover, our methods are considerably faster and thus can achieve rapid and efficient verification of the vulnerability of deep reinforcement learning. | 翻訳日:2023-12-21 16:05:07 公開日:2023-12-20 |
# ユニバーサル近似のための動的感覚の最小制御系 A Minimal Control Family of Dynamical Syetem for Universal Approximation ( http://arxiv.org/abs/2312.12903v1 ) ライセンス: Link先を確認 | Yifei Duan, Yongqiang Cai | (参考訳) ニューラルネットワークの普遍近似特性(UAP)はディープラーニングの基本的な特徴である。
線形関数と正則線型単位(ReLU)アクティベーション関数のような非線形関数の合成がコンパクト領域上の連続関数を近似することができることは広く認識されている。
本稿では,この効果を制御を伴う動的システムのシナリオに拡張する。
制御群 $\mathcal{f}_1 = \mathcal{f}_0 \cup \{ \text{relu}(\cdot)\} $ は任意のコンパクトな領域上で$\mathbb{r}^d$ の微分同相写像を一様近似できるフローマップを生成するのに十分であることを証明し、ここで $\mathcal{f}_0 = \{x \mapsto ax+b: a\in \mathbb{r}^{d\times d}, b \in \mathbb{r}^d\}$ は線型写像の集合であり、次元は $d\ge2$ である。
$\mathcal{F}_1$ は1つの非線形関数のみを含み、$\mathcal{F}_0$ は UAP を保持しないので、UAP の最小制御ファミリを $\mathcal{F}_1$ と呼ぶ。
これに基づいて,コントロールファミリー上のアフィン不変性などの条件を定式化し,議論する。
その結果,ニューラルネットワークの近似パワーと制御系との接続が明らかになった。 The universal approximation property (UAP) of neural networks is a fundamental characteristic of deep learning. It is widely recognized that a composition of linear functions and non-linear functions, such as the rectified linear unit (ReLU) activation function, can approximate continuous functions on compact domains. In this paper, we extend this efficacy to the scenario of dynamical systems with controls. We prove that the control family $\mathcal{F}_1 = \mathcal{F}_0 \cup \{ \text{ReLU}(\cdot)\} $ is enough to generate flow maps that can uniformly approximate diffeomorphisms of $\mathbb{R}^d$ on any compact domain, where $\mathcal{F}_0 = \{x \mapsto Ax+b: A\in \mathbb{R}^{d\times d}, b \in \mathbb{R}^d\}$ is the set of linear maps and the dimension $d\ge2$. Since $\mathcal{F}_1$ contains only one nonlinear function and $\mathcal{F}_0$ does not hold the UAP, we call $\mathcal{F}_1$ a minimal control family for UAP. Based on this, some sufficient conditions, such as the affine invariance, on the control family are established and discussed. Our result reveals an underlying connection between the approximation power of neural networks and control systems. | 翻訳日:2023-12-21 16:04:29 公開日:2023-12-20 |
# wigner-dunkl量子力学の経路積分公式について On the Path Integral Formulation of Wigner-Dunkl Quantum Mechanics ( http://arxiv.org/abs/2312.12895v1 ) ライセンス: Link先を確認 | Georg Junker | (参考訳) ファインマンの経路積分アプローチは、量子力学のウィグナー・ダンクル変形の枠組みで研究されている。
まず、ダンクル理論のいくつかの基礎をレビューし、標準量子力学で観測されるのと同じ分散関係を示すガウス波パケットの時間発展について考察する。
ファインマンの経路積分法はウィグナー・デュンケル量子力学に拡張される。
調和振動子問題を明示的に解く。
次に、ユークリッドの時間進化と関連するダンクル過程を考察する。
ジャンプを示すこの過程は、2つの連続したベッセル過程によって表現できる。
調和振動子問題に対するファインマン・カック経路積分を明示的に計算する。 Feynman's path integral approach is studied in the framework of the Wigner-Dunkl deformation of quantum mechanics. We start with reviewing some basics from Dunkl theory and investigate the time evolution of a Gaussian wave packet, which exhibits the same dispersion relation as observed in standard quantum mechanics. Feynman's path integral approach is then extended to Wigner-Dunkl quantum mechanics. The harmonic oscillator problem is solved explicitly. We then look at the Euclidean time evolution and the related Dunkl process. This process, which exhibit jumps, can be represented by two continuous Bessel processes, one with reflection and one with absorbtion at the origin. The Feynman-Kac path integral for the harmonic oscillator problem is explicitly calculated. | 翻訳日:2023-12-21 16:03:32 公開日:2023-12-20 |
# 準静電荷雑音による交換結合量子ドットの制御位相ゲート Controlled phase gate in exchange coupled quantum dots affected by quasistatic charge noise ( http://arxiv.org/abs/2312.12892v1 ) ライセンス: Link先を確認 | Yinan Fang | (参考訳) 電荷ノイズは半導体ベースの量子ビットにおいて高忠実度2量子ビット量子ゲートを実現する際の主要な問題の一つであった。
本研究では,二重量子ドット上で定義されるスピン量子ビットの制御位相ゲートにおける量子ドットデチューニングにおける準静的ノイズの影響について検討する。
実験状態をカバーする弱い雑音に対して,ハミルトン平均雑音,交換相互作用,およびゲート忠実度の解析式を導出した。
また,制御相ゲートの2ビットランダム化ベンチマーク解析を行い,弱い雑音に対して逐次的忠実性の指数的減衰が依然として有効であることを示す。 Charge noise has been one of the main issues in realizing high fidelity two-qubit quantum gates in semiconductor based qubits. Here, we study the influence of quasistatic noise in quantum dot detuning on the controlled phase gate for spin qubits that defined on a double quantum dot. Analytical expressions for the noise averaged Hamiltonian, exchange interaction, as well as the gate fidelity are derived for weak noise covering experimental relevant regime. We also perform interleaved two-qubit randomized benchmarking analysis for the controlled phase gate and show that an exponential decay of the sequential fidelity is still valid for the weak noise. | 翻訳日:2023-12-21 16:03:21 公開日:2023-12-20 |
# MinePlanner: Minecraftの世界における長期計画のベンチマーク MinePlanner: A Benchmark for Long-Horizon Planning in Large Minecraft Worlds ( http://arxiv.org/abs/2312.12891v1 ) ライセンス: Link先を確認 | William Hill, Ireton Liu, Anita De Mello Koch, Damion Harvey, George Konidaris, Steven James | (参考訳) 我々はminecraftゲームに基づくタスク計画のための新しいベンチマークを提案する。
私たちのベンチマークには45のタスクが含まれていますが、新しいMinecraftタスクの命題インスタンスと数値インスタンスの両方を自動生成する機能も備えています。
我々はこれらのタスクに関する数値的および命題的計画システムをベンチマークし、その結果、現在最先端のプランナーは、数千のオブジェクトを持つインスタンスへのスケーリングなど、新しいベンチマークによって進められた多くの課題に対処できないことを示した。
これらの結果に基づき,今後の計画立案者に対する改善の分野を特定する。
私たちのフレームワークはhttps://github.com/IretonLiu/mine-pddl/で利用可能です。 We propose a new benchmark for planning tasks based on the Minecraft game. Our benchmark contains 45 tasks overall, but also provides support for creating both propositional and numeric instances of new Minecraft tasks automatically. We benchmark numeric and propositional planning systems on these tasks, with results demonstrating that state-of-the-art planners are currently incapable of dealing with many of the challenges advanced by our new benchmark, such as scaling to instances with thousands of objects. Based on these results, we identify areas of improvement for future planners. Our framework is made available at https://github.com/IretonLiu/mine-pddl/. | 翻訳日:2023-12-21 16:03:11 公開日:2023-12-20 |
# 量子から古典的結晶化まで From quantum to classical via crystallization ( http://arxiv.org/abs/2312.12884v1 ) ライセンス: Link先を確認 | Ioannis Kleftogiannis, Ilias Amanatidis | (参考訳) 古典状態が量子多体系の純粋基底状態解として現れることを示す。
強短距離相互作用を持つ1次元の単純なハバードモデルと、M部位にN粒子が配置された2番目の近接ホッピングを用いる。
m=2n-1 に対するこのハバード鎖の基底状態は、強い相互作用する粒子が結晶次数を持つ古典的状態に配置される単一の多体状態からなる。
基底状態は、第1の励起状態からエネルギーギャップによって分離され、大きなNの熱力学的限界に留まり、エネルギーギャップは、古典的な基底状態が障害のような外部の摂動に頑健になる粒子間の相互作用の強さによって線形に増加する。
この結果は、量子系が結晶のような古典状態へどのように収束するかの例であり、デコヒーレンスや波動関数の崩壊、その他の外部機構を必要としない。 We show that classical states can emerge as pure ground state solutions of a quantum many-body system. We use a simple Hubbard model in 1D with strong short-range interactions and a second nearest neighbor hopping with N particles arranged among M sites. We show that the ground state of this Hubbard chain for M=2N-1 consists of a single many-body state where the strongly interacting particles arrange in a classical state with crystalline order. The ground state is separated by an energy gap from the first excited state, and survives in the thermodynamic limit for large N. The energy gap increases linearly with the strength of the interaction between the particles making the classical ground state robust to external perturbations like disorder. Our result is an example of how a quantum system can converge to a classical state, like a crystal, without requiring decoherence, wavefunction collapse or other external mechanisms. | 翻訳日:2023-12-21 16:02:59 公開日:2023-12-20 |
# BSL:レコメンデーションのためのSoftmax損失の理解と改善 BSL: Understanding and Improving Softmax Loss for Recommendation ( http://arxiv.org/abs/2312.12882v1 ) ライセンス: Link先を確認 | Junkang Wu, Jiawei Chen, Jiancan Wu, Wentao Shi, Jizhi Zhang, Xiang Wang | (参考訳) 損失関数はレコメンデーションモデルの最適化方向を制御し、モデル性能に重要なものであるが、最近のレコメンデーション研究ではあまり注目されていない。
各種の損失のうち,Softmax Loss (SL) は,顕著な精度だけでなく,堅牢性や公正性も向上している。
しかしながら、現在の文献にはSLの有効性に関する包括的な説明が欠けている。
この研究ギャップに対処するために、SLに関する理論的分析を行い、3つの洞察を明らかにする。
1) SLの最適化は, 負のデータに対して分布ロバスト最適化(DRO)を行うことと等価であり, 負の分布に対する摂動から学習し, 雑音に頑健さをもたらす。
2) 他の損失関数と比較すると,SLは予測分散を暗黙的にペナルティ化し,予測値間のギャップが小さくなり,より公平な結果が得られる。
これらの知見に基づいて、SLの利点を正と負の両方に拡張する新たな損失関数バイラテラル・ソフトマックス・ロス(BSL)を提案する。
BSL は正の例に同じ Log-Expectation-Exp 構造を適用して SL を強化し、そのモデルも雑音の正に頑健である。
注目すべきなのは、BSLはシンプルで簡単に実装できることです。
4つの実世界のデータセットと3つの代表的なバックボーンに関する実験が提案の有効性を示しています。
コードはhttps://github.com/junkangwu/BSLで入手できる。 Loss functions steer the optimization direction of recommendation models and are critical to model performance, but have received relatively little attention in recent recommendation research. Among various losses, we find Softmax loss (SL) stands out for not only achieving remarkable accuracy but also better robustness and fairness. Nevertheless, the current literature lacks a comprehensive explanation for the efficacy of SL. Toward addressing this research gap, we conduct theoretical analyses on SL and uncover three insights: 1) Optimizing SL is equivalent to performing Distributionally Robust Optimization (DRO) on the negative data, thereby learning against perturbations on the negative distribution and yielding robustness to noisy negatives. 2) Comparing with other loss functions, SL implicitly penalizes the prediction variance, resulting in a smaller gap between predicted values and and thus producing fairer results. Building on these insights, we further propose a novel loss function Bilateral SoftMax Loss (BSL) that extends the advantage of SL to both positive and negative sides. BSL augments SL by applying the same Log-Expectation-Exp structure to positive examples as is used for negatives, making the model robust to the noisy positives as well. Remarkably, BSL is simple and easy-to-implement -- requiring just one additional line of code compared to SL. Experiments on four real-world datasets and three representative backbones demonstrate the effectiveness of our proposal. The code is available at https://github.com/junkangwu/BSL | 翻訳日:2023-12-21 16:02:44 公開日:2023-12-20 |
# AI研究に対するビッグデータの影響再考:アイデアのアフィリエイトへの貢献のメメティック分析 Big Tech influence over AI research revisited: memetic analysis of attribution of ideas to affiliation ( http://arxiv.org/abs/2312.12881v1 ) ライセンス: Link先を確認 | Stanis{\l}aw Gizi\'nski, Paulina Kaczy\'nska, Hubert Ruczy\'nski, Emilia Wi\'snios, Bartosz Pieli\'nski, Przemys{\l}aw Biecek, Julian Sienkiewicz | (参考訳) 人工知能(AI)研究のランドスケープでは、ビッグデータの優位性に関する議論が増えているが、この現象の理解はいまだに順調だ。
本稿では,AI研究におけるビッグデータのリーチとパワーの理解を深め,深化することを目的とする。
これは単に出版量というだけでなく、新しいアイデアの伝播や、textit{memes} における支配を強調するものである。
現在の研究は、一般的にarXivや特定の学術会議のような限られたデータベースから得られる学術論文における関係の共有に対する影響の概念を単純化する。
本稿の主な目的は、その影響の特定のニュアンスを解明し、どのAIアイデアがビッグデータエンティティによって主に駆動されているかを決定することである。
AI指向の論文抽象化とその引用ネットワークにネットワークとメメティック分析を適用することで、この現象に関する深い知見を把握できる。
OpenAlexとS2ORCの2つのデータベースを利用することで、従来の試みよりもはるかに大きなスケールでそのような分析を行うことができる。
以上の結果から,Big Tech関連論文は,一部地域では不当に引用されているが,最も引用されている論文はBig TechとAcademiaの関連論文であることがわかった。
最も伝染性の高いミームに注目すると、特定のアフィリエーショングループ(ビッグテック、アカデミア、混合アフィリエーション)への帰属は、これら3つのグループ間で均等に分散しているように見える。
これは、AI研究に対するビッグデータの優位の概念が、議論の中で過度に単純化されていることを示唆している。
最終的に、この、ビッグテックとアカデミアの影響に関するより曖昧な理解は、これらの利害関係者間のより共生的な同盟を示唆し、社会福祉とAI研究の科学的完全性という2つの目標に役立てることができる。 There exists a growing discourse around the domination of Big Tech on the landscape of artificial intelligence (AI) research, yet our comprehension of this phenomenon remains cursory. This paper aims to broaden and deepen our understanding of Big Tech's reach and power within AI research. It highlights the dominance not merely in terms of sheer publication volume but rather in the propagation of new ideas or \textit{memes}. Current studies often oversimplify the concept of influence to the share of affiliations in academic papers, typically sourced from limited databases such as arXiv or specific academic conferences. The main goal of this paper is to unravel the specific nuances of such influence, determining which AI ideas are predominantly driven by Big Tech entities. By employing network and memetic analysis on AI-oriented paper abstracts and their citation network, we are able to grasp a deeper insight into this phenomenon. By utilizing two databases: OpenAlex and S2ORC, we are able to perform such analysis on a much bigger scale than previous attempts. Our findings suggest, that while Big Tech-affiliated papers are disproportionately more cited in some areas, the most cited papers are those affiliated with both Big Tech and Academia. Focusing on the most contagious memes, their attribution to specific affiliation groups (Big Tech, Academia, mixed affiliation) seems to be equally distributed between those three groups. This suggests that the notion of Big Tech domination over AI research is oversimplified in the discourse. Ultimately, this more nuanced understanding of Big Tech's and Academia's influence could inform a more symbiotic alliance between these stakeholders which would better serve the dual goals of societal welfare and the scientific integrity of AI research. | 翻訳日:2023-12-21 16:02:17 公開日:2023-12-20 |
# 放射線学データを用いたセグメンテーションモデルの検討 Testing the Segment Anything Model on radiology data ( http://arxiv.org/abs/2312.12880v1 ) ライセンス: Link先を確認 | Jos\'e Guilherme de Almeida and Nuno M. Rodrigues and Sara Silva and Nickolas Papanikolaou | (参考訳) Deep learning models trained with large amounts of data have become a recent and effective approach to predictive problem solving -- these have become known as "foundation models" as they can be used as fundamental tools for other applications. While the paramount examples of image classification (earlier) and large language models (more recently) led the way, the Segment Anything Model (SAM) was recently proposed and stands as the first foundation model for image segmentation, trained on over 10 million images and with recourse to over 1 billion masks. However, the question remains -- what are the limits of this foundation?
MRIは診断の重要な方法であり,MRIデータを用いたゼロショットセグメンテーションのいくつかのタスクにSAMが有効であるかどうかを考察した。
特に、SAM予測のプールからマスクを選択することが良いセグメンテーションにつながるかどうかを知りたかった。
本稿では,磁気共鳴画像データにおけるSAMの性能評価について述べる。
非常に限られたケースでは受け入れられるが、全体的な傾向は、これらのモデルが全容にわたってMRIのセグメンテーションに不十分であるが、いくつかの特定のスライスで良いセグメンテーションを提供できることを示している。
さらに重要なことは、自然画像でトレーニングされた基礎モデルが予測モデリングの重要な側面になるように設定されている一方で、他の画像モダリティで使用する場合、それらは有効ではない可能性があることである。 Deep learning models trained with large amounts of data have become a recent and effective approach to predictive problem solving -- these have become known as "foundation models" as they can be used as fundamental tools for other applications. While the paramount examples of image classification (earlier) and large language models (more recently) led the way, the Segment Anything Model (SAM) was recently proposed and stands as the first foundation model for image segmentation, trained on over 10 million images and with recourse to over 1 billion masks. However, the question remains -- what are the limits of this foundation? Given that magnetic resonance imaging (MRI) stands as an important method of diagnosis, we sought to understand whether SAM could be used for a few tasks of zero-shot segmentation using MRI data. Particularly, we wanted to know if selecting masks from the pool of SAM predictions could lead to good segmentations. Here, we provide a critical assessment of the performance of SAM on magnetic resonance imaging data. We show that, while acceptable in a very limited set of cases, the overall trend implies that these models are insufficient for MRI segmentation across the whole volume, but can provide good segmentations in a few, specific slices. More importantly, we note that while foundation models trained on natural images are set to become key aspects of predictive modelling, they may prove ineffective when used on other imaging modalities. | 翻訳日:2023-12-21 16:01:45 公開日:2023-12-20 |
# フィードフォワードニューラルネットワークからのルール抽出法:体系的文献レビュー Rule-Extraction Methods From Feedforward Neural Networks: A Systematic Literature Review ( http://arxiv.org/abs/2312.12878v1 ) ライセンス: Link先を確認 | Sara El Mekkaoui, Loubna Benabbou, Abdelaziz Berrado | (参考訳) mlモデルの解釈可能性の問題がaiシステムの展開成功の重要な要素であることに動機づけられた本論文は、ニューラルネットワークの解釈可能性の手段としてのルール抽出に焦点を当てている。
系統的な文献レビューを通じて、ディープラーニングモデルの重要なブロックであるフィードフォワードニューラルネットワークからルールを抽出するための異なるアプローチを特定し、検討する。
この発見は、主に浅いニューラルネットワークに適した20年以上にわたって開発された様々な手法を示しており、ディープラーニングモデルの課題を満たすために近年の開発が進められている。
ルールは、ニューラルネットワークを説明するための透明で直感的な手段を提供する。
この研究は、特にフィードフォワードネットワークに教師付き学習とクリップルールで対処するが、将来の作業は他のネットワークタイプ、機械学習メソッド、ファジィルール抽出にまで拡張できる。 Motivated by the interpretability question in ML models as a crucial element for the successful deployment of AI systems, this paper focuses on rule extraction as a means for neural networks interpretability. Through a systematic literature review, different approaches for extracting rules from feedforward neural networks, an important block in deep learning models, are identified and explored. The findings reveal a range of methods developed for over two decades, mostly suitable for shallow neural networks, with recent developments to meet deep learning models' challenges. Rules offer a transparent and intuitive means of explaining neural networks, making this study a comprehensive introduction for researchers interested in the field. While the study specifically addresses feedforward networks with supervised learning and crisp rules, future work can extend to other network types, machine learning methods, and fuzzy rule extraction. | 翻訳日:2023-12-21 16:01:25 公開日:2023-12-20 |
# ビデオから見る、楽しくてアニマブルなニューラルアバター Relightable and Animatable Neural Avatars from Videos ( http://arxiv.org/abs/2312.12877v1 ) ライセンス: Link先を確認 | Wenbin Lin, Chengwei Zheng, Jun-Hai Yong, Feng Xu | (参考訳) 3Dデジタルアバターの軽量化は、非常に望ましいが難しい課題だ。
未知の照明下での人物の映像は少ないが、新しい視点、身体のポーズ、照明の下で人間の写実的イメージを合成するために使用できる、再現可能でアニメーション可能な神経アバターを作成する方法を提案する。
ここでの重要な課題は、体の動きによって引き起こされる複雑な幾何学や影の変化により、その幾何学、衣服の素材、照明を解体することである。
そこで本研究では, 形状や影の変化をモデル化するための新しい手法を提案する。
幾何学的変化モデリングのために, 逆スキニング問題を解くための可逆変形場を提案し, 幾何学的品質の向上に寄与する。
空間的および時間的に変化するシェーディングキューをモデル化するために,光閉塞を推定するためのポーズ対応部分的光可視ネットワークを提案する。
合成データと実データに関する広範囲な実験により,我々は,高品質な幾何学を再構築し,異なる身体のポーズの下で現実的な影を生成する方法を示した。
コードとデータは \url{https://wenbin-lin.github.io/relightableavatar-page/} で入手できる。 Lightweight creation of 3D digital avatars is a highly desirable but challenging task. With only sparse videos of a person under unknown illumination, we propose a method to create relightable and animatable neural avatars, which can be used to synthesize photorealistic images of humans under novel viewpoints, body poses, and lighting. The key challenge here is to disentangle the geometry, material of the clothed body, and lighting, which becomes more difficult due to the complex geometry and shadow changes caused by body motions. To solve this ill-posed problem, we propose novel techniques to better model the geometry and shadow changes. For geometry change modeling, we propose an invertible deformation field, which helps to solve the inverse skinning problem and leads to better geometry quality. To model the spatial and temporal varying shading cues, we propose a pose-aware part-wise light visibility network to estimate light occlusion. Extensive experiments on synthetic and real datasets show that our approach reconstructs high-quality geometry and generates realistic shadows under different body poses. Code and data are available at \url{https://wenbin-lin.github.io/RelightableAvatar-page/}. | 翻訳日:2023-12-21 16:01:09 公開日:2023-12-20 |
# ウイルス診断 : ulgfbp-resnet51によるctと胸部x線画像の分類 COVID-19 Diagnosis: ULGFBP-ResNet51 approach on the CT and the Chest X-ray Images Classification ( http://arxiv.org/abs/2312.12876v1 ) ライセンス: Link先を確認 | Vida Esmaeili and Mahmood Mohassel Feghhi and Seyed Omid Shahdi | (参考訳) 新型コロナウイルス(covid-19)の感染とパンデミック(covid-19)は、現在、主要な健康問題と見なされており、人間の生活に広くパニックを引き起こしている。
ヒトの呼吸器と肺に強く影響する。
そのため、早死に大きな脅威を与えている。
早期診断は再生期において重要な役割を担っているが,手動による放射線検査は時間を要する。
病院内の多数の患者を手動で検査する時間も限られている。
したがって、胸部x線またはct画像の高効率な自動診断の必要性が急務となる。
そこで本研究では, ULGFBP-ResNet51と命名された新規な画像診断手法を提案する。
実際、この手法にはUniform Local Binary Pattern (ULBP)、Gabor Filter (GF)、ResNet51が含まれる。
以上の結果から,本手法は他の手法と比較して優れた性能を示し,最大精度を得ることができた。 The contagious and pandemic COVID-19 disease is currently considered as the main health concern and posed widespread panic across human-beings. It affects the human respiratory tract and lungs intensely. So that it has imposed significant threats for premature death. Although, its early diagnosis can play a vital role in revival phase, the radiography tests with the manual intervention are a time-consuming process. Time is also limited for such manual inspecting of numerous patients in the hospitals. Thus, the necessity of automatic diagnosis on the chest X-ray or the CT images with a high efficient performance is urgent. Toward this end, we propose a novel method, named as the ULGFBP-ResNet51 to tackle with the COVID-19 diagnosis in the images. In fact, this method includes Uniform Local Binary Pattern (ULBP), Gabor Filter (GF), and ResNet51. According to our results, this method could offer superior performance in comparison with the other methods, and attain maximum accuracy. | 翻訳日:2023-12-21 16:00:48 公開日:2023-12-20 |
# d3former:saliency-guided transformerによる繰り返し可能な高密度検出器と特徴強調ディスクリプタを共同学習する D3Former: Jointly Learning Repeatable Dense Detectors and Feature-enhanced Descriptors via Saliency-guided Transformer ( http://arxiv.org/abs/2312.12970v1 ) ライセンス: Link先を確認 | Junjie Gao, Pengfei Wang, Qiujie Dong, Qiong Zeng, Shiqing Xin, Caiming Zhang | (参考訳) ポイントクラウド登録問題に対処する上で、正確で代表的なマッチングを確立することが重要なステップである。
一般的に用いられるアプローチは、厳密な幾何学的特徴を持つキーポイントを検出し、その後、これらのキーポイントをポイントクラウドのあるフレームから別のフレームにマッピングする。
しかし、このカテゴリのメソッドは、サンプリングされたキーポイントの再現性によって阻害される。
本稿では,リピータブルな \textbf{D}ense \textbf{D}etectors と機能強化された \textbf{D}escriptors の共用学習を伴い,サリエンシ誘導型 Trans\textbf{former} を \textit{D3Former} と呼ぶ。
このモデルは、機能強化記述子学習(FEDL)モジュールと反復キーポイント検出子学習(RKDL)モジュールからなる。
FEDLモジュールは特徴の特長を高めるために領域注意機構を使用し、RKDLモジュールは反復可能なキーポイントの検出に重点を置いてマッチング機能を強化する。
屋内および屋外のベンチマークに挑戦する実験の結果から,提案手法が最先端のクラウドマッチング手法を一貫して上回っていることが示された。
特に、3DLoMatchのテストは、重複率が低いとしても、我々の手法はRoRegやRoITrといった最近発表されたアプローチよりも一貫して優れていることを示す。
例えば、抽出されたキーポイント数が250に減少すると、RoReg、RoITr、および我々のメソッドの登録リコールスコアはそれぞれ64.3\%、73.6\%、76.5\%となる。 Establishing accurate and representative matches is a crucial step in addressing the point cloud registration problem. A commonly employed approach involves detecting keypoints with salient geometric features and subsequently mapping these keypoints from one frame of the point cloud to another. However, methods within this category are hampered by the repeatability of the sampled keypoints. In this paper, we introduce a saliency-guided trans\textbf{former}, referred to as \textit{D3Former}, which entails the joint learning of repeatable \textbf{D}ense \textbf{D}etectors and feature-enhanced \textbf{D}escriptors. The model comprises a Feature Enhancement Descriptor Learning (FEDL) module and a Repetitive Keypoints Detector Learning (RKDL) module. The FEDL module utilizes a region attention mechanism to enhance feature distinctiveness, while the RKDL module focuses on detecting repeatable keypoints to enhance matching capabilities. Extensive experimental results on challenging indoor and outdoor benchmarks demonstrate that our proposed method consistently outperforms state-of-the-art point cloud matching methods. Notably, tests on 3DLoMatch, even with a low overlap ratio, show that our method consistently outperforms recently published approaches such as RoReg and RoITr. For instance, with the number of extracted keypoints reduced to 250, the registration recall scores for RoReg, RoITr, and our method are 64.3\%, 73.6\%, and 76.5\%, respectively. | 翻訳日:2023-12-21 15:53:21 公開日:2023-12-20 |
# Radar Fields: SARへのラジアンスフィールドの拡張 Radar Fields: An Extension of Radiance Fields to SAR ( http://arxiv.org/abs/2312.12961v1 ) ライセンス: Link先を確認 | Thibaud Ehret, Roger Mar\'i, Dawa Derksen, Nicolas Gasnier, Gabriele Facciolo | (参考訳) レーダランス場は、逆レンダリング、新しいビュー合成、多視点画像コレクションからの複雑なシーンの3次元モデリングの分野で大きなブレークスルーとなっている。
導入後、LiDAR、無線周波数、X線、超音波などの他のモードに拡張できることが示されている。
本稿では,光学・合成開口レーダ(SAR)画像形成モデルに重要な違いがあるにもかかわらず,レーダ画像への放射場の拡張が可能であり,最初の「レーダー場」を提示できることを示す。
これにより、通常の放射場がどのように学習され、平均的に同じ計算量で、レーダー画像のみを用いて表面モデルを学ぶことができる。
両フィールドの定義方法の類似性により、この研究は光学画像とsar画像の両方を組み合わせたハイブリッド手法の可能性も示している。 Radiance fields have been a major breakthrough in the field of inverse rendering, novel view synthesis and 3D modeling of complex scenes from multi-view image collections. Since their introduction, it was shown that they could be extended to other modalities such as LiDAR, radio frequencies, X-ray or ultrasound. In this paper, we show that, despite the important difference between optical and synthetic aperture radar (SAR) image formation models, it is possible to extend radiance fields to radar images thus presenting the first "radar fields". This allows us to learn surface models using only collections of radar images, similar to how regular radiance fields are learned and with the same computational complexity on average. Thanks to similarities in how both fields are defined, this work also shows a potential for hybrid methods combining both optical and SAR images. | 翻訳日:2023-12-21 15:52:47 公開日:2023-12-20 |
# 二体および三体相互作用を持つ多体量子スピン系における多重ポート量子密度符号化を実現するための制限 Restrictions to realize multiport quantum dense coding in a many-body quantum spin system with two- and three-body interactions ( http://arxiv.org/abs/2312.12956v1 ) ライセンス: Link先を確認 | P. Kiran, Hemant Shreepad Hegde, Harsha Miriam Reji, R. Prabhu | (参考訳) 多体量子スピン系を持つ量子情報は、時折、興味深く直感的な結果を与えて、マルチポート量子通信を理解する。
2体と3体の相互作用を持つ異方性多体量子スピン系において、その2スピンサブシステムすべてが部分的転置の下で負である場合、このシステムは$(n-1)$の送信機と1つの受信機を持つマルチポート量子高密度符号化プロトコルのみを実現するために制限することができる。
他のシングルチャネルおよびマルチチャネルの高密度コーディングプロトコルは、それぞれの古典的キャパシティよりも少ない量子密度のコーディング能力を持つ。
マルチポート量子密度符号化容量を$(N-1)$の送信機と,システムパラメータに関する単一受信機で特徴付ける。
また, 本システムでは, 外部印加磁界の全範囲の影響を包括的に把握し, 他のシステムパラメータに対する変動を特徴付けることのできる, 磁場平均高密度符号化容量を定式化する。 Quantum information with many-body quantum spin systems has, from time to time, given intriguing and intuitive outcomes to our understanding of multiport quantum communications. We identify that in an anisotropic many-body quantum spin system with two- and three-body interactions, when its two-spin subsystems are all negative under partial transpose, one can restrict this system for realizing only the multiport quantum dense coding protocol which has $(N-1)$ senders and a single receiver. All other single and multi channel dense coding protocols will have quantum dense coding capacities less than that of their respective classical capacities. We characterize the multiport quantum dense coding capacity with $(N-1)$ senders and a single receiver for this system with respect to its system parameters. We also define a magnetic field averaged dense coding capacity for this system, which allows us to comprehensively capture the influence of the entire range of external applied magnetic field and characterize its variation with respect to other system parameters. | 翻訳日:2023-12-21 15:52:32 公開日:2023-12-20 |
# TADAP:冬期運転条件下での訓練済み自己監督機能付き軌道支援乾燥地域自動ラベル TADAP: Trajectory-Aided Drivable area Auto-labeling with Pre-trained self-supervised features in winter driving conditions ( http://arxiv.org/abs/2312.12954v1 ) ライセンス: Link先を確認 | Eerik Alamikkotervo, Risto Ojala, Alvari Sepp\"anen, Kari Tammi | (参考訳) 自律運転や高度な運転支援システムでは,あらゆる条件下でのドライブル領域の検出が不可欠である。
しかし, 悪運転条件におけるラベル付きデータの量は, 特に冬季は限られており, 教師あり手法はトレーニング分布外の条件に適さない。
すべての条件に容易に適応するためには、人間のアノテーションを学習プロセスから取り除く必要がある。
本稿では, 冬期運転時の乾燥領域の自動アノテーションとして, 事前学習型自己監督機能付き自動ラベル付け(TADAP)を提案する。
地球航法衛星システムからの軌道推定に基づいて、乾燥可能な領域のサンプルを抽出する。
予め訓練された自己教師付き視覚特徴に基づいてサンプル領域との類似性を決定する。
試料領域に類似した画像領域は乾燥可能と考えられる。
これらのTADPラベルは、様々な運転シーンで収集された新しい冬運転データセットで評価された。
TADAPラベルでトレーニングされた予測モデルは、以前の自己管理可能な領域検出の最先端技術と比較して、結合上の交差を+9.6改善した。 Detection of the drivable area in all conditions is crucial for autonomous driving and advanced driver assistance systems. However, the amount of labeled data in adverse driving conditions is limited, especially in winter, and supervised methods generalize poorly to conditions outside the training distribution. For easy adaption to all conditions, the need for human annotation should be removed from the learning process. In this paper, Trajectory-Aided Drivable area Auto-labeling with Pre-trained self-supervised features (TADAP) is presented for automated annotation of the drivable area in winter driving conditions. A sample of the drivable area is extracted based on the trajectory estimate from the global navigation satellite system. Similarity with the sample area is determined based on pre-trained self-supervised visual features. Image areas similar to the sample area are considered to be drivable. These TADAP labels were evaluated with a novel winter-driving dataset, collected in varying driving scenes. A prediction model trained with the TADAP labels achieved a +9.6 improvement in intersection over union compared to the previous state-of-the-art of self-supervised drivable area detection. | 翻訳日:2023-12-21 15:52:13 公開日:2023-12-20 |
# 構造的雑音空間GANを用いたクラス条件時系列生成 Class Conditional Time Series Generation with Structured Noise Space GAN ( http://arxiv.org/abs/2312.12946v1 ) ライセンス: Link先を確認 | Hamidreza Gholamrezaei, Alireza Koochali, Andreas Dengel, Sheraz Ahmed | (参考訳) 本稿では、画像と時系列データの両方において、クラス条件生成に適した生成モデル分野の新しいアプローチであるStructured Noise Space GAN(SNS-GAN)を紹介する。
ネットワークに構造的な変更を加えることなく、クラスラベルを生成モデルに効果的に統合するという課題に対処する。
SNS-GAN法は, 発電機のノイズ空間内にクラス条件を埋め込んで, トレーニングプロセスを簡素化し, モデルの汎用性を向上させる。
モデルの有効性は、画像領域における定性検証と、ベースラインモデルと比較して時系列生成における優れた性能によって実証される。
本研究は,時系列や画像データ生成に限らず,様々な領域にGANを適用するための新たな道を開く。 This paper introduces Structured Noise Space GAN (SNS-GAN), a novel approach in the field of generative modeling specifically tailored for class-conditional generation in both image and time series data. It addresses the challenge of effectively integrating class labels into generative models without requiring structural modifications to the network. The SNS-GAN method embeds class conditions within the generator's noise space, simplifying the training process and enhancing model versatility. The model's efficacy is demonstrated through qualitative validations in the image domain and superior performance in time series generation compared to baseline models. This research opens new avenues for the application of GANs in various domains, including but not limited to time series and image data generation. | 翻訳日:2023-12-21 15:51:58 公開日:2023-12-20 |
# 1ビット行列完備化のための誤分類過剰リスク境界 Misclassification excess risk bounds for 1-bit matrix completion ( http://arxiv.org/abs/2312.12945v1 ) ライセンス: Link先を確認 | The Tien Mai | (参考訳) 本研究は,未知行列の回復に関わる機械学習における重要な問題である,1ビット行列完備化の文脈における過度の誤分類リスクについて検討する。
マトリックスの完成は、様々な分野にまたがる多様な応用により、過去20年間にかなりの注目を集めてきた。
実数値サンプルを扱う従来のアプローチとは異なり、1ビットの行列補完はバイナリ観測に関係している。
先行研究は主に推定誤差に着目してきたが,本研究は予測誤差に着目している。
本稿では,ロジスティック回帰モデルを用いた2つの先行研究の予測誤差に関する理論的解析について述べる。
有意な結果は,後者が対数項を追加する必要なしに最小最適化率を達成することを示した。
これらの新たな結果は,特定の手法の予測性能に光を当てることにより,1ビット行列の完成度をより深く理解することに貢献している。 This study investigates the misclassification excess risk bound in the context of 1-bit matrix completion, a significant problem in machine learning involving the recovery of an unknown matrix from a limited subset of its entries. Matrix completion has garnered considerable attention in the last two decades due to its diverse applications across various fields. Unlike conventional approaches that deal with real-valued samples, 1-bit matrix completion is concerned with binary observations. While prior research has predominantly focused on the estimation error of proposed estimators, our study shifts attention to the prediction error. This paper offers theoretical analysis regarding the prediction errors of two previous works utilizing the logistic regression model: one employing a max-norm constrained minimization and the other employing nuclear-norm penalization. Significantly, our findings demonstrate that the latter achieves the minimax-optimal rate without the need for an additional logarithmic term. These novel results contribute to a deeper understanding of 1-bit matrix completion by shedding light on the predictive performance of specific methodologies. | 翻訳日:2023-12-21 15:51:45 公開日:2023-12-20 |
# ルビー格子上の反強磁性長距離横磁場イジングモデルにおける秩序・秩序 Order-by-disorder in the antiferromagnetic long-range transverse-field Ising model on the ruby lattice ( http://arxiv.org/abs/2312.12941v1 ) ライセンス: Link先を確認 | A. Duft, J.A. Koziol, P. Adelhardt, M. M\"uhlhauser, and K.P. Schmidt | (参考訳) 我々は, ルビー格子上の反強磁性逆場イジングモデルにおいて, 幾何的フラストレーションと長距離相互作用が相互に秩序を増すことを示した。
この目的のために、truncated $J_1$-$J_2$-$J_3$ Ising 相互作用の量子位相図について検討する。
低磁場限界では、ゼロ場における広い基底状態の縮退が、2つの異なる順序差のシナリオによってどのように持ち上げられるかを分析する、有効な量子二量体モデルが導かれる。
直列展開を用いた高次位相のギャップ閉鎖の研究により解析を支援する。
J_2>J_3$の場合、プラケットの共振により安定化された低磁場における初期クロック秩序相と、偏光された高磁場相への3d-XY量子相転移を見出す。
j_3>j_2$ の場合、オーダー・バイ・ディスオーダの機構は異なる $k=(0,0)$ 次を安定化し、3次元イジング普遍性クラスにおける量子相転移を観測する。
三角格子とは対照的に、ルビー格子上では、代数的に減衰する長距離相互作用はクロック順序の低場位相を好むため、既存のrydberg原子量子シミュレータで堅牢な実装が可能となる。 We demonstrate that geometric frustration and long-range interactions both promote order-by-disorder in the antiferromagnetic transverse-field Ising model on the ruby lattice. To this end we investigate the quantum phase diagram for truncated $J_1$-$J_2$-$J_3$ Ising interactions. In the low-field limit we derive an effective quantum dimer model, analyzing how the extensive ground-state degeneracy at zero field is lifted by two distinct order-by-disorder scenarios. We support our analysis by studying the gap-closing of the high-field phase using series expansions. For $J_2>J_3$, we find an emergent clock-ordered phase at low fields, stabilized by resonating plaquettes, and a 3d-XY quantum phase transition to the polarized high-field phase. For $J_3>J_2$, an order-by-disorder mechanism stabilizes a distinct $k=(0,0)$ order and a quantum phase transition in the 3d-Ising universality class is observed. In contrast to the triangular lattice, on the ruby lattice algebraically decaying long-range interactions favor the clock-ordered low-field phase and therefore allow a robust implementation in existing Rydberg atom quantum simulators. | 翻訳日:2023-12-21 15:51:28 公開日:2023-12-20 |
# 雑音ラベルを用いた決定木学習におけるロバスト損失関数 Robust Loss Functions for Training Decision Trees with Noisy Labels ( http://arxiv.org/abs/2312.12937v1 ) ライセンス: Link先を確認 | Jonathan Wilton, Nan Ye | (参考訳) 我々は,頑健な学習アルゴリズムにつながる損失関数に着目し,能動的ラベル付きデータを用いた意思決定木を訓練する。
私たちの貢献は3倍です。
まず,決定木学習の文脈における既存損失関数の頑健性に関する新しい理論的知見を提供する。
いくつかの損失は、保守的損失と呼ばれるクラスに属しており、保守的損失は、トレーニング中の早期停止行動と、テスト中のノイズ耐性予測に繋がることを示している。
第2に,分散損失と呼ばれるロバスト損失関数を構築するためのフレームワークを提案する。
これらの損失は、仮定マージン分布に基づくパーセンタイルに基づくペナルティを適用し、ロバスト性パラメータによる異なるノイズ率への適応を可能にする。
特に, 負指数損失と呼ばれる新たな損失を導入することで, 効率のよい不純物還元学習アルゴリズムを実現する。
最後に、複数のデータセットとノイズ設定に関する実験により、我々の理論的洞察と適応的負指数損失の有効性を検証した。 We consider training decision trees using noisily labeled data, focusing on loss functions that can lead to robust learning algorithms. Our contributions are threefold. First, we offer novel theoretical insights on the robustness of many existing loss functions in the context of decision tree learning. We show that some of the losses belong to a class of what we call conservative losses, and the conservative losses lead to an early stopping behavior during training and noise-tolerant predictions during testing. Second, we introduce a framework for constructing robust loss functions, called distribution losses. These losses apply percentile-based penalties based on an assumed margin distribution, and they naturally allow adapting to different noise rates via a robustness parameter. In particular, we introduce a new loss called the negative exponential loss, which leads to an efficient greedy impurity-reduction learning algorithm. Lastly, our experiments on multiple datasets and noise settings validate our theoretical insight and the effectiveness of our adaptive negative exponential loss. | 翻訳日:2023-12-21 15:51:04 公開日:2023-12-20 |
# 概念に基づく説明可能な人工知能:調査 Concept-based Explainable Artificial Intelligence: A Survey ( http://arxiv.org/abs/2312.12936v1 ) ライセンス: Link先を確認 | Eleonora Poeta, Gabriele Ciravegna, Eliana Pastor, Tania Cerquitelli, Elena Baralis | (参考訳) 説明可能な人工知能の分野は、より透明で信頼性の高いモデルの必要性の高まりに対応して現れた。
しかし、最近いくつかの作品で生の機能を説明に用い、よりユーザ理解可能な説明を提唱している。
この問題に対処するために、概念ベースのeXplainable Artificial Intelligence(C-XAI)手法を提案する幅広い論文が近年出現している。
それでも、統一された分類と正確なフィールド定義はいまだに欠けている。
本稿では,C-XAIのアプローチを徹底的にレビューすることで,そのギャップを埋める。
異なる概念と説明型を定義し、識別する。
我々は,9つのカテゴリを分類し,開発コンテキストに基づいて適切なカテゴリを選択するためのガイドラインを提案する。
また,今後の手法開発を支援するために,指標,人的評価,データセットなどの共通評価戦略について報告する。
この調査は、この革新的な分野の理解と推進に研究者、実践者、ドメインの専門家に役立ちます。 The field of explainable artificial intelligence emerged in response to the growing need for more transparent and reliable models. However, using raw features to provide explanations has been disputed in several works lately, advocating for more user-understandable explanations. To address this issue, a wide range of papers proposing Concept-based eXplainable Artificial Intelligence (C-XAI) methods have arisen in recent years. Nevertheless, a unified categorization and precise field definition are still missing. This paper fills the gap by offering a thorough review of C-XAI approaches. We define and identify different concepts and explanation types. We provide a taxonomy identifying nine categories and propose guidelines for selecting a suitable category based on the development context. Additionally, we report common evaluation strategies including metrics, human evaluations and dataset employed, aiming to assist the development of future methods. We believe this survey will serve researchers, practitioners, and domain experts in comprehending and advancing this innovative field. | 翻訳日:2023-12-21 15:50:47 公開日:2023-12-20 |
# 小摂動解析用レンズによるグラフ畳み込みニューラルネットワークの安定性 Stability of Graph Convolutional Neural Networks through the lens of small perturbation analysis ( http://arxiv.org/abs/2312.12934v1 ) ライセンス: Link先を確認 | Lucia Testa, Claudio Battiloro, Stefania Sardellitti, Sergio Barbarossa | (参考訳) 本研究では,下層のグラフトポロジーにおけるランダムな小さな摂動,すなわちエッジの挿入や削除の数の制限下でのグラフ畳み込みニューラルネットワーク(gcns)の安定性の問題について検討する。
我々は、未摂動GCNの出力と摂動GCNの出力の予測差に基づいて、小説を導出する。
提案した境界はラプラシアン行列の固有ペアの摂動の大きさに明示的に依存し、摂動はどの辺が挿入されるか削除されるかに明示的に依存する。
次に,ネットワークの安定性に対する特定のエッジの摂動の影響を定量的に評価する。
我々は,小さな摂動解析から得られたツールを用いて,閉,近似,形式の境界を表現し,摂動シフト演算子を計算することなく,結果の解釈可能性を高める。
最後に,提案手法の有効性を数値的に評価する。 In this work, we study the problem of stability of Graph Convolutional Neural Networks (GCNs) under random small perturbations in the underlying graph topology, i.e. under a limited number of insertions or deletions of edges. We derive a novel bound on the expected difference between the outputs of unperturbed and perturbed GCNs. The proposed bound explicitly depends on the magnitude of the perturbation of the eigenpairs of the Laplacian matrix, and the perturbation explicitly depends on which edges are inserted or deleted. Then, we provide a quantitative characterization of the effect of perturbing specific edges on the stability of the network. We leverage tools from small perturbation analysis to express the bounds in closed, albeit approximate, form, in order to enhance interpretability of the results, without the need to compute any perturbed shift operator. Finally, we numerically evaluate the effectiveness of the proposed bound. | 翻訳日:2023-12-21 15:50:33 公開日:2023-12-20 |
# テキストから画像への自動テスト Automated Testing for Text-to-Image Software ( http://arxiv.org/abs/2312.12933v1 ) ライセンス: Link先を確認 | Siqi Gu | (参考訳) 近年、クリエイティブな生成人工知能ソフトウェアが中心的なアシスタントとして登場し、ユーザーはコンテンツを生成し、インスピレーションを迅速に求めることができるようになった。
最も広く使われているtext-to-image(t2i)ソフトウェアは、クロスモーダルなプロセスによって単純なテキスト入力でイメージを合成するために使用される。
しかし、いくつかの分野でかなりの進歩があったにもかかわらず、T2Iソフトウェアは、焦点エンティティの省略、画像リアリズムの低さ、テキスト画像情報のミスマッチなど、しばしば欠陥や誤りに遭遇する。
t2iソフトウェアのクロスモーダル性は、従来のテスト方法が欠陥を検出するのを難しくする。
テストオラクルの欠如はテストの複雑さをさらに増加させる。
この不足に対処するため,我々は,t2iソフトウェア用に設計された最初のテスト手法であるテキストから画像への自動クロスモーダルテスト手法であるactestingを提案する。
本研究は, 意味情報の一貫性を維持するという基本原理に従って, エンティティと関係トリプルに基づくテストサンプルを構築し, クロスモーダルマッチングの課題を克服する。
まず,T2Iソフトウェアの変成関係を設計し,適応性密度で導かれる3種類の突然変異演算子を実装した。
実験では,広く使用されている4つのT2Iソフトウェア上でACTestを行う。
その結果、ACTestingはエラー検出テストを生成することができ、ベースラインと比較してテキストイメージの一貫性を最大20%削減できることがわかった。
また,提案するメタモルフィック関係に基づいて,各変異演算子の有効性を効果的に示すアブレーション研究を行う。
その結果,t2iソフトウェアの異常動作を効果的に識別できることがわかった。 Recently, creative generative artificial intelligence software has emerged as a pivotal assistant, enabling users to generate content and seek inspiration rapidly. Text-to-image (T2I) software, being one of the most widely used among them, is used to synthesize images with simple text input by engaging in a cross-modal process. However, despite substantial advancements in several fields, T2I software often encounters defects and erroneous, including omitting focal entities, low image realism, and mismatched text-image information. The cross-modal nature of T2I software makes it challenging for traditional testing methods to detect defects. Lacking test oracles further increases the complexity of testing. To address this deficiency, we propose ACTesting, an Automated Cross-modal Testing Method of Text-to-Image software, the first testing method designed specifically for T2I software. We construct test samples based on entities and relationship triples following the fundamental principle of maintaining consistency in the semantic information to overcome the cross-modal matching challenges. To address the issue of testing oracle scarcity, we first design the metamorphic relation for T2I software and implement three types of mutation operators guided by adaptability density. In the experiment, we conduct ACTesting on four widely-used T2I software. The results show that ACTesting can generate error-revealing tests, reducing the text-image consistency by up to 20% compared with the baseline. We also conduct the ablation study that effectively showcases the efficacy of each mutation operator, based on the proposed metamorphic relation. The results demonstrate that ACTesting can identify abnormal behaviors of T2I software effectively. | 翻訳日:2023-12-21 15:50:17 公開日:2023-12-20 |
# 量子物理学における測定過程の動的記述についての一考察 A short note about the dynamical description of the measurement process in quantum physics ( http://arxiv.org/abs/2312.12922v1 ) ライセンス: Link先を確認 | Jean Richert, Tarek Khalil | (参考訳) 量子系における可観測物の計測プロセスは、理論の発展の初期から始まっていた、解決不可能な問題であることが判明した。
本稿では、測定装置と相互作用するオープンシステムの計測システム部分について考察し、その測定プロセスが理想的に機能する理想的な条件を示す。
私たちの手順は、おそらく非常に特定のケースを除いて、あらゆる実験的な手順がプロセスのクリーンな解決に繋がる見込みがないという結論を導きます。
この状況の理由は量子論の基本的な性質に深く根ざしている。 The measurement process of observables in a quantum system comes out to be an unsovable problem which started in the early times of the development of the theory. In the present note we consider the measured system part of an open system interacting with the measuring device and show under which ideal conditions the measure process may ideally work. Our procedure leads to the conclusion that there is no hope that any experimental procedure will be able to lead to a clean solution of the process, except maybe in very specific cases. The reasons for this situation are deeply rooted in the fundamental properties of quantum theory. | 翻訳日:2023-12-21 15:49:48 公開日:2023-12-20 |
# ゼロショットマシン生成テキスト検出器のロバスト性の測定 Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors ( http://arxiv.org/abs/2312.12918v1 ) ライセンス: Link先を確認 | Yi-Fan Zhang and Zhang Zhang and Liang Wang and Rong Jin | (参考訳) 自然言語生成技術(NLG)の潜在的な誤用に対抗するため、AI生成テキストの検出のために様々なアルゴリズムが開発された。
伝統的に、このタスクは二項分類問題として扱われる。
教師付き学習は有望な結果を示しているが、検出目的のラベル付きデータを取得すると、現実の課題や過度な適合のリスクが生じる。
これらの問題に対処するため、ゼロショットマシン生成テキスト検出の領域を探究しました。
既存のゼロショット検出器は、通常特定のタスクやトピック用に設計されており、しばしば一様のテストシナリオを仮定し、実用性を制限する。
本研究では,多種多様な大規模言語モデル (LLM) とその特殊変種を探索し,この分野にいくつかの形で貢献する。
実証実験では,トピックと検出性能の有意な相関が明らかになった。
次に,話題シフトがゼロショット検出器に与える影響について考察する。
これらの調査は、様々なトピックにわたる検出手法の適応性と堅牢性に光を当てた。 To combat the potential misuse of Natural Language Generation (NLG) technology, a variety of algorithms have been developed for the detection of AI-generated texts. Traditionally, this task is treated as a binary classification problem. Although supervised learning has demonstrated promising results, acquiring labeled data for detection purposes poses real-world challenges and the risk of overfitting. In an effort to address these issues, we delve into the realm of zero-shot machine-generated text detection. Existing zero-shot detectors, typically designed for specific tasks or topics, often assume uniform testing scenarios, limiting their practicality. In our research, we explore various advanced Large Language Models (LLMs) and their specialized variants, contributing to this field in several ways. In empirical studies, we uncover a significant correlation between topics and detection performance. Secondly, we delve into the influence of topic shifts on zero-shot detectors. These investigations shed light on the adaptability and robustness of these detection methods across diverse topics. | 翻訳日:2023-12-21 15:49:39 公開日:2023-12-20 |
# ラテントモーショントランスを用いた手話生成 Sign Language Production with Latent Motion Transformer ( http://arxiv.org/abs/2312.12917v1 ) ライセンス: Link先を確認 | Pan Xie, Taiyi Peng, Yao Du, Qipeng Zhang | (参考訳) 手話生成(SLP)は手話から手話への変換が難しい作業である。
SLPの主なゴールは、サイングラスを使ってこれらのビデオを作成することである。
本研究では,人間のポーズを中間段階として使用せずに高品質なサインビデオを作成する新しい手法を開発した。
まず、ジェネレータとビデオの隠れた機能から学習し、次に別のモデルを使って隠れた機能の順番を理解します。
この手法を手話ビデオでさらに良くするために,我々はいくつかの重要な改良を行った。
(i)第1段階では,3次元VQ-GANを改良し,ダウンサンプリングされた潜在表現を学習する。
(ii)第2段階では,条件情報を活用するために逐次的注意を導入する。
(iii) 分離された二段階訓練は、第2段階における潜在コードの現実的な視覚的意味を破棄する。
潜在シーケンスの意味情報を付与するために,視覚知覚モデルに対する知覚損失と再構成損失を伴うトークンレベルの自己回帰的潜在コード学習を拡張する。
従来の最先端手法と比較して,我々のモデルは,WLASLとNMFs-CSLの2つの単語レベル手話データセットに対して一貫して優れた性能を発揮する。 Sign Language Production (SLP) is the tough task of turning sign language into sign videos. The main goal of SLP is to create these videos using a sign gloss. In this research, we've developed a new method to make high-quality sign videos without using human poses as a middle step. Our model works in two main parts: first, it learns from a generator and the video's hidden features, and next, it uses another model to understand the order of these hidden features. To make this method even better for sign videos, we make several significant improvements. (i) In the first stage, we take an improved 3D VQ-GAN to learn downsampled latent representations. (ii) In the second stage, we introduce sequence-to-sequence attention to better leverage conditional information. (iii) The separated two-stage training discards the realistic visual semantic of the latent codes in the second stage. To endow the latent sequences semantic information, we extend the token-level autoregressive latent codes learning with perceptual loss and reconstruction loss for the prior model with visual perception. Compared with previous state-of-the-art approaches, our model performs consistently better on two word-level sign language datasets, i.e., WLASL and NMFs-CSL. | 翻訳日:2023-12-21 15:49:25 公開日:2023-12-20 |
# 多文書要約に関する調査:体系的文献レビュー Survey on Multi-Document Summarization: Systematic Literature Review ( http://arxiv.org/abs/2312.12915v1 ) ライセンス: Link先を確認 | Uswa Ihsan, Humaira Ashraf, NZ Jhanjhi | (参考訳) 情報技術の時代には、あらゆるトピックに関するWebページやドキュメントの形で、豊富な情報がインターネット上で利用可能である。
膨大な量のドキュメントの中から、何時間も読み続けることなく、関連性があり情報に富んだコンテンツを見つけることは、非常に難しい作業だ。
この問題を解決するために,多文書要約の様々な手法が開発されている。
マルチドキュメント要約手法は、冗長性の低い文書の高品質な要約を作成しようとする。
本研究は,マルチドキュメント要約法における既存手法の体系的文献レビューを行い,これらの手法による性能の詳細な分析を行う。
本研究の結果から, 高い精度を得るためには, より効果的な手法が必要であることが判明した。
この研究はまた、この領域の将来の研究者の注意を引くいくつかのオープンな課題を明らかにした。 In this era of information technology, abundant information is available on the internet in the form of web pages and documents on any given topic. Finding the most relevant and informative content out of these huge number of documents, without spending several hours of reading has become a very challenging task. Various methods of multi-document summarization have been developed to overcome this problem. The multi-document summarization methods try to produce high-quality summaries of documents with low redundancy. This study conducts a systematic literature review of existing methods for multi-document summarization methods and provides an in-depth analysis of performance achieved by these methods. The findings of the study show that more effective methods are still required for getting higher accuracy of these methods. The study also identifies some open challenges that can gain the attention of future researchers of this domain. | 翻訳日:2023-12-21 15:49:05 公開日:2023-12-20 |
# DiffPortrait3D:ゼロショットポートレートビュー合成のための制御可能な拡散 DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis ( http://arxiv.org/abs/2312.13016v1 ) ライセンス: Link先を確認 | Yuming Gu, Hongyi Xu, You Xie, Guoxian Song, Yichun Shi, Di Chang, Jing Yang, Lingjie Luo | (参考訳) 本稿では,DiffPortrait3Dという条件付き拡散モデルについて述べる。
具体的には、単一のRGB入力を前提として、アイデンティティと表情の両方を保持する新しいカメラビューから、可塑性だが一貫した顔の詳細を合成することを目的としている。
時間を要する最適化と微調整に代えて,ゼロショット方式は,不適切なカメラビュー,極端な表情,多彩な芸術的描写を備えた任意の顔のポートレートにうまく一般化する。
その中心となるのが,大規模画像データセットで事前学習した2次元拡散モデルの生成前処理をレンダリングバックボーンとして活用すると同時に,外観とカメラの姿勢の無角な注意制御によって雑音を誘導する手法である。
そこで我々はまず,凍結したユニセットの自己注意層に参照画像から外観コンテキストを注入する。
そして、レンダリングビューを、同じビューから横断被写体の条件画像を見て、カメラポーズを解釈する新しい条件制御モジュールで操作する。
さらに,学習可能なクロスビューアテンションモジュールを挿入することで,新たな3dアウェアノイズ生成プロセスによってさらに強化され,ビュー一貫性が向上する。
我々は,本研究の課題であるマルチビュー・イン・ザ・ワイルドベンチマークを質的かつ定量的に評価し,最新結果を実証する。 We present DiffPortrait3D, a conditional diffusion model that is capable of synthesizing 3D-consistent photo-realistic novel views from as few as a single in-the-wild portrait. Specifically, given a single RGB input, we aim to synthesize plausible but consistent facial details rendered from novel camera views with retained both identity and facial expression. In lieu of time-consuming optimization and fine-tuning, our zero-shot method generalizes well to arbitrary face portraits with unposed camera views, extreme facial expressions, and diverse artistic depictions. At its core, we leverage the generative prior of 2D diffusion models pre-trained on large-scale image datasets as our rendering backbone, while the denoising is guided with disentangled attentive control of appearance and camera pose. To achieve this, we first inject the appearance context from the reference image into the self-attention layers of the frozen UNets. The rendering view is then manipulated with a novel conditional control module that interprets the camera pose by watching a condition image of a crossed subject from the same view. Furthermore, we insert a trainable cross-view attention module to enhance view consistency, which is further strengthened with a novel 3D-aware noise generation process during inference. We demonstrate state-of-the-art results both qualitatively and quantitatively on our challenging in-the-wild and multi-view benchmarks. | 翻訳日:2023-12-21 15:44:14 公開日:2023-12-20 |
# エンジニアリングアーティファクトコンプライアンス評価のための時間制約の定義と実行 Defining and executing temporal constraints for evaluating engineering artifact compliance ( http://arxiv.org/abs/2312.13012v1 ) ライセンス: Link先を確認 | Cosmina-Cristina Ratiu, Christoph Mayr-Dorn, Alexander Egyed | (参考訳) 安全クリティカルなシステムのエンジニアリングプロセスは、エンジニアがユーザ要求を実行可能なコードに書き換えるのをガイドするステップとシーケンスを記述し、成果物、トレース、そして結果のシステムが高品質であることの証拠を生成する。
プロセスコンプライアンスは、実際のエンジニアリング作業が記述されたエンジニアリングプロセスに可能な限り密接に従うことを保証することに焦点を当てます。
この目的のために、時間制約はステップの理想的なシーケンスを記述する。
しかし、これらのプロセスの制約をチェックすることは、まだ大変な作業であり、多くの手動作業が必要であり、プロセス後半にエンジニアにフィードバックを提供する。
本稿では,各アーティファクトの変更毎に,関連するエンジニアリングアーティファクト間の時間的制約を段階的にチェックする自動制約チェック手法を提案する。
時間制約は、線形時間論理(LTL)の演算子で拡張されたオブジェクト制約言語(OCL)で表現される。
我々は,我々のアプローチが幅広い高レベルな時間パターンをサポートする能力を示す。
さらに、業界由来のユースケースにおける制約について、単一制約の平均評価時間は0.2ミリ秒程度であることを示す。 Engineering processes for safety-critical systems describe the steps and sequence that guide engineers from refining user requirements into executable code, as well as producing the artifacts, traces, and evidence that the resulting system is of high quality. Process compliance focuses on ensuring that the actual engineering work is followed as closely as possible to the described engineering processes. To this end, temporal constraints describe the ideal sequence of steps. Checking these process constraints, however, is still a daunting task that requires a lot of manual work and delivers feedback to engineers only late in the process. In this paper, we present an automated constraint checking approach that can incrementally check temporal constraints across inter-related engineering artifacts upon every artifact change thereby enabling timely feedback to engineers on process deviations. Temporal constraints are expressed in the Object Constraint Language (OCL) extended with operators from Linear Temporal Logic (LTL). We demonstrate the ability of our approach to support a wide range of higher level temporal patterns. We further show that for constraints in an industry-derived use case, the average evaluation time for a single constraint takes around 0.2 milliseconds. | 翻訳日:2023-12-21 15:43:45 公開日:2023-12-20 |
# AgentCoder: 反復テストと最適化を備えたマルチエージェントベースのコード生成 AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation ( http://arxiv.org/abs/2312.13010v1 ) ライセンス: Link先を確認 | Dong Huang, Qingwen Bu, Jie M.Zhang, Michael Luck, and Heming Cui | (参考訳) 自然言語処理(NLP)の進歩は、トランスフォーマーベースの大規模言語モデル(LLM)の開発によって著しく加速された。
これらのモデルはnlpタスク、特にコード生成に革命をもたらし、開発者の効率を高めたソフトウェア作成を支援する。
その進歩にもかかわらず、コードスニペット生成と効果的なテストケース生成と実行のバランスをとる上での課題は続く。
これらの問題に対処するために,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントなど,特殊なエージェントを備えたマルチエージェントフレームワークを備えた新しいソリューションであるマルチエージェントアシスタントコード生成(AgentCoder)を紹介する。
コーディング手順の間、プログラマエージェントは、テスト実行エージェントのフィードバックに基づいて、コード生成と改善に集中します。
テストデザイナエージェントは生成されたコードのテストケースを生成し、テスト実行エージェントはテストケースでコードを実行し、プログラマにフィードバックを書きます。
この協調システムは、単一エージェントモデルと従来の方法論の制限を越えて、堅牢なコード生成を保証する。
9つのコード生成モデルと12の拡張アプローチに関する広範な実験では、AgentCoderが既存のコード生成モデルよりも優れたパフォーマンスを示し、さまざまなベンチマークでエンジニアリング技術を推進しています。
例えば、HumanEval-ETの77.4%と89.1%のpass@1、GPT-3.5のMBPP-ET、SOTAのベースラインは69.5%と63.0%である。 The advancement of natural language processing (NLP) has been significantly boosted by the development of transformer-based large language models (LLMs). These models have revolutionized NLP tasks, particularly in code generation, aiding developers in creating software with enhanced efficiency. Despite their advancements, challenges in balancing code snippet generation with effective test case generation and execution persist. To address these issues, this paper introduces Multi-Agent Assistant Code Generation (AgentCoder), a novel solution comprising a multi-agent framework with specialized agents: the programmer agent, the test designer agent, and the test executor agent. During the coding procedure, the programmer agent will focus on the code generation and refinement based on the test executor agent's feedback. The test designer agent will generate test cases for the generated code, and the test executor agent will run the code with the test cases and write the feedback to the programmer. This collaborative system ensures robust code generation, surpassing the limitations of single-agent models and traditional methodologies. Our extensive experiments on 9 code generation models and 12 enhancement approaches showcase AgentCoder's superior performance over existing code generation models and prompt engineering techniques across various benchmarks. For example, AgentCoder achieves 77.4% and 89.1% pass@1 in HumanEval-ET and MBPP-ET with GPT-3.5, while SOTA baselines obtain only 69.5% and 63.0%. | 翻訳日:2023-12-21 15:43:25 公開日:2023-12-20 |
# no more shortcuts:temporal self-supervisionの可能性 No More Shortcuts: Realizing the Potential of Temporal Self-Supervision ( http://arxiv.org/abs/2312.13008v1 ) ライセンス: Link先を確認 | Ishan Rajendrakumar Dave, Simon Jenni, Mubarak Shah | (参考訳) ビデオに対する自己監督的アプローチは、ビデオ理解タスクにおいて印象的な結果を示している。
しかし、時間的自己超越を利用する初期の研究とは異なり、現在の最先端の手法は主に時間的特徴の学習を明示的に促進しない画像領域(例えば、対照的な学習)からのタスクに依存している。
既存の時間的自己監督を制限する2つの要因を同定する。
1)タスクは単純すぎ、結果としてトレーニング性能が飽和し、
2)高レベル特徴の学習を妨げる局所的出現統計に基づくショートカットを明らかにする。
これらの問題に対処するために
1)フレームレベル(クリップレベルではなく)認識タスクとしての時間的自己監督のより困難な改革
2)ショートカットを緩和するための効果的な増強戦略。
我々のモデルは、コントラスト学習を通じて事前訓練された単一のビデオフレームの表現を拡張し、時間的自己監督を通じてトレーニングするトランスフォーマーである。
より挑戦的なフレームレベルのタスクの定式化とショートカットの削除が,時間的自己スーパービジョンを通じて学んだ機能の質を劇的に向上させることを実験的に実証した。
自己教師付き映像法の一般化は,映像検索や行動分類,映像属性認識(物体識別やシーン識別など)や,映像オブジェクトのセグメンテーションやポーズ追跡といった低レベルの時間対応タスクなど,幅広い高レベルの意味的タスクにおいて,その最先端のパフォーマンスが証明されている。
さらに,本手法を用いて学習した映像表現は,入力摂動に対する頑健性を高めたことを示す。 Self-supervised approaches for video have shown impressive results in video understanding tasks. However, unlike early works that leverage temporal self-supervision, current state-of-the-art methods primarily rely on tasks from the image domain (e.g., contrastive learning) that do not explicitly promote the learning of temporal features. We identify two factors that limit existing temporal self-supervision: 1) tasks are too simple, resulting in saturated training performance, and 2) we uncover shortcuts based on local appearance statistics that hinder the learning of high-level features. To address these issues, we propose 1) a more challenging reformulation of temporal self-supervision as frame-level (rather than clip-level) recognition tasks and 2) an effective augmentation strategy to mitigate shortcuts. Our model extends a representation of single video frames, pre-trained through contrastive learning, with a transformer that we train through temporal self-supervision. We demonstrate experimentally that our more challenging frame-level task formulations and the removal of shortcuts drastically improve the quality of features learned through temporal self-supervision. The generalization capability of our self-supervised video method is evidenced by its state-of-the-art performance in a wide range of high-level semantic tasks, including video retrieval, action classification, and video attribute recognition (such as object and scene identification), as well as low-level temporal correspondence tasks like video object segmentation and pose tracking. Additionally, we show that the video representations learned through our method exhibit increased robustness to the input perturbations. | 翻訳日:2023-12-21 15:42:58 公開日:2023-12-20 |
# 凸逐次効果代数のスペクトル性 Spectrality in convex sequential effect algebras ( http://arxiv.org/abs/2312.13003v1 ) ライセンス: Link先を確認 | Anna Jen\v{c}ov\'a, Sylvia Pulmannov\'a | (参考訳) 凸およびシーケンシャルエフェクト代数に対して、フーラスの意味でスペクトル性を研究する。
追加条件(強アルキメデス性、ノルムの閉性、シーケンシャル積のある種の単調性)の下で、そのような効果代数がスペクトルであることと、すべての最大可換部分代数が単調$\sigma$-完全であることを示す。
この設定におけるスペクトル分解能の存在に関する以前の2つの結果は、より強い仮定を必要とすることが示されている。 For convex and sequential effect algebras, we study spectrality in the sense of Foulis. We show that under additional conditions (strong archimedeanity, closedness in norm and a certain monotonicity property of the sequential product), such effect algebra is spectral if and only if every maximal commutative subalgebra is monotone $\sigma$-complete. Two previous results on existence of spectral resolutions in this setting are shown to require stronger assumptions. | 翻訳日:2023-12-21 15:42:32 公開日:2023-12-20 |
# マルチコアアーキテクチャ上でのトランスフォーマーを最小化するアクセラレータ駆動データアレンジメント Accelerator-driven Data Arrangement to Minimize Transformers Run-time on Multi-core Architectures ( http://arxiv.org/abs/2312.13000v1 ) ライセンス: Link先を確認 | Alireza Amirshahi, Giovanni Ansaloni, David Atienza | (参考訳) 人工知能におけるトランスフォーマーモデルの複雑さの増大は、計算コスト、メモリ使用量、エネルギー消費を増大させる。
ハードウェアアクセラレーションは、トランスフォーマーモデルに適したプロセッサやアクセラレータを設計し、高い効率で計算ホットスポットをサポートすることで、続く課題に取り組む。
しかし、メモリ帯域幅はハードウェアアクセラレータの改善を妨げる可能性がある。
本稿では,オフチップデータアクセスを効果的に最小化するハードウェアアクセラレーションのカーネルサイズによって制御される新しいメモリ配置戦略を提案する。
この配置は、計算のほとんどがgemm(general matrix multiplication)演算に基づいているエンドツーエンドトランスフォーマーモデル推論に特に有用である。
さらに,このメモリデータアレンジメントの範囲内でのトランスフォーマモデルにおける非GEMM演算のオーバーヘッドに対処する。
本研究では,シングルコアとマルチコアシステムの両方において,提案するアクセル駆動型データアレンジメント手法の実装と有効性について検討する。
本評価は,最先端トランスフォーマを用いた推論の実行において,最大2.8倍の速度向上を実現することを実証する。 The increasing complexity of transformer models in artificial intelligence expands their computational costs, memory usage, and energy consumption. Hardware acceleration tackles the ensuing challenges by designing processors and accelerators tailored for transformer models, supporting their computation hotspots with high efficiency. However, memory bandwidth can hinder improvements in hardware accelerators. Against this backdrop, in this paper we propose a novel memory arrangement strategy, governed by the hardware accelerator's kernel size, which effectively minimizes off-chip data access. This arrangement is particularly beneficial for end-to-end transformer model inference, where most of the computation is based on general matrix multiplication (GEMM) operations. Additionally, we address the overhead of non-GEMM operations in transformer models within the scope of this memory data arrangement. Our study explores the implementation and effectiveness of the proposed accelerator-driven data arrangement approach in both single- and multi-core systems. Our evaluation demonstrates that our approach can achieve up to a 2.8x speed increase when executing inferences employing state-of-the-art transformers. | 翻訳日:2023-12-21 15:42:23 公開日:2023-12-20 |
# Machine Mindset: MBTIによる大規模言語モデルの探索 Machine Mindset: An MBTI Exploration of Large Language Models ( http://arxiv.org/abs/2312.12999v1 ) ライセンス: Link先を確認 | Jiaxi Cui, Liuzhenghao Lv, Jing Wen, Jing Tang, YongHong Tian, Li Yuan | (参考訳) 本稿では,パーソナライズaiにおけるパーソナリティ一貫性の課題に対処するために,mbti(myers-briggs type indicator)パーソナリティ特性を大規模言語モデル(llm)に統合する新しいアプローチを提案する。
提案手法は,MBTI特性をLLMに埋め込むための2相微調整と直接選好最適化(DPO)を含む。
このアプローチにより、モデルはこれらの特性を内部化し、安定的で一貫したパーソナリティプロファイルを提供する。
我々は,様々な領域におけるモデルの有効性を実証し,モデル性能とそれぞれのmbti特性の整合を示す。
本稿では、パーソナリティデータセットの開発における重要な貢献と、llmにおけるパーソナリティ統合のための新しいトレーニング方法論を強調し、パーソナライズされたaiアプリケーションの可能性を高める。
また、当社のモデルとデータの一部を、 \url{https://github.com/PKU-YuanGroup/Machine-Mindset}でオープンソース化しました。 We present a novel approach for integrating Myers-Briggs Type Indicator (MBTI) personality traits into large language models (LLMs), addressing the challenges of personality consistency in personalized AI. Our method, "Machine Mindset," involves a two-phase fine-tuning and Direct Preference Optimization (DPO) to embed MBTI traits into LLMs. This approach ensures that models internalize these traits, offering a stable and consistent personality profile. We demonstrate the effectiveness of our models across various domains, showing alignment between model performance and their respective MBTI traits. The paper highlights significant contributions in the development of personality datasets and a new training methodology for personality integration in LLMs, enhancing the potential for personalized AI applications. We also open-sourced our model and part of the data at \url{https://github.com/PKU-YuanGroup/Machine-Mindset}. | 翻訳日:2023-12-21 15:42:05 公開日:2023-12-20 |
# バイオインスパイアされた複数画像領域分類器の有効かつ軽量な視覚的位置認識への応用 Aggregating Multiple Bio-Inspired Image Region Classifiers For Effective And Lightweight Visual Place Recognition ( http://arxiv.org/abs/2312.12995v1 ) ライセンス: Link先を確認 | Bruno Arcanjo, Bruno Ferrarini, Maria Fasli, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan | (参考訳) 視覚的位置認識(VPR)は、自律システムが画像情報を用いて環境内をローカライズすることを可能にする。
畳み込みニューラルネットワーク(CNN)のバックボーン上に構築されたVPR技術は、最先端のVPR性能を支配しているが、その高い計算要求により、ローエンドハードウェアを搭載したプラットフォームには適さない。
近年,DrosoNetsと呼ばれる複数のバイオインスパイアされた分類器をベースとした軽量なVPRシステムが提案され,絶対位置検索性能の低下による計算効率の向上が図られている。
本研究では,低計算プロファイルを保ちながら,VPR性能を著しく向上した領域DrosoNetと呼ばれる新しいマルチDrosoNetローカライズシステムを提案する。
我々のアプローチは、DrosoNetsの異なるグループを原画像の異なる分割分割に特化させることに依存し、外生的モデルの微分を増大させる。
さらに,すべてのDrosoNetの出力を,各DrosoNetの複数のトップレフェンス候補を考慮した最終位置予測に組み合わせた,新しい投票モジュールを導入する。
RegionDrosoNetは、外観の変化と視点の変化の両方を扱う場合、他の軽量VPR技術よりも優れている。
さらに、オンライン推論時間のごく一部で、いくつかのベンチマークデータセットで計算コストの高いメソッドと競合する。 Visual place recognition (VPR) enables autonomous systems to localize themselves within an environment using image information. While VPR techniques built upon a Convolutional Neural Network (CNN) backbone dominate state-of-the-art VPR performance, their high computational requirements make them unsuitable for platforms equipped with low-end hardware. Recently, a lightweight VPR system based on multiple bio-inspired classifiers, dubbed DrosoNets, has been proposed, achieving great computational efficiency at the cost of reduced absolute place retrieval performance. In this work, we propose a novel multi-DrosoNet localization system, dubbed RegionDrosoNet, with significantly improved VPR performance, while preserving a low-computational profile. Our approach relies on specializing distinct groups of DrosoNets on differently sliced partitions of the original image, increasing extrinsic model differentiation. Furthermore, we introduce a novel voting module to combine the outputs of all DrosoNets into the final place prediction which considers multiple top refence candidates from each DrosoNet. RegionDrosoNet outperforms other lightweight VPR techniques when dealing with both appearance changes and viewpoint variations. Moreover, it competes with computationally expensive methods on some benchmark datasets at a small fraction of their online inference time. | 翻訳日:2023-12-21 15:41:47 公開日:2023-12-20 |
# 画像再構成を用いたCBCTスキャンのセマンティックセグメンテーション改善のためのマルチタスク学習 Multi-task Learning To Improve Semantic Segmentation Of CBCT Scans Using Image Reconstruction ( http://arxiv.org/abs/2312.12990v1 ) ライセンス: Link先を確認 | Maximilian Ernst Tschuchnig, Julia Coste-Marin, Philipp Steininger, Michael Gadermayr | (参考訳) セマンティックセグメンテーションは医用画像処理において重要な課題であり、臓器や腫瘍などの病変のセグメンテーションに不可欠である。
本研究では,マルチタスク学習によるCBCTの自動セグメンテーションの改善を目指す。
異なるボリューム品質への影響を評価するために、ct肝腫瘍分割ベンチマーク(lits)データセットからcbctデータセットを合成する。
セグメンテーションを改善するために,2つのアプローチを検討した。
まず,音量再構成タスクを通じて形態素に基づく正規化を付加するマルチタスク学習を行う。
第2に、この再建作業を用いて、最高のCBCT(元々のCTと最もよく似た)を再構築し、認知的効果を促進する。
包括的なアプローチとパッチベースのアプローチの両方を検討します。
以上の結果から,特にパッチベースのアプローチでは,マルチタスク学習がほとんどのケースでセグメンテーションを改善し,これらの結果をさらに改善することが示唆された。 Semantic segmentation is a crucial task in medical image processing, essential for segmenting organs or lesions such as tumors. In this study we aim to improve automated segmentation in CBCTs through multi-task learning. To evaluate effects on different volume qualities, a CBCT dataset is synthesised from the CT Liver Tumor Segmentation Benchmark (LiTS) dataset. To improve segmentation, two approaches are investigated. First, we perform multi-task learning to add morphology based regularization through a volume reconstruction task. Second, we use this reconstruction task to reconstruct the best quality CBCT (most similar to the original CT), facilitating denoising effects. We explore both holistic and patch-based approaches. Our findings reveal that, especially using a patch-based approach, multi-task learning improves segmentation in most cases and that these results can further be improved by our denoising approach. | 翻訳日:2023-12-21 15:41:24 公開日:2023-12-20 |
# バイオメディカル・ナレッジ・キュレーションのための文脈内学習・微調整・改訂学習のベンチマークと分析 : 生物学的興味のある化学物質に着目した研究 Benchmarking and Analyzing In-context Learning, Fine-tuning and Supervised Learning for Biomedical Knowledge Curation: a focused study on chemical entities of biological interest ( http://arxiv.org/abs/2312.12989v1 ) ライセンス: Link先を確認 | Emily Groves, Minhong Wang, Yusuf Abdulle, Holger Kunz, Jason Hoelscher-Obermaier, Ronin Wu, Honghan Wu | (参考訳) バイオメディカルオントロジーの自動知識キュレーションは、それらが包括的で高品質で最新であることを保証するための鍵である。
基礎言語モデルの時代において、本研究では、インコンテキスト学習(ICL)、ファインチューニング(FT)、教師あり学習(ML)の3つのNLPパラダイムを比較し、分析する。
モデルオントロジーとしてchebi(chemical entities of biological interest)データベースを用いて3つのキュレーションタスクを考案した。
ICLでは、GPT-4、GPT-3.5、BioGPTの3つのプロンプト戦略が採用された。
PubmedBERTはFTパラダイムのために選ばれた。
mlでは、ランダムフォレストと長期記憶モデルのトレーニングに6つの埋め込みモデルが用いられた。
5つのセットアップは、さまざまなデータ可用性シナリオでMLとFTモデルのパフォーマンスを評価するように設計されており、キュレーションタスクのデータセットには、タスク1(620,386)、タスク2(611,430)、タスク3(617,381)があり、50:50と負の比率を維持している。
ICLモデルでは、GPT-4 はタスク 1-3 に対して 0.916 と 0.766 と 0.874 の最高精度のスコアを得た。
直接比較すると、ml(約260,000トリプルでトレーニング)はすべてのタスクでiclを上回っていた。
(正確な差:+.11、+.22、+.17)。
微調整のPubmedBERTはタスク1と2(F1の差:-.014と+.002)のMLモデルと同様に動作するが、タスク3(-.048)ではより悪い。
シミュレーションにより、MLモデルとFTモデルの両方のパフォーマンス低下が明らかになった。
ICL(特にGPT-4)はタスク1と3で優れている。
GPT-4 はタスク 1 と 3 において 6,000 倍以下で、ML/FT を上回った。
ICLはタスク2.ICL拡張基盤モデルにおいてML/FTを過小評価しているが、MLとFTのパラダイムを時代遅れにしない。
後者の2つは icl を打ち負かすためにタスク固有のデータを必要とする。
このような場合、MLは小さな事前訓練された埋め込みに依存し、計算要求を最小限に抑える。 Automated knowledge curation for biomedical ontologies is key to ensure that they remain comprehensive, high-quality and up-to-date. In the era of foundational language models, this study compares and analyzes three NLP paradigms for curation tasks: in-context learning (ICL), fine-tuning (FT), and supervised learning (ML). Using the Chemical Entities of Biological Interest (ChEBI) database as a model ontology, three curation tasks were devised. For ICL, three prompting strategies were employed with GPT-4, GPT-3.5, BioGPT. PubmedBERT was chosen for the FT paradigm. For ML, six embedding models were utilized for training Random Forest and Long-Short Term Memory models. Five setups were designed to assess ML and FT model performance across different data availability scenarios.Datasets for curation tasks included: task 1 (620,386), task 2 (611,430), and task 3 (617,381), maintaining a 50:50 positive versus negative ratio. For ICL models, GPT-4 achieved best accuracy scores of 0.916, 0.766 and 0.874 for tasks 1-3 respectively. In a direct comparison, ML (trained on ~260,000 triples) outperformed ICL in accuracy across all tasks. (accuracy differences: +.11, +.22 and +.17). Fine-tuned PubmedBERT performed similarly to leading ML models in tasks 1 & 2 (F1 differences: -.014 and +.002), but worse in task 3 (-.048). Simulations revealed performance declines in both ML and FT models with smaller and higher imbalanced training data. where ICL (particularly GPT-4) excelled in tasks 1 & 3. GPT-4 excelled in tasks 1 and 3 with less than 6,000 triples, surpassing ML/FT. ICL underperformed ML/FT in task 2.ICL-augmented foundation models can be good assistants for knowledge curation with correct prompting, however, not making ML and FT paradigms obsolete. The latter two require task-specific data to beat ICL. In such cases, ML relies on small pretrained embeddings, minimizing computational demands. | 翻訳日:2023-12-21 15:41:07 公開日:2023-12-20 |
# メカニカルダフィング発振器における二次スクイージングはウィグナーネガティビティを高める Quadrature squeezing enhances Wigner negativity in a mechanical Duffing oscillator ( http://arxiv.org/abs/2312.12986v1 ) ライセンス: Link先を確認 | Christian A. Rosiek, Massimiliano Rossi, Albert Schliesser, Anders S. S{\o}rensen | (参考訳) マクロな非古典量子状態の生成は、物理学における長年の課題である。
アンハーモニック力学はこれらの状態を生成するのに必須な要素であるが、大きな機械システムでは、非調和性の効果はデコヒーレンスに比べて無視される傾向がある。
この課題の解決法として,アンハーモニシティを効果的に向上させるために,運動圧縮状態を資源として用いることを提案する。
量子アンハーモニック共振器のウィグナー分布における負性度の生成を,まず圧縮状態で解析する。
初期スクイージングは負性発生率を高めることが判明した。
また, エネルギー減衰とデファスメントという2つの共通のデコヒーレンス源の効果を分析し, エネルギー減衰のデコヒーレンス効果が強いスクイーズによって抑制されていることを見出した。
最先端システムに必要な大きめのスクイージングの極限において、ウィグナー関数に対してよい近似を求める。
我々の分析は、真の量子状態におけるマクロ力学システムを準備しようとする現在の実験において重要である。
非線形挙動と低レベルのデコヒーレンスを特徴とする実験プラットフォームについて概説する。
特に,カーボンナノチューブと浮遊ナノ粒子による提案の可能性について論じる。 Generating macroscopic non-classical quantum states is a long-standing challenge in physics. Anharmonic dynamics is an essential ingredient to generate these states, but for large mechanical systems, the effect of the anharmonicity tends to become negligible compared to decoherence. As a possible solution to this challenge, we propose to use a motional squeezed state as a resource to effectively enhance the anharmonicity. We analyze the production of negativity in the Wigner distribution of a quantum anharmonic resonator initially in a squeezed state. We find that initial squeezing enhances the rate at which negativity is generated. We also analyze the effect of two common sources of decoherence, namely energy damping and dephasing, and find that the detrimental effects of energy damping are suppressed by strong squeezing. In the limit of large squeezing, which is needed for state-of-the-art systems, we find good approximations for the Wigner function. Our analysis is significant for current experiments attempting to prepare macroscopic mechanical systems in genuine quantum states. We provide an overview of several experimental platforms featuring nonlinear behaviors and low levels of decoherence. In particular, we discuss the feasibility of our proposal with carbon nanotubes and levitated nanoparticles. | 翻訳日:2023-12-21 15:40:25 公開日:2023-12-20 |
# 部分観測可能性下における情報時代の協調的最適化 Collaborative Optimization of the Age of Information under Partial Observability ( http://arxiv.org/abs/2312.12977v1 ) ライセンス: Link先を確認 | Anam Tahir, Kai Cui, Bastian Alt, Amr Rizk, Heinz Koeppl | (参考訳) 情報化時代(AoI)と呼ばれる受信側におけるセンサと制御データの鮮度の重要性は、限られたネットワークリソースに対する競合によって根本的に制限される。
明らかに、ネットワークの混雑は、他の送信センサからの競合に加えて、センサーの送信プロセスによって部分的に自己誘導されるaoiにとって有害である。
本研究では,複数のセンサエージェントに対して,共通受信機との通信にランダムな遅延をもたらす容量制限の非FIFO二重チャネルを共有する分散AoI最小化伝送ポリシーを考案する。
しかし、エージェントは、明示的なエージェント間通信なしで同じポリシーを実装することで、この部分的に観測可能なシステムにおいて期待されるAoIを最小化する。
各エージェントのaoiに対する信念を独立に維持するブートストラップ粒子フィルタを設計し,ランダムチャネル遅延による部分可観測性に対応する。
また、平均場制御近似と強化学習を利用して、期待するAoIを最小化するためのスケーラブルで最適なソリューションを導出する。 The significance of the freshness of sensor and control data at the receiver side, often referred to as Age of Information (AoI), is fundamentally constrained by contention for limited network resources. Evidently, network congestion is detrimental for AoI, where this congestion is partly self-induced by the sensor transmission process in addition to the contention from other transmitting sensors. In this work, we devise a decentralized AoI-minimizing transmission policy for a number of sensor agents sharing capacity-limited, non-FIFO duplex channels that introduce random delays in communication with a common receiver. By implementing the same policy, however with no explicit inter-agent communication, the agents minimize the expected AoI in this partially observable system. We cater to the partial observability due to random channel delays by designing a bootstrap particle filter that independently maintains a belief over the AoI of each agent. We also leverage mean-field control approximations and reinforcement learning to derive scalable and optimal solutions for minimizing the expected AoI collaboratively. | 翻訳日:2023-12-21 15:39:51 公開日:2023-12-20 |
# スローとキャッチによるナノ粒子干渉計 Nanoparticle Interferometer by Throw and Catch ( http://arxiv.org/abs/2312.12974v1 ) ライセンス: Link先を確認 | Jakub Wardak, Tiberius Georgescu, Giulio Gasbarri, Alessio Belenchia, and Hendrik Ulbricht | (参考訳) より大きな質量を持つ物質波干渉計は、波動関数の崩壊の性質、量子から古典的遷移、あるいは空間的重畳の物体がその重力場とどのように相互作用するかを理解する方法を作ることができる。
現在の質量記録を改善するためには、ナノ粒子状態に移行する必要がある。
本稿では,これまで提案してきた設計の課題を回避し,ナノ粒子タルボット・ラウ物質干渉計の設計を提案する。
干渉計が生成すると思われる縞模様のシミュレーションを, 主要なデコヒーレンス源のすべてを考慮して行う。
そこで本研究では,このような実験の構築にかかわる課題と,提案手法の予備実験結果について考察する。
このような設計は10^6$amu SiO$_2$粒子の干渉縞を見るのに適した設計であり、典型的なタルボット時間以下の飛行時間を用いて10^8$amu粒子にまで拡張可能であることを示す。 Matter-wave interferometry with increasingly larger masses could pave the way to understanding the nature of wavefunction collapse, the quantum to classical transition or even how an object in a spatial superposition interacts with its gravitational field. In order to improve upon the current mass record, it is necessary to move into the nano-particle regime. In this paper we provide a design for a nano-particle Talbot-Lau matter-wave interferometer that circumvents the practical challenges of previously proposed designs. We present simulations of the expected fringe patterns that such an interferometer would produce, considering all major sources of decoherence. We discuss the practical challenges involved in building such an experiment as well as some preliminary experimental results to illustrate the proposed measurement scheme. We show that such a design is suitable for seeing interference fringes with $10^6$amu SiO$_2$ particles, and that this design can be extended to even $10^8$amu particles by using flight times below the typical Talbot time of the system. | 翻訳日:2023-12-21 15:39:19 公開日:2023-12-20 |
# 大規模局所待ち行列システムにおけるスパース平均場負荷分散 Sparse Mean Field Load Balancing in Large Localized Queueing Systems ( http://arxiv.org/abs/2312.12973v1 ) ライセンス: Link先を確認 | Anam Tahir, Kai Cui, Heinz Koeppl | (参考訳) スケーラブルなロードバランシングアルゴリズムは、クラウドネットワークやデータセンタに大きな関心を持ち、パフォーマンス向上のために最適なロードバランシングポリシを計算するために、トラクタブルなテクニックを使用する必要がある。
しかしながら、既存のほとんどのスケーラブルな手法、特に平均場理論に基づく漸近的スケーリング手法は、強い局所性を持つ大規模待ち行列ネットワークをモデル化できない。
一方、一般的なマルチエージェント強化学習技術はスケールが難しく、理論的な基礎が欠如している。
本研究では,スパース平均場理論の最近の進歩を利用して,疎結合な待ち行列ネットワークにおける準最適ロードバランシングポリシを扱いやすい方法で学習することで,通信オーバーヘッドの観点からのグローバルアプローチに好適な課題を解決する。
重要なことは、広い範囲の有界位相に対する一般的な負荷分散フレームワークを得ることである。
有界次数グラフの文脈で新しい平均場制御問題を定式化することにより、それ以外では難しいマルチエージェント問題を単一エージェント問題に還元する。
理論的には、アプローチは近似保証によって正当化される。
実証的に,提案手法は,現実的でスケーラブルなネットワークトポロジでよく機能する。
さらに,多くの負荷分散ヒューリスティックと,既存のスケーラブルなマルチエージェント強化学習手法との比較を行った。
全体として,高ローカライズドネットワークにおけるロードバランシングに対する扱いやすいアプローチを得た。 Scalable load balancing algorithms are of great interest in cloud networks and data centers, necessitating the use of tractable techniques to compute optimal load balancing policies for good performance. However, most existing scalable techniques, especially asymptotically scaling methods based on mean field theory, have not been able to model large queueing networks with strong locality. Meanwhile, general multi-agent reinforcement learning techniques can be hard to scale and usually lack a theoretical foundation. In this work, we address this challenge by leveraging recent advances in sparse mean field theory to learn a near-optimal load balancing policy in sparsely connected queueing networks in a tractable manner, which may be preferable to global approaches in terms of communication overhead. Importantly, we obtain a general load balancing framework for a large class of sparse bounded-degree topologies. By formulating a novel mean field control problem in the context of graphs with bounded degree, we reduce the otherwise difficult multi-agent problem to a single-agent problem. Theoretically, the approach is justified by approximation guarantees. Empirically, the proposed methodology performs well on several realistic and scalable network topologies. Moreover, we compare it with a number of well-known load balancing heuristics and with existing scalable multi-agent reinforcement learning methods. Overall, we obtain a tractable approach for load balancing in highly localized networks. | 翻訳日:2023-12-21 15:38:50 公開日:2023-12-20 |
# 過去から未来へ: 適性トレースを再考する From Past to Future: Rethinking Eligibility Traces ( http://arxiv.org/abs/2312.12972v1 ) ライセンス: Link先を確認 | Dhawal Gupta, Scott M. Jordan, Shreyas Chaudhari, Bo Liu, Philip S. Thomas, Bruno Castro da Silva | (参考訳) 本稿では,信用割当と政策評価の課題に対する新たな視点を紹介する。
第一に、我々は適格トレースのニュアンスを調べ、それらの更新が前の州に予期せぬ信用割り当てをもたらす可能性のあるインスタンスを探索する。
この研究から、新しい値関数の概念が生まれ、これは \emph{bidirectional value function} と呼ばれる。
従来の状態値関数とは異なり、双方向の値関数は将来の期待値(現在の状態から予測される値)と過去の期待値(エピソード開始から現在までの累積報酬)の両方を担っている。
この価値関数を学習するために原理的な更新方程式を導出し、実験を通じて、政策評価のプロセスを強化する効果を示す。
特に,提案手法は,いくつかの難解な文脈において,前方値関数,$v^\pi$, \emph{directly} を学習する手法である td($\lambda$) よりも高速に政策評価を行うことができることを示す。
総じて,本研究は,特に政策評価において,新たな価値関数を刺激する可能性や可能性について,新たな視点を提示する。 In this paper, we introduce a fresh perspective on the challenges of credit assignment and policy evaluation. First, we delve into the nuances of eligibility traces and explore instances where their updates may result in unexpected credit assignment to preceding states. From this investigation emerges the concept of a novel value function, which we refer to as the \emph{bidirectional value function}. Unlike traditional state value functions, bidirectional value functions account for both future expected returns (rewards anticipated from the current state onward) and past expected returns (cumulative rewards from the episode's start to the present). We derive principled update equations to learn this value function and, through experimentation, demonstrate its efficacy in enhancing the process of policy evaluation. In particular, our results indicate that the proposed learning approach can, in certain challenging contexts, perform policy evaluation more rapidly than TD($\lambda$) -- a method that learns forward value functions, $v^\pi$, \emph{directly}. Overall, our findings present a new perspective on eligibility traces and potential advantages associated with the novel value function it inspires, especially for policy evaluation. | 翻訳日:2023-12-21 15:37:51 公開日:2023-12-20 |
# PPEA-Depth:自己監督単眼深度推定のためのプログレッシブパラメータ効率適応 PPEA-Depth: Progressive Parameter-Efficient Adaptation for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2312.13066v1 ) ライセンス: Link先を確認 | Yue-Jiang Dong, Yuan-Chen Guo, Ying-Tian Liu, Fang-Lue Zhang, Song-Hai Zhang | (参考訳) 自己教師付き単眼深度推定は、自動運転とロボティクスにまたがるアプリケーションにおいて非常に重要である。
しかし、自己スーパービジョンへの依存は、実世界のほとんどの状況で一般的である動的シーンにおける最適なパフォーマンスを達成する上での課題となる、強い静的-シーンの仮定をもたらす。
これらの問題に対処するために,自己監督深度推定のための事前学習画像モデルを転送するためのプログレッシブパラメータ効率適応手法PPEA-Depthを提案する。
トレーニングは主に静的シーンで構成されたデータセットでトレーニングされた初期フェーズと、動的シーンを含むより複雑なデータセットへの拡張である。
このプロセスを容易にするために、パラメータ効率の良いチューニングを可能にするために、コンパクトエンコーダとデコーダアダプタを設計し、ネットワークを効果的に適応させる。
事前訓練された画像モデルから一般化されたパターンを保持するだけでなく、前フェーズから得られた知識を後フェーズに保持する。
大規模な実験では、PPEA-DepthがKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成した。 Self-supervised monocular depth estimation is of significant importance with applications spanning across autonomous driving and robotics. However, the reliance on self-supervision introduces a strong static-scene assumption, thereby posing challenges in achieving optimal performance in dynamic scenes, which are prevalent in most real-world situations. To address these issues, we propose PPEA-Depth, a Progressive Parameter-Efficient Adaptation approach to transfer a pre-trained image model for self-supervised depth estimation. The training comprises two sequential stages: an initial phase trained on a dataset primarily composed of static scenes, succeeded by an expansion to more intricate datasets involving dynamic scenes. To facilitate this process, we design compact encoder and decoder adapters to enable parameter-efficient tuning, allowing the network to adapt effectively. They not only uphold generalized patterns from pre-trained image models but also retain knowledge gained from the preceding phase into the subsequent one. Extensive experiments demonstrate that PPEA-Depth achieves state-of-the-art performance on KITTI, CityScapes and DDAD datasets. | 翻訳日:2023-12-21 15:31:36 公開日:2023-12-20 |
# Lampr: 大規模言語モデルによる言語生成プログラム削減の有効性向上 Lampr: Boosting the Effectiveness of Language-Generic Program Reduction via Large Language Models ( http://arxiv.org/abs/2312.13064v1 ) ライセンス: Link先を確認 | Mengxiao Zhang, Yongqiang Tian, Zhenyang Xu, Yiwen Dong, Shin Hwei Tan and Chengnian Sun | (参考訳) プログラムリダクションは、バグトリガプログラムを自動的に最小化し、コンパイラのデバッグを容易にする一般的なテクニックである。
既存のプログラムリダクション技術は、言語全体(例えばPersesやVulcan)にまたがって汎用的であるか、C-Reduceのような言語固有の機能を使って特定の言語用に特別にカスタマイズされている。
しかし、複数のプログラミング言語にまたがる汎用性と、プログラム削減における個々の言語に対する特異性とのバランスは、まだ検討されていない。
本稿では,LLMを用いて複数の言語に対して言語固有のプログラム還元を行う最初の手法であるLamprを提案する。
中心となる洞察は、言語ジェネリックな構文レベルでのプログラム還元(例えばPerses)とLLMによって学習された言語固有の意味レベルでのプログラム変換の両方を活用することである。
言語ジェネリック・プログラム・リデューサは、プログラムを1-ツリー・ミニマリティに効率的に還元するが、LLMは学習セマンティクスを通じてプログラムを効果的に変換し、言語ジェネリック・プログラム・リデューサに新たな還元機会を公開し、プログラムをさらに削減する。
3つの言語(c、rust、javascript)にまたがる50のベンチマークの広範な評価では、最先端の言語-ジェネリックプログラムリデューサであるvulcanに対するlamprの実用性と優位性が強調された。
有効性のために、Lamprは、C、Rust、JavaScriptのベンチマークで24.93\%、4.47\%、11.71\%小さなプログラムを生成することでVulcanを上回っている。
さらに、LamprとVulcanは互いに補完する可能性を実証している。
C プログラムに対する Lampr の出力に Vulcan を用いることで,C-Reduce で削減されたプログラムに匹敵するプログラムサイズを実現する。
Lamprの効率性は、10.77\%、34.88\%、36.96\%で、C、Rust、JavaScriptのすべてのベンチマークを別々に完了する。 Program reduction is a prevalent technique to facilitate compilers' debugging by automatically minimizing bug-triggering programs. Existing program reduction techniques are either generic across languages (e.g., Perses and Vulcan) or specifically customized for one certain language by employing language-specific features, like C-Reduce. However, striking the balance between generality across multiple programming languages and specificity to individual languages in program reduction is yet to be explored. This paper proposes Lampr, the first technique utilizing LLMs to perform language-specific program reduction for multiple languages. The core insight is to utilize both the language-generic syntax level program reduction (e.g., Perses) and the language-specific semantic level program transformations learned by LLMs. Alternately, language-generic program reducers efficiently reduce programs into 1-tree-minimality, which is small enough to be manageable for LLMs; LLMs effectively transform programs via the learned semantics to expose new reduction opportunities for the language-generic program reducers to further reduce the programs. Our extensive evaluation on 50 benchmarks across three languages (C, Rust, and JavaScript) has highlighted Lampr's practicality and superiority over Vulcan, the state-of-the-art language-generic program reducer. For effectiveness, Lampr surpasses Vulcan by producing 24.93\%, 4.47\%, and 11.71\% smaller programs on benchmarks in C, Rust and JavaScript. Moreover, Lampr and Vulcan have demonstrated their potential to complement each other. By using Vulcan on Lampr's output for C programs, we achieve program sizes comparable to those reduced by C-Reduce. For efficiency, Lampr takes 10.77\%, 34.88\%, 36.96\% less time than Vulcan to finish all benchmarks in C, Rust and JavaScript, separately. | 翻訳日:2023-12-21 15:31:17 公開日:2023-12-20 |
# 複数の分子を含む励起子-ポーラリトン模型の微視的理論:マクロ量子電気力学定式化と直接分子間相互作用の本質 Microscopic theory of exciton-polariton model involving multiple molecules: Macroscopic quantum electrodynamics formulation and essence of direct intermolecular interactions ( http://arxiv.org/abs/2312.13063v1 ) ライセンス: Link先を確認 | Yi-Ting Chuang, Liang-Yan Hsu | (参考訳) キャビティ量子電磁力学(CQED)とその拡張は、エクシトン-ポラリトン系の記述に広く用いられている。
しかし、CQEDに基づくエクシトン-ポラリトンモデルは異なる文脈で大きく異なる。
これらのCQEDモデルの最も重要な相違点は、CQEDハミルトニアンにおいて直接分子間相互作用を含めるべきかどうかである。
本稿では,自由空間双極子-双極子相互作用(cqed-ddi)を含む実効散逸型cqedモデルについて,マクロな量子電磁力学に基づく微視的ハミルトニアンから導出する。
消散性cqed-ddiは誘電体媒体の真空揺らぎの性質をうまく捉え、自由空間効果と誘電効果に分離する。
前者は自由空間における自発的放出、デファスメント、双極子-双極子相互作用、後者は誘電体媒体による励起子-ポーラリトン相互作用、フォトニック損失を含む。
発散性CQED-DDIを用いてエキシトン-ポラリトンダイナミクス(プラズモニック表面上の分子の集団動態)を解析し、過去のいくつかの研究で提案された手法に基づく結果と比較した。
直接分子間相互作用は、CQEDのようなモデルを用いて複数の分子を含む励起子-偏光子系を研究する際に重要な要素である。 Cavity quantum electrodynamics (CQED) and its extensions are widely used for the description of exciton-polariton systems. However, the exciton-polariton models based on CQED vary greatly within different contexts. One of the most significant discrepancies among these CQED models is whether one should include direct intermolecular interactions in the CQED Hamiltonian. To answer this question, in this article, we derive an effective dissipative CQED model including free-space dipole-dipole interactions (CQED-DDI) from a microscopic Hamiltonian based on macroscopic quantum electrodynamics. Dissipative CQED-DDI successfully captures the nature of vacuum fluctuations in dielectric media and separates it into the free-space effects and the dielectric-induced effects. The former include spontaneous emissions, dephasings and dipole-dipole interactions in free space; the latter include exciton-polariton interactions and photonic losses due to dielectric media. We apply dissipative CQED-DDI to investigate the exciton-polariton dynamics (the population dynamics of molecules above a plasmonic surface) and compare the results with those based on the methods proposed by several previous studies. We find that direct intermolecular interactions are a crucial element when employing CQED-like models to study exciton-polariton systems involving multiple molecules. | 翻訳日:2023-12-21 15:30:35 公開日:2023-12-20 |
# テキスト・画像生成モデルにおけるバイアスの定量化 Quantifying Bias in Text-to-Image Generative Models ( http://arxiv.org/abs/2312.13053v1 ) ライセンス: Link先を確認 | Jordan Vice, Naveed Akhtar, Richard Hartley, and Ajmal Mian | (参考訳) テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論を呼ぶ議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
我々はそれを超えて、T2I生成モデルにおける一般的なバイアスを先入観なく定量化する評価手法を提案する。
4つの最先端t2iモデルを評価し、そのベースラインバイアス特性を、特定のバイアスが故意に誘発されたそれぞれのバリエーション(それぞれ2つ)と比較する。
モデルバイアスを評価するための3つの評価指標を提案する。
(i)分布バイアス。
(ii)jaccard幻覚及び
(iii)生成的ミスレート。
一般的なバイアスのモデル化とタスク指向の条件という2つの評価研究を,後者のドメインとしてマーケティングシナリオを用いて実施する。
また,社会バイアスを定量化し,研究成果と関連する成果を比較した。
最後に,提案手法を,キャプション画像データセットの評価とバイアス測定に応用する。
我々のアプローチは客観的でドメインに依存しないものであり、T2Iモデルバイアスの異なる形態を一貫して測定する。
我々は,この研究で提案されているもの,すなわちhttps://huggingface.co/spaces/JVice/try-before-you-bias に実装したWebアプリケーションを開発した。
デモ付きビデオシリーズはhttps://www.youtube.com/channel/uck-0xyuyt0msd_hkp4jqt1qで入手できる。 Bias in text-to-image (T2I) models can propagate unfair social representations and may be used to aggressively market ideas or push controversial agendas. Existing T2I model bias evaluation methods only focus on social biases. We look beyond that and instead propose an evaluation methodology to quantify general biases in T2I generative models, without any preconceived notions. We assess four state-of-the-art T2I models and compare their baseline bias characteristics to their respective variants (two for each), where certain biases have been intentionally induced. We propose three evaluation metrics to assess model biases including: (i) Distribution bias, (ii) Jaccard hallucination and (iii) Generative miss-rate. We conduct two evaluation studies, modelling biases under general, and task-oriented conditions, using a marketing scenario as the domain for the latter. We also quantify social biases to compare our findings to related works. Finally, our methodology is transferred to evaluate captioned-image datasets and measure their bias. Our approach is objective, domain-agnostic and consistently measures different forms of T2I model biases. We have developed a web application and practical implementation of what has been proposed in this work, which is at https://huggingface.co/spaces/JVice/try-before-you-bias. A video series with demonstrations is available at https://www.youtube.com/channel/UCk-0xyUyT0MSd_hkp4jQt1Q | 翻訳日:2023-12-21 15:30:07 公開日:2023-12-20 |
# 検索型多言語知識編集 Retrieval-augmented Multilingual Knowledge Editing ( http://arxiv.org/abs/2312.13040v1 ) ライセンス: Link先を確認 | Weixuan Wang, Barry Haddow, Alexandra Birch | (参考訳) 大規模言語モデル(llm)で表現される知識は、しばしば誤りであり、時間とともに時代遅れになることがある。
微調整による知識の更新は計算量に富み信頼できないため、知識編集(ke)は、新しい知識を注入したり、llmで事実エラーを修正するための効果的で経済的な代替手段として開発された。
この分野にはかなりの関心が寄せられているが、現在のkeの研究は、主に英語の単言語的設定にのみ焦点をあてている。
しかし、もし新しい知識が1つの言語で提供されたらどうなるだろうか。
多言語知識編集の課題に対処するため,LLMの新しい知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
ReMaKEは多言語設定でモデルに依存しない知識編集を行うことができる。
ReMaKEは、多言語知識ベースから取得した新しい知識をプロンプトで結合する。
実験結果から,ReMaKEはベースライン知識編集手法よりも有意差があり,多言語環境で作業する最初のKE手法であることがわかった。
コードとともに12言語で多言語知識編集データセット(MzsRE)を提供し、https://github.com/Vicky-Wil/ReMaKEでプロジェクト情報を追加提供しています。 Knowledge represented in Large Language Models (LLMs) is quite often incorrect and can also become obsolete over time. Updating knowledge via fine-tuning is computationally resource-hungry and not reliable, and so knowledge editing (KE) has developed as an effective and economical alternative to inject new knowledge or to fix factual errors in LLMs. Although there has been considerable interest in this area, current KE research exclusively focuses on the monolingual setting, typically in English. However, what happens if the new knowledge is supplied in one language, but we would like to query the LLM in a different language? To address the problem of multilingual knowledge editing, we propose Retrieval-augmented Multilingual Knowledge Editor (ReMaKE) to update new knowledge in LLMs. ReMaKE can perform model-agnostic knowledge editing in multilingual settings. ReMaKE concatenates the new knowledge retrieved from a multilingual knowledge base with prompts. Our experimental results show that ReMaKE outperforms baseline knowledge editing methods by a significant margin and is the first KE method to work in a multilingual setting. We provide our multilingual knowledge editing dataset (MzsRE) in 12 languages, which along with code, and additional project information is available at https://github.com/Vicky-Wil/ReMaKE. | 翻訳日:2023-12-21 15:29:39 公開日:2023-12-20 |
# AutoXPCR:時系列予測のための自動多目的モデル選択 AutoXPCR: Automated Multi-Objective Model Selection for Time Series Forecasting ( http://arxiv.org/abs/2312.13038v1 ) ライセンス: Link先を確認 | Raphael Fischer and Amal Saadallah | (参考訳) 自動機械学習(AutoML)は、MLモデルの作成を合理化する。
ほとんどのメソッドは予測品質に基づいて"ベスト"モデルを選択するが、解釈可能性やリソース消費といった他の側面を認識することが不可欠である。
これはディープニューラルネットワーク(DNN)の文脈において特に重要であり、これらのモデルは計算集約的なブラックボックスと見なされることが多い。
時系列予測の挑戦的な領域では、DNNは素晴らしい結果を得るが、モデルを自動的に選択するための特別なアプローチは乏しい。
本稿では,自動的かつ説明可能な多目的モデル選択法であるAutoXPCRを提案する。
提案手法は,(p)回帰誤差,(c)複雑度,(r)資源需要を包含するpcr基準に沿って,モデルの性能を推定するためにメタラーニングを利用する。
インタラクティブなフレームワークは、より複雑なモデルの優先順位を付け、レコメンデーションの副産物的な説明を提供することができる。
様々なドメインから114のデータセットに1000以上の構成でautoxpcrをデプロイすることで実用性を示す。
我々の手法は、他のモデル選択手法よりも明らかに優れている。平均すると、最高の品質の90%のモデルに推奨する計算コストの20%しか必要としない。 Automated machine learning (AutoML) streamlines the creation of ML models. While most methods select the "best" model based on predictive quality, it's crucial to acknowledge other aspects, such as interpretability and resource consumption. This holds particular importance in the context of deep neural networks (DNNs), as these models are often perceived as computationally intensive black boxes. In the challenging domain of time series forecasting, DNNs achieve stunning results, but specialized approaches for automatically selecting models are scarce. In this paper, we propose AutoXPCR - a novel method for automated and explainable multi-objective model selection. Our approach leverages meta-learning to estimate any model's performance along PCR criteria, which encompass (P)redictive error, (C)omplexity, and (R)esource demand. Explainability is addressed on multiple levels, as our interactive framework can prioritize less complex models and provide by-product explanations of recommendations. We demonstrate practical feasibility by deploying AutoXPCR on over 1000 configurations across 114 data sets from various domains. Our method clearly outperforms other model selection approaches - on average, it only requires 20% of computation costs for recommending models with 90% of the best-possible quality. | 翻訳日:2023-12-21 15:29:14 公開日:2023-12-20 |
# 量子フラックスの量子可観測性 Quantum Observables of Quantized Fluxes ( http://arxiv.org/abs/2312.13037v1 ) ライセンス: Link先を確認 | Hisham Sati and Urs Schreiber | (参考訳) 一般位相空間データに加えて、一般微分コホモロジーにおける「流束量子化」法則も必要とされているが、もし(流束-)可観測物のポアソン・ブラケットを持ち上げるための一般的な規則や、それらの量子化が伝統的な位相空間からフラックス量子化ゲージ場のより高いモジュライスタックへ持ち上げるための一般的な規則についてはほとんど議論されていない。
本稿では,系統的な分析について述べる。
i) ヤン・ミルズ理論とフラックス可観測物の正準量子化
(ii)アーベル・ヤンミルにおける有効なフラックス量子化則の観察
3) 結果として生じる位相量子可観測物は、フラックス量子化されたゲージ場のモジュライ空間のループ空間のホモロジーポントラジャーギン代数を形成する。
これは、モジュライのループ上のホモロジー Ponrjagin 代数が「Hypothesis H」の文脈で以前に議論された量子効果を回復する11d超重力における C-場のような高次および非アーベルゲージ場(非線形結合)に対する広義の一般性において直ちに意味を持つためである。 While it has become widely appreciated that defining (higher) gauge theories requires, in addition to ordinary phase space data, also "flux quantization" laws in generalized differential cohomology, there has been little discussion of the general rules, if any, for lifting Poisson-brackets of (flux-)observables and their quantization from traditional phase spaces to the resulting higher moduli stacks of flux-quantized gauge fields. In this short note, we present a systematic analysis of (i) the canonical quantization of flux observables in Yang-Mills theory and (ii) of valid flux quantization laws in abelian Yang-Mills, observing (iii) that the resulting topological quantum observables form the homology Pontrjagin algebra of the loop space of the moduli space of flux-quantized gauge fields. This is remarkable because the homology Ponrjagin algebra on loops of moduli makes immediate sense in broad generality for higher and non-abelian (non-linearly coupled) gauge fields, such as for the C-field in 11d supergravity, where it recovers the quantum effects previously discussed in the context of "Hypothesis H". | 翻訳日:2023-12-21 15:28:54 公開日:2023-12-20 |
# 量子状態圧縮シャドウ Quantum State Compression Shadow ( http://arxiv.org/abs/2312.13036v1 ) ライセンス: Link先を確認 | Chen Ding, Xiao-Yue Xu, Shuo Zhang, Wan-Su Bao, He-Liang Huang | (参考訳) 量子状態の読み出しは量子情報処理の基盤となり、量子通信、計算、気象学に多大な影響を与えている。
本研究では,複数キュービット状態の圧縮を計測前に単一キュービットのシャドウに変換する圧縮シャドウ(compshadow)と呼ばれる斬新な読み出しアーキテクチャを提案する。
初期量子状態の直接測定と比較して、CompShadowは同様の測定資源を消費しながら振幅と観測可能な予測推定において同等の精度を達成する。
さらに,近接結合アーキテクチャを用いた短期量子ハードウェアの実装も容易である。
著しく、compshadowは、相関した読み出しノイズの完全な抑制、基本的に読み出しに対する量子ハードウェアの要求を減らすなど、新しい機能を提供している。
また、単一量子ビットプローブによる多体系特性の探索を促進し、指数的損失抑制を伴う量子通信プロトコルの設計への扉を開く。
我々の発見は、量子状態の読み出しにおける新しい時代の出現を示し、量子情報処理能力の革命的な飛躍の舞台となった。 Quantum state readout serves as the cornerstone of quantum information processing, exerting profound influence on quantum communication, computation, and metrology. In this study, we introduce an innovative readout architecture called Compression Shadow (CompShadow), which transforms the conventional readout paradigm by compressing multi-qubit states into single-qubit shadows before measurement. Compared to direct measurements of the initial quantum states, CompShadow achieves comparable accuracy in amplitude and observable expectation estimation while consuming similar measurement resources. Furthermore, its implementation on near-term quantum hardware with nearest-neighbor coupling architectures is straightforward. Significantly, CompShadow brings forth novel features, including the complete suppression of correlated readout noise, fundamentally reducing the quantum hardware demands for readout. It also facilitates the exploration of multi-body system properties through single-qubit probes and opens the door to designing quantum communication protocols with exponential loss suppression. Our findings mark the emergence of a new era in quantum state readout, setting the stage for a revolutionary leap in quantum information processing capabilities. | 翻訳日:2023-12-21 15:28:27 公開日:2023-12-20 |
# 非接触呼吸パターン分類のための1D-CNN最適化 1D-CNN Optimization for Non-contact Respiration Pattern Classification ( http://arxiv.org/abs/2312.13035v1 ) ライセンス: Link先を確認 | Md Zobaer Islam, Gary Yen | (参考訳) 本研究では,時系列呼吸データ分類における深層学習に基づくアプローチを提案する。
本データセットは、非接触非コヒーレント光波センシング(LWS)技術により得られる、定期的な呼吸パターンおよび様々な形態の異常呼吸を含む。
データの1次元(1D)特性を考慮し,分類のために1次元畳み込みニューラルネットワーク(1D-CNN)を用いた。
遺伝的アルゴリズムを用いて分類精度を最大化するために1D-CNNアーキテクチャを最適化した。
複数世代にわたる1D-CNNのトレーニングに伴う計算複雑性に対処し,事前学習モデルからトランスファー学習を実装した。
このアプローチは、トレーニングに必要な計算時間を大幅に削減し、最適化プロセスの効率を高める。
本研究は、精密かつ効率的な呼吸分類による呼吸異常検出のための深層学習手法の応用可能性に関する貴重な知見を提供する。 In this study, we present a deep learning-based approach for time-series respiration data classification. The dataset contains regular breathing patterns as well as various forms of abnormal breathing, obtained through non-contact incoherent light-wave sensing (LWS) technology. Given the one-dimensional (1D) nature of the data, we employed a 1D convolutional neural network (1D-CNN) for classification purposes. Genetic algorithm was employed to optimize the 1D-CNN architecture to maximize classification accuracy. Addressing the computational complexity associated with training the 1D-CNN across multiple generations, we implemented transfer learning from a pre-trained model. This approach significantly reduced the computational time required for training, thereby enhancing the efficiency of the optimization process. This study contributes valuable insights into the potential applications of deep learning methodologies for enhancing respiratory anomaly detection through precise and efficient respiration classification. | 翻訳日:2023-12-21 15:28:09 公開日:2023-12-20 |
# 脳-コンピューターインタフェースのための説明可能な人工知能アプローチ:レビューとデザインスペース Explainable artificial intelligence approaches for brain-computer interfaces: a review and design space ( http://arxiv.org/abs/2312.13033v1 ) ライセンス: Link先を確認 | Param Rajpura, Hubert Cecotti, Yogesh Kumar Meena | (参考訳) 本稿では,脳-コンピューターインタフェースに応用される説明可能な人工知能技術の統合的展望について述べる。
BCIは予測モデルを使用して、様々なハイテイク応用のために脳信号を解釈する。
しかし、これらの複雑なモデルで説明可能性を達成することは、精度を損なうため困難である。
XAIの分野は、様々な利害関係者間の説明可能性の必要性に対処するために現れてきたが、XAIにおけるBCI(XAI4BCI)文献の統合的な視点は欠如している。
この文脈で説明可能性、解釈可能性、理解といった重要な概念を区別し、包括的な枠組みを定式化する必要がある。
BCIにおけるXAIの必要性を理解するため、系統的なレビューとメタ分析のために6つの重要な研究課題を提起し、その目的、応用、ユーザビリティ、技術的実現可能性について論じる。
我々は, PRISMA法を用いて, 体系的レビューやメタアナリシス(n=1246)や2015年に発表された研究(n=84)を分析し, 重要な知見を得た。
その結果、現在の研究は、主に開発者や研究者の解釈可能性に焦点を当てており、結果の正当化とモデルパフォーマンスの向上を目標としている。
文献からのXAI4BCIのユニークなアプローチ、利点、限界について論じる。
私たちは哲学、心理学、社会科学から洞察を引き出す。
我々は,BCI開発および展開ライフサイクルにおいて,様々な利害関係者にカスタマイズされた予測モデル結果の可視化と調査の必要性を考慮し,XAI4BCIの設計空間を提案する。
本論文はXAI4BCI研究論文のレビューのみに焦点を当てた最初の論文である。
この体系的なレビューとメタアナリシスの成果は,BCIの説明基準の確立,現状の限界の明確化,BCIにおけるXAIの将来を導く上で重要な議論を促している。 This review paper provides an integrated perspective of Explainable Artificial Intelligence techniques applied to Brain-Computer Interfaces. BCIs use predictive models to interpret brain signals for various high-stake applications. However, achieving explainability in these complex models is challenging as it compromises accuracy. The field of XAI has emerged to address the need for explainability across various stakeholders, but there is a lack of an integrated perspective in XAI for BCI (XAI4BCI) literature. It is necessary to differentiate key concepts like explainability, interpretability, and understanding in this context and formulate a comprehensive framework. To understand the need of XAI for BCI, we pose six key research questions for a systematic review and meta-analysis, encompassing its purposes, applications, usability, and technical feasibility. We employ the PRISMA methodology -- preferred reporting items for systematic reviews and meta-analyses to review (n=1246) and analyze (n=84) studies published in 2015 and onwards for key insights. The results highlight that current research primarily focuses on interpretability for developers and researchers, aiming to justify outcomes and enhance model performance. We discuss the unique approaches, advantages, and limitations of XAI4BCI from the literature. We draw insights from philosophy, psychology, and social sciences. We propose a design space for XAI4BCI, considering the evolving need to visualize and investigate predictive model outcomes customised for various stakeholders in the BCI development and deployment lifecycle. This paper is the first to focus solely on reviewing XAI4BCI research articles. This systematic review and meta-analysis findings with the proposed design space prompt important discussions on establishing standards for BCI explanations, highlighting current limitations, and guiding the future of XAI in BCI. | 翻訳日:2023-12-21 15:27:56 公開日:2023-12-20 |
# NodeMixup: グラフニューラルネットワークのアンダーリーチ処理 NodeMixup: Tackling Under-Reaching for Graph Neural Networks ( http://arxiv.org/abs/2312.13032v1 ) ライセンス: Link先を確認 | Weigang Lu, Ziyu Guan, Wei Zhao, Long Jin | (参考訳) グラフニューラルネットワーク(GNN)は,半教師付きノード分類問題の解法として主流となっている。
しかし、グラフ内のラベル付きノードの位置分布が不均一であるため、ラベル付きノードはラベルなしノードのごく一部にしかアクセスできないため、 \emph{under-reaching} 問題が発生する。
本研究では,まず,様々な既知のグラフについて経験的調査を行い,その限界を明らかにする。
そして, ラベル付きノードとラベルなしノード間の不満足な分布アライメントが, 系統的な実験解析によって実現され, GNNの性能は著しく低下することを示した。
GNNのアンダーリーチングに取り組むために,NodeMixupと呼ばれるアーキテクチャに依存しない手法を提案する。
基本的考え方は,(1)ラベル付き未ラベルペアによるラベル付きノードの到達性の向上,(2)クラス内ノードペアの隣り合う接続を融合してミキアップの性能向上を図ること,(3)ノード度を組み込んだ近隣ラベル分布類似度を用いてノードミックスアップのサンプリング重量を決定することである。
大規模な実験では、アンダーリーチング処理においてGNNを支援するNodeMixupの有効性が実証されている。
ソースコードは \url{https://github.com/weiganglu/nodemixup} で入手できる。 Graph Neural Networks (GNNs) have become mainstream methods for solving the semi-supervised node classification problem. However, due to the uneven location distribution of labeled nodes in the graph, labeled nodes are only accessible to a small portion of unlabeled nodes, leading to the \emph{under-reaching} issue. In this study, we firstly reveal under-reaching by conducting an empirical investigation on various well-known graphs. Then, we demonstrate that under-reaching results in unsatisfactory distribution alignment between labeled and unlabeled nodes through systematic experimental analysis, significantly degrading GNNs' performance. To tackle under-reaching for GNNs, we propose an architecture-agnostic method dubbed NodeMixup. The fundamental idea is to (1) increase the reachability of labeled nodes by labeled-unlabeled pairs mixup, (2) leverage graph structures via fusing the neighbor connections of intra-class node pairs to improve performance gains of mixup, and (3) use neighbor label distribution similarity incorporating node degrees to determine sampling weights for node mixup. Extensive experiments demonstrate the efficacy of NodeMixup in assisting GNNs in handling under-reaching. The source code is available at \url{https://github.com/WeigangLu/NodeMixup}. | 翻訳日:2023-12-21 15:27:26 公開日:2023-12-20 |
# 自己アテンションに基づく高データ活用型微分プライベート表型GAN A self-attention-based differentially private tabular GAN with high data utility ( http://arxiv.org/abs/2312.13031v1 ) ライセンス: Link先を確認 | Zijian Li, Zhihui Wang | (参考訳) generative adversarial networks (gans) は、画像生成における強みが確立され、データ生成のためのユビキタスな技術となっている。
しかし、表データ生成におけるそれらの応用は理想的ではない。
さらに、これらのフレームワークに差分プライバシー技術を組み込もうとすると、しばしばデータユーティリティが劣化する。
これらの課題に対処するために, DP-SACTGAN は, タブ状データ生成を個別に行うための新しいコンディション生成支援ネットワーク (CGAN) フレームワークである。
実験の結果,DP-SACTGANは元のデータの分布を正確にモデル化するだけでなく,差分プライバシーの要件を効果的に満たしていることがわかった。 Generative Adversarial Networks (GANs) have become a ubiquitous technology for data generation, with their prowess in image generation being well-established. However, their application in generating tabular data has been less than ideal. Furthermore, attempting to incorporate differential privacy technology into these frameworks has often resulted in a degradation of data utility. To tackle these challenges, this paper introduces DP-SACTGAN, a novel Conditional Generative Adversarial Network (CGAN) framework for differentially private tabular data generation, aiming to surmount these obstacles. Experimental findings demonstrate that DP-SACTGAN not only accurately models the distribution of the original data but also effectively satisfies the requirements of differential privacy. | 翻訳日:2023-12-21 15:27:02 公開日:2023-12-20 |
# 二重摂動型タスクフリー連続学習 Doubly Perturbed Task-Free Continual Learning ( http://arxiv.org/abs/2312.13027v1 ) ライセンス: Link先を確認 | Byung Hyun Lee, Min-hwan Oh, Se Young Chun | (参考訳) task-free online continual learning(tf-cl)は、明示的なタスク情報なしで段階的にタスクを学習する難しい問題である。
過去のデータ全体を用いたトレーニングは、現在および未来が金の標準であると考えられているが、TF-CLの現在のサンプルとのナイーブなアプローチは、将来的なサンプルの学習と矛盾し、破滅的な忘れ去られ、可塑性が低下する可能性がある。
これにより、tf-clにおける未発見の将来のサンプルの積極的な考察が必須となる。
この直感に触発されて,将来のサンプルを考慮した新しいTF-CLフレームワークを提案し,入力データと意思決定の両方に対向的摂動を注入することが有効であることを示す。
そこで我々は,これらの入力と意思決定の摂動を効率的に実装するためのDPCL(Douubly Perturbed Continual Learning)という新しい手法を提案する。
具体的には、入力摂動に対して、入力データと特徴ベクトルにノイズを注入し、2つの摂動サンプルを補間する近似摂動法を提案する。
意思決定プロセスの摂動に対して、複数の確率的分類器を考案する。
また,提案する二重摂動を反映したメモリ管理方式と学習率スケジューリングについて検討した。
提案手法は,TF-CLベンチマークにおいて,最先端のベースライン手法よりも高い性能を示す。 Task-free online continual learning (TF-CL) is a challenging problem where the model incrementally learns tasks without explicit task information. Although training with entire data from the past, present as well as future is considered as the gold standard, naive approaches in TF-CL with the current samples may be conflicted with learning with samples in the future, leading to catastrophic forgetting and poor plasticity. Thus, a proactive consideration of an unseen future sample in TF-CL becomes imperative. Motivated by this intuition, we propose a novel TF-CL framework considering future samples and show that injecting adversarial perturbations on both input data and decision-making is effective. Then, we propose a novel method named Doubly Perturbed Continual Learning (DPCL) to efficiently implement these input and decision-making perturbations. Specifically, for input perturbation, we propose an approximate perturbation method that injects noise into the input data as well as the feature vector and then interpolates the two perturbed samples. For decision-making process perturbation, we devise multiple stochastic classifiers. We also investigate a memory management scheme and learning rate scheduling reflecting our proposed double perturbations. We demonstrate that our proposed method outperforms the state-of-the-art baseline methods by large margins on various TF-CL benchmarks. | 翻訳日:2023-12-21 15:26:46 公開日:2023-12-20 |
# FusDom: 継続的自己監視学習のためのドメイン内知識とドメイン外知識を組み合わせる FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning ( http://arxiv.org/abs/2312.13026v1 ) ライセンス: Link先を確認 | Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha | (参考訳) 継続的な事前トレーニング(CP)は、ターゲットドメイン適応や、オンラインで利用可能なラベルなしデータの継続的ストリームを利用する可能性など、さまざまなメリットを提供する。
しかし、ドメイン外分布の継続事前トレーニングは、しばしば以前に取得した知識を壊滅的に忘れ、亜最適ASR性能をもたらす。
本稿ではSSLベースの継続事前学習のためのシンプルで斬新な手法であるFusDomについて述べる。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
単一モデルの出力表現におけるSSLプリテキストタスクを解決する代わりに、FusDomはCP SSLプリテキストタスクを解決するために、教師と学生の2つの同じトレーニング済みSSLモデルを利用する。
このヘッドは、生徒だけが勾配の更新を受け取り、教師が受け取らない間に、両方のモデルの表現の間に相互アテンション機構を用いる。
最後に、学生はASRのために微調整される。
実際には、FusDomは設定全体のベースラインを著しく上回り、WERは、以前のドメインのパフォーマンスを維持しながら、ターゲットドメインの0.2 WER - 7.3 WERの範囲を改善しています。 Continued pre-training (CP) offers multiple advantages, like target domain adaptation and the potential to exploit the continuous stream of unlabeled data available online. However, continued pre-training on out-of-domain distributions often leads to catastrophic forgetting of previously acquired knowledge, leading to sub-optimal ASR performance. This paper presents FusDom, a simple and novel methodology for SSL-based continued pre-training. FusDom learns speech representations that are robust and adaptive yet not forgetful of concepts seen in the past. Instead of solving the SSL pre-text task on the output representations of a single model, FusDom leverages two identical pre-trained SSL models, a teacher and a student, with a modified pre-training head to solve the CP SSL pre-text task. This head employs a cross-attention mechanism between the representations of both models while only the student receives gradient updates and the teacher does not. Finally, the student is fine-tuned for ASR. In practice, FusDom outperforms all our baselines across settings significantly, with WER improvements in the range of 0.2 WER - 7.3 WER in the target domain while retaining the performance in the earlier domain. | 翻訳日:2023-12-21 15:26:24 公開日:2023-12-20 |
# 量子マルチアノマリー検出 Quantum multi-anomaly detection ( http://arxiv.org/abs/2312.13020v1 ) ライセンス: Link先を確認 | Santiago Llorens, Gael Sent\'is and Ramon Mu\~noz-Tapia | (参考訳) 特定の参照状態を作成すると仮定されたソースは、時に異常な状態を作成する。
我々は、これらの異常状態を特定するタスクを、$k$異常を伴う一連の$n$準備で解決する。
我々は、最小エラープロトコルとゼロエラー(曖昧な)プロトコルを分析し、参照状態と異常状態の両方がオブザーバに知られ、異常が準備シリーズのどの位置にも等しく現れる場合に、成功確率のクローズド表現を得る。
関連スキーム理論の結果を用いて解を求める。
特に、この問題のグラム行列から自然に生じるジョンソン・アソシエーション・スキームを使う。
我々はまた、大きな$n$の体制を研究し、非消滅的な成功確率の式を得る。
最後に、観測者が参照状態と異常状態に盲目である場合に対処する。
このシナリオは、漸近的限界において成功確率が既知の状態シナリオの平均に対応することを証明するための普遍的プロトコルを必要とする。 A source assumed to prepare a specified reference state sometimes prepares an anomalous one. We address the task of identifying these anomalous states in a series of $n$ preparations with $k$ anomalies. We analyse the minimum-error protocol and the zero-error (unambiguous) protocol and obtain closed expressions for the success probability when both reference and anomalous states are known to the observer and anomalies can appear equally likely in any position of the preparation series. We find the solution using results from association schemes theory. In particular we use the Johnson association scheme which arises naturally from the Gram matrix of this problem. We also study the regime of large $n$ and obtain the expression of the success probability that is non-vanishing. Finally, we address the case in which the observer is blind to the reference and the anomalous states. This scenario requires an universal protocol for which we prove that in the asymptotic limit the success probability correspond to average of the known state scenario. | 翻訳日:2023-12-21 15:26:01 公開日:2023-12-20 |
# ダークハーモニックポテンシャルにおける浮遊ナノ粒子の状態拡大 State Expansion of a Levitated Nanoparticle in a Dark Harmonic Potential ( http://arxiv.org/abs/2312.13111v1 ) ライセンス: Link先を確認 | Eric Bonvin and Louisiane Devaud and Massimiliano Rossi and Andrei Militaru and Lorenzo Dania and Dmitry S. Bykov and Oriol Romero-Isart and Tracy E. Northup and Lukas Novotny and Martin Frimmer | (参考訳) 真空中の浮遊ナノ粒子は、巨大物体の巨視的量子重ね合わせ状態を生成するための素候補である。
これらの状態を作成するためのほとんどのプロトコルは、十分な非局在化と純粋な位相空間分布を生成するためにゼロ点運動のスケールを超えるコヒーレント展開を必要とする。
ここでは, 粒子を保持するトラップの剛性を変化させることで, 浮遊ナノ粒子の熱状態を空間的に拡張し, 再収縮する。
粒子の標準偏差における状態膨張係数は25であり,初期フィードバック冷却により熱状態は155}{\milli\kelvin}となる。
本手法は, 粒子の動きを冷却・測定するための光学トラップと, 状態拡大のためのポールトラップを組み合わせたハイブリッド方式を採用している。
したがって、状態拡大は光子反動による測定バックアクションを欠き、将来の実験においてコヒーレントな波動関数展開に適している。 Levitated nanoparticles in vacuum are prime candidates for generating macroscopic quantum superposition states of massive objects. Most protocols for preparing these states necessitate coherent expansion beyond the scale of the zero-point motion to produce sufficiently delocalized and pure phase-space distributions. Here, we spatially expand and subsequently recontract the thermal state of a levitated nanoparticle by modifying the stiffness of the trap holding the particle. We achieve state-expansion factors of 25 in standard deviation for a particle initially feedback-cooled to a center-of-mass thermal state of \SI{155}{\milli\kelvin}. Our method relies on a hybrid scheme combining an optical trap, for cooling and measuring the particle's motion, with a Paul trap for expanding its state. Consequently, state expansion occurs devoid of measurement backaction from photon recoil, making this approach suitable for coherent wavefunction expansion in future experiments. | 翻訳日:2023-12-21 15:19:33 公開日:2023-12-20 |
# 条件付きボルツマン発生器としての分子GNNの事前学習 Pre-training of Molecular GNNs as Conditional Boltzmann Generator ( http://arxiv.org/abs/2312.13110v1 ) ライセンス: Link先を確認 | Daiki Koge, Naoaki Ono, Shigehiko Kanaya | (参考訳) 深層学習を用いた分子構造表現の学習は分子特性予測タスクの基本的な問題である。
分子は本質的に3次元構造として現実世界に存在するが、3次元ユークリッド空間では静的ではないが連続運動であり、ポテンシャルエネルギー面を形成する。
したがって、事前に複数のコンフォメーションを生成し、複数のコンフォメーションを組み込んだ4D-QSARモデルを用いて分子表現を抽出することが望ましい。
しかし、このアプローチは、複数のコンフォメーションを得るための計算コストのため、薬物や物質発見タスクには実用的ではない。
そこで本研究では,既存の分子コンホメーションデータセットを用いた分子GNNの事前学習手法を提案し,複数のコンホメーションに共通な潜在ベクトルを2次元分子グラフから生成する。
我々の手法はボルツマンGNNと呼ばれ、コンフォメーション生成のための条件生成モデルの条件境界確率を最大化することによって定式化される。
本モデルでは,分子グラフと3次元分子構造を用いた既存の事前学習法よりも分子特性の予測性能が向上することを示す。 Learning representations of molecular structures using deep learning is a fundamental problem in molecular property prediction tasks. Molecules inherently exist in the real world as three-dimensional structures; furthermore, they are not static but in continuous motion in the 3D Euclidean space, forming a potential energy surface. Therefore, it is desirable to generate multiple conformations in advance and extract molecular representations using a 4D-QSAR model that incorporates multiple conformations. However, this approach is impractical for drug and material discovery tasks because of the computational cost of obtaining multiple conformations. To address this issue, we propose a pre-training method for molecular GNNs using an existing dataset of molecular conformations to generate a latent vector universal to multiple conformations from a 2D molecular graph. Our method, called Boltzmann GNN, is formulated by maximizing the conditional marginal likelihood of a conditional generative model for conformations generation. We show that our model has a better prediction performance for molecular properties than existing pre-training methods using molecular graphs and three-dimensional molecular structures. | 翻訳日:2023-12-21 15:19:18 公開日:2023-12-20 |
# assistgui:タスク指向のデスクトップユーザインタフェース自動化 ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation ( http://arxiv.org/abs/2312.13108v1 ) ライセンス: Link先を確認 | Difei Gao, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou | (参考訳) グラフィカルユーザインタフェース(GUI)の自動化は、複雑なタスクでユーザを支援するという大きな約束を持ち、それによって人間の生産性が向上する。
LLM(Large Language Model)やLLMベースのAIエージェントを活用する既存の作業は、AndroidとWebプラットフォーム上でタスクを自動化する機能を示している。
しかし、これらのタスクは主に単純なデバイスの使用とエンターテイメント操作を目的としている。
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
我々は、After EffectsやMS Wordなど、広く使われている9つのソフトウェアアプリケーションから、必要なプロジェクトファイルとともに、100のタスクを慎重に収集した。
さらに,llmエージェントによって駆動される高度なguiパーサと,長い手続きタスクの処理に適した拡張推論機構を組み込んだ,高度なアクタ批判型エンボディエージェントフレームワークを提案する。
実験の結果,GUIパーザと推論機構が既存の性能手法より優れていることがわかった。
それでも、最良のモデルは私たちのベンチマークで46%の成功率しか得られていない。
結論として,現在の手法の限界を徹底的に分析し,この領域における今後のブレークスルーのステージを設定した。 Graphical User Interface (GUI) automation holds significant promise for assisting users with complex tasks, thereby boosting human productivity. Existing works leveraging Large Language Model (LLM) or LLM-based AI agents have shown capabilities in automating tasks on Android and Web platforms. However, these tasks are primarily aimed at simple device usage and entertainment operations. This paper presents a novel benchmark, AssistGUI, to evaluate whether models are capable of manipulating the mouse and keyboard on the Windows platform in response to user-requested tasks. We carefully collected a set of 100 tasks from nine widely-used software applications, such as, After Effects and MS Word, each accompanied by the necessary project files for better evaluation. Moreover, we propose an advanced Actor-Critic Embodied Agent framework, which incorporates a sophisticated GUI parser driven by an LLM-agent and an enhanced reasoning mechanism adept at handling lengthy procedural tasks. Our experimental results reveal that our GUI Parser and Reasoning mechanism outshine existing methods in performance. Nevertheless, the potential remains substantial, with the best model attaining only a 46% success rate on our benchmark. We conclude with a thorough analysis of the current methods' limitations, setting the stage for future breakthroughs in this domain. | 翻訳日:2023-12-21 15:19:00 公開日:2023-12-20 |
# GitHubにおける毒性検出のためのChatGPTの探索 Exploring ChatGPT for Toxicity Detection in GitHub ( http://arxiv.org/abs/2312.13105v1 ) ライセンス: Link先を確認 | Shyamal Mishra, Preetha Chatterjee | (参考訳) オープンソース開発の持続的な進歩には、協調的で包括的な環境の確立が不可欠です。
しかし、しばしば有毒なコメントとして表される否定的な言説の流行は、開発者の幸福と生産性に重大な課題をもたらす。
プロジェクトコミュニケーション,特に大規模プロジェクトにおいて,このような負性性を特定するためには,自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
しかし、そのようなデータセットは可用性に制限があり、しばしば不均衡を示す(例えば、GitHubの1000件中6件だけが有毒である)。
この問題に対処するため,我々は,ソフトウェア関連テキストの有害性を検出するタスクを具体的に調整することなく,大量のデータセットで事前トレーニングされたゼロショットllm(chatgpt)を探索する。
予備的な評価は、ChatGPTがGitHubの毒性を検出することを約束し、さらなる調査を保証していることを示している。
モデル出力の正当化,モデルの解釈性の向上,chatgpt対応毒性検出の開発者コミュニケーションチャネルへの統合への道を開くなど,さまざまなプロンプトを実験した。 Fostering a collaborative and inclusive environment is crucial for the sustained progress of open source development. However, the prevalence of negative discourse, often manifested as toxic comments, poses significant challenges to developer well-being and productivity. To identify such negativity in project communications, especially within large projects, automated toxicity detection models are necessary. To train these models effectively, we need large software engineering-specific toxicity datasets. However, such datasets are limited in availability and often exhibit imbalance (e.g., only 6 in 1000 GitHub issues are toxic), posing challenges for training effective toxicity detection models. To address this problem, we explore a zero-shot LLM (ChatGPT) that is pre-trained on massive datasets but without being fine-tuned specifically for the task of detecting toxicity in software-related text. Our preliminary evaluation indicates that ChatGPT shows promise in detecting toxicity in GitHub, and warrants further investigation. We experimented with various prompts, including those designed for justifying model outputs, thereby enhancing model interpretability and paving the way for potential integration of ChatGPT-enabled toxicity detection into developer communication channels. | 翻訳日:2023-12-21 15:18:40 公開日:2023-12-20 |
# エゴ車両軌道予測の最適化:グラフ拡張アプローチ Optimizing Ego Vehicle Trajectory Prediction: The Graph Enhancement Approach ( http://arxiv.org/abs/2312.13104v1 ) ライセンス: Link先を確認 | Sushil Sharma, Aryan Singh, Ganesh Sistu, Mark Halton, Ciar\'an Eising | (参考訳) ego車両の軌道予測は、自動運転システムの重要な要素である。
現在の最先端の手法は通常、将来の軌跡予測のためにフロントビューイメージを処理するためにディープニューラルネットワーク(DNN)とシーケンシャルモデルに依存している。
しかし、これらのアプローチは、しばしばシーンのオブジェクト機能に影響を与える視点の問題に苦しむ。
これを解決するために,我々は,空間的関係や物体の均一性を捉える上で,独特な利点をもたらすBird's Eye View(BEV)の視点の利用を提唱する。
我々の研究では、グラフニューラルネットワーク(GNN)と位置符号化を利用して、BEV内のオブジェクトを表現する。
BEVベースのアプローチでは、フロントビュー画像固有の詳細情報が失われるが、シーン内のオブジェクト間の関係を効果的にキャプチャするグラフとして表現することで、BEVデータを豊かにする。 Predicting the trajectory of an ego vehicle is a critical component of autonomous driving systems. Current state-of-the-art methods typically rely on Deep Neural Networks (DNNs) and sequential models to process front-view images for future trajectory prediction. However, these approaches often struggle with perspective issues affecting object features in the scene. To address this, we advocate for the use of Bird's Eye View (BEV) perspectives, which offer unique advantages in capturing spatial relationships and object homogeneity. In our work, we leverage Graph Neural Networks (GNNs) and positional encoding to represent objects in a BEV, achieving competitive performance compared to traditional DNN-based methods. While the BEV-based approach loses some detailed information inherent to front-view images, we balance this by enriching the BEV data by representing it as a graph where relationships between the objects in a scene are captured effectively. | 翻訳日:2023-12-21 15:18:20 公開日:2023-12-20 |
# 放射線診断のためのマルチモーダル大規模言語モデルの検討 Exploring Multimodal Large Language Models for Radiology Report Error-checking ( http://arxiv.org/abs/2312.13103v1 ) ライセンス: Link先を確認 | Jinge Wu, Yunsoo Kim, Eva C. Keller, Jamie Chow, Adam P. Levine, Nikolas Pontikos, Zina Ibrahim, Paul Taylor, Michelle C. Williams, Honghan Wu | (参考訳) 本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
2つの実世界のx線データ(mimic-cxrとiu-xray)から評価データセットを作成し,それぞれ1,000件をサブサンプリングした。
元のレポートのサブセットは、様々なタイプの誤りを導入して合成エラーを含むように修正された。
評価には2つの難易度がある: SIMPLE for binary error-checking と COMPLEX for identify error type。
llava ( large language and visual assistant) の派生モデル(命令調整モデルを含む)が評価に使用された。
さらに、小さなテストセットでドメインエキスパートの評価が行われた。
SIMPLEレベルでは、LLaVA v1.5モデルは他の公開モデルよりも優れていた。
インストラクションチューニングはMIMIC-CXRとIU-Xrayのデータでそれぞれ47.4%、25.4%向上した。
また、MIMIC-CXRデータセットのドメインエキスパートの精度を1.67%上回った。
特に、臨床医が正しい結論を得られなかったテストセットのサブセット(N=21)のうち、LLaVAアンサンブルモードは71.4%を正しく同定した。
本研究は, 放射線学における診断精度を高めるため, マルチモーダルLCMの利用に向けた有望なステップである。
アンサンブルモデルは臨床医に匹敵するパフォーマンスを示し、人間に見過ごされたエラーを捉えさえした。
それでも、一貫性のタイプを特定するためのモデル能力を改善するためには、今後の作業が必要である。 This paper proposes one of the first clinical applications of multimodal large language models (LLMs) as an assistant for radiologists to check errors in their reports. We created an evaluation dataset from two real-world radiology datasets (MIMIC-CXR and IU-Xray), with 1,000 subsampled reports each. A subset of original reports was modified to contain synthetic errors by introducing various type of mistakes. The evaluation contained two difficulty levels: SIMPLE for binary error-checking and COMPLEX for identifying error types. LLaVA (Large Language and Visual Assistant) variant models, including our instruction-tuned model, were used for the evaluation. Additionally, a domain expert evaluation was conducted on a small test set. At the SIMPLE level, the LLaVA v1.5 model outperformed other publicly available models. Instruction tuning significantly enhanced performance by 47.4% and 25.4% on MIMIC-CXR and IU-Xray data, respectively. The model also surpassed the domain experts accuracy in the MIMIC-CXR dataset by 1.67%. Notably, among the subsets (N=21) of the test set where a clinician did not achieve the correct conclusion, the LLaVA ensemble mode correctly identified 71.4% of these cases. This study marks a promising step toward utilizing multi-modal LLMs to enhance diagnostic accuracy in radiology. The ensemble model demonstrated comparable performance to clinicians, even capturing errors overlooked by humans. Nevertheless, future work is needed to improve the model ability to identify the types of inconsistency. | 翻訳日:2023-12-21 15:18:03 公開日:2023-12-20 |
# SpecNeRF: スペクトル反射のガウス方向符号化 SpecNeRF: Gaussian Directional Encoding for Specular Reflections ( http://arxiv.org/abs/2312.13102v1 ) ライセンス: Link先を確認 | Li Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollh\"ofer, Christian Richardt | (参考訳) ニューラルレイディアンス場は、3Dシーンの外観をモデル化する際、顕著な性能を達成した。
しかし、既存のアプローチは、特に屋内環境の複雑な照明の下で、光沢のある表面の視界依存的な外観に苦慮している。
環境マップのように遠方からの光を仮定する既存の方法とは異なり、近場照明条件下でのビュー依存効果をより良くモデル化するための学習可能なガウス方向符号化を提案する。
重要なことに,新しい方向符号化は近接場照明の空間変動特性を捉え,事前フィルタされた環境マップの挙動をエミュレートする。
これにより、粗さ係数の異なる任意の3次元位置における事前畳み込み鏡彩色を効率的に評価することができる。
さらに,反射モデルにおける形状放射の曖昧さを緩和するデータ駆動幾何学についても紹介する。
その結果,gaussian directional encoding と geometry prior は,神経放射野における鏡面反射のモデル化を著しく改善し,より物理的に有意義な成分への出現の分解に寄与することが示された。 Neural radiance fields have achieved remarkable performance in modeling the appearance of 3D scenes. However, existing approaches still struggle with the view-dependent appearance of glossy surfaces, especially under complex lighting of indoor environments. Unlike existing methods, which typically assume distant lighting like an environment map, we propose a learnable Gaussian directional encoding to better model the view-dependent effects under near-field lighting conditions. Importantly, our new directional encoding captures the spatially-varying nature of near-field lighting and emulates the behavior of prefiltered environment maps. As a result, it enables the efficient evaluation of preconvolved specular color at any 3D location with varying roughness coefficients. We further introduce a data-driven geometry prior that helps alleviate the shape radiance ambiguity in reflection modeling. We show that our Gaussian directional encoding and geometry prior significantly improve the modeling of challenging specular reflections in neural radiance fields, which helps decompose appearance into more physically meaningful components. | 翻訳日:2023-12-21 15:17:38 公開日:2023-12-20 |
# SEER-ZSL: 汎用ゼロショット学習のための意味エンコーダ強化表現 SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2312.13100v1 ) ライセンス: Link先を確認 | William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot | (参考訳) 一般化ゼロショット学習(GZSL)は、視覚的データと意味的データ間の固有の相互作用によって、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
しかし、十分に準備されたトレーニングデータと予測できない実世界のテストシナリオの相違は依然として大きな課題である。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
まず、革新的なエンコーダを通して意味情報を組み込む。
このエンコーダは、性能格差をターゲットとして、クラス固有のセマンティック情報を効果的に統合し、クラス固有の属性のセマンティックスペースを強化する。
第2に,新規な合成損失関数を用いて生成能力を改良する。
このアプローチは識別クラスを生成し、見られているクラスと見当たらないクラスの両方を効果的に分類する。
さらに,制御された意味入力を活用し,様々な環境におけるモデルのロバスト性を確保することにより,学習潜在空間の活用を拡大する。
このアプローチは、一般化と多様な設定の両方において最先端モデルを上回るモデルを生み出し、特にハイパーパラメータチューニングやドメイン固有の適応を必要としない。
また,実験結果の信頼性と再現性について,より詳細な評価を行うための新しい評価指標を提案する。
完全なコードはhttps://github.com/william-heyden/seer-zeroshotlearning/で入手できる。 Generalized Zero-Shot Learning (GZSL) recognizes unseen classes by transferring knowledge from the seen classes, depending on the inherent interactions between visual and semantic data. However, the discrepancy between well-prepared training data and unpredictable real-world test scenarios remains a significant challenge. This paper introduces a dual strategy to address the generalization gap. Firstly, we incorporate semantic information through an innovative encoder. This encoder effectively integrates class-specific semantic information by targeting the performance disparity, enhancing the produced features to enrich the semantic space for class-specific attributes. Secondly, we refine our generative capabilities using a novel compositional loss function. This approach generates discriminative classes, effectively classifying both seen and unseen classes. In addition, we extend the exploitation of the learned latent space by utilizing controlled semantic inputs, ensuring the robustness of the model in varying environments. This approach yields a model that outperforms the state-of-the-art models in terms of both generalization and diverse settings, notably without requiring hyperparameter tuning or domain-specific adaptations. We also propose a set of novel evaluation metrics to provide a more detailed assessment of the reliability and reproducibility of the results. The complete code is made available on https://github.com/william-heyden/SEER-ZeroShotLearning/. | 翻訳日:2023-12-21 15:17:20 公開日:2023-12-20 |
# ジェネレーティブAI: チャットボットは政治情報を効果的に検証できるか? In Generative AI we Trust: Can Chatbots Effectively Verify Political Information? ( http://arxiv.org/abs/2312.13096v1 ) ライセンス: Link先を確認 | Elizaveta Kuznetsova, Mykola Makhortykh, Victoria Vziatysheva, Martha Stolze, Ani Baghumyan, Aleksandra Urman | (参考訳) この記事では、2つの大きな言語モデル(LLM)ベースのチャットボットであるChatGPTとBing ChatをMicrosoft Copilotと改名し、政治的情報の正確性を検出する能力の比較分析を行う。
AI監査手法を使用して、新型コロナウイルス、ロシアによるウクライナに対する攻撃、ホロコースト、気候変動、LGBTQ+関連の議論の5つのトピックについて、チャットボットが真、偽、および境界線の評価方法を調べます。
チャットボットは、英語、ロシア語、ウクライナ語でプロンプトを用いて、ハイリソース言語と低リソース言語でどのように機能するかを比較する。
さらに, 定義指向のプロンプトを用いて, 偽情報, 偽情報, 陰謀論といった政治的コミュニケーション概念に基づいて, 発言を評価するチャットボットの能力について検討する。
また,これらの評価がソースバイアスにどのように影響するかを体系的に検証し,様々な政治的・社会的アクターに特定のクレームを帰属させることによってモデル化する。
その結果, ベースライン精度評価タスクにおけるChatGPTの性能が向上し, 72%のケースが事前学習なしで言語平均で正しく評価された。
Bing Chatは67%の精度で悪化した。
チャットボットが高次・低次言語でどのようにプロンプトを評価するか,そしてその評価を政治コミュニケーションの概念にどのように適応させるかにおいて,ChatGPTはBing Chatよりもニュアンスなアウトプットを提供する。
最後に、いくつかの正確性検出関連タスクにおいて、チャットボットのパフォーマンスは、ステートメントのトピックや属性のソースによって異なることがわかった。
これらの知見は、オンライン環境における異なる形の偽情報に対処するLLMベースのチャットボットの可能性を強調し、また、プロンプトの言語やトピックといった特定の要因によって、その可能性がどのように実現されるかという点で、かなりの変化を示している。 This article presents a comparative analysis of the ability of two large language model (LLM)-based chatbots, ChatGPT and Bing Chat, recently rebranded to Microsoft Copilot, to detect veracity of political information. We use AI auditing methodology to investigate how chatbots evaluate true, false, and borderline statements on five topics: COVID-19, Russian aggression against Ukraine, the Holocaust, climate change, and LGBTQ+ related debates. We compare how the chatbots perform in high- and low-resource languages by using prompts in English, Russian, and Ukrainian. Furthermore, we explore the ability of chatbots to evaluate statements according to political communication concepts of disinformation, misinformation, and conspiracy theory, using definition-oriented prompts. We also systematically test how such evaluations are influenced by source bias which we model by attributing specific claims to various political and social actors. The results show high performance of ChatGPT for the baseline veracity evaluation task, with 72 percent of the cases evaluated correctly on average across languages without pre-training. Bing Chat performed worse with a 67 percent accuracy. We observe significant disparities in how chatbots evaluate prompts in high- and low-resource languages and how they adapt their evaluations to political communication concepts with ChatGPT providing more nuanced outputs than Bing Chat. Finally, we find that for some veracity detection-related tasks, the performance of chatbots varied depending on the topic of the statement or the source to which it is attributed. These findings highlight the potential of LLM-based chatbots in tackling different forms of false information in online environments, but also points to the substantial variation in terms of how such potential is realized due to specific factors, such as language of the prompt or the topic. | 翻訳日:2023-12-21 15:16:57 公開日:2023-12-20 |
# MoSAR:微分シェーディングを用いた単眼アバター再構成モデル MoSAR: Monocular Semi-Supervised Model for Avatar Reconstruction using Differentiable Shading ( http://arxiv.org/abs/2312.13091v1 ) ライセンス: Link先を確認 | Abdallah Dib, Luiz Gustavo Hafemann, Emeline Got, Trevor Anderson, Amin Fadaeinejad, Rafael M. O. Cruz, Marc-Andre Carbonneau | (参考訳) ポートレート画像からアバターを再構築することはマルチメディアに多くの応用があるが、依然として困難な研究課題である。
1つの画像から反射率マップと幾何を抽出することは誤りであり、幾何の復元は1対多のマッピング問題であり、反射率と光の分離は困難である。
正確な幾何学と反射率を光段の制御条件下で捉えることはできるが、この方法で大規模なデータセットを取得するにはコストがかかる。
さらに、この種のデータのみでのトレーニングは、Wildイメージによる一般化の貧弱につながる。
これはモノクロ画像から3Dアバターを生成するMoSARの導入を動機付けている。
そこで本研究では,光ステージと地中データセットの両方から学習することで,一般化を向上する半教師付きトレーニング手法を提案する。
これは、新しい微分可能なシェーディング式を用いて達成される。
提案手法は,本質的な顔パラメータを効果的に切り離し,照らしやすいアバターを生成する。
その結果、MoSARはよりリッチな皮膚反射マップを推定し、既存の最先端手法よりも現実的なアバターを生成する。
FFHQ-UV-Intrinsicsという名の新しいデータセットも導入しました。これは10万件の被験者に対して、大規模(拡散、スペクトル、周囲の閉塞、透過性マップ)な顔属性を提供する最初の公開データセットです。
プロジェクトのWebサイトとデータセットは以下のリンクで公開されている。 Reconstructing an avatar from a portrait image has many applications in multimedia, but remains a challenging research problem. Extracting reflectance maps and geometry from one image is ill-posed: recovering geometry is a one-to-many mapping problem and reflectance and light are difficult to disentangle. Accurate geometry and reflectance can be captured under the controlled conditions of a light stage, but it is costly to acquire large datasets in this fashion. Moreover, training solely with this type of data leads to poor generalization with in-the-wild images. This motivates the introduction of MoSAR, a method for 3D avatar generation from monocular images. We propose a semi-supervised training scheme that improves generalization by learning from both light stage and in-the-wild datasets. This is achieved using a novel differentiable shading formulation. We show that our approach effectively disentangles the intrinsic face parameters, producing relightable avatars. As a result, MoSAR estimates a richer set of skin reflectance maps, and generates more realistic avatars than existing state-of-the-art methods. We also introduce a new dataset, named FFHQ-UV-Intrinsics, the first public dataset providing intrisic face attributes at scale (diffuse, specular, ambient occlusion and translucency maps) for a total of 10k subjects. The project website and the dataset are available on the following link: https://ubisoftlaforge.github.io/character/mosar | 翻訳日:2023-12-21 15:16:17 公開日:2023-12-20 |
# パーセプションテスト2023:最初の挑戦と成果の概要 Perception Test 2023: A Summary of the First Challenge And Outcome ( http://arxiv.org/abs/2312.13090v1 ) ライセンス: Link先を確認 | Joseph Heyward, Jo\~ao Carreira, Dima Damen, Andrew Zisserman, Viorica P\u{a}tr\u{a}ucean | (参考訳) 第1回知覚テストチャレンジは、ieee/cvf international conference on computer vision (iccv) 2023と共に半日のワークショップとして開催され、最近提案された知覚テストベンチマークで最先端のビデオモデルをベンチマークすることを目的としている。
課題は、言語と非言語の両方のインターフェース、ビデオ、音声、テキストのモダリティ、オブジェクトのトラッキング、ポイントトラッキング、時間的アクションの局所化、時間的音の局所化、マルチチョイスビデオの質疑応答、接地されたビデオ質問応答の6つのトラックであった。
このレポートではタスク記述、メトリクス、ベースライン、結果についてまとめています。 The First Perception Test challenge was held as a half-day workshop alongside the IEEE/CVF International Conference on Computer Vision (ICCV) 2023, with the goal of benchmarking state-of-the-art video models on the recently proposed Perception Test benchmark. The challenge had six tracks covering low-level and high-level tasks, with both a language and non-language interface, across video, audio, and text modalities, and covering: object tracking, point tracking, temporal action localisation, temporal sound localisation, multiple-choice video question-answering, and grounded video question-answering. We summarise in this report the task descriptions, metrics, baselines, and results. | 翻訳日:2023-12-21 15:15:48 公開日:2023-12-20 |
# Pyreal: 解釈可能なML説明のためのフレームワーク Pyreal: A Framework for Interpretable ML Explanations ( http://arxiv.org/abs/2312.13084v1 ) ライセンス: Link先を確認 | Alexandra Zytek, Wei-En Wang, Dongyu Liu, Laure Berti-Equille, Kalyan Veeramachaneni | (参考訳) 多くのドメインのユーザは、機械学習(ML)予測を使用して意思決定を支援する。
効果的なMLベースの意思決定は、しばしばMLモデルとその予測の説明を必要とする。
モデルを説明するアルゴリズムはたくさんありますが、意思決定者にとって分かりやすく有用なフォーマットで説明を生成することは、開発オーバーヘッドの大きい非自明な作業です。
我々は,多種多様な解釈可能なML記述を生成するためのPython実装を備えた拡張性の高いシステムであるPyrealを開発した。
pyrealは、モデルが期待する機能空間、関連する説明アルゴリズム、および人間ユーザ間のデータと説明を変換し、ユーザはローコードの方法で解釈可能な説明を生成することができる。
我々の研究は、Pyrealが既存のシステムよりも有用でありながら、使いやすくて効率的であることを示す。 Users in many domains use machine learning (ML) predictions to help them make decisions. Effective ML-based decision-making often requires explanations of ML models and their predictions. While there are many algorithms that explain models, generating explanations in a format that is comprehensible and useful to decision-makers is a nontrivial task that can require extensive development overhead. We developed Pyreal, a highly extensible system with a corresponding Python implementation for generating a variety of interpretable ML explanations. Pyreal converts data and explanations between the feature spaces expected by the model, relevant explanation algorithms, and human users, allowing users to generate interpretable explanations in a low-code manner. Our studies demonstrate that Pyreal generates more useful explanations than existing systems while remaining both easy-to-use and efficient. | 翻訳日:2023-12-21 15:15:32 公開日:2023-12-20 |
# BEVSeg2TP:Sarround View Camera Bird's-Eye-View based Joint Vehicle Segmentation and Ego Vehicle Trajectory Prediction BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle Segmentation and Ego Vehicle Trajectory Prediction ( http://arxiv.org/abs/2312.13081v1 ) ライセンス: Link先を確認 | Sushil Sharma, Arindam Das, Ganesh Sistu, Mark Halton, Ciar\'an Eising | (参考訳) 軌道予測は当然、自動車の自律性にとって重要なタスクである。
トラフィックルールの数は限られているが、現実のシナリオにおける各エージェントの振る舞いに関連する組み合わせや不確実性はほとんどエンコードできない。
その結果,学習に基づく軌道予測への関心が高まっている。
提案手法は, 知覚と軌道予測を統一システムとして考慮し, 軌跡予測を行う。
これらを統一的なタスクとして考えることで,知覚の性能を向上させる可能性を示す。
これらの目的を達成するために, BEVSeg2TP - 自律走行車用サラウンドビューカメラバードアイビューベースジョイントカーセグメンテーションとエゴカー軌道予測システムを提案する。
提案システムは、複数のカメラビューでトレーニングされたネットワークを使用する。
画像は、いくつかのディープラーニング技術を使用して変換され、シーン内の他の車両を含むオブジェクトのセマンティックセグメンテーションを実行する。
セグメンテーション出力はカメラビュー全体で融合され、鳥の目から見た周囲の車両の包括的表現が得られる。
さらに、時空間確率ネットワーク(STPN)を用いて、エゴ車両の将来軌道を予測し、軌道予測を最適化する。
このネットワークはエンコーダ・デコーダトランスフォーマとジョイント車両セグメンテーションからの情報を活用している。 Trajectory prediction is, naturally, a key task for vehicle autonomy. While the number of traffic rules is limited, the combinations and uncertainties associated with each agent's behaviour in real-world scenarios are nearly impossible to encode. Consequently, there is a growing interest in learning-based trajectory prediction. The proposed method in this paper predicts trajectories by considering perception and trajectory prediction as a unified system. In considering them as unified tasks, we show that there is the potential to improve the performance of perception. To achieve these goals, we present BEVSeg2TP - a surround-view camera bird's-eye-view-based joint vehicle segmentation and ego vehicle trajectory prediction system for autonomous vehicles. The proposed system uses a network trained on multiple camera views. The images are transformed using several deep learning techniques to perform semantic segmentation of objects, including other vehicles, in the scene. The segmentation outputs are fused across the camera views to obtain a comprehensive representation of the surrounding vehicles from the bird's-eye-view perspective. The system further predicts the future trajectory of the ego vehicle using a spatiotemporal probabilistic network (STPN) to optimize trajectory prediction. This network leverages information from encoder-decoder transformers and joint vehicle segmentation. | 翻訳日:2023-12-21 15:15:20 公開日:2023-12-20 |
# 点雲解析のための正規埋め込み強化による点変形性ネットワーク Point Deformable Network with Enhanced Normal Embedding for Point Cloud Analysis ( http://arxiv.org/abs/2312.13071v1 ) ライセンス: Link先を確認 | Xingyilang Yin, Xi Yang, Liangchen Liu, Nannan Wang, Xinbo Gao | (参考訳) 近年, MLP法は点雲解析において高い性能を示した。
単純なMLPアーキテクチャは局所点群で幾何学的特徴を学習できるが、長距離依存を直接モデル化することができない。
本稿では,表現能力の強い長大な関係をキャプチャできる,コンパクトなMLPベースのネットワークであるポイント・デフォルタブル・ネットワーク(PDNet)を提案する。
具体的には、点間の長範囲依存と適応集約の両方における表現能力を改善するために、ポイントデフォルマブルアグリゲーションモジュール(PDAM)を前進させた。
各クエリポイントについて、PDAMは限られたローカル領域のポイントではなく、変形可能な参照ポイントから情報を集約する。
変形可能な参照ポイントはデータ依存で生成され、入力ポイント位置に応じて初期化する。
追加のオフセットと変調スカラーがポイント全体の特徴から学習され、変形可能な参照ポイントを関心のある領域にシフトする。
また,点雲の正規ベクトルを推定し,幾何学的抽出器に拡張正規埋め込み(ene)を適用し,単一点の表現能力を向上させることを提案する。
様々なベンチマークに関する大規模な実験とアブレーション研究は、PDNetの有効性と優位性を示している。 Recently MLP-based methods have shown strong performance in point cloud analysis. Simple MLP architectures are able to learn geometric features in local point groups yet fail to model long-range dependencies directly. In this paper, we propose Point Deformable Network (PDNet), a concise MLP-based network that can capture long-range relations with strong representation ability. Specifically, we put forward Point Deformable Aggregation Module (PDAM) to improve representation capability in both long-range dependency and adaptive aggregation among points. For each query point, PDAM aggregates information from deformable reference points rather than points in limited local areas. The deformable reference points are generated data-dependent, and we initialize them according to the input point positions. Additional offsets and modulation scalars are learned on the whole point features, which shift the deformable reference points to the regions of interest. We also suggest estimating the normal vector for point clouds and applying Enhanced Normal Embedding (ENE) to the geometric extractors to improve the representation ability of single-point. Extensive experiments and ablation studies on various benchmarks demonstrate the effectiveness and superiority of our PDNet. | 翻訳日:2023-12-21 15:14:56 公開日:2023-12-20 |
# 逐次生存過程を伴う連続時間グラフ表現 Continuous-time Graph Representation with Sequential Survival Process ( http://arxiv.org/abs/2312.13068v1 ) ライセンス: Link先を確認 | Abdulkadir Celikkanat and Nikolaos Nakis and Morten M{\o}rup | (参考訳) 過去20年間で、グラフの表現学習の方法が大幅に増加しており、バイオインフォマティクス、化学、社会科学など様々な分野に応用されている。
しかし、現在の動的ネットワークアプローチは離散時間ネットワークに焦点を当てたり、連続時間ネットワーク内のリンクを瞬時に扱う。
したがって、これらのアプローチは、特定の期間にわたって継続的に出現し、消えていくリンクの持続性や欠如を捉えるのに制限がある。
そこで本稿では,リンクの持続時間とその欠如をモデル化するために,生存関数に依存する新しい確率過程を提案する。
これは、断続的なエッジパーシスタントネットワーク、すなわち GraSSP: Graph Representation with Sequential Survival Process を明示的に考慮する、汎用的な新しい可能性仕様を形成する。
本稿では,最近の連続時間動的潜在距離モデルに適用し,潜在空間におけるノードの断片的線形移動の列の観点からネットワークダイナミクスを特徴付ける。
本稿では,リンク予測やネットワーク補完などの下流タスクにおいて開発されたフレームワークを定量的に評価し,リンク持続性や不在性を考慮したモデリングフレームワークが潜在空間におけるノードの内在的軌跡を適切に追跡し,ネットワーク構造の基盤となる特徴を捉えることを実証する。 Over the past two decades, there has been a tremendous increase in the growth of representation learning methods for graphs, with numerous applications across various fields, including bioinformatics, chemistry, and the social sciences. However, current dynamic network approaches focus on discrete-time networks or treat links in continuous-time networks as instantaneous events. Therefore, these approaches have limitations in capturing the persistence or absence of links that continuously emerge and disappear over time for particular durations. To address this, we propose a novel stochastic process relying on survival functions to model the durations of links and their absences over time. This forms a generic new likelihood specification explicitly accounting for intermittent edge-persistent networks, namely GraSSP: Graph Representation with Sequential Survival Process. We apply the developed framework to a recent continuous time dynamic latent distance model characterizing network dynamics in terms of a sequence of piecewise linear movements of nodes in latent space. We quantitatively assess the developed framework in various downstream tasks, such as link prediction and network completion, demonstrating that the developed modeling framework accounting for link persistence and absence well tracks the intrinsic trajectories of nodes in a latent space and captures the underlying characteristics of evolving network structure. | 翻訳日:2023-12-21 15:14:35 公開日:2023-12-20 |
# 有能な特徴に基づく水中音響信号認識 Underwater Acoustic Signal Recognition Based on Salient Features ( http://arxiv.org/abs/2312.13143v1 ) ライセンス: Link先を確認 | Minghao Chen | (参考訳) 技術の急速な進歩により、複雑な環境における水中音響信号の認識がますます重要になっている。
現在、水中音響信号認識は主にスペクトルの特徴を抽出するために時間周波数分析に依存しており、現場で広く応用されている。
しかし、既存の認識手法はエキスパートシステムに大きく依存しており、制限された知識ベースや複雑な関係を扱う際の課題といった制限に直面している。
これらの制限は、ルールや推論エンジンに関連する複雑さとメンテナンスの困難に起因する。
複雑な関係を扱う際の深層学習の潜在的な利点を認識し,ニューラルネットワークを用いた水中音響信号認識手法を提案する。
提案手法は,水中音響信号分類のためのスペクトルから抽出された特徴の連続学習を含む。
ディープラーニングモデルは、データから抽象的な特徴を自動的に学習し、トレーニング中に重みを継続的に調整し、分類性能を向上させる。 With the rapid advancement of technology, the recognition of underwater acoustic signals in complex environments has become increasingly crucial. Currently, mainstream underwater acoustic signal recognition relies primarily on time-frequency analysis to extract spectral features, finding widespread applications in the field. However, existing recognition methods heavily depend on expert systems, facing limitations such as restricted knowledge bases and challenges in handling complex relationships. These limitations stem from the complexity and maintenance difficulties associated with rules or inference engines. Recognizing the potential advantages of deep learning in handling intricate relationships, this paper proposes a method utilizing neural networks for underwater acoustic signal recognition. The proposed approach involves continual learning of features extracted from spectra for the classification of underwater acoustic signals. Deep learning models can automatically learn abstract features from data and continually adjust weights during training to enhance classification performance. | 翻訳日:2023-12-21 15:07:36 公開日:2023-12-20 |
# マニフォールドの強化:UMAPとの混合正規化 Augment on Manifold: Mixup Regularization with UMAP ( http://arxiv.org/abs/2312.13141v1 ) ライセンス: Link先を確認 | Yousef El-Laham, Elizabeth Fons, Dillon Daudert, Svitlana Vyetrenko | (参考訳) データ拡張技術はディープラーニングモデルの性能向上に重要な役割を果たしている。
コンピュータビジョンタスクの利点は証明されているが、他の領域での応用は限られている。
本稿では、ディープラーニング予測モデルのための「オン・マニフォールド」自動データ拡張のために設計されたMixup正規化スキームUMAP Mixupを提案する。
提案手法は,一様多様体近似および射影として知られる次元性低減技術を用いて,特徴やラベルのデータ多様体上に存在する合成サンプルを合成することを保証する。
多様な回帰タスクに対する評価は、UMAP Mixupが他のMixup亜種と競合する、あるいは優れており、ディープラーニングモデルの一般化性能を高める効果的なツールとしての可能性を示していることを示している。 Data augmentation techniques play an important role in enhancing the performance of deep learning models. Despite their proven benefits in computer vision tasks, their application in the other domains remains limited. This paper proposes a Mixup regularization scheme, referred to as UMAP Mixup, designed for "on-manifold" automated data augmentation for deep learning predictive models. The proposed approach ensures that the Mixup operations result in synthesized samples that lie on the data manifold of the features and labels by utilizing a dimensionality reduction technique known as uniform manifold approximation and projection. Evaluations across diverse regression tasks show that UMAP Mixup is competitive with or outperforms other Mixup variants, show promise for its potential as an effective tool for enhancing the generalization performance of deep learning models. | 翻訳日:2023-12-21 15:07:22 公開日:2023-12-20 |
# 視覚ロボットマニピュレーションのための大規模ビデオ生成事前学習 Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation ( http://arxiv.org/abs/2312.13139v1 ) ライセンス: Link先を確認 | Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong | (参考訳) 生成事前学習モデルは、有用な表現を学習することで、言語と視覚領域において顕著な効果を示した。
本稿では,視覚ロボット操作が大規模映像生成事前学習の恩恵を受けることを示すことにより,この効果の範囲を広げる。
本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
フレキシブルな設計のおかげで、GR-1は大規模なビデオデータセットで事前訓練された後、ロボットデータに対してシームレスに微調整できる。
我々は、挑戦的なCALVINベンチマークと本物のロボットについて広範な実験を行った。
CALVINベンチマークでは,最先端のベースライン手法より優れ,88.9%から94.9%に改善されている。
ゼロショットのシーン一般化の設定では、GR-1は成功率を53.3%から85.4%に改善する。
実際のロボット実験では、GR-1はベースライン法よりも優れており、見えないシーンや物体への一般化に強い可能性を示している。
本稿では,大規模ビデオ生成事前学習を併用した統一型GPT型トランスフォーマーが,マルチタスク視覚ロボット操作に対する顕著な一般化を示すことを示す。
プロジェクトページ: https://GR1-Manipulation.github.io Generative pre-trained models have demonstrated remarkable effectiveness in language and vision domains by learning useful representations. In this paper, we extend the scope of this effectiveness by showing that visual robot manipulation can significantly benefit from large-scale video generative pre-training. We introduce GR-1, a straightforward GPT-style model designed for multi-task language-conditioned visual robot manipulation. GR-1 takes as inputs a language instruction, a sequence of observation images, and a sequence of robot states. It predicts robot actions as well as future images in an end-to-end manner. Thanks to a flexible design, GR-1 can be seamlessly finetuned on robot data after pre-trained on a large-scale video dataset. We perform extensive experiments on the challenging CALVIN benchmark and a real robot. On CALVIN benchmark, our method outperforms state-of-the-art baseline methods and improves the success rate from 88.9% to 94.9%. In the setting of zero-shot unseen scene generalization, GR-1 improves the success rate from 53.3% to 85.4%. In real robot experiments, GR-1 also outperforms baseline methods and shows strong potentials in generalization to unseen scenes and objects. We provide inaugural evidence that a unified GPT-style transformer, augmented with large-scale video generative pre-training, exhibits remarkable generalization to multi-task visual robot manipulation. Project page: https://GR1-Manipulation.github.io | 翻訳日:2023-12-21 15:06:50 公開日:2023-12-20 |
# 分子ハイパーグラフニューラルネットワーク Molecular Hypergraph Neural Networks ( http://arxiv.org/abs/2312.13136v1 ) ライセンス: Link先を確認 | Junwu Chen, Philippe Schwaller | (参考訳) グラフニューラルネットワーク(GNN)は、様々な化学関連タスクで有望なパフォーマンスを示している。
しかし、従来のグラフは分子の対接続のみをモデル化し、多中心結合や共役構造のような高次結合を適切に表現できない。
この課題に対処するため,分子ハイパーグラフを導入し,有機半導体の光電子特性を予測する分子ハイパーグラフニューラルネットワーク(MHNN)を提案する。
一般的なアルゴリズムは不規則な高次接続のために設計されており、様々な順序のハイパーエッジを持つ分子ハイパーグラフを効率的に操作することができる。
その結果、MHNNはOPV、OCELOTv1、PCQM4Mv2データセットのほとんどのタスクにおけるベースラインモデルよりも優れていた。
特に、MHNNは3次元幾何学的情報なしでこれを達成し、原子の位置を利用するベースラインモデルを超えた。
さらに、MHNNは、限られたトレーニングデータの下で事前訓練されたGNNよりも優れた性能を達成し、その優れたデータ効率を裏付ける。
この研究は、より一般的な分子表現と高次接続に関連する特性予測タスクのための新しい戦略を提供する。 Graph neural networks (GNNs) have demonstrated promising performance across various chemistry-related tasks. However, conventional graphs only model the pairwise connectivity in molecules, failing to adequately represent higher-order connections like multi-center bonds and conjugated structures. To tackle this challenge, we introduce molecular hypergraphs and propose Molecular Hypergraph Neural Networks (MHNN) to predict the optoelectronic properties of organic semiconductors, where hyperedges represent conjugated structures. A general algorithm is designed for irregular high-order connections, which can efficiently operate on molecular hypergraphs with hyperedges of various orders. The results show that MHNN outperforms all baseline models on most tasks of OPV, OCELOTv1 and PCQM4Mv2 datasets. Notably, MHNN achieves this without any 3D geometric information, surpassing the baseline model that utilizes atom positions. Moreover, MHNN achieves better performance than pretrained GNNs under limited training data, underscoring its excellent data efficiency. This work provides a new strategy for more general molecular representations and property prediction tasks related to high-order connections. | 翻訳日:2023-12-21 15:06:30 公開日:2023-12-20 |
# 量子ドットにおける単一電子スピン量子ビットの加速断熱通過 Accelerated adiabatic passage of a single electron spin qubit in quantum dots ( http://arxiv.org/abs/2312.13135v1 ) ライセンス: Link先を確認 | Xiao-Fei Liu, Yuta Matsumoto, Takafumi Fujita, Arne Ludwig, Andreas D. Wieck, Akira Oiwa | (参考訳) 断熱過程は量子系を瞬時に固有状態に保つことができ、ノイズや散逸に対して頑健である。
しかし、十分に遅い進化によって制限される。
本稿では, ゲート定義半導体量子ドット(qds)における断熱への近道(sta)のトランジッションレス量子駆動(tlqd)を実験的に実証し, 従来の断熱通路を初めて大きく加速する。
量子状態移動の効率が与えられた場合、加速度は2倍以上になる。
動的性質は、TLQDが高速かつ高忠実な量子状態転移を保証できることを証明している。
ノイズの強調によるダイアバティック誤りを補償するために, 改良tlqdを提案し, 逆ダイアバティック駆動の幅を拡大して実験を行った。
ベンチマークの結果、97.8%の状態遷移忠実度が達成できることが示された。
この研究は、ゲート定義QDに基づく量子シミュレーションと断熱量子計算の研究と応用を大いに促進する。 Adiabatic processes can keep the quantum system in its instantaneous eigenstate, which is robust to noises and dissipation. However, it is limited by sufficiently slow evolution. Here, we experimentally demonstrate the transitionless quantum driving (TLQD) of the shortcuts to adiabaticity (STA) in gate-defined semiconductor quantum dots (QDs) to greatly accelerate the conventional adiabatic passage for the first time. For a given efficiency of quantum state transfer, the acceleration can be more than 2-fold. The dynamic properties also prove that the TLQD can guarantee fast and high-fidelity quantum state transfer. In order to compensate for the diabatic errors caused by dephasing noises, the modified TLQD is proposed and demonstrated in experiment by enlarging the width of the counter-diabatic drivings. The benchmarking shows that the state transfer fidelity of 97.8% can be achieved. This work will greatly promote researches and applications about quantum simulations and adiabatic quantum computation based on the gate-defined QDs. | 翻訳日:2023-12-21 15:06:10 公開日:2023-12-20 |
# 計算のスケーリングは、敵のロバストさに必要ではない Scaling Compute Is Not All You Need for Adversarial Robustness ( http://arxiv.org/abs/2312.13131v1 ) ライセンス: Link先を確認 | Edoardo Debenedetti, Zishen Wan, Maksym Andriushchenko, Vikash Sehwag, Kshitij Bhardwaj, Bhavya Kailkhura | (参考訳) 過去6年間、敵対的に堅牢なディープラーニングが著しい進歩を遂げてきた。
RobustBenchベンチマークのCIFAR-10データセットカテゴリで証明されたように、$\ell_\infty$ 逆方向の摂動の精度は \citet{Madry2018Towards} の44 %から \citet{peng2023robust} の71 %に改善された。
印象的ではあるが、既存の最先端技術はまだ満足には程遠い。
さらに、最高のパフォーマンスモデルはしばしば、重要な計算予算を持つ工業研究所によって反対に訓練された非常に大きなモデルであることも観察されている。
本稿では,「パワードライブの逆ロバスト性は,どれくらい長く計算できるのか?」を理解することを目的とする。
この質問に答えるために、我々は将来的に外挿できる「敵の強靭性に関するemph{scaling law}」という法則を導出し、望まれる強靭性レベルに達するのにどれだけの費用を支払わなければならないかを見積もる。
対人訓練に必要となるFLOPの増加は、性能改善の点において、標準的なトレーニングほど有利ではないことを示す。
さらに,トップパフォーマンス手法のいくつかは正確な再現が困難であることから,トレーニング設定の微妙な変更には不十分であることが示唆された。
我々の分析は、将来の研究を追求する価値のある方向も明らかにしている。
最後に、効率的な堅牢なディープラーニングにおける将来の分析を容易にするため、ベンチマークフレームワーク(texttt{timm}~\citep{rw2019timm})を公開しています。 The last six years have witnessed significant progress in adversarially robust deep learning. As evidenced by the CIFAR-10 dataset category in RobustBench benchmark, the accuracy under $\ell_\infty$ adversarial perturbations improved from 44\% in \citet{Madry2018Towards} to 71\% in \citet{peng2023robust}. Although impressive, existing state-of-the-art is still far from satisfactory. It is further observed that best-performing models are often very large models adversarially trained by industrial labs with significant computational budgets. In this paper, we aim to understand: ``how much longer can computing power drive adversarial robustness advances?" To answer this question, we derive \emph{scaling laws for adversarial robustness} which can be extrapolated in the future to provide an estimate of how much cost we would need to pay to reach a desired level of robustness. We show that increasing the FLOPs needed for adversarial training does not bring as much advantage as it does for standard training in terms of performance improvements. Moreover, we find that some of the top-performing techniques are difficult to exactly reproduce, suggesting that they are not robust enough for minor changes in the training setup. Our analysis also uncovers potentially worthwhile directions to pursue in future research. Finally, we make our benchmarking framework (built on top of \texttt{timm}~\citep{rw2019timm}) publicly available to facilitate future analysis in efficient robust deep learning. | 翻訳日:2023-12-21 15:05:52 公開日:2023-12-20 |
# マルチディストリビューション学習のための分布依存率 Distribution-Dependent Rates for Multi-Distribution Learning ( http://arxiv.org/abs/2312.13130v1 ) ライセンス: Link先を確認 | Rafael Hanashiro, Patrick Jaillet | (参考訳) センシティブな機械学習アプリケーションにおけるモデリングの不確実性に対処するために、分散ロバスト最適化(DRO)のセットアップは、様々なタスクに対して一様に優れたパフォーマンスを求める。
近年のMDL(Multi-Distribution Learning)フレームワークは,学習者が各対象分布へのアクセスをサンプリングする環境との動的相互作用において,この目的に対処している。
純爆発多腕バンディットの分野から着想を得て,mdl法において,サブオプティビティギャップとスケールする分布依存的保証を提供し,既存の分布非依存解析と比較して試料サイズへの依存度が高かった。
本研究では, 統一的・一様探索という2つの非適応的手法と, 経験的プロセス理論からの新たなツールを用いた非漸近的後悔境界について検討する。
さらに,多武装バンディット文学における均一性と楽観的アロケーションの対比を反映した適応型楽観的アルゴリズム LCB-DR を考案した。 To address the needs of modeling uncertainty in sensitive machine learning applications, the setup of distributionally robust optimization (DRO) seeks good performance uniformly across a variety of tasks. The recent multi-distribution learning (MDL) framework tackles this objective in a dynamic interaction with the environment, where the learner has sampling access to each target distribution. Drawing inspiration from the field of pure-exploration multi-armed bandits, we provide distribution-dependent guarantees in the MDL regime, that scale with suboptimality gaps and result in superior dependence on the sample size when compared to the existing distribution-independent analyses. We investigate two non-adaptive strategies, uniform and non-uniform exploration, and present non-asymptotic regret bounds using novel tools from empirical process theory. Furthermore, we devise an adaptive optimistic algorithm, LCB-DR, that showcases enhanced dependence on the gaps, mirroring the contrast between uniform and optimistic allocation in the multi-armed bandit literature. | 翻訳日:2023-12-21 15:05:21 公開日:2023-12-20 |
# pixel-to-abundance translation: hyperspectral unmixingのためのパッチトランスフォーマーに基づく条件付き生成逆ネットワーク Pixel-to-Abundance Translation: Conditional Generative Adversarial Networks Based on Patch Transformer for Hyperspectral Unmixing ( http://arxiv.org/abs/2312.13127v1 ) ライセンス: Link先を確認 | Li Wang, Xiaohua Zhang, Longfei Li, Hongyun Meng and Xianghai Cao | (参考訳) スペクトルアンミキシングはハイパースペクトル画像処理において重要な課題である。
既存の未混合法は、過剰分布に関する事前知識を利用して、適切な事前知識の選択と複素正規化最適化の問題の解決が困難となる正規化最適化問題を解く。
これらの問題を解決するために,超スペクトル条件生成逆逆ネットワーク (hypergan) 法を汎用的混合フレームワークとして提案する: 画素から過剰への混合過程は,内部特異的な関係を持つ2つの様相の変換と見なすことができる。
提案するハイパーガンは、ジェネレータと判別器で構成され、前者は、混合超スペクトル画素パッチから対応する中心画素の端部の存在量へのモーダル変換を完了し、後者は、生成した存在量の分布と構造が真のものと同じかどうかを識別するために使用される。
本稿では,hsiパッチを主成分とするハイパースペクトル画像(hsi)パッチトランスを提案し,hsiパッチの内部画素相関をアダプティブアテンションスコアを用いて捉え,空間スペクトル情報を細かな粒度で活用し,未混合プロセスの最適化を実現する。
合成データと実際のハイパースペクトルデータに関する実験は、最先端の競争相手と比較して印象的な結果が得られる。 Spectral unmixing is a significant challenge in hyperspectral image processing. Existing unmixing methods utilize prior knowledge about the abundance distribution to solve the regularization optimization problem, where the difficulty lies in choosing appropriate prior knowledge and solving the complex regularization optimization problem. To solve these problems, we propose a hyperspectral conditional generative adversarial network (HyperGAN) method as a generic unmixing framework, based on the following assumption: the unmixing process from pixel to abundance can be regarded as a transformation of two modalities with an internal specific relationship. The proposed HyperGAN is composed of a generator and discriminator, the former completes the modal conversion from mixed hyperspectral pixel patch to the abundance of corresponding endmember of the central pixel and the latter is used to distinguish whether the distribution and structure of generated abundance are the same as the true ones. We propose hyperspectral image (HSI) Patch Transformer as the main component of the generator, which utilize adaptive attention score to capture the internal pixels correlation of the HSI patch and leverage the spatial-spectral information in a fine-grained way to achieve optimization of the unmixing process. Experiments on synthetic data and real hyperspectral data achieve impressive results compared to state-of-the-art competitors. | 翻訳日:2023-12-21 15:05:00 公開日:2023-12-20 |
# 街路における生成エージェント:都市感収集における大規模言語モデル(LLM)の利用を探る Generative agents in the streets: Exploring the use of Large Language Models (LLMs) in collecting urban perceptions ( http://arxiv.org/abs/2312.13126v1 ) ライセンス: Link先を確認 | Deepank Verma, Olaf Mumm, Vanessa Miriam Carlow | (参考訳) 理解、枠組みの視点、行動反応を予想する環境を評価することは、人間の本質的な特性である。
しかし、これらの継続的な出会いは多様で複雑であり、研究と実験に挑戦する。
研究者は環境の特徴を分離し、人間の知覚と行動への影響を研究することができた。
しかし、仮想媒体やインタビューを統合するなど、プロキシによる人間の行動の再現と研究の試みは相容れない。
大規模言語モデル(llm)は最近、文脈理解と意味的推論の能力として明らかにされている。
これらのモデルは大量のテキストで訓練され、人間の振る舞いを模倣するように進化してきた。
本研究では,LLMを用いたジェネレーションエージェントの現況について,知覚実験の助けを借りて検討する。
実験では、生成エージェントを用いて、ストリートビュー画像を用いて都市環境と対話し、特定の目標に向かっての旅を計画する。
エージェントには仮想的な個性が与えられ、区別できる。
また、思考や重要な視覚情報を記憶し、動きを計画するために必要なときに取り出すための記憶データベースも提供される。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
エージェントはさらに、彼らの安全感と生活意識に基づいて、遭遇する環境を評価するために雇われる。
これらのエージェントはメモリに詳細を格納するので、研究結果に問い合わせて、彼らの思考プロセスの詳細を確認する。
本研究は、都市環境における人間の行動シミュレーションにおける現在のAI開発とその可能性に関する実験である。 Evaluating the surroundings to gain understanding, frame perspectives, and anticipate behavioral reactions is an inherent human trait. However, these continuous encounters are diverse and complex, posing challenges to their study and experimentation. Researchers have been able to isolate environmental features and study their effect on human perception and behavior. However, the research attempts to replicate and study human behaviors with proxies, such as by integrating virtual mediums and interviews, have been inconsistent. Large language models (LLMs) have recently been unveiled as capable of contextual understanding and semantic reasoning. These models have been trained on large amounts of text and have evolved to mimic believable human behavior. This study explores the current advancements in Generative agents powered by LLMs with the help of perceptual experiments. The experiment employs Generative agents to interact with the urban environments using street view images to plan their journey toward specific goals. The agents are given virtual personalities, which make them distinguishable. They are also provided a memory database to store their thoughts and essential visual information and retrieve it when needed to plan their movement. Since LLMs do not possess embodiment, nor have access to the visual realm, and lack a sense of motion or direction, we designed movement and visual modules that help agents gain an overall understanding of surroundings. The agents are further employed to rate the surroundings they encounter based on their perceived sense of safety and liveliness. As these agents store details in their memory, we query the findings to get details regarding their thought processes. Overall, this study experiments with current AI developments and their potential in simulated human behavior in urban environments. | 翻訳日:2023-12-21 15:04:37 公開日:2023-12-20 |
# 量子コンピュータを用いた風力発電機におけるタービン配置最適化手法の検討 Investigating techniques to optimise the layout of turbines in a windfarm using a quantum computer ( http://arxiv.org/abs/2312.13123v1 ) ライセンス: Link先を確認 | James Hancock, Matthew J. Craven, Craig McNeile, Davide Vadacchino | (参考訳) 風力発電機内の風力タービンの最適配置について検討し,二次連立最適化問題 (qubo) に対するシステムマッピングによる電力の最大化について検討した。
量子計算機シミュレータ上での変分量子固有解法 (vqe) を用いたqubo問題の解法について検討し, 古典的最適化法であるシミュレートアニーリング法とグロビ解法との比較を行った。
調査した最大グリッドサイズは4$\times$ 4で、16キュービットが必要です。 We study the optimal placement of wind turbines within a windfarm to maximize the power produced by mapping the system to a Quadratic Unconstrained Binary Optimisation (QUBO) problem. We investigate solving the resulting QUBO problem using the Variational Quantum Eigensolver (VQE) on a quantum computer simulator and compare the results to those from two classical optimisation methods: simulated annealing and the Gurobi solver. The maximum grid size we study is 4 $\times$ 4, which requires 16 qubits. | 翻訳日:2023-12-21 15:04:10 公開日:2023-12-20 |
# Prometheus: AI生成アタックグラフによるインフラストラクチャセキュリティ姿勢分析 Prometheus: Infrastructure Security Posture Analysis with AI-generated Attack Graphs ( http://arxiv.org/abs/2312.13119v1 ) ライセンス: Link先を確認 | Xin Jin, Charalampos Katsis, Fan Sang, Jiahao Sun, Elisa Bertino, Ramana Rao Kompella, Ashish Kundu | (参考訳) サイバーセキュリティ違反の急激な発生は、ネットワークインフラストラクチャの進展に重大な制限を課し、データ漏洩、財政的損失、個人に対する潜在的損害、および本質的なサービスの破壊につながる。
現在のセキュリティ状況では、脆弱性分析を包含し、これらの脆弱性を攻撃経路として活用する可能性を調べる、総合的なセキュリティ評価ソリューションの緊急開発が求められている。
本稿では,コンピューティングインフラストラクチャのセキュリティ状態の詳細な解析を行うための高度なシステムであるPrometheusを提案する。
デバイスの詳細やソフトウェアバージョンなどのユーザが提供する情報を使用して、prometheusは包括的なセキュリティ評価を行う。
この評価には、関連する脆弱性を特定し、敵が悪用できる潜在的な攻撃グラフを構築することが含まれる。
さらに、Prometheusはこれらの攻撃経路の悪用性を評価し、スコアリング機構を通じて全体のセキュリティ姿勢を定量化する。
このシステムは、ハードウェア、システム、ネットワーク、暗号化を含むセキュリティ層を分析することによって、総合的なアプローチを取る。
さらにPrometheusは、これらのレイヤ間の相互接続を掘り下げ、あるレイヤの脆弱性をどのように活用して他のレイヤの脆弱性を悪用するかを探る。
本稿では、prometheusに実装されたエンドツーエンドパイプラインについて、この徹底したセキュリティ分析を行うための体系的アプローチを示す。 The rampant occurrence of cybersecurity breaches imposes substantial limitations on the progress of network infrastructures, leading to compromised data, financial losses, potential harm to individuals, and disruptions in essential services. The current security landscape demands the urgent development of a holistic security assessment solution that encompasses vulnerability analysis and investigates the potential exploitation of these vulnerabilities as attack paths. In this paper, we propose Prometheus, an advanced system designed to provide a detailed analysis of the security posture of computing infrastructures. Using user-provided information, such as device details and software versions, Prometheus performs a comprehensive security assessment. This assessment includes identifying associated vulnerabilities and constructing potential attack graphs that adversaries can exploit. Furthermore, Prometheus evaluates the exploitability of these attack paths and quantifies the overall security posture through a scoring mechanism. The system takes a holistic approach by analyzing security layers encompassing hardware, system, network, and cryptography. Furthermore, Prometheus delves into the interconnections between these layers, exploring how vulnerabilities in one layer can be leveraged to exploit vulnerabilities in others. In this paper, we present the end-to-end pipeline implemented in Prometheus, showcasing the systematic approach adopted for conducting this thorough security analysis. | 翻訳日:2023-12-21 15:04:00 公開日:2023-12-20 |
# LRS:リプシッツ規則化サロゲートによる対向移動性の向上 LRS: Enhancing Adversarial Transferability through Lipschitz Regularized Surrogate ( http://arxiv.org/abs/2312.13118v1 ) ライセンス: Link先を確認 | Tao Wu, Tie Luo, and Donald C. Wunsch | (参考訳) 攻撃例の転送性は、転送ベースのブラックボックス攻撃において重要となる。
移動可能な逆数例を生成するための従来の研究は、事前訓練された代理モデルの攻撃に焦点をあてる一方で、代理モデルと逆数トラスフェラビリティの接続は見過ごされている。
本稿では,トランスファーベースブラックボックス攻撃に対するリプシッツ正規化サロゲート(LRS)を提案する。
このような変換されたサロゲートモデルを使用すると、既存の転送ベースのブラックボックス攻撃は変更なしに実行できるが、パフォーマンスははるかに向上する。
具体的には、サロゲートモデルの損失状況にリプシッツ正規化を課し、よりスムーズで制御された最適化プロセスにより、より移動可能な逆例を生成する。
さらに,シュロゲートモデルの内部特性と,より小さな局所リプシッツ定数,より滑らかなロスランドスケープ,より強い対向ロバスト性という3つの要因が同定される対向移動性との関係についても光を当てる。
提案手法は,最先端のディープニューラルネットワークと防御モデルに対して攻撃することで評価する。
その結果,攻撃成功率と移動性に有意な改善が認められた。
私たちのコードはhttps://github.com/TrustAIoT/LRS.comで公開されています。 The transferability of adversarial examples is of central importance to transfer-based black-box adversarial attacks. Previous works for generating transferable adversarial examples focus on attacking \emph{given} pretrained surrogate models while the connections between surrogate models and adversarial trasferability have been overlooked. In this paper, we propose {\em Lipschitz Regularized Surrogate} (LRS) for transfer-based black-box attacks, a novel approach that transforms surrogate models towards favorable adversarial transferability. Using such transformed surrogate models, any existing transfer-based black-box attack can run without any change, yet achieving much better performance. Specifically, we impose Lipschitz regularization on the loss landscape of surrogate models to enable a smoother and more controlled optimization process for generating more transferable adversarial examples. In addition, this paper also sheds light on the connection between the inner properties of surrogate models and adversarial transferability, where three factors are identified: smaller local Lipschitz constant, smoother loss landscape, and stronger adversarial robustness. We evaluate our proposed LRS approach by attacking state-of-the-art standard deep neural networks and defense models. The results demonstrate significant improvement on the attack success rates and transferability. Our code is available at https://github.com/TrustAIoT/LRS. | 翻訳日:2023-12-21 15:03:39 公開日:2023-12-20 |
# VSR-Net:グラフクラスタリングによる容器型構造リハビリテーションネットワーク VSR-Net: Vessel-like Structure Rehabilitation Network with Graph Clustering ( http://arxiv.org/abs/2312.13116v1 ) ライセンス: Link先を確認 | Haili Ye, Xiaoqing Zhang, Yan Hu, Huazhu Fu and Jiang Liu | (参考訳) 血管や神経繊維のような血管構造の形態は、パーキンソン病などの病気の診断において重要な役割を果たしている。
深層ネットワークに基づく精細化分割法は,最近,有望な船体構造セグメンテーションの結果を得た。
1) 既存の手法では, セグメント状構造物の断裂の修復に限界があり, (2) 予測された分節化結果では過度に信頼できないことが多い。
この2つの課題に対処するために, 構造再生の観点から, サブセクション断裂の空間的相互関係の可能性を活用することを試みた。
そこで本研究では,断裂の修復と粗い管状構造区分結果に基づくモデルキャリブレーションの改善を目的とした新しい血管状構造リハビリテーションネットワーク (vsr-net) を提案する。
VSR-NetはまずCurvilinear Clustering Module (CCM)を用いてサブセクションの破断クラスタを構築する。
次に、よく設計されたCurvilinear Merging Module (CMM)を適用して、断面破断を修復し、精製された容器状構造を得る。
5つの2D/3D医用画像データセットの大規模な実験により、VSR-Netはキャリブレーション誤差の低いSOTA(State-of-the-art)精細化法よりも大幅に優れていた。
さらに,SOTA法とGT法より小さいVSR-Netと地上真理(GT)の再生結果のモルフォロジー的差異を定量的に解析し,本手法が下段断裂を回復することにより血管構造を回復することを示す。 The morphologies of vessel-like structures, such as blood vessels and nerve fibres, play significant roles in disease diagnosis, e.g., Parkinson's disease. Deep network-based refinement segmentation methods have recently achieved promising vessel-like structure segmentation results. There are still two challenges: (1) existing methods have limitations in rehabilitating subsection ruptures in segmented vessel-like structures; (2) they are often overconfident in predicted segmentation results. To tackle these two challenges, this paper attempts to leverage the potential of spatial interconnection relationships among subsection ruptures from the structure rehabilitation perspective. Based on this, we propose a novel Vessel-like Structure Rehabilitation Network (VSR-Net) to rehabilitate subsection ruptures and improve the model calibration based on coarse vessel-like structure segmentation results. VSR-Net first constructs subsection rupture clusters with Curvilinear Clustering Module (CCM). Then, the well-designed Curvilinear Merging Module (CMM) is applied to rehabilitate the subsection ruptures to obtain the refined vessel-like structures. Extensive experiments on five 2D/3D medical image datasets show that VSR-Net significantly outperforms state-of-the-art (SOTA) refinement segmentation methods with lower calibration error. Additionally, we provide quantitative analysis to explain the morphological difference between the rehabilitation results of VSR-Net and ground truth (GT), which is smaller than SOTA methods and GT, demonstrating that our method better rehabilitates vessel-like structures by restoring subsection ruptures. | 翻訳日:2023-12-21 15:03:14 公開日:2023-12-20 |
# ChatGPTとPromptエンジニアリングに基づく高速開発のための新しいアプローチ A Novel Approach for RapidDevelopment Based on ChatGPT and Prompt Engineering ( http://arxiv.org/abs/2312.13115v1 ) ライセンス: Link先を確認 | Youjia Li, Jianjun Shi, Zheng Zhang | (参考訳) コード生成は、現代のソフトウェア開発における強力な技術であり、開発効率を改善し、エラーを減らし、標準化と一貫性を育む。
近年、ChatGPTは自動コード生成において大きな可能性を秘めている。
しかし、コード生成に関する既存の研究は、実用的なソフトウェア開発プロセスのガイダンスを欠いている。
本研究では、ChatGPTを利用して、ユーザインターフェース、Prompt Builder、バックエンドサービスといった主要なコンポーネントからなるWebベースのコード生成プラットフォームを開発しました。
具体的には、Prompt Builderはモデル生成性能を向上させるための包括的なプロンプトを動的に生成する。
その結果,1) Prompt Builderは有効であり,EMが65.06%,BLEUが38.45%,CodeBLEUが15.70%,Pass@1が50.64%向上した。
2) 実際の開発シナリオでは,テストケースの98.5%が手作業による検証によって検証され,ChatGPTベースのコード生成アプローチによる真の支援が強調される。 Code generation stands as a powerful technique in modern software development, improving development efficiency, reducing errors, and fostering standardization and consistency. Recently, ChatGPT has exhibited immense potential in automatic code generation. However, existing researches on code generation lack guidance for practical software development process. In this study, we utilized ChatGPT to develop a web-based code generation platform consisting of key components: User Interface, Prompt Builder and Backend Service. Specifically, Prompt Builder dynamically generated comprehensive prompts to enhance model generation performance. We conducted experiments on 2 datasets, evaluating the generated code through 8 widely used metrics.The results demonstrate that (1) Our Prompt Builder is effective, resulting in a 65.06% improvement in EM, a 38.45% improvement in BLEU, a 15.70% improvement in CodeBLEU, and a 50.64% improvement in Pass@1. (2) In real development scenarios, 98.5% of test cases can be validated through manual validation, highlighting the genuine assistance provided by the ChatGPT-based code generation approach. | 翻訳日:2023-12-21 15:02:48 公開日:2023-12-20 |
# 計算色構成の観点からみた色錯覚の研究 Investigating Color Illusions from the Perspective of Computational Color Constancy ( http://arxiv.org/abs/2312.13114v1 ) ライセンス: Link先を確認 | Oguzhan Ulucan, Diclehan Ulucan, Marc Ebner | (参考訳) 色一致と色覚知覚は、人間の視覚系で起こる2つの現象であり、人間の知覚の未知のメカニズムを明らかにするのに役立つ。
何十年もの間、コンピュータビジョンの科学者は、照明剤を割引することで表面の反射率を推定する多くの色構成法を開発してきた。
しかし、色錯覚は計算色コンステンシーの分野では詳細には分析されていないが、それらが共有する関係が重要であり、より強固なシステムを設計することができるので驚きである。
色覚の感覚を再現できるモデルは、光源のピクセル単位での推定も可能であるべきだと我々は主張する。
言い換えると、カラーイリュージョンの分析は、既存のグローバルカラーコンステンシー法の性能を向上させるのに役立ち、複数の光源によって照らされたシーンのピクセル単位での見積もりを可能にすることを提案している。
本研究では,カラーイリュージョンにおける人間の視覚系の挙動を再現するために,複数の色の安定度法を応用した研究結果を共有した。
また,錯覚から純粋に抽出されたパラメータは,色彩コンステンシー法の性能を向上させることができることを示した。
注目すべき成果は,カラーイリュージョンの研究に基づく戦略が,グローバルカラーコンステンシーアルゴリズムを多色アルゴリズムに変換するために特別に設計された最先端手法に勝ることである。 Color constancy and color illusion perception are two phenomena occurring in the human visual system, which can help us reveal unknown mechanisms of human perception. For decades computer vision scientists have developed numerous color constancy methods, which estimate the reflectance of the surface by discounting the illuminant. However, color illusions have not been analyzed in detail in the field of computational color constancy, which we find surprising since the relationship they share is significant and may let us design more robust systems. We argue that any model that can reproduce our sensation on color illusions should also be able to provide pixel-wise estimates of the light source. In other words, we suggest that the analysis of color illusions helps us to improve the performance of the existing global color constancy methods, and enable them to provide pixel-wise estimates for scenes illuminated by multiple light sources. In this study, we share the outcomes of our investigation in which we take several color constancy methods and modify them to reproduce the behavior of the human visual system on color illusions. Also, we show that parameters purely extracted from illusions are able to improve the performance of color constancy methods. A noteworthy outcome is that our strategy based on the investigation of color illusions outperforms the state-of-the-art methods that are specifically designed to transform global color constancy algorithms into multi-illuminant algorithms. | 翻訳日:2023-12-21 15:02:31 公開日:2023-12-20 |
# stablekd: 安定な知識蒸留のためのブロック間最適化の絡み合い StableKD: Breaking Inter-block Optimization Entanglement for Stable Knowledge Distillation ( http://arxiv.org/abs/2312.13223v1 ) ライセンス: Link先を確認 | Shiu-hong Kao, Jierun Chen, S.H. Gary Chan | (参考訳) 知識蒸留(KD)はモデルを圧縮・加速する有効なツールとして認識されている。
しかし、現在のkdアプローチは、一般的に精度の低下や、非常に長い蒸留プロセスに苦しむ。
本稿では,従来のKDアプローチをノイズ勾配で不安定にするIBOE(Inter-Block Optimization Entanglement)と呼ばれる現象について,まず新たな知見を提供することにより,この問題に対処する。
そして、IBOEを破り、より安定した最適化を実現する新しいKDフレームワークであるStableKDを提案する。
stablekdは、教師と生徒の2つのネットワークを分離蒸留のために複数のブロックに分け、後者は徐々に融合し、エンドツーエンド蒸留へと進化する分解と再結合である。
CIFAR100, Imagewoof, ImageNetの様々な教師と学生のペアによる大規模な実験を行った。
他のKD手法と比較して、我々の単純で効果的なStableKDはモデルの精度を1%から18%大きく向上させ、収束を最大10倍に高速化し、トレーニングデータのわずか40%でそれらを上回ります。 Knowledge distillation (KD) has been recognized as an effective tool to compress and accelerate models. However, current KD approaches generally suffer from an accuracy drop and/or an excruciatingly long distillation process. In this paper, we tackle the issue by first providing a new insight into a phenomenon that we call the Inter-Block Optimization Entanglement (IBOE), which makes the conventional end-to-end KD approaches unstable with noisy gradients. We then propose StableKD, a novel KD framework that breaks the IBOE and achieves more stable optimization. StableKD distinguishes itself through two operations: Decomposition and Recomposition, where the former divides a pair of teacher and student networks into several blocks for separate distillation, and the latter progressively merges them back, evolving towards end-to-end distillation. We conduct extensive experiments on CIFAR100, Imagewoof, and ImageNet datasets with various teacher-student pairs. Compared to other KD approaches, our simple yet effective StableKD greatly boosts the model accuracy by 1% ~ 18%, speeds up the convergence up to 10 times, and outperforms them with only 40% of the training data. | 翻訳日:2023-12-21 14:56:33 公開日:2023-12-20 |
# LlaMaVAE: 継続潜在文空間による大規模言語モデル生成を支援する LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces ( http://arxiv.org/abs/2312.13208v1 ) ライセンス: Link先を確認 | Yingji Zhang, Danilo S. Carvalho, Ian Pratt-Hartmann, Andr\'e Freitas | (参考訳) 変分オートエンコーダ(vaes)のような深層生成型ニューラルネットワークは、文レベルの潜在空間の観点から言語モデルの理解と制御を改善する機会を提供する。
本稿では, VAEラテント空間の制御性と最近の大規模言語モデル(LLM)の最先端性能を両立させるため, 表現型エンコーダモデルとデコーダモデル(SentenceT5, LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
さらに,VAE生成を条件付きガイドするために,フローベース可逆ニューラルネットワーク(INN)に基づく新しいアプローチであるInvertible CVAEを検討した。
実験の結果、LlaMaVAEは、言語モデリング、意味的テキストの類似性、定義モデリングなど、様々なタスクにおいて、従来の最先端のVAE言語モデルであるOptimusよりも優れていることがわかった。
補間およびトラバース実験に関する定性的解析は、より優れた生成制御を可能にする意味的クラスタリングと幾何的整合性の増大を示す。 Deep generative neural networks, such as Variational AutoEncoders (VAEs), offer an opportunity to better understand and control language models from the perspective of sentence-level latent spaces. To combine the controllability of VAE latent spaces with the state-of-the-art performance of recent large language models (LLMs), we present in this work LlaMaVAE, which combines expressive encoder and decoder models (sentenceT5 and LlaMA) with a VAE architecture, aiming to provide better text generation control to LLMs. In addition, to conditionally guide the VAE generation, we investigate a new approach based on flow-based invertible neural networks (INNs) named Invertible CVAE. Experimental results reveal that LlaMaVAE can outperform the previous state-of-the-art VAE language model, Optimus, across various tasks, including language modelling, semantic textual similarity and definition modelling. Qualitative analysis on interpolation and traversal experiments also indicates an increased degree of semantic clustering and geometric consistency, which enables better generation control. | 翻訳日:2023-12-21 14:56:13 公開日:2023-12-20 |
# ancilla qubits を伴わない多対数奥行き制御なしゲート Polylogarithmic-depth controlled-NOT gates without ancilla qubits ( http://arxiv.org/abs/2312.13206v1 ) ライセンス: Link先を確認 | Baptiste Claudon, Julien Zylberman, C\'esar Feniou, Fabrice Debbasch, Alberto Peruzzo, Jean-Philip Piquemal | (参考訳) 制御された操作は量子アルゴリズムの基本構成要素である。
n$-control-not ゲート(c^n(x)$) を任意のシングルキュービットと cnot ゲートに分解することは、重要ではあるが非自明な作業である。
本研究は、漸近的および非漸近的レジームにおいて、従来の方法に匹敵する$c^n(x)$回路を導入する。
回路深度$\Theta\left(\log(n)^{\log_2(12)}\right)$、回路深度$\mathcal O \left(\log(n)^{\log_2(12)}\log(1/\epsilon)\right)$、m\leq n$ ancilla qubitsを用いた調整可能な深度回路を持つ正確なもの。
その結果生じる指数関数的スピードアップは、量子化学から物理学、ファイナンス、量子機械学習に至るまで、無数の量子アルゴリズムの複雑さを改善することによって、フォールトトレラントな量子コンピューティングに大きな影響を与える可能性がある。 Controlled operations are fundamental building blocks of quantum algorithms. Decomposing $n$-control-NOT gates ($C^n(X)$) into arbitrary single-qubit and CNOT gates, is a crucial but non-trivial task. This study introduces $C^n(X)$ circuits outperforming previous methods in the asymptotic and non-asymptotic regimes. Three distinct decompositions are presented: an exact one using one borrowed ancilla with a circuit depth $\Theta\left(\log(n)^{\log_2(12)}\right)$, an approximating one without ancilla qubits with a circuit depth $\mathcal O \left(\log(n)^{\log_2(12)}\log(1/\epsilon)\right)$ and an exact one with an adjustable-depth circuit using $m\leq n$ ancilla qubits. The resulting exponential speedup is likely to have a substantial impact on fault-tolerant quantum computing by improving the complexities of countless quantum algorithms with applications ranging from quantum chemistry to physics, finance and quantum machine learning. | 翻訳日:2023-12-21 14:55:49 公開日:2023-12-20 |
# HCDIR:オンラインコメントにおけるエンド・ツー・エンドのヘイトコンテキスト検出とインテンシティ低減モデル HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model for online comments ( http://arxiv.org/abs/2312.13193v1 ) ライセンス: Link先を確認 | Neeraj Kumar Singh, Koyel Ghosh, Joy Mahapatra, Utpal Garain, Apurbalal Senapati | (参考訳) 警告: 本論文では,攻撃的と思われる言語の例を紹介する。
憎しみ、虐待的、不快なコメントの検出と削減は、ソーシャルメディアにおける批判的かつ挑戦的なタスクである。
さらに、ヘイトスピーチの強度を緩和する研究はほとんどない。
文脈レベルのセマンティクスは嫌悪なコメントを検出するために重要であることが研究によって示されているが、この研究のほとんどは利用可能な豊富なデータセットのために英語に焦点を当てている。
対照的に、インドの言語のような低リソース言語は、限られたデータセットのため、未調査のままである。
ヘイトスピーチ検出とは対照的に、ハイリソース言語や低リソース言語では、ヘイトインテンシティ低減は未検討のままである。
本稿では,ソーシャルメディア投稿におけるHate Context DetectionとHate Intensity Reductionのための新しいエンドツーエンドモデル HCDIR を提案する。
まず,複数の事前学習された言語モデルを微調整し,ヘイトフルコメントを検出する。
そして、文脈的憎しみのある単語を特定した。
このような憎しみのある単語の同定は、最先端の説明可能な学習モデル、すなわち統合グラディエント(IG)によって正当化される。
最後に、Masked Language Modeling (MLM)モデルは、ヘイト強度を減らすためにドメイン固有のニュアンスをキャプチャするために使用される。
ヘイトフルと特定されたコメントの50-%の憎悪語をマスキングし、説得力のある文を生成するためにこれらのマスキング語の代替語を予測した。
実行可能な文から元のヘイトコメントを最適に置き換えることが望ましい。
自動メトリックベース評価(bertscore)と徹底的な人間評価を用いて、最近のいくつかのデータセットで広範な実験が行われている。
人間の評価における忠実さを高めるため,様々な専門知識を持つ3人のアノテータのグループを配置した。 Warning: This paper contains examples of the language that some people may find offensive. Detecting and reducing hateful, abusive, offensive comments is a critical and challenging task on social media. Moreover, few studies aim to mitigate the intensity of hate speech. While studies have shown that context-level semantics are crucial for detecting hateful comments, most of this research focuses on English due to the ample datasets available. In contrast, low-resource languages, like Indian languages, remain under-researched because of limited datasets. Contrary to hate speech detection, hate intensity reduction remains unexplored in high-resource and low-resource languages. In this paper, we propose a novel end-to-end model, HCDIR, for Hate Context Detection, and Hate Intensity Reduction in social media posts. First, we fine-tuned several pre-trained language models to detect hateful comments to ascertain the best-performing hateful comments detection model. Then, we identified the contextual hateful words. Identification of such hateful words is justified through the state-of-the-art explainable learning model, i.e., Integrated Gradient (IG). Lastly, the Masked Language Modeling (MLM) model has been employed to capture domain-specific nuances to reduce hate intensity. We masked the 50\% hateful words of the comments identified as hateful and predicted the alternative words for these masked terms to generate convincing sentences. An optimal replacement for the original hate comments from the feasible sentences is preferred. Extensive experiments have been conducted on several recent datasets using automatic metric-based evaluation (BERTScore) and thorough human evaluation. To enhance the faithfulness in human evaluation, we arranged a group of three human annotators with varied expertise. | 翻訳日:2023-12-21 14:55:20 公開日:2023-12-20 |
# 超共形量子力学の変換スペクトル生成代数と検出可能なパラ統計学 Transmuted spectrum-generating algebras and detectable parastatistics of the Superconformal Quantum Mechanics ( http://arxiv.org/abs/2312.13191v1 ) ライセンス: Link先を確認 | Francesco Toppan | (参考訳) 最近の論文 (Balbino-de Freitas-Rana-FT, arXiv:2309.00965) では、超対称量子力学のスーパーチャージが統計的に変換され、$Z_2^n$-graded parastatistics に収容できることが証明された。
この講演では、${\cal N}=2$ Superconformal Quantum Mechanicsの6=1+2+3$変換スペクトル生成代数(それぞれ$Z_2^n$グレーディングは$n=0,1,2$)を導いた。
これらのスペクトル生成代数は、デ・アルファロ・フビニ・フルラン変形振動子の対応する多粒子セクター、すなわち各エネルギーレベルの退化を計算できる。
z_2\times z_2$-graded paraparticles によって引き起こされるレベルは通常のボソン/フェルミオン統計では再現できない。
これは、$Z_2\times Z_2$-graded parastatisticsの理論的な検出可能性を意味する。 In a recent paper (Balbino-de Freitas-Rana-FT, arXiv:2309.00965) we proved that the supercharges of the supersymmetric quantum mechanics can be statistically transmuted and accommodated into a $Z_2^n$-graded parastatistics. In this talk I derive the $6=1+2+3$ transmuted spectrum-generating algebras (whose respective $Z_2^n$ gradings are $n=0,1,2$) of the ${\cal N}=2$ Superconformal Quantum Mechanics. These spectrum-generating algebras allow to compute, in the corresponding multiparticle sectors of the de Alfaro-Fubini-Furlan deformed oscillator, the degeneracies of each energy level. The levels induced by the $Z_2\times Z_2$-graded paraparticles cannot be reproduced by the ordinary bosons/fermions statistics. This implies the theoretical detectability of the $Z_2\times Z_2$-graded parastatistics. | 翻訳日:2023-12-21 14:54:47 公開日:2023-12-20 |
# クリフォード量子セルオートマトンによる計測に基づく量子計算 Measurement-based quantum computation from Clifford quantum cellular automata ( http://arxiv.org/abs/2312.13185v1 ) ライセンス: Link先を確認 | Hendrik Poulsen Nautrup and Hans J. Briegel | (参考訳) 測定ベースの量子計算(MBQC)は、適切に絡み合った資源状態の局所的な測定によって計算を駆動する量子計算のパラダイムである。
本研究では,MBQCがクリフォード量子セルオートマトン(CQCA)に基づく量子計算モデルと関連していることを示す。
具体的には、特定のMBQCをCQCAから直接構築することができ、CQCAに基づく量子計算の観点でMBQCの単純で直感的な回路モデル表現が得られることを示す。
この記述をパラメータ化された量子回路のための様々なmbqcベースのans\"atzeの構築に適用し、異なるans\"atzeが異なる学習タスクで著しく異なるパフォーマンスをもたらすことを実証する。
このようにして、MBQCは特定の問題設定に適応し、中性原子のような翻訳的に不変なゲートを持つアーキテクチャに特に適するハードウェア効率の良いAns\atzeの族を生成する。 Measurement-based quantum computation (MBQC) is a paradigm for quantum computation where computation is driven by local measurements on a suitably entangled resource state. In this work we show that MBQC is related to a model of quantum computation based on Clifford quantum cellular automata (CQCA). Specifically, we show that certain MBQCs can be directly constructed from CQCAs which yields a simple and intuitive circuit model representation of MBQC in terms of quantum computation based on CQCA. We apply this description to construct various MBQC-based Ans\"atze for parameterized quantum circuits, demonstrating that the different Ans\"atze may lead to significantly different performances on different learning tasks. In this way, MBQC yields a family of Hardware-efficient Ans\"atze that may be adapted to specific problem settings and is particularly well suited for architectures with translationally invariant gates such as neutral atoms. | 翻訳日:2023-12-21 14:54:29 公開日:2023-12-20 |
# 言語モデルを用いた機械翻訳における文脈コードスイッチング Contextual Code Switching for Machine Translation using Language Models ( http://arxiv.org/abs/2312.13179v1 ) ライセンス: Link先を確認 | Arshad Kaji, Manan Shah | (参考訳) 大規模言語モデル(LLM)は近年,多様な言語関連タスクに多大な影響を与えている。
実証された最先端のパフォーマンスは、ゼロショットや少数ショットプロンプトのような方法論によって達成される。
これらのモデルは、インターネットのセグメントを含む広範なデータセットをトレーニングし、その後、特定のタスクに合わせて微調整を行う。
特に、翻訳、要約、質問応答、創造的な文章などのタスクにおいて、特定のタスクに対する明示的な訓練がなくても、習熟度を示す。
彼らは多言語タスクの大幅な改善を示したが、コードの切り替え、特に機械翻訳におけるパフォーマンスは、比較的未解決のままである。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
その結果,llmは特定のタスクにおいて有望な結果をもたらすが,機械翻訳タスクでは,比較的少ない複雑性のモデルの方が多言語大言語モデルよりも優れていることがわかった。
コンテキストスイッチングにおける多言語大言語モデルの有効性は,そのトレーニング手法によって制約されると考えられる。
対照的に、比較的小さなモデルでは、ベスポークデータセットを訓練し、微調整すると、多言語モデルよりも優れた結果が得られる。 Large language models (LLMs) have exerted a considerable impact on diverse language-related tasks in recent years. Their demonstrated state-of-the-art performance is achieved through methodologies such as zero-shot or few-shot prompting. These models undergo training on extensive datasets that encompass segments of the Internet and subsequently undergo fine-tuning tailored to specific tasks. Notably, they exhibit proficiency in tasks such as translation, summarization, question answering, and creative writing, even in the absence of explicit training for those particular tasks. While they have shown substantial improvement in the multilingual tasks their performance in the code switching, especially for machine translation remains relatively uncharted. In this paper, we present an extensive study on the code switching task specifically for the machine translation task comparing multiple LLMs. Our results indicate that despite the LLMs having promising results in the certain tasks, the models with relatively lesser complexity outperform the multilingual large language models in the machine translation task. We posit that the efficacy of multilingual large language models in contextual code switching is constrained by their training methodologies. In contrast, relatively smaller models, when trained and fine-tuned on bespoke datasets, may yield superior results in comparison to the majority of multilingual models. | 翻訳日:2023-12-21 14:54:12 公開日:2023-12-20 |
# 観測データによる多段階選択問題の学習フェアポリシー Learning Fair Policies for Multi-stage Selection Problems from Observational Data ( http://arxiv.org/abs/2312.13173v1 ) ライセンス: Link先を確認 | Zhuangzhuang Jia, Grani A. Hanasusanto, Phebe Vayanos and Weijun Xie | (参考訳) 観察データから多段階選択問題に対する公平な政策の学習の問題を考える。
この問題は、企業の雇用、ローンの承認、あるいは、成果(キャリアの成功、ローンの返済、再分配など)が選ばれた場合にのみ観察されるような保釈決定など、いくつかの高い領域で発生する。
本稿では,人口格差や平等機会など,様々な公平性制約で拡張可能な多段階フレームワークを提案する。
この問題は、未知の共変量と結果のジョイント分布を含む非常に難解な無限の確率制約付きプログラムである。
選択決定が人々の生活や生活に与える影響を動機付け, 解釈可能な線形選択規則に着目することを提案する。
因果推論とサンプル平均近似のツールを活用して, 標準解法を用いて解くことができる混合二項円錐最適化問題を解くことにより, この選択問題に対する漸近的一貫性のある解を求める。
UCIレポジトリから適応した様々なデータセットに関する広範な計算実験を行い、提案手法が既存の選択ポリシーと比較して11.6%の精度向上と38%の不公平度を達成できることを示した。 We consider the problem of learning fair policies for multi-stage selection problems from observational data. This problem arises in several high-stakes domains such as company hiring, loan approval, or bail decisions where outcomes (e.g., career success, loan repayment, recidivism) are only observed for those selected. We propose a multi-stage framework that can be augmented with various fairness constraints, such as demographic parity or equal opportunity. This problem is a highly intractable infinite chance-constrained program involving the unknown joint distribution of covariates and outcomes. Motivated by the potential impact of selection decisions on people's lives and livelihoods, we propose to focus on interpretable linear selection rules. Leveraging tools from causal inference and sample average approximation, we obtain an asymptotically consistent solution to this selection problem by solving a mixed binary conic optimization problem, which can be solved using standard off-the-shelf solvers. We conduct extensive computational experiments on a variety of datasets adapted from the UCI repository on which we show that our proposed approaches can achieve an 11.6% improvement in precision and a 38% reduction in the measure of unfairness compared to the existing selection policy. | 翻訳日:2023-12-21 14:53:54 公開日:2023-12-20 |
# 脳誘発視覚オドメトリー:システムアプローチによる速度と解釈可能性のバランス Brain-Inspired Visual Odometry: Balancing Speed and Interpretability through a System of Systems Approach ( http://arxiv.org/abs/2312.13162v1 ) ライセンス: Link先を確認 | Habib Boloorchi Tabrizi, Christopher Crick | (参考訳) 本研究では,自律走行とロボット工学の分野における重要な側面である視覚計測システム(VO)の解釈性を保ちながら,速度と精度のバランスをとるという重要な課題に対処する。
従来のvoシステムは計算速度とポーズ推定の精度のトレードオフに直面することが多い。
この問題に対処するために,従来のVO手法と具体化された完全連結ネットワーク(FCN)を相乗的に組み合わせた革新的なシステムを導入する。
本システムは,各自由度をFCN内で独立に扱うアプローチに特有であり,解釈可能性を高めるために因果推論に強く重点を置いている。
これにより、様々な自由度で相対ポーズ誤差(RPE)を詳細に正確に評価することができ、異なる環境におけるパラメータの変動や動きのダイナミクスをより包括的に理解することができる。
特に,本システムは精度を損なうことなく処理速度を著しく向上させる。
特定のシナリオでは、最大で最大5%のRoot Mean Square Error(RMSE)を削減し、VO研究で長い間制限されてきた速度と精度のギャップを効果的に埋める能力を示している。
この進歩は、より効率的で信頼性の高いVOシステムを開発するための重要な一歩であり、リアルタイムナビゲーションやロボットシステムに広く応用されている。 In this study, we address the critical challenge of balancing speed and accuracy while maintaining interpretablity in visual odometry (VO) systems, a pivotal aspect in the field of autonomous navigation and robotics. Traditional VO systems often face a trade-off between computational speed and the precision of pose estimation. To tackle this issue, we introduce an innovative system that synergistically combines traditional VO methods with a specifically tailored fully connected network (FCN). Our system is unique in its approach to handle each degree of freedom independently within the FCN, placing a strong emphasis on causal inference to enhance interpretability. This allows for a detailed and accurate assessment of relative pose error (RPE) across various degrees of freedom, providing a more comprehensive understanding of parameter variations and movement dynamics in different environments. Notably, our system demonstrates a remarkable improvement in processing speed without compromising accuracy. In certain scenarios, it achieves up to a 5% reduction in Root Mean Square Error (RMSE), showcasing its ability to effectively bridge the gap between speed and accuracy that has long been a limitation in VO research. This advancement represents a significant step forward in developing more efficient and reliable VO systems, with wide-ranging applications in real-time navigation and robotic systems. | 翻訳日:2023-12-21 14:53:30 公開日:2023-12-20 |
# 事故GPT:マルチモーダル大モデルによるV2X環境認識の事故解析と防止 AccidentGPT: Accident analysis and prevention from V2X Environmental Perception with Multi-modal Large Model ( http://arxiv.org/abs/2312.13156v1 ) ライセンス: Link先を確認 | Lening Wang, Han Jiang, Pinlong Cai, Daocheng Fu, Tianqi Wang, Zhiyong Cui, Yilong Ren, Haiyang Yu, Xuesong Wang, Yinhai Wang | (参考訳) 交通事故は、人的被害と財産の被害の両方に重要な貢献をするものであり、交通安全の分野で多くの研究者が研究の焦点となっている。
しかし、従来の研究では、静的環境アセスメントや動的運転分析、事故前予測や事故後ルール分析に焦点をあてた研究は、通常は孤立して行われている。
交通安全の包括的な理解と応用を開発するための効果的な枠組みが欠如している。
このギャップに対処するために,本研究では,総合的な事故解析とマルチモーダル大モデルであるAccidentGPTを紹介する。
事故GPTは,交通安全分野における事故解析と防止に対する総合的なアプローチを可能にする,マルチセンサ認識に基づくマルチモーダル情報インタラクションフレームワークを確立する。
具体的には, 自律走行車では, 総合的な環境認識と, 車両の制御と衝突回避のための理解を提供する。
人間の運転する車両では、プロアクティブな長距離安全警告と盲点警報を提供すると同時に、人間と機械の対話と対話を通じて安全運転の推奨と行動規範を提供する。
さらに,交通警察や交通管理機関では,歩行者,車両,道路,環境などを含む交通安全のインテリジェントかつリアルタイムな分析を,複数の車両や道路試験装置からの協調的な認識を通じて支援している。
このシステムはまた、車両衝突後の事故原因と責任を徹底的に分析することができる。
我々のフレームワークは交通安全研究に総合的なシーン理解を統合する最初の大規模モデルである。 Traffic accidents, being a significant contributor to both human casualties and property damage, have long been a focal point of research for many scholars in the field of traffic safety. However, previous studies, whether focusing on static environmental assessments or dynamic driving analyses, as well as pre-accident predictions or post-accident rule analyses, have typically been conducted in isolation. There has been a lack of an effective framework for developing a comprehensive understanding and application of traffic safety. To address this gap, this paper introduces AccidentGPT, a comprehensive accident analysis and prevention multi-modal large model. AccidentGPT establishes a multi-modal information interaction framework grounded in multi-sensor perception, thereby enabling a holistic approach to accident analysis and prevention in the field of traffic safety. Specifically, our capabilities can be categorized as follows: for autonomous driving vehicles, we provide comprehensive environmental perception and understanding to control the vehicle and avoid collisions. For human-driven vehicles, we offer proactive long-range safety warnings and blind-spot alerts while also providing safety driving recommendations and behavioral norms through human-machine dialogue and interaction. Additionally, for traffic police and management agencies, our framework supports intelligent and real-time analysis of traffic safety, encompassing pedestrian, vehicles, roads, and the environment through collaborative perception from multiple vehicles and road testing devices. The system is also capable of providing a thorough analysis of accident causes and liability after vehicle collisions. Our framework stands as the first large model to integrate comprehensive scene understanding into traffic safety studies. | 翻訳日:2023-12-21 14:53:07 公開日:2023-12-20 |
# 不均一データ融合のためのgappy local conformal auto-encoder:in praise of rigidity Gappy local conformal auto-encoders for heterogeneous data fusion: in praise of rigidity ( http://arxiv.org/abs/2312.13155v1 ) ライセンス: Link先を確認 | Erez Peterfreund, Iryna Burak, Ofir Lindenbaum, Jim Gimlett, Felix Dietrich, Ronald R. Coifman, Ioannis G. Kevrekidis | (参考訳) 複数の、異質な部分的な源からの計測を融合させ、共通の物体やプロセスを観察し、数やセンサーの種類の増加による課題を提起する。
本稿では,このタスクのためのマルチオートエンコーダニューラルネットワークアーキテクチャとして,エンドツーエンドの計算パイプラインを提案し,実装し,検証する。
パイプラインへの入力はいくつかの部分的な観測であり、その結果はグローバルに一貫した潜在空間となり、すべての測定値に調和(安定化、融合)する。
鍵となるイネーブルは、各インスタンスの複数のわずかな摂動測定(ローカル測定、"バースト")が利用可能であり、各機器によって引き起こされる局所歪みを推定することができる。
簡単な2次元データセットから始まり、Wi-Fiローカライゼーション問題に進み、部分微分方程式の解の時空間的な時空間的観測から生じる「力学パズル」の解へと進む。 Fusing measurements from multiple, heterogeneous, partial sources, observing a common object or process, poses challenges due to the increasing availability of numbers and types of sensors. In this work we propose, implement and validate an end-to-end computational pipeline in the form of a multiple-auto-encoder neural network architecture for this task. The inputs to the pipeline are several sets of partial observations, and the result is a globally consistent latent space, harmonizing (rigidifying, fusing) all measurements. The key enabler is the availability of multiple slightly perturbed measurements of each instance:, local measurement, "bursts", that allows us to estimate the local distortion induced by each instrument. We demonstrate the approach in a sequence of examples, starting with simple two-dimensional data sets and proceeding to a Wi-Fi localization problem and to the solution of a "dynamical puzzle" arising in spatio-temporal observations of the solutions of Partial Differential Equations. | 翻訳日:2023-12-21 14:52:40 公開日:2023-12-20 |
# 変化点を持つ神経確率微分方程式:生成的逆アプローチ Neural Stochastic Differential Equations with Change Points: A Generative Adversarial Approach ( http://arxiv.org/abs/2312.13152v1 ) ライセンス: Link先を確認 | Zhongchang Sun, Yousef El-Laham, Svitlana Vyetrenko | (参考訳) 確率微分方程式(SDE)は実世界のランダム現象をモデル化するために広く用いられている。
既存の研究は主に、時系列が単一のSDEによってモデル化される場合に焦点を当てている。
本研究では,ニューラルSDEをモデルとした時系列変化点検出アルゴリズムを提案する。
時系列データセットが与えられた場合、提案手法は未知の変化点と各変化点に対応する異なるSDEモデルのパラメータを共同で学習する。
具体的には、GAN(Generative Adversarial Network)の枠組みに基づいてSDEを学習し、フォワードパスにおけるGAN識別器の出力に基づいて変化点を検出する。
提案アルゴリズムの各ステップにおいて、変更点とSDEモデルパラメータを交互に更新する。
時系列データに対する従来の変化点検出ベンチマーク,標準GANベースニューラルネットワークSDE,その他の最先端の深部生成モデルと比較して,アルゴリズムの性能を評価するために,合成データセットと実データセットの両方で数値的な結果が得られた。 Stochastic differential equations (SDEs) have been widely used to model real world random phenomena. Existing works mainly focus on the case where the time series is modeled by a single SDE, which might be restrictive for modeling time series with distributional shift. In this work, we propose a change point detection algorithm for time series modeled as neural SDEs. Given a time series dataset, the proposed method jointly learns the unknown change points and the parameters of distinct neural SDE models corresponding to each change point. Specifically, the SDEs are learned under the framework of generative adversarial networks (GANs) and the change points are detected based on the output of the GAN discriminator in a forward pass. At each step of the proposed algorithm, the change points and the SDE model parameters are updated in an alternating fashion. Numerical results on both synthetic and real datasets are provided to validate the performance of our algorithm in comparison to classical change point detection benchmarks, standard GAN-based neural SDEs, and other state-of-the-art deep generative models for time series data. | 翻訳日:2023-12-21 14:52:19 公開日:2023-12-20 |
# 貯留層コンピュータの予測地平を最適化するための活性化関数のチューニング Tuning the activation function to optimize the forecast horizon of a reservoir computer ( http://arxiv.org/abs/2312.13151v1 ) ライセンス: Link先を確認 | Lauren A. Hurley, Juan G. Restrepo, Sean E. Shaheen | (参考訳) 貯水池計算(Reservoir computing)は、非線形システム(貯水池)からの読み出しを学習し、貯水池からの出力が入力信号で強制されると、所望の出力信号を再生する機械学習フレームワークである。
貯水池コンピュータの一般的な実装は、リカレントニューラルネットワークを貯水池として使用することである。
このネットワークの設計は貯水池コンピュータの性能に大きな影響を与える可能性がある。
本稿では,ノード活性化関数が貯水池コンピュータのカオス時系列の学習と予測能力に及ぼす影響について検討する。
我々は,貯水池の予測が正確である時間であるフォアキャスト・ホライゾン(FH)が,機械学習で使用される16のアクティベーション関数の集合において,桁違いに変化することを発見した。
このセットから異なる関数を使い、それらのパラメータを変更することで、ノードの活性化レベルのエントロピーと活性化関数の曲率が貯水池の予測能力を決定するかどうかを調べる。
その結果, 活性化関数が低曲率領域で使用される場合のFHは低く, 曲率とFHとの正の相関が認められた。
研究された活性化関数について、最も大きなFHは一般にノード活性化レベルのエントロピーの中間レベルに発生する。
その結果,リザーバコンピュータの性能は活性化関数形状に非常に敏感であることがわかった。
したがって、この形状をハイパーパラメータ最適化アルゴリズムで修正することで、貯水池コンピュータの性能が向上する可能性がある。 Reservoir computing is a machine learning framework where the readouts from a nonlinear system (the reservoir) are trained so that the output from the reservoir, when forced with an input signal, reproduces a desired output signal. A common implementation of reservoir computers is to use a recurrent neural network as the reservoir. The design of this network can have significant effects on the performance of the reservoir computer. In this paper we study the effect of the node activation function on the ability of reservoir computers to learn and predict chaotic time series. We find that the Forecast Horizon (FH), the time during which the reservoir's predictions remain accurate, can vary by an order of magnitude across a set of 16 activation functions used in machine learning. By using different functions from this set, and by modifying their parameters, we explore whether the entropy of node activation levels or the curvature of the activation functions determine the predictive ability of the reservoirs. We find that the FH is low when the activation function is used in a region where it has low curvature, and a positive correlation between curvature and FH. For the activation functions studied we find that the largest FH generally occurs at intermediate levels of the entropy of node activation levels. Our results show that the performance of reservoir computers is very sensitive to the activation function shape. Therefore, modifying this shape in hyperparameter optimization algorithms can lead to improvements in reservoir computer performance. | 翻訳日:2023-12-21 14:51:59 公開日:2023-12-20 |
# Splatter Image: Ultra-Fast Single-View 3Dレコンストラクション Splatter Image: Ultra-Fast Single-View 3D Reconstruction ( http://arxiv.org/abs/2312.13150v1 ) ライセンス: Link先を確認 | Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi | (参考訳) Splatter Imageは,38FPSで動作するモノクローナル3次元オブジェクト再構成のための超高速なアプローチである。
Splatter ImageはGaussian Splattingをベースにしており、リアルタイムレンダリング、高速トレーニング、マルチビュー再構築への優れたスケーリングを実現している。
初めて,ガウス型スプラッティングを単眼再構成に応用した。
我々のアプローチは学習ベースであり、テスト時に、レコンストラクションはニューラルネットワークのフィードフォワード評価のみを必要とする。
2D画像と画像のネットワークを使って、入力された画像をピクセルごとに1つの3Dガウスアンにマッピングする。
結果として得られたガウス像は、Splatter Imageという画像の形をしている。
さらに,複数の画像を入力として組み込む手法を拡張した。
レンダラの速度(588fps)に合わせて、各イテレーションでイメージ全体を生成しながら、単一のgpuを使用してトレーニングを行い、lpipなどの知覚メトリックを最適化します。
標準ベンチマークでは,PSNR,LPIPS,その他の指標において,高速な再構成だけでなく,最近の,はるかに高価なベースラインよりも優れた結果を示す。 We introduce the Splatter Image, an ultra-fast approach for monocular 3D object reconstruction which operates at 38 FPS. Splatter Image is based on Gaussian Splatting, which has recently brought real-time rendering, fast training, and excellent scaling to multi-view reconstruction. For the first time, we apply Gaussian Splatting in a monocular reconstruction setting. Our approach is learning-based, and, at test time, reconstruction only requires the feed-forward evaluation of a neural network. The main innovation of Splatter Image is the surprisingly straightforward design: it uses a 2D image-to-image network to map the input image to one 3D Gaussian per pixel. The resulting Gaussians thus have the form of an image, the Splatter Image. We further extend the method to incorporate more than one image as input, which we do by adding cross-view attention. Owning to the speed of the renderer (588 FPS), we can use a single GPU for training while generating entire images at each iteration in order to optimize perceptual metrics like LPIPS. On standard benchmarks, we demonstrate not only fast reconstruction but also better results than recent and much more expensive baselines in terms of PSNR, LPIPS, and other metrics. | 翻訳日:2023-12-21 14:51:31 公開日:2023-12-20 |
# 高次元混合モデルに対する部分分解変分推論 Partially factorized variational inference for high-dimensional mixed models ( http://arxiv.org/abs/2312.13148v1 ) ライセンス: Link先を確認 | Max Goplerud, Omiros Papaspiliopoulos, Giacomo Zanella | (参考訳) 一般化線形混合モデル(glmms)は応用統計学における基本的なツールであるが、多数のレベルや相互作用項を持つ分類因子を含む多くの仕様は、高次元積分の計算や近似の必要性から計算的に難しい。
変分推論(VI)法は、特にベイズ文脈において、そのような計算を行う一般的な方法である。
しかし、ナイーブVI法は信頼できない不確実性を定量化することができる。
GLMMの文脈では、標準VI(平均場)が高次元の後方の不確かさを劇的に過小評価していることが示される。
次に, 平均場推定がいかに適切に緩和され, 高次元では不確かさの定量化が低下せず, 計算コストがパラメータ数や観測値と線形に縮まるvi法が導かれるかを示す。
我々の理論的および数値的な結果はガウス的あるいは二項的確率を持つGLMMに焦点をあて、急激な高次元漸近解析を得るためにランダムグラフ理論への接続に依存する。
また,変分推定の精度をガウス目標に対するCAVIアルゴリズムの収束率に関連付ける,独立した関心を持つ総合的な結果も提供する。
GLMMのための部分分解VI(PF-VI)手法をRパッケージvglmerに実装した。
シミュレーションおよび実データ例を用いた数値結果はpf-viの計算コストと精度のトレードオフを示す。 While generalized linear mixed models (GLMMs) are a fundamental tool in applied statistics, many specifications -- such as those involving categorical factors with many levels or interaction terms -- can be computationally challenging to estimate due to the need to compute or approximate high-dimensional integrals. Variational inference (VI) methods are a popular way to perform such computations, especially in the Bayesian context. However, naive VI methods can provide unreliable uncertainty quantification. We show that this is indeed the case in the GLMM context, proving that standard VI (i.e. mean-field) dramatically underestimates posterior uncertainty in high-dimensions. We then show how appropriately relaxing the mean-field assumption leads to VI methods whose uncertainty quantification does not deteriorate in high-dimensions, and whose total computational cost scales linearly with the number of parameters and observations. Our theoretical and numerical results focus on GLMMs with Gaussian or binomial likelihoods, and rely on connections to random graph theory to obtain sharp high-dimensional asymptotic analysis. We also provide generic results, which are of independent interest, relating the accuracy of variational inference to the convergence rate of the corresponding coordinate ascent variational inference (CAVI) algorithm for Gaussian targets. Our proposed partially-factorized VI (PF-VI) methodology for GLMMs is implemented in the R package vglmer, see https://github.com/mgoplerud/vglmer . Numerical results with simulated and real data examples illustrate the favourable computation cost versus accuracy trade-off of PF-VI. | 翻訳日:2023-12-21 14:51:12 公開日:2023-12-20 |
# 有効検証に基づく顔識別 Efficient Verification-Based Face Identification ( http://arxiv.org/abs/2312.13240v1 ) ライセンス: Link先を確認 | Amit Rozner, Barak Battash, Ofir Lindenbaum, Lior Wolf | (参考訳) 効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
$f$の効率性は、顔認証問題を、最も近い隣人探索からバイナリ問題への埋め込みから単純化することにある。
トレーニングセット内の異なる個人間での情報共有を可能にするため、直接$f$をトレーニングするのではなく、ハイパーネットワーク$h$を使ってモデルウェイトを生成する。
これにより、エッジデバイスにデプロイ可能な顔識別用のコンパクトパーソナライズされたモデルが生成される。
この手法の成功の鍵は、ハードネガティブを生成し、トレーニング目標を注意深くスケジューリングする新しい方法である。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$につながる。
6つの顔認証データセットを用いて,本手法が最先端モデルと同等かそれ以上か,パラメータ数と計算負荷を大幅に削減できることを実証した。
さらに,本手法における各要素の重要性を示すため,広範なアブレーション研究を行った。 We study the problem of performing face verification with an efficient neural model $f$. The efficiency of $f$ stems from simplifying the face verification problem from an embedding nearest neighbor search into a binary problem; each user has its own neural network $f$. To allow information sharing between different individuals in the training set, we do not train $f$ directly but instead generate the model weights using a hypernetwork $h$. This leads to the generation of a compact personalized model for face identification that can be deployed on edge devices. Key to the method's success is a novel way of generating hard negatives and carefully scheduling the training objectives. Our model leads to a substantially small $f$ requiring only 23k parameters and 5M floating point operations (FLOPS). We use six face verification datasets to demonstrate that our method is on par or better than state-of-the-art models, with a significantly reduced number of parameters and computational burden. Furthermore, we perform an extensive ablation study to demonstrate the importance of each element in our method. | 翻訳日:2023-12-21 14:44:43 公開日:2023-12-20 |
# 適応雑音を学習した拡散モデル Diffusion Models With Learned Adaptive Noise ( http://arxiv.org/abs/2312.13236v1 ) ライセンス: Link先を確認 | Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov | (参考訳) 拡散モデルは高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。
これらのアルゴリズムの中心は拡散過程であり、熱力学に触発された方程式に従ってデータをノイズにマッピングし、性能に大きな影響を与える。
拡散モデルのelboの目的が雑音過程に不変であるという仮定が広く支持されている(kingma et al.,2021)。
本研究では,画像間の異なるレートでガウス雑音を適用する学習拡散過程である多変量学習適応雑音 (MuLAN) を,この仮定から排除する。本手法は,学習対象が従来手法のようにノイズスケジュールの選択に不変でないことを保証するために,多変量雑音スケジュール,インスタンス条件拡散,補助変数の3つの成分から構成される。
我々の研究はベイズ推定に基礎を置いており、学習された拡散過程を近似的な変分後部として、限界確率でより厳密な下界を生み出す。
経験的に、MuLANは古典拡散と比較してCIFAR-10とImageNetの密度推定の最先端を新たに設定している。
コードはhttps://github.com/s-sahoo/MuLANで入手できる。 Diffusion models have gained traction as powerful algorithms for synthesizing high-quality images. Central to these algorithms is the diffusion process, which maps data to noise according to equations inspired by thermodynamics and can significantly impact performance. A widely held assumption is that the ELBO objective of a diffusion model is invariant to the noise process (Kingma et al.,2021). In this work, we dispel this assumption -- we propose multivariate learned adaptive noise (MuLAN), a learned diffusion process that applies Gaussian noise at different rates across an image. Our method consists of three components -- a multivariate noise schedule, instance-conditional diffusion, and auxiliary variables -- which ensure that the learning objective is no longer invariant to the choice of the noise schedule as in previous works. Our work is grounded in Bayesian inference and casts the learned diffusion process as an approximate variational posterior that yields a tighter lower bound on marginal likelihood. Empirically, MuLAN sets a new state-of-the-art in density estimation on CIFAR-10 and ImageNet compared to classical diffusion. Code is available at https://github.com/s-sahoo/MuLAN | 翻訳日:2023-12-21 14:44:26 公開日:2023-12-20 |
# ポジションペーパー: 機械学習と感度分析のギャップを埋める Position Paper: Bridging the Gap Between Machine Learning and Sensitivity Analysis ( http://arxiv.org/abs/2312.13234v1 ) ライセンス: Link先を確認 | Christian A. Scholbeck, Julia Moosbauer, Giuseppe Casalicchio, Hoshin Gupta, Bernd Bischl, Christian Heumann | (参考訳) 機械学習(ml)モデルやモデル構築過程の解釈は、環境モデリング、工学、経済学など多くの分野における複雑なシステムを説明する一般的な方法論である感度分析(sa)の一種と見なすことができる。
研究者と実践者の両方に対処し、MLにおける説明の統一的SAベースビューの利点と、関連する作業の完全信用の必要性に注意を向ける。
両フィールド間のギャップを形式的に記述することで橋渡しする
(a)MLプロセスはSAに適したシステムである
b)既存のML解釈手法がこの観点とどのように関連しているか、そして
(c)他のSA技術がMLにどのように適用できるか。 We argue that interpretations of machine learning (ML) models or the model-building process can bee seen as a form of sensitivity analysis (SA), a general methodology used to explain complex systems in many fields such as environmental modeling, engineering, or economics. We address both researchers and practitioners, calling attention to the benefits of a unified SA-based view of explanations in ML and the necessity to fully credit related work. We bridge the gap between both fields by formally describing how (a) the ML process is a system suitable for SA, (b) how existing ML interpretation methods relate to this perspective, and (c) how other SA techniques could be applied to ML. | 翻訳日:2023-12-21 14:44:08 公開日:2023-12-20 |
# メモリを用いたオープン量子ダイナミクスのための統一フレームワーク Unified Framework for Open Quantum Dynamics with Memory ( http://arxiv.org/abs/2312.13233v1 ) ライセンス: Link先を確認 | Felix Ivander, Lachlan P. Lindoy, and Joonho Lee | (参考訳) 浴場に結合した量子系のダイナミクスの研究は、一般に中島-ツワンジグメモリカーネル({\mathcal{k}}$)や影響関数(\mathbf{{i}}$)を利用して行われる。
その重要性にもかかわらず、メモリカーネルと影響関数の正式な接続は明確にされていない。
これらの関係をシステムプロパゲータの基礎となるダイアグラム構造、$\mathbf{{i}}$、${\mathcal{k}}$の観察を通して明らかにする。
これに基づいて,標準手法で要求される投影自由ダイナミクス入力を使わずに高調波浴と相互作用する(駆動)システムに対して,$\mathbf{{i}}$ から${\mathcal{k}}$ を構築するための非摂動的,図式的手法を提案する。
この構成により、近似パス積分法は、近似メモリカーネルを用いてどのように理解できるかを示す。
さらに, 実験または数値的精密な手法により得られた一連の還元系軌道から浴のスペクトル密度を抽出し, 量子センシングと工学の新たな道を開くためのハミルトン学習手法を示す。
この研究で提供される洞察は、非マルコフ力学の理解を著しく前進させ、この領域における理論的および実験的発展にとって重要な足掛かりとなる。 Studies of the dynamics of a quantum system coupled to a bath are typically performed by utilizing the Nakajima-Zwanzig memory kernel (${\mathcal{K}}$) or the influence functions ($\mathbf{{I}}$), especially when the dynamics exhibit memory effects (i.e., non-Markovian). Despite their significance, the formal connection between the memory kernel and the influence functions has not been explicitly made. We reveal their relation through the observation of a diagrammatic structure underlying the system propagator, $\mathbf{{I}}$, and ${\mathcal{K}}$. Based on this, we propose a non-perturbative, diagrammatic approach to construct ${\mathcal{K}}$ from $\mathbf{{I}}$ for (driven) systems interacting with harmonic baths without the use of any projection-free dynamics inputs required by standard approaches. With this construction, we also show how approximate path integral methods can be understood in terms of approximate memory kernels. Furthermore, we demonstrate a Hamiltonian learning procedure to extract the bath spectral density from a set of reduced system trajectories obtained experimentally or by numerically exact methods, opening new avenues in quantum sensing and engineering. The insights we provide in this work will significantly advance the understanding of non-Markovian dynamics, and they will be an important stepping stone for theoretical and experimental developments in this area. | 翻訳日:2023-12-21 14:43:56 公開日:2023-12-20 |
# 大規模言語モデルを用いたコードリポジトリの自動devopsパイプライン生成 Automated DevOps Pipeline Generation for Code Repositories using Large Language Models ( http://arxiv.org/abs/2312.13225v1 ) ライセンス: Link先を確認 | Deep Mehta, Kartik Rawool, Subodh Gujar, Bowen Xu | (参考訳) githubのアクションワークフローのオーケストレーションによるソフトウェア開発プロセスの自動化は、ソフトウェアデリバリパイプラインの効率性とアジリティに革命をもたらした。
本稿では,大規模言語モデル(LLM),特にGPT 3.5とGPT 4を用いて,DevOpsタスク用のGitHub Actionワークフローの生成と評価を行う。
当社の方法論は、GitHubの公開リポジトリからのデータ収集、LDM利用のためのエンジニアリングの促進、正確なマッチスコア、BLEUスコア、新しいDevOps Awareスコアを含む評価指標を含む。
調査では、GitHubワークフローの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。
結果は、特にDevOpsの認識と構文の正確性において、GPT 4の大幅な進歩を示している。
Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
この研究は、DevOpsプラクティスにおけるAI駆動自動化の進化の展望に貢献する。 Automating software development processes through the orchestration of GitHub Action workflows has revolutionized the efficiency and agility of software delivery pipelines. This paper presents a detailed investigation into the use of Large Language Models (LLMs) specifically, GPT 3.5 and GPT 4 to generate and evaluate GitHub Action workflows for DevOps tasks. Our methodology involves data collection from public GitHub repositories, prompt engineering for LLM utilization, and evaluation metrics encompassing exact match scores, BLEU scores, and a novel DevOps Aware score. The research scrutinizes the proficiency of GPT 3.5 and GPT 4 in generating GitHub workflows, while assessing the influence of various prompt elements in constructing the most efficient pipeline. Results indicate substantial advancements in GPT 4, particularly in DevOps awareness and syntax correctness. The research introduces a GitHub App built on Probot, empowering users to automate workflow generation within GitHub ecosystem. This study contributes insights into the evolving landscape of AI-driven automation in DevOps practices. | 翻訳日:2023-12-21 14:43:32 公開日:2023-12-20 |
# 量子情報処理のためのロバスト原子光子ゲート Robust atom-photon gate for quantum information processing ( http://arxiv.org/abs/2312.13221v1 ) ライセンス: Link先を確認 | Omar Nagib, P. Huft, A. Safari, and M. Saffman | (参考訳) 空飛ぶ光子とキャビティ内の原子との間の2量子ビットゲートのスキームを提案する。
原子-光子ゲートの配置は、空洞とマッハ-ツェンダー干渉計と2重縮退した地面と、原子-光相互作用を媒介する励起状態エネルギーレベルから構成される。
本稿では,光子と空洞間の空間モードミスマッチ,自然放出,空洞損失,変形,空洞パラメータと周波数のランダム変動など,ゲートの誤差解析と重要な誤差のモデル化を行う。
誤差解析により、ゲートプロトコルは従来の原子光子ゲートよりも実験誤差に対してより頑健であり、高い忠実性を達成することが示されている。 We propose a scheme for two-qubit gates between a flying photon and an atom in a cavity. The atom-photon gate setup consists of a cavity and a Mach-Zehnder interferometer with doubly degenerate ground and excited state energy levels mediating the atom-light interaction. We provide an error analysis of the gate and model important errors, including spatial mode mismatch between the photon and the cavity, spontaneous emission, cavity losses, detunings, and random fluctuations of the cavity parameters and frequencies. Error analysis shows that the gate protocol is more robust against experimental errors compared to previous atom-photon gates and achieves higher fidelity. | 翻訳日:2023-12-21 14:43:04 公開日:2023-12-20 |
# 脳MRIのためのSISMIK:k空間における深層学習に基づく動き推定とモデルに基づく動き補正 SISMIK for brain MRI: Deep-learning-based motion estimation and model-based motion correction in k-space ( http://arxiv.org/abs/2312.13220v1 ) ライセンス: Link先を確認 | Oscar Dabrowski (1 and 2), Jean-Luc Falcone (1), Antoine Klauser (2 and 3), Julien Songeon (2 and 3), Michel Kocher (4), Bastien Chopard (1), Fran\c{c}ois Lazeyras (2 and 3), S\'ebastien Courvoisier (2 and 3) ((1) Computer Science Department, Faculty of Science, University of Geneva, Switzerland, (2) Department of Radiology and Medical Informatics, Faculty of Medicine, University of Geneva, Switzerland, (3) CIBM Center for Biomedical Imaging, MRI HUG-UNIGE, Geneva, Switzerland, (4) EPFL Biomedical Imaging Group (BIG), Lausanne, Switzerland) | (参考訳) 非侵襲的な医療画像モダリティであるMRIは、患者の動きに非常に敏感である。
長年にわたる多くの試みにもかかわらず、運動補正は難しい問題であり、あらゆる状況に適用できる一般的な方法はない。
本研究では,脳の古典的2次元スピンエコースキャンに適応し,平面内剛体運動の問題に対処するための運動量化と補正の振り返り手法を提案する。
k-空間のシーケンシャルな獲得のため、運動アーティファクトはよく局所化されている。
この手法は、深層ニューラルネットワークのパワーを活用してk空間内の運動パラメータを推定し、モデルに基づくアプローチで劣化した画像を復元し、「幻覚」を避ける。
特筆すべき利点は、動きのない参照を必要とせずに高い空間周波数で発生する動きを推定できることである。
提案手法はk空間のダイナミックレンジ全体で動作し,高調波の低SNRの影響を受けやすい。
概念実証として、43種類の被験者の無運動スキャンに基づいて600kの動作シミュレーションを教師付き学習を用いて訓練したモデルを提供する。
一般化性能はシミュレーションとin-vivoで試験された。
動きパラメータ推定と画像再構成のための定性的および定量的評価を行った。
実験の結果,本手法はシミュレーションデータおよび生体内獲得において良好な一般化性能を得ることができた。 MRI, a widespread non-invasive medical imaging modality, is highly sensitive to patient motion. Despite many attempts over the years, motion correction remains a difficult problem and there is no general method applicable to all situations. We propose a retrospective method for motion quantification and correction to tackle the problem of in-plane rigid-body motion, apt for classical 2D Spin-Echo scans of the brain, which are regularly used in clinical practice. Due to the sequential acquisition of k-space, motion artifacts are well localized. The method leverages the power of deep neural networks to estimate motion parameters in k-space and uses a model-based approach to restore degraded images to avoid ''hallucinations''. Notable advantages are its ability to estimate motion occurring in high spatial frequencies without the need of a motion-free reference. The proposed method operates on the whole k-space dynamic range and is moderately affected by the lower SNR of higher harmonics. As a proof of concept, we provide models trained using supervised learning on 600k motion simulations based on motion-free scans of 43 different subjects. Generalization performance was tested with simulations as well as in-vivo. Qualitative and quantitative evaluations are presented for motion parameter estimations and image reconstruction. Experimental results show that our approach is able to obtain good generalization performance on simulated data and in-vivo acquisitions. | 翻訳日:2023-12-21 14:42:42 公開日:2023-12-20 |
# ロボットのための対話型視覚タスク学習 Interactive Visual Task Learning for Robots ( http://arxiv.org/abs/2312.13219v1 ) ライセンス: Link先を確認 | Weiwei Gu, Anant Sah, Nakul Gopalan | (参考訳) 本稿では,人間ユーザとの言語対話を通じて,ロボットが新しい視覚概念やタスクを学習するための枠組みを提案する。
以前のアプローチでは、新しいオブジェクトをゼロショットで推論するために、大きな事前訓練されたビジュアルモデルを使ったり、それらの属性と表現を概念階層に追加したりしてきた。
我々は,視覚概念階層を学習するアプローチを拡張し,新たな概念を学習し,ロボット工学の未熟な課題を解決する。
視覚概念学習者がロボットのタスクをワンショットで解くために,我々は2つの異なる手法を開発した。
まず,概念階層内の親ノードに新たな概念の情報を付加する手法として,hi-viscont(hierarchical visual concept learner for task)を提案する。
この情報伝達により、階層内のすべての概念が更新され、新しい概念が継続的な学習環境で教えられる。
第二に、視覚的なタスクを言語アノテーション付きシーングラフとして表現することで、デモされたタスクゼロショットの新規な置換をin-situで作成できる。
結果のセットを2つ提示する。
まず,Hu-Viscontとベースラインモデル(FALCON)を比較し,視覚的質問応答(VQA)を3つの領域で比較する。
リーフレベルの概念のベースラインモデルと比較すると、hi-viscontは平均で9%以上の改善を達成している。
我々のモデルのパフォーマンスをベースラインのファルコンモデルと比較する。
本フレームワークは,成功率指標の33%の改善と,ベースラインモデルと比較してオブジェクトレベルの精度の19%の改善を実現している。
これらの結果から,ロボット上での連続学習環境におけるタスクや概念の学習能力を示す。 We present a framework for robots to learn novel visual concepts and tasks via in-situ linguistic interactions with human users. Previous approaches have either used large pre-trained visual models to infer novel objects zero-shot, or added novel concepts along with their attributes and representations to a concept hierarchy. We extend the approaches that focus on learning visual concept hierarchies by enabling them to learn novel concepts and solve unseen robotics tasks with them. To enable a visual concept learner to solve robotics tasks one-shot, we developed two distinct techniques. Firstly, we propose a novel approach, Hi-Viscont(HIerarchical VISual CONcept learner for Task), which augments information of a novel concept to its parent nodes within a concept hierarchy. This information propagation allows all concepts in a hierarchy to update as novel concepts are taught in a continual learning setting. Secondly, we represent a visual task as a scene graph with language annotations, allowing us to create novel permutations of a demonstrated task zero-shot in-situ. We present two sets of results. Firstly, we compare Hi-Viscont with the baseline model (FALCON) on visual question answering(VQA) in three domains. While being comparable to the baseline model on leaf level concepts, Hi-Viscont achieves an improvement of over 9% on non-leaf concepts on average. We compare our model's performance against the baseline FALCON model. Our framework achieves 33% improvements in success rate metric, and 19% improvements in the object level accuracy compared to the baseline model. With both of these results we demonstrate the ability of our model to learn tasks and concepts in a continual learning setting on the robot. | 翻訳日:2023-12-21 14:41:50 公開日:2023-12-20 |
# FiFAR: ディフェンダー学習のための不正検出データセット FiFAR: A Fraud Detection Dataset for Learning to Defer ( http://arxiv.org/abs/2312.13218v1 ) ライセンス: Link先を確認 | Jean V. Alves, Diogo Leit\~ao, S\'ergio Jesus, Marco O. P. Sampaio, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro | (参考訳) パブリックデータセットの制限は、ハイブリッド意思決定システムにおける人間とAIの能力を最適に組み合わせることを目的として、L2Dアルゴリズムを遅延させる学習の開発とベンチマークを著しく妨げている。
このようなシステムでは、ヒューマンアベイラビリティとドメイン固有の関心が困難をもたらす一方で、トレーニングや評価のための人間の予測を得ることはコストがかかる。
金融不正検出は、アルゴリズムや人間の専門家がしばしばタンデムで作業する高度な設定であるが、このヒューマン-aiチームの重要な応用に関するl2dのデータセットは公開されていない。
このギャップを埋めるために,我々は,50名の高度に複雑で多彩な合成詐欺アナリストのチームが,バイアスや特徴依存性の異なる予測を含む,合成銀行口座詐欺検出データセットであるfinancial fraud alert review dataset (fifar)を導入する。
また、人間の作業能力の制約を現実的に定義し、L2Dシステムの側面をしばしば見落とし、現実世界の条件下での割り当てシステムの広範なテストを可能にする。
私たちは、データセットを使用して、現実的なデータ可用性条件下で容量対応l2dメソッドと拒絶学習アプローチを開発し、これらのベースラインを300の異なるテストシナリオでベンチマークします。
このデータセットは、l2d法の体系的、厳密、再現可能、および透明な評価と比較を促進する上で重要な手段となり、意思決定システムにおけるより相乗的な人間-aiコラボレーションの発展を促進する。
公開データセットと詳細な合成エキスパート情報は、https://github.com/feedzai/fifar-datasetで入手できる。 Public dataset limitations have significantly hindered the development and benchmarking of learning to defer (L2D) algorithms, which aim to optimally combine human and AI capabilities in hybrid decision-making systems. In such systems, human availability and domain-specific concerns introduce difficulties, while obtaining human predictions for training and evaluation is costly. Financial fraud detection is a high-stakes setting where algorithms and human experts often work in tandem; however, there are no publicly available datasets for L2D concerning this important application of human-AI teaming. To fill this gap in L2D research, we introduce the Financial Fraud Alert Review Dataset (FiFAR), a synthetic bank account fraud detection dataset, containing the predictions of a team of 50 highly complex and varied synthetic fraud analysts, with varied bias and feature dependence. We also provide a realistic definition of human work capacity constraints, an aspect of L2D systems that is often overlooked, allowing for extensive testing of assignment systems under real-world conditions. We use our dataset to develop a capacity-aware L2D method and rejection learning approach under realistic data availability conditions, and benchmark these baselines under an array of 300 distinct testing scenarios. We believe that this dataset will serve as a pivotal instrument in facilitating a systematic, rigorous, reproducible, and transparent evaluation and comparison of L2D methods, thereby fostering the development of more synergistic human-AI collaboration in decision-making systems. The public dataset and detailed synthetic expert information are available at: https://github.com/feedzai/fifar-dataset | 翻訳日:2023-12-21 14:40:55 公開日:2023-12-20 |
# 視点誘導球面地図による意味対応の改善 Improving Semantic Correspondence with Viewpoint-Guided Spherical Maps ( http://arxiv.org/abs/2312.13216v1 ) ライセンス: Link先を確認 | Octave Mariotti, Oisin Mac Aodha, Hakan Bilen | (参考訳) 近年の自己教師付き表現学習の進歩により,画像レベルの符号化だけでなく,画素レベルのセマンティクスにも有効である画像特徴の抽出が可能になった。
これらの特徴は、濃密な視覚的意味的対応推定に有効であることが示されている。
それでも、現在の自己監督的アプローチは、対称性や繰り返し部分のような困難なイメージ特性の存在下では失敗している。
これらの制約に対処するために,弱い幾何学的球面を経由した3次元理解による識別的自己監督的特徴を補足する意味対応推定手法を提案する。
より複雑な3Dパイプラインと比較して、我々のモデルは弱い視点情報しか必要とせず、球面表現の単純さにより、トレーニング中に情報的幾何学的先行情報をモデルに注入することができる。
繰り返し部分と対称性に起因した誤りを考慮に入れた新しい評価基準を提案する。
我々はspair-71kデータセットについて,多数のオブジェクトカテゴリにわたる対称ビューと繰り返し部分の区別が可能であることを示すとともに,awaデータセット上の未認識のクラスに一般化できることを実証する。 Recent progress in self-supervised representation learning has resulted in models that are capable of extracting image features that are not only effective at encoding image level, but also pixel-level, semantics. These features have been shown to be effective for dense visual semantic correspondence estimation, even outperforming fully-supervised methods. Nevertheless, current self-supervised approaches still fail in the presence of challenging image characteristics such as symmetries and repeated parts. To address these limitations, we propose a new approach for semantic correspondence estimation that supplements discriminative self-supervised features with 3D understanding via a weak geometric spherical prior. Compared to more involved 3D pipelines, our model only requires weak viewpoint information, and the simplicity of our spherical representation enables us to inject informative geometric priors into the model during training. We propose a new evaluation metric that better accounts for repeated part and symmetry-induced mistakes. We present results on the challenging SPair-71k dataset, where we show that our approach demonstrates is capable of distinguishing between symmetric views and repeated parts across many object categories, and also demonstrate that we can generalize to unseen classes on the AwA dataset. | 翻訳日:2023-12-21 14:40:26 公開日:2023-12-20 |
# 連続観測量子システムと計測に基づくフィードバックの教育的導入 A pedagogical introduction to continuously monitored quantum systems and measurement-based feedback ( http://arxiv.org/abs/2312.13214v1 ) ライセンス: Link先を確認 | Francesco Albarelli and Marco G. Genoni | (参考訳) 本論文では, 連続監視量子系への教育的導入について述べる。
まず,連続的に観測される系の無条件ダイナミクスを記述する衝突モデルと入出力理論の精神において,マルコフマスター方程式のリンドブラッド形式による簡易導出を行うことから始める。
同じ形式主義を利用して、条件力学を記述する確率的マスター方程式を導出する。
連続的な光検出(continuous photodetection)は「量子ジャンプ」(quantum jump)と連続ホモダイン測定(continuous homodyne measurement)を伴う不連続なダイナミクスにつながり、拡散的なダイナミクスをもたらす。
次に、連続測定光電流が線形駆動ハミルトニアン(線形マルコフフィードバックとして知られるパラダイム)としてシステムにフィードバックされるときの力学(条件付きあるいは無条件)を記述するフィードバックマスター方程式の導出を示す。
原稿の第2部では連続変数ガウス系に焦点をあてる: まず、連続的な一般次元測定の下での力学を記述する第一モーメントと第二モーメントの方程式を提示し、マルコフ的および状態的フィードバックの下で条件的および非条件的ダイナミクスについてより詳細に議論する。 In this manuscript we present a pedagogical introduction to continuously monitored quantum systems. We start by giving a simplified derivation of the Markovian master equation in Lindblad form, in the spirit of collision models and input-output theory, which describes the unconditional dynamics of a continuously monitored system. The same formalism is then exploited to derive stochastic master equations that describe the conditional dynamics. We focus on the two most paradigmatic examples of continuous monitoring: continuous photodetection, leading to a discontinuous dynamics with "quantum jumps", and continuous homodyne measurements, leading to a diffusive dynamics. We then present a derivation of feedback master equations that describe the dynamics (either conditional or unconditional) when the continuous measurement photocurrents are fed back to the system as a linear driving Hamiltonian, a paradigm known as linear Markovian feedback. In the second part of the manuscript we focus on continuous-variable Gaussian systems: we first present the equations for first and second moments describing the dynamics under continuous general-dyne measurements, and we then discuss in more detail the conditional and unconditional dynamics under Markovian and state-based feedback. | 翻訳日:2023-12-21 14:40:04 公開日:2023-12-20 |
# 凸集合と自己双対円錐における量子遷移確率 Quantum transition probability in convex sets and self-dual cones ( http://arxiv.org/abs/2312.13213v1 ) ライセンス: Link先を確認 | Gerd Niestegge | (参考訳) 量子観測可能な代数構造(作用素代数)と状態空間の凸構造との相互作用は長い間研究されてきたが、最も進んだ結果はアルフセンとシュルツによるものである。
ここでは、量子論理原子の遷移確率に焦点をあてた観測器のより汎用的な構造を持つ、より基本的なアプローチを示す。
バイナリケースは一般化された量子ビットモデルを生み出し、前回の論文で完全に開発された。
ここでは、情報容量が有限である場合(バイナリは情報容量が2であることを意味する)を考える。
任意のコンパクト凸集合を一致する状態空間にする新しい幾何学的性質が提示される。
一般に、遷移確率は対称ではなく、対称であれば内積と自己双対円錐が得られる。
新興の数学的構造はユークリッドジョルダン代数に近く、量子論の潜在的な拡張のための新しい数学的モデルとなる。 The interplay between the algebraic structure (operator algebras) for the quantum observables and the convex structure of the state space has been explored for a long time and most advanced results are due to Alfsen and Shultz. Here we present a more elementary approach with a more generic structure for the observables, which focuses on the transition probability of the quantum logical atoms. The binary case gives rise to the generalized qubit models and was fully developed in a preceding paper. Here we consider any case with finite information capacity (binary means that the information capacity is 2). A novel geometric property that makes any compact convex set a matching state space is presented. Generally, the transition probability is not symmetric; if it is symmetric, we get an inner product and a self-dual cone. The emerging mathematical structure comes close to the Euclidean Jordan algebras and becomes a new mathematical model for a potential extension of quantum theory. | 翻訳日:2023-12-21 14:39:41 公開日:2023-12-20 |
# 物理インフォームド画素単位の自己アテンション生成対向ネットワークによる風場の3次元超解像 A 3D super-resolution of wind fields via physics-informed pixel-wise self-attention generative adversarial network ( http://arxiv.org/abs/2312.13212v1 ) ライセンス: Link先を確認 | Takuya Kurihana, Kyongmin Yeo, Daniela Szwarcman, Bruce Elmegreen, Karthik Mukkavilli, Johannes Schmude, Levente Klein | (参考訳) 地球温暖化を緩和するには、温室効果ガス源を高い空間分解能で解決し、汚染源の削減と究極の除去を確実にするために監視する必要がある。
しかし、高分解能風場の解法における計算の複雑さは、異なる時間長とモデル構成をテストするためにシミュレーションを非現実的に残した。
本研究では,3次元(3D)低分解能風場をx9倍の高分解能で超解ける物理インフォームド超解像対向ネットワーク(GAN)の予備開発について述べる。
我々は,PWAモジュールを開発し,自己アテンション計算と2次元畳み込みによる3次元気象力学を学習する。
また,入力風データから垂直対流過程を捕捉し,事前学習中に自己注意マップを規則化する損失項を用いる。
新しいPWA SR-GANは、高忠実度超解風3次元風速データを示し、高周波領域で風構造を学習し、高分解能風速シミュレーションの計算コストをx89.7倍に削減する。 To mitigate global warming, greenhouse gas sources need to be resolved at a high spatial resolution and monitored in time to ensure the reduction and ultimately elimination of the pollution source. However, the complexity of computation in resolving high-resolution wind fields left the simulations impractical to test different time lengths and model configurations. This study presents a preliminary development of a physics-informed super-resolution (SR) generative adversarial network (GAN) that super-resolves the three-dimensional (3D) low-resolution wind fields by upscaling x9 times. We develop a pixel-wise self-attention (PWA) module that learns 3D weather dynamics via a self-attention computation followed by a 2D convolution. We also employ a loss term that regularizes the self-attention map during pretraining, capturing the vertical convection process from input wind data. The new PWA SR-GAN shows the high-fidelity super-resolved 3D wind data, learns a wind structure at the high-frequency domain, and reduces the computational cost of a high-resolution wind simulation by x89.7 times. | 翻訳日:2023-12-21 14:39:26 公開日:2023-12-20 |
# DSFormer:Dense-Sparse Weight Factorizationによるテキスト変換器の効率的な圧縮 DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization ( http://arxiv.org/abs/2312.13211v1 ) ライセンス: Link先を確認 | Rahul Chand, Yashoteja Prabhu, Pratyush Kumar | (参考訳) 自然言語理解における大規模トランスフォーマモデルの成功により、コスト効率のよいデプロイメントのためにそれらをダウンサイジングすることが重要になっている。
近年の研究では、トレーニングに効率的で、任意のトランスフォーマーアーキテクチャにアウト・オブ・ボックスを適用する低ランクの重み分解技術が研究されている。
残念なことに、低ランクの仮定は過剰に制限され、圧縮されたモデルの表現性を阻害する傾向がある。
本稿では,ターゲット重み行列を小密度および半構造スパース行列の積として表現する,単純な代替因子化スキームdsformerを提案する。
結果として得られる近似は変圧器の重量分布に忠実であり、したがってより高い効率-精度のトレードオフを達成する。
既存のファクタライザに対するもうひとつの懸念は、結果のモデルの精度を低下させるタスクを意識しない初期化ステップへの依存である。
DSFormerは、最終的なタスク精度を直接最大化するために、全ての重み係数化を共同で学習する新しいストレート・スロー・ファクタライザ(STF)アルゴリズムによってこの問題に対処する。
複数の自然言語理解ベンチマークに関する広範囲な実験により、dsformerは最先端の低ランク因子よりも最大40%優れた圧縮を得られることが示され、半構造化スパーシティ基準と一般的な知識蒸留アプローチが導かれる。
我々のアプローチは主流の圧縮機と直交しており、一般的な蒸留、層共有、量子化トランスに加えると最大50%の追加圧縮を提供する。
従来の最適化手法よりもSTFの利点を実証的に評価する。 With the tremendous success of large transformer models in natural language understanding, down-sizing them for cost-effective deployments has become critical. Recent studies have explored the low-rank weight factorization techniques which are efficient to train, and apply out-of-the-box to any transformer architecture. Unfortunately, the low-rank assumption tends to be over-restrictive and hinders the expressiveness of the compressed model. This paper proposes, DSFormer, a simple alternative factorization scheme which expresses a target weight matrix as the product of a small dense and a semi-structured sparse matrix. The resulting approximation is more faithful to the weight distribution in transformers and therefore achieves a stronger efficiency-accuracy trade-off. Another concern with existing factorizers is their dependence on a task-unaware initialization step which degrades the accuracy of the resulting model. DSFormer addresses this issue through a novel Straight-Through Factorizer (STF) algorithm that jointly learns all the weight factorizations to directly maximize the final task accuracy. Extensive experiments on multiple natural language understanding benchmarks demonstrate that DSFormer obtains up to 40% better compression than the state-of-the-art low-rank factorizers, leading semi-structured sparsity baselines and popular knowledge distillation approaches. Our approach is also orthogonal to mainstream compressors and offers up to 50% additional compression when added to popular distilled, layer-shared and quantized transformers. We empirically evaluate the benefits of STF over conventional optimization practices. | 翻訳日:2023-12-21 14:39:04 公開日:2023-12-20 |
# 生成的マルチモーダルモデルは文脈学習者である Generative Multimodal Models are In-Context Learners ( http://arxiv.org/abs/2312.13286v1 ) ライセンス: Link先を確認 | Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang | (参考訳) 文脈で簡単にマルチモーダルなタスクを解く能力(例えば、ほんの数回のデモンストレーションや単純な指示)は、現在のマルチモーダルシステムは、ほとんど模倣に苦労しているものです。
本研究では,大規模マルチモーダルモデルのタスク非依存なインコンテキスト学習能力が,効果的なスケールアップによって大幅に向上できることを実証する。
我々は,37億パラメータを持つ生成型マルチモーダルモデルであるemu2を紹介し,自己回帰的目標を統一した大規模マルチモーダルシーケンスで学習する。
Emu2は強力なマルチモーダルなインコンテキスト学習能力を示し、視覚的プロンプトやオブジェクトグラウンド生成など、オンザフライ推論を必要とするタスクを解決しようとさえしている。
このモデルは、複数のマルチモーダル理解タスクに、数ショット設定で新しいレコードを設定する。
命令が特定の命令に従うように調整された場合、Emu2はさらに、大規模なマルチモーダルモデルの質問応答ベンチマークや、オープンな対象駆動生成といった課題に対して、新しい最先端のタスクを実現する。
これらの成果は、Emu2が幅広いマルチモーダルタスクのベースモデルおよび汎用インターフェースとして機能できることを実証している。
コードとモデルは、将来の研究を促進するために公開されている。 The human ability to easily solve multimodal tasks in context (i.e., with only a few demonstrations or simple instructions), is what current multimodal systems have largely struggled to imitate. In this work, we demonstrate that the task-agnostic in-context learning capabilities of large multimodal models can be significantly enhanced by effective scaling-up. We introduce Emu2, a generative multimodal model with 37 billion parameters, trained on large-scale multimodal sequences with a unified autoregressive objective. Emu2 exhibits strong multimodal in-context learning abilities, even emerging to solve tasks that require on-the-fly reasoning, such as visual prompting and object-grounded generation. The model sets a new record on multiple multimodal understanding tasks in few-shot settings. When instruction-tuned to follow specific instructions, Emu2 further achieves new state-of-the-art on challenging tasks such as question answering benchmarks for large multimodal models and open-ended subject-driven generation. These achievements demonstrate that Emu2 can serve as a base model and general-purpose interface for a wide range of multimodal tasks. Code and models are publicly available to facilitate future research. | 翻訳日:2023-12-21 14:31:57 公開日:2023-12-20 |
# UniSDF: 反射を伴う複合シーンの高忠実度3次元再構成のためのニューラル表現の統合 UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections ( http://arxiv.org/abs/2312.13285v1 ) ライセンス: Link先を確認 | Fangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari | (参考訳) ニューラル3dシーン表現は、2d画像からの3d再構成に大きな可能性を示している。
しかし、現実の複雑なシーンを再現することは依然として課題である。
既存の一般的な3次元再構成法は、しばしば微細な幾何学的詳細を表現するのに苦労し、大規模なシーンの反射面を適切にモデル化しない。
反射面に明示的に焦点をあてるテクニックは、より優れた反射パラメータ化を利用して複雑で詳細な反射をモデル化することができる。
しかし,非反射的および反射的成分が存在する実非有界シナリオでは,これらの手法は頑健ではないことが多い。
本研究では,大規模な複雑なシーンをリフレクションで再構築可能な汎用3次元再構成手法UniSDFを提案する。
本研究では,3次元空間においてこれらの表現を明示的にブレンドすることで,特に反射面において,幾何学的に精度の高い面の再構成が可能になることを明らかにする。
さらに,この表現を,粗大から細かな方法でトレーニングされたマルチレゾリューショングリッドバックボーンと組み合わせることにより,従来手法よりも高速な再構築を実現する。
オブジェクトレベルのデータセットDTU, Shiny Blender, および非有界データセットMip-NeRF 360およびRef-NeRFの大規模な実験により, 複雑な大規模シーンを細部と反射面で頑健に再構成できることが実証された。
プロジェクトページはhttps://fangjinhuawang.github.io/UniSDFを参照してください。 Neural 3D scene representations have shown great potential for 3D reconstruction from 2D images. However, reconstructing real-world captures of complex scenes still remains a challenge. Existing generic 3D reconstruction methods often struggle to represent fine geometric details and do not adequately model reflective surfaces of large-scale scenes. Techniques that explicitly focus on reflective surfaces can model complex and detailed reflections by exploiting better reflection parameterizations. However, we observe that these methods are often not robust in real unbounded scenarios where non-reflective as well as reflective components are present. In this work, we propose UniSDF, a general purpose 3D reconstruction method that can reconstruct large complex scenes with reflections. We investigate both view-based as well as reflection-based color prediction parameterization techniques and find that explicitly blending these representations in 3D space enables reconstruction of surfaces that are more geometrically accurate, especially for reflective surfaces. We further combine this representation with a multi-resolution grid backbone that is trained in a coarse-to-fine manner, enabling faster reconstructions than prior methods. Extensive experiments on object-level datasets DTU, Shiny Blender as well as unbounded datasets Mip-NeRF 360 and Ref-NeRF real demonstrate that our method is able to robustly reconstruct complex large-scale scenes with fine details and reflective surfaces. Please see our project page at https://fangjinhuawang.github.io/UniSDF. | 翻訳日:2023-12-21 14:31:36 公開日:2023-12-20 |
# 低固有値誤差に対するハミルトン分割最適化のためのトロッタ近似誤差の推定 Estimating Trotter Approximation Errors to Optimize Hamiltonian Partitioning for Lower Eigenvalue Errors ( http://arxiv.org/abs/2312.13282v1 ) ライセンス: Link先を確認 | Luis A. Mart\'inez-Mart\'inez, Prathami Divakar Kamath and Artur F. Izmaylov | (参考訳) 量子コンピュータ上で多体ハミルトニアンをエンコードし、量子位相推定によって固有エネルギーを得る方法の一つは、トロッター近似である。
正確な進化作用素と近似進化作用素の差のノルムを推定し、この近似の質を評価するいくつかの方法が提案された。
ここでは、これらの異なる誤差推定が相互にどのように相関し、固有値を求める際に真のトロッター近似誤差を予測できるかどうかを考察する。
一組の小さな分子系に対して、基底状態電子エネルギーに対する第1次トロッター公式の正確なトロッター近似誤差を計算した。
これらの誤差と以前に使われた上界を比較すると、系と様々なハミルトニアン分割との相関はほとんど示されない。
一方、固有値の時間ステップにおける摂動理論に基づくトロッター近似誤差推定は、トロッター近似誤差と非常によく相関している。
得られた摂動推定は,エネルギー固有値の推定に要する資源を目標精度で正確に評価するために最重要となる,実用的な時間ステップおよびハミルトン分割選択プロトコルに利用できる。 One of the ways to encode many-body Hamiltonians on a quantum computer to obtain their eigen-energies through Quantum Phase Estimation is by means of the Trotter approximation. There were several ways proposed to assess the quality of this approximation based on estimating the norm of the difference between the exact and approximate evolution operators. Here, we would like to explore how these different error estimates are correlated with each other and whether they can be good predictors for the true Trotter approximation error in finding eigenvalues. For a set of small molecular systems we calculated the exact Trotter approximation errors of the first order Trotter formulas for the ground state electronic energies. Comparison of these errors with previously used upper bounds show almost no correlation over the systems and various Hamiltonian partitionings. On the other hand, building the Trotter approximation error estimation based on perturbation theory up to a second order in the time-step for eigenvalues provides estimates with very good correlations with the Trotter approximation errors. The developed perturbative estimates can be used for practical time-step and Hamiltonian partitioning selection protocols, which are paramount for an accurate assessment of resources needed for the estimation of energy eigenvalues under a target accuracy. | 翻訳日:2023-12-21 14:31:10 公開日:2023-12-20 |
# 3次元ニューラルネットワークの深層学習 Deep Learning on 3D Neural Fields ( http://arxiv.org/abs/2312.13277v1 ) ライセンス: Link先を確認 | Pierluigi Zama Ramirez, Luca De Luigi, Daniele Sirocchi, Adriano Cardace, Riccardo Spezialetti, Francesco Ballerini, Samuele Salti, Luigi Di Stefano | (参考訳) 近年、ニューラルフィールド(NF)は画像、ビデオ、オーディオ、三次元形状などの多様な連続的な信号を符号化する有効なツールとして出現している。
3Dデータに適用すると、NFsは、主要な離散表現に関連する断片化と制限に対する解決策を提供する。
しかし、NFが本質的にニューラルネットワークであることを考えると、下流タスクを解決するためにディープラーニングパイプラインにシームレスに統合できるかどうか、またどのようにしてできるのかは不明だ。
本稿では、この研究課題に対処し、単一の推論パスで入力nfのコンパクトな潜在表現を生成することができるフレームワークnf2vecを紹介する。
nf2vecが入力nfsで表現された3dオブジェクトを効果的に埋め込み、その結果の埋め込みがディープラーニングパイプラインでどのように活用され、nfsのみを処理しながら様々なタスクにうまく対処できるかを示す。
このフレームワークは、符号なし/符号なし距離や占有場などの3次元表面を表すために使用される複数のNF上でテストする。
さらに,神経放射場などの3dオブジェクトの形状と出現の両方を包含する,より複雑なnfsを用いたアプローチの有効性を示す。 In recent years, Neural Fields (NFs) have emerged as an effective tool for encoding diverse continuous signals such as images, videos, audio, and 3D shapes. When applied to 3D data, NFs offer a solution to the fragmentation and limitations associated with prevalent discrete representations. However, given that NFs are essentially neural networks, it remains unclear whether and how they can be seamlessly integrated into deep learning pipelines for solving downstream tasks. This paper addresses this research problem and introduces nf2vec, a framework capable of generating a compact latent representation for an input NF in a single inference pass. We demonstrate that nf2vec effectively embeds 3D objects represented by the input NFs and showcase how the resulting embeddings can be employed in deep learning pipelines to successfully address various tasks, all while processing exclusively NFs. We test this framework on several NFs used to represent 3D surfaces, such as unsigned/signed distance and occupancy fields. Moreover, we demonstrate the effectiveness of our approach with more complex NFs that encompass both geometry and appearance of 3D objects such as neural radiance fields. | 翻訳日:2023-12-21 14:30:52 公開日:2023-12-20 |
# sok: ソフトウェア破壊ツールの広範な比較評価 SoK: A Broad Comparative Evaluation of Software Debloating Tools ( http://arxiv.org/abs/2312.13274v1 ) ライセンス: Link先を確認 | Michael D. Brown, Adam Meily, Brian Fairservice, Akshay Sood, Jonathan Dorn, Eric Kilmer, Ronald Eytchison | (参考訳) ソフトウェア破壊ツールは、bloatと呼ばれる不要なコードを削除することで、プログラムのセキュリティとパフォーマンスを改善することを目指している。
多くの技術が提案されているが、採用の障壁がいくつか現れている。
つまり、デブローミングツールは高度に専門的で、採用者がニーズに対して適切なタイプのツールを見つけるのが困難である。
これは、確立されたメトリクスの欠如とツール間の比較評価によってさらに妨げられている。
このギャップを埋めるため,我々は10年間の消泡文学と,消泡する生態系の知識を体系化する商業開発ツールについて調査を行った。
次に, 相対的強度と弱さを判定するために, 10個の脱血ツールの広域比較評価を行った。
評価は,20のベンチマークプログラム,16のパフォーマンス,セキュリティ,正当性,ユーザビリティの指標を対象とした。
本評価では, 先行する文学の物語と矛盾するいくつかの知見について検討した。
まず、デブロートツールには、実世界のソフトウェアで使用するために必要な成熟度が欠如している。中・高複雑さベンチマークのパス可能なデブロートバージョンを作成する上で、全体の成功率は21%である。
第二に、爆発するツールは、健全で堅牢なプログラムを作るのに苦労している。
新たな差分ファジングツールによって異なるのは,私たちの爆発的試みのわずか13%が,健全でロバストな爆発的プログラムを生み出していることだ。
以上の結果から,退化したプログラムの性能やセキュリティの姿勢が改善されないことが判明した。
この論文における私たちのコントリビューションは、潜在的な採用者がツールの展望をよりよく理解し、より有能なデブロ化ツールの将来の研究と開発を動機付けるだろうと考えています。
この目的のために、ベンチマークセット、データ、カスタムツールを公開しました。 Software debloating tools seek to improve the program security and performance by removing unnecessary code, called bloat. While many techniques have been proposed, several barriers to their adoption have emerged. Namely, debloating tools are highly specialized, making it difficult for adopters to find the right type of tool for their needs. This is further hindered by a lack of established metrics and comparative evaluations between tools. To close this gap, we surveyed of 10 years of debloating literature and several tools currently under commercial development to systematize the debloating ecosystem's knowledge. We then conducted a broad comparative evaluation of 10 debloating tools to determine their relative strengths and weaknesses. Our evaluation, conducted on a diverse set of 20 benchmark programs, measures tools across 16 performance, security, correctness, and usability metrics. Our evaluation surfaces several concerning findings that contradict the prevailing narrative in debloating literature. First, debloating tools lack the required maturity to be used on real-world software, evidenced by a slim 21% overall success rate for creating passable debloated versions of medium- and high-complexity benchmarks. Second, debloating tools struggle to produce sound and robust programs. Using our novel differential fuzzing tool, DIFFER, we discovered that only 13% of our debloating attempts produced a sound and robust debloated program. Finally, our results indicate that debloating tools typically do not improve the performance or security posture of debloated programs by a significant degree. We believe that our contributions in this paper will help potential adopters better understand the landscape of tools and will motivate future research and development of more capable debloating tools. To this end, we have made our benchmark set, data, and custom tools publicly available. | 翻訳日:2023-12-21 14:30:33 公開日:2023-12-20 |
# Repaint123:プログレッシブ・コントロール可能な2Dリペイントによる高速かつ高品質な1次元画像から3D生成 Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting ( http://arxiv.org/abs/2312.13271v1 ) ライセンス: Link先を確認 | Junwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan | (参考訳) 近年の3次元画像生成法では, スコア蒸留サンプリング (SDS) が一般的である。
印象的な結果にもかかわらず、マルチビューの不整合、過飽和、過度にスムースなテクスチャ、そして遅い生成速度など、複数の欠陥がある。
これらの欠陥に対処するため,多視点バイアスを緩和し,テクスチャ劣化を緩和し,生成プロセスを高速化するRepaint123を提案する。
中心となる考え方は、2次元拡散モデルの強力な画像生成能力と、高画質のマルチビュー画像を生成するための塗り替え戦略のテクスチャアライメント能力を組み合わせることである。
さらに, 重なり領域に対する可視性を考慮した適応塗り戻し強度を提案し, 塗り返し過程における画像品質の向上を図る。
生成された高品質で複数ビューの一貫性のある画像は、高速な3Dコンテンツ生成に単純なMean Square Error(MSE)損失を利用することができる。
提案手法は,多視点整合性,微視的テクスチャをスクラッチから2分で生成し,高品質な3Dコンテンツを生成する能力に優れることを示す。
コードはhttps://github.com/junwuzhang19/repaint123にある。 Recent one image to 3D generation methods commonly adopt Score Distillation Sampling (SDS). Despite the impressive results, there are multiple deficiencies including multi-view inconsistency, over-saturated and over-smoothed textures, as well as the slow generation speed. To address these deficiencies, we present Repaint123 to alleviate multi-view bias as well as texture degradation and speed up the generation process. The core idea is to combine the powerful image generation capability of the 2D diffusion model and the texture alignment ability of the repainting strategy for generating high-quality multi-view images with consistency. We further propose visibility-aware adaptive repainting strength for overlap regions to enhance the generated image quality in the repainting process. The generated high-quality and multi-view consistent images enable the use of simple Mean Square Error (MSE) loss for fast 3D content generation. We conduct extensive experiments and show that our method has a superior ability to generate high-quality 3D content with multi-view consistency and fine textures in 2 minutes from scratch. Code is at https://github.com/junwuzhang19/repaint123. | 翻訳日:2023-12-21 14:30:01 公開日:2023-12-20 |
# classlie:低光度画像強調のための構造と照明適応分類 ClassLIE: Structure- and Illumination-Adaptive Classification for Low-Light Image Enhancement ( http://arxiv.org/abs/2312.13265v1 ) ライセンス: Link先を確認 | Zixiang Wei, Yiting Wang, Lichao Sun, Athanasios V. Vasilakos, Lin Wang | (参考訳) 低照度画像はしばしば可視性と複数の種類の劣化に悩まされ、低照度画像強調(LIE)は非自明なタスクである。
畳み込みニューラルネットワーク(CNN)を用いて低照度画像を強化する試みが最近行われた。
しかし、画像の局所領域における構造情報と多様な照明レベルを学習する際の効率は低い。
その結果、強化された結果は、不均衡な露出、ぼけ、色バイアスなどの予期せぬアーティファクトに影響される。
そこで本研究では,CNNと変圧器のポテンシャルを組み合わせた新しいフレームワークであるClassLIEを提案する。
低照度画像から構造および照明情報を全体的かつ局所的に分類・適応的に学習し、より優れた強調性能を示す。
まず,構造および照明分類(sic)モジュールを用いて,劣化情報を適応的に学習する。
sicでは、入力画像を照明マップと反射率マップに分解する。
次に、反射率マップ上の構造類似度スコアと照明マップ上の平均二乗誤差を算出し、劣化情報を分類するクラス予測ブロックを設計する。
これにより、各入力画像を3つの強化困難レベルを持つパッチに分割することができる。
次に,cnnを用いて,パッチの長距離依存性を包括的に学習しながら,拡張難易度レベルが異なる特徴情報を適応的に学習する機能学習融合(flf)モジュールを提案する。
5つのベンチマークデータセットの実験は、LOLデータセット上で25.74 PSNRと0.92 SSIMで、私たちのClassLIEが新しい最先端のパフォーマンスを達成することを一貫して示している。 Low-light images often suffer from limited visibility and multiple types of degradation, rendering low-light image enhancement (LIE) a non-trivial task. Some endeavors have been recently made to enhance low-light images using convolutional neural networks (CNNs). However, they have low efficiency in learning the structural information and diverse illumination levels at the local regions of an image. Consequently, the enhanced results are affected by unexpected artifacts, such as unbalanced exposure, blur, and color bias. To this end, this paper proposes a novel framework, called ClassLIE, that combines the potential of CNNs and transformers. It classifies and adaptively learns the structural and illumination information from the low-light images in a holistic and regional manner, thus showing better enhancement performance. Our framework first employs a structure and illumination classification (SIC) module to learn the degradation information adaptively. In SIC, we decompose an input image into an illumination map and a reflectance map. A class prediction block is then designed to classify the degradation information by calculating the structure similarity scores on the reflectance map and mean square error on the illumination map. As such, each input image can be divided into patches with three enhancement difficulty levels. Then, a feature learning and fusion (FLF) module is proposed to adaptively learn the feature information with CNNs for different enhancement difficulty levels while learning the long-range dependencies for the patches in a holistic manner. Experiments on five benchmark datasets consistently show our ClassLIE achieves new state-of-the-art performance, with 25.74 PSNR and 0.92 SSIM on the LOL dataset. | 翻訳日:2023-12-21 14:29:42 公開日:2023-12-20 |
# dIR -- 離散情報検索: 大規模言語モデルを用いた非構造化(および構造化)データの会話検索 dIR -- Discrete Information Retrieval: Conversational Search over Unstructured (and Structured) Data with Large Language Models ( http://arxiv.org/abs/2312.13264v1 ) ライセンス: Link先を確認 | Pablo M. Rodriguez Bertorello and Jean Rodmond Junior Laguerre (Computer Science Department, Stanford University) | (参考訳) データは構造化および非構造化の形式で格納される。
自然言語の会話をパワーアップするために、両方を問うことは難しい。
本稿では,自由テキストと構造化知識の両方を問う統一インターフェースとして,dIR,disrete Information Retrievalを提案する。
具体的には、Large Language Model (LLM) はテキストを表現表現に変換する。
テキストがコラム形式に抽出されると、テキストからSQLへのセマンティックパーザを通じてクエリされ、LLMが自然言語をSQLに変換する。
必要に応じて、そのような会話は多段階の推論的会話エージェントによってもたらされる。
従来の微調整された密埋め込みモデルに基づく情報検索 (IR) やSQLベースの知識ベース (KB) と比較すると, dIR はフリーテキスト上で全く新しいクエリのクラスを作成できる,という結論に達した。
十分に複雑なクエリでは、他のメソッドがチャンスのない場合にdIRが成功する。 Data is stored in both structured and unstructured form. Querying both, to power natural language conversations, is a challenge. This paper introduces dIR, Discrete Information Retrieval, providing a unified interface to query both free text and structured knowledge. Specifically, a Large Language Model (LLM) transforms text into expressive representation. After the text is extracted into columnar form, it can then be queried via a text-to-SQL Semantic Parser, with an LLM converting natural language into SQL. Where desired, such conversation may be effected by a multi-step reasoning conversational agent. We validate our approach via a proprietary question/answer data set, concluding that dIR makes a whole new class of queries on free text possible when compared to traditionally fine-tuned dense-embedding-model-based Information Retrieval (IR) and SQL-based Knowledge Bases (KB). For sufficiently complex queries, dIR can succeed where no other method stands a chance. | 翻訳日:2023-12-21 14:29:15 公開日:2023-12-20 |
# 正規化NTKダイナミクスに関する一考察 : PAC-Bayesian トレーニングへの応用 A note on regularised NTK dynamics with an application to PAC-Bayesian training ( http://arxiv.org/abs/2312.13259v1 ) ライセンス: Link先を確認 | Eugenio Clerico, Benjamin Guedj | (参考訳) トレーニング対象が初期値に近いパラメータを制約する正規化項を持つニューラルネットワークに対して、明示的なダイナミクスを確立する。
これにより、ネットワークを遅延トレーニングレジームに保ち、初期化の周りでダイナミクスを線形化することができる。
標準神経接核(NTK)は無限幅極限でのトレーニング中に進化を制御しているが、正規化は力学を記述する微分方程式に付加的な項が現れる。
この設定は、PAC-Bayes境界のような一般化目標を最適化するために訓練された広いネットワークの進化を研究するための適切なフレームワークを提供する。 We establish explicit dynamics for neural networks whose training objective has a regularising term that constrains the parameters to remain close to their initial value. This keeps the network in a lazy training regime, where the dynamics can be linearised around the initialisation. The standard neural tangent kernel (NTK) governs the evolution during the training in the infinite-width limit, although the regularisation yields an additional term appears in the differential equation describing the dynamics. This setting provides an appropriate framework to study the evolution of wide networks trained to optimise generalisation objectives such as PAC-Bayes bounds, and hence potentially contribute to a deeper theoretical understanding of such networks. | 翻訳日:2023-12-21 14:28:56 公開日:2023-12-20 |
# 事前制約付き生成モデルによる条件画像生成 Conditional Image Generation with Pretrained Generative Model ( http://arxiv.org/abs/2312.13253v1 ) ライセンス: Link先を確認 | Rajesh Shrestha, Bowen Xie | (参考訳) 近年,GANモデルと比較して高品質な画像を生成する能力で拡散モデルが人気を集めている。
しかし、他の大きな生成モデルと同様に、これらのモデルはトレーニングを成功させるために大量のデータ、計算資源、精巧なチューニングを必要とする。
これは大きな課題であり、ほとんどの個人にとって実現不可能である。
その結果、研究コミュニティは、条件付き画像生成のために、事前訓練された無条件拡散モデルを活用する方法を考案した。
これらの手法は多様な入力に対して条件付き画像生成を可能にし、最も重要なのは拡散モデルの訓練の必要性を回避することである。
本稿では,拡散モデルにおけるガイダンスの追加によって生じる時間的・計算的オーバーヘッドを低減し,画像品質を同等に維持することを目的とする。
本研究では,経験的解析に基づく一連の手法を提案し,計算時間を約3倍に短縮することを示す。 In recent years, diffusion models have gained popularity for their ability to generate higher-quality images in comparison to GAN models. However, like any other large generative models, these models require a huge amount of data, computational resources, and meticulous tuning for successful training. This poses a significant challenge, rendering it infeasible for most individuals. As a result, the research community has devised methods to leverage pre-trained unconditional diffusion models with additional guidance for the purpose of conditional image generative. These methods enable conditional image generations on diverse inputs and, most importantly, circumvent the need for training the diffusion model. In this paper, our objective is to reduce the time-required and computational overhead introduced by the addition of guidance in diffusion models -- while maintaining comparable image quality. We propose a set of methods based on our empirical analysis, demonstrating a reduction in computation time by approximately threefold. | 翻訳日:2023-12-21 14:28:44 公開日:2023-12-20 |
# 視野条件付き拡散モデルによるゼロショット距離 Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model ( http://arxiv.org/abs/2312.13252v1 ) ライセンス: Link先を確認 | Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet | (参考訳) 単眼深度推定法は標準ベンチマークで大きく進歩したが、ゼロショット距離深度推定は未解決のままである。
課題には、RGBと深さのかなり異なる分布を示す屋内と屋外のシーンの合同モデリングや、未知のカメラ固有の原因による奥行きのあいまいさなどが含まれる。
近年,屋内と屋外のシーンを共同でモデリングするためのマルチヘッドアーキテクチャが提案されている。
対照的に、我々は、対数スケールの奥行きパラメータ化による屋内と屋外のシーンの連成モデリング、視野のあいまいさに対処するための条件付け、訓練中にFOVを合成的に拡張し、訓練データセットにおける限定的なカメラ内在性を超えた一般化を可能にする、汎用的なタスク非依存拡散モデルを提案している。
さらに,より多種多様な訓練混合物を用い,効率的な拡散パラメータ化を行うことにより,ゼロショット屋内における相対誤差(rel)の25-%低減,ゼロショット屋外データセットの33-%削減を少数の分別ステップで達成した。
概要はhttps://diffusion-vision.github.io/dmdを参照。 While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd | 翻訳日:2023-12-21 14:28:32 公開日:2023-12-20 |
# 同変量子畳み込みニューラルネットワークにおけるデータ埋め込みの役割 The role of data embedding in equivariant quantum convolutional neural networks ( http://arxiv.org/abs/2312.13250v1 ) ライセンス: Link先を確認 | Sreetama Das, Stefano Martina, Filippo Caruso | (参考訳) 幾何学的ディープラーニングは、データセットの対称性を使用してニューラルネットワークのパラメータ空間を制約し、トレーニング性と一般化を改善するシナリオを指す。
近年、このアイデアは量子機械学習の分野に取り入れられ、同変量子ニューラルネットワーク(EQNN)が誕生した。
本研究では,画像の分類における古典-量子埋め込みが等変量子畳み込みニューラルネットワーク(EQCNN)の性能に与える影響について検討する。
本稿では,データ埋め込み手法と対称性群の表現の関係を考察し,表現の変化がEQCNNの表現性に与える影響を分析する。
量子畳み込みニューラルネットワーク(QCNN)から得られた3種類の振幅埋め込みと、EQCNNの分類精度を数値的に比較する。
以上の結果から,EQCNNの分類精度は,少数のトレーニングイテレーションにおいて同等でないQCNNよりも高く,大規模なイテレーションでは使用済み埋め込みに大きく依存することがわかった。
この研究の成果は、幾何学的量子機械学習の文脈におけるデータ埋め込み選択の重要性をより理解するために、コミュニティにとって有用であることが期待される。 Geometric deep learning refers to the scenario in which the symmetries of a dataset are used to constrain the parameter space of a neural network and thus, improve their trainability and generalization. Recently this idea has been incorporated into the field of quantum machine learning, which has given rise to equivariant quantum neural networks (EQNNs). In this work, we investigate the role of classical-to-quantum embedding on the performance of equivariant quantum convolutional neural networks (EQCNNs) for the classification of images. We discuss the connection between the data embedding method and the resulting representation of a symmetry group and analyze how changing representation affects the expressibility of an EQCNN. We numerically compare the classification accuracy of EQCNNs with three different basis-permuted amplitude embeddings to the one obtained from a non-equivariant quantum convolutional neural network (QCNN). Our results show that all the EQCNNs achieve higher classification accuracy than the non-equivariant QCNN for small numbers of training iterations, while for large iterations this improvement crucially depends on the used embedding. It is expected that the results of this work can be useful to the community for a better understanding of the importance of data embedding choice in the context of geometric quantum machine learning. | 翻訳日:2023-12-21 14:28:04 公開日:2023-12-20 |
# 相関ダイナミクスモデルによるニューラルトレーニングの強化 Enhancing Neural Training via a Correlated Dynamics Model ( http://arxiv.org/abs/2312.13247v1 ) ライセンス: Link先を確認 | Jonathan Brokman, Roy Betser, Rotem Turjeman, Tom Berkov, Ido Cohen, Guy Gilboa | (参考訳) ニューラルネットワークの規模が大きくなるにつれて、そのトレーニングは計算的に要求され、ダイナミクスに富んでいる。
これらのトレーニングダイナミクスへの関心が高まりつつある中、トレーニング中のパラメーターは時間とともに内在的な相関を示す新しい観察結果を示す。
そこで本研究では相関モード分解(cmd)を提案する。
このアルゴリズムはパラメータ空間をグループ化し、エポックにまたがって同期した動作を表示する。
これにより、CMDは数モードのみを使用して、ResNetsやTransformersのような複雑なネットワークのトレーニングダイナミクスを効率的に表現できる。
さらに、テストセットの一般化が強化される。
トレーニングと同時に動作するように設計された効率的なCMDバリアントを導入する。
実験の結果,cmdは画像分類におけるコンパクトモデルダイナミクスの最先端手法を上回っていることが示唆された。
我々のモデリングは、連合学習の文脈における予備実験で示されるように、トレーニング効率の向上とコミュニケーションオーバーヘッドの低減を可能にする。 As neural networks grow in scale, their training becomes both computationally demanding and rich in dynamics. Amidst the flourishing interest in these training dynamics, we present a novel observation: Parameters during training exhibit intrinsic correlations over time. Capitalizing on this, we introduce Correlation Mode Decomposition (CMD). This algorithm clusters the parameter space into groups, termed modes, that display synchronized behavior across epochs. This enables CMD to efficiently represent the training dynamics of complex networks, like ResNets and Transformers, using only a few modes. Moreover, test set generalization is enhanced. We introduce an efficient CMD variant, designed to run concurrently with training. Our experiments indicate that CMD surpasses the state-of-the-art method for compactly modeled dynamics on image classification. Our modeling can improve training efficiency and lower communication overhead, as shown by our preliminary experiments in the context of federated learning. | 翻訳日:2023-12-21 14:27:47 公開日:2023-12-20 |
# アルゴリズム的ランダム性による局所実在論と量子力学の議論の洗練 A refinement of the argument of local realism versus quantum mechanics by algorithmic randomness ( http://arxiv.org/abs/2312.13246v1 ) ライセンス: Link先を確認 | Kohtaro Tadaki | (参考訳) 確率の概念は量子力学において重要な役割を果たす。
量子力学ではボルン則として現れる。
しかし、量子力学を記述する現代数学では、確率論は測度理論以外に何の意味も持たないため、確率の概念の操作的特徴は量子力学ではいまだに欠落している。
アルゴリズム的ランダム性のツールキットに基づく我々の以前の研究(K. Tadaki, arXiv:1804.10174)において、我々は定性原理と呼ばれるボルンの規則を改良し、測定結果の特性を操作的に特定した。
本稿では,局所現実論と量子力学の議論に我々のフレームワークを応用し,量子力学の実践的問題において,我々のフレームワークがいかに適切に動作するかを実証する。 The notion of probability plays a crucial role in quantum mechanics. It appears in quantum mechanics as the Born rule. In modern mathematics which describes quantum mechanics, however, probability theory means nothing other than measure theory, and therefore any operational characterization of the notion of probability is still missing in quantum mechanics. In our former works [K. Tadaki, arXiv:1804.10174], based on the toolkit of algorithmic randomness, we presented a refinement of the Born rule, called the principle of typicality, for specifying the property of results of measurements in an operational way. In this paper, we make an application of our framework to the argument of local realism versus quantum mechanics for refining it, in order to demonstrate how properly our framework works in practical problems in quantum mechanics. | 翻訳日:2023-12-21 14:27:32 公開日:2023-12-20 |
# 測定に基づく変分量子固有解法のための決定論的Ans\ Deterministic Ans\"atze for the Measurement-based Variational Quantum Eigensolver ( http://arxiv.org/abs/2312.13241v1 ) ライセンス: Link先を確認 | Anna Schroeder, Matthias Heller, Mariami Gachechiladze | (参考訳) 測定に基づく量子コンピューティング(mbqc)は、変分量子固有解法(vqe)のようなノイズの多い中間スケール量子アルゴリズムにおける回路の深さを減らすための有望な手法である。
ゲートベースの計算とは異なり、MBQCは準備済みのリソース状態の局所的な測定を採用し、回路深さとキュービット数とのトレードオフを提供する。
決定論の確立はMBQC、特にVQEの文脈において重要であり、測定パターンのフローの欠如により、無関係な場所でのコスト関数の評価に繋がる。
本研究は、決定論を尊重するMBVQE-ans\atzeを導入し、広く使われている問題に依存しないハードウェア効率のVQEアンサッツに類似する。
schwinger hamiltonian と $xy$-model の理想的なシミュレーションを用いて本手法を評価し,適応計測機能を備えた ibm ハードウェア上で実験を行った。
本症例では, サンプリングコストの増大を犠牲にして, 適応的な測定により決定性を確保する方が, ポストセレクションにより有効であることがわかった。
さらに,ヘビーヘックス接続のあるハードウェア上で,資源状態,特にクラスタ状態,単一の計測ラウンドを必要とする効率的なmbqcインスパイアされた手法を提案し,27$と127$ qubitsの量子コンピュータ上で実装する。
我々は,より大規模なクラスタ状態に対する顕著な改善を観察するが,直接ゲートベースの実装はより小さなインスタンスに対して高い忠実性を実現する。 Measurement-based quantum computing (MBQC) is a promising approach to reducing circuit depth in noisy intermediate-scale quantum algorithms such as the Variational Quantum Eigensolver (VQE). Unlike gate-based computing, MBQC employs local measurements on a preprepared resource state, offering a trade-off between circuit depth and qubit count. Ensuring determinism is crucial to MBQC, particularly in the VQE context, as a lack of flow in measurement patterns leads to evaluating the cost function at irrelevant locations. This study introduces MBVQE-ans\"atze that respect determinism and resemble the widely used problem-agnostic hardware-efficient VQE ansatz. We evaluate our approach using ideal simulations on the Schwinger Hamiltonian and $XY$-model and perform experiments on IBM hardware with an adaptive measurement capability. In our use case, we find that ensuring determinism works better via postselection than by adaptive measurements at the expense of increased sampling cost. Additionally, we propose an efficient MBQC-inspired method to prepare the resource state, specifically the cluster state, on hardware with heavy-hex connectivity, requiring a single measurement round, and implement this scheme on quantum computers with $27$ and $127$ qubits. We observe notable improvements for larger cluster states, although direct gate-based implementation achieves higher fidelity for smaller instances. | 翻訳日:2023-12-21 14:27:14 公開日:2023-12-20 |
# 二元化ニューラルネットワークと混合整数プログラムのモデリング Taming Binarized Neural Networks and Mixed-Integer Programs ( http://arxiv.org/abs/2310.04469v3 ) ライセンス: Link先を確認 | Johannes Aspman and Georgios Korpas and Jakub Marecek | (参考訳) バイナリ化されたニューラルネットワークには、特にその説明可能性のために、近年多くの関心が寄せられている。
同時に、バックプロパゲーションのような自動微分アルゴリズムは二項化ニューラルネットワークでは失敗し、適用性が制限される。
二元化ニューラルネットワークを混合整数プログラムの副加法双対として訓練する問題を再構成することにより、二元化ニューラルネットワークが多元化表現を許容することを示す。
これにより、両立型ニューラルネットワークの文脈でバックプロパゲーションを実際に実装する可能性を提供する暗黙的な分化のために、bolteなどのフレームワークを使うことができる。
このアプローチは、AIなどに対する象徴的なアプローチで見られるように、二項化ニューラルネットワークのトレーニングを超えて、より広範な混合整数プログラムに使用することもできる。 There has been a great deal of recent interest in binarized neural networks, especially because of their explainability. At the same time, automatic differentiation algorithms such as backpropagation fail for binarized neural networks, which limits their applicability. By reformulating the problem of training binarized neural networks as a subadditive dual of a mixed-integer program, we show that binarized neural networks admit a tame representation. This, in turn, makes it possible to use the framework of Bolte et al. for implicit differentiation, which offers the possibility for practical implementation of backpropagation in the context of binarized neural networks. This approach could also be used for a broader class of mixed-integer programs, beyond the training of binarized neural networks, as encountered in symbolic approaches to AI and beyond. | 翻訳日:2023-12-21 12:44:24 公開日:2023-12-20 |
# テキスト・画像拡散モデルに対するFew-Shotバックドア攻撃のショートカットとしてのパーソナライゼーション Personalization as a Shortcut for Few-Shot Backdoor Attack against Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.10701v3 ) ライセンス: Link先を確認 | Yihao Huang, Felix Juefei-Xu, Qing Guo, Jie Zhang, Yutong Wu, Ming Hu, Tianlin Li, Geguang Pu, Yang Liu | (参考訳) 最近のパーソナライズ手法は、最小限の例と軽量な計算で迅速な概念獲得を可能にすることで、高解像度画像合成を民主化してきたが、高アクセス性バックドアアタックのための悪用可能な手段も提示している。
本稿では,テキスト・ツー・イメージ(t2i)拡散モデルの批判的かつ未検討な側面について検討する。
従来のバックドアアタックと比較して,提案手法はより正確で効率的で容易にアクセス可能な攻撃が容易であり,参入障壁が低く,テキストインバージョンとドリームブートによって認識される2つのパーソナライゼーション手法に共通するゼロデイバックドア脆弱性に着目した。
我々は,t2i拡散モデルにおけるパーソナライゼーションの包括的レビューを行い,このバックドア脆弱性の操作と悪用の可能性を強調した。
具体的には,テキストインバージョンとドリームブートの迅速な処理について検討し,未知のトークンの扱い方に応じて専用のバックドアアタックを考案し,攻撃効果に対するトリガーとコンセプトイメージの影響を分析した。
総合的な実証研究を通じて,ヌーボートーケンバックドア攻撃の有効性,ステルス性,整合性を裏付け,従来のバックドア攻撃よりも優れていた。 Although recent personalization methods have democratized high-resolution image synthesis by enabling swift concept acquisition with minimal examples and lightweight computation, they also present an exploitable avenue for high accessible backdoor attacks. This paper investigates a critical and unexplored aspect of text-to-image (T2I) diffusion models - their potential vulnerability to backdoor attacks via personalization. Our study focuses on a zero-day backdoor vulnerability prevalent in two families of personalization methods, epitomized by Textual Inversion and DreamBooth.Compared to traditional backdoor attacks, our proposed method can facilitate more precise, efficient, and easily accessible attacks with a lower barrier to entry. We provide a comprehensive review of personalization in T2I diffusion models, highlighting the operation and exploitation potential of this backdoor vulnerability. To be specific, by studying the prompt processing of Textual Inversion and DreamBooth, we have devised dedicated backdoor attacks according to the different ways of dealing with unseen tokens and analyzed the influence of triggers and concept images on the attack effect. Through comprehensive empirical study, we endorse the utilization of the nouveau-token backdoor attack due to its impressive effectiveness, stealthiness, and integrity, markedly outperforming the legacy-token backdoor attack. | 翻訳日:2023-12-21 12:44:09 公開日:2023-12-20 |
# 地震量子化 Earthquake Quantization ( http://arxiv.org/abs/2303.06158v3 ) ライセンス: Link先を確認 | Benjamin Koch and Enrique Mu\~noz | (参考訳) アインシュタインの144歳の誕生日の記念として、経路積分の経路がランダムではなく、ランダムな背景の測地方程式の解となるような新しい量子化処方則を提案する。
この視点の変化は、非相対論的量子力学の通常の定式化と数学的に等価であることを示す。
結論として、物質に結合した量子重力や量子同値原理のような概念的問題について述べる。 In this homage to Einstein's 144th birthday we propose a novel quantization prescription, where the paths of a path-integral are not random, but rather solutions of a geodesic equation in a random background. We show that this change of perspective can be made mathematically equivalent to the usual formulations of non-relativistic quantum mechanics. To conclude, we comment on conceptual issues, such as quantum gravity coupled to matter and the quantum equivalence principle. | 翻訳日:2023-12-21 12:43:43 公開日:2023-12-20 |
# GANを用いた半教師付き学習による不均衡データセットのフェイク検出 Fake detection in imbalance dataset by Semi-supervised learning with GAN ( http://arxiv.org/abs/2212.01071v5 ) ライセンス: Link先を確認 | Jinus Bordbar, Saman Ardalan, Mohammadreza Mohammadrezaie, Zahra Ghasemi | (参考訳) ソーシャルメディアが急速に成長を続けるにつれ、これらのプラットフォームに対するハラスメントの流行も増加している。
これにより、偽検出の分野で研究者の関心が高まった。
ソーシャルメディアのデータは、多くのノードからなる複雑なグラフを形成することが多い。
これらの課題と制限には、行列における相当量の無関係な特徴に対処することや、高データ分散やデータセット内の不均衡クラス分散といった問題に対処することが含まれる。
これらの課題と限界を克服するために、研究者たちは自動エンコーダと、半教師付き学習と、SGANと呼ばれるGANアルゴリズムを組み合わせた。
提案手法は自動エンコーダを用いて特徴抽出を行い,SGANを組み込む。
ラベル付きデータセットを活用することで、SGANの教師なし層はラベル付きデータの限られた可用性を補償し、ラベル付きインスタンスの限られた数を効率的に利用する。
コンフュージョンマトリックスとROC曲線を含む複数の評価指標が採用された。
データセットはトレーニングとテストセットに分割され、100のラベル付きサンプルと1000のサンプルがテスト対象とされた。
我々の研究の新規性は、偽アカウント検出における不均衡データセットの問題に対処するためにSGANを適用することである。
より少ない数のラベル付きインスタンスの使用を最適化し、大規模な計算能力の必要性を減らすことにより、より効率的なソリューションを提供する。
さらに,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。
これは、sganがマイノリティクラスを扱い、偽アカウント検出でビッグデータの課題に対処する強力なツールになる可能性を示しています。 As social media continues to grow rapidly, the prevalence of harassment on these platforms has also increased. This has piqued the interest of researchers in the field of fake detection. Social media data, often forms complex graphs with numerous nodes, posing several challenges. These challenges and limitations include dealing with a significant amount of irrelevant features in matrices and addressing issues such as high data dispersion and an imbalanced class distribution within the dataset. To overcome these challenges and limitations, researchers have employed auto-encoders and a combination of semi-supervised learning with a GAN algorithm, referred to as SGAN. Our proposed method utilizes auto-encoders for feature extraction and incorporates SGAN. By leveraging an unlabeled dataset, the unsupervised layer of SGAN compensates for the limited availability of labeled data, making efficient use of the limited number of labeled instances. Multiple evaluation metrics were employed, including the Confusion Matrix and the ROC curve. The dataset was divided into training and testing sets, with 100 labeled samples for training and 1,000 samples for testing. The novelty of our research lies in applying SGAN to address the issue of imbalanced datasets in fake account detection. By optimizing the use of a smaller number of labeled instances and reducing the need for extensive computational power, our method offers a more efficient solution. Additionally, our study contributes to the field by achieving an 81% accuracy in detecting fake accounts using only 100 labeled samples. This demonstrates the potential of SGAN as a powerful tool for handling minority classes and addressing big data challenges in fake account detection. | 翻訳日:2023-12-21 12:43:34 公開日:2023-12-20 |
# オンラインソーシャルメディアにおけるジェネレーティブ・アドバイサル・ネットワークによる偽アカウントの検出 Detecting fake accounts through Generative Adversarial Network in online social media ( http://arxiv.org/abs/2210.15657v4 ) ライセンス: Link先を確認 | Jinus Bordbar, Mohammadreza Mohammadrezaie, Saman Ardalan, Mohammad Ebrahim Shiri | (参考訳) オンラインソーシャルメディアは、プライバシーを維持しながら、メッセージング、情報共有、機密コミュニケーションを促進するために、人間生活に不可欠なものだ。
Twitter、Instagram、Facebookなどのプラットフォームはこの現象を実証している。
しかし、ユーザーはネットワークの異常により困難に直面し、多くの場合、金銭的利益や損害に対するアイデンティティ盗難などの悪意ある活動から生じる。
本稿では,twitter データセット内の偽ユーザアカウントを識別するために,ユーザ類似度尺度とgenerative adversarial network (gan) アルゴリズムを用いた新しい手法を提案する。
問題の複雑さにもかかわらず、偽アカウントの分類と検出において、AUCレートが80%に達する。
この研究は、オンラインソーシャルネットワークにおける異常検出の進化する状況に関する進歩と洞察に焦点を当てた以前の研究に基づいている。 Online social media is integral to human life, facilitating messaging, information sharing, and confidential communication while preserving privacy. Platforms like Twitter, Instagram, and Facebook exemplify this phenomenon. However, users face challenges due to network anomalies, often stemming from malicious activities such as identity theft for financial gain or harm. This paper proposes a novel method using user similarity measures and the Generative Adversarial Network (GAN) algorithm to identify fake user accounts in the Twitter dataset. Despite the problem's complexity, the method achieves an AUC rate of 80\% in classifying and detecting fake accounts. Notably, the study builds on previous research, highlighting advancements and insights into the evolving landscape of anomaly detection in online social networks. | 翻訳日:2023-12-21 12:43:10 公開日:2023-12-20 |
# クラウドソーシングワークフローからのテクニック適応によるLCMチェーンの設計 Designing LLM Chains by Adapting Techniques from Crowdsourcing Workflows ( http://arxiv.org/abs/2312.11681v2 ) ライセンス: Link先を確認 | Madeleine Grunde-McLaughlin, Michelle S. Lam, Ranjay Krishna, Daniel S. Weld, Jeffrey Heer | (参考訳) LLMチェーンは、作業を一連のサブタスクに分解することで複雑なタスクを可能にする。
ワークフローのクラウドソーシングも同様に、複雑なタスクを小さなタスクに分解する。
チェーンはLLMエラーに対処し、クラウドソーシングワークフローがヒューマンエラーに対処する方法と類似している。
LLMチェインの機会を特徴付けるため,クラウドソーシングとチェーンリングの文献107論文を調査し,チェーン開発のための設計空間を構築する。
設計空間は、LLM設計者の目的を、それらの目的を達成するために使用できる戦略と、それぞれの戦略を実装するための戦術に結びつける。
クラウドソーシングのテクニックをチェーンに適用する方法を探るため、クラウドソーシングワークフローを3つのケーススタディ – 分類の作成、テキストの短縮、短編記事の執筆 – に適用した。
設計分野と事例研究から,クラウドソーシングからllm連鎖へ移行する技術を特定し,今後の研究・開発へのインパクトを示唆する。 LLM chains enable complex tasks by decomposing work into a sequence of sub-tasks. Crowdsourcing workflows similarly decompose complex tasks into smaller tasks for human crowdworkers. Chains address LLM errors analogously to the way crowdsourcing workflows address human error. To characterize opportunities for LLM chaining, we survey 107 papers across the crowdsourcing and chaining literature to construct a design space for chain development. The design space connects an LLM designer's objectives to strategies they can use to achieve those objectives, and tactics to implement each strategy. To explore how techniques from crowdsourcing may apply to chaining, we adapt crowdsourcing workflows to implement LLM chains across three case studies: creating a taxonomy, shortening text, and writing a short story. From the design space and our case studies, we identify which techniques transfer from crowdsourcing to LLM chaining and raise implications for future research and development. | 翻訳日:2023-12-21 12:40:23 公開日:2023-12-20 |
# PRP再起動:FOND計画における最先端技術 PRP Rebooted: Advancing the State of the Art in FOND Planning ( http://arxiv.org/abs/2312.11675v2 ) ライセンス: Link先を確認 | Christian Muise, Sheila A. McIlraith, J. Christopher Beck | (参考訳) 完全な可観測的非決定論的計画(英: Fully Observable Non-Deterministic Planing、FOND)は、行動が非決定論的である古典的象徴的計画の変種である。
ロボット計画から対話エージェント設計、リアクティブ合成まで、様々な応用で人気のある計画パラダイムである。
過去20年間で、FOND計画への多くのアプローチが出現した。
本研究では,これまで最も強力なFONDプランナーの足跡を踏襲して,新たな最先端技術を確立する。
我々のプランナーであるPR2は、総合的なベンチマークスイートを表す18のドメインのうち17の領域において、4つの主要なFONDプランナーより決定的に優れています。
アブレーション研究は,FONDを意識した新しいヒューリスティックから最も大きな改善がもたらされた,導入する様々な技術の影響を実証するものである。 Fully Observable Non-Deterministic (FOND) planning is a variant of classical symbolic planning in which actions are nondeterministic, with an action's outcome known only upon execution. It is a popular planning paradigm with applications ranging from robot planning to dialogue-agent design and reactive synthesis. Over the last 20 years, a number of approaches to FOND planning have emerged. In this work, we establish a new state of the art, following in the footsteps of some of the most powerful FOND planners to date. Our planner, PR2, decisively outperforms the four leading FOND planners, at times by a large margin, in 17 of 18 domains that represent a comprehensive benchmark suite. Ablation studies demonstrate the impact of various techniques we introduce, with the largest improvement coming from our novel FOND-aware heuristic. | 翻訳日:2023-12-21 12:40:06 公開日:2023-12-20 |
# 強結合光と物質に対する非平衡ダイソン方程式:多モードキャビティqedにおけるスピンガラス形成 Nonequilibrium Dyson equations for strongly coupled light and matter: spin glass formation in multi-mode cavity QED ( http://arxiv.org/abs/2312.11624v2 ) ライセンス: Link先を確認 | Hossein Hosseinabadi, Darrick E. Chang, Jamir Marino | (参考訳) 光物質界面は現在、駆動散逸条件下で量子相関状態を設計する能力に特徴付けられる新しい段階に入った。
この新しい世代の実験を推進するために、量子光学における従来のアプローチを超越することで、強い結合状態における非単体多体力学をモデル化する必要がある。
本研究では,従来高エネルギー物理学で用いられてきた関数積分法を応用し,光物質相互作用系に対する非平衡ジソン方程式を導出する。
提案手法は, 時間的多項式コストで量子進化を記述するための非摂動的・保存的枠組みを提供する2粒子既約(2PI)実効作用の構築に基礎を置いている。
この記事の目的は、量子光学、凝縮物質、高エネルギー物理学など、様々な科学コミュニティから読者を橋渡しするための教育的な紹介を提供することである。
本研究は, フラストレーションを伴う多モード空洞量子力学(H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]の文脈におけるスピンガラス形成の解析を補完する手法である。
最後に、多体量子光学における他の近距離プラットフォームを記述する手法の能力と、この新しいタイプの実験の予測可能性について概説する。 Light-matter interfaces have now entered a new stage marked by the ability to engineer quantum correlated states under driven-dissipative conditions. To propel this new generation of experiments, we are confronted with the need to model non-unitary many-body dynamics in strongly coupled regimes, by transcending traditional approaches in quantum optics. In this work, we contribute to this program by adapting a functional integral technique, conventionally employed in high-energy physics, in order to derive nonequilibrium Dyson equations for interacting light-matter systems. Our approach is grounded in constructing two-particle irreducible (2PI) effective actions, which provide a non-perturbative and conserving framework for describing quantum evolution at a polynomial cost in time. One of the aims of the article is to offer a pedagogical introduction designed to bridge readers from diverse scientific communities, including those in quantum optics, condensed matter, and high-energy physics. We apply our method to complement the analysis of spin glass formation in the context of frustrated multi-mode cavity quantum electrodynamics, initiated in our accompanying work [H. Hosseinabadi, D. Chang, J. Marino, arXiv:2311.05682]. Finally, we outline the capability of the technique to describe other near-term platforms in many-body quantum optics, and its potential to make predictions for this new class of experiments. | 翻訳日:2023-12-21 12:39:51 公開日:2023-12-20 |
# 基礎モデルによる推論に関する調査:概念・方法論・展望 A Survey of Reasoning with Foundation Models: Concepts, Methodologies, and Outlook ( http://arxiv.org/abs/2312.11562v2 ) ライセンス: Link先を確認 | Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhenguo Li | (参考訳) 複雑な問題解決において重要な能力である推論は、交渉、医療診断、刑事捜査など、現実世界の様々な場面で重要な役割を果たしている。
人工知能(AGI)の分野における基本的な方法論として機能する。
基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。
本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応可能な基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
また,マルチモーダル学習,自律エージェント,スーパーアライメントとの関連性についても論じる。
これらの今後の研究の方向性を議論することで、この分野の探索に研究者を刺激し、基礎モデルによる推論のさらなる進歩を刺激し、agiの開発に貢献することを望んでいる。 Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI. | 翻訳日:2023-12-21 12:39:24 公開日:2023-12-20 |
# 複数ラベルテキスト分類のための合成一般化:データ拡張アプローチ Compositional Generalization for Multi-label Text Classification: A Data-Augmentation Approach ( http://arxiv.org/abs/2312.11276v3 ) ライセンス: Link先を確認 | Yuyang Chai, Zhuang Li, Jiahui Liu, Lei Chen, Fei Li, Donghong Ji and Chong Teng | (参考訳) マルチラベルテキスト分類の大幅な進歩にもかかわらず、既存のモデルが新規で稀な複雑な概念を一般化する能力は、基礎的な概念の合成である。
この研究はこのギャップに対処する。
3つのベンチマークで独自のデータ分割を作成することにより、既存のマルチラベルテキスト分類モデルの合成一般化能力を評価する。
以上の結果から,これらのモデルでは,学習中に頻繁に発生する構成概念を一般化できない場合が多く,新しい組み合わせを用いたテストでは性能が劣ることがわかった。
そこで本稿では,合成一般化のための分類モデルの能力向上を目的とした,2つの革新的なテキスト生成モデルを活用するデータ拡張手法を提案する。
実験の結果,このデータ拡張手法は,テキスト生成ベースラインを上回り,ベンチマーク上での分類モデルの合成一般化能力を著しく向上させることがわかった。 Despite significant advancements in multi-label text classification, the ability of existing models to generalize to novel and seldom-encountered complex concepts, which are compositions of elementary ones, remains underexplored. This research addresses this gap. By creating unique data splits across three benchmarks, we assess the compositional generalization ability of existing multi-label text classification models. Our results show that these models often fail to generalize to compositional concepts encountered infrequently during training, leading to inferior performance on tests with these new combinations. To address this, we introduce a data augmentation method that leverages two innovative text generation models designed to enhance the classification models' capacity for compositional generalization. Our experiments show that this data augmentation approach significantly improves the compositional generalization capabilities of classification models on our benchmarks, with both generation models surpassing other text generation baselines. | 翻訳日:2023-12-21 12:39:12 公開日:2023-12-20 |
# 原文のパラフレーズ化」による高精度長文QA "Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v3 ) ライセンス: Link先を確認 | Yijiong Yu | (参考訳) LLMは繰り返し改善され続けているが、ほとんどのオープンソースモデルは4k未満のコンテキストウィンドウを持ち、長いコンテキストの問題に対処する能力を制限する。
既存のオープンソースモデルの多くは、まだ十分な精度を欠いている。
この問題に対処するために、私はデータをトレーニングする観点からアプローチし、長いコンテキストを扱う能力のトレーニングには「長い」データではなく「効果的」が必要であることを理論的に証明します。
そこで,本論文では,「原文パラフレーズ」タスクを用いて,既存モデルのコンテキストウインドウを低コストかつ効果的に32kに拡張し,マルチドキュメントQAにおいて極めて高い精度を達成し,同一規模の既存のオープンソースモデルを超越する手法を提案する。
モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)とWiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k)でオープンソース化された。 Although LLMs continue to iterate and improve, most open-source models still have a context window of no more than 4k, limiting their ability to handle long-context problems. Most existing open-source models for long-context chat still lack satisfactory accuracy. To address this issue, I approach it from the perspective of training data and theoretically prove that training the capability to handle long contexts requires "effective" rather than "long" data. Based on this, I propose using the "original text paraphrase" task, and successfully extend the context window of the existing model to 32k by a low-cost and effective method, achieving extremely high accuracy in multi-document-QA and surpassing all existing open-source models of the same scale. The model and training data have been open-sourced on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k). | 翻訳日:2023-12-21 12:38:56 公開日:2023-12-20 |
# グラウンドドおよびリフトドプランニングのためのドメイン独立ヒューリスティックス学習 Learning Domain-Independent Heuristics for Grounded and Lifted Planning ( http://arxiv.org/abs/2312.11143v2 ) ライセンス: Link先を確認 | Dillon Z. Chen and Sylvie Thi\'ebaux and Felipe Trevizan | (参考訳) 本稿では,グラフニューラルネットワーク(gnns)を用いた領域非依存ヒューリスティックス学習に適した計画タスクの3つの新しいグラフ表現法を提案する。
特に,大規模なGNNによる問題を軽減するために,計画課題の持ち上げ表現のみを用いて,ドメインに依存しないヒューリスティックスを学ぶための最初の方法を提案する。
また,本モデルの表現性に関する理論的解析を行い,ドメイン非依存のヒューリスティック学習モデルであるSTRIPS-HGNよりも強力であることを示す。
我々の実験は、我々のヒューリスティックスがトレーニングセットにあるものよりもずっと大きな問題に一般化していることを示しました。 We present three novel graph representations of planning tasks suitable for learning domain-independent heuristics using Graph Neural Networks (GNNs) to guide search. In particular, to mitigate the issues caused by large grounded GNNs we present the first method for learning domain-independent heuristics with only the lifted representation of a planning task. We also provide a theoretical analysis of the expressiveness of our models, showing that some are more powerful than STRIPS-HGN, the only other existing model for learning domain-independent heuristics. Our experiments show that our heuristics generalise to much larger problems than those in the training set, vastly surpassing STRIPS-HGN heuristics. | 翻訳日:2023-12-21 12:38:37 公開日:2023-12-20 |
# DataElixir: 拡散モデルによるバックドアアタックを緩和するポゾンデータセット DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via Diffusion Models ( http://arxiv.org/abs/2312.11057v2 ) ライセンス: Link先を確認 | Jiachen Zhou, Peizhuo Lv, Yibing Lan, Guozhu Meng, Kai Chen, Hualong Ma | (参考訳) Dataset sanitizationは、トレーニングデータセットから有毒なサンプルをフィルタリングし除去することを目的とした、中毒ベースのバックドア攻撃に対する、広く採用されている積極的な防御である。
しかし、既存の手法では進化を続けるトリガー機能に対抗する効果が限られており、しばしば良性精度が著しく低下する。
本稿では,毒性データセットの浄化に適した新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーを取り除き、良性の特徴を復元し、有毒なサンプルを良性なものに変える。
具体的には、前処理と逆処理を複数回繰り返して、原データセットの各サンプルに対して中間画像とその予測ラベルを抽出する。
そして,中間画像のラベル遷移の有無から異常サンプルを識別し,分布不一致を定量化して対象ラベルを検出し,画素と特徴距離を考慮した精製画像を選択し,良質なモデルをトレーニングしてその地味ラベルを決定する。
9つの一般的な攻撃実験により、DataElixirは様々な複雑な攻撃を効果的に軽減し、良識の精度に最小限の影響を及ぼし、ベースライン防御法の性能を上回っていることが示された。 Dataset sanitization is a widely adopted proactive defense against poisoning-based backdoor attacks, aimed at filtering out and removing poisoned samples from training datasets. However, existing methods have shown limited efficacy in countering the ever-evolving trigger functions, and often leading to considerable degradation of benign accuracy. In this paper, we propose DataElixir, a novel sanitization approach tailored to purify poisoned datasets. We leverage diffusion models to eliminate trigger features and restore benign features, thereby turning the poisoned samples into benign ones. Specifically, with multiple iterations of the forward and reverse process, we extract intermediary images and their predicted labels for each sample in the original dataset. Then, we identify anomalous samples in terms of the presence of label transition of the intermediary images, detect the target label by quantifying distribution discrepancy, select their purified images considering pixel and feature distance, and determine their ground-truth labels by training a benign model. Experiments conducted on 9 popular attacks demonstrates that DataElixir effectively mitigates various complex attacks while exerting minimal impact on benign accuracy, surpassing the performance of baseline defense methods. | 翻訳日:2023-12-21 12:38:23 公開日:2023-12-20 |
# unbiased aleatoric uncertainty estimationへの一歩 One step closer to unbiased aleatoric uncertainty estimation ( http://arxiv.org/abs/2312.10469v2 ) ライセンス: Link先を確認 | Wang Zhang and Ziwen Ma and Subhro Das and Tsui-Wei Weng and Alexandre Megretski and Luca Daniel and Lam M. Nguyen | (参考訳) ニューラルネットワークは様々なアプリケーションにおいて強力なツールであり、信頼性の高い意思決定にはその不確実性を定量化することが不可欠である。
ディープラーニングの分野では、不確実性は通常、アレタリック(データ)とエピステミック(モデル)の不確実性に分類される。
本稿では,既存の分散減衰法がアレエータ的不確かさを過大評価していることを指摘する。
この問題に対処するため,観測データをアクティブに復調することで,新たな推定手法を提案する。
幅広い実験を行うことで,提案手法が実際のデータ不確実性に対して,標準手法よりもはるかに近い近似をもたらすことを実証する。 Neural networks are powerful tools in various applications, and quantifying their uncertainty is crucial for reliable decision-making. In the deep learning field, the uncertainties are usually categorized into aleatoric (data) and epistemic (model) uncertainty. In this paper, we point out that the existing popular variance attenuation method highly overestimates aleatoric uncertainty. To address this issue, we propose a new estimation method by actively de-noising the observed data. By conducting a broad range of experiments, we demonstrate that our proposed approach provides a much closer approximation to the actual data uncertainty than the standard method. | 翻訳日:2023-12-21 12:37:10 公開日:2023-12-20 |
# 一般化可能なディープフェイク検出のためのCNN生成ネットワークにおけるアップサンプリング動作の再考 Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection ( http://arxiv.org/abs/2312.10461v2 ) ライセンス: Link先を確認 | Chuangchuang Tan, Huan Liu, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei | (参考訳) 近年,様々なGANや拡散によって促進される高度にリアルな合成画像の拡散は,誤用に対する感受性を著しく高めている。
ディープフェイク検出の主な焦点は、従来は検出アルゴリズムの設計に集中していたが、ジェネレータアーキテクチャに関する調査は、近年は顕著に欠落している。
本稿では,cnn ベースの生成器のアーキテクチャを再考し,合成アーティファクトの一般化表現を確立した。
以上の結果から,アップサンプリングオペレータは,頻度に基づくアーティファクト以外にも,汎用的な偽造アーティファクトを生成できることが明らかとなった。
特に、アップサンプリング演算子による画像画素間の局所的相互依存性は、GANまたは拡散によって生成された合成画像において顕著に示される。
そこで本研究では,近傍画素関係(npr)の概念を,アップサンプリング操作から生じる一般化された構造的アーティファクトを捉え,特徴付ける手法として導入する。
包括的分析はオープンワールドデータセット上で行われ、これは \tft{28 distinct generative model} によって生成されたサンプルからなる。
この分析は,従来の手法よりも顕著な<tft{11.6\%}改善を示す,新しい最先端性能の確立に寄与する。
コードはhttps://github.com/chuangchuangtan/npr-deepfakedetectionで入手できる。 Recently, the proliferation of highly realistic synthetic images, facilitated through a variety of GANs and Diffusions, has significantly heightened the susceptibility to misuse. While the primary focus of deepfake detection has traditionally centered on the design of detection algorithms, an investigative inquiry into the generator architectures has remained conspicuously absent in recent years. This paper contributes to this lacuna by rethinking the architectures of CNN-based generators, thereby establishing a generalized representation of synthetic artifacts. Our findings illuminate that the up-sampling operator can, beyond frequency-based artifacts, produce generalized forgery artifacts. In particular, the local interdependence among image pixels caused by upsampling operators is significantly demonstrated in synthetic images generated by GAN or diffusion. Building upon this observation, we introduce the concept of Neighboring Pixel Relationships(NPR) as a means to capture and characterize the generalized structural artifacts stemming from up-sampling operations. A comprehensive analysis is conducted on an open-world dataset, comprising samples generated by \tft{28 distinct generative models}. This analysis culminates in the establishment of a novel state-of-the-art performance, showcasing a remarkable \tft{11.6\%} improvement over existing methods. The code is available at https://github.com/chuangchuangtan/NPR-DeepfakeDetection. | 翻訳日:2023-12-21 12:36:58 公開日:2023-12-20 |
# BOTH2Hands: テキストプロンプトとボディダイナミクスの両方から3Dハンドを推測する BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics ( http://arxiv.org/abs/2312.07937v3 ) ライセンス: Link先を確認 | Wenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu | (参考訳) 最近登場したテキスト・トゥ・モーションの進歩は、便利で対話的な人間のモーション生成に多くの試みを巻き起こした。
しかし、既存の方法は、ボディダイナミクスやテキストといった様々な条件を扱わずに、リッチな両手の動きを考慮せずに体の動きを生成することに限られている。
データボトルネックを解消するために,両手動生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
我々のデータセットには、人体と手の動きの正確な追跡が含まれており、一対の指レベルのアノテーションと身体の記述を提供する。
さらに、暗黙の身体力学と明示的なテキストプロンプトから鮮明な両手の動きを生成する、新しいタスクのための強力なベースライン手法BOTH2Handsを提供する。
まず2つの並列体-手-テキスト-手間の拡散モデルをウォームアップし,次にクロス・アテンショントランスを動作混合に利用する。
広範にわたる実験とクロスバリデーションにより,提案手法とデータセットが,身体と文のハイブリッド条件から説得力のある2手動作を生成することの有効性を実証した。
私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。 The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research. | 翻訳日:2023-12-21 12:36:34 公開日:2023-12-20 |
# 容量のない施設配置問題を解くための実現可能な空間変動量子アルゴリズム Preserving feasible space variational quantum algorithm for solving the uncapacitated facility location problem ( http://arxiv.org/abs/2312.06922v3 ) ライセンス: Link先を確認 | Sha-Sha Wang, Hai-Ling Liu, Fei Gao, Su-Juan Qin, and Qiao-Yan Wen | (参考訳) 非容量施設配置問題(Uncapacitated Facility Location Problem, UFLP)は、多くの分野において幅広いアプリケーションにおいて重要なNPハード問題であり、非制約変数による制約付き最適化問題に変換することができる。
量子交換演算子アンサッツ(Quantum Alternating Operator Ansatz、QAOA+)は、UVPを解くために使用できるハイブリッド量子古典アルゴリズムの一種である。
しかし,QAOA+ の成功確率は UVP に適用されるエンタングルメントゲートの欠如により低下する可能性がある。
本稿では、UFLPを例として、UVPに適した保存可能な空間可変量子アルゴリズム(PFS-VQA)を設計した。
QAOA+の混合作用素は実現可能な部分空間を保持し、ハードウェア効率アンサッツ(HEA)は回路深さを減少させるため、PFS-VQAは制約変数上の混合演算子と非制約変数上のHEAの両方の利点を組み合わせる。
HEAのより多くのCNOTゲートとパラメータを導入することで、PSS-VQAは十分な量子状態を横断し、成功確率を向上させることができる。
さらに、PFS-VQAの混合演算子とHEAがそれぞれ異なる量子ビットに作用するため、並列化を実現でき、回路深さが小さくなる。
最後に、PFS-VQAは回路深さを減少させ、成功確率を高め、QAOA+、量子近似最適化アルゴリズム(QAOA)、HEAよりも高速に収束することを示した。
提案するアルゴリズムは、より効率的なansatzが利用可能であればheaを置き換えることができるため、柔軟である。
さらに,本アルゴリズムは,そのような UVP を解くための一般的な手法である。 The Uncapacitated Facility Location Problem (UFLP) is an important NP-hard problem with wide applications in many fields, which can be transformed into a constrained optimization problem with unconstrained variables, and we call such problem as Unconstrained-Variables Problem (UVP). The Quantum Alternating Operator Ansatz (QAOA+) is a kind of hybrid quantum-classical algorithm, which can be used to solve the UVP. However, we find that the success probability of QAOA+ may be decreased by the lack of entanglement gates as applied to UVP. In this paper, taking the UFLP as an example, the Preserving Feasible Space-Variational Quantum Algorithm (PFS-VQA) suitable for the UVP was designed. As the mixed operators in QAOA+ preserve the feasible subspace and Hardware-Efficient Ansatz (HEA) reduces the circuit depth, PFS-VQA combines the advantages of both by performing mixed operators on constrained variables and HEA on unconstrained variables. By introducing more CNOT gates and parameters of HEA, PFS-VQA can traverse enough quantum states, thereby improving the success probability. Moreover, since the mixed operators and HEA of PFS-VQA act on different qubits respectively, parallelization can be realized, leading to a lower circuit depth. Finally, the numerical results demonstrate that PFS-VQA decreases the circuit depth, enhances the success probability, and converges faster compared to QAOA+, Quantum Approximation Optimization Algorithm (QAOA), and HEA. The proposed algorithm is flexible as HEA can be replaced if a more efficient ansatz is available. Moreover, our algorithm is general and instructive for solving such UVPs. | 翻訳日:2023-12-21 12:35:50 公開日:2023-12-20 |
# GPT-4Vへの挑戦
ビジュアルスペシャライズにおけるジェミニの早期探索 A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise ( http://arxiv.org/abs/2312.12436v2 ) ライセンス: Link先を確認 | Chaoyou Fu, Renrui Zhang, Zihan Wang, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Hongsheng Li, Xing Sun | (参考訳) OpenAIのGPT-4V(ision)のようなマルチモーダル大規模言語モデル(MLLM)への関心の高まりは、アカデミックと産業の両方において重要なトレンドとなっている。
大規模言語モデル(llm)に視覚理解の強力な能力を与え、多様なマルチモーダルタスクに取り組むことができる。
つい最近Googleは、マルチモダリティのためにゼロから構築された最新かつ最も有能なMLLMであるGeminiをリリースした。
優れた推論能力を考慮して、Geminiはマルチモーダル学習におけるGPT-4Vのリードポジションに挑戦できるか?
本稿では,gemini proの視覚理解能力について予備的考察を行い,基本認識,高度な認知,挑戦的視覚課題,様々な熟練能力の4つの領域を包括的に扱う。
Gemini Proと最先端のGPT-4Vを比較して、最新のオープンソースMLLMであるSphinxとともに、手作業とブラックボックスシステムのギャップを明らかにする。
定性的なサンプルは、gpt-4vとgeminiは異なる応答スタイルと好みを示すが、同等の視覚的推論能力を示すことができることを示している。
特に、gpt-4vは詳細な説明と中間のステップに富む傾向があり、geminiは直接的で簡潔な回答を出力することを好む。
人気のMMEベンチマークにおける定量的評価は、GPT-4Vに対する強力な挑戦者になる可能性を示している。
Geminiの初期の調査では、MLLMの一般的な問題もいくつか観察されており、人工知能にはまだかなりの距離があることを示している。
MLLMの進捗を追跡するプロジェクトは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsで公開されています。 The surge of interest towards Multi-modal Large Language Models (MLLMs), e.g., GPT-4V(ision) from OpenAI, has marked a significant trend in both academia and industry. They endow Large Language Models (LLMs) with powerful capabilities in visual understanding, enabling them to tackle diverse multi-modal tasks. Very recently, Google released Gemini, its newest and most capable MLLM built from the ground up for multi-modality. In light of the superior reasoning capabilities, can Gemini challenge GPT-4V's leading position in multi-modal learning? In this paper, we present a preliminary exploration of Gemini Pro's visual understanding proficiency, which comprehensively covers four domains: fundamental perception, advanced cognition, challenging vision tasks, and various expert capacities. We compare Gemini Pro with the state-of-the-art GPT-4V to evaluate its upper limits, along with the latest open-sourced MLLM, Sphinx, which reveals the gap between manual efforts and black-box systems. The qualitative samples indicate that, while GPT-4V and Gemini showcase different answering styles and preferences, they can exhibit comparable visual reasoning capabilities, and Sphinx still trails behind them concerning domain generalizability. Specifically, GPT-4V tends to elaborate detailed explanations and intermediate steps, and Gemini prefers to output a direct and concise answer. The quantitative evaluation on the popular MME benchmark also demonstrates the potential of Gemini to be a strong challenger to GPT-4V. Our early investigation of Gemini also observes some common issues of MLLMs, indicating that there still remains a considerable distance towards artificial general intelligence. Our project for tracking the progress of MLLM is released at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models. | 翻訳日:2023-12-21 12:27:48 公開日:2023-12-20 |
# 高速かつ改良された知識センスNLPのための効率的なタイトルリランカ Efficient Title Reranker for Fast and Improved Knowledge-Intense NLP ( http://arxiv.org/abs/2312.12430v2 ) ライセンス: Link先を確認 | Ziyi Chen, Heyi Tao, Daqian Zuo, Jize Jiang, Jun Yang, Yuxiang Wei | (参考訳) 本稿では,放送クエリエンコーダを用いて,バニラパスリランカよりも20x-40倍高速なタイトルリランクを実現する新しいタイトルリランク技術を提案する。
しかしながら、効率的なタイトルリランカのトレーニングの課題の1つは不安定性である。
この問題を分析して,ノイズラベルとして振る舞う非常に難しい事実や,モデル確率アウトプットの極端な値がnanの原因であることが分かりました。
これらの問題に対処するため,我々はsgmoid trickを紹介する。sgmoid trickは,両症例の勾配更新を低減し,検索効率が向上する新しい手法である。
ETRとシグモイドのトリックの有効性を示す実験を行い,キルト知識ベンチマークで4つの最先端位置を達成した。 We introduce Efficient Title Reranker via Broadcasting Query Encoder, a novel title reranking technique to achieve efficient title reranking 20x-40x faster than vanilla passage reranker. However, one of the challenges with the training of Efficient Title Reranker is the instability. Analyzing the issue, we found some very difficult ground truths might act as noisy labels causing accuracy to drop as well as some extreme values in model probability output causing nan. To address these issues, we introduce the Sigmoid Trick, a novel technique that reduces the gradient update of both cases resulting in better retrieval efficacy. Experiments showed the effectiveness of ETR and sigmoid trick as we achieved four state-of-the-art positions on the kilt knowledge benchmark. | 翻訳日:2023-12-21 12:27:17 公開日:2023-12-20 |
# アセンブラ間の共生成空間によるスケーラブルなフラクチャーアセンブリ Scalable Geometric Fracture Assembly via Co-creation Space among Assemblers ( http://arxiv.org/abs/2312.12340v2 ) ライセンス: Link先を確認 | Ruiyuan Zhang and Jiaxiang Liu and Zexi Li and Hao Dong and Jie Fu and Chao Wu | (参考訳) 幾何学的破壊組立は考古学と3次元コンピュータビジョンにおいて挑戦的な実践課題である。
従来の手法では、意味情報に基づいたフラグメントの組み立てのみに重点を置いており、効果的に組み立てられるオブジェクトの量が制限されていた。
したがって, 意味情報に頼らずに, 幾何学的フラクチャーアセンブリのためのスケーラブルなフレームワークを開発する必要がある。
意味情報のない幾何的骨折を組み立てることの有効性を向上させるために, 徐々に, 曖昧に組み立てることのできる複数のアセンブラからなる共創空間を提案する。
さらに, フラクチャー組立過程における衝突問題に対処し, 結果を高めるために, 幾何に基づく衝突損失という新たな損失関数を導入する。
私たちのフレームワークは、既存の最先端フレームワークと比較して、partnetとbreaking bad datasetの両方で優れたパフォーマンスを示しています。
大規模実験と定量的比較により,線形計算複雑性,抽象化の強化,一般化の改善を特徴とするフレームワークの有効性が示された。
私たちのコードはhttps://github.com/ruiyuan-zhang/ccsで公開されています。 Geometric fracture assembly presents a challenging practical task in archaeology and 3D computer vision. Previous methods have focused solely on assembling fragments based on semantic information, which has limited the quantity of objects that can be effectively assembled. Therefore, there is a need to develop a scalable framework for geometric fracture assembly without relying on semantic information. To improve the effectiveness of assembling geometric fractures without semantic information, we propose a co-creation space comprising several assemblers capable of gradually and unambiguously assembling fractures. Additionally, we introduce a novel loss function, i.e., the geometric-based collision loss, to address collision issues during the fracture assembly process and enhance the results. Our framework exhibits better performance on both PartNet and Breaking Bad datasets compared to existing state-of-the-art frameworks. Extensive experiments and quantitative comparisons demonstrate the effectiveness of our proposed framework, which features linear computational complexity, enhanced abstraction, and improved generalization. Our code is publicly available at https://github.com/Ruiyuan-Zhang/CCS. | 翻訳日:2023-12-21 12:27:02 公開日:2023-12-20 |
# feddiv: 雑音ラベルを用いた連合学習のための協調雑音フィルタリング FedDiv: Collaborative Noise Filtering for Federated Learning with Noisy Labels ( http://arxiv.org/abs/2312.12263v2 ) ライセンス: Link先を確認 | Jichang Li, Guanbin Li, Hui Cheng, Zicheng Liao, Yizhou Yu | (参考訳) F-LNL(Federated Learning with Noisy labels)は、ローカルノイズやクリーンサンプルでトレーニングされた複数のクライアントモデルを集約することで、協調的な分散学習を通じて最適なサーバモデルを求めることを目的としている。
フェデレーション学習の枠組みに基づき,近年では,各クライアントのクリーンサンプルとノイズサンプルを分離するラベルノイズフィルタリングを主に採用し,ラベルノイズの悪影響を軽減している。
しかし、これらの従来の手法は、全てのクライアントの知識を生かしてノイズフィルタを学習しないため、準最適かつ劣悪なノイズフィルタリング性能が得られ、訓練安定性を損なう。
本稿ではF-LNLの課題に取り組むためにFedDivを提案する。
具体的には,各クライアントのノイズラベル付きサンプルを効果的に識別し,局所的なトレーニングセッションの安定性を高めるための,フェデレートノイズフィルタというグローバルノイズフィルタを提案する。
データプライバシを犠牲にすることなく、すべてのクライアントに対するラベルノイズのグローバル分布をモデル化することで実現される。
そして,グローバルモデルを高い性能を達成するために,予測整合性に基づくサンプリングを導入し,局所モデルトレーニングのためのより信頼性の高いローカルデータを特定し,ノイズの記憶を防止し,トレーニング安定性を高める。
CIFAR-10, CIFAR-100, Clothing1Mの大規模な実験により, IIDおよび非IIDデータパーティションの異なるラベル設定下での最先端F-LNL法よりも優れた性能が得られた。
ソースコードはhttps://github.com/lijichang/FLNL-FedDiv.comで公開されている。 Federated learning with noisy labels (F-LNL) aims at seeking an optimal server model via collaborative distributed learning by aggregating multiple client models trained with local noisy or clean samples. On the basis of a federated learning framework, recent advances primarily adopt label noise filtering to separate clean samples from noisy ones on each client, thereby mitigating the negative impact of label noise. However, these prior methods do not learn noise filters by exploiting knowledge across all clients, leading to sub-optimal and inferior noise filtering performance and thus damaging training stability. In this paper, we present FedDiv to tackle the challenges of F-LNL. Specifically, we propose a global noise filter called Federated Noise Filter for effectively identifying samples with noisy labels on every client, thereby raising stability during local training sessions. Without sacrificing data privacy, this is achieved by modeling the global distribution of label noise across all clients. Then, in an effort to make the global model achieve higher performance, we introduce a Predictive Consistency based Sampler to identify more credible local data for local model training, thus preventing noise memorization and further boosting the training stability. Extensive experiments on CIFAR-10, CIFAR-100, and Clothing1M demonstrate that \texttt{FedDiv} achieves superior performance over state-of-the-art F-LNL methods under different label noise settings for both IID and non-IID data partitions. Source code is publicly available at https://github.com/lijichang/FLNL-FedDiv. | 翻訳日:2023-12-21 12:26:46 公開日:2023-12-20 |
# 階層型グラフ埋め込みのためのPoincar\'e差分プライバシー Poincar\'e Differential Privacy for Hierarchy-Aware Graph Embedding ( http://arxiv.org/abs/2312.12183v2 ) ライセンス: Link先を確認 | Yuecen Wei, Haonan Yuan, Xingcheng Fu, Qingyun Sun, Hao Peng, Xianxian Li, Chunming Hu | (参考訳) 階層性(Hierarchy)は現実世界のグラフにおいて重要かつよく見られるトポロジ的特性であり、監督者と部下の関係や人間のグループの組織行動を示す。
階層構造は、さまざまなタスクにおいてグラフニューラルネットワーク(GNN)に新たな帰納バイアスとして導入されるため、攻撃者が推論攻撃のパフォーマンスを改善するための潜在的なトポロジ的関係が、重大なプライバシー漏洩問題を引き起こしている。
さらに、既存のプライバシー保護フレームワークは、階層的摂動境界の適応的上界推定の欠如により、階層的伝播の保護能力が低下する。
プライバシーの保証を満足しながら、データの階層的特性を効果的に活用することは、非常に緊急である。
この問題を解決するため,双曲幾何学に基づく階層認識グラフの埋め込みを保護するため,Poincar\'e Differential Privacy Framework(PoinDP)を提案する。
特に、PoinDPは双曲空間におけるPoincar\'eモデルに基づいて各エンティティの階層重みを学習する。
そして、階層構造の感度を計測し、プライバシ保護強度を適応的にアロケートするように、パーソナライズされた階層認識感度を設計する。
さらに、双曲空間のガウス機構(HGM)は、双曲空間のガウス機構を双曲空間に拡張し、双曲空間計量の下で微分プライバシーを満たすランダム摂動を実現する。
5つの実世界のデータセットに関する広範な実験の結果は、ノード分類タスクで優れたパフォーマンスを維持しつつ、効果的なプライバシ保護というpoindpの利点を実証している。 Hierarchy is an important and commonly observed topological property in real-world graphs that indicate the relationships between supervisors and subordinates or the organizational behavior of human groups. As hierarchy is introduced as a new inductive bias into the Graph Neural Networks (GNNs) in various tasks, it implies latent topological relations for attackers to improve their inference attack performance, leading to serious privacy leakage issues. In addition, existing privacy-preserving frameworks suffer from reduced protection ability in hierarchical propagation due to the deficiency of adaptive upper-bound estimation of the hierarchical perturbation boundary. It is of great urgency to effectively leverage the hierarchical property of data while satisfying privacy guarantees. To solve the problem, we propose the Poincar\'e Differential Privacy framework, named PoinDP, to protect the hierarchy-aware graph embedding based on hyperbolic geometry. Specifically, PoinDP first learns the hierarchy weights for each entity based on the Poincar\'e model in hyperbolic space. Then, the Personalized Hierarchy-aware Sensitivity is designed to measure the sensitivity of the hierarchical structure and adaptively allocate the privacy protection strength. Besides, the Hyperbolic Gaussian Mechanism (HGM) is proposed to extend the Gaussian mechanism in Euclidean space to hyperbolic space to realize random perturbations that satisfy differential privacy under the hyperbolic space metric. Extensive experiment results on five real-world datasets demonstrate the proposed PoinDP's advantages of effective privacy protection while maintaining good performance on the node classification task. | 翻訳日:2023-12-21 12:26:19 公開日:2023-12-20 |
# OVD-Explorer: ノイズの多い環境での探査には最適ではない OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments ( http://arxiv.org/abs/2312.12145v2 ) ライセンス: Link先を確認 | Jinyi Liu, Zhi Wang, Yan Zheng, Jianye Hao, Chenjia Bai, Junjie Ye, Zhen Wang, Haiyin Piao, Yang Sun | (参考訳) 強化学習において、不確実性(OFU)に直面した楽観主義は、調査の少ない領域への探索を指示する主要な原則であり、不確実性が高いことが特徴である。
しかし、環境確率性(noise)の存在下では、純粋に楽観的な探検は高音域の過剰な探索につながり、探検効率を損なう可能性がある。
したがって、ノイズの多い環境を探索する際には、楽観主義による探索が基礎となる一方で、高騒音領域における不要な過剰探索を緩和するための慎重な注意が益となる。
本研究では,連続制御のための雑音を考慮した楽観的な探索を実現するために,OVD-Explorer(Optimistic Value Distribution Explorer)を提案する。
OVD-Explorerは楽観的な視点でノイズを考慮した政策の探索能力を新たに測定し、勾配上昇を利用して探索を行う。
実際、OVD-Explorerは連続制御RLアルゴリズムと容易に統合できる。
MuJoCoおよびGridChaosタスクの広範囲な評価は、ノイズを考慮した楽観的な探索を実現する上で、OVD-Explorerの優位性を示している。 In reinforcement learning, the optimism in the face of uncertainty (OFU) is a mainstream principle for directing exploration towards less explored areas, characterized by higher uncertainty. However, in the presence of environmental stochasticity (noise), purely optimistic exploration may lead to excessive probing of high-noise areas, consequently impeding exploration efficiency. Hence, in exploring noisy environments, while optimism-driven exploration serves as a foundation, prudent attention to alleviating unnecessary over-exploration in high-noise areas becomes beneficial. In this work, we propose Optimistic Value Distribution Explorer (OVD-Explorer) to achieve a noise-aware optimistic exploration for continuous control. OVD-Explorer proposes a new measurement of the policy's exploration ability considering noise in optimistic perspectives, and leverages gradient ascent to drive exploration. Practically, OVD-Explorer can be easily integrated with continuous control RL algorithms. Extensive evaluations on the MuJoCo and GridChaos tasks demonstrate the superiority of OVD-Explorer in achieving noise-aware optimistic exploration. | 翻訳日:2023-12-21 12:25:54 公開日:2023-12-20 |
# 廃棄物分類のための視覚トランスフォーマにおける人間の視覚知覚の統合 Integrating Human Vision Perception in Vision Transformers for Classifying Waste Items ( http://arxiv.org/abs/2312.12143v2 ) ライセンス: Link先を確認 | Akshat Kishore Shrivastava, Tapan Kumar Gandhi | (参考訳) 本稿では,データセットに差分ぼかしを適用し,ニスタグラムの学習現象をシミュレートすることを目的とした新しい手法を提案する。
ナイスタガムス(英語: nystagmus)は、人間の視覚に影響を及ぼす生物学的現象であり、特に幼児から成人までの頭部揺らぎを減少させる。
この概念を生かして, 廃棄物分類の問題に対処し, 世界的な懸念が高まっている。
提案するフレームワークは2つのモジュールから構成され,第2のモジュールは分類タスクの最先端モデルであるビジョントランスフォーマーによく似ている。
このアプローチの背後にある主な動機は、人間の視覚システムが実行している実環境を反映して、モデルの精度と適応性を高めることである。
この手法は, 廃棄物分類作業における標準ビジョントランスフォーマーモデルを超え, 2%のマージンで改善を示す。
この改良は,人間の視覚知覚からインスピレーションを得ることによって,モデル精度を向上させる手法の可能性を示している。
提案手法のさらなる研究により、パフォーマンスが向上し、他のグローバルな問題への外挿が可能となる。 In this paper, we propose an novel methodology aimed at simulating the learning phenomenon of nystagmus through the application of differential blurring on datasets. Nystagmus is a biological phenomenon that influences human vision throughout life, notably by diminishing head shake from infancy to adulthood. Leveraging this concept, we address the issue of waste classification, a pressing global concern. The proposed framework comprises two modules, with the second module closely resembling the original Vision Transformer, a state-of-the-art model model in classification tasks. The primary motivation behind our approach is to enhance the model's precision and adaptability, mirroring the real-world conditions that the human visual system undergoes. This novel methodology surpasses the standard Vision Transformer model in waste classification tasks, exhibiting an improvement with a margin of 2%. This improvement underscores the potential of our methodology in improving model precision by drawing inspiration from human vision perception. Further research in the proposed methodology could yield greater performance results, and can be extrapolated to other global issues. | 翻訳日:2023-12-21 12:25:34 公開日:2023-12-20 |
# DLCA-Recon : モノクロ映像からの動的ルース着衣アバター再構成 DLCA-Recon: Dynamic Loose Clothing Avatar Reconstruction from Monocular Videos ( http://arxiv.org/abs/2312.12096v2 ) ライセンス: Link先を確認 | Chunjie Luo, Fei Luo, Yusen Wang, Enxu Zhao, Chunxia Xiao | (参考訳) ゆるい服でダイナミックな人間を再構築することは重要だが難しい。
この課題に対処するため,単眼ビデオからヒトアバターを作成するDLCA-Recon法を提案する。
ゆるい服から下半身までの距離は、人間が自由に動き、行動するとき、フレームごとに急速に変化する。
従来の手法では、この劇的な変化を説明するために変形の最適化を導くための効果的な幾何学的初期化と制約が欠如しており、不連続かつ不完全な復元面をもたらす。
変形場をSMPLより容易に学習できるので, 変形をより正確にモデル化するために, 標準空間で推定された3次元布地を初期化することを提案する。
明示的メッシュと暗黙的SDFの両方の表現を用いて、連続するフレーム間の物理的接続情報を利用し、変形場を最適化する動的変形場(DDF)を提案する。
DDFは、変形の解釈可能性を高め、ゆるい衣服の自由な動きを効果的に捉えるために、ゆるい衣服に寄与する力を担っている。
さらに,各個体にSMPLスキンウェイトを伝播させ,最適化中にポーズやスキンウェイトを洗練させ,スキントランスフォーメーションを改善する。
より合理的な初期化とddfに基づいて、現実世界の物理をより正確にシミュレートすることができる。
一般および自前のデータセットを用いた広範囲な実験により,soma法と比較して,ゆるい服装のヒトに対して優れた結果が得られることを確認した。 Reconstructing a dynamic human with loose clothing is an important but difficult task. To address this challenge, we propose a method named DLCA-Recon to create human avatars from monocular videos. The distance from loose clothing to the underlying body rapidly changes in every frame when the human freely moves and acts. Previous methods lack effective geometric initialization and constraints for guiding the optimization of deformation to explain this dramatic change, resulting in the discontinuous and incomplete reconstruction surface. To model the deformation more accurately, we propose to initialize an estimated 3D clothed human in the canonical space, as it is easier for deformation fields to learn from the clothed human than from SMPL. With both representations of explicit mesh and implicit SDF, we utilize the physical connection information between consecutive frames and propose a dynamic deformation field (DDF) to optimize deformation fields. DDF accounts for contributive forces on loose clothing to enhance the interpretability of deformations and effectively capture the free movement of loose clothing. Moreover, we propagate SMPL skinning weights to each individual and refine pose and skinning weights during the optimization to improve skinning transformation. Based on more reasonable initialization and DDF, we can simulate real-world physics more accurately. Extensive experiments on public and our own datasets validate that our method can produce superior results for humans with loose clothing compared to the SOTA methods. | 翻訳日:2023-12-21 12:25:16 公開日:2023-12-20 |
# unruh放射によるガスの可逆的挙動 Irreversible behaviour of a gas owing to Unruh radiation ( http://arxiv.org/abs/2312.12048v2 ) ライセンス: Link先を確認 | Andrew M. Steane | (参考訳) ガス分子が衝突すると加速し、フリング・ダヴィーズ・ウンルー効果とムーア・デウィット効果に遭遇する。
これらの効果の大きさは、標準温度と圧力で約1ナノ秒後にガス分子の運動をランダム化するのに十分である。
そのような観測から、量子場理論は物理系を分離するのに必要なことを修正し、その振る舞いがユニタリになることを示した。
実際には、要求は正確に満たされない。
したがって、観測可能な宇宙の進化は非ユニタリかつ熱力学的に可逆的である。 When gas molecules collide, they accelerate, and therefore encounter the Fulling-Davies-Unruh and Moore-DeWitt effects. The size of these effects is sufficient to randomize the motion of the gas molecules after about 1 nanosecond at standard temperature and pressure. Such observations show that quantum field theory modifies what is required to isolate a physical system sufficiently for its behaviour to be unitary. In practice the requirements are never satisfied exactly. Therefore the evolution of the observable universe is non-unitary and thermodynamically irreversible. | 翻訳日:2023-12-21 12:24:52 公開日:2023-12-20 |
# Founder-GPT:Founder-Ideaの適合性を評価するセルフプレイ Founder-GPT: Self-play to evaluate the Founder-Idea fit ( http://arxiv.org/abs/2312.12037v2 ) ライセンス: Link先を確認 | Sichao Xiong and Yigit Ihlamur | (参考訳) 本研究は、先進的な大規模言語モデル技術を利用して、スタートアップのアイデアに対する創業者のプロファイルを評価し、意思決定を強化する「創始的イデア」の革新的評価手法を提案する。
埋め込み、自己プレイ、ツリー・オブ・シンク、そして批判に基づく洗練技術は、各アイデアの成功パターンがユニークであり、創業者の背景の文脈に基づいて評価されるべきであることを示す。 This research introduces an innovative evaluation method for the "founder-idea" fit in early-stage startups, utilizing advanced large language model techniques to assess founders' profiles against their startup ideas to enhance decision-making. Embeddings, self-play, tree-of-thought, and critique-based refinement techniques show early promising results that each idea's success patterns are unique and they should be evaluated based on the context of the founder's background. | 翻訳日:2023-12-21 12:24:45 公開日:2023-12-20 |
# lhmanip: 乱雑なテーブル上環境におけるロングホリゾン言語操作タスクのためのデータセット LHManip: A Dataset for Long-Horizon Language-Grounded Manipulation Tasks in Cluttered Tabletop Environments ( http://arxiv.org/abs/2312.12036v2 ) ライセンス: Link先を確認 | Federico Ceola, Lorenzo Natale, Niko S\"underhauf and Krishan Rana | (参考訳) 家庭内で日常的なタスクを完了させるロボットを指示することは、ロボット工学にとって長年の課題だった。
言語条件の模倣学習とオフライン強化学習の最近の進歩は、幅広いタスクにわたる印象的なパフォーマンスを示しているが、それらは通常、短期的なタスクに限られる。
既存のアーキテクチャはこれらの望ましい振る舞いを学習する可能性があるが、実際のロボットシステムに必要な長期的マルチステップデータセットが欠如していることは大きな課題である。
そこで本研究では,200エピソードからなる長方形操作(lhmanip)データセットを提示し,実ロボット遠隔操作による20種類の操作タスクを示す。
タスクには、非常に散らかった環境でオブジェクトの把握、プッシュ、積み重ね、投げなど、複数のサブタスクが含まれる。
各タスクは、ポイントクラウドまたはNeRF再構成のための自然言語命令とマルチカメラ視点とペアリングされる。
データセットは、Open X-Embodimentデータセットの一部である176,278の観測-アクションペアで構成されている。
LHManipの全データセットはhttps://github.com/fedeceola/LHManipで公開されている。 Instructing a robot to complete an everyday task within our homes has been a long-standing challenge for robotics. While recent progress in language-conditioned imitation learning and offline reinforcement learning has demonstrated impressive performance across a wide range of tasks, they are typically limited to short-horizon tasks -- not reflective of those a home robot would be expected to complete. While existing architectures have the potential to learn these desired behaviours, the lack of the necessary long-horizon, multi-step datasets for real robotic systems poses a significant challenge. To this end, we present the Long-Horizon Manipulation (LHManip) dataset comprising 200 episodes, demonstrating 20 different manipulation tasks via real robot teleoperation. The tasks entail multiple sub-tasks, including grasping, pushing, stacking and throwing objects in highly cluttered environments. Each task is paired with a natural language instruction and multi-camera viewpoints for point-cloud or NeRF reconstruction. In total, the dataset comprises 176,278 observation-action pairs which form part of the Open X-Embodiment dataset. The full LHManip dataset is made publicly available at https://github.com/fedeceola/LHManip. | 翻訳日:2023-12-21 12:24:35 公開日:2023-12-20 |
# フレキシブル分類と質問課題を用いた外乱検出 Outlier detection using flexible categorisation and interrogative agendas ( http://arxiv.org/abs/2312.12010v2 ) ライセンス: Link先を確認 | Marcel Boersma, Krishna Manoorkar, Alessandra Palmigiano, Mattia Panettiere, Apostolos Tzimoulis, Nachoem Wijnberg | (参考訳) 分類は機械学習とデータ分析における基本的なタスクの1つである。
フォーマルな概念分析(FCA)に基づいて、この研究の出発点は、与えられた対象の集合を分類する様々な方法が存在し、それはそれらを分類するのに使用される特徴の集合の選択に依存する。
彼らのターンでは、ある特定の特徴セットの(優先的な)選択は主観的であり、あるエージェントまたはエージェントのグループ、すなわちその尋問的議題の特定の認識的スタンス(例えば、関心、関連性、嗜好)を表現するかもしれない。
本稿では,問合せを特徴の集合として表現し,対象の分類法をw.r.t. 異なる特徴集合(agendas)として検討・比較する。
まず,異なるアジェンダから生じる分類を用いて,外乱検出のための単純な教師なしFCAベースのアルゴリズムを開発する。
次に,重みや質量の異なる特徴集合として分類に適した(曖昧な)アジェンダを学ぶための教師付きメタラーニングアルゴリズムを提案する。
このメタ学習アルゴリズムと教師なし外乱検出アルゴリズムを組み合わせることで、教師付き外乱検出アルゴリズムを得る。
これらのアルゴリズムは, 一般に使用される異常検出における異常検出アルゴリズムと同等の性能を示す。
これらのアルゴリズムは、それらの結果の局所的およびグローバル的説明を提供する。 Categorization is one of the basic tasks in machine learning and data analysis. Building on formal concept analysis (FCA), the starting point of the present work is that different ways to categorize a given set of objects exist, which depend on the choice of the sets of features used to classify them, and different such sets of features may yield better or worse categorizations, relative to the task at hand. In their turn, the (a priori) choice of a particular set of features over another might be subjective and express a certain epistemic stance (e.g. interests, relevance, preferences) of an agent or a group of agents, namely, their interrogative agenda. In the present paper, we represent interrogative agendas as sets of features, and explore and compare different ways to categorize objects w.r.t. different sets of features (agendas). We first develop a simple unsupervised FCA-based algorithm for outlier detection which uses categorizations arising from different agendas. We then present a supervised meta-learning algorithm to learn suitable (fuzzy) agendas for categorization as sets of features with different weights or masses. We combine this meta-learning algorithm with the unsupervised outlier detection algorithm to obtain a supervised outlier detection algorithm. We show that these algorithms perform at par with commonly used algorithms for outlier detection on commonly used datasets in outlier detection. These algorithms provide both local and global explanations of their results. | 翻訳日:2023-12-21 12:24:13 公開日:2023-12-20 |
# 大規模言語モデルからの気候変動 Climate Change from Large Language Models ( http://arxiv.org/abs/2312.11985v2 ) ライセンス: Link先を確認 | Hongyin Zhu, Prayag Tiwari | (参考訳) 気候変動は世界社会に重大な課題をもたらし、気候変動に対する広く認識を高め、低炭素生活をユーザに教育することが不可欠である。
人工知能、特に大規模言語モデル(LLM)は、気候危機を緩和し、その広範な知識、幅広いユーザーベース、自然言語相互作用能力を活用する強力なツールとして登場した。
しかし、気候変動に関する研究の活発化にもかかわらず、LLM内の気候危機知識に関する総合的な評価が欠如している。
本稿では,このギャップを解決するために,自動評価フレームワークを提案する。
我々は、データ合成と手作業による収集を組み合わせて、気候危機に関連するさまざまな質問をまとめるハイブリッドなアプローチを採用している。
これらの質問は、その原因、影響、緩和戦略、適応対策など、気候変動の様々な側面をカバーしている。
次に、収集した質問と生成した回答に基づいて、プロンプトエンジニアリングを通じてモデル知識を評価する。
10の異なる視点から指標を取り入れ,気候危機に関する知識を評価するための総合的な指標セットを提案する。
実験結果から,気候危機に関するLSMの知識を評価する上で,本手法が有効であることが示唆された。
我々は最先端llmをいくつか評価し,その知識が時間軸で不足していることを見いだした。 Climate change presents significant challenges to the global community, and it is imperative to raise widespread awareness of the climate crisis and educate users about low-carbon living. Artificial intelligence, particularly large language models (LLMs), have emerged as powerful tools in mitigating the climate crisis, leveraging their extensive knowledge, broad user base, and natural language interaction capabilities. However, despite the growing body of research on climate change, there is a lack of comprehensive assessments of climate crisis knowledge within LLMs. This paper aims to resolve this gap by proposing an automatic evaluation framework. We employ a hybrid approach to data acquisition that combines data synthesis and manual collection to compile a diverse set of questions related to the climate crisis. These questions cover various aspects of climate change, including its causes, impacts, mitigation strategies, and adaptation measures. We then evaluate the model knowledge through prompt engineering based on the collected questions and generated answers. We propose a set of comprehensive metrics to evaluate the climate crisis knowledge, incorporating indicators from 10 different perspectives. Experimental results show that our method is effective in evaluating the knowledge of LLMs regarding the climate crisis. We evaluate several state-of-the-art LLMs and find that their knowledge falls short in terms of timeliness. | 翻訳日:2023-12-21 12:23:51 公開日:2023-12-20 |
# MixRT:リアルタイムNeRFレンダリングのための混合ニューラル表現 MixRT: Mixed Neural Representations For Real-Time NeRF Rendering ( http://arxiv.org/abs/2312.11841v2 ) ライセンス: Link先を確認 | Chaojian Li, Bichen Wu, Peter Vajda, Yingyan (Celine) Lin | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、その印象的なフォトリアリスティックな再構成とレンダリング能力により、新しいビュー合成の先駆的な技術として登場した。
それでも、大規模なシーンでリアルタイムのNeRFレンダリングを実現することは課題を示しており、しばしば、相当数の三角形を持つ複雑な焼成メッシュ表現や、焼成表現におけるリソース集約光線マーチングの採用につながっている。
我々はこれらの慣習に挑戦し、実質的な三角形を持つメッシュで表される高品質な幾何学は、フォトリアリスティックなレンダリング品質を達成するために必要ではないと観察する。
その結果、低品質メッシュ、ビュー依存変位マップ、圧縮されたNeRFモデルを含む新しいNeRF表現であるMixRTを提案する。
この設計は、既存のグラフィックスハードウェアの機能を活用し、エッジデバイス上でリアルタイムのNeRFレンダリングを可能にする。
高度に最適化されたwebglベースのレンダリングフレームワークを利用することで、mixrtはエッジデバイス(macbook m1 proラップトップで解像度180 x 720で30fps以上)でリアルタイムレンダリング速度を実現し、レンダリング品質(非バウンド360データセットの屋内シーンでは0.2psnr)、ストレージサイズ(最先端のメソッドと比較して80%未満)を向上した。 Neural Radiance Field (NeRF) has emerged as a leading technique for novel view synthesis, owing to its impressive photorealistic reconstruction and rendering capability. Nevertheless, achieving real-time NeRF rendering in large-scale scenes has presented challenges, often leading to the adoption of either intricate baked mesh representations with a substantial number of triangles or resource-intensive ray marching in baked representations. We challenge these conventions, observing that high-quality geometry, represented by meshes with substantial triangles, is not necessary for achieving photorealistic rendering quality. Consequently, we propose MixRT, a novel NeRF representation that includes a low-quality mesh, a view-dependent displacement map, and a compressed NeRF model. This design effectively harnesses the capabilities of existing graphics hardware, thus enabling real-time NeRF rendering on edge devices. Leveraging a highly-optimized WebGL-based rendering framework, our proposed MixRT attains real-time rendering speeds on edge devices (over 30 FPS at a resolution of 1280 x 720 on a MacBook M1 Pro laptop), better rendering quality (0.2 PSNR higher in indoor scenes of the Unbounded-360 datasets), and a smaller storage size (less than 80% compared to state-of-the-art methods). | 翻訳日:2023-12-21 12:23:31 公開日:2023-12-20 |
# 局所最小確率的説明 Locally-Minimal Probabilistic Explanations ( http://arxiv.org/abs/2312.11831v2 ) ライセンス: Link先を確認 | Yacine Izza, Kuldeep S. Meel, Joao Marques-Silva | (参考訳) 形式的帰納的説明は厳密性の重要な保証を提供するので、機械学習(ML)の高用法に関心がある。
誘惑的な説明の欠点は、人間の意思決定者の認知的限界によって正当化される説明のサイズである。
確率的帰納的説明(PAXps)は、この制限に対処するが、理論的かつ実践的な複雑さは、その正確な計算をしばしば非現実的にする。
本稿では,PXApsの高精度な近似を行うローカル最小PXApsの計算アルゴリズムを提案する。
実験の結果,提案アルゴリズムの有効性が示された。 Formal abductive explanations offer crucial guarantees of rigor and so are of interest in high-stakes uses of machine learning (ML). One drawback of abductive explanations is explanation size, justified by the cognitive limits of human decision-makers. Probabilistic abductive explanations (PAXps) address this limitation, but their theoretical and practical complexity makes their exact computation most often unrealistic. This paper proposes novel efficient algorithms for the computation of locally-minimal PXAps, which offer high-quality approximations of PXAps in practice. The experimental results demonstrate the practical efficiency of the proposed algorithms. | 翻訳日:2023-12-21 12:23:03 公開日:2023-12-20 |