このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230927となっている論文です。

PDF登録状況(公開日: 20230927)

TitleAuthorsAbstract論文公表日・翻訳日
# SYSPART:バイナリの一時的システムコール自動フィルタリング

SYSPART: Automated Temporal System Call Filtering for Binaries ( http://arxiv.org/abs/2309.05169v2 )

ライセンス: Link先を確認
Vidya Lakshmi Rajagopalan, Konstantinos Kleftogiorgos, Enes Göktaş, Jun Xu, Georgios Portokalidis, (参考訳) アプリケーションで利用可能なシステムコールの制限は、カーネルの攻撃面を減らし、妥協されたアプリケーションで利用可能な機能を制限する。 最近のアプローチでは、不要な呼び出しをブロックするためにプログラムが必要とするシステムコールを自動的に識別する。 サーバについては、初期化が完了した後、制限を締め付けるために異なる実行フェーズも検討している。 しかし、それらはアプリケーションやライブラリのソースコードへのアクセスを必要としており、サーバが初期化からサービスクライアントへ移行するか、動的にロードされたライブラリを説明できないかを識別するユーザに依存している。 本稿では,上述の制限に対処するバイナリのみのサーバプログラムを対象とした自動システムコールフィルタリングシステムであるSYSPARTを紹介する。 静的および動的解析を組み合わせた新しいアルゴリズムを用いて、SYSPARTはサーバの全動作スレッドのサービスフェーズを特定する。 静的解析は様々なサービス段階で必要なシステムコールを健全に計算するために使用され、動的観測は動的にロードされたライブラリの静的分解を補うためにのみ使用される。 我々は、x86-64 Linux上の6つの人気サーバを用いてSYSPARTを評価し、サービスフェイズを自動的に識別し、正確なシステムコールフィルタを生成し、攻撃を緩和する効果を実証した。 以上の結果から,SYSPARTは従来のバイナリのみのアプローチよりも優れ,ソースコードのアプローチと相容れない性能を示した。

Restricting the system calls available to applications reduces the attack surface of the kernel and limits the functionality available to compromised applications. Recent approaches automatically identify the system calls required by programs to block unneeded ones. For servers, they even consider different phases of execution to tighten restrictions after initialization completes. However, they require access to the source code for applications and libraries, depend on users identifying when the server transitions from initialization to serving clients, or do not account for dynamically-loaded libraries. This paper introduces SYSPART, an automatic system-call filtering system designed for binary-only server programs that addresses the above limitations. Using a novel algorithm that combines static and dynamic analysis, SYSPART identifies the serving phases of all working threads of a server. Static analysis is used to compute the system calls required during the various serving phases in a sound manner, and dynamic observations are only used to complement static resolution of dynamically-loaded libraries when necessary. We evaluated SYSPART using six popular servers on x86-64 Linux to demonstrate its effectiveness in automatically identifying serving phases, generating accurate system-call filters, and mitigating attacks. Our results show that SYSPART outperforms prior binary-only approaches and performs comparably to source-code approaches.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# DefectHunter: LLM駆動のブーストコンバータベースのコード脆弱性検出機構

DefectHunter: A Novel LLM-Driven Boosted-Conformer-based Code Vulnerability Detection Mechanism ( http://arxiv.org/abs/2309.15324v1 )

ライセンス: Link先を確認
Jin Wang, Zishan Huang, Hengli Liu, Nianyi Yang, Yinhao Xiao, (参考訳) コンピューティングシステムに対する最も差し迫った脅威の1つは、ソフトウェア脆弱性であり、ハードウェアとソフトウェアコンポーネントの両方を侵害する可能性がある。 既存の脆弱性検出方法はまだ最適以下である。 従来のテクニックは時間と労力の両方を消費するが、マシンラーニングベースのアプローチは、高次元の関係を捉えることができないため、複雑なデータセットに適用するとパフォーマンスが低下することが多い。 事前のディープラーニング戦略も、十分な機能情報を取得するには不十分である。 自己認識機構は、遠距離で情報を処理できるが、構造情報の取得に失敗する。 本稿では,DefectHunterについて紹介する。DefectHunterは,Conformer機構を利用した脆弱性識別の革新的なモデルである。 このメカニズムは、畳み込みネットワークと自己意識を融合させ、局所的、位置的特徴とグローバル的、コンテンツに基づく相互作用の両方をキャプチャする。 さらに, 自己注意機構を最適化し, 減音器を調整して異常ノイズを発生させる過度な注意ヘッドの問題を緩和する。 DefectHunterを6つの産業的および2つの非常に複雑なデータセットを用いて10のベースライン法と比較した。 QEMUデータセットでは、DefectHunterはPongo-70Bよりも20.62\%精度が向上し、CWE-754データセットでは14.64\%精度が向上した。 DefectHunterが脆弱性をどう理解するかを調べるために、我々はケーススタディを行い、このモデルが脆弱性の根底にあるメカニズムを効果的に理解していることを明らかにした。

One of the most pressing threats to computing systems is software vulnerabilities, which can compromise both hardware and software components. Existing methods for vulnerability detection remain suboptimal. Traditional techniques are both time-consuming and labor-intensive, while machine-learning-based approaches often underperform when applied to complex datasets, due to their inability to capture high-dimensional relationships. Previous deep-learning strategies also fall short in capturing sufficient feature information. Although self-attention mechanisms can process information over long distances, they fail to capture structural information. In this paper, we introduce DefectHunter, an innovative model for vulnerability identification that employs the Conformer mechanism. This mechanism fuses self-attention with convolutional networks to capture both local, position-wise features and global, content-based interactions. Furthermore, we optimize the self-attention mechanisms to mitigate the issue of excessive attention heads introducing extraneous noise by adjusting the denominator. We evaluated DefectHunter against ten baseline methods using six industrial and two highly complex datasets. On the QEMU dataset, DefectHunter exhibited a 20.62\% improvement in accuracy over Pongo-70B, and for the CWE-754 dataset, its accuracy was 14.64\% higher. To investigate how DefectHunter comprehends vulnerabilities, we conducted a case study, which revealed that our model effectively understands the mechanisms underlying vulnerabilities.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# V2X通信における標準セキュリティ技術の評価と解析 -ECQVインプリケート認証き裂の探索-

Evaluation and Analysis of Standard Security Technology in V2X Communication -- Exploring ECQV Implicit Certificate Cracking ( http://arxiv.org/abs/2309.15340v1 )

ライセンス: Link先を確認
Abel C. H. Chen, (参考訳) IEEE 1609.2 と IEEE 1609.2.1 の安全通信規格では、楕円曲線暗号 (ECC) に基づく様々なセキュリティアルゴリズムが採用され、設計されている。 セキュリティ・クレデンシャル・マネジメント・システム(SCMS)の効率を高めるために,キー生成,キー拡張,署名生成,署名検証の計算時間を異なるセキュリティ強度で評価する。 本研究では,楕円曲線 Qu-Vanstone (ECQV) の暗黙的証明に基づいて,非圧縮楕円曲線点の長さ,圧縮楕円曲線点,明示的証明,暗黙的証明を解析する。 さらに,ECQVクラッキングの確率を示す数学的モデルを提案し,ECQVクラッキングリスクを軽減するための提案を行った。

In IEEE 1609.2 and IEEE 1609.2.1 standards for Vehicle-to-everything (V2X) secure communication, various security algorithms based on Elliptic Curve Cryptography (ECC) have been adopted and designed. To enhance the efficiency of the Security Credential Management System (SCMS), this study evaluates the computational time for key generation, key expansion, signature generation, and signature verification under different security strengths. This study discusses relevant techniques based on Elliptic Curve Qu-Vanstone (ECQV) implicit certificates, analyzes the length of uncompressed elliptic curve points, compressed elliptic curve points, explicit certificates, and implicit certificates. Furthermore, this study proposes mathematical models to demonstrate the probability of ECQV cracking and provides suggestions for mitigating ECQV cracking risks.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# ブロックチェーンに基づくフェデレーション学習のための多次元データクイッククエリ

Multi-dimensional Data Quick Query for Blockchain-based Federated Learning ( http://arxiv.org/abs/2309.15348v1 )

ライセンス: Link先を確認
Jiaxi Yang, Sheng Cao, Peng xiangLi, Xiong Li, Xiaosong Zhang, (参考訳) 単一の中央サーバの脆弱性のようなフェデレーション学習(FL)の欠点のため、集中型フェデレーション学習は、ブロックチェーンの利点を生かした分散フェデレーション学習へとシフトしている。 ブロックチェーンベースのフェデレーション学習を採用する上で重要な有効要因は、モデルを協調的にトレーニングする適切な参加者を選択する方法だ。 ブロックチェーン上のデータオーナのメタデータを格納してクエリすることで参加者を選択すれば、選択したデータオーナの信頼性が保証される。 しかしながら、ブロックチェーン上で多次元メタデータをクエリするには、各ブロック内のすべてのトランザクションをトラバースする必要があるため、クエリに時間を要する。 FLの参加者を選択するためのブロックチェーンにおける多次元メタデータの効率的なクエリ手法は欠落しており、難しい。 本稿では,MerkleRB-Tree と呼ばれる各ブロック内のクエリ効率を改善するための新しいデータ構造を提案する。 詳細は,多次元連続値属性と離散値属性の問合せプロセスにおいて,最小境界矩形(MBR)とブルームフィルタを利用する。 さらに,ブロック間のクエリ効率を向上させるため,各ブロックの先頭にMBRやブルームフィルタとともにスキップリストのアイデアを移行する。 ベンチマークデータセットの性能解析と広範囲な評価結果は,ブロックチェーンベースのFLにおける本手法の優位性を示している。

Due to the drawbacks of Federated Learning (FL) such as vulnerability of a single central server, centralized federated learning is shifting to decentralized federated learning, a paradigm which takes the advantages of blockchain. A key enabler for adoption of blockchain-based federated learning is how to select suitable participants to train models collaboratively. Selecting participants by storing and querying the metadata of data owners on blockchain could ensure the reliability of selected data owners, which is helpful to obtain high-quality models in FL. However, querying multi-dimensional metadata on blockchain needs to traverse every transaction in each block, making the query time-consuming. An efficient query method for multi-dimensional metadata in the blockchain for selecting participants in FL is absent and challenging. In this paper, we propose a novel data structure to improve the query efficiency within each block named MerkleRB-Tree. In detail, we leverage Minimal Bounding Rectangle(MBR) and bloom-filters for the query process of multi-dimensional continuous-valued attributes and discrete-valued attributes respectively. Furthermore, we migrate the idea of the skip list along with an MBR and a bloom filter at the head of each block to enhance the query efficiency for inter-blocks. The performance analysis and extensive evaluation results on the benchmark dataset demonstrate the superiority of our method in blockchain-based FL.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# SOCI^+: 整数のセキュアなアウトソース計算のための拡張ツールキット

SOCI^+: An Enhanced Toolkit for Secure OutsourcedComputation on Integers ( http://arxiv.org/abs/2309.15406v1 )

ライセンス: Link先を確認
Bowen Zhao, Weiquan Deng, Xiaoguo Li, Ximeng Liu, Qingqi Pei, Robert H. Deng, (参考訳) セキュアなアウトソース計算は、クラウドコンピューティングにとって、データの機密性を保護し、データのユーザビリティを確保するために不可欠である。 近年,部分同型暗号システムに基づくツインサーバアーキテクチャに基づくセキュアなアウトソース計算方式が注目されている。 Secure Outsourced Computation on Integers (SOCI) [1] Toolkitは、完全同型暗号のようにコストのかかるブートストラップ操作を必要とせずに整数上でセキュアな計算を行うことのできる、最先端の手法である。 本稿では,SOCIの性能を大幅に向上させるSOCI+を提案する。 具体的には、暗号プリミティブとして高速暗号化と復号化を備えた新しい(2, 2)スレッドのPaillier暗号システムを採用し、セキュアな乗算プロトコル(SMUL)、セキュアな比較プロトコル(SCMP)、セキュアな符号ビット取得プロトコル(SSBA)、セキュアな分割プロトコル(SDIV)など、整数プロトコル上での効率的なセキュアな演算処理スイートをサポートし、いずれも高速な暗号化と復号化を備えた(2, 2)スレッドのPaillier暗号システムに基づいている。 さらに、SOCI+にはオフラインおよびオンラインの計算機構が組み込まれ、パフォーマンスをさらに最適化する。 我々はSOCI+の正確性と安全性を証明するために厳密な理論的解析を行う。 実験の結果,SOCI+は計算効率が最大5.4倍,通信オーバヘッドが40%少ないことがわかった。

Secure outsourced computation is critical for cloud computing to safeguard data confidentiality and ensure data usability. Recently, secure outsourced computation schemes following a twin-server architecture based on partially homomorphic cryptosystems have received increasing attention. The Secure Outsourced Computation on Integers (SOCI) [1] toolkit is the state-of-the-art among these schemes which can perform secure computation on integers without requiring the costly bootstrapping operation as in fully homomorphic encryption; however, SOCI suffers from relatively large computation and communication overhead. In this paper, we propose SOCI+ which significantly improves the performance of SOCI. Specifically, SOCI+ employs a novel (2, 2)-threshold Paillier cryptosystem with fast encryption and decryption as its cryptographic primitive, and supports a suite of efficient secure arithmetic computation on integers protocols, including a secure multiplication protocol (SMUL), a secure comparison protocol (SCMP), a secure sign bit-acquisition protocol (SSBA), and a secure division protocol (SDIV), all based on the (2, 2)-threshold Paillier cryptosystem with fast encryption and decryption. In addition, SOCI+ incorporates an offline and online computation mechanism to further optimize its performance. We perform rigorous theoretical analysis to prove the correctness and security of SOCI+. Compared with SOCI, our experimental evaluation shows that SOCI+ is up to 5.4 times more efficient in computation and 40% less in communication overhead.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# Grain-128PLE:IoTネットワークのためのジェネリック物理層暗号化

Grain-128PLE: Generic Physical-Layer Encryption for IoT Networks ( http://arxiv.org/abs/2309.15569v1 )

ライセンス: Link先を確認
Marcus de Ree, Georgios Mantas, Jonathan Rodriguez, (参考訳) 物理層セキュリティ(PLS)は、最小限のリソースフットプリントを必要としながら、情報セキュリティの目的を達成するために物理層で提案された技術を含んでいる。 チャネル符号化に基づく秘密と信号変調に基づく暗号化アプローチは、特定のチャネル条件や運用する通信プロトコルスタックに依存するため、汎用的なソリューションにならない。 本稿では,Grain-128AEAD v2ストリーム暗号から派生した軽量物理層暗号(PLE)方式であるGrain-128PLEを提案する。 Grain-128PLEストリーム暗号は、チャネル符号化と信号変調プロセスの間の物理層で暗号化および復号化を行う。 この配置は、GSM通信標準で使われていたA5ストリーム暗号と同様、IoTネットワークでデータ機密を提供する汎用的なソリューションである。 Grain-128PLEの設計は、元のGrain-128AEAD v2ストリーム暗号のメインビルディングブロックの構造を維持しており、NISTの最近のライトウェイト暗号コンペティションでセキュリティの強さを評価しており、そのため同様のレベルのセキュリティを実現することが期待されている。

Physical layer security (PLS) encompasses techniques proposed at the physical layer to achieve information security objectives while requiring a minimal resource footprint. The channel coding-based secrecy and signal modulation-based encryption approaches are reliant on certain channel conditions or a certain communications protocol stack to operate on, which prevents them from being a generic solution. This paper presents Grain-128PLE, a lightweight physical layer encryption (PLE) scheme that is derived from the Grain-128AEAD v2 stream cipher. The Grain-128PLE stream cipher performs encryption and decryption at the physical layer, in between the channel coding and signal modulation processes. This placement, like that of the A5 stream cipher that had been used in the GSM communications standard, makes it a generic solution for providing data confidentiality in IoT networks. The design of Grain-128PLE maintains the structure of the main building blocks of the original Grain-128AEAD v2 stream cipher, evaluated for its security strength during NIST's recent Lightweight Cryptography competition, and is therefore expected to achieve similar levels of security.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# OPPO:オンラインソーシャルネットワークのプライバシーポリシーにおける細粒度データプラクティス記述オントロジー

OPPO: An Ontology for Describing Fine-Grained Data Practices in Privacy Policies of Online Social Networks ( http://arxiv.org/abs/2309.15971v1 )

ライセンス: Link先を確認
Sanonda Datta Gupta, Torsten Hahmann, (参考訳) プライバシーポリシーは、EU-GDPRやCCPAなどのプライバシー規制に従うためのオンラインソーシャルネットワーク(OSN)のデータプラクティスを概説している。 プライバシー規制、ポリシー、コンプライアンスをモデル化するためのいくつかのオントロジーが近年出現している。 しかし,(1)GDPRなどの特定のプライバシ規制に従って,特にプライバシポリシーの要件をモデル化すること,(2)概念の分類学を提供するが,自動推論を行うには十分ではないこと,(3)ポリシーの透明性を評価するために,プライバシポリシのデータプラクティスを十分に詳細にモデル化しないこと,など,様々な面で制限されている。 本稿では,OSNSのプライバシポリシから詳細なデータプラクティスを形式化し,これらのギャップを埋めることを目的としたOPPOのOWL Ontology for Privacy Policiesを提案する。 OPPOはBFO、IAO、OMRSE、OBIに基盤を置いており、その設計はOSNのプライバシーポリシーの内容の表現と推論、ポリシーの透明性をより詳細に評価するユースケースによって導かれる。

Privacy policies outline the data practices of Online Social Networks (OSN) to comply with privacy regulations such as the EU-GDPR and CCPA. Several ontologies for modeling privacy regulations, policies, and compliance have emerged in recent years. However, they are limited in various ways: (1) they specifically model what is required of privacy policies according to one specific privacy regulation such as GDPR; (2) they provide taxonomies of concepts but are not sufficiently axiomatized to afford automated reasoning with them; and (3) they do not model data practices of privacy policies in sufficient detail to allow assessing the transparency of policies. This paper presents an OWL Ontology for Privacy Policies of OSNs, OPPO, that aims to fill these gaps by formalizing detailed data practices from OSNS' privacy policies. OPPO is grounded in BFO, IAO, OMRSE, and OBI, and its design is guided by the use case of representing and reasoning over the content of OSNs' privacy policies and evaluating policies' transparency in greater detail.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-27
# HuntGPT:大規模言語モデル(LLM)による機械学習に基づく異常検出と説明可能なAIの統合

HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) ( http://arxiv.org/abs/2309.16021v1 )

ライセンス: Link先を確認
Tarek Ali, Panos Kostakos, (参考訳) 機械学習(ML)は、プロアクティブな脅威追跡のためのネットワーク異常検出において重要であり、検出時間と応答時間を著しく短縮する。 しかし、モデルトレーニング、メンテナンス、そして頻繁な偽陽性の課題は、その受け入れと信頼性に影響を与える。 説明可能なAI(XAI)は、これらの問題を緩和し、サイバーセキュリティチームがAI生成のアラートを自信を持って評価できるようにするが、インシデント対応者からしか受け入れられていない。 大規模言語モデル(LLM)は、広範な情報のパターンを識別し、異なる機能要件に適応することでソリューションを提供する。 我々は、KDD99データセットを使用してランダムフォレスト分類器を適用し、ユーザフレンドリで直感的なモデルインタラクションのためにSHAPやLimeといったXAIフレームワークを統合し、GPT-3.5 Turboと組み合わせることで、脅威を理解可能な形式で配信する、特殊な侵入検出ダッシュボードであるHuntGPTを提案する。 この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価されたシステムのアーキテクチャ、コンポーネント、技術的正確性を調べ、6つのメトリクスで応答品質を評価する。 その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検知における堅牢で説明可能な、行動可能なAIソリューションを提供し、ユーザ理解と対話的なエクスペリエンスを向上することを示した。

Machine learning (ML) is crucial in network anomaly detection for proactive threat hunting, reducing detection and response times significantly. However, challenges in model training, maintenance, and frequent false positives impact its acceptance and reliability. Explainable AI (XAI) attempts to mitigate these issues, allowing cybersecurity teams to assess AI-generated alerts with confidence, but has seen limited acceptance from incident responders. Large Language Models (LLMs) present a solution through discerning patterns in extensive information and adapting to different functional requirements. We present HuntGPT, a specialized intrusion detection dashboard applying a Random Forest classifier using the KDD99 dataset, integrating XAI frameworks like SHAP and Lime for user-friendly and intuitive model interaction, and combined with a GPT-3.5 Turbo, it delivers threats in an understandable format. The paper delves into the system's architecture, components, and technical accuracy, assessed through Certified Information Security Manager (CISM) Practice Exams, evaluating response quality across six metrics. The results demonstrate that conversational agents, supported by LLM and integrated with XAI, provide robust, explainable, and actionable AI solutions in intrusion detection, enhancing user understanding and interactive experience.
翻訳日:2024-03-25 14:25:03 公開日:2023-09-27
# ACWA: インテリジェントな水システムのためのAI駆動型サイバー物理テストベッド

ACWA: An AI-driven Cyber-Physical Testbed for Intelligent Water Systems ( http://arxiv.org/abs/2310.17654v1 )

ライセンス: Link先を確認
Feras A. Batarseh, Ajay Kulkarni, Chhayly Sreng, Justice Lin, and Siam Maksud(参考訳) この原稿は、最先端のサイバー物理テストベッド(The AI and Cyber for Water and Agriculture Testbed、ACWA)を提示している。 ACWAは、AIとサイバーセキュリティの実験を使用して給水管理を進める必要性によって動機付けられている。 ACWAの主目的は、最先端のAIとデータ駆動技術を活用することで、水と農業の領域における圧力に対処することである。 これらの課題には、サイバーバイオセキュリティ、リソース管理、水へのアクセス、持続可能性、データ駆動意思決定などが含まれる。 このような問題に対処するため、ACWAは複数のトポロジ、センサー、計算ノード、ポンプ、タンク、スマートウォーターデバイス、システムを制御するデータベースとAIモデルで構成されている。 さらに,ソフトウェアをベースとした水上デジタル双対であるACWAシミュレータを提案する。 シミュレータは、水分配システムの理論的時系列を生成する流体および成分輸送原理に基づいて実行される。 これにより、物理ACWAテストベッドを介して、理論的なアプローチと実際の結果を比較するための優れた検証ポイントが生成される。 ACWAデータはAIとウォータードメインの研究者が利用でき、オンラインのパブリックリポジトリにホストされている。 本稿では,既存のテストベッドと比較して詳細に導入し,例えば,データセットやソフトウェア,AI関連シナリオなどの新たな結果とともにユースケースについて述べる。

This manuscript presents a novel state-of-the-art cyber-physical water testbed, namely: The AI and Cyber for Water and Agriculture testbed (ACWA). ACWA is motivated by the need to advance water supply management using AI and Cybersecurity experimentation. The main goal of ACWA is to address pressing challenges in the water and agricultural domains by utilising cutting-edge AI and data-driven technologies. These challenges include Cyberbiosecurity, resources management, access to water, sustainability, and data-driven decision-making, among others. To address such issues, ACWA consists of multiple topologies, sensors, computational nodes, pumps, tanks, smart water devices, as well as databases and AI models that control the system. Moreover, we present ACWA simulator, which is a software-based water digital twin. The simulator runs on fluid and constituent transport principles that produce theoretical time series of a water distribution system. This creates a good validation point for comparing the theoretical approach with real-life results via the physical ACWA testbed. ACWA data are available to AI and water domain researchers and are hosted in an online public repository. In this paper, the system is introduced in detail and compared with existing water testbeds; additionally, example use-cases are described along with novel outcomes such as datasets, software, and AI-related scenarios.
翻訳日:2024-01-15 16:43:29 公開日:2023-09-27
# 「チャットgpt、友人か、教育の敵か?」 Redditによる最新のAIチャットボットのユーザ視点の分析

"ChatGPT, a Friend or Foe for Education?" Analyzing the User's Perspectives on the Latest AI Chatbot Via Reddit ( http://arxiv.org/abs/2311.06264v1 )

ライセンス: Link先を確認
Forhan Bin Emdad, Benhur Ravuri, Lateef Ayinde, Mohammad Ishtiaque Rahman(参考訳) 人工知能(AI)とビッグデータの最近の進歩は、Open AIのChatGPTのような人工知能エージェントを生み出した。 ChatGPTは、生徒の教室での学習経験と試験結果に影響を与える能力を示した。 しかし、ChatGPTがバイアスや誤った情報を提供する証拠は存在するが、学生はChatGPTを学術的なタスクに用いている。 したがって、ChatGPTユーザ知覚の正確な理解が重要である。 本研究は,ChatGPTの教育的利用に関連するRedditトップ記事247件を,ユーザ認知分析のための「ChatGPT」と呼ばれる著名なサブレディットから分析した。 記述的統計、nlp技術を用いた感情分析、ldaトピックモデリングは、データの文脈理解を収集するために用いられた。 その結果,利用者の大多数は中立的な視点を取っていた。 しかし,ChatGPTの教育における有用性については,否定的よりも肯定的であった。

Latest developments in Artificial Intelligence (AI) and big data gave rise to Artificial Intelligent agents like Open AI's ChatGPT, which has recently become the fastest growing application since Facebook and WhatsApp. ChatGPT has demonstrated its ability to impact students' classroom learning experience and exam outcomes. However, there is evidence that ChatGPT provides biased and erroneous information, yet students use ChatGPT in academic tasks. Therefore, an accurate understanding of ChatGPT user perception is crucial. This study has analyzed 247 Reddit top posts related to the educational use of ChatGPT from a prominent subreddit called "ChatGPT" for user perception analysis. Descriptive statistics, sentiment analysis using NLP techniques, and LDA topic modeling were used for analysis to gather a contextual understanding of the data. Results show that the majority of the users took a neutral viewpoint. However, there was more positive perception than negative regarding the usefulness of ChatGPT in education.
翻訳日:2024-01-15 16:21:53 公開日:2023-09-27
# 規制なしの信頼はなし!

No Trust without regulation! ( http://arxiv.org/abs/2311.06263v1 )

ライセンス: Link先を確認
Fran\c{c}ois Terrier (CEA List)(参考訳) 機械学習(ML)の性能の爆発と、その応用の可能性は、自律システムにおける意思決定などの重要な機能を含む、産業システムにおける機械学習の利用を強く推奨している。 While the AI community is well aware of the need to ensure the trustworthiness of AI-based applications, it is still leaving too much to one side the issue of safety and its corollary, regulation and standards, without which it is not possible to certify any level of safety, whether the systems are slightly or very critical.The process of developing and qualifying safety-critical software and systems in regulated industries such as aerospace, nuclear power stations, railways or automotive industry has long been well rationalized and mastered. 明確に定義された標準、規制フレームワーク、プロセス、および彼らが開発するシステムやソフトウェアの品質と安全性を評価し、実証するためのフォーマルなテクニックを使用します。 しかしながら、仕様の低レベルな形式化と機械学習ベースのコンポーネントの不確実性と不透明さのため、従来の重要なシステムエンジニアリング手法を用いた検証や検証は困難である。 これにより、資格基準やAIに適合する規制の問題が提起される。 AI法により、欧州委員会は、安全で信頼性があり、欧州の倫理的価値を尊重するAIベースのアプリケーションを統合するための、前進と強固なアプローチを構築するための基盤を定めた。 その上で,“信頼できる人工知能のための方法やツールを認定し提案する上で,どのような課題が生じるのか?

The explosion in the performance of Machine Learning (ML) and the potential of its applications are strongly encouraging us to consider its use in industrial systems, including for critical functions such as decision-making in autonomous systems. While the AI community is well aware of the need to ensure the trustworthiness of AI-based applications, it is still leaving too much to one side the issue of safety and its corollary, regulation and standards, without which it is not possible to certify any level of safety, whether the systems are slightly or very critical.The process of developing and qualifying safety-critical software and systems in regulated industries such as aerospace, nuclear power stations, railways or automotive industry has long been well rationalized and mastered. They use well-defined standards, regulatory frameworks and processes, as well as formal techniques to assess and demonstrate the quality and safety of the systems and software they develop. However, the low level of formalization of specifications and the uncertainties and opacity of machine learning-based components make it difficult to validate and verify them using most traditional critical systems engineering methods. This raises the question of qualification standards, and therefore of regulations adapted to AI. With the AI Act, the European Commission has laid the foundations for moving forward and building solid approaches to the integration of AI-based applications that are safe, trustworthy and respect European ethical values. The question then becomes "How can we rise to the challenge of certification and propose methods and tools for trusted artificial intelligence?"
翻訳日:2024-01-15 16:21:40 公開日:2023-09-27
# 歩きやすさと情緒的歩行体験の因果関係を探る--中国三等教育大学7校の事例から

Exploring the Causal Relationship between Walkability and Affective Walking Experience: Evidence from 7 Major Tertiary Education Campuses in China ( http://arxiv.org/abs/2311.06262v1 )

ライセンス: Link先を確認
Jie Zhu, Bojing Liao(参考訳) 本研究は,学生の歩行能力と情緒的歩行経験の因果関係について検討し,その精神的幸福感に着目した。 中国第3次教育キャンパス7校の参加者697名から得られたデータをもとに,学生の歩行体験に対する歩行性の影響を非事実分析した。 分析の結果、歩行性が向上したキャンパスに住む学生は、歩行性改善のない生徒に比べて、ポジティブな歩行体験を持つ確率が9.75%高いことがわかった。 歩行態度は歩行経験と強く相関するが,大学構内環境や歩行体験に影響を与える歩行空間の有効性といった客観的要因の重要性を強調した。 キャンパス歩行性の改善を含む地理的特徴は、最も大きな影響を与え、この影響は回答者の様々なサブセットによって異なる。 これらの結果は,歩行性改善が歩行体験に与える影響を評価する際に,特定の部分集合や地理的特徴を考慮することの重要性を強調する。 結論として, 大学構内歩行能力の向上と学生の情緒的歩行経験の向上との因果関係が示唆され, 中国各地の学生精神保健に影響を及ぼす要因や文化的変化について, さらなる研究の必要性が示唆された。

This study investigates the causal relationship between campus walkability and the emotional walking experiences of students, with a focus on their mental well-being. Using data from 697 participants across seven Chinese tertiary education campuses, the study employs a counterfactual analysis to estimate the impact of campus walkability on students' walking experiences. The analysis reveals that students living in campuses with improved walkability are 9.75% more likely to have positive walking experiences compared to those without walkability renovations. While walking attitude is strongly correlated with walking experiences, the study emphasizes the significance of objective factors such as campus surroundings and the availability of walking spaces in influencing the walking experience. Geographical features, including campus walkability improvements, have the most substantial impact, and this effect varies across different subsets of respondents. These findings underscore the importance of considering specific subsets and geographical features when assessing the impact of walkability improvements on the walking experience. In conclusion, the study provides compelling evidence of a causal link between improved campus walkability and enhanced emotional walking experiences among students, suggesting the need for further research on mediating factors and cultural variations affecting student mental health on various Chinese campuses.
翻訳日:2024-01-15 16:21:19 公開日:2023-09-27
# ダイナミックビジョンセンサデータを用いたスパイクニューラルネットワークによる自律走行:交通光変化検出を事例として

Autonomous Driving using Spiking Neural Networks on Dynamic Vision Sensor Data: A Case Study of Traffic Light Change Detection ( http://arxiv.org/abs/2311.09225v1 )

ライセンス: Link先を確認
Xuelei Chen(参考訳) 自動運転は、アカデミアと産業の両方から広く注目を集めている課題である。 畳み込みニューラルネットワークを用いた現在のソリューションは大量の計算資源を必要とし、高い消費電力をもたらす。 spiking neural networks (snns)は、情報処理と意思決定のための代替計算モデルを提供する。 この生物学的に妥当なモデルは低レイテンシとエネルギー効率の利点がある。 自動運転にSNNを用いた最近の研究は主に、簡易なシミュレーション環境における車線維持のような単純なタスクに焦点を当てている。 本研究は,実車上でSNNを使用するための重要なステップであるCARLAシミュレータにおける実写走行シーンのSNNについて検討する。 本手法の有効性と一般化性について検討する。

Autonomous driving is a challenging task that has gained broad attention from both academia and industry. Current solutions using convolutional neural networks require large amounts of computational resources, leading to high power consumption. Spiking neural networks (SNNs) provide an alternative computation model to process information and make decisions. This biologically plausible model has the advantage of low latency and energy efficiency. Recent work using SNNs for autonomous driving mostly focused on simple tasks like lane keeping in simplified simulation environments. This project studies SNNs on photo-realistic driving scenes in the CARLA simulator, which is an important step toward using SNNs on real vehicles. The efficacy and generalizability of the method will be investigated.
翻訳日:2024-01-15 16:08:07 公開日:2023-09-27
# formatfuzzer:バイナリファイルフォーマットの効率的なファジング

FormatFuzzer: Effective Fuzzing of Binary File Formats ( http://arxiv.org/abs/2109.11277v3 )

ライセンス: Link先を確認
Rafael Dutra, Rahul Gopinath, Andreas Zeller(参考訳) マルチメディアファイルなどの構造化バイナリ入力を処理するプログラムの効果的なファジングは、非常に特定の入力フォーマットを期待するので、難しい課題である。 しかし、既存のファザーはほとんどフォーマットに依存しないため、汎用性があるが、特定のフォーマットが必要な場合には有効ではない。 FormatFuzzerはフォーマット固有のファズーのジェネレータである。 FormatFuzzerはバイナリテンプレート(010 Editorで使用されるフォーマット仕様)を入力として、パーサ、ミューテータ、および言語の規則に準拠した入力の高効率なジェネレータとして機能するC++コードにコンパイルする。 結果として生成されたフォーマット固有のファジターは、プログラムからのガイダンスがないブラックボックス設定でスタンドアロンのプロデューサまたはミューテータとして使用できる。 さらに、変更可能な決定種を提供することで、aflのような任意のフォーマットに依存しないファザーと簡単に統合でき、フォーマットを認識できる。 また,MP4 や ZIP などの複雑なフォーマットを評価したところ,FormatFuzzer は従来未知のメモリエラーを検出できる有効な入力のプロデューサであることがわかった。

Effective fuzzing of programs that process structured binary inputs, such as multimedia files, is a challenging task, since those programs expect a very specific input format. Existing fuzzers, however, are mostly format-agnostic, which makes them versatile, but also ineffective when a specific format is required. We present FormatFuzzer, a generator for format-specific fuzzers. FormatFuzzer takes as input a binary template (a format specification used by the 010 Editor) and compiles it into C++ code that acts as parser, mutator, and highly efficient generator of inputs conforming to the rules of the language. The resulting format-specific fuzzer can be used as a standalone producer or mutator in black-box settings, where no guidance from the program is available. In addition, by providing mutable decision seeds, it can be easily integrated with arbitrary format-agnostic fuzzers such as AFL to make them format-aware. In our evaluation on complex formats such as MP4 or ZIP, FormatFuzzer showed to be a highly effective producer of valid inputs that also detected previously unknown memory errors in ffmpeg and timidity.
翻訳日:2023-10-24 15:48:09 公開日:2023-09-27
# ビジョンベースSwarm生成制御の安全性確保

Assuring Safety of Vision-Based Swarm Formation Control ( http://arxiv.org/abs/2210.00982v2 )

ライセンス: Link先を確認
Chiao Hsieh (1), Yubin Koh (1), Yangge Li (1), Sayan Mitra (1) ((1) Coordinated Science Laboratory at the University of Illinois at Urbana-Champaign)(参考訳) 安価なセンサーを使用でき、GPSを利用した環境でも動作するため、視覚ベースの構成制御システムは魅力的である。 ビジョンコンポーネントの精度は、複雑な方法で環境に依存するため、これらのエラーはシステムを通じて伝播し、誤った制御アクションにつながるため、エンドツーエンドの推論に関する公式な仕様は存在しません。 本稿では,この問題に対処し,視覚に基づく構成制御の安全性を保証する手法を提案する。 次に、構築された量子化器に標準量子化コンセンサスアルゴリズムの収束解析を適用する方法を示す。 我々は、最近定義された知覚契約の概念を用いて、異なる基底状態、環境、気象条件からのサンプルデータを用いて、実際の視覚に基づく知覚パイプラインの誤差境界を作成する。 具体的には、対数極座標における量子化器を用い、この量子化器は、エージェント間の絶対距離に関して誤差が悪化する視覚に基づく位置推定のための構築された知覚契約に適していることを示す。 我々は、この非一様量子化器を用いて生成制御アルゴリズムを構築し、その収束性を量子化コンセンサスに既存の結果を用いて証明する。

Vision-based formation control systems are attractive because they can use inexpensive sensors and can work in GPS-denied environments. The safety assurance for such systems is challenging: the vision component's accuracy depends on the environment in complicated ways, these errors propagate through the system and lead to incorrect control actions, and there exists no formal specification for end-to-end reasoning. We address this problem and propose a technique for safety assurance of vision-based formation control: First, we propose a scheme for constructing quantizers that are consistent with vision-based perception. Next, we show how the convergence analysis of a standard quantized consensus algorithm can be adapted for the constructed quantizers. We use the recently defined notion of perception contracts to create error bounds on the actual vision-based perception pipeline using sampled data from different ground truth states, environments, and weather conditions. Specifically, we use a quantizer in logarithmic polar coordinates, and we show that this quantizer is suitable for the constructed perception contracts for the vision-based position estimation, where the error worsens with respect to the absolute distance between agents. We build our formation control algorithm with this nonuniform quantizer, and we prove its convergence employing an existing result for quantized consensus.
翻訳日:2023-10-24 14:56:49 公開日:2023-09-27
# 2030年の研究ソフトウェア工学

Research Software Engineering in 2030 ( http://arxiv.org/abs/2308.07796v3 )

ライセンス: Link先を確認
Daniel S. Katz and Simon Hettrick(参考訳) このポジションペーパーは、"Future of eScience"と題した講演で、研究ソフトウェア工学運動と2030年の位置について論じている。 著者の経験から、世界中を対象としているが、アメリカ合衆国とイギリスに焦点を当てた例もある。

This position paper for an invited talk on the "Future of eScience" discusses the Research Software Engineering Movement and where it might be in 2030. Because of the authors' experiences, it is aimed globally but with examples that focus on the United States and United Kingdom.
翻訳日:2023-10-23 14:08:38 公開日:2023-09-27
# 機械学習の自己管理脆弱性検出への応用

Utilization of machine learning for the detection of self-admitted vulnerabilities ( http://arxiv.org/abs/2309.15619v1 )

ライセンス: Link先を確認
Moritz Mock(参考訳) モチベーション: 技術的負債は、短期的なニーズのために導入された不適切なコードを記述するメタファーです。 開発者はそれを意識し、ソースコードのコメントで認めている。 従って、satdは開発者が認識している弱いコードを示している。 問題ステートメント: ソースコードの検査は時間がかかる。脆弱性に対するソースコードの自動検査は、ソフトウェア開発において重要な側面である。 これは実践者が時間を要するプロセスを減らし、ソースコードの脆弱な側面に集中するのに役立ちます。 提案手法は,NLPおよびNL-PLアプローチを利用して,脆弱性と関連するSATDを検出することによって,自己許容技術的負債(SATD)のセマンティクスを正確に同定し,よりよく理解する。 最後に、脆弱性発見プロセスを実践者に簡単にアクセスできるようにci/cdパイプラインが提案される。

Motivation: Technical debt is a metaphor that describes not-quite-right code introduced for short-term needs. Developers are aware of it and admit it in source code comments, which is called Self- Admitted Technical Debt (SATD). Therefore, SATD indicates weak code that developers are aware of. Problem statement: Inspecting source code is time-consuming; automatically inspecting source code for its vulnerabilities is a crucial aspect of developing software. It helps practitioners reduce the time-consuming process and focus on vulnerable aspects of the source code. Proposal: Accurately identify and better understand the semantics of self-admitted technical debt (SATD) by leveraging NLP and NL-PL approaches to detect vulnerabilities and the related SATD. Finally, a CI/CD pipeline will be proposed to make the vulnerability discovery process easily accessible to practitioners.
翻訳日:2023-10-23 06:19:35 公開日:2023-09-27
# 誤用から熟達まで - 知識駆動aiチェーンによるコード生成の拡張

From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven AI Chaining ( http://arxiv.org/abs/2309.15606v1 )

ライセンス: Link先を確認
Xiaoxue Ren, Xinyuan Ye, Dehai Zhao, Zhenchang Xing, Xiaohu Yang(参考訳) 大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。 しかし、LLMが優れたプログラミングプラクティスを欠いているため、特に例外処理において、高品質で信頼性の高いコードを生成することは、依然として大きな課題である。 本稿では,まず,例外処理におけるLLMの3つの重要な課題,すなわち不完全例外処理,不正例外処理,トライキャッチの悪用について,実証的研究を行い,要約する。 そして、このような課題に対処するために、さまざまな粒度でプロンプトを試みます。 実験的な研究に基づいて、我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解し、LLMの例外処理仕様を考慮した支援を行う、知識駆動型プロンプトベースのコード生成手法KPCを提案する。 Javaの公式APIドキュメントから抽出した3,079のコード生成タスクで,KPCベースのアプローチを評価した。 大規模な実験結果から、KPCベースのアプローチは、LLMが生成するコードの品質を向上する可能性があることが示されている。 これは、例外を十分に管理し、静的評価手法で109.86%と578.57%の大幅な改善と、動的検証によるサンプルデータセットの18のランタイムバグの削減によって達成される。

Large Language Models (LLMs) have shown promising results in automatic code generation by improving coding efficiency to a certain extent. However, generating high-quality and reliable code remains a formidable task because of LLMs' lack of good programming practice, especially in exception handling. In this paper, we first conduct an empirical study and summarise three crucial challenges of LLMs in exception handling, i.e., incomplete exception handling, incorrect exception handling and abuse of try-catch. We then try prompts with different granularities to address such challenges, finding fine-grained knowledge-driven prompts works best. Based on our empirical study, we propose a novel Knowledge-driven Prompt Chaining-based code generation approach, name KPC, which decomposes code generation into an AI chain with iterative check-rewrite steps and chains fine-grained knowledge-driven prompts to assist LLMs in considering exception-handling specifications. We evaluate our KPC-based approach with 3,079 code generation tasks extracted from the Java official API documentation. Extensive experimental results demonstrate that the KPC-based approach has considerable potential to ameliorate the quality of code generated by LLMs. It achieves this through proficiently managing exceptions and obtaining remarkable enhancements of 109.86% and 578.57% with static evaluation methods, as well as a reduction of 18 runtime bugs in the sampled dataset with dynamic validation.
翻訳日:2023-10-23 06:19:23 公開日:2023-09-27
# CCBERT: 自己監督型コード変更表現学習

CCBERT: Self-Supervised Code Change Representation Learning ( http://arxiv.org/abs/2309.15474v1 )

ライセンス: Link先を確認
Xin Zhou, Bowen Xu, DongGyun Han, Zhou Yang, Junda He and David Lo(参考訳) 日々の作業において、多くのコード変更が開発者によって行われ、効果的なコード変更分析には、コード変更の優れた表現が望まれます。 Hoang氏らは最近、変更の意味的な意図を捉えるために、コード変更の分散表現を学ぶニューラルネットワークベースのアプローチであるCC2Vecを提案した。 複数のタスクで有効性を示すにもかかわらず、CC2Vecにはいくつかの制限がある。 1)コード変更に関する粗い情報のみを考慮し、 2) コード変更の自己完結型コンテンツではなく、ログメッセージに依存します。 本研究では,大量のラベルのないコード変更を含む大規模データセットに基づいて,コード変更の汎用表現を学ぶ新しいトランスフォーマベースの事前学習モデルであるccbert (\underline{c}ode \underline{c}hange \underline{bert})を提案する。 CCBERTは、コード変更の内容に基づいたコード変更表現の学習に特化した、4つの自己指導型目標に基づいて事前訓練されている。 CCBERTは、古いバージョンと新しいバージョンのコンテンツと編集アクションから学習することで、トークンレベルでのきめ細かいコード変更を認識する。 実験の結果,CCBERT は CC2Vec や,下流タスクの最先端アプローチを,メトリクスやタスクの点で7.7 %--14.0 % で大幅に上回っていることがわかった。 CCBERTは、CodeBERTのような大規模な事前トレーニング済みのコードモデルよりも一貫して優れており、トレーニング時間が少ない6--10$\times$、5-30$\times$推論時間が少ない7.9$\times$GPUメモリを必要とする。

Numerous code changes are made by developers in their daily work, and a superior representation of code changes is desired for effective code change analysis. Recently, Hoang et al. proposed CC2Vec, a neural network-based approach that learns a distributed representation of code changes to capture the semantic intent of the changes. Despite demonstrated effectiveness in multiple tasks, CC2Vec has several limitations: 1) it considers only coarse-grained information about code changes, and 2) it relies on log messages rather than the self-contained content of the code changes. In this work, we propose CCBERT (\underline{C}ode \underline{C}hange \underline{BERT}), a new Transformer-based pre-trained model that learns a generic representation of code changes based on a large-scale dataset containing massive unlabeled code changes. CCBERT is pre-trained on four proposed self-supervised objectives that are specialized for learning code change representations based on the contents of code changes. CCBERT perceives fine-grained code changes at the token level by learning from the old and new versions of the content, along with the edit actions. Our experiments demonstrate that CCBERT significantly outperforms CC2Vec or the state-of-the-art approaches of the downstream tasks by 7.7\%--14.0\% in terms of different metrics and tasks. CCBERT consistently outperforms large pre-trained code models, such as CodeBERT, while requiring 6--10$\times$ less training time, 5--30$\times$ less inference time, and 7.9$\times$ less GPU memory.
翻訳日:2023-10-23 06:18:53 公開日:2023-09-27
# 拡張可能なシステムメタプログラミング言語の設計と実装

The Design and Implementation of an Extensible System Meta-Programming Language ( http://arxiv.org/abs/2309.15416v1 )

ライセンス: Link先を確認
Ronie Salgado(参考訳) システムプログラミング言語は通常、線形パイプラインプロセスでコンパイルされる。 これにより、同じ言語や環境でメタプログラミングを行う可能性や、エンドユーザによるコンパイラ自体の拡張性が制限される。 プログラム定義をスクリプトとして解釈するという観点から,新しいコンパイルプロセスの再定義を提案する。 この評価は、プログラム言語自体のメタ循環的定義と実装の基礎となるメタオブジェクトプロトコルを介して、完全なコンパイルパイプラインを実装し、ユーザに公開する環境で実行される。 静的で動的に型付けされたSmalltalkとC++にインスパイアされたプログラミング言語であるSysmelの自己コンパイル実装をブートストラップすることで、このアプローチの実現可能性を示す。

System programming languages are typically compiled in a linear pipeline process, which is a completely opaque and isolated to end-users. This limits the possibilities of performing meta-programming in the same language and environment, and the extensibility of the compiler itself by end-users. We propose a novel redefinition of the compilation process in terms of interpreting the program definition as a script. This evaluation is performed in an environment where the full compilation pipeline is implemented and exposed to the user via a meta-object protocol, which forms the basis for a meta-circular definition and implementation of the programming language itself. We demonstrate the feasibility of this approach by bootstrapping a self-compiling implementation of Sysmel, a static and dynamic typed Smalltalk and C++ inspired programming language.
翻訳日:2023-10-23 06:18:25 公開日:2023-09-27
# T5APR:チェックポイントアンサンブルによる言語間の自動プログラム修復の強化

T5APR: Empowering Automated Program Repair across Languages through Checkpoint Ensemble ( http://arxiv.org/abs/2309.15742v1 )

ライセンス: Link先を確認
Reza Gharibi, Mohammad Hadi Sadreddini, Seyed Mostafa Fakhrahmad(参考訳) 近年、ディープラーニング技術を用いた自動プログラム修復(APR)が重要な研究領域となり、ソフトウェアの信頼性と保守性を向上させるバグ修正パッチの自動生成を目指している。 しかし、既存の手法の多くは単一の言語をターゲットにするか、多言語モデルのトレーニングに高い計算資源を必要とする。 本稿では,複数のプログラム言語にまたがるバグフィックスの統一ソリューションを提供する,新しいニューラルプログラム修復手法であるt5aprを提案する。 T5APRは、トレーニング済みの強力なテキスト-テキスト変換モデルであるCodeT5を活用し、パッチレコメンデーションを改善するためにチェックポイントアンサンブル戦略を採用している。 4つのプログラミング言語(java、python、c、javascript)で6つの有名なベンチマークを総合的に評価し、最新技術に対するt5aprの競争力を実証した。 t5aprは、1,985件のバグを正しく修正した。 また,本手法の有効性を,異なる手法間でのパッチランキングの精度比較など,詳細な分析を行うことで支援する。 本研究は,実世界の応用におけるT5APRの可能性を示し,APR分野における多言語アプローチの重要性を強調した。

Automated program repair (APR) using deep learning techniques has become an important area of research in recent years, aiming to automatically generate bug-fixing patches that can improve software reliability and maintainability. However, most existing methods either target a single language or require high computational resources to train multilingual models. In this paper, we propose T5APR, a novel neural program repair approach that provides a unified solution for bug fixing across multiple programming languages. T5APR leverages CodeT5, a powerful pre-trained text-to-text transformer model, and adopts a checkpoint ensemble strategy to improve patch recommendation. We conduct comprehensive evaluations on six well-known benchmarks in four programming languages (Java, Python, C, JavaScript), demonstrating T5APR's competitiveness against state-of-the-art techniques. T5APR correctly fixes 1,985 bugs, including 1,442 bugs that none of the compared techniques has fixed. We further support the effectiveness of our approach by conducting detailed analyses, such as comparing the correct patch ranking among different techniques. The findings of this study demonstrate the potential of T5APR for use in real-world applications and highlight the importance of multilingual approaches in the field of APR.
翻訳日:2023-10-23 06:05:51 公開日:2023-09-27
# 無線ネットワーク上でのライブストリーミングのためのディープラーニングに基づくリアルタイムレート制御

Deep Learning-Based Real-Time Rate Control for Live Streaming on Wireless Networks ( http://arxiv.org/abs/2310.06857v1 )

ライセンス: Link先を確認
Matin Mortaheb, Mohammad A. Amir Khojastepour, Srimat T. Chakradhar, Sennur Ulukus(参考訳) 高品質なビデオコンテンツを持つワイヤレスユーザーを提供することがますます重要になっている。 しかし、一貫した映像品質の確保は、ダイナミックな映像コンテンツによる可変符号化ビットレートと、無線フェード効果による変動チャネルビットレートによる課題を引き起こす。 エンコーダパラメータのサブ最適選択は、低利用帯域幅によるビデオ品質の損失やパケット損失によるビデオアーチファクトの導入につながる可能性がある。 これを解決するために,リアルタイム深層学習に基づくH.264コントローラを提案する。 このコントローラは、物理層から駆動される瞬時チャネル品質データとビデオチャンクを利用して、最適エンコーダパラメータをリアルタイムに無視可能な遅延で動的に推定する。 目的は、利用可能なチャネルビットレートより少し低い符号化されたビデオビットレートを維持することである。 QCIFデータセットとパブリックデータセットからのランダムビデオの多種多様な選択で実施された実験結果は、このアプローチの有効性を検証する。 注目すべきは、PSNRの10-20dBの改善により、最先端の適応ビットレートビデオストリーミングを再現し、パケットのドロップレートを0.002まで下げることである。

Providing wireless users with high-quality video content has become increasingly important. However, ensuring consistent video quality poses challenges due to variable encoded bitrate caused by dynamic video content and fluctuating channel bitrate caused by wireless fading effects. Suboptimal selection of encoder parameters can lead to video quality loss due to underutilized bandwidth or the introduction of video artifacts due to packet loss. To address this, a real-time deep learning based H.264 controller is proposed. This controller leverages instantaneous channel quality data driven from the physical layer, along with the video chunk, to dynamically estimate the optimal encoder parameters with a negligible delay in real-time. The objective is to maintain an encoded video bitrate slightly below the available channel bitrate. Experimental results, conducted on both QCIF dataset and a diverse selection of random videos from public datasets, validate the effectiveness of the approach. Remarkably, improvements of 10-20 dB in PSNR with repect to the state-of-the-art adaptive bitrate video streaming is achieved, with an average packet drop rate as low as 0.002.
翻訳日:2023-10-23 03:21:29 公開日:2023-09-27
# covid-19後の消化器症状の機械学習による解析

Machine Learning-driven Analysis of Gastrointestinal Symptoms in Post-COVID-19 Patients ( http://arxiv.org/abs/2310.00540v1 )

ライセンス: Link先を確認
Maitham G. Yousif, Fadhil G. Al-Amran, Salman Rawaf, Mohammad Abdulla Grmt(参考訳) 新型コロナウイルス感染症(SARS-CoV-2)による新型コロナウイルスのパンデミックは、世界中で深刻な健康問題を引き起こしている。 呼吸器症状が主な対象だが、新たな証拠として、消化器(gi)を含む様々な臓器系に対するcovid-19の影響が指摘されている。 この研究は、2022年から2023年にかけて収集されたイラクの913人の患者のデータに基づいて、新型コロナウイルスから回復した個人におけるGI症状の頻度とパターンを調査し、機械学習アルゴリズムを利用してこれらの症状の予測因子を同定する。 研究の結果、共生後の19例の著明な割合が回復期にgi症状を呈していることが判明した。 症状は腹痛,吐き気,腹痛を主訴に来院した。 機械学習分析により、年齢、性別、病気の重症度、共生性、新型コロナウイルス感染症の期間など、GI症状の重要な予測因子が明らかになった。 これらの知見は、早期の識別とパーソナライズされた介入のための貴重なツールを提供する機械学習によって、COVID-19後のケアにおけるGI症状のモニタリングと対処の重要性を強調している。 本研究は、GIヘルスに対するCOVID-19の長期的影響の理解に寄与し、これらの症状の予測と管理に機械学習による分析を活用することの潜在的メリットを強調した。 さらなる研究は、新型コロナウイルスの生存者のGI症状のメカニズムを解明し、症状管理のための標的的介入を開発することが求められている。 キーワード:covid-19、消化器症状、機械学習、予測要因、covid-19後のケア、長いcovid-19。

The COVID-19 pandemic, caused by the novel coronavirus SARS-CoV-2, has posed significant health challenges worldwide. While respiratory symptoms have been the primary focus, emerging evidence has highlighted the impact of COVID-19 on various organ systems, including the gastrointestinal (GI) tract. This study, based on data from 913 post-COVID-19 patients in Iraq collected during 2022 and 2023, investigates the prevalence and patterns of GI symptoms in individuals recovering from COVID-19 and leverages machine learning algorithms to identify predictive factors for these symptoms. The research findings reveal that a notable percentage of post-COVID-19 patients experience GI symptoms during their recovery phase. Diarrhea emerged as the most frequently reported symptom, followed by abdominal pain and nausea. Machine learning analysis uncovered significant predictive factors for GI symptoms, including age, gender, disease severity, comorbidities, and the duration of COVID-19 illness. These findings underscore the importance of monitoring and addressing GI symptoms in post-COVID-19 care, with machine learning offering valuable tools for early identification and personalized intervention. This study contributes to the understanding of the long-term consequences of COVID-19 on GI health and emphasizes the potential benefits of utilizing machine learning-driven analysis in predicting and managing these symptoms. Further research is warranted to delve into the mechanisms underlying GI symptoms in COVID-19 survivors and to develop targeted interventions for symptom management. Keywords: COVID-19, gastrointestinal symptoms, machine learning, predictive factors, post-COVID-19 care, long COVID.
翻訳日:2023-10-15 15:08:32 公開日:2023-09-27
# 透かしによる人工知能生成コンテンツの脆弱性

Towards the Vulnerability of Watermarking Artificial Intelligence Generated Content ( http://arxiv.org/abs/2310.07726v1 )

ライセンス: Link先を確認
Guanlin Li, Yifei Chen, Jie Zhang, Jiwei Li, Shangwei Guo, Tianwei Zhang(参考訳) AIGC(Artificial Intelligence Generated Content)はソーシャルメディアで人気を集めており、多くの商用サービスが利用できる。 これらのサービスは、潜在拡散モデルや大規模言語モデルのような高度な生成モデルを活用して、ユーザのための創造的コンテンツ(例えば、現実的な画像、流動的な文)を生成する。 サービス提供者は、利用者が使用ポリシーに違反しないことを保証する必要がある(例えば、商業化の悪用、安全でないコンテンツの生成と配布)。 近年,多くの透かし手法が提案されている。 しかし,本稿では,敵が容易にこれらの透かし機構を破ることができることを示す。 具体的には2つの攻撃の可能性を考える。 1) 透かしの除去: 敵は、生成されたコンテンツから埋め込んだ透かしを簡単に消し、サービス提供者の規制なしに自由に使用することができる。 2) 透かしフォージ: 相手は、他のユーザから偽の透かしで不正なコンテンツを作成でき、サービスプロバイダが誤った属性を発生させる。 両攻撃を包括的に行うための統一フレームワークであるWMaGiを提案する。 重要なアイデアは、コンテンツ処理に事前訓練された拡散モデルと、ウォーターマークの除去または鍛造のための生成的逆ネットワークを活用することである。 異なるデータセットと組込み設定でwmagiを評価した。 その結果,生成コンテンツの品質を維持しつつ,高い成功率を達成できることがわかった。 既存の拡散モデルに基づく攻撃と比較して、wmagiは5,050$\sim$11,000$\times$高速である。

Artificial Intelligence Generated Content (AIGC) is gaining great popularity in social media, with many commercial services available. These services leverage advanced generative models, such as latent diffusion models and large language models, to generate creative content (e.g., realistic images, fluent sentences) for users. The usage of such generated content needs to be highly regulated, as the service providers need to ensure the users do not violate the usage policies (e.g., abuse for commercialization, generating and distributing unsafe content). Numerous watermarking approaches have been proposed recently. However, in this paper, we show that an adversary can easily break these watermarking mechanisms. Specifically, we consider two possible attacks. (1) Watermark removal: the adversary can easily erase the embedded watermark from the generated content and then use it freely without the regulation of the service provider. (2) Watermark forge: the adversary can create illegal content with forged watermarks from another user, causing the service provider to make wrong attributions. We propose WMaGi, a unified framework to achieve both attacks in a holistic way. The key idea is to leverage a pre-trained diffusion model for content processing, and a generative adversarial network for watermark removing or forging. We evaluate WMaGi on different datasets and embedding setups. The results prove that it can achieve high success rates while maintaining the quality of the generated content. Compared with existing diffusion model-based attacks, WMaGi is 5,050$\sim$11,000$\times$ faster.
翻訳日:2023-10-15 14:17:40 公開日:2023-09-27
# Brave New World: 教育と学習における人工知能

Brave new world: Artificial Intelligence in teaching and learning ( http://arxiv.org/abs/2310.06856v1 )

ライセンス: Link先を確認
Adrian Groza and Anca Marginean(参考訳) 我々は、教育と学習の両方にLarge Language Modelがどのように使われているかを例証する。 教育分野で既に発生したAIインシデントについても論じるとともに、大学におけるAIポリシー導入の緊急の必要性や、AI規制の進行中戦略について論じる。 AIの方針については、各機関が教育と学習においてAIの方針を持つべきだと我々は考えています。 これは少なくとも2つの点で重要です (i)教育に肯定的かつ否定的に影響を及ぼす可能性のある多数の教育ツールに対する意識を高めること。 (ii)教育におけるaiインシデントのリスクを最小化すること。

We exemplify how Large Language Models are used in both teaching and learning. We also discuss the AI incidents that have already occurred in the education domain, and we argue for the urgent need to introduce AI policies in universities and for the ongoing strategies to regulate AI. Regarding policy for AI, our view is that each institution should have a policy for AI in teaching and learning. This is important from at least twofolds: (i) to raise awareness on the numerous educational tools that can both positively and negatively affect education; (ii) to minimise the risk of AI incidents in education.
翻訳日:2023-10-15 14:16:47 公開日:2023-09-27
# 遺伝的アルゴリズムに基づく動的バックドア攻撃によるフェデレーション学習型ネットワークトラフィック分類

Genetic Algorithm-Based Dynamic Backdoor Attack on Federated Learning-Based Network Traffic Classification ( http://arxiv.org/abs/2310.06855v1 )

ライセンス: Link先を確認
Mahmoud Nazzal, Nura Aljaafari, Ahmed Sawalmeh, Abdallah Khreishah, Muhammad Anan, Abdulelah Algosaibi, Mohammed Alnaeem, Adel Aldalbahi, Abdulaziz Alhumam, Conrado P. Vizcarra, and Shadan Alhamed(参考訳) フェデレーション学習により、複数のクライアントが、中央サーバによって編成されたグローバルモデルの学習に協力的に貢献することができる。 この学習方式は、クライアントのデータプライバシーを促進し、通信オーバーヘッドを減らす。 ネットワークトラフィック分類のようなアプリケーションでは、ネットワークの脆弱性や弱点を隠すのに役立つ。 しかし、連合学習はバックドア攻撃の影響を受けやすく、敵が操作されたモデル更新をグローバルモデルに注入する。 これらのアップデートは、特定の入力パターンで起動できるグローバルモデルに健全な機能を注入する。 それでも、これらの攻撃に対するフェデレート学習に基づくネットワークトラフィック分類モデルの脆弱性は未解明のままである。 本稿では,ネットワークトラフィック分類のための連関学習に対する遺伝的アルゴリズムに基づく新しいバックドア攻撃であるgabattackを提案する。 GABAttackは遺伝的アルゴリズムを用いてバックドアトリガーパターンの値と位置を最適化し、入力とモデルに適合することを保証する。 このインプット・テールド・ダイナミックアタックは、効果的でありながら攻撃回避性を改善することを約束する。 実世界のネットワークデータセット上で行われた広範囲な実験は、ほぼ目に見えない活動を維持しながら、様々な状況におけるガバタックの成功を検証する。 この研究は、ネットワークセキュリティの専門家や実践者がこのような攻撃に対して堅牢な防御策を開発するための警告となる。

Federated learning enables multiple clients to collaboratively contribute to the learning of a global model orchestrated by a central server. This learning scheme promotes clients' data privacy and requires reduced communication overheads. In an application like network traffic classification, this helps hide the network vulnerabilities and weakness points. However, federated learning is susceptible to backdoor attacks, in which adversaries inject manipulated model updates into the global model. These updates inject a salient functionality in the global model that can be launched with specific input patterns. Nonetheless, the vulnerability of network traffic classification models based on federated learning to these attacks remains unexplored. In this paper, we propose GABAttack, a novel genetic algorithm-based backdoor attack against federated learning for network traffic classification. GABAttack utilizes a genetic algorithm to optimize the values and locations of backdoor trigger patterns, ensuring a better fit with the input and the model. This input-tailored dynamic attack is promising for improved attack evasiveness while being effective. Extensive experiments conducted over real-world network datasets validate the success of the proposed GABAttack in various situations while maintaining almost invisible activity. This research serves as an alarming call for network security experts and practitioners to develop robust defense measures against such attacks.
翻訳日:2023-10-15 14:16:38 公開日:2023-09-27
# 転倒事象分類のためのノイズラベルを用いた学習:トリニティネットワークを用いた協調学習

Learning with Noisy Labels for Human Fall Events Classification: Joint Cooperative Training with Trinity Networks ( http://arxiv.org/abs/2310.06854v1 )

ライセンス: Link先を確認
Leiyu Xie, Yang Sun, Syed Mohsen Naqvi(参考訳) 高齢化に伴い、秋のイベントの分類は研究の注目を集めている。 ディープラーニングの発展において、データラベルの品質は不可欠である。 ほとんどのデータセットは自動または半自動でラベル付けされ、サンプルは誤ってラベル付けされ、ディープニューラルネットワーク(DNN)のパフォーマンスが制限される。 ノイズラベル学習に関する最近の研究は、ニューラルネットワークがまずクリーンでシンプルなインスタンスに注目し、次にトレーニングステージのノイズとハードインスタンスに従うことを確認している。 ノイズの多いラベル問題による学習に対処し,人間のプライバシを保護するために,トライニティ・ネットワーク(JoCoT)による協調学習という,シンプルかつ効果的なアプローチを提案する。 プライバシー問題を緩和するために、人間の骨格データを使用する。 提案したJoCoTの2つの教師モジュールと1つの生徒モジュールを用いて,雑音ラベル学習フレームワークの堅牢性と性能を向上する。 間違った選択を緩和するために,教師モジュールからの予測をコンセンサスに基づく手法で適用し,学生モジュールのトレーニングを指導する。 広範に使用されるアップフォールデータセットの性能評価と最新データとの比較により,高騒音域におけるjocotの有効性が確認された。 正確には、JoCoTは平均的なペアフリップと対称ノイズで最先端の5.17%と3.35%を上回っている。

With the increasing ageing population, fall events classification has drawn much research attention. In the development of deep learning, the quality of data labels is crucial. Most of the datasets are labelled automatically or semi-automatically, and the samples may be mislabeled, which constrains the performance of Deep Neural Networks (DNNs). Recent research on noisy label learning confirms that neural networks first focus on the clean and simple instances and then follow the noisy and hard instances in the training stage. To address the learning with noisy label problem and protect the human subjects' privacy, we propose a simple but effective approach named Joint Cooperative training with Trinity Networks (JoCoT). To mitigate the privacy issue, human skeleton data are used. The robustness and performance of the noisy label learning framework is improved by using the two teacher modules and one student module in the proposed JoCoT. To mitigate the incorrect selections, the predictions from the teacher modules are applied with the consensus-based method to guide the student module training. The performance evaluation on the widely used UP-Fall dataset and comparison with the state-of-the-art, confirms the effectiveness of the proposed JoCoT in high noise rates. Precisely, JoCoT outperforms the state-of-the-art by 5.17% and 3.35% with the averaged pairflip and symmetric noises, respectively.
翻訳日:2023-10-15 14:16:21 公開日:2023-09-27
# 言語モデルに起因したプライバシーリスクの特定と緩和:調査

Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey ( http://arxiv.org/abs/2310.01424v1 )

ライセンス: Link先を確認
Victoria Smith, Ali Shahin Shamsabadi, Carolyn Ashurst, Adrian Weller(参考訳) 言語モデル(LM)の急速な進歩は、多くの分野で採用されている。 潜在的なメリットに加えて,このようなモデルには,プライバシを含むさまざまなリスクが伴う。 特に、LMのサイズが大きくなるにつれて、トレーニングデータの側面を記憶する可能性が増大し、プライベート情報が漏洩するリスクが生じる。 LMが普及するにつれて、そのようなプライバシーのリスクと、それらの緩和方法を理解することが不可欠である。 研究者や政策立案者がプライバシー攻撃や緩和に関する知識の状況を理解するのを助けるため、lmプライバシーに関する最初の技術調査を行う。 私たち (i)lsmにおいて攻撃が異なるサルエント次元の分類を識別する。 (ii)既存の攻撃を調査し、主要な傾向を強調するために次元の分類を用いる。 (iii)既存の緩和戦略を議論し、その強みと限界を強調し、鍵となるギャップを特定し、オープンな問題と懸念すべき領域を示す。

Rapid advancements in language models (LMs) have led to their adoption across many sectors. Alongside the potential benefits, such models present a range of risks, including around privacy. In particular, as LMs have grown in size, the potential to memorise aspects of their training data has increased, resulting in the risk of leaking private information. As LMs become increasingly widespread, it is vital that we understand such privacy risks and how they might be mitigated. To help researchers and policymakers understand the state of knowledge around privacy attacks and mitigations, including where more work is needed, we present the first technical survey on LM privacy. We (i) identify a taxonomy of salient dimensions where attacks differ on LMs, (ii) survey existing attacks and use our taxonomy of dimensions to highlight key trends, (iii) discuss existing mitigation strategies, highlighting their strengths and limitations, identifying key gaps and demonstrating open problems and areas for concern.
翻訳日:2023-10-08 11:09:15 公開日:2023-09-27
# AI生成テキスト検出ツールの実証的研究

An Empirical Study of AI Generated Text Detection Tools ( http://arxiv.org/abs/2310.01423v1 )

ライセンス: Link先を確認
Arslan Akram(参考訳) ChatGPTは主要なAIGCモデルとして登場し、幅広いアプリケーション(ソフトウェア開発やメンテナンスを含む)に高品質なレスポンスを提供しているため、多くの個人から大きな関心を集めている。 ChatGPTには大きな約束があるが、特に教育と公共の安全の領域において、その誤用から起こりうる深刻な問題がある。 いくつかのAIGC検出器が利用可能であり、それらはすべて本物のテキストでテストされている。 しかし、マルチドメインのchatgpt素材に対する効果を調べるには、さらなる研究が必要である。 本研究の目的は,大学などの研究機関が使用する,最先端のAPIと人工的に生成された情報を検出するツールをテストするマルチドメインデータセットを作成することである。 本研究のために,記事,要約,記事,ニュース,製品レビューからなる大規模データセットを作成した。 第2のステップは、新たに作成されたデータセットを使用して、6つのツールをペースで配置することだ。 GPTkit"、"GPTZero"、"Originality"、"Sapling"、"Writer"、"Zylalab"を含む6つの異なる人工知能(AI)テキスト識別システムは、精度が55.29から97.0%である。 すべてのツールの評価は良好だったが、独創性はボード全体で特に有効だった。

Since ChatGPT has emerged as a major AIGC model, providing high-quality responses across a wide range of applications (including software development and maintenance), it has attracted much interest from many individuals. ChatGPT has great promise, but there are serious problems that might arise from its misuse, especially in the realms of education and public safety. Several AIGC detectors are available, and they have all been tested on genuine text. However, more study is needed to see how effective they are for multi-domain ChatGPT material. This study aims to fill this need by creating a multi-domain dataset for testing the state-of-the-art APIs and tools for detecting artificially generated information used by universities and other research institutions. A large dataset consisting of articles, abstracts, stories, news, and product reviews was created for this study. The second step is to use the newly created dataset to put six tools through their paces. Six different artificial intelligence (AI) text identification systems, including "GPTkit," "GPTZero," "Originality," "Sapling," "Writer," and "Zylalab," have accuracy rates between 55.29 and 97.0%. Although all the tools fared well in the evaluations, originality was particularly effective across the board.
翻訳日:2023-10-08 11:09:00 公開日:2023-09-27
# 隣接性とモジュラリティグラフ分割の関係

Relations Between Adjacency and Modularity Graph Partitioning ( http://arxiv.org/abs/1505.03481v3 )

ライセンス: Link先を確認
Hansi Jiang and Carl Meyer(参考訳) 本稿では,非正規化モジュラリティ行列の先頭固有ベクトルと隣接行列の固有ベクトルとの正確な線形関係について述べる。 本稿では,モジュラリティ行列の先頭固有ベクトルを近似する方法を提案し,近似の誤差を導出する。 また、正規化隣接クラスタリングと正規化モジュラリティクラスタリングの等価性の完全な証明もある。 数値実験により、正規化隣接クラスタリングは正規化モジュラリティクラスタリングの2倍効率的であることが示されている。

This paper develops the exact linear relationship between the leading eigenvector of the unnormalized modularity matrix and the eigenvectors of the adjacency matrix. We propose a method for approximating the leading eigenvector of the modularity matrix, and we derive the error of the approximation. There is also a complete proof of the equivalence between normalized adjacency clustering and normalized modularity clustering. Numerical experiments show that normalized adjacency clustering can be as twice efficient as normalized modularity clustering.
翻訳日:2023-10-02 19:56:38 公開日:2023-09-27
# 機械学習によるcovid-19後マルチオルガン障害の認識

Cognizance of Post-COVID-19 Multi-Organ Dysfunction through Machine Learning Analysis ( http://arxiv.org/abs/2309.16736v1 )

ライセンス: Link先を確認
Hector J. Castro, Maitham G. Yousif(参考訳) 2022年、イラク各都市から合計466人の患者がこの研究に参加した。 本研究は、covid-19後症候群(通称long covid)患者の多臓器機能障害の分析と予測に機械学習技術を適用したものである。 COVID-19後症候群は、様々な臓器システムに影響を及ぼす幅広い持続的な症状を示しており、医療にとって大きな課題となっている。 本研究は、人工知能の力を活用し、この複雑な状態の早期検出と管理を強化することを目的とする。 本稿は,データ収集と前処理,特徴選択とエンジニアリング,モデル開発と検証,およびこの分野の研究における倫理的考察の重要性を概説する。 機械学習によるcovid-19後症候群の理解を深めることで、医療提供者はリスクの高い個人を特定し、タイムリーな介入を行い、患者の成果と生活の質を改善することができる。 さらなる研究は、モデルを洗練し、臨床的有用性を検証し、Long COVIDの治療オプションを検討するために不可欠である。 キーワード:ポスト新型コロナウイルス症候群、機械学習、多臓器機能障害、ヘルスケア、人工知能。

In the year 2022, a total of 466 patients from various cities across Iraq were included in this study. This research paper focuses on the application of machine learning techniques to analyse and predict multi-organ dysfunction in individuals experiencing Post-COVID-19 Syndrome, commonly known as Long COVID. Post-COVID-19 Syndrome presents a wide array of persistent symptoms affecting various organ systems, posing a significant challenge to healthcare. Leveraging the power of artificial intelligence, this study aims to enhance early detection and management of this complex condition. The paper outlines the importance of data collection and preprocessing, feature selection and engineering, model development and validation, and ethical considerations in conducting research in this field. By improving our understanding of Post-COVID-19 Syndrome through machine learning, healthcare providers can identify at-risk individuals and offer timely interventions, potentially improving patient outcomes and quality of life. Further research is essential to refine models, validate their clinical utility, and explore treatment options for Long COVID. Keywords: Post-COVID-19 Syndrome, Machine Learning, Multi-Organ Dysfunction, Healthcare, Artificial Intelligence.
翻訳日:2023-10-02 17:07:56 公開日:2023-09-27
# ディープラーニングアプリケーションのレジリエンス:分析と硬化技術に関する系統的研究

Resilience of Deep Learning applications: a systematic survey of analysis and hardening techniques ( http://arxiv.org/abs/2309.16733v1 )

ライセンス: Link先を確認
Cristiana Bolchini, Luca Cassano, Antonio Miele(参考訳) 機械学習(ML)は現在、視覚や自律システムなど、さまざまな分野で使用されている最も効果的な人工知能(AI)技術の1つとして、多くのアプリケーションで利用されています。 この傾向は、基盤となるハードウェアに影響を及ぼす障害に対して、MLアプリケーションの分析と設計に多大な貢献をした。 筆者らは、この文献ストリームの強みと弱みを明確に示し、今後の研究の道筋を立案した思慮深いレビューを通じて、ハードウェア障害に対するディープラーニング(とML技術)のレジリエンスに関する既存の知識体系を体系的に検討する。 このレビューは、2019年1月から2023年3月までに発行された163の科学論文に基づいている。 著者らは,研究の類似点と特異点の解釈と強調を行うための分類枠組みを,本研究の主目的から,導入された故障モデルとエラーモデル,再現性に至るまで,いくつかのパラメータに基づいて採用している。 このフレームワークは、異なるソリューションと可能なシナジーの識別を比較することができる。 また,今後の研究の方向性について,オープン課題の形で提案する。

Machine Learning (ML) is currently being exploited in numerous applications being one of the most effective Artificial Intelligence (AI) technologies, used in diverse fields, such as vision, autonomous systems, and alike. The trend motivated a significant amount of contributions to the analysis and design of ML applications against faults affecting the underlying hardware. The authors investigate the existing body of knowledge on Deep Learning (among ML techniques) resilience against hardware faults systematically through a thoughtful review in which the strengths and weaknesses of this literature stream are presented clearly and then future avenues of research are set out. The review is based on 163 scientific articles published between January 2019 and March 2023. The authors adopt a classifying framework to interpret and highlight research similarities and peculiarities, based on several parameters, starting from the main scope of the work, the adopted fault and error models, to their reproducibility. This framework allows for a comparison of the different solutions and the identification of possible synergies. Furthermore, suggestions concerning the future direction of research are proposed in the form of open challenges to be addressed.
翻訳日:2023-10-02 17:07:37 公開日:2023-09-27
# 説明可能な機械学習に基づく糖尿病性腎症予測モデル

Explainable machine learning-based prediction model for diabetic nephropathy ( http://arxiv.org/abs/2309.16730v1 )

ライセンス: Link先を確認
Jing-Mei Yin, Yang Li, Jun-Tang Xue, Guo-Wei Zong, Zhong-Ze Fang, and Lang Zou(参考訳) 本研究の目的は, 糖尿病性腎症 (DN) に対する血清代謝物の影響を解析し, 機械学習を用いてDNの有病率を予測することである。 データセットは、2018年4月から2019年4月まで、大連医科大学第二附属病院(SAHDMU)で548人の患者で構成されている。 最小絶対収縮・選択演算子(LASSO)回帰モデルと10倍のクロスバリデーションにより最適38個の特徴を選定する。 我々は,eXtreme Gradient Boosting (XGB),ランダムフォレスト,決定木,ロジスティック回帰の4つの機械学習アルゴリズムを,AUC-ROC曲線,決定曲線,キャリブレーション曲線で比較した。 shapley additive explanations (shap) 法による最適予測モデルにおける特徴量と相互作用効果を定量化する。 xgbモデルは、最大auc値0.966のdnで画面表示に最適な性能を持つ。 XGBモデルは、他のモデルよりも臨床効果が高く、適合度も良い。 さらに、血清代謝物と糖尿病の持続時間の間には大きな相互作用がある。 我々は,DN をスクリーニングする XGB アルゴリズムによる予測モデルを開発した。 C2、C5DC、Tyr、Ser、Met、C24、C4DC、Cysはこのモデルに多大な貢献をしている。

The aim of this study is to analyze the effect of serum metabolites on diabetic nephropathy (DN) and predict the prevalence of DN through a machine learning approach. The dataset consists of 548 patients from April 2018 to April 2019 in Second Affiliated Hospital of Dalian Medical University (SAHDMU). We select the optimal 38 features through a Least absolute shrinkage and selection operator (LASSO) regression model and a 10-fold cross-validation. We compare four machine learning algorithms, including eXtreme Gradient Boosting (XGB), random forest, decision tree and logistic regression, by AUC-ROC curves, decision curves, calibration curves. We quantify feature importance and interaction effects in the optimal predictive model by Shapley Additive exPlanations (SHAP) method. The XGB model has the best performance to screen for DN with the highest AUC value of 0.966. The XGB model also gains more clinical net benefits than others and the fitting degree is better. In addition, there are significant interactions between serum metabolites and duration of diabetes. We develop a predictive model by XGB algorithm to screen for DN. C2, C5DC, Tyr, Ser, Met, C24, C4DC, and Cys have great contribution in the model, and can possibly be biomarkers for DN.
翻訳日:2023-10-02 17:07:18 公開日:2023-09-27
# SimPINNs:非線形逆問題の性能向上のためのシミュレーション駆動物理インフォームドニューラルネットワーク

SimPINNs: Simulation-Driven Physics-Informed Neural Networks for Enhanced Performance in Nonlinear Inverse Problems ( http://arxiv.org/abs/2309.16729v1 )

ライセンス: Link先を確認
Sidney Besnard, Fr\'ed\'eric Jurie (UNICAEN), Jalal M. Fadili (NU, ENSICAEN, GREYC)(参考訳) 本稿では,ディープラーニング技術を活用した逆問題に対する新しい解法を提案する。 目的は、観測データに基づいて物理システムを管理する未知のパラメータを推論することである。 基礎となるフォワードモデルが顕著な非線形挙動を示し、未知のパラメータ空間の次元が観測の次元よりもかなり小さいシナリオに焦点を当てる。 提案手法は,観測データと既知(近似)物理モデルにより生成されたシミュレーションデータを組み合わせたハイブリッド損失関数を用いて訓練された物理情報ニューラルネットワーク(PINN)に基づく。 軌道復元問題における実験結果から,本手法は標準ピンの性能を上回っており,精度とロバスト性が向上した。

This paper introduces a novel approach to solve inverse problems by leveraging deep learning techniques. The objective is to infer unknown parameters that govern a physical system based on observed data. We focus on scenarios where the underlying forward model demonstrates pronounced nonlinear behaviour, and where the dimensionality of the unknown parameter space is substantially smaller than that of the observations. Our proposed method builds upon physics-informed neural networks (PINNs) trained with a hybrid loss function that combines observed data with simulated data generated by a known (approximate) physical model. Experimental results on an orbit restitution problem demonstrate that our approach surpasses the performance of standard PINNs, providing improved accuracy and robustness.
翻訳日:2023-10-02 17:06:55 公開日:2023-09-27
# DTC:Deep Tracking Control -- Versatile and Robust Locomotionのためのモデルベース計画と強化学習への統一的アプローチ

DTC: Deep Tracking Control -- A Unifying Approach to Model-Based Planning and Reinforcement-Learning for Versatile and Robust Locomotion ( http://arxiv.org/abs/2309.15462v1 )

ライセンス: Link先を確認
Fabian Jenelten, Junzhe He, Farbod Farshidian, Marco Hutter(参考訳) レッグドロコモーションは複雑な制御問題であり、現実世界の課題に対処するために正確性と堅牢性の両方を必要とする。 レッグドシステムは従来、軌道最適化と逆ダイナミクスを用いて制御されてきた。 このような階層的モデルに基づく手法は、直感的なコスト関数チューニング、正確な計画、そして最も重要なのは、10年以上にわたる広範な研究から得られた洞察に富んだ理解によって魅力的である。 しかし、モデルミスマッチや仮定の違反は、誤動作の一般的な原因であり、sim-to-real転送の成功を妨げる可能性がある。 一方,シミュレーションに基づく強化学習は,前例のないロバスト性とリカバリスキルを備えた移動政策をもたらす。 しかし、すべての学習アルゴリズムは、ギャップや踏み石など、有効な足場が稀な環境から生まれる、まばらな報酬に苦しむ。 本研究では,両世界の強固性,足の配置精度,地形の一般化を同時に達成するためのハイブリッド制御アーキテクチャを提案する。 本手法では,モデルベースプランナを用いて,トレーニング中に参照動作をロールアウトする。 ディープニューラルネットワークポリシは、最適化された足場を追跡するために、シミュレーションでトレーニングされる。 純粋なデータ駆動手法が失敗しがちであるスパースな地形における移動パイプラインの精度を評価する。 さらに, モデルベースに比べてすべりや変形性を有する地盤の存在において, 優れた強靭性を示す。 最後に,提案したトラッキングコントローラは,トレーニング中に見つからない様々な軌道最適化手法を一般化することを示す。 結論として,オンラインプランニングの予測能力と最適性保証と,オフライン学習による本質的な堅牢性とを両立させる。

Legged locomotion is a complex control problem that requires both accuracy and robustness to cope with real-world challenges. Legged systems have traditionally been controlled using trajectory optimization with inverse dynamics. Such hierarchical model-based methods are appealing due to intuitive cost function tuning, accurate planning, and most importantly, the insightful understanding gained from more than one decade of extensive research. However, model mismatch and violation of assumptions are common sources of faulty operation and may hinder successful sim-to-real transfer. Simulation-based reinforcement learning, on the other hand, results in locomotion policies with unprecedented robustness and recovery skills. Yet, all learning algorithms struggle with sparse rewards emerging from environments where valid footholds are rare, such as gaps or stepping stones. In this work, we propose a hybrid control architecture that combines the advantages of both worlds to simultaneously achieve greater robustness, foot-placement accuracy, and terrain generalization. Our approach utilizes a model-based planner to roll out a reference motion during training. A deep neural network policy is trained in simulation, aiming to track the optimized footholds. We evaluate the accuracy of our locomotion pipeline on sparse terrains, where pure data-driven methods are prone to fail. Furthermore, we demonstrate superior robustness in the presence of slippery or deformable ground when compared to model-based counterparts. Finally, we show that our proposed tracking controller generalizes across different trajectory optimization methods not seen during training. In conclusion, our work unites the predictive capabilities and optimality guarantees of online planning with the inherent robustness attributed to offline learning.
翻訳日:2023-10-02 17:06:43 公開日:2023-09-27
# Demographic Parity: リアルタイムデータにおけるバイアスの軽減

Demographic Parity: Mitigating Biases in Real-World Data ( http://arxiv.org/abs/2309.17347v1 )

ライセンス: Link先を確認
Orestis Loukas, Ho-Ryun Chung(参考訳) コンピュータベースの意思決定システムは、雇用、融資、さらには刑事判決など、日常生活の多くの面で意思決定を自動化するために広く利用されている。 意思決定パイプラインは、モデルトレーニングのために、大量の実世界データに大きく依存しています。 しかしながら、過去のトレーニングデータは、しばしば、コンピュータベースの決定に影響を与える訓練されたモデルに伝播する性別、人種、その他のバイアスを含んでいる。 本研究では,分類ユーティリティを最大に保ちながら,望ましくないバイアスの除去を保証する頑健な方法論を提案する。 我々のアプローチは、人口統計学とリアリズムを一意にエンコードする漸近的データセットを現実世界のデータから導き出すことで、常にモデルに依存しない方法でこれを達成することができる。 本研究は, 一般国勢調査記録から合成サンプルを生成可能な漸近データセットを推定し, 確立された分類器を訓練する。 合成データに基づいて学習したこれらの分類器の一般化能力をベンチマークし、コンピュータ支援決定における明示的あるいは暗黙的な偏見がないことを確認する。

Computer-based decision systems are widely used to automate decisions in many aspects of everyday life, which include sensitive areas like hiring, loaning and even criminal sentencing. A decision pipeline heavily relies on large volumes of historical real-world data for training its models. However, historical training data often contains gender, racial or other biases which are propagated to the trained models influencing computer-based decisions. In this work, we propose a robust methodology that guarantees the removal of unwanted biases while maximally preserving classification utility. Our approach can always achieve this in a model-independent way by deriving from real-world data the asymptotic dataset that uniquely encodes demographic parity and realism. As a proof-of-principle, we deduce from public census records such an asymptotic dataset from which synthetic samples can be generated to train well-established classifiers. Benchmarking the generalization capability of these classifiers trained on our synthetic data, we confirm the absence of any explicit or implicit bias in the computer-aided decision.
翻訳日:2023-10-02 12:54:56 公開日:2023-09-27
# 重畳有限状態機械の高次微分

Higher-order Derivatives of Weighted Finite-state Machines ( http://arxiv.org/abs/2106.00749v2 )

ライセンス: Link先を確認
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 重み付き有限状態機械はNLPシステムの基本的な構成要素である。 彼らは、1990年代にノイズの多いチャネルモデルで初期の使用から、現代のニューラルなパラメータ化条件付きランダムフィールドまで、時間の試験を再考した。 本研究では,重み付き有限状態機械の正規化定数に関する高次導関数の計算について検討する。 文献に記載されていないすべての順序の導関数を評価するための一般アルゴリズムを提案する。 2階微分の場合、我々のスキームは最適な$\mathcal{O}(A^2 N^4)$時間で実行され、$A$はアルファベットサイズ、$N$は状態の数である。 我々のアルゴリズムは以前のアルゴリズムよりはるかに高速である。 さらに,本手法により,共分散行列や一階期待勾配などの2階期待値を計算するアルゴリズムが大幅に高速化される。

Weighted finite-state machines are a fundamental building block of NLP systems. They have withstood the test of time -- from their early use in noisy channel models in the 1990s up to modern-day neurally parameterized conditional random fields. This work examines the computation of higher-order derivatives with respect to the normalization constant for weighted finite-state machines. We provide a general algorithm for evaluating derivatives of all orders, which has not been previously described in the literature. In the case of second-order derivatives, our scheme runs in the optimal $\mathcal{O}(A^2 N^4)$ time where $A$ is the alphabet size and $N$ is the number of states. Our algorithm is significantly faster than prior algorithms. Additionally, our approach leads to a significantly faster algorithm for computing second-order expectations, such as covariance matrices and gradients of first-order expectations.
翻訳日:2023-09-29 23:34:02 公開日:2023-09-27
# 階層的注意に基づく年齢推定とバイアス推定

Hierarchical Attention-based Age Estimation and Bias Estimation ( http://arxiv.org/abs/2103.09882v2 )

ライセンス: Link先を確認
Shakediel Hiba and Yosi Keller(参考訳) 本研究では,顔画像に基づく年齢推定のための新しい深層学習手法を提案する。 まず,注意に基づく2重画像拡張集約手法を提案する。 これにより、ネットワークはトランスフォーマーエンコーダによって埋め込みが集約された複数の顔画像拡張を共同で利用することができる。 結果として得られる集約埋め込みは、顔画像属性をよりよくエンコードするように示される。 次に,年齢ラベルの離散的確率的推定と対応する回帰因子のアンサンブルを組み合わせた確率的階層的回帰フレームワークを提案する。 それぞれのレグレッサーは特に適応され、様々な年齢の確率的推定を洗練するように訓練されている。 提案手法は, 年齢推定のためのMORPH IIデータセットに適用した場合, 現代手法より優れ, 最先端の年齢推定精度が向上することが示されている。 最後に,最先端年齢推定結果のバイアス分析を紹介する。

In this work we propose a novel deep-learning approach for age estimation based on face images. We first introduce a dual image augmentation-aggregation approach based on attention. This allows the network to jointly utilize multiple face image augmentations whose embeddings are aggregated by a Transformer-Encoder. The resulting aggregated embedding is shown to better encode the face image attributes. We then propose a probabilistic hierarchical regression framework that combines a discrete probabilistic estimate of age labels, with a corresponding ensemble of regressors. Each regressor is particularly adapted and trained to refine the probabilistic estimate over a range of ages. Our scheme is shown to outperform contemporary schemes and provide a new state-of-the-art age estimation accuracy, when applied to the MORPH II dataset for age estimation. Last, we introduce a bias analysis of state-of-the-art age estimation results.
翻訳日:2023-09-29 23:33:46 公開日:2023-09-27
# 無限ニューラルネットワーク量子状態:絡み合いとトレーニングダイナミクス

Infinite Neural Network Quantum States: Entanglement and Training Dynamics ( http://arxiv.org/abs/2112.00723v2 )

ライセンス: Link先を確認
Di Luo and James Halverson(参考訳) 我々は,アンサンブル統計を通じて表現力を示すニューラルネットワーク量子状態の無限限界(約$-nnqs)と,扱いやすい勾配降下ダイナミクスについて検討する。 Renyiエントロピーのアンサンブル平均はニューラルネットワークのコレレーターで表現され、ボリューム・ローの絡み合いを示すアーキテクチャが提示される。 ニューラルネットワーク量子状態の勾配降下ダイナミクス(nnqs)を量子状態神経接核(qs-ntk)を用いて研究するための汎用フレームワークを開発した。 QS-NTK は決定論的かつ定数となるので、$\infty$-NNQS のトレーニングダイナミクスは単純化される。 解析解は量子状態教師付き学習のために導出され、$\infty$-NNQSは任意のターゲット波動関数を回復することができる。 横場イジングモデルとフェルミ・ハバードモデルにおける有限および無限NNQSに関する数値実験は理論との良好な一致を示す。 高い$-nnqsは、基底状態の発見など、他の物理学応用における絡み合いやトレーニングダイナミクスを研究する新しい機会を開く。

We study infinite limits of neural network quantum states ($\infty$-NNQS), which exhibit representation power through ensemble statistics, and also tractable gradient descent dynamics. Ensemble averages of Renyi entropies are expressed in terms of neural network correlators, and architectures that exhibit volume-law entanglement are presented. A general framework is developed for studying the gradient descent dynamics of neural network quantum states (NNQS), using a quantum state neural tangent kernel (QS-NTK). For $\infty$-NNQS the training dynamics is simplified, since the QS-NTK becomes deterministic and constant. An analytic solution is derived for quantum state supervised learning, which allows an $\infty$-NNQS to recover any target wavefunction. Numerical experiments on finite and infinite NNQS in the transverse field Ising model and Fermi Hubbard model demonstrate excellent agreement with theory. $\infty$-NNQS opens up new opportunities for studying entanglement and training dynamics in other physics applications, such as in finding ground states.
翻訳日:2023-09-29 23:25:46 公開日:2023-09-27
# 帰納的説明の公理的集約

Axiomatic Aggregations of Abductive Explanations ( http://arxiv.org/abs/2109.03890v5 )

ライセンス: Link先を確認
Gagan Biradar, Yacine Izza, Elita Lobo, Vignesh Viswanathan, Yair Zick(参考訳) ポストホックモデル近似法(LIMEやSHAPなど)のロバスト性に対する最近の批判は、モデル精度の導出的説明の台頭につながっている。 データポイントごとに、帰納的説明は結果を生成するのに十分な機能の最小限のサブセットを提供する。 理論上、健全で厳格な、誘惑的な説明は大きな問題に悩まされるが、同じデータポイントに対していくつかの有効な誘惑的な説明がある。 そのような場合、単一の帰納的説明を提供することは不十分であり、一方、有効な帰納的説明を提供することは、その大きさのため理解できない。 本研究では,この課題を,多量の帰納的説明を特徴量スコアに集約することで解決する。 本研究では,協調ゲーム理論のパワー指標に基づく2つの集計法と,既知の因果強度尺度に基づく3つの集計法を提案する。 これら3つの手法を公理的に特徴づけ、それぞれが一意に望ましい性質の集合を満たすことを示す。 また、複数のデータセット上で評価し、これらの説明がSHAPやLIMEを騙す攻撃に対して堅牢であることを示す。

The recent criticisms of the robustness of post hoc model approximation explanation methods (like LIME and SHAP) have led to the rise of model-precise abductive explanations. For each data point, abductive explanations provide a minimal subset of features that are sufficient to generate the outcome. While theoretically sound and rigorous, abductive explanations suffer from a major issue -- there can be several valid abductive explanations for the same data point. In such cases, providing a single abductive explanation can be insufficient; on the other hand, providing all valid abductive explanations can be incomprehensible due to their size. In this work, we solve this issue by aggregating the many possible abductive explanations into feature importance scores. We propose three aggregation methods: two based on power indices from cooperative game theory and a third based on a well-known measure of causal strength. We characterize these three methods axiomatically, showing that each of them uniquely satisfies a set of desirable properties. We also evaluate them on multiple datasets and show that these explanations are robust to the attacks that fool SHAP and LIME.
翻訳日:2023-09-29 23:25:29 公開日:2023-09-27
# 最大最悪ケースリプシッツパラメータを用いたプライベート確率最適化:(非スムース)凸損失の最適速度と非凸損失への拡張

Private Stochastic Optimization With Large Worst-Case Lipschitz Parameter: Optimal Rates for (Non-Smooth) Convex Losses and Extension to Non-Convex Losses ( http://arxiv.org/abs/2209.07403v4 )

ライセンス: Link先を確認
Andrew Lowy, Meisam Razaviyayn(参考訳) すべてのデータ点のリプシッツパラメータが極めて大きい損失関数を持つ差分プライベート (dp) 確率最適化 (so) について検討した。 現在、DP SOに関するほとんどの研究は、損失はデータ上の一様リプシッツ連続である(すなわち、確率勾配はすべてのデータ点上で一様に境界づけられている)と仮定している。 この仮定は便利であるが、しばしば悲観的な過剰なリスク境界をもたらす。 多くの実践的な問題において、すべてのデータポイントに対する損失の最悪の(一様)リプシッツパラメータは、異常値のため非常に大きい。 このような場合、損失の最悪のリプシッツパラメータでスケールするDP SOの誤差境界は空である。 これらの制限に対処するため、この研究は損失の均一なリプシッツパラメータに依存しない最適超過リスク境界を提供する。 最近の研究(Wang et al., 2020; Kamath et al., 2022)に基づいて構築された確率勾配は、約$k \geq 2$に対して$k$-次モーメントを束縛したと仮定する。 均一なリプシッツdpの作業と比較すると、損失の均一なリプシッツパラメータではなく、k$-th モーメントバウンドで過大なリスクがスケールし、異常値や重み付きデータの存在下での速度が大幅に速くなります。 凸および強い凸損失関数に対しては、最初の漸近的に最適な超過リスク境界(対数係数まで)を提供する。 Wang et al., 2020; Kamath et al., 2022)とは対照的に、我々の境界は損失関数を微分可能/滑らかにする必要がない。 また,特定のパラメーター条件で厳密な過大なリスクを持つスムーズな損失に対する線形時間アルゴリズムを考案する。 さらに、我々の研究は、近近偏pl不等式を満たす非凸非一様リプシッツ損失関数に最初に対処した。 近位plアルゴリズムは、ほぼ最適超過リスクを有する。

We study differentially private (DP) stochastic optimization (SO) with loss functions whose worst-case Lipschitz parameter over all data points may be extremely large. To date, the vast majority of work on DP SO assumes that the loss is uniformly Lipschitz continuous over data (i.e. stochastic gradients are uniformly bounded over all data points). While this assumption is convenient, it often leads to pessimistic excess risk bounds. In many practical problems, the worst-case (uniform) Lipschitz parameter of the loss over all data points may be extremely large due to outliers. In such cases, the error bounds for DP SO, which scale with the worst-case Lipschitz parameter of the loss, are vacuous. To address these limitations, this work provides near-optimal excess risk bounds that do not depend on the uniform Lipschitz parameter of the loss. Building on a recent line of work (Wang et al., 2020; Kamath et al., 2022), we assume that stochastic gradients have bounded $k$-th order moments for some $k \geq 2$. Compared with works on uniformly Lipschitz DP SO, our excess risk scales with the $k$-th moment bound instead of the uniform Lipschitz parameter of the loss, allowing for significantly faster rates in the presence of outliers and/or heavy-tailed data. For convex and strongly convex loss functions, we provide the first asymptotically optimal excess risk bounds (up to a logarithmic factor). In contrast to (Wang et al., 2020; Kamath et al., 2022), our bounds do not require the loss function to be differentiable/smooth. We also devise a linear-time algorithm for smooth losses that has excess risk that is tight in certain practical parameter regimes. Additionally, our work is the first to address non-convex non-uniformly Lipschitz loss functions satisfying the Proximal-PL inequality; this covers some practical machine learning models. Our Proximal-PL algorithm has near-optimal excess risk.
翻訳日:2023-09-29 23:19:10 公開日:2023-09-27
# 公正な機械学習のための哲学的フレームワークの開発--アルゴリズム的衝突の事例から

Developing a Philosophical Framework for Fair Machine Learning: Lessons From The Case of Algorithmic Collusion ( http://arxiv.org/abs/2208.06308v2 )

ライセンス: Link先を確認
James Michelson(参考訳) 公正な機械学習の研究は、主に差別をもたらす分類タスクに関係している。 しかし、機械学習アルゴリズムが新しい文脈に適用されるにつれて、結果が現在研究されているものと質的に異なる影響と不一致が生じる。 メトリクスや公平性の定義を開発する機械学習の既存の研究パラダイムは、これらの質的に異なるタイプの不正を説明できない。 この例の1つは、アルゴリズム的共謀と市場公正性の問題である。 アルゴリズム的結束の負の結果は、保護されたクラスの特定のメンバーだけでなく、すべての消費者に影響を与える。 本稿では,機械学習の研究者や実践者を対象に,新たな領域に広がる公正度指標の開発と適用を目的とした倫理的枠組みを提案する。 この貢献はフェアネスの形式的指標の開発と、特に対象とする規範的原則とを結びつけている。 これにより、公平度メトリクスは差別から異なる関心事を反映できる。 私の提案の限界で締めくくり、今後の研究に期待できる道について話し合います。

Fair machine learning research has been primarily concerned with classification tasks that result in discrimination. However, as machine learning algorithms are applied in new contexts the harms and injustices that result are qualitatively different than those presently studied. The existing research paradigm in machine learning which develops metrics and definitions of fairness cannot account for these qualitatively different types of injustice. One example of this is the problem of algorithmic collusion and market fairness. The negative consequences of algorithmic collusion affect all consumers, not only particular members of a protected class. Drawing on this case study, I propose an ethical framework for researchers and practitioners in machine learning seeking to develop and apply fairness metrics that extends to new domains. This contribution ties the development of formal metrics of fairness to specifically scoped normative principles. This enables fairness metrics to reflect different concerns from discrimination. I conclude with the limitations of my proposal and discuss promising avenues for future research.
翻訳日:2023-09-29 23:17:23 公開日:2023-09-27
# 会話における個人エンティティ、概念、名前付きエンティティリンク

Personal Entity, Concept, and Named Entity Linking in Conversations ( http://arxiv.org/abs/2206.07836v3 )

ライセンス: Link先を確認
Hideaki Joko and Faegheh Hasibi(参考訳) 人間と自然で知識に基づく対話ができる会話エージェントを構築するには、ユーザの発話を理解する必要がある。 エンティティリンク(el)は、自然言語テキストを理解し、外部の知識とつなぐための効果的かつ広く使用される方法である。 しかし、文書の注釈付けのために開発された既存のELメソッドは会話に最適であり、個人(例えば「マイカー」)や概念がユーザの発話を理解するのに不可欠であることが示されている。 本稿では,会話におけるエンティティリンクのためのコレクションとツールを紹介する。 我々は、名前付きエンティティ、概念、個人エンティティへのリンクからなる会話発話1327件のELアノテーションを収集する。 このデータセットは、対話型エンティティリンクであるCRELのためのツールキットのトレーニングに使用される。 既存のELメソッドとは異なり、CRELは名前付きエンティティと概念の両方を識別するために開発されている。 また、コア参照解決技術を使用して、会話で言及された明示的なエンティティへの個人エンティティと参照を識別する。 CRELと最先端技術を比較し、既存のすべてのベースラインより優れていることを示す。

Building conversational agents that can have natural and knowledge-grounded interactions with humans requires understanding user utterances. Entity Linking (EL) is an effective and widely used method for understanding natural language text and connecting it to external knowledge. It is, however, shown that existing EL methods developed for annotating documents are suboptimal for conversations, where personal entities (e.g., "my cars") and concepts are essential for understanding user utterances. In this paper, we introduce a collection and a tool for entity linking in conversations. We collect EL annotations for 1327 conversational utterances, consisting of links to named entities, concepts, and personal entities. The dataset is used for training our toolkit for conversational entity linking, CREL. Unlike existing EL methods, CREL is developed to identify both named entities and concepts. It also utilizes coreference resolution techniques to identify personal entities and references to the explicit entity mentions in the conversations. We compare CREL with state-of-the-art techniques and show that it outperforms all existing baselines.
翻訳日:2023-09-29 23:17:11 公開日:2023-09-27
# S.D.E.パスのマルチクラス分類のためのノンパラメトリックプラグイン分類器

Nonparametric plug-in classifier for multiclass classification of S.D.E. paths ( http://arxiv.org/abs/2212.10259v2 )

ライセンス: Link先を確認
Christophe Denis, Charlotte Dion-Blanc, Eddy Ella Mintsa and Viet-Chi Tran(参考訳) 時間均質拡散の混合から特徴を導出する多クラス分類問題について検討する。 具体的には、クラスはドリフト関数によって判別され、拡散係数はすべてのクラスに共通で未知である。 本研究では,ドリフトと拡散関数の非パラメトリック推定器に依存するプラグイン分類器を構築する。 まず, 穏やかな仮定の下での分類手順の整合性を確立し, 異なる前提条件下での検証率を提供する。 最後に,数値的研究によって理論的知見が得られた。

We study the multiclass classification problem where the features come from the mixture of time-homogeneous diffusions. Specifically, the classes are discriminated by their drift functions while the diffusion coefficient is common to all classes and unknown. In this framework, we build a plug-in classifier which relies on nonparametric estimators of the drift and diffusion functions. We first establish the consistency of our classification procedure under mild assumptions and then provide rates of cnvergence under different set of assumptions. Finally, a numerical study supports our theoretical findings.
翻訳日:2023-09-29 23:08:02 公開日:2023-09-27
# qdtrack: 外観のみの複数物体追跡のための擬似類似性学習

QDTrack: Quasi-Dense Similarity Learning for Appearance-Only Multiple Object Tracking ( http://arxiv.org/abs/2210.06984v2 )

ライセンス: Link先を確認
Tobias Fischer, Thomas E. Huang, Jiangmiao Pang, Linlu Qiu, Haofeng Chen, Trevor Darrell, Fisher Yu(参考訳) 類似性学習は、オブジェクト追跡の重要なステップとして認識されている。 しかしながら、既存の複数のオブジェクト追跡手法では、画像内の情報領域の大部分を無視しながら、トレーニング対象としてスパースな基底真理マッチングのみを使用する。 本稿では,コントラスト学習のために,一対のイメージ上に数百のオブジェクト領域を密集した擬似Dense類似性学習を提案する。 この類似性学習と既存の複数の物体検出器を組み合わせることで、変位回帰や運動前兆を必要としない準拡散追跡(qdtrack)を構築する。 得られた特徴空間は、オブジェクトアソシエーションの推論時間において、単純な近接探索を許容する。 さらに,我々の類似性学習方式はビデオデータに限らず,静的入力からでも効果的なインスタンス類似性を学習できることを示す。 我々は、様々なMOTベンチマークで広範な実験を行う。 単純さにもかかわらず、QDTrackはすべてのベンチマークで最先端のトラッキング手法の性能に匹敵し、大規模なBDD100K MOTベンチマークに新しい最先端の手法をセットし、検出器に無視可能な計算オーバーヘッドを導入している。

Similarity learning has been recognized as a crucial step for object tracking. However, existing multiple object tracking methods only use sparse ground truth matching as the training objective, while ignoring the majority of the informative regions in images. In this paper, we present Quasi-Dense Similarity Learning, which densely samples hundreds of object regions on a pair of images for contrastive learning. We combine this similarity learning with multiple existing object detectors to build Quasi-Dense Tracking (QDTrack), which does not require displacement regression or motion priors. We find that the resulting distinctive feature space admits a simple nearest neighbor search at inference time for object association. In addition, we show that our similarity learning scheme is not limited to video data, but can learn effective instance similarity even from static input, enabling a competitive tracking performance without training on videos or using tracking supervision. We conduct extensive experiments on a wide variety of popular MOT benchmarks. We find that, despite its simplicity, QDTrack rivals the performance of state-of-the-art tracking methods on all benchmarks and sets a new state-of-the-art on the large-scale BDD100K MOT benchmark, while introducing negligible computational overhead to the detector.
翻訳日:2023-09-29 23:05:18 公開日:2023-09-27
# トポロジカルデータ分析における量子アドバンテージの分析

Analyzing Prospects for Quantum Advantage in Topological Data Analysis ( http://arxiv.org/abs/2209.13581v3 )

ライセンス: Link先を確認
Dominic W. Berry, Yuan Su, Casper Gyurik, Robbie King, Joao Basso, Alexander Del Toro Barba, Abhishek Rajput, Nathan Wiebe, Vedran Dunjko and Ryan Babbush(参考訳) ロイドらは、データセットの位相的特徴を特徴づける方法であるベッチ数を計算するための量子アルゴリズムの可能性を最初に示した。 本稿では,不等式テストに基づくディッケ状態の生成法,カイザー窓を用いたより効率的な振幅推定法,チェビシェフ多項式に基づく固有値プロジェクタの最適実装を含む,縮小スケーリングによる位相データ解析(tda)のための改良量子アルゴリズムを提案し,解析し,最適化する。 我々はフォールトトレラントゲート集合へのアプローチをコンパイルし、トッフォリ複雑性の定数因子を推定する。 解析の結果,乗法誤差近似とベッチ数が漸近的に増大する場合に,超二次量子スピードアップはこの問題に対してのみ可能であることがわかった。 さらに, 指数的に大きな次元とベッチ数を持つことは必要だが, 超ポリノミカル・アドバンテージのためには不十分であることを示す量子TDAアルゴリズムの定式化を提案する。 次に,超多項的優位性が達成されるようなシステムにおいてパラメータを持つ特定の問題例を紹介し解析し,数十億の toffoli ゲートを持つ量子回路は古典的に難解なインスタンスを解くことができると主張する。

Lloyd et al. were first to demonstrate the promise of quantum algorithms for computing Betti numbers, a way to characterize topological features of data sets. Here, we propose, analyze, and optimize an improved quantum algorithm for topological data analysis (TDA) with reduced scaling, including a method for preparing Dicke states based on inequality testing, a more efficient amplitude estimation algorithm using Kaiser windows, and an optimal implementation of eigenvalue projectors based on Chebyshev polynomials. We compile our approach to a fault-tolerant gate set and estimate constant factors in the Toffoli complexity. Our analysis reveals that super-quadratic quantum speedups are only possible for this problem when targeting a multiplicative error approximation and the Betti number grows asymptotically. Further, we propose a dequantization of the quantum TDA algorithm that shows that having exponentially large dimension and Betti number are necessary, but insufficient conditions, for super-polynomial advantage. We then introduce and analyze specific problem examples which have parameters in the regime where super-polynomial advantages may be achieved, and argue that quantum circuits with tens of billions of Toffoli gates can solve seemingly classically intractable instances.
翻訳日:2023-09-29 23:04:55 公開日:2023-09-27
# 散逸結合したカスケード光機械系の温度勾配と非対称定常相関

Temperature gradient and asymmetric steady state correlations in dissipatively coupled cascaded optomechanical systems ( http://arxiv.org/abs/2302.00698v2 )

ライセンス: Link先を確認
Claudio Pellitteri, G.Massimo Palma and Salvatore Lorenzo(参考訳) 光学系における光モードと放射圧による機械振動子の相互作用は、量子技術における多数の応用に優れたプラットフォームである。 本研究では,一方向の導波路と散逸的に相互作用する一対の光力学系のダイナミクスについて検討する。 キャビティモードを分離的に除去できる構造に着目して,2つのメカニカルモード間の効果的なカップリングを導出し,過渡状態と定常状態の両方において確立された古典的・量子的相関を探索し,その非対称性を一方向結合によって強調し,一定量の定常相関が長期間に存在することを見出した。 さらに、この一方向結合は、周波数のずれに応じてミラー間の温度勾配を確立することを示す。 また、出力導波路のパワースペクトルを解析し、キラルカップリングにより、それぞれのミラーのスペクトルを再構成することが可能であることを示す。

The interaction between a light mode and a mechanical oscillator via radiation pressure in optomechanical systems is an excellent platform for a multitude of applications in quantum technologies. In this work we study the dynamics of a pair of optomechanical systems interacting dissipatively with a wave guide in a unidirectional way. Focusing on the regime where the cavity modes can be adiabatically eliminated we derive an effective coupling between the two mechanical modes and we explore both classical and quantum correlations established between the modes in both in the transient and in the stationary regime, highlighting their asymmmetrical nature due to the unidirectional coupling, and we find that a constant amount of steady correlations can exist at long times. Furthermore we show that this unidirectional coupling establishes a temperature gradient between the mirrors, depending on the frequencies' detuning. We additionally analyze the power spectrum of the output guide field and we show how, thanks to the chiral coupling, from such spectrum it is possible to reconstruct the spectra of each single mirror.
翻訳日:2023-09-29 22:57:11 公開日:2023-09-27
# 2モードエンタングルメントやスクイーズを伴わない2モード圧縮光実験の記述

Describing two-mode squeezed-light experiments without two-mode entanglement or squeezing ( http://arxiv.org/abs/2304.02417v2 )

ライセンス: Link先を確認
Tam\'iris R. Calixto and Pablo L. Saldanha(参考訳) 最近の作品[Phys]で. rev. a \textbf{102}, 053723 (2020)] では、単一モードの光スクイージングを生成および特徴付ける実験が、セットアップで単一モードのスクイージング状態が生成されない方法で説明できることが示されている。 ここでは、2モードの光スクイーズを発生・特徴付ける実験も、2モードの励起光状態を生成することなく説明できることを示した。 特に、信号とアイドラー `twin beam'' モードの間に絡み合いがないことを示す。 この設定は量子テレポーテーションのような絡み合った量子情報プロトコルを実装するために頻繁に使われるので、この事実は驚くかもしれない。 私たちの仕事は、その現象の別の見方をもたらす。 我々はルイスとサンチェス・ソトの2モード相対位相分布を一般化する。 A \textbf{53}, 495 (1996)] を4つのモードで処理し、実験におけるノイズ低減に関する一般的な物理的説明が、関連する4つの光学モード(信号、アイドラー、および2つの局所振動子)の位相関係のより良い定義であることを示す。

In a recent work [Phys. Rev. A \textbf{102}, 053723 (2020)] we have shown that experiments that produce and characterize single-mode light squeezing can be explained in a way where no single-mode squeezed light state is produced in the setup. Here we apply the same ideas to demonstrate that experiments that produce and characterize two-mode light squeezing can also be explained without the production of two-mode squeezed light states. In particular, we show that there is no entanglement between the signal and idler ``twin beam'' modes. This fact may be surprising, since this setup is frequently used to implement entangled-based quantum information protocols such as quantum teleportation. Our work brings an alternative view of the phenomenon. We generalize the Luis and S\'anchez-Soto's two-mode relative phase distribution [Phys. Rev. A \textbf{53}, 495 (1996)] to treat four modes, showing that a general physical explanation for the noise reduction in the experiments is a better definition of a phase relation among the four involved optical modes: Signal, idler, and two local oscillators.
翻訳日:2023-09-29 22:47:23 公開日:2023-09-27
# HACMan: 6次元非定常マニピュレーションのためのハイブリッドアクタクリティカルマップの学習

HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation ( http://arxiv.org/abs/2305.03942v3 )

ライセンス: Link先を確認
Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held(参考訳) 物を握らずに操作することは、人間の器用さに欠かせない要素であり、非理解的な操作と呼ばれる。 非包括的操作は、オブジェクトとのより複雑な相互作用を可能にするだけでなく、グリップとオブジェクトの相互作用を推論する際の課題も提示する。 本研究では,物体の6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。 HACManは、オブジェクトポイントクラウドから接触位置を選択することと、ロボットが接触した後どのように動くかを記述した一連の動きパラメータからなる、時間的に制限された空間的空間的なオブジェクト中心のアクション表現を提案する。 我々は、このハイブリッド離散連続アクション表現で学習するために、既存のオフポリチィRLアルゴリズムを変更した。 シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。 ランダム化された初期ポーズ,ランダム化された6d目標,多様なオブジェクトカテゴリを備えた最難のタスクでは,性能低下を伴わないオブジェクトカテゴリに対する強力な一般化が実証され,実世界でのゼロショット転送で89%の成功率と50%の成功率を達成した。 代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。 ゼロショットのsim2realトランスファーでは、動的かつ接触に富んだ非包括的スキルを用いて、現実の未確認物体をうまく操作できる。 ビデオはプロジェクトのwebサイト(https://hacman-2023.github.io)で見ることができる。

Manipulating objects without grasping them is an essential component of human dexterity, referred to as non-prehensile manipulation. Non-prehensile manipulation may enable more complex interactions with the objects, but also presents challenges in reasoning about gripper-object interactions. In this work, we introduce Hybrid Actor-Critic Maps for Manipulation (HACMan), a reinforcement learning approach for 6D non-prehensile manipulation of objects using point cloud observations. HACMan proposes a temporally-abstracted and spatially-grounded object-centric action representation that consists of selecting a contact location from the object point cloud and a set of motion parameters describing how the robot will move after making contact. We modify an existing off-policy RL algorithm to learn in this hybrid discrete-continuous action representation. We evaluate HACMan on a 6D object pose alignment task in both simulation and in the real world. On the hardest version of our task, with randomized initial poses, randomized 6D goals, and diverse object categories, our policy demonstrates strong generalization to unseen object categories without a performance drop, achieving an 89% success rate on unseen objects in simulation and 50% success rate with zero-shot transfer in the real world. Compared to alternative action representations, HACMan achieves a success rate more than three times higher than the best baseline. With zero-shot sim2real transfer, our policy can successfully manipulate unseen objects in the real world for challenging non-planar goals, using dynamic and contact-rich non-prehensile skills. Videos can be found on the project website: https://hacman-2023.github.io.
翻訳日:2023-09-29 22:38:03 公開日:2023-09-27
# 3次元オープンボキャブラリセグメンテーションについて

Weakly Supervised 3D Open-vocabulary Segmentation ( http://arxiv.org/abs/2305.14093v3 )

ライセンス: Link先を確認
Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu, Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu(参考訳) 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。 しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。 事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希薄化は、オープン語彙の特徴を損なう。 学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。 具体的には、シーン内のオブジェクトのオープンボキャブラリーなテキスト記述のみを考えると、クリップとdinoのオープンボキャブラリーなマルチモーダル知識とオブジェクト推論能力をニューラルラミアンスフィールド(nerf)に蒸留し、2d特徴を効果的にビュー一貫性のある3dセグメンテーションに引き上げる。 提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。 本手法は,特定の場面でセグメンテーションアノテーションを用いて訓練した教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。 コードは \url{https://github.com/kunhao-liu/3d-ovs} で入手できる。

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting pre-trained foundation models CLIP and DINO in a weakly supervised manner. Specifically, given only the open-vocabulary text descriptions of the objects in a scene, we distill the open-vocabulary multimodal knowledge and object reasoning capability of CLIP and DINO into a neural radiance field (NeRF), which effectively lifts 2D features into view-consistent 3D segmentation. A notable aspect of our approach is that it does not require any manual segmentation annotations for either the foundation models or the distillation process. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations in certain scenes, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs. Code is available at \url{https://github.com/Kunhao-Liu/3D-OVS}.
翻訳日:2023-09-29 22:26:49 公開日:2023-09-27
# 大規模言語モデルによるテキストデータセットの言語多様性の可視化

Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models ( http://arxiv.org/abs/2305.11364v2 )

ライセンス: Link先を確認
Emily Reif, Minsuk Kahng, Savvas Petridis(参考訳) 大規模言語モデル(LLM)は、ベンチマークや微調整、その他のユースケースのための数ショットプロンプトを通じて、より小さくより洗練されたデータセットを生成するために使用することができる。 しかし、これらのデータセットの理解と評価は困難であり、llm生成データの障害モードはまだよく分かっていない。 特に、データは、意味的にだけでなく、構文的にも、語彙的にも、驚くほど反復的です。 LLM生成したデータセットの構文的多様性を理解し解析するための新しい対話型可視化ツールLinguisticLensを提案する。 languagelensは、構文、語彙、セマンティック軸に沿ってテキストをクラスターする。 テキストデータセットの階層的な視覚化をサポートし、ユーザーは概要をすばやくスキャンし、個々の例を検査できる。 ライブデモは shorturl.at/zHOUV で公開されている。

Large language models (LLMs) can be used to generate smaller, more refined datasets via few-shot prompting for benchmarking, fine-tuning or other use cases. However, understanding and evaluating these datasets is difficult, and the failure modes of LLM-generated data are still not well understood. Specifically, the data can be repetitive in surprising ways, not only semantically but also syntactically and lexically. We present LinguisticLens, a novel inter-active visualization tool for making sense of and analyzing syntactic diversity of LLM-generated datasets. LinguisticLens clusters text along syntactic, lexical, and semantic axes. It supports hierarchical visualization of a text dataset, allowing users to quickly scan for an overview and inspect individual examples. The live demo is available at shorturl.at/zHOUV.
翻訳日:2023-09-29 22:25:16 公開日:2023-09-27
# 時間グラフを用いた機械学習のための時間グラフベンチマーク

Temporal Graph Benchmark for Machine Learning on Temporal Graphs ( http://arxiv.org/abs/2307.01026v2 )

ライセンス: Link先を確認
Shenyang Huang, Farimah Poursafaei, Jacob Danovitch, Matthias Fey, Weihua Hu, Emanuele Rossi, Jure Leskovec, Michael Bronstein, Guillaume Rabusseau, Reihaneh Rabbany(参考訳) 本稿では,時間グラフ上での機械学習モデルの現実的,再現性,ロバストな評価のための,挑戦的で多様なベンチマークデータセットのコレクションであるtemporal graph benchmark (tgb)を提案する。 TGBデータセットは大規模で、長年にわたって、ノードレベルの予測タスクとエッジレベルの予測タスクが組み込まれ、ソーシャル、トレード、トランザクション、トランスポートネットワークを含むさまざまなドメインをカバーする。 両方のタスクに対して,現実的なユースケースに基づいた評価プロトコルを設計する。 各データセットを広範囲にベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。 さらに,動的ノード特性予測タスクにおいて,既存の時相グラフモデルと比較して,単純な手法が優れた性能を実現することが多いことを示す。 これらの発見が今後の時間グラフ研究の機会を開くと信じている。 最後に、TGBはデータローディング、実験設定、パフォーマンス評価を含む再現可能でアクセスしやすい時間グラフ研究のための自動機械学習パイプラインを提供する。 TGBは定期的にメンテナンスおよび更新され、コミュニティからのフィードバックを歓迎する。 TGBデータセット、データローダ、サンプルコード、評価設定、リーダーボードはhttps://tgb.complexdatalab.com/で公開されている。

We present the Temporal Graph Benchmark (TGB), a collection of challenging and diverse benchmark datasets for realistic, reproducible, and robust evaluation of machine learning models on temporal graphs. TGB datasets are of large scale, spanning years in duration, incorporate both node and edge-level prediction tasks and cover a diverse set of domains including social, trade, transaction, and transportation networks. For both tasks, we design evaluation protocols based on realistic use-cases. We extensively benchmark each dataset and find that the performance of common models can vary drastically across datasets. In addition, on dynamic node property prediction tasks, we show that simple methods often achieve superior performance compared to existing temporal graph models. We believe that these findings open up opportunities for future research on temporal graphs. Finally, TGB provides an automated machine learning pipeline for reproducible and accessible temporal graph research, including data loading, experiment setup and performance evaluation. TGB will be maintained and updated on a regular basis and welcomes community feedback. TGB datasets, data loaders, example codes, evaluation setup, and leaderboards are publicly available at https://tgb.complexdatalab.com/.
翻訳日:2023-09-29 20:30:12 公開日:2023-09-27
# 自動運転のためのレーダー: ディープラーニング手法と課題のレビュー

Radars for Autonomous Driving: A Review of Deep Learning Methods and Challenges ( http://arxiv.org/abs/2306.09304v3 )

ライセンス: Link先を確認
Arvind Srivastav and Soumyajit Mandal(参考訳) Radarは、自動運転車の安全で信頼性の高いナビゲーションに使用される知覚センサースイートの重要なコンポーネントである。 その特徴は、高分解能の速度イメージング、隠蔽および長距離におけるエージェントの検出、悪天候下での堅牢な性能である。 しかし、レーダーデータの利用には、低解像度、疎度、乱雑、高い不確実性、優れたデータセットの欠如など、いくつかの課題がある。 これらの課題はレーダーディープラーニングの研究に制限がある。 結果として、現在のレーダーモデルは、レーダーデータに比較的弱い光学的特徴に焦点を当てたライダーや視覚モデルの影響を受け、レーダーの能力の過小評価と自律認識への貢献の低下をもたらす。 このレビューは、自律レーダーデータに関するさらなる深層学習研究を促進することを目的としている。 1)重要研究テーマの特定、及び 2)現場における現在の機会と課題を総合的に概観する。 対象とするトピックは、早期および後期の融合、占有フロー推定、不確実性モデリング、マルチパス検出などである。 この論文はまた、レーダーの基礎とデータ表現についても論じ、最近のレーダーデータセットのキュレーションリストを示し、レーダー研究に関連する最先端のlidarとビジョンモデルをレビューする。 論文の概要と結果については、webサイト:autonomous-radars.github.ioをご覧ください。

Radar is a key component of the suite of perception sensors used for safe and reliable navigation of autonomous vehicles. Its unique capabilities include high-resolution velocity imaging, detection of agents in occlusion and over long ranges, and robust performance in adverse weather conditions. However, the usage of radar data presents some challenges: it is characterized by low resolution, sparsity, clutter, high uncertainty, and lack of good datasets. These challenges have limited radar deep learning research. As a result, current radar models are often influenced by lidar and vision models, which are focused on optical features that are relatively weak in radar data, thus resulting in under-utilization of radar's capabilities and diminishing its contribution to autonomous perception. This review seeks to encourage further deep learning research on autonomous radar data by 1) identifying key research themes, and 2) offering a comprehensive overview of current opportunities and challenges in the field. Topics covered include early and late fusion, occupancy flow estimation, uncertainty modeling, and multipath detection. The paper also discusses radar fundamentals and data representation, presents a curated list of recent radar datasets, and reviews state-of-the-art lidar and vision models relevant for radar research. For a summary of the paper and more results, visit the website: autonomous-radars.github.io.
翻訳日:2023-09-29 20:29:15 公開日:2023-09-27
# 画像セグメンテーションにおけるトポロジー認識の不確かさ

Topology-Aware Uncertainty for Image Segmentation ( http://arxiv.org/abs/2306.05671v2 )

ライセンス: Link先を確認
Saumya Gupta, Yikai Zhang, Xiaoling Hu, Prateek Prasanna and Chao Chen(参考訳) 比較的弱い信号と複雑な幾何学・トポロジーのため, 血管や道路網などの曲線構造のセグメンテーションは困難である。 大規模なアノテーションを容易かつ加速するためには、専門家による証明読取のような半自動的なアプローチを採用する必要がある。 本研究では,このようなタスクに対する不確実性評価に焦点をあて,高い不確かさとエラー発生構造を人間のアノテータが検証できるようにする。 ピクセルワイズ不確実性マップを提供する既存の多くの作品とは異なり、我々は、例えば小さな接続や枝などの位相構造の単位における不確かさを推定することが重要であると規定している。 これを実現するために、我々は、トポロジカルデータ解析、特に離散モース理論(DMT)のツールを活用し、まず構造を捉え、その不確実性を推論する。 この不確かさをモデル化するために,(1)隣接構造物を考慮しながら構造物の不確かさを推定する共同予測モデル(構造間不確実性)を提案し,(2)その表現を摂動・歩行スキームでサンプリングし,各構造物内固有の不確かさをモデル化する新しい確率的dmtを提案する。 様々な2次元および3次元データセットにおいて,本手法は既存手法と比較して構造的不確実性マップを生成する。 コードはhttps://github.com/saumya-gupta-26/struct-uncertaintyで利用可能

Segmentation of curvilinear structures such as vasculature and road networks is challenging due to relatively weak signals and complex geometry/topology. To facilitate and accelerate large scale annotation, one has to adopt semi-automatic approaches such as proofreading by experts. In this work, we focus on uncertainty estimation for such tasks, so that highly uncertain, and thus error-prone structures can be identified for human annotators to verify. Unlike most existing works, which provide pixel-wise uncertainty maps, we stipulate it is crucial to estimate uncertainty in the units of topological structures, e.g., small pieces of connections and branches. To achieve this, we leverage tools from topological data analysis, specifically discrete Morse theory (DMT), to first capture the structures, and then reason about their uncertainties. To model the uncertainty, we (1) propose a joint prediction model that estimates the uncertainty of a structure while taking the neighboring structures into consideration (inter-structural uncertainty); (2) propose a novel Probabilistic DMT to model the inherent uncertainty within each structure (intra-structural uncertainty) by sampling its representations via a perturb-and-walk scheme. On various 2D and 3D datasets, our method produces better structure-wise uncertainty maps compared to existing works. Code available at https://github.com/Saumya-Gupta-26/struct-uncertainty
翻訳日:2023-09-29 20:28:16 公開日:2023-09-27
# 顔生成のための属性と意味マスクによる条件付き拡散モデル

Conditioning Diffusion Models via Attributes and Semantic Masks for Face Generation ( http://arxiv.org/abs/2306.00914v3 )

ライセンス: Link先を確認
Nico Giambi and Giuseppe Lisanti(参考訳) 深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。 GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、出力を多様化する能力に欠けていた。 拡散モデルはこの問題を部分的に解決し、同じ条件で様々なサンプルを生成することができる。 本稿では,属性とセマンティックマスクの両方を利用して,高画質かつ制御可能な顔画像を生成することで,拡散モデルのマルチコンディショニング手法を提案する。 また,画素空間ではなく潜在空間に知覚中心の損失重み付けを適用することの影響について検討した。 提案手法は,複数の特徴セットに条件付けを導入し,生成した顔画像のよりきめ細かい制御を保証することによって,従来のアプローチを拡張した。 celeba-hqデータセットのアプローチを評価し,複数の属性とセマンティクス領域のきめ細かい制御を可能にしながら,現実的な多種多様なサンプルを生成することができることを示した。 さらに,異なる条件付け戦略が生成画像の品質と多様性に与える影響を評価するためのアブレーション研究を行った。

Deep generative models have shown impressive results in generating realistic images of faces. GANs managed to generate high-quality, high-fidelity images when conditioned on semantic masks, but they still lack the ability to diversify their output. Diffusion models partially solve this problem and are able to generate diverse samples given the same condition. In this paper, we propose a multi-conditioning approach for diffusion models via cross-attention exploiting both attributes and semantic masks to generate high-quality and controllable face images. We also studied the impact of applying perceptual-focused loss weighting into the latent space instead of the pixel space. Our method extends the previous approaches by introducing conditioning on more than one set of features, guaranteeing a more fine-grained control over the generated face images. We evaluate our approach on the CelebA-HQ dataset, and we show that it can generate realistic and diverse samples while allowing for fine-grained control over multiple attributes and semantic regions. Additionally, we perform an ablation study to evaluate the impact of different conditioning strategies on the quality and diversity of the generated images.
翻訳日:2023-09-29 20:27:51 公開日:2023-09-27
# 統計的推論におけるロスレス変換と過剰リスク境界

Lossless Transformations and Excess Risk Bounds in Statistical Inference ( http://arxiv.org/abs/2307.16735v2 )

ライセンス: Link先を確認
L\'aszl\'o Gy\"orfi, Tam\'as Linder, Harro Walk(参考訳) 本研究では,観測された特徴ベクトルから確率変数を推定する最小期待損失と,特徴ベクトルの変換(統計)から同じ確率変数を推定する最小期待損失との差として,統計的推論における過大な最小リスクについて検討する。 損失のない変換、すなわち全ての損失関数に対して余剰リスクがゼロとなる変換を特徴づけた後、与えられた変換が損失のないという仮説に対して分割テスト統計を構築し、すなわちデータに対してテストが強く一貫したことを示す。 より一般的には、損失関数の比較的一般的なクラスを均一に保持する余剰リスクに関する情報理論上界を開発する。 これらの境界に基づいて、デルタロスレス変換の概念を導入し、与えられた変換が普遍的にデルタロスレスであるのに十分な条件を与える。 また,分類,非パラメトリック回帰,ポートフォリオ戦略,情報ボトルネック,ディープラーニングへの応用についても検討した。

We study the excess minimum risk in statistical inference, defined as the difference between the minimum expected loss in estimating a random variable from an observed feature vector and the minimum expected loss in estimating the same random variable from a transformation (statistic) of the feature vector. After characterizing lossless transformations, i.e., transformations for which the excess risk is zero for all loss functions, we construct a partitioning test statistic for the hypothesis that a given transformation is lossless and show that for i.i.d. data the test is strongly consistent. More generally, we develop information-theoretic upper bounds on the excess risk that uniformly hold over fairly general classes of loss functions. Based on these bounds, we introduce the notion of a delta-lossless transformation and give sufficient conditions for a given transformation to be universally delta-lossless. Applications to classification, nonparametric regression, portfolio strategies, information bottleneck, and deep learning, are also surveyed.
翻訳日:2023-09-29 20:21:23 公開日:2023-09-27
# SayPlan: スケーラブルなロボットタスク計画のための3Dシーングラフによる大規模言語モデルの構築

SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning ( http://arxiv.org/abs/2307.06135v2 )

ライセンス: Link先を確認
Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid and Niko Suenderhauf(参考訳) 大規模言語モデル(llm)は、様々なタスクのためのジェネラリスト計画エージェントの開発において印象的な結果を示している。 しかし、これらの計画を拡張的でマルチフロア、マルチルーム環境で基礎化することは、ロボティクスにとって大きな課題となる。 本研究では,3次元シーングラフ(DSG)表現を用いたLLMベースの大規模タスク計画手法であるSayPlanを紹介する。 提案手法のスケーラビリティを確保するため,1) 3DSG の階層的特性を活用して,LLM がタスク関連部分グラフに対して,より小さく,崩壊した全グラフの表現から "意味探索" を行うこと,2) 古典的なパスプランナを統合することで LLM の計画的地平線を小さくすること,3) シーングラフシミュレータからのフィードバックを用いて初期計画を洗練し,実行不可能な動作を補正し,計画失敗を回避するパイプラインを導入すること,などが提案されている。 提案手法は,最大3階36部屋,140のアセットとオブジェクトにまたがる2つの大規模環境において評価し,移動体マニピュレータロボットに対して,大規模で長距離のタスクプランを抽象的かつ自然言語的な指示からグラウンド化できることを示す。 実際のロボットビデオデモはプロジェクトページ https://sayplan.github.io で公開しています。

Large language models (LLMs) have demonstrated impressive results in developing generalist planning agents for diverse tasks. However, grounding these plans in expansive, multi-floor, and multi-room environments presents a significant challenge for robotics. We introduce SayPlan, a scalable approach to LLM-based, large-scale task planning for robotics using 3D scene graph (3DSG) representations. To ensure the scalability of our approach, we: (1) exploit the hierarchical nature of 3DSGs to allow LLMs to conduct a 'semantic search' for task-relevant subgraphs from a smaller, collapsed representation of the full graph; (2) reduce the planning horizon for the LLM by integrating a classical path planner and (3) introduce an 'iterative replanning' pipeline that refines the initial plan using feedback from a scene graph simulator, correcting infeasible actions and avoiding planning failures. We evaluate our approach on two large-scale environments spanning up to 3 floors and 36 rooms with 140 assets and objects and show that our approach is capable of grounding large-scale, long-horizon task plans from abstract, and natural language instruction for a mobile manipulator robot to execute. We provide real robot video demonstrations on our project page https://sayplan.github.io.
翻訳日:2023-09-29 20:18:40 公開日:2023-09-27
# VisIT-Bench: 実世界利用に触発された視覚言語教育のベンチマーク

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use ( http://arxiv.org/abs/2308.06595v2 )

ライセンス: Link先を確認
Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt(参考訳) 実世界における視覚モデルの評価のためのベンチマークであるVisIT-Bench(Visual InsTruction Benchmark)を紹介する。 我々の出発点は、チューニングされた視覚言語モデルに対処できるはずの指導を想定する70の「インストラクションファミリー」をキュレーションすることである。 VQAv2やCOCOのような評価を超えて、タスクは基本的な認識からゲームプレイ、クリエイティブ生成まで幅広い。 キュレーションの後、データセットは592のテストクエリで構成され、それぞれに人間による命令条件付きキャプションがあります。 これらの説明は、例えば車椅子利用者のための店舗のアクセシビリティを尋ねる指示のために、表面的な命令固有の要素を記述し、命令条件付きキャプションはランプ/電位障害を記述している。 これらの説明は 1)各インスタンスのヒューマン検証された参照出力の収集,及び 2) テキストのみのLLMによる候補マルチモーダル世代の自動評価は, 人間の判断と一致した。 人的評価と自動評価の両方を用いて、モデルと参照間の品質ギャップを定量化する。例えば、トップパフォーマンスの命令追従モデルがGPT-4参照に対して、比較のわずか27%で勝利する。 VisIT-Benchは動的に参加でき、実践者は自身のモデルのレスポンスをプロジェクトのWebサイトに投稿するだけでよい。

We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
翻訳日:2023-09-29 20:07:57 公開日:2023-09-27
# 味を学習する:マルチモーダルワインデータセット

Learning to Taste: A Multimodal Wine Dataset ( http://arxiv.org/abs/2308.16900v3 )

ライセンス: Link先を確認
Thoranna Bender, Simon Moe S{\o}rensen, Alireza Kashani, K. Eldjarn Hjorleifsson, Grethe Hyldig, S{\o}ren Hauberg, Serge Belongie and Frederik Warburg(参考訳) 我々は,視覚知覚,言語,風味の関係を研究するための大規模マルチモーダルワインデータセットである winesensed を提案する。 データセットには、ワインラベルの897k画像と、ヴィヴィノプラットフォームから収集されたワインの824kレビューが含まれている。 年間、地域、格付け、アルコール度数、価格、ブドウの組成でアノテートされた350k以上のユニークなビンテージを持つ。 味覚の類似性に基づいてワインのランク付けを依頼された256人の被験者を対象に, ワイン味覚実験を行い, 5k以上の香味距離が得られた。 人間の経験と自動機械類似性カーネルを組み合わせた低次元概念埋め込みアルゴリズムを提案する。 この共有概念埋め込み空間は,粗いフレーバー分類(アルコールパーセンテージ,国,ブドウ,価格,レーティング)のための別個の埋め込み空間を改良し,複雑なフレーバーの人間知覚に適合することを示す。

We present WineSensed, a large multimodal wine dataset for studying the relations between visual perception, language, and flavor. The dataset encompasses 897k images of wine labels and 824k reviews of wines curated from the Vivino platform. It has over 350k unique vintages, annotated with year, region, rating, alcohol percentage, price, and grape composition. We obtained fine-grained flavor annotations on a subset by conducting a wine-tasting experiment with 256 participants who were asked to rank wines based on their similarity in flavor, resulting in more than 5k pairwise flavor distances. We propose a low-dimensional concept embedding algorithm that combines human experience with automatic machine similarity kernels. We demonstrate that this shared concept embedding space improves upon separate embedding spaces for coarse flavor classification (alcohol percentage, country, grape, price, rating) and aligns with the intricate human perception of flavor.
翻訳日:2023-09-29 19:59:48 公開日:2023-09-27
# 低次多項式によるグラフェン推定のための計算下限

Computational Lower Bounds for Graphon Estimation via Low-degree Polynomials ( http://arxiv.org/abs/2308.15728v2 )

ライセンス: Link先を確認
Yuetian Luo and Chao Gao(参考訳) グラフオン推定はネットワーク解析における最も基本的な問題の一つであり、過去10年間にかなりの注目を集めてきた。 統計的観点からは、gao et al (2015) によって確率的ブロックモデル(sbm)と非パラメトリックなグラフェン推定の両方において、グラフェン推定の最小誤差率は確立されている。 統計的最適推定子は制約された最小二乗に基づいており、次元において計算複雑性が指数関数的である。 計算の観点からは、多項式時間推定器は普遍特異値しきい値(USVT)に基づいているが、最小値よりもはるかに遅い推定誤差率しか達成できない。 そのようなギャップが不可欠かどうか疑問に思うのは当然だ。 USVTの計算最適性や、グラノン推定における計算障壁の存在は、長年の未解決問題であった。 本研究では,その第一歩を踏み出し,低次多項式によるグラフェン推定における計算障壁の厳密な証拠を提供する。 特に, sbm および非パラメトリックグラフェン推定では, 低次多項式推定器では, その推定誤差率は, 広範囲のパラメータレジームの下では usvt のそれよりも著しく改善できないことが示されている。 我々の結果は、Schramm と Wein (2022) による最近の低次多項式の発展に基づいて証明されている。 また,本研究の主な成果を生かして,SBMにおけるコミュニティ検出におけるクラスタリング誤差の計算的下限も提供し,コミュニティの効率的な回復のためのケステン・スティグムしきい値の新たな証拠を得た。

Graphon estimation has been one of the most fundamental problems in network analysis and has received considerable attention in the past decade. From the statistical perspective, the minimax error rate of graphon estimation has been established by Gao et al (2015) for both stochastic block model (SBM) and nonparametric graphon estimation. The statistical optimal estimators are based on constrained least squares and have computational complexity exponential in the dimension. From the computational perspective, the best-known polynomial-time estimator is based on universal singular value thresholding (USVT), but it can only achieve a much slower estimation error rate than the minimax one. It is natural to wonder if such a gap is essential. The computational optimality of the USVT or the existence of a computational barrier in graphon estimation has been a long-standing open problem. In this work, we take the first step towards it and provide rigorous evidence for the computational barrier in graphon estimation via low-degree polynomials. Specifically, in both SBM and nonparametric graphon estimation, we show that for low-degree polynomial estimators, their estimation error rates cannot be significantly better than that of the USVT under a wide range of parameter regimes. Our results are proved based on the recent development of low-degree polynomials by Schramm and Wein (2022), while we overcome a few key challenges in applying it to the general graphon estimation problem. By leveraging our main results, we also provide a computational lower bound on the clustering error for community detection in SBM with a growing number of communities and this yields a new piece of evidence for the conjectured Kesten-Stigum threshold for efficient community recovery.
翻訳日:2023-09-29 19:59:30 公開日:2023-09-27
# 非意味的音声課題に対する注意と自己教師付き音声埋め込みの効果

Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks ( http://arxiv.org/abs/2308.14359v3 )

ライセンス: Link先を確認
Payal Mohapatra, Akash Pandey, Yueyuan Sui, Qi Zhu(参考訳) 人間の感情理解は会話型テクノロジーを主流にする上で重要である。 我々は、音声の感情理解を、より現実的な認識課題と見なしている。 さまざまな状況(言語、人口統計など)において、異なる人々のシェアは、非満場一致の感情と同じ音声セグメントを知覚する。 ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share Trackでは、多言語話者の豊富なデータセットと「感情共有」のマルチラベル回帰目標を活用。 異なる基礎モデルのトレーニングスキームは、音声認識以外のタスク、特に感情理解のような非意味的な音声タスクに有効であることを示す。 これは、多言語話者、ターゲットラベルのばらつき、回帰データセットの固有の不均衡による非常に複雑なタスクである。 以上の結果から,hubert-largeは自己着眼に基づく軽量シーケンスモデルにより,ベースラインの4.6%向上した。

Human emotion understanding is pivotal in making conversational technology mainstream. We view speech emotion understanding as a perception task which is a more realistic setting. With varying contexts (languages, demographics, etc.) different share of people perceive the same speech segment as a non-unanimous emotion. As part of the ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share track, we leverage their rich dataset of multilingual speakers and multi-label regression target of 'emotion share' or perception of that emotion. We demonstrate that the training scheme of different foundation models dictates their effectiveness for tasks beyond speech recognition, especially for non-semantic speech tasks like emotion understanding. This is a very complex task due to multilingual speakers, variability in the target labels, and inherent imbalance in the regression dataset. Our results show that HuBERT-Large with a self-attention-based light-weight sequence model provides 4.6% improvement over the reported baseline.
翻訳日:2023-09-29 19:59:00 公開日:2023-09-27
# 電子カルテの生存分析における時間的識別性の対比学習

Contrastive Learning of Temporal Distinctiveness for Survival Analysis in Electronic Health Records ( http://arxiv.org/abs/2308.13104v2 )

ライセンス: Link先を確認
Mohsen Nayebi Kerdabadi, Arya Hadizadeh Moghaddam, Bin Liu, Mei Liu, Zijun Yao(参考訳) 生存分析は多くの医療決定において重要な役割を担い、そこでは、関心事のリスク予測が患者の医療旅行に対する情報的展望を支える。 データ検閲の存在を前提として、サバイバル分析の効果的な方法は、検閲されたデータと観測されたデータのペアワイズ時間一致を強制することであり、検閲前の時間間隔を教師あり学習のための部分的に観察された時間-イベントラベルとして活用することを目的としている。 既存の研究では、主に順序付け目的を追求するランク付け手法が採用されているが、データに対比して識別的埋め込みを学習するコントラスト的手法は、生存分析のために徹底的に研究されていない。 そこで,本稿では,検閲データと観察データの両方から生存期間を利用して,時間的特有性を定義し,適応性のある硬度を持つ負のサンプルペアを構築可能な,オントロジーに配慮したコントラシブ・サバイバル(OTCSurv)分析フレームワークを提案する。 具体的には、まずオントロジエンコーダとシーケンシャルセルフアテンションエンコーダを用いて、時系列のERHデータをリッチコンテキストで表現する。 第2に,硬さを認識できる負のサンプリング機構を用いて,教師付き環境での生存期間の変動を捉えるために,時間的コントラストロスを設計する。 最後に、コントラストタスクを複数の損失コンポーネントを持つ時間-イベント予測タスクに組み込む。 急性腎障害(AKI)を発症する危険のある入院患者のリスクを予測するために,大規模なEHRデータセットを用いて広範囲にわたる実験を行った。 提案モデルの有効性と説明性は,包括的定量的および定性的研究によって検証される。

Survival analysis plays a crucial role in many healthcare decisions, where the risk prediction for the events of interest can support an informative outlook for a patient's medical journey. Given the existence of data censoring, an effective way of survival analysis is to enforce the pairwise temporal concordance between censored and observed data, aiming to utilize the time interval before censoring as partially observed time-to-event labels for supervised learning. Although existing studies mostly employed ranking methods to pursue an ordering objective, contrastive methods which learn a discriminative embedding by having data contrast against each other, have not been explored thoroughly for survival analysis. Therefore, in this paper, we propose a novel Ontology-aware Temporality-based Contrastive Survival (OTCSurv) analysis framework that utilizes survival durations from both censored and observed data to define temporal distinctiveness and construct negative sample pairs with adjustable hardness for contrastive learning. Specifically, we first use an ontological encoder and a sequential self-attention encoder to represent the longitudinal EHR data with rich contexts. Second, we design a temporal contrastive loss to capture varying survival durations in a supervised setting through a hardness-aware negative sampling mechanism. Last, we incorporate the contrastive task into the time-to-event predictive task with multiple loss components. We conduct extensive experiments using a large EHR dataset to forecast the risk of hospitalized patients who are in danger of developing acute kidney injury (AKI), a critical and urgent medical condition. The effectiveness and explainability of the proposed model are validated through comprehensive quantitative and qualitative studies.
翻訳日:2023-09-29 19:58:08 公開日:2023-09-27
# RenderIH:3次元干渉型ハンドポース推定のための大規模合成データセット

RenderIH: A Large-scale Synthetic Dataset for 3D Interacting Hand Pose Estimation ( http://arxiv.org/abs/2309.09301v3 )

ライセンス: Link先を確認
Lijun Li, Linrui Tian, Xindi Zhang, Qi Wang, Bang Zhang, Mengyuan Liu, and Chen Chen(参考訳) 現在の相互作用ハンド(IH)データセットは、背景とテクスチャの観点から比較的単純であり、手関節は機械アノテーションによって注釈付けされ、不正確な結果となり、ポーズ分布の多様性が制限される。 しかし,背景,ポーズ分布,テクスチャの多様性は,一般化能力に大きな影響を及ぼす。 そこで我々は,高精度かつ多様なポーズアノテーションで手と対話するための大規模合成データセットRenderIHを提案する。 データセットには、背景、視点、手のテクスチャの異なる100万枚の写真リアル画像が含まれている。 自然および多様に相互作用するポーズを生成するために,新しいポーズ最適化アルゴリズムを提案する。 さらに, 姿勢推定精度を向上させるために, 相互作用手間の相関を活用し, 結果改善におけるrenderihの有効性を検証するために, トランストランスベースポーズ推定ネットワークであるtranshandを導入する。 我々のデータセットはモデル非依存であり、他の実データや合成データセットと比較して任意の手ポーズ推定方法の精度を向上させることができる。 実験により, 合成データの事前学習は6.76mmから5.79mmに大幅に誤差を減少させることが示された。 私たちのデータセットとコードはhttps://github.com/adwardlee/RenderIH.orgで公開されています。

The current interacting hand (IH) datasets are relatively simplistic in terms of background and texture, with hand joints being annotated by a machine annotator, which may result in inaccuracies, and the diversity of pose distribution is limited. However, the variability of background, pose distribution, and texture can greatly influence the generalization ability. Therefore, we present a large-scale synthetic dataset RenderIH for interacting hands with accurate and diverse pose annotations. The dataset contains 1M photo-realistic images with varied backgrounds, perspectives, and hand textures. To generate natural and diverse interacting poses, we propose a new pose optimization algorithm. Additionally, for better pose estimation accuracy, we introduce a transformer-based pose estimation network, TransHand, to leverage the correlation between interacting hands and verify the effectiveness of RenderIH in improving results. Our dataset is model-agnostic and can improve more accuracy of any hand pose estimation method in comparison to other real or synthetic datasets. Experiments have shown that pretraining on our synthetic data can significantly decrease the error from 6.76mm to 5.79mm, and our Transhand surpasses contemporary methods. Our dataset and code are available at https://github.com/adwardlee/RenderIH.
翻訳日:2023-09-29 19:49:24 公開日:2023-09-27
# 6gによるフェデレーション学習の進展 - グラフベース分析による信頼型アーキテクチャ

Advancing Federated Learning in 6G: A Trusted Architecture with Graph-based Analysis ( http://arxiv.org/abs/2309.05525v3 )

ライセンス: Link先を確認
Wenxuan Ye, Chendi Qian, Xueli An, Xueqiang Yan, Georg Carle(参考訳) ネットワークアーキテクチャにネイティブAIサポートを統合することが6Gの重要な目的である。 フェデレートラーニング(FL)は潜在的なパラダイムとして登場し、中央サーバの調整の下でさまざまなデバイスにわたる分散AIモデルトレーニングを促進する。 しかし、悪意のある攻撃や、ローカルモデルの更新をスヌーピングするプライバシスヌープ、集中化の落とし穴など、いくつかの課題が6Gコンテキストでの幅広い応用を妨げる。 本研究は,DLT(Distributed Ledger Technology)とGNN(Graph Neural Network)を利用したFLをサポートするための信頼性の高いアーキテクチャを提案する。 まず,準同型暗号を用いた前処理層を組み込んで局所モデルをセキュアに集約し,個々のモデルのプライバシを保持する。 第二に、前処理層におけるクライアントとノード間の分散特性とグラフ構造を考えると、GNNは異常なローカルモデルを特定するために利用され、システムのセキュリティが向上する。 第3に、DLTは中央サーバの機能を実行する候補の1つを選択することにより、システムを分散化する。 さらに、DLTは不変かつ透明な台帳にデータ交換を記録することにより、信頼性の高いデータ管理を保証する。 新たなアーキテクチャの実現性はシミュレーションによって検証され、関連するベースラインと比較して異常なモデル検出とグローバルモデルの精度の向上が示されている。

Integrating native AI support into the network architecture is an essential objective of 6G. Federated Learning (FL) emerges as a potential paradigm, facilitating decentralized AI model training across a diverse range of devices under the coordination of a central server. However, several challenges hinder its wide application in the 6G context, such as malicious attacks and privacy snooping on local model updates, and centralization pitfalls. This work proposes a trusted architecture for supporting FL, which utilizes Distributed Ledger Technology (DLT) and Graph Neural Network (GNN), including three key features. First, a pre-processing layer employing homomorphic encryption is incorporated to securely aggregate local models, preserving the privacy of individual models. Second, given the distributed nature and graph structure between clients and nodes in the pre-processing layer, GNN is leveraged to identify abnormal local models, enhancing system security. Third, DLT is utilized to decentralize the system by selecting one of the candidates to perform the central server's functions. Additionally, DLT ensures reliable data management by recording data exchanges in an immutable and transparent ledger. The feasibility of the novel architecture is validated through simulations, demonstrating improved performance in anomalous model detection and global model accuracy compared to relevant baselines.
翻訳日:2023-09-29 19:47:29 公開日:2023-09-27
# 乱れを伴う一般化線形モデルに対する分布非依存回帰

Distribution-Independent Regression for Generalized Linear Models with Oblivious Corruptions ( http://arxiv.org/abs/2309.11657v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Sushrut Karmalkar, Jongho Park, Christos Tzamos(参考訳) 一般化線形モデル (glms) の回帰問題に対して, 付加的オブリベート雑音の存在下で最初のアルゴリズムを提示する。 例の$(x, ) へのサンプルアクセスがあると仮定します。 y)$ ここで$y$は$g(w^* \cdot のノイズ測定である x)$。 特に、new{the noisy labels は $y = g(w^* \cdot である。 x) + \xi + \epsilon$, where $\xi$ は$x$ \new{and satisfies} $\Pr[\xi = 0] \geq o(1)$, $\epsilon \sim \mathcal N(0, \sigma^2)$ から独立に引かれる難聴ノイズである。 我々のゴールは、$g(w \cdot) 関数が $new{parameter vector $w$ を正確に回復することである。 x)$ \new{has} 真の値 $g(w^* \cdot と比較して任意に小さな誤差 x)$, 騒がしい測定値が$y$ではなく$である。 我々は、最も一般的な分布非依存な設定で \new{this} 問題に取り組むアルゴリズムを提示し、解が \new{even} を同定できない可能性がある。 new{Our} アルゴリズムは、その解が特定可能であれば、解のnew{an 正確な推定を返し、そうでなければ候補の小さなリストを返し、そのうちの1つは真の解に近い。 さらに、new{provide} は、幅広い設定で保持される識別可能性に対して必要かつ十分な条件である。 \new{Specifically,} 問題は、$\xi + \epsilon = 0$ の量子が知られているときや、仮説の族が翻訳された $g(w^* \cdot にほぼ等しい候補を含まないときである。 x) + a$ ある実数に対して$a$ である一方で、$g(w^* \cdot と比較すると大きな誤差がある。 x)$。 これは glm 回帰 \new{with oblivious noise} に対する最初の \new{algorithmic} の結果であり、サンプルの半分以上が任意に破損している。 以前の研究は主に線形回帰の設定に集中し、制限的な仮定の下でアルゴリズムを与えた。

We demonstrate the first algorithms for the problem of regression for generalized linear models (GLMs) in the presence of additive oblivious noise. We assume we have sample access to examples $(x, y)$ where $y$ is a noisy measurement of $g(w^* \cdot x)$. In particular, \new{the noisy labels are of the form} $y = g(w^* \cdot x) + \xi + \epsilon$, where $\xi$ is the oblivious noise drawn independently of $x$ \new{and satisfies} $\Pr[\xi = 0] \geq o(1)$, and $\epsilon \sim \mathcal N(0, \sigma^2)$. Our goal is to accurately recover a \new{parameter vector $w$ such that the} function $g(w \cdot x)$ \new{has} arbitrarily small error when compared to the true values $g(w^* \cdot x)$, rather than the noisy measurements $y$. We present an algorithm that tackles \new{this} problem in its most general distribution-independent setting, where the solution may not \new{even} be identifiable. \new{Our} algorithm returns \new{an accurate estimate of} the solution if it is identifiable, and otherwise returns a small list of candidates, one of which is close to the true solution. Furthermore, we \new{provide} a necessary and sufficient condition for identifiability, which holds in broad settings. \new{Specifically,} the problem is identifiable when the quantile at which $\xi + \epsilon = 0$ is known, or when the family of hypotheses does not contain candidates that are nearly equal to a translated $g(w^* \cdot x) + A$ for some real number $A$, while also having large error when compared to $g(w^* \cdot x)$. This is the first \new{algorithmic} result for GLM regression \new{with oblivious noise} which can handle more than half the samples being arbitrarily corrupted. Prior work focused largely on the setting of linear regression, and gave algorithms under restrictive assumptions.
翻訳日:2023-09-29 19:39:40 公開日:2023-09-27
# パウリ雑音による表面符号復号の硬さ結果

Hardness results for decoding the surface code with Pauli noise ( http://arxiv.org/abs/2309.10331v2 )

ライセンス: Link先を確認
Alex Fischer, Akimasa Miyake(参考訳) 実際の量子コンピュータは、全ての量子ビットに対して同じ強度を持つ非分極ノイズのような単純なノイズの代わりに、複雑な量子ビット依存ノイズを受ける。 我々の復号アルゴリズムがこの特定のノイズに関する事前情報を考慮すると、量子誤り訂正をより効果的に行うことができる。 このことは、デコード問題への入力がシンドローム測定結果であるだけでなく、各キュービットに対する単一キュービットパウリ誤差の確率の形でのノイズモデルである表面符号復号の複雑さを考える動機となっている。 この設定では、表面符号に対する最大確率誤差(mpe)と最大確率(ml)の復号がそれぞれnp-hardと#p-hardであることを示す。 MPE の SAT と ML の #SAT から直接、ブール式を qubit 依存の Pauli ノイズモデルに変換する方法と、この公式の満足度特性を符号化するシンドロームのセットを示すことで、 MPE の SAT と ML の #SAT から直接削減する。 また,MPEとMLデコーディングの近似結果の難しさも示す。 これらは、多くの効率的な表面コードデコーダが平均ケースで正しいという経験的事実と矛盾しない最悪のケースの硬さの結果である(つまり、ほとんどのシンドロームや最も合理的なノイズモデルの場合)。 これらの硬さ結果は、MPEの既知の硬さ結果と、独立な$X$および$Z$ノイズを持つ任意の安定化器符号のML復号結果とよく似ている。

Real quantum computers will be subject to complicated, qubit-dependent noise, instead of simple noise such as depolarizing noise with the same strength for all qubits. We can do quantum error correction more effectively if our decoding algorithms take into account this prior information about the specific noise present. This motivates us to consider the complexity of surface code decoding where the input to the decoding problem is not only the syndrome-measurement results, but also a noise model in the form of probabilities of single-qubit Pauli errors for every qubit. In this setting, we show that Maximum Probability Error (MPE) decoding and Maximum Likelihood (ML) decoding for the surface code are NP-hard and #P-hard, respectively. We reduce directly from SAT for MPE decoding, and from #SAT for ML decoding, by showing how to transform a boolean formula into a qubit-dependent Pauli noise model and set of syndromes that encode the satisfiability properties of the formula. We also give hardness of approximation results for MPE and ML decoding. These are worst-case hardness results that do not contradict the empirical fact that many efficient surface code decoders are correct in the average case (i.e., for most sets of syndromes and for most reasonable noise models). These hardness results are nicely analogous with the known hardness results for MPE and ML decoding of arbitrary stabilizer codes with independent $X$ and $Z$ noise.
翻訳日:2023-09-29 19:38:19 公開日:2023-09-27
# 高速物体検出のための高効率SNN

Highly Efficient SNNs for High-speed Object Detection ( http://arxiv.org/abs/2309.15883v1 )

ライセンス: Link先を確認
Nemin Qiu and Zhiguo Li and Yuan Li and Chuang Zhu(参考訳) スパイキングニューラルネットワーク(SNN)の高生物学的特性と低エネルギー消費が近年注目を集めている。 しかし、変換されたSNNは通常、十分な性能を達成するために大きな時間ステップを必要とし、高い推論遅延と計算資源の増加をもたらす。 本研究では,オブジェクト検出のための高速かつ高効率なSNNを提案する。 まず,畳み込み層折り畳み型バッチ正規化層の量子化学習法とニューラルネットワーク修正を用いて,初期コンパクトANNを構築する。 第2に,低複雑性SNNを正確に取得する方法を理論的に分析する。 そこで我々は,コンパクトANNのSNNに対する正当性を保証するために,スケールアウェアな擬似量子化方式を提案する。 第3に,フィードフォワード・インテグレート・アンド・ファイア(fewdif)ニューロンを用いて高速物体検出を実現する連続的推論手法を提案する。 実験結果から,SNNは物体検出タスクの1.5MBパラメータのみでGPU上で118倍の高速化を実現することができた。 FPGAプラットフォーム上でのSNNをさらに検証し,800以上のFPSオブジェクトを極めて低レイテンシで検出できるモデルを提案する。

The high biological properties and low energy consumption of Spiking Neural Networks (SNNs) have brought much attention in recent years. However, the converted SNNs generally need large time steps to achieve satisfactory performance, which will result in high inference latency and computational resources increase. In this work, we propose a highly efficient and fast SNN for object detection. First, we build an initial compact ANN by using quantization training method of convolution layer fold batch normalization layer and neural network modification. Second, we theoretically analyze how to obtain the low complexity SNN correctly. Then, we propose a scale-aware pseudoquantization scheme to guarantee the correctness of the compact ANN to SNN. Third, we propose a continuous inference scheme by using a Feed-Forward Integrate-and-Fire (FewdIF) neuron to realize high-speed object detection. Experimental results show that our efficient SNN can achieve 118X speedup on GPU with only 1.5MB parameters for object detection tasks. We further verify our SNN on FPGA platform and the proposed model can achieve 800+FPS object detection with extremely low latency.
翻訳日:2023-09-29 19:30:54 公開日:2023-09-27
# 多層埋め込み学習によるレコメンデーションシステムにおけるカテゴリー間学習の強化

Enhancing Cross-Category Learning in Recommendation Systems with Multi-Layer Embedding Training ( http://arxiv.org/abs/2309.15881v1 )

ライセンス: Link先を確認
Zihao Deng, Benjamin Ghaemmaghami, Ashish Kumar Singh, Benjamin Cho, Leo Orshansky, Mattan Erez, Michael Orshansky(参考訳) 現代のDNNベースのレコメンデーションシステムは、スパース機能のトレーニング由来の埋め込みに依存している。 入力空間は、まれに発生するカテゴリの表現が頻繁に更新されるため、高品質な埋め込みを得るのを難しくする。 効果的なクロスカテゴリ学習を通じて優れた埋め込みを生成するためのトレーニングタイム手法を示し,その驚くべき効果を理論的に説明する。 このスキームはMLET(Multi-layer embeddeddings Training)と呼ばれ、埋め込み層の因子化による埋め込みを目標埋め込み次元よりも高い内部次元で訓練する。 推論効率を向上させるため、MLETはトレーニングされた2層埋め込みを1層に変換し、推論時間モデルのサイズを一定に保つ。 MLETの探索空間は単層埋め込みよりも大きくないため、実証的なMLETの優位性は曖昧である。 MLETの内次元への強い依存はさらに驚くべきものである。 MLETは, 埋め込みの特異ベクトルによって変調された適応的な更新機構を生成することを示すことによって, これら両方の挙動を説明する理論を開発する。 クリックスルー率(CTR)予測タスクのための複数の最先端レコメンデーションモデルでテストすると、MLETは、特に稀な項目において、一貫してより良いモデルを生成する。 モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを許容し、モデル全体の平均16倍、平均5.8倍まで削減できる。

Modern DNN-based recommendation systems rely on training-derived embeddings of sparse features. Input sparsity makes obtaining high-quality embeddings for rarely-occurring categories harder as their representations are updated infrequently. We demonstrate a training-time technique to produce superior embeddings via effective cross-category learning and theoretically explain its surprising effectiveness. The scheme, termed the multi-layer embeddings training (MLET), trains embeddings using factorization of the embedding layer, with an inner dimension higher than the target embedding dimension. For inference efficiency, MLET converts the trained two-layer embedding into a single-layer one thus keeping inference-time model size unchanged. Empirical superiority of MLET is puzzling as its search space is not larger than that of the single-layer embedding. The strong dependence of MLET on the inner dimension is even more surprising. We develop a theory that explains both of these behaviors by showing that MLET creates an adaptive update mechanism modulated by the singular vectors of embeddings. When tested on multiple state-of-the-art recommendation models for click-through rate (CTR) prediction tasks, MLET consistently produces better models, especially for rare items. At constant model quality, MLET allows embedding dimension, and model size, reduction by up to 16x, and 5.8x on average, across the models.
翻訳日:2023-09-29 19:30:35 公開日:2023-09-27
# 神経による階層型マルチモーダル学習

Neuro-Inspired Hierarchical Multimodal Learning ( http://arxiv.org/abs/2309.15877v1 )

ライセンス: Link先を確認
Xiongye Xiao, Gengshuo Liu, Gaurav Gupta, Defu Cao, Shixuan Li, Yaxing Li, Tianqing Fang, Mingxi Cheng, Paul Bogdan(参考訳) 様々な情報源やモダリティからの情報の統合や処理は、現実世界の包括的かつ正確な認識を得るために重要である。 神経科学からインスピレーションを得て,情報ボトルネックの概念を利用した情報理論的階層的知覚(ithp)モデルを開発した。 すべてのモダリティを入力として組み込むことを目的とした従来の核融合モデルとは異なり、我々のモデルは素モダリティを入力として指定し、残りのモダリティは情報経路の検出器として機能する。 提案する知覚モデルは,潜時状態と入力モード状態の相互情報の最小化と,潜時状態と残りのモード状態の相互情報の最大化とを両立させることにより,有効かつコンパクトな情報フローを構築することに焦点を当てる。 このアプローチは、冗長性を最小化しながら関連情報を保持し、ダウンストリームタスクの性能を大幅に向上させる。 MUStARDデータセットとCMU-MOSIデータセットの両方の実験評価により、我々のモデルはマルチモーダル学習シナリオにおいて、常に重要な情報を蒸留し、最先端のベンチマークより優れていることが示された。

Integrating and processing information from various sources or modalities are critical for obtaining a comprehensive and accurate perception of the real world. Drawing inspiration from neuroscience, we develop the Information-Theoretic Hierarchical Perception (ITHP) model, which utilizes the concept of information bottleneck. Distinct from most traditional fusion models that aim to incorporate all modalities as input, our model designates the prime modality as input, while the remaining modalities act as detectors in the information pathway. Our proposed perception model focuses on constructing an effective and compact information flow by achieving a balance between the minimization of mutual information between the latent state and the input modal state, and the maximization of mutual information between the latent states and the remaining modal states. This approach leads to compact latent state representations that retain relevant information while minimizing redundancy, thereby substantially enhancing the performance of downstream tasks. Experimental evaluations on both the MUStARD and CMU-MOSI datasets demonstrate that our model consistently distills crucial information in multimodal learning scenarios, outperforming state-of-the-art benchmarks.
翻訳日:2023-09-29 19:30:11 公開日:2023-09-27
# 医療におけるlgbt+とブロックチェーン: 価値に敏感なデザイン視点

Older LGBT+ and Blockchain in Healthcare: A Value Sensitive Design Perspective ( http://arxiv.org/abs/2309.15876v1 )

ライセンス: Link先を確認
Adam Poulsen, Eduard Fosch-Villaronga(参考訳) 医療に配備されるほとんどのアルゴリズムは、個人の健康格差に影響を与えているにもかかわらず、性別や性別を考慮しない。 これらの側面の無視は、必然的に既存のバイアスを持続し、最適な結果に遠く及ばず、診断エラーを発生させるため、医療情報システムにおけるこれらの次元の欠如は懸念すべき点である。 ケアの価値とニーズが明確に見過ごされているコミュニティはlgbt以上の高齢者であり、伝統的に医療やテクノロジーデザインにおいて過小評価されてきた。 本稿では,lgbt+高齢者を対象とした分散台帳技術における性別と性別の欠如との関連について検討する。 価値に敏感な設計手法を用いることで,lgbt+高齢者の信頼,プライバシ,セキュリティの解釈など,限界化されたコミュニティに親しむ多くの価値意味がブロックチェーンの設計には考慮されないことが示された。 lgbt+の古い人口を強調することで、われわれの貢献はこれらの技術の潜在的な差別的意味に注意を向ける。 lgbt+高齢者の1つのコミュニティに焦点を合わせることで、医療エコシステム内のすべての人々の価値を含む、医療のための台帳技術開発のための総合的で価値に敏感なデザインアプローチの必要性を強調します。

Most algorithms deployed in healthcare do not consider gender and sex despite the effect they have on individuals' health differences. Missing these dimensions in healthcare information systems is a point of concern, as neglecting these aspects will inevitably perpetuate existing biases, produce far from optimal results, and may generate diagnosis errors. An often-overlooked community with distinct care values and needs are LGBT+ older adults, which has traditionally been under-surveyed in healthcare and technology design. This paper investigates the implications of missing gender and sex considerations in distributed ledger technologies for LGBT+ older adults. By using the value sensitive design methodology, our contribution shows that many value meanings dear to marginalized communities are not considered in the design of the blockchain, such as LGBT+ older adults' interpretations of trust, privacy, and security. By highlighting the LGBT+ older population values, our contribution alerts us to the potential discriminatory implications of these technologies, which do not consider the gender and sex differences of marginalized, silent populations. Focusing on one community throughout - LGBT+ older adults - we emphasize the need for a holistic, value sensitive design approach for the development of ledger technologies for healthcare, including the values of everyone within the healthcare ecosystem.
翻訳日:2023-09-29 19:29:48 公開日:2023-09-27
# STAG: 動的グラフによるGNNベースのサービスの低レイテンシと低安定性の実現

STAG: Enabling Low Latency and Low Staleness of GNN-based Services with Dynamic Graphs ( http://arxiv.org/abs/2309.15875v1 )

ライセンス: Link先を確認
Jiawen Wang, Quan Chen, Deze Zeng, Zhuo Song, Chen Chen and Minyi Guo(参考訳) 新興のユーザ向けサービスの多くは、サービス精度を改善するためにGraph Neural Networks(GNN)を採用している。 gnnモデルが使用するグラフが変更されると、グラフ内のノードの表現(埋め込み)がそれに応じて更新される。 しかし、ノード表現更新は遅すぎるため、ユーザクエリの長時間応答遅延(更新完了後に推論が実行される)または高安定化問題(古いデータに基づいて推論が実行される)が生じる。 詳細な分析の結果,グラフの爆発問題と重複計算が主な原因であることが判明した。 そこで本研究では,GNN ベースのサービスの低レイテンシと低安定性を実現する GNN サービスフレームワーク STAG を提案する。 協調供給機構と付加性に基づく漸進的伝播戦略を含む。 協調サービス機構により、更新フェーズ中にノード表現の一部のみが更新され、最終的な表現は推論フェーズで計算される。 近隣の爆発問題を緩和する。 加算性に基づく漸進的伝播戦略は、更新フェーズ中に中間データを再利用し、重複した計算問題を解消する。 実験の結果、STAGは更新フェーズを1.3x〜90.1x加速し、応答遅延をわずかに増加させるとともに、安定化時間を大幅に短縮することがわかった。

Many emerging user-facing services adopt Graph Neural Networks (GNNs) to improve serving accuracy. When the graph used by a GNN model changes, representations (embedding) of nodes in the graph should be updated accordingly. However, the node representation update is too slow, resulting in either long response latency of user queries (the inference is performed after the update completes) or high staleness problem (the inference is performed based on stale data). Our in-depth analysis shows that the slow update is mainly due to neighbor explosion problem in graphs and duplicated computation. Based on such findings, we propose STAG, a GNN serving framework that enables low latency and low staleness of GNN-based services. It comprises a collaborative serving mechanism and an additivity-based incremental propagation strategy. With the collaborative serving mechanism, only part of node representations are updated during the update phase, and the final representations are calculated in the inference phase. It alleviates the neighbor explosion problem. The additivity-based incremental propagation strategy reuses intermediate data during the update phase, eliminating duplicated computation problem. Experimental results show that STAG accelerates the update phase by 1.3x~90.1x, and greatly reduces staleness time with a slight increase in response latency.
翻訳日:2023-09-29 19:29:09 公開日:2023-09-27
# マルチモーダルプロンプトによるゼロショットと少数ショットビデオ質問応答

Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts ( http://arxiv.org/abs/2309.15915v1 )

ライセンス: Link先を確認
Deniz Engin and Yannis Avrithis(参考訳) 最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。 しかし、限られたデータに事前訓練されたモデルを適用すると、過度な適合、破滅的な忘れ込み、視覚と言語の間の相互のギャップといった課題が生じる。 本稿では,これらの課題に対処するパラメータ効率の手法を導入し,事前学習したモデルを凍結したまま,マルチモーダル・プロンプト学習とトランスフォーマーベースのマッピングネットワークを組み合わせた。 いくつかのビデオ質問応答ベンチマークにおける実験は,ゼロショットとマイショットの両方において,性能とパラメータ効率の点で,我々のアプローチが優れていることを示している。 私たちのコードはhttps://engindeniz.github.io/vitisで利用可能です。

Recent vision-language models are driven by large-scale pretrained models. However, adapting pretrained models on limited data presents challenges such as overfitting, catastrophic forgetting, and the cross-modal gap between vision and language. We introduce a parameter-efficient method to address these challenges, combining multimodal prompt learning and a transformer-based mapping network, while keeping the pretrained models frozen. Our experiments on several video question answering benchmarks demonstrate the superiority of our approach in terms of performance and parameter efficiency on both zero-shot and few-shot settings. Our code is available at https://engindeniz.github.io/vitis.
翻訳日:2023-09-29 19:20:36 公開日:2023-09-27
# 光通信用量子コンピュータ対応受信機

Quantum computer-enabled receivers for optical communication ( http://arxiv.org/abs/2309.15914v1 )

ライセンス: Link先を確認
John Crossman, Spencer Dimitroff, Lukasz Cincio, Mohan Sarovar(参考訳) 光通信は、今日のデジタル時代の高帯域情報転送の標準である。 帯域幅の需要の増加により、位相変調および振幅変調された光信号を用いて送信パルス毎により多くの情報を符号化するコヒーレントトランシーバが成熟する。 このような符号化方式は高い情報密度を達成するが、信号状態の判別にはより複雑な受信機が必要である。 実際、光通信能力の究極の限界を達成するには、特に低光領域において、複数のパルスのコヒーレントなジョイント検出が必要である。 このような関節検出受信機は、その優位性にもかかわらず、光学領域で構築することが困難であるため、広くは使われていない。 本研究では、コヒーレント光パルスから超伝導量子ビット状態への位相情報の最適変換と、訓練された短深変分量子回路の実行により、古典的な個々のパルス検出受信機を超越したエラー確率を持つ通信コードワードの同時検出を行う方法について述べる。 重要な点は,熱雑音や損失などの非理想を捉えた光機械変換のモデルを用いて,量子的な利点を達成するために必要な変換性能を理解することである。 また、IBM-Qデバイス上でトレーニングされた変分回路を入力として実行し、現在の量子コンピューティングハードウェアのノイズレベルにおいても量子優位性が可能であることを示す。

Optical communication is the standard for high-bandwidth information transfer in today's digital age. The increasing demand for bandwidth has led to the maturation of coherent transceivers that use phase- and amplitude-modulated optical signals to encode more bits of information per transmitted pulse. Such encoding schemes achieve higher information density, but also require more complicated receivers to discriminate the signaling states. In fact, achieving the ultimate limit of optical communication capacity, especially in the low light regime, requires coherent joint detection of multiple pulses. Despite their superiority, such joint detection receivers are not in widespread use because of the difficulty of constructing them in the optical domain. In this work we describe how optomechanical transduction of phase information from coherent optical pulses to superconducting qubit states followed by the execution of trained short-depth variational quantum circuits can perform joint detection of communication codewords with error probabilities that surpass all classical, individual pulse detection receivers. Importantly, we utilize a model of optomechanical transduction that captures non-idealities such as thermal noise and loss in order to understand the transduction performance necessary to achieve a quantum advantage with such a scheme. We also execute the trained variational circuits on an IBM-Q device with the modeled transduced states as input to demonstrate that a quantum advantage is possible even with current levels of quantum computing hardware noise.
翻訳日:2023-09-29 19:20:24 公開日:2023-09-27
# 三次元的揚水キラリティー

Pumping Chirality in Three Dimensions ( http://arxiv.org/abs/2309.15903v1 )

ライセンス: Link先を確認
Lukasz Fidkowski and Matthew B. Hastings(参考訳) フェルミオンを${\mathbb{z}}_2$ゲージ場に結合したフェルミオンを量子ビット系にマッピングするボーソニゼーションを用いることで、非自明な3フェルミオン量子セルオートマトン(qca)をフラックスループのフレーミングに依存する位相を実現するユニタリ作用素として、シャーリーらによるワークを構築できる。 我々は、このフレーミング依存フェーズを、システムを通して$p+ip$状態の8ドルのコピーのポンプに関連付ける。 qcaが非自明であるのに対し、ポンプは浅い深さの回路(尾部はあるが)である、という明らかなパラドックスの解を与える。 また、$p+ip$状態のコピーが少ないことや、位相的に退化した基底状態に対する作用についても論じる。 その結果、自由フェルミ展開によって生成される$n$$$p+ip$状態のポンプは、ブリュイアンゾーンの第3ホモトピー群から$SU(N_b)$への写像として非自明な巻数$n$を特徴付ける自由フェルミユニタリである。 単純化された QCA 形式を用いて、予想されるような高次元の一般化を非自明な QCA にも与え、チャーン・サイモンズ理論との関係について論じる。

Using bosonization, which maps fermions coupled to a ${\mathbb{Z}}_2$ gauge field to a qubit system, we give a simple form for the non-trivial 3-fermion quantum cellular automaton (QCA) as a unitary operator realizing a phase depending on the framing of flux loops, building off work by Shirley et al. We relate this framing dependent phase to a pump of $8$ copies of a $p+ip$ state through the system. We give a resolution of an apparent paradox, namely that the pump is a shallow depth circuit (albeit with tails), while the QCA is nontrivial. We discuss also the pump of fewer copies of a $p+ip$ state, and describe its action on topologically degenerate ground states. One consequence of our results is that a pump of $n$ $p+ip$ states generated by a free Fermi evolution is a free fermion unitary characterized by a non-trivial winding number $n$ as a map from the third homotopy group of the Brilliouin Zone $3$-torus to that of $SU(N_ b)$, where $N_b$ is the number of bands. Using our simplified form of the QCA, we give higher dimensional generalizations that we conjecture are also nontrivial QCAs, and we discuss the relation to Chern-Simons theory.
翻訳日:2023-09-29 19:20:03 公開日:2023-09-27
# laguerre-gaussian states vs landau states: choose your fighter

Nonstationary Laguerre-Gaussian states vs Landau ones: choose your fighter ( http://arxiv.org/abs/2309.15899v1 )

ライセンス: Link先を確認
G.K. Sizykh, A.D. Chaikovskaia, D.V. Grosman, I.I. Pavlov, and D.V. Karlovets(参考訳) 広く用いられる定常ランダウ状態は、磁場中に一定の軌道角運動量(OAM)を持つ電子を記述しているが、非定常ラゲール・ガウス状態(NSLG)は、自由空間から磁場への移動後に渦電子を適切に特徴づける。 その理由は、境界条件がソレノイドに入った電子パケットのr.m.s.半径(横コヒーレンス長さ)の振動に繋がるからである。 NSLG状態の性質を包括的に調査し,ランダウ状態との関係を確立する。 例えば、磁場中の電子の直交コヒーレンス長は、通常、ランダウ状態コヒーレンス長さを大きく超える値の周りで振動する。 また, 実実験では避けられない自由電子の伝播軸と場方向との小さな不一致に対するnslg状態の感度についても検討した。 いかなる最先端パラメータに対しても、観測対象への補正は無視可能であり、電子OAMは伝播軸の小さな傾きに頑健であることが示されている。 最後に、位相空間における多くの粒子の古典ビームと量子波パケットの類似性を図り、NSLG状態の平均放射率を計算し、その量子的性質の尺度として機能する。

Although the widely used stationary Landau states describe electrons with a definite orbital angular momentum (OAM) in a magnetic field, it is the lesser known nonstationary Laguerre-Gaussian (NSLG) states that appropriately characterize vortex electrons after their transfer from free space to the field. The reason is boundary conditions lead to oscillations of the r.m.s. radius (the transverse coherence length) of the electron packet that has entered a solenoid. We comprehensively investigate properties of the NSLG states and establish their connections with the Landau states. For instance, we show that the transverse coherence length of an electron in the field usually oscillates around a value greatly exceeding the Landau state coherence length. We also discuss sensitivity of the NSLG states to a small misalignment between the propagation axis of a free electron and the field direction, which is inevitable in a real experiment. It is shown that for any state-of-the-art parameters, the corrections to the observables are negligible, and the electron OAM stays robust to a small tilt of the propagation axis. Finally, we draw analogies between a quantum wave packet and a classical beam of many particles in phase space, calculating the mean emittance of the NSLG states, which acts as a measure of their quantum nature.
翻訳日:2023-09-29 19:19:32 公開日:2023-09-27
# 一般化されたブラックホールエントロピーはフォン・ノイマンエントロピーである

Generalized Black Hole Entropy is von Neumann Entropy ( http://arxiv.org/abs/2309.15897v1 )

ライセンス: Link先を確認
Jonah Kudler-Flam, Samuel Leutheusser, Gautam Satishchandran(参考訳) 最近、シュワルツシルト-AdSブラックホールの質量にdressした可観測物のフォン・ノイマン代数やデ・シッターの観測者がタイプIIであることが示されている。 半古典状態のフォン・ノイマンエントロピーは一般化エントロピーであることが判明した。 しかし、これらの議論は平衡状態(kms)の存在に依存しており、例えば重力崩壊によって形成されたブラックホール、カーブラックホール、あるいは漸近的にド・ジッター空間内のブラックホールには適用されない。 本稿では, キリング地平線を持つ任意の時空上の線形場に対して, 着衣可観測体の代数を求めるための一般的な枠組みを提案する。 定常状態(ただし必ずしも KMS ではない)の存在と解の適切な崩壊を仮定すると、着飾った可観測体の代数が常に地平線上に「局所化」されたタイプII因子を含むという構造定理が証明される。 これらの仮定は、ほとんどのケースで厳格に証明されている。 漸近的に平坦なケーラーブラックホールの外方での代数に応用すると、場はブラックホールの質量と角運動量にdressした状態で、地平線上のタイプII$_{\infty}$代数と過去のヌル無限大におけるタイプI$_{\infty}$代数の積が見つかる。 シュワルツシルト=ド・シッター (Schwarzschild-de Sitter) では、観測者を導入するにもかかわらず、場の可観測物はブラックホールと宇宙的地平線の摂動領域に似ており、各地平線上のタイプII$_{\infty}$代数の積である。 いずれの場合も、半古典状態に対するフォン・ノイマンのエントロピーは一般化エントロピーによって与えられる。 我々の結果は、他の「有界構造」が存在する場合(例えば、漸近境界あるいは他のキリング地平線)、可観測体の代数はタイプII$_{\infty}$であり、そのような構造が存在しない場合(例えば、デ・シッター)、代数はタイプII$_{1}$であることを示している。

It was recently shown that the von Neumann algebras of observables dressed to the mass of a Schwarzschild-AdS black hole or an observer in de Sitter are Type II, and thus admit well-defined traces. The von Neumann entropies of "semi-classical" states were found to be generalized entropies. However, these arguments relied on the existence of an equilibrium (KMS) state and thus do not apply to, e.g., black holes formed from gravitational collapse, Kerr black holes, or black holes in asymptotically de Sitter space. In this paper, we present a general framework for obtaining the algebra of dressed observables for linear fields on any spacetime with a Killing horizon. We prove, assuming the existence of a stationary (but not necessarily KMS) state and suitable decay of solutions, a structure theorem that the algebra of dressed observables always contains a Type II factor "localized" on the horizon. These assumptions have been rigorously proven in most cases of interest. Applied to the algebra in the exterior of an asymptotically flat Kerr black hole, where the fields are dressed to the black hole mass and angular momentum, we find a product of a Type II$_{\infty}$ algebra on the horizon and a Type I$_{\infty}$ algebra at past null infinity. In Schwarzschild-de Sitter, despite the fact that we introduce an observer, the quantum field observables are dressed to the perturbed areas of the black hole and cosmological horizons and is the product of Type II$_{\infty}$ algebras on each horizon. In all cases, the von Neumann entropy for semiclassical states is given by the generalized entropy. Our results suggest that in all cases where there exists another "boundary structure" (e.g., an asymptotic boundary or another Killing horizon) the algebra of observables is Type II$_{\infty}$ and in the absence of such structures (e.g., de Sitter) the algebra is Type II$_{1}$.
翻訳日:2023-09-29 19:19:11 公開日:2023-09-27
# ホログラムの弱い測定

Holographic Weak Measurement ( http://arxiv.org/abs/2309.15896v1 )

ライセンス: Link先を確認
Xinyu Sun, Shao-Kai Jian(参考訳) 本稿では,共形場理論(CFT)における弱測定のホログラフィック記述について述べる。 弱測定は、恒等作用素と射影作用素を補間するソフトプロジェクションと見なすことができ、測定されていないCFTとは異なる効果的な中心電荷を誘導することができる。 界面ブレーンによる弱測定をモデル化し, ポスト計測状態と非測定cftとに双対な異なるジオメトリを分離した。 無限系では、弱い測定は時空回転によってICFTと関連付けられる。 欠陥点に位置するツイスト演算子によるホログラフィックエンタングルメントエントロピーは,ICFTの計算と弱い測定の両方において一致していることがわかった。 さらに, 境界エントロピーをホログラフィックの絡み合いと分割関数によって計算する。 有限系では、弱い測定は豊富な位相図へと導かれる: 限界測定では、創発的ブレーンは2つのAdS測度を分離するが、無関係な測定では、ポスト測度は、ブレーンによって分離されるAdS時空とブラックホール時空を特徴とする。 後の段階では測定は無関係であるが、ポスト計測幾何学はPythonのランチを実現できる。

In this paper, we study a holographic description of weak measurements in conformal field theories (CFTs). Weak measurements can be viewed as a soft projection that interpolates between an identity operator and a projection operator, and can induce an effective central charge distinct from the unmeasured CFT. We model the weak measurement by an interface brane, separating different geometries dual to the post measurement state and the unmeasured CFT, respectively. In an infinite system, the weak measurement is related to ICFT via a spacetime rotation. We find that the holographic entanglement entropy with twist operators located on the defect is consistent in both calculations for ICFT and weak measurements. We additionally calculate the boundary entropy via holographic entanglement as well as partition function. In a finite system, the weak measurement can lead to a rich phase diagram: for marginal measurements the emergent brane separates two AdS geometries, while for irrelevant measurements the post measurement geometry features an AdS spacetime and a black hole spacetime that are separated by the brane. Although the measurement is irrelevant in the later phase, the post measurement geometry can realize a Python's lunch.
翻訳日:2023-09-29 19:18:32 公開日:2023-09-27
# 超音速真空変調によるポンポンピング

Phonon Pumping by Modulating the Ultrastrong Vacuum ( http://arxiv.org/abs/2309.15891v1 )

ライセンス: Link先を確認
Fabrizio Minganti, Alberto Mercurio, Fabio Mauceri, Marco Scigliuzzo, Salvatore Savasta, Vincenzo Savona(参考訳) 超強光物質結合における系の真空(すなわち基底状態)には、動的摂動なしでは放出できない粒子が含まれており、仮想と呼ばれる。 共振光学共振器を2レベル系(qubit)に超強結合し、同時に機械的共振器に光機械的に結合した三成分系において、仮想光子によって実現される鏡の実際の機械的励起を誘導・観察するためのプロトコルを提案する。 実フォノンは、2レベル系の周波数がメカニカル共振器の周波数に匹敵する周波数で変調されたときにコヒーレントに放出されるため、光周波数よりもはるかに低い。 このハイブリッド効果は、基底状態における仮想光子集団の直接的な結果であることを示す。 我々は,この効果を実験的に観測できる技術を用いて,ハイブリッド超電導-オプトメカニカル・セットアップを提案し,正確に評価する。

The vacuum (i.e., ground state) of a system in ultrastrong light-matter coupling contains particles that cannot be emitted without any dynamical perturbation, and thus called virtual. We propose a protocol for inducing and observing real mechanical excitations of a mirror enabled by the virtual photons in the ground state of a tripartite system, where a resonant optical cavity is ultrastrongly coupled to a two-level system (qubit) and, at the same time, optomechanically coupled to a mechanical resonator. Real phonons are coherently emitted when the frequency of the two-level system is modulated at a frequency comparable to that of the mechanical resonator, therefore much lower than the optical frequency. We demonstrate that this hybrid effect is a direct consequence of the virtual photon population in the ground state. We propose and accurately characterize a hybrid superconducting-optomechanical setup based on available state-of-the-art technology, where this effect can be experimentally observed.
翻訳日:2023-09-29 19:18:11 公開日:2023-09-27
# ノイズ拡散モデルを用いた高感度無線画像配信

High Perceptual Quality Wireless Image Delivery with Denoising Diffusion Models ( http://arxiv.org/abs/2309.15889v1 )

ライセンス: Link先を確認
Selim F. Yilmaz, Xueyan Niu, Bo Bai, Wei Han, Lei Deng and Deniz Gunduz(参考訳) 本稿では,ディープJSCC(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題と,受信側での拡散確率モデル(DDPM)について考察する。 具体的には,実効的有限ブロック長系における知覚歪みのトレードオフに関心があり,音源とチャネルの符号化は極めて最適である。 本稿では,対象画像の領域ヌル空間分解を利用した新しいスキームを提案する。 エンコーディング後に画像のレンジ空間を送信し、DDPMを用いて、そのヌル空間内容を徐々に洗練する。 広範にわたる実験により,DeepJSCCや最先端の学習手法と比較して,再構成画像の歪みや知覚品質が著しく向上した。 さらなる研究と再現性を促進するために、ソースコードを公開します。

We consider the image transmission problem over a noisy wireless channel via deep learning-based joint source-channel coding (DeepJSCC) along with a denoising diffusion probabilistic model (DDPM) at the receiver. Specifically, we are interested in the perception-distortion trade-off in the practical finite block length regime, in which separate source and channel coding can be highly suboptimal. We introduce a novel scheme that utilizes the range-null space decomposition of the target image. We transmit the range-space of the image after encoding and employ DDPM to progressively refine its null space contents. Through extensive experiments, we demonstrate significant improvements in distortion and perceptual quality of reconstructed images compared to standard DeepJSCC and the state-of-the-art generative learning-based method. We will publicly share our source code to facilitate further research and reproducibility.
翻訳日:2023-09-29 19:17:53 公開日:2023-09-27
# クラス不均衡問題に対する射影型ファジィ最小二乗サポートベクトルマシン

Projection based fuzzy least squares twin support vector machine for class imbalance problems ( http://arxiv.org/abs/2309.15886v1 )

ライセンス: Link先を確認
M. Tanveer, Ritik Mishra, Bharat Richhariya(参考訳) クラス不均衡は多くの現実世界の分類タスクにおいて大きな問題である。 サンプル数の不均衡のため、サポートベクターマシン(svm)分類器は多数派クラスに偏りがある。 さらに、これらのサンプルはある程度のノイズとともにしばしば観測される。 そこで,これらの問題を取り除くために,クラス不均衡と騒がしいデータセットを扱うための新しいファジィベースアプローチを提案する。 これらの問題に対処する2つのアプローチを提案する。 最初のアプローチは、堅牢なエネルギーベースの直観的ファジィ最小二乗サポートベクトルマシン(IF-RELSTSVM)と呼ばれる直観的ファジィメンバシップに基づいている。 さらに,第2のアプローチでは,超平面型ファジィメンバシップの概念を導入し,最終分類器をロバストエネルギーベースファジィ最小二乗サポートベクトルマシン(F-RELSTSVM)と呼ぶ。 この手法を用いることで、メンバーシップ値はプロジェクションに基づくアプローチに基づいており、そこではデータポイントが超平面上に投影される。 提案アルゴリズムの性能を複数のベンチマークと合成データセットで評価した。 実験の結果,提案したIF-RELSTSVMとF-RELSTSVMはベースラインアルゴリズムよりも優れていた。 提案手法の意義を確認するために統計的検証を行う。 その結果,提案アルゴリズムは雑音や不均衡なデータセットに対して適用可能であることがわかった。

Class imbalance is a major problem in many real world classification tasks. Due to the imbalance in the number of samples, the support vector machine (SVM) classifier gets biased toward the majority class. Furthermore, these samples are often observed with a certain degree of noise. Therefore, to remove these problems we propose a novel fuzzy based approach to deal with class imbalanced as well noisy datasets. We propose two approaches to address these problems. The first approach is based on the intuitionistic fuzzy membership, termed as robust energy-based intuitionistic fuzzy least squares twin support vector machine (IF-RELSTSVM). Furthermore, we introduce the concept of hyperplane-based fuzzy membership in our second approach, where the final classifier is termed as robust energy-based fuzzy least square twin support vector machine (F-RELSTSVM). By using this technique, the membership values are based on a projection based approach, where the data points are projected on the hyperplanes. The performance of the proposed algorithms is evaluated on several benchmark and synthetic datasets. The experimental results show that the proposed IF-RELSTSVM and F-RELSTSVM models outperform the baseline algorithms. Statistical tests are performed to check the significance of the proposed algorithms. The results show the applicability of the proposed algorithms on noisy as well as imbalanced datasets.
翻訳日:2023-09-29 19:17:39 公開日:2023-09-27
# 光浮上実験のための摂動非線形フィードバック力

Perturbative nonlinear feedback forces for optical levitation experiments ( http://arxiv.org/abs/2309.15976v1 )

ライセンス: Link先を確認
Oscar Kremer, Daniel Tandeitnik, Rafael Mufato, Igor Califrer, Breno Calderoni, Felipe Calliari, Bruno Melo, Guilherme Tempor\~ao, Thiago Guerreiro(参考訳) フィードバック制御は、非平衡熱力学から機械的運動の非ガウス状態の生成まで応用できる光トラップにおいて、よく決定された非線形有効電位を生成するのに使うことができる。 本稿では,摂動状態における浮遊ナノ粒子に対する効果的なフィードバック生成クォートポテンシャルの作用について検討する。 フィードバック遅延の効果を議論し、クォート不調和を受けるブラウン粒子の摂動理論からの予測を実験的に検証した。

Feedback control can be used to generate well-determined nonlinear effective potentials in an optical trap, a goal whose applications may range from non-equilibrium thermodynamics to the generation of non-Gaussian states of mechanical motion. Here, we investigate the action of an effective feedback-generated quartic potential on a levitated nanoparticle within the perturbation regime. The effects of feedback delay are discussed and predictions from the perturbation theory of a Brownian particle subjected to a quartic anharmonicity are experimentally verified.
翻訳日:2023-09-29 19:08:37 公開日:2023-09-27
# 相関走査型プローブ顕微鏡と量子欠陥分光法によるダイヤモンドフェルミレベルの光学的チューニング

Optical tuning of the diamond Fermi level measured by correlated scanning probe microscopy and quantum defect spectroscopy ( http://arxiv.org/abs/2309.15969v1 )

ライセンス: Link先を確認
Christian Pederson, Rajiv Giridharagopal, Fang Zhao, Scott T. Dunham, Yevgeny Raitses, David S. Ginger and Kai-Mei C. Fu(参考訳) 結晶中の量子点欠陥に基づく量子技術は、欠陥電荷状態を制御する必要がある。 ここでは、水素化表面を適度な光励起と同時スペクトルモニタリングで局所酸化することにより、浅い窒素空孔とシリコン空孔中心の電荷状態を調整する。 導電性原子間力顕微鏡 (C-AFM) とケルビンプローブ力顕微鏡 (KPFM) を用いて, 酸化による導電率の低下と作業関数の変化を測定した。 ダイヤモンド表面下15-25nmのアニーリングにより生成した窒素空孔およびシリコン空孔中心の光学分光とこれらの走査プローブ測定を相関させた。 光露光機能として観測された欠陥の電荷状態は、レーザー酸化がフェルミレベルを少なくとも2.00 eVの範囲で正確に調整する方法を提供することを示した。 また, インプラント表面の酸化速度は, 環境条件下では非実装表面に比べて有意に高い値を示した。 表面の電子親和性に関する知識と組み合わせることで、KPFMは量子欠陥の電荷安定化のための表面フェルミ準位工学を前進させる強力な高空間分解技術であることを示す。

Quantum technologies based on quantum point defects in crystals require control over the defect charge state. Here we tune the charge state of shallow nitrogen-vacancy and silicon-vacancy centers by locally oxidizing a hydrogenated surface with moderate optical excitation and simultaneous spectral monitoring. The loss of conductivity and change in work function due to oxidation are measured in atmosphere using conductive atomic force microscopy (C-AFM) and Kelvin probe force microscopy (KPFM). We correlate these scanning probe measurements with optical spectroscopy of the nitrogen-vacancy and silicon-vacancy centers created via implantation and annealing 15-25 nm beneath the diamond surface. The observed charge state of the defects as a function of optical exposure demonstrates that laser oxidation provides a way to precisely tune the Fermi level over a range of at least 2.00 eV. We also observe a significantly larger oxidation rate for implanted surfaces compared to unimplanted surfaces under ambient conditions. Combined with knowledge of the electron affinity of a surface, these results suggest KPFM is a powerful, high-spatial resolution technique to advance surface Fermi level engineering for charge stabilization of quantum defects.
翻訳日:2023-09-29 19:08:29 公開日:2023-09-27
# ソーシャルメディア利用者のイデオロギー的バイアスのダイナミクス

Dynamics of Ideological Biases of Social Media Users ( http://arxiv.org/abs/2309.15968v1 )

ライセンス: Link先を確認
Mohammed Shahid Modi, James Flamino, and Boleslaw K. Szymanski(参考訳) 何世紀にもわたって人間性は、対人インタラクションのスキルを完成させ、対面環境で他人の嘘や行為を欺くことができるようなパターンを進化させてきた。 携帯電話やソーシャルメディアへのアクセスが前例のない成長を遂げたことは、重要な疑問を提起する。この新しいテクノロジーは人々のインタラクションにどのように影響し、伝統的なパターンの使用をサポートするのか? 本稿では,ソーシャルメディアにおけるホモフィリィ駆動型パターンについて,この問題に答える。 これまでの研究では,大学構内における学生の意見の変化は,一般の意見を抱こうという願望に起因していることがわかった。 ここでは、オンラインプラットフォーム全体の意見グループの進化が、同じ欲求によって引き起こされていることを実証する。 われわれはTwitterとParlerという2つのソーシャルメディアに焦点を当て、ユーザーの政治的偏見を追跡した。 パーラーでは、当初安定した右利きのユーザーのグループは、政治的に偏ったメンバーのより弱い過渡的なグループを支配する永久的な右利きのエコーチェンバーへと進化した。 対照的に、twitterでは、2つの大きな対立するバイアスグループの初期の存在は、高度に分極したバイモーダルなバイアス分布の進化につながった。 追跡期間における初期バイアスグループから最終バイアスグループへのユーザの移動をキャプチャする。 また,ホモフィリーの副作用によってユーザ選択が影響を受けることを示した。 プラットフォームに入るユーザーは、新しいユーザーのバイアスに十分近い範囲で政治的偏見を持つメンバーが十分に大きなグループを見つけようとする。 成功すれば、彼らはバイアスを安定させ、グループのメンバーになる。 そうでなければ、彼らはプラットフォームを離れる。 本稿で明らかになったユーザのダイナミクスは,ソーシャルメディアや社会的に認識されたネットワーク上でのソーシャルグループを支援する技術ソリューションの基礎を築き上げている。

Humanity for centuries has perfected skills of interpersonal interactions and evolved patterns that enable people to detect lies and deceiving behavior of others in face-to-face settings. Unprecedented growth of people's access to mobile phones and social media raises an important question: How does this new technology influence people's interactions and support the use of traditional patterns? In this paper, we answer this question for homophily driven patterns in social media. In our previous studies, we found that, on a university campus, changes in student opinions were driven by the desire to hold popular opinions. Here, we demonstrate that the evolution of online platform-wide opinion groups is driven by the same desire. We focus on two social media: Twitter and Parler, on which we tracked the political biases of their users. On Parler, an initially stable group of right-biased users evolved into a permanent right-leaning echo chamber dominating weaker, transient groups of members with opposing political biases. In contrast, on Twitter, the initial presence of two large opposing bias groups led to the evolution of a bimodal bias distribution, with a high degree of polarization. We capture the movement of users from the initial to final bias groups during the tracking period. We also show that user choices are influenced by side-effects of homophily. The users entering the platform attempt to find a sufficiently large group whose members hold political bias within the range sufficiently close to the new user's bias. If successful, they stabilize their bias and become a permanent member of the group. Otherwise, they leave the platform. We believe that the dynamics of users uncovered in this paper create a foundation for technical solutions supporting social groups on social media and socially aware networks.
翻訳日:2023-09-29 19:08:06 公開日:2023-09-27
# trace: 軌道の反事実的説明スコア

TraCE: Trajectory Counterfactual Explanation Scores ( http://arxiv.org/abs/2309.15965v1 )

ライセンス: Link先を確認
Jeffrey N. Clark, Edward A. Small, Nawid Keshtmand, Michelle W.L. Wan, Elena Fillola Mayoral, Enrico Werner, Christopher P. Bourdeaux, Raul Santos-Rodriguez(参考訳) 対物的説明とその関連するアルゴリズム的説明は、典型的にはブラックボックス分類器からの予測を理解し、説明し、変更する。 本稿では,逐次的意思決定作業の進捗を評価するために,反事実の利用を拡大することを提案する。 この目的のために,高度に複雑なシナリオにおいて進捗を1つの値に蒸留・凝縮することができる,モデル非依存なモジュラーフレームワークであるtrace(trajectory counterfactual description)スコアを導入する。 我々は、医療と気候変動にまたがる2つのケーススタディにおいて、TraCEのドメイン間での有効性を示す。

Counterfactual explanations, and their associated algorithmic recourse, are typically leveraged to understand, explain, and potentially alter a prediction coming from a black-box classifier. In this paper, we propose to extend the use of counterfactuals to evaluate progress in sequential decision making tasks. To this end, we introduce a model-agnostic modular framework, TraCE (Trajectory Counterfactual Explanation) scores, which is able to distill and condense progress in highly complex scenarios into a single value. We demonstrate TraCE's utility across domains by showcasing its main properties in two case studies spanning healthcare and climate change.
翻訳日:2023-09-29 19:07:39 公開日:2023-09-27
# The Devil is in the details: A Deep Dive into the Rabbit Hole of Data Filtering

The Devil is in the Details: A Deep Dive into the Rabbit Hole of Data Filtering ( http://arxiv.org/abs/2309.15954v1 )

ライセンス: Link先を確認
Haichao Yu, Yu Tian, Sateesh Kumar, Linjie Yang, Heng Wang(参考訳) 事前学習データの質は基礎モデルの性能において重要な役割を果たす。 一般的なファウンデーションモデルは、データフィルタリングのための独自のレシピを設計することが多いため、さまざまなデータフィルタリングアプローチの分析と比較が難しい。 DataCompは、データフィルタリングのさまざまな方法を評価するための新しいベンチマークである。 本稿では,DataComp チャレンジに参加する際の学習と解決について述べる。 我々のフィルタリング戦略は, 単一モダリティフィルタリング, クロスモダリティフィルタリング, データ分散アライメントの3段階を含む。 既存の手法を統合し,シーンテキストの干渉を軽減するためにクリップスコアを水平反転画像に計算し,視覚モデルと言語モデルを用いて目標下流タスクのトレーニングサンプルを検索し,データ分布のバランスを調整し,計算予算の割り当て効率を向上させるなど,新たなソリューションを提案する。 デザインの選択をスライスし、詳細に分析し、オープン質問を議論します。 提案手法は,38タスクの平均性能では4%以上,imagenetでは2%以上,datacomp paperより優れた手法である。

The quality of pre-training data plays a critical role in the performance of foundation models. Popular foundation models often design their own recipe for data filtering, which makes it hard to analyze and compare different data filtering approaches. DataComp is a new benchmark dedicated to evaluating different methods for data filtering. This paper describes our learning and solution when participating in the DataComp challenge. Our filtering strategy includes three stages: single-modality filtering, cross-modality filtering, and data distribution alignment. We integrate existing methods and propose new solutions, such as computing CLIP score on horizontally flipped images to mitigate the interference of scene text, using vision and language models to retrieve training samples for target downstream tasks, rebalancing the data distribution to improve the efficiency of allocating the computational budget, etc. We slice and dice our design choices, provide in-depth analysis, and discuss open questions. Our approach outperforms the best method from the DataComp paper by over 4% on the average performance of 38 tasks and by over 2% on ImageNet.
翻訳日:2023-09-29 19:07:25 公開日:2023-09-27
# 長期時系列予測ベンチマークの統一化

Unified Long-Term Time-Series Forecasting Benchmark ( http://arxiv.org/abs/2309.15946v1 )

ライセンス: Link先を確認
Jacek Cyranka, Szymon Haponiuk(参考訳) 時系列データ予測のための機械学習手法の進歩を支援するため,長期時系列予測のために設計された包括的データセットを提案する。 多様な動的システムと実生活記録から得られたデータセットのコレクションを組み込んだ。 各データセットは、所定のルックバック長さのトレーニングとテストトラジェクタに分割して標準化される。 長期予測能力の信頼性の高い評価を保証するために、最大2000ドルの軌道を含む。 多様なシナリオにおいて最も効果的なモデルを決定するために、LSTM、DeepAR、NLinear、N-Hits、PatchTST、LatntODEといった古典的および最先端のモデルを用いて広範なベンチマーク分析を行う。 その結果,これらのモデルの性能比較が興味深いことを示し,モデルの有効性のデータセット依存性を強調した。 特筆すべきは、独自の潜在NLinearモデルを導入し、カリキュラム学習フェーズでDeepARを強化することである。 両者とも常にバニラを上回っている。

In order to support the advancement of machine learning methods for predicting time-series data, we present a comprehensive dataset designed explicitly for long-term time-series forecasting. We incorporate a collection of datasets obtained from diverse, dynamic systems and real-life records. Each dataset is standardized by dividing it into training and test trajectories with predetermined lookback lengths. We include trajectories of length up to $2000$ to ensure a reliable evaluation of long-term forecasting capabilities. To determine the most effective model in diverse scenarios, we conduct an extensive benchmarking analysis using classical and state-of-the-art models, namely LSTM, DeepAR, NLinear, N-Hits, PatchTST, and LatentODE. Our findings reveal intriguing performance comparisons among these models, highlighting the dataset-dependent nature of model effectiveness. Notably, we introduce a custom latent NLinear model and enhance DeepAR with a curriculum learning phase. Both consistently outperform their vanilla counterparts.
翻訳日:2023-09-29 19:07:07 公開日:2023-09-27
# ハードウェア・アルゴリズム・コミュニケーション共同設計による効率的かつ信頼できるAIを目指して

Towards Efficient and Trustworthy AI Through Hardware-Algorithm-Communication Co-Design ( http://arxiv.org/abs/2309.15942v1 )

ライセンス: Link先を確認
Bipin Rajendran, Osvaldo Simeone, and Bashir M. Al-Hashimi(参考訳) ニューラルネットワークに基づく人工知能(AI)アルゴリズムは、精度を最大化する目的で何十年も設計されてきた。 これは2つの望ましくない効果をもたらした。 第一に、計算とメモリ要求の観点から測定すると、モデル複雑性が指数関数的に増大する。 第二に、最先端のAIモデルは、その不確実性に関する信頼できる尺度を提供することができず、おそらくは、その回答を‘幻滅’させ、センシティブなアプリケーションにおける意思決定への採用を妨げている。 本稿では、効率的で信頼性の高いaiを実現することを目的として、計算基盤に物理的洞察を統合するハードウェアとソフトウェア設計の交差点における研究方向、効率的な情報処理に関する神経科学的な原則、最適な不確実性定量化に関する情報理論的な結果、分散処理のための通信論的ガイドラインについて紹介する。 この論文は、従来のvon neumannデジタルコンピューティングパラダイムを超えて、インメモリ、ニューロモルフィック、量子コンピューティング技術を採用する新しいコンピューティングハードウェアアーキテクチャを活用しつつ、正確性だけでなく不確実性も対象とする新しい設計方法論を提唱している。 提案手法の重要な全体原理は,計算基板やプロセッサ間の通信チャネルに固有の確率性を,古典的および量子的不確実性の表現と処理のために利用するリソースとして見ることである。

Artificial intelligence (AI) algorithms based on neural networks have been designed for decades with the goal of maximising some measure of accuracy. This has led to two undesired effects. First, model complexity has risen exponentially when measured in terms of computation and memory requirements. Second, state-of-the-art AI models are largely incapable of providing trustworthy measures of their uncertainty, possibly `hallucinating' their answers and discouraging their adoption for decision-making in sensitive applications. With the goal of realising efficient and trustworthy AI, in this paper we highlight research directions at the intersection of hardware and software design that integrate physical insights into computational substrates, neuroscientific principles concerning efficient information processing, information-theoretic results on optimal uncertainty quantification, and communication-theoretic guidelines for distributed processing. Overall, the paper advocates for novel design methodologies that target not only accuracy but also uncertainty quantification, while leveraging emerging computing hardware architectures that move beyond the traditional von Neumann digital computing paradigm to embrace in-memory, neuromorphic, and quantum computing technologies. An important overarching principle of the proposed approach is to view the stochasticity inherent in the computational substrate and in the communication channels between processors as a resource to be leveraged for the purpose of representing and processing classical and quantum uncertainty.
翻訳日:2023-09-29 19:06:51 公開日:2023-09-27
# 都市生成のための自動エンコーディングツリーとその応用

AutoEncoding Tree for City Generation and Applications ( http://arxiv.org/abs/2309.15941v1 )

ライセンス: Link先を確認
Wenyu Han, Congcong Wen, Lazarus Chok, Yan Liang Tan, Sheung Lung Chan, Hang Zhao, Chen Feng(参考訳) 都市モデリングと生成は、ゲーム、都市計画、自動運転など様々な用途への関心が高まっている。 シングルオブジェクトや屋内シーンの生成に焦点を当てた以前の作品とは異なり、都市の膨大な空間データが生成モデルに挑戦している。 さらに、公開可能な3D都市データセットはほとんどなく、都市生成の方法の開発を妨げている。 この論文では、まずニューヨーク、チューリッヒ、東京、ベルリン、ボストン、その他の大都市の3万以上の地理参照オブジェクトを収集した。 このデータセットに基づいて,木構造の自動エンコーダニューラルネットワークであるAETreeを提案する。 具体的には,まず,建築レイアウト間の類似性を計測する新しい空間幾何学距離(sgd)メトリックを提案し,sgdメトリックに基づく建築の生幾何学データの上に二分木を構築する。 次に,エンコーダがボトムアップから空間情報を抽出し,マージすることを学ぶ木構造ネットワークを提案する。 結果のグローバル表現は、再構成や生成のために逆復号化される。 ツリーのレベルが増加するにつれて長期依存の問題に対処するため、提案するaetreeの基本ネットワーク要素としてlong short-term memory(lstm)セルを用いる。 さらに,生成結果を定量的に評価するために,OAR(Overlapping Area Ratio)という新しい指標を導入する。 収集したデータセットの実験により,提案モデルが2次元および3次元都市生成に与える影響が示された。 さらに、AETreeが学んだ潜在機能は、下流の都市計画アプリケーションに役立つ。

City modeling and generation have attracted an increased interest in various applications, including gaming, urban planning, and autonomous driving. Unlike previous works focused on the generation of single objects or indoor scenes, the huge volumes of spatial data in cities pose a challenge to the generative models. Furthermore, few publicly available 3D real-world city datasets also hinder the development of methods for city generation. In this paper, we first collect over 3,000,000 geo-referenced objects for the city of New York, Zurich, Tokyo, Berlin, Boston and several other large cities. Based on this dataset, we propose AETree, a tree-structured auto-encoder neural network, for city generation. Specifically, we first propose a novel Spatial-Geometric Distance (SGD) metric to measure the similarity between building layouts and then construct a binary tree over the raw geometric data of building based on the SGD metric. Next, we present a tree-structured network whose encoder learns to extract and merge spatial information from bottom-up iteratively. The resulting global representation is reversely decoded for reconstruction or generation. To address the issue of long-dependency as the level of the tree increases, a Long Short-Term Memory (LSTM) Cell is employed as a basic network element of the proposed AETree. Moreover, we introduce a novel metric, Overlapping Area Ratio (OAR), to quantitatively evaluate the generation results. Experiments on the collected dataset demonstrate the effectiveness of the proposed model on 2D and 3D city generation. Furthermore, the latent features learned by AETree can serve downstream urban planning applications.
翻訳日:2023-09-29 19:06:27 公開日:2023-09-27
# Open-Vocabulary 3D Scene Graphsを用いたコンテキスト対応エンティティグラウンド

Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs ( http://arxiv.org/abs/2309.15940v1 )

ライセンス: Link先を確認
Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias(参考訳) 本稿では,オブジェクトインスタンスやエージェント,リージョンなど,さまざまなエンティティを自由形式のテキストベースのクエリで接地するための形式的フレームワークであるopen-vocabulary 3d scene graph(ovsg)を提案する。 従来のセマンティックなオブジェクトローカライゼーションアプローチとは異なり、我々のシステムはコンテキスト対応のエンティティローカライゼーションを容易にし、"`pick up a cup on a kitchen table" や " ``navigate to a sofa on a person are sitting" といったクエリを利用できる。 3Dシーングラフに関する既存の研究とは対照的に、OVSGは自由形式のテキスト入力とオープン語彙クエリをサポートする。 scannetデータセットと自己収集データセットを用いた一連の比較実験を通じて,提案手法が従来のセマンティクスベースのローカライズ手法の性能を大幅に上回ることを示す。 さらに,実世界のロボットナビゲーションおよび操作実験におけるOVSGの実践的応用を強調した。

We present an Open-Vocabulary 3D Scene Graph (OVSG), a formal framework for grounding a variety of entities, such as object instances, agents, and regions, with free-form text-based queries. Unlike conventional semantic-based object localization approaches, our system facilitates context-aware entity localization, allowing for queries such as ``pick up a cup on a kitchen table" or ``navigate to a sofa on which someone is sitting". In contrast to existing research on 3D scene graphs, OVSG supports free-form text input and open-vocabulary querying. Through a series of comparative experiments using the ScanNet dataset and a self-collected dataset, we demonstrate that our proposed approach significantly surpasses the performance of previous semantic-based localization techniques. Moreover, we highlight the practical application of OVSG in real-world robot navigation and manipulation experiments.
翻訳日:2023-09-29 19:06:01 公開日:2023-09-27
# 空間音イベント表現の自己教師付きコントラスト学習の検討

Exploring Self-Supervised Contrastive Learning of Spatial Sound Event Representation ( http://arxiv.org/abs/2309.15938v1 )

ライセンス: Link先を確認
Xilin Jiang, Cong Han, Yinghao Aaron Li, Nima Mesgarani(参考訳) 本研究では,空間オーディオの'what'と'where'を符号化する,コントラスト学習(mc-simclr)のための簡易なマルチチャネルフレームワークを提案する。 MC-SimCLRは、未ラベル空間オーディオから共振スペクトルと空間表現を学習し、下流タスクにおける事象分類と音像定位の両方を向上する。 その中核となるのは、波形、メルスペクトル、一般化相互相関(GCC)機能など、様々なレベルのオーディオ機能を拡張するマルチレベルデータ拡張パイプラインである。 さらに,マイクロホンやマスクメル,GCCチャネルの順序をランダムに交換する,シンプルで効果的なチャネルワイド拡張手法を提案する。 これらの拡張により,学習表現の上の線形層は,事象分類精度と局所化誤差の両方において教師ありモデルを大幅に上回っていることがわかった。 また,各加算法の効果を包括的に解析し,異なるラベルデータを用いた微調整性能の比較を行った。

In this study, we present a simple multi-channel framework for contrastive learning (MC-SimCLR) to encode 'what' and 'where' of spatial audios. MC-SimCLR learns joint spectral and spatial representations from unlabeled spatial audios, thereby enhancing both event classification and sound localization in downstream tasks. At its core, we propose a multi-level data augmentation pipeline that augments different levels of audio features, including waveforms, Mel spectrograms, and generalized cross-correlation (GCC) features. In addition, we introduce simple yet effective channel-wise augmentation methods to randomly swap the order of the microphones and mask Mel and GCC channels. By using these augmentations, we find that linear layers on top of the learned representation significantly outperform supervised models in terms of both event classification accuracy and localization error. We also perform a comprehensive analysis of the effect of each augmentation method and a comparison of the fine-tuning performance using different amounts of labeled data.
翻訳日:2023-09-29 19:05:43 公開日:2023-09-27
# 固有状態遷移におけるスケール不変臨界ダイナミクス

Scale-invariant critical dynamics at eigenstate transitions ( http://arxiv.org/abs/2309.16005v1 )

ライセンス: Link先を確認
Miroslav Hopjan, Lev Vidmar(参考訳) スケール不変力学の概念は、スペクトル形式因子(sff)のランプの出現によって示されるように、量子カオス系において後期によく確立されている。 先行論文[phys. rev. lett. 131, 060404 (2023)]の結果に基づいて,臨界点における生存確率とsffのスケール不変ダイナミクスの特徴,すなわち,量子カオスから局在への固有状態遷移について検討する。 量子カオス状態とは対照的に、臨界における量子力学は、後期のスケール不変性を示すだけでなく、中間時力学と呼ばれるより短い時間で現れることを示す。 結果は二次モデルと相互作用モデルの両方に適用できる。 具体的には,3次元から5次元のアンダーソンモデル,前者のパワールールランダムバンド行列,後者の量子太陽モデルと超メトリックモデル,およびローゼンツヴァイク・ポーターモデルについて検討した。

The notion of scale invariant dynamics is well established at late times in quantum chaotic systems, as illustrated by the emergence of a ramp in the spectral form factor (SFF). Building on the results of the preceding Letter [Phys. Rev. Lett. 131, 060404 (2023)], we explore features of scale invariant dynamics of survival probability and SFF at criticality, i.e., at eigenstate transitions from quantum chaos to localization. We show that, in contrast to the quantum chaotic regime, the quantum dynamics at criticality do not only exhibit scale invariance at late times, but also at much shorter times that we refer to as mid-time dynamics. Our results apply to both quadratic and interacting models. Specifically, we study Anderson models in dimensions three to five and power-law random banded matrices for the former, and the quantum sun model and the ultrametric model for the latter, as well as the Rosenzweig-Porter model.
翻訳日:2023-09-29 18:59:50 公開日:2023-09-27
# スピンカップリングによるコマグネトメーター応答の普遍的決定

Universal determination of comagnetometer response to spin couplings ( http://arxiv.org/abs/2309.16000v1 )

ライセンス: Link先を確認
Mikhail Padniuk, Emmanuel Klinger, Grzegorz Lukasiewicz, Daniel Gavilan-Martin, Tianhao Liu, Szymon Pustelny, Derek F. Jackson Kimball, Dmitry Budker, Arne Wickenbrock(参考訳) 任意のスピン摂動に対する自己補償希ガス-アルカリ-金属コマグネトロンの周波数依存性応答をキャリブレーションする方法を提案する。 これには回転やエキゾチックスピン相互作用のような磁気および非磁性の摂動が含まれる。 この方法は、解析モデルに対する磁場応答の適合性に基づいている。 任意のスピン摂動に対するコマグネトメータの周波数依存応答は、適合パラメータを用いて推定できる。 本手法は, 推定回転応答と回転応答の実験的測定との比較により, 有効性を示す。 その結果,コマグネトメーター応答のゼロ周波数キャリブレーションに依存する実験は,広い周波数範囲でマグネトメーター感度を桁違いに過大あるいは過小評価できることがわかった。 さらに、コマグネトメータ動作中に動作パラメータがドリフトする傾向があるため、この差は時間とともに蓄積される。 実証された校正プロトコルは、例えば、電子や核スピンと結合する超軽量のボソニックダークマター場に対するコマグネトメーター感度の正確な予測と制御、および関連するシステムパラメータの正確な監視と制御を可能にする。

We propose and demonstrate a general method to calibrate the frequency-dependent response of self-compensating noble-gas-alkali-metal comagnetometers to arbitrary spin perturbations. This includes magnetic and nonmagnetic perturbations like rotations and exotic spin interactions. The method is based on a fit of the magnetic field response to an analytical model. The frequency-dependent response of the comagnetometer to arbitrary spin perturbations can be inferred using the fit parameters. We demonstrate the effectiveness of this method by comparing the inferred rotation response to an experimental measurement of the rotation response. Our results show that experiments relying on zero-frequency calibration of the comagnetometer response can over- or under-estimate the comagnetometer sensitivity by orders of magnitude over a wide frequency range. Moreover, this discrepancy accumulates over time as operational parameters tend to drift during comagnetometer operation. The demonstrated calibration protocol enables accurate prediction and control of comagnetometer sensitivity to, for example, ultralight bosonic dark-matter fields coupling to electron or nuclear spins as well as accurate monitoring and control of the relevant system parameters.
翻訳日:2023-09-29 18:59:30 公開日:2023-09-27
# サイバー物理システムにおけるカリキュラム学習によるデジタル双生児異常検出

Digital Twin-based Anomaly Detection with Curriculum Learning in Cyber-physical Systems ( http://arxiv.org/abs/2309.15995v1 )

ライセンス: Link先を確認
Qinghua Xu, Shaukat Ali and Tao Yue(参考訳) 異常検出はサイバー物理システム(CPS)のセキュリティを確保するために重要である。 しかし、攻撃とCPS自体の複雑さの増大により、CPSの異常検出はますます困難になりつつある。 本稿では,CPSの履歴データとリアルタイムデータの両方を活用する,ATTAINと呼ばれるディジタルツインベースの異常検出手法を提案する。 しかし、そのようなデータは困難さという点で大きく異なる。 したがって、人間の学習プロセスと同様に、深層学習モデル(例えばATTAIN)は、難易度の高いカリキュラムの恩恵を受けることができる。 そこで,本稿では,学習パラダイムを最適化するためにカリキュラム学習を導入することで達成されるカリキュラム学習(lattice)を用いた,デジタルツインに基づく異常検出手法を提案する。 LATTICEは、トレーニングスケジューラに入力する前に、各サンプルに障害スコアを割り当てる。 トレーニングスケジューラは、これらの難易度スコアに基づいてトレーニングデータのバッチをサンプリングし、容易から難易度データへの学習を行う。 LATTICEを評価するために、現実世界の5つのCPSテストベッドから収集された5つの公開データセットを使用します。 我々はLATTICEとATTAINや他の最先端の2つの異常検出装置を比較した。 評価の結果、格子は3つのベースラインを上回り、f1スコアの0.906%-2.367%に達した。 LATTICEはまた、平均して、5つのデータセットでATTAINのトレーニング時間を4.2%削減し、検出遅延時間に関してベースラインと同等である。

Anomaly detection is critical to ensure the security of cyber-physical systems (CPS). However, due to the increasing complexity of attacks and CPS themselves, anomaly detection in CPS is becoming more and more challenging. In our previous work, we proposed a digital twin-based anomaly detection method, called ATTAIN, which takes advantage of both historical and real-time data of CPS. However, such data vary significantly in terms of difficulty. Therefore, similar to human learning processes, deep learning models (e.g., ATTAIN) can benefit from an easy-to-difficult curriculum. To this end, in this paper, we present a novel approach, named digitaL twin-based Anomaly deTecTion wIth Curriculum lEarning (LATTICE), which extends ATTAIN by introducing curriculum learning to optimize its learning paradigm. LATTICE attributes each sample with a difficulty score, before being fed into a training scheduler. The training scheduler samples batches of training data based on these difficulty scores such that learning from easy to difficult data can be performed. To evaluate LATTICE, we use five publicly available datasets collected from five real-world CPS testbeds. We compare LATTICE with ATTAIN and two other state-of-the-art anomaly detectors. Evaluation results show that LATTICE outperforms the three baselines and ATTAIN by 0.906%-2.367% in terms of the F1 score. LATTICE also, on average, reduces the training time of ATTAIN by 4.2% on the five datasets and is on par with the baselines in terms of detection delay time.
翻訳日:2023-09-29 18:59:13 公開日:2023-09-27
# 量子シミュレーションのための多モードキャビティCentric Architecture

Multi-mode Cavity Centric Architectures for Quantum Simulation ( http://arxiv.org/abs/2309.15994v1 )

ライセンス: Link先を確認
Samuel Stein, Fei Hua, Chenxu Liu, Charles Guinn, James Ang, Eddy Zhang, Srivatsan Chakram, Yufei Ding, Ang Li(参考訳) 短期量子コンピューティング技術は、膨大な複雑さのオーバーヘッドに対処し、アルゴリズムを誘導し、工学と科学の革新を必要とする能力を妨げている。 関心のある問題の1つのクラスは量子シミュレーションであり、量子システムは量子コンピュータを使ってシミュレーションされる。 しかし、現在のデバイスはまだ古典的なテンソルネットワーク技術を超えていない。 古典的なシミュレーション技術が失敗する問題に対しては、大きな絡み合いが必要となる。 量子シミュレーション問題を実装する別の課題は、量子ビットがアイドル状態にあり、交互にシミュレーション項が実装され、システムがデコヒーレンスに露呈することである。 近い将来、トランスモンなどの回路qed素子の2次元平面超伝導格子は大きな注目を集めるが、それらは近接トポロジーと比較的短い寿命によって妨げられ、量子シミュレーションに問題となる2つの問題となっている。 特に興味深い技術は、複数のキュービットを1つのデバイスに格納できるマルチモード超伝導共振器である。 これらのキャビティは、量子シミュレーション問題に特によく適合する自然な仮想トポロジを持ち、他の平面超伝導ハードウェアに比べて寿命が長いことが観察される。 本稿では,これらのデバイスが量子シミュレーション問題と整合し,量子メモリ候補としての可能性に動機づけられた,現在の風景への単純な統合とその量子シミュレーションへの影響について論じる。 我々は,MUCICsトランスパイラの開発を報告し,量子シミュレーション回路の深さを最大82%削減した。 さらに、変動量子アルゴリズムによる収束結果の最大19.4%の改善を実証した。

Near-term quantum computing technologies grapple with huge complexity overheads, hindering their ability to induce algorithms, necessitating engineering and scientific innovations. One class of problems of interest is Quantum Simulation, whereby quantum systems are simulated using a quantum computer. However, current devices are yet to surpass classical tensor network techniques. For problems of interest, where classical simulation techniques fail, large degrees of entanglement are required. Another challenge of implementing quantum simulation problems is that qubits sit idle whilst alternating simulation terms are implemented, exposing the system to decoherence. In the near term, 2D planar superconducting lattices of circuit-QED elements such as the transmon continue to draw substantial attention, but they are hindered by their nearest neighbor topology and relatively short lifespan, two problems that are problematic for quantum simulation. One technology of particular interest is the multi-mode superconducting resonator capable of storing multiple qubits in one device. We observe that these cavities have a natural virtual topology that aligns particularly well with quantum simulation problems, and exhibit much longer lifespans in comparison to other planar superconducting hardware. In this paper we present MUCIC, we discuss the simple integration of these devices into the current landscape and their implications to quantum simulation, motivated by their alignment to the quantum simulation problem, and potential as a quantum memory candidate. We report the development of MUCICs transpiler, leading to reductions of up to 82% in quantum simulation circuit depths. Additionally, our investigation demonstrates improvements of up to 19.4% in converged results from Variational Quantum Algorithms.
翻訳日:2023-09-29 18:58:47 公開日:2023-09-27
# 画像データ拡張による基本スキルキャプションの堅牢性の向上

Targeted Image Data Augmentation Increases Basic Skills Captioning Robustness ( http://arxiv.org/abs/2309.15991v1 )

ライセンス: Link先を確認
Valentin Barriere, Felipe del Rio, Andres Carvallo De Ferari, Carlos Aspillaga, Eugenio Herrera-Berg, Cristian Buc Calderon(参考訳) ニューラルネットワークは通常、文脈外例に一般化するのに苦労する。 この制限の1つの理由は、世界の潜在的な相関構造に関する部分的な情報のみを含むデータセットを持つことである。 本研究では,テキスト対画像生成モデルを用いた相関構造ギャップを埋めることにより,モデルの人間的能力(例えば性別認識)を向上させることに焦点を当てたデータ拡張手法であるtida(targeted image-editing data augmentation)を提案する。 より具体的には、titaは、画像を記述するキャプション(例えば、画像中の特定の性別の存在)の特定のスキルを特定し、キャプションを変更(例えば、「女性」から「男性」)し、テキストから画像へのモデルを使用して、新しいキャプションにマッチする画像の編集を行う(例えば、文脈を同一に保ちながら、女性を男性に変更する)。 Flickr30Kのベンチマークから, 性別, 色, カウント能力に関連するTIDA強化データセットは, 元のデータセットと比較すると, 画像キャプションの指標において, 性能が向上することを示した。 さらに、古典的なブレウ計量に依存することに加えて、異なる方法でベースラインに対するモデルの改善に関するきめ細かな分析を行う。 テキスト対画像生成モデルを比較し,画像キャプションモデルにおける視覚的符号化とテキスト復号の異なる振る舞いを見出した。

Artificial neural networks typically struggle in generalizing to out-of-context examples. One reason for this limitation is caused by having datasets that incorporate only partial information regarding the potential correlational structure of the world. In this work, we propose TIDA (Targeted Image-editing Data Augmentation), a targeted data augmentation method focused on improving models' human-like abilities (e.g., gender recognition) by filling the correlational structure gap using a text-to-image generative model. More specifically, TIDA identifies specific skills in captions describing images (e.g., the presence of a specific gender in the image), changes the caption (e.g., "woman" to "man"), and then uses a text-to-image model to edit the image in order to match the novel caption (e.g., uniquely changing a woman to a man while maintaining the context identical). Based on the Flickr30K benchmark, we show that, compared with the original data set, a TIDA-enhanced dataset related to gender, color, and counting abilities induces better performance in several image captioning metrics. Furthermore, on top of relying on the classical BLEU metric, we conduct a fine-grained analysis of the improvements of our models against the baseline in different ways. We compared text-to-image generative models and found different behaviors of the image captioning models in terms of encoding visual encoding and textual decoding.
翻訳日:2023-09-29 18:58:22 公開日:2023-09-27
# 下肢外傷のモニタリングと管理における歩行分析の意義に関する機械学習による分析

Machine Learning Based Analytics for the Significance of Gait Analysis in Monitoring and Managing Lower Extremity Injuries ( http://arxiv.org/abs/2309.15990v1 )

ライセンス: Link先を確認
Mostafa Rezapour, Rachel B. Seymour, Stephen H. Sims, Madhav A. Karunakar, Nahir Habet, Metin Nafi Gurcan(参考訳) 本研究は,下肢骨折患者の術後合併症,例えば感染症,悪性腫瘍,ハードウェア刺激などを評価するツールとしての歩行分析の可能性を検討した。 本研究は,連続歩行データセットを用いた複雑度予測のための教師付き機械学習モデルの習熟度に着目した。 研究センターで下肢骨折の患者を診察した。 胸部装着型IMU装置を用いて歩行解析を行った。 ソフトウェアを用いて、生の歩行データを前処理し、12の必須歩行変数を強調した。 XGBoost、Logistic Regression、SVM、LightGBM、Random Forestといった機械学習モデルは、トレーニングされ、テストされ、評価された。 クラス不均衡に対する注意が与えられ、SMOTEを使用して対処された。 我々は、歩行分析の時間差によらず、歩行変数に対する変化率(ROC)を計算する手法を導入した。 XGBoostはSMOTEの適用前後で最適なモデルであった。 SMOTE以前のモデルでは平均テストAUCは0.90(95% CI: [0.79, 1.00])、テスト精度は86%(95% CI: [75%, 97%])であった。 特徴の重要度分析は,ケガと歩行分析の期間が重要であった。 データパターンは早期の生理的補償を示し,その後に安定化相を呈し,即時歩行分析を強調した。 本研究は,整形外科治療における歩行解析における機械学習,特にXGBoostの可能性を明らかにする。 術後合併症の予測には,早期歩行評価が不可欠であり,介入点を明らかにする。 以上の結果から, 整形外科がデータ型アプローチへ移行し, 患者の予後が向上することが示唆された。

This study explored the potential of gait analysis as a tool for assessing post-injury complications, e.g., infection, malunion, or hardware irritation, in patients with lower extremity fractures. The research focused on the proficiency of supervised machine learning models predicting complications using consecutive gait datasets. We identified patients with lower extremity fractures at an academic center. Patients underwent gait analysis with a chest-mounted IMU device. Using software, raw gait data was preprocessed, emphasizing 12 essential gait variables. Machine learning models including XGBoost, Logistic Regression, SVM, LightGBM, and Random Forest were trained, tested, and evaluated. Attention was given to class imbalance, addressed using SMOTE. We introduced a methodology to compute the Rate of Change (ROC) for gait variables, independent of the time difference between gait analyses. XGBoost was the optimal model both before and after applying SMOTE. Prior to SMOTE, the model achieved an average test AUC of 0.90 (95% CI: [0.79, 1.00]) and test accuracy of 86% (95% CI: [75%, 97%]). Feature importance analysis attributed importance to the duration between injury and gait analysis. Data patterns showed early physiological compensations, followed by stabilization phases, emphasizing prompt gait analysis. This study underscores the potential of machine learning, particularly XGBoost, in gait analysis for orthopedic care. Predicting post-injury complications, early gait assessment becomes vital, revealing intervention points. The findings support a shift in orthopedics towards a data-informed approach, enhancing patient outcomes.
翻訳日:2023-09-29 18:57:55 公開日:2023-09-27
# 微分密度汎関数理論のためのオープンソース基盤

Open Source Infrastructure for Differentiable Density Functional Theory ( http://arxiv.org/abs/2309.15985v1 )

ライセンス: Link先を確認
Advika Vidhyadhiraja, Arun Pa Thiagarajan, Shang Zhu, Venkat Viswanathan, Bharath Ramsundar(参考訳) 近年、量子化学計算で用いられる交換相関関数の学習はますます重要になっているが、そのような関数の訓練には高度なソフトウェアインフラが必要である。 そこで我々は,ニューラルネットワーク相関関数をトレーニングするオープンソースインフラストラクチャを構築した。 複数のグループによる作業から最先端技術を適用することで,処理パイプラインの標準化を目指す。 我々は、このモデルをdeepchemライブラリでオープンソース化し、微分可能な量子化学手法に関するさらなる研究のためのプラットフォームを提供する。

Learning exchange correlation functionals, used in quantum chemistry calculations, from data has become increasingly important in recent years, but training such a functional requires sophisticated software infrastructure. For this reason, we build open source infrastructure to train neural exchange correlation functionals. We aim to standardize the processing pipeline by adapting state-of-the-art techniques from work done by multiple groups. We have open sourced the model in the DeepChem library to provide a platform for additional research on differentiable quantum chemistry methods.
翻訳日:2023-09-29 18:57:34 公開日:2023-09-27
# 意味論的推論と知識グラフ埋め込みを用いた臨床試験

Clinical Trial Recommendations Using Semantics-Based Inductive Inference and Knowledge Graph Embeddings ( http://arxiv.org/abs/2309.15979v1 )

ライセンス: Link先を確認
Murthy V. Devarakonda, Smita Mohanty, Raja Rao Sunkishala, Nag Mallampalli, and Xiong Liu(参考訳) 新しい臨床試験を設計するには、コホートの定義や研究目標の設定など、多くの決定が必要であるため、過去の臨床試験記録の徹底的なマイニングに基づく推奨の恩恵を受けることができる。 本稿では,臨床試験の最初の知識グラフで学習した神経組込みに基づく新しい推薦手法を提案する。 本研究は, 臨床試験データのための知識グラフ(kg)の設計, 各種kg埋め込み法(kge)の有効性, kgeを用いた新しい帰納的推論法, 臨床試験設計のための勧告作成におけるその活用など, 重要な研究課題に対処した。 この研究には、臨床試験の公開データを用いた。 以上の結果から,提案手法は,実際の治験要素のテキスト類似度として測定された70%-83%の妥当性スコアを達成し,最も関連性の高い推奨項目をリストの最上位に示すことができる。 本研究は,ノードセマンティクスを用いたKGEトレーニングの改善の可能性についても示唆した。

Designing a new clinical trial entails many decisions, such as defining a cohort and setting the study objectives to name a few, and therefore can benefit from recommendations based on exhaustive mining of past clinical trial records. Here, we propose a novel recommendation methodology, based on neural embeddings trained on a first-of-a-kind knowledge graph of clinical trials. We addressed several important research questions in this context, including designing a knowledge graph (KG) for clinical trial data, effectiveness of various KG embedding (KGE) methods for it, a novel inductive inference using KGE, and its use in generating recommendations for clinical trial design. We used publicly available data from clinicaltrials.gov for the study. Results show that our recommendations approach achieves relevance scores of 70%-83%, measured as the text similarity to actual clinical trial elements, and the most relevant recommendation can be found near the top of list. Our study also suggests potential improvement in training KGE using node semantics.
翻訳日:2023-09-29 18:57:25 公開日:2023-09-27
# 3次元ビルマップを用いた簡易分類ルールによる地域気候圏製品の評価

Assessment of Local Climate Zone Products via Simplified Classification Rule with 3D Building Maps ( http://arxiv.org/abs/2309.15978v1 )

ライセンス: Link先を確認
Hunsoo Song, Gaia Cervini, Jinha Jung(参考訳) 本研究では,グローバルローカル気候帯(LCZ)製品の性能を評価する。 米国内の3大都市圏におけるLCZの組立型クラスについて検討した。 LCZは高解像度3次元ビルディングマップに基づく単純なルールベース手法を用いて構築された。 評価の結果,グローバルなlcz製品では,正確な建物の足跡情報を必要とするクラス(クラス6とクラス9)と,建物の高さの微妙な違いを識別するクラス(クラス4〜6)の区別に苦慮していることがわかった。 さらに,異なる都市間でクラス分布が異なる不整合傾向を同定し,機械学習に基づくlcz分類器におけるデータ分散シフト問題の存在を示唆した。 我々は,グローバルLCZマップの不確実性に光を当て,最も区別が難しいLCZクラスを特定し,LCZ開発と検証の今後の計画について考察した。

This study assesses the performance of a global Local Climate Zone (LCZ) product. We examined the built-type classes of LCZs in three major metropolitan areas within the U.S. A reference LCZ was constructed using a simple rule-based method based on high-resolution 3D building maps. Our evaluation demonstrated that the global LCZ product struggles to differentiate classes that demand precise building footprint information (Classes 6 and 9), and classes that necessitate the identification of subtle differences in building elevation (Classes 4-6). Additionally, we identified inconsistent tendencies, where the distribution of classes skews differently across different cities, suggesting the presence of a data distribution shift problem in the machine learning-based LCZ classifier. Our findings shed light on the uncertainties in global LCZ maps, help identify the LCZ classes that are the most challenging to distinguish, and offer insight into future plans for LCZ development and validation.
翻訳日:2023-09-29 18:57:09 公開日:2023-09-27
# ニューラル・アコースティック・コンテキスト・フィールド:ニューラル・フィールドによる現実的な室内インパルス応答のレンダリング

Neural Acoustic Context Field: Rendering Realistic Room Impulse Response With Neural Fields ( http://arxiv.org/abs/2309.15977v1 )

ライセンス: Link先を確認
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu(参考訳) 室内インパルス応答 (RIR) は環境内の音の伝搬を計測し, 所定の環境下での高忠実度音声の合成に重要である。 先行研究では、RIRを音波エミッタとレシーバの位置の神経場関数として表現することを提案した。 しかし、これらの手法は音声シーンの音響特性を十分に考慮していないため、性能が不十分である。 このレターは、幾何学、材料特性、空間情報などの複数の音響コンテキストを活用することにより、音声シーンをパラメータ化するための、NACFと呼ばれる新しいニューラルネットワークコンテキストアプローチを提案する。 RIRのユニークな性質、すなわち時間的非平滑性と単調エネルギー減衰により、時間的相関モジュールとマルチスケールエネルギー崩壊基準を設計する。 実験の結果,nacfは既存のフィールドベースメソッドよりも有意な差を示した。 より質的な結果を得るために、プロジェクトページをご覧ください。

Room impulse response (RIR), which measures the sound propagation within an environment, is critical for synthesizing high-fidelity audio for a given environment. Some prior work has proposed representing RIR as a neural field function of the sound emitter and receiver positions. However, these methods do not sufficiently consider the acoustic properties of an audio scene, leading to unsatisfactory performance. This letter proposes a novel Neural Acoustic Context Field approach, called NACF, to parameterize an audio scene by leveraging multiple acoustic contexts, such as geometry, material property, and spatial information. Driven by the unique properties of RIR, i.e., temporal un-smoothness and monotonic energy attenuation, we design a temporal correlation module and multi-scale energy decay criterion. Experimental results show that NACF outperforms existing field-based methods by a notable margin. Please visit our project page for more qualitative results.
翻訳日:2023-09-29 18:56:52 公開日:2023-09-27
# MedEdit:外部知識ベースを用いた医療質問応答のためのモデル編集

MedEdit: Model Editing for Medical Question Answering with External Knowledge Bases ( http://arxiv.org/abs/2309.16035v1 )

ライセンス: Link先を確認
Yucheng Shi, Shaochen Xu, Zhengliang Liu, Tianming Liu, Xiang Li, Ninghao Liu(参考訳) 大きな言語モデル(LLM)は、一般的なドメインでは強力だが、医療質問応答(QA)のようなドメイン固有のタスクではよく機能しない。 さらに、それらは「ブラックボックス」として機能しがちであり、行動を変更するのが困難である。 そこで本研究では, 微調整や再学習を必要とせず, LLM応答を改善することを目的とした, 文脈内学習を利用したモデル編集について検討した。 具体的には,外部知識ベースから医学的事実を抽出するための包括的検索戦略を提案し,それをllmのクエリプロンプトに組み込む。 MedQA-SMILEデータセットを用いた医学的QAに着目し、異なる検索モデルの影響とLLMに提供する事実数を評価する。 編集したVicunaモデルでは44.46%から48.54%に精度が向上した。 この研究は、モデル編集によるLCMの性能向上の可能性を強調し、ブラックボックスLSMの課題を軽減するための実用的なアプローチを提供する。

Large Language Models (LLMs), although powerful in general domains, often perform poorly on domain-specific tasks like medical question answering (QA). Moreover, they tend to function as "black-boxes," making it challenging to modify their behavior. Addressing this, our study delves into model editing utilizing in-context learning, aiming to improve LLM responses without the need for fine-tuning or retraining. Specifically, we propose a comprehensive retrieval strategy to extract medical facts from an external knowledge base, and then we incorporate them into the query prompt for the LLM. Focusing on medical QA using the MedQA-SMILE dataset, we evaluate the impact of different retrieval models and the number of facts provided to the LLM. Notably, our edited Vicuna model exhibited an accuracy improvement from 44.46% to 48.54%. This work underscores the potential of model editing to enhance LLM performance, offering a practical approach to mitigate the challenges of black-box LLMs.
翻訳日:2023-09-29 18:48:25 公開日:2023-09-27
# フローガイド型インボディナノスケール局所化のための生データの解析モデル

Analytical Modelling of Raw Data for Flow-Guided In-body Nanoscale Localization ( http://arxiv.org/abs/2309.16034v1 )

ライセンス: Link先を確認
Guillem Pascual, Filip Lemic, Carmen Delgado, Xavier Costa-Perez(参考訳) ナノテクノロジーと物質科学の進歩は、センシング、コンピューティング、データとエネルギーストレージ、ワイヤレス通信を組み合わせたナノスケールデバイスへの道を歩んでいる。 精密医療では、これらのナノデバイスは患者の血流内から疾患の診断、治療、モニタリングを約束する。 検出された生物学的事象の位置をイベント自身に割り当てることは、フロー誘導型体内ナノスケール局在の主要な提案であり、精密医学の観点から非常に有益である。 ナノデバイスのナノスケールの性質と、血流が表す困難な環境により、現在のフロー誘導型局在化アプローチは通信やエネルギー関連の能力に制約される。 ナノデバイスの通信とエネルギーの制約は、フロー誘導型ローカライゼーションのための生データの異なる特徴をもたらし、その結果、その性能に影響を及ぼす。 ナノデバイスが生み出す生データに対するナノデバイス間欠操作を引き起こす不完全な通信と制約エネルギーの効果の分析モデルが有用である。 そこで本研究では,ナノデバイスの通信機能やエネルギー関連機能として生データをモデル化したフロー誘導型局在解析モデルを提案する。 本研究では,フロー誘導型ローカライゼーションの客観的評価のためのシミュレータを用いて得られたモデルと,その出力を比較して評価する。 この結果から, モデルとシミュレータ生成した生データセットとの類似性が高いことが示された。

Advancements in nanotechnology and material science are paving the way toward nanoscale devices that combine sensing, computing, data and energy storage, and wireless communication. In precision medicine, these nanodevices show promise for disease diagnostics, treatment, and monitoring from within the patients' bloodstreams. Assigning the location of a sensed biological event with the event itself, which is the main proposition of flow-guided in-body nanoscale localization, would be immensely beneficial from the perspective of precision medicine. The nanoscale nature of the nanodevices and the challenging environment that the bloodstream represents, result in current flow-guided localization approaches being constrained in their communication and energy-related capabilities. The communication and energy constraints of the nanodevices result in different features of raw data for flow-guided localization, in turn affecting its performance. An analytical modeling of the effects of imperfect communication and constrained energy causing intermittent operation of the nanodevices on the raw data produced by the nanodevices would be beneficial. Hence, we propose an analytical model of raw data for flow-guided localization, where the raw data is modeled as a function of communication and energy-related capabilities of the nanodevice. We evaluate the model by comparing its output with the one obtained through the utilization of a simulator for objective evaluation of flow-guided localization, featuring comparably higher level of realism. Our results across a number of scenarios and heterogeneous performance metrics indicate high similarity between the model and simulator-generated raw datasets.
翻訳日:2023-09-29 18:48:09 公開日:2023-09-27
# 学習散逸型神経力学系

Learning Dissipative Neural Dynamical Systems ( http://arxiv.org/abs/2309.16032v1 )

ライセンス: Link先を確認
Yuezhu Xu and S. Sivaranjani(参考訳) 散逸的に知られている未知の非線形力学系を考える。 本論文の目的は,モデル内の分散性を維持しつつ,この系を近似する神経力学モデルを学ぶことである。 一般に、ニューラルネットワークトレーニング中に分散性制約を課すことは、既知のテクニックが存在しない難しい問題である。 本研究では,2段階の散逸性ニューラル・ダイナミクス・システムモデルを学習する問題に対処する。 まず,システムダイナミクスに密接に近似した非拘束型神経力学モデルを学ぶ。 次に、神経力学モデルの重みを摂動させて解離性を確保するのに十分な条件を導出し、続いてバイアスの摂動により非線形系の軌道に対するモデルの適合性を維持する。 これらの2つの摂動問題は独立に解くことができ、非線形系に近似しながら散逸することが保証される神経力学モデルが得られる。

Consider an unknown nonlinear dynamical system that is known to be dissipative. The objective of this paper is to learn a neural dynamical model that approximates this system, while preserving the dissipativity property in the model. In general, imposing dissipativity constraints during neural network training is a hard problem for which no known techniques exist. In this work, we address the problem of learning a dissipative neural dynamical system model in two stages. First, we learn an unconstrained neural dynamical model that closely approximates the system dynamics. Next, we derive sufficient conditions to perturb the weights of the neural dynamical model to ensure dissipativity, followed by perturbation of the biases to retain the fit of the model to the trajectories of the nonlinear system. We show that these two perturbation problems can be solved independently to obtain a neural dynamical model that is guaranteed to be dissipative while closely approximating the nonlinear system.
翻訳日:2023-09-29 18:47:47 公開日:2023-09-27
# 象徴的模倣学習:ブラックボックスから説明可能な運転ポリシーへ

Symbolic Imitation Learning: From Black-Box to Explainable Driving Policies ( http://arxiv.org/abs/2309.16025v1 )

ライセンス: Link先を確認
Iman Sharifi and Saber Fallah(参考訳) 現在の模倣学習(IL)は、主にディープニューラルネットワークに基づいており、実世界のデータから駆動ポリシーを得るための効率的な手段を提供するが、解釈可能性と一般化可能性に大きな制限がある。 これらの欠点は、特に自動運転のような安全クリティカルなアプリケーションに関係している。 本稿では,インダクティブ・ロジック・プログラミング(ilp)を用いて,利用可能なデータセットから透過的,説明可能,一般化可能な運転方針を学ぶ基礎的手法であるシンボリック・イミテーション・ラーニング(sil)を提案する。 本手法は,実世界のhighdデータセットを利用して,従来のニューラルネットワークに基づくil法との比較を行った。 以上の結果から,SILは運転方針の解釈可能性を高めるだけでなく,運転状況の異なる適用性を向上させることが示唆された。 したがって、この研究はより信頼性が高く、より安全な自動運転システムへの新たな経路を提供し、ILの領域にICPを統合する可能性を示している。

Current methods of imitation learning (IL), primarily based on deep neural networks, offer efficient means for obtaining driving policies from real-world data but suffer from significant limitations in interpretability and generalizability. These shortcomings are particularly concerning in safety-critical applications like autonomous driving. In this paper, we address these limitations by introducing Symbolic Imitation Learning (SIL), a groundbreaking method that employs Inductive Logic Programming (ILP) to learn driving policies which are transparent, explainable and generalisable from available datasets. Utilizing the real-world highD dataset, we subject our method to a rigorous comparative analysis against prevailing neural-network-based IL methods. Our results demonstrate that SIL not only enhances the interpretability of driving policies but also significantly improves their applicability across varied driving situations. Hence, this work offers a novel pathway to more reliable and safer autonomous driving systems, underscoring the potential of integrating ILP into the domain of IL.
翻訳日:2023-09-29 18:47:33 公開日:2023-09-27
# Q-REG:表面曲率によるトレーニング可能なポイントクラウド登録

Q-REG: End-to-End Trainable Point Cloud Registration with Surface Curvature ( http://arxiv.org/abs/2309.16023v1 )

ライセンス: Link先を確認
Shengze Jin, Daniel Barath, Marc Pollefeys, Iro Armeni(参考訳) ポイントクラウドの登録は、対応マッチングにフォーカスしたいくつかの学習ベースの手法で最近成功しており、この目的のために最適化されている。 対応マッチングの学習ステップに従って,ransacライクなフレームワークを用いた推定剛性変換を評価する。 これらの手法の必須コンポーネントであるが、完全なエンドツーエンドのトレーニングを防ぎ、ポーズエラーを最小化する目的を残している。 本稿では,リッチな幾何学的情報を用いて単一対応から剛性ポーズを推定する新しい解Q-REGを提案する。 q-regはロバスト推定を徹底的な探索として定式化することで、対応マッチングと剛体ポーズ推定の両方の目的を最適化するエンドツーエンドトレーニングを可能にする。 実験では,q-regが対応マッチング法に依存せず,推論とエンドツーエンドトレーニングの両方において一貫した改善を提供することを示す。 3DMatch、KITTI、ModelNetベンチマークに新たな最先端を設定できる。

Point cloud registration has seen recent success with several learning-based methods that focus on correspondence matching and, as such, optimize only for this objective. Following the learning step of correspondence matching, they evaluate the estimated rigid transformation with a RANSAC-like framework. While it is an indispensable component of these methods, it prevents a fully end-to-end training, leaving the objective to minimize the pose error nonserved. We present a novel solution, Q-REG, which utilizes rich geometric information to estimate the rigid pose from a single correspondence. Q-REG allows to formalize the robust estimation as an exhaustive search, hence enabling end-to-end training that optimizes over both objectives of correspondence matching and rigid pose estimation. We demonstrate in the experiments that Q-REG is agnostic to the correspondence matching method and provides consistent improvement both when used only in inference and in end-to-end training. It sets a new state-of-the-art on the 3DMatch, KITTI, and ModelNet benchmarks.
翻訳日:2023-09-29 18:47:16 公開日:2023-09-27
# GNNHLS:高レベル合成によるグラフニューラルネットワーク推論の評価

GNNHLS: Evaluating Graph Neural Network Inference via High-Level Synthesis ( http://arxiv.org/abs/2309.16022v1 )

ライセンス: Link先を確認
Chenfeng Zhao, Zehao Dong, Yixin Chen, Xuan Zhang, Roger D. Chamberlain(参考訳) グラフニューラルネットワーク(GNN)の普及により、効率的なGNN推論が注目されている。 FPGA(Field-Programming Gate Arrays)は,その微細な並列性,低消費電力化,再構成性,並列実行による,有望な実行プラットフォームである。 さらに、高レベル合成(HLS)ツールは、非自明なFPGA開発活動と新しいGNNモデルの急速な台頭の間のギャップを埋める。 本稿では、データ生成とベースライン展開のためのソフトウェアスタックと、6つのよく調整されたGNN HLSカーネルのFPGA実装を含む、HLSを介してFPGA上でのGNN推論アクセラレーションを包括的に評価するオープンソースフレームワークであるGNNHLSを提案する。 異なるトポロジとスケールを持つ4つのグラフデータセット上でGNNHLSを評価する。 その結果, GNNHLSはCPUベースラインに対して最大50.8倍の高速化と423倍のエネルギー削減を実現した。 GPUベースラインと比較して、GNNHLSは最大5.16倍のスピードアップと74.5倍のエネルギー削減を実現している。

With the ever-growing popularity of Graph Neural Networks (GNNs), efficient GNN inference is gaining tremendous attention. Field-Programming Gate Arrays (FPGAs) are a promising execution platform due to their fine-grained parallelism, low-power consumption, reconfigurability, and concurrent execution. Even better, High-Level Synthesis (HLS) tools bridge the gap between the non-trivial FPGA development efforts and rapid emergence of new GNN models. In this paper, we propose GNNHLS, an open-source framework to comprehensively evaluate GNN inference acceleration on FPGAs via HLS, containing a software stack for data generation and baseline deployment, and FPGA implementations of 6 well-tuned GNN HLS kernels. We evaluate GNNHLS on 4 graph datasets with distinct topologies and scales. The results show that GNNHLS achieves up to 50.8x speedup and 423x energy reduction relative to the CPU baselines. Compared with the GPU baselines, GNNHLS achieves up to 5.16x speedup and 74.5x energy reduction.
翻訳日:2023-09-29 18:47:00 公開日:2023-09-27
# GeoCLIP: 位置と画像のクリップインスパイアされたアライメントによる世界規模のジオローカライゼーション

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization ( http://arxiv.org/abs/2309.16020v1 )

ライセンス: Link先を確認
Vicente Vivanco Cepeda, Gaurav Kumar Nayak, Mubarak Shah(参考訳) 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。 この課題は、地理的景観の大幅な変化による大きな課題である。 画像から画像への検索に基づくアプローチは、世界全体をカバーする大規模な画像ギャラリーを構築することができないため、この問題を解決できない。 代わりに、既存のアプローチは地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。 しかし、それらの性能は予め定義されたクラスによって制限され、しばしば、画像の位置がクラス中心から著しくずれるときに不正確なローカライズをもたらす。 このような制約を克服するために,新しいCLIPにインスパイアされた画像からGPSへの検索手法であるGeoCLIPを提案する。 GeoCLIPのロケーションエンコーダは、ランダムなフーリエ特徴を通して位置エンコーディングを使用して地球を連続関数としてモデル化し、様々な解像度で情報をキャプチャして、地理的ローカライゼーションを超えて使うのに適した意味的にリッチな高次元特徴を与える階層的な表現を構築する。 我々の知る限りでは、ジオローカライゼーションにGPSエンコーディングを利用した最初の作品である。 ベンチマークデータセットにおける広範囲な実験とアブレーションにより,本手法の有効性を実証する。 トレーニングデータのわずか20%で競合性能を達成し、限られたデータ設定でもその有効性を強調します。 さらに,画像エンコーダのCLIPバックボーンを活用することで,テキストクエリを用いた地理的ローカライゼーションを質的に実証する。

Worldwide Geo-localization aims to pinpoint the precise location of images taken anywhere on Earth. This task has considerable challenges due to immense variation in geographic landscapes. The image-to-image retrieval-based approaches fail to solve this problem on a global scale as it is not feasible to construct a large gallery of images covering the entire world. Instead, existing approaches divide the globe into discrete geographic cells, transforming the problem into a classification task. However, their performance is limited by the predefined classes and often results in inaccurate localizations when an image's location significantly deviates from its class center. To overcome these limitations, we propose GeoCLIP, a novel CLIP-inspired Image-to-GPS retrieval approach that enforces alignment between the image and its corresponding GPS locations. GeoCLIP's location encoder models the Earth as a continuous function by employing positional encoding through random Fourier features and constructing a hierarchical representation that captures information at varying resolutions to yield a semantically rich high-dimensional feature suitable to use even beyond geo-localization. To the best of our knowledge, this is the first work employing GPS encoding for geo-localization. We demonstrate the efficacy of our method via extensive experiments and ablations on benchmark datasets. We achieve competitive performance with just 20% of training data, highlighting its effectiveness even in limited-data settings. Furthermore, we qualitatively demonstrate geo-localization using a text query by leveraging CLIP backbone of our image encoder.
翻訳日:2023-09-29 18:46:39 公開日:2023-09-27
# ジョイント埋め込み予測アーキテクチャを用いたグラフレベルの表現学習

Graph-level Representation Learning with Joint-Embedding Predictive Architectures ( http://arxiv.org/abs/2309.16014v1 )

ライセンス: Link先を確認
Geri Skenderi, Hang Li, Jiliang Tang, Marco Cristani(参考訳) JEPA(Joint-Embedding Predictive Architectures)は、最近、自己教師型表現学習の新しい強力な技術として登場した。 彼らは、コンテキスト信号$x$からターゲット信号$y$の潜在表現を予測することで、エネルギーベースのモデルを学ぶことを目指している。 JEPAsは、データ拡張と負のサンプルの必要性を回避し、典型的には対照的な学習によって要求されると同時に、生成ベースの事前トレーニングに関連する過度な問題を回避する。 本稿では、このパラダイムを用いてグラフレベルの表現を効果的にモデル化できることを示し、グラフ領域の最初のJEPAであるGraph-JEPAを提案する。 特に、入力グラフの異なる部分グラフに対する埋め込みを学習するためにマスク付きモデリングを用いる。 グラフレベルの概念にしばしば現れる暗黙の階層を持つ表現を与えるために、2次元平面の単位双曲線上の符号化された部分グラフの座標を予測することからなる代替のトレーニング目標を考案する。 グラフ分類と回帰問題の両方において、グラフJEPAは表現力と競争力のある表現を学習できることを示す。

Joint-Embedding Predictive Architectures (JEPAs) have recently emerged as a novel and powerful technique for self-supervised representation learning. They aim to learn an energy-based model by predicting the latent representation of a target signal $y$ from a context signal $x$. JEPAs bypass the need for data augmentation and negative samples, which are typically required by contrastive learning, while avoiding the overfitting issues associated with generative-based pretraining. In this paper, we show that graph-level representations can be effectively modeled using this paradigm and propose Graph-JEPA, the first JEPA for the graph domain. In particular, we employ masked modeling to learn embeddings for different subgraphs of the input graph. To endow the representations with the implicit hierarchy that is often present in graph-level concepts, we devise an alternative training objective that consists of predicting the coordinates of the encoded subgraphs on the unit hyperbola in the 2D plane. Extensive validation shows that Graph-JEPA can learn representations that are expressive and competitive in both graph classification and regression problems.
翻訳日:2023-09-29 18:45:50 公開日:2023-09-27
# 相互作用光子のローレンツ共変ボヘミア軌道の測定

Measurement-based Lorentz-covariant Bohmian trajectories of interacting photons ( http://arxiv.org/abs/2309.16011v1 )

ライセンス: Link先を確認
Joshua Foo, Austin P. Lund, Timothy C. Ralph(参考訳) 最近の論文[foo et. al., nature comms. 13, 2 (2022)]では、光子の運動量とエネルギーの弱い測定を通じて単一光子のローレンツ共変ボム軌道を構築する方法を考案した。 しかし、そのようなフレームワークが連続的に多粒子相互作用を記述できるかどうかはまだわからない。 ここでは、非古典的干渉を示す2つの相互作用光子の相対論的ボーム軌道を記述するために、この枠組みの非自明な一般化を示す。 まず、各光子の同一性に依存しない検出器を用いて、条件付き弱い測定プロトコルを用いて、識別不能光子の平均速度場を導出する。 位置対称性と時間対称性を持つ多粒子Klein-Gordon波動関数を用いて得られた軌跡と操作から導出される軌道との直接対応を示す。 両粒子の位置に非局所的に依存する時空距離を曲率に基づく軌道の解釈として提案する。 先行する期待とは対照的に, 量子論における相対論的多粒子相互作用の軌道に基づく一貫した解釈を示す。

In a recent article [Foo et. al., Nature Comms. 13, 2 (2022)], we devised a method of constructing the Lorentz-covariant Bohmian trajectories of single photons via weak measurements of the photon's momentum and energy. However, whether such a framework can consistently describe multiparticle interactions remains to be seen. Here, we present a nontrivial generalisation of our framework to describe the relativistic Bohmian trajectories of two interacting photons exhibiting nonclassical interference due to their indistiguishability. We begin by deriving the average velocity fields of the indistinguishable photons using a conditional weak measurement protocol, with detectors that are agnostic to the identity of the respective photons. We demonstrate a direct correspondence between the operationally-derived trajectories with those obtained using a position- and time-symmetrised multiparticle Klein-Gordon wavefunction, whose dynamics are manifestly Lorentz-covariant. We propose a spacetime metric that depends nonlocally on the positions of both particles as a curvature based interpretation of the resulting trajectories. Contrary to prior expectations, our results demonstrate a consistent trajectory-based interpretation of relativistic multiparticle interactions in quantum theory.
翻訳日:2023-09-29 18:45:33 公開日:2023-09-27
# マスケオートエンコーダは細胞形態のスケーラブルな学習者である

Masked autoencoders are scalable learners of cellular morphology ( http://arxiv.org/abs/2309.16064v1 )

ライセンス: Link先を確認
Oren Kraus, Kian Kenyon-Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw(参考訳) 高濃度顕微鏡スクリーンにおける細胞性表現型からの生物学的関係の推測は、生物学的研究において大きな機会と課題をもたらす。 先行研究では、深部視覚モデルが手作りの機能よりも生物学的信号をキャプチャできることが示されている。 本研究は,大規模データセット上で大規模モデルをトレーニングする際の,弱教師付きおよび自己教師型ディープラーニングアプローチのスケールアップ方法を検討する。 以上の結果から,CNNとViTをベースとしたマスク付きオートエンコーダはともに,弱い教師付きモデルよりも優れていた。 我々のスケールのハイエンドでは、95万枚の顕微鏡画像から採取した3.5ビリオン以上のユニークな作物を訓練したViT-L/8が、公開データベースから収集された既知の生物学的関係を推測する最も弱い教師付きモデルに比べて28%の相対的な改善を実現している。

Inferring biological relationships from cellular phenotypes in high-content microscopy screens provides significant opportunity and challenge in biological research. Prior results have shown that deep vision models can capture biological signal better than hand-crafted features. This work explores how weakly supervised and self-supervised deep learning approaches scale when training larger models on larger datasets. Our results show that both CNN- and ViT-based masked autoencoders significantly outperform weakly supervised models. At the high-end of our scale, a ViT-L/8 trained on over 3.5-billion unique crops sampled from 95-million microscopy images achieves relative improvements as high as 28% over our best weakly supervised models at inferring known biological relationships curated from public databases.
翻訳日:2023-09-29 18:40:19 公開日:2023-09-27
# データ駆動機械学習モデルを用いたCOVID-19後患者の心血管合併症予測

Predicting Cardiovascular Complications in Post-COVID-19 Patients Using Data-Driven Machine Learning Models ( http://arxiv.org/abs/2309.16059v1 )

ライセンス: Link先を確認
Maitham G. Yousif, Hector J. Castro(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で多くの健康問題を引き起こしている。 本研究では,イラクからの352人を対象に,データ駆動型機械学習モデルを用いて,これらの合併症を予測した。 統計学, 共生, 検査結果, 画像などの臨床データは収集され, 予測モデルの構築に用いられた。 これらのモデルは、さまざまな機械学習アルゴリズムを活用することで、患者を危険にさらす際の賞賛可能なパフォーマンスを示した。 これらのモデルによる早期検出は、タイムリーな介入と改善結果を約束する。 結論として本研究は,covid-19後の心血管合併症を予測するためのデータ駆動機械学習の可能性を強調し,臨床現場における継続的な検証と研究の必要性を強調した。

The COVID-19 pandemic has globally posed numerous health challenges, notably the emergence of post-COVID-19 cardiovascular complications. This study addresses this by utilizing data-driven machine learning models to predict such complications in 352 post-COVID-19 patients from Iraq. Clinical data, including demographics, comorbidities, lab results, and imaging, were collected and used to construct predictive models. These models, leveraging various machine learning algorithms, demonstrated commendable performance in identifying patients at risk. Early detection through these models promises timely interventions and improved outcomes. In conclusion, this research underscores the potential of data-driven machine learning for predicting post-COVID-19 cardiovascular complications, emphasizing the need for continued validation and research in diverse clinical settings.
翻訳日:2023-09-29 18:40:05 公開日:2023-09-27
# AnyMAL: 効率的でスケーラブルな任意のモダリティ拡張言語モデル

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model ( http://arxiv.org/abs/2309.16058v1 )

ライセンス: Link先を確認
Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar(参考訳) 我々は,様々な入力モダリティ信号(テキスト,画像,映像,音声,imuモーションセンサ)を考慮し,テキスト応答を生成する統一モデルであるany-modality augmented language model(anymal)を提案する。 AnyMALは、LLaMA-2 (70B)を含む最先端のLLMの強力なテキストベースの推論能力を継承し、事前訓練されたアライメントモジュールを通じて、モダリティ固有の信号を共同テキスト空間に変換する。 マルチモーダル LLM の能力をさらに強化するため,手作業で収集したマルチモーダル命令セットを用いてモデルを微調整し,単純な QA を超える多様なトピックやタスクを網羅する。 本研究では,人間と自動評価を総合的に分析し,様々なマルチモーダルタスクにおける最先端の性能を示す。

We present Any-Modality Augmented Language Model (AnyMAL), a unified model that reasons over diverse input modality signals (i.e. text, image, video, audio, IMU motion sensor), and generates textual responses. AnyMAL inherits the powerful text-based reasoning abilities of the state-of-the-art LLMs including LLaMA-2 (70B), and converts modality-specific signals to the joint textual space through a pre-trained aligner module. To further strengthen the multimodal LLM's capabilities, we fine-tune the model with a multimodal instruction set manually collected to cover diverse topics and tasks beyond simple QAs. We conduct comprehensive empirical analysis comprising both human and automatic evaluations, and demonstrate state-of-the-art performance on various multimodal tasks.
翻訳日:2023-09-29 18:39:51 公開日:2023-09-27
# 共生後のメンタルヘルス障害の危険因子の同定 : 機械学習の視点から

Identifying Risk Factors for Post-COVID-19 Mental Health Disorders: A Machine Learning Perspective ( http://arxiv.org/abs/2309.16055v1 )

ライセンス: Link先を確認
Maitham G. Yousif, Fadhil G. Al-Amran, Hector J. Castro(参考訳) 本研究では,機械学習を用いて,共生後のメンタルヘルス障害に関連する危険因子を同定した。 イラク各地の669人の患者から収集したデータをもとに分析を行い,貴重な知見を得た。 その結果,居住地の年齢,性別,地理的な地域は,共生後の19歳以上の精神健康障害の発症に影響を及ぼす有意な要因であった。 加えて、共生性と新型コロナウイルスの重症度は重要な臨床予測因子であった。 社会的支援、対処戦略、ストレスレベルなどの心理社会的要因も大きな役割を果たした。 本研究は、covid-19回復後の精神疾患発症における多因子の複雑な相互作用を強調する。 医療提供者や政策立案者は、リスクのある個人を対象にした介入や支援システムを設計する際に、これらのリスク要因を検討する必要がある。 機械学習に基づくアプローチは、covid-19後の患者のメンタルヘルスの悪影響を予測し、予防するための貴重なツールとなる。 新型コロナウイルスのパンデミックによる長期的な心理的影響の理解を深めるためには、さらなる研究と今後の研究が必要である。 本研究は、新型コロナウイルス(covid-19)パンデミックの精神的健康への影響に関する知識の増大に寄与し、回復への道のりにおける個人の多様なニーズに対応するための多分野のアプローチの重要性を強調する。 キーワード:covid-19、メンタルヘルス、リスクファクター、機械学習、イラク

In this study, we leveraged machine learning techniques to identify risk factors associated with post-COVID-19 mental health disorders. Our analysis, based on data collected from 669 patients across various provinces in Iraq, yielded valuable insights. We found that age, gender, and geographical region of residence were significant demographic factors influencing the likelihood of developing mental health disorders in post-COVID-19 patients. Additionally, comorbidities and the severity of COVID-19 illness were important clinical predictors. Psychosocial factors, such as social support, coping strategies, and perceived stress levels, also played a substantial role. Our findings emphasize the complex interplay of multiple factors in the development of mental health disorders following COVID-19 recovery. Healthcare providers and policymakers should consider these risk factors when designing targeted interventions and support systems for individuals at risk. Machine learning-based approaches can provide a valuable tool for predicting and preventing adverse mental health outcomes in post-COVID-19 patients. Further research and prospective studies are needed to validate these findings and enhance our understanding of the long-term psychological impact of the COVID-19 pandemic. This study contributes to the growing body of knowledge regarding the mental health consequences of the COVID-19 pandemic and underscores the importance of a multidisciplinary approach to address the diverse needs of individuals on the path to recovery. Keywords: COVID-19, mental health, risk factors, machine learning, Iraq
翻訳日:2023-09-29 18:39:34 公開日:2023-09-27
# 自己エンコーダを用いた Helicobacter pylori の免疫組織化学画像における異常染色パターンの検出

Diagnosis of Helicobacter pylori using AutoEncoders for the Detection of Anomalous Staining Patterns in Immunohistochemistry Images ( http://arxiv.org/abs/2309.16053v1 )

ライセンス: Link先を確認
Pau Cano, \'Alvaro Caravaca, Debora Gil, Eva Musulen(参考訳) この研究は、1994年以降、ヒトにクラス1の発癌菌に分類されたHelicobacter pylori a bacteriumの検出に対処する。 高い特異性と感受性から、好ましい診断技術は免疫組織化学的染色による組織像の解析であり、特定の染色抗体が興味のある生物学的要素の抗原に結合する過程である。 この分析は、現在、デジタル化されたサンプルを視覚的に検査する専門家の病理学者によって行われている時間要求タスクである。 本稿では, オートエンコーダを用いて健康組織の潜伏パターンを学習し, h. pylori を画像染色の異常として検出する。 既存の分類手法とは異なり、オートエンコーダは教師なしの方法で(画像アノテーションなしで)高い性能でパターンを学習することができる。 特に,本モデルでは,H. pyloriの検出において,感度86\%,特異度96%,AUC0.97と総合91%の精度を示した。

This work addresses the detection of Helicobacter pylori a bacterium classified since 1994 as class 1 carcinogen to humans. By its highest specificity and sensitivity, the preferred diagnosis technique is the analysis of histological images with immunohistochemical staining, a process in which certain stained antibodies bind to antigens of the biological element of interest. This analysis is a time demanding task, which is currently done by an expert pathologist that visually inspects the digitized samples. We propose to use autoencoders to learn latent patterns of healthy tissue and detect H. pylori as an anomaly in image staining. Unlike existing classification approaches, an autoencoder is able to learn patterns in an unsupervised manner (without the need of image annotations) with high performance. In particular, our model has an overall 91% of accuracy with 86\% sensitivity, 96% specificity and 0.97 AUC in the detection of H. pylori.
翻訳日:2023-09-29 18:39:11 公開日:2023-09-27
# 皮質回路における精度推定と2次予測誤差

Precision estimation and second-order prediction errors in cortical circuits ( http://arxiv.org/abs/2309.16046v1 )

ライセンス: Link先を確認
Arno Granier, Mihai A. Petrovici, Walter Senn and Katharina A. Wilmes(参考訳) 皮質予測誤差の最小化は、知覚、行動、学習の基礎にある大脳皮質の標準的計算であると考えられている。 しかし、この予測誤差最小化の過程において、大脳皮質がどのように形成され、不確実性に関する知識を使用するべきかはまだ不明である。 ここでは、皮質領域が他の領域や感覚の流れの活動を予測するだけでなく、予測の精度を共同で推定する必要があるという仮定の下で予測誤差を最小化する神経力学を導出する。 これにより、文脈依存的精度推定に基づく皮質ストリームの動的変調バランスが導かれる。 さらに、この理論は2次予測誤差、すなわち精度推定誤差の存在を予測し、古典的な予測誤差とともに皮質階層を通じて計算・伝播する。 これらの二階誤差は、誤り訂正型シナプス学習規則を通じて精度推定に責任のあるシナプスの重みを学習するために用いられる。 最後に,この理論の皮質回路へのマッピングを提案する。

Minimization of cortical prediction errors is believed to be a key canonical computation of the cerebral cortex underlying perception, action and learning. However, it is still unclear how the cortex should form and use knowledge about uncertainty in this process of prediction error minimization. Here we derive neural dynamics minimizing prediction errors under the assumption that cortical areas must not only predict the activity in other areas and sensory streams, but also jointly estimate the precision of their predictions. This leads to a dynamic modulatory balancing of cortical streams based on context-dependent precision estimates. Moreover, the theory predicts the existence of second-order prediction errors, i.e. errors on precision estimates, computed and propagated through the cortical hierarchy alongside classical prediction errors. These second-order errors are used to learn weights of synapses responsible for precision estimation through an error-correcting synaptic learning rule. Finally, we propose a mapping of the theory to cortical circuitry.
翻訳日:2023-09-29 18:38:53 公開日:2023-09-27
# Refined Discretization を用いた適応型オンライン学習の改善

Improving Adaptive Online Learning Using Refined Discretization ( http://arxiv.org/abs/2309.16044v1 )

ライセンス: Link先を確認
Zhiyu Zhang, Heng Yang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) リプシッツ損失を伴うオンライン線形最適化について検討した。 目標は、2階勾配適応性(i$)と、「パラメータ自由度」として知られるコンパレータノルム適応性(ii$)を同時に達成することである。 既存の後悔の限界 (cutkosky and orabona, 2018; mhammedi and koolen, 2020; jacobsen and cutkosky, 2022) は、勾配分散 $v_t$ に依存する部分オプティカル $o(\sqrt{v_t\log v_t}) を持つが、本研究は、新しい連続時間インスパイアされたアルゴリズムを用いた最適なレート $o(\sqrt{v_t})$ に改善される。 この結果は未知のリプシッツ定数の設定にまで拡張することができ、以前の作業から範囲比の問題を取り除くことができる(Mhammedi and Koolen, 2020)。 具体的には, 環境が任意の連続セミマーチンゲールによってモデル化される問題に類似した連続時間において, 目標とする同時適応性が比較的容易に達成できることを示す。 そして、我々の重要な革新は、離散時間対逆条件でそのような適応性を維持する新しい離散化論である。 これにより(harvey et al., 2023)から、アルゴリズム的にも分析的にも独立した興味を持つ可能性のある非勾配適応的離散化論を洗練する。

We study unconstrained Online Linear Optimization with Lipschitz losses. The goal is to simultaneously achieve ($i$) second order gradient adaptivity; and ($ii$) comparator norm adaptivity also known as "parameter freeness" in the literature. Existing regret bounds (Cutkosky and Orabona, 2018; Mhammedi and Koolen, 2020; Jacobsen and Cutkosky, 2022) have the suboptimal $O(\sqrt{V_T\log V_T})$ dependence on the gradient variance $V_T$, while the present work improves it to the optimal rate $O(\sqrt{V_T})$ using a novel continuous-time-inspired algorithm, without any impractical doubling trick. This result can be extended to the setting with unknown Lipschitz constant, eliminating the range ratio problem from prior works (Mhammedi and Koolen, 2020). Concretely, we first show that the aimed simultaneous adaptivity can be achieved fairly easily in a continuous time analogue of the problem, where the environment is modeled by an arbitrary continuous semimartingale. Then, our key innovation is a new discretization argument that preserves such adaptivity in the discrete time adversarial setting. This refines a non-gradient-adaptive discretization argument from (Harvey et al., 2023), both algorithmically and analytically, which could be of independent interest.
翻訳日:2023-09-29 18:38:36 公開日:2023-09-27
# 言語モデルにおけるアクティベーションパッチングのベストプラクティスに向けて:メトリクスとメソッド

Towards Best Practices of Activation Patching in Language Models: Metrics and Methods ( http://arxiv.org/abs/2309.16042v1 )

ライセンス: Link先を確認
Fred Zhang and Neel Nanda(参考訳) 機械的な解釈可能性(mechanistic interpretability)は、マシンラーニングモデルの内部メカニズムを理解することを目的としている。 活性化パッチング(英: Activation patching)または因果トレース(英: causal Trace)またはインターチェンジ介入(英: exchange intervention)は、このタスクの標準技術(Vig et al., 2020)であるが、この文献にはハイパーパラメータや方法論の選択についてほとんど合意が得られていない多くの変種が含まれている。 本研究では,アクティベーションパッチ作成における方法論的詳細の影響を系統的に検討する。 言語モデルにおける局所化と回路探索のいくつかの設定において、これらのハイパーパラメータは異なる解釈可能性の結果をもたらす可能性がある。 経験的観察に支えられ、ある指標や方法が好まれる理由に関する概念的議論を行う。 最後に、私たちは、今後のアクティベーションパッチングのベストプラクティスについて推奨します。

Mechanistic interpretability seeks to understand the internal mechanisms of machine learning models, where localization -- identifying the important model components -- is a key step. Activation patching, also known as causal tracing or interchange intervention, is a standard technique for this task (Vig et al., 2020), but the literature contains many variants with little consensus on the choice of hyperparameters or methodology. In this work, we systematically examine the impact of methodological details in activation patching, including evaluation metrics and corruption methods. In several settings of localization and circuit discovery in language models, we find that varying these hyperparameters could lead to disparate interpretability results. Backed by empirical observations, we give conceptual arguments for why certain metrics or methods may be preferred. Finally, we provide recommendations for the best practices of activation patching going forwards.
翻訳日:2023-09-29 18:37:47 公開日:2023-09-27
# 2視点相対ポーズ推定のためのライン活用ハンドブック

Handbook on Leveraging Lines for Two-View Relative Pose Estimation ( http://arxiv.org/abs/2309.16040v1 )

ライセンス: Link先を確認
Petr Hruby, Shaohui Liu, R\'emi Pautrat, Marc Pollefeys, Daniel Barath(参考訳) 本研究では, 点, 線, およびそれらの一致をハイブリッドに利用することにより, 校正画像対間の相対ポーズを推定する手法を提案する。 これらのデータモダリティを併用可能な構成をすべて検討し,文献で利用可能な最小限の解法について検討する。 当社のハイブリッドフレームワークは,すべての構成のメリットを組み合わせることで,困難な環境での堅牢かつ正確な推定を可能にします。 さらに,2つの画像における複数の消失点対応を共同で推定する手法と,関連するすべてのデータモダリティを考慮したバンドル調整を考案する。 各種屋内および屋外データセットを用いた実験により,本手法は点ベース法より優れ,AUC@10$^\circ$が1-7ポイント向上し,比較速度が向上した。 ソルバとハイブリッドフレームワークのソースコードは公開される予定だ。

We propose an approach for estimating the relative pose between calibrated image pairs by jointly exploiting points, lines, and their coincidences in a hybrid manner. We investigate all possible configurations where these data modalities can be used together and review the minimal solvers available in the literature. Our hybrid framework combines the advantages of all configurations, enabling robust and accurate estimation in challenging environments. In addition, we design a method for jointly estimating multiple vanishing point correspondences in two images, and a bundle adjustment that considers all relevant data modalities. Experiments on various indoor and outdoor datasets show that our approach outperforms point-based methods, improving AUC@10$^\circ$ by 1-7 points while running at comparable speeds. The source code of the solvers and hybrid framework will be made public.
翻訳日:2023-09-29 18:36:50 公開日:2023-09-27
# 基礎モデルの有効長期スケーリング

Effective Long-Context Scaling of Foundation Models ( http://arxiv.org/abs/2309.16039v1 )

ライセンス: Link先を確認
Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma(参考訳) 最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提案する。 我々のモデルシリーズは、Llama 2からの継続事前トレーニングと、長いテキストがアップサンプリングされたデータセットに基づいて構築されている。 我々は、言語モデリング、合成文脈探索タスク、および幅広い研究ベンチマークに関する広範囲な評価を行う。 研究ベンチマークでは、Llama 2上でのほとんどの通常のタスクに対する一貫した改善と長時間コンテキストタスクに対する大幅な改善を実現している。 特に、人間が注釈付き長い命令データを必要としないコスト効率の高い命令チューニング手順により、70bの派生型は、一連のロングコンテキストタスクにおけるgpt-3.5-turbo-16kの全体的な性能を既に上回ることができる。 これらの結果とともに,本手法の個々の成分について詳細な分析を行う。 我々はLlamaの位置エンコーディングを掘り下げ、長い依存関係をモデリングする際の制限について論じる。 また,データミックスやシーケンス長のトレーニングカリキュラムなど,プリトレーニングプロセスにおけるさまざまな設計選択の影響についても検討した。本実験では,プリトレーニングデータセットに豊富な長いテキストを持つことは,強力なパフォーマンスを実現する鍵ではないことを示唆する。

We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
翻訳日:2023-09-29 18:36:30 公開日:2023-09-27
# ヒップラジオグラフィ画像における医療的ランドマーク検出のためのラベル拡張法

Label Augmentation Method for Medical Landmark Detection in Hip Radiograph Images ( http://arxiv.org/abs/2309.16066v1 )

ライセンス: Link先を確認
Yehyun Suh, Peter Chan, J.Ryan Martin, Daniel Moyer(参考訳) 本研究は,股関節X線写真における臨床マーカーを自動診断する医療ランドマーク検出手法の実証的性能について報告する。 この手法はラベルのみの増量法を用いて訓練され,本手法が従来のデータ増量法よりも優れ,高サンプリング効率な推定器が得られた。 まず、ラベルポイントを領域に拡大することでランドマーク化タスクを緩和し、その後、徐々にこれらのラベル領域をベースタスクに戻します。 このアプローチの利点を、ゴールド標準のエキスパートアノテーションを用いた6つのラジオグラフデータセットで測定する。

This work reports the empirical performance of an automated medical landmark detection method for predict clinical markers in hip radiograph images. Notably, the detection method was trained using a label-only augmentation scheme; our results indicate that this form of augmentation outperforms traditional data augmentation and produces highly sample efficient estimators. We train a generic U-Net-based architecture under a curriculum consisting of two phases: initially relaxing the landmarking task by enlarging the label points to regions, then gradually eroding these label regions back to the base task. We measure the benefits of this approach on six datasets of radiographs with gold-standard expert annotations.
翻訳日:2023-09-29 18:24:55 公開日:2023-09-27
# コンパクトスナップショット分光イメージングのための開口回折

Aperture Diffraction for Compact Snapshot Spectral Imaging ( http://arxiv.org/abs/2309.16372v1 )

ライセンス: Link先を確認
Tao Lv, Hao Ye, Quan Yuan, Zhan Shi, Yibo Wang, Shuming Wang, Xun Cao(参考訳) 我々は,超薄型直交開口マスクとモザイクフィルタセンサを備えた撮像レンズと,一般的なRGBカメラと比べ,物理的なフットプリントを必要とせず,コンパクトで費用対効果の高いAperture Diffraction Imaging Spectrometer (ADIS) を実証した。 次に, 直交マスクから生成された回折に基づく空間分光投影技術を用いて, 物体空間の各点をモザイクフィルタセンサ上の離散符号化位置に多重化する新しい光学設計を提案する。 直交射影を均一に受け取り、弱いキャリブレーション依存のデータ形式を得て変調ロバスト性を高める。 一方, 回折変性を強く知覚するカスケードシフトシャッフルスペクトル変換器(CSST)は, 大量のエイリアシングによる2次元計測から体積再構成を実現することで, 空間制約の逆問題を解決するように設計されている。 本システムは, 単一露光下での実験的イメージングを実証し, 画像光学理論と再構成アルゴリズムを解明し, 評価を行う。 最終的に,サブスーパーピクセル空間分解能と高スペクトル分解能撮像を実現する。 コードは、https://github.com/Krito-ex/CSST.comで入手できる。

We demonstrate a compact, cost-effective snapshot spectral imaging system named Aperture Diffraction Imaging Spectrometer (ADIS), which consists only of an imaging lens with an ultra-thin orthogonal aperture mask and a mosaic filter sensor, requiring no additional physical footprint compared to common RGB cameras. Then we introduce a new optical design that each point in the object space is multiplexed to discrete encoding locations on the mosaic filter sensor by diffraction-based spatial-spectral projection engineering generated from the orthogonal mask. The orthogonal projection is uniformly accepted to obtain a weakly calibration-dependent data form to enhance modulation robustness. Meanwhile, the Cascade Shift-Shuffle Spectral Transformer (CSST) with strong perception of the diffraction degeneration is designed to solve a sparsity-constrained inverse problem, realizing the volume reconstruction from 2D measurements with Large amount of aliasing. Our system is evaluated by elaborating the imaging optical theory and reconstruction algorithm with demonstrating the experimental imaging under a single exposure. Ultimately, we achieve the sub-super-pixel spatial resolution and high spectral resolution imaging. The code will be available at: https://github.com/Krito-ex/CSST.
翻訳日:2023-09-29 14:48:21 公開日:2023-09-27
# モデル和解のための爆発的ハッティングセットについて

On Exploiting Hitting Sets for Model Reconciliation ( http://arxiv.org/abs/2012.09274v3 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, Alessandro Previti, William Yeoh(参考訳) ヒューマン・アウェア・プランニングでは、プランニングエージェントは、そのプランが最適である理由を人間ユーザーに説明する必要があるかもしれない。 これを行うための一般的なアプローチはモデル和解(model reconciliation)と呼ばれ、エージェントはそのモデルと人間のモデルの違いを調和させようとする。 本稿では,計画の領域を超えたモデル調整のための論理ベースのフレームワークを提案する。 より具体的には、知識ベースが$KB_1$で式が$\varphi$であり、2番目の知識ベースが$KB_2$でなくても、モデル和解は$KB_1$の基数最小部分集合の形で説明を求める。 提案手法は,不一致の分析の文脈から生まれた概念に基づき,既存の最小補正集合 (mcses) と最小不満足集合 (muses) 間のヒット集合の双対性を利用して,適切な説明を導出する。 しかし、単一の知識ベースを仮定する一貫性のない公式を対象とする作業とは異なり、MCSとMUSは2つの異なる知識ベースで計算される。 本稿では,新たに導入された計画インスタンスに対するアプローチを実証的に評価し,既存の最先端のソルバと,他のソルバが存在しない最近のsatコンペティションの汎用的非計画インスタンスとを比較検討した。

In human-aware planning, a planning agent may need to provide an explanation to a human user on why its plan is optimal. A popular approach to do this is called model reconciliation, where the agent tries to reconcile the differences in its model and the human's model such that the plan is also optimal in the human's model. In this paper, we present a logic-based framework for model reconciliation that extends beyond the realm of planning. More specifically, given a knowledge base $KB_1$ entailing a formula $\varphi$ and a second knowledge base $KB_2$ not entailing it, model reconciliation seeks an explanation, in the form of a cardinality-minimal subset of $KB_1$, whose integration into $KB_2$ makes the entailment possible. Our approach, based on ideas originating in the context of analysis of inconsistencies, exploits the existing hitting set duality between minimal correction sets (MCSes) and minimal unsatisfiable sets (MUSes) in order to identify an appropriate explanation. However, differently from those works targeting inconsistent formulas, which assume a single knowledge base, MCSes and MUSes are computed over two distinct knowledge bases. We conclude our paper with an empirical evaluation of the newly introduced approach on planning instances, where we show how it outperforms an existing state-of-the-art solver, and generic non-planning instances from recent SAT competitions, for which no other solver exists.
翻訳日:2023-09-29 03:56:54 公開日:2023-09-27
# MimicNorm: バッチ正規化のダイナミックなBNレイヤの重みと最後のBNレイヤ

MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization ( http://arxiv.org/abs/2010.09278v3 )

ライセンス: Link先を確認
Wen Fei, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) 物質実験は収束と一般化の恩恵を受けるためのバッチ正規化(BN)層の成功を検証する。 しかし、BNは余分なメモリと浮動小数点計算を必要とする。 さらにBNはバッチ統計に依存するため、マイクロバッチでは不正確である。 本稿では、BNの正規化を単純化し、BN層の基本的影響、すなわちデータデコリレーションと適応学習率を2つ保持する。 ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。 MimicNormは2つの光演算のみで構成され、修正された重み平均演算(重みパラメータテンソルから平均値を引き出す)と損失関数の前に1つのBN層(ラストBN層)を含む。 我々はニューラル・タンジェント・カーネル(ntk)理論を利用して、我々の重み平均演算が活性化を白化させ、bn層のようなカオス構造にネットワークを遷移させることを証明する。 最後のbn層は自動学習率を提供し、精度も向上している。 実験の結果、MimicNormはResNetsやShuffleNetのような軽量ネットワークなど、様々なネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減した。 コードはhttps://github.com/Kid-key/MimicNorm.comで公開されている。

Substantial experiments have validated the success of Batch Normalization (BN) Layer in benefiting convergence and generalization. However, BN requires extra memory and float-point calculation. Moreover, BN would be inaccurate on micro-batch, as it depends on batch statistics. In this paper, we address these problems by simplifying BN regularization while keeping two fundamental impacts of BN layers, i.e., data decorrelation and adaptive learning rate. We propose a novel normalization method, named MimicNorm, to improve the convergence and efficiency in network training. MimicNorm consists of only two light operations, including modified weight mean operations (subtract mean values from weight parameter tensor) and one BN layer before loss function (last BN layer). We leverage the neural tangent kernel (NTK) theory to prove that our weight mean operation whitens activations and transits network into the chaotic regime like BN layer, and consequently, leads to an enhanced convergence. The last BN layer provides autotuned learning rates and also improves accuracy. Experimental results show that MimicNorm achieves similar accuracy for various network structures, including ResNets and lightweight networks like ShuffleNet, with a reduction of about 20% memory consumption. The code is publicly available at https://github.com/Kid-key/MimicNorm.
翻訳日:2023-09-29 03:56:27 公開日:2023-09-27
# メカニスティックモデリングにおけるデータ一貫性インバージョンのための新しいフレキシブルパラメータ推定法

Novel and flexible parameter estimation methods for data-consistent inversion in mechanistic modeling ( http://arxiv.org/abs/2009.08267v3 )

ライセンス: Link先を確認
Timothy Rumbell, Jaimit Parikh, James Kozloski, and Viatcheslav Gurev(参考訳) 物理システムの予測は、しばしば生物科学における細胞のアンサンブルのような実体のアンサンブルから得られる知識に依存する。 定性的かつ定量的な分析のために、これらのアンサンブルは、機械モデル(MM)のパラメトリックなファミリーでシミュレートされる。 ベイズ推論とモデルの集団に基づく方法論の2つのクラスは、現在物理システムのパラメータ推定に使われている。 しかしベイズ解析では、MMパラメータの非形式的先行は望ましくないバイアスをもたらす。 本稿では,確率的逆問題(SIP)の枠組み内でパラメータを推論する方法を提案する。 そこで本研究では,拒絶サンプリング,マルコフ連鎖モンテカルロ,GAN(Generative Adversarial Network)に基づく新たなSIP解法を提案する。 さらに,SIPの限界を克服するため,制約付き最適化に基づいてSIPを再構成し,制約付き最適化問題を解決するための新しいGANを提案する。

Predictions for physical systems often rely upon knowledge acquired from ensembles of entities, e.g., ensembles of cells in biological sciences. For qualitative and quantitative analysis, these ensembles are simulated with parametric families of mechanistic models (MM). Two classes of methodologies, based on Bayesian inference and Population of Models, currently prevail in parameter estimation for physical systems. However, in Bayesian analysis, uninformative priors for MM parameters introduce undesirable bias. Here, we propose how to infer parameters within the framework of stochastic inverse problems (SIP), also termed data-consistent inversion, wherein the prior targets only uncertainties that arise due to MM non-invertibility. To demonstrate, we introduce new methods to solve SIP based on rejection sampling, Markov chain Monte Carlo, and generative adversarial networks (GANs). In addition, to overcome limitations of SIP, we reformulate SIP based on constrained optimization and present a novel GAN to solve the constrained optimization problem.
翻訳日:2023-09-29 03:56:04 公開日:2023-09-27
# 適応バッチサイズによるSGDの収束性向上

Improving the convergence of SGD through adaptive batch sizes ( http://arxiv.org/abs/1910.08222v4 )

ライセンス: Link先を確認
Scott Sievert and Shrey Shah(参考訳) 最小バッチ確率勾配勾配(SGD)とその変種は,少数の訓練例で目的関数の勾配を近似し,バッチサイズを推定した。 小さなバッチサイズでは、各モデルの更新にはほとんど計算を必要としないが、高分散勾配推定が得られるため、最適化にはいくつかの課題がある。 逆に、大きなバッチはより多くの計算を必要とするが、より高い精度の勾配推定が得られる。 本稿では,バッチサイズをモデルのトレーニング損失に適応させる手法を提案する。 様々な関数クラスに対して,SGDと同じ勾配計算を必要としながら,勾配降下と同じモデル更新の順序を必要とすることを示す。 この方法は、モデル更新毎にデータセット全体のモデル損失を評価する必要がある。 しかし、トレーニング損失を近似することで、必要な計算量は大幅に削減される。 提案手法を実証する実験では,計算量を増やすことなく,より少ないモデル更新を必要とする。

Mini-batch stochastic gradient descent (SGD) and variants thereof approximate the objective function's gradient with a small number of training examples, aka the batch size. Small batch sizes require little computation for each model update but can yield high-variance gradient estimates, which poses some challenges for optimization. Conversely, large batches require more computation but can yield higher precision gradient estimates. This work presents a method to adapt the batch size to the model's training loss. For various function classes, we show that our method requires the same order of model updates as gradient descent while requiring the same order of gradient computations as SGD. This method requires evaluating the model's loss on the entire dataset every model update. However, the required computation is greatly reduced by approximating the training loss. We provide experiments that illustrate our methods require fewer model updates without increasing the total amount of computation.
翻訳日:2023-09-29 03:55:45 公開日:2023-09-27
# 教師付き学習のためのグループ不変テンソルトレインネットワーク

Group-invariant tensor train networks for supervised learning ( http://arxiv.org/abs/2206.15051v2 )

ライセンス: Link先を確認
Brent Sprangers and Nick Vannieuwenhoven(参考訳) 不変性は最近、機械学習モデルにおいて強力な帰納バイアスであることが証明されている。 そのような予測モデルや生成モデルはテンソルネットワークである。 任意の離散群の正規行列表現の作用の下で不変となるテンソルの基底を構成するための新しい数値アルゴリズムを導入する。 この方法は、以前の手法よりも数桁高速である。 その後、グループ不変テンソルをグループ不変テンソルトレインネットワークに結合し、教師付き機械学習モデルとして使用することができる。 このモデルをタンパク質結合分類問題に適用し,問題固有の不変性を考慮し,最先端のディープラーニング手法による予測精度を得た。

Invariance has recently proven to be a powerful inductive bias in machine learning models. One such class of predictive or generative models are tensor networks. We introduce a new numerical algorithm to construct a basis of tensors that are invariant under the action of normal matrix representations of an arbitrary discrete group. This method can be up to several orders of magnitude faster than previous approaches. The group-invariant tensors are then combined into a group-invariant tensor train network, which can be used as a supervised machine learning model. We applied this model to a protein binding classification problem, taking into account problem-specific invariances, and obtained prediction accuracy in line with state-of-the-art deep learning approaches.
翻訳日:2023-09-29 02:11:05 公開日:2023-09-27
# 妻とお母さん以上のもの:中国における母親のvlogging行為に関する研究

More Than a Wife and a Mom: A Study of Mom Vlogging Practices in China ( http://arxiv.org/abs/2206.11843v2 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Bohui Shen, Franziska Zimmer, Chuanli Xia, Xin Tong(参考訳) 母親のvloggersは自宅にいる母親で、短いビデオで毎日を録画し、共有している。 本研究は,母のvloggersのモチベーション,実践,課題を理解することを目的としている。 われわれは、中国で4人の母親vloggerのインタビューと、他の5人の母親vloggerの母親vlogsのコンテンツ分析を行った。 母親のvloggersの主な動機は、お金を稼いだり、日々の生活を記録し、個人のアイデンティティと価値観を求め、有給の雇用を離れた後、経済的および社会的ニーズを満たすことである。 vlogコンテンツを作成するとき、ママのブロガーはビデオの視認性の欠如、集中的な母性と重いデジタル作業、プライバシーと自己表現の懸念など、さまざまな課題に遭遇する。 本研究は,これらの課題を解決し,母親のvloggers体験に利益をもたらす設計上の意義を提案する。

Mom vloggers are stay-at-home moms who record and share their daily life through short videos. In this exploratory study, we aspire to understand mom vloggers' motivations, practices, and challenges. Our mixed-methods inspection contained interviews with 4 mom vloggers in China and a content analysis of mom vlogs of 5 other mom vloggers. Mom vloggers' primary motivations are to make money, record daily life, and seek their individual identities and values, well meeting their financial and social needs after leaving their paid employment. When creating vlog content, mom bloggers encounter various challenges, such as a lack of video visibility, being stretched by both intensive motherhood and heavy digital work, privacy and self-presentation concerns, and so on. Based on the findings, we propose design implications toward resolving these challenges and benefiting mom vloggers' experiences.
翻訳日:2023-09-29 02:10:56 公開日:2023-09-27
# 多目的環境における教育デモからの実践的学習

Pragmatically Learning from Pedagogical Demonstrations in Multi-Goal Environments ( http://arxiv.org/abs/2206.04546v3 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 実証法からの学習は通常、トレーニングを加速するために最適なデモに近いものを活用する。 対照的に、タスクを提示するとき、人間の教師は最適なデモンストレーションから逸脱し、その目標を最も曖昧にするデモを提供することで、彼らの行動を教育的に修正する。 同様に、人間の学習者は教師の意図を実際的に推論し、2つのエージェント間のコミュニケーションを促進するのに優れている。 これらのメカニズムは、目標を推測することがより困難である少数のデモ体制において重要である。 本稿では,bgi(bgi)による目標推論のベイズモデルを用いて,教育と実践のメカニズムを実践する。 目標条件付き強化学習で学習する2つの人工エージェントを用いたマルチゴール教師-学習者構成におけるこのモデルの利点を強調した。 bgi-agents (教育教師と実践的学習者) を組み合わせると, 実演による標準学習よりも学習が早くなり, 目標の曖昧さが低下することが示された。 私たちは実験用のコード(https://github.com/caselles/neurips22-demonstrations-pedagogy-pragmatism)と私たちのアプローチを説明するイラストビデオ(https://youtu.be/v4n16ijknyw)を提供します。

Learning from demonstration methods usually leverage close to optimal demonstrations to accelerate training. By contrast, when demonstrating a task, human teachers deviate from optimal demonstrations and pedagogically modify their behavior by giving demonstrations that best disambiguate the goal they want to demonstrate. Analogously, human learners excel at pragmatically inferring the intent of the teacher, facilitating communication between the two agents. These mechanisms are critical in the few demonstrations regime, where inferring the goal is more difficult. In this paper, we implement pedagogy and pragmatism mechanisms by leveraging a Bayesian model of Goal Inference from demonstrations (BGI). We highlight the benefits of this model in multi-goal teacher-learner setups with two artificial agents that learn with goal-conditioned Reinforcement Learning. We show that combining BGI-agents (a pedagogical teacher and a pragmatic learner) results in faster learning and reduced goal ambiguity over standard learning from demonstrations, especially in the few demonstrations regime. We provide the code for our experiments (https://github.com/Caselles/NeurIPS22-demonstrations-pedagogy-pragmatism), as well as an illustrative video explaining our approach (https://youtu.be/V4n16IjkNyw).
翻訳日:2023-09-29 02:10:39 公開日:2023-09-27
# DIRA: 動的ドメイン増分正規化適応のためのフレームワーク

DIRA: A Framework for Dynamic Domain Incremental Regularised Adaptation ( http://arxiv.org/abs/2205.00147v3 )

ライセンス: Link先を確認
Abanoub Ghobrial, Xuan Zheng, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) 自律システム(AS)は、しばしばディープニューラルネットワーク(DNN)分類器を使用して、複雑な、高次元、非線形、動的に変化する環境で動作できるようにする。 これらの環境の複雑さのため、DNN分類器は開発中に特定されていないドメインに直面すると、操作中に誤分類を出力することができる。 再トレーニングのための操作からシステムを取り除くことは、増加などの数が増えると非現実的になる。 ASの信頼性を高め、この制限を克服するためには、DNN分類器はいくつかのサンプル(例:100サンプル)を使用して異なる運用ドメインに直面すると、操作中に適応する能力を持つ必要がある。 しかし、いくつかのサンプルでDNNを再訓練することは、破滅的な忘れ物を引き起こすことが知られている。 本稿では,DNN分類器の動作領域適応のためのフレームワークである動的インクリメンタル正規化適応(DIRA)を導入する。 本手法では,分散シフトに対するロバスト性(CIFAR-10C/100C, ImageNet-C)を評価することを目的とした,さまざまな画像分類ベンチマークの改善を示す。

Autonomous systems (AS) often use Deep Neural Network (DNN) classifiers to allow them to operate in complex, high dimensional, non-linear, and dynamically changing environments. Due to the complexity of these environments, DNN classifiers may output misclassifications during operation when they face domains not identified during development. Removing a system from operation for retraining becomes impractical as the number of such AS increase. To increase AS reliability and overcome this limitation, DNN classifiers need to have the ability to adapt during operation when faced with different operational domains using a few samples (e.g. 100 samples). However, retraining DNNs on a few samples is known to cause catastrophic forgetting. In this paper, we introduce Dynamic Incremental Regularised Adaptation (DIRA), a framework for operational domain adaption of DNN classifiers using regularisation techniques to overcome catastrophic forgetting and achieve adaptation when retraining using few samples of the target domain. Our approach shows improvements on different image classification benchmarks aimed at evaluating robustness to distribution shifts (e.g.CIFAR-10C/100C, ImageNet-C), and produces state-of-the-art performance in comparison with other frameworks from the literature.
翻訳日:2023-09-29 02:10:05 公開日:2023-09-27
# 信頼できるグラフニューラルネットワークに関する総合調査:プライバシー、ロバスト性、公正性、説明可能性

A Comprehensive Survey on Trustworthy Graph Neural Networks: Privacy, Robustness, Fairness, and Explainability ( http://arxiv.org/abs/2204.08570v2 )

ライセンス: Link先を確認
Enyan Dai, Tianxiang Zhao, Huaisheng Zhu, Junjie Xu, Zhimeng Guo, Hui Liu, Jiliang Tang, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は近年,急速な発展を遂げている。 グラフ構造化データモデリングの優れた能力のため、GNNは財務分析、交通予測、薬物発見など、さまざまなアプリケーションで広く利用されている。 現実世界で人間に利益をもたらす大きな可能性にもかかわらず、最近の研究は、GNNが個人情報を漏らし、敵の攻撃に弱いこと、訓練データから社会的偏見を継承し、拡大しうること、そしてユーザーや社会に意図しない害をもたらすリスクがあることを示している。 例えば、既存の研究は、攻撃者がGNNを騙して、トレーニンググラフに目立たない摂動で彼らが望む結果を与えることを示した。 ソーシャルネットワークで訓練されたGNNは、判断プロセスに差別を埋め込んで、望ましくない社会的偏見を強化することができる。 その結果、GNNモデルの害を防止し、GNNに対するユーザの信頼を高めるために、様々な面で信頼できるGNNが出現している。 本稿では,プライバシー,堅牢性,公正性,説明可能性の計算面におけるGNNの包括的調査を行う。 それぞれの側面において、関連する手法の分類を与え、信頼に値するGNNの複数のカテゴリの一般的なフレームワークを定式化する。 また,各側面の今後の研究方向性とこれらの側面間のつながりを議論し,信頼性の向上に寄与する。

Graph Neural Networks (GNNs) have made rapid developments in the recent years. Due to their great ability in modeling graph-structured data, GNNs are vastly used in various applications, including high-stakes scenarios such as financial analysis, traffic predictions, and drug discovery. Despite their great potential in benefiting humans in the real world, recent study shows that GNNs can leak private information, are vulnerable to adversarial attacks, can inherit and magnify societal bias from training data and lack interpretability, which have risk of causing unintentional harm to the users and society. For example, existing works demonstrate that attackers can fool the GNNs to give the outcome they desire with unnoticeable perturbation on training graph. GNNs trained on social networks may embed the discrimination in their decision process, strengthening the undesirable societal bias. Consequently, trustworthy GNNs in various aspects are emerging to prevent the harm from GNN models and increase the users' trust in GNNs. In this paper, we give a comprehensive survey of GNNs in the computational aspects of privacy, robustness, fairness, and explainability. For each aspect, we give the taxonomy of the related methods and formulate the general frameworks for the multiple categories of trustworthy GNNs. We also discuss the future research directions of each aspect and connections between these aspects to help achieve trustworthiness.
翻訳日:2023-09-29 02:09:42 公開日:2023-09-27
# 人工チューター-ラーナーインタラクションにおける教育的実証と実践的学習

Pedagogical Demonstrations and Pragmatic Learning in Artificial Tutor-Learner Interactions ( http://arxiv.org/abs/2203.00111v2 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Mohamed Chetouani, Olivier Sigaud(参考訳) タスクのデモンストレーションを行うとき、人間の教師は、単にタスクを"実行"する(デモの関連部分を誇張する)のではなく、あるいはコミュニケーションする目標を最も曖昧にするデモを行うことで、そのタスクの動作を教育的に変更する。 同様に、人間の学習者は教師のコミュニケーションの意図を実践的に推論し、教師が教えようとしていることを解釈し、学習に必要な情報を推測する。 このようなメカニズムがなければ、従来のLearning from Demonstration (LfD)アルゴリズムはそのようなデモを準最適と見なすだろう。 本稿では,複数の目標を持った環境において,両者が人工エージェントであるチューター・リーナー設定において,このようなメカニズムの実装を検討する。 教師の教育学と学習者のプラグマティズムを用いて,実演による標準学習よりも大幅に改善した。

When demonstrating a task, human tutors pedagogically modify their behavior by either "showing" the task rather than just "doing" it (exaggerating on relevant parts of the demonstration) or by giving demonstrations that best disambiguate the communicated goal. Analogously, human learners pragmatically infer the communicative intent of the tutor: they interpret what the tutor is trying to teach them and deduce relevant information for learning. Without such mechanisms, traditional Learning from Demonstration (LfD) algorithms will consider such demonstrations as sub-optimal. In this paper, we investigate the implementation of such mechanisms in a tutor-learner setup where both participants are artificial agents in an environment with multiple goals. Using pedagogy from the tutor and pragmatism from the learner, we show substantial improvements over standard learning from demonstrations.
翻訳日:2023-09-29 02:09:18 公開日:2023-09-27
# Kinectを用いた行動認識アルゴリズムの解析と評価

Analysis and Evaluation of Kinect-based Action Recognition Algorithms ( http://arxiv.org/abs/2112.08626v2 )

ライセンス: Link先を確認
Lei Wang(参考訳) 人間の行動認識は、様々な視点、咬合、照明条件、人体サイズ、行動実行速度といった多くの困難な問題が存在するが、様々な領域で広く使われている。 これらの課題に対処するため、Kinect深度センサーは、人間の衣服の色や照明条件に敏感なリアルタイム深度シーケンスを記録するために開発された。 HON4D, HOPC, RBD, HDGなどの文献では, 4次元表面の正規分布, 点雲, 骨格モデル, 深度勾配を用いて, 深度ビデオや骨格データから識別情報を抽出する手法が報告されている。 本研究では,上記の4つのアルゴリズムの性能を,雑音,視点の変化,背景クラッタ,オクルージョンなどの課題をカバーする5つのベンチマークデータセットを用いて解析・評価する。 また,HDGアルゴリズムの実装と改良を行い,UWA3D Multiview Activity データセットを用いたクロスビュー動作認識に適用した。 また,HDGの個々の特徴ベクトルの組み合わせを用いて性能評価を行った。 実験の結果,hdgの改善は他の3つの最先端アルゴリズムよりも優れていることがわかった。

Human action recognition still exists many challenging problems such as different viewpoints, occlusion, lighting conditions, human body size and the speed of action execution, although it has been widely used in different areas. To tackle these challenges, the Kinect depth sensor has been developed to record real time depth sequences, which are insensitive to the color of human clothes and illumination conditions. Many methods on recognizing human action have been reported in the literature such as HON4D, HOPC, RBD and HDG, which use the 4D surface normals, pointclouds, skeleton-based model and depth gradients respectively to capture discriminative information from depth videos or skeleton data. In this research project, the performance of four aforementioned algorithms will be analyzed and evaluated using five benchmark datasets, which cover challenging issues such as noise, change of viewpoints, background clutters and occlusions. We also implemented and improved the HDG algorithm, and applied it in cross-view action recognition using the UWA3D Multiview Activity dataset. Moreover, we used different combinations of individual feature vectors in HDG for performance evaluation. The experimental results show that our improvement of HDG outperforms other three state-of-the-art algorithms for cross-view action recognition.
翻訳日:2023-09-29 02:09:03 公開日:2023-09-27
# 生産場内位置決めシステムにおける教師なし動作検出

Unsupervised Movement Detection in Indoor Positioning Systems of Production Halls ( http://arxiv.org/abs/2109.10757v2 )

ライセンス: Link先を確認
Jonathan Flossdorf, Anne Meyer, Dmitri Artjuch, Jaques Schneider, Carsten Jentsch(参考訳) センサーを搭載した物体が現在の位置を送信する生産ホールにおける屋内測位システム (ips) を考える。 その膨大な量の他に、生データの分析はノイズに対する感受性のため困難である。 理由は、ロジスティックプロセスのダイナミクス(例えば、通過フォークリフトの振動)によって生じるセンサーの精度の問題と望ましくない覚醒である。 本稿では,これらの課題に対するテーラーメイドの統計手法を提案し,視覚分析と動き検出を組み合わせる。 一般的な停止点アルゴリズムとは対照的に、停止と移動を区別するだけでなく、望ましくない覚醒も考慮する。 これは、オンライン(例えば、注文の監視)とオフラインアプリケーション(例えば、問題領域の検知)に使用方法を提供するより詳細な解釈スキームをもたらす。 このアプローチでは、生のIPS出力以外の情報を必要としないため、アドホックな分析が可能になる。 業界パートナーの本当のIPSデータを用いた広範なケーススタディで、我々の研究結果を下記にまとめる。

Consider indoor positioning systems (IPS) in production halls where objects equipped with sensors send their current position. Beside its large volume, the analyzation of the resulting raw data is challenging due to the susceptibility towards noise. Reasons are accuracy issues and undesired awakenings of sensors that occur due to the dynamics of logistic processes (e.g.~vibrations of passing forklifts). We propose a tailor-made statistical procedure for these challenges and combine visual analytics with movement detection. Contrary to common stay-point algorithms, we do not only distinguish between stops and moves, but also consider undesired awakenings. This leads to a more detailed interpretation scheme offering usages for online (e.g.~monitoring of orders) and offline applications (e.g.~detection of problematic areas). The approach does not require other information than the raw IPS output and enables an ad-hoc analysis. We underline our findings in an extensive case study with real IPS data of our industry partner.
翻訳日:2023-09-29 02:08:18 公開日:2023-09-27
# 円錐プログラムを用いた異なる種類の量子チャネルによる補間

Interpolation by Different Types of Quantum Channels Using Conic Programs ( http://arxiv.org/abs/2104.07254v3 )

ライセンス: Link先を確認
Arnab Roy and Saikat Patra(参考訳) 補間問題の出力として異なる種類の量子チャネルを得るためのconicプログラムを見出した。 その後,補間問題の出力として凸集合に属するチャネルを得るための結果を一般化した。 入力行列と出力行列の直交集合に対するエンタングルメント切断チャネルの存在を示す。

We have found conic programs for getting different types of quantum channels as outputs of interpolation problems. Afterwards, we have generalized our results for getting channels that belong to a convex set as outputs of the interpolation problem. We show the existence of an Entanglement breaking channel for orthogonal sets of input and output matrices.
翻訳日:2023-09-29 02:07:18 公開日:2023-09-27
# 言語誘導目標条件強化学習における規範的曖昧さの克服

Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2209.12758v2 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 自然言語を用いて新しいタスクを実行するようにエージェントに教えることは、解釈の曖昧さによって容易に妨げられる。 教師がその特徴を参照して対象について学習者に指示を行うと、学習者は教師の意図を誤解することができる。例えば、指示が対象の特徴を曖昧に言及している場合、参照曖昧性と呼ばれる現象は、教師の意図を誤解することができる。 認知科学から派生した2つの概念は、教育(正しい指示を選ぶ)と実践主義(帰納的推論を用いて他のエージェントの嗜好を学ぶ)という、これらの参照の曖昧さを解決するのにどのように役立つかを研究する。 シミュレーションロボット作業(ブロックスタッキング)に2つの人工エージェントを配置した教師/学習者に対して,これらのアイデアを適用した。 これらの概念が学習者の学習のサンプル効率を向上させることを示す。

Teaching an agent to perform new tasks using natural language can easily be hindered by ambiguities in interpretation. When a teacher provides an instruction to a learner about an object by referring to its features, the learner can misunderstand the teacher's intentions, for instance if the instruction ambiguously refer to features of the object, a phenomenon called referential ambiguity. We study how two concepts derived from cognitive sciences can help resolve those referential ambiguities: pedagogy (selecting the right instructions) and pragmatism (learning the preferences of the other agents using inductive reasoning). We apply those ideas to a teacher/learner setup with two artificial agents on a simulated robotic task (block-stacking). We show that these concepts improve sample efficiency for training the learner.
翻訳日:2023-09-29 00:17:32 公開日:2023-09-27
# 高次元ベイズモデルに対するロバストなレフワンアウトクロスバリデーション

Robust leave-one-out cross-validation for high-dimensional Bayesian models ( http://arxiv.org/abs/2209.09190v2 )

ライセンス: Link先を確認
Luca Silva and Giacomo Zanella(参考訳) LOO-CV (Leave-one-out Cross-validation) はサンプル外予測精度を推定するための一般的な手法である。 しかし、LOO-CV基準の計算は、モデルに複数回適合する必要があるため、計算コストがかかる可能性がある。 ベイズ的文脈では、重要サンプリングは可能な解を提供するが、古典的なアプローチは漸近的分散が無限である推定器を容易に生成することができ、それらが信頼できない可能性がある。 本稿では,ベイジアンLOO-CV基準を計算するための混合推定器を提案する。 本手法は古典的アプローチの単純さと計算の利便性を保ちつつ,結果の漸近的分散を保証している。 理論的および数値的な結果は、改善された堅牢性と効率を説明するために提供される。 計算の利点は特に高次元問題において重要であり、より広い範囲のモデルや非常に影響力のある観測データに対してベイズ loo-cv を実行できる。 提案手法は,標準確率型プログラミングソフトウェアで容易に実装可能であり,元のモデルに一度適合する計算コストとほぼ同等である。

Leave-one-out cross-validation (LOO-CV) is a popular method for estimating out-of-sample predictive accuracy. However, computing LOO-CV criteria can be computationally expensive due to the need to fit the model multiple times. In the Bayesian context, importance sampling provides a possible solution but classical approaches can easily produce estimators whose asymptotic variance is infinite, making them potentially unreliable. Here we propose and analyze a novel mixture estimator to compute Bayesian LOO-CV criteria. Our method retains the simplicity and computational convenience of classical approaches, while guaranteeing finite asymptotic variance of the resulting estimators. Both theoretical and numerical results are provided to illustrate the improved robustness and efficiency. The computational benefits are particularly significant in high-dimensional problems, allowing to perform Bayesian LOO-CV for a broader range of models, and datasets with highly influential observations. The proposed methodology is easily implementable in standard probabilistic programming software and has a computational cost roughly equivalent to fitting the original model once.
翻訳日:2023-09-29 00:16:53 公開日:2023-09-27
# AMoDシステムにおけるロバストかつ制約付きマルチエージェント強化学習電気自動車リバランシング法

A Robust and Constrained Multi-Agent Reinforcement Learning Electric Vehicle Rebalancing Method in AMoD Systems ( http://arxiv.org/abs/2209.08230v2 )

ライセンス: Link先を確認
Sihong He, Yue Wang, Shuo Han, Shaofeng Zou, Fei Miao(参考訳) 電気自動車(EV)は自律移動オンデマンド(AMoD)システムにおいて重要な役割を果たすが、そのユニークな充電パターンはAMoDシステムにおけるモデルの不確実性(状態遷移確率など)を増加させる。 通常、トレーニング環境とテスト/真実環境の間にはミスマッチがあるため、システム設計にモデルの不確実性を取り込むことは、現実世界のアプリケーションにおいて非常に重要である。 しかし、モデル不確実性はまだ既存の文献によるEV AMoDシステムの再バランスにおいて明確に考慮されておらず、モデル不確実性と決定が満たすべき制約の共存が問題をさらに困難にしている。 本研究では,EV AMoDシステムにおける状態遷移カーネルの不確実性を考慮した,堅牢かつ制約付きマルチエージェント強化学習(MARL)フレームワークを設計する。 そこで我々は,モデル不確実性の下で都市全体での需給比率と充電利用率のバランスをとるために,堅牢なEV再バランス政策を訓練する,堅牢で制約のある自然政策勾配(RNPG)を備えたMARLアルゴリズムを提案する。 実験により、rocomaは効果的でロバストなリバランスポリシーを学習できることが示されている。 これはモデル不確実性の存在下で非ロバスト marl 法よりも優れている。 システムフェアネスを19.6%向上させ、再バランスコストを75.8%削減する。

Electric vehicles (EVs) play critical roles in autonomous mobility-on-demand (AMoD) systems, but their unique charging patterns increase the model uncertainties in AMoD systems (e.g. state transition probability). Since there usually exists a mismatch between the training and test/true environments, incorporating model uncertainty into system design is of critical importance in real-world applications. However, model uncertainties have not been considered explicitly in EV AMoD system rebalancing by existing literature yet, and the coexistence of model uncertainties and constraints that the decision should satisfy makes the problem even more challenging. In this work, we design a robust and constrained multi-agent reinforcement learning (MARL) framework with state transition kernel uncertainty for EV AMoD systems. We then propose a robust and constrained MARL algorithm (ROCOMA) with robust natural policy gradients (RNPG) that trains a robust EV rebalancing policy to balance the supply-demand ratio and the charging utilization rate across the city under model uncertainty. Experiments show that the ROCOMA can learn an effective and robust rebalancing policy. It outperforms non-robust MARL methods in the presence of model uncertainties. It increases the system fairness by 19.6% and decreases the rebalancing costs by 75.8%.
翻訳日:2023-09-29 00:16:27 公開日:2023-09-27
# 脳電図を用いたスケーラブルな機械学習モデルによる眠気検出性能の検討

Studying Drowsiness Detection Performance while Driving through Scalable Machine Learning Models using Electroencephalography ( http://arxiv.org/abs/2209.04048v2 )

ライセンス: Link先を確認
Jos\'e Manuel Hidalgo Rogel, Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Sergio L\'opez Bernal, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 背景 / 導入: ドライバーの眠気は重要な関心事であり、交通事故の主な原因の1つです。 認知神経科学とコンピュータ科学の進歩により、Brain-Computer Interfaces (BCI) と Machine Learning (ML) を用いたドライバーの眠気の検出が可能になった。 しかし,不均質なMLアルゴリズムを用いた快適度検出性能の総合評価には欠けており,対象者のグループに適したスケーラブルなMLモデルの性能について検討する必要がある。 方法:これらの制約に対処するため、この研究はBCIを用いたインテリジェントな枠組みを示し、脳波に基づいて運転シナリオの眠気を検出する。 SEED-VIGデータセットは、個人とグループにとって最高のパフォーマンスモデルを評価するために使用される。 結果: ランダムフォレスト (RF) は,SVM (Support Vector Machine) などの文献において,個々のモデルに対して78%のf1スコアで,他のモデルよりも優れていた。 スケーラブルモデルに関して、RFは79%のf1スコアに達し、これらのアプローチの有効性を実証した。 本論文は,多種多様なmlアルゴリズムと,被検者の集団が眠気検出システムを改善し,最終的には運転者の疲労による事故数を減らすのに適したスケーラブルなアプローチを検討することの関連性を強調する。 結論:本研究から得られた教訓は,SVMだけでなく,文献で十分に調査されていない他のモデルも,眠気検出に関係していることを示している。 さらに,新しい被験者が評価された場合でも,スケーラブルなアプローチは眠気の検出に有効である。 そこで,提案フレームワークは,BCIとMLを用いた運転シナリオの眠気を検出する新しい手法を提案する。

- Background / Introduction: Driver drowsiness is a significant concern and one of the leading causes of traffic accidents. Advances in cognitive neuroscience and computer science have enabled the detection of drivers' drowsiness using Brain-Computer Interfaces (BCIs) and Machine Learning (ML). However, the literature lacks a comprehensive evaluation of drowsiness detection performance using a heterogeneous set of ML algorithms, and it is necessary to study the performance of scalable ML models suitable for groups of subjects. - Methods: To address these limitations, this work presents an intelligent framework employing BCIs and features based on electroencephalography for detecting drowsiness in driving scenarios. The SEED-VIG dataset is used to evaluate the best-performing models for individual subjects and groups. - Results: Results show that Random Forest (RF) outperformed other models used in the literature, such as Support Vector Machine (SVM), with a 78% f1-score for individual models. Regarding scalable models, RF reached a 79% f1-score, demonstrating the effectiveness of these approaches. This publication highlights the relevance of exploring a diverse set of ML algorithms and scalable approaches suitable for groups of subjects to improve drowsiness detection systems and ultimately reduce the number of accidents caused by driver fatigue. - Conclusions: The lessons learned from this study show that not only SVM but also other models not sufficiently explored in the literature are relevant for drowsiness detection. Additionally, scalable approaches are effective in detecting drowsiness, even when new subjects are evaluated. Thus, the proposed framework presents a novel approach for detecting drowsiness in driving scenarios using BCIs and ML.
翻訳日:2023-09-29 00:16:03 公開日:2023-09-27
# 金融応用による連続時間確率過程の量子符号化と解析

Quantum Encoding and Analysis on Continuous Time Stochastic Process with Financial Applications ( http://arxiv.org/abs/2208.02364v5 )

ライセンス: Link先を確認
Xi-Ning Zhuang, Zhao-Yun Chen, Cheng Xue, Yu-Chun Wu, Guo-Ping Guo(参考訳) 連続時間確率過程 (continuous time stochastic process) は、金融、統計、物理学、時系列分析を含む幅広い応用でランダム世界をモデル化する主流の数学的手法であり、連続時間確率過程のシミュレーションと解析は古典的コンピュータにとって難しい問題である。 本研究では,量子コンピュータにおける連続時間確率過程の経路を効率的に作成するための一般的な枠組みを構築した。 クビット数と回路深さの両方を圧縮状態準備法により最適化するため、保持時間のキーパラメータに対して記憶資源と演算資源を指数関数的に削減する。 財務問題に不可欠な経路依存情報及び履歴依存情報を含む所望情報は、圧縮されたサンプリングパスから効率的に抽出でき、さらに二次的なスピードアップが認められる。 さらに、この抽出方法は、極端な市場イベントを捉える不連続なジャンプに対してより敏感である。 メルトンジャンプ拡散モデルにおけるオプション価格の2つの応用と集団リスクモデルにおける破壊確率計算について述べる。

The continuous time stochastic process is a mainstream mathematical instrument modeling the random world with a wide range of applications involving finance, statistics, physics, and time series analysis, while the simulation and analysis of the continuous time stochastic process is a challenging problem for classical computers. In this work, a general framework is established to prepare the path of a continuous time stochastic process in a quantum computer efficiently. The storage and computation resource is exponentially reduced on the key parameter of holding time, as the qubit number and the circuit depth are both optimized via our compressed state preparation method. The desired information, including the path-dependent and history-sensitive information that is essential for financial problems, can be extracted efficiently from the compressed sampling path, and admits a further quadratic speed-up. Moreover, this extraction method is more sensitive to those discontinuous jumps capturing extreme market events. Two applications of option pricing in Merton jump diffusion model and ruin probability computing in the collective risk model are given.
翻訳日:2023-09-29 00:15:08 公開日:2023-09-27
# 背景と前景における行動表現の静的バイアスの軽減と評価

Mitigating and Evaluating Static Bias of Action Representations in the Background and the Foreground ( http://arxiv.org/abs/2211.12883v3 )

ライセンス: Link先を確認
Haoxin Li, Yuan Liu, Hanwang Zhang, Boyang Li(参考訳) ビデオアクション認識では、ショートカット静的機能は動作特徴の学習を妨げる可能性があるため、od(out-of-distribution)一般化が不十分である。 ビデオ背景は明らかに静的バイアスの源であるが、アクターの衣服のようなビデオフォアグラウンドは静的バイアスを与えることもできる。 本稿では,ビデオの静的部分と移動部分の信号が矛盾するテストビデオを作成することにより,前景の静的バイアスの存在を実証的に検証する。 この問題に取り組むために,ロバストな行動表現を学ぶための,単純かつ効果的な手法である stillmix を提案する。 具体的には、s stillmixは2d参照ネットワークを使ってバイアスを誘発するビデオフレームを識別し、トレーニング用のビデオと混合し、各ビデオフレーム内のバイアス源を明示的に抽出したり、バイアスの種類を列挙することができない場合でも、効果的なバイアス抑制を行う。 最後に,静的バイアスを正確に評価するために,背景の静的キューにSCUBA,前景の静的キューにSCUFOという2つの新しいベンチマークを合成する。 広範な実験により、s stillmixは両方の静的バイアスを軽減し、下流アプリケーションのビデオ表現を改善することを実証した。 コードはhttps://github.com/lihaoxin05/stillmixで入手できる。

In video action recognition, shortcut static features can interfere with the learning of motion features, resulting in poor out-of-distribution (OOD) generalization. The video background is clearly a source of static bias, but the video foreground, such as the clothing of the actor, can also provide static bias. In this paper, we empirically verify the existence of foreground static bias by creating test videos with conflicting signals from the static and moving portions of the video. To tackle this issue, we propose a simple yet effective technique, StillMix, to learn robust action representations. Specifically, StillMix identifies bias-inducing video frames using a 2D reference network and mixes them with videos for training, serving as effective bias suppression even when we cannot explicitly extract the source of bias within each video frame or enumerate types of bias. Finally, to precisely evaluate static bias, we synthesize two new benchmarks, SCUBA for static cues in the background, and SCUFO for static cues in the foreground. With extensive experiments, we demonstrate that StillMix mitigates both types of static bias and improves video representations for downstream applications. Code is available at https://github.com/lihaoxin05/StillMix.
翻訳日:2023-09-28 22:24:35 公開日:2023-09-27
# 垂直的フェデレーション学習 - 概念,進歩,課題

Vertical Federated Learning: Concepts, Advances and Challenges ( http://arxiv.org/abs/2211.12814v3 )

ライセンス: Link先を確認
Yang Liu, Yan Kang, Tianyuan Zou, Yanhong Pu, Yuanqin He, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang and Qiang Yang(参考訳) Vertical Federated Learning(VFL)は、同じユーザのセットに関する異なる特徴を持つ複数のパーティが、生のデータやモデルのパラメータを公開せずに、共同で機械学習モデルをトレーニングする、フェデレーション付き学習環境である。 vfl研究と実世界のアプリケーションの急速な成長に動機づけられ、vflの概念とアルゴリズムの包括的なレビューと、有効性、効率性、プライバシなど、さまざまな面での現在の進歩と課題を提供する。 VFL設定とプライバシ保護プロトコルの徹底的な分類を行い、各プロトコルのプライバシ攻撃と防衛戦略を包括的に分析する。 最後に,コミュニケーションや計算,プライバシ,さらには有効性や公平性といった制約の下でのvfl問題を考える,vflowと呼ばれる統一フレームワークを提案する。 最後に,産業応用の最新動向を概観し,vflの課題と今後の方向性について述べる。

Vertical Federated Learning (VFL) is a federated learning setting where multiple parties with different features about the same set of users jointly train machine learning models without exposing their raw data or model parameters. Motivated by the rapid growth in VFL research and real-world applications, we provide a comprehensive review of the concept and algorithms of VFL, as well as current advances and challenges in various aspects, including effectiveness, efficiency, and privacy. We provide an exhaustive categorization for VFL settings and privacy-preserving protocols and comprehensively analyze the privacy attacks and defense strategies for each protocol. In the end, we propose a unified framework, termed VFLow, which considers the VFL problem under communication, computation, privacy, as well as effectiveness and fairness constraints. Finally, we review the most recent advances in industrial applications, highlighting open challenges and future directions for VFL.
翻訳日:2023-09-28 22:24:11 公開日:2023-09-27
# マイクロ波におけるQubit制御のための超伝導変調回路

Superconductor modulation circuits for Qubit control at microwave frequencies ( http://arxiv.org/abs/2211.06667v2 )

ライセンス: Link先を確認
Sasan Razmkhah, Ali Bozbey and Pascal Febvre(参考訳) 量子ビットの読み出しと制御は、量子コンピュータのスケーリングにおける制限要因である。 理想的な解決策は、qubitsに近いエネルギー効率の良い極低温回路を統合し、制御および前処理タスクを実行することである。 単磁束量子(SFQ)とAQFP(Adiabatic Quantum Flux Parametron)超伝導体論理系は、消費電力が桁違いに小さく、ノイズも低いため、極低温では究極の性能に達する。 我々は、量子ビットを制御するための超伝導体ベースのオンチップ関数生成器を開発した。 生成した信号は、超伝導ミキサーステージに印加された外部入力波形に基づいて、数十GHzまで変調される。 この回路は4.2Kで動作する。 高周波(rf)マッチング回路は、デジタル増幅およびノイズ低減後の信号を~mkステージに送信する。

Readout and control of qubits are limiting factors in scaling quantum computers. An ideal solution is to integrate energy-efficient cryogenic circuits close to the qubits to perform control and pre-processing tasks. With orders of magnitude lower power consumption and hence lower noise, Single Flux Quantum (SFQ) and Adiabatic Quantum Flux Parametron (AQFP) superconductor logic families can reach ultimate performance at cryogenic temperatures. We have created a superconductor-based on-chip function generator to control qubits. The generated signal is modulated up to tens of GHz based on the external input waveform applied to the superconductor mixer stage. This circuit works at 4.2K. A radiofrequency (RF) matching circuit transmits the signal to the ~mK stage after digital amplification and noise reduction.
翻訳日:2023-09-28 22:23:55 公開日:2023-09-27
# 低精度環境におけるリプシッツ連続損失関数のsgd変異

Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments ( http://arxiv.org/abs/2211.04655v5 )

ライセンス: Link先を確認
Michael R. Metel(参考訳) 低ビット浮動小数点浮動小数点環境におけるニューラルネットワークの学習を動機とし,適応ステップサイズと計算誤差を用いてsgdの変種について検討した。 一般的な確率的リプシッツ連続損失関数を考えると、クラーク定常点への漸近収束の結果と、近似定常点への非漸近収束が証明される。 sgdステップ自体の計算誤差に加えて、損失関数の確率勾配の近似のみを計算できると仮定する。 2つの画像認識タスクのSGDと比較して、テストセットの精度が向上した様々な低精度演算環境において、異なるSGDの変種を経験的にテストする。

Motivated by neural network training in low-bit floating and fixed-point environments, this work studies the convergence of variants of SGD using adaptive step sizes with computational error. Considering a general stochastic Lipschitz continuous loss function, an asymptotic convergence result to a Clarke stationary point is proven as well as the non-asymptotic convergence to an approximate stationary point. It is assumed that only an approximation of the loss function's stochastic gradient can be computed in addition to error in computing the SGD step itself. Different variants of SGD are tested empirically in a variety of low-precision arithmetic environments, where improved test set accuracy is observed compared to SGD for two image recognition tasks.
翻訳日:2023-09-28 22:23:41 公開日:2023-09-27
# In-The-Wild Speaker Diarizationのためのレイトオーディオ・ビジュアルフュージョン

Late Audio-Visual Fusion for In-The-Wild Speaker Diarization ( http://arxiv.org/abs/2211.01299v2 )

ライセンス: Link先を確認
Zexu Pan, Gordon Wichern, Fran\c{c}ois G. Germain, Aswin Subramanian, Jonathan Le Roux(参考訳) 話者ダイアリゼーションは制約付きオーディオでよく研究されているが、より多くの話者、短い発話、一貫性のないオンスクリーンスピーカーを持つ、野生のビデオに挑戦するための研究はほとんど行われていない。 本稿では,音声のみと視覚中心のサブシステムを組み合わせた音声-視覚ダイアリゼーションモデルを提案する。 音声では,提案したプロキシデータセットのレシピを用いてトレーニングすると,アトラクタベースのエンド・ツー・エンドシステム(EEND-EDA)が極めて良好に動作し,デコードに注意を払い,学習中に話者認識損失を低減し,より多くの話者を扱うための改良版EEND-EDA++を提案する。 視覚中心のサブシステムは、顔の特徴と唇音の同期を利用して、画面上の話者のアイデンティティと音声活動の推定を行う。 両方のサブシステムは、AVA-AVDベンチマークで新しいSOTAを達成し、大きなマージンでSOTA(State of the Art)を上回っている。

Speaker diarization is well studied for constrained audios but little explored for challenging in-the-wild videos, which have more speakers, shorter utterances, and inconsistent on-screen speakers. We address this gap by proposing an audio-visual diarization model which combines audio-only and visual-centric sub-systems via late fusion. For audio, we show that an attractor-based end-to-end system (EEND-EDA) performs remarkably well when trained with our proposed recipe of a simulated proxy dataset, and propose an improved version, EEND-EDA++, that uses attention in decoding and a speaker recognition loss during training to better handle the larger number of speakers. The visual-centric sub-system leverages facial attributes and lip-audio synchrony for identity and speech activity estimation of on-screen speakers. Both sub-systems surpass the state of the art (SOTA) by a large margin, with the fused audio-visual system achieving a new SOTA on the AVA-AVD benchmark.
翻訳日:2023-09-28 22:23:27 公開日:2023-09-27
# 有限オートマトンによるニューラルネットワークの検証と解釈

Verifying And Interpreting Neural Networks using Finite Automata ( http://arxiv.org/abs/2211.01022v3 )

ライセンス: Link先を確認
Marco S\"alzer, Eric Alsmann, Florian Bruse and Martin Lange(参考訳) ディープニューラルネットワーク(dnn)の特性の検証と振る舞いの解釈は、安全性クリティカルなものを含むユビキタスな用途やブラックボックスの性質を考える上で重要なタスクである。 DNN解析における問題に対する自動理論アプローチを提案する。 我々は,DNNの入力出力動作を,(特殊)弱いB\"uchiオートマトンによって正確に把握できることを示し,DNNの対向ロバスト性や最小の十分な理由のような共通的な検証や解釈タスクにどのように対応できるかを示す。

Verifying properties and interpreting the behaviour of deep neural networks (DNN) is an important task given their ubiquitous use in applications, including safety-critical ones, and their black-box nature. We propose an automata-theoric approach to tackling problems arising in DNN analysis. We show that the input-output behaviour of a DNN can be captured precisely by a (special) weak B\"uchi automaton and we show how these can be used to address common verification and interpretation tasks of DNN like adversarial robustness or minimum sufficient reasons.
翻訳日:2023-09-28 22:23:07 公開日:2023-09-27
# 大規模高ダイナミックレンジイメージングのためのディープネットワークシリーズ

Deep network series for large-scale high-dynamic range imaging ( http://arxiv.org/abs/2210.16060v3 )

ライセンス: Link先を確認
Amir Aghabiglou, Matthieu Terris, Adrian Jackson, Yves Wiaux(参考訳) 本稿では,大規模高ダイナミックレンジ計算イメージングのための新しい手法を提案する。 deep neural networks (dnns) トレーニングされたエンドツーエンドは、ほぼ瞬時に線形逆イメージング問題を解決することができる。 展開されたアーキテクチャは設定のバリエーションに頑丈であるが、DNNアーキテクチャに大規模測定演算子を組み込むことは現実的ではない。 代替的なPlug-and-Play(PnP)アプローチでは、DNNは測定環境に不自由であり、スケーラビリティと高ダイナミックレンジの課題に対処する上で有効であるが、高い反復アルゴリズムに依存している。 そこで本研究では,dnn系列法を学習版として解釈可能な残差dnn系列法を提案する。再生画像は動的範囲を漸進的に増加させる残差画像の総和であり,dnnsは前回の残差を入力としてバックプロジェクテッドデータを用いて反復的に推定する。 我々は,PnPと競合する再構成品質を,ほんの数項のみのコストで提供することを,電波・天文学的画像シミュレーションで実証した。

We propose a new approach for large-scale high-dynamic range computational imaging. Deep Neural Networks (DNNs) trained end-to-end can solve linear inverse imaging problems almost instantaneously. While unfolded architectures provide robustness to measurement setting variations, embedding large-scale measurement operators in DNN architectures is impractical. Alternative Plug-and-Play (PnP) approaches, where the denoising DNNs are blind to the measurement setting, have proven effective to address scalability and high-dynamic range challenges, but rely on highly iterative algorithms. We propose a residual DNN series approach, also interpretable as a learned version of matching pursuit, where the reconstructed image is a sum of residual images progressively increasing the dynamic range, and estimated iteratively by DNNs taking the back-projected data residual of the previous iteration as input. We demonstrate on radio-astronomical imaging simulations that a series of only few terms provides a reconstruction quality competitive with PnP, at a fraction of the cost.
翻訳日:2023-09-28 22:22:54 公開日:2023-09-27
# 信頼度調整顔と近親相姦検証

Confidence-Calibrated Face and Kinship Verification ( http://arxiv.org/abs/2210.13905v4 )

ライセンス: Link先を確認
Min Xu, Ximiao Zhang and Xiuzhuang Zhou(参考訳) 本稿では,顔と血縁の検証における予測信頼度の問題について検討する。 既存の顔と血縁の検証手法の多くは、予測結果の信頼度を無視しながら精度に重点を置いている。 しかし,高リスクタスクにおける信頼性と信頼性のモデリングには信頼性推定が不可欠である。 そこで本研究では,任意の顔対に対して類似度スコアを信頼度スコアに変換するための効果的な信頼度尺度を提案する。 さらに,Angular Scaling Calibration (ASC)と呼ばれる信頼性校正手法を提案する。 ASCは実装が容易で、モデルの修正なしに既存の検証モデルに容易に適用でき、精度保存と信頼性校正の確率的検証モデルが得られる。 さらに, 校正信頼度の不確実性を導入し, 雑音データの存在下での検証モデルの信頼性と信頼性を高める。 我々の知識を最大限に活用するために、我々の研究は、現代の顔と親族関係の検証タスクに対する、初めての包括的信頼度補正ソリューションを提示した。 筆者らは4つの顔・血縁検証データセットについて広範な実験を行い,提案手法の有効性を実証した。 コードとモデルはhttps://github.com/cnulab/ascで入手できる。

In this paper, we investigate the problem of prediction confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability and trustworthiness in such high-risk tasks. To address this, we introduce an effective confidence measure that allows verification models to convert a similarity score into a confidence score for any given face pair. We further propose a confidence-calibrated approach, termed Angular Scaling Calibration (ASC). ASC is easy to implement and can be readily applied to existing verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. In addition, we introduce the uncertainty in the calibrated confidence to boost the reliability and trustworthiness of the verification models in the presence of noisy data. To the best of our knowledge, our work presents the first comprehensive confidence-calibrated solution for modern face and kinship verification tasks. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our proposed approach. Code and models are available at https://github.com/cnulab/ASC.
翻訳日:2023-09-28 22:22:36 公開日:2023-09-27
# 信頼度に基づくシービング戦略を用いたラベルノイズロバスト学習

Label Noise-Robust Learning using a Confidence-Based Sieving Strategy ( http://arxiv.org/abs/2210.05330v3 )

ライセンス: Link先を確認
Reihaneh Torkzadehmahani, Reza Nasirigerdeh, Daniel Rueckert, Georgios Kaissis(参考訳) ラベルノイズを伴うタスクの学習において、モデルがオーバーフィッティングに対する堅牢性を改善することは重要な課題である。 サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。 ノイズラベルを用いたトレーニングでは、クラス確率で表されるモデルのクラスごとの信頼度スコアは、入力ラベルが真のラベルか、または破損したラベルかを評価する信頼性基準となる。 そこで本研究では,この観察を活用し,信頼度誤差と呼ばれる新しい判別指標とconfesと呼ばれるシーブ戦略を提案し,クリーンサンプルとノイズサンプルを効果的に区別する。 提案するメトリックの誤差の確率に関する理論的保証を提供する。 そして,提案手法の優れた性能を,合成や実世界のラベルノイズなど,様々な環境における最近の研究と比較した。 さらに,co-teaching や dividemix といった最先端のアプローチと組み合わさることで,モデルパフォーマンスをさらに向上できることを示す。

In learning tasks with label noise, improving model robustness against overfitting is a pivotal challenge because the model eventually memorizes labels, including the noisy ones. Identifying the samples with noisy labels and preventing the model from learning them is a promising approach to address this challenge. When training with noisy labels, the per-class confidence scores of the model, represented by the class probabilities, can be reliable criteria for assessing whether the input label is the true label or the corrupted one. In this work, we exploit this observation and propose a novel discriminator metric called confidence error and a sieving strategy called CONFES to differentiate between the clean and noisy samples effectively. We provide theoretical guarantees on the probability of error for our proposed metric. Then, we experimentally illustrate the superior performance of our proposed approach compared to recent studies on various settings, such as synthetic and real-world label noise. Moreover, we show CONFES can be combined with other state-of-the-art approaches, such as Co-teaching and DivideMix to further improve model performance.
翻訳日:2023-09-28 22:22:19 公開日:2023-09-27
# 動的学習ニューラル暗黙表現を用いたマルチオブジェクトナビゲーション

Multi-Object Navigation with dynamically learned neural implicit representations ( http://arxiv.org/abs/2210.05129v2 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf(参考訳) 新しい環境の理解とマッピングは、自律的なナビゲートエージェントの中核機能である。 古典的ロボティクスは通常、トポロジカルあるいはメートル法的な表現を維持するSLAM変種と単独でマップを推定するが、ナビゲーションのエンドツーエンドの学習は、ニューラルネットワーク内のある種のメモリを保持する。 ネットワークは通常、ベクトル表現から鳥眼メートル法テンソルやトポロジカル構造まで、誘導バイアスが課せられる。 本研究では,2つのニューラル暗黙表現を用いたニューラルネットワークの構築を提案し,各エピソード中に動的に学習し,シーンの内容のマッピングを行う。 i) セマンティックファインダは,前に見たクエリ対象の位置を予測します。 (II)Occupancy and Exploration Implicit Representationは、探索領域や障害物に関する情報をカプセル化し、関数空間から使用可能な埋め込み空間へ直接マップする新しいグローバルリード機構でクエリされる。 どちらの表現も強化学習(RL)で訓練されたエージェントによって活用され、各エピソードでオンラインで学習される。 マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。

Understanding and mapping a new environment are core abilities of any autonomously navigating agent. While classical robotics usually estimates maps in a stand-alone manner with SLAM variants, which maintain a topological or metric representation, end-to-end learning of navigation keeps some form of memory in a neural network. Networks are typically imbued with inductive biases, which can range from vectorial representations to birds-eye metric tensors or topological structures. In this work, we propose to structure neural networks with two neural implicit representations, which are learned dynamically during each episode and map the content of the scene: (i) the Semantic Finder predicts the position of a previously seen queried object; (ii) the Occupancy and Exploration Implicit Representation encapsulates information about explored area and obstacles, and is queried with a novel global read mechanism which directly maps from function space to a usable embedding space. Both representations are leveraged by an agent trained with Reinforcement Learning (RL) and learned online during each episode. We evaluate the agent on Multi-Object Navigation and show the high impact of using neural implicit representations as a memory source.
翻訳日:2023-09-28 22:21:58 公開日:2023-09-27
# 秘密鍵レートの明示的上下境界を持つ量子鍵分布の新しいプロトコル

New protocols for quantum key distribution with explicit upper and lower bound on secret-key rate ( http://arxiv.org/abs/2212.13089v2 )

ライセンス: Link先を確認
Arindam Dutta and Anirban Pathak(参考訳) ここでは、量子鍵分布(qkd)のための2つの新しいスキームを提案する。 したがって、提案プロトコルは商業的に利用可能な現実的な単一光子源を用いて実装することができる。 これらのスキームは、複数の攻撃(例えば、インターセプト再送攻撃と集団攻撃のクラス)に対して安全であることが示されている。 キーレートのバウンドが得られ、ある種類の古典的前処理を適用することにより、許容誤差の限界を増大させることができる。 使用した量子リソースと、Eveが明らかにした情報との間のトレードオフが観察され、わずかに多くの量子リソースを使用することで、比較的少ない量の量子リソースを使用する同じファミリーのプロトコルよりも高い効率のプロトコルを設計できることが示されている。 具体的には、SARG04プロトコルは、同じ家族のプロトコルであり、提案プロトコルは、より多くの量子リソースを消費するコストにおいて、SARG04よりも高い効率を提供できることを示す。 さらに,光子数分割(PNS)型攻撃における提案プロトコルの臨界距離は,同様の状況下で実装されたBB84およびSARG04プロトコルの臨界距離よりも高いことを示す。

Here we present two new schemes for quantum key distribution (QKD) which neither require entanglement nor require an ideal single photon source. Thus, the proposed protocols can be implemented using realistic single photon sources which are commercially available. The schemes are shown to be secure against multiple attacks (e.g., intercept resend attack and a class of collective attacks). Bounds on the key rate are obtained and it is shown that by applying a certain type of classical pre-processing, the tolerable error limit can be increased. A trade-off between quantum resources used and information revealed to Eve is observed and it is shown that by using slightly more quantum resources it is possible to design protocols having higher efficiency compared to a protocol of the same family that uses relatively lesser amount of quantum resources. Specifically, in our case, SARG04 protocol is a protocol of the same family and it is clearly shown that the proposed protocols can provide higher efficiency compared to SARG04 at the cost of consumption of more quantum resources. Further, it is shown that the critical distances for the proposed protocols under photon number splitting (PNS) type attacks are higher than the critical distances obtained for BB84 and SARG04 protocols implemented under similar situation.
翻訳日:2023-09-28 22:16:10 公開日:2023-09-27
# コンテキスト類似グラフとグラフリファインメントによるオブジェクトの検出

Detecting Objects with Context-Likelihood Graphs and Graph Refinement ( http://arxiv.org/abs/2212.12395v3 )

ライセンス: Link先を確認
Aritra Bhowmik, Yu Wang, Nora Baka, Martin R. Oswald, Cees G. M. Snoek(参考訳) 本論文の目的は,相互関係を利用して物体を検出することである。 オブジェクトと関係を別々に学習する既存の方法とは対照的に、私たちのキーとなる考え方は、オブジェクト-関係分布を共同で学習することである。 まず,オブジェクト間関係の優先順位と初期クラス予測から画像のグラフィカル表現を作成する新しい手法を提案する。 次に, 与えられた画像に対して, 文脈類似グラフを反復的にサンプリングし, 精査するエネルギーベースモデリング手法を用いて, 共同分布を学習する。 分散学習を共同で行うことにより,より正確な画像のグラフ表現を生成できるため,オブジェクト検出性能が向上する。 我々は,detrやfaster-rcnnのような物体検出器に対して一貫した改善を実現するために,視覚ゲノムとms-cocoデータセットを用いた実験を通して,文脈類似グラフの定式化とエネルギーベースのグラフの洗練の利点を実証する。 本手法は, 検出非依存, エンドツーエンドの訓練が可能であり, 希少なオブジェクトクラスに特に有用である。

The goal of this paper is to detect objects by exploiting their interrelationships. Contrary to existing methods, which learn objects and relations separately, our key idea is to learn the object-relation distribution jointly. We first propose a novel way of creating a graphical representation of an image from inter-object relation priors and initial class predictions, we call a context-likelihood graph. We then learn the joint distribution with an energy-based modeling technique which allows to sample and refine the context-likelihood graph iteratively for a given image. Our formulation of jointly learning the distribution enables us to generate a more accurate graph representation of an image which leads to a better object detection performance. We demonstrate the benefits of our context-likelihood graph formulation and the energy-based graph refinement via experiments on the Visual Genome and MS-COCO datasets where we achieve a consistent improvement over object detectors like DETR and Faster-RCNN, as well as alternative methods modeling object interrelationships separately. Our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes.
翻訳日:2023-09-28 22:15:47 公開日:2023-09-27
# UnICLAM:Unified and Interpretable Medical Vision Question Answeringのための逆マスキングを用いたコントラスト表現学習

UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering ( http://arxiv.org/abs/2212.10729v3 )

ライセンス: Link先を確認
Chenlu Zhan, Peng Peng, Hongsen Wang, Tao Chen, Hongwei Wang(参考訳) medical visual question answering (medical-vqa) は、放射線画像に関する臨床質問に答えることを目的としており、医師の意思決定を支援する。 しかしながら、現在のメディカル-VQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、間接的なセマンティックアライメントをもたらす。 本稿では,コントラスト表現学習と逆マスキングを併用した統一的で解釈可能な医療vqaモデルuniclamを提案する。 具体的には,アライメントされた画像テキスト表現を学習するために,まず,ソフトパラメータの漸進的共有戦略を用いて,統一されたデュアルストリーム事前学習構造を確立する。 技術的に、提案手法は視覚とテクスチャエンコーダが同じ空間に近づくことの制約を学習し、レイヤーの数が増えるにつれて徐々にゆるめられる。 さらに、統合された意味表現を把握するために、対向的なマスキングデータ拡張を視覚とテキストの対照的な表現学習に統一的に拡張する。 具体的には、エンコーダトレーニングはオリジナルとマスキングのサンプル間の距離を最小化するが、逆マスキングモジュールは逆の学習を継続し、逆に距離を最大化する。 さらに,より直感的に対向マスク強化モデルについて検討し,高い性能と効率で潜在的なアンテホック解釈性を向上させる。 VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。 さらに, 心不全の診断におけるUnICLAMの有用性についても検討し, 臨床診断におけるUnICLAMの適応性能が良好であることが確認された。

Medical Visual Question Answering (Medical-VQA) aims to to answer clinical questions regarding radiology images, assisting doctors with decision-making options. Nevertheless, current Medical-VQA models learn cross-modal representations through residing vision and texture encoders in dual separate spaces, which lead to indirect semantic alignment. In this paper, we propose UnICLAM, a Unified and Interpretable Medical-VQA model through Contrastive Representation Learning with Adversarial Masking. Specifically, to learn an aligned image-text representation, we first establish a unified dual-stream pre-training structure with the gradually soft-parameter sharing strategy. Technically, the proposed strategy learns a constraint for the vision and texture encoders to be close in a same space, which is gradually loosened as the higher number of layers. Moreover, for grasping the unified semantic representation, we extend the adversarial masking data augmentation to the contrastive representation learning of vision and text in a unified manner. Concretely, while the encoder training minimizes the distance between original and masking samples, the adversarial masking module keeps adversarial learning to conversely maximize the distance. Furthermore, we also intuitively take a further exploration to the unified adversarial masking augmentation model, which improves the potential ante-hoc interpretability with remarkable performance and efficiency. Experimental results on VQA-RAD and SLAKE public benchmarks demonstrate that UnICLAM outperforms existing 11 state-of-the-art Medical-VQA models. More importantly, we make an additional discussion about the performance of UnICLAM in diagnosing heart failure, verifying that UnICLAM exhibits superior few-shot adaption performance in practical disease diagnosis.
翻訳日:2023-09-28 22:15:20 公開日:2023-09-27
# styleganによる顔生成と編集:調査

Face Generation and Editing with StyleGAN: A Survey ( http://arxiv.org/abs/2212.09102v3 )

ライセンス: Link先を確認
Andrew Melnik, Maksim Miasayedzenkau, Dzianis Makarovets, Dzianis Pirshtuk, Eren Akbulut, Dennis Holzmann, Tarek Renusch, Gustav Reichert, Helge Ritter(参考訳) 本調査の目的は,StyleGAN を用いた顔生成と編集のための技術深層学習手法の現状を概観することである。 この調査は、PGGANからStyleGAN3までのStyleGANの進化をカバーし、トレーニングに適したメトリクス、異なる潜在表現、StyleGANの潜在空間へのGANインバージョン、顔画像編集、クロスドメイン顔スタイリング、顔復元、さらにはDeepfakeアプリケーションなど、関連するトピックについて調査している。 我々は,ディープラーニングの分野に関する基本的な知識を持ち,アクセス可能な紹介や概要を求めている読者に,この分野へのエントリポイントを提供することを目指している。

Our goal with this survey is to provide an overview of the state of the art deep learning methods for face generation and editing using StyleGAN. The survey covers the evolution of StyleGAN, from PGGAN to StyleGAN3, and explores relevant topics such as suitable metrics for training, different latent representations, GAN inversion to latent spaces of StyleGAN, face image editing, cross-domain face stylization, face restoration, and even Deepfake applications. We aim to provide an entry point into the field for readers that have basic knowledge about the field of deep learning and are looking for an accessible introduction and overview.
翻訳日:2023-09-28 22:14:47 公開日:2023-09-27
# 学習制御ポリシーを用いた移動目標のアクティブ分類

Active Classification of Moving Targets with Learned Control Policies ( http://arxiv.org/abs/2212.03068v3 )

ライセンス: Link先を確認
\'Alvaro Serra-G\'omez, Eduardo Montijano, Wendelin B\"ohmer, Javier Alonso-Mora(参考訳) 本稿では,複数の移動目標を分類するために,ドローンが意味情報を収集しなければならない問題を考える。 特に,「ブラックボックス」分類器,例えばディープ・ラーニング・ニューラルネットを用いて情報を抽出した場合,ドローンを情報的視点,位置,方向へと移動させる制御入力を計算することの課題に対処する。 これらのアルゴリズムは通常、視点と関連する出力の間の分析的関係が欠如しており、情報収集スキームでの使用を妨げている。 このギャップを埋めるために,本研究は,ドローンの移動,方向,咬合について推論しながら,できるだけ多くの非分類対象から証拠を取得することを好む次の視点として,強化学習(rl)によって訓練された,新たな注意に基づくアーキテクチャを提案する。 そして、実際のダイナミクスを考慮した低レベルのmpcコントローラを使用して、ドローンを望ましい視点に移動させる。 このアプローチは,さまざまなベースラインを上回るだけでなく,トレーニング中に見つからないシナリオにも適用可能であることを示す。 さらに,ネットワークが多数のターゲットにスケールし,ターゲットの異なる移動ダイナミクスによく一般化することを示す。

In this paper, we consider the problem where a drone has to collect semantic information to classify multiple moving targets. In particular, we address the challenge of computing control inputs that move the drone to informative viewpoints, position and orientation, when the information is extracted using a "black-box" classifier, e.g., a deep learning neural network. These algorithms typically lack of analytical relationships between the viewpoints and their associated outputs, preventing their use in information-gathering schemes. To fill this gap, we propose a novel attention-based architecture, trained via Reinforcement Learning (RL), that outputs the next viewpoint for the drone favoring the acquisition of evidence from as many unclassified targets as possible while reasoning about their movement, orientation, and occlusions. Then, we use a low-level MPC controller to move the drone to the desired viewpoint taking into account its actual dynamics. We show that our approach not only outperforms a variety of baselines but also generalizes to scenarios unseen during training. Additionally, we show that the network scales to large numbers of targets and generalizes well to different movement dynamics of the targets.
翻訳日:2023-09-28 22:14:32 公開日:2023-09-27
# マルチユーザエンタングルメント分布のためのネットワークトポロジのスケーリング

Scaling Network Topologies for Multi-User Entanglement Distribution ( http://arxiv.org/abs/2212.02877v3 )

ライセンス: Link先を確認
Muhammad Daud, Aeysha Khalique(参考訳) 将来の量子インターネットは大規模な絡み合い分布に依存している。 量子デコヒーレンス(英語版)は、大規模ネットワークにおいて重要な障害であり、そうでなければソースと宛先の間の複数の経路でより良い性能を発揮する。 我々は,絡み合ったペアのマルチパスルーティングをサポートするために,大量の冗長エッジを持つ新しいトポロジー,コネクテッドツリーを提案する。 我々は,量子ネットワークのスケーラビリティを定性的に解析し,異なるトポロジーのデコヒーレンスにおける最大ユーザ容量を求める。 解析の結果,薄結合ツリーネットワークは,均等に分布する格子位相よりも多くのユーザ対に対応できることがわかった。 解析を量子鍵分布に拡張し、薄木トポロジーの量子ネットワークがデコヒーレンスに対してより堅牢であることを示し、複数の通信相手間の鍵分布を改善する。

Future quantum internet relies on large-scale entanglement distribution. Quantum decoherence is a significant obstacle in large-scale networks, which otherwise perform better with multiple paths between the source and destination. We propose a new topology, connected tree, with a significant amount of redundant edges to support multi-path routing of entangled pairs. We qualitatively analyse the scalability of quantum networks to maximum user capacity in decoherence for different topologies. Our analysis shows that thin-connected tree networks can accommodate a larger number of user pairs than more evenly distributed lattice topology. We extend our analysis to quantum key distribution and show that the quantum network of a thin tree topology is more robust against decoherence and leads to better key distribution among multiple communicating parties.
翻訳日:2023-09-28 22:14:11 公開日:2023-09-27
# モデルベースプリミティブを用いたワンショットインシシタブルアニマタブルアバター

One-shot Implicit Animatable Avatars with Model-based Priors ( http://arxiv.org/abs/2212.02469v4 )

ライセンス: Link先を確認
Yangyi Huang, Hongwei Yi, Weiyang Liu, Haofan Wang, Boxi Wu, Wenxiao Wang, Binbin Lin, Debing Zhang, Deng Cai(参考訳) 人間のアバターを作る既存のニューラルレンダリング手法は、ビデオやマルチビュー画像のような濃密な入力信号を必要とするか、あるいは大規模な3d人間のデータセットから学習された事前情報を活用して、スパースビュー入力で再構成することができる。 これらの手法のほとんどは、1つの画像しか利用できない場合に現実的な再構築を達成できない。 現実的なアニマタブルな3次元人間のデータ効率向上を実現するために,1つの画像から人間固有の神経放射場を学習する新しい手法であるELICITを提案する。 人間は身体の幾何学を熱心に推定し、1つの画像から全身の衣服を想像できるという事実に触発され、ELICITの2つの先行する3D幾何と視覚的セマンティクスを利用する。 特に、ELICITは、スキン付き頂点ベースのテンプレートモデル(SMPL)に先立って3次元の体形形状を利用しており、CLIPベースの事前訓練モデルに先立って視覚的な衣服のセマンティクスを実装している。 両方のプリエントは、不可視領域で実行可能なコンテンツを作成するための最適化を共同でガイドするために使用される。 CLIPモデルを活用することで、ELICITはテキスト記述を使用してテキスト条件の見えないリージョンを生成することができる。 視覚的詳細をさらに改善するために,アバターの異なる部分を局所的に洗練するセグメンテーションに基づくサンプリング戦略を提案する。 ZJU-MoCAP、Human3.6M、DeepFashionを含む複数の人気のあるベンチマークに関する総合的な評価は、ELICITが単一の画像しか利用できない場合、アバター生成の強力なベースライン手法よりも優れていることを示している。 コードは研究目的でhttps://huangyangyi.github.io/elicit/で公開されている。

Existing neural rendering methods for creating human avatars typically either require dense input signals such as video or multi-view images, or leverage a learned prior from large-scale specific 3D human datasets such that reconstruction can be performed with sparse-view inputs. Most of these methods fail to achieve realistic reconstruction when only a single image is available. To enable the data-efficient creation of realistic animatable 3D humans, we propose ELICIT, a novel method for learning human-specific neural radiance fields from a single image. Inspired by the fact that humans can effortlessly estimate the body geometry and imagine full-body clothing from a single image, we leverage two priors in ELICIT: 3D geometry prior and visual semantic prior. Specifically, ELICIT utilizes the 3D body shape geometry prior from a skinned vertex-based template model (i.e., SMPL) and implements the visual clothing semantic prior with the CLIP-based pretrained models. Both priors are used to jointly guide the optimization for creating plausible content in the invisible areas. Taking advantage of the CLIP models, ELICIT can use text descriptions to generate text-conditioned unseen regions. In order to further improve visual details, we propose a segmentation-based sampling strategy that locally refines different parts of the avatar. Comprehensive evaluations on multiple popular benchmarks, including ZJU-MoCAP, Human3.6M, and DeepFashion, show that ELICIT has outperformed strong baseline methods of avatar creation when only a single image is available. The code is public for research purposes at https://huangyangyi.github.io/ELICIT/.
翻訳日:2023-09-28 22:13:55 公開日:2023-09-27
# マンハッタンシーンの入射表現のための表面正規クラスタリング

Surface Normal Clustering for Implicit Representation of Manhattan Scenes ( http://arxiv.org/abs/2212.01331v4 )

ライセンス: Link先を確認
Nikola Popovic, Danda Pani Paudel, Luc Van Gool(参考訳) 暗黙的ニューラルフィールド表現を用いた新しいビュー合成と3次元モデリングは、マルチビューカメラの校正に非常に有効であることが示されている。 このような表現は、追加の幾何学的および意味的監督の恩恵を受けることが知られている。 追加の監視を利用する既存の方法の多くは、高密度のピクセルワイドラベルや、ローカライズされたシーン先行を必要とする。 これらの手法は、シーンの説明の観点で提供される高レベルな曖昧なシーン優先の恩恵を受けることができない。 本研究では,マンハッタンのシーンの幾何学的前兆を利用して,暗黙の神経放射場表現を改善することを目的とする。 より正確には、マンハッタンの屋内シーンに関する知識(調査中の)のみが、マンハッタンの座標フレームが未知の状態で、追加情報を持たないことがわかっていると仮定する。 このようなハイレベルな事前処理は、暗黙の神経野で明示的に導出される表面正規化を自己監督するために用いられる。 我々のモデリングにより、導出した正規項をクラスタリングし、それらの直交制約を自己超越のために利用することができる。 様々な屋内シーンのデータセットを徹底的に実験した結果,提案手法が確立したベースラインよりも有益であることが示された。 ソースコードはhttps://github.com/nikola3794/normal-clustering-nerfで入手できる。

Novel view synthesis and 3D modeling using implicit neural field representation are shown to be very effective for calibrated multi-view cameras. Such representations are known to benefit from additional geometric and semantic supervision. Most existing methods that exploit additional supervision require dense pixel-wise labels or localized scene priors. These methods cannot benefit from high-level vague scene priors provided in terms of scenes' descriptions. In this work, we aim to leverage the geometric prior of Manhattan scenes to improve the implicit neural radiance field representations. More precisely, we assume that only the knowledge of the indoor scene (under investigation) being Manhattan is known -- with no additional information whatsoever -- with an unknown Manhattan coordinate frame. Such high-level prior is used to self-supervise the surface normals derived explicitly in the implicit neural fields. Our modeling allows us to cluster the derived normals and exploit their orthogonality constraints for self-supervision. Our exhaustive experiments on datasets of diverse indoor scenes demonstrate the significant benefit of the proposed method over the established baselines. The source code is available at https://github.com/nikola3794/normal-clustering-nerf.
翻訳日:2023-09-28 22:13:21 公開日:2023-09-27
# ディープラーニングオプティマイザに関する調査 -第1次および第2次手法-

A survey of deep learning optimizers -- first and second order methods ( http://arxiv.org/abs/2211.15596v2 )

ライセンス: Link先を確認
Rohan Kashyap(参考訳) 深層学習最適化は、サドル点、局所小数点、ヘッセンおよび限られた計算資源の不調和などの固有の困難により、しばしば困難であると見なされる重み空間における高次元損失関数の最小化を伴う。 本稿では,ディープラーニング研究に成功している14ドルの標準最適化手法の総合的なレビューと,最適化文献から数値最適化の難しさを理論的に評価する。

Deep Learning optimization involves minimizing a high-dimensional loss function in the weight space which is often perceived as difficult due to its inherent difficulties such as saddle points, local minima, ill-conditioning of the Hessian and limited compute resources. In this paper, we provide a comprehensive review of $14$ standard optimization methods successfully used in deep learning research and a theoretical assessment of the difficulties in numerical optimization from the optimization literature.
翻訳日:2023-09-28 22:13:04 公開日:2023-09-27
# GPT-Neo for commonsense reasoning --理論的・実用的レンズ

GPT-Neo for commonsense reasoning -- a theoretical and practical lens ( http://arxiv.org/abs/2211.15593v2 )

ライセンス: Link先を確認
Rohan Kashyap, Vivek Kashyap, Narendra C.P.(参考訳) 近年の研究では、大言語モデル(llm)の事前学習と、下流タスクの微調整が大幅に向上している。 本稿では,6ドルのコモンセンス推論ベンチマークタスクを用いて,GPT-neoモデルの性能を評価する。 我々は, GPT-neoモデルを用いて, GPT-$3$, Llama-$2$, MPT, Falconなどの大規模モデルベースラインに対して, 小型モデルの性能を検討することを目的とする。 最適なハイパーパラメータセットで微調整を行うと、複数のタスクで競合精度が達成される。 また,モデルの性能をよりよく理解するために注意頭可視化を用いた結果の検証と検証を行った。 最後に,様々な手法を用いて様々なロバストネステストを行い,多数の設定でモデル性能を測定した。

Recent work has demonstrated substantial gains in pre-training large-language models (LLMs) followed by supervised fine-tuning on the downstream task. In this paper, we evaluate the performance of the GPT-neo model using $6$ commonsense reasoning benchmark tasks. We aim to examine the performance of smaller models using the GPT-neo models against several larger model baselines such as GPT-$3$, Llama-$2$, MPT and Falcon. Upon fine-tuning with the appropriate set of hyperparameters, our model achieves competitive accuracy on several tasks. We also investigate and substantiate our results using attention-head visualization to better understand the model performance. Finally, we conduct various robustness tests using various methods to gauge the model performance under numerous settings.
翻訳日:2023-09-28 22:12:55 公開日:2023-09-27
# 1次元フェルミ・ハバードモデルの量子シミュレーションを$\mathrm{Z}_2$格子ゲージ理論として

Quantum simulation of the 1D Fermi-Hubbard model as a $\mathrm{Z}_2$ lattice-gauge theory ( http://arxiv.org/abs/2305.04648v3 )

ライセンス: Link先を確認
Uliana E. Khodaeva, Dmitry L. Kovrizhin, and Johannes Knolle(参考訳) フェルミ・ハバードモデル(Fermi-Hubbard model)は、強相関量子多体系の物理学における中心的なパラダイムの1つである。 本稿では,現在のNISQ量子コンピュータの実装に適した1次元Fermi-Hubbardモデルの,$\mathrm{Z}_2$ grid gauge theory (LGT)表現に基づく量子回路アルゴリズムを提案する。 LGTの記述の中には、ハミルトニアンと通勤する多くの局所保存量が存在する。 本稿では,これらの保存法則を用いて効率的な誤り軽減手法を提案する。 後者は、ノイズ量子シミュレータのための状態のポスト選択に基づいている。 LGTの記述は、Jordan-Wigner (JW) ベースのアプローチに比べて深い量子回路を必要とするが、我々のエラー訂正プロトコルは、ノイズの多い量子シミュレータ上での標準 JW 実装と同等の結果をもたらす。

The Fermi-Hubbard model is one of the central paradigms in the physics of strongly-correlated quantum many-body systems. Here we propose a quantum circuit algorithm based on the $\mathrm{Z}_2$ lattice gauge theory (LGT) representation of the one-dimensional Fermi-Hubbard model, which is suitable for implementation on current NISQ quantum computers. Within the LGT description there is an extensive number of local conserved quantities commuting with the Hamiltonian. We show how these conservation laws can be used to implement an efficient error-mitigation scheme. The latter is based on a post-selection of states for noisy quantum simulators. While the LGT description requires a deeper quantum-circuit compared to a Jordan-Wigner (JW) based approach, remarkably, we find that our error-correction protocol leads to results being on-par with a standard JW implementation on noisy quantum simulators.
翻訳日:2023-09-28 22:05:15 公開日:2023-09-27
# 深部強化学習における連結超レベル集合とそのミニマックス理論への応用

Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems ( http://arxiv.org/abs/2303.12981v2 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 本研究の目的は,強化学習における政策最適化問題に対する最適化環境の理解を深めることである。 具体的には、ポリシーパラメータに関する目的関数の超レベル集合が、表的な設定とニューラルネットワークのクラスによって表されるポリシーの両方で常に連結集合であることを示す。 さらに,政策パラメータと報酬の関数としての最適化目標が,より強い「等価性」特性を満たすことを示す。 私たちの知る限りでは、これらは新しい発見であり、以前は知られていなかった。 本稿では,これらの超レベル集合の連結性を,ロバスト強化学習のためのミニマックス定理の導出に適用する。 一方の面が凸で他方の面が等連結な任意のミニマックス最適化プログラムがミニマックス等価性(すなわちナッシュ平衡)を観測することを示す。 この構造は,敵の報酬攻撃下での興味深い強固な強化学習問題によって示され,そのミニマックス等式の有効性は直ちに従う。 このような結果が文献に定着するのはこれが初めてである。

The aim of this paper is to improve the understanding of the optimization landscape for policy optimization problems in reinforcement learning. Specifically, we show that the superlevel set of the objective function with respect to the policy parameter is always a connected set both in the tabular setting and under policies represented by a class of neural networks. In addition, we show that the optimization objective as a function of the policy parameter and reward satisfies a stronger "equiconnectedness" property. To our best knowledge, these are novel and previously unknown discoveries. We present an application of the connectedness of these superlevel sets to the derivation of minimax theorems for robust reinforcement learning. We show that any minimax optimization program which is convex on one side and is equiconnected on the other side observes the minimax equality (i.e. has a Nash equilibrium). We find that this exact structure is exhibited by an interesting robust reinforcement learning problem under an adversarial reward attack, and the validity of its minimax equality immediately follows. This is the first time such a result is established in the literature.
翻訳日:2023-09-28 22:04:32 公開日:2023-09-27
# 多体物理学のための量子コンピューティング

Quantum computing with and for many-body physics ( http://arxiv.org/abs/2303.04850v2 )

ライセンス: Link先を確認
Thomas Ayral, Pauline Besserve, Denis Lacroix, Edgar Andres Ruiz Guzman(参考訳) 量子コンピューティング技術は着実に進歩している。 これにより、複雑さが古典的コンピュータの記述を妨げている問題に取り組む新たな機会が開けた。 これらの複雑な問題の原型的な例は、量子多体系の相互作用である。一方、これらのシステムは、そのサイズが大きくなると古典的コンピュータの使用が急速に禁止されることが知られている。 一方、これらのシステムはまさに研究所で量子コンピューティングプラットフォームを構築するために使われているシステムである。 これは、量子コンピューティングの最も有望な初期のユースケースであることは間違いない。 本稿では、量子多体系が量子プロセッサの構築にどのように使われているのか、そして、電子や核子のような大きな多体系を記述するために、現在および将来の量子プロセッサがどのように用いられるのかを説明する。 このレビューにはアナログおよびデジタル量子デバイスの導入、フェルミ系とそのハミルトニアンの量子ビットレジスタへのマッピング、およびそれらの静的および動的特性にアクセスする方法の概要が含まれている。 また、エンタングルメントに関するいくつかの側面を強調し、量子デバイスにおけるデコヒーレンスの記述、影響、処理について触れる。

Quantum computing technologies are making steady progress. This has opened new opportunities for tackling problems whose complexity prevents their description on classical computers. A prototypical example of these complex problems are interacting quantum many-body systems: on the one hand, these systems are known to become rapidly prohibitive to describe using classical computers when their size increases. On the other hand, these systems are precisely those which are used in the laboratory to build quantum computing platforms. This arguably makes them one of the most promising early use cases of quantum computing. In this review, we explain how quantum many-body systems are used to build quantum processors, and how, in turn, current and future quantum processors can be used to describe large many-body systems of fermions such as electrons and nucleons. The review includes an introduction to analog and digital quantum devices, the mapping of Fermi systems and their Hamiltonians onto qubit registers, as well as an overview of methods to access their static and dynamical properties. We also highlight some aspects related to entanglement, and touch on the description, influence and processing of decoherence in quantum devices.
翻訳日:2023-09-28 22:04:15 公開日:2023-09-27
# アンバウンドマシン・アンラーニングに向けて

Towards Unbounded Machine Unlearning ( http://arxiv.org/abs/2302.09880v2 )

ライセンス: Link先を確認
Meghdad Kurmanji, Peter Triantafillou, Jamie Hayes, Eleni Triantafillou(参考訳) ディープラーニングアンラーニング(deep machine unlearning)は、トレーニングセットのサブセットであるトレーニングされたニューラルネットワークから‘削除’する問題である。 この問題は、非常にタイムリーで、多くのアプリケーションがあり、バイアス(rb)の除去、混乱解消(rc)(トレーニングされたモデルの誤ったラベルデータによって引き起こされる)、ユーザープライバシを保護するためにユーザの‘忘れられる権利’を行使すること(up)といった重要なタスクがあります。 本論文は,異なるアプリケーション(rb,rc,up)のアンラーニングについて,それぞれが独自のデシデラタ,‘フォーゲッティング’の定義,品質を忘れるための関連するメトリクスを持っているという観点から,我々の知識に対して初めて行うものである。 UPでは,非学習者に対する強力なメンバーシップ推論攻撃の新たな適応を提案する。 また、rb、rc、upの異なるアプリケーション依存のメトリクスにおいて、品質を忘れてしまっている唯一の方法である、新しいアンラーニングアルゴリズムであるscruを提案する。 同時に、SCRUBはモデルユーティリティ(すなわち保持されたデータと一般化の正確性)を測定する指標上でも一貫してトップパフォーマーであり、以前の作業よりも効率的である。 以上は、これまでの最先端技術に対する総合的な実証的評価によって裏付けられている。

Deep machine unlearning is the problem of `removing' from a trained neural network a subset of its training set. This problem is very timely and has many applications, including the key tasks of removing biases (RB), resolving confusion (RC) (caused by mislabelled data in trained models), as well as allowing users to exercise their `right to be forgotten' to protect User Privacy (UP). This paper is the first, to our knowledge, to study unlearning for different applications (RB, RC, UP), with the view that each has its own desiderata, definitions for `forgetting' and associated metrics for forget quality. For UP, we propose a novel adaptation of a strong Membership Inference Attack for unlearning. We also propose SCRUB, a novel unlearning algorithm, which is the only method that is consistently a top performer for forget quality across the different application-dependent metrics for RB, RC, and UP. At the same time, SCRUB is also consistently a top performer on metrics that measure model utility (i.e. accuracy on retained data and generalization), and is more efficient than previous work. The above are substantiated through a comprehensive empirical evaluation against previous state-of-the-art.
翻訳日:2023-09-28 22:03:40 公開日:2023-09-27
# 現代量子ハードウェア上での核反応シミュレーションのための量子古典的コプロセッシングプロトコル

A quantum-classical co-processing protocol towards simulating nuclear reactions on contemporary quantum hardware ( http://arxiv.org/abs/2302.06734v2 )

ライセンス: Link先を確認
Francesco Turro and Trevor Chistolini and Akel Hashim and Yosep Kim and William Livingston and Kyle. A. Wendt and Jonathan L Dubois and Francesco Pederiva and Sofia Quaglioni and David I. Santiago and Irfan Siddiqi(参考訳) 量子コンピュータは、安定性の限界における核物質の研究に最重要となる核力学過程(例えば散乱と反応)の正確なシミュレーションに到達し、恒星内の化学元素の形成を説明することを約束する。 しかし、フェルミオン多体系のユニタリ(実)時間ダイナミクスの量子シミュレーションは、現在許容される信頼性と長寿命の量子ビット数を必要とする。 本稿では,古典的プロセッサ上で空間座標の時間発展を行い,量子プロセッサ上でスピン自由度の進化を行う実時間ダイナミクスのシミュレーションのための共処理アルゴリズムを提案する。 このハイブリッドアルゴリズムは、ローレンス・バークレー国立研究所のAdvanced Quantum Testbedで実行される2つの中性子の散乱の量子シミュレーションによって実証される。 そこで本研究では,回路圧縮法とトモグラフィー法を併用してデコヒーレンスの発生を解明する手法に加えて,アルゴリズムの精度を向上させるための誤り緩和戦略を実装した結果,提案手法の原理を検証した。 我々は,本方式の一般化が,核散乱の(リアルタイムな)経路積分シミュレーションの道を開くことを期待する。

Quantum computers hold great promise for arriving at exact simulations of nuclear dynamical processes (e.g., scattering and reactions) that are paramount to the study of nuclear matter at the limit of stability and to explaining the formation of chemical elements in stars. However, quantum simulations of the unitary (real) time dynamics of fermionic many-body systems require a currently prohibitive number of reliable and long-lived qubits. We propose a co-processing algorithm for the simulation of real-time dynamics in which the time evolution of the spatial coordinates is carried out on a classical processor, while the evolution of the spin degrees of freedom is carried out on a quantum processor. This hybrid algorithm is demonstrated by a quantum simulation of the scattering of two neutrons performed at the Lawrence Berkeley National Laboratory's Advanced Quantum Testbed. We show that, after implementation of error mitigation strategies to improve the accuracy of the algorithm in addition to the use of either circuit compression techniques or tomography as methods to elucidate the onset of decoherence, this initial demonstration validates the principle of the proposed co-processing scheme. We anticipate that a generalization of this present scheme will open the way for (real-time) path integral simulations of nuclear scattering.
翻訳日:2023-09-28 22:03:18 公開日:2023-09-27
# 自己モチベーション型マルチエージェント探索

Self-Motivated Multi-Agent Exploration ( http://arxiv.org/abs/2301.02083v2 )

ライセンス: Link先を確認
Shaowei Zhang, Jiahan Cao, Lei Yuan, Yang Yu, De-Chuan Zhan(参考訳) 協調型マルチエージェント強化学習(CMARL)では,エージェントが自己探索とチームコラボレーションのバランスをとることが重要である。 しかし、エージェントは調整なしではチームタスクをほとんど達成できないため、個別の探索が十分に必要とせずに簡単に協力できるローカルに最適な場所に閉じ込められるだろう。 最近の研究は主に、国家空間の指数関数的に成長した探検をもたらすエージェントの協調探検に集中している。 この問題に対処するために,我々は,自己探索とチーム協力のトレードオフを適応的に見つけ,チームタスクの成功を目指す自己モチベーション型マルチエージェント探索(smmae)を提案する。 SMMAEでは、各エージェントが訪問する国家空間を最大化するために、独立した調査政策を訓練する。 各エージェントは、共同チームポリシーの安定性に基づいて、調整可能な探索確率を学習する。 StarCraft IIマイクロマネジメントベンチマーク(SMAC)における高度協調作業の実験により、SMMAEはタスク関連状態をより効率的に探索し、協調的な振る舞いを達成し、学習性能を向上させることができることを示した。

In cooperative multi-agent reinforcement learning (CMARL), it is critical for agents to achieve a balance between self-exploration and team collaboration. However, agents can hardly accomplish the team task without coordination and they would be trapped in a local optimum where easy cooperation is accessed without enough individual exploration. Recent works mainly concentrate on agents' coordinated exploration, which brings about the exponentially grown exploration of the state space. To address this issue, we propose Self-Motivated Multi-Agent Exploration (SMMAE), which aims to achieve success in team tasks by adaptively finding a trade-off between self-exploration and team cooperation. In SMMAE, we train an independent exploration policy for each agent to maximize their own visited state space. Each agent learns an adjustable exploration probability based on the stability of the joint team policy. The experiments on highly cooperative tasks in StarCraft II micromanagement benchmark (SMAC) demonstrate that SMMAE can explore task-related states more efficiently, accomplish coordinated behaviours and boost the learning performance.
翻訳日:2023-09-28 22:02:57 公開日:2023-09-27
# 軌跡からのメタラーニング一般化力学

Metalearning generalizable dynamics from trajectories ( http://arxiv.org/abs/2301.00957v2 )

ライセンス: Link先を確認
Qiaofeng Li, Tianyi Wang, Vwani Roychowdhury, M. Khalid Jawed(参考訳) 本稿では,メタニューラル常微分方程式(imode)を用いて,物理パラメータが異なる複数の力学系の軌跡から一般化可能な(パラメータ固有ではない)ダイナミクスを高速に学習する手法を提案する。 iMODE法は,研究された動的システムインスタンスの共通力場形状を捉える外層と,個々のシステムインスタンスに適応する内層とを用いて,物理パラメータを知らずに動的システムインスタンスの力場の機能的変動であるメタ知識を学習する。 優先的な物理的知識は、保守的な力場やユークリッド対称性のような誘導バイアスとしてニューラルネットワークアーキテクチャに便利に組み込むことができる。 学習されたメタ知識により、imodeは数秒以内に未知のシステムをモデル化し、システムの物理的パラメータに関する知識を逆に明らかにしたり、観察された軌道を持つ未知のシステムの物理的パラメータを"測定"するための神経ゲージとして使用することができる。 バイスタブル,ダブルペンデュラム,ファンデルポル,スリンキー,反応拡散系におけるimode法の有効性を検証した。

We present the interpretable meta neural ordinary differential equation (iMODE) method to rapidly learn generalizable (i.e., not parameter-specific) dynamics from trajectories of multiple dynamical systems that vary in their physical parameters. The iMODE method learns meta-knowledge, the functional variations of the force field of dynamical system instances without knowing the physical parameters, by adopting a bi-level optimization framework: an outer level capturing the common force field form among studied dynamical system instances and an inner level adapting to individual system instances. A priori physical knowledge can be conveniently embedded in the neural network architecture as inductive bias, such as conservative force field and Euclidean symmetry. With the learned meta-knowledge, iMODE can model an unseen system within seconds, and inversely reveal knowledge on the physical parameters of a system, or as a Neural Gauge to "measure" the physical parameters of an unseen system with observed trajectories. We test the validity of the iMODE method on bistable, double pendulum, Van der Pol, Slinky, and reaction-diffusion systems.
翻訳日:2023-09-28 22:02:36 公開日:2023-09-27
# ボソニック自律エンタングルメントエンジンの弱結合限界における不確かさ

Impossibility of bosonic autonomous entanglement engines in the weak-coupling limit ( http://arxiv.org/abs/2212.13309v3 )

ライセンス: Link先を確認
Bradley Longstaff, Michael G. Jabbour, and Jonatan Bohr Brask(参考訳) 絡み合いは量子物理学の基本的特徴であり、量子通信、計算、センシングの鍵となる資源である。 絡み合った状態は脆弱であり、コヒーレンスを維持することは量子情報処理における中心的な課題である。 それでも、エンタングルメントは散逸過程を通じて生成および安定化することができる。 実際、絡み合いは、熱浴への不整合結合のみを対象とする相互作用量子系の定常状態に存在することが示されている。 これは有限次元のシステムを用いて、様々な二部および多部構成で証明されている。 ここでは無限次元ボソニック系の定常状態に着目する。 具体的には,任意の強度の励振数保存相互作用を行うボソニックモードの任意の集合を考慮し,各カップルが異なる温度で熱浴に弱く接触する任意の数に分割する。 特異な定常状態は常に分離可能であることを示す。

Entanglement is a fundamental feature of quantum physics and a key resource for quantum communication, computing and sensing. Entangled states are fragile and maintaining coherence is a central challenge in quantum information processing. Nevertheless, entanglement can be generated and stabilised through dissipative processes. In fact, entanglement has been shown to exist in the steady state of certain interacting quantum systems subject solely to incoherent coupling to thermal baths. This has been demonstrated in a range of bi- and multipartite settings using systems of finite dimension. Here we focus on the steady state of infinite-dimensional bosonic systems. Specifically, we consider any set of bosonic modes undergoing excitation-number-preserving interactions of arbitrary strength and divided between an arbitrary number of parties that each couple weakly to thermal baths at different temperatures. We show that a unique steady state is always separable.
翻訳日:2023-09-28 22:02:14 公開日:2023-09-27
# CHORUS: 統一データ発見と探索のための基盤モデル

CHORUS: Foundation Models for Unified Data Discovery and Exploration ( http://arxiv.org/abs/2306.09610v2 )

ライセンス: Link先を確認
Moe Kayali, Anton Lykov, Ilias Fountalis, Nikolaos Vasiloglou, Dan Olteanu, Dan Suciu(参考訳) データ発見と探索のタスクに基礎モデルを適用します。 基礎モデルは大規模言語モデル(llm)であり、トレーニングとは無関係な様々なタスクで有望なパフォーマンスを示す。 これらのモデルは、データ発見およびデータ探索領域に非常に適用可能であることを示す。 注意深く使うと、テーブルクラス検出、列型アノテーション、結合列予測という3つの典型的なタスクで優れた能力を発揮する。 これら3つの課題において,基礎モデルに基づくアプローチがタスク固有のモデルよりも優れていることを示す。 さらに、我々のアプローチは、しばしば人間の熟練したタスクパフォーマンスを超えます。 本稿では,いくつかの基礎モデルの一般化可能性,出力に対する非決定性の影響,統語的/意味的信号など,このアプローチの基本特性について検討する。 全体として、これは基盤モデルの下で異なるデータ管理タスクを統一できる将来の方向性を示唆している。

We apply foundation models to data discovery and exploration tasks. Foundation models are large language models (LLMs) that show promising performance on a range of diverse tasks unrelated to their training. We show that these models are highly applicable to the data discovery and data exploration domain. When carefully used, they have superior capability on three representative tasks: table-class detection, column-type annotation and join-column prediction. On all three tasks, we show that a foundation-model-based approach outperforms the task-specific models and so the state of the art. Further, our approach often surpasses human-expert task performance. We investigate the fundamental characteristics of this approach including generalizability to several foundation models, impact of non-determinism on the outputs and syntactic/semantic signals. All in all, this suggests a future direction in which disparate data management tasks can be unified under foundation models.
翻訳日:2023-09-28 21:55:16 公開日:2023-09-27
# clausal tableaux による範囲制限補間

Range-Restricted Interpolation through Clausal Tableaux ( http://arxiv.org/abs/2306.03572v3 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) 一階述語論理におけるクレイグ補間(Craig interpolation)の出力への入力から、範囲制限のバリエーションとホーン特性の変換方法を示す。 証明システムはclausal tableauxであり、一階のatpに由来する。 この結果は、一般に証明変換によって達成できるクララザウ構造の制限によって誘導され、また、ソース証明が分解/パラモディフィケーションによっても得られる。 主な用途は、クエリ合成と補間による再構成である。 我々の方法論的アプローチは、高度に最適化された一階述語プローバーを組み込むことにより、証明構造上の操作を実現可能な実装の即時的な視点と組み合わせる。

We show how variations of range-restriction and also the Horn property can be passed from inputs to outputs of Craig interpolation in first-order logic. The proof system is clausal tableaux, which stems from first-order ATP. Our results are induced by a restriction of the clausal tableau structure, which can be achieved in general by a proof transformation, also if the source proof is by resolution/paramodulation. Primarily addressed applications are query synthesis and reformulation with interpolation. Our methodical approach combines operations on proof structures with the immediate perspective of feasible implementation through incorporating highly optimized first-order provers.
翻訳日:2023-09-28 21:55:02 公開日:2023-09-27
# 記憶と無記憶の異なる重力波バーストプロファイルのための絡み合い収穫法

Entanglement harvesting for different gravitational wave burst profiles with and without memory ( http://arxiv.org/abs/2305.17735v2 )

ライセンス: Link先を確認
Subhajit Barman, Indranil Chakraborty, Sajal Mukherjee(参考訳) 本稿では、線形化重力における異なる重力波(GW)バーストプロファイルが、2つの静的Unruh-DeWitt検出器間の収穫にどのように影響するかを考察する。 この目的のために、ガウス, sech-squared, Heaviside step function, tanh のバーストプロファイルについて検討する。 これらのうち、最初の2つのバーストはメモリを含まないが、後者の2つは消滅しないメモリ効果からなる。 これら全てのケースにおいて、絡み合いの収穫が可能であり、検出器と検出器の遷移エネルギーの間の距離が増加すると減少する。 我々は,低遷移エネルギー状態において顕著な記憶の有無によって,収穫が定性的に異なることを観察した。 メモリでは、収穫は遷移エネルギーの減少とともに増加し続け、メモリなしでは有限値に達する傾向にある。 さらに、メモリのない2つのバーストプロファイルでは、より長いバーストは、低検出器遷移エネルギーレジームにおけるより大きな収穫に対応し、この特性はより大きな遷移エネルギーのために反転する。 一方、記憶のあるtanh型プロファイルでは、収穫は常に短いバーストでより大きい。 我々はこの発見の様々な意味について話し合う。

In the present article, we study how different gravitational wave (GW) burst profiles in linearized gravity, with and without the asymptotic memory, may influence the harvesting between two static Unruh-DeWitt detectors. To this end, we investigate the following burst profiles -- Gaussian, sech-squared, Heaviside step function, and tanh. Out of these, the first two bursts contain no memory, while the latter two consist of a non-vanishing memory effect. We find that in all of these cases, entanglement harvesting is possible, and it decreases with the increasing distance between detectors and the detector transition energy. We observe that the harvesting differs qualitatively based on the presence or absence of the memory, which is prominent in a low transition energy regime. With memory, the harvesting keeps increasing with decreasing transition energy, while without memory, it tends to reach finite values. Furthermore, for the two burst profiles without memory, longer bursts correspond to greater harvesting in the low detector transition energy regime, and this characteristic is reversed for larger transition energy. Meanwhile, for the tanh-type profile with memory, harvesting is always greater for shorter bursts. We discuss various implications of our findings.
翻訳日:2023-09-28 21:54:33 公開日:2023-09-27
# 相対論的量子場理論における一般量子計測

General quantum measurements in relativistic quantum field theory ( http://arxiv.org/abs/2305.12765v2 )

ライセンス: Link先を確認
Adam Bednorz(参考訳) 単一粒子検出は、量子場理論における単純な測定モデルによって制限された方法で記述される。 場の自然結合から構築した時空におけるクラウス作用素を用いる一般的なアプローチは、単一粒子検出器の効率的なモデルをもたらすことを示す。 モデルは、既存の量子場フレームワーク内でのみ定義されるため、任意の補助オブジェクトからは自由である。 これは、ベル相関やシーケンシャル測定のような測定の時間分解能が関係する大規模な設定系に適用することができる。 また、モデルの限界と機能体制についても論じる。

Single particle detection is described in a limited way by simple models of measurements in quantum field theory. We show that a general approach, using Kraus operators in spacetime constructed from natural combinations of fields, leads to an efficient model of a single particle detector. The model is free from any auxiliary objects as it is defined solely within the existing quantum field framework. It can be applied to a large family of setups where the time resolution of the measurement is relevant, such as Bell correlations or sequential measurement. We also discuss the limitations and working regimes of the model.
翻訳日:2023-09-28 21:54:12 公開日:2023-09-27
# grace++: ニューラルコーデックによるロスレジリエントなリアルタイムビデオ

GRACE++: Loss-Resilient Real-Time Video through Neural Codecs ( http://arxiv.org/abs/2305.12333v2 )

ライセンス: Link先を確認
Yihua Cheng, Ziyi Zhang, Hanchen Li, Anton Arapin, Yue Zhang, Qizheng Zhang, Yuhan Liu, Xu Zhang, Francis Yan, Amrita Mazumdar, Nick Feamster, Junchen Jiang(参考訳) リアルタイムビデオ通信では、遅延が厳しいため、高遅延ネットワーク上で失われたパケットを再送信することは不可能である。 再送信なしでパケット損失に対応するために、エンコーダベースの前方誤り訂正(FEC)とデコーダベースの誤り隠蔽という2つの主要な戦略が採用されている。 前者は送信前に冗長でデータをエンコードするが、前もって最適な冗長レベルを決定することは困難である。 後者は、部分的に受信されたフレームから映像を再構成するが、フレームを独立して符号化されたパーティションに分割することは、本質的に圧縮効率を損なう。 本稿では,新たなニューラルビデオコーデックによるパケットロスに対して,ユーザのqoe(quality of experience)を保存可能なgrace++というリアルタイムビデオシステムを提案する。 GRACE++の強化されたロスレジリエンスの中心は、シミュレーションパケット損失のスペクトル下でのニューラルエンコーダとデコーダの共同トレーニングである。 損失のないシナリオでは、GRACE++は従来のコーデック(H.265など)と同等のビデオ品質を達成する。 損失率が増大するにつれて、GRACE++はより優雅で、より顕著な品質低下を示し、他の損失耐性スキームを上回っている。 様々なビデオや実ネットワークトレースを広範囲に評価することにより,GRACE++ は FEC と比較して処理不能なフレームを95%,停止期間を90%削減し,エラー隠蔽法よりも映像品質を著しく向上させることを示した。 240人のクラウドソース参加者と960人の主観評価を持つユーザスタディでは、GRACE++は他のベースラインよりも38%高い平均評価スコア(MOS)を登録している。

In real-time video communication, retransmitting lost packets over high-latency networks is not viable due to strict latency requirements. To counter packet losses without retransmission, two primary strategies are employed -- encoder-based forward error correction (FEC) and decoder-based error concealment. The former encodes data with redundancy before transmission, yet determining the optimal redundancy level in advance proves challenging. The latter reconstructs video from partially received frames, but dividing a frame into independently coded partitions inherently compromises compression efficiency, and the lost information cannot be effectively recovered by the decoder without adapting the encoder. We present a loss-resilient real-time video system called GRACE++, which preserves the user's quality of experience (QoE) across a wide range of packet losses through a new neural video codec. Central to GRACE++'s enhanced loss resilience is its joint training of the neural encoder and decoder under a spectrum of simulated packet losses. In lossless scenarios, GRACE++ achieves video quality on par with conventional codecs (e.g., H.265). As the loss rate escalates, GRACE++ exhibits a more graceful, less pronounced decline in quality, consistently outperforming other loss-resilient schemes. Through extensive evaluation on various videos and real network traces, we demonstrate that GRACE++ reduces undecodable frames by 95% and stall duration by 90% compared with FEC, while markedly boosting video quality over error concealment methods. In a user study with 240 crowdsourced participants and 960 subjective ratings, GRACE++ registers a 38% higher mean opinion score (MOS) than other baselines.
翻訳日:2023-09-28 21:54:03 公開日:2023-09-27
# カオスにおける直交多項式近似と拡張動的モード分解

Orthogonal polynomial approximation and Extended Dynamic Mode Decomposition in chaos ( http://arxiv.org/abs/2305.08074v4 )

ライセンス: Link先を確認
Caroline L. Wormell(参考訳) extended dynamic mode decomposition (edmd) は、物理科学において広く取り上げられている、ダイナミクスの予測とモデル還元のためのデータ駆動ツールである。 この手法は概念的には単純であるが、決定論的カオスでは、その性質が何であるか、何に収束するかは明らかではない。 特に、edmdの最小二乗近似がカオス系が作用する微分可能関数のクラスをどのように扱うかは明らかではない。 EDMDの一般的な厳密な理論は、カオス写像の最も単純な例である円の拡大写像を解析する上で初めて発展する。 これを実現するために、単位円(OPUC)上の直交多項式の理論における新しい基本近似結果を証明し、転送作用素理論から方法を適用する。 無限データ極限において、最小二乗射影誤差は三角多項式可観測ディクショナリに対して指数関数的に小さい。 その結果,edmdを用いて生成された予測データとクープマンスペクトルデータは,辞書のサイズに対して指数関数的に速く,物理的に有意な限界に収束することが示された。 これは、比較的小さな多項式辞書だけでは、サンプリング測度が均一でない場合でも、EDMDは非常に効果的であることを示す。 さらに, OPUCの結果から, データに基づく最小二乗予測はより一般的な近似手法である可能性が示唆された。

Extended Dynamic Mode Decomposition (EDMD) is a data-driven tool for forecasting and model reduction of dynamics, which has been extensively taken up in the physical sciences. While the method is conceptually simple, in deterministic chaos it is unclear what its properties are or even what it converges to. In particular, it is not clear how EDMD's least-squares approximation treats the classes of differentiable functions on which chaotic systems act. We develop for the first time a general, rigorous theory of EDMD on the simplest examples of chaotic maps: analytic expanding maps of the circle. To do this, we prove a new, basic approximation result in the theory of orthogonal polynomials on the unit circle (OPUC) and apply methods from transfer operator theory. We show that in the infinite-data limit, the least-squares projection error is exponentially small for trigonometric polynomial observable dictionaries. As a result, we show that forecasts and Koopman spectral data produced using EDMD in this setting converge to the physically meaningful limits, exponentially fast with respect to the size of the dictionary. This demonstrates that with only a relatively small polynomial dictionary, EDMD can be very effective, even when the sampling measure is not uniform. Furthermore, our OPUC result suggests that data-based least-squares projection may be a very effective approximation strategy more generally.
翻訳日:2023-09-28 21:53:27 公開日:2023-09-27
# 画像キャプションのためのWebcrawled Image-Textデータからの雑音認識学習

Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning ( http://arxiv.org/abs/2212.13563v2 )

ライセンス: Link先を確認
Wooyoung Kang, Jonghwan Mun, Sungjun Lee, Byungseok Roh(参考訳) 画像キャプションは、キャプションモデルに視覚世界に関する豊富な知識を提供する大規模なwebクローラーデータを活用するための簡単なタスクの1つである。 しかし、Webcrawledデータには、異なるレベルで整列された画像テキストペアが含まれているため、固有のノイズ(例えば、不整合ペア)は正確なキャプションモデルを学ぶのを難しくする。 フィルタリング戦略はノイズの多いデータを効果的に除去することができるが、学習可能な知識が減少し、時にデータ不足という新たな問題を引き起こす。 両世界を最大限に活用するために,ノイズの影響を少なくしながら,Webクローリングデータ全体から豊富な知識を学習するノイズ対応キャプション(NoC)フレームワークを提案する。 これは、トレーニング中に画像テキストペアのアライメントレベルを制御信号として学習するアライメントレベル制御型キャプションによって実現される。 アライメントレベル条件付きトレーニングでは、制御信号を推論時に所望のアライメントレベルに設定することで、高品質なキャプションを生成することができる。 ノイズ処理におけるフレームワークの有効性を詳細に分析した。 生成キャプションを用いたゼロショットキャプションとテキストから画像への検索の2つのタスク(すなわち自己リトライ)により,記述性と識別性の観点から高品質なキャプションを生成できることを実証した。 コードは \url{https://github.com/kakaobrain/noc} で入手できる。

Image captioning is one of the straightforward tasks that can take advantage of large-scale web-crawled data which provides rich knowledge about the visual world for a captioning model. However, since web-crawled data contains image-text pairs that are aligned at different levels, the inherent noises (e.g., misaligned pairs) make it difficult to learn a precise captioning model. While the filtering strategy can effectively remove noisy data, it leads to a decrease in learnable knowledge and sometimes brings about a new problem of data deficiency. To take the best of both worlds, we propose a Noise-aware Captioning (NoC) framework, which learns rich knowledge from the whole web-crawled data while being less affected by the noises. This is achieved by the proposed alignment-level-controllable captioner, which is learned using alignment levels of the image-text pairs as a control signal during training. The alignment-level-conditioned training allows the model to generate high-quality captions by simply setting the control signal to the desired alignment level at inference time. An in-depth analysis shows the effectiveness of our framework in handling noise. With two tasks of zero-shot captioning and text-to-image retrieval using generated captions (i.e., self-retrieval), we also demonstrate our model can produce high-quality captions in terms of descriptiveness and distinctiveness. The code is available at \url{https://github.com/kakaobrain/noc}.
翻訳日:2023-09-28 21:45:40 公開日:2023-09-27
# ssVERDICT: 自己監督型VERDICT-MRIによる前立腺腫瘍の診断

ssVERDICT: Self-Supervised VERDICT-MRI for Enhanced Prostate Tumour Characterisation ( http://arxiv.org/abs/2309.06268v2 )

ライセンス: Link先を確認
Snigdha Sen, Saurabh Singh, Hayley Pye, Caroline M. Moore, Hayley Whitaker, Shonit Punwani, David Atkinson, Eleftheria Panagiotaki, Paddy J. Slator(参考訳) 目的:前立腺の細胞計測モデル(血管, 細胞外, 制限された拡散)の自己教師付き機械学習適合性の実証と評価。 方法: トレーニングデータなしでパラメータマップを推定するVERDICT(ssVERDICT)を適合させるための自己教師型ニューラルネットワークを導出する。 従来の非線形最小二乗法(NLLS)と教師付きディープラーニングの2種類の拡散MRIモデルと比較した。 我々はPearsonの相関係数、平均二乗誤差(MSE)、バイアス、およびシミュレーションされた基底真理に対する分散を比較することによって、シミュレーションデータに対して定量的にこれを行う。 また,前立腺癌20例のコホートを用いた生体内パラメータマップを算出し,ウィルコクソンのサインインランクテストを用いて癌組織と良性鑑別法の性能を比較した。 結果:SsVERDICT は,Pearson の相関係数,バイアス,MSE から VERDICT 前立腺モデルから全てのパラメータを推定し,ベースライン法(NLLS および教師付きDL)よりも優れていた。 In vivoでは、ssVERDICTは全てのパラメーターマップに強い病変の傾向を示し、ベースライン法よりも良性組織と癌組織の識別を改善する。 結論: ssVERDICT は VERDICT モデル適合の最先端手法を著しく上回り, 明示的なトレーニングラベルを必要とせず, 複雑な3成分生体物理モデルと機械学習との適合性を初めて示す。

Purpose: Demonstrating and assessing self-supervised machine learning fitting of the VERDICT (Vascular, Extracellular and Restricted DIffusion for Cytometry in Tumours) model for prostate. Methods: We derive a self-supervised neural network for fitting VERDICT (ssVERDICT) that estimates parameter maps without training data. We compare the performance of ssVERDICT to two established baseline methods for fitting diffusion MRI models: conventional nonlinear least squares (NLLS) and supervised deep learning. We do this quantitatively on simulated data, by comparing the Pearson's correlation coefficient, mean-squared error (MSE), bias, and variance with respect to the simulated ground truth. We also calculate in vivo parameter maps on a cohort of 20 prostate cancer patients and compare the methods' performance in discriminating benign from cancerous tissue via Wilcoxon's signed-rank test. Results: In simulations, ssVERDICT outperforms the baseline methods (NLLS and supervised DL) in estimating all the parameters from the VERDICT prostate model in terms of Pearson's correlation coefficient, bias, and MSE. In vivo, ssVERDICT shows stronger lesion conspicuity across all parameter maps, and improves discrimination between benign and cancerous tissue over the baseline methods. Conclusion: ssVERDICT significantly outperforms state-of-the-art methods for VERDICT model fitting, and shows for the first time, fitting of a complex three-compartment biophysical model with machine learning without the requirement of explicit training labels.
翻訳日:2023-09-28 21:44:57 公開日:2023-09-27
# 2次元cftにおける励起状態の擬似 r\'enyi 絡み合いエントロピーとその時間発展

Pseudo R\'enyi Entanglement Entropies For an Excited State and Its Time Evolution in a 2D CFT ( http://arxiv.org/abs/2309.04112v2 )

ライセンス: Link先を確認
Farzad Omidi(参考訳) 本稿では、局所励起状態 $| \psi \rangle $ に対する第2および第3の擬R\enyi 絡み合いエントロピー(PREE)とその時間進化 $| \phi \rangle = e^{-i H t} | \psi \rangle$ を、フィールド内容が自由質量スカラー場である2次元共形場理論において検討する。 真空状態に対して, 一次演算子を t=0$ で適用することにより構成する励起状態を考える。 本研究では,0温度における有限および半無限間隔形状の絡み合う領域に対するPreEの時間発展について検討する。 PREE は常に $t \neq 0$ の複素数であり、純粋な実数は $t=0$ である。 さらに、エンタングリング領域の中心の位置の$x_m$への依存について論じる。

In this paper, we investigate the second and third pseudo R\'enyi entanglement entropies (PREE) for a locally excited state $| \psi \rangle $ and its time evolution $| \phi \rangle = e^{- i H t} | \psi \rangle$ in a two-dimensional conformal field theory whose field content is a free massless scalar field. We consider excited states which are constructed by applying primary operators at time $t=0$, on the vacuum state. We study the time evolution of the PREE for an entangling region in the shape of finite and semi-infinite intervals at zero temperature. It is observed that the PREE is always a complex number for $t \neq 0$ and is a pure real number at $t=0$. Moreover, we discuss on its dependence on the location $x_m$ of the center of the entangling region.
翻訳日:2023-09-28 21:44:25 公開日:2023-09-27
# collect, measure, repeat: 責任あるaiデータ収集の信頼性因子

Collect, Measure, Repeat: Reliability Factors for Responsible AI Data Collection ( http://arxiv.org/abs/2308.12885v2 )

ライセンス: Link先を確認
Oana Inel, Tim Draws and Lora Aroyo(参考訳) 日々の活動や高い領域における機械学習アプローチの急速な導入は、その公正さと信頼性の透明性と精査を要求する。 機械学習モデルの堅牢性を評価するために、研究は通常、デプロイメントに使用される膨大なデータセット(例えば、その起源、開発プロセス、倫理的考慮事項を理解するためのドキュメントの作成と保守)に焦点を当てる。 しかし、AIのデータ収集は一般的には1回限りのプラクティスであり、特定の目的のために収集されたデータセットやアプリケーションが異なる問題のために再利用されることが多い。 加えて、データセットのアノテーションは時間とともに代表されない、あいまいで誤ったアノテーションを含んでいる、あるいは問題やドメインをまたいで一般化できない場合がある。 最近の研究では、これらのプラクティスが不公平、偏見、あるいは不正確な結果をもたらす可能性があることが示されている。 我々は、AIのデータ収集は、データの品質を徹底的に精査し、適切なメトリクスの体系的なセットを通じて測定する責任ある方法で行うべきであると論じる。 本稿では,生成されたデータの品質と信頼性に影響を与える要因を反復的に詳細に分析するために,データ収集を一連の指標で導くための責任あるai(rai)手法を提案する。 本稿では,データセットの内部信頼性と時間経過に伴う外部安定性を知らせる粒度測定手法を提案する。 既存の9つのデータセットとアノテーションタスクと4つのコンテンツモダリティにまたがるアプローチを検証する。 このアプローチは、ユーザとコンテンツの多様性が引き起こされる現実世界でaiに適用されるデータロバスト性の評価に影響する。 さらに、データコレクションに対して体系的で透明な品質分析を提供することで、データ収集における公平性と説明責任の側面も扱う。

The rapid entry of machine learning approaches in our daily activities and high-stakes domains demands transparency and scrutiny of their fairness and reliability. To help gauge machine learning models' robustness, research typically focuses on the massive datasets used for their deployment, e.g., creating and maintaining documentation for understanding their origin, process of development, and ethical considerations. However, data collection for AI is still typically a one-off practice, and oftentimes datasets collected for a certain purpose or application are reused for a different problem. Additionally, dataset annotations may not be representative over time, contain ambiguous or erroneous annotations, or be unable to generalize across issues or domains. Recent research has shown these practices might lead to unfair, biased, or inaccurate outcomes. We argue that data collection for AI should be performed in a responsible manner where the quality of the data is thoroughly scrutinized and measured through a systematic set of appropriate metrics. In this paper, we propose a Responsible AI (RAI) methodology designed to guide the data collection with a set of metrics for an iterative in-depth analysis of the factors influencing the quality and reliability} of the generated data. We propose a granular set of measurements to inform on the internal reliability of a dataset and its external stability over time. We validate our approach across nine existing datasets and annotation tasks and four content modalities. This approach impacts the assessment of data robustness used for AI applied in the real world, where diversity of users and content is eminent. Furthermore, it deals with fairness and accountability aspects in data collection by providing systematic and transparent quality analysis for data collections.
翻訳日:2023-09-28 21:43:47 公開日:2023-09-27
# 局所励起を伴う非エルミートゲージレーザーアレイ:異常閾値と選択的ポンピングの一般化原理

Non-Hermitian gauged laser arrays with localized excitations: Anomalous threshold and generalized principle of selective pumping ( http://arxiv.org/abs/2308.12837v2 )

ライセンス: Link先を確認
Li Ge, Zihe Gao, Liang Feng(参考訳) 空間局在励起レーザーアレイにおける非エルミート皮膚モードについて検討した。 いずれの症例も, いずれの症例も, ポンププロファイルと目標ラシングモードの重なりを最大化することを目的とした, 選択ポンプ方式の従来の原則を無視する。 このエニグマに光を当てるために、以前見過ごされていた現象、すなわち、一様利得や損失を伴わないフォトニック環境との非エルミタンカップリング接合におけるエネルギー交換を明らかにした。 移動行列アプローチを用いて、非エルミートゲージ場(利得、損失、またはそれらの混合物)の特定の物理的実現によって決定されるこの異常しきい値の挙動のメカニズムを解明する。 最後に, 非エルミートアレイにおける選択的ポンプの一般化原理を導出し, ポンプのトリパルタイト積, レーシングモード, および生物直交パートナーによって決定的な空間重なりが与えられることを示した。 本研究は、不斉結合と複素オンサイトポテンシャルの2つの形態がレーザーアレイで相乗的に相互作用し、光子学および関連分野における集団効果のさらなる探究を助長する様子を垣間見るものである。

We investigate non-Hermitian skin modes in laser arrays with spatially localized excitation. Intriguingly, we observe an unusual threshold behavior when selectively pumping either the head or the tail of these modes: both cases exhibit the same lasing threshold and hence defy the conventional principle of selective pumping, which aims to maximize the overlap between the pump profile and the target lasing mode. To shed light on this enigma, we reveal a previously overlooked phenomenon, i.e., energy exchange at non-Hermitian coupling junctions with the photonic environment, which does not occur with uniform gain or loss. Utilizing a transfer matrix approach, we elucidate the mechanism of this anomalous threshold behavior, which is determined by the specific physical realization of the non-Hermitian gauge field (i.e., using gain, loss, or their mixture). Finally, we derive a generalized principle of selective pumping in non-Hermitian arrays, which shows that the decisive spatial overlap is given by the tripartite product of the pump, the lasing mode, and its biorthogonal partner. Our study provides a glimpse into how the two forms of non-Hermiticity, i.e., asymmetric couplings and a complex onsite potential, interact synergetically in laser arrays, which may stimulate further explorations of their collective effects in photonics and related fields.
翻訳日:2023-09-28 21:43:22 公開日:2023-09-27
# 高忠実性2量子ゲートを持つスピン軌道相互作用

Spin-Orbit Interaction Enabled High-Fidelity Two-Qubit Gates ( http://arxiv.org/abs/2308.06986v3 )

ライセンス: Link先を確認
Jiaan Qi, Zhi-Hai Liu and H. Q. Xu(参考訳) 半導体スピンキュービットプラットフォームにおける2量子ゲート(TQG)に対するスピン軌道相互作用(SOI)の影響について検討した。 量子ビット対を管理する交換相互作用はSOIの下では異方性であり、ハイゼンベルク交換の下で引き起こされた従来のTQGに問題がある。 計算空間ハミルトニアンの簡潔な表現を導出した後、回転フレーム時間発展の性質を導出するためにそれを使う。 主な観測は2つある。 まず, 過去の信念とは対照的に, 適切な量のSOIはNO-SOIの場合と比較して制御相ゲートの忠実度を高めることができる。 第二に、SOIはリフレクションゲートやコントロールノットゲートのような直流進化によって従来はアクセスできない新しい2量子ダイナミクスを実現する。

We study the implications of spin-orbit interaction (SOI) for two-qubit gates (TQGs) in semiconductor spin qubit platforms. The exchange interaction governing qubit pairs is anisotropic under SOI, posing a problem for conventional TQGs derived under the Heisenberg exchange. After deriving a concise expression for the computational space Hamiltonian, we use it to derive properties of the rotating-frame time evolutions. Two main observations are made. First, in contrary to past belief, we find that an appropriate amount of SOI can enhance the controlled-phase gate fidelity compared to the no-SOI case. Second, SOI enables novel two-qubit dynamics, that are conventionally inaccessible through DC evolution, such as the reflection gate and the controlled-not gate.
翻訳日:2023-09-28 21:42:54 公開日:2023-09-27
# 制約量子系における深い熱化

Deep thermalization in constrained quantum systems ( http://arxiv.org/abs/2307.03769v2 )

ライセンス: Link先を確認
Tanmay Bhore, Jean-Yves Desaules, and Zlatko Papi\'c(参考訳) 深部熱化」という概念が最近導入され、従来の固有状態熱化仮説(ETH)を超越したサブシステムにおける射影測定の結果、純粋な状態の集合のモーメントを特徴づけている。 本研究では,量子東方モデルやpxpモデルなどの速度論的制約のある系において,低速なダイナミクスと初期条件に対する高い感度によってethを弱く破ることで知られる深い熱化の研究を行う。 計算ベースで初期積状態からのクエンチダイナミクスを研究することにより,これらのモデルにおける第1モーメントと第2モーメントの深い熱化において,第1モーメントはETHとの良好な一致を示すが,第1モーメントは無限温度で均一なハールアンサンブルから逸脱する。 このような振る舞いは、時間反転対称性の相互作用と、ハミルトニアンと反可換な作用素によって引き起こされる。 我々は、ETHの意味では「熱い」システムであっても、深い熱化に違反する十分な条件を定式化する。 これらの性質を適切に破ることにより、pxpモデルが熱力学的極限における全ての初期積状態に対して完全に深く熱することを示す。 本研究は, 動力学的拘束系におけるETHを超える物理プローブとしての深部熱化の感度を強調した。

The concept of "deep thermalization" has recently been introduced to characterize moments of an ensemble of pure states, resulting from projective measurements on a subsystem, which lie beyond the purview of conventional Eigenstate Thermalization Hypothesis (ETH). In this work, we study deep thermalization in systems with kinetic constraints, such as the quantum East and the PXP models, which have been known to weakly break ETH by the slow dynamics and high sensitivity to the initial conditions. We demonstrate a sharp contrast in deep thermalization between the first and higher moments in these models by studying quench dynamics from initial product states in the computational basis: while the first moment shows good agreement with ETH, higher moments deviate from the uniform Haar ensemble at infinite temperature. We show that such behavior is caused by an interplay of time-reversal symmetry and an operator that anticommutes with the Hamiltonian. We formulate sufficient conditions for violating deep thermalization, even for systems that are otherwise "thermal" in the ETH sense. By appropriately breaking these properties, we illustrate how the PXP model fully deep-thermalizes for all initial product states in the thermodynamic limit. Our results highlight the sensitivity of deep thermalization as a probe of physics beyond ETH in kinetically-constrained systems.
翻訳日:2023-09-28 21:42:34 公開日:2023-09-27
# パラメータ化多量子ポーリゲートの最適ハードウェアネイティブ分解

Optimal, hardware native decomposition of parameterized multi-qubit Pauli gates ( http://arxiv.org/abs/2303.04498v2 )

ライセンス: Link先を確認
P.V. Sriluckshmy, Vicente Pina-Canelles, Mario Ponce, Manuel G. Algaba, Fedor \v{S}imkovic IV and Martin Leib(参考訳) パラメータ化されたマルチキュービットパウリ(pmqp)ゲートを、回路深度とp2qpゲートの数を最小化するネイティブパラメータ化された2キュービットパウリ(p2qp)ゲートに効率的に分解する方法を示す。 現実的な量子計算モデルを考えると、ハードウェアネイティブゲートの数と分解の全体的な深さの観点から、この手法が最適であると主張する。 path と star のハードウェアグラフに対する pmqp ゲート分解から始まり、手続きを任意の汎用ハードウェアグラフに一般化し、分解の深さと p2qp ゲートの数の正確な表現を提供する。 さらに,Lechner-Hauke-Zoller (LHZ) マッピングを用いた組合せ最適化問題に対して,複数のPMQPゲートの分解とP2QPゲートの増減を効率的に組み合わせる方法について述べる。

We show how to efficiently decompose a parameterized multi-qubit Pauli (PMQP) gate into native parameterized two-qubit Pauli (P2QP) gates minimizing both the circuit depth and the number of P2QP gates. Given a realistic quantum computational model, we argue that the technique is optimal in terms of the number of hardware native gates and the overall depth of the decomposition. Starting from PMQP gate decompositions for the path and star hardware graph, we generalize the procedure to any generic hardware graph and provide exact expressions for the depth and number of P2QP gates of the decomposition. Furthermore, we show how to efficiently combine the decomposition of multiple PMQP gates to further reduce the depth as well as the number of P2QP gates for a combinatorial optimization problem using the Lechner-Hauke-Zoller (LHZ) mapping.
翻訳日:2023-09-28 19:51:43 公開日:2023-09-27
# DOLOS: ターゲット防衛の新たなアーキテクチャ

DOLOS: A Novel Architecture for Moving Target Defense ( http://arxiv.org/abs/2303.00387v2 )

ライセンス: Link先を確認
Giulio Pagnotta, Fabio De Gaspari, Dorjan Hitaj, Mauro Andreolini, Michele Colajanni, Luigi V. Mancini(参考訳) 移動ターゲットディフェンスとサイバー偽装は、従来のリアクティブサイバーディフェンスの静的な性質とは対照的に、近年2つの重要なプロアクティブサイバーディフェンスアプローチとして登場した。 これらのアプローチの背後にある重要な洞察は、デセプションとランダム化技術を使って動的攻撃面を作成することで、攻撃者に非対称な不利を課すことである。 移動ターゲットディフェンスは通常システムのランダム化と多様化に依存し、サイバー認知は攻撃者を欺くためにデコイノードと偽システムに基づいている。 しかし、現在の移動目標防衛技術は管理が複雑であり、高いオーバーヘッドを発生させることができる一方、Cyber Deceptionノードは敵によって容易に認識され、回避される。 本稿では,サイバー認知と移動目標防衛を一体化した新しいアーキテクチャであるDOLOSを提案する。 DOLOSは、それと同時にデプロイされるのではなく、本番システムに統合される場合には、偽造技術の方がはるかに強力である、という洞察に動機付けられている。 DOLOSは、ランダム化、多様性、冗長性といった典型的な移動目標防衛技術とサイバー詐欺を組み合わせ、複数の分離層を通じてシームレスにプロダクションシステムに統合する。 我々は、自動マルウェアからプロの侵入テストまで幅広い攻撃者に対してDOLOSを広範囲に評価し、DOLOSが攻撃を遅くし、生産システムの完全性を保護するのに非常に有効であることを示す。 また,MTD技術の今後の発展に向けた貴重な知見と考察を,本研究の成果に基づいて提供する。

Moving Target Defense and Cyber Deception emerged in recent years as two key proactive cyber defense approaches, contrasting with the static nature of the traditional reactive cyber defense. The key insight behind these approaches is to impose an asymmetric disadvantage for the attacker by using deception and randomization techniques to create a dynamic attack surface. Moving Target Defense typically relies on system randomization and diversification, while Cyber Deception is based on decoy nodes and fake systems to deceive attackers. However, current Moving Target Defense techniques are complex to manage and can introduce high overheads, while Cyber Deception nodes are easily recognized and avoided by adversaries. This paper presents DOLOS, a novel architecture that unifies Cyber Deception and Moving Target Defense approaches. DOLOS is motivated by the insight that deceptive techniques are much more powerful when integrated into production systems rather than deployed alongside them. DOLOS combines typical Moving Target Defense techniques, such as randomization, diversity, and redundancy, with cyber deception and seamlessly integrates them into production systems through multiple layers of isolation. We extensively evaluate DOLOS against a wide range of attackers, ranging from automated malware to professional penetration testers, and show that DOLOS is highly effective in slowing down attacks and protecting the integrity of production systems. We also provide valuable insights and considerations for the future development of MTD techniques based on our findings.
翻訳日:2023-09-28 19:51:06 公開日:2023-09-27
# 医用画像分割のためのスウィンデフォルマブルアテンションハイブリッドU-Net

Swin Deformable Attention Hybrid U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2302.14450v2 )

ライセンス: Link先を確認
Lichao Wang, Jiahao Huang, Xiaodan Xing, Guang Yang(参考訳) 医用画像のセグメンテーションは、医用画像解析における重要な課題である。 畳み込みとマルチヘッド自己保持機構の調和は,近年のこの分野における様々な組み合わせ手法による研究の焦点となっている。 しかしながら、これらのハイブリッドモデルの解釈可能性の欠如は共通の落とし穴であり、臨床シナリオにおける実践的応用を制限している。 この問題に対処するため,我々は Shifted Window (Swin) Deformable Attention をハイブリッドアーキテクチャに統合し,セグメンテーション性能を向上し,説明可能性を確保することを提案する。 提案するSwing Deformable Attention Hybrid UNet (SDAH-UNet) は解剖学的および病変分割作業における最先端の性能を示す。 さらに,モデル焦点化の直接的かつ視覚的な説明と,モデルがモデルをどのように形成するかを説明し,臨床医がモデルの決定をよりよく理解し,信頼できるようにする。 我々のアプローチは、正確かつ解釈可能な医用画像セグメンテーションモデルを開発するという課題に対する、有望な解決策になり得る。

Medical image segmentation is a crucial task in the field of medical image analysis. Harmonizing the convolution and multi-head self-attention mechanism is a recent research focus in this field, with various combination methods proposed. However, the lack of interpretability of these hybrid models remains a common pitfall, limiting their practical application in clinical scenarios. To address this issue, we propose to incorporate the Shifted Window (Swin) Deformable Attention into a hybrid architecture to improve segmentation performance while ensuring explainability. Our proposed Swin Deformable Attention Hybrid UNet (SDAH-UNet) demonstrates state-of-the-art performance on both anatomical and lesion segmentation tasks. Moreover, we provide a direct and visual explanation of the model focalization and how the model forms it, enabling clinicians to better understand and trust the decision of the model. Our approach could be a promising solution to the challenge of developing accurate and interpretable medical image segmentation models.
翻訳日:2023-09-28 19:50:41 公開日:2023-09-27
# 一般化固有値問題に対する変分量子アルゴリズムとその有限要素法への応用

Variational quantum algorithm for generalized eigenvalue problems and its application to the finite element method ( http://arxiv.org/abs/2302.12602v2 )

ライセンス: Link先を確認
Yuki Sato, Hiroshi C. Watanabe, Rudy Raymond, Ruho Kondo, Kaito Wada, Katsuhiro Endo, Michihiko Sugawara, Naoki Yamamoto(参考訳) 一般固有値問題(GEP)は工学、機械学習、量子化学など様々な分野において重要な役割を果たしている。 特に、これらの分野における多くの問題は、GEPの最小あるいは最大固有値を見つけることに還元することができる。 GEPを扱う上で重要な問題のひとつは、関心のシステムのサイズが大きくなるにつれてメモリ使用量と計算複雑性が爆発的に増加することである。 本稿では,GEPの逐次量子オプティマイザの拡張を目的とする。 逐次量子オプティマイザ(Sequential quantum optimizationr)は、単一量子ビットゲートの解析最適化を座標降下方式で反復的に解くアルゴリズム群である。 本論文の貢献は以下の通りである。 まず、GEPを2つのエルミート予想の分数形式の最小化/最大化問題として定式化する。 そこで, 4$\times$ 4 行列の GEP を解くことにより, 分数目的関数を単一キュービットゲートに対して解析的に最小化あるいは最大化できることを示した。 第2に, 正定値エルミタンを特徴とする線形方程式系(sle)をgepとして定式化し, 提案手法を用いて攻撃できることを示す。 最後に,有限要素法で定式化した重要な工学的問題に対する2つの応用を実証する。 実数値解を持つ問題は、複素数値状態ベクトルを生成する量子ゲートを用いてより効果的に解くことができ、提案手法の有効性を示す。

Generalized eigenvalue problems (GEPs) play an important role in the variety of fields including engineering, machine learning and quantum chemistry. Especially, many problems in these fields can be reduced to finding the minimum or maximum eigenvalue of GEPs. One of the key problems to handle GEPs is that the memory usage and computational complexity explode as the size of the system of interest grows. This paper aims at extending sequential quantum optimizers for GEPs. Sequential quantum optimizers are a family of algorithms that iteratively solve the analytical optimization of single-qubit gates in a coordinate descent manner. The contribution of this paper is as follows. First, we formulate the GEP as the minimization/maximization problem of the fractional form of the expectations of two Hermitians. We then showed that the fractional objective function can be analytically minimized or maximized with respect to a single-qubit gate by solving a GEP of a 4 $\times$ 4 matrix. Second, we show that a system of linear equations (SLE) characterized by a positive-definite Hermitian can be formulated as a GEP and thus be attacked using the proposed method. Finally, we demonstrate two applications to important engineering problems formulated with the finite element method. Through the demonstration, we have the following bonus finding; a problem having a real-valued solution can be solved more effectively using quantum gates generating a complex-valued state vector, which demonstrates the effectiveness of the proposed method.
翻訳日:2023-09-28 19:50:25 公開日:2023-09-27
# メモリ拡張オンラインビデオ異常検出

Memory-augmented Online Video Anomaly Detection ( http://arxiv.org/abs/2302.10719v2 )

ライセンス: Link先を確認
Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati(参考訳) 周囲のシーンを理解する能力は、自律走行車(AV)にとって最重要事項である。 本稿では,車載カメラで撮影された映像のみを活用し,車載カメラ周辺の異常発生に対する即時対応として,オンライン方式で動作可能なシステムを提案する。 我々のアーキテクチャはMOVADと呼ばれる2つの主要なモジュールに依存している。ビデオスウィントランスフォーマー(VST)によって実装された、進行中のアクションに関する情報を抽出する短期メモリモジュールと、Long-Short Term Memory(LSTM)ネットワークを使うことで、リモートの過去の情報やアクションコンテキストも考慮した長期メモリモジュールである。 movadの強みは、その優れたパフォーマンスだけでなく、その単純でモジュール化されたアーキテクチャ、可能な限り少ない仮定でrgbフレームしか持たないエンドツーエンドでトレーニングされた、実装と操作が容易なこととも結びついている。 本研究では,事故現場のダッシュマウントカメラ映像の難読化である交通異常検出(DoTA)データセットの性能評価を行った。 大規模なアブレーション研究の後、MOVADはAUCの82.17\%に達し、現在の最先端の2.87 AUCを上回った。 私たちのコードはhttps://github.com/IMPLabUniPr/movad/tree/movad_vadで利用可能です。

The ability to understand the surrounding scene is of paramount importance for Autonomous Vehicles (AVs). This paper presents a system capable to work in an online fashion, giving an immediate response to the arise of anomalies surrounding the AV, exploiting only the videos captured by a dash-mounted camera. Our architecture, called MOVAD, relies on two main modules: a Short-Term Memory Module to extract information related to the ongoing action, implemented by a Video Swin Transformer (VST), and a Long-Term Memory Module injected inside the classifier that considers also remote past information and action context thanks to the use of a Long-Short Term Memory (LSTM) network. The strengths of MOVAD are not only linked to its excellent performance, but also to its straightforward and modular architecture, trained in a end-to-end fashion with only RGB frames with as less assumptions as possible, which makes it easy to implement and play with. We evaluated the performance of our method on Detection of Traffic Anomaly (DoTA) dataset, a challenging collection of dash-mounted camera videos of accidents. After an extensive ablation study, MOVAD is able to reach an AUC score of 82.17\%, surpassing the current state-of-the-art by +2.87 AUC. Our code will be available on https://github.com/IMPLabUniPr/movad/tree/movad_vad
翻訳日:2023-09-28 19:50:02 公開日:2023-09-27
# 仮想量子エラー検出

Virtual quantum error detection ( http://arxiv.org/abs/2302.02626v4 )

ライセンス: Link先を確認
Kento Tsubouchi, Yasunari Suzuki, Yuuki Tokunaga, Nobuyuki Yoshioka, Suguru Endo(参考訳) 量子誤差補正と量子誤差検出は、エラーを検出するために症候群の測定を必要とする。 各安定化器発電機のシンドローム測定は、現在の量子ハードウェアにおける読み出し忠実度が一般的にゲート忠実度よりも低いという事実を考慮すると、大きなオーバーヘッドとなる。 本稿では,対称性拡張と呼ばれる量子エラー緩和手法を一般化することにより,仮想量子エラー検出(VQED)と呼ばれるプロトコルを提案する。 この方法では、回路実行中の量子誤差検出により得られた後選択量子状態に対応する計算結果を、シンドローム測定を実装せずに、事実上評価することができる。 安定化器発生器毎のアダマール試験回路の実装を必要とする従来の量子誤り検出とは異なり、我々のVQEDプロトコルは、安定化器発生器の数に関係なく、アンシラ量子ビットを持つ一定の深さの浅い量子回路で実行することができる。 さらに,vqedを用いて得られた計算結果は,vqedの動作中に発生する雑音に対して頑健であり,本手法は他の誤差軽減手法と完全互換であり,計算精度のさらなる向上と高忠実性量子計算の容易化を可能にする。

Quantum error correction and quantum error detection necessitate syndrome measurements to detect errors. Performing syndrome measurements for each stabilizer generator can be a significant overhead, considering the fact that the readout fidelity in the current quantum hardware is generally lower than gate fidelity. Here, by generalizing a quantum error mitigation method known as symmetry expansion, we propose a protocol called virtual quantum error detection (VQED). This method virtually allows for evaluating computation results corresponding to post-selected quantum states obtained through quantum error detection during circuit execution, without implementing syndrome measurements. Unlike conventional quantum error detection, which requires the implementation of Hadamard test circuits for each stabilizer generator, our VQED protocol can be performed with a constant depth shallow quantum circuit with an ancilla qubit, irrespective of the number of stabilizer generators. Furthermore, for some simple error models, the computation results obtained using VQED are robust against the noise that occurred during the operation of VQED, and our method is fully compatible with other error mitigation schemes, enabling further improvements in computation accuracy and facilitating high-fidelity quantum computing.
翻訳日:2023-09-28 19:49:35 公開日:2023-09-27
# 蒸留政策最適化

Distillation Policy Optimization ( http://arxiv.org/abs/2302.00533v5 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) オンポリシーアルゴリズムはその安定性で知られているが、かなりの数のサンプルを必要とすることが多い。 対照的に、過去の経験を生かしたオフポリシーアルゴリズムはサンプル効率が高いが不安定である傾向がある。 安定した学習を維持しつつ、非政治データの利点を生かしたアルゴリズムを開発できるだろうか? 本稿では,評価と制御の両方のために2つのデータソースを調和させ,迅速な学習とオンポリシーアルゴリズムとの適応可能な統合を促進するアクタ-クリティック学習フレームワークを提案する。 このフレームワークには、統一的優位推定器(UAE)と残留ベースラインを含む分散低減機構が組み込まれ、オン・アンド・オフ・政治学習の有効性が向上する。 我々の実験結果は,オンポリシーアルゴリズムのサンプル効率の大幅な向上を示し,オフポリシーアプローチとのギャップを効果的に橋渡しした。 これは、新しい学習パラダイムとしての私たちのアプローチの約束を示しています。

While on-policy algorithms are known for their stability, they often demand a substantial number of samples. In contrast, off-policy algorithms, which leverage past experiences, are considered sample-efficient but tend to exhibit instability. Can we develop an algorithm that harnesses the benefits of off-policy data while maintaining stable learning? In this paper, we introduce an actor-critic learning framework that harmonizes two data sources for both evaluation and control, facilitating rapid learning and adaptable integration with on-policy algorithms. This framework incorporates variance reduction mechanisms, including a unified advantage estimator (UAE) and a residual baseline, improving the efficacy of both on- and off-policy learning. Our empirical results showcase substantial enhancements in sample efficiency for on-policy algorithms, effectively bridging the gap to the off-policy approaches. It demonstrates the promise of our approach as a novel learning paradigm.
翻訳日:2023-09-28 19:49:00 公開日:2023-09-27
# 分散量子不整合

Distributed quantum incompatibility ( http://arxiv.org/abs/2301.08670v2 )

ライセンス: Link先を確認
Lucas Tendick, Hermann Kampermann, Dagmar Bru{\ss}(参考訳) 非整合性、すなわち非整合測定可能な量子測定は多くの情報処理タスクに必要なリソースである。 異なる測定数の増大は、通常、測定スキームの不適合性を高めることが知られている。 しかし、この拡張がどの程度大きく、どの程度依存しているかは一般には分かっていない。 ここでは、付加的な測定によって得られる不整合性は、利用可能な測定のサブセットの不整合性の特定の関数によって上下に制限されていることを示す。 我々は、相互に偏りのない基底に基づく明示的な例を提供することにより、境界のいくつかを厳密に証明する。 最後に,ベル実験で測定値数を増やすことで得られる非局所性に対する結果の結果について考察する。

Incompatible, i.e. non-jointly measurable quantum measurements are a necessary resource for many information processing tasks. It is known that increasing the number of distinct measurements usually enhances the incompatibility of a measurement scheme. However, it is generally unclear how large this enhancement is and on what it depends. Here, we show that the incompatibility which is gained via additional measurements is upper and lower bounded by certain functions of the incompatibility of subsets of the available measurements. We prove the tightness of some of our bounds by providing explicit examples based on mutually unbiased bases. Finally, we discuss the consequences of our results for the nonlocality that can be gained by enlarging the number of measurements in a Bell experiment.
翻訳日:2023-09-28 19:48:44 公開日:2023-09-27
# Sigmoid Loss for Language Image Pre-Training (英語)

Sigmoid Loss for Language Image Pre-Training ( http://arxiv.org/abs/2303.15343v4 )

ライセンス: Link先を確認
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer(参考訳) 言語画像事前学習(siglip)のための簡易なペアワイズsgmoid損失を提案する。 ソフトマックス正規化を伴う標準的なコントラスト学習とは異なり、シグモイド損失は画像とテキストのペアのみにのみ依存し、正規化にペアの類似点のグローバルなビューを必要としない。 Sigmoidの損失により、バッチサイズをさらにスケールアップできると同時に、より小さなバッチサイズでもパフォーマンスが向上する。 Locked-image Tuningと4つのTPUv4チップの組み合わせで、84.5%のImageNetゼロショット精度を2日間で達成するSigLiTモデルを訓練する。 損失からのバッチサイズの不連続は、サンプル対対および正の比率に対する負の影響をさらに研究できる。 最後に、バッチサイズを最大100万まで極端にプッシュし、バッチサイズの増大によるメリットが急速に減少し、より合理的なバッチサイズである32kが十分であることが分かりました。 我々は、我々のモデルをhttps://github.com/google-research/big_visionでリリースする。

We propose a simple pairwise Sigmoid loss for Language-Image Pre-training (SigLIP). Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. Combined with Locked-image Tuning, with only four TPUv4 chips, we train a SigLiT model that achieves 84.5% ImageNet zero-shot accuracy in two days. The disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We release our models at https://github.com/google-research/big_vision and hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training.
翻訳日:2023-09-28 19:43:02 公開日:2023-09-27
# Fantasia3D:高品質なテキストから3Dコンテンツ作成のための幾何学と外観

Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation ( http://arxiv.org/abs/2303.13873v3 )

ライセンス: Link先を確認
Rui Chen, Yongwei Chen, Ningxin Jiao, Kui Jia(参考訳) 3Dコンテンツの自動作成は、事前訓練された大規模言語モデルと画像拡散モデルが利用可能であることから、近年急速に進歩している。 既存のtext-to-3dメソッドでは、ボリュームレンダリングによる幾何学と外観を結合した暗黙的なシーン表現が一般的であり、より細かいジオメトリの復元とフォトリアリスティックなレンダリングの面では最適ではない。 本稿では,高品質テキストから3dコンテンツ作成のためのfantasia3dの新しい手法を提案する。 fantasia3dの鍵は、幾何学と外観の疎結合なモデリングと学習である。 幾何学学習では,ハイブリッドなシーン表現に依拠し,画像拡散モデルの入力として表現から抽出した面正規化を符号化する。 本研究では,空間的に変化する双方向反射率分布関数 (brdf) をtext-to-3dタスクに導入し, 生成面の光リアリスティックレンダリングのための表面材料を学習する。 当社のdisentangledフレームワークは、一般的なグラフィックエンジンと互換性があり、生成された3dアセットのリライト、編集、物理シミュレーションをサポートしています。 異なるテキストから3dのタスク設定下で既存の方法よりも優れた方法を示す徹底的な実験を行う。 プロジェクトページとソースコード: https://fantasia3d.github.io/

Automatic 3D content creation has achieved rapid progress recently due to the availability of pre-trained, large language models and image diffusion models, forming the emerging topic of text-to-3D content creation. Existing text-to-3D methods commonly use implicit scene representations, which couple the geometry and appearance via volume rendering and are suboptimal in terms of recovering finer geometries and achieving photorealistic rendering; consequently, they are less effective for generating high-quality 3D assets. In this work, we propose a new method of Fantasia3D for high-quality text-to-3D content creation. Key to Fantasia3D is the disentangled modeling and learning of geometry and appearance. For geometry learning, we rely on a hybrid scene representation, and propose to encode surface normal extracted from the representation as the input of the image diffusion model. For appearance modeling, we introduce the spatially varying bidirectional reflectance distribution function (BRDF) into the text-to-3D task, and learn the surface material for photorealistic rendering of the generated surface. Our disentangled framework is more compatible with popular graphics engines, supporting relighting, editing, and physical simulation of the generated 3D assets. We conduct thorough experiments that show the advantages of our method over existing ones under different text-to-3D task settings. Project page and source codes: https://fantasia3d.github.io/.
翻訳日:2023-09-28 19:42:38 公開日:2023-09-27
# ドメイン固有音声認識のためのディープラーニングシステム

A Deep Learning System for Domain-specific Speech Recognition ( http://arxiv.org/abs/2303.10510v2 )

ライセンス: Link先を確認
Yanan Jia(参考訳) 人間の機械による音声インタフェースは、よりインテリジェントなマシンに容易にアクセスできるため、最先端の音声認識システム(ASR)が多数提案されている。 しかし、商用asrシステムは通常、特に低リソース環境において、ドメイン固有発話の性能が低下する。 筆者は,事前学習したdeepspeech2とwav2vec2音響モデルを用いて,特有なasrシステムの開発を行っている。 ドメイン固有データは、人間の介入が少ない半教師付き学習アノテーションを用いて収集される。 最高のパフォーマンスは、GoogleとAWSのASRシステムに勝る、外部KenLMを備えた微調整されたWav2Vec2-Large-LV60音響モデルから得られる。 また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。 便益特化自然言語理解(nlu)タスクの結果、ドメイン特化asrシステムは、その転写が単語誤り率(wer)が高い場合でも商用asrシステムよりも優れており、また、微調整asrと人間の転写との間には類似していることが示された。

As human-machine voice interfaces provide easy access to increasingly intelligent machines, many state-of-the-art automatic speech recognition (ASR) systems are proposed. However, commercial ASR systems usually have poor performance on domain-specific speech especially under low-resource settings. The author works with pre-trained DeepSpeech2 and Wav2Vec2 acoustic models to develop benefit-specific ASR systems. The domain-specific data are collected using proposed semi-supervised learning annotation with little human intervention. The best performance comes from a fine-tuned Wav2Vec2-Large-LV60 acoustic model with an external KenLM, which surpasses the Google and AWS ASR systems on benefit-specific speech. The viability of using error prone ASR transcriptions as part of spoken language understanding (SLU) is also investigated. Results of a benefit-specific natural language understanding (NLU) task show that the domain-specific fine-tuned ASR system can outperform the commercial ASR systems even when its transcriptions have higher word error rate (WER), and the results between fine-tuned ASR and human transcriptions are similar.
翻訳日:2023-09-28 19:41:52 公開日:2023-09-27
# 限界学習は十分だ!

Learning marginals suffices! ( http://arxiv.org/abs/2303.08938v2 )

ライセンス: Link先を確認
Nengkun Yu, Tzu-Chieh Wei(参考訳) 量子複雑性理論は計算機科学以外にも、量子多体系から量子場理論まで、物理学の複数の分野に革命をもたらす可能性がある。 本稿では,量子状態の学習におけるサンプル複雑度と状態の回路複雑度との関係について検討する。 量子状態の回路複雑性は、それを実装するのに必要な量子回路の最小深さを指す。 その結果,回路複雑性の低い量子状態の限界値の学習は状態トモグラフィに十分であり,量子状態トモグラフィのサンプル複雑性の指数的障壁を破ることを示した。 この証明は初等的であり、ガッピング局所ハミルトニアンの量子回路の複雑さと基底状態とを橋渡しすることで、短距離の絡み合いを特徴づける困難を克服する。 私たちの結果は、例えば、マルチキュービットGHZ状態の量子回路の複雑さを正確に解決する。

Beyond computer science, quantum complexity theory can potentially revolutionize multiple branches of physics, ranging from quantum many-body systems to quantum field theory. In this paper, we investigate the relationship between the sample complexity of learning a quantum state and the circuit complexity of the state. The circuit complexity of a quantum state refers to the minimum depth of the quantum circuit necessary to implement it. We show that learning its marginals for the quantum state with low circuit complexity suffices for state tomography, thus breaking the exponential barrier of the sample complexity for quantum state tomography. Our proof is elementary and overcomes difficulties characterizing short-range entanglement by bridging quantum circuit complexity and ground states of gapped local Hamiltonians. Our result, for example, settles the quantum circuit complexity of the multi-qubit GHZ state exactly.
翻訳日:2023-09-28 19:41:30 公開日:2023-09-27
# SpiderMesh: RGB-Tセマンティックセグメンテーションのための空間対応需要誘導型再帰型メッシュ

SpiderMesh: Spatial-aware Demand-guided Recursive Meshing for RGB-T Semantic Segmentation ( http://arxiv.org/abs/2303.08692v2 )

ライセンス: Link先を確認
Siqi Fan, Zhe Wang, Yan Wang, Jingjing Liu(参考訳) 都市景観理解におけるセマンティックセグメンテーションでは、RGBカメラだけでは、困難な照明条件において明確な全体的トポロジを捉えることができないことが多い。 サーマル信号は、低画質のRGB画像において、ぼやけた領域の輪郭ときめ細かなテクスチャを照らすための情報付加チャネルである。 実用的なrgb-t(thermal)セグメンテーションを目指して,空間認識型需要誘導再帰的メッシュ(spidermesh)フレームワークを体系的に提案する。 1) 需要誘導対象マスキングアルゴリズムにより,光学的障害領域における不適切な文脈意味を積極的に補償する。 2)マルチモーダルなセマンティクス機能を再帰的メッシュで洗練し,ピクセルレベルのセマンティクス解析性能を向上させる。 さらに,非対称データ拡張手法であるm-cutoutを導入することで,半教師付き学習でrgb-tラベルを十分に活用できる。 MFNetとPST900データセットの大規模な実験により、SpiderMeshは標準的なRGB-Tセグメンテーションベンチマークで最先端のパフォーマンスを達成した。

For semantic segmentation in urban scene understanding, RGB cameras alone often fail to capture a clear holistic topology in challenging lighting conditions. Thermal signal is an informative additional channel that can bring to light the contour and fine-grained texture of blurred regions in low-quality RGB image. Aiming at practical RGB-T (thermal) segmentation, we systematically propose a Spatial-aware Demand-guided Recursive Meshing (SpiderMesh) framework that: 1) proactively compensates inadequate contextual semantics in optically-impaired regions via a demand-guided target masking algorithm; 2) refines multimodal semantic features with recursive meshing to improve pixel-level semantic analysis performance. We further introduce an asymmetric data augmentation technique M-CutOut, and enable semi-supervised learning to fully utilize RGB-T labels only sparsely available in practical use. Extensive experiments on MFNet and PST900 datasets demonstrate that SpiderMesh achieves state-of-the-art performance on standard RGB-T segmentation benchmarks.
翻訳日:2023-09-28 19:41:16 公開日:2023-09-27
# 深層モデルに基づく強化学習における局所的環境変化に対応するローカルフォッティングを用いたリプレイバッファ

Replay Buffer with Local Forgetting for Adapting to Local Environment Changes in Deep Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.08690v2 )

ライセンス: Link先を確認
Ali Rahimi-Kalahroudi, Janarthanan Rajendran, Ida Momennejad, Harm van Seijen, Sarath Chandar(参考訳) 神経科学において、研究対象(歯列動物や人間など)を決定するために用いられる重要な行動特性の1つは、モデルに基づく学習が、この研究の焦点である特定の適応性の形態である環境の局所的な変化に効果的に適応していることを示している。 しかし,近年の強化学習において,現代の深層モデルに基づく強化学習(MBRL)手法は局所的な環境変化に不適応であることが示されている。 このミスマッチの1つの説明として、MBRL法は典型的には1つのタスクを念頭においてサンプル効率で設計され、学習の世界モデルと計画ルーチンの両方の観点から、効果的適応の要件は著しく高い。 特に難しい要件の1つは、学習された世界モデルは、状態空間の関連部分を通して十分に正確でなければならないことである。 これは、破滅的な忘れによるディープラーニングベースの世界モデルにとって難しいことです。 リプレイバッファは破滅的なリプレーングの影響を緩和するが、従来のファーストインファーストリプレイバッファは、古いデータを維持するために効果的な適応を阻害する。 そこで本研究では,従来のリプレイバッファの単純な変更により,この制限を克服できることを示す。 新たに観測されたサンプルの局所的な近傍からバッファからのみを除去することにより、状態空間全体の精度を維持するとともに、報酬関数の局所的な変化に効果的に適応できるディープワールドモデルを構築することができる。 従来のDyna手法の深部バージョンや,PlaNetやDreamerV2といった最近の手法に,我々のリプレイバッファ変動を適用して,深部モデルに基づく手法が環境の局所的な変化に効果的に適応できることを実証した。

One of the key behavioral characteristics used in neuroscience to determine whether the subject of study -- be it a rodent or a human -- exhibits model-based learning is effective adaptation to local changes in the environment, a particular form of adaptivity that is the focus of this work. In reinforcement learning, however, recent work has shown that modern deep model-based reinforcement-learning (MBRL) methods adapt poorly to local environment changes. An explanation for this mismatch is that MBRL methods are typically designed with sample-efficiency on a single task in mind and the requirements for effective adaptation are substantially higher, both in terms of the learned world model and the planning routine. One particularly challenging requirement is that the learned world model has to be sufficiently accurate throughout relevant parts of the state-space. This is challenging for deep-learning-based world models due to catastrophic forgetting. And while a replay buffer can mitigate the effects of catastrophic forgetting, the traditional first-in-first-out replay buffer precludes effective adaptation due to maintaining stale data. In this work, we show that a conceptually simple variation of this traditional replay buffer is able to overcome this limitation. By removing only samples from the buffer from the local neighbourhood of the newly observed samples, deep world models can be built that maintain their accuracy across the state-space, while also being able to effectively adapt to local changes in the reward function. We demonstrate this by applying our replay-buffer variation to a deep version of the classical Dyna method, as well as to recent methods such as PlaNet and DreamerV2, demonstrating that deep model-based methods can adapt effectively as well to local changes in the environment.
翻訳日:2023-09-28 19:40:54 公開日:2023-09-27
# オフポリティ学習のための不確実性認識型インスタンス再重み付け

Uncertainty-Aware Instance Reweighting for Off-Policy Learning ( http://arxiv.org/abs/2303.06389v2 )

ライセンス: Link先を確認
Xiaoying Zhang, Junpu Chen, Hongning Wang, Hong Xie, Yang Liu, John C.S. Lui, Hang Li(参考訳) オフライン学習は、ログ化されたフィードバックデータにのみアクセス可能なポリシー最適化の手順を参照し、検索エンジンやレコメンダシステムなど、さまざまな現実世界のアプリケーションにおいて重要であることを示す。 ログデータを生成する接地検層法は通常不明であるが、従来の研究は単に非政治学習において推定値を取るだけで、特に小さく不正確な推定検層確率を持つ試料において、そのような推定値から生じる高いバイアスと高いばらつきの両方を無視している。 そこで本研究では,推定ロギング政策の不確実性を明示的にモデル化し,不確実性を考慮した逆傾向スコア推定器(uips)を提案する。 人工的および実世界の3つの推奨データセットの実験結果から,提案したUIPS推定器の有効サンプル効率を,最先端のベースラインの広範なリストと比較した。

Off-policy learning, referring to the procedure of policy optimization with access only to logged feedback data, has shown importance in various real-world applications, such as search engines, recommender systems, and etc. While the ground-truth logging policy, which generates the logged data, is usually unknown, previous work simply takes its estimated value in off-policy learning, ignoring both high bias and high variance resulted from such an estimator, especially on samples with small and inaccurately estimated logging probabilities. In this work, we explicitly model the uncertainty in the estimated logging policy and propose a Uncertainty-aware Inverse Propensity Score estimator (UIPS) for improved off-policy learning, with a theoretical convergence guarantee. Experiment results on synthetic and three real-world recommendation datasets demonstrate the advantageous sample efficiency of the proposed UIPS estimator against an extensive list of state-of-the-art baselines.
翻訳日:2023-09-28 19:40:21 公開日:2023-09-27
# 雑音量子コンピュータにおける量子信号処理の実現

Realization of quantum signal processing on a noisy quantum computer ( http://arxiv.org/abs/2303.05533v3 )

ライセンス: Link先を確認
Yuta Kikuchi, Conor Mc Keever, Luuk Coopmans, Michael Lubasch, Marcello Benedetti(参考訳) 量子信号処理(QSP)は、量子アルゴリズムの設計のための強力なツールボックスであり、漸近的に最適な計算コストをもたらす。 しかし、フォールトトレランスのないノイズの多い量子コンピュータでは、一般に深い量子回路を必要とするため、実現は困難である。 我々は,各ステップのオーバーヘッドコストを慎重に削減し,ノイズ量子ハードウェア上でqspプロトコル全体を動作させる戦略を提案する。 このアプローチを説明するために、qspが時間発展作用素の多項式近似を実装したハミルトニアンシミュレーションの適用を考える。 ハネウェルを動力とする量子量子コンピュータ h1-1 上でアルゴリズムを実行することでプロトコルをテストする。 特に、イジングスピン鎖に対する二部交絡エントロピーの時間依存性を計算し、正確な数値シミュレーションとよく一致している。 デバイスを最大限に活用するために,ハードウェアの簡易誤差モデルを用いて最適実験パラメータを決定するとともに,ハミルトンシミュレーション時間,多項式次数,全精度のトレードオフを数値的に検討する。 この結果はQSPに基づく量子アルゴリズムの実験的な実現の第一歩である。

Quantum signal processing (QSP) is a powerful toolbox for the design of quantum algorithms and can lead to asymptotically optimal computational costs. Its realization on noisy quantum computers without fault tolerance, however, is challenging because it requires a deep quantum circuit in general. We propose a strategy to run an entire QSP protocol on noisy quantum hardware by carefully reducing overhead costs at each step. To illustrate the approach, we consider the application of Hamiltonian simulation for which QSP implements a polynomial approximation of the time evolution operator. We test the protocol by running the algorithm on the Quantinuum H1-1 trapped-ion quantum computer powered by Honeywell. In particular, we compute the time dependence of bipartite entanglement entropies for Ising spin chains and find good agreements with exact numerical simulations. To make the best use of the device, we determine optimal experimental parameters by using a simplified error model for the hardware and numerically studying the trade-off between Hamiltonian simulation time, polynomial degree, and total accuracy. Our results are the first step in the experimental realization of QSP-based quantum algorithms.
翻訳日:2023-09-28 19:40:01 公開日:2023-09-27
# 逐次・低レイテンシ・イベントベース光フロー学習のための処理コントラスト最大化

Taming Contrast Maximization for Learning Sequential, Low-latency, Event-based Optical Flow ( http://arxiv.org/abs/2303.05214v2 )

ライセンス: Link先を確認
Federico Paredes-Vall\'es, Kirk Y. W. Scheper, Christophe De Wagter, Guido C. H. E. de Croon(参考訳) イベントカメラは最近、複雑なコンピュータビジョン問題に対する低レイテンシと低消費電力のソリューションの新たな道を開くことで、大きな注目を集めている。 これらのソリューションをアンロックするには、イベントデータのユニークな性質を活用できるアルゴリズムを開発する必要がある。 しかし、現在の最先端技術は依然としてフレームベースの文学の影響を受けており、通常はこれらの約束を達成できない。 本研究では,このことを考慮し,モデルから高い推論周波数へのスケーリングを可能にするイベントベース光フローの逐次推定のための,新しい自己教師付き学習パイプラインを提案する。 その中核は、コントラスト最大化の新たな定式化を用いて訓練され、入力イベントにおける非線形性と様々な統計に頑健である、連続的に動作するステートフルニューラルネットワークである。 複数のデータセットにまたがる結果から,本手法の有効性が確認された。

Event cameras have recently gained significant traction since they open up new avenues for low-latency and low-power solutions to complex computer vision problems. To unlock these solutions, it is necessary to develop algorithms that can leverage the unique nature of event data. However, the current state-of-the-art is still highly influenced by the frame-based literature, and usually fails to deliver on these promises. In this work, we take this into consideration and propose a novel self-supervised learning pipeline for the sequential estimation of event-based optical flow that allows for the scaling of the models to high inference frequencies. At its core, we have a continuously-running stateful neural model that is trained using a novel formulation of contrast maximization that makes it robust to nonlinearities and varying statistics in the input events. Results across multiple datasets confirm the effectiveness of our method, which establishes a new state of the art in terms of accuracy for approaches trained or optimized without ground truth.
翻訳日:2023-09-28 19:39:42 公開日:2023-09-27
# 意味のある因果凝集とパラドックス的共起

Meaningful Causal Aggregation and Paradoxical Confounding ( http://arxiv.org/abs/2304.11625v2 )

ライセンス: Link先を確認
Yuchen Zhu and Kailash Budhathoki and Jonas Kuebler and Dominik Janzing(参考訳) 集約変数では、同じマクロインターベンションの異なるマイクロリアライゼーションが下流マクロ変数の異なる変化をもたらすため、介入の影響は通常不確定である。 集合変数における因果関係の非定義性は, 根拠のない因果関係を共起関係に変換し, 逆もまた, それぞれのマイクロ実現に依存することを示した。 この不明確な状況から解放された場合、集約因果システムのみを使用することは事実上不可能であると主張する。 代わりに、マクロ因果関係は通常、ミクロ状態を参照してのみ定義されることを受け入れる必要がある。 正の面では、マクロ介入が観察分布と同じミクロ状態の分布であるような場合に原因-効果関係を集約できることを示し、この観測の一般化についても論じる。

In aggregated variables the impact of interventions is typically ill-defined because different micro-realizations of the same macro-intervention can result in different changes of downstream macro-variables. We show that this ill-definedness of causality on aggregated variables can turn unconfounded causal relations into confounded ones and vice versa, depending on the respective micro-realization. We argue that it is practically infeasible to only use aggregated causal systems when we are free from this ill-definedness. Instead, we need to accept that macro causal relations are typically defined only with reference to the micro states. On the positive side, we show that cause-effect relations can be aggregated when the macro interventions are such that the distribution of micro states is the same as in the observational distribution and also discuss generalizations of this observation.
翻訳日:2023-09-28 19:30:41 公開日:2023-09-27
# LLM+P: 最適計画精度で大規模言語モデルを構築する

LLM+P: Empowering Large Language Models with Optimal Planning Proficiency ( http://arxiv.org/abs/2304.11477v3 )

ライセンス: Link先を確認
Bo Liu and Yuqian Jiang and Xiaohan Zhang and Qiang Liu and Shiqi Zhang and Joydeep Biswas and Peter Stone(参考訳) 最先端のチャットボットは、日常生活で起こる多くの一般的な質問に対して、妥当な答えを提供することができます。 しかし、今のところLLMは長期計画問題を確実に解決できない。 対照的に、古典的なプランナーは、問題が形式化された方法で与えられると、効率的な検索アルゴリズムを使用して、正しい、あるいは最適なプランを素早く識別することができる。 本稿では,従来のプランナの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。 LLM+Pは計画問題の自然言語記述を受け取り、その問題を自然言語で解くための正しい(あるいは最適な)計画を返す。 LLM+Pは、まず、言語記述を計画ドメイン定義言語(PDDL)で記述されたファイルに変換し、次に古典的なプランナーを活用して解決策を素早く見つけ、発見されたソリューションを自然言語に翻訳する。 LLM+Pとともに、一般的な計画シナリオから得られる様々なベンチマーク問題を定義する。 これらのベンチマーク問題を総合的に検討した結果, LLM+P はほとんどの問題に対して最適解を提供することができる一方で, LLM はほとんどの問題に対して可能な計画も提供できないことがわかった。 コードと結果はhttps://github.com/Cranial-XIX/llm-pddl.gitで公開されている。

Large language models (LLMs) have demonstrated remarkable zero-shot generalization abilities: state-of-the-art chatbots can provide plausible answers to many common questions that arise in daily life. However, so far, LLMs cannot reliably solve long-horizon planning problems. By contrast, classical planners, once a problem is given in a formatted way, can use efficient search algorithms to quickly identify correct, or even optimal, plans. In an effort to get the best of both worlds, this paper introduces LLM+P, the first framework that incorporates the strengths of classical planners into LLMs. LLM+P takes in a natural language description of a planning problem, then returns a correct (or optimal) plan for solving that problem in natural language. LLM+P does so by first converting the language description into a file written in the planning domain definition language (PDDL), then leveraging classical planners to quickly find a solution, and then translating the found solution back into natural language. Along with LLM+P, we define a diverse set of different benchmark problems taken from common planning scenarios. Via a comprehensive set of experiments on these benchmark problems, we find that LLM+P is able to provide optimal solutions for most problems, while LLMs fail to provide even feasible plans for most problems.\footnote{The code and results are publicly available at https://github.com/Cranial-XIX/llm-pddl.git.
翻訳日:2023-09-28 19:30:28 公開日:2023-09-27
# Cayley変換による楕円体フィッティング

Ellipsoid fitting with the Cayley transform ( http://arxiv.org/abs/2304.10630v2 )

ライセンス: Link先を確認
Omar Melikechi, David B. Dunson(参考訳) 本稿では,任意の次元の楕円体をノイズデータに適合させるアルゴリズムである,Cayley transform ellipsoid fit (CTEF)を紹介する。 多くの楕円体フィッティング法とは異なり、CTEFは楕円体特異的であり、常に楕円体溶液を返し、任意の楕円体に収まる。 また、データが楕円体の表面上に均一に分布しない場合、他の適合法を大幅に上回る。 機械学習における解釈可能・再現可能な手法の要求の増加にインスパイアされたCTEFは、細胞周期や概日リズムデータ、そしていくつかの古典的な玩具の例において、次元の縮小、データの可視化、クラスタリングに応用される。 CTEFはグローバルな曲率をキャプチャするため、他の機械学習手法では識別できないデータの非線形特徴を抽出する。 例えば、クラスタリングの例では、CTEFは10のアルゴリズムより優れています。

We introduce Cayley transform ellipsoid fitting (CTEF), an algorithm that uses the Cayley transform to fit ellipsoids to noisy data in any dimension. Unlike many ellipsoid fitting methods, CTEF is ellipsoid specific, meaning it always returns elliptic solutions, and can fit arbitrary ellipsoids. It also significantly outperforms other fitting methods when data are not uniformly distributed over the surface of an ellipsoid. Inspired by growing calls for interpretable and reproducible methods in machine learning, we apply CTEF to dimension reduction, data visualization, and clustering in the context of cell cycle and circadian rhythm data and several classical toy examples. Since CTEF captures global curvature, it extracts nonlinear features in data that other machine learning methods fail to identify. For example, on the clustering examples CTEF outperforms 10 popular algorithms.
翻訳日:2023-09-28 19:30:05 公開日:2023-09-27
# パッシブランジュバンダイナミクスを用いた適応逆強化学習のための有限サンプル境界

Finite-Sample Bounds for Adaptive Inverse Reinforcement Learning using Passive Langevin Dynamics ( http://arxiv.org/abs/2304.09123v2 )

ライセンス: Link先を確認
Luke Snow and Vikram Krishnamurthy(参考訳) 本稿では、適応的逆強化学習(IRL)を実現するために設計された受動確率勾配ランゲヴィン動的アルゴリズム(PSGLD)の有限サンプル解析を行う。 受動的に、PSGLDアルゴリズム(逆学習過程)に利用可能な雑音勾配を、コスト関数の最適化を目的とした外部確率勾配アルゴリズム(前方学習者)によってランダムに選択した点で評価する。 psgldアルゴリズムは、ランジュバン拡散の定常測度から非パラメトリックにこのコスト関数を再構成することで適応irlを達成するためにランダム化サンプリング器として機能する。 前回の研究では、弱収束法を用いてこのパッシブアルゴリズムの漸近的性能を分析した。 本稿では,対数-ソボレフの不等式とオットー-ヴィラニ理論を用いて,非漸近的(有限サンプル)性能を解析する。 psgldアルゴリズムによって生成された推定値とコスト関数の間の2-wasserstein距離の有限サンプル境界を求める。 適応IRLの有限サンプル保証の達成とは別に、この研究は受動確率勾配アルゴリズムの解析をランゲヴィン力学の有限サンプル規則に拡張する。

This paper provides a finite-sample analysis of a passive stochastic gradient Langevin dynamics algorithm (PSGLD) designed to achieve adaptive inverse reinforcement learning (IRL). By passive, we mean that the noisy gradients available to the PSGLD algorithm (inverse learning process) are evaluated at randomly chosen points by an external stochastic gradient algorithm (forward learner) that aims to optimize a cost function. The PSGLD algorithm acts as a randomized sampler to achieve adaptive IRL by reconstructing this cost function nonparametrically from the stationary measure of a Langevin diffusion. Previous work has analyzed the asymptotic performance of this passive algorithm using weak convergence techniques. This paper analyzes the non-asymptotic (finite-sample) performance using a logarithmic-Sobolev inequality and the Otto-Villani Theorem. We obtain finite-sample bounds on the 2-Wasserstein distance between the estimates generated by the PSGLD algorithm and the cost function. Apart from achieving finite-sample guarantees for adaptive IRL, this work extends a line of research in analysis of passive stochastic gradient algorithms to the finite-sample regime for Langevin dynamics.
翻訳日:2023-09-28 19:29:50 公開日:2023-09-27
# 脳波データを用いたアルツハイマー病の説明可能な診断のための適応的グラフ畳み込みネットワーク

Adaptive Gated Graph Convolutional Network for Explainable Diagnosis of Alzheimer's Disease using EEG Data ( http://arxiv.org/abs/2304.05874v3 )

ライセンス: Link先を確認
Dominik Klepl, Fei He, Min Wu, Daniel J. Blackburn, Ptolemaios G. Sarrigiannis(参考訳) グラフニューラルネットワーク(GNN)モデルは、脳波(EEG)データの分類にますます使われている。 しかし、GNNによるアルツハイマー病(AD)などの神経疾患の診断は、いまだに未発見の分野である。 従来の研究は、脳グラフ構造を推測するための機能的接続法に依存しており、ADの診断に単純なGNNアーキテクチャを使用している。 本研究では,新しい適応ゲート型グラフ畳み込みネットワーク(aggcn)を提案する。 AGGCNは、畳み込みに基づくノード特徴増強と相関に基づくパワースペクトル密度類似度の尺度を組み合わせることで、グラフ構造を適応的に学習する。 さらに、ゲートグラフ畳み込みは、様々な空間スケールの寄与を動的に評価することができる。 提案モデルは眼閉鎖状態と眼開放状態の両方において高い精度を実現し, 学習表現の安定性を示す。 最後に,提案するaggcnモデルが,脳ネットワークのad関連変化のさらなる研究に寄与するであろう予測の一貫した説明を生成することを実証する。

Graph neural network (GNN) models are increasingly being used for the classification of electroencephalography (EEG) data. However, GNN-based diagnosis of neurological disorders, such as Alzheimer's disease (AD), remains a relatively unexplored area of research. Previous studies have relied on functional connectivity methods to infer brain graph structures and used simple GNN architectures for the diagnosis of AD. In this work, we propose a novel adaptive gated graph convolutional network (AGGCN) that can provide explainable predictions. AGGCN adaptively learns graph structures by combining convolution-based node feature enhancement with a correlation-based measure of power spectral density similarity. Furthermore, the gated graph convolution can dynamically weigh the contribution of various spatial scales. The proposed model achieves high accuracy in both eyes-closed and eyes-open conditions, indicating the stability of learned representations. Finally, we demonstrate that the proposed AGGCN model generates consistent explanations of its predictions that might be relevant for further study of AD-related alterations of brain networks.
翻訳日:2023-09-28 19:29:31 公開日:2023-09-27
# GlueStick:ポイントとラインを貼り合わせてロバストな画像マッチング

GlueStick: Robust Image Matching by Sticking Points and Lines Together ( http://arxiv.org/abs/2304.02008v2 )

ライセンス: Link先を確認
R\'emi Pautrat, Iago Su\'arez, Yifan Yu, Marc Pollefeys, Viktor Larsson(参考訳) ラインセグメントは、ポイントを補完する強力な特徴である。 構造的な手がかりを提供し、劇的な視点と照明の変化に頑健であり、テクスチャのない地域でも見られる。 しかし、それらの記述とマッチングは、部分的な閉塞、テクスチャの欠如、反復性のために、ポイントよりも難しい。 本稿では,点,線,それらの記述子を単一のワイヤフレーム構造に統合する新しいマッチングパラダイムを提案する。 本稿では,異なる画像から2つのワイヤフレームを取り,ノード間の接続情報を活用するディープマッチンググラフニューラルネットワーク(gnn)であるgluestickを提案する。 ジョイントマッチングによってもたらされる効率の向上に加えて、これら2つの機能の相補的な性質を1つのアーキテクチャで活用することで、パフォーマンスが大幅に向上することを示す。 我々のマッチング戦略は、さまざまなデータセットやタスクのラインセグメントやポイントを独立にマッチングする最先端のアプローチよりも優れています。 コードはhttps://github.com/cvg/GlueStick.comで入手できる。

Line segments are powerful features complementary to points. They offer structural cues, robust to drastic viewpoint and illumination changes, and can be present even in texture-less areas. However, describing and matching them is more challenging compared to points due to partial occlusions, lack of texture, or repetitiveness. This paper introduces a new matching paradigm, where points, lines, and their descriptors are unified into a single wireframe structure. We propose GlueStick, a deep matching Graph Neural Network (GNN) that takes two wireframes from different images and leverages the connectivity information between nodes to better glue them together. In addition to the increased efficiency brought by the joint matching, we also demonstrate a large boost of performance when leveraging the complementary nature of these two features in a single architecture. We show that our matching strategy outperforms the state-of-the-art approaches independently matching line segments and points for a wide variety of datasets and tasks. The code is available at https://github.com/cvg/GlueStick.
翻訳日:2023-09-28 19:29:14 公開日:2023-09-27
# 微分可能なヒルベルト値パラメータのワンステップ推定

One-Step Estimation of Differentiable Hilbert-Valued Parameters ( http://arxiv.org/abs/2303.16711v3 )

ライセンス: Link先を確認
Alex Luedtke and Incheoul Chung(参考訳) 本稿では,滑らか性が経路的微分可能性条件によって特徴づけられる滑らかなヒルベルト値パラメータに対する推定子を提案する。 パラメータ空間が再生核ヒルベルト空間であるとき、効率的なルートnレート推定子と対応する信頼度集合を得る手段を提供する。 これらの推定器はヒルベルト値の効率的な影響関数に基づくクロスフィットワンステップ推定器の一般化に対応する。 機械学習技術に基づくものを含む,任意のニュアンス関数推定器を用いた場合においても理論的保証を与える。 これらの結果は、パラメータが効率的な影響関数を持つ限り、再生カーネルを持たないヒルベルト空間に自然に拡張されることを示す。 しかし、再生カーネルがない場合には、パスワイズ微分可能であっても、多くの興味深いパラメータが効率的な影響関数を持たないという不運な事実も明らかになった。 これらのケースに対処するために、正規化された一段階推定子と関連する信頼セットを提案する。 また、我々のアプローチの中心的な要件であるパスワイズ微分可能性が、多くの場合に成り立つことを示す。 具体的には、経路微分可能なパラメータの複数の例を示し、対応する推定器と信頼セットを開発する。 これらの例のうち4つは、因果推論コミュニティによる進行中の研究に特に関係しており、反事実密度関数、線量応答関数、条件平均処理効果関数、反事実カーネル平均埋め込みである。

We present estimators for smooth Hilbert-valued parameters, where smoothness is characterized by a pathwise differentiability condition. When the parameter space is a reproducing kernel Hilbert space, we provide a means to obtain efficient, root-n rate estimators and corresponding confidence sets. These estimators correspond to generalizations of cross-fitted one-step estimators based on Hilbert-valued efficient influence functions. We give theoretical guarantees even when arbitrary estimators of nuisance functions are used, including those based on machine learning techniques. We show that these results naturally extend to Hilbert spaces that lack a reproducing kernel, as long as the parameter has an efficient influence function. However, we also uncover the unfortunate fact that, when there is no reproducing kernel, many interesting parameters fail to have an efficient influence function, even though they are pathwise differentiable. To handle these cases, we propose a regularized one-step estimator and associated confidence sets. We also show that pathwise differentiability, which is a central requirement of our approach, holds in many cases. Specifically, we provide multiple examples of pathwise differentiable parameters and develop corresponding estimators and confidence sets. Among these examples, four are particularly relevant to ongoing research by the causal inference community: the counterfactual density function, dose-response function, conditional average treatment effect function, and counterfactual kernel mean embedding.
翻訳日:2023-09-28 19:28:56 公開日:2023-09-27
# TraffNet: ロードネットワークディジタル双生児のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for Road Network Digital Twins ( http://arxiv.org/abs/2303.15954v4 )

ライセンス: Link先を確認
Ming Xu, Yunyi Ma, Ruimin Li, Geqi Qi, Xiangfu Meng, Haibo Jin(参考訳) 道路ネットワークデジタルツイン(RNDT)は、次世代のインテリジェント交通システムの開発において重要な役割を担い、より正確な交通計画と制御を可能にしている。 ジャスト・イン・タイム(JIT)意思決定をサポートするため、RNDTはオンラインセンサデータからトラフィックパターンを動的に学習し、高忠実度シミュレーション結果を生成するモデルを必要とする。 グラフニューラルネットワークに基づく現在の交通予測技術は、最先端の性能を達成したが、これらの手法は、交通需要や経路選択といった交通発生の原因を無視して、過去の交通データのマイニング相関によって、将来の交通を予測するだけである。 したがって、そのパフォーマンスはJITの判断には信頼できない。 このギャップを埋めるために,交通量の因果関係を車両軌道データから学習するTraffNetという新しいディープラーニングフレームワークを導入する。 まず,ヘテロジニアスグラフを用いて道路網を表現し,モデルが交通量の因果的特徴を取り入れられるようにした。 次に、交通分野の知識を活かした交通因果学習手法を提案し、各道路区間の走行要求と経路レベルの依存性を符号化した埋め込みベクトルを学習する。 そして、トラフィック生成の基盤となるプロセスに適合するように、時間的依存関係をモデル化する。 最後に、実験はTraffNetの有効性を検証する。 traffnetのコードはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。

Road network digital twins (RNDTs) play a critical role in the development of next-generation intelligent transportation systems, enabling more precise traffic planning and control. To support just-in-time (JIT) decision making, RNDTs require a model that dynamically learns the traffic patterns from online sensor data and generates high-fidelity simulation results. Although current traffic prediction techniques based on graph neural networks have achieved state-of-the-art performance, these techniques only predict future traffic by mining correlations in historical traffic data, disregarding the causes of traffic generation, such as traffic demands and route selection. Therefore, their performance is unreliable for JIT decision making. To fill this gap, we introduce a novel deep learning framework called TraffNet that learns the causality of traffic volumes from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic volumes. Next, motivated by the traffic domain knowledge, we propose a traffic causality learning method to learn an embedding vector that encodes travel demands and path-level dependencies for each road segment. Then, we model temporal dependencies to match the underlying process of traffic generation. Finally, the experiments verify the utility of TraffNet. The code of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git.
翻訳日:2023-09-28 19:28:34 公開日:2023-09-27
# autotamp: llmを翻訳者とチェッカーとして用いた自動回帰タスクとモーションプランニング

AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers ( http://arxiv.org/abs/2306.06531v2 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Charles Dawson, Yang Zhang, Nicholas Roy, Chuchu Fan(参考訳) 人間とロボットの効果的なインタラクションには、自然言語で記述された複雑な長期タスクを理解し、計画し、実行する必要がある。 大規模言語モデル(LLM)の最近の進歩は、複雑なタスクのために自然言語をロボットアクションシーケンスに変換することを約束している。 しかし、既存のアプローチでは、自然言語を直接ロボットの軌跡に変換するか、言語をタスクサブゴールに分解し、各サブゴールを実行するためにモーションプランナーに依存することによって推論プロセスを決定する。 複雑な環境と時間的制約が伴う場合、従来のタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを用いた動作計画と協調して、計画上のタスクの推測を行う必要がある。 LLMを使ってタスクサブゴールを直接計画するのではなく、自然言語のタスク記述から中間タスク表現への数ショットの変換を行い、TAMPアルゴリズムによってタスクと動作プランを共同で解決する。 翻訳を改善するために,自動回帰的再プロンプトによる構文的誤りと意味的誤りの両方を自動的に検出し,訂正し,タスク補完を大幅に改善する。 提案手法は,複雑なタスク領域のプランナーとしてllmを用いた手法よりも優れていることを示す。 プロジェクトのWebサイト https://yongchao98.github.io/MIT-REALM-AutoTAMP/を参照してください。

For effective human-robot interaction, robots need to understand, plan, and execute complex, long-horizon tasks described by natural language. Recent advances in large language models (LLMs) have shown promise for translating natural language into robot action sequences for complex tasks. However, existing approaches either translate the natural language directly into robot trajectories or factor the inference process by decomposing language into task sub-goals and relying on a motion planner to execute each sub-goal. When complex environmental and temporal constraints are involved, inference over planning tasks must be performed jointly with motion plans using traditional task-and-motion planning (TAMP) algorithms, making factorization into subgoals untenable. Rather than using LLMs to directly plan task sub-goals, we instead perform few-shot translation from natural language task descriptions to an intermediate task representation that can then be consumed by a TAMP algorithm to jointly solve the task and motion plan. To improve translation, we automatically detect and correct both syntactic and semantic errors via autoregressive re-prompting, resulting in significant improvements in task completion. We show that our approach outperforms several methods using LLMs as planners in complex task domains. See our project website https://yongchao98.github.io/MIT-REALM-AutoTAMP/ for prompts, videos, and code.
翻訳日:2023-09-28 19:22:55 公開日:2023-09-27
# ゼロショット3次元形状対応

Zero-Shot 3D Shape Correspondence ( http://arxiv.org/abs/2306.03253v2 )

ライセンス: Link先を確認
Ahmed Abdelreheem, Abdelrahman Eldesokey, Maks Ovsjanikov, Peter Wonka(参考訳) 3次元形状間の対応を計算するための新しいゼロショット法を提案する。 既存のアプローチは主に等尺形と近等尺形(例えば、人間対人間)に焦点を当てているが、非等尺型とクラス間(例えば、人間対牛)の形状マッチングにはあまり注意が払われていない。 そこで本研究では,近年の言語と視覚における基礎モデルの例外的推論機能を利用して,難解な形状対応問題に対処する完全自動手法を提案する。 我々のアプローチは複数の段階からなる。 まず、描画された形状ビューを言語ビジョンモデル(例えばblip2)に供給することにより、ゼロショット方式で3d形状を分類し、形状ごとのクラス提案のリストを生成する。 これらの提案は、ChatGPTの推論機能を利用することで、フォームごとに単一のクラスに統合される。 第2に,2つの形状をゼロショット方式で分割しようとするが,共セグメンテーション問題とは対照的に,意味領域の相互集合は不要である。 そこで本研究では,ChatGPTのコンテキスト内学習機能を利用して,各形状のセマンティック領域とそれらの間のセマンティックマッピングを生成する。 これにより,強い非等尺性形状と幾何学的構造の違いを一致させることができる。 最後に, 生成した意味マッピングを用いて, 関数マップフレームワークによりさらに洗練され, 密接な点対点写像を生成できる粗い対応を生成する。 我々のアプローチは、単純さにもかかわらず、特に非等尺形状の強い間において、ゼロショット方式で非常に妥当な結果をもたらす。 プロジェクトWebページ: https://samir55.github.io/3dshapematch/。

We propose a novel zero-shot approach to computing correspondences between 3D shapes. Existing approaches mainly focus on isometric and near-isometric shape pairs (e.g., human vs. human), but less attention has been given to strongly non-isometric and inter-class shape matching (e.g., human vs. cow). To this end, we introduce a fully automatic method that exploits the exceptional reasoning capabilities of recent foundation models in language and vision to tackle difficult shape correspondence problems. Our approach comprises multiple stages. First, we classify the 3D shapes in a zero-shot manner by feeding rendered shape views to a language-vision model (e.g., BLIP2) to generate a list of class proposals per shape. These proposals are unified into a single class per shape by employing the reasoning capabilities of ChatGPT. Second, we attempt to segment the two shapes in a zero-shot manner, but in contrast to the co-segmentation problem, we do not require a mutual set of semantic regions. Instead, we propose to exploit the in-context learning capabilities of ChatGPT to generate two different sets of semantic regions for each shape and a semantic mapping between them. This enables our approach to match strongly non-isometric shapes with significant differences in geometric structure. Finally, we employ the generated semantic mapping to produce coarse correspondences that can further be refined by the functional maps framework to produce dense point-to-point maps. Our approach, despite its simplicity, produces highly plausible results in a zero-shot manner, especially between strongly non-isometric shapes. Project webpage: https://samir55.github.io/3dshapematch/.
翻訳日:2023-09-28 19:22:30 公開日:2023-09-27
# 外乱の有無によるロバストな経験的リスク最小化性能の漸近的評価

Asymptotic Characterisation of Robust Empirical Risk Minimisation Performance in the Presence of Outliers ( http://arxiv.org/abs/2305.18974v2 )

ライセンス: Link先を確認
Matteo Vilucchio, Emanuele Troiani, Vittorio Erba, Florent Krzakala(参考訳) 次元 $d$ とデータポイント数 $n$ の両方が固定比 $\alpha=n/d$ で分岐する場合、高次元におけるロバストな線形回帰を研究し、外れ値を含むデータモデルを調べる。 このような問題に対する標準的なアプローチである$\ell_2$-regularized $\ell_2$,$\ell_1$,およびHuber損失を用いて、経験的リスク最小化(ERM)の性能の正確な漸近を提供する。 性能の指標として,異常値を持つ類似データセットに対する一般化誤差と,元の未定関数の推定誤差の2つに注目した。 その結果,情報理論ベイズ最適推定値と比較した。 一般化誤差の場合、最適な正規化ermは、単純なキャリブレーションを行い、収束率を計算すると、大きなサンプル複雑性限界において漸近的に一致することが分かる。 しかし, 推定誤差は, 標準校正ミスマッチのため, 推定器の整合性には最適基準のオラクル推定が必要であること, あるいは, 異常値が不完全でないクロスバリデーションセットの存在が示される。 学習セットにおける損失関数と異常破壊の程度にパフォーマンスがどのように依存するかを詳細に検討し,フーバー損失の最適性能が$\ell_2$損失と同一であるパラメータの領域を特定し,異なる損失関数のユースケースに対する洞察を提供する。

We study robust linear regression in high-dimension, when both the dimension $d$ and the number of data points $n$ diverge with a fixed ratio $\alpha=n/d$, and study a data model that includes outliers. We provide exact asymptotics for the performances of the empirical risk minimisation (ERM) using $\ell_2$-regularised $\ell_2$, $\ell_1$, and Huber losses, which are the standard approach to such problems. We focus on two metrics for the performance: the generalisation error to similar datasets with outliers, and the estimation error of the original, unpolluted function. Our results are compared with the information theoretic Bayes-optimal estimation bound. For the generalization error, we find that optimally-regularised ERM is asymptotically consistent in the large sample complexity limit if one perform a simple calibration, and compute the rates of convergence. For the estimation error however, we show that due to a norm calibration mismatch, the consistency of the estimator requires an oracle estimate of the optimal norm, or the presence of a cross-validation set not corrupted by the outliers. We examine in detail how performance depends on the loss function and on the degree of outlier corruption in the training set and identify a region of parameters where the optimal performance of the Huber loss is identical to that of the $\ell_2$ loss, offering insights into the use cases of different loss functions.
翻訳日:2023-09-28 19:21:35 公開日:2023-09-27
# 水中ゴミの効率的な検出のための最適化カスタムデータセット

Optimized Custom Dataset for Efficient Detection of Underwater Trash ( http://arxiv.org/abs/2305.16460v3 )

ライセンス: Link先を確認
Jaskaran Singh Walia and Karthik Seemakurthy(参考訳) 水中廃棄物の正確な定量化と除去は海洋生物の保護と環境保全に重要な役割を果たす。 浮遊および表面の破片の検出は比較的単純であるが、水没した廃棄物の定量化は、光の屈折、吸収、懸濁粒子、色歪みなどの要因によって大きな課題が生じる。 本稿では,これらの課題に対して,カスタムデータセットの開発と,水中の海洋破片の効率的な検出手法を提案する。 データセットは多様な水中環境を含み、デブリのインスタンスの正確なラベル付けのためのアノテーションを含んでいる。 このカスタムデータセットの主な目的は、最先端のディープラーニングアーキテクチャを活用することで、リッターインスタンスの多様性を高め、深海環境における検出精度を向上させることである。

Accurately quantifying and removing submerged underwater waste plays a crucial role in safeguarding marine life and preserving the environment. While detecting floating and surface debris is relatively straightforward, quantifying submerged waste presents significant challenges due to factors like light refraction, absorption, suspended particles, and color distortion. This paper addresses these challenges by proposing the development of a custom dataset and an efficient detection approach for submerged marine debris. The dataset encompasses diverse underwater environments and incorporates annotations for precise labeling of debris instances. Ultimately, the primary objective of this custom dataset is to enhance the diversity of litter instances and improve their detection accuracy in deep submerged environments by leveraging state-of-the-art deep learning architectures.
翻訳日:2023-09-28 19:21:06 公開日:2023-09-27
# WinDB: HMDフリーで歪みのないパノラマビデオ固定学習

WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning ( http://arxiv.org/abs/2305.13901v3 )

ライセンス: Link先を確認
Guotao Wang, Chenglizhao Chen, Aimin Hao, Hong Qin, Deng-Ping Fan(参考訳) これまで、パンオプティカルビデオで固定コレクションを行う方法は、ユーザがhmdを装着しながら固定を収集し、所定のパンオプティカルシーンを自由に探索するヘッドマウントディスプレイ(hmd)に基づいている。 しかし、この広範に使用されているデータ収集手法は、間欠的な有意なイベントを含む場合、与えられたパノプティクス内のどの領域が最も重要であるかを正確に予測する深層モデルの訓練には不十分である。 主な理由は、ユーザーが常に頭を動かしてパン光学シーン全体を探索できないため、HMDを使用して修正を収集する際、常に「盲ズーム」が存在するからである。 その結果、収集された固定は一部のローカルビューに閉じ込められがちであり、残りの領域は「盲ズーム」である。 したがって、局所的なビューを蓄積するHMDベースの手法を用いて収集された固定データは、複雑なパノプティクスシーンの全体的重要性 - 固定の主目的 - を正確に表すことはできない。 本稿では,HMDを必要とせず,地域的重要性の度合いを十分に反映できる,動的ぼかし (WinDB) によるパン光学ビデオのための補助窓を提案する。 WinDBアプローチを使用して、225以上のカテゴリをカバーする300のパノプティクスクリップを含む、新しいPanopticVideo-300データセットをリリースしました。 具体的には、ウィンドブを使って固定を収集することはブラインドズームが不要であるため、新しいセットでは頻繁に集中的に"固定シフト"(fixation shifting)という非常に特殊な現象が存在します。 そこで本稿では、FishNet(FishNet)による効率的な固定シフトネットワークを提案する。 これらの新しい固定収集ツール、データセット、およびネットワークは、360o環境における固定関連研究とアプリケーションのための新しい時代を開く大きな可能性を秘めている。

To date, the widely adopted way to perform fixation collection in panoptic video is based on a head-mounted display (HMD), where users' fixations are collected while wearing an HMD to explore the given panoptic scene freely. However, this widely-used data collection method is insufficient for training deep models to accurately predict which regions in a given panoptic are most important when it contains intermittent salient events. The main reason is that there always exist "blind zooms" when using HMD to collect fixations since the users cannot keep spinning their heads to explore the entire panoptic scene all the time. Consequently, the collected fixations tend to be trapped in some local views, leaving the remaining areas to be the "blind zooms". Therefore, fixation data collected using HMD-based methods that accumulate local views cannot accurately represent the overall global importance - the main purpose of fixations - of complex panoptic scenes. To conquer, this paper introduces the auxiliary window with a dynamic blurring (WinDB) fixation collection approach for panoptic video, which doesn't need HMD and is able to well reflect the regional-wise importance degree. Using our WinDB approach, we have released a new PanopticVideo-300 dataset, containing 300 panoptic clips covering over 225 categories. Specifically, since using WinDB to collect fixations is blind zoom free, there exists frequent and intensive "fixation shifting" - a very special phenomenon that has long been overlooked by the previous research - in our new set. Thus, we present an effective fixation shifting network (FishNet) to conquer it. All these new fixation collection tool, dataset, and network could be very potential to open a new age for fixation-related research and applications in 360o environments.
翻訳日:2023-09-28 19:20:35 公開日:2023-09-27
# 拡散モデルのための構造プルーニング

Structural Pruning for Diffusion Models ( http://arxiv.org/abs/2305.10924v2 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Xinchao Wang(参考訳) 生成モデリングは近年,拡散確率モデル (DPM) の変換的影響により,顕著な進歩を遂げている。 しかし、これらのモデルの印象的な能力は、トレーニングと推論の両方でかなりの計算オーバーヘッドを必要とすることが多い。 この課題に対処するために,既存モデルからの軽量拡散モデル学習に適した効率的な圧縮手法であるDiff-Pruningを提案する。 diff-pruningの本質は、非帰属的拡散ステップを無視し、重要な重みを識別するための情報勾配をアンサンブルするプロセスであるpruned timesteps上のtaylor展開にカプセル化されている。 複数のデータセットにまたがって実施した経験的評価では,提案手法の主な利点が2つある。 1) 効率性: 当初の訓練費の10〜20対%でフロップの約50対%削減を可能にする。 2) 持続性: プルーンド拡散モデルは, あらかじめ訓練したモデルと相反する生成挙動を本質的に保存する。 コードは \url{https://github.com/VainF/Diff-Pruning} で入手できる。

Generative modeling has recently undergone remarkable advancements, primarily propelled by the transformative implications of Diffusion Probabilistic Models (DPMs). The impressive capability of these models, however, often entails significant computational overhead during both training and inference. To tackle this challenge, we present Diff-Pruning, an efficient compression method tailored for learning lightweight diffusion models from pre-existing ones, without the need for extensive re-training. The essence of Diff-Pruning is encapsulated in a Taylor expansion over pruned timesteps, a process that disregards non-contributory diffusion steps and ensembles informative gradients to identify important weights. Our empirical assessment, undertaken across several datasets highlights two primary benefits of our proposed method: 1) Efficiency: it enables approximately a 50\% reduction in FLOPs at a mere 10\% to 20\% of the original training expenditure; 2) Consistency: the pruned diffusion models inherently preserve generative behavior congruent with their pre-trained models. Code is available at \url{https://github.com/VainF/Diff-Pruning}.
翻訳日:2023-09-28 19:20:04 公開日:2023-09-27
# 教師なし低光度画像強調のための学習ノイズ認識illuminance-interpolator

NAI$_2$: Learning Noise-Aware Illuminance-Interpolator for Unsupervised Low-Light Image Enhancement ( http://arxiv.org/abs/2305.10223v2 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Risheng Liu, Xin Fan(参考訳) 低照度の状況は、消費者写真における美的品質の追求を厳しく制限する。 多くの努力はヒューリスティックスの設計に費やされているが、一般には複雑なネットワークアーキテクチャや経験的戦略を積み重ねるなど、テジウムの浅い渦巻きに陥る。 照明補償の本質的な物理原理をいかに掘り下げるかは無視されている。 本論文は, 複雑さを単純化する手法に倣って, シンプルで効率的なノイズ認識イルミネーション補間器(NAI$_2$)を提案する。 限られたダイナミックレンジにおける照度と反射率の制約原理に基づき、回復過程における先行知識として、学習可能な照度補間器を構築し、非均一照明の補償を行う。 そこで,アノテートデータ無しでデノエーションを適応させるため,ノイズのない低光度画像を得るため,内在的な画像特性を持つ自己キャリケートされたデノイーザを設計した。 自然画像多様体の性質から始まり、より自然で現実的な反射率マップを促進する方法として自己正規化回復損失が導入された。 モデルアーキテクチャとトレーニングの損失は、事前の知識によって導かれ、相互に補完し、利益をもたらし、教師なしの強力なフレームワークを形成します。 包括的実験により,提案アルゴリズムは未知の実世界のシナリオにおいて良好な一般化能力を保ちながら,競争的な質的,定量的な結果が得られることを示した。 コードは論文の発行時にオンラインで入手できる。

Low-light situations severely restrict the pursuit of aesthetic quality in consumer photography. Although many efforts are devoted to designing heuristics, it is generally mired in a shallow spiral of tedium, such as piling up complex network architectures and empirical strategies. How to delve into the essential physical principles of illumination compensation has been neglected. Following the way of simplifying the complexity, this paper innovatively proposes a simple and efficient Noise-Aware Illumination Interpolator (NAI$_2$). According to the constraint principle of illuminance and reflectance within a limited dynamic range, as a prior knowledge in the recovery process, we construct a learnable illuminance interpolator and thereby compensating for non-uniform lighting. With the intention of adapting denoising without annotated data, we design a self-calibrated denoiser with the intrinsic image properties to acquire noiseless low-light images. Starting from the properties of natural image manifolds, a self-regularized recovery loss is introduced as a way to encourage more natural and realistic reflectance map. The model architecture and training losses, guided by prior knowledge, complement and benefit each other, forming a powerful unsupervised leaning framework. Comprehensive experiments demonstrate that the proposed algorithm produces competitive qualitative and quantitative results while maintaining favorable generalization capability in unknown real-world scenarios. The code will be available online upon publication of the paper.
翻訳日:2023-09-28 19:19:46 公開日:2023-09-27
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v5 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Hengjun Pu, Guiguang Ding(参考訳) 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。 この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。 しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。 本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。 我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetでは、RepViTは、iPhone 12で1msのレイテンシで80%以上のトップ1の精度を達成しています。 我々の最大のモデルであるRepViT-M2.3は2.3msのレイテンシで83.7\%の精度を得る。 コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency compared with lightweight Convolutional Neural Networks (CNNs) on resource-constrained mobile devices. This improvement is usually attributed to the multi-head self-attention module, which enables the model to learn global representations. However, the architectural disparities between lightweight ViTs and lightweight CNNs have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs and emphasize their potential for mobile devices. We incrementally enhance the mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by integrating the efficient architectural choices of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. On ImageNet, RepViT achieves over 80\% top-1 accuracy with 1ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Our largest model, RepViT-M2.3, obtains 83.7\% accuracy with only 2.3ms latency. The code and trained models are available at \url{https://github.com/jameslahm/RepViT}.
翻訳日:2023-09-28 19:11:01 公開日:2023-09-27
# シングルスピーカとマルチスピーカによる音声検出:知覚から学習まで

Single and Multi-Speaker Cloned Voice Detection: From Perceptual to Learned Features ( http://arxiv.org/abs/2307.07683v2 )

ライセンス: Link先を確認
Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid(参考訳) 合成音声クローニング技術は近年顕著な進歩を遂げており、潜在的な害をもたらす可能性がある。 小規模で大規模な金融詐欺から偽情報キャンペーンまで、実声と合成音声を区別するための信頼性の高い方法の必要性は不可欠である。 特定人物の身振りを意図したクローン音声と現実を区別する3つの手法について述べる。 これらの3つのアプローチは特徴抽出段階において、高い解釈性を提供する低次元の知覚的特徴と、一般的なスペクトル特徴、より少ない解釈性を提供するエンドツーエンド学習特徴との相違がある。 一つの話者の音声で訓練し,複数の声で訓練した場合には,これらのアプローチの有効性を示す。 学習した特徴は一貫して0%から4%の誤差率を示し、敵の洗浄に対して合理的に堅牢である。

Synthetic-voice cloning technologies have seen significant advances in recent years, giving rise to a range of potential harms. From small- and large-scale financial fraud to disinformation campaigns, the need for reliable methods to differentiate real and synthesized voices is imperative. We describe three techniques for differentiating a real from a cloned voice designed to impersonate a specific person. These three approaches differ in their feature extraction stage with low-dimensional perceptual features offering high interpretability but lower accuracy, to generic spectral features, and end-to-end learned features offering less interpretability but higher accuracy. We show the efficacy of these approaches when trained on a single speaker's voice and when trained on multiple voices. The learned features consistently yield an equal error rate between 0% and 4%, and are reasonably robust to adversarial laundering.
翻訳日:2023-09-28 19:10:17 公開日:2023-09-27
# 見ることは信じない: 人間の視覚のプライバシー保護のためのアイデンティティ・ハイダー

Seeing is not Believing: An Identity Hider for Human Vision Privacy Protection ( http://arxiv.org/abs/2307.00481v3 )

ライセンス: Link先を確認
Tao Wang, Yushu Zhang, Zixuan Yang, Hua Zhang, and Zhongyun Hua(参考訳) 大量の撮像された顔画像は、個人を特定するためにデータベースに格納される。 しかし、これらの画像は、個人の意志ではなく、プライバシー侵害を引き起こす可能性があるデータマネージャによって、意図的に、または意図せず観察される。 既存の保護スキームは識別性を維持できるが、顔の外観はわずかに変化し、データマネージャによる元のアイデンティティの視覚的な認識に影響を受けやすい。 本稿では,顔認識者に対する識別を可能とし,視覚的な識別の外観を著しく変えることが可能な,人間の視覚保護のための効果的なアイデンティティハイダを提案する。 具体的には、id hiderは2つのモジュールから恩恵を受ける。 1)仮想顔生成モジュール(VFGM)は、StyleGAN2における潜伏空間を操作することにより、新しい外観の仮想顔を生成する。 特に、仮想顔は、元の顔と同様のパースマップを持ち、頭の位置検出などの他の視覚タスクをサポートする。 2)外見伝達モジュール(ATM)は,仮想顔の外観を属性置換により元の顔に転送する。 一方、識別情報は、非絡み合いネットワークの助けを借りてよく保存できる。 また,多様な要件を満たすため,多様性と背景保全が支援されている。 大規模な実験により,提案したアイデンティティ隠蔽装置は,プライバシ保護と識別可能性保護に優れた性能を発揮することが示された。

Massive captured face images are stored in the database for the identification of individuals. However, these images can be observed intentionally or unintentionally by data managers, which is not at the will of individuals and may cause privacy violations. Existing protection schemes can maintain identifiability but slightly change the facial appearance, rendering it still susceptible to the visual perception of the original identity by data managers. In this paper, we propose an effective identity hider for human vision protection, which can significantly change appearance to visually hide identity while allowing identification for face recognizers. Specifically, the identity hider benefits from two modules: 1) The virtual face generation module (VFGM) generates a virtual face with a new appearance by manipulating the latent space in StyleGAN2. In particular, the virtual face has a similar parsing map to the original face, supporting other vision tasks such as head pose detection. 2) The appearance transfer module (ATM) transfers the appearance of the virtual face into the original face via attribute replacement. Meanwhile, identity information can be preserved well with the help of the disentanglement networks. In addition, diversity and background preservation are supported to meet the various requirements. Extensive experiments demonstrate that the proposed identity hider achieves excellent performance on privacy protection and identifiability preservation.
翻訳日:2023-09-28 19:10:01 公開日:2023-09-27
# clara: 信頼できる対話型ロボットエージェントのためのユーザコマンドの分類と解除

CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ( http://arxiv.org/abs/2306.10376v4 )

ライセンス: Link先を確認
Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Minsuk Chang, Youngjae Yu and Sungjoon Choi(参考訳) 本稿では,大規模言語モデル(LLM)を用いた対話型ロボットエージェントの文脈において,与えられたユーザコマンドが明確であるか,曖昧であるか,あるいは不可能であるかを推定することに焦点を当てる。 この問題に対処するために,まず,コマンドが確実かどうか(明確か)を分類するためのllmsの不確実性推定法(曖昧か不可能か)を提案する。 コマンドが不確実であると分類されると、ゼロショット方式で状況認識コンテキストでLLMを活用する不明瞭なコマンドと非実用的なコマンドとを区別する。 あいまいなコマンドに対しては、質問生成を通じてLLMと対話することで、コマンドを曖昧にします。 我々は、与えられたコマンドを適切に認識すると、ロボットの誤動作や望ましくない動作が減少し、対話型ロボットエージェントの信頼性が向上すると信じている。 我々は,ロボットの状況認識のためのデータセットを提示する。2つの高レベルコマンド,シーン記述,コマンドタイプのラベル(明快,曖昧,実行不可能)からなる。 提案手法は,テーブルトップのピック・アンド・プレースシミュレーションを用いて検証した。 最後に,実世界のロボットインタラクション実験,すなわちハンドオーバシナリオにおいて提案手法を実証する。

In this paper, we focus on inferring whether the given user command is clear, ambiguous, or infeasible in the context of interactive robotic agents utilizing large language models (LLMs). To tackle this problem, we first present an uncertainty estimation method for LLMs to classify whether the command is certain (i.e., clear) or not (i.e., ambiguous or infeasible). Once the command is classified as uncertain, we further distinguish it between ambiguous or infeasible commands leveraging LLMs with situational aware context in a zero-shot manner. For ambiguous commands, we disambiguate the command by interacting with users via question generation with LLMs. We believe that proper recognition of the given commands could lead to a decrease in malfunction and undesired actions of the robot, enhancing the reliability of interactive robot agents. We present a dataset for robotic situational awareness, consisting pair of high-level commands, scene descriptions, and labels of command type (i.e., clear, ambiguous, or infeasible). We validate the proposed method on the collected dataset, pick-and-place tabletop simulation. Finally, we demonstrate the proposed approach in real-world human-robot interaction experiments, i.e., handover scenarios.
翻訳日:2023-09-28 19:08:36 公開日:2023-09-27
# 広帯域ループ型量子メモリにおける光偏光エンタングルメントの実験記憶

Experimental storage of photonic polarization entanglement in a broadband loop-based quantum memory ( http://arxiv.org/abs/2306.09986v2 )

ライセンス: Link先を確認
C.J. Evans, C.M. Nunn, S.W.L. Cheng, J.D. Franson, T.B. Pittman(参考訳) 本稿では、光子対の一方の部材をアクティブな「ループ・アンド・スイッチ」型量子メモリ装置に格納し、他方の部材を受動光遅延線で伝播させる実験について述べる。 記憶の前後におけるベルの不等式テストの比較を行い、絡み合いを維持できるメモリの能力を調べ、初歩的な絡み合い分散プロトコルを示す。 絡み合った光子は、780nmで中心波長が$\sim$10 THzの従来のSpontaneous Parametric Down Conversionソースで生成され、一方メモリは、ループベースの量子メモリプラットフォームにおける偏光非感性スイッチングに使われるポッケル効果の弱い分散性により、さらに広い操作帯域を有する。

We describe an experiment in which one member of a polarization-entangled photon pair is stored in an active "loop and switch" type quantum memory device, while the other propagates through a passive optical delay line. A comparison of Bell's inequality tests performed before and after the storage is used to investigate the ability of the memory to maintain entanglement, and demonstrate a rudimentary entanglement distribution protocol. The entangled photons are produced by a conventional Spontaneous Parametric Down Conversion source with center wavelengths at 780 nm and bandwidths of $\sim$10 THz, while the memory has an even wider operational bandwidth that is enabled by the weakly dispersive nature of the Pockels effect used for polarization-insensitive switching in the loop-based quantum memory platform.
翻訳日:2023-09-28 19:08:19 公開日:2023-09-27
# 機能強化型物理情報ニューラルネットワーク(FE-PINN)による学習時間の高速化 : 境界条件を高速収束のための優先知識として活用する

Accelerating Training Time with Feature Enforcing- Physics Informed Neural Network (FE-PINN): Utilizing Boundary Conditions as Prior Knowledge for Faster Convergence ( http://arxiv.org/abs/2308.08873v3 )

ライセンス: Link先を確認
Mahyar Jahaninasab, Mohamad Ali Bijarchi(参考訳) 本研究では,連続性と運動量偏微分方程式 PDE を解く前に,ニューラルネットワークが境界条件を学習できるデータフリーフレームワークであるFeature Enforcecing Physics Informed Neural Network FEPINNを導入する。 新しいサンプリングアプローチが表現され、Xavierスキームで初期化されたニューラルネットワークの初期重み状態の異なる関数としてドメインポイントを選択する。 本研究は, 境界条件などの単純なパターンを学習する際に, 分散度が低い初期重み状態を用いることが有用であると仮定した。 ニューラルネットワークをトレーニングして境界条件を学習すると、ニューラルネットワークの上に新しいレイヤを追加することで、モデルの複雑さが増大する。 FE-PINNはシリンダー上の2次元フローとシリンダー上の2次元フローの入口速度を決定する逆問題という2つのベンチマークを解くために用いられる。 FE-PINNは, ランダム探索により得られた損失関数において, バニラPINNが最適重み値を使用する場合でも, 両ベンチマークでバニラPINNの約2倍の速度でトレーニングを行う。 さらに、FE-PINNの損失関数は境界条件に関する事前の知識によりバランスが取れ、損失重み付けの必要がなくなる。 例えば、メイントレーニングループの前にFE-PINNで側壁のすべり境界条件を学習することは、バニラPINNの損失重み付けよりも574倍高速である。 結論として、FE-PINNは異なる分野にわたる様々なPDEを解決するための高速で正確なツールを提供する。

In this study, Feature Enforcing Physics Informed Neural Network FEPINN is introduced, which is a data free framework that enables a neural network to learn boundary conditions before solving continuity and momentum partial differential equations PDEs. A new sampling approach is represented, which selects domain points as a function of different initial weight states of neural networks initialized with the Xavier scheme. The study hypothesizes that using an initial weight state with lower variance is beneficial when learning simple patterns, such as boundary conditions. After training the neural network to learn boundary conditions, the complexity of the model is increased by adding new layers on top of the neural network. FE-PINN is used to solve two benchmarks, 2D flow over a cylinder and an inverse problem of determining the inlet velocity for a 2D flow over a cylinder. It is found that FE-PINN trains about two times faster than vanilla PINN for both benchmarks, even when the vanilla PINN uses optimal weight values in the loss function obtained by random search. Moreover, FE-PINN's loss function is balanced due to its prior knowledge of boundary conditions, eliminating the need for loss weighting. For instance, learning no slip boundary conditions on side walls with FE-PINN before the main training loop is 574 times faster than loss weighting process in vanilla PINN. In conclusion, FE-PINN offers a fast and accurate tool for solving various PDEs across different fields.
翻訳日:2023-09-28 19:02:29 公開日:2023-09-27
# 信頼性とオープンワールド学習の橋渡し--解釈性、一般化、ロバスト性を高める探索的ニューラルアプローチ

Bridging Trustworthiness and Open-World Learning: An Exploratory Neural Approach for Enhancing Interpretability, Generalization, and Robustness ( http://arxiv.org/abs/2308.03666v2 )

ライセンス: Link先を確認
Shide Du, Zihan Fang, Shiyang Lan, Yanchao Tan, Manuel G\"unther, Shiping Wang, Wenzhong Guo(参考訳) 人工知能技術の発展を通じて、人工知能と人間のギャップを狭めようとしている研究者にとって、オープンワールドにおける信頼の重要さは、誰もが日々の生活のあらゆる面で普及していると認識することが不可欠である。 しかし、いくつかの課題は、橋渡しが必要な現在の人工知能システムに対する信頼の危機を引き起こす可能性がある。 1) 予測結果の不十分な説明 2)学習モデルに対する不適切な一般化 3)不確かな環境への適応性の低下。 その結果,信頼性とオープンワールド学習をブリッジするニューラルプログラムが,シングルモーダルからマルチモーダルシナリオへと拡張された。 1) 設計レベルの解釈性を高めるために,まず,特定の物理的意味を持つ信頼できるネットワークをカスタマイズする。 2) 信頼性のある学習の一般化を改善するために, フレキシブルラーニングレギュレータによる環境調和型タスクインタフェースを設計する。 3) オープンワールド認識損失をエージェント機構と統合することにより,信頼に値する学習の堅牢性を高めることを提案する。 最終的には, 設計レベルの説明可能性, 環境保全課題インターフェース, オープンワールド認識プログラムの確立を通じて, 信頼性を高める。 これらの設計されたオープンワールドプロトコルは、オープンワールドマルチメディア認識シナリオの下で、幅広い環境にまたがって適用され、大幅なパフォーマンス改善が観察されている。

As researchers strive to narrow the gap between machine intelligence and human through the development of artificial intelligence technologies, it is imperative that we recognize the critical importance of trustworthiness in open-world, which has become ubiquitous in all aspects of daily life for everyone. However, several challenges may create a crisis of trust in current artificial intelligence systems that need to be bridged: 1) Insufficient explanation of predictive results; 2) Inadequate generalization for learning models; 3) Poor adaptability to uncertain environments. Consequently, we explore a neural program to bridge trustworthiness and open-world learning, extending from single-modal to multi-modal scenarios for readers. 1) To enhance design-level interpretability, we first customize trustworthy networks with specific physical meanings; 2) We then design environmental well-being task-interfaces via flexible learning regularizers for improving the generalization of trustworthy learning; 3) We propose to increase the robustness of trustworthy learning by integrating open-world recognition losses with agent mechanisms. Eventually, we enhance various trustworthy properties through the establishment of design-level explainability, environmental well-being task-interfaces and open-world recognition programs. These designed open-world protocols are applicable across a wide range of surroundings, under open-world multimedia recognition scenarios with significant performance improvements observed.
翻訳日:2023-09-28 19:02:00 公開日:2023-09-27
# QUEST: 実用的な協調認識のためのクエリストリーム

QUEST: Query Stream for Practical Cooperative Perception ( http://arxiv.org/abs/2308.01804v2 )

ライセンス: Link先を確認
Siqi Fan, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie(参考訳) 協調的知覚は、追加の視点を与え、センシング領域を拡大することにより、個人知覚性能を効果的に向上することができる。 既存の協力パラダイムは、解釈可能(result cooperation)か、柔軟(feature cooperation)のいずれかである。 本稿では,解釈可能なインスタンスレベルのフレキシブルな機能インタラクションを実現するためのクエリ協調の概念を提案する。 この概念を具体的に説明するために、エージェント間のクエリストリームフローを許容する協調認識フレームワークQUESTを提案する。 クロスエージェントクエリは、共同認識インスタンスの融合と、個々の未認識インスタンスの補完を通じて対話される。 実世界のデータセットであるdair-v2x-seqを用いた実験結果から,クエストの有効性を実証し,パケットドロップアウトに対する伝送柔軟性とロバスト性に対するクエリ協調パラダイムの利点を明らかにした。 我々の研究が、より協調的な認識を実現するために、クロスエージェント表現インタラクションをさらに促進できることを願っています。

Cooperative perception can effectively enhance individual perception performance by providing additional viewpoint and expanding the sensing field. Existing cooperation paradigms are either interpretable (result cooperation) or flexible (feature cooperation). In this paper, we propose the concept of query cooperation to enable interpretable instance-level flexible feature interaction. To specifically explain the concept, we propose a cooperative perception framework, termed QUEST, which let query stream flow among agents. The cross-agent queries are interacted via fusion for co-aware instances and complementation for individual unaware instances. Taking camera-based vehicle-infrastructure perception as a typical practical application scene, the experimental results on the real-world dataset, DAIR-V2X-Seq, demonstrate the effectiveness of QUEST and further reveal the advantage of the query cooperation paradigm on transmission flexibility and robustness to packet dropout. We hope our work can further facilitate the cross-agent representation interaction for better cooperative perception in practice.
翻訳日:2023-09-28 19:01:36 公開日:2023-09-27
# 識別を超えた拡張:大規模言語モデルのためのマルチビット透かし

Advancing Beyond Identification: Multi-bit Watermark for Large Language Models ( http://arxiv.org/abs/2308.00221v2 )

ライセンス: Link先を確認
KiYoon Yoo, Wonhyuk Ahn, Nojun Kwak(参考訳) 本稿では,機械生成テキストの識別以外の大規模言語モデルの誤用に対処する手法を提案する。 既存の手法は検出に重点を置いているが、悪意のある誤用によっては、敵ユーザーの反作用を追跡する要求がある。 そこで我々は,言語モデル生成中にトレーサブルなマルチビット情報を埋め込み,位置割当によるマルチビット透かしを提案する。 提案手法は,ゼロビット透かしの利点を生かして,モデルアクセスを必要とせず,長いメッセージ($32-bit)の埋め込みと抽出を微調整なしで行うことができ,テキストの品質を維持しつつ,ゼロビット検出を同時に行うことができる。 さらに、私たちの透かしは、人間のテキストとパラフレーズを交わすような強い攻撃の下で比較的堅牢です。

We propose a method to tackle misuses of large language models beyond the identification of machine-generated text. While existing methods focus on detection, some malicious misuses demand tracing the adversary user for counteracting them. To address this, we propose Multi-bit Watermark via Position Allocation, embedding traceable multi-bit information during language model generation. Leveraging the benefits of zero-bit watermarking, our method enables robust extraction of the watermark without any model access, embedding and extraction of long messages ($\geq$ 32-bit) without finetuning, and maintaining text quality, while allowing zero-bit detection all at the same time. Moreover, our watermark is relatively robust under strong attacks like interleaving human texts and paraphrasing.
翻訳日:2023-09-28 19:01:22 公開日:2023-09-27
# 言語モデルに対するロバストな歪みのない透かし

Robust Distortion-free Watermarks for Language Models ( http://arxiv.org/abs/2307.15593v2 )

ライセンス: Link先を確認
Rohith Kuditipudi and John Thickstun and Tatsunori Hashimoto and Percy Liang(参考訳) 本稿では,テキスト上の分布を最大生成予算に変化させることなく,摂動に頑健な自動回帰言語モデルからテキストに透かしを植え付ける手法を提案する。 我々は、ランダム化された透かしキーを用いて計算するランダム数の列を言語モデルからのサンプルにマッピングすることで、透かし付きテキストを生成する。 透かし付きテキストを検出するには、鍵を知っている任意の当事者がランダム数列にテキストを合わせることができる。 ウォーターマーク法を逆変換サンプリングと指数最小サンプリングの2つのサンプリングスキームでインスタンス化する。 我々はこれらの透かしをOPT-1.3B、LLaMA-7B、Alpaca-7Bの3つの言語モデルに適用し、様々なパラフレーズ攻撃に対する統計的パワーとロバスト性を実験的に検証する。 特に、OPT-1.3B と LLaMA-7B のモデルでは、ランダムな編集(置換、挿入、削除など)によってトークンの 40$-50$% の破損をしても、$35$トークンから確実にウォーターマークされたテキスト(p \leq 0.01$)を検出できる。 Alpaca-7Bモデルでは、典型的なユーザ指示に対する透かし応答の実現可能性についてケーススタディを行う。 応答のエントロピーが低くなっているため、検出はより困難である: 平均的な応答の長さが約100ドルである約25\%$のレスポンスは、$p \leq 0.01$で検出可能であり、ウォーターマークは、我々が実装している特定の自動パラフレージング攻撃に対して頑健ではない。

We propose a methodology for planting watermarks in text from an autoregressive language model that are robust to perturbations without changing the distribution over text up to a certain maximum generation budget. We generate watermarked text by mapping a sequence of random numbers -- which we compute using a randomized watermark key -- to a sample from the language model. To detect watermarked text, any party who knows the key can align the text to the random number sequence. We instantiate our watermark methodology with two sampling schemes: inverse transform sampling and exponential minimum sampling. We apply these watermarks to three language models -- OPT-1.3B, LLaMA-7B and Alpaca-7B -- to experimentally validate their statistical power and robustness to various paraphrasing attacks. Notably, for both the OPT-1.3B and LLaMA-7B models, we find we can reliably detect watermarked text ($p \leq 0.01$) from $35$ tokens even after corrupting between $40$-$50\%$ of the tokens via random edits (i.e., substitutions, insertions or deletions). For the Alpaca-7B model, we conduct a case study on the feasibility of watermarking responses to typical user instructions. Due to the lower entropy of the responses, detection is more difficult: around $25\%$ of the responses -- whose median length is around $100$ tokens -- are detectable with $p \leq 0.01$, and the watermark is also less robust to certain automated paraphrasing attacks we implement.
翻訳日:2023-09-28 19:01:07 公開日:2023-09-27
# 多エージェント協調知覚のための時空間認識

Spatio-Temporal Domain Awareness for Multi-Agent Collaborative Perception ( http://arxiv.org/abs/2307.13929v3 )

ライセンス: Link先を確認
Kun Yang, Dingkang Yang, Jingyu Zhang, Mingcheng Li, Yang Liu, Jing Liu, Hanqi Wang, Peng Sun, Liang Song(参考訳) 車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自動運転車の知覚性能を著しく向上させる可能性がある。 しかし、この新たな研究で実用的な情報共有を実現する上で、いくつかの課題が残っている。 本稿では,道路上のエージェント間の時空間的認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。 具体的にはSCOPEには3つの異なる長所がある。 一 標的エージェントの現在の表現を高めるために、時間的文脈の効果的な意味的手がかりを考えること。 二 異種エージェントから知覚的に重要な空間情報を集約し、多スケールの特徴的相互作用による局在誤差を克服する。 三 適応融合パラダイムによる補完的貢献に基づいて、対象エージェントのマルチソース表現を統合すること。 スコープを徹底的に評価するために,3つのデータセット上での協調的3次元物体検出タスクの現実シナリオとシミュレーションシナリオの両方を検討する。 大規模な実験は、我々のアプローチの優位性と提案したコンポーネントの必要性を実証する。

Multi-agent collaborative perception as a potential application for vehicle-to-everything communication could significantly improve the perception performance of autonomous vehicles over single-agent perception. However, several challenges remain in achieving pragmatic information sharing in this emerging research. In this paper, we propose SCOPE, a novel collaborative perception framework that aggregates the spatio-temporal awareness characteristics across on-road agents in an end-to-end manner. Specifically, SCOPE has three distinct strengths: i) it considers effective semantic cues of the temporal context to enhance current representations of the target agent; ii) it aggregates perceptually critical spatial information from heterogeneous agents and overcomes localization errors via multi-scale feature interactions; iii) it integrates multi-source representations of the target agent based on their complementary contributions by an adaptive fusion paradigm. To thoroughly evaluate SCOPE, we consider both real-world and simulated scenarios of collaborative 3D object detection tasks on three datasets. Extensive experiments demonstrate the superiority of our approach and the necessity of the proposed components.
翻訳日:2023-09-28 19:00:23 公開日:2023-09-27
# PRIOR:医用画像からのプロトタイプ表現共同学習とその報告

PRIOR: Prototype Representation Joint Learning from Medical Images and Reports ( http://arxiv.org/abs/2307.12577v2 )

ライセンス: Link先を確認
Pujin Cheng, Li Lin, Junyan Lyu, Yijin Huang, Wenhan Luo, Xiaoying Tang(参考訳) コントラスト学習に基づく視覚言語共同学習は,表現学習戦略として成功している。 本稿では,医用画像とレポートのグローバルなアライメントとローカルなアライメントを両立させた表現学習フレームワークを提案する。 標準のグローバルマルチモダリティアライメント法とは対照的に,細粒度表現には局所アライメントモジュールを用いる。 さらに、マスク画像とレポートを再構成することにより、トレーニングフェーズにおけるモダリティ間の情報を交換するクロスモダリティ条件リコンストラクションモジュールも設計されている。 長いレポートを再構築するために,低レベルの局所的な視覚的特徴と高レベルの臨床言語的特徴に焦点をあてる文的プロトタイプメモリバンクを構築した。 さらに、非逐次レポートの再構築のために、非自己回帰生成パラダイムを提案する。 教師付き分類、ゼロショット分類、画像からテキストへの検索、セマンティックセグメンテーション、オブジェクト検出を含む5つの下流タスクの実験結果から、提案手法は複数のデータセットと異なるデータセットサイズ設定下で、他の最先端メソッドよりも優れていることを示す。 コードはhttps://github.com/qtacierp/priorで入手できる。

Contrastive learning based vision-language joint pre-training has emerged as a successful representation learning strategy. In this paper, we present a prototype representation learning framework incorporating both global and local alignment between medical images and reports. In contrast to standard global multi-modality alignment methods, we employ a local alignment module for fine-grained representation. Furthermore, a cross-modality conditional reconstruction module is designed to interchange information across modalities in the training phase by reconstructing masked images and reports. For reconstructing long reports, a sentence-wise prototype memory bank is constructed, enabling the network to focus on low-level localized visual and high-level clinical linguistic features. Additionally, a non-auto-regressive generation paradigm is proposed for reconstructing non-sequential reports. Experimental results on five downstream tasks, including supervised classification, zero-shot classification, image-to-text retrieval, semantic segmentation, and object detection, show the proposed method outperforms other state-of-the-art methods across multiple datasets and under different dataset size settings. The code is available at https://github.com/QtacierP/PRIOR.
翻訳日:2023-09-28 19:00:07 公開日:2023-09-27
# 物体認識型ゲズターゲット検出

Object-aware Gaze Target Detection ( http://arxiv.org/abs/2307.09662v2 )

ライセンス: Link先を確認
Francesco Tonini and Nicola Dall'Asen and Cigdem Beyan and Elisa Ricci(参考訳) 視線目標検出は、人物が見ている画像の位置と、視線が現場外にある確率を予測することを目的としている。 いくつかの研究は、視線位置を中心とする視線熱マップを回帰することでこの課題に取り組んできたが、人と視線のある物体の関係を復号化することを見落としていた。 本稿では,視線対象領域,視線画素点,クラス,および視線対象の画像位置の包括的かつ説明可能な視線解析を実現するために,シーン内の物体(頭部を含む)を自動的に検出し,各頭部と視線/物体の関連関係を構築するトランスフォーマーアーキテクチャを提案する。 本手法は,対象物の平均精度を11-13%向上し,全測定値(AUCで2.91%,視線距離で50%,フレーム外平均精度で9%,視線目標検出で1.9%,視線対象物の局所化における平均精度を11-13%向上した。 提案手法のコードは公開されている。

Gaze target detection aims to predict the image location where the person is looking and the probability that a gaze is out of the scene. Several works have tackled this task by regressing a gaze heatmap centered on the gaze location, however, they overlooked decoding the relationship between the people and the gazed objects. This paper proposes a Transformer-based architecture that automatically detects objects (including heads) in the scene to build associations between every head and the gazed-head/object, resulting in a comprehensive, explainable gaze analysis composed of: gaze target area, gaze pixel point, the class and the image location of the gazed-object. Upon evaluation of the in-the-wild benchmarks, our method achieves state-of-the-art results on all metrics (up to 2.91% gain in AUC, 50% reduction in gaze distance, and 9% gain in out-of-frame average precision) for gaze target detection and 11-13% improvement in average precision for the classification and the localization of the gazed-objects. The code of the proposed method is publicly available.
翻訳日:2023-09-28 18:59:49 公開日:2023-09-27
# 視覚的検証と視覚的推定 : 散乱体の平均値の検討

Visual Validation versus Visual Estimation: A Study on the Average Value in Scatterplots ( http://arxiv.org/abs/2307.09330v2 )

ライセンス: Link先を確認
Daniel Braun, Ashley Suh, Remco Chang, Michael Gleicher, Tatiana von Landesberger(参考訳) 個人がデータに適合する統計モデルを視覚的に検証する能力について検討する。 視覚モデル推定は広く研究されているが、視覚モデル検証は未検討のままである。 人々がどのようにモデルを視覚的に検証できるか、その性能が視覚的および計算的推定と比較できるかは不明である。 出発点として,我々は2つの集団(クロードソースとボランティア)を対象に調査を行った。 参加者は、視覚的に見積もる(すなわちドロー)ことと、頻繁に研究される平均のモデルを視覚的に検証する(受け入れるか拒否するか)必要があった。 いずれの集団においても,有効と考えられるモデルの精度は,推定モデルの精度よりも低かった。 参加者の検証と評価は偏りがないことがわかった。 さらに、与えられた平均値の受け入れと拒否の間の自然な臨界点は、95%の信頼区間の境界に近く、視覚的に知覚される信頼区間が共通の統計基準に対応することを示す。 我々の研究は視覚モデル検証の理解に寄与し、新たな研究機会を開く。

We investigate the ability of individuals to visually validate statistical models in terms of their fit to the data. While visual model estimation has been studied extensively, visual model validation remains under-investigated. It is unknown how well people are able to visually validate models, and how their performance compares to visual and computational estimation. As a starting point, we conducted a study across two populations (crowdsourced and volunteers). Participants had to both visually estimate (i.e, draw) and visually validate (i.e., accept or reject) the frequently studied model of averages. Across both populations, the level of accuracy of the models that were considered valid was lower than the accuracy of the estimated models. We find that participants' validation and estimation were unbiased. Moreover, their natural critical point between accepting and rejecting a given mean value is close to the boundary of its 95% confidence interval, indicating that the visually perceived confidence interval corresponds to a common statistical standard. Our work contributes to the understanding of visual model validation and opens new research opportunities.
翻訳日:2023-09-28 18:59:23 公開日:2023-09-27
# SiT-MLP:スケルトンに基づく行動認識のためのポイントワイズトポロジ特徴学習のための簡易MLP

SiT-MLP: A Simple MLP with Point-wise Topology Feature Learning for Skeleton-based Action Recognition ( http://arxiv.org/abs/2308.16018v3 )

ライセンス: Link先を確認
Shaojie Zhang, Jianqin Yin, Yonghao Dang and Jiajun Fu(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において顕著な性能を発揮する。 しかし、従来のgcnベースの手法では、複雑な特徴集約機構を構築し、ネットワークの一般化可能性と有効性を制限している。 そこで本稿では,空間的依存性をエンコードする共起トポロジの特徴を捉えるために,mlpを用いた新たな空間的トポロジーゲーティングユニット(stgu)を提案する。 STGUでは、ポイントワイズトポロジの特徴を学習するために、新しいゲートベースの特徴相互作用機構を導入し、入力サンプルから生成された注目マップにより特徴点対ポイントを活性化する。 STGUに基づいて,本研究における骨格に基づく行動認識のための最初のMDPベースモデルSiTMLPを提案する。 3つの大規模データセットの以前の手法と比較すると、SiTMLPは競争性能が向上する。 さらに、SiT-MLPはパラメータを62.5%まで減少させる。 コードはhttps://github.com/BUPTSJZhang/SiTMLPで入手できる。

Graph convolution networks (GCNs) have achieved remarkable performance in skeleton-based action recognition. However, previous GCN-based methods rely on elaborate human priors excessively and construct complex feature aggregation mechanisms, which limits the generalizability and effectiveness of networks. To solve these problems, we propose a novel Spatial Topology Gating Unit (STGU), an MLP-based variant without extra priors, to capture the co-occurrence topology features that encode the spatial dependency across all joints. In STGU, to learn the point-wise topology features, a new gate-based feature interaction mechanism is introduced to activate the features point-to-point by the attention map generated from the input sample. Based on the STGU, we propose the first MLP-based model, SiTMLP, for skeleton-based action recognition in this work. Compared with previous methods on three large-scale datasets, SiTMLP achieves competitive performance. In addition, SiT-MLP reduces the parameters by up to 62.5% with favorable results. The code will be available at https://github.com/BUPTSJZhang/SiTMLP.
翻訳日:2023-09-28 18:49:32 公開日:2023-09-27
# 軽度注意機構を有するTransfer ResNetを用いた乳癌分類の強化

Enhancing Breast Cancer Classification Using Transfer ResNet with Lightweight Attention Mechanism ( http://arxiv.org/abs/2308.13150v2 )

ライセンス: Link先を確認
Suxing Liu(参考訳) 本研究では,ResNet50の深層学習モデルを用いて,画像分類の問題,特に医療病理組織像や限られた規模データセットの解決を行う。 本モデルでは,軽量アテンション機構とドロップアウト層を統合し,特徴認識と分類性能を大幅に改善する。 実験の結果,従来のモデル,現代のビジュアルトランスフォーマー,大規模モデルよりも精度,精度,リコール,F1スコア,GMeanが優れていた。 私たちのモデルは収束速度の利点も示しています。 これらの結果は,本モデルの優れた性能を十分に証明し,実画像分類タスクへの応用の基盤となる。

In this study, we use a ResNet50 deep learning model with a lightweight attention mechanism to solve the image classification problem, especially in medical pathology tissue images and limited-scale datasets. Our model integrates the lightweight attention mechanism and the dropout layer to substantially improve the feature recognition and classification performance. Experimental results show that our model outperforms traditional models, modern visual transformers and large-scale models in terms of precision, accuracy, recall, F1 score and GMean. It is worth mentioning that our model also exhibits advantages in convergence speed. These results fully demonstrate the excellent performance of our model and lay a solid foundation for its application in real image classification tasks.
翻訳日:2023-09-28 18:48:43 公開日:2023-09-27
# ds4dh at #smm4h 2023: zero-shot adverse drug events normalization using sentence transformers and reciprocal-rank fusion

DS4DH at #SMM4H 2023: Zero-Shot Adverse Drug Events Normalization using Sentence Transformers and Reciprocal-Rank Fusion ( http://arxiv.org/abs/2308.12877v2 )

ライセンス: Link先を確認
Anthony Yazdani, Hossein Rouhizadeh, David Vicente Alvarez, Douglas Teodoro(参考訳) 本稿では,ds4dh (data science for digital health) group for the social media mining for health applications (smm4h) 2023 shared task 5 による有害薬物イベント正規化システムの性能評価について概説する。 共有タスク5は、規制活動用語のための医学的辞書の標準概念へのtwitterにおける有害薬物事象の言及の正規化を目標とした。 BERTファインタニングと文変換器によるゼロショット正規化と相互ランク融合という2段階のアプローチが特徴である。 精度は44.9%、リコールは40.5%、F1スコアは42.6%だった。 これは共有タスク5の中央値のパフォーマンスを10%上回り、すべての参加者の中で最高のパフォーマンスを示した。 これらの結果は,ソーシャルメディアのテキストマイニング分野における薬物イベント正規化の有効性と,その潜在的応用を実証するものである。

This paper outlines the performance evaluation of a system for adverse drug event normalization, developed by the Data Science for Digital Health (DS4DH) group for the Social Media Mining for Health Applications (SMM4H) 2023 shared task 5. Shared task 5 targeted the normalization of adverse drug event mentions in Twitter to standard concepts of the Medical Dictionary for Regulatory Activities terminology. Our system hinges on a two-stage approach: BERT fine-tuning for entity recognition, followed by zero-shot normalization using sentence transformers and reciprocal-rank fusion. The approach yielded a precision of 44.9%, recall of 40.5%, and an F1-score of 42.6%. It outperformed the median performance in shared task 5 by 10% and demonstrated the highest performance among all participants. These results substantiate the effectiveness of our approach and its potential application for adverse drug event normalization in the realm of social media text mining.
翻訳日:2023-09-28 18:48:33 公開日:2023-09-27
# FOSA: 欠損データに対するFIML(Full Information Maximum Likelihood)最適化自己注意障害

FOSA: Full Information Maximum Likelihood (FIML) Optimized Self-Attention Imputation for Missing Data ( http://arxiv.org/abs/2308.12388v2 )

ライセンス: Link先を確認
Ou Deng, Qun Jin(参考訳) データインプテーションの欠落した値を効果的に処理することは、特に複雑なデータセットにとって重要である。 本研究は、FIML推定の強みと自己アテンションニューラルネットワークの能力とを両立させる革新的なアプローチである、FIML最適化自己アテンション(FOSA)フレームワークについて検討する。 提案手法は,fimlによる欠落値の初期推定から始まり,その後自己着脱機構を活用して改良する。 シミュレーションと実世界の両方のデータセットに関する包括的な実験は、さまざまなデータ構造に対する精度、計算効率、適応性を含む従来のFIML技術よりも、FOSAの顕著な優位性を示している。 興味深いことに、構造方程式モデルが誤って特定され、fimlのサブオプティカルな推定に繋がる場合であっても、fosaの自己対応コンポーネントのロバストなアーキテクチャは、しばしばインプテーションの結果を修正し最適化する。 私たちの実証実験では、FOSAは、およそ40%のランダムな欠如があっても、信頼できる予測を一貫して提供し、データ計算におけるその堅牢性と幅広い応用の可能性を強調しています。

Effectively addressing missing values in data imputation is pivotal, particularly for intricate datasets. This study delves into the full information maximum likelihood (FIML) optimized self-attention (FOSA) framework, an innovative approach that amalgamates the strengths of FIML estimation with the capabilities of self-attention neural networks. Our methodology begins with an initial estimation of missing values via FIML, which is subsequently refined by leveraging the self-attention mechanism. Our comprehensive experiments on both simulated and real-world datasets underscore the pronounced advantages of FOSA over traditional FIML techniques, including encapsulating facets of accuracy, computational efficiency, and adaptability to diverse data structures. Intriguingly, even in cases where the structural equation model can be misspecified, leading to sub-optimal FIML estimates, the robust architecture of the FOSA self-attention component adeptly rectifies and optimizes the imputation outcomes. Our empirical tests reveal that FOSA consistently delivers commendable predictions even for approximately 40% random missingness, highlighting its robustness and potential for wide-scale applications in data imputation.
翻訳日:2023-09-28 18:48:12 公開日:2023-09-27
# 量子ノイズ駆動生成拡散モデル

Quantum-Noise-driven Generative Diffusion Models ( http://arxiv.org/abs/2308.12013v2 )

ライセンス: Link先を確認
Marco Parigi, Stefano Martina, Filippo Caruso(参考訳) 機械学習技術で実現された生成モデルは、新しい合成データを生成するために、有限個のトレーニングサンプルから複雑な未知のデータ分布を推測する強力なツールである。 拡散モデルは、最近、合成テキストと高品質な画像を作成する際に、生成する敵ネットワークの性能を克服する新しいフレームワークである。 本稿では,実量子系上で実験的に検証可能な3つの量子ノイズ駆動生成拡散モデルについて,拡散モデルの量子一般化を提案する。 このアイデアは、ユニークな量子機能、特に現在利用可能なノイズ量子プロセッサが避けられないほど苦しむコヒーレンス、絡み合い、ノイズの間の非自明な相互作用を利用して、推論中に古典的な拡散モデルの主要な計算負荷を克服する。 したがって、量子ノイズを検出・解決すべき問題としてではなく、より複雑な確率分布を生成するために非常に有益な鍵成分として、古典的に表現することが困難、あるいは不可能であり、そこから量子プロセッサが古典的よりも効率的にサンプリングすることを提案する。 ハイブリッド古典量子生成拡散モデルの数値シミュレーションの例も含む。 そこで,本研究では,気候予測から神経科学,交通の流れ解析から金融予測まで,現実世界に広く応用されるデータ生成/予測として,より強力な古典的タスクに対処する,量子インスパイアや量子ベースの生成拡散アルゴリズムへの道を開くことが期待されている。

Generative models realized with machine learning techniques are powerful tools to infer complex and unknown data distributions from a finite number of training samples in order to produce new synthetic data. Diffusion models are an emerging framework that have recently overcome the performance of the generative adversarial networks in creating synthetic text and high-quality images. Here, we propose and discuss the quantum generalization of diffusion models, i.e., three quantum-noise-driven generative diffusion models that could be experimentally tested on real quantum systems. The idea is to harness unique quantum features, in particular the non-trivial interplay among coherence, entanglement and noise that the currently available noisy quantum processors do unavoidably suffer from, in order to overcome the main computational burdens of classical diffusion models during inference. Hence, we suggest to exploit quantum noise not as an issue to be detected and solved but instead as a very remarkably beneficial key ingredient to generate much more complex probability distributions that would be difficult or even impossible to express classically, and from which a quantum processor might sample more efficiently than a classical one. An example of numerical simulations for an hybrid classical-quantum generative diffusion model is also included. Therefore, our results are expected to pave the way for new quantum-inspired or quantum-based generative diffusion algorithms addressing more powerfully classical tasks as data generation/prediction with widespread real-world applications ranging from climate forecasting to neuroscience, from traffic flow analysis to financial forecasting.
翻訳日:2023-09-28 18:47:50 公開日:2023-09-27
# 模範のない授業インクリメンタル学習のための初期学習戦略の分析

An Analysis of Initial Training Strategies for Exemplar-Free Class-Incremental Learning ( http://arxiv.org/abs/2308.11677v2 )

ライセンス: Link先を確認
Gr\'egoire Petit, Michael Soumm, Eva Feillet, Adrian Popescu, Bertrand Delezoide, David Picard, C\'eline Hudelot(参考訳) CIL(Class-Incremental Learning)は、データストリームから分類モデルを構築することを目的としている。 CILプロセスの各ステップでは、新しいクラスをモデルに統合する必要があります。 破滅的な忘れ物のため、過去のクラスの例が保存できない場合、特にCILは難しいです。 現在、ほとんどのアプローチは、CILプロセスのターゲットデータセットのみに基づいている。 しかし、大量のデータに対して自己教師付きで事前訓練されたモデルの使用は、最近勢いを増している。 CILプロセスの初期モデルは、ターゲットデータセットの最初のバッチのみを使用するか、補助データセットで得られたトレーニング済み重量を使用することができる。 これら2つの初期学習戦略の選択は、漸進学習モデルの性能に大きな影響を及ぼすが、まだ深く研究されていない。 パフォーマンスはcilアルゴリズムの選択、ニューラルアーキテクチャ、ターゲットタスクの性質、ストリーム内のクラス分布、学習に利用可能なサンプル数にも影響されている。 これらの要因の役割を評価するための総合的な実験的研究を行う。 本稿では,各因子のインクリメンタルパフォーマンスへの相対的寄与を定量化する統計解析フレームワークを提案する。 我々の主な発見は、最初のトレーニング戦略が平均的な漸進的精度に影響を与える主要な要因であるが、CILアルゴリズムの選択は忘れることを防ぐために重要であることである。 そこで本研究では,段階的な学習用ユースケースに対して,適切な初期訓練戦略を選択するための実践的勧告を提案する。 これらの推奨は、インクリメンタル学習の実用的な展開を促進することを目的としている。

Class-Incremental Learning (CIL) aims to build classification models from data streams. At each step of the CIL process, new classes must be integrated into the model. Due to catastrophic forgetting, CIL is particularly challenging when examples from past classes cannot be stored, the case on which we focus here. To date, most approaches are based exclusively on the target dataset of the CIL process. However, the use of models pre-trained in a self-supervised way on large amounts of data has recently gained momentum. The initial model of the CIL process may only use the first batch of the target dataset, or also use pre-trained weights obtained on an auxiliary dataset. The choice between these two initial learning strategies can significantly influence the performance of the incremental learning model, but has not yet been studied in depth. Performance is also influenced by the choice of the CIL algorithm, the neural architecture, the nature of the target task, the distribution of classes in the stream and the number of examples available for learning. We conduct a comprehensive experimental study to assess the roles of these factors. We present a statistical analysis framework that quantifies the relative contribution of each factor to incremental performance. Our main finding is that the initial training strategy is the dominant factor influencing the average incremental accuracy, but that the choice of CIL algorithm is more important in preventing forgetting. Based on this analysis, we propose practical recommendations for choosing the right initial training strategy for a given incremental learning use case. These recommendations are intended to facilitate the practical deployment of incremental learning.
翻訳日:2023-09-28 18:47:23 公開日:2023-09-27
# 視聴覚クラスインクリメンタルラーニング

Audio-Visual Class-Incremental Learning ( http://arxiv.org/abs/2308.11073v2 )

ライセンス: Link先を確認
Weiguo Pian, Shentong Mo, Yunhui Guo, Yapeng Tian(参考訳) 本稿では,音声視覚ビデオ認識のためのクラス増分学習シナリオである音声視覚クラス増分学習を紹介する。 音声と視覚の同時モデリングは, クラスインクリメンタル学習を改善できるが, 現在の手法では, 漸進的なステップが進むにつれて, 音声と視覚の特徴間の意味的類似性は維持できない。 さらに,前回の課題で学習した視聴覚相関は,漸進的なステップが進むにつれて忘れられ,性能が低下する傾向が観察された。 これらの課題を克服するために,av-cilでは,インスタンス認識とクラス認識の両方の意味的類似性を維持するために,d-avsc(d-audio-visual similarity constraint)を組み込んだav-cilを提案する。 AVE, Kinetics-Sounds, VGGSound100-Class-Incremental, VGGSound100-Class-Incremental, AVE, Kinetics-Sounds, VGGSoundの3つのクラスインクリメンタルデータセットを作成する。 AVE-CI, K-S-CI, VS100-CI を用いた実験により, AV-CIL が既存のクラス増分学習法よりも優れていることが示された。 コードとデータは、https://github.com/weiguopian/av-cil_iccv2023で入手できる。

In this paper, we introduce audio-visual class-incremental learning, a class-incremental learning scenario for audio-visual video recognition. We demonstrate that joint audio-visual modeling can improve class-incremental learning, but current methods fail to preserve semantic similarity between audio and visual features as incremental step grows. Furthermore, we observe that audio-visual correlations learned in previous tasks can be forgotten as incremental steps progress, leading to poor performance. To overcome these challenges, we propose AV-CIL, which incorporates Dual-Audio-Visual Similarity Constraint (D-AVSC) to maintain both instance-aware and class-aware semantic similarity between audio-visual modalities and Visual Attention Distillation (VAD) to retain previously learned audio-guided visual attentive ability. We create three audio-visual class-incremental datasets, AVE-Class-Incremental (AVE-CI), Kinetics-Sounds-Class-Incremental (K-S-CI), and VGGSound100-Class-Incremental (VS100-CI) based on the AVE, Kinetics-Sounds, and VGGSound datasets, respectively. Our experiments on AVE-CI, K-S-CI, and VS100-CI demonstrate that AV-CIL significantly outperforms existing class-incremental learning methods in audio-visual class-incremental learning. Code and data are available at: https://github.com/weiguoPian/AV-CIL_ICCV2023.
翻訳日:2023-09-28 18:47:00 公開日:2023-09-27
# アクションと言語によるエージェントコミュニケーションと学習の促進

Enhancing Agent Communication and Learning through Action and Language ( http://arxiv.org/abs/2308.10842v3 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 教師と学習者の両方として機能するgcエージェントの新たなカテゴリを提案する。 アクションベースのデモンストレーションと言語ベースの命令を活用することで、これらのエージェントはコミュニケーション効率を高める。 教育学とプラグマティズム,人間のコミュニケーションと目標達成に不可欠な要素,エージェントの指導と学習能力の向上について検討した。 さらに,コミュニケーションモード(行動と言語)の組み合わせが学習結果に与える影響についても検討し,マルチモーダルアプローチのメリットを強調した。

We introduce a novel category of GC-agents capable of functioning as both teachers and learners. Leveraging action-based demonstrations and language-based instructions, these agents enhance communication efficiency. We investigate the incorporation of pedagogy and pragmatism, essential elements in human communication and goal achievement, enhancing the agents' teaching and learning capabilities. Furthermore, we explore the impact of combining communication modes (action and language) on learning outcomes, highlighting the benefits of a multi-modal approach.
翻訳日:2023-09-28 18:46:25 公開日:2023-09-27
# パープレキシティによる汚染推定:言語モデル評価における記憶の定量化

Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model Evaluation ( http://arxiv.org/abs/2309.10677v2 )

ライセンス: Link先を確認
Yucheng Li(参考訳) 大規模言語モデルの大規模なトレーニングコーパスが、しばしば意図せずベンチマークサンプルを含んでいるため、モデル評価におけるデータの汚染がますます広まっている。 そのため,汚染分析は信頼性モデル評価の必然的な部分となっている。 しかし、既存の汚染分析の方法は、最近のモデルでは秘密化されることが多いトレーニングデータ全体にアクセスする必要がある。 これにより、コミュニティはこれらのモデルを厳密に監査し、その能力の正確な評価を行うことができる。 本稿では,過度に汚染の程度を測定するために,完全なトレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。 本分析では,最近の基礎モデルにおいて,読解,要約ベンチマークにおいて重要な記憶の証拠を提供するとともに,複数の選択があまり汚染されないことを示す。

Data contamination in model evaluation is getting increasingly prevalent as the massive training corpora of large language models often unintentionally include benchmark samples. Therefore, contamination analysis has became an inevitable part of reliable model evaluation. However, existing method of contamination analysis requires the access of the entire training data which is often confidential for recent models. This prevent the community to rigorously audit these models and conduct accurate assessment of their capability. In this paper, we propose a novel method to quantify contamination without the access of the full training set, that measure the extent of contamination with perplexity. Our analysis provides evidence of significant memorisation of recent foundation models in popular reading comprehension, summarisation benchmarks, while multiple choice appears less contaminated.
翻訳日:2023-09-28 18:40:26 公開日:2023-09-27
# AstroPortal:天文学、宇宙飛行士、その他の宇宙トピックのためのオントロジーリポジトリの概念

AstroPortal: An ontology repository concept for astronomy, astronautics and other space topics ( http://arxiv.org/abs/2309.10288v2 )

ライセンス: Link先を確認
Robert J. Rovetto(参考訳) 本稿では、天文学、宇宙科学、その他の宇宙関連トピックのオントロジーのリポジトリについて述べる。 AstroPortal(またはSpacePortal)、AstroHub(またはSpaceHub)などとも呼ばれる。 このリポジトリの作成は、学術、研究、その他のデータ集約分野に適用できる。 宇宙科学(天文学を含む)、地球科学、宇宙科学(宇宙飛行)、その他のデータ集約的な分野に関係している。 リポジトリは、astro関連のトピックのオントロジーを検索、レビュー、作成するための集中型プラットフォームを提供する必要がある。 これにより、研究時間を短縮できると同時に、対象ドメインの知識組織システムやセマンティックリソースを研究・比較するためのユーザフレンドリーな手段を提供する。 対象ドメインに明らかなリポジトリがないため,本論文は新たな概念も表現している。

This paper describes a repository for ontologies of astronomy, astronautics, and other space-related topics. It may be called AstroPortal (or SpacePortal), AstroHub (or SpaceHub), etc. The creation of this repository will be applicable to academic, research and other data-intensive sectors. It is relevant for space sciences (including astronomy), Earth science, and astronautics (spaceflight), among other data-intensive disciplines. The repository should provide a centralized platform to search, review and create ontologies for astro-related topics. It thereby can decrease research time, while also providing a user-friendly means to study and compare knowledge organization systems or semantic resources of the target domains. With no apparent repository available on the target domain, this paper also expresses a novel concept.
翻訳日:2023-09-28 18:40:16 公開日:2023-09-27
# 重ね合わせ回帰による誤差低減

Error Reduction from Stacked Regressions ( http://arxiv.org/abs/2309.09880v2 )

ライセンス: Link先を確認
Xin Chen and Jason M. Klusowski and Yan Shuo Tan(参考訳) stacking regressionsは、予測精度を高めるために異なる回帰推定器の線形結合を形成するアンサンブルテクニックである。 従来のアプローチでは、クロスバリデーションデータを使用して構成推定子から予測を生成し、非負性制約のある最小二乗数で重み付けを学習する。 本稿では,非負性制約による人口リスクの推定を最小化することにより,これらの重みを類似的に学習する。 構成推定器が少なくとも3次元で区切られたネスト付き部分空間への線形最小二乗射影である場合, 縮退効果により, 結果として得られる累積推定器の人口リスクは, 最上位の単一推定器よりも厳密に小さいことを示す。 ここで「ベスト」とは、AICやBICのようなモデル選択基準を最小化する推定器を指す。 言い換えれば、この設定では、最高の単一推定子は許容できない。 最適化問題は等調回帰として再構成できるため、積み重ねられた推定器は最高の単一推定器と同じ計算順序を必要とするため、性能と実装の両面で魅力的な代替手段となる。

Stacking regressions is an ensemble technique that forms linear combinations of different regression estimators to enhance predictive accuracy. The conventional approach uses cross-validation data to generate predictions from the constituent estimators, and least-squares with nonnegativity constraints to learn the combination weights. In this paper, we learn these weights analogously by minimizing an estimate of the population risk subject to a nonnegativity constraint. When the constituent estimators are linear least-squares projections onto nested subspaces separated by at least three dimensions, we show that thanks to a shrinkage effect, the resulting stacked estimator has strictly smaller population risk than best single estimator among them. Here "best" refers to an estimator that minimizes a model selection criterion such as AIC or BIC. In other words, in this setting, the best single estimator is inadmissible. Because the optimization problem can be reformulated as isotonic regression, the stacked estimator requires the same order of computation as the best single estimator, making it an attractive alternative in terms of both performance and implementation.
翻訳日:2023-09-28 18:40:04 公開日:2023-09-27
# 屋内シーン理解のための構造交換によるパノミックススワップパノラマ混合

PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene Understanding ( http://arxiv.org/abs/2309.09514v2 )

ライセンス: Link先を確認
Yu-Cheng Hsieh, Cheng Sun, Suraj Dengale, Min Sun(参考訳) 訓練データの量と多様性は、現代の深層学習手法にとって重要である。 ラベル付き視点画像と比較すると、360パノラマ画像は体積と多様性の両方で不足している。 本稿では,室内パノラマ画像に特化して設計された新しいデータ拡張技術であるPanoMixSwapを提案する。 PanoMixSwapは、既存の屋内パノラマデータセットからさまざまな背景スタイル、前景家具、部屋レイアウトを明示的に混合し、データセットを豊かにするさまざまなパノラマ画像を生成する。 まず,各パノラマ画像から背景スタイル,前景家具,室内レイアウトなどを構成する部分に分割する。 そして、これら3つの部分を1つの画像から前景家具、別の画像から背景スタイル、そして3番目の画像から部屋構造といった3つの異なる画像から混合して拡張画像を生成する。 画像の組み合わせが3次的に増加するため,本手法は高い多様性をもたらす。 また,屋内シーン理解におけるPanoMixSwapの有効性を,セマンティックセグメンテーションとレイアウト推定の2つで評価した。 実験では,panomixswapでトレーニングされた最先端の手法が,両タスクの本来の設定を一貫して上回ることを実証した。

The volume and diversity of training data are critical for modern deep learningbased methods. Compared to the massive amount of labeled perspective images, 360 panoramic images fall short in both volume and diversity. In this paper, we propose PanoMixSwap, a novel data augmentation technique specifically designed for indoor panoramic images. PanoMixSwap explicitly mixes various background styles, foreground furniture, and room layouts from the existing indoor panorama datasets and generates a diverse set of new panoramic images to enrich the datasets. We first decompose each panoramic image into its constituent parts: background style, foreground furniture, and room layout. Then, we generate an augmented image by mixing these three parts from three different images, such as the foreground furniture from one image, the background style from another image, and the room structure from the third image. Our method yields high diversity since there is a cubical increase in image combinations. We also evaluate the effectiveness of PanoMixSwap on two indoor scene understanding tasks: semantic segmentation and layout estimation. Our experiments demonstrate that state-of-the-art methods trained with PanoMixSwap outperform their original setting on both tasks consistently.
翻訳日:2023-09-28 18:39:42 公開日:2023-09-27
# 提案要求に対するオープンデータ駆動チーム推奨によるリサーチコラボレーションの促進

Promoting Research Collaboration with Open Data Driven Team Recommendation in Response to Call for Proposals ( http://arxiv.org/abs/2309.09404v2 )

ライセンス: Link先を確認
Siva Likitha Valluru, Biplav Srivastava, Sai Teja Paladi, Siwen Yan, Sriraam Natarajan(参考訳) チームの構築とコラボレーションの促進は2つの非常に一般的なビジネス活動です。 例えばteamingforfunding問題では、研究機関や研究者が、後者の提案に応じて資金提供機関に申し込む際の協力的な機会を特定することに関心を持っている。 本稿では,(1)各チームが,その機会に要求される最高のスキルカバレッジを達成し,(2)その機会を分配する作業負荷が,候補メンバー間でバランスをとるような,さまざまなAI手法を用いてチームを推薦するシステムについて述べる。 我々は,提案コール(需要)と研究者プロファイル(供給)のオープンデータに潜んでいるスキルを抽出し,分類法を用いてそれらを正規化し,供給需要にマッチする効率的なアルゴリズムを作成することで,これらの疑問に対処した。 短期と長期の目標のバランスをとる新しいメトリクスに沿って、良さを最大化するチームを作ります。 我々は,(1) アルゴリズムの成功を定量的に検証し,(1) 優れたスコアを用いて推奨チームを評価し,より情報のある手法がより少ない人数のチームの推薦につながること,(2) 大学レベルの大規模ユーザスタディを実施することによって質的に,そのツールが極めて有用かつ関連性の高いものであることを示す。 最後に,我々のアプローチの汎用性を確立するために,米国とインド(研究者と提案コール)の2つの異なる環境でシステムを評価し,日常的な使用のために米国の主要大学に展開する。

Building teams and promoting collaboration are two very common business activities. An example of these are seen in the TeamingForFunding problem, where research institutions and researchers are interested to identify collaborative opportunities when applying to funding agencies in response to latter's calls for proposals. We describe a novel system to recommend teams using a variety of AI methods, such that (1) each team achieves the highest possible skill coverage that is demanded by the opportunity, and (2) the workload of distributing the opportunities is balanced amongst the candidate members. We address these questions by extracting skills latent in open data of proposal calls (demand) and researcher profiles (supply), normalizing them using taxonomies, and creating efficient algorithms that match demand to supply. We create teams to maximize goodness along a novel metric balancing short- and long-term objectives. We validate the success of our algorithms (1) quantitatively, by evaluating the recommended teams using a goodness score and find that more informed methods lead to recommendations of smaller number of teams but higher goodness, and (2) qualitatively, by conducting a large-scale user study at a college-wide level, and demonstrate that users overall found the tool very useful and relevant. Lastly, we evaluate our system in two diverse settings in US and India (of researchers and proposal calls) to establish generality of our approach, and deploy it at a major US university for routine use.
翻訳日:2023-09-28 18:39:21 公開日:2023-09-27
# オートエンコーダの幾何学的展望

A Geometric Perspective on Autoencoders ( http://arxiv.org/abs/2309.08247v2 )

ライセンス: Link先を確認
Yonghyeon Lee(参考訳) 本稿では,オートエンコーダフレームワークの幾何学的側面について述べる。 ある低次元多様体上に位置する高次元データ点の集合が与えられたとき、オートエンコーダは \textit{manifold} とその \textit{coordinate chart} を同時に学習する。 この幾何学的視点は自然に「有限個のデータ点の集合が単一の多様体に対応するか」や「多様体を表現できる座標チャートは1つしかないか? これらの質問に対する応答は否定的であり、データセットが与えられた複数のソリューションオートエンコーダが存在することを意味する。 結果として、しばしばひどく歪んだ潜在空間表現を持つ不正確な多様体を生み出す。 本稿ではこれらの問題に対処する最近の幾何学的アプローチを紹介する。

This paper presents the geometric aspect of the autoencoder framework, which, despite its importance, has been relatively less recognized. Given a set of high-dimensional data points that approximately lie on some lower-dimensional manifold, an autoencoder learns the \textit{manifold} and its \textit{coordinate chart}, simultaneously. This geometric perspective naturally raises inquiries like "Does a finite set of data points correspond to a single manifold?" or "Is there only one coordinate chart that can represent the manifold?". The responses to these questions are negative, implying that there are multiple solution autoencoders given a dataset. Consequently, they sometimes produce incorrect manifolds with severely distorted latent space representations. In this paper, we introduce recent geometric approaches that address these issues.
翻訳日:2023-09-28 18:38:54 公開日:2023-09-27
# 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs ( http://arxiv.org/abs/2309.07311v2 )

ライセンス: Link先を確認
Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra(参考訳) NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。 しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。 本稿では,マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。 本研究は,学習を通して解釈可能な人工物の進化を分析することで,創発的行動の理解を深めることを示す。 特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。 モデルが突然SASを取得すると、トレーニング中の短いウィンドウを識別し、このウィンドウは損失の急激な減少と同時であることを示す。 さらに、SASはその後の言語能力の獲得を早める。 次に,SASの因果的役割について,トレーニング中にSASを操作するための正規化器を導入し,文法能力の発達にSASが必要であることを示す。 さらに、SASはトレーニング中に他の有益な特性や能力と競合し、SASを短時間抑制することでモデル品質が向上することがわかった。 これらの結果は、不利な単純さバイアスと解釈可能なブレークスルートレーニングダイナミクスの関係の実際の例を示している。

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. In this paper, we present a case study of syntax acquisition in masked language models (MLMs). Our findings demonstrate how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in training when models abruptly acquire SAS and find that this window is concurrent with a steep drop in loss. Moreover, SAS precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by introducing a regularizer to manipulate SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits and capabilities during training, and that briefly suppressing SAS can improve model quality. These findings reveal a real-world example of the relationship between disadvantageous simplicity bias and interpretable breakthrough training dynamics.
翻訳日:2023-09-28 18:38:41 公開日:2023-09-27
# 半構造化アクティベーションスパーシティによるディープニューラルネットワークの高速化

Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity ( http://arxiv.org/abs/2309.06626v2 )

ライセンス: Link先を確認
Matteo Grimaldi, Darshan C. Ganji, Ivan Lazarevich, Sudhakar Sah(参考訳) 組み込みデバイス上でのディープニューラルネットワーク(DNN)の効率的な処理の要求は、デプロイメントを制限する重要な課題である。 ネットワークの機能マップにおけるスパーシティの利用は、その推論遅延を減らす方法の1つです。 非構造的なスパーシリティは、構造化されたスパーシリティに対して低い精度の劣化をもたらすことが知られているが、前者はレイテンシの利点を得るために広範な推論エンジンの変更を必要とする。 この課題に取り組むため,我々は,半構造化アクティベーションスパーシティをマイナーなランタイム変更によって悪用する解決策を提案する。 推定時に高いスピードアップレベルを達成するために,一般行列乗算(gemm)を計算しながら,アクティベーションの最終位置を意識したスパーストレーニング手順を設計する。 画像分類や物体検出タスクの様々なモデルにおいて,提案手法を広範囲に評価する。 注目すべきは、ImageNetデータセット上のResNet18モデルに対して、最小精度の1.1\%の1.25 \times$のスピード改善が得られることだ。 さらに、最先端の構造化プルーニング手法と組み合わせることで、得られたモデルは、構造化プルーニング技術のみを用いる優れた遅延精度のトレードオフを提供する。

The demand for efficient processing of deep neural networks (DNNs) on embedded devices is a significant challenge limiting their deployment. Exploiting sparsity in the network's feature maps is one of the ways to reduce its inference latency. It is known that unstructured sparsity results in lower accuracy degradation with respect to structured sparsity but the former needs extensive inference engine changes to get latency benefits. To tackle this challenge, we propose a solution to induce semi-structured activation sparsity exploitable through minor runtime modifications. To attain high speedup levels at inference time, we design a sparse training procedure with awareness of the final position of the activations while computing the General Matrix Multiplication (GEMM). We extensively evaluate the proposed solution across various models for image classification and object detection tasks. Remarkably, our approach yields a speed improvement of $1.25 \times$ with a minimal accuracy drop of $1.1\%$ for the ResNet18 model on the ImageNet dataset. Furthermore, when combined with a state-of-the-art structured pruning method, the resulting models provide a good latency-accuracy trade-off, outperforming models that solely employ structured pruning techniques.
翻訳日:2023-09-28 18:38:00 公開日:2023-09-27
# 言語エージェントのための認知アーキテクチャ

Cognitive Architectures for Language Agents ( http://arxiv.org/abs/2309.02427v2 )

ライセンス: Link先を確認
Theodore R. Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths(参考訳) 近年、大規模な言語モデル(LLM)を外部リソース(例えばインターネット)や内部制御フロー(例えば、素因付けや推論を必要とするタスクの連鎖)で拡張し、新しい種類の言語エージェントを生み出している。 これらのエージェントは経験的成功をおさめたものの,既存のエージェントを組織化し,今後の展開を計画するための体系的な枠組みは欠如している。 本稿では,認知科学と象徴的人工知能の豊富な歴史を振り返り,言語エージェントのための認知アーキテクチャ(CoALA)を提案する。 CoALAはモジュラーメモリコンポーネントを備えた言語エージェント、内部メモリと外部環境と相互作用する構造化されたアクションスペース、アクションを選択するための一般的な意思決定プロセスを記述する。 我々は、CoALAを使用して、振り返りによる調査と、最近の多くの作業の組織化を行い、より有能なエージェントに対する行動可能な方向を前向きに特定します。 CoALAはAIの幅広い歴史の中で、今日の言語エージェントを文脈的に扱い、言語ベースの汎用インテリジェンスへの道を概説している。

Recent efforts have augmented large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning, leading to a new class of language agents. While these agents have achieved substantial empirical success, we lack a systematic framework to organize existing agents and plan future developments. In this paper, we draw on the rich history of cognitive science and symbolic artificial intelligence to propose Cognitive Architectures for Language Agents (CoALA). CoALA describes a language agent with modular memory components, a structured action space to interact with internal memory and external environments, and a generalized decision-making process to choose actions. We use CoALA to retrospectively survey and organize a large body of recent work, and prospectively identify actionable directions towards more capable agents. Taken together, CoALA contextualizes today's language agents within the broader history of AI and outlines a path towards language-based general intelligence.
翻訳日:2023-09-28 18:37:41 公開日:2023-09-27
# 多スペクトル深層ニューラルネットワークのロバスト性と解釈性に及ぼすアーキテクチャの影響

Impact of architecture on robustness and interpretability of multispectral deep neural networks ( http://arxiv.org/abs/2309.12463v2 )

ライセンス: Link先を確認
Charles Godfrey, Elise Bishoff, Myles McKay and Eleanor Byler(参考訳) 追加のスペクトルバンド(近赤外など)の情報を含むことで、多くの視覚指向タスクでディープラーニングモデルのパフォーマンスが向上する。 この追加情報をディープラーニングモデルに組み込む方法はたくさんあるが、最適な融合戦略はまだ決定されておらず、アプリケーションによって異なる可能性がある。 初期の融合」として知られる極端には、追加のバンドを余分なチャンネルとして積み重ねて、3つ以上のチャンネルを持つ入力画像を得る。 他方の極端では、RGBと非RGBバンドは、深層学習モデルの別々の分岐を通過し、最終分類層や分節層の直前にマージされる。 本研究では、異なる融合アプローチによる多スペクトル深層学習モデルの性能を特徴付け、異なる入力帯域に対する相対的依存を定量化し、1つ以上の入力チャネルに影響を及ぼす自然主義的な画像破壊に対する頑健さを評価する。

Including information from additional spectral bands (e.g., near-infrared) can improve deep learning model performance for many vision-oriented tasks. There are many possible ways to incorporate this additional information into a deep learning model, but the optimal fusion strategy has not yet been determined and can vary between applications. At one extreme, known as "early fusion," additional bands are stacked as extra channels to obtain an input image with more than three channels. At the other extreme, known as "late fusion," RGB and non-RGB bands are passed through separate branches of a deep learning model and merged immediately before a final classification or segmentation layer. In this work, we characterize the performance of a suite of multispectral deep learning models with different fusion approaches, quantify their relative reliance on different input bands and evaluate their robustness to naturalistic image corruptions affecting one or more input channels.
翻訳日:2023-09-28 18:27:43 公開日:2023-09-27
# 雑音量子力学におけるディック状態によるハイゼンベルク極限の実現

Achieving the Heisenberg limit with Dicke states in noisy quantum metrology ( http://arxiv.org/abs/2309.12411v2 )

ライセンス: Link先を確認
Zain H. Saleem, Michael Perlin, Anil Shaji, Stephen K. Gray(参考訳) ノイズ量子メトロロジーにおける標準量子限界を超えることは、非常に難しい課題である。 ここでは、ディッケ状態を用いて標準量子極限を超え、開量子系においてハイゼンベルク極限を達成する方法を示す。 本研究では, 共振器と共振器を対称に結合し, 共振器と共振器の結合を推定するシステムを提案する。 結合に関する時間依存的な量子フィッシャー情報は、全ての量子ビット上で同じ減衰率が仮定されるオープン量子系に対して研究される。 系が最適励起数でディック状態に初期化されると、標準量子極限を超え、量子ビットと共振器上の崩壊の有限値に対してもハイゼンベルク極限を達成することができることを示す。 比較すると、非常に絡み合ったGHZ状態は、非常に良くない。 この結果から,初期プローブ状態の絡み合いの程度だけでなく,ノイズに対する抵抗性も考慮し,最適センシング性能を実現する必要があることがわかった。

Going beyond the standard quantum limit in noisy quantum metrology is a very challenging task. Here we show how Dicke states can be used to surpass the standard quantum limit and achieve the Heisenberg limit in open quantum systems. The system we study has qubits symmetrically coupled to a resonator and our objective is to estimate the coupling between the qubits and the resonator. The time-dependent quantum Fisher information with respect to the coupling is studied for this open quantum system where the same decay rates are assumed on all qubits. We show that when the system is initialized to a Dicke state with an optimal excitation number one can go beyond the standard quantum limit and achieve the Heisenberg limit even for finite values of the decays on the qubit and the resonator. For comparison, we find that the highly entangled GHZ state performs quite poorly. Our results show that one must consider not only the degree of entanglement of an initial probe state, but its resilience to noise in order to achieve optimum sensing performance.
翻訳日:2023-09-28 18:27:27 公開日:2023-09-27
# slhcat:セマンティック、語彙、階層的機能を活用したwikipediaのカテゴリとリストをdbpediaにマッピングする

SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features ( http://arxiv.org/abs/2309.11791v2 )

ライセンス: Link先を確認
Zhaoyi Wang, Zhenyang Zhang, Jiaxin Qin, Mizuho Iwaihara(参考訳) wikipediaの記事はカテゴリやリストを通じて階層的に整理され、最も包括的で普遍的な分類の1つを提供しているが、そのオープンな作成は冗長性と不一致を引き起こしている。 DBPediaクラスをWikipediaのカテゴリやリストに割り当てることで、エンティティリンクとタイピングを通じてデジタルコンテンツを分類するのに不可欠な大きな知識グラフを実現することができる。 しかし、CaLiGraphの既存のアプローチは、不完全できめ細かいマッピングを生み出している。 本稿では,オントロジー・アライメント(オントロジー・アライメント)の課題として,知識グラフの構造情報と,オントロジー・クラス名の語彙的・意味的特徴を利用して,信頼度の高いマッピングを発見する。 slhcat は2つの主要な部分からなる。 1)知識グラフ構造,意味的類似性,名前付きエンティティタイピングを活用した学習データの自動生成。 2) 学習済み言語モデルBERTの微調整と迅速な調整をトレーニングデータ上で行い, クラス名の意味的・統語的特性を捉える。 我々のモデルSLHCatは、3000の微細なCaLiGraph-DBpediaマッピングペアをアノテートすることで構築されたベンチマークデータセットで評価される。 slhcatはベースラインモデルを25%の精度で上回っており、大規模なオントロジーマッピングの実用的なソリューションを提供している。

Wikipedia articles are hierarchically organized through categories and lists, providing one of the most comprehensive and universal taxonomy, but its open creation is causing redundancies and inconsistencies. Assigning DBPedia classes to Wikipedia categories and lists can alleviate the problem, realizing a large knowledge graph which is essential for categorizing digital contents through entity linking and typing. However, the existing approach of CaLiGraph is producing incomplete and non-fine grained mappings. In this paper, we tackle the problem as ontology alignment, where structural information of knowledge graphs and lexical and semantic features of ontology class names are utilized to discover confident mappings, which are in turn utilized for finetuing pretrained language models in a distant supervision fashion. Our method SLHCat consists of two main parts: 1) Automatically generating training data by leveraging knowledge graph structure, semantic similarities, and named entity typing. 2) Finetuning and prompt-tuning of the pre-trained language model BERT are carried out over the training data, to capture semantic and syntactic properties of class names. Our model SLHCat is evaluated over a benchmark dataset constructed by annotating 3000 fine-grained CaLiGraph-DBpedia mapping pairs. SLHCat is outperforming the baseline model by a large margin of 25% in accuracy, offering a practical solution for large-scale ontology mapping.
翻訳日:2023-09-28 18:27:08 公開日:2023-09-27
# 大規模言語モデルはワードレベル摂動に本当にロバストか?

Are Large Language Models Really Robust to Word-Level Perturbations? ( http://arxiv.org/abs/2309.11166v2 )

ライセンス: Link先を確認
Haoyu Wang, Guozheng Ma, Cong Yu, Ning Gui, Linrui Zhang, Zhiqi Huang, Suwei Ma, Yongzhe Chang, Sen Zhang, Li Shen, Xueqian Wang, Peilin Zhao, Dacheng Tao(参考訳) 大規模言語モデル(llm)のスケールと能力の迅速な向上は、それらをさまざまなダウンストリームタスクの有望なツールとして位置付けている。 より優れたパフォーマンスの追求と一定のプロンプトに対する暴力的フィードバックの回避に加えて、LLMの責任を確実にするため、LLMの堅牢性に多くの注意が払われる。 しかし,既存の評価手法は,従来の質問応答データセットと事前定義された教師付きラベルに大きく依存しており,現代のLLMの優れた生成能力と一致しない。 そこで本研究では,事前学習した報酬モデルを診断ツールとして利用する新しい合理的評価手法を提案し,llmsによるより難解な質問から生じる会話長を,合理的なロバスト性評価のための報酬モデル(treval)として評価する。 長い会話は、個々の単語や文字に完全に包含されない能力である質問の理解能力の観点から言語モデルの包括的把握を示し、単純化と固有のバイアスを示す。 我々の広範な実証実験により、TREvaLはLLMのロバスト性を評価する革新的な方法であることが示された。 さらに,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。 特に,ファインチューニング (SFT, RLHF) の実施によりロバストネスが低下する傾向がみられた。 TREvalのコードはhttps://github.com/Harry-mic/TREvaLで公開されている。

The swift advancement in the scales and capabilities of Large Language Models (LLMs) positions them as promising tools for a variety of downstream tasks. In addition to the pursuit of better performance and the avoidance of violent feedback on a certain prompt, to ensure the responsibility of the LLM, much attention is drawn to the robustness of LLMs. However, existing evaluation methods mostly rely on traditional question answering datasets with predefined supervised labels, which do not align with the superior generation capabilities of contemporary LLMs. To address this issue, we propose a novel rational evaluation approach that leverages pre-trained reward models as diagnostic tools to evaluate the longer conversation generated from more challenging open questions by LLMs, which we refer to as the Reward Model for Reasonable Robustness Evaluation (TREvaL). Longer conversations manifest the comprehensive grasp of language models in terms of their proficiency in understanding questions, a capability not entirely encompassed by individual words or letters, which may exhibit oversimplification and inherent biases. Our extensive empirical experiments demonstrate that TREvaL provides an innovative method for evaluating the robustness of an LLM. Furthermore, our results demonstrate that LLMs frequently exhibit vulnerability to word-level perturbations that are commonplace in daily language usage. Notably, we are surprised to discover that robustness tends to decrease as fine-tuning (SFT and RLHF) is conducted. The code of TREval is available in https://github.com/Harry-mic/TREvaL.
翻訳日:2023-09-28 18:26:42 公開日:2023-09-27
# 科学シミュレーションと設計を加速するニューラル演算子

Neural Operators for Accelerating Scientific Simulations and Design ( http://arxiv.org/abs/2309.15325v1 )

ライセンス: Link先を確認
Kamyar Azzizadenesheli, Nikola Kovachki, Zongyi Li, Miguel Liu-Schiaffini, Jean Kossaifi, Anima Anandkumar(参考訳) 科学的発見と工学的設計は、物理実験の時間とコストによって制限されており、主にドメインの深い専門知識を必要とする試行錯誤と直観によって選択されている。 数値シミュレーションは物理実験に代わるものであるが、既存の数値手法の計算要件のため、通常複雑な実世界領域では実現不可能である。 人工知能(AI)は、高速データ駆動サロゲートモデルの開発を通じて、潜在的なパラダイムシフトを示す。 特に、ニューラル演算子として知られるAIフレームワークは、例えば時空間過程や偏微分方程式(PDE)など、連続領域上で定義された関数間の写像を学習するための原則化されたフレームワークを提供する。 トレーニング中に見つからない新しい場所で、すなわちゼロショット超解像を行うソリューションを外挿し、予測することができる。 ニューラル演算子は、計算流体力学、天気予報、物質モデリングなど、多くのアプリケーションで既存のシミュレータを拡張または置き換えることができるが、4-5桁高速である。 さらに、神経演算子は、より細かい解像度で強制される物理学やその他の領域の制約と統合でき、高忠実性ソリューションと良好な一般化を得ることができる。 ニューラル演算子は微分可能であるため、逆設計や他の逆問題に対するパラメータを直接最適化することができる。 ニューラルオペレーターは、シミュレーションと設計に対する変革的なアプローチを示し、迅速な研究と開発を可能にしていると信じている。

Scientific discovery and engineering design are currently limited by the time and cost of physical experiments, selected mostly through trial-and-error and intuition that require deep domain expertise. Numerical simulations present an alternative to physical experiments, but are usually infeasible for complex real-world domains due to the computational requirements of existing numerical methods. Artificial intelligence (AI) presents a potential paradigm shift through the development of fast data-driven surrogate models. In particular, an AI framework, known as neural operators, presents a principled framework for learning mappings between functions defined on continuous domains, e.g., spatiotemporal processes and partial differential equations (PDE). They can extrapolate and predict solutions at new locations unseen during training, i.e., perform zero-shot super-resolution. Neural operators can augment or even replace existing simulators in many applications, such as computational fluid dynamics, weather forecasting, and material modeling, while being 4-5 orders of magnitude faster. Further, neural operators can be integrated with physics and other domain constraints enforced at finer resolutions to obtain high-fidelity solutions and good generalization. Since neural operators are differentiable, they can directly optimize parameters for inverse design and other inverse problems. We believe that neural operators present a transformative approach to simulation and design, enabling rapid research and development.
翻訳日:2023-09-28 17:20:59 公開日:2023-09-27
# 確率ブロックモデルにおけるSVDのパワーについて

On the Power of SVD in the Stochastic Block Model ( http://arxiv.org/abs/2309.15322v1 )

ライセンス: Link先を確認
Xinyu Mao and Jiapeng Zhang(参考訳) クラスタリング結果を改善するための一般的なヒューリスティックな方法は、クラスタリングアルゴリズムを実行する前に次元削減を適用することである。 多くのアプリケーションにおいて,PCAやSVDなどのスペクトルベース次元減少ツールによってクラスタリングアルゴリズムの性能が向上することが観察されている。 この現象は、スペクトル法が次元減少ツールとして機能するだけでなく、ある意味でのクラスタリング手順にも寄与していることを示している。 クラスタリング問題におけるスペクトルステップの挙動を理解することは興味深い問題である。 この方向の最初のステップとして,確率ブロックモデル(SBM)におけるバニラ-SVDアルゴリズムのパワーについて検討する。 対称的な設定では、バニラ-SVDアルゴリズムは全てのクラスタを正しく復元する。 この結果は、Van Vu(Combinatorics Probability and Computing, 2018)が対称的な設定で提起したオープンな質問に答える。

A popular heuristic method for improving clustering results is to apply dimensionality reduction before running clustering algorithms. It has been observed that spectral-based dimensionality reduction tools, such as PCA or SVD, improve the performance of clustering algorithms in many applications. This phenomenon indicates that spectral method not only serves as a dimensionality reduction tool, but also contributes to the clustering procedure in some sense. It is an interesting question to understand the behavior of spectral steps in clustering problems. As an initial step in this direction, this paper studies the power of vanilla-SVD algorithm in the stochastic block model (SBM). We show that, in the symmetric setting, vanilla-SVD algorithm recovers all clusters correctly. This result answers an open question posed by Van Vu (Combinatorics Probability and Computing, 2018) in the symmetric setting.
翻訳日:2023-09-28 17:20:37 公開日:2023-09-27
# キャビティQEDにおけるユニタリと測定によるスピンスクイーズとのトレードオフ

Trade-offs between unitary and measurement induced spin squeezing in cavity QED ( http://arxiv.org/abs/2309.15353v1 )

ライセンス: Link先を確認
Diego Barberena, Anjun Chu, James K. Thompson, Ana Maria Rey(参考訳) 共振器内の単一電磁場モードと相互作用する原子のアンサンブルにおけるスピンスクイーズ生成に対する測定とユニタリ進化の複合効果について検討した。 測定に基づく絡み合い生成がユニタリプロトコルをオーバーパーフォームする条件を決定する単純な基準を導出する。 我々は、全ての関連するデコヒーレンス源を含み、それらの最適なスピンのスクイージングに対する効果と、量子エンハンシング位相測定のダイナミックレンジを制限する測定ノイズの全体サイズの両方について研究する。 我々の結論は、標準量子限界以下の動作を目指す最先端原子時計に関係している。

We study the combined effects of measurements and unitary evolution on the preparation of spin squeezing in an ensemble of atoms interacting with a single electromagnetic field mode inside a cavity. We derive simple criteria that determine the conditions at which measurement based entanglement generation overperforms unitary protocols. We include all relevant sources of decoherence and study both their effect on the optimal spin squeezing and the overall size of the measurement noise, which limits the dynamical range of quantum-enhanced phase measurements. Our conclusions are relevant for state-of-the-art atomic clocks that aim to operate below the standard quantum limit.
翻訳日:2023-09-28 17:10:00 公開日:2023-09-27
# ランダムに結合したパウリスピンのモデル

A model of randomly-coupled Pauli spins ( http://arxiv.org/abs/2309.15349v1 )

ライセンス: Link先を確認
Masanori Hanada, Antal Jevicki, Xianlong Liu, Enrico Rinaldi, Masaki Tezuka(参考訳) sykモデルにおけるマヨラナフェルミオンをスピン作用素に置き換え、全ての4局所相互作用を持つパウリスピン作用素のモデルを構築する。 同様に、フェルミオンをハードコアボソンに置き換える。 このモデルを数値的に検討し,その特性をSYKモデルと比較する。 我々はスピンモデルとSYKモデルとの顕著な定量的な一致を観察し、このスピンモデルは強いカオスであり、ホログラフィーにおいて何らかの役割を果たす可能性があることを示唆している。 また,多局所場を用いた経路積分アプローチと量子シミュレーションの可能性について考察する。 パウリスピンは量子ビットベースの量子デバイス上でのフェルミオンよりも実装が容易であるため、このモデルは量子シミュレーションの興味深いターゲットになるかもしれない。

We construct a model of Pauli spin operators with all-to-all 4-local interactions by replacing Majorana fermions in the SYK model with spin operators. Equivalently, we replace fermions with hard-core bosons. We study this model numerically and compare the properties with those of the SYK model. We observe a striking quantitative coincidence between the spin model and the SYK model, which suggests that this spin model is strongly chaotic and, perhaps, can play some role in holography. We also discuss the path-integral approach with multi-local fields and the possibility of quantum simulations. This model may be an interesting target for quantum simulations because Pauli spins are easier to implement than fermions on qubit-based quantum devices.
翻訳日:2023-09-28 17:09:45 公開日:2023-09-27
# 断層伝搬を伴わないノイズクリフォード回路のシミュレーション

Simulation of noisy Clifford circuits without fault propagation ( http://arxiv.org/abs/2309.15345v1 )

ライセンス: Link先を確認
Nicolas Delfosse and Adam Paetznick(参考訳) 大規模フォールトトレラント量子コンピュータアーキテクチャの設計と最適化は、アーキテクチャの各コンポーネントの性能を評価する数値シミュレーションに大きく依存している。 通常クリフォード回路で実装されるフォールトトレラントガジェットのシミュレーションは、回路の故障をサンプリングし、それらを回路を通して伝播させ、論理データを破損しないようにする。 フォールトトレラントガジェットの性能を正確に見積もるために、この障害伝播を何兆回も繰り返す必要があるかもしれない。 表面符号の標準シンドローム抽出回路などの特定回路では,故障集合の自然なグラフ構造を利用して,故障伝播を伴わずにシミュレーションを行うことができる。 本稿では,故障伝播を必要としないクリフォード回路のシミュレーションアルゴリズムを提案し,その代わりに,回路の時空符号の数学的構造を利用する。 私たちがabcシミュレーションと呼ぶアルゴリズムは,[14]からの命題3の意味で,進行伝播が後方伝播の随伴であるという事実に依存している。 この結果は、少数のパウリ作用素の後方伝播によって、数兆の故障構成の伝播を置き換えるために用いられる。

The design and optimization of a large-scale fault-tolerant quantum computer architecture relies extensively on numerical simulations to assess the performance of each component of the architecture. The simulation of fault-tolerant gadgets, which are typically implemented by Clifford circuits, is done by sampling circuit faults and propagating them through the circuit to check that they do not corrupt the logical data. One may have to repeat this fault propagation trillions of times to extract an accurate estimate of the performance of a fault-tolerant gadget. For some specific circuits, such as the standard syndrome extraction circuit for surface codes, we can exploit the natural graph structure of the set of faults to perform a simulation without fault propagation. We propose a simulation algorithm for all Clifford circuits that does not require fault propagation and instead exploits the mathematical structure of the spacetime code of the circuit. Our algorithm, which we name adjoint-based code (ABC) simulation, relies on the fact that propagation forward is the adjoint of propagation backward in the sense of Proposition 3 from [14]. We use this result to replace the propagation of trillions of fault-configurations by the backward propagation of a small number of Pauli operators which can be precomputed once and for all.
翻訳日:2023-09-28 17:09:23 公開日:2023-09-27
# 多光子遷移による並列量子ゲートの1次クロストーク緩和

First-Order Crosstalk Mitigation in Parallel Quantum Gates Driven With Multi-Photon Transitions ( http://arxiv.org/abs/2309.15342v1 )

ライセンス: Link先を確認
Matthew N. H. Chow, Christopher G. Yale, Ashlyn D. Burch, Megan Ivory, Daniel S. Lobser, Melissa C. Revelle, and Susan M. Clark(参考訳) 個々のアドレスビームを駆動する単一キュービットゲートにおいて,隣接したトラップイオン量子ビットに対する光クロストークに対する感度が桁違いに低下することを示す。 ゲートは2光子ラマン遷移によって実装され、各キュービットの駆動周波数をオフセットすることでクロストークを緩和し、ビーム間2光子共鳴による1次クロストーク効果を避ける。 この手法は実装が簡単であり、最も影響の大きい隣人に光干渉による位相依存クロストークが、クロストークを緩和戦略で$\leq$ 0.006に減らすことなく0.185(4)の最大分数回転誤差から減少する。 さらに、二量子ゲートにおける一階クロストークを特徴付け、位相非依存複合ゲートを介して任意の軸m{\o}lmer-s{\o}rensenゲートの回転誤差を回避する。 最後に、改良された単一量子ゲートと位相非依存の2量子ゲートを用いて複合CNOTゲートを構築することで、全体システム性能を示す。 この研究はQSCOUT(Quantum Scientific Computing Open User Testbed)上で行われているが、我々の手法は個々のRamanゲートに広く適用でき、大きなオーバーヘッドを伴わず、この技術を組み込んだ量子プロセッサの即時改善を可能にする。

We demonstrate an order of magnitude reduction in the sensitivity to optical crosstalk for neighboring trapped-ion qubits during simultaneous single-qubit gates driven with individual addressing beams. Gates are implemented via two-photon Raman transitions, where crosstalk is mitigated by offsetting the drive frequencies for each qubit to avoid first-order crosstalk effects from inter-beam two-photon resonance. The technique is simple to implement, and we find that phase-dependent crosstalk due to optical interference is reduced on the most impacted neighbor from a maximal fractional rotation error of 0.185(4) without crosstalk mitigation to $\leq$ 0.006 with the mitigation strategy. Further, we characterize first-order crosstalk in the two-qubit gate and avoid the resulting rotation errors for the arbitrary-axis M{\o}lmer-S{\o}rensen gate via a phase-agnostic composite gate. Finally, we demonstrate holistic system performance by constructing a composite CNOT gate using the improved single-qubit gates and phase-agnostic two-qubit gate. This work is done on the Quantum Scientific Computing Open User Testbed (QSCOUT); however, our methods are widely applicable for individual-addressing Raman gates and impose no significant overhead, enabling immediate improvement for quantum processors that incorporate this technique.
翻訳日:2023-09-28 17:08:54 公開日:2023-09-27
# 量子分類器アルゴリズムの転送学習によるイライラしたスピンチェーン内の量子相転移の検出

Detecting quantum phase transitions in a frustrated spin chain via transfer learning of a quantum classifier algorithm ( http://arxiv.org/abs/2309.15339v1 )

ライセンス: Link先を確認
Andr\'e J. Ferreira-Martins, Leandro Silva, Alberto Palhares, Rodrigo Pereira, Diogo O. Soares-Pinto, Rafael Chaves and Askery Canabarro(参考訳) 相の分類と相転移の検出は様々な分野において中心的かつ挑戦的な課題である。 物理学では、次数パラメータの同定と自由エネルギーとその微分における特異点の解析に依存している。 本稿では,量子相転移を同定する代替フレームワークを提案する。 軸方向のnext-nearest neighbor ising(annni)モデルをベンチマークとして用いることで、機械学習が3つの相(強磁性、常磁性、反相と浮遊相のクラスター)を検出する方法を示す。 教師付き学習を用いて,転校学習の実現可能性を示す。 特に、neighbor-neighbor相互作用のみを訓練したマシンは、next-nearest-neighbor相互作用が導入されたときに発生する新しい種類の位相を識別することを学ぶことができる。 また,一般的な古典的機械学習手法の性能を,量子近接近傍 (qnn) アルゴリズムのバージョンと比較した。

The classification of phases and the detection of phase transitions are central and challenging tasks in diverse fields. Within physics, it relies on the identification of order parameters and the analysis of singularities in the free energy and its derivatives. Here, we propose an alternative framework to identify quantum phase transitions. Using the axial next-nearest neighbor Ising (ANNNI) model as a benchmark, we show how machine learning can detect three phases (ferromagnetic, paramagnetic, and a cluster of the antiphase with the floating phase). Employing supervised learning, we demonstrate the feasibility of transfer learning. Specifically, a machine trained only with nearest-neighbor interactions can learn to identify a new type of phase occurring when next-nearest-neighbor interactions are introduced. We also compare the performance of common classical machine learning methods with a version of the quantum nearest neighbors (QNN) algorithm.
翻訳日:2023-09-28 17:08:01 公開日:2023-09-27
# Beyond the Chat: LLMによる実行可能で検証可能なテキスト編集

Beyond the Chat: Executable and Verifiable Text-Editing with LLMs ( http://arxiv.org/abs/2309.15337v1 )

ライセンス: Link先を確認
Philippe Laban, Jesse Vig, Marti A. Hearst, Caiming Xiong, Chien-Sheng Wu(参考訳) 近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。 しかし、標準的なチャットベースの会話インタフェースは、彼らが提案する編集変更の透明性と妥当性をサポートしない。 LLMで編集する場合、著者により多くのエージェンシーを与えるため、編集中の文書から直接実行可能な編集を提案する編集インターフェースであるInkSyncを提示する。 llmは事実的エラーを引き起こすことが知られているため、inksyncはリスクを軽減するための3段階のアプローチもサポートしている。 提案されている編集が新しい情報を導入すると著者に警告し、著者が外部検索を通じて新しい情報の正確性を検証するのに役立つ。 2つのユーザビリティ研究は、標準LLMベースのチャットインタフェースと比較して、InkSyncのコンポーネントの有効性を確認し、より正確で、より効率的な編集、ユーザーエクスペリエンスの向上につながった。

Conversational interfaces powered by Large Language Models (LLMs) have recently become a popular way to obtain feedback during document editing. However, standard chat-based conversational interfaces do not support transparency and verifiability of the editing changes that they suggest. To give the author more agency when editing with an LLM, we present InkSync, an editing interface that suggests executable edits directly within the document being edited. Because LLMs are known to introduce factual errors, Inksync also supports a 3-stage approach to mitigate this risk: Warn authors when a suggested edit introduces new information, help authors Verify the new information's accuracy through external search, and allow an auditor to perform an a-posteriori verification by Auditing the document via a trace of all auto-generated content. Two usability studies confirm the effectiveness of InkSync's components when compared to standard LLM-based chat interfaces, leading to more accurate, more efficient editing, and improved user experience.
翻訳日:2023-09-28 17:07:46 公開日:2023-09-27
# C3Net:異種系における物理化学的特性予測のための原子間ポテンシャルニューラルネットワーク

C3Net: interatomic potential neural network for prediction of physicochemical properties in heterogenous systems ( http://arxiv.org/abs/2309.15334v1 )

ライセンス: Link先を確認
Sehan Lee, Jaechang Lim and Woo Youn Kim(参考訳) 溶質と環境の相互作用を理解することは、化学や生物学において極めて重要である。 本研究では,分子コンテキストにおける原子型埋め込みと基本物理法則に従う原子間ポテンシャルの深いニューラルネットワークアーキテクチャを提案する。 このアーキテクチャは、様々な溶媒の溶媒和、1-オクタノール-水分配、および1組のネットワーク重みのパンパを含む異種系の物理化学的性質を予測するために適用される。 このアーキテクチャは物理化学的性質によく似ており、解離自由エネルギー予測のタスクにおいて量子力学とニューラルネットワークに基づく最先端のアプローチより優れていることを示す。 モデルから得られた溶質中の各原子の原子間ポテンシャルは、化学的および物理的推論と整合した原子分解における物理化学的性質の定量的解析を可能にする。 このソフトウェアはhttps://github.com/SehanLee/C3Netで入手できる。

Understanding the interactions of a solute with its environment is of fundamental importance in chemistry and biology. In this work, we propose a deep neural network architecture for atom type embeddings in its molecular context and interatomic potential that follows fundamental physical laws. The architecture is applied to predict physicochemical properties in heterogeneous systems including solvation in diverse solvents, 1-octanol-water partitioning, and PAMPA with a single set of network weights. We show that our architecture is generalized well to the physicochemical properties and outperforms state-of-the-art approaches based on quantum mechanics and neural networks in the task of solvation free energy prediction. The interatomic potentials at each atom in a solute obtained from the model allow quantitative analysis of the physicochemical properties at atomic resolution consistent with chemical and physical reasoning. The software is available at https://github.com/SehanLee/C3Net.
翻訳日:2023-09-28 17:07:13 公開日:2023-09-27
# キツネ林における局在・マッピング・作物モニタリングのためのマルチモーダルデータセット

Multimodal Dataset for Localization, Mapping and Crop Monitoring in Citrus Tree Farms ( http://arxiv.org/abs/2309.15332v1 )

ライセンス: Link先を確認
Hanzhe Teng, Yipeng Wang, Xiaoao Song, Konstantinos Karydis(参考訳) 本研究は,農業分野で動作する車輪型移動ロボットが収集した総合的マルチモーダル感覚データセットであるcitrusfarmデータセットを紹介する。 このデータセットは、深度情報を備えたステレオRGB画像と、モノクローム、近赤外線、熱画像を提供し、農業研究に不可欠な多様なスペクトル応答を示す。 さらに、ホイール・オドメトリー、LiDAR、慣性測定ユニット(IMU)、リアルタイム・キネマティック(RTK)を用いたGNSSを含む航法センサデータをセンチメートルレベルの地上真実として提供する。 本データセットは, 生育段階の異なる木種, 独特の植林パターン, 日光条件の異なる木種を特徴とする, キツネの3つの畑で収集された7つの配列からなる。 総運転時間は1.7時間、走行距離は7.5km、データ量は1.3TBである。 このデータセットは、特に局在化、マッピング、作物モニタリングタスクにおいて、農業ツリー環境で動作する自律ロボットシステムの開発を容易にすることを期待する。 さらに、このデータセットで提供されるリッチセンシングモダリティは、場所認識、シーン理解、オブジェクト検出とセグメンテーション、マルチモーダル学習など、ロボット工学やコンピュータビジョンのタスクにおける研究を支援することもできる。 このデータセットは関連するツールやリソースとともにhttps://github.com/UCR-Robotics/Citrus-Farm-Datasetで公開されている。

In this work we introduce the CitrusFarm dataset, a comprehensive multimodal sensory dataset collected by a wheeled mobile robot operating in agricultural fields. The dataset offers stereo RGB images with depth information, as well as monochrome, near-infrared and thermal images, presenting diverse spectral responses crucial for agricultural research. Furthermore, it provides a range of navigational sensor data encompassing wheel odometry, LiDAR, inertial measurement unit (IMU), and GNSS with Real-Time Kinematic (RTK) as the centimeter-level positioning ground truth. The dataset comprises seven sequences collected in three fields of citrus trees, featuring various tree species at different growth stages, distinctive planting patterns, as well as varying daylight conditions. It spans a total operation time of 1.7 hours, covers a distance of 7.5 km, and constitutes 1.3 TB of data. We anticipate that this dataset can facilitate the development of autonomous robot systems operating in agricultural tree environments, especially for localization, mapping and crop monitoring tasks. Moreover, the rich sensing modalities offered in this dataset can also support research in a range of robotics and computer vision tasks, such as place recognition, scene understanding, object detection and segmentation, and multimodal learning. The dataset, in conjunction with related tools and resources, is made publicly available at https://github.com/UCR-Robotics/Citrus-Farm-Dataset.
翻訳日:2023-09-28 17:06:59 公開日:2023-09-27
# BASED: 神経放射場を用いた鏡視下動的ビデオ再構成

BASED: Bundle-Adjusting Surgical Endoscopic Dynamic Video Reconstruction using Neural Radiance Fields ( http://arxiv.org/abs/2309.15329v1 )

ライセンス: Link先を確認
Shreya Saha, Sainan Liu, Shan Lin, Jingpei Lu, Michael Yip(参考訳) 内視鏡的映像からの変形可能なシーンの再構成は, 術中ナビゲーション, 手術視知覚, ロボット手術など多くの応用において重要である。 最小侵襲手術のための自律的なロボット介入を実現するための基本的な要件である。 しかし、この領域の以前のアプローチはモジュール性によって制限されており、特定のカメラやシーン設定に限定されていた。 我々の研究はNeural Radiance Fields(NeRF)アプローチを採用して、時間とともに動的かつ変形可能なシーンの3D暗黙表現を学習し、さらに未知のカメラのポーズで撮影する。 このアプローチをロボット手術の内視鏡的手術場面で実演する。 この研究は、既知のカメラポーズの制約を取り除き、正確な再構成のためにシーンの静的部分に依存する最先端の非構造化動的シーン再構築技術の欠点を克服するものである。 いくつかの実験データセットを通じて,提案モデルの汎用性を実証し,多彩なカメラ設定とシーン設定に適応し,ロボット手術システムへの期待を示す。

Reconstruction of deformable scenes from endoscopic videos is important for many applications such as intraoperative navigation, surgical visual perception, and robotic surgery. It is a foundational requirement for realizing autonomous robotic interventions for minimally invasive surgery. However, previous approaches in this domain have been limited by their modular nature and are confined to specific camera and scene settings. Our work adopts the Neural Radiance Fields (NeRF) approach to learning 3D implicit representations of scenes that are both dynamic and deformable over time, and furthermore with unknown camera poses. We demonstrate this approach on endoscopic surgical scenes from robotic surgery. This work removes the constraints of known camera poses and overcomes the drawbacks of the state-of-the-art unstructured dynamic scene reconstruction technique, which relies on the static part of the scene for accurate reconstruction. Through several experimental datasets, we demonstrate the versatility of our proposed model to adapt to diverse camera and scene settings, and show its promise for both current and future robotic surgical systems.
翻訳日:2023-09-28 17:06:32 公開日:2023-09-27
# 主成分分析によるニューラルネットワークの学習表現の探索

Exploring Learned Representations of Neural Networks with Principal Component Analysis ( http://arxiv.org/abs/2309.15328v1 )

ライセンス: Link先を確認
Amit Harlev, Andrew Engel, Panos Stinis, Tony Chiang(参考訳) ディープニューラルネットワーク(DNN)の機能表現を理解することは、説明可能なAIの一般的な分野におけるオープンな問題である。 主成分分析 (PCA) を用いて, CIFAR-10 で訓練された ResNet-18 の学習層表現において, k-nearest 近傍分類器 (k-NN) , 最寄りクラスセンタ分類器 (NCC) の性能について検討する。 特定の層において、高い精度の分類には中間的特徴空間分散の20%しか必要とせず、全ての層において、最初の100個のPCがk-NNとNCCの分類器の性能を完全に決定していることを示す。 本研究は神経崩壊と相関し, 中間神経崩壊の関連現象の部分的証拠を提供する。 予備的な研究は、アフィン線形モデルを用いた特徴表現のための3つの異なる解釈可能なサロゲートモデルを提供する。 また、複数のサロゲートモデルを活用することで、DNN内での神経崩壊の発生場所を推定する賢い方法が得られます。

Understanding feature representation for deep neural networks (DNNs) remains an open question within the general field of explainable AI. We use principal component analysis (PCA) to study the performance of a k-nearest neighbors classifier (k-NN), nearest class-centers classifier (NCC), and support vector machines on the learned layer-wise representations of a ResNet-18 trained on CIFAR-10. We show that in certain layers, as little as 20% of the intermediate feature-space variance is necessary for high-accuracy classification and that across all layers, the first ~100 PCs completely determine the performance of the k-NN and NCC classifiers. We relate our findings to neural collapse and provide partial evidence for the related phenomenon of intermediate neural collapse. Our preliminary work provides three distinct yet interpretable surrogate models for feature representation with an affine linear model the best performing. We also show that leveraging several surrogate models affords us a clever method to estimate where neural collapse may initially occur within the DNN.
翻訳日:2023-09-28 17:06:13 公開日:2023-09-27
# 動的閉じ込め下における量子粒子:量子フェルミ加速から高調波発生へ

Quantum particle under dynamical confinement: From quantum Fermi acceleration to high harmonic generation ( http://arxiv.org/abs/2309.15389v1 )

ライセンス: Link先を確認
S. Rakhmanov, C. Trunk and D. Matrasulov(参考訳) 時間依存壁を持つ箱に閉じ込められた粒子の量子力学は、問題の未検討の側面を考慮して再検討される。 特に、純粋に時間変化外部電位の存在下での時間依存箱内の動的閉じ込めは、正確な解を得ることにより処理される。 また、時間依存境界条件を持つシュロディンガー方程式における空間と時間変数の分離を承認する外部ポテンシャルを分類する。 平均運動エネルギーと平均量子力の時間依存性を分析する。 動的閉じ込めと外部線形偏光単色場の存在下での光高調波発生モデルを提案する。

Quantum dynamics of a particle confined in a box with time-dependent wall is revisited by considering some unexplored aspects of the problem. In particular, the case of dynamical confinement in a time-dependent box in the presence of purely time-varying external potential is treated by obtaining exact solution. Also, some external potentials approving separation of space and time variables in the Schrodinger equation with time-dependent boundary conditions are classified. Time-dependence of the average kinetic energy and average quantum force are analyzed. A model for optical high harmonic generation in the presence of dynamical confinement and external linearly polarized monochromatic field is proposed.
翻訳日:2023-09-28 17:00:33 公開日:2023-09-27
# 電磁誘導放射のロバストかつ説明可能な解析のための神経確率微分方程式

Neural Stochastic Differential Equations for Robust and Explainable Analysis of Electromagnetic Unintended Radiated Emissions ( http://arxiv.org/abs/2309.15386v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Susmit Jha, Rickard Ewetz, Alvaro Velasquez(参考訳) 本稿では,未意図放射放射(ure)分類の文脈におけるresnetライクモデルのロバスト性と説明可能性に関する包括的評価を行い,神経確率微分方程式(neural stochastic differential equation,sdes)を用いた新たなアプローチを提案する。 本稿では,gaussian noise perturbationに対するresnetライクモデルの適用性に関する実証実験を行い,モデル性能が著しく低下し,そのf1-scoreが0.008でほぼ無意味に低下し,gaussian noiseは0.5の標準偏差しか持たないことを示した。 また、resnetライクなモデルで提供される説明が入力データの固有周期性を反映しない、安定したデバイスからのure検出において重要な属性である不一致についても強調する。 これらの知見に応えて,URE分類のためのモデル構築のためのニューラルSDEの新たな応用を提案し,ノイズに対して頑健なだけでなく,より有意義で直感な説明を提供する。 ニューラルSDEモデルは、標準偏差0.5のガウス雑音にさらされても高いF1スコアが0.93であり、ResNetモデルに優れたレジリエンスを示す。 ニューラルSDEモデルは、ResNetのようなモデルによって生成された説明に顕著に欠けている特徴である入力データから、時間不変または周期的水平帯域を回復することに成功した。 この進歩は、データが本質的にノイズが多く、保証引数が解釈可能な機械学習予測を要求する現実世界のUREアプリケーションのための堅牢で解釈可能なモデルの開発において、小さなが重要なステップを示す。

We present a comprehensive evaluation of the robustness and explainability of ResNet-like models in the context of Unintended Radiated Emission (URE) classification and suggest a new approach leveraging Neural Stochastic Differential Equations (SDEs) to address identified limitations. We provide an empirical demonstration of the fragility of ResNet-like models to Gaussian noise perturbations, where the model performance deteriorates sharply and its F1-score drops to near insignificance at 0.008 with a Gaussian noise of only 0.5 standard deviation. We also highlight a concerning discrepancy where the explanations provided by ResNet-like models do not reflect the inherent periodicity in the input data, a crucial attribute in URE detection from stable devices. In response to these findings, we propose a novel application of Neural SDEs to build models for URE classification that are not only robust to noise but also provide more meaningful and intuitive explanations. Neural SDE models maintain a high F1-score of 0.93 even when exposed to Gaussian noise with a standard deviation of 0.5, demonstrating superior resilience to ResNet models. Neural SDE models successfully recover the time-invariant or periodic horizontal bands from the input data, a feature that was conspicuously missing in the explanations generated by ResNet-like models. This advancement presents a small but significant step in the development of robust and interpretable models for real-world URE applications where data is inherently noisy and assurance arguments demand interpretable machine learning predictions.
翻訳日:2023-09-28 17:00:25 公開日:2023-09-27
# 人間第一印象を用いた主観的顔変換

Subjective Face Transform using Human First Impressions ( http://arxiv.org/abs/2309.15381v1 )

ライセンス: Link先を確認
Chaitanya Roygaga, Joshua Krinsky, Kai Zhang, Kenny Kwok, Aparna Bharati(参考訳) 人間は、信頼感や魅力など、誰かの顔を見るとき、非物理的特性の素早い主観的な第一印象を形成する傾向がある。 顔の変動が主観的印象にどのような影響を及ぼすかを理解するために、この研究は生成モデルを用いて知覚属性を変化させる顔画像に意味的に意味のある編集を見つける。 特徴空間における統計的操作に依存する以前の作業とは異なり、私たちのエンドツーエンドのフレームワークはアイデンティティの保存と知覚的属性の変化のトレードオフを考慮に入れています。 属性スコアの変化に属性保存空間方向をマッピングし、ターゲットの変化に応じて属性軸に沿った任意の入力面の変換を可能にする。 実際の顔と合成顔のトレーニングを行い、予測モデルと人間の評価を用いてドメイン内画像とドメイン外画像の評価を行い、このアプローチの一般化可能性を示す。 究極的には、そのような枠組みは、アイデンティティに依存しない顔の主観的解釈におけるバイアスを理解し説明するために用いられる。

Humans tend to form quick subjective first impressions of non-physical attributes when seeing someone's face, such as perceived trustworthiness or attractiveness. To understand what variations in a face lead to different subjective impressions, this work uses generative models to find semantically meaningful edits to a face image that change perceived attributes. Unlike prior work that relied on statistical manipulation in feature space, our end-to-end framework considers trade-offs between preserving identity and changing perceptual attributes. It maps identity-preserving latent space directions to changes in attribute scores, enabling transformation of any input face along an attribute axis according to a target change. We train on real and synthetic faces, evaluate for in-domain and out-of-domain images using predictive models and human ratings, demonstrating the generalizability of our approach. Ultimately, such a framework can be used to understand and explain biases in subjective interpretation of faces that are not dependent on the identity.
翻訳日:2023-09-28 16:59:54 公開日:2023-09-27
# ADGym: 深部異常検出のための設計選択

ADGym: Design Choices for Deep Anomaly Detection ( http://arxiv.org/abs/2309.15376v1 )

ライセンス: Link先を確認
Minqi Jiang, Chaochuan Hou, Ao Zheng, Songqiao Han, Hailiang Huang, Qingsong Wen, Xiyang Hu, Yue Zhao(参考訳) ディープラーニング(DL)技術は、最近、異常検出(AD)に応用され、金融、医療サービス、クラウドコンピューティングなどの分野で成功している。 しかしながら、現在の研究の多くは、深いADアルゴリズムを全体論的に評価しており、損失関数やネットワークアーキテクチャといった個々の設計選択の貢献を理解していない。 したがって、プリプロセッシングのような前提条件のステップの重要性は、新しい損失関数やアーキテクチャのスポットライトによって誇張される可能性がある。 本稿では,2つの質問に答えることで,これらの監視に対処する。 i) ディープAD手法のどのコンポーネント(設計選択)が異常を検出する上で重要であるか。 (ii) 汎用的で既存のソリューションに頼るのではなく、最適な設計選択を自動的に選択することで、特定のデータセットのための調整済みADアルゴリズムをどのように構築するか。 そこで本研究では,AD設計要素の包括的評価と自動選択を目的とした初のプラットフォームであるADGymを紹介する。 広範な実験によって、既存のリードメソッドを採用するだけでは理想的ではないことが分かる。 ADGymを使ったモデルは、現在の最先端技術を大きく上回っている。

Deep learning (DL) techniques have recently been applied to anomaly detection (AD), yielding successful outcomes in areas such as finance, medical services, and cloud computing. However, much of the current research evaluates a deep AD algorithm holistically, failing to understand the contributions of individual design choices like loss functions and network architectures. Consequently, the importance of prerequisite steps, such as preprocessing, might be overshadowed by the spotlight on novel loss functions and architectures. In this paper, we address these oversights by posing two questions: (i) Which components (i.e., design choices) of deep AD methods are pivotal in detecting anomalies? (ii) How can we construct tailored AD algorithms for specific datasets by selecting the best design choices automatically, rather than relying on generic, pre-existing solutions? To this end, we introduce ADGym, the first platform designed for comprehensive evaluation and automatic selection of AD design elements in deep methods. Extensive experiments reveal that merely adopting existing leading methods is not ideal. Models crafted using ADGym markedly surpass current state-of-the-art techniques.
翻訳日:2023-09-28 16:59:37 公開日:2023-09-27
# 注意に基づく心房細動検出のためのppgからecgへの信号変換

PPG to ECG Signal Translation for Continuous Atrial Fibrillation Detection via Attention-based Deep State-Space Modeling ( http://arxiv.org/abs/2309.15375v1 )

ライセンス: Link先を確認
Khuong Vo, Mostafa El-Khamy, Yoojin Choi(参考訳) 心電図(Electrocardiogram、ECG、EKG)は、心臓の電気活動を測定する検査である。 心電図は、不整脈、心臓発作、心不全など、幅広い心臓疾患の診断と監視にしばしば用いられる。 一方、従来のECGは臨床検査を必要としており、医療施設への配備を制限する。 一方、シングルリードECGは、管理手順を用いてウェアラブルデバイスで普及している。 ECGの代替品は、非侵襲的で低コストな光学手法を用いて心臓生理を計測し、日常生活において重要な心臓の兆候を捉えるのに適した選択であるフォトプレチスモグラフィ(PPG)である。 その結果、健康モニタリングにおいて人気が高まり、様々な臨床および商用ウェアラブルデバイスで使用されている。 ECGとPSGは強く相関するが、後者は重要な臨床診断値を提供していない。 本稿では,主観非依存の注意に基づく深部状態空間モデルを提案し,PSG信号を対応するECG波形に変換する。 このモデルは、確率的グラフィカルモデルの観点から事前知識を組み込むことで、データ効率が高い。 このモデルにより、心電図の精度を連続PSGモニタリングで補完することにより、成人で最も一般的な心房細動(AFib)の検出が可能になる。 55名の被験者を対象にMIMIC IIIデータベースを用いて評価を行った。 定量的および定性的な実験結果は,本手法の有効性と有効性を示すものである。

An electrocardiogram (ECG or EKG) is a medical test that measures the heart's electrical activity. ECGs are often used to diagnose and monitor a wide range of heart conditions, including arrhythmias, heart attacks, and heart failure. On the one hand, the conventional ECG requires clinical measurement, which restricts its deployment to medical facilities. On the other hand, single-lead ECG has become popular on wearable devices using administered procedures. An alternative to ECG is Photoplethysmography (PPG), which uses non-invasive, low-cost optical methods to measure cardiac physiology, making it a suitable option for capturing vital heart signs in daily life. As a result, it has become increasingly popular in health monitoring and is used in various clinical and commercial wearable devices. While ECG and PPG correlate strongly, the latter does not offer significant clinical diagnostic value. Here, we propose a subject-independent attention-based deep state-space model to translate PPG signals to corresponding ECG waveforms. The model is highly data-efficient by incorporating prior knowledge in terms of probabilistic graphical models. Notably, the model enables the detection of atrial fibrillation (AFib), the most common heart rhythm disorder in adults, by complementing ECG's accuracy with continuous PPG monitoring. We evaluated the model on 55 subjects from the MIMIC III database. Quantitative and qualitative experimental results demonstrate the effectiveness and efficiency of our approach.
翻訳日:2023-09-28 16:59:23 公開日:2023-09-27
# パッチを超えて見る:強化学習に基づく高解像度リモートセンシング画像のスケール適応セマンティックセマンティックセグメンテーション

Seeing Beyond the Patch: Scale-Adaptive Semantic Segmentation of High-resolution Remote Sensing Imagery based on Reinforcement Learning ( http://arxiv.org/abs/2309.15372v1 )

ライセンス: Link先を確認
Yinhe Liu, Sunan Shi, Junjue Wang, Yanfei Zhong(参考訳) リモートセンシング画像解析では、パッチベースの手法はスライディングウィンドウを超えて情報をキャプチャする制限がある。 この欠点は、複雑で可変なジオオブジェクトを処理する上で大きな課題となり、セグメンテーション結果のセグメンテーションの不整合をもたらす。 この課題に対処するため,我々はGeoAgentという動的スケール認識フレームワークを提案し,異なるジオオブジェクトに基づいて画像パッチ外の適切なスケールコンテキスト情報を適応的にキャプチャする。 GeoAgentでは、各イメージパッチの状態はグローバルサムネイルとロケーションマスクで表現される。 グローバルサムネイルはパッチを超えてコンテキストを提供し、位置マスクは知覚された空間的関係を導く。 スケール選択動作はスケール制御エージェント(SCA)を介して実行される。 現在のイメージパッチの位置を識別するエージェントの能力を高めるために、機能インデクシングモジュールが提案されている。 このアクションは、マルチスケールパッチの特徴を抽出して融合するデュアルブランチセグメンテーションネットワークのパッチスケールとコンテキストブランチを切り替える。 GeoAgentは、選択されたスケールに対する報酬に基づいて、ネットワークパラメータを調整して適切なスケール選択アクションを実行する。 2つの公開データセットと新たに構築したデータセット WUSU を用いた実験結果は,GeoAgent が特に大規模マッピングアプリケーションにおいて,従来のセグメンテーション手法よりも優れていることを示す。

In remote sensing imagery analysis, patch-based methods have limitations in capturing information beyond the sliding window. This shortcoming poses a significant challenge in processing complex and variable geo-objects, which results in semantic inconsistency in segmentation results. To address this challenge, we propose a dynamic scale perception framework, named GeoAgent, which adaptively captures appropriate scale context information outside the image patch based on the different geo-objects. In GeoAgent, each image patch's states are represented by a global thumbnail and a location mask. The global thumbnail provides context beyond the patch, and the location mask guides the perceived spatial relationships. The scale-selection actions are performed through a Scale Control Agent (SCA). A feature indexing module is proposed to enhance the ability of the agent to distinguish the current image patch's location. The action switches the patch scale and context branch of a dual-branch segmentation network that extracts and fuses the features of multi-scale patches. The GeoAgent adjusts the network parameters to perform the appropriate scale-selection action based on the reward received for the selected scale. The experimental results, using two publicly available datasets and our newly constructed dataset WUSU, demonstrate that GeoAgent outperforms previous segmentation methods, particularly for large-scale mapping applications.
翻訳日:2023-09-28 16:58:59 公開日:2023-09-27
# 測度輸送による密度推定:生物科学への応用への展望

Density Estimation via Measure Transport: Outlook for Applications in the Biological Sciences ( http://arxiv.org/abs/2309.15366v1 )

ライセンス: Link先を確認
Vanessa Lopez-Marrero, Patrick R. Johnstone, Gilchan Park, Xihaier Luo(参考訳) 測定輸送手法の利点の1つは、広範囲の確率測度に従って分散されたデータの処理と分析のための統一的なフレームワークを可能にすることである。 本研究は, 生体科学研究を支援するためのワークフローの一環として, 三角輸送地図を用いた輸送技術の測定の可能性を評価することを目的とした計算研究の結果を提示する。 放射能生物学のような領域で一般的なデータシナリオは特に興味深い。 データが少ない場合、疎いトランスポートマップは有利である。 特に、利用可能なデータサンプルの集合の一連のランダムに選択されたサブセットに基づいて訓練された一連の(少ない)適応輸送マップから集められた統計は、データに隠された情報を明らかにする。 その結果, 放射線生物応用において, 本手法は, 放射線照射下での遺伝子関係とそのダイナミクスに関する仮説を生成するためのツールを提供する。

One among several advantages of measure transport methods is that they allow for a unified framework for processing and analysis of data distributed according to a wide class of probability measures. Within this context, we present results from computational studies aimed at assessing the potential of measure transport techniques, specifically, the use of triangular transport maps, as part of a workflow intended to support research in the biological sciences. Scarce data scenarios, which are common in domains such as radiation biology, are of particular interest. We find that when data is scarce, sparse transport maps are advantageous. In particular, statistics gathered from computing series of (sparse) adaptive transport maps, trained on a series of randomly chosen subsets of the set of available data samples, leads to uncovering information hidden in the data. As a result, in the radiation biology application considered here, this approach provides a tool for generating hypotheses about gene relationships and their dynamics under radiation exposure.
翻訳日:2023-09-28 16:58:36 公開日:2023-09-27
# 冷間結合原子配列におけるクリーン-無秩序界面における原子励起脱局在

Atomic excitation delocalization at the clean to disordered interface in a chirally-coupled atomic array ( http://arxiv.org/abs/2309.15361v1 )

ライセンス: Link先を確認
C.-C. Wu, K.-T. Lin, I G. N. Y. Handayana, C.-H. Chien, S. Goswami, G.-D. Lin, Y.-C. Chen and H. H. Jen(参考訳) 一次元量子エミッター系では、原子励起のダイナミクスは光子を介する双極子-双極子相互作用を通じて原子間の集団結合に影響される。 原子配列の一部に位置障害を導入することにより、乱れ領域とクリーンゾーンの界面における非局在化現象を解明する。 励起は乱領域における対称ディック状態として初期化され、励起局在を定量化するためにいくつかの測度が用いられる。 本研究はまず,時間進化下での励起ダイナミクスの解明に人口不均衡と半鎖エントロピーを用い,また相互結合の場合の固有スペクトルのギャップ比による励起局在化と非局在化の交叉について検討する。 特に,原子鎖の両端における全鎖の参加率と光子損失率について検討し,非相互結合の場合の非局在化クロスオーバーの定量化に有効であることを示した。 さらに, 全鎖の固定個数で乱れ領域の全体サイズや比率を増大させることにより, 前者の場合より小さな乱れ強度で励起局在が生じるのに対し, 後者では, 乱れ領域と乱れ領域の有意な比率が適用された場合に, 脱局在の促進が現れるのが観察された。 以上の結果から, クリーンゾーンと局在現象における不規則領域の競合関係を明らかにすることができ, 原子導波路界面における非平衡ダイナミクスへの洞察を与え, 量子情報処理における潜在的な応用を提供することができる。

In one-dimensional quantum emitter systems, the dynamics of atomic excitations are influenced by the collective coupling between atoms through photon-mediated dipole-dipole interactions. By introducing positional disorders in a portion of the atomic array, we investigate the delocalization phenomena at the interface between disordered zone and clean zone. The excitation is initialized as symmetric Dicke states in the disordered zone, and several measures are used to quantify the excitation localization. We first use population imbalance and half-chain entropy to investigate the excitation dynamics under time evolutions, and further investigate the crossover of excitation localization to delocalization via the gap ratio from the eigenspectrum in the reciprocal coupling case. In particular, we study the participation ratio of the whole chain and the photon loss ratio between both ends of the atomic chain, which can be used to quantify the delocalization crossover in the non-reciprocal coupling cases. Furthermore, by increasing the overall size or the ratio of the disordered zone under a fixed number of the whole chain, we observe that excitation localization occurs at a smaller disorder strength in the former case, while in the latter, a facilitation of the delocalization appears when a significant ratio of clean zone to disordered zone is applied. Our results can reveal the competition between the clean zone and the disordered zone sizes on localization phenomenon, give insights to non-equilibrium dynamics in the atom-waveguide interface, and provide potential applications in quantum information processing.
翻訳日:2023-09-28 16:58:21 公開日:2023-09-27
# 自己スーパービジョンによる医用画像の解剖学から学ぶ基礎モデルに向けて

Towards Foundation Models Learned from Anatomy in Medical Imaging via Self-Supervision ( http://arxiv.org/abs/2309.15358v1 )

ライセンス: Link先を確認
Mohammad Reza Hosseinzadeh Taher, Michael B. Gotway, Jianming Liang(参考訳) 人間の解剖学は医用画像の基礎であり、その自然の階層構造は、(1)局所性:各解剖学的構造が他と形態的に異なること、(2)構成性:各解剖学的構造がより大きな全体の統合された部分であること、の2つの固有の性質を示す。 我々は,この基礎の上に意識的,目的的に発達した医用画像の基礎モデルを構想し,ヒト解剖学の「理解」能力を獲得し,医用画像の基礎的特性を保持する。 医用画像の基礎モデルに向けたこのビジョンを実現するための第一歩として,人間の解剖学の階層的性質を活用する,新たな自己教師型学習(SSL)戦略を考案する。 我々の広範な実験により、SSL事前訓練モデルは、我々のトレーニング戦略から派生したもので、最先端(SOTA)ベースラインより優れているだけでなく、アノテーションの効率も向上し、SSLベースラインよりも9%から30%のセグメンテーションタスクでパフォーマンスが向上した。 この性能は,既存のSSL手法では見過ごされていないが,局所性と構成性の固有の特性をカプセル化した学習戦略による解剖学的理解の重要性に起因している。 すべてのコードと事前訓練されたモデルはhttps://github.com/JLiangLab/Eden.comで入手できる。

Human anatomy is the foundation of medical imaging and boasts one striking characteristic: its hierarchy in nature, exhibiting two intrinsic properties: (1) locality: each anatomical structure is morphologically distinct from the others; and (2) compositionality: each anatomical structure is an integrated part of a larger whole. We envision a foundation model for medical imaging that is consciously and purposefully developed upon this foundation to gain the capability of "understanding" human anatomy and to possess the fundamental properties of medical imaging. As our first step in realizing this vision towards foundation models in medical imaging, we devise a novel self-supervised learning (SSL) strategy that exploits the hierarchical nature of human anatomy. Our extensive experiments demonstrate that the SSL pretrained model, derived from our training strategy, not only outperforms state-of-the-art (SOTA) fully/self-supervised baselines but also enhances annotation efficiency, offering potential few-shot segmentation capabilities with performance improvements ranging from 9% to 30% for segmentation tasks compared to SSL baselines. This performance is attributed to the significance of anatomy comprehension via our learning strategy, which encapsulates the intrinsic attributes of anatomical structures-locality and compositionality-within the embedding space, yet overlooked in existing SSL methods. All code and pretrained models are available at https://github.com/JLiangLab/Eden.
翻訳日:2023-09-28 16:57:52 公開日:2023-09-27
# ハイパーグラフ断層補正のための分割デコーダ

Splitting decoders for correcting hypergraph faults ( http://arxiv.org/abs/2309.15354v1 )

ライセンス: Link先を確認
Nicolas Delfosse, Adam Paetznick, Jeongwan Haah and Matthew B. Hastings(参考訳) 表面符号は最も一般的な量子誤り訂正符号の一つである。 MWPM(Minimum Weight Perfect Matching)デコーダやUF(Union-Find)デコーダのような効率的なデコーダを備えており、高速な量子誤り訂正を可能にする。 一般的な線形符号や安定化符号の場合、復号問題はNPハードである。 表面コードで扱いやすいのは、障害とチェックの特別な構造である: 各xとzの障害は、最大2つのチェックでトリガーされる。 その結果、欠陥を頂点がチェックであるグラフの辺として解釈することができ、エドモンズの最小ウェイト完全マッチングアルゴリズムのような標準グラフアルゴリズムを用いて復号問題を解くことができる。 一般的なコードでは、この復号グラフはハイパーグラフに置き換えられ、復号問題はより困難になる。 本研究では,デコードハイパーグラフのハイパーエッジをエッジに分割する2つのヒューリスティックアルゴリズムを提案する。 分割後、ハイパーグラフの障害は任意の表面コードデコーダを使ってデコードできる。 復号化問題の複雑さのため、この戦略が一般的なコードに対して優れた誤り訂正性能を達成するとは考えていない。 しかし,この戦略がldpc符号のクラスにおいて,低重みチェックによって定義されるため,優れた性能をもたらすことを実証的に示す。 この分割デコーダをFloquet符号に適用し、いくつかの障害が最大4回のチェックをトリガーし、このデコーダがFloquet符号の2つのインスタンスの最大コード距離を達成することを数値的に検証する。

The surface code is one of the most popular quantum error correction codes. It comes with efficient decoders, such as the Minimum Weight Perfect Matching (MWPM) decoder and the Union-Find (UF) decoder, allowing for fast quantum error correction. For a general linear code or stabilizer code, the decoding problem is NP-hard. What makes it tractable for the surface code is the special structure of faults and checks: Each X and Z fault triggers at most two checks. As a result, faults can be interpreted as edges in a graph whose vertices are the checks, and the decoding problem can be solved using standard graph algorithms such as Edmonds' minimum-weight perfect matching algorithm. For general codes, this decoding graph is replaced by a hypergraph making the decoding problem more challenging. In this work, we propose two heuristic algorithms for splitting the hyperedges of a decoding hypergraph into edges. After splitting, hypergraph faults can be decoded using any surface code decoder. Due to the complexity of the decoding problem, we do not expect this strategy to achieve a good error correction performance for a general code. However, we empirically show that this strategy leads to a good performance for some classes of LDPC codes because they are defined by low weight checks. We apply this splitting decoder to Floquet codes for which some faults trigger up to four checks and verify numerically that this decoder achieves the maximum code distance for two instances of Floquet codes.
翻訳日:2023-09-28 16:57:20 公開日:2023-09-27
# セマンティックス駆動クラウド-エッジ協調推論

Semantics-Driven Cloud-Edge Collaborative Inference ( http://arxiv.org/abs/2309.15435v1 )

ライセンス: Link先を確認
Yuche Gao and Beibei Zhang(参考訳) インテリジェント・トランスポーテーションのようなスマートシティ・アプリケーションでビデオデータが急増する中、効率的なビデオ分析は重要だが困難である。 本稿では,ライセンスプレート認識をケーススタディとして用い,セマンティクス駆動のクラウド-エッジ協調によるビデオ推論の高速化手法を提案する。 この方法はセマンティクスの抽出と認識を分離し、エッジサーバはビデオフレームから視覚的セマンティクス(ライセンスプレートパッチ)のみを抽出し、負荷に基づいて計算集約的な認識をクラウドまたは隣接エッジにオフロードする。 このセグメント処理とロードアウェアな作業分散戦略は、エンドツーエンドのレイテンシ低減とスループット向上を目的としている。 実験では、クラウドオンリーやエッジオンリーの処理と比較して、エンドツーエンドの推論速度(最大5倍高速)、スループット(最大9 FPS)、トラフィックボリューム(50%低減)が大幅に改善され、提案手法の有効性が検証された。 セマンティクス駆動のワークパーティショニングを備えたcloud-edgeコラボレーティブフレームワークは、スマートシティにおけるビデオ分析をスケールするための有望なソリューションを提供する。

With the proliferation of video data in smart city applications like intelligent transportation, efficient video analytics has become crucial but also challenging. This paper proposes a semantics-driven cloud-edge collaborative approach for accelerating video inference, using license plate recognition as a case study. The method separates semantics extraction and recognition, allowing edge servers to only extract visual semantics (license plate patches) from video frames and offload computation-intensive recognition to the cloud or neighboring edges based on load. This segmented processing coupled with a load-aware work distribution strategy aims to reduce end-to-end latency and improve throughput. Experiments demonstrate significant improvements in end-to-end inference speed (up to 5x faster), throughput (up to 9 FPS), and reduced traffic volumes (50% less) compared to cloud-only or edge-only processing, validating the efficiency of the proposed approach. The cloud-edge collaborative framework with semantics-driven work partitioning provides a promising solution for scaling video analytics in smart cities.
翻訳日:2023-09-28 16:50:31 公開日:2023-09-27
# 汎用イベント境界検出のための局所圧縮ビデオストリーム学習

Local Compressed Video Stream Learning for Generic Event Boundary Detection ( http://arxiv.org/abs/2309.15431v1 )

ライセンス: Link先を確認
Libo Zhang, Xin Gu, Congcong Li, Tiejian Luo, Heng Fan(参考訳) ジェネリックイベント境界検出は、ビデオをチャンクに分割する、ジェネリックで分類のないイベント境界をローカライズすることを目的としている。 既存の手法では、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。 これらの問題を解決するために,圧縮領域のリッチな情報,すなわちRGB,運動ベクトル,残差,および内部画像群(GOP)を完全復号化せずに完全にエンドツーエンドに活用する,イベント境界検出のための圧縮ビデオ表現学習手法を提案する。 具体的には、軽量なConvNetを用いて、GOPにおけるPフレームの特徴を抽出し、双方向情報フローで圧縮された情報に基づいてPフレームの特徴表現を洗練するように設計されている。 境界検出に適した表現を学習するために、各候補フレームのローカルフレームバッグを構築し、長短期メモリ(LSTM)モジュールを用いて時間的関係をキャプチャする。 次に、時間領域における群類似性によるフレーム差を計算する。 このモジュールはローカルウィンドウ内でのみ適用され、イベント境界検出に不可欠である。 最後に、単純な分類器を用いて、学習した特徴表現に基づいて、ビデオシーケンスのイベント境界を決定する。 アノテーションの曖昧さを軽減し、トレーニングプロセスを高速化するために、Gaussianカーネルを使用して、基幹のイベント境界を前処理する。 Kinetics-GEBD と TAPOS のデータセットを用いて行った大規模な実験により,提案手法は,同じ速度で動作する場合の従来のエンドツーエンドアプローチと比較して,かなり改善されていることが示された。 コードはhttps://github.com/gx77/lcvslで入手できる。

Generic event boundary detection aims to localize the generic, taxonomy-free event boundaries that segment videos into chunks. Existing methods typically require video frames to be decoded before feeding into the network, which contains significant spatio-temporal redundancy and demands considerable computational power and storage space. To remedy these issues, we propose a novel compressed video representation learning method for event boundary detection that is fully end-to-end leveraging rich information in the compressed domain, i.e., RGB, motion vectors, residuals, and the internal group of pictures (GOP) structure, without fully decoding the video. Specifically, we use lightweight ConvNets to extract features of the P-frames in the GOPs and spatial-channel attention module (SCAM) is designed to refine the feature representations of the P-frames based on the compressed information with bidirectional information flow. To learn a suitable representation for boundary detection, we construct the local frames bag for each candidate frame and use the long short-term memory (LSTM) module to capture temporal relationships. We then compute frame differences with group similarities in the temporal domain. This module is only applied within a local window, which is critical for event boundary detection. Finally a simple classifier is used to determine the event boundaries of video sequences based on the learned feature representation. To remedy the ambiguities of annotations and speed up the training process, we use the Gaussian kernel to preprocess the ground-truth event boundaries. Extensive experiments conducted on the Kinetics-GEBD and TAPOS datasets demonstrate that the proposed method achieves considerable improvements compared to previous end-to-end approach while running at the same speed. The code is available at https://github.com/GX77/LCVSL.
翻訳日:2023-09-28 16:50:09 公開日:2023-09-27
# 大規模言語モデルを用いたグラフニューラルプロンプティング

Graph Neural Prompting with Large Language Models ( http://arxiv.org/abs/2309.15427v1 )

ライセンス: Link先を確認
Yijun Tian, Huan Song, Zichen Wang, Haozhu Wang, Ziqing Hu, Fang Wang, Nitesh V. Chawla, Panpan Xu(参考訳) 大規模言語モデル(llm)は、様々な言語モデリングタスクにおいて優れた性能を持つ驚くべき一般化能力を示している。 しかし、基礎知識の収集と返却に固有の制限がある。 既存の研究は、知識グラフを利用して、共同学習やカスタマイズされたモデルアーキテクチャによる言語モデリングを強化してきたが、多くのパラメータと高い計算コストのために、これをLLMに適用することは問題である。 さらに、事前訓練されたLLMを活用して、スクラッチからカスタマイズされたモデルのトレーニングを避ける方法は、未解決の問題である。 本研究では,学習支援のための新しいプラグ・アンド・プレイ法であるgraph neural prompting(gnp)を提案する。 gnpには、標準的なグラフニューラルネットワークエンコーダ、クロスモダリティプールモジュール、ドメインプロジェクタ、自己教師付きリンク予測目的など、さまざまな設計が含まれている。 複数のデータセットに対する大規模な実験は、異なるLLMサイズと設定にわたる常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。

Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
翻訳日:2023-09-28 16:49:39 公開日:2023-09-27
# NeuRBF: アダプティブラジアル基底関数を用いたニューラルネットワークの表現

NeuRBF: A Neural Fields Representation with Adaptive Radial Basis Functions ( http://arxiv.org/abs/2309.15426v1 )

ライセンス: Link先を確認
Zhang Chen, Zhong Li, Liangchen Song, Lele Chen, Jingyi Yu, Junsong Yuan, Yi Xu(参考訳) 信号表現に一般的な放射状基底を用いる新しいタイプのニューラルネットワークを提案する。 最先端のニューラルフィールドは通常、局所的なニューラルネットワークの特徴を格納するためのグリッドベースの表現と、連続的なクエリポイントで特徴を補間するためのn次元線形カーネルに依存している。 神経特徴の空間的位置は格子ノードに固定されており、ターゲット信号に十分に適応できない。 提案手法は,より空間的適応性が高く,よりターゲット信号に適合するフレキシブルな核位置と形状を持つ一般ラジアルベースを基盤とする。 放射状基底関数のチャネルワイドキャパシティをさらに向上するため,多周波正弦波関数で合成することを提案する。 この手法は、周波数帯域の異なる複数のフーリエラジアルベースにラジアル基底を拡張し、余分なパラメータを必要とせず、詳細の表現を容易にする。 さらに,適応ラジアルベースをグリッドベースと組み合わせることで,適応性と補間スムーズ性の両方を継承する。 重み付けスキームを慎重に設計し,ラジアルベースが異なる種類の信号に効果的に対応できるようにした。 2次元画像と3次元符号付き距離場表現に関する実験は,先行技術よりも高精度でコンパクトであることを示す。 ニューラルラジアンス場再構成に適用した場合,本手法はモデルサイズが小さく,訓練速度が同等である最先端のレンダリング品質を実現する。

We present a novel type of neural fields that uses general radial bases for signal representation. State-of-the-art neural fields typically rely on grid-based representations for storing local neural features and N-dimensional linear kernels for interpolating features at continuous query points. The spatial positions of their neural features are fixed on grid nodes and cannot well adapt to target signals. Our method instead builds upon general radial bases with flexible kernel position and shape, which have higher spatial adaptivity and can more closely fit target signals. To further improve the channel-wise capacity of radial basis functions, we propose to compose them with multi-frequency sinusoid functions. This technique extends a radial basis to multiple Fourier radial bases of different frequency bands without requiring extra parameters, facilitating the representation of details. Moreover, by marrying adaptive radial bases with grid-based ones, our hybrid combination inherits both adaptivity and interpolation smoothness. We carefully designed weighting schemes to let radial bases adapt to different types of signals effectively. Our experiments on 2D image and 3D signed distance field representation demonstrate the higher accuracy and compactness of our method than prior arts. When applied to neural radiance field reconstruction, our method achieves state-of-the-art rendering quality, with small model size and comparable training speed.
翻訳日:2023-09-28 16:49:22 公開日:2023-09-27
# 決定論的計算力学における深層学習

Deep Learning in Deterministic Computational Mechanics ( http://arxiv.org/abs/2309.15421v1 )

ライセンス: Link先を確認
Leon Herrmann, Stefan Kollmannsberger(参考訳) 計算力学の分野を含むディープラーニング研究の急速な成長は、広範囲で多様な文学の体系をもたらした。 この分野における重要な概念と将来性のある方法論の同定を支援するため,決定論的計算力学における深層学習の概要を紹介する。 シミュレーション置換、シミュレーション強化、ニューラルネットワークとしての離散化、生成アプローチ、深層強化学習の5つの主要なカテゴリが特定され、探索されている。 本稿では,計算力学の応用よりも深層学習に焦点をあて,研究者がより効果的にこの分野を探索できるようにする。 そのため、このレビューは、深層学習に関する広範な知識を持つ研究者を対象とするのではなく、この分野に参入しようとしている研究者や、計算力学における深層学習の概観を得ようとしている研究者を主観している。 議論された概念は可能な限りシンプルに説明される。

The rapid growth of deep learning research, including within the field of computational mechanics, has resulted in an extensive and diverse body of literature. To help researchers identify key concepts and promising methodologies within this field, we provide an overview of deep learning in deterministic computational mechanics. Five main categories are identified and explored: simulation substitution, simulation enhancement, discretizations as neural networks, generative approaches, and deep reinforcement learning. This review focuses on deep learning methods rather than applications for computational mechanics, thereby enabling researchers to explore this field more effectively. As such, the review is not necessarily aimed at researchers with extensive knowledge of deep learning -- instead, the primary audience is researchers at the verge of entering this field or those who attempt to gain an overview of deep learning in computational mechanics. The discussed concepts are, therefore, explained as simple as possible.
翻訳日:2023-09-28 16:48:55 公開日:2023-09-27
# 障害モードのトライアドとアウトの可能性

The Triad of Failure Modes and a Possible Way Out ( http://arxiv.org/abs/2309.15420v1 )

ライセンス: Link先を確認
Emanuele Sansone(参考訳) 本稿では,クラスタ型自己教師型学習(SSL)のための新たな目的関数を提案する。これは,障害モード,すなわち表現崩壊,クラスタ崩壊,クラスタ割り当ての順列化に対する不変性の問題を回避するために設計された。 この目標は3つの重要なコンポーネントから成り立っている。 (i)表現の崩壊を罰する生成語 (二)データ拡張の不変性を促進する用語で、ラベル順列の問題に対処し、及び (ii)クラスタ崩壊を罰する一様性用語。 さらに,提案手法には2つの利点がある。 第一に、ベイズの観点からは、データログの類似点の下位境界として解釈することができる。 第2に、停止勾配や運動量エンコーダ、特別なクラスタリング層といった非対称な要素を必要としない、標準的なバックボーンアーキテクチャのトレーニングを可能にする。 その単純さと理論的基礎から,提案した目的は最適化に適している。 おもちゃと現実世界の両方のデータを用いた実験による効果の実証

We present a novel objective function for cluster-based self-supervised learning (SSL) that is designed to circumvent the triad of failure modes, namely representation collapse, cluster collapse, and the problem of invariance to permutations of cluster assignments. This objective consists of three key components: (i) A generative term that penalizes representation collapse, (ii) a term that promotes invariance to data augmentations, thereby addressing the issue of label permutations and (ii) a uniformity term that penalizes cluster collapse. Additionally, our proposed objective possesses two notable advantages. Firstly, it can be interpreted from a Bayesian perspective as a lower bound on the data log-likelihood. Secondly, it enables the training of a standard backbone architecture without the need for asymmetric elements like stop gradients, momentum encoders, or specialized clustering layers. Due to its simplicity and theoretical foundation, our proposed objective is well-suited for optimization. Experiments on both toy and real world data demonstrate its effectiveness
翻訳日:2023-09-28 16:48:41 公開日:2023-09-27
# 広告主による勧告の自動特徴フェアネス

Automatic Feature Fairness in Recommendation via Adversaries ( http://arxiv.org/abs/2309.15418v1 )

ライセンス: Link先を確認
Hengchang Hu, Yiming Cao, Zhankui He, Samson Tan, Min-Yen Kan(参考訳) フェアネスはレコメンデーションシステムにおいて広く議論されているトピックであるが、その実践的実装は、レコメンデーション精度を維持しながら、センシティブな特徴を定義するという課題に直面している。 本稿では,様々な特徴の組み合わせによって定義される多種多様なグループを対象とした公平な処理を実現する基盤として,機能フェアネスを提案する。 これにより、バランスの取れた特徴の一般化性を通じて全体的な精度が向上する。 特徴表現の強化のために, 逆摂動を用いて, 逆訓練による偏りのない特徴学習を導入する。 敵は、表現不足の特徴に対するモデル一般化を改善する。 我々は,2種類の特徴バイアス – 頻度と特徴値の組み合わせ – に基づいて,自動的に敵に適応する。 これにより、摂動強度と対向訓練重量を動的に調整できる。 一般化を改善するために、より少ない組み合わせの値に対してより強い摂動が適用され、一方低周波特性の重み付けはトレーニングの不均衡に対処する。 我々は、広く応用された因子化機械(AAFM)をバックボーンモデルとして活用する。 実験では、AFMは公正度と精度の両面で強い基準線を超える。 AAFMは、単一および多機能タスクに対するアイテムとユーザフェアネスを提供し、その汎用性とスケーラビリティを示している。 訓練中、摂動は過度に持続しすぎず、その強度は低下する。

Fairness is a widely discussed topic in recommender systems, but its practical implementation faces challenges in defining sensitive features while maintaining recommendation accuracy. We propose feature fairness as the foundation to achieve equitable treatment across diverse groups defined by various feature combinations. This improves overall accuracy through balanced feature generalizability. We introduce unbiased feature learning through adversarial training, using adversarial perturbation to enhance feature representation. The adversaries improve model generalization for under-represented features. We adapt adversaries automatically based on two forms of feature biases: frequency and combination variety of feature values. This allows us to dynamically adjust perturbation strengths and adversarial training weights. Stronger perturbations are applied to feature values with fewer combination varieties to improve generalization, while higher weights for low-frequency features address training imbalances. We leverage the Adaptive Adversarial perturbation based on the widely-applied Factorization Machine (AAFM) as our backbone model. In experiments, AAFM surpasses strong baselines in both fairness and accuracy measures. AAFM excels in providing item- and user-fairness for single- and multi-feature tasks, showcasing their versatility and scalability. To maintain good accuracy, we find that adversarial perturbation must be well-managed: during training, perturbations should not overly persist and their strengths should decay.
翻訳日:2023-09-28 16:48:25 公開日:2023-09-27
# 蒸留とコントラストによる進化の継承--記憶のないクラスインクリメンタルセマンティックセマンティックセグメンテーションの探索

Inherit with Distillation and Evolve with Contrast: Exploring Class Incremental Semantic Segmentation Without Exemplar Memory ( http://arxiv.org/abs/2309.15413v1 )

ライセンス: Link先を確認
Danpei Zhao, Bo Yuan, Zhenwei Shi(参考訳) 漸進学習におけるフロントバーナー問題として、クラスインクリメンタルセマンティックセグメンテーション(CISS)は破滅的な忘れ込みとセマンティックドリフトに悩まされている。 近年の手法では, 従来のモデルから知識を伝達するために知識蒸留を利用したが, ピクセル混同を回避できないため, 過去のクラスや将来のクラスへのアノテーションの欠如により, 段階的に段階的に誤分類される。 一方、データ再生ベースのアプローチはストレージの負担とプライバシの懸念に苦しむ。 本稿では,CISSにメモリを使わずに対処し,破滅的な忘れを解消し,セマンティックドリフトを同期的に解決することを提案する。 Inherit with Distillation and Evolve with Contrast (IDEC)は,DADA(Dense Knowledge Distillation on all aspects)とARCL(Asymmetric Region-wise Contrastive Learning)モジュールから構成される。 動的クラス固有の擬似ラベル戦略によって、dadaは中間層の特徴と出力ログを協調的に区別し、意味不変の知識継承をより強調する。 ARCLは、既知のクラス、現在のクラス、未知のクラス間のセマンティックドリフトを解決するために、潜時空間における領域的コントラスト学習を実装している。 本稿では,Pascal VOC 2012 ADE20K や ISPRS など,最先端のパフォーマンスによる複数の CISS タスクに対する提案手法の有効性を示す。 また, マルチステップCISSタスクにおいて, 優れた偽造防止能力を示す。

As a front-burner problem in incremental learning, class incremental semantic segmentation (CISS) is plagued by catastrophic forgetting and semantic drift. Although recent methods have utilized knowledge distillation to transfer knowledge from the old model, they are still unable to avoid pixel confusion, which results in severe misclassification after incremental steps due to the lack of annotations for past and future classes. Meanwhile data-replay-based approaches suffer from storage burdens and privacy concerns. In this paper, we propose to address CISS without exemplar memory and resolve catastrophic forgetting as well as semantic drift synchronously. We present Inherit with Distillation and Evolve with Contrast (IDEC), which consists of a Dense Knowledge Distillation on all Aspects (DADA) manner and an Asymmetric Region-wise Contrastive Learning (ARCL) module. Driven by the devised dynamic class-specific pseudo-labelling strategy, DADA distils intermediate-layer features and output-logits collaboratively with more emphasis on semantic-invariant knowledge inheritance. ARCL implements region-wise contrastive learning in the latent space to resolve semantic drift among known classes, current classes, and unknown classes. We demonstrate the effectiveness of our method on multiple CISS tasks by state-of-the-art performance, including Pascal VOC 2012, ADE20K and ISPRS datasets. Our method also shows superior anti-forgetting ability, particularly in multi-step CISS tasks.
翻訳日:2023-09-28 16:48:04 公開日:2023-09-27
# 自律運転における3次元複数物体追跡:文献レビュー

3D Multiple Object Tracking on Autonomous Driving: A Literature Review ( http://arxiv.org/abs/2309.15411v1 )

ライセンス: Link先を確認
Peng Zhang, Xin Li, Liang He, Xin Lin(参考訳) 3Dマルチオブジェクトトラッキング(3D MOT)は、自動運転において重要な領域であり、近年、学術的関心と商業的約束が急増している。 その最重要さにもかかわらず、3d motは、オブジェクトの出現、広範囲のオクルージョン、小さなターゲットの存在、データのスパーシティ、検出の欠如、そして予測不能なオブジェクトの動きの開始と終了など、無数の困難に直面している。 数え切れないほどの方法論がこれらの問題に対処し始めているが、3D MOTはさらなる探索を保証できる恐ろしい問題として耐えられる。 本稿では,この領域における研究景観の包括的考察,評価,総合的な分析を行い,今後の研究への道筋を示唆しながら,最近の3d motの発展に合わせる。 本研究は,3次元MOTとその関連領域のキーファセットの体系的な説明から始まり,問題記述,分類,方法論的アプローチ,基本原理,実証的研究を含む。 その後、これらの方法論を異なるグループに分類し、その課題、基礎となる理論的根拠、進歩、メリット、デメリットについて、各グループを慎重に分類する。 さらに,実験的なメトリクスの簡潔な再認識を行い,より直感的な評価のための定量的比較を容易にするために,一般的なデータセットの概要を提供する。 最後に,3次元MOT研究の課題と今後の方向性を整理し,本研究の主流となる研究状況について論じる。 この分野での今後の取り組みを導くために,構造化されたルーシッドな道路マップを提案する。

3D multi-object tracking (3D MOT) stands as a pivotal domain within autonomous driving, experiencing a surge in scholarly interest and commercial promise over recent years. Despite its paramount significance, 3D MOT confronts a myriad of formidable challenges, encompassing abrupt alterations in object appearances, pervasive occlusion, the presence of diminutive targets, data sparsity, missed detections, and the unpredictable initiation and termination of object motion trajectories. Countless methodologies have emerged to grapple with these issues, yet 3D MOT endures as a formidable problem that warrants further exploration. This paper undertakes a comprehensive examination, assessment, and synthesis of the research landscape in this domain, remaining attuned to the latest developments in 3D MOT while suggesting prospective avenues for future investigation. Our exploration commences with a systematic exposition of key facets of 3D MOT and its associated domains, including problem delineation, classification, methodological approaches, fundamental principles, and empirical investigations. Subsequently, we categorize these methodologies into distinct groups, dissecting each group meticulously with regard to its challenges, underlying rationale, progress, merits, and demerits. Furthermore, we present a concise recapitulation of experimental metrics and offer an overview of prevalent datasets, facilitating a quantitative comparison for a more intuitive assessment. Lastly, our deliberations culminate in a discussion of the prevailing research landscape, highlighting extant challenges and charting possible directions for 3D MOT research. We present a structured and lucid road-map to guide forthcoming endeavors in this field.
翻訳日:2023-09-28 16:47:33 公開日:2023-09-27
# 思考推論の連鎖に関する調査 : 進歩,フロンティア,未来

A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future ( http://arxiv.org/abs/2309.15402v1 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, Ting Liu(参考訳) 人間の知性に根ざした認知プロセスである思考の連鎖推論は、人工知能と自然言語処理の分野で大きな注目を集めている。 しかし、この競技場に関する総合的な調査がまだ残っていない。 この目的のために、我々はまず第一歩を踏み出し、この研究分野を慎重に、広く調査する。 我々は X-of-Thought を広い意味で Chain-of-Thought と呼ぶ。 具体的には,XoT構築,XoT構造変異,拡張XoTを含む手法の分類に基づいて,現在の研究を体系的に整理する。 さらに,xot をフロンティアアプリケーションで記述し,計画,ツール使用,蒸留について述べる。 さらに, 課題に対処し, 忠実性, マルチモーダル, 理論など, 今後の方向性について論じる。 この調査が、チェーン・オブ・シークレット・推論の領域内で革新を目指す研究者にとって、貴重なリソースになることを願っています。

Chain-of-thought reasoning, a cognitive process fundamental to human intelligence, has garnered significant attention in the realm of artificial intelligence and natural language processing. However, there still remains a lack of a comprehensive survey for this arena. To this end, we take the first step and present a thorough survey of this research field carefully and widely. We use X-of-Thought to refer to Chain-of-Thought in a broad sense. In detail, we systematically organize the current research according to the taxonomies of methods, including XoT construction, XoT structure variants, and enhanced XoT. Additionally, we describe XoT with frontier applications, covering planning, tool use, and distillation. Furthermore, we address challenges and discuss some future directions, including faithfulness, multi-modal, and theory. We hope this survey serves as a valuable resource for researchers seeking to innovate within the domain of chain-of-thought reasoning.
翻訳日:2023-09-28 16:47:05 公開日:2023-09-27
# AI駆動の知識発見による地雷沈降理解の革新

Revolutionizing Terrain-Precipitation Understanding through AI-driven Knowledge Discovery ( http://arxiv.org/abs/2309.15400v1 )

ライセンス: Link先を確認
Hao Xu, Yuntian Chen, Zhenzhong Zeng, Nina Li, Jian Li, Dongxiao Zhang(参考訳) 複雑な地形の複雑さを特徴とする地域での気候過程の理解の促進は、現代の気候科学、特に気候変動の文脈において重要な課題である。 特に、これらの地域の観測データの不足は、その微妙な気候のダイナミクスを理解するためにかなりの制限を課している。 最先端のai駆動の知識発見技術を用いて,地形特徴と降水パターンの複雑な関係を解明し,これらの関係を支配する従来隠されていた複雑度を照らす明示的な方程式を初めて明らかにした。 これらの方程式は、これまで明らかにされていないが、降水データに適用した場合の従来の経験的モデルと比較して顕著な精度を示す。 この基礎の上に構築された「1995年転換点」と呼ばれる現象は、気候変動の力に関連する1995年ごろの地形・降水関係の著しい変化を示している。 これらの方程式は、特に低解像度の将来の気候データから微細なスケールダウンスケールの降水予測を達成するのに実用的な応用がある。 この能力は、将来の気候シナリオの下で様々な地形にまたがる降水パターンの変化について、非常に重要な洞察を提供する。

Advancing our understanding of climate processes in regions characterized by intricate terrain complexity is a paramount challenge in contemporary climate science, particularly in the context of global climate change. Notably, the scarcity of observational data in these regions has imposed substantial limitations on understanding the nuanced climate dynamics therein. For the first time, utilizing cutting-edge AI-driven knowledge discovery techniques, we have uncovered explicit equations that elucidate the intricate relationship between terrain features and precipitation patterns, illuminating the previously concealed complexities governing these relationships. These equations, thus far undisclosed, exhibit remarkable accuracy compared to conventional empirical models when applied to precipitation data. Building on this foundation, we reveal a phenomenon known as the '1995 turning point,' indicating a significant shift in the terrain-precipitation relationship in approximately 1995, related to the forces of climate change. These equations have practical applications, particularly in achieving fine-scale downscaling precipitation predictions from low-resolution future climate data. This capability provides invaluable insights into the expected changes in precipitation patterns across diverse terrains under future climate scenarios.
翻訳日:2023-09-28 16:46:51 公開日:2023-09-27
# オンラインcmdpにおけるモデルフリー, 後悔-最適政策識別

Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs ( http://arxiv.org/abs/2309.15395v1 )

ライセンス: Link先を確認
Zihan Zhou, Honghao Wei, Lei Ying(参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)におけるBPI問題について考察する。 我々は、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、高い確率で最適なポリシーを特定する。 オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムは、最適ポリシーへの収束保証を提供しておらず、以前に使用したすべてのポリシーからランダムにポリシーがサンプリングされた場合にのみ平均的なパフォーマンス保証を提供する。 本稿では,我々が発見するcmdpsの基本構造的性質に基づいて,pruning-refinement-identification(pri)という新しいアルゴリズムを開発した。 このプロパティは、n$制約のあるcmdpに対して、最大$n$確率的決定を持つ最適なポリシーが存在すると言っている。 提案するアルゴリズムは,まず確率的決定を行うべき段階と状態を特定し,その確率的決定の分布を微調整する。 PRIは3つの目標を達成する。 (i)PRIはモデルフリーのアルゴリズムであり、 (ii)学習の最後に高い確率で、最適に近い政策を出力する。 (iii) 表設定では、pri は$\tilde{\mathcal{o}}(\sqrt{k})$ regret and constraints violation を保証し、$k$ はエピソードの総数であるモードフリーのアルゴリズムの下で、$\tilde{\mathcal{o}}(k^{\frac{4}{5}})$ を最良に向上させる。

This paper considers the best policy identification (BPI) problem in online Constrained Markov Decision Processes (CMDPs). We are interested in algorithms that are model-free, have low regret, and identify an optimal policy with a high probability. Existing model-free algorithms for online CMDPs with sublinear regret and constraint violation do not provide any convergence guarantee to an optimal policy and provide only average performance guarantees when a policy is uniformly sampled at random from all previously used policies. In this paper, we develop a new algorithm, named Pruning-Refinement-Identification (PRI), based on a fundamental structural property of CMDPs we discover, called limited stochasticity. The property says for a CMDP with $N$ constraints, there exists an optimal policy with at most $N$ stochastic decisions. The proposed algorithm first identifies at which step and in which state a stochastic decision has to be taken and then fine-tunes the distributions of these stochastic decisions. PRI achieves trio objectives: (i) PRI is a model-free algorithm; and (ii) it outputs a near-optimal policy with a high probability at the end of learning; and (iii) in the tabular setting, PRI guarantees $\tilde{\mathcal{O}}(\sqrt{K})$ regret and constraint violation, which significantly improves the best existing regret bound $\tilde{\mathcal{O}}(K^{\frac{4}{5}})$ under a mode-free algorithm, where $K$ is the total number of episodes.
翻訳日:2023-09-28 16:46:33 公開日:2023-09-27
# KDD-LOAM:LiDARオドメトリーとマッピングを併用した共同学習型キーポイント検出器とディスクリプタ

KDD-LOAM: Jointly Learned Keypoint Detector and Descriptors Assisted LiDAR Odometry and Mapping ( http://arxiv.org/abs/2309.15394v1 )

ライセンス: Link先を確認
Renlang Huang, Minglei Zhao, Jiming Chen, and Liang Li(参考訳) 異なる3d特徴表現に基づくスパースキーポイントマッチングは、ポイントクラウド登録の効率とロバスト性を向上させる。 既存の学習ベースの3D記述子とキーポイント検出器は独立あるいは疎結合であるため、互いに完全に適応することはできない。 本研究では,確率的検出損失を有するマルチタスク完全畳み込みネットワークに基づく,密結合型キーポイント検出器とディスクリプタ(TCKDD)を提案する。 特に、この自己教師付き検出損失は、キーポイント検出器を任意の共同学習ディスクリプタに完全に適合させ、ディスクリプタの自己教師付き学習の恩恵を受ける。 屋内および屋外のデータセットにおける広範囲な実験により、tckddがポイントクラウド登録において最先端のパフォーマンスを達成していることが示された。 さらに,リアルタイムオドメトリがキーポイント記述子マッチングベースのransacに依存する,kdd-loam (keypoint detector and descriptor-assisted lidar odometry and mapping framework) を設計した。 スパースキーポイントは、効率的なscan-to-map登録とマッピングのために使われる。 KITTIデータセットの実験では、KDD-LOAMはLOAMを大幅に上回り、オドメトリーにおける競合性能を示す。

Sparse keypoint matching based on distinct 3D feature representations can improve the efficiency and robustness of point cloud registration. Existing learning-based 3D descriptors and keypoint detectors are either independent or loosely coupled, so they cannot fully adapt to each other. In this work, we propose a tightly coupled keypoint detector and descriptor (TCKDD) based on a multi-task fully convolutional network with a probabilistic detection loss. In particular, this self-supervised detection loss fully adapts the keypoint detector to any jointly learned descriptors and benefits the self-supervised learning of descriptors. Extensive experiments on both indoor and outdoor datasets show that our TCKDD achieves state-of-the-art performance in point cloud registration. Furthermore, we design a keypoint detector and descriptors-assisted LiDAR odometry and mapping framework (KDD-LOAM), whose real-time odometry relies on keypoint descriptor matching-based RANSAC. The sparse keypoints are further used for efficient scan-to-map registration and mapping. Experiments on KITTI dataset demonstrate that KDD-LOAM significantly surpasses LOAM and shows competitive performance in odometry.
翻訳日:2023-09-28 16:46:00 公開日:2023-09-27
# ロバストな意味セグメンテーションuncv2023チャレンジ結果

The Robust Semantic Segmentation UNCV2023 Challenge Results ( http://arxiv.org/abs/2309.15478v1 )

ライセンス: Link先を確認
Xuanlong Yu, Yi Zuo, Zitao Wang, Xiaowen Zhang, Jiaxuan Zhao, Yuting Yang, Licheng Jiao, Rui Peng, Xinyi Wang, Junpei Zhang, Kexin Zhang, Fang Liu, Roberto Alcover-Couso, Juan C. SanMiguel, Marcos Escudero-Vi\~nolo, Hanlin Tian, Kenta Matsui, Tianhao Wang, Fahmy Adan, Zhitong Gao, Xuming He, Quentin Bouniot, Hossein Moghaddam, Shyam Nandan Rai, Fabio Cermelli, Carlo Masone, Andrea Pilzer, Elisa Ricci, Andrei Bursuc, Arno Solin, Martin Trapp, Rui Li, Angela Yao, Wenlong Chen, Ivor Simpson, Neill D. F. Campbell, Gianni Franchi(参考訳) 本稿では,iccv 2023で開催されているmuad不確実性定量化課題の解法について概説する。 この課題は、都市環境におけるセマンティックセグメンテーションを中心に、特に自然の敵対的なシナリオに焦点を当てた。 本報告では,過去数年間のコンピュータビジョン,機械学習,ジャーナルの分野において,最先端の不確実性定量化手法から着想を得た19件の論文を提示する。 本論文では, 都市環境における意味的セグメンテーションの堅牢性向上を主眼として, 目的と目的に光を当て, 課題を提起する。 報告書はその後、トップパフォーマンスのソリューションに踏み込んだ。 さらに、この文書は、すべての参加者が展開する多様なソリューションの包括的概要を提供することを目的としている。 そうすることで、特に都市環境において、自動運転とセマンティックセグメンテーションに関連する固有の不確かさを効果的に扱うために活用できる戦略について、読者に深い洞察を提供することを目指している。

This paper outlines the winning solutions employed in addressing the MUAD uncertainty quantification challenge held at ICCV 2023. The challenge was centered around semantic segmentation in urban environments, with a particular focus on natural adversarial scenarios. The report presents the results of 19 submitted entries, with numerous techniques drawing inspiration from cutting-edge uncertainty quantification methodologies presented at prominent conferences in the fields of computer vision and machine learning and journals over the past few years. Within this document, the challenge is introduced, shedding light on its purpose and objectives, which primarily revolved around enhancing the robustness of semantic segmentation in urban scenes under varying natural adversarial conditions. The report then delves into the top-performing solutions. Moreover, the document aims to provide a comprehensive overview of the diverse solutions deployed by all participants. By doing so, it seeks to offer readers a deeper insight into the array of strategies that can be leveraged to effectively handle the inherent uncertainties associated with autonomous driving and semantic segmentation, especially within urban environments.
翻訳日:2023-09-28 14:56:39 公開日:2023-09-27
# 一様B-スプラインに関するチュートリアル

A Tutorial on Uniform B-Spline ( http://arxiv.org/abs/2309.15477v1 )

ライセンス: Link先を確認
Yi Zhou(参考訳) この文書は、一様b-スプラインとその行列表現に関するコア概念の理解を促進する。

This document facilitates understanding of core concepts about uniform B-spline and its matrix representation.
翻訳日:2023-09-28 14:56:08 公開日:2023-09-27
# 対話型アスペクトベース知覚四重項解析のための動的マルチスケールコンテキストアグリゲーション

Dynamic Multi-Scale Context Aggregation for Conversational Aspect-Based Sentiment Quadruple Analysis ( http://arxiv.org/abs/2309.15476v1 )

ライセンス: Link先を確認
Yuqing Li, Wenyuan Zhang, Binbin Li, Siyu Jia, Zisen Qi, Xingbang Tan(参考訳) 対話的側面に基づく感情四重項分析 (DiaASQ) は,対話の中での対物対物感覚の四重項を抽出することを目的としている。 DiaASQでは、四重項の要素はしばしば複数の発話を交わす。 この状況は抽出過程を複雑にし、会話の文脈と相互作用を適切に理解する必要があることを強調する。 しかし、既存の作業は各発話を独立してエンコードするので、長距離会話の文脈を捉え、深い発話間の依存関係を見渡すのに苦労する。 本研究では,この課題に対処する新しい動的マルチスケールコンテキスト集約ネットワーク(DMCA)を提案する。 具体的には,まず対話構造を用いて,多様な文脈情報を取り込むマルチスケール発話窓を生成する。 その後,動的階層型アグリゲーションモジュール (dha) の設計を行い,それらの間にプログレッシブ・キューを統合する。 さらに,モデル性能と一般化能力を向上させるために,多段階損失戦略を策定する。 総合実験の結果,DMCAモデルはベースラインを著しく上回り,最先端性能を実現していることがわかった。

Conversational aspect-based sentiment quadruple analysis (DiaASQ) aims to extract the quadruple of target-aspect-opinion-sentiment within a dialogue. In DiaASQ, a quadruple's elements often cross multiple utterances. This situation complicates the extraction process, emphasizing the need for an adequate understanding of conversational context and interactions. However, existing work independently encodes each utterance, thereby struggling to capture long-range conversational context and overlooking the deep inter-utterance dependencies. In this work, we propose a novel Dynamic Multi-scale Context Aggregation network (DMCA) to address the challenges. Specifically, we first utilize dialogue structure to generate multi-scale utterance windows for capturing rich contextual information. After that, we design a Dynamic Hierarchical Aggregation module (DHA) to integrate progressive cues between them. In addition, we form a multi-stage loss strategy to improve model performance and generalization ability. Extensive experimental results show that the DMCA model outperforms baselines significantly and achieves state-of-the-art performance.
翻訳日:2023-09-28 14:56:05 公開日:2023-09-27
# クロスレベル最適化による資源効率AIoTシステムの実現:サーベイ

Enabling Resource-efficient AIoT System with Cross-level Optimization: A survey ( http://arxiv.org/abs/2309.15467v1 )

ライセンス: Link先を確認
Sicong Liu, Bin Guo, Cheng Fang, Ziqi Wang, Shiyan Luo, Zimu Zhou, Zhiwen Yu(参考訳) 物の人工知能(AIoT、AI+IoT)の新興分野は、インテリジェントインフラストラクチャの普及と、ディープラーニング(DL)の驚くべき成功によって推進されている。 リッチセンサーと弱いDLコンピューティング機能を備えたさまざまなインテリジェントインフラストラクチャへのDLのデプロイにより、さまざまなAIoTアプリケーションが可能になった。 しかし、DLモデルはリソース集約であることが知られている。 既存の研究は、aiotライブデータのニア/リアルタイム推論と、リソース管理インフラストラクチャ上のaiotデータセットを用いた低コストトレーニングの実現を目指している。 したがって、DLモデルの精度と応答性は、リソース可用性によって制限される。 この目的のために、リソースフレンドリーなDLモデルとモデル適応システムスケジューリングを共同で最適化するアルゴリズム-システム共設計は、ランタイムリソースの可用性を改善し、スタンドアローンレベルで設定されたパフォーマンス境界を押し上げる。 リソースフレンドリなDLモデルや、部分的に調整されたコンポーネントを備えた手作りのDLコンパイラ/フレームワークに関する以前の調査とは異なり、この調査は、より自由なリソースパフォーマンストレードオフのためのより広範な最適化スペースを提供することを目的としている。 クロスレベル最適化の展望にはdlモデル、計算グラフ、オペレータ、メモリスケジュール、ハードウェアインストラクタなど、デバイス上と分散両方のパラダイムを含むさまざまな粒度が含まれている。 さらに,ヘテロジニアスなハードウェア,無依存なセンシングデータ,ユーザ指定のパフォーマンス要求の変動,リソース制約などを含むaiotコンテキストのダイナミックな性質から,自動クロスレベル適応のためのコンテキストアウェアなデバイス間/デバイス間コントローラの検討を行った。 さらに,資源効率のよいaiotシステムの方向性を明らかにする。 様々なレベルに散らばる問題やテクニックを統合することで、読者のつながりを理解し、さらなる議論を促すことを目指している。

The emerging field of artificial intelligence of things (AIoT, AI+IoT) is driven by the widespread use of intelligent infrastructures and the impressive success of deep learning (DL). With the deployment of DL on various intelligent infrastructures featuring rich sensors and weak DL computing capabilities, a diverse range of AIoT applications has become possible. However, DL models are notoriously resource-intensive. Existing research strives to realize near-/realtime inference of AIoT live data and low-cost training using AIoT datasets on resource-scare infrastructures. Accordingly, the accuracy and responsiveness of DL models are bounded by resource availability. To this end, the algorithm-system co-design that jointly optimizes the resource-friendly DL models and model-adaptive system scheduling improves the runtime resource availability and thus pushes the performance boundary set by the standalone level. Unlike previous surveys on resource-friendly DL models or hand-crafted DL compilers/frameworks with partially fine-tuned components, this survey aims to provide a broader optimization space for more free resource-performance tradeoffs. The cross-level optimization landscape involves various granularity, including the DL model, computation graph, operator, memory schedule, and hardware instructor in both on-device and distributed paradigms. Furthermore, due to the dynamic nature of AIoT context, which includes heterogeneous hardware, agnostic sensing data, varying user-specified performance demands, and resource constraints, this survey explores the context-aware inter-/intra-device controllers for automatic cross-level adaptation. Additionally, we identify some potential directions for resource-efficient AIoT systems. By consolidating problems and techniques scattered over diverse levels, we aim to help readers understand their connections and stimulate further discussions.
翻訳日:2023-09-28 14:55:30 公開日:2023-09-27
# 鳥から見たレーダー・カメラ融合のクロスデータセット実験

Cross-Dataset Experimental Study of Radar-Camera Fusion in Bird's-Eye View ( http://arxiv.org/abs/2309.15465v1 )

ライセンス: Link先を確認
Lukas St\"acker, Philipp Heidenreich, Jason Rambach, Didier Stricker(参考訳) 相補的なセンサー情報を活用することで、レーダーとカメラの融合システムは、高度な運転支援システムと自動運転機能のための非常に堅牢で信頼性の高い認識システムを提供する可能性がある。 カメラによる物体検出の最近の進歩は、鳥の視線特徴地図を用いた新しいレーダーカメラ融合の可能性をもたらす。 本研究では,新しいフレキシブルな融合ネットワークを提案し,その性能を2つのデータセット,nuScenesとView-of-Delftで評価する。 我々の実験によると、カメラブランチは大規模で多様な訓練データを必要とするが、レーダーブランチは高性能レーダーの恩恵を受ける。 転送学習を用いて、より小さなデータセット上でのカメラの性能を改善する。 さらに,レーダーとカメラの融合アプローチが,カメラのみとレーダーのみのベースラインを大きく上回ることを示した。

By exploiting complementary sensor information, radar and camera fusion systems have the potential to provide a highly robust and reliable perception system for advanced driver assistance systems and automated driving functions. Recent advances in camera-based object detection offer new radar-camera fusion possibilities with bird's eye view feature maps. In this work, we propose a novel and flexible fusion network and evaluate its performance on two datasets: nuScenes and View-of-Delft. Our experiments reveal that while the camera branch needs large and diverse training data, the radar branch benefits more from a high-performance radar. Using transfer learning, we improve the camera's performance on the smaller dataset. Our results further demonstrate that the radar-camera fusion approach significantly outperforms the camera-only and radar-only baselines.
翻訳日:2023-09-28 14:54:51 公開日:2023-09-27
# 交換結合ドナー電子スピン量子ビットにおける絡み合う2ビット論理演算のトモグラフィー

Tomography of entangling two-qubit logic operations in exchange-coupled donor electron spin qubits ( http://arxiv.org/abs/2309.15463v1 )

ライセンス: Link先を確認
Holly G. Stemp, Serwan Asaad, Mark R. van Blankenstein, Arjen Vaartjes, Mark A. I. Johnson, Mateusz T. M\k{a}dzik, Amber J. A. Heskes, Hannes R. Firgau, Rocky Y. Su, Chih Hwan Yang, Arne Laucht, Corey I. Ostrove, Kenneth M. Rudinger, Kevin Young, Robin Blume-Kohout, Fay E. Hudson, Andrew S. Dzurak, Kohei M. Itoh, Alexander M. Jakob, Brett C. Johnson, David N. Jamieson and Andrea Morello(参考訳) スケーラブル量子プロセッサは、製造可能な物理プラットフォームにおける高忠実な普遍量子論理演算を必要とする。 シリコン中の1つのドナー原子に結合する電子のスピンは、コヒーレンス時間はほぼ1秒であり、単一量子ビットの量子演算フィデリティは99.9%以上である。 マルチキュービット演算を行うために、交換相互作用は通常、隣接するドナー原子の電子を結合するために使用される。 しかし、弱い常にオンの交換相互作用の存在下でのドナー電子量子ビットのパフォーマンスは、まだ完全に特徴づけられていない。 ここでは、2つの弱い交換結合電子系において、各電子が1つのリン核に結合した普遍的な1-および2-量子ゲートの実験実験とトモグラフィーを示す。 2つの核スピンを反対方向に決定的に準備することで、各電子スピン共鳴パルスはネイティブ条件の2量子ゲートを構成する。 ゲートセットトモグラフィー(GST)を用いてこれらのネイティブ操作を慎重にベンチマークし、両電子の99%以上の単一量子ビットゲート忠実度を達成する。 弱い交換状態の電子は、シングルドナー電子と同様に高いコヒーレンス時間を保ち、スピンベースの量子ビットプラットフォームにおけるその生存性を示す。

Scalable quantum processors require high-fidelity universal quantum logic operations in a manufacturable physical platform. The spin of an electron bound to a single donor atom in silicon has shown coherence times of almost a second, with single qubit quantum operation fidelities of over 99.9%. In order to perform multi-qubit operations, the exchange interaction is typically used in order to couple the electrons of neighbouring donor atoms. However, the donor electron qubit performance in the presence of a weak, always-on, exchange interaction has yet to be fully characterised. Here we present the experimental demonstration and tomography of universal 1- and 2-qubit gates in a system of two weakly exchange-coupled electrons, with each electron bound to a single phosphorus nucleus. By deterministically preparing the two nuclear spins in opposite directions, each electron spin resonance pulse constitutes a native conditional two-qubit gate. We carefully benchmark these native operations using gate set tomography (GST), achieving single qubit gate fidelities above 99% for both electrons. The electrons in the weak-exchange regime are found to retain similarly high coherence times as single donor electrons, demonstrating its viability for a spin-based qubit platform.
翻訳日:2023-09-28 14:54:24 公開日:2023-09-27
# chatcounselor: メンタルヘルスサポートのための大規模言語モデル

ChatCounselor: A Large Language Models for Mental Health Support ( http://arxiv.org/abs/2309.15461v1 )

ライセンス: Link先を確認
June M. Liu, Donghao Li, He Cao, Tianhe Ren, Zeyi Liao and Jiamin Wu(参考訳) 本稿では,メンタルヘルス支援を目的とした大規模言語モデル(LLM)ソリューションChatCounselorを提案する。 一般的なチャットボットとは異なり、chatcounselorはコンサルティングクライアントとプロの心理学者との実際の会話における基盤によって区別され、心理学の分野で専門的な知識とカウンセリングスキルを持つことができる。 トレーニングデータセットであるPsych8kは、毎時間260回のインタビューから構築された。 カウンセリング反応の質を評価するためにカウンセリングベンチが考案された。 心理カウンセリング評価の7つの指標に基づいて,gpt-4と細心の注意深いプロンプトを活用し,実世界のカウンセリング質問のセットを用いて評価を行った。 印象的なことに、chatcounselorはカウンセリングベンチで既存のオープンソースモデルを超え、chatgptのパフォーマンスレベルに近づき、高品質なドメイン固有データによって達成されたモデル能力の著しい向上を示している。

This paper presents ChatCounselor, a large language model (LLM) solution designed to provide mental health support. Unlike generic chatbots, ChatCounselor is distinguished by its foundation in real conversations between consulting clients and professional psychologists, enabling it to possess specialized knowledge and counseling skills in the field of psychology. The training dataset, Psych8k, was constructed from 260 in-depth interviews, each spanning an hour. To assess the quality of counseling responses, the counseling Bench was devised. Leveraging GPT-4 and meticulously crafted prompts based on seven metrics of psychological counseling assessment, the model underwent evaluation using a set of real-world counseling questions. Impressively, ChatCounselor surpasses existing open-source models in the counseling Bench and approaches the performance level of ChatGPT, showcasing the remarkable enhancement in model capability attained through high-quality domain-specific data.
翻訳日:2023-09-28 14:54:01 公開日:2023-09-27
# gamma:オンライン把持姿勢融合に基づく把持性を考慮したモバイル操作ポリシー学習

GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion ( http://arxiv.org/abs/2309.15459v1 )

ライセンス: Link先を確認
Jiazhao Zhang, Nandiraju Gireesh, Jilong Wang, Xiaomeng Fang, Chaoyi Xu, Weiguang Chen, Liu Dai, and He Wang(参考訳) 移動操作はロボットアシスタントの基本的なタスクであり、ロボットコミュニティ内で大きな注目を集めている。 モバイル操作に固有の重要な課題は、つかむために接近しながらターゲットを効果的に観察することである。 本研究では,時間的に一貫した把持観察を可能にするオンライン把持姿勢融合フレームワークを用いて,把持性を考慮した移動操作手法を提案する。 具体的には、予測された把持姿勢をオンラインに整理し、冗長で外れた把持姿勢を排除し、強化学習のための把持姿勢観察状態として符号化する。 また、把持姿勢を用いるオンザフライでは、把持姿勢の量と品質の両方を包含して、把持性を直接評価することができる。

Mobile manipulation constitutes a fundamental task for robotic assistants and garners significant attention within the robotics community. A critical challenge inherent in mobile manipulation is the effective observation of the target while approaching it for grasping. In this work, we propose a graspability-aware mobile manipulation approach powered by an online grasping pose fusion framework that enables a temporally consistent grasping observation. Specifically, the predicted grasping poses are online organized to eliminate the redundant, outlier grasping poses, which can be encoded as a grasping pose observation state for reinforcement learning. Moreover, on-the-fly fusing the grasping poses enables a direct assessment of graspability, encompassing both the quantity and quality of grasping poses.
翻訳日:2023-09-28 14:53:43 公開日:2023-09-27
# LogicMP: 一階論理制約を符号化するニューロシンボリックアプローチ

LogicMP: A Neuro-symbolic Approach for Encoding First-order Logic Constraints ( http://arxiv.org/abs/2309.15458v1 )

ライセンス: Link先を確認
Weidi Xu, Jingwei Wang, Lele Xie, Jianshan He, Hongting Zhou, Taifeng Wang, Xiaopei Wan, Jingdong Chen, Chao Qu, Wei Chu(参考訳) ニューラルネットワークに一階述語論理制約(FOLC)を統合することは、制約を満たすために複雑な相関をモデル化する必要があるため、極めて難しい問題である。 本稿では,MLN上で平均場変動推定を行う新しいニューラルネットワーク層LogicMPを提案する。 モジュール性と効率を保ちながらFOLCをエンコードするために、市販のニューラルネットワークにプラグインすることができる。 mlnsの構造と対称性を活用し,mln推論の難しさを効果的に軽減し,逐次計算から一連の並列テンソル演算への推論を減少させることを理論的に証明した。 グラフ、画像、テキストの3種類のタスクを経験した結果、LogicMPはパフォーマンスと効率の両面で先進的な競合より優れていた。

Integrating first-order logic constraints (FOLCs) with neural networks is a crucial but challenging problem since it involves modeling intricate correlations to satisfy the constraints. This paper proposes a novel neural layer, LogicMP, whose layers perform mean-field variational inference over an MLN. It can be plugged into any off-the-shelf neural network to encode FOLCs while retaining modularity and efficiency. By exploiting the structure and symmetries in MLNs, we theoretically demonstrate that our well-designed, efficient mean-field iterations effectively mitigate the difficulty of MLN inference, reducing the inference from sequential calculation to a series of parallel tensor operations. Empirical results in three kinds of tasks over graphs, images, and text show that LogicMP outperforms advanced competitors in both performance and efficiency.
翻訳日:2023-09-28 14:53:32 公開日:2023-09-27
# 強相互作用するスピンアンサンブルにおける長寿命コヒーレンス

Long-lived coherences in strongly interacting spin ensembles ( http://arxiv.org/abs/2309.15444v1 )

ライセンス: Link先を確認
William K. Schenken, Simon A. Meynell, Francisco Machado, Bingtian Ye, Claire A. McLellan, Maxime Joos, V. V. Dobrovitski, Norman Y. Yao, Ania C. Bleszynski Jayich(参考訳) 周期駆動は多体量子システムを制御、設計、特徴付ける強力なツールとして登場した。 しかし、要求されるパルスシーケンスはしばしば複雑で長いか、あるいは個々の自由度を制御する能力を必要とする。 本研究では,単純なカルプルセルmeiboom-gill(cpmg)様のパルスシーケンスを用いて,スピン量子ビットの大きなアンサンブルのコヒーレンスを増強し,重要な評価ツールとして機能する方法について検討する。 ダイアモンド中の窒素空孔密度(NV)中心のアンサンブルに周期駆動を実装し, パルス回転オフセットがダイナミクスに及ぼす影響を制御パラメータとして検討した。 異なるNV密度のスポットを複数用意した単一のダイヤモンド試料を用いて、NV-NV双極子相互作用強度を変化させる。 反故意に、CPMGシーケンス(しばしばパルスエラーに分類される)における理想の {\pi}-パルスから逸脱する回転オフセットは、名目上ゼロの回転オフセットでもコヒーレンスを保存する上で重要な役割を果たす。 コヒーレンス保存の原因は、回転オフセットの大きさと線形にスケールする創発的な有効場である。 コヒーレンスの拡張に加えて、コヒーレンスの回転オフセット依存性を数値シミュレーションと比較し、ハミルトニアンに対する障害と双極子寄与を測定し、ダイヤモンド中の構成スピン種の密度を定量的に抽出する。

Periodic driving has emerged as a powerful tool to control, engineer, and characterize many-body quantum systems. However, the required pulse sequences are often complex, long, or require the ability to control the individual degrees of freedom. In this work, we study how a simple Carr-Purcell Meiboom-Gill (CPMG)-like pulse sequence can be leveraged to enhance the coherence of a large ensemble of spin qubits and serve as an important characterization tool. We implement the periodic drive on an ensemble of dense nitrogen-vacancy (NV) centers in diamond and examine the effect of pulse rotation offset as a control parameter on the dynamics. We use a single diamond sample prepared with several spots of varying NV density, which, in turn, varies the NV-NV dipolar interaction strength. Counter-intuitively, we find that rotation offsets deviating from the ideal {\pi}-pulse in the CPMG sequence (often classified as pulse errors) play a critical role in preserving coherence even at nominally zero rotation offset. The cause of the coherence preservation is an emergent effective field that scales linearly with the magnitude of the rotation offset. In addition to extending coherence, we compare the rotation offset dependence of coherence to numerical simulations to measure the disorder and dipolar contributions to the Hamiltonian to quantitatively extract the densities of the constituent spin species within the diamond.
翻訳日:2023-09-28 14:53:15 公開日:2023-09-27
# videoadviser:マルチモーダル転送学習のためのビデオ知識蒸留

VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning ( http://arxiv.org/abs/2309.15494v1 )

ライセンス: Link先を確認
Yanan Wang, Donghuo Zeng, Shinya Wada, Satoshi Kurihara(参考訳) マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。 しかしながら、従来のシステムは通常、すべてのモダリティが存在するという仮定に基づいて構築され、モダリティの欠如は推論性能の低下につながる。 さらに、すべての様相に対する事前学習された埋め込みの抽出は、推論の計算学的に非効率である。 本研究では,マルチモーダル基本モデル(教師)から特定のモーダル基本モデル(学生)に映像強調プロンプトのマルチモーダル知識を伝達するビデオ知識蒸留法であるVideoAdviserを提案する。 With an intuition that the best learning performance comes with professional advisers and smart students, we use a CLIP-based teacher model to provide expressive multimodal knowledge supervision signals to a RoBERTa-based student model via optimizing a step-distillation objective loss -- first step: the teacher distills multimodal knowledge of video-enhanced prompts from classification logits to a regression logit -- second step: the multimodal knowledge is distilled from the regression logit of the teacher to the student. 我々は,映像レベル感情分析(MOSIおよびMOSEIデータセット)と音声視覚検索(VEGASデータセット)の2つの課題において,本手法の評価を行った。 学生(入力としてテキストモダリティのみを要求する)は、MOSIおよびMOSEIに対して最大12.3%のMAEスコア向上を達成する。 提案手法は,VEGASの3.4%のmAPスコアを推論のための追加計算なしで,最先端の手法をさらに強化する。 これらの結果から,高効率マルチモーダル転送学習を実現するための手法の強みが示唆された。

Multimodal transfer learning aims to transform pretrained representations of diverse modalities into a common domain space for effective multimodal fusion. However, conventional systems are typically built on the assumption that all modalities exist, and the lack of modalities always leads to poor inference performance. Furthermore, extracting pretrained embeddings for all modalities is computationally inefficient for inference. In this work, to achieve high efficiency-performance multimodal transfer learning, we propose VideoAdviser, a video knowledge distillation method to transfer multimodal knowledge of video-enhanced prompts from a multimodal fundamental model (teacher) to a specific modal fundamental model (student). With an intuition that the best learning performance comes with professional advisers and smart students, we use a CLIP-based teacher model to provide expressive multimodal knowledge supervision signals to a RoBERTa-based student model via optimizing a step-distillation objective loss -- first step: the teacher distills multimodal knowledge of video-enhanced prompts from classification logits to a regression logit -- second step: the multimodal knowledge is distilled from the regression logit of the teacher to the student. We evaluate our method in two challenging multimodal tasks: video-level sentiment analysis (MOSI and MOSEI datasets) and audio-visual retrieval (VEGAS dataset). The student (requiring only the text modality as input) achieves an MAE score improvement of up to 12.3% for MOSI and MOSEI. Our method further enhances the state-of-the-art method by 3.4% mAP score for VEGAS without additional computations for inference. These results suggest the strengths of our method for achieving high efficiency-performance multimodal transfer learning.
翻訳日:2023-09-28 14:47:27 公開日:2023-09-27
# caudr : 糖尿病網膜症評価のための因果関係にインスパイアされたドメイン一般化フレームワーク

CauDR: A Causality-inspired Domain Generalization Framework for Fundus-based Diabetic Retinopathy Grading ( http://arxiv.org/abs/2309.15493v1 )

ライセンス: Link先を確認
Hao Wei, Peilun Shi, Juzheng Miao, Minqing Zhang, Guitao Bai, Jianing Qiu, Furui Liu, Wu Yuan(参考訳) 糖尿病網膜症(DR)は最も一般的な糖尿病合併症であり、通常は網膜損傷、視力喪失、失明に至る。 コンピュータ支援型DRグレーティングシステムは、眼科医が迅速なスクリーニングと診断を行うのに役立つ。 近年の眼底撮影の進歩は、新しい網膜イメージングカメラの開発と、それに続く臨床応用に寄与している。 しかし、深層学習に基づくアルゴリズムの多くは、領域をまたがる限定的な一般化を示している。 この劣った性能は、画像プロトコルや領域シフトを引き起こす装置のばらつきに起因する。 ドメイン間のモデルパフォーマンスの低下は、データのスプリアス相関の学習から生じると仮定する。 因果解析をモデルアーキテクチャに組み込むことで、この問題を緩和し、一般化性を向上させることができる。 具体的には,新しい普遍的構造因果モデル (scm) を提案し,スプリアス相関を解析した。 これに基づいて、因果性インスピレーションを受けた糖尿病網膜症グレーディングフレームワークであるCauDRが開発された。 さらに、既存のデータセットをDGシナリオの4DRベンチマークに再構成した。 その結果,CauDRの有効性とSOTA(State-of-the-art)性能が示された。

Diabetic retinopathy (DR) is the most common diabetic complication, which usually leads to retinal damage, vision loss, and even blindness. A computer-aided DR grading system has a significant impact on helping ophthalmologists with rapid screening and diagnosis. Recent advances in fundus photography have precipitated the development of novel retinal imaging cameras and their subsequent implementation in clinical practice. However, most deep learning-based algorithms for DR grading demonstrate limited generalization across domains. This inferior performance stems from variance in imaging protocols and devices inducing domain shifts. We posit that declining model performance between domains arises from learning spurious correlations in the data. Incorporating do-operations from causality analysis into model architectures may mitigate this issue and improve generalizability. Specifically, a novel universal structural causal model (SCM) was proposed to analyze spurious correlations in fundus imaging. Building on this, a causality-inspired diabetic retinopathy grading framework named CauDR was developed to eliminate spurious correlations and achieve more generalizable DR diagnostics. Furthermore, existing datasets were reorganized into 4DR benchmark for DG scenario. Results demonstrate the effectiveness and the state-of-the-art (SOTA) performance of CauDR.
翻訳日:2023-09-28 14:46:58 公開日:2023-09-27
# 深層顔の修復に関する調査 : 非盲点から盲点まで

Survey on Deep Face Restoration: From Non-blind to Blind and Beyond ( http://arxiv.org/abs/2309.15490v1 )

ライセンス: Link先を確認
Wenjie Li, Mei Wang, Kai Zhang, Juncheng Li, Xiaoming Li, Yuhang Zhang, Guangwei Gao, Weihong Deng and Chia-Wen Lin(参考訳) 顔復元(FR)は、低品質 (LQ) の顔画像を高品質 (HQ) の顔画像に復元することを目的とした、画像復元の専門分野である。 近年のディープラーニング技術の進歩はFR法に大きな進歩をもたらした。 本稿では,実世界のLQ画像の原因となる要因について検討し,LQ画像の合成に用いる劣化技術を紹介する。 また、この分野でよく使われる注目すべきベンチマークについても論じる。 次に、異なるタスクに基づいてFR法を分類し、時間とともにその進化を説明する。 さらに, 修復過程において一般的に用いられる各種顔面前野を探索し, その効果を高めるための戦略について検討した。 実験では,各タスクにおける最先端FR法の性能を,統一ベンチマークを用いて徹底的に評価した。 我々はそのパフォーマンスを異なる観点から分析する。 最後に、frの分野における課題を議論し、今後の発展に向けた潜在的な方向性を提案する。 この作業に対応するオープンソースリポジトリはhttps:// github.com/ 24wenjie-li/ Awesome-Face-Restorationにある。

Face restoration (FR) is a specialized field within image restoration that aims to recover low-quality (LQ) face images into high-quality (HQ) face images. Recent advances in deep learning technology have led to significant progress in FR methods. In this paper, we begin by examining the prevalent factors responsible for real-world LQ images and introduce degradation techniques used to synthesize LQ images. We also discuss notable benchmarks commonly utilized in the field. Next, we categorize FR methods based on different tasks and explain their evolution over time. Furthermore, we explore the various facial priors commonly utilized in the restoration process and discuss strategies to enhance their effectiveness. In the experimental section, we thoroughly evaluate the performance of state-of-the-art FR methods across various tasks using a unified benchmark. We analyze their performance from different perspectives. Finally, we discuss the challenges faced in the field of FR and propose potential directions for future advancements. The open-source repository corresponding to this work can be found at https:// github.com/ 24wenjie-li/ Awesome-Face-Restoration.
翻訳日:2023-09-28 14:46:41 公開日:2023-09-27
# メソスコピック系における温度変動

Temperature fluctuations in mesoscopic systems ( http://arxiv.org/abs/2309.15489v1 )

ライセンス: Link先を確認
Zhaoyu Fei and Yu-Han Ma(参考訳) 確率的熱力学の観点から, メソスコピックn$-ボディー系の非平衡過程における温度ゆらぎについて検討した。 確率微分方程式を導入することで,等温過程における系の温度変化を記述し,系と貯水池のランダムなエネルギー移動から生じる有限サイズの効果を雑音項として記述する。 解析の結果, このゆらぎは, 平衡揺らぎの理論との整合性のため, 広範な量(熱力学的限界)を逸脱させることが明らかとなった。 さらに,ジャジンスキー等式に対する有限次元補正を導出し,熱容量が補正にどのように影響するかを考察する。 また,この結果から,最大作業の原理を$N^{-1}$に比例して違反する可能性が示唆された。 さらに,有限サイズのカルノーエンジンにおける温度変動の影響について検討した。 実効物質の温度変動に起因する可逆的エントロピー生成は,準静的限界下でもメソスコスケールの熱機関に対するカルノ効率の持続性に注目して, サイクルの平均効率を$\eta_{\rm{c}}-\left\langle \eta\rangle \sim n^{-1}$として低下させることを示した。

We study temperature fluctuations in mesoscopic $N$-body systems undergoing non-equilibrium processes from the perspective of stochastic thermodynamics. By introducing a stochastic differential equation, we describe the evolution of the system's temperature during an isothermal process, with the noise term accounting for finite-size effects arising from random energy transfer between the system and the reservoir. Our analysis reveals that these fluctuations make the extensive quantities (in the thermodynamic limit) deviate from being extensive for consistency with the theory of equilibrium fluctuation. Moreover, we derive finite-size corrections to the Jarzynski equality, providing insights into how heat capacity influences such corrections. Also, our results indicate a possible violation of the principle of maximum work by an amount proportional to $N^{-1}$. Additionally, we examine the impact of temperature fluctuations in a finite-size quasi-static Carnot engine. We show that irreversible entropy production resulting from the temperature fluctuations of the working substance diminishes the average efficiency of the cycle as $\eta_{\rm{C}}-\left\langle \eta\right\rangle \sim N^{-1}$, highlighting the unattainability of the Carnot efficiency $\eta_{\rm{C}}$ for mesoscopic-scale heat engines even under the quasi-static limit
翻訳日:2023-09-28 14:46:23 公開日:2023-09-27
# 付加訓練を伴わない事前学習基礎モデルによるVQA対応

Tackling VQA with Pretrained Foundation Models without Further Training ( http://arxiv.org/abs/2309.15487v1 )

ライセンス: Link先を確認
Alvin De Jun Tan, Bingquan Shen(参考訳) 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて最先端の結果を得た。 彼らはまた、ゼロショットまたは少数ショットの設定で異なるタスクにうまく適応する能力も示している。 これらのLLMの能力により、研究者は視覚的質問回答(VQA)で採用する方法を検討した。 多くの方法は、画像とテキストの埋め込みを調整するためにさらなるトレーニングを必要とする。 しかし、これらの手法は計算コストが高く、トレーニングには大規模な画像テキストデータセットを必要とする。 本稿では、VQA問題を解決するために、事前訓練されたLLMと他の基礎モデルを組み合わせる方法を検討する。 一般的な考え方は、自然言語を使って画像を表現し、llmが画像を理解することである。 画像のテキスト表現を生成するための異なるデコード戦略を検討し,vqav2データセット上での性能評価を行う。

Large language models (LLMs) have achieved state-of-the-art results in many natural language processing tasks. They have also demonstrated ability to adapt well to different tasks through zero-shot or few-shot settings. With the capability of these LLMs, researchers have looked into how to adopt them for use with Visual Question Answering (VQA). Many methods require further training to align the image and text embeddings. However, these methods are computationally expensive and requires large scale image-text dataset for training. In this paper, we explore a method of combining pretrained LLMs and other foundation models without further training to solve the VQA problem. The general idea is to use natural language to represent the images such that the LLM can understand the images. We explore different decoding strategies for generating textual representation of the image and evaluate their performance on the VQAv2 dataset.
翻訳日:2023-09-28 14:46:00 公開日:2023-09-27
# マルチドメインデータセットを用いた教師付きコントラスト学習による表現の伝達可能性

Transferability of Representations Learned using Supervised Contrastive Learning Trained on a Multi-Domain Dataset ( http://arxiv.org/abs/2309.15486v1 )

ライセンス: Link先を確認
Alvin De Jun Tan, Clement Tan, Chai Kiat Yeo(参考訳) コントラスト学習は、クロスエントロピー損失を用いて訓練されたモデルよりも優れた品質表現を学習することが示されている。 また、異なるドメインから下流のデータセットにより良い転送を行う。 しかし、マルチドメインデータセットでトレーニングされた場合、コントラスト学習を用いて学習した表現の転送可能性を調べるための研究はほとんど行われていない。 本稿では,マルチドメインDomainNetデータセットから表現を学習し,他の下流データセットで学習した表現の転送可能性を評価するために,Supervised Contrastive Learningフレームワークを用いて研究を行った。 固定特徴線形評価プロトコルは、異なるドメインにまたがって選択された7つのダウンストリームデータセットの転送可能性を評価するために使用される。 その結果,広く使用されているクロスエントロピー損失を用いてトレーニングしたベースラインモデルと比較した。 実験の結果,教師付きコントラスト学習モデルの平均は,7下流データセットのベースラインモデルよりも6.05%よい結果が得られた。 この結果から,教師付きコントラスト学習モデルでは,マルチドメインデータセットでトレーニングした場合のクロスエントロピーモデルよりも,ドメイン間で転送される堅牢な表現を学習できる可能性が示唆された。

Contrastive learning has shown to learn better quality representations than models trained using cross-entropy loss. They also transfer better to downstream datasets from different domains. However, little work has been done to explore the transferability of representations learned using contrastive learning when trained on a multi-domain dataset. In this paper, a study has been conducted using the Supervised Contrastive Learning framework to learn representations from the multi-domain DomainNet dataset and then evaluate the transferability of the representations learned on other downstream datasets. The fixed feature linear evaluation protocol will be used to evaluate the transferability on 7 downstream datasets that were chosen across different domains. The results obtained are compared to a baseline model that was trained using the widely used cross-entropy loss. Empirical results from the experiments showed that on average, the Supervised Contrastive Learning model performed 6.05% better than the baseline model on the 7 downstream datasets. The findings suggest that Supervised Contrastive Learning models can potentially learn more robust representations that transfer better across domains than cross-entropy models when trained on a multi-domain dataset.
翻訳日:2023-09-28 14:45:47 公開日:2023-09-27
# 心筋梗塞超解像におけるスタイル伝達と自己監督学習

Style Transfer and Self-Supervised Learning Powered Myocardium Infarction Super-Resolution Segmentation ( http://arxiv.org/abs/2309.15485v1 )

ライセンス: Link先を確認
Lichao Wang, Jiahao Huang, Xiaodan Xing, Yinzhe Wu, Ramyah Rajakulasingam, Andrew D. Scott, Pedro F Ferreira, Ranil De Silva, Sonia Nielles-Vallespin, Guang Yang(参考訳) 本研究では,新しいスタイル転送モデルとスーパーレゾリューションとセグメンテーションモデルを組み合わせたパイプラインを提案する。 提案するパイプラインは,拡張テンソルイメージング(DTI)画像を後期ガドリニウム強調(LGE)領域に翻訳し,高解像度で鮮明な心筋梗塞領域の強調画像を提供する。 その後、LGEスタイルの画像上でセグメンテーションタスクを行う。 低分解能LGE型DTI画像から高分解能マスクを生成するために、エンドツーエンドの超解像分割モデルを導入する。 さらに、モデルの性能を高めるために、マルチタスクの自己教師型学習戦略を用いて超解像分割モデルの事前学習を行い、より代表的な知識を取得し、微調整後のセグメンテーション性能を向上させる。 https: github.com/wlc24762917/Med_Img

This study proposes a pipeline that incorporates a novel style transfer model and a simultaneous super-resolution and segmentation model. The proposed pipeline aims to enhance diffusion tensor imaging (DTI) images by translating them into the late gadolinium enhancement (LGE) domain, which offers a larger amount of data with high-resolution and distinct highlighting of myocardium infarction (MI) areas. Subsequently, the segmentation task is performed on the LGE style image. An end-to-end super-resolution segmentation model is introduced to generate high-resolution mask from low-resolution LGE style DTI image. Further, to enhance the performance of the model, a multi-task self-supervised learning strategy is employed to pre-train the super-resolution segmentation model, allowing it to acquire more representative knowledge and improve its segmentation performance after fine-tuning. https: github.com/wlc2424762917/Med_Img
翻訳日:2023-09-28 14:45:28 公開日:2023-09-27
# 人間ライクなRLを目指して:3Dゲームにおける適応的行動コストによる深部RLの非自然的行動のモデリング

Towards Human-Like RL: Taming Non-Naturalistic Behavior in Deep RL via Adaptive Behavioral Costs in 3D Games ( http://arxiv.org/abs/2309.15484v1 )

ライセンス: Link先を確認
Kuo-Hao Ho, Ping-Chun Hsieh, Chiu-Chou Lin, You-Ren Luo, Feng-Jian Wang, I-Chen Wu(参考訳) 本稿では,強化学習における適応行動コスト(Adaptive Behavioral Costs in Reinforcement Learning,ABC-RL)と呼ばれる新たな手法を提案する。 深層強化学習エージェントは、近年、様々なビデオゲームで超人的パフォーマンスを達成したが、これらの非拘束エージェントの中には、人間の行動には通常観察されない揺動や回転のような行動を示すものもあり、特異なゲームプレイ体験をもたらす。 人間のように振る舞うために、ABC-RLは動的に調整された重みを持つ強化学習におけるコスト信号として行動制限を増強する。 従来の制約付き政策最適化とは異なり,価値関数の制約に基づく行動コストを最小化する新しい定式化を提案する。 拡張されたラグランジアンを活用することで、このアプローチは、パフォーマンスと人間のような振る舞いのトレードオフを扱うラグランジアン調整の近似である。 DMLab-30とUnity ML-Agents Toolkitの3Dゲームで行った実験により,ABC-RLは同じ性能を実現し,揺動や回転の回数を大幅に削減した。 これらの結果は,ゲームプレイ中により自然的,人間的行動を促進するための提案手法の有効性を裏付けるものである。

In this paper, we propose a new approach called Adaptive Behavioral Costs in Reinforcement Learning (ABC-RL) for training a human-like agent with competitive strength. While deep reinforcement learning agents have recently achieved superhuman performance in various video games, some of these unconstrained agents may exhibit actions, such as shaking and spinning, that are not typically observed in human behavior, resulting in peculiar gameplay experiences. To behave like humans and retain similar performance, ABC-RL augments behavioral limitations as cost signals in reinforcement learning with dynamically adjusted weights. Unlike traditional constrained policy optimization, we propose a new formulation that minimizes the behavioral costs subject to a constraint of the value function. By leveraging the augmented Lagrangian, our approach is an approximation of the Lagrangian adjustment, which handles the trade-off between the performance and the human-like behavior. Through experiments conducted on 3D games in DMLab-30 and Unity ML-Agents Toolkit, we demonstrate that ABC-RL achieves the same performance level while significantly reducing instances of shaking and spinning. These findings underscore the effectiveness of our proposed approach in promoting more natural and human-like behavior during gameplay.
翻訳日:2023-09-28 14:45:08 公開日:2023-09-27
# T1, T2およびコヒーレントエラーモデルに基づくランダム化フレームベンチマークプロトコルの性能比較

Comparisons among the Performances of Randomized-framed Benchmarking Protocols under T1, T2 and Coherent Error Models ( http://arxiv.org/abs/2309.15482v1 )

ライセンス: Link先を確認
Xudan Chai, Yanwu Gu, Weifeng Zhuang, Peng Qian, Xiao Xiao, and Dong E Liu(参考訳) 基本的な科学研究者は、理論と技術の両方における量子コンピューティングのブレークスルーを熱心に予測しているが、現在の量子コンピュータ、すなわちノイズの多い中間スケール量子(nisq)コンピュータは、量子マシンのうるさい状況に対処する方法のボトルネックに遭遇する。 量子コンピューティングタスク用に設計された量子回路のノイズレベルを評価できる、より効率的で信頼性の高いベンチマークプロトコルを構築することは、依然として急務である。 ランダム化ベンチマーク(rb)などのランダム回路を主とする既存の手法は、平均ゲート忠実度と比較して、合理的なリソース消費と比較的許容可能な信頼性を特徴とする従来の手法として広く採用されている。 上記異なるランダム化フレームベンチマークプロトコルの性能をより深く理解するために,T1,T2,コヒーレントエラーの下で選択された3つの標準ランダム化フレームプロトコルの性能をテストするための特別なランダム回路シーケンスを設計する。 MRB, DRB, CRBは, 従来の回路の平均誤差と比較して, T1, T2ノイズの存在下での平均誤差率を逐次過大評価している。 さらに、これらの手法はコヒーレント誤差に対してほぼ同じレベルの感度を示す。 さらに、DRBはT1の強度が大きくなると信頼性が低下する。 より現実的に、シミュレーションされた結論は、Quafu量子計算クラウドプラットフォーム上で3つのプロトコルの設計タスクを実行することによって検証される。 MRBは限られた資源で条件付けられた量子回路をより正確に評価する。 しかし、DRBは特定の精度でより安定した推定を提供し、リソース消費はより大きい。

While fundamental scientific researchers are eagerly anticipating the breakthroughs of quantum computing both in theory and technology, the current quantum computer, i.e. noisy intermediate-scale quantum (NISQ) computer encounters a bottleneck in how to deal with the noisy situation of the quantum machine. It is still urgently required to construct more efficient and reliable benchmarking protocols through which one can assess the noise level of a quantum circuit that is designed for a quantum computing task. The existing methods that are mainly constructed based on a sequence of random circuits, such as randomized benchmarking (RB), have been commonly adopted as the conventional approach owning to its reasonable resource consumption and relatively acceptable reliability, compared with the average gate fidelity. To more deeply understand the performances of the above different randomized-framed benchmarking protocols, we design special random circuit sequences to test the performances of the three selected standard randomized-frame protocols under T1, T2, and coherent errors, which are regarded to be more practical for a superconductor quantum computer. The simulations indicate that MRB, DRB, and CRB sequentially overestimate the average error rate in the presence of T1 and T2 noise, compared with the conventional circuit's average error. Moreover, these methods exhibit almost the same level of sensitivity to the coherent error. Furthermore, the DRB loses its reliability when the strengths of T1 grow. More practically, the simulated conclusion is verified by running the designed tasks for three protocols on the Quafu quantum computation cloud platform. We find that MRB produces a more precise assessment of a quantum circuit conditioned on limited resources. However, the DRB provides a more stable estimation at a specific precision while a more resource-consuming.
翻訳日:2023-09-28 14:44:44 公開日:2023-09-27
# 理論的保証による高速局所感性ハッシュ

Fast Locality Sensitive Hashing with Theoretical Guarantee ( http://arxiv.org/abs/2309.15479v1 )

ライセンス: Link先を確認
Zongyuan Tan, Hongya Wang, Bo Xu, Minjie Luo and Ming Du(参考訳) 局所性センシティブハッシュ(lsh)は、多くの機械学習タスクで広く使われている効果的なランダム化技術である。 ハッシュのコストはデータ次元に比例するので、次元が高く、関連するハッシュ関数の数が大きい場合のパフォーマンスボトルネックがしばしば発生する。 しかし、驚くべきことに、LSH計算の効率を改善するための作業はほとんど行われていない。 本稿では,l2 ノルムの下で,FastLSH という名前の簡易かつ効率的な LSH スキームを設計する。 ランダムサンプリングとランダムプロジェクションを組み合わせることで、FastLSHはOから時間複雑さを減らす (n)→O (m) (m<n) ここで n はデータ次元、m はサンプル次元の数である。 さらに、FastLSHは証明可能なLSHプロパティを持ち、非LSHの高速スケッチと区別する。 近隣の探索課題に対する実・合成データセットの集合に関する総合的な実験を行う。 実験結果から,FastLSHは応答品質,空間占有率,クエリ効率の点で最先端技術と同等であり,ハッシュ関数の評価では最大80倍の高速化が期待できることがわかった。 我々は、FastLSHが古典的なLSH方式に代わる有望な選択肢であると考えている。

Locality-sensitive hashing (LSH) is an effective randomized technique widely used in many machine learning tasks. The cost of hashing is proportional to data dimensions, and thus often the performance bottleneck when dimensionality is high and the number of hash functions involved is large. Surprisingly, however, little work has been done to improve the efficiency of LSH computation. In this paper, we design a simple yet efficient LSH scheme, named FastLSH, under l2 norm. By combining random sampling and random projection, FastLSH reduces the time complexity from O(n) to O(m) (m<n), where n is the data dimensionality and m is the number of sampled dimensions. Moreover, FastLSH has provable LSH property, which distinguishes it from the non-LSH fast sketches. We conduct comprehensive experiments over a collection of real and synthetic datasets for the nearest neighbor search task. Experimental results demonstrate that FastLSH is on par with the state-of-the-arts in terms of answer quality, space occupation and query efficiency, while enjoying up to 80x speedup in hash function evaluation. We believe that FastLSH is a promising alternative to the classic LSH scheme.
翻訳日:2023-09-28 14:44:14 公開日:2023-09-27
# 赤外線検出における身体的対人パッチ攻撃の予防

Defending Against Physical Adversarial Patch Attacks on Infrared Human Detection ( http://arxiv.org/abs/2309.15519v1 )

ライセンス: Link先を確認
Lukas Strack, Futa Waseda, Huy H. Nguyen, Yinqiang Zheng, and Isao Echizen(参考訳) 赤外線検出は、その顕著な対干渉能力により、安全クリティカルなタスクの新興技術である。 しかし、最近の研究では、物理的に実現可能な敵パッチに弱いことが判明し、現実世界の応用にリスクが生じる。 この問題に対処するため,我々は赤外線検知,特に人間検出における敵対的パッチ攻撃に対する防衛戦略を初めて調査する。 本研究では,無作為なパッチで効率的にトレーニングサンプルを増強し,その後に検出するパッチベースオクルージョンアウェア検出(pod)という,簡単な防御戦略を考案した。 PODは人を堅牢に検出するだけでなく、敵のパッチ位置も特定する。 驚くべきことに、非常に計算効率が高いpodは、トレーニング中に目に見えない最先端のパッチ攻撃に簡単に一般化する。 さらに、PODは、データ増大効果によるクリーンな(すなわち、非パッチ)状況においても、検出精度を向上させる。 PODは様々な形状や大きさの逆パッチに対して堅牢であることを示した。 本手法の有効性は,実世界の赤外線検知システムにおいて有効な防御機構であることが示され,今後の研究の方向性を探るための道筋を拓いている。

Infrared detection is an emerging technique for safety-critical tasks owing to its remarkable anti-interference capability. However, recent studies have revealed that it is vulnerable to physically-realizable adversarial patches, posing risks in its real-world applications. To address this problem, we are the first to investigate defense strategies against adversarial patch attacks on infrared detection, especially human detection. We have devised a straightforward defense strategy, patch-based occlusion-aware detection (POD), which efficiently augments training samples with random patches and subsequently detects them. POD not only robustly detects people but also identifies adversarial patch locations. Surprisingly, while being extremely computationally efficient, POD easily generalizes to state-of-the-art adversarial patch attacks that are unseen during training. Furthermore, POD improves detection precision even in a clean (i.e., no-patch) situation due to the data augmentation effect. Evaluation demonstrated that POD is robust to adversarial patches of various shapes and sizes. The effectiveness of our baseline approach is shown to be a viable defense mechanism for real-world infrared human detection systems, paving the way for exploring future research directions.
翻訳日:2023-09-28 14:35:40 公開日:2023-09-27
# raij\=u:ネットワークシステムのセキュリティ評価を自動化するための強化学習指導後探索

Raij\=u: Reinforcement Learning-Guided Post-Exploitation for Automating Security Assessment of Network Systems ( http://arxiv.org/abs/2309.15518v1 )

ライセンス: Link先を確認
Van-Hau Pham, Hien Do Hoang, Phan Thanh Trung, Van Dinh Quoc, Trong-Nghia To, Phan The Duy(参考訳) ネットワークシステムのリスクを評価するためには,探索後,攻撃者の行動を調べることが重要である。 爆発後の実装をサポートする様々な効率的なツールがあるが、このプロセスを自動化できるアプリケーションはない。 このプロセスのほとんどのステップは、侵入テスタやペンテスタとして知られるセキュリティに関する深い知識を持つ専門家によって完了されます。 そこで本研究では,ネットワークシステムにおけるセキュリティレベル評価のためのポストエクスプロイテーションプロセスの迅速な実装において,ペンテスタを支援するRL(Reinforcement Learning)による自動化手法であるRaij\=uフレームワークを提案する。 我々は2つのrlアルゴリズムである advantage actor-critic (a2c) と proximal policy optimization (ppo) を実装し、権限エスカレーション、ハッシュダンプの収集、横動きを自動的に起動するメタスプロイトモジュールであるインテリジェントアクションを作成可能な特殊エージェントを訓練する。 RLを活用することで、ターゲットシステムにおける脆弱性を悪用するアクションを自律的に選択し、実行できるようにする。 このアプローチにより、侵入テストワークフローの特定の側面を自動化でき、新たな脅威や脆弱性に対してより効率的で応答性が得られます。 実験は4つの実環境で行われ、エージェントは何千ものエピソードで訓練される。 エージェントは自動的に環境に対するアクションを選択し、55以下の攻撃手順で84%以上の攻撃を成功させる。 さらに、A2Cアルゴリズムは、探索後の自動化のための適切なアクションの選択に極めて有効であることが証明された。

In order to assess the risks of a network system, it is important to investigate the behaviors of attackers after successful exploitation, which is called post-exploitation. Although there are various efficient tools supporting post-exploitation implementation, no application can automate this process. Most of the steps of this process are completed by experts who have profound knowledge of security, known as penetration testers or pen-testers. To this end, our study proposes the Raij\=u framework, a Reinforcement Learning (RL)-driven automation approach that assists pen-testers in quickly implementing the process of post-exploitation for security-level evaluation in network systems. We implement two RL algorithms, Advantage Actor-Critic (A2C) and Proximal Policy Optimization (PPO), to train specialized agents capable of making intelligent actions, which are Metasploit modules to automatically launch attacks of privileges escalation, gathering hashdump, and lateral movement. By leveraging RL, we aim to empower these agents with the ability to autonomously select and execute actions that can exploit vulnerabilities in target systems. This approach allows us to automate certain aspects of the penetration testing workflow, making it more efficient and responsive to emerging threats and vulnerabilities. The experiments are performed in four real environments with agents trained in thousands of episodes. The agents automatically select actions and launch attacks on the environments and achieve over 84\% of successful attacks with under 55 attack steps given. Moreover, the A2C algorithm has proved extremely effective in the selection of proper actions for automation of post-exploitation.
翻訳日:2023-09-28 14:35:24 公開日:2023-09-27
# 残留スケジューリング: ジョブショップスケジューリング問題を解決するための新しい強化学習アプローチ

Residual Scheduling: A New Reinforcement Learning Approach to Solving Job Shop Scheduling Problem ( http://arxiv.org/abs/2309.15517v1 )

ライセンス: Link先を確認
Kuo-Hao Ho, Ruei-Yu Jheng, Ji-Han Wu, Fan Chiang, Yen-Chi Chen, Yuan-Yu Wu, I-Chen Wu(参考訳) ジョブショップスケジューリング問題(JSP)は製造業などで広く用いられている数学最適化問題であり、フレキシブルJSP(FJSP)も一般的な変種である。 NPハードであるため、すべてのケースに対して妥当な時間内に最適解を見つけることは困難である。 したがって、JSP/FJSPを解くための効率的なヒューリスティックを開発することが重要である。 スケジューリング問題の解法の一種は、ヒューリスティックスによってスケジューリングソリューションを構築する構成ヒューリスティックスである。 近年,グラフニューラルネットワーク (gnn) を用いた深層強化学習 (drl) の活用方法が数多く提案されている。 本稿では,JSP/FJSPを解くための残差スケジューリング手法を提案する。 この新しいアプローチでは、状態が残りの(または関連する)マシンとジョブのみを含むように、完了したマシンのような無関係なマシンとジョブを削除する。 我々の実験は、最もよく知られたオープンJSPおよびFJSPベンチマークにおけるすべての建設ヒューリスティックの中で、我々のアプローチが最先端(SOTA)に達することを示している。 また,本手法は小型のスケジューリング問題に対して訓練されているものの,大規模のスケジューリング問題においても有効であることも確認した。 興味深いことに、私たちの実験では、20台のマシンで150以上のジョブ番号を持つ50のjspインスタンスのうち49のギャップに到達しました。

Job-shop scheduling problem (JSP) is a mathematical optimization problem widely used in industries like manufacturing, and flexible JSP (FJSP) is also a common variant. Since they are NP-hard, it is intractable to find the optimal solution for all cases within reasonable times. Thus, it becomes important to develop efficient heuristics to solve JSP/FJSP. A kind of method of solving scheduling problems is construction heuristics, which constructs scheduling solutions via heuristics. Recently, many methods for construction heuristics leverage deep reinforcement learning (DRL) with graph neural networks (GNN). In this paper, we propose a new approach, named residual scheduling, to solving JSP/FJSP. In this new approach, we remove irrelevant machines and jobs such as those finished, such that the states include the remaining (or relevant) machines and jobs only. Our experiments show that our approach reaches state-of-the-art (SOTA) among all known construction heuristics on most well-known open JSP and FJSP benchmarks. In addition, we also observe that even though our model is trained for scheduling problems of smaller sizes, our method still performs well for scheduling problems of large sizes. Interestingly in our experiments, our approach even reaches zero gap for 49 among 50 JSP instances whose job numbers are more than 150 on 20 machines.
翻訳日:2023-09-28 14:34:56 公開日:2023-09-27
# テキスト・画像モデルによるコミュニケーションの指導

Teaching Text-to-Image Models to Communicate ( http://arxiv.org/abs/2309.15516v1 )

ライセンス: Link先を確認
Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen, Dongyan Zhao(参考訳) テキストから画像への生成の研究において、様々な研究がなされている。 既存のモデルはテキスト・画像生成でよく機能するが、ダイアログで画像を生成するために直接使用する場合、大きな課題がある。 本稿ではまず,ダイアログから画像への生成という新たな問題に注目する。ダイアログのコンテキストを考えると,モデルが応答として指定された会話と一致する現実的なイメージを生成する必要がある。 そこで本研究では,対話に含まれる意味情報の抽出を最大化する,中間翻訳のない対話・画像生成の効率的な手法を提案する。 ダイアログ構造の特徴を考慮すると、各文の前にセグメントトークンをダイアログのターンに配置し、異なる話者を区別する。 次に、事前学習したテキストから画像へのモデルを微調整し、処理されたダイアログコンテキストでイメージ条件付けを生成する。 微調整後、我々の手法は複数のメトリクスにわたる様々なモデルの性能を一貫して改善することができる。 ベンチマーク実験の結果,本手法の有効性と実用性が示された。

Various works have been extensively studied in the research of text-to-image generation. Although existing models perform well in text-to-image generation, there are significant challenges when directly employing them to generate images in dialogs. In this paper, we first highlight a new problem: dialog-to-image generation, that is, given the dialog context, the model should generate a realistic image which is consistent with the specified conversation as response. To tackle the problem, we propose an efficient approach for dialog-to-image generation without any intermediate translation, which maximizes the extraction of the semantic information contained in the dialog. Considering the characteristics of dialog structure, we put segment token before each sentence in a turn of a dialog to differentiate different speakers. Then, we fine-tune pre-trained text-to-image models to enable them to generate images conditioning on processed dialog context. After fine-tuning, our approach can consistently improve the performance of various models across multiple metrics. Experimental results on public benchmark demonstrate the effectiveness and practicability of our method.
翻訳日:2023-09-28 14:34:34 公開日:2023-09-27
# GNN4EEG:グラフニューラルネットワークを用いた脳波分類のためのベンチマークとツールキット

GNN4EEG: A Benchmark and Toolkit for Electroencephalography Classification with Graph Neural Network ( http://arxiv.org/abs/2309.15515v1 )

ライセンス: Link先を確認
Kaiyuan Zhang, Ziyi Ye, Qingyao Ai, Xiaohui Xie, Yiqun Liu(参考訳) 脳波(EEG)分類は神経科学、神経工学、およびいくつかの商業的応用において重要な課題である。 しかし、伝統的な脳波分類モデルは、しばしば脳の位相情報を見過ごしたり、不十分に活用している。 この欠点を認識したグラフニューラルネットワーク(gnn)の可能性を利用して、グラフ構造内の各脳波チャネルから選択された特徴をモデル化することで、トポロジカルな情報を活用するという近年の関心が高まっている。 この方向の研究をさらに促進するために,脳波信号のgnnベースモデリングのための汎用かつユーザフレンドリーなツールキットであるgnn4eegを紹介する。 GNN4EEGは3つのコンポーネントから構成される。 (i)123名から収集した脳波データに基づく4つの脳波分類タスクからなる大規模ベンチマーク。 (II)DGCNN、RGNNなど、最先端のGNNベースのEEG分類モデルに対する使いやすさの実装。 (iii)データ分割プロトコルや相互評価プロトコルなど、総合的な実験的な設定及び評価プロトコルの実装。 GNN4EEGはhttps://github.com/Miracle-2001/GNN4EEGで公開されている。

Electroencephalography(EEG) classification is a crucial task in neuroscience, neural engineering, and several commercial applications. Traditional EEG classification models, however, have often overlooked or inadequately leveraged the brain's topological information. Recognizing this shortfall, there has been a burgeoning interest in recent years in harnessing the potential of Graph Neural Networks (GNN) to exploit the topological information by modeling features selected from each EEG channel in a graph structure. To further facilitate research in this direction, we introduce GNN4EEG, a versatile and user-friendly toolkit for GNN-based modeling of EEG signals. GNN4EEG comprises three components: (i)A large benchmark constructed with four EEG classification tasks based on EEG data collected from 123 participants. (ii)Easy-to-use implementations on various state-of-the-art GNN-based EEG classification models, e.g., DGCNN, RGNN, etc. (iii)Implementations of comprehensive experimental settings and evaluation protocols, e.g., data splitting protocols, and cross-validation protocols. GNN4EEG is publicly released at https://github.com/Miracle-2001/GNN4EEG.
翻訳日:2023-09-28 14:34:18 公開日:2023-09-27
# 最小スーパービジョンを用いた高忠実音声合成:全て拡散モデルを用いた

High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models ( http://arxiv.org/abs/2309.15512v1 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Yi Zhao, Ying Zhang, Longbiao Wang, Jianwu Dang(参考訳) Text-to-Speech (TTS) 法は音声のクローニングにおいて有望な結果を示しているが,多数のラベル付き音声ペアが必要である。 最小教師付き音声合成は、2種類の離散音声表現(semantic \& acoustic)と2つのシーケンス間タスクを組み合わせてttを分離し、最小限の監督でトレーニングを可能にする。 しかし,既存手法では意味表現における情報冗長性と次元の爆発,離散音響表現における高周波波形歪みに悩まされている。 自動回帰フレームワークは典型的な不安定性と制御不能な問題を示す。 そして、非自己回帰フレームワークは、期間予測モデルによる韻律平均化に悩まされる。 これらの問題に対処するために,拡散モデルに基づいて全モジュールを構築できる最小教師付き高忠実音声合成法を提案する。 非自己回帰フレームワークは制御性を高め、持続拡散モデルは多角的韻律表現を可能にする。 既存の意味符号化手法における情報冗長性と次元爆発の問題を解くために,CTAP(Contrastive Token-Acoustic Pretraining)が中間意味表現として使用される。 メルスペクトログラムは音響表現として用いられる。 セマンティクスと音響表現は、連続変数回帰タスクによって予測され、高周波微細波形歪みの問題を解決する。 実験の結果,提案手法はベースライン法よりも優れていた。 音声サンプルは私たちのウェブサイトで提供します。

Text-to-speech (TTS) methods have shown promising results in voice cloning, but they require a large number of labeled text-speech pairs. Minimally-supervised speech synthesis decouples TTS by combining two types of discrete speech representations(semantic \& acoustic) and using two sequence-to-sequence tasks to enable training with minimal supervision. However, existing methods suffer from information redundancy and dimension explosion in semantic representation, and high-frequency waveform distortion in discrete acoustic representation. Autoregressive frameworks exhibit typical instability and uncontrollability issues. And non-autoregressive frameworks suffer from prosodic averaging caused by duration prediction models. To address these issues, we propose a minimally-supervised high-fidelity speech synthesis method, where all modules are constructed based on the diffusion models. The non-autoregressive framework enhances controllability, and the duration diffusion model enables diversified prosodic expression. Contrastive Token-Acoustic Pretraining (CTAP) is used as an intermediate semantic representation to solve the problems of information redundancy and dimension explosion in existing semantic coding methods. Mel-spectrogram is used as the acoustic representation. Both semantic and acoustic representations are predicted by continuous variable regression tasks to solve the problem of high-frequency fine-grained waveform distortion. Experimental results show that our proposed method outperforms the baseline method. We provide audio samples on our website.
翻訳日:2023-09-28 14:34:02 公開日:2023-09-27
# DreamCom: 画像合成のためのテキスト誘導塗装モデル

DreamCom: Finetuning Text-guided Inpainting Model for Image Composition ( http://arxiv.org/abs/2309.15508v1 )

ライセンス: Link先を確認
Lingxiao Lu, Bo Zhang, Li Niu(参考訳) 画像合成の目標は、前景オブジェクトを背景画像にマージして現実的な合成画像を得ることである。 近年,前例のない画像生成能力のため,大規模な事前学習拡散モデル上に生成合成法が構築されている。 彼らは、豊富なフォアグラウンドとバックグラウンドのペアでモデルをトレーニングし、テスト時に新しいフォアグラウンドとバックグラウンドのペアに直接適用できるようにします。 しかし、生成された結果はしばしば前景の詳細を失い、目に見えるアーティファクトを表示する。 本研究ではDreamBoothにインスパイアされたDreamComという,恥ずかしいほどシンプルなアプローチを提案する。 具体的には,被写体の参照画像がいくつか与えられた場合,その被写体を特殊トークンに関連付けるために,テキストガイドによる被写体拡散モデルを微調整し,その被写体を指定された境界ボックスに表示させる。 また、このタスクに適したMuleComという新しいデータセットも構築します。

The goal of image composition is merging a foreground object into a background image to obtain a realistic composite image. Recently, generative composition methods are built on large pretrained diffusion models, due to their unprecedented image generation ability. They train a model on abundant pairs of foregrounds and backgrounds, so that it can be directly applied to a new pair of foreground and background at test time. However, the generated results often lose the foreground details and exhibit noticeable artifacts. In this work, we propose an embarrassingly simple approach named DreamCom inspired by DreamBooth. Specifically, given a few reference images for a subject, we finetune text-guided inpainting diffusion model to associate this subject with a special token and inpaint this subject in the specified bounding box. We also construct a new dataset named MureCom well-tailored for this task.
翻訳日:2023-09-28 14:33:40 公開日:2023-09-27
# 有限スカラー量子化:vq-vaeがシンプルに

Finite Scalar Quantization: VQ-VAE Made Simple ( http://arxiv.org/abs/2309.15505v1 )

ライセンス: Link先を確認
Fabian Mentzer, David Minnen, Eirikur Agustsson, Michael Tschannen(参考訳) VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。 各次元は小さな固定値の集合に量子化され、これらの集合の積によって与えられる(単純)コードブックとなる。 それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。 このような離散表現に加えて、vq-vae表現でトレーニングされたモデルと同じモデルをトレーニングできる。 例えば、画像生成、マルチモーダル生成、高密度予測コンピュータビジョンタスクのための自動回帰およびマスク付きトランスフォーマーモデルである。 具体的には,画像生成にはfsq,画像生成にはmaskgit,奥行き推定,カラー化,汎視セグメンテーションにuvimを用いる。 FSQのよりシンプルな設計にもかかわらず、これらのタスクの競合性能を得る。 我々は,fsqがコードブックの崩壊に苦しむことなく,vq(コミットロス,コードブックの再閲覧,コード分割,エントロピーペナルティなど)で使用される複雑な機械を必要としないことを強調する。

We propose to replace vector quantization (VQ) in the latent representation of VQ-VAEs with a simple scheme termed finite scalar quantization (FSQ), where we project the VAE representation down to a few dimensions (typically less than 10). Each dimension is quantized to a small set of fixed values, leading to an (implicit) codebook given by the product of these sets. By appropriately choosing the number of dimensions and values each dimension can take, we obtain the same codebook size as in VQ. On top of such discrete representations, we can train the same models that have been trained on VQ-VAE representations. For example, autoregressive and masked transformer models for image generation, multimodal generation, and dense prediction computer vision tasks. Concretely, we employ FSQ with MaskGIT for image generation, and with UViM for depth estimation, colorization, and panoptic segmentation. Despite the much simpler design of FSQ, we obtain competitive performance in all these tasks. We emphasize that FSQ does not suffer from codebook collapse and does not need the complex machinery employed in VQ (commitment losses, codebook reseeding, code splitting, entropy penalties, etc.) to learn expressive discrete representations.
翻訳日:2023-09-28 14:33:26 公開日:2023-09-27
# 共有・パーソナライズされた不確かさ表現を用いたベイズ的個人化フェデレーション学習

Bayesian Personalized Federated Learning with Shared and Personalized Uncertainty Representations ( http://arxiv.org/abs/2309.15499v1 )

ライセンス: Link先を確認
Hui Chen, Hengyu Liu, Longbing Cao, Tiancheng Zhang(参考訳) ベイジアン・パーソナライズド・フェデレーション・ラーニング(BPFL)は、既存のパーソナライズド・FL(PFL)における課題に対処する。 BPFLは、クライアントデータの統計的不均一性に対処することにより、クライアント内の不確実性と不均一性を不確実性表現に向けて定量化する。 PFLでは、隠れた神経表現を共有コンポーネントとローカルコンポーネントに分解し、興味深い結果を示すという最近の予備研究が提案されている。 しかし、その多くはFLシステムにおけるクライアントの不確実性や不均一性に対処するものではなく、適切に神経表現を分離することは困難であり、しばしばアドホックである。 本稿では,統計的に不均一なクライアントデータに対する共有およびパーソナライズされた不確実性表現を時間とともに分解し,共同で学習する汎用BPFLフレームワークを提案する。 ベイズ連合ニューラルネットワークBPFedは、統計的に不均一でランダムに参加するクライアントに対して、クロスクライアント共有不確実性とクライアント固有のパーソナライズされた不確実性を共同学習することによりBPFLをインスタンス化する。 さらに,BPFedにおける事前分布の連続的な更新を伴い,収束を高速化し,破滅的忘れを避ける。 BPFedの分散基線に対する実験的評価に加えて、理論的解析と保証が提供される。

Bayesian personalized federated learning (BPFL) addresses challenges in existing personalized FL (PFL). BPFL aims to quantify the uncertainty and heterogeneity within and across clients towards uncertainty representations by addressing the statistical heterogeneity of client data. In PFL, some recent preliminary work proposes to decompose hidden neural representations into shared and local components and demonstrates interesting results. However, most of them do not address client uncertainty and heterogeneity in FL systems, while appropriately decoupling neural representations is challenging and often ad hoc. In this paper, we make the first attempt to introduce a general BPFL framework to decompose and jointly learn shared and personalized uncertainty representations on statistically heterogeneous client data over time. A Bayesian federated neural network BPFed instantiates BPFL by jointly learning cross-client shared uncertainty and client-specific personalized uncertainty over statistically heterogeneous and randomly participating clients. We further involve continual updating of prior distribution in BPFed to speed up the convergence and avoid catastrophic forgetting. Theoretical analysis and guarantees are provided in addition to the experimental evaluation of BPFed against the diversified baselines.
翻訳日:2023-09-28 14:33:04 公開日:2023-09-27
# 複雑な画像の観察におけるBOLD応答の変化に関する考察:人間の視覚に基づくfMRI時系列解析

Investigating the changes in BOLD responses during viewing of images with varied complexity: An fMRI time-series based analysis on human vision ( http://arxiv.org/abs/2309.15495v1 )

ライセンス: Link先を確認
Naveen Kanigiri, Manohar Suggula, Debanjali Bhattacharya and Neelam Sinha(参考訳) 機能MRI(Functional MRI)は脳活動に伴う酸素化血流の変化を検出することで脳機能を調べるために広く用いられている。 本研究は,fMRI時系列解析を用いて,画像観察における脳反応の神経学的変動について検討することを目的とする。 BOLD5000データセットはこの目的のために使用されており、fMRIスキャンを含むとともに、COCO、Imagenet、SUNの3つの標準的なコンピュータビジョンデータセットから、5254の異なるカテゴリのイメージを見ることができる。 視覚を理解するには、様々な複雑な画像を見ながら脳がどのように機能するかを研究することが重要である。 最初の研究では、従来の機械学習とディープラーニングの手法を用いて、画像の複雑性に特有のfMRI TSを分類し、COCO、Imagenet、SUNデータセットからの画像を表示する。 この分類は、様々な複雑さの画像を認識する際にBOLD信号のゆらぎについての貴重な洞察を提供するため、視覚的データセットにまたがる実装が重要である。 その後、時間的意味的セグメンテーションもfMRI TS全体で行われ、これらのタイムインスタンスをセグメンテーションする。 この分析の結果、人間の脳の機能がどのように異なるかを研究する上での基礎が確立された。 したがって、fMRI TSデータからのBOLD信号の正確な識別と変動の識別は、視覚研究における重要な第一歩であり、様々な複雑さを持つ静的画像がどのように知覚されるかについての洞察に富む説明を提供する。

Functional MRI (fMRI) is widely used to examine brain functionality by detecting alteration in oxygenated blood flow that arises with brain activity. This work aims to investigate the neurological variation of human brain responses during viewing of images with varied complexity using fMRI time series (TS) analysis. Publicly available BOLD5000 dataset is used for this purpose which contains fMRI scans while viewing 5254 distinct images of diverse categories, drawn from three standard computer vision datasets: COCO, Imagenet and SUN. To understand vision, it is important to study how brain functions while looking at images of diverse complexities. Our first study employs classical machine learning and deep learning strategies to classify image complexity-specific fMRI TS, represents instances when images from COCO, Imagenet and SUN datasets are seen. The implementation of this classification across visual datasets holds great significance, as it provides valuable insights into the fluctuations in BOLD signals when perceiving images of varying complexities. Subsequently, temporal semantic segmentation is also performed on whole fMRI TS to segment these time instances. The obtained result of this analysis has established a baseline in studying how differently human brain functions while looking into images of diverse complexities. Therefore, accurate identification and distinguishing of variations in BOLD signals from fMRI TS data serves as a critical initial step in vision studies, providing insightful explanations for how static images with diverse complexities are perceived.
翻訳日:2023-09-28 14:32:42 公開日:2023-09-27
# LAION-5BからLAION-EO:衛星画像抽出のためのアンカーデータセットを用いた数十億の画像フィルタリング

From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction ( http://arxiv.org/abs/2309.15535v1 )

ライセンス: Link先を確認
Mikolaj Czerkawski, Alistair Francis(参考訳) LAION-5Bのような大規模なデータセットには、オンラインで共有される画像の多様な分布が含まれている。 しかし、大画像コーパスのドメイン固有部分集合の抽出は困難である。 本稿では,アンカーデータセットとさらなるフィルタリングを組み合わせた抽出手法を提案し,衛星画像の領域について実証した。 これにより、高解像度(ピクセル単位で)のテキストと衛星画像のペアを含むWebからソースされたデータセットであるLAION-EOがリリースされた。 論文では、取得手順とデータセットの特徴について概説する。

Large datasets, such as LAION-5B, contain a diverse distribution of images shared online. However, extraction of domain-specific subsets of large image corpora is challenging. The extraction approach based on an anchor dataset, combined with further filtering, is proposed here and demonstrated for the domain of satellite imagery. This results in the release of LAION-EO, a dataset sourced from the web containing pairs of text and satellite images in high (pixel-wise) resolution. The paper outlines the acquisition procedure as well as some of the features of the dataset.
翻訳日:2023-09-28 14:27:07 公開日:2023-09-27
# 神経後主成分による不確かさの定量化

Uncertainty Quantification via Neural Posterior Principal Components ( http://arxiv.org/abs/2309.15533v1 )

ライセンス: Link先を確認
Elias Nehme, Omer Yair, Tomer Michaeli(参考訳) 不確かさの定量化は、自動運転や生物イメージングのような安全クリティカルな領域への画像復元モデルの導入に不可欠である。 これまで不確かさを可視化する手法は主にピクセル単位の見積もりに焦点を当ててきた。 しかし、ピクセルごとの熱マップは、ピクセル間の強い相関を捉えないため、一般的にはほとんど実用的ではない。 より自然な不確実性の尺度は、後方分布の主成分(pcs)に沿った分散に対応する。 理論的には、入力画像の条件生成モデルから生成されたサンプルにPCAを適用することにより、PCを計算できる。 しかし、これはテスト時に非常に多くのサンプルを生成する必要があり、現在の最先端(拡散)モデルでは痛ましいほど遅い。 本研究では,ニューラルネットワークの1回のフォワードパスにおいて,任意の入力画像に対する後続分布のpcsを予測する手法を提案する。 提案手法は,平均二乗誤差(MSE)を最小限に抑えるために訓練された事前学習モデルや,予測画像と後部PCの両方を出力するスクラッチからトレーニングすることができる。 本稿では,画像のデノナイズ,塗布,超解像,生体画像間翻訳など,画像の逆問題について紹介する。 提案手法は, インスタンス適応型不確実性方向を確実に伝達し, 後方サンプリング器に匹敵する不確実性定量化を実現する。 サンプルはhttps://eliasnehme.github.io/nppc/で入手できる。

Uncertainty quantification is crucial for the deployment of image restoration models in safety-critical domains, like autonomous driving and biological imaging. To date, methods for uncertainty visualization have mainly focused on per-pixel estimates. However, a heatmap of per-pixel variances is typically of little practical use, as it does not capture the strong correlations between pixels. A more natural measure of uncertainty corresponds to the variances along the principal components (PCs) of the posterior distribution. Theoretically, the PCs can be computed by applying PCA on samples generated from a conditional generative model for the input image. However, this requires generating a very large number of samples at test time, which is painfully slow with the current state-of-the-art (diffusion) models. In this work, we present a method for predicting the PCs of the posterior distribution for any input image, in a single forward pass of a neural network. Our method can either wrap around a pre-trained model that was trained to minimize the mean square error (MSE), or can be trained from scratch to output both a predicted image and the posterior PCs. We showcase our method on multiple inverse problems in imaging, including denoising, inpainting, super-resolution, and biological image-to-image translation. Our method reliably conveys instance-adaptive uncertainty directions, achieving uncertainty quantification comparable with posterior samplers while being orders of magnitude faster. Examples are available at https://eliasnehme.github.io/NPPC/
翻訳日:2023-09-28 14:26:58 公開日:2023-09-27
# 大規模言語モデルの低ビット量子化のためのチャネル次元の再検討

Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight Quantization of Large Language Models ( http://arxiv.org/abs/2309.15531v1 )

ライセンス: Link先を確認
Jung Hwan Heo, Jeonghoon Kim, Beomseok Kwon, Byeongwook Kim, Se Jung Kwon, Dongsoo Lee(参考訳) 大規模言語モデル(LLM)は最近、様々なタスクで顕著な成功を収めた。 しかし、LLMを効率的に提供することは、メモリボトルネックが大きいため、特に小さなバッチ推論設定(モバイルデバイスなど)では困難である。 重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。 まず、従来の出力チャネル(OC)ではなく、各入力チャネル(IC)内で量子化グループを生成するシンプルで効果的な手法である、IC単位の量子化を提案する。 本手法は, 活性化異常値が重み行列の入力次元に与える影響を観測することにより, ic方向の重みをグループ化することにより, グループ内に存在する外れ値を分離できる。 また,アクティベーション異常は量子化の困難さを左右せず,本質的な重量感性も存在している。 次に、IC単位の量子化を新しい外れ値フレンドリなスキームとして、様々な重み感度パターンに適応できる多元的量子化フレームワークであるAdaptive Dimensions (AdaDim)を提案する。 本稿では,AdaDim の有効性を,ラウンド・トゥ・ナエストや GPTQ などの先行手法を改良し,ベース(MMLU では+4.7%) と命令調整 (HumanEval では+10%) の両方で様々な言語モデリングベンチマークを改良したことを示す。

Large Language Models (LLMs) have recently demonstrated a remarkable success across various tasks. However, efficiently serving LLMs has been a challenge due to its large memory bottleneck, specifically in small batch inference settings (e.g. mobile devices). Weight-only quantization can be a promising approach, but sub-4 bit quantization remains a challenge due to large-magnitude activation outliers. To mitigate the undesirable outlier effect, we first propose per-IC quantization, a simple yet effective method that creates quantization groups within each input channel (IC) rather than the conventional per-output channel (OC). Our method is motivated by the observation that activation outliers affect the input dimension of the weight matrix, so similarly grouping the weights in the IC direction can isolate outliers to be within a group. We also find that activation outliers do not dictate quantization difficulty, and inherent weight sensitivities also exist. With per-IC quantization as a new outlier-friendly scheme, we then propose Adaptive Dimensions (AdaDim), a versatile quantization framework that can adapt to various weight sensitivity patterns. We demonstrate the effectiveness of AdaDim by augmenting prior methods such as Round-To-Nearest and GPTQ, showing significant improvements across various language modeling benchmarks for both base (up to +4.7% on MMLU) and instruction-tuned (up to +10% on HumanEval) LLMs.
翻訳日:2023-09-28 14:26:33 公開日:2023-09-27
# 不足モダリティによる医療データのマルチモーダル融合アーキテクチャ

Missing-modality Enabled Multi-modal Fusion Architecture for Medical Data ( http://arxiv.org/abs/2309.15529v1 )

ライセンス: Link先を確認
Muyu Wang, Shiyu Fan, Yichen Li, Hui Chen(参考訳) マルチモーダルデータを使用することで、ディープラーニングモデルのパフォーマンスが向上する。 しかし,患者の特異性から医療データに欠落するモダリティは,アプリケーションにおけるマルチモーダルモデルの性能に悪影響を及ぼす。 したがって、モデルが欠落したモダリティに適応することが重要である。 本研究は, 画像モダリティのX線胸X線写真, テキストモダリティのX線写真, 表層データモダリティの構造化値データを融合した, 画像モダリティの欠如に頑健な医療データのための効率的なマルチモーダル融合アーキテクチャを開発することを目的としている。 各モダリティペアはトランスフォーマーベースのバイモーダル融合モジュールと融合され、3つのバイモーダル融合モジュールはトリモーダル融合フレームワークに結合された。 さらに,学習過程に多変量損失関数を導入し,推論過程におけるモデルのロバスト性を改善する。 最後に, 核融合の有効性, モダリティの欠如に対する堅牢性, および各キーコンポーネントの強化を検証するための比較およびアブレーション実験を設計した。 MIMIC-IV, MIMIC-CXRで14ラベルの診断を行った。 受信機動作特性曲線 (auroc) の下の領域では, モデルの性能評価に精度再呼曲線 (auprc) の領域が用いられた。 実験の結果,提案したマルチモーダル融合アーキテクチャは3つのモーダルを効果的に融合し,欠落モーダルに対して強い堅牢性を示した。 本手法は, 臨床的実用性を高めるために, より多くのモダリティにスケールできることが期待できる。

Fusing multi-modal data can improve the performance of deep learning models. However, missing modalities are common for medical data due to patients' specificity, which is detrimental to the performance of multi-modal models in applications. Therefore, it is critical to adapt the models to missing modalities. This study aimed to develop an efficient multi-modal fusion architecture for medical data that was robust to missing modalities and further improved the performance on disease diagnosis.X-ray chest radiographs for the image modality, radiology reports for the text modality, and structured value data for the tabular data modality were fused in this study. Each modality pair was fused with a Transformer-based bi-modal fusion module, and the three bi-modal fusion modules were then combined into a tri-modal fusion framework. Additionally, multivariate loss functions were introduced into the training process to improve model's robustness to missing modalities in the inference process. Finally, we designed comparison and ablation experiments for validating the effectiveness of the fusion, the robustness to missing modalities and the enhancements from each key component. Experiments were conducted on MIMIC-IV, MIMIC-CXR with the 14-label disease diagnosis task. Areas under the receiver operating characteristic curve (AUROC), the area under the precision-recall curve (AUPRC) were used to evaluate models' performance. The experimental results demonstrated that our proposed multi-modal fusion architecture effectively fused three modalities and showed strong robustness to missing modalities. This method is hopeful to be scaled to more modalities to enhance the clinical practicality of the model.
翻訳日:2023-09-28 14:26:02 公開日:2023-09-27
# P2I-NET:実環境における新しいビュー合成のための逆学習による画像へのカメラのマッピング

P2I-NET: Mapping Camera Pose to Image via Adversarial Learning for New View Synthesis in Real Indoor Environments ( http://arxiv.org/abs/2309.15526v1 )

ライセンス: Link先を確認
Xujie Kang and Kanglin Liu and Jiang Duan and Yuanhao Gong and Guoping Qiu(参考訳) 屋内環境での新しい6ドル(約6,700円)のカメラポーズを考えると、rgbdの参照ビューのセットに基づいて、そのポーズからのビューを予測するという難題について検討する。 既存の明示的あるいは暗黙的な3次元幾何構成法は計算コストが高いが、学習に基づくものは、通常の幾何学構造を持つ対象カテゴリーの独立した視点に主に焦点を当てている。 本稿では,実環境における新しい視点合成に対する従来の \textit{render-inpaint} アプローチと異なり,条件付き生成型逆向ニューラルネットワーク (p2i-net) を提案する。 p2i-netは、カメラポーズとその環境観との対応を確立するための環境イメージの条件分布を学習し、そのアーキテクチャとトレーニングの失われた機能において、多くの革新的な設計を通してこれを達成する。 潜在特徴空間と実世界のポーズ空間の両方において、生成された画像のポーズと対応する実世界の画像との一貫性を強制する2つの補助判別器制約を導入する。 さらに、ピクセル空間におけるこの一貫性をさらに強化するために、ディープ畳み込みニューラルネットワーク(CNN)が導入されている。 我々は,実屋内データセットを用いた広範囲な新しい視点合成実験を行った。 その結果、P2I-NETは、多くのNeRFベースベースラインモデルよりも優れた性能を示した。 特に,p2i-netは,類似した品質画像の合成をしながら,これらの競合技術よりも40倍から100倍高速であることを示す。 さらに,各フレームが正確なカメラポーズパラメータを持つ22の高解像度rgbdビデオを含む,新たに公開された屋内環境データセットも提供した。

Given a new $6DoF$ camera pose in an indoor environment, we study the challenging problem of predicting the view from that pose based on a set of reference RGBD views. Existing explicit or implicit 3D geometry construction methods are computationally expensive while those based on learning have predominantly focused on isolated views of object categories with regular geometric structure. Differing from the traditional \textit{render-inpaint} approach to new view synthesis in the real indoor environment, we propose a conditional generative adversarial neural network (P2I-NET) to directly predict the new view from the given pose. P2I-NET learns the conditional distribution of the images of the environment for establishing the correspondence between the camera pose and its view of the environment, and achieves this through a number of innovative designs in its architecture and training lost function. Two auxiliary discriminator constraints are introduced for enforcing the consistency between the pose of the generated image and that of the corresponding real world image in both the latent feature space and the real world pose space. Additionally a deep convolutional neural network (CNN) is introduced to further reinforce this consistency in the pixel space. We have performed extensive new view synthesis experiments on real indoor datasets. Results show that P2I-NET has superior performance against a number of NeRF based strong baseline models. In particular, we show that P2I-NET is 40 to 100 times faster than these competitor techniques while synthesising similar quality images. Furthermore, we contribute a new publicly available indoor environment dataset containing 22 high resolution RGBD videos where each frame also has accurate camera pose parameters.
翻訳日:2023-09-28 14:25:32 公開日:2023-09-27
# AIの再現性を高めるプラットフォームのためのサイバーセキュリティ要件

Cyber Security Requirements for Platforms Enhancing AI Reproducibility ( http://arxiv.org/abs/2309.15525v1 )

ライセンス: Link先を確認
Polra Victor Falade(参考訳) 科学研究はますます計算手法に頼り、研究の再現性を確保するための課題を提起している。 本研究は、人工知能(AI)の分野に焦点を当て、サイバーセキュリティの観点から再現性を評価するための新しいフレームワークを導入し、AI研究に関連するセキュリティ課題に対処する。 このフレームワークを使用して、Floydhub、BEAT、Codalab、Kaggle、OpenMLの5つの人気のあるAI再現性プラットフォームが評価された。 この分析によると、これらのプラットフォームには、堅牢な再現性に必要なサイバーセキュリティ対策が完全に組み込まれていない。 しかしkaggleとcodalabは、セキュリティ、プライバシ、ユーザビリティ、信頼といった側面をカバーするサイバーセキュリティ対策の実施に関して、よりよい成果を上げている。 その結果、研究は個々の研究者、小さな研究室、大企業など、さまざまなユーザーシナリオに合わせたレコメンデーションを提供する。 AIの再現性に関わる課題に対処するため、特定のサイバーセキュリティ機能をAIプラットフォームに統合することの重要性を強調し、最終的にこの分野での再現性を促進する。 さらに、提案されたフレームワークはAIプラットフォームを越えて適用することができ、サイバーセキュリティの観点から幅広いシステムやアプリケーションを評価するための汎用的なツールとして機能する。

Scientific research is increasingly reliant on computational methods, posing challenges for ensuring research reproducibility. This study focuses on the field of artificial intelligence (AI) and introduces a new framework for evaluating AI platforms for reproducibility from a cyber security standpoint to address the security challenges associated with AI research. Using this framework, five popular AI reproducibility platforms; Floydhub, BEAT, Codalab, Kaggle, and OpenML were assessed. The analysis revealed that none of these platforms fully incorporates the necessary cyber security measures essential for robust reproducibility. Kaggle and Codalab, however, performed better in terms of implementing cyber security measures covering aspects like security, privacy, usability, and trust. Consequently, the study provides tailored recommendations for different user scenarios, including individual researchers, small laboratories, and large corporations. It emphasizes the importance of integrating specific cyber security features into AI platforms to address the challenges associated with AI reproducibility, ultimately advancing reproducibility in this field. Moreover, the proposed framework can be applied beyond AI platforms, serving as a versatile tool for evaluating a wide range of systems and applications from a cyber security perspective.
翻訳日:2023-09-28 14:25:02 公開日:2023-09-27
# 視覚トランスフォーマーとライン統合によるファサード解析の改善

Improving Facade Parsing with Vision Transformers and Line Integration ( http://arxiv.org/abs/2309.15523v1 )

ライセンス: Link先を確認
Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima(参考訳) ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。 ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。 現実世界のシナリオはかなり複雑で、計算効率が向上する。 既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。 本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。 合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。 Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。 これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。 また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。 ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。 データセットとコードはhttps://github.com/wbw520/rtfpで入手できる。

Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method. The dataset and code are available at https://github.com/wbw520/RTFP.
翻訳日:2023-09-28 14:24:42 公開日:2023-09-27
# 領域一般化のためのロバスト内部表現

Robust Internal Representations for Domain Generalization ( http://arxiv.org/abs/2309.15522v1 )

ライセンス: Link先を確認
Mohammad Rostami(参考訳) 本稿では,AAAI'23新学部ハイライト招待講演プログラムの一環として,埋め込み空間を利用した転校学習研究の総合的な調査を行う。 本稿でレビューした研究は,連続学習とラベル付きデータの限られた利用に関する固有の課題を中心に展開している。 本稿は,過去および現在進行中のコントリビューションの概要を提供することで,私の研究の総合的な理解を示し,今後の探査・発展への道を開くことを目的とする。 私の研究は、少人数学習、ゼロショット学習、継続的な学習、ドメイン適応、分散学習など、転校学習のさまざまな設定について取り上げています。 この調査が、同様の研究方針に焦点をあてたい研究者に、前向きな視点を提供してくれることを願っている。

This paper which is part of the New Faculty Highlights Invited Speaker Program of AAAI'23, serves as a comprehensive survey of my research in transfer learning by utilizing embedding spaces. The work reviewed in this paper specifically revolves around the inherent challenges associated with continual learning and limited availability of labeled data. By providing an overview of my past and ongoing contributions, this paper aims to present a holistic understanding of my research, paving the way for future explorations and advancements in the field. My research delves into the various settings of transfer learning, including, few-shot learning, zero-shot learning, continual learning, domain adaptation, and distributed learning. I hope this survey provides a forward-looking perspective for researchers who would like to focus on similar research directions.
翻訳日:2023-09-28 14:24:15 公開日:2023-09-27
# スカース画像データのためのMLOps:顕微鏡画像解析のユースケース

MLOps for Scarce Image Data: A Use Case in Microscopic Image Analysis ( http://arxiv.org/abs/2309.15521v1 )

ライセンス: Link先を確認
Angelo Yamachui Sitcheu, Nils Friederich, Simon Baeuerle, Oliver Neumann1, Markus Reischl, Ralf Mikut(参考訳) 今日、機械学習(ML)は、これまで見たことのないほどの人気を誇っている。 MLモデルの運用は、MLOps(Machine Learning Operations)と呼ばれる一連の概念と手法によって管理される。 それでも研究者や専門家は、自動化の側面をより重視し、MLOpsの継続的デプロイメントと監視の側面を無視することが多い。 その結果、生産から開発へのフィードバックの流れを通じて継続的学習が欠如し、特に不足データを扱う場合には、概念ドリフトによる予期せぬモデル劣化が発生する。 この研究は、不足データ分析の文脈におけるMLOpsの完全な応用について考察する。 本稿では, バイオメディカル画像解析を改良する新たな総合的アプローチを提案する。 本手法は,画像解析タスクに対して最適なモデル,データセット,モデル開発戦略の選択を可能にするフィンガープリントプロセス,自動モデル開発ステージ,継続的学習を保証する継続的デプロイメントおよび監視プロセスを含む。 予備実験では,微視的画像データセットにおけるフィンガープリンティングの概念実証を行う。

Nowadays, Machine Learning (ML) is experiencing tremendous popularity that has never been seen before. The operationalization of ML models is governed by a set of concepts and methods referred to as Machine Learning Operations (MLOps). Nevertheless, researchers, as well as professionals, often focus more on the automation aspect and neglect the continuous deployment and monitoring aspects of MLOps. As a result, there is a lack of continuous learning through the flow of feedback from production to development, causing unexpected model deterioration over time due to concept drifts, particularly when dealing with scarce data. This work explores the complete application of MLOps in the context of scarce data analysis. The paper proposes a new holistic approach to enhance biomedical image analysis. Our method includes: a fingerprinting process that enables selecting the best models, datasets, and model development strategy relative to the image analysis task at hand; an automated model development stage; and a continuous deployment and monitoring process to ensure continuous learning. For preliminary results, we perform a proof of concept for fingerprinting in microscopic image datasets.
翻訳日:2023-09-28 14:24:03 公開日:2023-09-27
# SAF-Net:Multi-View Echocardiography を用いた心筋梗塞検出のための自己注意核融合ネットワーク

SAF-Net: Self-Attention Fusion Network for Myocardial Infarction Detection using Multi-View Echocardiography ( http://arxiv.org/abs/2309.15520v1 )

ライセンス: Link先を確認
Ilke Adalioglu, Mete Ahisali, Aysen Degerli, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 心筋梗塞(MI)は,冠動脈疾患(CAD)の重篤な症例であり,最終的に心筋の進行的損傷を予防するためには,その検出が重要である。 本研究では,多視点心エコー記録からMIを検出するための自己注意核融合ネットワーク(SAF-Net)を新たに提案する。 提案フレームワークは,A2C (apical 2-chamber) とA4C (apical 4-chamber) を用いた。 両ビューのそれぞれの記録から3つの参照フレームを抽出し、事前訓練した深層ネットワークを配置し、高度に代表的な特徴を抽出する。 SAF-Netモデルは自己認識機構を用いて抽出した特徴ベクトルの依存関係を学習する。 提案モデルは,3つの主部分を持つコンパクトなアーキテクチャにより,次元の低減,ビュープーリングの自己注意,高層化の3つの特徴の組込みにより,計算的に効率的である。 HMC-QU-TAUデータセットを用いて,A2CおよびA4Cビュー心エコー法を用いて実験を行った。 提案するsaf-netモデルは88.26%の精度、77.64%の感度、78.13%の精度で高性能を実現する。 その結果,saf-netモデルが最も高精度なmi検出が可能となった。

Myocardial infarction (MI) is a severe case of coronary artery disease (CAD) and ultimately, its detection is substantial to prevent progressive damage to the myocardium. In this study, we propose a novel view-fusion model named self-attention fusion network (SAF-Net) to detect MI from multi-view echocardiography recordings. The proposed framework utilizes apical 2-chamber (A2C) and apical 4-chamber (A4C) view echocardiography recordings for classification. Three reference frames are extracted from each recording of both views and deployed pre-trained deep networks to extract highly representative features. The SAF-Net model utilizes a self-attention mechanism to learn dependencies in extracted feature vectors. The proposed model is computationally efficient thanks to its compact architecture having three main parts: a feature embedding to reduce dimensionality, self-attention for view-pooling, and dense layers for the classification. Experimental evaluation is performed using the HMC-QU-TAU dataset which consists of 160 patients with A2C and A4C view echocardiography recordings. The proposed SAF-Net model achieves a high-performance level with 88.26% precision, 77.64% sensitivity, and 78.13% accuracy. The results demonstrate that the SAF-Net model achieves the most accurate MI detection over multi-view echocardiography recordings.
翻訳日:2023-09-28 14:23:47 公開日:2023-09-27
# SAMから学ぶ: 正規化によるSim2Realドメイン適応のためのセグメンテーション基礎モデル

Learning from SAM: Harnessing a Segmentation Foundation Model for Sim2Real Domain Adaptation through Regularization ( http://arxiv.org/abs/2309.15562v1 )

ライセンス: Link先を確認
Mayara E. Bonani, Max Schwarz, Sven Behnke(参考訳) 対象とするドメインのトレーニングデータがほとんどなく、アノテーションを取得するのにコストがかかるロボットアプリケーションでは、ドメイン適応が特に重要である。 本稿では,アノテートされたソースドメインデータ(例えば合成生成)が利用可能なシナリオに対して,自己教師付きドメイン適応を行う手法を提案する。 本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。 我々は,非教師付き局所特徴学習の最近の進歩から着想を得て,対象領域における特徴表現を正規化するための検出セグメント上の不変分散損失構造を提案する。 重要なのは、この損失構造とネットワークアーキテクチャは、Segment Anythingが生成した重複セグメントとオーバーセグメンテーションを扱うことができる。 提案手法の利点は,YCB-VideoとHomebrewedDBのデータセットが先行作業よりも優れており,実際のアノテーションで訓練されたネットワークでさえも優れていることを示す。

Domain adaptation is especially important for robotics applications, where target domain training data is usually scarce and annotations are costly to obtain. We present a method for self-supervised domain adaptation for the scenario where annotated source domain data (e.g. from synthetic generation) is available, but the target domain data is completely unannotated. Our method targets the semantic segmentation task and leverages a segmentation foundation model (Segment Anything Model) to obtain segment information on unannotated data. We take inspiration from recent advances in unsupervised local feature learning and propose an invariance-variance loss structure over the detected segments for regularizing feature representations in the target domain. Crucially, this loss structure and network architecture can handle overlapping segments and oversegmentation as produced by Segment Anything. We demonstrate the advantage of our method on the challenging YCB-Video and HomebrewedDB datasets and show that it outperforms prior work and, on YCB-Video, even a network trained with real annotations.
翻訳日:2023-09-28 14:15:10 公開日:2023-09-27
# 未熟な学習のランク付けにおける隠れた回復条件の解明

Identifiability Matters: Revealing the Hidden Recoverable Condition in Unbiased Learning to Rank ( http://arxiv.org/abs/2309.15560v1 )

ライセンス: Link先を確認
Mouxiang Chen, Chenghao Liu, Zemin Liu, Zhuo Li, Jianling Sun(参考訳) unbiased learning to rank(ultr)の応用は、バイアス付きクリックログから偏りのないランキングモデルをトレーニングするための現代のシステムで広く使われている。 鍵となるのは、ユーザー行動の生成プロセスを明示的にモデル化し、試験仮説に基づいてクリックデータを適合させることである。 以前の研究では、真の潜在性はクリックが完全に適合している限り、ほとんどのケースで回復できることが実証された。 しかし,これは必ずしも達成可能とは限らないため,ランキング性能が著しく低下することを示した。 本研究では,ULTRフィールドの基本問題であるクリックデータから真の関連性を取り戻すことができるかどうかを問う。 まず、ランク付けモデルを、スケーリング変換による真の関連性を回復できるかどうかを識別可能と定義します。 次に,グラフ接続テスト問題として新たに表現可能な識別可能性の等価条件について検討し,データセットの基盤構造上に構築されたグラフ(すなわち識別可能性グラフ,IG)が接続されている場合,その妥当性が正しく回復できることを保証する。 IGが接続されていない場合、ランキングパフォーマンスの低下につながる悪いケースがあります。 この問題に対処するため,ノード介入とノードマージという2つの手法を提案し,データセットの修正とIGの接続性回復を行う。 シミュレーションデータセットと2つのltrベンチマークデータセットで得られた実験結果は,提案する定理の有効性を確認し,妥当性が不明なデータバイアスを緩和する手法の有効性を示す。

The application of Unbiased Learning to Rank (ULTR) is widespread in modern systems for training unbiased ranking models from biased click logs. The key is to explicitly model a generation process for user behavior and fit click data based on examination hypothesis. Previous research found empirically that the true latent relevance can be recovered in most cases as long as the clicks are perfectly fitted. However, we demonstrate that this is not always achievable, resulting in a significant reduction in ranking performance. In this work, we aim to answer if or when the true relevance can be recovered from click data, which is a foundation issue for ULTR field. We first define a ranking model as identifiable if it can recover the true relevance up to a scaling transformation, which is enough for pairwise ranking objective. Then we explore an equivalent condition for identifiability that can be novely expressed as a graph connectivity test problem: if and only if a graph (namely identifiability graph, or IG) constructed on the underlying structure of the dataset is connected, we can guarantee that the relevance can be correctly recovered. When the IG is not connected, there may be bad cases leading to poor ranking performance. To address this issue, we propose two methods, namely node intervention and node merging, to modify the dataset and restore connectivity of the IG. Empirical results obtained on a simulation dataset and two LTR benchmark datasets confirm the validity of our proposed theorems and show the effectiveness of our methods in mitigating data bias when the relevance model is unidentifiable.
翻訳日:2023-09-28 14:14:49 公開日:2023-09-27
# 共有付加自己帰属による忠実ニューラルネットワーク固有の解釈に向けて

Towards Faithful Neural Network Intrinsic Interpretation with Shapley Additive Self-Attribution ( http://arxiv.org/abs/2309.15559v1 )

ライセンス: Link先を確認
Ying Sun, Hengshu Zhu, Hui Xiong(参考訳) 自己解釈ニューラルネットワークは、研究に大きな関心を集めている。 この領域における既存の研究は、(1)真の解釈可能性を保証する確固たる理論基盤、または(2)妥協モデル表現性を欠いていることが多い。 これに応えて、汎用的な自己貢献(ASA)フレームワークを定式化する。 加法自己帰属におけるshapley値の欠如を観察し,出力のshapley値に等しい自己帰属値に対して理論的に保証したshapley加法自己帰属ニューラルネットワーク(sasanet)を提案する。 具体的には、SASANetは、限界的なコントリビューションベースのシーケンシャルスキーマと内部蒸留ベースのトレーニング戦略を使用して、さまざまな特徴に対して意味のある出力をモデル化し、その結果、意味のある値関数を非近似化する。 実験の結果、SASANetは既存の自己帰属モデルを上回る性能を示し、ブラックボックスモデルと競合することがわかった。 さらに、SASANetは、自己予測の解釈において、ポストホック法よりも正確で効率的であることを示す。

Self-interpreting neural networks have garnered significant interest in research. Existing works in this domain often (1) lack a solid theoretical foundation ensuring genuine interpretability or (2) compromise model expressiveness. In response, we formulate a generic Additive Self-Attribution (ASA) framework. Observing the absence of Shapley value in Additive Self-Attribution, we propose Shapley Additive Self-Attributing Neural Network (SASANet), with theoretical guarantees for the self-attribution value equal to the output's Shapley values. Specifically, SASANet uses a marginal contribution-based sequential schema and internal distillation-based training strategies to model meaningful outputs for any number of features, resulting in un-approximated meaningful value function. Our experimental results indicate SASANet surpasses existing self-attributing models in performance and rivals black-box models. Moreover, SASANet is shown more precise and efficient than post-hoc methods in interpreting its own predictions.
翻訳日:2023-09-28 14:14:22 公開日:2023-09-27
# 高精度クロスビューカメラローカライゼーションのためのDense Flow Fieldの学習

Learning Dense Flow Field for Highly-accurate Cross-view Camera Localization ( http://arxiv.org/abs/2309.15556v1 )

ライセンス: Link先を確認
Zhenbo Song, Xianghui Ze, Jianfeng Lu, Yujiao Shi(参考訳) 本稿では,局所環境を包含する衛星画像に関して,地上画像に対する3次元カメラのポーズ推定の問題に対処する。 地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習し,カメラのポーズを計算する手法を提案する。 提案手法は,画素レベルで特徴量を構築することで既存の手法と異なり,視界を横断する特徴的幾何学的構成や視覚的外観を学習するためのフルイメージの監視を可能にする。 具体的には、地上および衛星の特徴抽出に2つの異なる畳み込みネットワークを用いる。 そこで, 固定カメラ高さ推定法を用いて, 地上地形図を鳥眼ビュー(BEV)に投影し, 予備的な幾何学的アライメントを実現する。 さらに、BEVと衛星の特徴の関連性を確立するために、予測されたBEV機能を洗練するための残差畳み込みブロックを導入する。 RAFTに基づくフローデコーダネットワークを用いた改良されたBEV特徴マップと衛星特徴マップ上で光流量推定を行う。 濃密な流れの対応を得た後、最小二乗法を用いて、マッチング不整合をフィルタリングし、地上カメラのポーズを後退させる。 広範な実験により、最先端の方法に比べて大幅な改善が示されている。 特に,本手法では,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarの各データセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。

This paper addresses the problem of estimating the 3-DoF camera pose for a ground-level image with respect to a satellite image that encompasses the local surroundings. We propose a novel end-to-end approach that leverages the learning of dense pixel-wise flow fields in pairs of ground and satellite images to calculate the camera pose. Our approach differs from existing methods by constructing the feature metric at the pixel level, enabling full-image supervision for learning distinctive geometric configurations and visual appearances across views. Specifically, our method employs two distinct convolution networks for ground and satellite feature extraction. Then, we project the ground feature map to the bird's eye view (BEV) using a fixed camera height assumption to achieve preliminary geometric alignment. To further establish content association between the BEV and satellite features, we introduce a residual convolution block to refine the projected BEV feature. Optical flow estimation is performed on the refined BEV feature map and the satellite feature map using flow decoder networks based on RAFT. After obtaining dense flow correspondences, we apply the least square method to filter matching inliers and regress the ground camera pose. Extensive experiments demonstrate significant improvements compared to state-of-the-art methods. Notably, our approach reduces the median localization error by 89%, 19%, 80% and 35% on the KITTI, Ford multi-AV, VIGOR and Oxford RobotCar datasets, respectively.
翻訳日:2023-09-28 14:14:00 公開日:2023-09-27
# スパイクングニューラルネットワークにおける物体検出の低レイテンシ

Low Latency of object detection for spikng neural network ( http://arxiv.org/abs/2309.15555v1 )

ライセンス: Link先を確認
Nemin Qiu and Chuang Zhu(参考訳) 第3世代のニューラルネットワークであるスパイキングニューラルネットワークは、バイナリスパイクの性質のため、エッジAIアプリケーションに適している。 しかしながら、オブジェクト検出のような複雑なタスクに関しては、SNNは高いパフォーマンスを達成するためにかなりの時間ステップを必要とすることが多い。 この制限は、レイテンシに敏感なエッジデバイスにおけるSNNの普及を著しく妨げている。 本稿では,オブジェクト検出専用に高精度かつ低レイテンシなSNNを生成することに焦点を当てる。 まず,snsとannの変換を体系的に導出し,スパイク発火率の向上と量子化誤差の低減という,両者の一貫性を改善する方法を分析する。 次に,ANN 活性化の定量化と残差解消のための構造的置換法を提案する。 提案手法は,MS COCO, PASCAL VOC, およびスパイクデータセットに挑戦する。 実験の結果,提案手法は従来のSpike-YOLOよりも精度が高く,レイテンシも低いことがわかった。 スパイク信号のSNN処理の利点も示す。

Spiking Neural Networks, as a third-generation neural network, are well-suited for edge AI applications due to their binary spike nature. However, when it comes to complex tasks like object detection, SNNs often require a substantial number of time steps to achieve high performance. This limitation significantly hampers the widespread adoption of SNNs in latency-sensitive edge devices. In this paper, our focus is on generating highly accurate and low-latency SNNs specifically for object detection. Firstly, we systematically derive the conversion between SNNs and ANNs and analyze how to improve the consistency between them: improving the spike firing rate and reducing the quantization error. Then we propose a structural replacement, quantization of ANN activation and residual fix to allevicate the disparity. We evaluate our method on challenging dataset MS COCO, PASCAL VOC and our spike dataset. The experimental results show that the proposed method achieves higher accuracy and lower latency compared to previous work Spiking-YOLO. The advantages of SNNs processing of spike signals are also demonstrated.
翻訳日:2023-09-28 14:13:35 公開日:2023-09-27
# FBK@IWSLT2023 同時翻訳と自動置換のための直接モデル

Direct Models for Simultaneous Translation and Automatic Subtitling: FBK@IWSLT2023 ( http://arxiv.org/abs/2309.15554v1 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Matteo Negri(参考訳) 本稿では,FIWLT 2023評価キャンペーンにおけるFBKの同時翻訳・自動置換への参加について述べる。 提案では,両方のタスクを実行するための直接アーキテクチャの使用に焦点を当てた: 同時処理では,オフライン学習モデルで取得した知識を活用し,リアルタイム推論を得るためのポリシを直接適用した。 我々の英語-ドイツ語SimulSTシステムでは、2021年と2022年の上位システムで達成されたシステムと比較して、最大3.5BLEUの遅延を減らしている。 自動サブティットリングシステムは,英語とドイツ語とスペイン語でそれぞれ3.7SubERと1.7SubERの直接システムに基づく唯一の既存ソリューションより優れている。

This paper describes the FBK's participation in the Simultaneous Translation and Automatic Subtitling tracks of the IWSLT 2023 Evaluation Campaign. Our submission focused on the use of direct architectures to perform both tasks: for the simultaneous one, we leveraged the knowledge already acquired by offline-trained models and directly applied a policy to obtain the real-time inference; for the subtitling one, we adapted the direct ST model to produce well-formed subtitles and exploited the same architecture to produce timestamps needed for the subtitle synchronization with audiovisual content. Our English-German SimulST system shows a reduced computational-aware latency compared to the one achieved by the top-ranked systems in the 2021 and 2022 rounds of the task, with gains of up to 3.5 BLEU. Our automatic subtitling system outperforms the only existing solution based on a direct system by 3.7 and 1.7 SubER in English-German and English-Spanish respectively.
翻訳日:2023-09-28 14:13:17 公開日:2023-09-27
# CrunchBaseデータを用いたスタートアップ成功予測とVCポートフォリオシミュレーション

Startup success prediction and VC portfolio simulation using CrunchBase data ( http://arxiv.org/abs/2309.15552v1 )

ライセンス: Link先を確認
Mark Potanin, Andrey Chertok, Konstantin Zorin, Cyril Shtabtsovsky(参考訳) スタートアップの成功を予測することは、起業家エコシステムが本質的に不安定な状況にあるため、非常に難しい課題だ。 crunchbaseのような広範なデータベースと利用可能なオープンデータの組み合わせによって、機械学習と人工知能のより正確な予測分析への応用が可能になる。 本稿は、IPO(Initial Public Offering)の達成、ユニコーンの地位獲得、Merger and Acquisition(M\&A)の成功といった重要な成功のマイルストーンを予測することを目的とした、シリーズBおよびシリーズCの投資ステージにおけるスタートアップに焦点を当てる。 スタートアップの成功を予測するための新しいディープラーニングモデルを導入し、資金調達指標、創業者の特徴、業界カテゴリなど、さまざまな要素を統合する。 私たちの研究の特徴は、ベンチャーキャピタル投資プロセスをシミュレートするために設計された包括的なバックテストアルゴリズムの使用です。 このシミュレーションは、過去のデータに対するモデルのパフォーマンスを堅牢に評価し、実世界の投資コンテキストにおける実用性に関する実用的な洞察を提供する。 私たちのモデルはcrunchbaseで評価し、14倍の資本成長を達成し、revolut、digitalocean、klarna、githubなど、bラウンドの高ポテンシャルスタートアップでうまく特定しました。 実験結果から,モデルの予測精度向上に多様な特徴セットを組み込むことの重要性が示唆された。 要約して,本研究は,スタートアップの成功を予測する上で,ディープラーニングモデルと代替的非構造化データとの相当な約束を実証し,今後の研究分野の進歩のステージを定めている。

Predicting startup success presents a formidable challenge due to the inherently volatile landscape of the entrepreneurial ecosystem. The advent of extensive databases like Crunchbase jointly with available open data enables the application of machine learning and artificial intelligence for more accurate predictive analytics. This paper focuses on startups at their Series B and Series C investment stages, aiming to predict key success milestones such as achieving an Initial Public Offering (IPO), attaining unicorn status, or executing a successful Merger and Acquisition (M\&A). We introduce novel deep learning model for predicting startup success, integrating a variety of factors such as funding metrics, founder features, industry category. A distinctive feature of our research is the use of a comprehensive backtesting algorithm designed to simulate the venture capital investment process. This simulation allows for a robust evaluation of our model's performance against historical data, providing actionable insights into its practical utility in real-world investment contexts. Evaluating our model on Crunchbase's, we achieved a 14 times capital growth and successfully identified on B round high-potential startups including Revolut, DigitalOcean, Klarna, Github and others. Our empirical findings illuminate the importance of incorporating diverse feature sets in enhancing the model's predictive accuracy. In summary, our work demonstrates the considerable promise of deep learning models and alternative unstructured data in predicting startup success and sets the stage for future advancements in this research area.
翻訳日:2023-09-28 14:12:58 公開日:2023-09-27
# DeepRepVizを用いたディープラーニングモデル予測における共同創設者の同定

Identifying confounders in deep-learning-based model predictions using DeepRepViz ( http://arxiv.org/abs/2309.15551v1 )

ライセンス: Link先を確認
Roshan Prakash Rane, JiHoon Kim, Arjun Umesha, Didem Stark, Marc-Andr\'e Schulz, Kerstin Ritter(参考訳) ディープラーニング(DL)モデルは、神経画像データを分析し、脳、脳の病理、心理的特徴に関する洞察を明らかにするために、ますます使われています。 しかし、参加者の年齢、性別、画像のアーティファクトなどの「共同設立者」変数は、モデル予測をバイアスし、モデルが関連する脳-フェノタイプ関係を学習することを防ぐ。 本研究では、研究者がDLモデルの予測において、共同ファウンダーを体系的に検出できる「DeepRepViz」フレームワークを提供する。 本フレームワークは,(1)潜在的共同創設者の効果を定量化する指標と,(2)研究者がDLモデルが学習していることを質的に検査できる可視化ツールから構成される。 シミュレーションおよびニューロイメージングデータセットの実験により、DLモデルと組み合わせてDeepRepVizを使用することの利点を実証する。 例えば、神経画像データセットの実験では、性は慢性アルコール使用者を予測するDLモデルにおいて重要な共同創設者である(Con-score=0.35)。 同様にDeepRepVizは、認知タスク(Con-score=0.3)における参加者のパフォーマンスを予測するDLモデルで、年齢を共同創設者と認識している。 全体としてdeeprepvizは、研究者が潜在的な共同創設者を体系的にテストし、年齢、性別、画像アーティファクトなどの異種情報に依存するdlモデルを公開することができる。

Deep Learning (DL) models are increasingly used to analyze neuroimaging data and uncover insights about the brain, brain pathologies, and psychological traits. However, extraneous `confounders' variables such as the age of the participants, sex, or imaging artifacts can bias model predictions, preventing the models from learning relevant brain-phenotype relationships. In this study, we provide a solution called the `DeepRepViz' framework that enables researchers to systematically detect confounders in their DL model predictions. The framework consists of (1) a metric that quantifies the effect of potential confounders and (2) a visualization tool that allows researchers to qualitatively inspect what the DL model is learning. By performing experiments on simulated and neuroimaging datasets, we demonstrate the benefits of using DeepRepViz in combination with DL models. For example, experiments on the neuroimaging datasets reveal that sex is a significant confounder in a DL model predicting chronic alcohol users (Con-score=0.35). Similarly, DeepRepViz identifies age as a confounder in a DL model predicting participants' performance on a cognitive task (Con-score=0.3). Overall, DeepRepViz enables researchers to systematically test for potential confounders and expose DL models that rely on extraneous information such as age, sex, or imaging artifacts.
翻訳日:2023-09-28 14:12:32 公開日:2023-09-27
# 機械学習のためのハミング重み保存量子回路のトレーサビリティと表現性

Trainability and Expressivity of Hamming-Weight Preserving Quantum Circuits for Machine Learning ( http://arxiv.org/abs/2309.15547v1 )

ライセンス: Link先を確認
L\'eo Monbroussou, Jonas Landman, Alex B. Grilo, Romain Kukla, and Elham Kashefi(参考訳) 量子機械学習は、量子コンピュータの実世界の応用において有望な分野となっているが、短期的手法とその拡張性は依然として重要な研究課題である。 この文脈では、特定のハミング重み保存量子回路のトレーサビリティと制御可能性を分析する。 これらの回路はヒルベルト空間の部分空間を保存するゲートを使い、固定ハミング重み$k$の基底状態で張られている。 古典的なデータのロードとトレーニング可能なレイヤの実行の両方によって、ニューラルネットワークを模倣する優れた候補だ。 本研究では、まず、新しいヒューリスティックなデータローダの実現可能性を示し、nビット量子回路をトレーニングすることにより、$\binom{n}{k}$-dimensionalベクトルの量子振幅符号化を行う。 そして、より一般にハミング重み保存回路のトレーニング可能性を分析し、それらの勾配のばらつきが保存部分空間の大きさに応じて有界であることを示す。 これにより、これらの回路における不毛高原の存在条件が証明され、変分量子回路の制御可能性とトレーサビリティの関係に関する最近の予想が適用されないような設定が強調される。

Quantum machine learning has become a promising area for real world applications of quantum computers, but near-term methods and their scalability are still important research topics. In this context, we analyze the trainability and controllability of specific Hamming weight preserving quantum circuits. These circuits use gates that preserve subspaces of the Hilbert space, spanned by basis states with fixed Hamming weight $k$. They are good candidates for mimicking neural networks, by both loading classical data and performing trainable layers. In this work, we first design and prove the feasibility of new heuristic data loaders, performing quantum amplitude encoding of $\binom{n}{k}$-dimensional vectors by training a n-qubit quantum circuit. Then, we analyze more generally the trainability of Hamming weight preserving circuits, and show that the variance of their gradients is bounded according to the size of the preserved subspace. This proves the conditions of existence of Barren Plateaus for these circuits, and highlights a setting where a recent conjecture on the link between controllability and trainability of variational quantum circuits does not apply.
翻訳日:2023-09-28 14:12:08 公開日:2023-09-27
# 絡み合った量子戦略による多体群運動と移動物体特性の高精度推定

Entanglement-Enhanced Quantum Strategies for Accurate Estimation of Multibody Group Motion and Moving Object Characteristics ( http://arxiv.org/abs/2309.15546v1 )

ライセンス: Link先を確認
Yongqiang Li and Changliang Ren(参考訳) 本研究では,異なる絡み合い資源を用いた2つの物理量の同時推定のための量子戦略を提案する。 正あるいは負の時間相関光子の利用について検討する。 提案手法は,移動物体の大きさと速度を正確に測定すると共に,多体系の中心位置と相対速度の検出を可能にする。 他の戦略との比較分析は、特に高い絡み合い度を持つ適切な絡み合い源を用いる場合、我々のアプローチの優れた量子優位性を示す。 これらの結果は、正確な測定のための量子戦略の理解の進展に寄与する。

This study presents a quantum strategy for simultaneous estimation of two physical quantities using different entanglement resources. We explore the utilization of positively or negatively timecorrelated photons. The proposed method enables the detection of central position and relative velocity of multibody systems, as well as precise measurement of size and velocity of moving objects. Comparative analysis with other strategies reveals the superior quantum advantage of our approach, particularly when appropriate entanglement sources with high entanglement degree are employed. These findings contribute to advancing our understanding of quantum strategies for accurate measurements.
翻訳日:2023-09-28 14:11:48 公開日:2023-09-27
# 混合参照状態を用いた量子オートエンコーダ

Quantum autoencoders using mixed reference states ( http://arxiv.org/abs/2309.15582v1 )

ライセンス: Link先を確認
Hailan Ma, Gary J. Mooney, Ian R. Petersen, Lloyd C. L. Hollenberg, Daoyi Dong(参考訳) 情報理論における基本的な課題の1つは情報の圧縮である。 量子領域でこれを達成するために、量子状態を低次元に圧縮する量子オートエンコーダが提案されている。 純粋な状態を参照状態として取る場合、符号化忠実度には上限が存在する。 この境界はエントロピーが高いハイランク状態の圧縮速度を制限する。 初期状態と再構成状態の間のエントロピーの不整合を克服するために、参照状態が混合状態であることを許容する。 一般入力状態の圧縮に符号化忠実度と量子相互情報を組み合わせた新しいコスト関数を提案する。 特に、参照状態は最大混合状態と純粋状態の混合であると考える。 異なる状態に対する効率的な圧縮を実現するために、トレーニングプロセスから得られた量子状態や観測に関する事前知識に基づいて、混合度(最大混合状態と純状態の混合)の比率を設定するための2つの戦略が提供される。 トラバースフィールドイジングモデル, ヴェルナー状態, 最大混合状態, および純状態と混合した熱状態に関する数値結果は, 提案手法の有効性を示している。 さらに、混合参照状態を用いた量子オートエンコーダをIBM Quantumデバイス上で実験的に実装し、熱状態とWerner状態の圧縮と再構成を行う。

One of the fundamental tasks in information theory is the compression of information. To achieve this in the quantum domain, quantum autoencoders that aim to compress quantum states to low-dimensional ones have been proposed. When taking a pure state as the reference state, there exists an upper bound for the encoding fidelity. This bound limits the compression rate for high-rank states that have high entropy. To overcome the entropy inconsistency between the initial states and the reconstructed states, we allow the reference state to be a mixed state. A new cost function that combines the encoding fidelity and the quantum mutual information is proposed for compressing general input states. In particular, we consider the reference states to be a mixture of maximally mixed states and pure states. To achieve efficient compression for different states, two strategies for setting the ratio of mixedness (in the mixture of maximally mixed states and pure states) are provided based on prior knowledge about quantum states or observations obtained from the training process. Numerical results on thermal states of the transverse-field Ising model, Werner states, and maximally mixed states blended with pure states illustrate the effectiveness of the proposed method. In addition, quantum autoencoders using mixed reference states are experimentally implemented on IBM Quantum devices to compress and reconstruct thermal states and Werner states.
翻訳日:2023-09-28 14:07:14 公開日:2023-09-27
# トラップイオンダイナミクスの超解像観測のための位相安定進行波のストロボスコピックマッチング

Phase-Stable Traveling Waves Stroboscopically Matched for Super-Resolved Observation of Trapped-Ion Dynamics ( http://arxiv.org/abs/2309.15580v1 )

ライセンス: Link先を確認
Florian Hasse, Deviprasath Palani, Robin Thomm, Ulrich Warring, and Tobias Schaetz(参考訳) 量子技術では、光と物質の相互作用を理解し、活用することが不可欠である。 そこで本研究では, 全球マイクロ波基準場, 偏光勾配進行波パターン, 単一捕捉イオンのスピン状態, 運動状態の4つの振動子のコヒーレンスを作成し, 維持する手法を提案する。 提案手法の特徴は,140nmの周期的な光パターンと,1.8(2)\,$nmおよび8(2)~$zN$\,\mu$sのノイズフロアを持つ運動量観測器の位置と運動量の動的変動を分光的に追従することによって示される。 本研究の意義は,量子制御とメトロロジカル応用の強化に寄与する。

In quantum technologies, it is essential to understand and exploit the interplay of light and matter. We introduce an approach, creating and maintaining the coherence of four oscillators: a global microwave reference field, a polarization-gradient traveling-wave pattern of light, and the spin and motional states of a single trapped ion. The features of our method are showcased by probing the 140-nm periodic light pattern and stroboscopically tracing dynamical variations in position and momentum observables with noise floors of $1.8(2)\,$nm and $8(2)~$zN$\,\mu$s, respectively. The implications of our findings contribute to enhancing quantum control and metrological applications.
翻訳日:2023-09-28 14:06:53 公開日:2023-09-27
# LivDet2023 -- Fingerprint Liveness Detection competition: Advancing Generalization

LivDet2023 -- Fingerprint Liveness Detection Competition: Advancing Generalization ( http://arxiv.org/abs/2309.15578v1 )

ライセンス: Link先を確認
Marco Micheletto and Roberto Casula and Giulia Orr\`u and Simone Carta and Sara Concas and Simone Maurizio La Cava and Julian Fierrez and Gian Luca Marcialis(参考訳) 国際指紋ライブネス検出コンペティション(livdet)は、学術および産業の参加者が指紋提示攻撃検出(pad)の進歩を証明するために招待する二年次イベントである。 本版livdet2023では,検証システムに埋め込まれたパッドの有効性と機能セットの有効性とコンパクト性を評価するため,動作中の生体検出と指紋表現の2つの課題を提案した。 第3の隠れた課題は、センサー情報が不明なトレーニングセットに2つのサブセットを含め、参加者がモデルを一般化する能力をテストすることだ。 参加者にはボナファイド指紋サンプルのみが提供され、コンペティションはデータ可用性のこの制限に苦しむアルゴリズムのパフォーマンスを報告し、評価する。

The International Fingerprint Liveness Detection Competition (LivDet) is a biennial event that invites academic and industry participants to prove their advancements in Fingerprint Presentation Attack Detection (PAD). This edition, LivDet2023, proposed two challenges, Liveness Detection in Action and Fingerprint Representation, to evaluate the efficacy of PAD embedded in verification systems and the effectiveness and compactness of feature sets. A third, hidden challenge is the inclusion of two subsets in the training set whose sensor information is unknown, testing participants ability to generalize their models. Only bona fide fingerprint samples were provided to participants, and the competition reports and assesses the performance of their algorithms suffering from this limitation in data availability.
翻訳日:2023-09-28 14:06:38 公開日:2023-09-27
# RCC-8におけるChatGPT-4の定性的空間推論能力の評価

An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities in RCC-8 ( http://arxiv.org/abs/2309.15577v1 )

ライセンス: Link先を確認
Anthony G Cohn(参考訳) 定性的空間推論(QSR)は、地理情報システムからロボティクス、コンピュータビジョンまで多岐にわたる応用分野である。 近年、Large Language Models (LLMs) の能力について多くの主張がなされている。 本稿では, メレオトポロジカル計算, RCC-8における古典的定性的空間推論タスクを, 特定のLLMが行うことができる範囲について検討する。

Qualitative Spatial Reasoning (QSR) is well explored area of Commonsense Reasoning and has multiple applications ranging from Geographical Information Systems to Robotics and Computer Vision. Recently many claims have been made for the capabilities of Large Language Models (LLMs). In this paper we investigate the extent to which one particular LLM can perform classical qualitative spatial reasoning tasks on the mereotopological calculus, RCC-8.
翻訳日:2023-09-28 14:06:20 公開日:2023-09-27
# 背景抽出のための時空間正規化テンソルスパースRPCAの学習

Learning Spatial-Temporal Regularized Tensor Sparse RPCA for Background Subtraction ( http://arxiv.org/abs/2309.15576v1 )

ライセンス: Link先を確認
Basit Alawode and Sajid Javed(参考訳) ビデオ背景のサブトラクションは、すべての動くオブジェクトをセグメント化することを目的としたコンピュータビジョンの基本的な問題の1つである。 ロバストな主成分分析は、多くのベンチマークデータセットの競合性能のおかげで、過去10年間にバックグラウンドサブトラクションタスクのための有望な教師なしのパラダイムとして特定されてきた。 引張剛性主成分分析のバリエーションは、背景減算性能をさらに向上させた。 しかし、スパースコンポーネント内のオブジェクト画素の移動は独立して処理され、空間-時間構造-スパース制約に従わなくてもよいため、動的背景、カモフラージュ、カメラジッタ問題のあるシーケンスでは性能が低下する。 本研究では,正確な背景抽出のための時空間正規化テンソルスパースRPCAアルゴリズムを提案する。 スパース成分の中では、正規化グラフ-ラプラシア行列の形で時空間正規化を課す。 これを実現するために、入力テンソル空間位置を横切るグラフと、時間領域においてその正面スライスを横切るグラフを2つ構築する。 目的関数を最大化しながら、テンソルスパース成分をグラフラプラシア行列の時空間固有ベクトルとして機能させる。 スパース成分中の非連結移動物体画素は、時空間構造からなるため、グラフベースの正規化により保存される。 さらに,背景・背景・空間・時間的規則化コンポーネントを協調的に最大化するために,バッチとオンラインに基づく最適化手法を用いた独自の目的関数を提案する。 提案手法は,既存の手法と比較して,提案手法の優れた性能を示す6つの背景抽出データセットを用いて実験を行った。 ソースコードはもうすぐ手に入るでしょう。

Video background subtraction is one of the fundamental problems in computer vision that aims to segment all moving objects. Robust principal component analysis has been identified as a promising unsupervised paradigm for background subtraction tasks in the last decade thanks to its competitive performance in a number of benchmark datasets. Tensor robust principal component analysis variations have improved background subtraction performance further. However, because moving object pixels in the sparse component are treated independently and do not have to adhere to spatial-temporal structured-sparsity constraints, performance is reduced for sequences with dynamic backgrounds, camouflaged, and camera jitter problems. In this work, we present a spatial-temporal regularized tensor sparse RPCA algorithm for precise background subtraction. Within the sparse component, we impose spatial-temporal regularizations in the form of normalized graph-Laplacian matrices. To do this, we build two graphs, one across the input tensor spatial locations and the other across its frontal slices in the time domain. While maximizing the objective function, we compel the tensor sparse component to serve as the spatiotemporal eigenvectors of the graph-Laplacian matrices. The disconnected moving object pixels in the sparse component are preserved by the proposed graph-based regularizations since they both comprise of spatiotemporal subspace-based structure. Additionally, we propose a unique objective function that employs batch and online-based optimization methods to jointly maximize the background-foreground and spatial-temporal regularization components. Experiments are performed on six publicly available background subtraction datasets that demonstrate the superior performance of the proposed algorithm compared to several existing methods. Our source code will be available very soon.
翻訳日:2023-09-28 14:06:09 公開日:2023-09-27
# Few-shot Unsupervised Domain Adaptationのための信頼に基づく視覚分散

Confidence-based Visual Dispersal for Few-shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.15575v1 )

ライセンス: Link先を確認
Yizhe Xiong, Hui Chen, Zijia Lin, Sicheng Zhao, Guiguang Ding(参考訳) 教師なしドメイン適応(unsupervised domain adaptation)は、完全にラベル付きソースドメインからラベルなしのターゲットドメインに知識を転送することを目的としている。 しかし、実世界のシナリオでは、アノテーションの難しさと高コストのため、ソースドメインでさえラベル付きデータを提供することは不可能である。 この問題に対処するため、近年の研究では、少数のサンプルしかラベル付けされていないFew-shot Unsupervised Domain Adaptation (FUDA)について検討し、自己教師付き学習手法による知識伝達を行う。 しかし、既存の手法では、スパースラベルの設定が信頼できるソース知識の学習を妨げていることを一般的に見落としている。 さらに, 対象サンプルの学習困難度差は異なるが無視され, ハードターゲットサンプルの分類が不十分である。 本稿では、両障害に対処するために、FUDAのための信頼度に基づく新しい視覚分散変換学習法(C-VisDiT)を提案する。 具体的には、C-VisDiTは、モデル適応のための高信頼ソース知識のみを伝達するクロスドメインビジュアル分散戦略と、ハードターゲットサンプルの学習を容易なものでガイドするドメイン内ビジュアル分散戦略からなる。 office-31, office-home, visda-c, domainnetベンチマークデータセットを広範囲に実験した結果,提案手法のc-visditがfuda法を大幅に上回っていることが示された。 私たちのコードはhttps://github.com/Bostoncake/C-VisDiT.comで利用可能です。

Unsupervised domain adaptation aims to transfer knowledge from a fully-labeled source domain to an unlabeled target domain. However, in real-world scenarios, providing abundant labeled data even in the source domain can be infeasible due to the difficulty and high expense of annotation. To address this issue, recent works consider the Few-shot Unsupervised Domain Adaptation (FUDA) where only a few source samples are labeled, and conduct knowledge transfer via self-supervised learning methods. Yet existing methods generally overlook that the sparse label setting hinders learning reliable source knowledge for transfer. Additionally, the learning difficulty difference in target samples is different but ignored, leaving hard target samples poorly classified. To tackle both deficiencies, in this paper, we propose a novel Confidence-based Visual Dispersal Transfer learning method (C-VisDiT) for FUDA. Specifically, C-VisDiT consists of a cross-domain visual dispersal strategy that transfers only high-confidence source knowledge for model adaptation and an intra-domain visual dispersal strategy that guides the learning of hard target samples with easy ones. We conduct extensive experiments on Office-31, Office-Home, VisDA-C, and DomainNet benchmark datasets and the results demonstrate that the proposed C-VisDiT significantly outperforms state-of-the-art FUDA methods. Our code is available at https://github.com/Bostoncake/C-VisDiT.
翻訳日:2023-09-28 14:05:23 公開日:2023-09-27
# 回転する視野を持つ最大被覆

The Maximum Cover with Rotating Field of View ( http://arxiv.org/abs/2309.15573v1 )

ライセンス: Link先を確認
Igor Potapov, Jason Ralph and Theofilos Triommatis(参考訳) ポリゴン型のプラットフォームにp$と、p$以外の静的スポットライトが1つだけあることを想像してみてください。 この問題は、視界を最大化したり、局所化問題の不確実性を制限したりするときに発生する。 より正式には、次の最大被覆問題を定義する:「凸ポリゴン$P$と、所定の中心と内角$\phi$を持つ視野(FOV)を与え、FOVの方向(回転角$\theta$)を見つけ、FOVとP$の交差点が最大面積を持つようにする。 本稿では,最大被覆面を回転視野で解析するための理論的基礎を提供する。 主な課題は、回転角 $\theta$ と固定内側角 $\phi$ を持つ領域 $a_{\phi}(\theta)$ の関数は直接近似できないことである。 関数 $a_{\theta}(\phi)$(制限された内角 $\phi$ と固定方向 $\theta$)の様々な合成によって表現する方法を見つけた。 A_{\theta}(\phi)$ は 2-セクター交叉の特別の場合において解析解を持ち、後に元の問題に対して制限解を与えることを示す。 最適解は実数であるため、視野の方向を精度$\varepsilon$と複雑性$\mathcal{O}(n(\log{n}+(\log{\varepsilon})/\phi)$で近似するアルゴリズムを開発する。

Imagine a polygon-shaped platform $P$ and only one static spotlight outside $P$; which direction should the spotlight face to light most of $P$? This problem occurs in maximising the visibility, as well as in limiting the uncertainty in localisation problems. More formally, we define the following maximum cover problem: "Given a convex polygon $P$ and a Field Of View (FOV) with a given centre and inner angle $\phi$; find the direction (an angle of rotation $\theta$) of the FOV such that the intersection between the FOV and $P$ has the maximum area". In this paper, we provide the theoretical foundation for the analysis of the maximum cover with a rotating field of view. The main challenge is that the function of the area $A_{\phi}(\theta)$, with the angle of rotation $\theta$ and the fixed inner angle $\phi$, cannot be approximated directly. We found an alternative way to express it by various compositions of a function $A_{\theta}(\phi)$ (with a restricted inner angle $\phi$ and a fixed direction $\theta$). We show that $A_{\theta}(\phi)$ has an analytical solution in the special case of a two-sector intersection and later provides a constrictive solution for the original problem. Since the optimal solution is a real number, we develop an algorithm that approximates the direction of the field of view, with precision $\varepsilon$, and complexity $\mathcal{O}(n(\log{n}+(\log{\varepsilon})/\phi))$.
翻訳日:2023-09-28 14:04:29 公開日:2023-09-27
# HPL-ViT:V2Vにおける不均一並列LiDARの統一認識フレームワーク

HPL-ViT: A Unified Perception Framework for Heterogeneous Parallel LiDARs in V2V ( http://arxiv.org/abs/2309.15572v1 )

ライセンス: Link先を確認
Yuhang Liu and Boyi Sun and Yuke Li and Yuzheng Hu and Fei-Yue Wang(参考訳) 次世代のインテリジェントLiDARを開発するため,我々は並列LiDARの新たなフレームワークを提案し,実験プラットフォームDAWN(Digital Artificial World for Natural)にハードウェアプロトタイプを構築した。 LiDARシステムにおける物理空間とデジタル空間の密接な統合を強調しており、ネットワークはサポート対象のコア機能の一つである。 自律運転において、V2V(Vehicle-to-Vehicle)技術は、異なるエージェント間の効率的な情報共有を可能にし、LiDARネットワークの開発を著しく促進する。 しかし、現在の研究は、全ての車両が同一のLiDARを備えており、LiDARのカテゴリや運用周波数の多様性を無視している理想的な状況下で活動している。 本稿では、まずOpenCDAとRSS(Realistic LiDAR Simulation)を用いて、新しい異種LiDARデータセットOPV2V-HPLを構築する。 さらにヘテロジニアスおよび動的シナリオにおけるロバストな特徴融合を目的とした先駆的アーキテクチャであるHPL-ViTを提案する。 グラフアテンション変換を使用して各エージェントのドメイン固有の特徴を抽出し、最終核融合のためのクロスアテンション機構と組み合わせる。 OPV2V-HPLに関する大規模な実験は、HPL-ViTが全ての設定でSOTA(state-of-the-art)性能を達成し、優れた一般化能力を示すことを示した。

To develop the next generation of intelligent LiDARs, we propose a novel framework of parallel LiDARs and construct a hardware prototype in our experimental platform, DAWN (Digital Artificial World for Natural). It emphasizes the tight integration of physical and digital space in LiDAR systems, with networking being one of its supported core features. In the context of autonomous driving, V2V (Vehicle-to-Vehicle) technology enables efficient information sharing between different agents which significantly promotes the development of LiDAR networks. However, current research operates under an ideal situation where all vehicles are equipped with identical LiDAR, ignoring the diversity of LiDAR categories and operating frequencies. In this paper, we first utilize OpenCDA and RLS (Realistic LiDAR Simulation) to construct a novel heterogeneous LiDAR dataset named OPV2V-HPL. Additionally, we present HPL-ViT, a pioneering architecture designed for robust feature fusion in heterogeneous and dynamic scenarios. It uses a graph-attention Transformer to extract domain-specific features for each agent, coupled with a cross-attention mechanism for the final fusion. Extensive experiments on OPV2V-HPL demonstrate that HPL-ViT achieves SOTA (state-of-the-art) performance in all settings and exhibits outstanding generalization capabilities.
翻訳日:2023-09-28 14:03:30 公開日:2023-09-27
# 協調学習型自己回帰型マルチモーダルモデル

Jointly Training Large Autoregressive Multimodal Models ( http://arxiv.org/abs/2309.15564v1 )

ライセンス: Link先を確認
Emanuele Aiello, Lili Yu, Yixin Nie, Armen Aghajanyan, Barlas Oguz(参考訳) 近年、言語とテキストから画像への大規模事前学習の進歩は、機械学習の分野に革命をもたらした。 しかし、シームレスなマルチモーダル出力を生成することのできる単一のロバストモデルにこれらの2つのモダリティを統合することは大きな課題である。 このギャップに対処するために、既存のテキストと画像生成モデルを体系的に融合するモジュラーアプローチであるJoint Autoregressive Mixture(JAM)フレームワークを提案する。 また,混合モーダル生成タスク用に調整した,データ効率の良い命令チューニング戦略を提案する。 最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示し、この目的のために明示的に設計された最初のモデルを示す。

In recent years, advances in the large-scale pretraining of language and text-to-image models have revolutionized the field of machine learning. Yet, integrating these two modalities into a single, robust model capable of generating seamless multimodal outputs remains a significant challenge. To address this gap, we present the Joint Autoregressive Mixture (JAM) framework, a modular approach that systematically fuses existing text and image generation models. We also introduce a specialized, data-efficient instruction-tuning strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned model demonstrates unparalleled performance in generating high-quality multimodal outputs and represents the first model explicitly designed for this purpose.
翻訳日:2023-09-28 14:03:04 公開日:2023-09-27
# 画像復元のためのガイド周波数損失

Guided Frequency Loss for Image Restoration ( http://arxiv.org/abs/2309.15563v1 )

ライセンス: Link先を確認
Bilel Benjdiraa, Anas M. Alia, Anis Koubaa(参考訳) 近年,画像復元が著しい進歩を遂げている。 多くの生成モデルは、既知の画像の復元に適応している。 しかし、周波数領域からの利益に対する関心は、画像合成の特別な場合において主要な要因であるにもかかわらず、十分に検討されていない。 本研究では,画像の周波数コンテンツを空間内容と並行してバランスよく学習することを支援する誘導周波数損失(gfl)を提案する。 学習効率を高めるために並行して働く3つの主要なコンポーネント、すなわち、charbonnierコンポーネント、ラプラシアピラミッドコンポーネント、漸進周波数コンポーネントを集約する。 我々はスーパーレゾリューションとDenoisingタスクでGFLをテストした。 それぞれに3つの異なるデータセットと3つの異なるアーキテクチャを使いました。 その結果、ほとんどの実験でGFL損失はPSNR測定値を改善した。 また、SwinIRとSRGANの両方でスーパーレゾリューションモデルのトレーニングを改善した。 さらに, 試料中の高周波数成分の確率性が低下するため, GFL損失の有効性は, 制約データにより向上した。

Image Restoration has seen remarkable progress in recent years. Many generative models have been adapted to tackle the known restoration cases of images. However, the interest in benefiting from the frequency domain is not well explored despite its major factor in these particular cases of image synthesis. In this study, we propose the Guided Frequency Loss (GFL), which helps the model to learn in a balanced way the image's frequency content alongside the spatial content. It aggregates three major components that work in parallel to enhance learning efficiency; a Charbonnier component, a Laplacian Pyramid component, and a Gradual Frequency component. We tested GFL on the Super Resolution and the Denoising tasks. We used three different datasets and three different architectures for each of them. We found that the GFL loss improved the PSNR metric in most implemented experiments. Also, it improved the training of the Super Resolution models in both SwinIR and SRGAN. In addition, the utility of the GFL loss increased better on constrained data due to the less stochasticity in the high frequencies' components among samples.
翻訳日:2023-09-28 14:02:51 公開日:2023-09-27
# マルコフジャンプ過程の期待伝播に対するエントロピーマッチング

Entropic Matching for Expectation Propagation of Markov Jump Processes ( http://arxiv.org/abs/2309.15604v1 )

ライセンス: Link先を確認
Bastian Alt and Heinz Koeppl(参考訳) 本稿では, マルコフジャンププロセスによって記述された離散状態空間過程において, しばしば難解である潜在連続時間確率過程の統計的推論の問題を扱う。 この問題を克服するために,よく知られた期待伝達アルゴリズムに組み込むことができるエントロピーマッチングフレームワークに基づく新しい扱いやすい推論手法を提案する。 簡単な近似分布の族に対して閉形式結果を提供することにより,本手法の有効性を実証し,システム生物学において重要なモデリングツールである化学反応ネットワークの一般クラスに適用する。 さらに、近似予測最大化法を用いて、基本パラメータの点推定のための閉形式式を導出する。 確率的ロットカ・ボルタラの例を含む様々な化学反応ネットワークインスタンス化における本手法の性能を評価し,その限界と今後の改善の可能性について考察した。 提案手法は,複雑な連続時間ベイズ推定問題に対して有望な方向を与える。

This paper addresses the problem of statistical inference for latent continuous-time stochastic processes, which is often intractable, particularly for discrete state space processes described by Markov jump processes. To overcome this issue, we propose a new tractable inference scheme based on an entropic matching framework that can be embedded into the well-known expectation propagation algorithm. We demonstrate the effectiveness of our method by providing closed-form results for a simple family of approximate distributions and apply it to the general class of chemical reaction networks, which are a crucial tool for modeling in systems biology. Moreover, we derive closed form expressions for point estimation of the underlying parameters using an approximate expectation maximization procedure. We evaluate the performance of our method on various chemical reaction network instantiations, including a stochastic Lotka-Voltera example, and discuss its limitations and potential for future improvements. Our proposed approach provides a promising direction for addressing complex continuous-time Bayesian inference problems.
翻訳日:2023-09-28 13:53:58 公開日:2023-09-27
# 最適輸送正規化による多タスク強化学習における蒸留知識

Distill Knowledge in Multi-task Reinforcement Learning with Optimal-Transport Regularization ( http://arxiv.org/abs/2309.15603v1 )

ライセンス: Link先を確認
Bang Giang Le, Viet Cuong Ta(参考訳) マルチタスク強化学習では、他の異なるタスクから知識を伝達することで、トレーニングエージェントのデータ効率を向上させることができる。 なぜなら、異なるタスクからの経験は、通常、特定のタスク目標に偏っているからです。 伝統的な手法は、あるタスクから他のタスクへの知識の移動を安定化するために、Kulback-Leibler正規化に依存する。 本研究では,Kulback-Leiblerの分岐を,新しい輸送型正規化に置き換える方向について検討する。 シンクホーン写像を用いることで、タスクの状態分布間の最適輸送距離を近似することができる。 そして、その距離を償還報酬として利用し、共有情報の量を定式化する。 提案手法の有効性を検証するために,複数のグリッドベースのナビゲーションマルチゴールのフレームワークを実験した。 その結果、最適輸送に基づく報酬は、エージェントの学習プロセスを高速化し、マルチタスク学習におけるいくつかのベースラインを上回ります。

In multi-task reinforcement learning, it is possible to improve the data efficiency of training agents by transferring knowledge from other different but related tasks. Because the experiences from different tasks are usually biased toward the specific task goals. Traditional methods rely on Kullback-Leibler regularization to stabilize the transfer of knowledge from one task to the others. In this work, we explore the direction of replacing the Kullback-Leibler divergence with a novel Optimal transport-based regularization. By using the Sinkhorn mapping, we can approximate the Optimal transport distance between the state distribution of tasks. The distance is then used as an amortized reward to regularize the amount of sharing information. We experiment our frameworks on several grid-based navigation multi-goal to validate the effectiveness of the approach. The results show that our added Optimal transport-based rewards are able to speed up the learning process of agents and outperforms several baselines on multi-task learning.
翻訳日:2023-09-28 13:53:42 公開日:2023-09-27
# 資源拘束型X線脅威検出のためのTiny YOLOの検討

A Study on Tiny YOLO for Resource Constrained Xray Threat Detection ( http://arxiv.org/abs/2309.15601v1 )

ライセンス: Link先を確認
Raghav Ambati, Ayon Borthakur(参考訳) 本稿では,X線セキュリティ画像データからThreat Objectsを検出するために,エッジデバイスに適した複数のネットを実装し,解析する。 ディープラーニング技術を適用してこの問題を自動解決する研究が進行中である。 我々は,小型のYOLOv7モデルにおいて,スパイキング活性化関数のアクティベーションで期待される変換誤差をゼロにする代替活性化関数を利用する。 この小型YOLOのQCFSバージョンは、超低レイテンシと高効率SNNアーキテクチャの活性化を再現し、もう1つのオープンソースのXRay Threat検出データセットであるCLCXrayの最先端性能を達成する。 また、QCFSネットワークをスパイキングネットワークに変換することにより、スパイキングYOLOネットワークの性能も解析する。

This paper implements and analyses multiple nets to determine their suitability for edge devices to solve the problem of detecting Threat Objects from X-ray security imaging data. There has been ongoing research on applying Deep Learning techniques to solve this problem automatedly. We utilize an alternative activation function calculated to have zero expected conversion error with the activation of a spiking activation function, in the our tiny YOLOv7 model. This QCFS version of the tiny YOLO replicates the activation of ultra-low latency and high-efficiency SNN architecture and achieves state-of-the-art performance on CLCXray which is another open-source XRay Threat Detection dataset, hence making improvements in the field of using spiking for object detection. We also analyze the performance of a Spiking YOLO network by converting our QCFS network into a Spiking Network.
翻訳日:2023-09-28 13:53:27 公開日:2023-09-27
# OceanBench:海面高度版

OceanBench: The Sea Surface Height Edition ( http://arxiv.org/abs/2309.15599v1 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Quentin Febvre, Anastasia Gorbunova, Sammy Metref, Maxime Ballarotta, Julien Le Sommer, Ronan Fablet(参考訳) 海洋は人間の活動に大きな影響を与え、気候規制において重要な役割を果たしている。 衛星リモートセンシングデータの出現により、過去数十年間で我々の理解は向上し、海面高度(SSH)のような地球上の重要な量を捉えることが可能になった。 しかし、海洋衛星データは、その空間と不規則なサンプリング、信号の複雑さ、ノイズによる情報抽出の課題を示す。 機械学習(ML)技術は、大規模で複雑な信号を扱う能力を示している。 したがって、MLモデルが海洋衛星データに含まれる情報を利用する機会が得られます。 しかし、データ表現と関連する評価指標が応用MLの成功を決定するための決定要因となる。 生の観測データからML対応状態、モデル出力から解釈可能な量への処理ステップは、ドメインの専門知識を必要とするため、ML研究者にとって重要な障壁となる。 OceanBenchは、ドメインエキスパート標準に準拠した標準化された処理ステップを提供する統一フレームワークである。 ML研究者がモデルをベンチマークするために、プラグアンドプレイのデータと事前設定されたパイプライン、そして、研究者がタスクのためにパイプラインをカスタマイズおよび拡張するための透過的な設定可能なフレームワークを提供する。 本研究では,SSH補間問題に特化した第1版を通じて,OceanBenchフレームワークを実演する。 本研究では,衛星データシミュレーションによる長期観測,マルチモーダル・マルチセンサー融合問題,実海衛星観測へのトランスファーラーニングのためのデータセットとml対応ベンチマークパイプラインを提供する。 OceanBenchフレームワークはgithub.com/jejjohnson/oceanbenchで、データセットレジストリはgithub.com/quentinf00/oceanbench-data-registryで利用できる。

The ocean profoundly influences human activities and plays a critical role in climate regulation. Our understanding has improved over the last decades with the advent of satellite remote sensing data, allowing us to capture essential quantities over the globe, e.g., sea surface height (SSH). However, ocean satellite data presents challenges for information extraction due to their sparsity and irregular sampling, signal complexity, and noise. Machine learning (ML) techniques have demonstrated their capabilities in dealing with large-scale, complex signals. Therefore we see an opportunity for ML models to harness the information contained in ocean satellite data. However, data representation and relevant evaluation metrics can be the defining factors when determining the success of applied ML. The processing steps from the raw observation data to a ML-ready state and from model outputs to interpretable quantities require domain expertise, which can be a significant barrier to entry for ML researchers. OceanBench is a unifying framework that provides standardized processing steps that comply with domain-expert standards. It provides plug-and-play data and pre-configured pipelines for ML researchers to benchmark their models and a transparent configurable framework for researchers to customize and extend the pipeline for their tasks. In this work, we demonstrate the OceanBench framework through a first edition dedicated to SSH interpolation challenges. We provide datasets and ML-ready benchmarking pipelines for the long-standing problem of interpolating observations from simulated ocean satellite data, multi-modal and multi-sensor fusion issues, and transfer-learning to real ocean satellite observations. The OceanBench framework is available at github.com/jejjohnson/oceanbench and the dataset registry is available at github.com/quentinf00/oceanbench-data-registry.
翻訳日:2023-09-28 13:53:09 公開日:2023-09-27
# PolarNet: 言語誘導型ロボットマニピュレーションのための3Dポイントクラウド

PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation ( http://arxiv.org/abs/2309.15596v1 )

ライセンス: Link先を確認
Shizhe Chen, Ricardo Garcia, Cordelia Schmid, Ivan Laptev(参考訳) 自然言語に基づく操作タスクをロボットが理解し、実行する能力は、ロボット工学の長期的な目標である。 言語誘導操作の主流となるアプローチは、多視点カメラの組み合わせと正確な3D位置と関係の推測に困難に直面している2D画像表現を用いる。 これらの制約に対処するため,言語誘導操作のためのPolarNetと呼ばれる3Dポイントクラウドベースのポリシーを提案する。 慎重に設計されたポイントクラウド入力、効率的なポイントクラウドエンコーダ、マルチモーダルトランスフォーマーを利用して、3Dポイントクラウド表現を学び、アクション予測のための言語命令と統合する。 polarnetはrlbenchベンチマークで実施された様々な実験で効率的で効率的なことが示されている。 シングルタスクとマルチタスクの学習において、最先端の2Dおよび3Dアプローチより優れている。 また、実際のロボットで有望な結果が得られる。

The ability for robots to comprehend and execute manipulation tasks based on natural language instructions is a long-term goal in robotics. The dominant approaches for language-guided manipulation use 2D image representations, which face difficulties in combining multi-view cameras and inferring precise 3D positions and relationships. To address these limitations, we propose a 3D point cloud based policy called PolarNet for language-guided manipulation. It leverages carefully designed point cloud inputs, efficient point cloud encoders, and multimodal transformers to learn 3D point cloud representations and integrate them with language instructions for action prediction. PolarNet is shown to be effective and data efficient in a variety of experiments conducted on the RLBench benchmark. It outperforms state-of-the-art 2D and 3D approaches in both single-task and multi-task learning. It also achieves promising results on a real robot.
翻訳日:2023-09-28 13:52:42 公開日:2023-09-27
# エキシトン-ポーラリトン凝縮:フーリエニューラルオペレーターアプローチ

Exciton-Polariton Condensates: A Fourier Neural Operator Approach ( http://arxiv.org/abs/2309.15593v1 )

ライセンス: Link先を確認
Surya T. Sathujoda, Yuan Wang, Kanishk Gandhi(参考訳) 過去10年間の半導体製造の進歩は、エキシトン・ポラリトン凝縮によって駆動される全光学デバイスに関する広範な研究を触媒している。 トランジスタを含むこれらの装置の予備的検証は、環境条件下においても奨励効果を示す。 しかし、大規模な応用には依然として大きな課題が残っており、安定するために長い時間を要する複雑な非線形系をシミュレートするために使用できる堅牢な解法がない。 このニーズに対処するため,機械学習に基づくフーリエニューラル演算子の応用を提案し,グロス・ピタエフスキー方程式と余剰エキシトンレート方程式の解を求める。 この研究は、ニューラル演算子のエキシトン-ポラリトン凝縮系への最初の直接的応用である。 提案手法は,CUDAベースのGPU解法よりも1000倍近い精度で最終状態の解を予測できることを示す。 さらに、これは実験データを統合することによって、全光学チップ設計ワークフローの潜在的な道を開く。

Advancements in semiconductor fabrication over the past decade have catalyzed extensive research into all-optical devices driven by exciton-polariton condensates. Preliminary validations of such devices, including transistors, have shown encouraging results even under ambient conditions. A significant challenge still remains for large scale application however: the lack of a robust solver that can be used to simulate complex nonlinear systems which require an extended period of time to stabilize. Addressing this need, we propose the application of a machine-learning-based Fourier Neural Operator approach to find the solution to the Gross-Pitaevskii equations coupled with extra exciton rate equations. This work marks the first direct application of Neural Operators to an exciton-polariton condensate system. Our findings show that the proposed method can predict final-state solutions to a high degree of accuracy almost 1000 times faster than CUDA-based GPU solvers. Moreover, this paves the way for potential all-optical chip design workflows by integrating experimental data.
翻訳日:2023-09-28 13:52:28 公開日:2023-09-27
# pulsar分類:量子畳み込みニューラルネットワークと量子サポートベクターマシンの比較

Pulsar Classification: Comparing Quantum Convolutional Neural Networks and Quantum Support Vector Machines ( http://arxiv.org/abs/2309.15592v1 )

ライセンス: Link先を確認
Donovan Slabbert, Matt Lourens and Francesco Petruccione(参考訳) 量子カーネル支援支援ベクトルマシン(QSVM)と量子畳み込みニューラルネットワーク(QCNN)という、よく知られた量子機械学習技術がパルサーのバイナリ分類に適用されている。 この比較研究では、両方の量子法がパルサークラスラベルを8つの異なる特徴に接続するHTRU-2データセットの効果的な分類に成功していることをシミュレーションで示している。 QCNNは、トレーニングと予測に要する時間に関してQSVMよりも優れていますが、現在のNISQ時代のデバイスが考慮され、比較に含まれるノイズが優先されます。 QSVMは、両方のメソッドを評価するためにパフォーマンスメトリクスを使用する場合、QCNNよりも全体的なパフォーマンスも向上する。 古典的手法は量子的アプローチと比較するためのベンチマークとして実装されている。

Well-known quantum machine learning techniques, namely quantum kernel assisted support vector machines (QSVMs) and quantum convolutional neural networks (QCNNs), are applied to the binary classification of pulsars. In this comparitive study it is illustrated with simulations that both quantum methods successfully achieve effective classification of the HTRU-2 data set that connects pulsar class labels to eight separate features. QCNNs outperform the QSVMs with respect to time taken to train and predict, however, if the current NISQ era devices are considered and noise included in the comparison, then QSVMs are preferred. QSVMs also perform better overall compared to QCNNs when performance metrics are used to evaluate both methods. Classical methods are also implemented to serve as benchmark for comparison with the quantum approaches.
翻訳日:2023-09-28 13:52:14 公開日:2023-09-27
# 経路積分形式における高荷電イオンのエネルギー準位に対する自己エネルギー補正

Self-energy correction to energy levels of highly charged ions in a path integral formalism ( http://arxiv.org/abs/2309.15590v1 )

ライセンス: Link先を確認
Sreya Banerjee and Zolt\'an Harman(参考訳) 結合電子のエネルギー準位に対する自己エネルギー補正はパス積分の枠組みで計算される。 我々は関数積分の手法を用いて、シュウィンガー・ダイソン方程式 (sde) の形でフルフェルミオンプロパゲータに到達する。 全フェルミオンSDEから自己エネルギー補正プロパゲータを特定し、スペクトル関数の極からエネルギーシフトを求める。 数値計算は複素輪郭積分と基底関数のB-スプライン表現を用いて行う。 現代の質量分析法で観測可能なラムシフトを持つイオンを同定する。

Self-energy corrections to the energy levels of bound electrons are calculated in the framework of path integrals. We arrive at the full fermion propagator, using methods of functional integrals, in the form of Schwinger-Dyson equation (SDE). From the full fermion SDE, the self-energy corrected propagator is identified and the energy shift is obtained from the poles of the spectral function. The numerical calculations are performed using complex contour integrals and the B-spline representation of basis functions. We identify ions with Lamb shifts observable via modern mass spectrometric methods.
翻訳日:2023-09-28 13:52:01 公開日:2023-09-27
# 腫瘍, 研究室, 種間のドメイン一般化 -mitosis domain generalization challenge 2022年版より-

Domain generalization across tumor types, laboratories, and species -- insights from the 2022 edition of the Mitosis Domain Generalization Challenge ( http://arxiv.org/abs/2309.15589v1 )

ライセンス: Link先を確認
Marc Aubreville, Nikolas Stathonikos, Taryn A. Donovan, Robert Klopfleisch, Jonathan Ganz, Jonas Ammeling, Frauke Wilm, Mitko Veta, Samir Jabari, Markus Eckstein, Jonas Annuscheit, Christian Krumnow, Engin Bozaba, Sercan Cayir, Hongyan Gu, Xiang 'Anthony' Chen, Mostafa Jahanifar, Adam Shephard, Satoshi Kondo, Satoshi Kasai, Sujatha Kotte, VG Saipradeep, Maxime W. Lafarge, Viktor H. Koelzer, Ziyue Wang, Yongbing Zhang, Sen Yang, Xiyue Wang, Katharina Breininger, Christof A. Bertram(参考訳) 病理組織学的腫瘍標本における有糸分裂像の認識は患者の予後評価に極めて関連している。 この課題は、画像表現のシフトによるアルゴリズム性能の低下とともに、アルゴリズムや人間の専門家にとっても困難である。 異なる腫瘍タイプで評価を行う場合、異なるデジタル化装置を用いて画像を取得する場合、または異なる実験室で標本を作成する場合、かなりの共変量シフトが発生する。 この観察は、2022年のミトーシス領域一般化(MIDOG 2022)の発端となった。 この課題は、6つの異なるドメインの組織学的腫瘍像を注釈し、10つの独立したドメインの9人のチャレンジ参加者による有糸分裂型人物検出のためのアルゴリズム的アプローチを評価した。 3つの専門的なコンセンサスと、独立した免疫組織化学によるラベルセットの2つの方法が確立された。 この研究は、課題タスク、参加者が採用するアルゴリズム戦略、そしてその成功に寄与する潜在的な要因の概要を示している。 トップパフォーマンスチームのF_1$スコアは0.764で、今日のディープラーニングベースの認識パイプラインでは、さまざまな腫瘍ドメインにわたるドメインの一般化が可能であることを要約します。 免疫組織化学補助基準に対して評価すると、すべての方法がリコールスコアを低下させたが、ランキングの参加者の順にわずかな変化しかなかった。

Recognition of mitotic figures in histologic tumor specimens is highly relevant to patient outcome assessment. This task is challenging for algorithms and human experts alike, with deterioration of algorithmic performance under shifts in image representations. Considerable covariate shifts occur when assessment is performed on different tumor types, images are acquired using different digitization devices, or specimens are produced in different laboratories. This observation motivated the inception of the 2022 challenge on MItosis Domain Generalization (MIDOG 2022). The challenge provided annotated histologic tumor images from six different domains and evaluated the algorithmic approaches for mitotic figure detection provided by nine challenge participants on ten independent domains. Ground truth for mitotic figure detection was established in two ways: a three-expert consensus and an independent, immunohistochemistry-assisted set of labels. This work represents an overview of the challenge tasks, the algorithmic strategies employed by the participants, and potential factors contributing to their success. With an $F_1$ score of 0.764 for the top-performing team, we summarize that domain generalization across various tumor domains is possible with today's deep learning-based recognition pipelines. When assessed against the immunohistochemistry-assisted reference standard, all methods resulted in reduced recall scores, but with only minor changes in the order of participants in the ranking.
翻訳日:2023-09-28 13:51:51 公開日:2023-09-27
# 文レベル重み付けとラベル拡張を用いたプロトタイプネットワークを用いたFew-Shot Multi-Label Aspect Category Detection

Few-Shot Multi-Label Aspect Category Detection Utilizing Prototypical Network with Sentence-Level Weighting and Label Augmentation ( http://arxiv.org/abs/2309.15588v1 )

ライセンス: Link先を確認
Zeyu Wang, Mizuho Iwaihara(参考訳) マルチラベルアスペクトカテゴリ検出は、与えられた文で発生する複数のアスペクトカテゴリを検出することを目的としている。 アスペクトカテゴリ検出は限られたデータセットとデータのスパーシティに苦しむことが多いため、少数のアスペクトカテゴリ検出には注意機構を備えたプロトタイプネットワークが適用されている。 それにもかかわらず、これまで使われたプロトタイプネットワークのほとんどは、サポートセット内のすべてのインスタンスの平均値を取ることでプロトタイプを計算する。 これはマルチラベルアスペクトカテゴリ検出におけるインスタンス間のバリエーションを無視しているようだ。 また、ラベルテキスト情報を利用して注意機構を強化する作品もいくつかある。 しかし、ラベルのテキスト情報は、しばしば短くて限定的であり、カテゴリを識別するのに十分なものではない。 本稿では,まず,サポートセットインスタンス毎に単語レベルの雑音を軽減するために,拡張ラベル情報と共にサポートセット注意を導入する。 さらに,重み付け平均化によってプロトタイプを計算するために,サポートセットの各インスタンスに異なる重みを与える文レベルの注意機構を用いる。 最後に、計算されたプロトタイプはクエリインスタンスと連携してクエリの注目度を計算し、クエリセットからのノイズを除去している。 Yelpデータセットの実験結果から,提案手法は有用であり,4つのシナリオですべてのベースラインを上回ります。

Multi-label aspect category detection is intended to detect multiple aspect categories occurring in a given sentence. Since aspect category detection often suffers from limited datasets and data sparsity, the prototypical network with attention mechanisms has been applied for few-shot aspect category detection. Nevertheless, most of the prototypical networks used so far calculate the prototypes by taking the mean value of all the instances in the support set. This seems to ignore the variations between instances in multi-label aspect category detection. Also, several related works utilize label text information to enhance the attention mechanism. However, the label text information is often short and limited, and not specific enough to discern categories. In this paper, we first introduce support set attention along with the augmented label information to mitigate the noise at word-level for each support set instance. Moreover, we use a sentence-level attention mechanism that gives different weights to each instance in the support set in order to compute prototypes by weighted averaging. Finally, the calculated prototypes are further used in conjunction with query instances to compute query attention and thereby eliminate noises from the query set. Experimental results on the Yelp dataset show that our proposed method is useful and outperforms all baselines in four different scenarios.
翻訳日:2023-09-28 13:51:27 公開日:2023-09-27
# 可変抑制によるシャープネス認識最適化の強化

Enhancing Sharpness-Aware Optimization Through Variance Suppression ( http://arxiv.org/abs/2309.15639v1 )

ライセンス: Link先を確認
Bingcong Li, Georgios B. Giannakis(参考訳) シャープネスを意識した最小化(SAM)は、大きなデータ拡張がなくても、ディープニューラルネットワークの一般化を向上する上でのメリットを十分に文書化している。 一般化能力を高める「平坦なミニマ」近傍の損失関数の幾何学を取り入れたSAMは、近隣の摂動パラメータによる最大損失を最小化して「平坦な谷」を求める。 損失関数の鋭さを考慮に入れることは重要であるが、このような「過密な敵」は一般化の最も外側のレベルを縮めることができる。 この貢献の新しいアプローチは、そのような親和性を避けるために分散抑制(vasso)を通じて敵の安定化を促進する。 VaSSOの証明可能な安定性は、画像分類や機械翻訳を含むモデルに依存しないタスクにおいてSAMよりも数値的に改善されている。 さらに、実験により、VaSSOはSAMを高レベルのラベルノイズに対して堅牢性で支持することを確認した。

Sharpness-aware minimization (SAM) has well documented merits in enhancing generalization of deep neural networks, even without sizable data augmentation. Embracing the geometry of the loss function, where neighborhoods of 'flat minima' heighten generalization ability, SAM seeks 'flat valleys' by minimizing the maximum loss caused by an adversary perturbing parameters within the neighborhood. Although critical to account for sharpness of the loss function, such an 'over-friendly adversary' can curtail the outmost level of generalization. The novel approach of this contribution fosters stabilization of adversaries through variance suppression (VaSSO) to avoid such friendliness. VaSSO's provable stability safeguards its numerical improvement over SAM in model-agnostic tasks, including image classification and machine translation. In addition, experiments confirm that VaSSO endows SAM with robustness against high levels of label noise.
翻訳日:2023-09-28 13:45:57 公開日:2023-09-27
# FRS-Nets: 網膜血管セグメンテーションのためのフーリエパラメータ化回転とスケール同変ネットワーク

FRS-Nets: Fourier Parameterized Rotation and Scale Equivariant Networks for Retinal Vessel Segmentation ( http://arxiv.org/abs/2309.15638v1 )

ライセンス: Link先を確認
Zihong Sun, Qi Xie and Deyu Meng(参考訳) 翻訳等価性により、畳み込みニューラルネットワーク(CNN)は網膜血管セグメンテーションにおいて大きな成功を収めた。 しかし、血管形態の他の対称性は、回転やスケール対称性のようなcnnによって特徴づけられていない。 さらに,CNNに等価性を組み込み,網膜血管セグメンテーションの精度要求を実現するために,フーリエのパラメータ化と回転とスケーリングに等価な新しい畳み込み演算子 (FRS-Conv) を構築した。 具体的には、畳み込みフィルタを任意に高精度に変換できる新しいパラメータ化方式を最初に採用する。 第二に、回転とスケール同変の畳み込み写像の定式化を導出する。 最後に、提案した定式化に従ってFRS-Convを構築し、U-NetとIter-Netの従来の畳み込みフィルタをFRS-Conv(FRS-Nets)に置き換える。 比較した手法をすべて忠実に再現し,データセット内およびデータセット横断設定の3つの公開データセットについて包括的な実験を行う。 対応するベースラインのパラメータが13.9%に過ぎず、FRS-Netは最先端のパフォーマンスを達成し、比較したすべてのメソッドを著しく上回っている。 FRS-Netsの顕著な精度、一般化、臨床応用の可能性を示す。

With translation equivariance, convolution neural networks (CNNs) have achieved great success in retinal vessel segmentation. However, some other symmetries of the vascular morphology are not characterized by CNNs, such as rotation and scale symmetries. To embed more equivariance into CNNs and achieve the accuracy requirement for retinal vessel segmentation, we construct a novel convolution operator (FRS-Conv), which is Fourier parameterized and equivariant to rotation and scaling. Specifically, we first adopt a new parameterization scheme, which enables convolutional filters to arbitrarily perform transformations with high accuracy. Secondly, we derive the formulations for the rotation and scale equivariant convolution mapping. Finally, we construct FRS-Conv following the proposed formulations and replace the traditional convolution filters in U-Net and Iter-Net with FRS-Conv (FRS-Nets). We faithfully reproduce all compared methods and conduct comprehensive experiments on three public datasets under both in-dataset and cross-dataset settings. With merely 13.9% parameters of corresponding baselines, FRS-Nets have achieved state-of-the-art performance and significantly outperform all compared methods. It demonstrates the remarkable accuracy, generalization, and clinical application potential of FRS-Nets.
翻訳日:2023-09-28 13:45:38 公開日:2023-09-27
# 信号データを用いた医療行動認識のための位置・方向認識ワンショット学習

Position and Orientation-Aware One-Shot Learning for Medical Action Recognition from Signal Data ( http://arxiv.org/abs/2309.15635v1 )

ライセンス: Link先を確認
Leiyu Xie, Yuxing Yang, Zeyu Fu, Syed Mohsen Naqvi(参考訳) 本研究では,信号データから医療行動認識を行うための位置・方向認識型ワンショット学習フレームワークを提案する。 提案手法は2段階から成り,各段階は信号レベル画像生成(sig),クロスアテンション(csa),動的時間ワーピング(dtw)モジュール,提案するプライバシ保存位置と方向特徴との情報融合を含む。 提案手法は,生の骨格データをプライバシ保護機能に変換してトレーニングを行う。 CsAモジュールは、医療行動認知バイアスの低減と、同様の医療行動に関連する問題に対処することを目的とした、特定の行動ごとに重要な人体部分に焦点を当てるネットワークのガイドとして開発された。 さらに、DTWモジュールはインスタンス間の時間的ミスマッチを最小限に抑え、モデル性能をさらに改善するために使用される。 さらに,提案するプライバシ保護指向レベル特徴を,医療行動認識性能の向上のために,両段階における位置レベル特徴の補助に利用する。 広く普及したntu rgb+d 60, ntu rgb+d 120, pku-mmdデータセットの広範な実験結果から, 一般的なデータセット分割法を2.7%, 6.2%, および4.1%で上回っている。

In this work, we propose a position and orientation-aware one-shot learning framework for medical action recognition from signal data. The proposed framework comprises two stages and each stage includes signal-level image generation (SIG), cross-attention (CsA), dynamic time warping (DTW) modules and the information fusion between the proposed privacy-preserved position and orientation features. The proposed SIG method aims to transform the raw skeleton data into privacy-preserved features for training. The CsA module is developed to guide the network in reducing medical action recognition bias and more focusing on important human body parts for each specific action, aimed at addressing similar medical action related issues. Moreover, the DTW module is employed to minimize temporal mismatching between instances and further improve model performance. Furthermore, the proposed privacy-preserved orientation-level features are utilized to assist the position-level features in both of the two stages for enhancing medical action recognition performance. Extensive experimental results on the widely-used and well-known NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets all demonstrate the effectiveness of the proposed method, which outperforms the other state-of-the-art methods with general dataset partitioning by 2.7%, 6.2% and 4.1%, respectively.
翻訳日:2023-09-28 13:45:15 公開日:2023-09-27
# 熱機関から抽出したハーネスエネルギーと電荷量子電池

Harnessing energy extracted from heat engines to charge quantum batteries ( http://arxiv.org/abs/2309.15634v1 )

ライセンス: Link先を確認
Debarupa Saha, Aparajita Bhattacharyya, Kornikar Sen and Ujjwal Sen(参考訳) 本研究では,2段量子電池の充電におけるクエット作動物質を用いた3ストロークおよび2ストローク熱機関の性能について検討する。 まず, 熱機関を作業方法によって2つのグループに分類する。 最初のタイプの熱エンジン、シーケンシャルエンジンは、3つの異なるストローク、ヴィズ、熱、仕事、冷たいストロークを通して進化する。 第2のエンジンである同時エンジンでは、全ての3つのイベントが1ストロークで同時に発生し、その後追加のストロークで作業物質、すなわち冷水浴で加熱される。 さらに, この2種類のエンジンを, 作動物質と浴槽, または電池の相互作用の種類に応じて2つのクラスに分類し, システムバス相互作用がクトリトの2つのエネルギー準位間の集団遷移を誘発し, 選択的遷移のみを具現化する分断されたエンジンを具現化する。 これら4種類の熱エンジンについて検討し, 作動物質による作業, 量子電池による電荷蓄積率, エンジンの効率について検討した。 帯電方式の比較を行った結果, 逐次出力熱エンジンが最も有利であり, 単位効率を提供し, 最大エネルギーを量子電池に移すことができることがわかった。 他の3つのエンジンから得られる利益のランキングは、関心の量に依存する。

We explore the performance of three- and two-stroke heat engines with a qutrit working substance in charging two-level quantum batteries. We first classify the heat engines into two groups depending on their working methods. The first type of heat engine, the sequential engine, evolves through three distinct strokes, viz., heat, work, and cold strokes. In the second kind of engine, a simultaneous engine, all the three events are made to occur simultaneously in one stroke, followed by an additional stroke to thermalize the working substance, i.e., the qutrit with a cold bath. We further categorize these two types of engines into two classes depending on the type of interaction between the working substance and the baths or the battery, viz., out-and-out engines, where the system bath interactions can invoke population transitions between any two energy levels of the qutrit, and fragmented engines, where only selective transition is materialized. Considering these four types of heat engines, we analyze the work done by the working substance, the percentage of charge accumulated by the quantum battery, and the efficiency of the engine. By drawing a comparison between the charging schemes, we find that the sequential out-and-out heat engines are most advantageous, providing unit efficiency and transferring the most energy to the quantum battery, in the optimal case. The ranking of the benefits obtained from the other three engines depends on the quantity of interest.
翻訳日:2023-09-28 13:44:47 公開日:2023-09-27
# NLPBench: NLP問題を解決するための大規模言語モデルの評価

NLPBench: Evaluating Large Language Models on Solving NLP Problems ( http://arxiv.org/abs/2309.15630v1 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Lechao Cheng, Pengyuan Zhou, Tianyi Zhou, Irene Li(参考訳) 近年の大規模言語モデル(LLM)の発展により,自然言語処理(NLP)の能力向上が期待されている。 これらの成功にもかかわらず、LPMのNLP問題解決能力に関する多くの研究が続いている。 この領域のギャップを埋めるために,イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。 NLPBenchは、複数のサブクエストが同じ公開情報を共有し、複数の選択、短い答え、数学を含む多様な質問タイプを共有する、コンテキストを持った質問を含んでいる。 GPT-3.5/4, PaLM-2, LLAMA-2などのLCMを主軸として, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略を取り入れた評価を行った。 本研究は, LLAMA-2 (13b) などの小型モデルにおいて, 先進的なプロンプト戦略の有効性が矛盾し, LLM性能を損なう可能性があることを示す。 さらに,LLMの科学的問題解決技術に特有の欠点が指摘され,論理的分解や推論の弱点が顕著に影響した。

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, we present a unique benchmarking dataset, NLPBench, comprising 378 college-level NLP questions spanning various NLP topics sourced from Yale University's prior final exams. NLPBench includes questions with context, in which multiple sub-questions share the same public information, and diverse question types, including multiple choice, short answer, and math. Our evaluation, centered on LLMs such as GPT-3.5/4, PaLM-2, and LLAMA-2, incorporates advanced prompting strategies like the chain-of-thought (CoT) and tree-of-thought (ToT). Our study reveals that the effectiveness of the advanced prompting strategies can be inconsistent, occasionally damaging LLM performance, especially in smaller models like the LLAMA-2 (13b). Furthermore, our manual assessment illuminated specific shortcomings in LLMs' scientific problem-solving skills, with weaknesses in logical decomposition and reasoning notably affecting results.
翻訳日:2023-09-28 13:44:21 公開日:2023-09-27
# グラフ学習によるニューロモルフィックイメージングと分類

Neuromorphic Imaging and Classification with Graph Learning ( http://arxiv.org/abs/2309.15627v1 )

ライセンス: Link先を確認
Pei Zhang, Chutian Wang, Edmund Y. Lam(参考訳) バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。 動きのぼやけや細部を極端に照らすことで、ダイナミックなシーンを撮影できる。 多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。 このような問題に対処するために、いくつかのイベント表現と処理方法が開発されているが、通常は多数のイベントによって駆動されるため、実行時とメモリにかなりのオーバーヘッドが生じる。 本稿では,イベントデータの新しいグラフ表現を提案し,それをグラフトランスフォーマタと結合して正確な神経形態分類を行う。 大規模な実験により,本手法はより優れた結果をもたらし,少数のイベントと限られた計算資源しか利用できない困難な現実的な状況に優れており,移動施設へのニューロモルフィック応用の道を開いた。

Bio-inspired neuromorphic cameras asynchronously record pixel brightness changes and generate sparse event streams. They can capture dynamic scenes with little motion blur and more details in extreme illumination conditions. Due to the multidimensional address-event structure, most existing vision algorithms cannot properly handle asynchronous event streams. While several event representations and processing methods have been developed to address such an issue, they are typically driven by a large number of events, leading to substantial overheads in runtime and memory. In this paper, we propose a new graph representation of the event data and couple it with a Graph Transformer to perform accurate neuromorphic classification. Extensive experiments show that our approach leads to better results and excels at the challenging realistic situations where only a small number of events and limited computational resources are available, paving the way for neuromorphic applications embedded into mobile facilities.
翻訳日:2023-09-28 13:43:54 公開日:2023-09-27
# 衛星画像と空中画像における領域適応道路セグメンテーションのためのトポロジーの活用

Leveraging Topology for Domain Adaptive Road Segmentation in Satellite and Aerial Imagery ( http://arxiv.org/abs/2309.15625v1 )

ライセンス: Link先を確認
Javed Iqbal, Aliza Masood, Waqas Sultani, Mohsen Ali(参考訳) リモートセンシング画像からのセグメンテーションを通じて道路を正確に把握することは、自動運転車や都市開発や計画、持続可能な開発目標達成など、多くの現実世界のアプリケーションにとって有用である。 道路は画像のごく一部に過ぎず、外観、種類、幅、標高、方向等は地理的な地域によって大きく異なる。 さらに、都市化様式、都市計画、自然環境の相違により、道路沿いの地域は様々である。 列車とテスト領域の違いにより、道路分割アルゴリズムは新たな地理的位置への一般化に失敗する。 一般的なドメインアライメントのシナリオとは異なり、道路セグメンテーションにはシーン構造がなく、一般的なドメインアライメント手法は連続性、接続性、滑らか性などのトポロジ的特性を強制できないため、ドメインアライメントが劣化する。 本研究では,リモートセンシング画像における道路セグメンテーションに対するトポロジーを考慮した非教師なし領域適応手法を提案する。 具体的には,地形制約を課す補助課題である道路骨格を予測する。 特にラベルのない対象領域において、道路及び骨格の一貫した予測を強制するため、骨格予測ヘッドと路面セグメンテーションヘッドとで適合性損失が定義される。 さらに,道路と骨格のセグメンテーションヘッド上で,接続性に基づく擬似ラベル改善戦略を用いて,ノイズの多い擬似ラベルをフィルタリングし,穴や不連続を回避する。 ベンチマークデータセットに関する広範な実験は、既存の最先端手法と比較して提案手法の有効性を示している。 具体的には、SpaceNetからDeepGlobeへの適応において、提案されたアプローチは、IoU、F1スコア、APLSでそれぞれ6.6%、6.7%、9.8%の最小マージンで競合する手法を上回っている。

Getting precise aspects of road through segmentation from remote sensing imagery is useful for many real-world applications such as autonomous vehicles, urban development and planning, and achieving sustainable development goals. Roads are only a small part of the image, and their appearance, type, width, elevation, directions, etc. exhibit large variations across geographical areas. Furthermore, due to differences in urbanization styles, planning, and the natural environments; regions along the roads vary significantly. Due to these variations among the train and test domains, the road segmentation algorithms fail to generalize to new geographical locations. Unlike the generic domain alignment scenarios, road segmentation has no scene structure, and generic domain adaptation methods are unable to enforce topological properties like continuity, connectivity, smoothness, etc., thus resulting in degraded domain alignment. In this work, we propose a topology-aware unsupervised domain adaptation approach for road segmentation in remote sensing imagery. Specifically, we predict road skeleton, an auxiliary task to impose the topological constraints. To enforce consistent predictions of road and skeleton, especially in the unlabeled target domain, the conformity loss is defined across the skeleton prediction head and the road-segmentation head. Furthermore, for self-training, we filter out the noisy pseudo-labels by using a connectivity-based pseudo-labels refinement strategy, on both road and skeleton segmentation heads, thus avoiding holes and discontinuities. Extensive experiments on the benchmark datasets show the effectiveness of the proposed approach compared to existing state-of-the-art methods. Specifically, for SpaceNet to DeepGlobe adaptation, the proposed approach outperforms the competing methods by a minimum margin of 6.6%, 6.7%, and 9.8% in IoU, F1-score, and APLS, respectively.
翻訳日:2023-09-28 13:43:40 公開日:2023-09-27
# ヒューマノイドロボットの知覚

Perception for Humanoid Robots ( http://arxiv.org/abs/2309.15616v1 )

ライセンス: Link先を確認
Arindam Roychoudhury, Shahram Khorshidi, Subham Agrawal, Maren Bennewitz(参考訳) Purpose of Review: ヒューマノイドロボット学の分野である知覚は、ロボットが人間や周囲とシームレスに対話できるようにし、安全性、効率、ユーザエクスペリエンスを向上させる上で、基本的な役割を果たす。 本研究では, 視覚, 聴覚, 触覚などのヒューマノイドロボットにおいて, 内部状態, 環境, 物体, 活動の知覚と理解に関する最近の最先端のアプローチを探究し, 様々な知覚形態と技術について検討した。 最近の発見: 内部状態推定は, 主受容的センシングを利用して, 最大アテリオリ定式化に基づくベイズフィルタ法と最適化手法を広範囲に活用する。 外部環境理解の分野では,動的かつ予期せぬ環境変化への頑健さと適応性に重点を置いた新たな研究が,手作りのルールベースのシステムとは対照的に,多センサ融合と機械学習に重点を置いている。 人間のロボットの相互作用は、人間の意図を理解するための文脈情報表現と記憶の重要性を確立した。 要約:本稿はヒューマノイドロボットにおける知覚分野の最近の展開と動向をまとめたものである。 アプリケーションの主な3つの領域は、内部状態推定、外部環境推定、人間のロボットインタラクションである。 各分野におけるセンサの多様性の適用について考察し,近年の重要課題について論じる。

Purpose of Review: The field of humanoid robotics, perception plays a fundamental role in enabling robots to interact seamlessly with humans and their surroundings, leading to improved safety, efficiency, and user experience. This scientific study investigates various perception modalities and techniques employed in humanoid robots, including visual, auditory, and tactile sensing by exploring recent state-of-the-art approaches for perceiving and understanding the internal state, the environment, objects, and human activities. Recent Findings: Internal state estimation makes extensive use of Bayesian filtering methods and optimization techniques based on maximum a-posteriori formulation by utilizing proprioceptive sensing. In the area of external environment understanding, with an emphasis on robustness and adaptability to dynamic, unforeseen environmental changes, the new slew of research discussed in this study have focused largely on multi-sensor fusion and machine learning in contrast to the use of hand-crafted, rule-based systems. Human robot interaction methods have established the importance of contextual information representation and memory for understanding human intentions. Summary: This review summarizes the recent developments and trends in the field of perception in humanoid robots. Three main areas of application are identified, namely, internal state estimation, external environment estimation, and human robot interaction. The applications of diverse sensor modalities in each of these areas are considered and recent significant works are discussed.
翻訳日:2023-09-28 13:43:07 公開日:2023-09-27
# 国際多言語会議用自動言語書き起こしの開発 : エンドツーエンド解法

Developing automatic verbatim transcripts for international multilingual meetings: an end-to-end solution ( http://arxiv.org/abs/2309.15609v1 )

ライセンス: Link先を確認
Akshat Dewan, Michal Ziemski, Henri Meylan, Lorenzo Concina, Bruno Pouliquen(参考訳) 本稿では,全自動会議書記書作成のためのエンドツーエンドソリューションと,各種言語への機械翻訳について述べる。 このツールは、社内で開発された音声テキスト(S2T)と機械翻訳(MT)コンポーネントを使用して、World Intellectual Property Organization (WIPO)で開発された。 高度にカスタマイズされたロバストなシステムを実現するデータ収集と微調整を説明するだけでなく、技術コンポーネントのアーキテクチャと進化を説明した上で、ユーザ側からのビジネスへの影響とメリットを強調する。 また,システムの進化と採用における課題や,新たなアプローチが新たなプロダクトを生み出し,既存のワークフローをカンファレンス管理資料に置き換えた方法についても指摘した。

This paper presents an end-to-end solution for the creation of fully automated conference meeting transcripts and their machine translations into various languages. This tool has been developed at the World Intellectual Property Organization (WIPO) using in-house developed speech-to-text (S2T) and machine translation (MT) components. Beyond describing data collection and fine-tuning, resulting in a highly customized and robust system, this paper describes the architecture and evolution of the technical components as well as highlights the business impact and benefits from the user side. We also point out particular challenges in the evolution and adoption of the system and how the new approach created a new product and replaced existing established workflows in conference management documentation.
翻訳日:2023-09-28 13:42:43 公開日:2023-09-27
# NoSENSE : 鮮明な感度マップを伴わない非旋回心MRI画像再構成

NoSENSE: Learned unrolled cardiac MRI reconstruction without explicit sensitivity maps ( http://arxiv.org/abs/2309.15608v1 )

ライセンス: Link先を確認
Felix Frederik Zimmermann and Andreas Kofler(参考訳) 本稿では, 深部畳み込みニューラルネットワーク(CNN)とアルゴリズムアンロールに基づく複数の受信コイルを用いた高速心MRI画像再構成手法を提案する。 コイル感度マップ(CSM)推定をネットワークコンポーネントとして必要とする既存のMR画像再構成技術とは対照的に,提案手法は明確なCSM推定を回避する。 代わりに、暗黙的に画像のコイル間関係を捉えて学習する。 本手法は,共有潜在情報を持つ一連の新しい学習画像およびk空間ブロックと,特徴変調(フィルム)による取得パラメータへの適応と,コイルワイズデータ一貫性(dc)ブロックからなる。 本手法は,ssim値が34.89,35.56,ssim値0.920,0.942をシネトラックで達成し,miccai stacom cmrxrecon challengeのトラックバリデーション・リーダーボードをそれぞれ4位とした。 コードはhttps://github.com/fzimmermann89/CMRxReconで公開される。

We present a novel learned image reconstruction method for accelerated cardiac MRI with multiple receiver coils based on deep convolutional neural networks (CNNs) and algorithm unrolling. In contrast to many existing learned MR image reconstruction techniques that necessitate coil-sensitivity map (CSM) estimation as a distinct network component, our proposed approach avoids explicit CSM estimation. Instead, it implicitly captures and learns to exploit the inter-coil relationships of the images. Our method consists of a series of novel learned image and k-space blocks with shared latent information and adaptation to the acquisition parameters by feature-wise modulation (FiLM), as well as coil-wise data-consistency (DC) blocks. Our method achieved PSNR values of 34.89 and 35.56 and SSIM values of 0.920 and 0.942 in the cine track and mapping track validation leaderboard of the MICCAI STACOM CMRxRecon Challenge, respectively, ranking 4th among different teams at the time of writing. Code will be made available at https://github.com/fzimmermann89/CMRxRecon
翻訳日:2023-09-28 13:42:28 公開日:2023-09-27
# ヒトキネマティクスによる骨格型ビデオ異常検出

Human Kinematics-inspired Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2309.15662v1 )

ライセンス: Link先を確認
Jian Xiao, Tianyuan Liu, Genlin Ji(参考訳) ビデオにおける人間の異常を検出するための従来のアプローチは、通常、ビデオや骨格データに直接モデルを適用することによって暗黙のモデリングに頼っている。 本稿では,ビデオ異常検出のためのHKVAD(Human Kinematic-inspireed Video Anomaly Detection)という新しいアイデアを導入する。 この視点の有効性と可能性を検証するため, 歩行ストライド, 足底の骨格変位, 首の高さに特異的に焦点をあてて, 骨格ポーズの運動特性を利用するパイロット手法を提案する。 次に, 正規化流れモデルを用いて密度を推定し, 推定密度に基づいて異常を検出する。 キネマティックな特徴の数に基づいて,簡単な3つの手法を考案し,上海技術とUBnormalという,非常に困難な2つの公開データセットの実験を行った。 提案手法は,計算資源を最小化し,その有効性と可能性を検証する。

Previous approaches to detecting human anomalies in videos have typically relied on implicit modeling by directly applying the model to video or skeleton data, potentially resulting in inaccurate modeling of motion information. In this paper, we conduct an exploratory study and introduce a new idea called HKVAD (Human Kinematic-inspired Video Anomaly Detection) for video anomaly detection, which involves the explicit use of human kinematic features to detect anomalies. To validate the effectiveness and potential of this perspective, we propose a pilot method that leverages the kinematic features of the skeleton pose, with a specific focus on the walking stride, skeleton displacement at feet level, and neck level. Following this, the method employs a normalizing flow model to estimate density and detect anomalies based on the estimated density. Based on the number of kinematic features used, we have devised three straightforward variant methods and conducted experiments on two highly challenging public datasets, ShanghaiTech and UBnormal. Our method achieves good results with minimal computational resources, validating its effectiveness and potential.
翻訳日:2023-09-28 13:35:25 公開日:2023-09-27
# Federated Deep Equilibrium Learning:エッジ通信効率のためのコンパクトな共有表現

Federated Deep Equilibrium Learning: A Compact Shared Representation for Edge Communication Efficiency ( http://arxiv.org/abs/2309.15659v1 )

ライセンス: Link先を確認
Long Tan Le, Tuan Dung Nguyen, Tung-Anh Nguyen, Choong Seon Hong, Nguyen H. Tran(参考訳) フェデレートラーニング(FL)は、エッジネットワーク内のノード間のコラボレーションを促進し、データを集中化せずにグローバルモデルをコトレーニングする、卓越した分散学習パラダイムである。 計算をネットワークエッジに移行することで、FLは堅牢でレスポンシブなエッジAIソリューションを提供し、プライバシ保護を強化する。 しかしながら、エッジ環境にディープflモデルをデプロイすることは、通信ボトルネック、データの多様性、メモリ制限などによってしばしば妨げられる。 これらの課題に共同で対処するために、深層平衡学習とコンセンサス最適化を効果的に活用する先駆的なFLフレームワークであるFeDEQを導入し、各ノード固有のパーソナライズされたモデルの導出を可能にする。 我々は,均衡層と従来のニューラルネットワーク層からなる一意なモデル構造について考察する。 ここで、平衡層は、エッジノードがローカル層をパーソナライズするために適応できるグローバルな特徴表現として機能する。 FeDEQのコンパクト性と表現力に基づいて,乗算器コンセンサス最適化(ADMM)の交互方向法に根ざした新しい分散アルゴリズムを提案し,そのスムーズな目的に対する収束性を理論的に確立する。 さまざまなベンチマーク実験により、FeDEQは、トレーニング中の最大4倍の通信サイズと1.5倍のメモリフットプリントのモデルを採用しながら、最先端のパーソナライズされたメソッドに匹敵するパフォーマンスを達成することが示された。

Federated Learning (FL) is a prominent distributed learning paradigm facilitating collaboration among nodes within an edge network to co-train a global model without centralizing data. By shifting computation to the network edge, FL offers robust and responsive edge-AI solutions and enhance privacy-preservation. However, deploying deep FL models within edge environments is often hindered by communication bottlenecks, data heterogeneity, and memory limitations. To address these challenges jointly, we introduce FeDEQ, a pioneering FL framework that effectively employs deep equilibrium learning and consensus optimization to exploit a compact shared data representation across edge nodes, allowing the derivation of personalized models specific to each node. We delve into a unique model structure composed of an equilibrium layer followed by traditional neural network layers. Here, the equilibrium layer functions as a global feature representation that edge nodes can adapt to personalize their local layers. Capitalizing on FeDEQ's compactness and representation power, we present a novel distributed algorithm rooted in the alternating direction method of multipliers (ADMM) consensus optimization and theoretically establish its convergence for smooth objectives. Experiments across various benchmarks demonstrate that FeDEQ achieves performance comparable to state-of-the-art personalized methods while employing models of up to 4 times smaller in communication size and 1.5 times lower memory footprint during training.
翻訳日:2023-09-28 13:35:03 公開日:2023-09-27
# スクリプト対自発対話における会話フィードバックの比較分析

Conversational Feedback in Scripted versus Spontaneous Dialogues: A Comparative Analysis ( http://arxiv.org/abs/2309.15656v1 )

ライセンス: Link先を確認
Ildik\'o Pil\'an, Laurent Pr\'evot, Hendrik Buschmeier, Pierre Lison(参考訳) 映画やテレビの字幕などのスクリプトによる対話は、対話型NLPモデルのトレーニングデータとして広く使われている。 しかし、これらの対話の言語的特徴は、自発的な相互作用のコーパスで観察されるものとは異なる。 この違いは、特にコミュニケーションフィードバックや、バックチャネル、認識要求、明確化要求といった接地現象に顕著である。 このような信号は会話フローの重要な部分を構成することが知られており、対話参加者が進行中の対話に対する認識について相互にフィードバックを提供するために使用される。 本稿では,字幕と自発会話の両方において,このようなコミュニケーションフィードバック現象を定量的に分析する。 英語,フランス語,ドイツ語,ハンガリー語,イタリア語,日本語,ノルウェー語,中国語の対話データに基づいて,語彙統計と分類結果の両方をニューラルダイアログタグで抽出する。 本研究の主な発見は,(1) 会話のフィードバックが自発的な対話よりも字幕で顕著に少ないこと,(2) 字幕では負のフィードバックの割合が高いこと,である。 さらに,大規模言語モデルが生成する対話応答は,自発的対話において明示的に微調整されている場合を除き,基礎となる傾向と同じであり,コミュニケーションフィードバックの発生は比較的少ない。

Scripted dialogues such as movie and TV subtitles constitute a widespread source of training data for conversational NLP models. However, the linguistic characteristics of those dialogues are notably different from those observed in corpora of spontaneous interactions. This difference is particularly marked for communicative feedback and grounding phenomena such as backchannels, acknowledgments, or clarification requests. Such signals are known to constitute a key part of the conversation flow and are used by the dialogue participants to provide feedback to one another on their perception of the ongoing interaction. This paper presents a quantitative analysis of such communicative feedback phenomena in both subtitles and spontaneous conversations. Based on dialogue data in English, French, German, Hungarian, Italian, Japanese, Norwegian and Chinese, we extract both lexical statistics and classification outputs obtained with a neural dialogue act tagger. Two main findings of this empirical study are that (1) conversational feedback is markedly less frequent in subtitles than in spontaneous dialogues and (2) subtitles contain a higher proportion of negative feedback. Furthermore, we show that dialogue responses generated by large language models also follow the same underlying trends and include comparatively few occurrences of communicative feedback, except when those models are explicitly fine-tuned on spontaneous dialogues.
翻訳日:2023-09-28 13:34:36 公開日:2023-09-27
# マルチキュービット制御位相ゲートのためのグループツイリングとノイズ調整

Group twirling and noise tailoring for multi-qubit controlled phase gates ( http://arxiv.org/abs/2309.15651v1 )

ライセンス: Link先を確認
Guoding Liu, Ziyi Xie, Zitai Xu, and Xiongfeng Ma(参考訳) グループツイリングは量子情報処理、特にランダム化ベンチマークやランダムコンパイルにおいて重要である。 パウリ・トワイリング(pauli twirling)に基づいたプロトコルは、任意のノイズチャネルをクリフォードゲートのパウリチャネルに変換するために効果的に作られたが、それによって効率的なベンチマークと最悪のケースエラーの軽減が容易になる。 本研究では,ランダム化ベンチマークやランダムコンパイルにおいて広く用いられている回路構造において,汎用量子ゲートのツイリング群を求める問題について検討する。 量子フーリエ変換と量子探索アルゴリズムの両方に不可欠なマルチキュービット制御相ゲートに対して、古典的に置換可能なユニタリ演算の領域内で最適なツイリング群を同定する。 クリフォードゲートに対するパウリツイリング群の単純さとは対照的に、これらのゲートの最適群ははるかに大きく、クリフォードゲート以外のグローバルな存在下でのノイズチャネルの調整のオーバーヘッドを強調している。

Group twirling is crucial in quantum information processing, particularly in randomized benchmarking and random compiling. While protocols based on Pauli twirling have been effectively crafted to transform arbitrary noise channels into Pauli channels for Clifford gates -- thereby facilitating efficient benchmarking and mitigating worst-case errors -- practical twirling groups for multi-qubit non-Clifford gates are lacking. In this work, we study the issue of finding twirling groups for generic quantum gates within a widely used circuit structure in randomized benchmarking or random compiling. For multi-qubit controlled phase gates, which are essential in both the quantum Fourier transform and quantum search algorithms, we identify optimal twirling groups within the realm of classically replaceable unitary operations. In contrast to the simplicity of the Pauli twirling group for Clifford gates, the optimal groups for such gates are much larger, highlighting the overhead of tailoring noise channels in the presence of global non-Clifford gates.
翻訳日:2023-09-28 13:34:16 公開日:2023-09-27
# 大規模言語モデルを用いた音声認識誤り訂正

Generative Speech Recognition Error Correction with Large Language Models ( http://arxiv.org/abs/2309.15649v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Yile Gu, Yi-Chieh Liu, Shalini Ghosh, Ivan Bulyko, Andreas Stolcke(参考訳) 我々は,大規模な言語モデル (LLM) が,再構成や誤り訂正を行うASRポストプロセッサとして機能する能力について検討する。 我々は,これらのタスクを微調整することなくllmsに実行させるよう指示プロンプトに焦点をあて,異なるプロンプトスキーム,ゼロショットと少数ショットのインコンテキスト学習,命令とデモンストレーションを組み合わせた新しいタスクアクティベーションプロンプト(tap)メソッドを評価した。 事前学習した1次パスシステムを用いて、2つのドメイン外タスク(ATISとWSJ)の出力を再構成し、凍結LDMによるコンテキスト内学習のみによる再描画を行うことで、ドメインチューニングLMによる再描画と競合する結果が得られることを示す。 ファインチューニング技術と組み合わせることで,N-best Oracleレベル以下での誤差率を実現し,LLMの一般化能力を示す。

We explore the ability of large language models (LLMs) to act as ASR post-processors that perform rescoring and error correction. Our focus is on instruction prompting to let LLMs perform these task without fine-tuning, for which we evaluate different prompting schemes, both zero- and few-shot in-context learning, and a novel task-activating prompting (TAP) method that combines instruction and demonstration. Using a pre-trained first-pass system and rescoring output on two out-of-domain tasks (ATIS and WSJ), we show that rescoring only by in-context learning with frozen LLMs achieves results that are competitive with rescoring by domain-tuned LMs. By combining prompting techniques with fine-tuning we achieve error rates below the N-best oracle level, showcasing the generalization power of the LLMs.
翻訳日:2023-09-28 13:33:57 公開日:2023-09-27
# SANGEA: スケーラブルで分散したネットワーク生成

SANGEA: Scalable and Attributed Network Generation ( http://arxiv.org/abs/2309.15648v1 )

ライセンス: Link先を確認
Valentin Lemaire, Youssef Achenchabe, Lucas Ody, Houssem Eddine Souid, Gianmarco Aversano, Nicolas Posocco, Sabri Skhiri(参考訳) 合成グラフ生成器(sggs)の話題は最近、生成モデルにおける最新のブレークスルーの波によって、多くの注目を集めている。 しかし、多くの最先端のSGGはグラフサイズに匹敵しない。 実際、生成プロセスでは、固定された数のノードのすべてのエッジを考慮しなければならず、$\mathcal{o}(n^2)$ でスケールし、$n$ はグラフ内のノードの数である。 このため、最先端のSGGの多くは大きなグラフには適用できない。 本稿では,任意のSGGを大規模グラフに適用可能なサイズ可能な合成グラフ生成フレームワークであるSANGEAを提案する。 まず大きなグラフをコミュニティに分割することで、SANGEAはコミュニティ毎に1つのSGGをトレーニングし、その後、コミュニティグラフをまとめて合成された大きなグラフを作成する。 実験により,sangeaが生成するグラフは,トポロジーとノード特徴分布の両方の観点から,元のグラフと高い類似性を示す。 さらに、生成されたグラフは、リンク予測のような下流タスクで高い実用性を達成している。 最後に、生成されたグラフのプライバシアセスメントを提供して、優れたユーティリティを持つにも関わらず、合理的なプライバシスコアも達成できることを示します。

The topic of synthetic graph generators (SGGs) has recently received much attention due to the wave of the latest breakthroughs in generative modelling. However, many state-of-the-art SGGs do not scale well with the graph size. Indeed, in the generation process, all the possible edges for a fixed number of nodes must often be considered, which scales in $\mathcal{O}(N^2)$, with $N$ being the number of nodes in the graph. For this reason, many state-of-the-art SGGs are not applicable to large graphs. In this paper, we present SANGEA, a sizeable synthetic graph generation framework which extends the applicability of any SGG to large graphs. By first splitting the large graph into communities, SANGEA trains one SGG per community, then links the community graphs back together to create a synthetic large graph. Our experiments show that the graphs generated by SANGEA have high similarity to the original graph, in terms of both topology and node feature distribution. Additionally, these generated graphs achieve high utility on downstream tasks such as link prediction. Finally, we provide a privacy assessment of the generated graphs to show that, even though they have excellent utility, they also achieve reasonable privacy scores.
翻訳日:2023-09-28 13:33:37 公開日:2023-09-27
# cold & warm net:レコメンデーションシステムにおけるコールドスタートユーザへの対処

Cold & Warm Net: Addressing Cold-Start Users in Recommender Systems ( http://arxiv.org/abs/2309.15646v1 )

ライセンス: Link先を確認
Xiangyu Zhang, Zongqiang Kuang, Zehao Zhang, Fan Huang, Xianfeng Tan(参考訳) コールドスタートレコメンデーションは、レコメンダシステム(RS)が直面する大きな課題の1つです。 ここでは,ユーザのコールドスタート問題に焦点を当てる。 近年、サイド情報やメタラーニングを利用する手法がコールドスタートユーザーをモデル化するために使われている。 しかし,これらの手法を産業用RSに展開することは困難である。 マッチングステージでユーザーのコールドスタート問題に注意を払う研究はあまり行われていません。 本稿では,コールドスタートユーザとウォームアップユーザをそれぞれモデル化する専門家モデルに基づくコールド&ウォームネットを提案する。 ゲートネットワークを適用して、2人の専門家の結果を組み込む。 さらに,教師セレクタとして機能する動的知識蒸留を導入し,ユーザ表現の学習を支援する。 包括的相互情報により、ユーザの行動バイアスを明示的にモデル化するバイアスネットに対して、ユーザの行動に非常に関連性の高い特徴が選択される。 最後に、公開データセットのコールド&ウォームネットを、マッチングステージで一般的に適用されるモデルと比較し、すべてのユーザタイプで他のモデルよりも優れています。 提案モデルは,産業用ショートビデオプラットフォームにも展開されており,アプリドウェル時間とユーザ保持率の大幅な向上を実現している。

Cold-start recommendation is one of the major challenges faced by recommender systems (RS). Herein, we focus on the user cold-start problem. Recently, methods utilizing side information or meta-learning have been used to model cold-start users. However, it is difficult to deploy these methods to industrial RS. There has not been much research that pays attention to the user cold-start problem in the matching stage. In this paper, we propose Cold & Warm Net based on expert models who are responsible for modeling cold-start and warm-up users respectively. A gate network is applied to incorporate the results from two experts. Furthermore, dynamic knowledge distillation acting as a teacher selector is introduced to assist experts in better learning user representation. With comprehensive mutual information, features highly relevant to user behavior are selected for the bias net which explicitly models user behavior bias. Finally, we evaluate our Cold & Warm Net on public datasets in comparison to models commonly applied in the matching stage and it outperforms other models on all user types. The proposed model has also been deployed on an industrial short video platform and achieves a significant increase in app dwell time and user retention rate.
翻訳日:2023-09-28 13:33:18 公開日:2023-09-27
# なぜAngular Margin Lossesは半スーパービジョンの異常音検出にうまく機能するのか?

Why do Angular Margin Losses work well for Semi-Supervised Anomalous Sound Detection? ( http://arxiv.org/abs/2309.15643v1 )

ライセンス: Link先を確認
Kevin Wilkinghoff and Frank Kurth(参考訳) 最先端の異常音検出システムは、通常、教師付きまたは自己監督型分類タスクである補助タスクを使用して、角マージンの損失を利用して、音響データの適切な表現を学習する。 基本的な考え方は、この補助的なタスクを解決するために、正規データに関する特定の情報を学習した表現で取得する必要があることと、この情報は正規データと異常なサンプルを区別するのに十分であるということである。 特に雑音条件下では、角マージン損失に基づく判別モデルは、生成モデルや一級モデルに基づくシステムよりも著しく優れている傾向にある。 本研究の目的は,補助作業による角周損失が異常音の検出に有効である理由を検討することである。 この目的のために、理論上も実験的にも、角マージン損失を最小限に抑えることは、学習自明な解を本質的に防止しつつ、コンパクト性損失を最小化する。 さらに,関連する分類タスクを補助タスクとして用いることにより,雑音環境下での異常音検出に適した表現を学習できることを示す実験を複数実施した。 これらの実験には、性能評価、t-sneによる埋め込み空間の可視化、説明のためのランダム化入力サンプリングを用いた異常スコアに対する入力表現の可視化などがある。

State-of-the-art anomalous sound detection systems often utilize angular margin losses to learn suitable representations of acoustic data using an auxiliary task, which usually is a supervised or self-supervised classification task. The underlying idea is that, in order to solve this auxiliary task, specific information about normal data needs to be captured in the learned representations and that this information is also sufficient to differentiate between normal and anomalous samples. Especially in noisy conditions, discriminative models based on angular margin losses tend to significantly outperform systems based on generative or one-class models. The goal of this work is to investigate why using angular margin losses with auxiliary tasks works well for detecting anomalous sounds. To this end, it is shown, both theoretically and experimentally, that minimizing angular margin losses also minimizes compactness loss while inherently preventing learning trivial solutions. Furthermore, multiple experiments are conducted to show that using a related classification task as an auxiliary task teaches the model to learn representations suitable for detecting anomalous sounds in noisy conditions. Among these experiments are performance evaluations, visualizing the embedding space with t-SNE and visualizing the input representations with respect to the anomaly score using randomized input sampling for explanation.
翻訳日:2023-09-28 13:32:59 公開日:2023-09-27
# IBM最大の量子プロセッサの効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's largest quantum processors ( http://arxiv.org/abs/2309.15642v1 )

ライセンス: Link先を確認
Siddhartha Patra, Saeed S. Jahromi, Sukhbinder Singh, Roman Orus(参考訳) 量子インスパイアされた2dテンソルネットワークを用いて、ibmの最大の量子プロセッサであるeagle (127 qubits)、osprey (433 qubits)、condor (1121 qubits)を効率的に正確にシミュレートする方法を示す。 我々は、複雑な量子多体系の力学をシミュレートする -- 特に、IBMが最近Nature 618, p. 500-505 (2023)で検討したキックドイジング実験は、グラフベースの射影エンタングルドペアステート(gPEPS)を使用しており、PRB 99, 195105 (2019)で提案されている。 以上の結果から, 単純なテンソル更新は, 計算資源を極端に少なくして, 極めて大きな精度を実現するのに十分であることが示唆された。 127量子ビットの当初の実験をシミュレートすることとは別に、その結果を433および1121量子ビットにまで拡張し、最新のIBM量子マシンのベンチマークを設定します。 また、無限個の量子ビットの正確なシミュレーションを報告する。 その結果、gpepsは超伝導量子ビットに基づく全ての量子プロセッサのような格子ベースの量子ビット接続で量子コンピュータを効率的にシミュレートする自然なツールであることがわかった。

We show how quantum-inspired 2d tensor networks can be used to efficiently and accurately simulate the largest quantum processors from IBM, namely Eagle (127 qubits), Osprey (433 qubits) and Condor (1121 qubits). We simulate the dynamics of a complex quantum many-body system -- specifically, the kicked Ising experiment considered recently by IBM in Nature 618, p. 500-505 (2023) -- using graph-based Projected Entangled Pair States (gPEPS), which was proposed by some of us in PRB 99, 195105 (2019). Our results show that simple tensor updates are already sufficient to achieve very large unprecedented accuracy with remarkably low computational resources for this model. Apart from simulating the original experiment for 127 qubits, we also extend our results to 433 and 1121 qubits, thus setting a benchmark for the newest IBM quantum machines. We also report accurate simulations for infinitely-many qubits. Our results show that gPEPS are a natural tool to efficiently simulate quantum computers with an underlying lattice-based qubit connectivity, such as all quantum processors based on superconducting qubits.
翻訳日:2023-09-28 13:32:37 公開日:2023-09-27
# 長期短期記憶と時系列モデルを用いたエクイティ指標のアルゴリズム投資戦略のヘッジ特性

Hedging Properties of Algorithmic Investment Strategies using Long Short-Term Memory and Time Series models for Equity Indices ( http://arxiv.org/abs/2309.15640v1 )

ライセンス: Link先を確認
Jakub Micha\'nk\'ow, Pawe{\l} Sakowski, Robert \'Slepaczuk(参考訳) 本稿では、金融市場が金融混乱の影響を受ける場合、リスク資産のポートフォリオをヘッジする新しいアプローチを提案する。 我々は,単一資産のレベルではなく,これらの資産の価格に基づくアンサンブルアルゴリズム投資戦略(ais)のレベルでの多様化活動について,全く新しいアプローチを提案する。 我々は,LSTM-Long Short-Term Memory, ARIMA-GARCHAutoregressive Integrated Average - Generalized Autoregressive Conditional Heteroskedasticity,運動量,コントラストの4種類の多種多様な理論モデルを用いて価格予測を行い,単一および複雑なAISの投資信号を生成する。 このようにして、エクイティ指標(S&P500指数)のために構築されたヘッジアンサンブルAISにおいて、さまざまな資産(エネルギー商品、貴金属、仮想通貨、ソフト商品)からなるさまざまなタイプの投資戦略の多様化の可能性を検証することができる。 本研究で使用した実証データは2004年から2022年までの期間をカバーする。 我々の主な結論は、LSTMベースの戦略が他のモデルよりも優れており、S&P 500インデックスのために構築されたAISにとって最良の多様化要因はBitcoinのためのAISであるということだ。 最後に、LSTMモデルを高頻度(1時間)でテストする。 毎日のデータで得られた結果を上回っていると結論づける。

This paper proposes a novel approach to hedging portfolios of risky assets when financial markets are affected by financial turmoils. We introduce a completely novel approach to diversification activity not on the level of single assets but on the level of ensemble algorithmic investment strategies (AIS) built based on the prices of these assets. We employ four types of diverse theoretical models (LSTM - Long Short-Term Memory, ARIMA-GARCH - Autoregressive Integrated Moving Average - Generalized Autoregressive Conditional Heteroskedasticity, momentum, and contrarian) to generate price forecasts, which are then used to produce investment signals in single and complex AIS. In such a way, we are able to verify the diversification potential of different types of investment strategies consisting of various assets (energy commodities, precious metals, cryptocurrencies, or soft commodities) in hedging ensemble AIS built for equity indices (S&P 500 index). Empirical data used in this study cover the period between 2004 and 2022. Our main conclusion is that LSTM-based strategies outperform the other models and that the best diversifier for the AIS built for the S&P 500 index is the AIS built for Bitcoin. Finally, we test the LSTM model for a higher frequency of data (1 hour). We conclude that it outperforms the results obtained using daily data.
翻訳日:2023-09-28 13:32:10 公開日:2023-09-27
# 微分プライベート深部生成モデリングの統一的視点

A Unified View of Differentially Private Deep Generative Modeling ( http://arxiv.org/abs/2309.15696v1 )

ライセンス: Link先を確認
Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) リッチで巨大なデータソースの可用性は、さまざまなドメインの機械学習アプリケーションを大きく進歩させた。 しかし、プライバシーに関するデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。 プライバシー配慮によるこれらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。 差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみが公開され、プライバシー保護の下流分析と機密ドメインでの再現可能な研究を可能にする、魅力的なソリューションを提供する。 近年,ディープニューラルネットワーク上でのプライベートトレーニングによるプライバシ保存型高次元データ生成を実現するための様々なアプローチが提案されている。 本稿では,これらのアプローチを体系化する新しい統一的視点を提案する。 我々は,異なるユースケースに対応する手法を体系的に導出するための共同設計空間を提供する。 次に、異なるアプローチ間の強み、制限、および固有の相関を議論し、重要な側面に光を当て、将来の研究を刺激することを目的とした。 最後に,プライバシ保護学習の次の重要なステップを進めるために,コミュニティを指導することを目的として,dpデータ生成の分野に向けた潜在的な道筋を提示する。

The availability of rich and vast data sources has greatly advanced machine learning applications in various domains. However, data with privacy concerns comes with stringent regulations that frequently prohibited data access and data sharing. Overcoming these obstacles in compliance with privacy considerations is key for technological progress in many real-world application scenarios that involve privacy sensitive data. Differentially private (DP) data publishing provides a compelling solution, where only a sanitized form of the data is publicly released, enabling privacy-preserving downstream analysis and reproducible research in sensitive domains. In recent years, various approaches have been proposed for achieving privacy-preserving high-dimensional data generation by private training on top of deep neural networks. In this paper, we present a novel unified view that systematizes these approaches. Our view provides a joint design space for systematically deriving methods that cater to different use cases. We then discuss the strengths, limitations, and inherent correlations between different approaches, aiming to shed light on crucial aspects and inspire future research. We conclude by presenting potential paths forward for the field of DP data generation, with the aim of steering the community toward making the next important steps in advancing privacy-preserving learning.
翻訳日:2023-09-28 13:25:49 公開日:2023-09-27
# フロー相関攻撃によるNoC匿名化

Breaking NoC Anonymity using Flow Correlation Attack ( http://arxiv.org/abs/2309.15687v1 )

ライセンス: Link先を確認
Hansika Weerasena, Pan Zhixin, Khushboo Rani, and Prabhat Mishra(参考訳) ネットワークオンチップ(NoC)は、今日のマルチコアシステムオンチップ(SoC)設計における内部通信ファブリックとして広く使われている。 オンチップ通信のセキュリティは、共有NoCの脆弱性を悪用することが攻撃者の金鉱となるため、非常に重要である。 NoCセキュリティは多様な攻撃に対する効果的な対策に依存している。 NoCアーキテクチャにおける既存の匿名ルーティングプロトコルのセキュリティ強度について検討する。 具体的には,二つの重要な貢献を述べる。 既存の匿名ルーティングは、NoCに対する機械学習(ML)ベースのフロー相関攻撃に対して脆弱であることを示す。 本稿では,mlベースのフロー相関攻撃を防御するトラフィック難読化技術を用いた,軽量な匿名ルーティングを提案する。 実トラフィックと合成トラフィックの両方を用いた実験により,提案手法がnocアーキテクチャにおける最先端の匿名ルーティングに対して,さまざまなトラフィックパターンに対して高い精度(最大99%)で適用可能であることが判明した。

Network-on-Chip (NoC) is widely used as the internal communication fabric in today's multicore System-on-Chip (SoC) designs. Security of the on-chip communication is crucial because exploiting any vulnerability in shared NoC would be a goldmine for an attacker. NoC security relies on effective countermeasures against diverse attacks. We investigate the security strength of existing anonymous routing protocols in NoC architectures. Specifically, this paper makes two important contributions. We show that the existing anonymous routing is vulnerable to machine learning (ML) based flow correlation attacks on NoCs. We propose a lightweight anonymous routing that use traffic obfuscation techniques which can defend against ML-based flow correlation attacks. Experimental studies using both real and synthetic traffic reveal that our proposed attack is successful against state-of-the-art anonymous routing in NoC architectures with a high accuracy (up to 99%) for diverse traffic patterns, while our lightweight countermeasure can defend against ML-based attacks with minor hardware and performance overhead.
翻訳日:2023-09-28 13:25:27 公開日:2023-09-27
# 目的言語コンテキスト活用による会話音声翻訳のエンドツーエンド化

Enhancing End-to-End Conversational Speech Translation Through Target Language Context Utilization ( http://arxiv.org/abs/2309.15686v1 )

ライセンス: Link先を確認
Amir Hussein, Brian Yan, Antonios Anastasopoulos, Shinji Watanabe, Sanjeev Khudanpur(参考訳) より長い文脈を組み込むことは機械翻訳に役立つことが示されているが、エンドツーエンドの音声翻訳(e2e-st)における文脈の包含は未検討のままである。 このギャップを埋めるため、e2e-stでターゲット言語コンテキストを導入し、拡張オーディオセグメントのコヒーレンスとメモリ制約を克服する。 さらに,コンテキストの欠如に対するロバスト性を確保するためにコンテキストドロップアウトを提案し,話者情報の追加によるパフォーマンス向上を図る。 提案した文脈的E2E-STは、孤立発話に基づくE2E-STアプローチよりも優れている。 最後に,会話音声において,文脈情報は主に文脈の捉え方やアナフォラや名前付きエンティティの解決に寄与することを示す。

Incorporating longer context has been shown to benefit machine translation, but the inclusion of context in end-to-end speech translation (E2E-ST) remains under-studied. To bridge this gap, we introduce target language context in E2E-ST, enhancing coherence and overcoming memory constraints of extended audio segments. Additionally, we propose context dropout to ensure robustness to the absence of context, and further improve performance by adding speaker information. Our proposed contextual E2E-ST outperforms the isolated utterance-based E2E-ST approach. Lastly, we demonstrate that in conversational speech, contextual information primarily contributes to capturing context style, as well as resolving anaphora and named entities.
翻訳日:2023-09-28 13:25:09 公開日:2023-09-27
# 強化学習を用いたエンド・ツー・エンドストリーミングビデオテンポラルアクションセグメンテーション

End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning ( http://arxiv.org/abs/2309.15683v1 )

ライセンス: Link先を確認
Wujun Wen, Jinrong Zhang, Shenglan Liu, Yunheng Li, Qifeng Li, Lin Feng(参考訳) ビデオからのテンポラリアクションセグメンテーション(tas)は、複数のアクションクラスを持つロングビデオのフレーム認識タスクの一種である。 長いビデオの映像理解タスクとして、現在の手法は、多モードのアクション認識モデルと時間モデルを組み合わせて特徴系列をラベルシーケンスに変換する。 このアプローチはオフラインのシナリオにのみ適用できるため、TASアプリケーションは非常に制限される。 そこで本研究では,SVTAS-RL(Reinforce Learning)を用いたエンドツーエンドのストリーミングビデオテンポラルアクションセグメンテーションを提案する。 TASをアクションセグメントクラスタリングタスクとみなすエンドツーエンドのSVTASは、TASのアプリケーションシナリオを拡張し、RLは一貫性のない最適化目標と方向性の問題を軽減するために使用される。 SVTAS-RLモデルは、複数のデータセット上でのTASの最先端モデルと競合する性能を達成し、超長ビデオデータセットEGTEAにより大きな利点を示す。 このことから,本手法は,従来のTASモデルをすべてエンドツーエンドに置き換えることが可能であり,SVTAS-RLの方が長時間ビデオTASに適していることが示唆された。 コードはhttps://github.com/Thinksky5124/SVTASで利用可能である。

Temporal Action Segmentation (TAS) from video is a kind of frame recognition task for long video with multiple action classes. As an video understanding task for long videos, current methods typically combine multi-modality action recognition models with temporal models to convert feature sequences to label sequences. This approach can only be applied to offline scenarios, which severely limits the TAS application. Therefore, this paper proposes an end-to-end Streaming Video Temporal Action Segmentation with Reinforce Learning (SVTAS-RL). The end-to-end SVTAS which regard TAS as an action segment clustering task can expand the application scenarios of TAS; and RL is used to alleviate the problem of inconsistent optimization objective and direction. Through extensive experiments, the SVTAS-RL model achieves a competitive performance to the state-of-the-art model of TAS on multiple datasets, and shows greater advantages on the ultra-long video dataset EGTEA. This indicates that our method can replace all current TAS models end-to-end and SVTAS-RL is more suitable for long video TAS. Code is availabel at https://github.com/Thinksky5124/SVTAS.
翻訳日:2023-09-28 13:24:54 公開日:2023-09-27
# 逆レンダリングのための共同サンプリングと最適化

Joint Sampling and Optimisation for Inverse Rendering ( http://arxiv.org/abs/2309.15676v1 )

ライセンス: Link先を確認
Martin Balint, Karol Myszkowski, Hans-Peter Seidel, Gurprit Singh(参考訳) 逆レンダリングのような難しい逆問題を扱う場合、モンテカルロ推定勾配を用いてパラメータを最適化すると、分散による収束を遅くすることができる。 各イテレーションで多くの勾配サンプルを平均すると、この分散は自明に減少する。 しかし、何千もの最適化イテレーションを必要とする問題に対して、このアプローチの計算コストは急速に上昇する。 サンプリングと最適化を相互に行う理論的枠組みを導出する。 各イテレーション間の推定勾配の変化を記述した低分散有限差分推定器を用いて過去のサンプルを更新・再利用する。 比例および有限差分サンプルを組み合わせることにより、最適化過程を通じて新しい勾配メタ推定器の分散を連続的に低減する。 推定器がAdamとどのように連動し、安定した組み合わせを導出するかを考察する。 逆経路追跡法を実装し,評価器が難解な最適化タスクの収束をいかに高速化するかを示す。

When dealing with difficult inverse problems such as inverse rendering, using Monte Carlo estimated gradients to optimise parameters can slow down convergence due to variance. Averaging many gradient samples in each iteration reduces this variance trivially. However, for problems that require thousands of optimisation iterations, the computational cost of this approach rises quickly. We derive a theoretical framework for interleaving sampling and optimisation. We update and reuse past samples with low-variance finite-difference estimators that describe the change in the estimated gradients between each iteration. By combining proportional and finite-difference samples, we continuously reduce the variance of our novel gradient meta-estimators throughout the optimisation process. We investigate how our estimator interlinks with Adam and derive a stable combination. We implement our method for inverse path tracing and demonstrate how our estimator speeds up convergence on difficult optimisation tasks.
翻訳日:2023-09-28 13:24:34 公開日:2023-09-27
# SJTU-TMQA:テクスチャマップを用いた静的メッシュの品質評価データベース

SJTU-TMQA: A quality assessment database for static mesh with texture map ( http://arxiv.org/abs/2309.15675v1 )

ライセンス: Link先を確認
Bingyang Cui and Qi Yang and Kaifa Yang and Yiling Xu and Xiaozhong Xu and Shan Liu(参考訳) 近年, テクスチャマップを用いた静的メッシュは, アニメーション, ゲーム, 医療画像, 文化遺産などの様々な応用において, 3次元形状のデジタル表現として最も普及している。 しかしながら、メッシュの圧縮や拡張といった品質指向アプリケーションの開発を妨げる、テクスチャメッシュの品質評価に関する研究はほとんど行われていない。 本稿では,21個の参照メッシュと945個の歪んだサンプルを含む大規模テクスチャメッシュ品質評価データベースSJTU-TMQAを作成する。 メッシュは処理されたビデオシーケンスにレンダリングされ、平均評価スコア(MOS)を得るために主観的な実験を行う。 MOSの多様性と精度は、その不均一性と信頼性を検証することが示されている。 様々な歪みが人間の知覚に与える影響が示されている。 SJTU-TMQAでは13の最先端の客観的指標が評価された。 その結果,より効果的な客観的指標の必要性が示唆された0.6が最も高い相関性を示した。 SJTU-TMQA は https://ccccby.github.io

In recent years, static meshes with texture maps have become one of the most prevalent digital representations of 3D shapes in various applications, such as animation, gaming, medical imaging, and cultural heritage applications. However, little research has been done on the quality assessment of textured meshes, which hinders the development of quality-oriented applications, such as mesh compression and enhancement. In this paper, we create a large-scale textured mesh quality assessment database, namely SJTU-TMQA, which includes 21 reference meshes and 945 distorted samples. The meshes are rendered into processed video sequences and then conduct subjective experiments to obtain mean opinion scores (MOS). The diversity of content and accuracy of MOS has been shown to validate its heterogeneity and reliability. The impact of various types of distortion on human perception is demonstrated. 13 state-of-the-art objective metrics are evaluated on SJTU-TMQA. The results report the highest correlation of around 0.6, indicating the need for more effective objective metrics. The SJTU-TMQA is available at https://ccccby.github.io
翻訳日:2023-09-28 13:24:23 公開日:2023-09-27
# 音声コラージュ:単言語コーパス照合によるコードスイッチ音声生成

Speech collage: code-switched audio generation by collaging monolingual corpora ( http://arxiv.org/abs/2309.15674v1 )

ライセンス: Link先を確認
Amir Hussein, Dorsa Zeinali, Ond\v{r}ej Klejch, Matthew Wiesner, Brian Yan, Shammur Chowdhury, Ahmed Ali, Shinji Watanabe, Sanjeev Khudanpur(参考訳) コードスイッチング(CS)のための効果的な自動音声認識(ASR)システムの設計は、しばしば書き起こされたCSリソースの可用性に依存する。 本稿では,音声セグメントをスプライシングすることで,単言語コーパスからCSデータを合成する手法であるSpeech Collageを紹介する。 重ね合わせアプローチにより,音声生成の滑らかさをさらに向上させる。 生成したデータが音声認識に与える影響を,ドメイン内CSテキストと合成CSテキストを用いたゼロショットアプローチの2つのシナリオで検討する。 実験結果は、それぞれドメイン内シナリオとゼロショットシナリオの混合エラー率とワードエラー率を34.4%、相対的に16.2%減少させる。 最後に、csの増強がモデルのコードスイッチングの傾きを増強し、その単言語バイアスを減少させることを示す。

Designing effective automatic speech recognition (ASR) systems for Code-Switching (CS) often depends on the availability of the transcribed CS resources. To address data scarcity, this paper introduces Speech Collage, a method that synthesizes CS data from monolingual corpora by splicing audio segments. We further improve the smoothness quality of audio generation using an overlap-add approach. We investigate the impact of generated data on speech recognition in two scenarios: using in-domain CS text and a zero-shot approach with synthesized CS text. Empirical results highlight up to 34.4% and 16.2% relative reductions in Mixed-Error Rate and Word-Error Rate for in-domain and zero-shot scenarios, respectively. Lastly, we demonstrate that CS augmentation bolsters the model's code-switching inclination and reduces its monolingual bias.
翻訳日:2023-09-28 13:24:04 公開日:2023-09-27
# マルチラベル感情検出のための注釈付きコーパスMONOVAB

MONOVAB : An Annotated Corpus for Bangla Multi-label Emotion Detection ( http://arxiv.org/abs/2309.15670v1 )

ライセンス: Link先を確認
Sumit Kumar Banshal, Sajal Das, Shumaiya Akter Shammi and Narayan Ranjan Chakraborty(参考訳) 近年,世界第7位の言語であるバングラ語では,感性分析 (SA) や感情認識 (ER) が普及している。 しかし、この言語は構造的に複雑であり、正確な方法で感情を抽出するのにこの分野は困難である。 この分野では、ポジティブ感情やネガティブ感情の抽出や、マルチクラス感情の抽出など、いくつかの異なるアプローチが実施されている。 しかし、複数の感情の抽出は、この言語ではほとんど触れられていない領域である。 一つのテキストに基づいて複数の感情を識別する。 そこで本研究では,facebookのスクラップデータに基づく注釈付きコーパスを構築し,課題克服のために本課題領域のギャップを橋渡しする方法を提案する。 このアノテーションをより実りあるものにするために、コンテキストベースのアプローチが使われてきた。 トランスフォーマーの方法論としてよく知られているBERT(Bidirectional Encoder Representations from Transformers)が,実装されたすべての手法の最良の結果を示している。 最後に,BanglaにおけるマルチラベルERのためのトレーニング済みトップパフォーマンスモデル(BERT)の性能を示すWebアプリケーションを開発した。

In recent years, Sentiment Analysis (SA) and Emotion Recognition (ER) have been increasingly popular in the Bangla language, which is the seventh most spoken language throughout the entire world. However, the language is structurally complicated, which makes this field arduous to extract emotions in an accurate manner. Several distinct approaches such as the extraction of positive and negative sentiments as well as multiclass emotions, have been implemented in this field of study. Nevertheless, the extraction of multiple sentiments is an almost untouched area in this language. Which involves identifying several feelings based on a single piece of text. Therefore, this study demonstrates a thorough method for constructing an annotated corpus based on scrapped data from Facebook to bridge the gaps in this subject area to overcome the challenges. To make this annotation more fruitful, the context-based approach has been used. Bidirectional Encoder Representations from Transformers (BERT), a well-known methodology of transformers, have been shown the best results of all methods implemented. Finally, a web application has been developed to demonstrate the performance of the pre-trained top-performer model (BERT) for multi-label ER in Bangla.
翻訳日:2023-09-28 13:23:50 公開日:2023-09-27
# 逆機械学習における計算エンタングルメントとその解釈について

On Computational Entanglement and Its Interpretation in Adversarial Machine Learning ( http://arxiv.org/abs/2309.15669v1 )

ライセンス: Link先を確認
YenLung Lai, Xingbo Dong, Zhe Jin(参考訳) 機械学習の敵対的な例は、一見不明瞭な入力摂動を伴うモデルを欺く顕著な能力から研究の焦点として現れており、深刻な結果をもたらす可能性がある。 本研究では,敵対的機械学習モデルを包括的に探索し,本質的な複雑性と解釈可能性に光を当てる。 本研究は,機械学習モデルの複雑性とアインシュタインの特殊相対性理論との関係を,絡み合いの概念を通して明らかにする。 より具体的には、エンタングルメントを計算的に定義し、遠方の特徴サンプルが量子空間のエンタングルメントに類似した強い相関を示すことを実証する。 この啓示は、現代の機械学習モデルで観測された対角移動可能性現象を記述する従来の視点に挑戦する。 計算中の時間拡張と長さ収縮の相対論的効果と平行して、敵機械学習の深い洞察を得て、この急速に発展する分野におけるより堅牢で解釈可能なモデルへの道を開く。

Adversarial examples in machine learning has emerged as a focal point of research due to their remarkable ability to deceive models with seemingly inconspicuous input perturbations, potentially resulting in severe consequences. In this study, we embark on a comprehensive exploration of adversarial machine learning models, shedding light on their intrinsic complexity and interpretability. Our investigation reveals intriguing links between machine learning model complexity and Einstein's theory of special relativity, through the concept of entanglement. More specific, we define entanglement computationally and demonstrate that distant feature samples can exhibit strong correlations, akin to entanglement in quantum realm. This revelation challenges conventional perspectives in describing the phenomenon of adversarial transferability observed in contemporary machine learning models. By drawing parallels with the relativistic effects of time dilation and length contraction during computation, we gain deeper insights into adversarial machine learning, paving the way for more robust and interpretable models in this rapidly evolving field.
翻訳日:2023-09-28 13:23:31 公開日:2023-09-27
# 動的プロンプト学習:テキストベースの画像編集のためのクロスタッチリークに対処する

Dynamic Prompt Learning: Addressing Cross-Attention Leakage for Text-Based Image Editing ( http://arxiv.org/abs/2309.15664v1 )

ライセンス: Link先を確認
Kai Wang, Fei Yang, Shiqi Yang, Muhammad Atif Butt, Joost van de Weijer(参考訳) 大規模なテキスト画像生成モデルは、生成AIにおいて画期的な発展を遂げており、拡散モデルは入力されたテキストプロンプトに従って、説得力のある画像を合成する驚くべき能力を示している。 画像編集研究の目的は、ユーザーがテキストプロンプトを変更することによって生成された画像を制御することである。 現在の画像編集技術は、対象領域外の領域の意図しない変更、例えば背景や対象オブジェクトと意味的または視覚的な関係を持つ不注意なオブジェクトに影響を受けやすい。 実験結果によると,不正確なクロスアテンションマップがこの問題の根本にある。 そこで本研究では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。 テキスト入力中の名詞の動的トークンをリーク修復損失で更新することにより、他の画像領域への不要な変更を防止しつつ、特定のオブジェクトに対するきめ細かい画像編集を実現する。 提案手法は, 利用可能な安定拡散に基づいて, 幅広い画像に対して広範に評価され, 定量化(CLIPスコア, 構造ディスト)と定性化(ユーザ評価)の両面で優れた結果が得られる。 ワードスワップのプロンプト編集結果,プロンプトリファインメント,アテンション再重み付け,特に複雑なマルチオブジェクトシーンに対して改善した。

Large-scale text-to-image generative models have been a ground-breaking development in generative AI, with diffusion models showing their astounding ability to synthesize convincing images following an input text prompt. The goal of image editing research is to give users control over the generated images by modifying the text prompt. Current image editing techniques are susceptible to unintended modifications of regions outside the targeted area, such as on the background or on distractor objects which have some semantic or visual relationship with the targeted object. According to our experimental findings, inaccurate cross-attention maps are at the root of this problem. Based on this observation, we propose Dynamic Prompt Learning (DPL) to force cross-attention maps to focus on correct noun words in the text prompt. By updating the dynamic tokens for nouns in the textual input with the proposed leakage repairment losses, we achieve fine-grained image editing over particular objects while preventing undesired changes to other image regions. Our method DPL, based on the publicly available Stable Diffusion, is extensively evaluated on a wide range of images, and consistently obtains superior results both quantitatively (CLIP score, Structure-Dist) and qualitatively (on user-evaluation). We show improved prompt editing results for Word-Swap, Prompt Refinement, and Attention Re-weighting, especially for complex multi-object scenes.
翻訳日:2023-09-28 13:23:13 公開日:2023-09-27
# 今どこにいるの? ヒューマン・aiコラボレーションから見たデータストーリーテリングツールの理解

Where Are We So Far? Understanding Data Storytelling Tools from the Perspective of Human-AI Collaboration ( http://arxiv.org/abs/2309.15723v1 )

ライセンス: Link先を確認
Haotian Li, Yun Wang, Huamin Qu(参考訳) データストーリーテリングは、データの洞察を伝えるのに強力ですが、多様なスキルと人間の創造者によるかなりの努力が必要です。 近年の研究では、データストーリーテリングにおいてai(artificial intelligence)が人間をサポートし、強化する可能性を広く研究している。 しかし、人間とAIのコラボレーションの観点からデータストーリーテリングツールを理解するための体系的なレビューがないため、研究者は人間の利点とAIの利点を促進し、その欠点を緩和する既存のコラボレーションツール設計を反映することを妨げている。 本稿では、分析、計画、実装、コミュニケーションなどのツールが果たすストーリーテリングワークフローのステージと、クリエーター、アシスタント、オプティマイザ、レビュアーといった各ステージにおける人間とaiの役割という2つの視点から、既存のツールについて検討した。 分析を通じて,既存のツールの共通的なコラボレーションパターンを認識し,これらのパターンから学んだ教訓を要約し,データストーリーテリングにおける人間とAIのコラボレーション研究の機会について説明する。

Data storytelling is powerful for communicating data insights, but it requires diverse skills and considerable effort from human creators. Recent research has widely explored the potential for artificial intelligence (AI) to support and augment humans in data storytelling. However, there lacks a systematic review to understand data storytelling tools from the perspective of human-AI collaboration, which hinders researchers from reflecting on the existing collaborative tool designs that promote humans' and AI's advantages and mitigate their shortcomings. This paper investigated existing tools with a framework from two perspectives: the stages in the storytelling workflow where a tool serves, including analysis, planning, implementation, and communication, and the roles of humans and AI in each stage, such as creators, assistants, optimizers, and reviewers. Through our analysis, we recognize the common collaboration patterns in existing tools, summarize lessons learned from these patterns, and further illustrate research opportunities for human-AI collaboration in data storytelling.
翻訳日:2023-09-28 13:16:32 公開日:2023-09-27
# Model Share AI: Pythonでのコラボレーション型機械学習モデル開発、成果追跡、デプロイのための統合ツールキット

Model Share AI: An Integrated Toolkit for Collaborative Machine Learning Model Development, Provenance Tracking, and Deployment in Python ( http://arxiv.org/abs/2309.15719v1 )

ライセンス: Link先を確認
Heinrich Peters and Michael Parrott(参考訳) 機械学習(ML)は、幅広い研究領域や産業に革命をもたらす可能性があるが、多くのMLプロジェクトは概念実証段階を超えて進展しない。 この問題に対処するため,我々は,協調型モデル開発,モデルプロヴァンス追跡,モデル展開の合理化を目的とした,使いやすいmlopsプラットフォームであるmodel share ai(aims)を紹介する。 AIMSは、コラボレーティブなプロジェクトスペースと、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備え、コラボレーティブなモデル開発とクラウドソーシングを可能にする。 モデルパフォーマンスとさまざまなモデルメタデータは自動的にキャプチャされ、プロビデンス追跡が促進され、ユーザーは以前の投稿から学び、構築することができる。 さらにAIMSでは、Scikit-Learn、TensorFlow Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや、最小限のコードで自動生成されたWebアプリにデプロイすることができる。 最小限の労力でモデルをデプロイし、Webアプリを通じて技術的でないエンドユーザにアクセスできるようにする能力は、ML研究をより現実世界の課題に適用する可能性がある。

Machine learning (ML) has the potential to revolutionize a wide range of research areas and industries, but many ML projects never progress past the proof-of-concept stage. To address this issue, we introduce Model Share AI (AIMS), an easy-to-use MLOps platform designed to streamline collaborative model development, model provenance tracking, and model deployment, as well as a host of other functions aiming to maximize the real-world impact of ML research. AIMS features collaborative project spaces and a standardized model evaluation process that ranks model submissions based on their performance on unseen evaluation data, enabling collaborative model development and crowd-sourcing. Model performance and various model metadata are automatically captured to facilitate provenance tracking and allow users to learn from and build on previous submissions. Additionally, AIMS allows users to deploy ML models built in Scikit-Learn, TensorFlow Keras, PyTorch, and ONNX into live REST APIs and automatically generated web apps with minimal code. The ability to deploy models with minimal effort and to make them accessible to non-technical end-users through web apps has the potential to make ML research more applicable to real-world challenges.
翻訳日:2023-09-28 13:16:12 公開日:2023-09-27
# timbre-trap - 楽器非依存の音楽転写のための低リソースフレームワーク

Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription ( http://arxiv.org/abs/2309.15717v1 )

ライセンス: Link先を確認
Frank Cwitkowitz, Kin Wai Cheuk, Woosung Choi, Marco A. Mart\'inez-Ram\'irez, Keisuke Toyama, Wei-Hsiang Liao, Yuki Mitsufuji(参考訳) 近年、音楽の書き起こしの研究は主に建築設計と楽器固有のデータ取得に焦点が当てられている。 多様なデータセットが入手できないため、進行はピアノの書き起こしのような独奏的なタスクに限られることが多い。 いくつかの研究は、低リソースタスクにおけるモデルの性能を高める手段として、マルチインストラメンテーションの転写を調査してきたが、これらの手法は同じデータ可用性の問題に直面している。 音符と音符の強い分離性を利用して、音符の書き起こしと再生を統一する新しいフレームワークTimbre-Trapを提案する。 単一のu-netを訓練し、ピッチサリエンスを推定し、複雑なスペクトル係数を再構成し、簡単なスイッチ機構により復号ステージのどちらの出力も選択する。 このようにして、モデルは音色のない音声に対応する係数を生成することを学び、これはピッチ・サリエンスと解釈できる。 このフレームワークは,少量のアノテートデータしか必要とせず,最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。

In recent years, research on music transcription has focused mainly on architecture design and instrument-specific data acquisition. With the lack of availability of diverse datasets, progress is often limited to solo-instrument tasks such as piano transcription. Several works have explored multi-instrument transcription as a means to bolster the performance of models on low-resource tasks, but these methods face the same data availability issues. We propose Timbre-Trap, a novel framework which unifies music transcription and audio reconstruction by exploiting the strong separability between pitch and timbre. We train a single U-Net to simultaneously estimate pitch salience and reconstruct complex spectral coefficients, selecting between either output during the decoding stage via a simple switch mechanism. In this way, the model learns to produce coefficients corresponding to timbre-less audio, which can be interpreted as pitch salience. We demonstrate that the framework leads to performance comparable to state-of-the-art instrument-agnostic transcription methods, while only requiring a small amount of annotated data.
翻訳日:2023-09-28 13:15:48 公開日:2023-09-27
# ChatGPT-BCI:意味推論読解におけるGPT, EEG, アイトラッキングバイオマーカーを用いた単語レベルニューラルステート分類

ChatGPT-BCI: Word-Level Neural State Classification Using GPT, EEG, and Eye-Tracking Biomarkers in Semantic Inference Reading Comprehension ( http://arxiv.org/abs/2309.15714v1 )

ライセンス: Link先を確認
Yuhong Zhang, Qin Li, Sujal Nahata, Tasnia Jamal, Shih-kuen Cheng, Gert Cauwenberghs, Tzyy-Ping Jung(参考訳) 近年,GPT (Generative Pretrained Transformers) などの大規模言語モデル (LLM) の爆発により,人間や機械が意味論的意味を理解する能力を理解する必要性が新たな段階に入った。 これは認知科学と自然言語処理(NLP)の分野を橋渡しする学際的な研究を必要とする。 本研究の目的は,意味的関係理解タスクにおける個人の神経状態に関する洞察を提供することである。 本研究では,LLM,視線,脳波(EEG)データを共同で分析し,読解中にキーワードに関連性のある単語をどのように処理するかを検討する。 また,係留関連脳波データ分類の改善に機能工学的アプローチを適用し,キーワードの関連性が高い単語と低い単語を被験者が読み取る。 この単語レベルの分類における最良の検証精度は、12の被験者に対して60\%以上である。 推論キーワードの関連性が高い単語は1語あたり眼の固定が有意に高かった: 1.0584 は0.6576 であり、非固定語を除くと 0.5126 であり、それらを含むと 1.4026 である。 この研究は、LLM知識を用いて単語レベルで脳状態を分類する最初の試みである。 人間の認知能力と人工知能(AGI)の領域に関する貴重な洞察を提供し、読み取り支援技術を開発するためのガイダンスを提供する。

With the recent explosion of large language models (LLMs), such as Generative Pretrained Transformers (GPT), the need to understand the ability of humans and machines to comprehend semantic language meaning has entered a new phase. This requires interdisciplinary research that bridges the fields of cognitive science and natural language processing (NLP). This pilot study aims to provide insights into individuals' neural states during a semantic relation reading-comprehension task. We propose jointly analyzing LLMs, eye-gaze, and electroencephalographic (EEG) data to study how the brain processes words with varying degrees of relevance to a keyword during reading. We also use a feature engineering approach to improve the fixation-related EEG data classification while participants read words with high versus low relevance to the keyword. The best validation accuracy in this word-level classification is over 60\% across 12 subjects. Words of high relevance to the inference keyword had significantly more eye fixations per word: 1.0584 compared to 0.6576 when excluding no-fixation words, and 1.5126 compared to 1.4026 when including them. This study represents the first attempt to classify brain states at a word level using LLM knowledge. It provides valuable insights into human cognitive abilities and the realm of Artificial General Intelligence (AGI), and offers guidance for developing potential reading-assisted technologies.
翻訳日:2023-09-28 13:15:27 公開日:2023-09-27
# 最大重量エントロピー

Maximum Weight Entropy ( http://arxiv.org/abs/2309.15704v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Fran\c{c}ois Deheeger, Mathilde Mougeot, Nicolas Vayatis(参考訳) 本稿では,ベイジアンおよびアンサンブル法を用いたディープラーニングにおける不確実な定量化と分布外検出について述べる。 アウト・オブ・ディストリビューション(Ovadia et al., 2019; Liu et al., 2021)を用いた場合、最近標準アプローチで観測された予測の多様性の欠如に対する実用的な解決策を提案する。 この問題は主に重みの多様性の欠如に関係しており,重み空間の「過制限」領域における標準手法は,重みの減衰やゼロ平均中心ガウス前駆といった「過正規化」過程を用いることによって得られると主張している。 本稿では,重量分布の最大エントロピー原理を取り入れ,重量の多様性を最大化するための基礎となる考え方を提案する。 このパラダイムの下で、てんかんの不確実性は、トレーニング観測と「一致」したニューラルネットワークを生成する最大エントロピーの重量分布によって記述される。 確率的ニューラルネットワークを考慮すると、平均的経験的リスクと重み分布エントロピーの間のトレードオフとして定義されるそのような分布を構築するために、実用的な最適化が導出される。 ニューラルネットワークの隠蔽表現の特異値分解に基づく確率モデルのための新しい重みパラメータ化を開発し、小さな経験的リスクペナル化のための重みエントロピーの増大を可能にする。 提案手法の効率を評価するために理論的および数値的な結果を提供する。 特に、提案アルゴリズムは、30以上の競合を含む広範囲な分散検出ベンチマークのすべての構成において、上位3つの最善の方法に現れる。

This paper deals with uncertainty quantification and out-of-distribution detection in deep learning using Bayesian and ensemble methods. It proposes a practical solution to the lack of prediction diversity observed recently for standard approaches when used out-of-distribution (Ovadia et al., 2019; Liu et al., 2021). Considering that this issue is mainly related to a lack of weight diversity, we claim that standard methods sample in "over-restricted" regions of the weight space due to the use of "over-regularization" processes, such as weight decay and zero-mean centered Gaussian priors. We propose to solve the problem by adopting the maximum entropy principle for the weight distribution, with the underlying idea to maximize the weight diversity. Under this paradigm, the epistemic uncertainty is described by the weight distribution of maximal entropy that produces neural networks "consistent" with the training observations. Considering stochastic neural networks, a practical optimization is derived to build such a distribution, defined as a trade-off between the average empirical risk and the weight distribution entropy. We develop a novel weight parameterization for the stochastic model, based on the singular value decomposition of the neural network's hidden representations, which enables a large increase of the weight entropy for a small empirical risk penalization. We provide both theoretical and numerical results to assess the efficiency of the approach. In particular, the proposed algorithm appears in the top three best methods in all configurations of an extensive out-of-distribution detection benchmark including more than thirty competitors.
翻訳日:2023-09-28 13:14:51 公開日:2023-09-27
# RGB-Dビデオからの物理に基づく剛体物体追跡と摩擦フィルタ

Physics-Based Rigid Body Object Tracking and Friction Filtering From RGB-D Videos ( http://arxiv.org/abs/2309.15703v1 )

ライセンス: Link先を確認
Rama Krishna Kandukuri, Michael Strecke and Joerg Stueckler(参考訳) 感覚観察による物体の相互作用の物理に基づく理解は、拡張現実やロボット工学において必須の能力である。 シミュレーションと制御のためにシーンのプロパティをキャプチャできる。 本稿では,rgb-d画像から剛体物体を3dで追跡し,物体の物理的性質を推定する,新しい手法を提案する。 我々は,任意のメッシュ形状の接触と摩擦をモデル化できる拡張カルマンフィルタの状態遷移モデルとして,微分可能な物理シミュレーションを用いて,物理的に妥当な軌道を推定する。 本手法は, 物体の位置, 方向, 速度をフィルタし, 物体の摩擦係数を同時推定できることを実証する。 我々は、単一物体と衝突物体の合成画像列における様々なスライディングシナリオに対するアプローチを分析する。 また、実世界のデータセットに対する我々のアプローチを実証し、評価する。 我々は,新しいベンチマークデータセットを公開し,新しい問題設定における今後の研究を促進させ,本手法との比較を行う。

Physics-based understanding of object interactions from sensory observations is an essential capability in augmented reality and robotics. It enables capturing the properties of a scene for simulation and control. In this paper, we propose a novel approach for real-to-sim which tracks rigid objects in 3D from RGB-D images and infers physical properties of the objects. We use a differentiable physics simulation as state-transition model in an Extended Kalman Filter which can model contact and friction for arbitrary mesh-based shapes and in this way estimate physically plausible trajectories. We demonstrate that our approach can filter position, orientation, velocities, and concurrently can estimate the coefficient of friction of the objects. We analyse our approach on various sliding scenarios in synthetic image sequences of single objects and colliding objects. We also demonstrate and evaluate our approach on a real-world dataset. We will make our novel benchmark datasets publicly available to foster future research in this novel problem setting and comparison with our method.
翻訳日:2023-09-28 13:14:06 公開日:2023-09-27
# SGRec3D:オブジェクトレベルシーン再構成による自己監督型3次元グラフ学習

SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene Reconstruction ( http://arxiv.org/abs/2309.15702v1 )

ライセンス: Link先を確認
Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi, Timo Ropinski(参考訳) 3dシーン理解の分野では、3dシーングラフがオブジェクトとその関係に関する幾何学的および意味的情報を結合した新しいシーン表現として登場している。 しかし、セマンティックな3dシーングラフを完全に教師付きで学習することは、オブジェクトレベルのアノテーションだけでなく、関係ラベルも必要となるため、本質的に困難である。 プレトレーニングアプローチは様々な分野で多くのメソッドのパフォーマンスを高めるのに役立ったが、3dシーングラフ予測のためのプレトレーニングはほとんど注目されていない。 さらに,従来のコントラッシブ・クラウド・ベースの事前学習手法は3次元シーングラフ学習には有効ではないことがわかった。 そこで本研究では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。 本稿では,3次元入力シーンをプリテキストタスクとしてグラフボトルネックから再構成する。 事前トレーニングを行うSGRec3Dは、オブジェクト関係ラベルを必要としないため、3Dシーン理解データセットを大規模に活用することができる。 最近のpoint cloudベースの事前トレーニングアプローチとは対照的に,提案手法は3dシーングラフの予測をかなり改善し,soma性能を向上し,他の3dシーングラフモデルよりもオブジェクト予測で+10%,関係予測で+4%向上した。 さらに,微調整時に10%のラベル付きデータの小さなサブセットのみを使用することで,事前トレーニングを行わずに同じモデルに勝ることを示す。

In the field of 3D scene understanding, 3D scene graphs have emerged as a new scene representation that combines geometric and semantic information about objects and their relationships. However, learning semantic 3D scene graphs in a fully supervised manner is inherently difficult as it requires not only object-level annotations but also relationship labels. While pre-training approaches have helped to boost the performance of many methods in various fields, pre-training for 3D scene graph prediction has received little attention. Furthermore, we find in this paper that classical contrastive point cloud-based pre-training approaches are ineffective for 3D scene graph learning. To this end, we present SGRec3D, a novel self-supervised pre-training method for 3D scene graph prediction. We propose to reconstruct the 3D input scene from a graph bottleneck as a pretext task. Pre-training SGRec3D does not require object relationship labels, making it possible to exploit large-scale 3D scene understanding datasets, which were off-limits for 3D scene graph learning before. Our experiments demonstrate that in contrast to recent point cloud-based pre-training approaches, our proposed pre-training improves the 3D scene graph prediction considerably, which results in SOTA performance, outperforming other 3D scene graph models by +10% on object prediction and +4% on relationship prediction. Additionally, we show that only using a small subset of 10% labeled data during fine-tuning is sufficient to outperform the same model without pre-training.
翻訳日:2023-09-28 13:13:27 公開日:2023-09-27
# HyPoradise: 大規模言語モデルを用いた生成音声認識のためのオープンベースライン

HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models ( http://arxiv.org/abs/2309.15701v1 )

ライセンス: Link先を確認
Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng(参考訳) ディープニューラルネットワークの進歩により、自動音声認識(ASR)システムは、公開されているクリーンな音声データセットで人間のパリティを達成できるようになった。 しかし、最先端のasrシステムでさえ、悪条件に直面すると性能が低下し、よく訓練された音響モデルは、例えば背景雑音のような音声領域の変化に敏感である。 直感的には、人間は言語的知識に頼ることでこの問題に対処する: あいまいな言葉の意味は通常、文脈的手がかりから推測されるので、聴覚システムへの依存を減らす。 この観察に触発されて我々は、asr誤り訂正に外部大言語モデル(llm)を利用する最初のオープンソースベンチマークを紹介し、n-bestデコード仮説が真の転写予測に有用な要素を提供する。 このアプローチは、1つの仮説のみを出力転写として選択できる従来の言語モデル再構成戦略からパラダイムシフトである。 提案するベンチマークには,334,000組以上のN-best仮説とそれに対応する音声領域の正確な転写を含む新しいデータセットHyPoradise (HP)が含まれている。 本データセットを用いて,ラベル付き仮説-書き起こしペアを多量に有するLLMに基づく3種類の誤り訂正手法について検討し,単語誤り率(WER)を大幅に低減する。 実験的な証拠は,提案手法が従来の再ランク付け手法の上限を超えることによって,ブレークスルーを達成することを示している。 さらに驚くべきことに、適切なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。 そこで本研究では,LLM を用いた ASR 誤り訂正のための新たな評価パラダイムを提供する。

Advancements in deep neural networks have allowed automatic speech recognition (ASR) systems to attain human parity on several publicly available clean speech datasets. However, even state-of-the-art ASR systems experience performance degradation when confronted with adverse conditions, as a well-trained acoustic model is sensitive to variations in the speech domain, e.g., background noise. Intuitively, humans address this issue by relying on their linguistic knowledge: the meaning of ambiguous spoken terms is usually inferred from contextual cues thereby reducing the dependency on the auditory system. Inspired by this observation, we introduce the first open-source benchmark to utilize external large language models (LLMs) for ASR error correction, where N-best decoding hypotheses provide informative elements for true transcription prediction. This approach is a paradigm shift from the traditional language model rescoring strategy that can only select one candidate hypothesis as the output transcription. The proposed benchmark contains a novel dataset, HyPoradise (HP), encompassing more than 334,000 pairs of N-best hypotheses and corresponding accurate transcriptions across prevalent speech domains. Given this dataset, we examine three types of error correction techniques based on LLMs with varying amounts of labeled hypotheses-transcription pairs, which gains a significant word error rate (WER) reduction. Experimental evidence demonstrates the proposed technique achieves a breakthrough by surpassing the upper bound of traditional re-ranking based methods. More surprisingly, LLM with reasonable prompt and its generative capability can even correct those tokens that are missing in N-best list. We make our results publicly accessible for reproducible pipelines with released pre-trained models, thus providing a new evaluation paradigm for ASR error correction with LLMs.
翻訳日:2023-09-28 13:12:40 公開日:2023-09-27
# Deep Model Fusion: 調査

Deep Model Fusion: A Survey ( http://arxiv.org/abs/2309.15698v1 )

ライセンス: Link先を確認
Weishi Li, Yong Peng, Miao Zhang, Liang Ding, Han Hu, Li Shen(参考訳) deep model fusion/mergingは、複数のディープラーニングモデルのパラメータや予測を単一のものにマージする、新たなテクニックだ。 異なるモデルの能力を組み合わせて、1つのモデルのバイアスとエラーを補い、より良いパフォーマンスを達成する。 しかし、大規模ディープラーニングモデル(LLMや基礎モデルなど)における深層モデルの融合は、高い計算コスト、高次元パラメータ空間、異なる異種モデル間の干渉など、いくつかの課題に直面している。 モデル融合は複雑な実世界のタスクを解決できる可能性から広く注目されているが、この手法に関する完全な詳細な調査研究が不足している。 そこで本研究では,モデル融合法をよりよく理解し,開発を促進するために,最近の進歩を概観する包括的調査を行う。 Specifically, we categorize existing deep model fusion methods as four-fold: (1) "Mode connectivity", which connects the solutions in weight space via a path of non-increasing loss, in order to obtain better initialization for model fusion; (2) "Alignment" matches units between neural networks to create better conditions for fusion; (3) "Weight average", a classical model fusion method, averages the weights of multiple models to obtain more accurate results closer to the optimal solution; (4) "Ensemble learning" combines the outputs of diverse models, which is a foundational technique for improving the accuracy and robustness of the final model. さらに,深層モデル融合が直面する課題を分析し,将来的なモデル融合研究の方向性を提案する。 本稿では,異なるモデル融合法と実用的応用法との相関関係を深く理解し,深層モデル融合の分野での研究を啓蒙する上で有用である。

Deep model fusion/merging is an emerging technique that merges the parameters or predictions of multiple deep learning models into a single one. It combines the abilities of different models to make up for the biases and errors of a single model to achieve better performance. However, deep model fusion on large-scale deep learning models (e.g., LLMs and foundation models) faces several challenges, including high computational cost, high-dimensional parameter space, interference between different heterogeneous models, etc. Although model fusion has attracted widespread attention due to its potential to solve complex real-world tasks, there is still a lack of complete and detailed survey research on this technique. Accordingly, in order to understand the model fusion method better and promote its development, we present a comprehensive survey to summarize the recent progress. Specifically, we categorize existing deep model fusion methods as four-fold: (1) "Mode connectivity", which connects the solutions in weight space via a path of non-increasing loss, in order to obtain better initialization for model fusion; (2) "Alignment" matches units between neural networks to create better conditions for fusion; (3) "Weight average", a classical model fusion method, averages the weights of multiple models to obtain more accurate results closer to the optimal solution; (4) "Ensemble learning" combines the outputs of diverse models, which is a foundational technique for improving the accuracy and robustness of the final model. In addition, we analyze the challenges faced by deep model fusion and propose possible research directions for model fusion in the future. Our review is helpful in deeply understanding the correlation between different model fusion methods and practical application methods, which can enlighten the research in the field of deep model fusion.
翻訳日:2023-09-28 13:12:12 公開日:2023-09-27
# SAR目標認識のための物理誘導型ハイブリッドアテンション

Physics Inspired Hybrid Attention for SAR Target Recognition ( http://arxiv.org/abs/2309.15697v1 )

ライセンス: Link先を確認
Zhongling Huang, Chong Wu, Xiwen Yao, Zhicheng Zhao, Xiankai Huang, Junwei Han(参考訳) SARターゲット認識のための物理モデルとディープニューラルネットワーク(DNN)の統合が注目されている。 属性散乱中心(ASC)パラメータは、ほとんどのメソッドで追加の入力データや融合の特徴として考慮され、最も興味を引いた。 しかし, ASC最適化の結果に大きく依存しており, 融合戦略は様々な物理情報に適応できない。 一方、現在の評価手法はモデルの堅牢性と一般化性を評価するには不十分である。 そこで本研究では,これらの問題に対処するため,物理にインスパイアされたハイブリットアテンション(PIHA)機構とOFA評価プロトコルを提案する。 PIHAは、物理情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導し、事前知識に基づいて機能の重要さを再強調する。 柔軟性があり、様々な物理モデルに適用でき、元のアーキテクチャを変更することなく任意のDNNに統合できる。 この実験は、十分なデータまたは限られたデータ上でモデルを訓練し、検証し、異なるデータ分布を持つ複数のテストセットで評価するOFAを用いた厳密な評価を含む。 提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。 さらに、PIHAの動作機構を分析し、各種のPIHA有効DNNを評価する。 実験では、PIHAは異なる物理情報に有効であることを示した。 採用されている物理情報とともにソースコードはhttps://github.com/XAI4SARで入手できる。

There has been a recent emphasis on integrating physical models and deep neural networks (DNNs) for SAR target recognition, to improve performance and achieve a higher level of physical interpretability. The attributed scattering center (ASC) parameters garnered the most interest, being considered as additional input data or features for fusion in most methods. However, the performance greatly depends on the ASC optimization result, and the fusion strategy is not adaptable to different types of physical information. Meanwhile, the current evaluation scheme is inadequate to assess the model's robustness and generalizability. Thus, we propose a physics inspired hybrid attention (PIHA) mechanism and the once-for-all (OFA) evaluation protocol to address the above issues. PIHA leverages the high-level semantics of physical information to activate and guide the feature group aware of local semantics of target, so as to re-weight the feature importance based on knowledge prior. It is flexible and generally applicable to various physical models, and can be integrated into arbitrary DNNs without modifying the original architecture. The experiments involve a rigorous assessment using the proposed OFA, which entails training and validating a model on either sufficient or limited data and evaluating on multiple test sets with different data distributions. Our method outperforms other state-of-the-art approaches in 12 test scenarios with same ASC parameters. Moreover, we analyze the working mechanism of PIHA and evaluate various PIHA enabled DNNs. The experiments also show PIHA is effective for different physical information. The source code together with the adopted physical information is available at https://github.com/XAI4SAR.
翻訳日:2023-09-28 13:11:45 公開日:2023-09-27
# InfraParis: マルチモーダルとマルチタスクの自動運転データセット

InfraParis: A multi-modal and multi-task autonomous driving dataset ( http://arxiv.org/abs/2309.15751v1 )

ライセンス: Link先を確認
Gianni Franchi, Marwane Hariat, Xuanlong Yu, Nacim Belkhir, Antoine Manzanera and David Filliat(参考訳) 現在の自動運転コンピュータビジョンのためのディープニューラルネットワーク(dnn)は、通常、1種類のデータと都市シーンのみを含む特定のデータセットで訓練される。 結果として、これらのモデルは、新しいオブジェクト、ノイズ、夜間条件、および様々なシナリオを扱うのに苦労する。 コンピュータビジョンdnnの回復力を高める努力を続けているが、複数のモダリティを特徴とするベンチマークが欠如していることもあって、進歩は鈍化している。 本稿では,rgb,奥行き,赤外線の3つのモードにまたがる複数のタスクをサポートするinfraparisという,新しい汎用データセットを紹介する。 セマンティクスセグメンテーション,オブジェクト検出,深さ推定といったタスクのためのモデルを含む,最先端のベースライン技術を評価する。

Current deep neural networks (DNNs) for autonomous driving computer vision are typically trained on specific datasets that only involve a single type of data and urban scenes. Consequently, these models struggle to handle new objects, noise, nighttime conditions, and diverse scenarios, which is essential for safety-critical applications. Despite ongoing efforts to enhance the resilience of computer vision DNNs, progress has been sluggish, partly due to the absence of benchmarks featuring multiple modalities. We introduce a novel and versatile dataset named InfraParis that supports multiple tasks across three modalities: RGB, depth, and infrared. We assess various state-of-the-art baseline techniques, encompassing models for the tasks of semantic segmentation, object detection, and depth estimation.
翻訳日:2023-09-28 13:05:14 公開日:2023-09-27
# 3Dカメラによる肺がん検診の自動化

Automated CT Lung Cancer Screening Workflow using 3D Camera ( http://arxiv.org/abs/2309.15750v1 )

ライセンス: Link先を確認
Brian Teixeira, Vivek Singh, Birgi Tamersoy, Andreas Prokein, Ankur Kapoor(参考訳) 患者の位置決めの自動化を可能にする最近のct計画の進展にもかかわらず、服用量プロファイルの計算と患者の適切な位置の確保には、時間を要するスカウトスキャンが必要である。 本稿では,患者スキャン範囲,アイソセンタ,水等価径(WED)を3次元カメラ画像から推定することにより,CT肺がん検診におけるスカウトスキャンの必要性を解消する手法を提案する。 本研究では,6万以上のctスキャンで暗黙的な生成モデルを訓練し,リアルタイムスキャンデータを用いた予測更新手法を提案する。 本手法は,110組の深度データとctスキャンで有効性を示し,アイソセンタ推定では平均誤差5mm,スキャン範囲決定では13mm,apと横方向wedをそれぞれ10mm,横方向wed推定では16mmであった。 提案手法の相対的なWED誤差は4%であり,国際電気技術委員会(IEC)の受理基準の10%に適している。

Despite recent developments in CT planning that enabled automation in patient positioning, time-consuming scout scans are still needed to compute dose profile and ensure the patient is properly positioned. In this paper, we present a novel method which eliminates the need for scout scans in CT lung cancer screening by estimating patient scan range, isocenter, and Water Equivalent Diameter (WED) from 3D camera images. We achieve this task by training an implicit generative model on over 60,000 CT scans and introduce a novel approach for updating the prediction using real-time scan data. We demonstrate the effectiveness of our method on a testing set of 110 pairs of depth data and CT scan, resulting in an average error of 5mm in estimating the isocenter, 13mm in determining the scan range, 10mm and 16mm in estimating the AP and lateral WED respectively. The relative WED error of our method is 4%, which is well within the International Electrotechnical Commission (IEC) acceptance criteria of 10%.
翻訳日:2023-09-28 13:05:00 公開日:2023-09-27
# 量子均質化のためのコヒーレントモデルと非コヒーレントモデルの比較

Comparing coherent and incoherent models for quantum homogenization ( http://arxiv.org/abs/2309.15741v1 )

ライセンス: Link先を確認
Anna Beever, Maria Violaris, Chiara Marletto and Vlatko Vedral(参考訳) 本稿では,収束特性が熱化過程をモデル化する量子ホモゲナイザにおける量子干渉の役割について検討する。 元の量子ホモジェナイザープロトコルでは、系 qubit は部分スワップ相互作用を通じて同一の貯水池 qubit の状態に収束し、貯水池 qubit 間の干渉を可能にする。 我々は、制御-スワップ相互作用を用いた制御量子ビットによって各システム-保存相互作用をモデレートする、非一貫性量子ホモゲナイザを設計した。 我々の非一貫性ホモゲナイザは、任意の状態から任意の状態へ量子ビットを任意の精度に変換でき、貯水池の量子ビットの状態に何の影響も与えられないような、ホモゲナイズの本質的な条件を満たす。 その結果, 熱分解のモデル化に重要な均質化機械の収束特性は, 量子ビット間のコヒーレンスに依存しないことがわかった。 次に、状態変換を行うホモジェナイザーの再利用に必要なリソースのバウンダリを導出する。 これは、どちらのホモジェナイザーも、資源コストを増大させるため、任意の数のホモジェナイザーに対して普遍的であることを示す。

Here we investigate the role of quantum interference in the quantum homogenizer, whose convergence properties model a thermalization process. In the original quantum homogenizer protocol, a system qubit converges to the state of identical reservoir qubits through partial-swap interactions, that allow interference between reservoir qubits. We design an alternative, incoherent quantum homogenizer, where each system-reservoir interaction is moderated by a control qubit using a controlled-swap interaction. We show that our incoherent homogenizer satisfies the essential conditions for homogenization, being able to transform a qubit from any state to any other state to arbitrary accuracy, with negligible impact on the reservoir qubits' states. Our results show that the convergence properties of homogenization machines that are important for modelling thermalization are not dependent on coherence between qubits in the homogenization protocol. We then derive bounds on the resources required to re-use the homogenizers for performing state transformations. This demonstrates that both homogenizers are universal for any number of homogenizations, for an increased resource cost.
翻訳日:2023-09-28 13:04:39 公開日:2023-09-27
# 経験と証拠は優れた要約者の目です! マルチモーダルな臨床会話要約の知識化に向けて

Experience and Evidence are the eyes of an excellent summarizer! Towards Knowledge Infused Multi-modal Clinical Conversation Summarization ( http://arxiv.org/abs/2309.15739v1 )

ライセンス: Link先を確認
Abhisek Tiwari, Anisha Saha, Sriparna Saha, Pushpak Bhattacharyya and Minakshi Dhar(参考訳) 遠隔医療の進展に伴い、研究者と医療従事者は共同で、診断報告生成など、様々な医療業務を自動化する様々な技術開発に取り組んでいる。 本稿ではまず,臨床と臨床の相互作用(テキスト情報と視覚情報の両方)を取り入れ,簡潔な会話合成を生成するマルチモーダルな臨床会話要約生成タスクを提案する。 本稿では,知識を注入したマルチモーダルなマルチタスク医療ドメイン識別と臨床会話要約生成(MM-CliConSummation)フレームワークを提案する。 アダプタを利用して知識と視覚的特徴を注入し、ゲート機構を使って融合した特徴ベクトルを統一する。 さらに,意図・症状・要約を付記したマルチモーダル・マルチインテント臨床会話要約コーパスを開発した。 定量的にも質的にも幅広い実験が行われ、以下の結果が得られた。 a)視覚上の重要な重要性 b)追加知識注入による要約を保存したより正確で医療的な機関 (c)医療部門識別と臨床シナプス生成の相関 さらにデータセットとソースコードはhttps://github.com/NLP-RL/MM-CliConSummationで公開されている。

With the advancement of telemedicine, both researchers and medical practitioners are working hand-in-hand to develop various techniques to automate various medical operations, such as diagnosis report generation. In this paper, we first present a multi-modal clinical conversation summary generation task that takes a clinician-patient interaction (both textual and visual information) and generates a succinct synopsis of the conversation. We propose a knowledge-infused, multi-modal, multi-tasking medical domain identification and clinical conversation summary generation (MM-CliConSummation) framework. It leverages an adapter to infuse knowledge and visual features and unify the fused feature vector using a gated mechanism. Furthermore, we developed a multi-modal, multi-intent clinical conversation summarization corpus annotated with intent, symptom, and summary. The extensive set of experiments, both quantitatively and qualitatively, led to the following findings: (a) critical significance of visuals, (b) more precise and medical entity preserving summary with additional knowledge infusion, and (c) a correlation between medical department identification and clinical synopsis generation. Furthermore, the dataset and source code are available at https://github.com/NLP-RL/MM-CliConSummation.
翻訳日:2023-09-28 13:04:18 公開日:2023-09-27
# 制約付き強化学習における潜在的に効率的な探索:余剰サンプリングがすべて必要である

Provably Efficient Exploration in Constrained Reinforcement Learning:Posterior Sampling Is All You Need ( http://arxiv.org/abs/2309.15737v1 )

ライセンス: Link先を確認
Danil Provodin, Pratik Gajane, Mykola Pechenizkiy and Maurits Kaptein(参考訳) 本稿では,制約付きマルコフ決定過程(CMDP)における学習のための後方サンプリングに基づく新しいアルゴリズムを提案する。 このアルゴリズムは,既存のアルゴリズムと比較して経験的に有利でありながら,ほぼ最適の後悔境界を達成する。 我々の主要な理論的結果は、S状態、A作用、および打点時間Hとの通信CMDPの各々のコスト成分に対するベイズ的後悔境界(HS \sqrt{AT})であり、この後悔境界は時間水平線Tの順序で下界と一致し、無限水平非割当な設定でCMDPを通信するための最もよく知られた後悔境界である。 実験の結果,提案アルゴリズムは単純性に拘わらず,既存の強化学習アルゴリズムよりも優れていることがわかった。

We present a new algorithm based on posterior sampling for learning in constrained Markov decision processes (CMDP) in the infinite-horizon undiscounted setting. The algorithm achieves near-optimal regret bounds while being advantageous empirically compared to the existing algorithms. Our main theoretical result is a Bayesian regret bound for each cost component of \tilde{O} (HS \sqrt{AT}) for any communicating CMDP with S states, A actions, and bound on the hitting time H. This regret bound matches the lower bound in order of time horizon T and is the best-known regret bound for communicating CMDPs in the infinite-horizon undiscounted setting. Empirical results show that, despite its simplicity, our posterior sampling algorithm outperforms the existing algorithms for constrained reinforcement learning.
翻訳日:2023-09-28 13:04:02 公開日:2023-09-27
# スタイル転送を用いた合成潜時指紋生成

Synthetic Latent Fingerprint Generation Using Style Transfer ( http://arxiv.org/abs/2309.15734v1 )

ライセンス: Link先を確認
Amol S. Joshi, Ali Dabouei, Nasser Nasrabadi, Jeremy Dawson(参考訳) データ可用性の制限は、潜在指紋ドメインでは難しい問題である。 合成生成された指紋は、データハングリーニューラルネットワークベースのアルゴリズムのトレーニングに不可欠である。 従来の方法は、きれいな指紋を歪めて合成潜在指紋を生成する。 本稿では,スタイル転送とイメージブレンドを用いた,リアルな潜在指紋合成のための簡易かつ効果的な手法を提案する。 評価基準と実験により, 合成潜伏指紋は, 実際の潜伏指紋と類似した特徴を有しつつ, 入力された接触指紋からの識別情報を保持できることが確認された。 また,生成した指紋が複数の品質やスタイルを示すことを示し,提案手法が1つの指紋から複数のサンプルを生成できることを示す。

Limited data availability is a challenging problem in the latent fingerprint domain. Synthetically generated fingerprints are vital for training data-hungry neural network-based algorithms. Conventional methods distort clean fingerprints to generate synthetic latent fingerprints. We propose a simple and effective approach using style transfer and image blending to synthesize realistic latent fingerprints. Our evaluation criteria and experiments demonstrate that the generated synthetic latent fingerprints preserve the identity information from the input contact-based fingerprints while possessing similar characteristics as real latent fingerprints. Additionally, we show that the generated fingerprints exhibit several qualities and styles, suggesting that the proposed method can generate multiple samples from a single fingerprint.
翻訳日:2023-09-28 13:03:46 公開日:2023-09-27
# 深層学習に基づくアトラクション盆地の解析

Deep Learning-based Analysis of Basins of Attraction ( http://arxiv.org/abs/2309.15732v1 )

ライセンス: Link先を確認
David Valle, Alexandre Wagemakers, Miguel A.F. Sanju\'an(参考訳) 本研究では,多様な力学系に対するアトラクション盆地の複雑さと予測不可能性を特徴付けるために,畳み込みニューラルネットワーク(CNN)の有効性を示す。 従来の手法は複数のアトラクションを特徴付けるのに計算コストがかかるため,この手法は力学系の異なるパラメータを探索するのに最適である。 さらに,提案手法が従来の手法よりも優れていることを示すCNNアーキテクチャの比較を行った。

This study showcases the effectiveness of convolutional neural networks (CNNs) in characterizing the complexity and unpredictability of basins of attraction for diverse dynamical systems. This novel method is optimal for exploring different parameters of dynamical systems since the conventional methods are computationally expensive for characterizing multiple basins of attraction. Additionally, our research includes a comparison of different CNN architectures for this task showing the superiority of our proposed characterization method over the conventional methods, even with obsolete architectures.
翻訳日:2023-09-28 13:03:36 公開日:2023-09-27
# 時間グラフモデルは、大域的時間的ダイナミクスを捉えるのに失敗する

Temporal graph models fail to capture global temporal dynamics ( http://arxiv.org/abs/2309.15730v1 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Jacek D\k{a}browski(参考訳) 最近リリースされたTemporal Graph Benchmarkは、Dynamic Link Property Predictionのコンテキストで分析されている。 我々は,この観察を概説し,時間グラフベンチマークにおいて,すべての中規模および大規模データセットにおいて,他の手法に匹敵する「最近人気の高いノード」の最適化フリーベースラインを提案する。 本研究では,データセットの短期的および長期的大域的ダイナミクスの強さを定量化可能なwasserstein距離に基づく2つの尺度を提案する。 予期せぬほど強いベースラインを解析することにより,時間的ダイナミクスの強いデータセットに対して,標準負サンプリング評価がいかに不適切であるかを示す。 また、簡単な負サンプリングがトレーニング中にモデル変性を引き起こすことを示し、時間グラフネットワークの完全飽和予測のランク付けが不可能であることを示す。 学習と評価の両面でのネガティブサンプリング手法の改良を提案し,その有用性を検証した。 負のサンプリングを伴わずに非対照的に訓練されたモデルとの比較を行う。 その結果,ソーシャルメディアや暗号通貨市場,eコマースなど,世界規模で大きなダイナミクスを持つ問題に対して,時間的グラフネットワークアーキテクチャを深く再考する必要があることが示された。 ベースライン,測度,提案する負のサンプリングスキームのコードをオープンソース化する。

A recently released Temporal Graph Benchmark is analyzed in the context of Dynamic Link Property Prediction. We outline our observations and propose a trivial optimization-free baseline of "recently popular nodes" outperforming other methods on all medium and large-size datasets in the Temporal Graph Benchmark. We propose two measures based on Wasserstein distance which can quantify the strength of short-term and long-term global dynamics of datasets. By analyzing our unexpectedly strong baseline, we show how standard negative sampling evaluation can be unsuitable for datasets with strong temporal dynamics. We also show how simple negative-sampling can lead to model degeneration during training, resulting in impossible to rank, fully saturated predictions of temporal graph networks. We propose improved negative sampling schemes for both training and evaluation and prove their usefulness. We conduct a comparison with a model trained non-contrastively without negative sampling. Our results provide a challenging baseline and indicate that temporal graph network architectures need deep rethinking for usage in problems with significant global dynamics, such as social media, cryptocurrency markets or e-commerce. We open-source the code for baselines, measures and proposed negative sampling schemes.
翻訳日:2023-09-28 13:03:28 公開日:2023-09-27
# MindGPT:非侵襲的な脳記録で見るものを解釈する

MindGPT: Interpreting What You See with Non-invasive Brain Recordings ( http://arxiv.org/abs/2309.15729v1 )

ライセンス: Link先を確認
Jiaxuan Chen, Yu Qi, Yueming Wang, Gang Pan(参考訳) 非侵襲的な脳記録による視覚内容の復号は、重要な科学的および実践的な価値を持つ。 脳の信号から観察された画像を回復する努力がなされている。 しかし、既存のほとんどのアプローチは、画像の品質や意味的ミスマッチが不十分なため、視覚的内容に忠実に反映できない。 画素レベルの視覚画像の再構成と比較すると、発話は視覚情報を説明するためのより効率的で効果的な方法である。 本稿では,fMRI信号から知覚された視覚刺激を自然言語に解釈する非侵襲的神経デコーダMindGPTを紹介する。 具体的には,大規模言語モデルGPTの協調的利用により,視覚的にガイドされたニューラルエンコーダに基づいて,潜在的ニューラル表現を所望の言語意味方向へ導出することを可能にする。 これにより、MindGPTの神経表現が説明可能であり、言語意味論への視覚的特性の寄与を評価するのに使用できることがわかった。 実験では,生成された単語列が視覚情報(本質的詳細)を真に表現していることを示す。 また, 言語復号処理においては, 高次視覚野(HVC)は低次視覚野(LVC)よりも意味的に有意であり, 意味情報の大半をHVCのみを用いて回収できることが示唆された。 MindGPTモデルのコードはhttps://github.com/JxuanC/MindGPTで公開されている。

Decoding of seen visual contents with non-invasive brain recordings has important scientific and practical values. Efforts have been made to recover the seen images from brain signals. However, most existing approaches cannot faithfully reflect the visual contents due to insufficient image quality or semantic mismatches. Compared with reconstructing pixel-level visual images, speaking is a more efficient and effective way to explain visual information. Here we introduce a non-invasive neural decoder, termed as MindGPT, which interprets perceived visual stimuli into natural languages from fMRI signals. Specifically, our model builds upon a visually guided neural encoder with a cross-attention mechanism, which permits us to guide latent neural representations towards a desired language semantic direction in an end-to-end manner by the collaborative use of the large language model GPT. By doing so, we found that the neural representations of the MindGPT are explainable, which can be used to evaluate the contributions of visual properties to language semantics. Our experiments show that the generated word sequences truthfully represented the visual information (with essential details) conveyed in the seen stimuli. The results also suggested that with respect to language decoding tasks, the higher visual cortex (HVC) is more semantically informative than the lower visual cortex (LVC), and using only the HVC can recover most of the semantic information. The code of the MindGPT model will be publicly available at https://github.com/JxuanC/MindGPT.
翻訳日:2023-09-28 13:03:09 公開日:2023-09-27
# 教師なし画像生成とセグメンテーションのための因子拡散アーキテクチャ

Factorized Diffusion Architectures for Unsupervised Image Generation and Segmentation ( http://arxiv.org/abs/2309.15726v1 )

ライセンス: Link先を確認
Xin Yuan, Michael Maire(参考訳) 本研究では,非教師付き拡散モデルとして訓練されたニューラルネットワークアーキテクチャを構築し,画像の生成とセグメント分割を同時に学習する。 学習は、トレーニング中の領域に関する注釈や事前知識なしで、分断拡散目標によって完全に駆動される。 ニューラルネットワークに組み込まれた計算ボトルネックにより、デノナイズネットワークは、入力をリージョンに分割し、それらを並列にデノナイズし、結果を組み合わせることを奨励する。 我々の訓練されたモデルは、合成画像と、その内部予測分割の簡易な検証により、それらの画像の意味的セグメンテーションを生成する。 微調整がなければ、ノイズ処理を通じて実際のイメージをセグメンテーションする下流タスクに、教師なしのモデルを直接適用します。 実験により,複数のデータセットにまたがって,高精度な教師なし画像分割と高品質合成画像生成を実現することを実証した。

We develop a neural network architecture which, trained in an unsupervised manner as a denoising diffusion model, simultaneously learns to both generate and segment images. Learning is driven entirely by the denoising diffusion objective, without any annotation or prior knowledge about regions during training. A computational bottleneck, built into the neural architecture, encourages the denoising network to partition an input into regions, denoise them in parallel, and combine the results. Our trained model generates both synthetic images and, by simple examination of its internal predicted partitions, a semantic segmentation of those images. Without any finetuning, we directly apply our unsupervised model to the downstream task of segmenting real images via noising and subsequently denoising them. Experiments demonstrate that our model achieves accurate unsupervised image segmentation and high-quality synthetic image generation across multiple datasets.
翻訳日:2023-09-28 13:02:42 公開日:2023-09-27
# 低資源インド語マラーティーにおけるディープラーニングを用いた質問応答

Question answering using deep learning in low resource Indian language Marathi ( http://arxiv.org/abs/2309.15779v1 )

ライセンス: Link先を確認
Dhiraj Amin, Sharvari Govilkar, Sagar Kulkarni(参考訳) 質問応答システムにおいて、所定の入力質問に対するテキストから正確な回答を抽出する。 marathiの質問応答システムは、オントロジー、ルールベース、機械学習に基づくアプローチを用いて最近の研究で作成されている。 近年,質問応答問題の解決にトランスフォーマーモデルやトランスファーラーニングアプローチが用いられている。 本稿では,読み理解に基づくマラーティー質問応答システムを構築するためのトランスフォーマモデルについて検討する。 インド語多言語表現(MuRIL)、MahaBERT(MahaBERT)、Indic Bidirectional Encoder Representations from Transformers(IndicBERT)などの事前訓練されたマラタイ語多言語モデルとモノリンガルモデルについて実験を行い、マラタイ語の理解に基づくデータセットを微調整した。 EMスコアが0.64、F1スコアが0.74のMuRIL多言語モデルでは、マラシデータセット上でモデルを微調整することで、最良の精度を得た。

Precise answers are extracted from a text for a given input question in a question answering system. Marathi question answering system is created in recent studies by using ontology, rule base and machine learning based approaches. Recently transformer models and transfer learning approaches are used to solve question answering challenges. In this paper we investigate different transformer models for creating a reading comprehension-based Marathi question answering system. We have experimented on different pretrained Marathi language multilingual and monolingual models like Multilingual Representations for Indian Languages (MuRIL), MahaBERT, Indic Bidirectional Encoder Representations from Transformers (IndicBERT) and fine-tuned it on a Marathi reading comprehension-based data set. We got the best accuracy in a MuRIL multilingual model with an EM score of 0.64 and F1 score of 0.74 by fine tuning the model on the Marathi dataset.
翻訳日:2023-09-28 12:54:38 公開日:2023-09-27
# 効率的なフロンティアを学ぶ

Learning the Efficient Frontier ( http://arxiv.org/abs/2309.15775v1 )

ライセンス: Link先を確認
Philippe Chatigny and Ivan Sergienko and Ryan Ferguson and Jordan Weir and Maxime Bergeron(参考訳) 効率的なフロンティア(EF)は、与えられたリスクレベルにおける報酬を最大化する最適なポートフォリオを見つける必要がある基本的なリソース割り当て問題である。 この最適解は伝統的に凸最適化問題を解くことによって得られる。 本稿では,不均一な線形制約と可変数の最適化入力に対して,EF凸最適化問題の結果を頑健に予測する高速ニューラルネットワーク近似フレームワークであるNeuralEFを紹介する。 逐次問題として最適化問題を再構成することにより,不連続な動作を処理しながら大規模シミュレーションを高速化するためのNeuralEFが実現可能であることを示す。

The efficient frontier (EF) is a fundamental resource allocation problem where one has to find an optimal portfolio maximizing a reward at a given level of risk. This optimal solution is traditionally found by solving a convex optimization problem. In this paper, we introduce NeuralEF: a fast neural approximation framework that robustly forecasts the result of the EF convex optimization problem with respect to heterogeneous linear constraints and variable number of optimization inputs. By reformulating an optimization problem as a sequence to sequence problem, we show that NeuralEF is a viable solution to accelerate large-scale simulation while handling discontinuous behavior.
翻訳日:2023-09-28 12:54:19 公開日:2023-09-27
# 重要度の高いオフライン学習が正しい

Importance-Weighted Offline Learning Done Right ( http://arxiv.org/abs/2309.15771v1 )

ライセンス: Link先を確認
Germano Gabbianelli, Gergely Neu, Matteo Papini(参考訳) 確率的文脈的包帯問題におけるオフラインポリシー最適化の問題について検討し、その目的は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学習することである。 報酬関数の構造的な仮定をするのではなく、与えられたポリシークラスにアクセスし、このクラスで最高のコンパレータポリシーと競うことを目標とします。 この設定では、各ポリシーの値の重み付けされた推定器を計算し、推定値から抽出された「悲観的な」調整まで最小化してランダムな変動を減少させるポリシーを選択する。 本稿では, \citet{neu2015} を推定する "implicit exploration" に基づく単純な代替手法によって,これまでのすべての結果に対してほぼすべての条件で優れた性能保証が得られることを示す。 最も注目すべきは,これまでのすべての作業で,極めて限定的な"一様カバレッジ"の仮定を取り除いたことです。 これらの改善は、上肢と下肢の重み付け推定器が互いに非常に異なる振る舞いをしており、それらの注意制御は、すべて対称な両側濃度の不等式に基づく以前の結果に対して大幅に改善することができる。 また,pac-bayesian方式で無限政策クラスに結果を拡張し,数値シミュレーションによるハイパーパラメータの選択に対するアルゴリズムの頑健性を示す。

We study the problem of offline policy optimization in stochastic contextual bandit problems, where the goal is to learn a near-optimal policy based on a dataset of decision data collected by a suboptimal behavior policy. Rather than making any structural assumptions on the reward function, we assume access to a given policy class and aim to compete with the best comparator policy within this class. In this setting, a standard approach is to compute importance-weighted estimators of the value of each policy, and select a policy that minimizes the estimated value up to a "pessimistic" adjustment subtracted from the estimates to reduce their random fluctuations. In this paper, we show that a simple alternative approach based on the "implicit exploration" estimator of \citet{Neu2015} yields performance guarantees that are superior in nearly all possible terms to all previous results. Most notably, we remove an extremely restrictive "uniform coverage" assumption made in all previous works. These improvements are made possible by the observation that the upper and lower tails importance-weighted estimators behave very differently from each other, and their careful control can massively improve on previous results that were all based on symmetric two-sided concentration inequalities. We also extend our results to infinite policy classes in a PAC-Bayesian fashion, and showcase the robustness of our algorithm to the choice of hyper-parameters by means of numerical simulations.
翻訳日:2023-09-28 12:54:09 公開日:2023-09-27
# 普通最小方形補間器の代数的および統計的特性

Algebraic and Statistical Properties of the Ordinary Least Squares Interpolator ( http://arxiv.org/abs/2309.15769v1 )

ライセンス: Link先を確認
Dennis Shen, Dogyoon Song, Peng Ding and Jasjeet S. Sekhon(参考訳) 深層学習研究により、過度パラメータ化統計モデルに対する良性過剰適合現象が明らかにされ、近年は重要な理論的な関心を集めている。 その単純さと実用性を考えると、通常の最小二乗(ols)補間器は、この現象に関する基礎的な洞察を得るために必須である。 OLSの特性は古典的な設定ではよく確立されているが、高次元環境での挙動は(尾根やラッソレグレッションとは異なり)解明されていない。 我々は、最小$$\ell_2$-norm OLS補間子に対して代数的および統計的結果を提供することにより、この成長する文献に寄与する。 特に、我々は高次元代数的同値を与える。 (i)残余公式の残高-$k$-out (ii)コクランの公式、及び (iii) フリッシュ=ヴォー=ラヴエルの定理。 これらの結果は、OLS補間器の一般化能力の理解に役立ち、因果推論に実質的な意味を持つ。 さらに,gauss-markovモデルの下では,gauss-markov定理の高次元拡張やホモスケシュタスティック誤差下の分散推定の解析などの統計的結果を示す。 理論的な貢献を証明するために、我々はols補間器の確率的性質をさらに探究するシミュレーション研究を行う。

Deep learning research has uncovered the phenomenon of benign overfitting for over-parameterized statistical models, which has drawn significant theoretical interest in recent years. Given its simplicity and practicality, the ordinary least squares (OLS) interpolator has become essential to gain foundational insights into this phenomenon. While properties of OLS are well established in classical settings, its behavior in high-dimensional settings is less explored (unlike for ridge or lasso regression) though significant progress has been made of late. We contribute to this growing literature by providing fundamental algebraic and statistical results for the minimum $\ell_2$-norm OLS interpolator. In particular, we provide high-dimensional algebraic equivalents of (i) the leave-$k$-out residual formula, (ii) Cochran's formula, and (iii) the Frisch-Waugh-Lovell theorem. These results aid in understanding the OLS interpolator's ability to generalize and have substantive implications for causal inference. Additionally, under the Gauss-Markov model, we present statistical results such as a high-dimensional extension of the Gauss-Markov theorem and an analysis of variance estimation under homoskedastic errors. To substantiate our theoretical contributions, we conduct simulation studies that further explore the stochastic properties of the OLS interpolator.
翻訳日:2023-09-28 12:53:45 公開日:2023-09-27
# ソフトウェア工学におけるAI - ケーススタディと展望

AI in Software Engineering: Case Studies and Prospects ( http://arxiv.org/abs/2309.15768v1 )

ライセンス: Link先を確認
Lei Wang(参考訳) 人工知能(AI)とソフトウェア工学(SE)はコンピュータ科学において重要な分野である。 近年、研究者はソフトウェア製品の全体的な品質を改善するために、ソフトウェア開発のさまざまな段階にAI技術を適用しようとしている。 さらに、SEとAIの交差点に焦点を当てた研究者もいる。 実際、SEとAIの関係は非常に弱いが、別の分野では、ある分野の手法と技術が採用されている。 ますます多くのソフトウェア製品が、人間のようなインテリジェントな行動を実行できるようになる。 本稿では,IBM WatsonとGoogle AlphaGoの2つのケーススタディについて,現実の課題を解決するために異なるAI技術を用いて分析,評価,比較を行った。 両方のケーススタディの分析に基づいて、ソフトウェアシステムにおけるディープラーニングや機械学習といったAI技術の使用は、インテリジェントシステムに寄与する。 ワトソンは人間の意思決定を支援するために「意思決定支援」戦略を採用するが、AlphaGoは「自己決定決定」を使って最良の結果に貢献する操作を選択する。 また、Watsonは紙などの人為的なリソースから学び、AlphaGoは写真などの膨大なオンラインリソースから学ぶ。 AlphaGoはニューラルネットワークと強化学習を使って人間の脳を模倣している。 しかし、人間の脳と機械が本質的に異なるため、機械で人間の脳を再現し、コンピュータを思考者として見るためには、まだまだ長い道のりがある。 コンピューターやソフトウェアシステムがより賢くなって、人間ができないような現実の挑戦的な問題に役立てられるようになるかどうか、もっと期待できるだろう。

Artificial intelligence (AI) and software engineering (SE) are two important areas in computer science. In recent years, researchers are trying to apply AI techniques in various stages of software development to improve the overall quality of software products. Moreover, there are also some researchers focus on the intersection between SE and AI. In fact, the relationship between SE and AI is very weak; however, methods and techniques in one area have been adopted in another area. More and more software products are capable of performing intelligent behaviour like human beings. In this paper, two cases studies which are IBM Watson and Google AlphaGo that use different AI techniques in solving real world challenging problems have been analysed, evaluated and compared. Based on the analysis of both case studies, using AI techniques such as deep learning and machine learning in software systems contributes to intelligent systems. Watson adopts 'decision making support' strategy to help human make decisions; whereas AlphaGo uses 'self-decision making' to choose operations that contribute to the best outcome. In addition, Watson learns from man-made resources such as paper; AlphaGo, on the other hand, learns from massive online resources such as photos. AlphaGo uses neural networks and reinforcement learning to mimic human brain, which might be very useful in medical research for diagnosis and treatment. However, there is still a long way to go if we want to reproduce human brain in machine and view computers as thinkers, because human brain and machines are intrinsically different. It would be more promising to see whether computers and software systems will become more and more intelligent to help with real world challenging problems that human beings cannot do.
翻訳日:2023-09-28 12:53:22 公開日:2023-09-27
# ラピッドネットワーク適応:テスト時間フィードバックを用いたニューラルネットワーク適応学習

Rapid Network Adaptation: Learning to Adapt Neural Networks Using Test-Time Feedback ( http://arxiv.org/abs/2309.15762v1 )

ライセンス: Link先を確認
Teresa Yeo, O\u{g}uzhan Fatih Kar, Zahra Sodagar, Amir Zamir(参考訳) テスト時間における分散シフトにニューラルネットワークを適用する手法を提案する。 シフトを予測し、対応しようとする訓練時堅牢性メカニズムとは対照的に、クローズドループシステムを作成し、テスト時フィードバック信号を用いてネットワークをオンザフライで適応させる。 このループは,ネットワークの償却オプティマイザを実現する学習型関数を用いて効果的に実装できることを示す。 これにより、Rapid Network Adaptation (RNA) と呼ばれる適応手法が実現され、ベースラインよりも柔軟で桁違いに高速になる。 様々な適応信号と目標タスクを用いた幅広い実験を通して,本手法の効率性と柔軟性について検討する。 我々は,様々なデータセット (Taskonomy, Replica, ScanNet, Hypersim, COCO, ImageNet), タスク (深度, 光フロー, セマンティックセグメンテーション, 分類), および分布シフト (クロスデータセット, 2D, 3D Common Corruptions) を用いて, 有望な結果を得た。 分布シフトを扱うための一般的な定式化に関する議論と、他の領域との類似したアプローチとの比較から観察する。

We propose a method for adapting neural networks to distribution shifts at test-time. In contrast to training-time robustness mechanisms that attempt to anticipate and counter the shift, we create a closed-loop system and make use of a test-time feedback signal to adapt a network on the fly. We show that this loop can be effectively implemented using a learning-based function, which realizes an amortized optimizer for the network. This leads to an adaptation method, named Rapid Network Adaptation (RNA), that is notably more flexible and orders of magnitude faster than the baselines. Through a broad set of experiments using various adaptation signals and target tasks, we study the efficiency and flexibility of this method. We perform the evaluations using various datasets (Taskonomy, Replica, ScanNet, Hypersim, COCO, ImageNet), tasks (depth, optical flow, semantic segmentation, classification), and distribution shifts (Cross-datasets, 2D and 3D Common Corruptions) with promising results. We end with a discussion on general formulations for handling distribution shifts and our observations from comparing with similar approaches from other domains.
翻訳日:2023-09-28 12:52:57 公開日:2023-09-27
# ハイブリッドテンソルネットワークにおけるノイズ伝搬

Noise propagation in hybrid tensor networks ( http://arxiv.org/abs/2309.15761v1 )

ライセンス: Link先を確認
Hiroyuki Harada, Yasunari Suzuki, Bo Yang, Yuuki Tokunaga, Suguru Endo(参考訳) ハイブリッドテンソルネットワーク(hybrid tensor network, htn)法は、古典テンソルと量子テンソル、すなわち量子状態の振幅を組み合わせた効果的な波動関数を構築するための一般的なフレームワークである。 特に、ハイブリッドツリーテンソルネットワークは、量子ハードウェアの利用可能なサイズを超える大規模システムのシミュレーションに非常に有用である。 しかしながら、NISQハードウェアの現実的な量子状態はノイズが多い可能性が高いが、このフレームワークは純粋な状態に対して定式化されている。 本研究は,ハイブリッドツリーテンソルネットワークの枠組み下でのディープVQEと絡み合わさった鍛造の手法について議論するとともに,シミュレーション量子系の大きさとノイズ伝搬の展開を記述するための拡張行列を導入することにより,収縮中のノイズHTN状態について検討する。 このフレームワークは、一般的な木 HTN 状態の明示的な表現とそれらの物理性に関する議論を可能にする。 また、測定可能な観測値の期待値は、収縮した量子テンソルの数で指数関数的に消えることを示す。 我々の研究は、htn状態のノイズ耐性の構築に繋がる。

The hybrid tensor network (HTN) method is a general framework allowing for constructing an effective wavefunction with the combination of classical tensors and quantum tensors, i.e., amplitudes of quantum states. In particular, hybrid tree tensor networks are significantly useful for the simulation of larger systems beyond the available size of quantum hardware. However, while the realistic quantum states in NISQ hardware are highly likely to be noisy, this framework is formulated for pure states. In this work, as well as discussing the relevant methods, i.e., Deep VQE and entanglement forging under the framework of hybrid tree tensor networks, we investigate the noisy HTN states during contractions by introducing the expansion matrix for providing the description of the expansion of the size of simulated quantum systems and the noise propagation. This framework allows for the explicit representation of the general tree HTN states and discussion of their physicality. We also show that the expectation value of a measured observable exponentially vanishes with the number of contracted quantum tensors. Our work will lead to providing the noise-resilient construction of HTN states.
翻訳日:2023-09-28 12:52:34 公開日:2023-09-27
# バイオメディカルタブラリデータを用いた潜時グラフによる半教師付き学習

Latent Graph Powered Semi-Supervised Learning on Biomedical Tabular Data ( http://arxiv.org/abs/2309.15757v1 )

ライセンス: Link先を確認
Boshko Koloski and Bla\v{z} \v{S}krlj and Senja Pollak {\i}nst{1} and Nada Lavra\v{c}(参考訳) 半教師付き学習の分野では、現在のアプローチでは、(未)ラベル付きデータ間のインスタンス間関係を十分に考慮することができない。 本研究では,固有データ関係をキャプチャする潜在グラフを推論する手法を提供することで,この制限に対処する。 グラフベースの表現を利用することで、グラフ全体にシームレスに情報を伝達し、グローバルおよびローカルな知識を効果的に組み込むことができる。 バイオメディカルな表型データセットの評価を通して、我々のアプローチの能力を他の現代の手法と比較する。 本研究は,半教師付き学習手法を強化するための頑健な潜在グラフを構築するための実践的手法として,インスタンス間関係発見の重要性を示す。 本手法は,3つのバイオメディカルデータセットの最先端結果を実現する。

In the domain of semi-supervised learning, the current approaches insufficiently exploit the potential of considering inter-instance relationships among (un)labeled data. In this work, we address this limitation by providing an approach for inferring latent graphs that capture the intrinsic data relationships. By leveraging graph-based representations, our approach facilitates the seamless propagation of information throughout the graph, enabling the effective incorporation of global and local knowledge. Through evaluations on biomedical tabular datasets, we compare the capabilities of our approach to other contemporary methods. Our work demonstrates the significance of inter-instance relationship discovery as practical means for constructing robust latent graphs to enhance semi-supervised learning techniques. Our method achieves state-of-the-art results on three biomedical datasets.
翻訳日:2023-09-28 12:52:13 公開日:2023-09-27
# CAIT: ViT の高精度,高速推論,良好な転送性に対するトリプルウィン圧縮

CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs ( http://arxiv.org/abs/2309.15755v1 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Sicheng Zhao, Jungong Han, Guiguang Ding(参考訳) ビジョントランスフォーマー(ViT)は最近、様々なビジョンタスクの最先端モデルとして登場した。 しかし、リソース制限されたデバイスでは、計算コストが大幅に削減される。 その結果、研究者は加速のためにViTに余分な情報を圧縮することに専心した。 しかし、一般的には、トークンプルーニングやチャンネルプルーニングによるチャンネルの残酷な除去によって冗長な画像トークンをわずかに減少させ、モデル性能と推論速度の間の準最適バランスをもたらす。 また、圧縮されたモデルを、セマンティックセグメンテーションのような画像の空間構造を必要とする下流視覚タスクに転送する際にも不利である。 これらの課題に対処するため、我々は、下流タスク(CAIT)への良好な転送性を維持しつつ、高精度かつ高速な推論速度を提供するViTのジョイント圧縮手法を提案する。 具体的には、隣接するトークンを効果的に統合するための非対称トークンマージ(ATME)戦略を導入する。 画像の空間構造を保ちながら、冗長なトークン情報をうまく圧縮することができる。 さらに,ViTsにおける非重要チャネルを動的にプーンするために,一貫した動的チャネルプルーニング(CDCP)戦略を採用する。 CDCPにより、ViTのマルチヘッド自己保持モジュールにおける重要なチャネルを均一に切断することができ、モデル圧縮を大幅に向上させることができる。 ベンチマークデータセットの大規模な実験により,提案手法は様々なViTで最先端の性能を実現することができることを示した。 例えば、pruned DeiT-TinyとDeiT-Smallはそれぞれ1.7$\times$と1.9$\times$のスピードアップを実現しています。 ade20kセグメンテーションデータセットでは、同等のmiouで最大1.31$\times$ speedupsを享受できる。 私たちのコードは公開されます。

Vision Transformers (ViTs) have emerged as state-of-the-art models for various vision tasks recently. However, their heavy computation costs remain daunting for resource-limited devices. Consequently, researchers have dedicated themselves to compressing redundant information in ViTs for acceleration. However, they generally sparsely drop redundant image tokens by token pruning or brutally remove channels by channel pruning, leading to a sub-optimal balance between model performance and inference speed. They are also disadvantageous in transferring compressed models to downstream vision tasks that require the spatial structure of images, such as semantic segmentation. To tackle these issues, we propose a joint compression method for ViTs that offers both high accuracy and fast inference speed, while also maintaining favorable transferability to downstream tasks (CAIT). Specifically, we introduce an asymmetric token merging (ATME) strategy to effectively integrate neighboring tokens. It can successfully compress redundant token information while preserving the spatial structure of images. We further employ a consistent dynamic channel pruning (CDCP) strategy to dynamically prune unimportant channels in ViTs. Thanks to CDCP, insignificant channels in multi-head self-attention modules of ViTs can be pruned uniformly, greatly enhancing the model compression. Extensive experiments on benchmark datasets demonstrate that our proposed method can achieve state-of-the-art performance across various ViTs. For example, our pruned DeiT-Tiny and DeiT-Small achieve speedups of 1.7$\times$ and 1.9$\times$, respectively, without accuracy drops on ImageNet. On the ADE20k segmentation dataset, our method can enjoy up to 1.31$\times$ speedups with comparable mIoU. Our code will be publicly available.
翻訳日:2023-09-28 12:52:00 公開日:2023-09-27
# M\"obius gameとその他の相対性試験

The M\"obius game and other Bell tests for relativity ( http://arxiv.org/abs/2309.15752v1 )

ライセンス: Link先を確認
Eleftherios-Ermis Tselentis, \"Amin Baumeler(参考訳) 勝利確率が一定の限界を超えた場合、パーティーの因果関係と部分順序が一致しないことを証明できる多人数ゲームが導出される。 これはつまり、当事者が因果関係に対してバックアクションを行うことを意味し、因果関係は動的である。 The games turn out to be representable by directed graphs, for instance by an orientation of the M\"obius ladder. We discuss these games as device-independent tests of spacetime's dynamical nature in general relativity. To do so, we design a relativistic setting where, in the Minkowski spacetime, the winning chance is bound to the limits. In contrast, we find otherwise tame processes with classical control of causal order that win the games deterministically. These suggest a violation of the bounds in gravitational implementations. We obtain these games by uncovering a "pairwise central symmetry" of the correlations in question. この対称性により、80年代半ばに gr\"otschel, j\"unger, reinelt によって研究された非環状部分グラフポリトープのファセットを、組合せ最適化のためにリサイクルすることができる。 さらに,多面体次元がパーティ数で直線的にしか成長しないシナリオにおいて,マルチパーティゲームを導出する。 ここで、限界を超えることは因果関係の力学的な性質を証明するだけでなく、相関関係がいかなる大域的因果順序とも相容れないことを証明している。

We derive multiparty games that, if the winning chance exceeds a certain limit, prove the incompatibility of the parties' causal relations with any partial order. This, in turn, means that the parties exert a back-action on the causal relations; the causal relations are dynamical. The games turn out to be representable by directed graphs, for instance by an orientation of the M\"obius ladder. We discuss these games as device-independent tests of spacetime's dynamical nature in general relativity. To do so, we design a relativistic setting where, in the Minkowski spacetime, the winning chance is bound to the limits. In contrast, we find otherwise tame processes with classical control of causal order that win the games deterministically. These suggest a violation of the bounds in gravitational implementations. We obtain these games by uncovering a "pairwise central symmetry" of the correlations in question. This symmetry allows us to recycle the facets of the acyclic subgraph polytope studied by Gr\"otschel, J\"unger, and Reinelt in the mid-80s for combinatorial optimization. In addition, we derive multiparty games in a scenario where the polytope dimension grows only linearly in the number of parties. Here, exceeding the limits not only proves the dynamical nature of the causal relations, but also that the correlations are incompatible with any global causal order.
翻訳日:2023-09-28 12:51:31 公開日:2023-09-27
# 再合成予測のためのノード対応グラフ-グラフ生成

Node-Aligned Graph-to-Graph Generation for Retrosynthesis Prediction ( http://arxiv.org/abs/2309.15798v1 )

ライセンス: Link先を確認
Lin Yao, Zhen Wang, Wentao Guo, Shang Xiang, Wentan Liu, Guolin Ke(参考訳) 単段階のレトロシンセシスは有機化学と薬物設計において重要な課題であり、特定の化合物を合成するのに必要な反応物質を特定する必要がある。 コンピュータ支援合成計画の出現に伴い、プロセスの促進に機械学習技術を使うことへの関心が高まっている。 既存のテンプレートのない機械学習ベースのモデルは、典型的にはトランスフォーマー構造を使用し、分子をIDシーケンスとして表現する。 しかし、これらの方法はしばしば分子の広範なトポロジー情報を完全に活用し、生成物と反応物の間の原子を整合させることで問題に直面し、半テンプレートモデルほど競争力のない結果に繋がる。 提案手法であるノードアラインドグラフ (NAG2G) はトランスフォーマーベースのテンプレートフリーモデルとしても機能するが、2次元分子グラフと3次元コンフォーメーション情報を利用する。 さらに, ノードアライメントを利用して, 自己回帰的なノード・バイ・ノードにおける分子グラフの生成と生成の順序を決定することにより, 生産・反応性原子マッピングアライメントの導入を単純化する。 この方法は、ノード生成順序が入力グラフのノード順序と一致することを保証し、特定のノード生成順序を自動回帰的に決定する難しさを克服する。 提案したNAG2Gは,様々な指標において従来の最先端のベースラインより優れていることを示す。

Single-step retrosynthesis is a crucial task in organic chemistry and drug design, requiring the identification of required reactants to synthesize a specific compound. with the advent of computer-aided synthesis planning, there is growing interest in using machine-learning techniques to facilitate the process. Existing template-free machine learning-based models typically utilize transformer structures and represent molecules as ID sequences. However, these methods often face challenges in fully leveraging the extensive topological information of the molecule and aligning atoms between the production and reactants, leading to results that are not as competitive as those of semi-template models. Our proposed method, Node-Aligned Graph-to-Graph (NAG2G), also serves as a transformer-based template-free model but utilizes 2D molecular graphs and 3D conformation information. Furthermore, our approach simplifies the incorporation of production-reactant atom mapping alignment by leveraging node alignment to determine a specific order for node generation and generating molecular graphs in an auto-regressive manner node-by-node. This method ensures that the node generation order coincides with the node order in the input graph, overcoming the difficulty of determining a specific node generation order in an auto-regressive manner. Our extensive benchmarking results demonstrate that the proposed NAG2G can outperform the previous state-of-the-art baselines in various metrics.
翻訳日:2023-09-28 12:45:24 公開日:2023-09-27
# 異種性測定を用いた雑音環境における量子古典ハイブリッドブロックマッチングアルゴリズム

A Quantum-Classical Hybrid Block-Matching Algorithm in Noisy Environment using Dissimilarity Measure ( http://arxiv.org/abs/2309.15792v1 )

ライセンス: Link先を確認
M. Mart\'inez-Felipe, J. Montiel-P\'erez, V. Onofre-Gonz\'alez, A. Maldonado-Romo, Ricky Young(参考訳) ブロックマッチングアルゴリズムは、検索領域内で類似した画像パッチのグループを見つける。 類似性/異質性尺度は、この問題を解決するのに役立つ。 異なる実用的なアプリケーションでは、ビデオ圧縮、画像クラスタリング、ベクトル量子化、非局所ノイズ低減など、検索領域内の類似した画像ブロックのグループを見つけることがしばしば必要となる。 本研究は、ガウスノイズと低パスフィルタや領域変換に適合した画像サイズ低減を用いて、古典的な画像処理を行う。 位相演算子により画像を符号化する階層探索手法が実装されている。 量子フーリエ変換を用いた位相画像符号化とスワップテストを用いて,相似性尺度を提案する。 結果は、完全でノイズの多いシミュレーションと、IBMとIonqの量子デバイスを用いたSwapテストで得られた。

A block-matching algorithm finds a group of similar image patches inside a search area. Similarity/dissimilarity measures can help to solve this problem. In different practical applications, finding groups of similar image blocks within an ample search area is often necessary, such as video compression, image clustering, vector quantization, and nonlocal noise reduction. In this work, classical image processing is performed using Gaussian noise and image size reduction with a fit of a Low-Pass Filter or Domain Transform. A hierarchical search technique is implemented to encode the images by phase operator. Using phase image coding with the quantum Fourier transform and the Swap test, we propose a dissimilarity measure. Results were obtained with perfect and noisy simulations and in the case of the Swap test with the IBM and Ionq quantum devices.
翻訳日:2023-09-28 12:44:26 公開日:2023-09-27
# ベンチマークデータセットを用いた大規模言語モデルルーティング

Large Language Model Routing with Benchmark Datasets ( http://arxiv.org/abs/2309.15789v1 )

ライセンス: Link先を確認
Tal Shnitzer, Anthony Ou, M\'irian Silva, Kate Soule, Yuekai Sun, Justin Solomon, Neil Thompson, Mikhail Yurochkin(参考訳) それらを比較するために、オープンソースの大規模言語モデル(llm)とベンチマークデータセットが急速に増えている。 いくつかのモデルがこれらのベンチマークを支配しているが、単一のモデルがすべてのタスクとユースケースで最高の精度を達成することはない。 本研究では,新しいタスクのためのモデルの集合から最高のLCMを選択するという課題に対処する。 本稿では,このllm選択のための"ルーター"モデルを学ぶために,ベンチマークデータセットを再利用する問題に対する新しい定式化を提案し,この問題をバイナリ分類タスクの集合に還元できることを示す。 様々なベンチマークデータセットからモデルルータを学習するの有用性と限界を実証し、すべてのタスクに単一モデルを使用することで、一貫してパフォーマンスを向上させる。

There is a rapidly growing number of open-source Large Language Models (LLMs) and benchmark datasets to compare them. While some models dominate these benchmarks, no single model typically achieves the best accuracy in all tasks and use cases. In this work, we address the challenge of selecting the best LLM out of a collection of models for new tasks. We propose a new formulation for the problem, in which benchmark datasets are repurposed to learn a "router" model for this LLM selection, and we show that this problem can be reduced to a collection of binary classification tasks. We demonstrate the utility and limitations of learning model routers from various benchmark datasets, where we consistently improve performance upon using any single model for all tasks.
翻訳日:2023-09-28 12:44:14 公開日:2023-09-27
# 超強結合の量子および古典スペクトル理論の再構成-空洞浴結合とゲージ補正の役割

Reconciling quantum and classical spectral theories of ultrastrong coupling: Role of cavity bath coupling and gauge correction ( http://arxiv.org/abs/2309.15788v1 )

ライセンス: Link先を確認
Stephen Hughes, Chris Gustin, and Franco Nori(参考訳) 空洞散逸を伴う広く採用されているホップフィールドモデルに着目し,超強結合キャビティと双極子の線形スペクトルが古典的あるいは量子力学的にどのように記述されるかを示す。 (i)ゲージ不変性を維持するための補正、及び (ii)特定の種類のキャビティバスカップリング。 また、この浴槽モデルが超強結合に古典的な類似性を持たない量子ラビモデルに与える影響を示す。

Focusing on the widely adopted Hopfield model with cavity dissipation, we show how the linear spectrum of an ultrastrongly coupled cavity and a dipole can be described either classically or quantum mechanically, but only when the quantum model includes (i) corrections to maintain gauge invariance, and (ii) a specific type of cavity bath coupling. We also show the impact of this bath model on the quantum Rabi model, which has no classical analogue in ultrastrong coupling.
翻訳日:2023-09-28 12:44:02 公開日:2023-09-27
# ポイントクラウド登録のための部分輸送

Partial Transport for Point-Cloud Registration ( http://arxiv.org/abs/2309.15787v1 )

ライセンス: Link先を確認
Yikun Bai and Huy Tran and Steven B. Damelin and Soheil Kolouri(参考訳) ポイントクラウド登録は、ロボティクス、コンピュータグラフィックス、医療画像など様々な分野で重要な役割を担っている。 この過程は、通常3次元空間内で異なる点の集合間の空間的関係を決定することを含む。 現実のシナリオでは、複雑度は非厳密な動きや、閉塞やセンサノイズなどの部分的な可視性から生じ、非厳密な登録が困難な問題となる。 古典的な非厳密な登録法は、しばしば計算的に要求され、不安定な性能に苦しむ。 最適輸送問題とその不均衡変動(例えば、最適部分輸送問題)は、ポイントクラウド登録のための強力なツールとして出現し、この分野において強力なベンチマークを確立した。 これらの手法は点雲を経験的尺度として捉え、(変換された)原点と目標点の間の「相関」を数学的に厳密に定量化する方法を提供する。 本稿では, 最適輸送理論のレンズを通してポイントクラウド登録問題にアプローチし, まず, 最適部分輸送問題に基づく包括的非剛性登録法を提案する。 その後、一次元の最適部分輸送問題に対する効率的な解法を生かし、スライシングにより提案アルゴリズムを拡張し、計算効率を向上し、高速で堅牢な非剛性登録アルゴリズムを実現する。 本研究では,提案手法の有効性を実証し,音源と対象点の雲がランダムノイズにより崩壊する様々な3次元および2次元非剛性登録問題におけるベースラインと比較する。

Point cloud registration plays a crucial role in various fields, including robotics, computer graphics, and medical imaging. This process involves determining spatial relationships between different sets of points, typically within a 3D space. In real-world scenarios, complexities arise from non-rigid movements and partial visibility, such as occlusions or sensor noise, making non-rigid registration a challenging problem. Classic non-rigid registration methods are often computationally demanding, suffer from unstable performance, and, importantly, have limited theoretical guarantees. The optimal transport problem and its unbalanced variations (e.g., the optimal partial transport problem) have emerged as powerful tools for point-cloud registration, establishing a strong benchmark in this field. These methods view point clouds as empirical measures and provide a mathematically rigorous way to quantify the `correspondence' between (the transformed) source and target points. In this paper, we approach the point-cloud registration problem through the lens of optimal transport theory and first propose a comprehensive set of non-rigid registration methods based on the optimal partial transportation problem. Subsequently, leveraging the emerging work on efficient solutions to the one-dimensional optimal partial transport problem, we extend our proposed algorithms via slicing to gain significant computational efficiency, resulting in fast and robust non-rigid registration algorithms. We demonstrate the effectiveness of our proposed methods and compare them against baselines on various 3D and 2D non-rigid registration problems where the source and target point clouds are corrupted by random noise.
翻訳日:2023-09-28 12:43:52 公開日:2023-09-27
# ビデオの会話は、ビデオのインストラクションがなくてもできる

One For All: Video Conversation is Feasible Without Video Instruction Tuning ( http://arxiv.org/abs/2309.15785v1 )

ライセンス: Link先を確認
Ruyang Liu and Chen Li and Yixiao Ge and Ying Shan and Thomas H. Li and Ge Li(参考訳) 近年のLarge Language Models (LLM) の進歩により、画像言語対話エージェントの進歩が加速し、ビデオベース対話システムの構築方法がまだ検討中である。 LLMと視覚バックボーンの広範なスケールを考慮すると、ビデオの理解とフィードバックの提供に不可欠な効果的な時間的モデリングを容易にするために、最小限のGPUメモリが残されている。 そこで本研究では,画像言語事前学習モデルをビデオ領域に拡張する新しい手法であるBnching Temporal Adapter (BT-Adapter)を提案する。 具体的には、BT-Adapterは、事前訓練された視覚エンコーダと共に、プラグアンドユース・テンポラルモデリングブランチとして機能する。 一度事前トレーニングすると、bt-adapterは、このバージョンのクリップを使って、すべての画像会話モデルにシームレスに統合できる。 さらに,BT-Adapterのトレーニングタスクを調整したブランチ内で独自の非対称なトークンマスキング戦略を開発し,より高速な収束とより良い結果を得る。 BT-Adapterのおかげで、過剰なGPUコストを発生させることなく、強力なビデオ理解機能を備えた既存のマルチモーダル対話モデルを強化することができます。 BT-Adapterは、ベルとホイッスルを使わずに、(1)最先端のゼロショットの結果を、数千時間少ないGPU時間で、様々なビデオタスクで達成する。 2)ビデオインストラクションのチューニングが不要な現在のビデオチャットボットよりもパフォーマンスが良い。 3) 映像指導チューニングによるビデオチャットの最先端結果, 従来のSOTAよりも大差で優れていた。

The recent progress in Large Language Models (LLM) has spurred various advancements in image-language conversation agents, while how to build a proficient video-based dialogue system is still under exploration. Considering the extensive scale of LLM and visual backbone, minimal GPU memory is left for facilitating effective temporal modeling, which is crucial for comprehending and providing feedback on videos. To this end, we propose Branching Temporal Adapter (BT-Adapter), a novel method for extending image-language pretrained models into the video domain. Specifically, BT-Adapter serves as a plug-and-use temporal modeling branch alongside the pretrained visual encoder, which is tuned while keeping the backbone frozen. Just pretrained once, BT-Adapter can be seamlessly integrated into all image conversation models using this version of CLIP, enabling video conversations without the need for video instructions. Besides, we develop a unique asymmetric token masking strategy inside the branch with tailor-made training tasks for BT-Adapter, facilitating faster convergence and better results. Thanks to BT-Adapter, we are able to empower existing multimodal dialogue models with strong video understanding capabilities without incurring excessive GPU costs. Without bells and whistles, BT-Adapter achieves (1) state-of-the-art zero-shot results on various video tasks using thousands of fewer GPU hours. (2) better performance than current video chatbots without any video instruction tuning. (3) state-of-the-art results of video chatting using video instruction tuning, outperforming previous SOTAs by a large margin.
翻訳日:2023-09-28 12:43:25 公開日:2023-09-27
# YODNet:100fps超のUAV用軽量物体検出器

Joint-YODNet: A Light-weight Object Detector for UAVs to Achieve Above 100fps ( http://arxiv.org/abs/2309.15782v1 )

ライセンス: Link先を確認
Vipin Gautam, Shitala Prasad and Sharad Sinha(参考訳) ドローンやレーダーから捉えたuav(unmanned aerial vehicle)による小さな物体検出は、いくつかの難題を抱えた複雑な作業である。 この領域は、小さな物体の正確な検出と局在を妨げる多くの複雑さを含んでいる。 そこで本稿では,この課題に対処するために,uavによる小型物体検出のためのジョイントyodnetという新しい手法を提案する。 本手法は, 小型物体の検出性能を高めるため, 接合損失関数の開発を中心に展開する。 様々な環境条件下で得られた多様なUAV画像のデータセットを広範囲に実験し、損失関数の異なるバリエーションを評価し、最も効果的な定式化を決定した。 その結果,提案した関節損失関数は,小さな物体を正確に位置決めする既存の手法よりも優れていた。 具体的には,最新技術を上回る0.971のリコールと0.975のF1Scoreを実現する。 さらに, 98.6 の mAP@.5(%) を達成し, 様々なスケールで小さな物体を検出できるロバスト性を示した。

Small object detection via UAV (Unmanned Aerial Vehicle) images captured from drones and radar is a complex task with several formidable challenges. This domain encompasses numerous complexities that impede the accurate detection and localization of small objects. To address these challenges, we propose a novel method called JointYODNet for UAVs to detect small objects, leveraging a joint loss function specifically designed for this task. Our method revolves around the development of a joint loss function tailored to enhance the detection performance of small objects. Through extensive experimentation on a diverse dataset of UAV images captured under varying environmental conditions, we evaluated different variations of the loss function and determined the most effective formulation. The results demonstrate that our proposed joint loss function outperforms existing methods in accurately localizing small objects. Specifically, our method achieves a recall of 0.971, and a F1Score of 0.975, surpassing state-of-the-art techniques. Additionally, our method achieves a mAP@.5(%) of 98.6, indicating its robustness in detecting small objects across varying scales
翻訳日:2023-09-28 12:42:56 公開日:2023-09-27
# aap-reid:注意意識の強化

AaP-ReID: Improved Attention-Aware Person Re-identification ( http://arxiv.org/abs/2309.15780v1 )

ライセンス: Link先を確認
Vipin Gautam, Shitala Prasad and Sharad Sinha(参考訳) 人物再識別(ReID)はコンピュータビジョンの分野でよく知られた問題である。 主な目的は、画像ギャラリー内の特定の個人を特定することである。 しかし、ポーズのバリエーション、照明の変化、障害、背景の曖昧さなど、様々な要因により、この課題は困難である。 既存のReID法は、しばしば差別的特徴(例えば、ヘッド、靴、バックパック)を捉えるのに失敗し、その代わりに標的が閉鎖されたときに無関係な特徴を捕獲する。 パートベースおよびアテンションベースのReID手法の成功により,AlignedReID++とAaP-ReIDを改良した。 本手法では,cwabottleneckブロックを用い,特徴マップにおける各チャネルの重要性を動的に調整することにより識別特徴を学習する。 我々はAap-ReIDを Market-1501, DukeMTMC-reID, CUHK03 の3つのベンチマークデータセットで評価した。 最先端のReID法と比較すると、市場1501で95.6%、デュークMTMC-reIDで90.6%、CUHK03で82.4%のランク1のアキュラシーで競合する結果が得られる。

Person re-identification (ReID) is a well-known problem in the field of computer vision. The primary objective is to identify a specific individual within a gallery of images. However, this task is challenging due to various factors, such as pose variations, illumination changes, obstructions, and the presence ofconfusing backgrounds. Existing ReID methods often fail to capture discriminative features (e.g., head, shoes, backpacks) and instead capture irrelevant features when the target is occluded. Motivated by the success of part-based and attention-based ReID methods, we improve AlignedReID++ and present AaP-ReID, a more effective method for person ReID that incorporates channel-wise attention into a ResNet-based architecture. Our method incorporates the Channel-Wise Attention Bottleneck (CWAbottleneck) block and can learn discriminating features by dynamically adjusting the importance ofeach channel in the feature maps. We evaluated Aap-ReID on three benchmark datasets: Market-1501, DukeMTMC-reID, and CUHK03. When compared with state-of-the-art person ReID methods, we achieve competitive results with rank-1 accuracies of 95.6% on Market-1501, 90.6% on DukeMTMC-reID, and 82.4% on CUHK03.
翻訳日:2023-09-28 12:42:36 公開日:2023-09-27
# show-1: テキスト対ビデオ生成のためのピクセルと潜在拡散モデルの統合

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation ( http://arxiv.org/abs/2309.15818v1 )

ライセンス: Link先を確認
David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou(参考訳) 大規模事前学習されたテキストからビデオへの拡散モデル(vdms)の分野では大きな進歩があった。 しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。 本稿では,テキスト対ビデオ生成のためのピクセルベースと潜在型vdmsを融合したハイブリッドモデル show-1 を提案する。 我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。 その後,低解像度映像を高解像度化するために,潜伏型VDMを用いた新たな専門家翻訳手法を提案する。 ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G対72G)。 また、標準ビデオ生成ベンチマークでモデルを検証する。 コードとモデルの重み付けは \url{https://github.com/showlab/Show-1} で公開されています。

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at \url{https://github.com/showlab/Show-1}.
翻訳日:2023-09-28 12:33:53 公開日:2023-09-27
# 1Dカーネルを指向した畳み込みネットワーク

Convolutional Networks with Oriented 1D Kernels ( http://arxiv.org/abs/2309.15812v1 )

ライセンス: Link先を確認
Alexandre Kirchmeyer, Jia Deng(参考訳) コンピュータビジョンでは、2D畳み込みは間違いなくConvNetによって実行される最も重要な操作である。 当然ながら、それは強烈なソフトウェアとハードウェアの最適化の焦点であり、非常に効率的な実装を享受している。 2D畳み込みなしでConvNetを動作させることができるだろうか? 驚くべきことに、1dの畳み込みからなるconvnetは、imagenetの分類において2dと同等にできることを示している。 具体的には、高性能な1D ConvNetの鍵となる要素が1Dカーネルであることがわかった。 実験の結果,指向性1次元畳み込みは2次元畳み込みを置き換えるだけでなく,既存のアーキテクチャを大型カーネルで拡張することで,FLOPの最小化による精度の向上を実現している。 この研究の重要な貢献は、奥行きの畳み込み設定に特化して、高度に最適化された1DカーネルのCUDA実装である。 我々のベンチマークは、我々のカスタムCUDA実装が1D畳み込みの理論的利点をほぼ完全に実現していることを示し、任意の角度でネイティブ水平畳み込みよりも高速である。 コードはhttps://github.com/princeton-vl/Oriented1Dで入手できる。

In computer vision, 2D convolution is arguably the most important operation performed by a ConvNet. Unsurprisingly, it has been the focus of intense software and hardware optimization and enjoys highly efficient implementations. In this work, we ask an intriguing question: can we make a ConvNet work without 2D convolutions? Surprisingly, we find that the answer is yes -- we show that a ConvNet consisting entirely of 1D convolutions can do just as well as 2D on ImageNet classification. Specifically, we find that one key ingredient to a high-performing 1D ConvNet is oriented 1D kernels: 1D kernels that are oriented not just horizontally or vertically, but also at other angles. Our experiments show that oriented 1D convolutions can not only replace 2D convolutions but also augment existing architectures with large kernels, leading to improved accuracy with minimal FLOPs increase. A key contribution of this work is a highly-optimized custom CUDA implementation of oriented 1D kernels, specialized to the depthwise convolution setting. Our benchmarks demonstrate that our custom CUDA implementation almost perfectly realizes the theoretical advantage of 1D convolution: it is faster than a native horizontal convolution for any arbitrary angle. Code is available at https://github.com/princeton-vl/Oriented1D.
翻訳日:2023-09-28 12:32:52 公開日:2023-09-27
# 公正な正準相関解析

Fair Canonical Correlation Analysis ( http://arxiv.org/abs/2309.15809v1 )

ライセンス: Link先を確認
Zhuoping Zhou, Davoud Ataee Tarzanagh, Bojian Hou, Boning Tong, Jia Xu, Yanbo Feng, Qi Long, Li Shen(参考訳) 本稿では,2つの変数間の関係を調べるために広く用いられている統計手法であるCanonical correlation Analysis (CCA)の公平性とバイアスについて検討する。 保護属性に関連する相関不一致誤差を最小化することにより不公平を軽減できる枠組みを提案する。 提案手法により,CCAはすべてのデータポイントから大域的射影行列を学習し,これらの行列がグループ固有の射影行列と同等の相関レベルを得られることを保証できる。 合成データと実世界のデータの両方に対する実験的評価により,cca精度を損なうことなく相関不一致を低減できることを示した。

This paper investigates fairness and bias in Canonical Correlation Analysis (CCA), a widely used statistical technique for examining the relationship between two sets of variables. We present a framework that alleviates unfairness by minimizing the correlation disparity error associated with protected attributes. Our approach enables CCA to learn global projection matrices from all data points while ensuring that these matrices yield comparable correlation levels to group-specific projection matrices. Experimental evaluation on both synthetic and real-world datasets demonstrates the efficacy of our method in reducing correlation disparity error without compromising CCA accuracy.
翻訳日:2023-09-28 12:32:30 公開日:2023-09-27
# Emu:Haystackにおけるフォトジェニックニードルを用いた画像生成モデルの改善

Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack ( http://arxiv.org/abs/2309.15807v1 )

ライセンス: Link先を確認
Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xiaofang Wang, Abhimanyu Dubey, Matthew Yu, Abhishek Kadian, Filip Radenovic, Dhruv Mahajan, Kunpeng Li, Yue Zhao, Vladan Petrovic, Mitesh Kumar Singh, Simran Motwani, Yi Wen, Yiwen Song, Roshan Sumbaly, Vignesh Ramanathan, Zijian He, Peter Vajda, Devi Parikh(参考訳) Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。 しかし、これらの事前学習されたモデルは、高度に美的な画像を生成する際にしばしば困難に直面する。 これにより、事前トレーニング後の美的アライメントの必要性が生じる。 本稿では,事前学習モデルにおいて,視覚概念の汎用性を維持しつつ,高度に視覚的なイメージを排他的に生成するための品質調整手法を提案する。 私たちの重要な洞察は、驚くほど小さいが非常に視覚的に魅力的な画像で教師付き微調整を行うことで、生成品質を大幅に改善できるということです。 11億ドルのイメージテキストペアで潜在拡散モデルを事前学習し、数千の精選された高品質な画像で微調整しました。 結果のモデルであるEmuは、事前訓練された唯一のモデルに比べて、$82.9\%の勝利率を達成した。 最先端のsdxlv1.0と比較して、emuは、標準のpartipromptsや、テキストから画像への実際の利用に基づいて、オープンユーザ入力ベンチマークに対する視覚的アピールの時間として、68.4\%$と78.3\$が好ましい。 さらに,品質チューニングは,画素拡散やマスク生成トランスフォーマモデルなど,他のアーキテクチャにも有効な汎用的アプローチであることを示す。

Training text-to-image models with web scale image-text pairs enables the generation of a wide range of visual concepts from text. However, these pre-trained models often face challenges when it comes to generating highly aesthetic images. This creates the need for aesthetic alignment post pre-training. In this paper, we propose quality-tuning to effectively guide a pre-trained model to exclusively generate highly visually appealing images, while maintaining generality across visual concepts. Our key insight is that supervised fine-tuning with a set of surprisingly small but extremely visually appealing images can significantly improve the generation quality. We pre-train a latent diffusion model on $1.1$ billion image-text pairs and fine-tune it with only a few thousand carefully selected high-quality images. The resulting model, Emu, achieves a win rate of $82.9\%$ compared with its pre-trained only counterpart. Compared to the state-of-the-art SDXLv1.0, Emu is preferred $68.4\%$ and $71.3\%$ of the time on visual appeal on the standard PartiPrompts and our Open User Input benchmark based on the real-world usage of text-to-image models. In addition, we show that quality-tuning is a generic approach that is also effective for other architectures, including pixel diffusion and masked generative transformer models.
翻訳日:2023-09-28 12:32:20 公開日:2023-09-27
# Lyra: 自動定理証明における二重補正のオーケストレーション

Lyra: Orchestrating Dual Correction in Automated Theorem Proving ( http://arxiv.org/abs/2309.15806v1 )

ライセンス: Link先を確認
Chuanyang Zheng, Haiming Wang, Enze Xie, Zhengying Liu, Jiankai Sun, Huajian Xin, Jianhao Shen, Zhenguo Li, Yu Li(参考訳) 大言語モデル (LLMs) は、公式な定理証明の分野における探索の興味深い道を示す。 それにもかかわらず、幻覚の緩和と証明エラーメッセージによる洗練に関する彼らの潜在能力は、まだ完全には調査されていない領域である。 この分野におけるllmsの有効性を高めるために,ツール補正(tc)と推測補正(cc)の2つの異なる補正機構を用いる新しいフレームワークであるlyraを紹介する。 形式的証明の後処理にツール補正を実装するために、事前の知識を活用して、事前定義された証明ツール(例えば、Sledgehammer)を使って不正なツールの置き換えを導く。 ツール補正は幻覚の緩和に大きく寄与し、証明の全体的な精度を向上させる。 さらに,証明者と対話し,形式的証明予想を証明者エラーメッセージで洗練するエラーフィードバック機構であるConjecture Correctionを導入する。 従来の改良フレームワークと比較して、提案手法は命令による生成を洗練するが、ペア(生成、エラー、改良)プロンプトを収集しない。 提案手法は, MiniF2F 検証 (48.0% -> 55.3%) とテスト (45.5% -> 51.2%) の両方で最先端 (SOTA) 性能を達成した。 また,lyra が解いた3つの imo 問題についても述べる。 ツール補正(幻覚の緩和プロセス)とコンジェクチュア補正(環境との相互作用による副次的な調整)が今後の研究の道筋となると信じている。

Large Language Models (LLMs) present an intriguing avenue for exploration in the field of formal theorem proving. Nevertheless, their full potential, particularly concerning the mitigation of hallucinations and refinement through prover error messages, remains an area that has yet to be thoroughly investigated. To enhance the effectiveness of LLMs in the field, we introduce the Lyra, a new framework that employs two distinct correction mechanisms: Tool Correction (TC) and Conjecture Correction (CC). To implement Tool Correction in the post-processing of formal proofs, we leverage prior knowledge to utilize predefined prover tools (e.g., Sledgehammer) for guiding the replacement of incorrect tools. Tool Correction significantly contributes to mitigating hallucinations, thereby improving the overall accuracy of the proof. In addition, we introduce Conjecture Correction, an error feedback mechanism designed to interact with prover to refine formal proof conjectures with prover error messages. Compared to the previous refinement framework, the proposed Conjecture Correction refines generation with instruction but does not collect paired (generation, error & refinement) prompts. Our method has achieved state-of-the-art (SOTA) performance on both miniF2F validation (48.0% -> 55.3%) and test (45.5% -> 51.2%). We also present 3 IMO problems solved by Lyra. We believe Tool Correction (post-process for hallucination mitigation) and Conjecture Correction (subgoal adjustment from interaction with environment) could provide a promising avenue for future research in this field.
翻訳日:2023-09-28 12:31:52 公開日:2023-09-27
# エミッタキャビティ結合強化のための円形ブラッグ共振器のポストファブリケーションチューニング

Post-fabrication tuning of circular Bragg resonators for enhanced emitter-cavity coupling ( http://arxiv.org/abs/2309.15801v1 )

ライセンス: Link先を確認
Tobias M. Krieger, Christian Weidinger Thomas Oberleitner Gabriel Undeutsch, Michele B. Rota, Naser Tajik, Maximilian Aigner, Quirin Buchinger, Christian Schimpf, Ailton J. Garcia Jr., Saimon F. Covre da Silva, Sven H\"ofling, Tobias Huber-Loyola, Rinaldo Trotta, and Armando Rastelli(参考訳) 円形ブラッグ共振器に埋め込まれた固体量子エミッタは、高輝度かつ低多重光子確率で量子状態の光を発する能力を持つため、魅力的である。 任意のエミッタ・マイクロキャビティシステムにおいて、製造不完全はエミッタとキャビティモードの空間的およびスペクトル的重なりを制限するため、結合強度が制限される。 本稿では, ウェットケミカルエッチング工程を繰り返すことで, デバイス製造後に初期スペクトルミスマッチを補正できることを示す。 酸化物上のAlGaAs共振器の光モードに対する16nmの波長チューニングを実証し、単一のGaAs量子ドットの放出の4倍のパーセル向上をもたらす。 数値計算は観測結果を再現し、共振器の達成可能な性能が探索されたチューニング範囲にわずかに影響されることを示唆する。 この方法は他の材料プラットフォームに基づく円形ブラッグ共振器にも適用できると予想し、キャビティエンハンス固体量子エミッタのデバイス収率を増加させる。

Solid-state quantum emitters embedded in circular Bragg resonators are attractive due to their ability to emit quantum states of light with high brightness and low multi-photon probability. As for any emitter-microcavity system, fabrication imperfections limit the spatial and spectral overlap of the emitter with the cavity mode, thus limiting their coupling strength. Here, we show that an initial spectral mismatch can be corrected after device fabrication by repeated wet chemical etching steps. We demonstrate ~16 nm wavelength tuning for optical modes in AlGaAs resonators on oxide, leading to a 4-fold Purcell enhancement of the emission of single embedded GaAs quantum dots. Numerical calculations reproduce the observations and suggest that the achievable performance of the resonator is only marginally affected in the explored tuning range. We expect the method to be applicable also to circular Bragg resonators based on other material platforms, thus increasing the device yield of cavity-enhanced solid-state quantum emitters.
翻訳日:2023-09-28 12:31:04 公開日:2023-09-27
# 離散音声単位を用いた音声認識・翻訳・理解の検討--比較研究

Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study ( http://arxiv.org/abs/2309.15800v1 )

ライセンス: Link先を確認
Xuankai Chang and Brian Yan and Kwanghee Choi and Jeeweon Jung and Yichen Lu and Soumi Maiti and Roshan Sharma and Jiatong Shi and Jinchuan Tian and Shinji Watanabe and Yuya Fujita and Takashi Maekaku and Pengcheng Guo and Yao-Fei Cheng and Pavel Denisov and Kohei Saijo and Hsiu-Hsuan Wang(参考訳) 音声信号は通常、毎秒数万回のレートでサンプリングされ、冗長性を含み、シーケンスモデリングの非効率性を引き起こす。 スペクトログラムのような高次元音声特徴は、後続のモデルの入力としてしばしば使用される。 しかし、それらはまだ冗長である。 近年の研究では、自己教師付き学習表現から派生した離散音声単位を用いることが提案されている。 重複解消やサブワードモデリングなどの様々な手法を適用することで、音声シーケンス長をさらに圧縮することができる。 これにより、顕著な性能を維持しつつ、トレーニング時間が大幅に短縮される。 本研究では,エンドツーエンドの音声処理モデルにおける離散単位の適用について,包括的かつ体系的に検討する。 12の音声認識、3つの音声翻訳、1つの音声言語理解コーパスの実験により、離散単位がほぼ全ての設定において合理的に良い結果が得られることを示した。 私たちは、将来の研究活動を促進するために、設定とトレーニングモデルをリリースするつもりです。

Speech signals, typically sampled at rates in the tens of thousands per second, contain redundancies, evoking inefficiencies in sequence modeling. High-dimensional speech features such as spectrograms are often used as the input for the subsequent model. However, they can still be redundant. Recent investigations proposed the use of discrete speech units derived from self-supervised learning representations, which significantly compresses the size of speech data. Applying various methods, such as de-duplication and subword modeling, can further compress the speech sequence length. Hence, training time is significantly reduced while retaining notable performance. In this study, we undertake a comprehensive and systematic exploration into the application of discrete units within end-to-end speech processing models. Experiments on 12 automatic speech recognition, 3 speech translation, and 1 spoken language understanding corpora demonstrate that discrete units achieve reasonably good results in almost all the settings. We intend to release our configurations and trained models to foster future research efforts.
翻訳日:2023-09-28 12:30:43 公開日:2023-09-27
# SHACIRA: 命令型ニューラル表現のためのスケーラブルなハッシュグリッド圧縮

SHACIRA: Scalable HAsh-grid Compression for Implicit Neural Representations ( http://arxiv.org/abs/2309.15848v1 )

ライセンス: Link先を確認
Sharath Girish, Abhinav Shrivastava, Kamal Gupta(参考訳) Inlicit Neural Representations (INR)やNeural Fieldは、高品質を維持しながら画像や放射場などのマルチメディア信号をエンコードする一般的なフレームワークとして登場した。 最近、Instant-NGPによって提案された学習可能な機能グリッドは、大きなニューラルネットワークを特徴ベクトルのマルチレゾリューションルックアップテーブルとはるかに小さなニューラルネットワークに置き換えることで、トレーニングの大幅なスピードアップとINRのサンプリングを可能にしている。 しかし、これらの機能グリッドは、ストレージやストリーミングアプリケーションのボトルネックとなる大きなメモリ消費を犠牲にしている。 そこで本研究では,ポストホックなpruning/quantizationステージを必要とせず,そのような機能グリッドを圧縮するための単純かつ効果的なタスク非依存フレームワークであるshaciraを提案する。 我々は、量子化潜在重み付き特徴格子を再パラメータ化し、潜在空間におけるエントロピー正規化を適用して、様々な領域にわたる高い圧縮を実現する。 画像,ビデオ,放射能場からなる多様なデータセットの定量的・定性的な結果から,大規模データセットやドメイン固有ヒューリスティックスを必要とせず,既存のinrアプローチに勝ることを示す。 プロジェクトページはhttp://shacira.github.io.com/で閲覧できます。

Implicit Neural Representations (INR) or neural fields have emerged as a popular framework to encode multimedia signals such as images and radiance fields while retaining high-quality. Recently, learnable feature grids proposed by Instant-NGP have allowed significant speed-up in the training as well as the sampling of INRs by replacing a large neural network with a multi-resolution look-up table of feature vectors and a much smaller neural network. However, these feature grids come at the expense of large memory consumption which can be a bottleneck for storage and streaming applications. In this work, we propose SHACIRA, a simple yet effective task-agnostic framework for compressing such feature grids with no additional post-hoc pruning/quantization stages. We reparameterize feature grids with quantized latent weights and apply entropy regularization in the latent space to achieve high levels of compression across various domains. Quantitative and qualitative results on diverse datasets consisting of images, videos, and radiance fields, show that our approach outperforms existing INR approaches without the need for any large datasets or domain-specific heuristics. Our project page is available at http://shacira.github.io .
翻訳日:2023-09-28 12:25:32 公開日:2023-09-27
# 拡散モデルにおける信号リークバイアスの爆発

Exploiting the Signal-Leak Bias in Diffusion Models ( http://arxiv.org/abs/2309.15842v1 )

ライセンス: Link先を確認
Martin Nicolas Everaert, Athanasios Fitsios, Marco Bocchio, Sami Arpa, Sabine S\"usstrunk, Radhakrishna Achanta(参考訳) ほとんどの拡散モデルの推論パイプラインにはバイアスがある。 このバイアスは、分布がノイズ分布から逸脱し、トレーニングと推論プロセスの間に不一致が生じる信号リークから生じる。 この信号リークバイアスは、モデルが特定のスタイルに調整されると特に重要であり、サブ最適スタイルマッチングを引き起こす。 最近の研究は、訓練中の信号漏れを回避しようとしている。 代わりに、既存の拡散モデルにおけるこの信号漏れバイアスを利用して、生成した画像のさらなる制御を可能にする方法を示します。 これにより、より輝度の異なる画像や、所望のスタイルや色に合致した画像を生成することができます。 空間周波数及び画素領域における信号リークの分布をモデル化し、初期潜時における信号リークを含むことにより、追加のトレーニングを伴わずに予測結果に適合する画像を生成する。

There is a bias in the inference pipeline of most diffusion models. This bias arises from a signal leak whose distribution deviates from the noise distribution, creating a discrepancy between training and inference processes. We demonstrate that this signal-leak bias is particularly significant when models are tuned to a specific style, causing sub-optimal style matching. Recent research tries to avoid the signal leakage during training. We instead show how we can exploit this signal-leak bias in existing diffusion models to allow more control over the generated images. This enables us to generate images with more varied brightness, and images that better match a desired style or color. By modeling the distribution of the signal leak in the spatial frequency and pixel domains, and including a signal leak in the initial latent, we generate images that better match expected results without any additional training.
翻訳日:2023-09-28 12:24:59 公開日:2023-09-27
# ai問題定式化における子どもの反映値の検討

Examining the Values Reflected by Children during AI Problem Formulation ( http://arxiv.org/abs/2309.15839v1 )

ライセンス: Link先を確認
Utkarsh Dwivedi, Salma Elsayed-ali, Elizabeth Bonsignore and Hernisa Kacorri(参考訳) 子どもたちがどのように設計し、AIインターフェースでどのような価値を持つかを理解することで、教育可能なマシンなどのモデルを明示的にトレーニングすることができる。 修正されたストーリーボードを使った共同設計セッションでは、5人の子供(7歳から13歳)と成人の共同設計者からなるチームが、AIの問題解決活動に従事した。 我々の研究は、確立された心理的価値の枠組み(Rokeach Value Survey)を活用して、子どもが日常的な活動を支援するために考案したAIシステムに、どのように価値を概念化し、組み込むかを明らかにした。 具体的には、子どもが提案するアイデアは、例えば感情の検出やユーザの社会的関係の理解など、高度なシステムインテリジェンスを必要とする。 基礎となるモデルは複数のモードでトレーニングすることができ、データの追加やネガティブな例の予測によってエラーを修正できる。 子どもの考えは、意思決定する前に家族や機械が社会的文脈を理解することを気にしていたことを示している。

Understanding how children design and what they value in AI interfaces that allow them to explicitly train their models such as teachable machines, could help increase such activities' impact and guide the design of future technologies. In a co-design session using a modified storyboard, a team of 5 children (aged 7-13 years) and adult co-designers, engaged in AI problem formulation activities where they imagine their own teachable machines. Our findings, leveraging an established psychological value framework (the Rokeach Value Survey), illuminate how children conceptualize and embed their values in AI systems that they themselves devise to support their everyday activities. Specifically, we find that children's proposed ideas require advanced system intelligence, e.g. emotion detection and understanding the social relationships of a user. The underlying models could be trained under multiple modalities and any errors would be fixed by adding more data or by anticipating negative examples. Children's ideas showed they cared about family and expected machines to understand their social context before making decisions.
翻訳日:2023-09-28 12:23:50 公開日:2023-09-27
# OrthoPlanes: GANの3D認識向上のための新しい表現法

OrthoPlanes: A Novel Representation for Better 3D-Awareness of GANs ( http://arxiv.org/abs/2309.15830v1 )

ライセンス: Link先を確認
Honglin He, Zhuoqian Yang, Shikai Li, Bo Dai, Wayne Wu(参考訳) 本稿では,2次元画像コレクションから微細な幾何を用いて,現実的かつビュー一貫性のある画像を生成する新しい手法を提案する。 提案手法では,2次元スタイルGANの修正により効率よく生成可能な特徴マップに,詳細な3D情報を符号化する。 従来の表現と比較すると,明快かつ明快な情報でスケーラビリティと表現性が向上している。 その結果,より困難な視角を処理し,空間的自由度の高い調音物体を合成できることがわかった。 実験により,本手法はFFHQとSHHQのデータセット上で,定量的かつ定性的に,最先端の結果が得られることを示した。 プロジェクトページ: \url{https://orthoplanes.github.io/}

We present a new method for generating realistic and view-consistent images with fine geometry from 2D image collections. Our method proposes a hybrid explicit-implicit representation called \textbf{OrthoPlanes}, which encodes fine-grained 3D information in feature maps that can be efficiently generated by modifying 2D StyleGANs. Compared to previous representations, our method has better scalability and expressiveness with clear and explicit information. As a result, our method can handle more challenging view-angles and synthesize articulated objects with high spatial degree of freedom. Experiments demonstrate that our method achieves state-of-the-art results on FFHQ and SHHQ datasets, both quantitatively and qualitatively. Project page: \url{https://orthoplanes.github.io/}.
翻訳日:2023-09-28 12:22:19 公開日:2023-09-27
# マルチユニットソフトセンシングで数発の学習が可能に

Multi-unit soft sensing permits few-shot learning ( http://arxiv.org/abs/2309.15828v1 )

ライセンス: Link先を確認
Bjarne Grimstad, Kristian L{\o}vland, Lars S. Imsland(参考訳) 近年、トランスファービリティのある学習アルゴリズムを用いてソフトセンサを改善する様々な方法が研究されている。 広義に言えば、ソフトセンサの性能は、複数のタスクを解いて学習すると強化される。 伝達可能性の有用性は, 学習課題がいかに強く関連しているかによって異なる。 転送可能性の特に適切なケースは、多くの実現があるプロセスのためにソフトセンサーを開発する場合、例えば、データが利用可能な多くの実装を持つシステムやデバイスなどである。 すると、各実現はソフトセンサー学習タスクを示し、異なるタスクが強く関連していると期待することは妥当である。 この設定で転送可能性を適用することで、私たちがマルチユニットソフトセンシングと呼ぶものとなり、ソフトセンサーはその実現したすべてのデータから学習することでプロセスをモデル化する。 本稿では,階層モデルとして定式化し,ディープニューラルネットワークを用いて実装したマルチユニットソフトセンサの学習能力について検討する。 特に,ユニット数の増加に伴ってソフトセンサがいかに一般化するかを検討する。 大規模な産業データセットを用いて、ソフトセンサーが十分な数のタスクから学習されると、新しいユニットからのデータに対するわずかなショット学習が可能になることを実証した。 驚くべきことに、タスクの難しさに関して、1-3データポイントでの数ショットの学習は、しばしば新しいユニットで高いパフォーマンスをもたらす。

Recent literature has explored various ways to improve soft sensors using learning algorithms with transferability. Broadly put, the performance of a soft sensor may be strengthened when it is learned by solving multiple tasks. The usefulness of transferability depends on how strongly related the devised learning tasks are. A particularly relevant case for transferability, is when a soft sensor is to be developed for a process of which there are many realizations, e.g. system or device with many implementations from which data is available. Then, each realization presents a soft sensor learning task, and it is reasonable to expect that the different tasks are strongly related. Applying transferability in this setting leads to what we call multi-unit soft sensing, where a soft sensor models a process by learning from data from all of its realizations. This paper explores the learning abilities of a multi-unit soft sensor, which is formulated as a hierarchical model and implemented using a deep neural network. In particular, we investigate how well the soft sensor generalizes as the number of units increase. Using a large industrial dataset, we demonstrate that, when the soft sensor is learned from a sufficient number of tasks, it permits few-shot learning on data from new units. Surprisingly, regarding the difficulty of the task, few-shot learning on 1-3 data points often leads to a high performance on new units.
翻訳日:2023-09-28 12:22:04 公開日:2023-09-27
# ハードパラメータ共有による音声・テキスト翻訳のためのクロスモーダルマルチタスク

Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing ( http://arxiv.org/abs/2309.15826v1 )

ライセンス: Link先を確認
Brian Yan, Xuankai Chang, Antonios Anastasopoulos, Yuya Fujita, Shinji Watanabe(参考訳) 近年のエンドツーエンドの音声テキスト翻訳(ST)では,テキスト入力を結果のクロスモーダル表現にマッピングするセカンダリエンコーダを介して機械翻訳(MT)データを活用するソフトパラメータ共有を用いたマルチタスク方式が提案されている。 そこで本研究では,すべてのモデルパラメータをクロスモーダルに共有するハードパラメータ共有型st/mtマルチタスクフレームワークを提案する。 提案手法は,音声とテキストの入力を類似長さの2つの離散トークンシーケンスに変換する前処理段階を通じて,音声とテキストのモダリティギャップを低減する。 MuST-Cの実験により、我々のマルチタスクフレームワークは、外部MTデータなしで平均+0.5BLEUで、注意エンコーダデコーダ、コネクショニスト時間分類(CTC)、トランスデューサ、共同CTC/アテンションモデルを改善することを示した。 さらに、このフレームワークは外部のmtデータを組み込んで+0.8 bleuを与え、事前学習されたテキストモデルからの転送学習を改善し、+1.8 bleuを得る。

Recent works in end-to-end speech-to-text translation (ST) have proposed multi-tasking methods with soft parameter sharing which leverage machine translation (MT) data via secondary encoders that map text inputs to an eventual cross-modal representation. In this work, we instead propose a ST/MT multi-tasking framework with hard parameter sharing in which all model parameters are shared cross-modally. Our method reduces the speech-text modality gap via a pre-processing stage which converts speech and text inputs into two discrete token sequences of similar length -- this allows models to indiscriminately process both modalities simply using a joint vocabulary. With experiments on MuST-C, we demonstrate that our multi-tasking framework improves attentional encoder-decoder, Connectionist Temporal Classification (CTC), transducer, and joint CTC/attention models by an average of +0.5 BLEU without any external MT data. Further, we show that this framework incorporates external MT data, yielding +0.8 BLEU, and also improves transfer learning from pre-trained textual models, yielding +1.8 BLEU.
翻訳日:2023-09-28 12:21:44 公開日:2023-09-27
# WS-YOLO:鏡視下手術用ツールローカライゼーション用ヨロネットワーク

WS-YOLO: Weakly Supervised Yolo Network for Surgical Tool Localization in Endoscopic Videos ( http://arxiv.org/abs/2309.13404v2 )

ライセンス: Link先を確認
Rongfeng Wei, Jinlin Wu, You Pang, and Zhen Chen(参考訳) 内視鏡的ビデオ記録で手術器具を自動的に検出し追跡できることは、手術のさまざまな側面を変換できる多くの有用な応用を可能にする。 ロボット支援手術では、手術ツールのカテゴリのような潜在的な情報的データをキャプチャすることができる。 そこで我々は,ダヴィンチ手術ロボットが出力する粗粒度意味情報から,位置とカテゴリの細粒度意味情報を生成するために,手動注記データの量と検出性能の最適なバランスを保ちながら,必要な注釈作業を大幅に減らした,内視鏡画像における手術ツールの局所化のための弱監督ヨーロネットワーク(WS-YOLO)を提案した。 ソースコードはhttps://github.com/Breezewrf/Weakly-Supervised-Yolov8で公開されている。

Being able to automatically detect and track surgical instruments in endoscopic video recordings would allow for many useful applications that could transform different aspects of surgery. In robot-assisted surgery, the potentially informative data like categories of surgical tool can be captured, which is sparse, full of noise and without spatial information. We proposed a Weakly Supervised Yolo Network (WS-YOLO) for Surgical Tool Localization in Endoscopic Videos, to generate fine-grained semantic information with location and category from coarse-grained semantic information outputted by the da Vinci surgical robot, which significantly diminished the necessary human annotation labor while striking an optimal balance between the quantity of manually annotated data and detection performance. The source code is available at https://github.com/Breezewrf/Weakly-Supervised-Yolov8.
翻訳日:2023-09-28 10:35:56 公開日:2023-09-27
# 将来の資産価値と投資ユニバースの自動削減を用いたポートフォリオ最適化のための量子コンピューティングシステム

A Quantum Computing-based System for Portfolio Optimization using Future Asset Values and Automatic Reduction of the Investment Universe ( http://arxiv.org/abs/2309.12627v3 )

ライセンス: Link先を確認
Eneko Osaba, Guillaume Gelabert, Esther Villar-Rodriguez, Ant\'on Asla and Izaskun Oregi(参考訳) 量的金融の最も注目されている問題の1つはポートフォリオ最適化の問題である。 その解法については、量子コンピューティングに関連するものは近年特に多作であるなど、様々な技術を用いてこの問題にアプローチされている。 本研究では,将来的な資産価値と自動宇宙還元(q4futurepop)を備えたポートフォリオ最適化のための量子コンピューティングベースのシステムを提案する。 一 開発済みのツールは、歴史的価値ではなく、将来の資産の予測を扱うためにモデル化され、かつ ii)Q4FuturePOPは、問題の複雑さを知的に低減するために考案された自動宇宙還元モジュールを含む。 また、Q4FuturePOPのプロトタイプバージョンを構成する異なるモジュールの予備性能に関する簡単な議論も紹介する。

One of the problems in quantitative finance that has received the most attention is the portfolio optimization problem. Regarding its solving, this problem has been approached using different techniques, with those related to quantum computing being especially prolific in recent years. In this study, we present a system called Quantum Computing-based System for Portfolio Optimization with Future Asset Values and Automatic Universe Reduction (Q4FuturePOP), which deals with the Portfolio Optimization Problem considering the following innovations: i) the developed tool is modeled for working with future prediction of assets, instead of historical values; and ii) Q4FuturePOP includes an automatic universe reduction module, which is conceived to intelligently reduce the complexity of the problem. We also introduce a brief discussion about the preliminary performance of the different modules that compose the prototypical version of Q4FuturePOP.
翻訳日:2023-09-28 10:35:37 公開日:2023-09-27
# 2次元における監視自由フェルミオンの絡み合い相、局在および多重フラクタル性

Entanglement phases, localization and multifractality of monitored free fermions in two dimensions ( http://arxiv.org/abs/2309.12391v3 )

ライセンス: Link先を確認
K. Chahine, M. Buchhold(参考訳) 2次元(2次元)におけるU(1)$対称性を持つ連続監視自由フェルミオンの絡み合い構造と波動関数特性について検討する。 フェルミオンレプリカ・ケルディッシュ場理論とボソニック有効長波長作用を導出し、2次元の監視フェルミオンのエンタングルメント相転移と3次元のアンダーソン型局在遷移の相似性と差異について考察した。 次に、厳密な数値シミュレーションからエンタングルメントエントロピー、相互情報、波動関数の逆参加比を抽出し、2次元における監視フェルミオンの絡み合い遷移の現象を定式化する。 弱いモニタリングでは、特徴的な$L\log L$エンタングルメント成長と多フラクタル次元$D_q=2$が金属フェルミ液体を連想させる。 強いモニタリングのために、指数関数的に局所化された波動関数は、面積法則の絡み合いに対する飽和をもたらす。 その間、臨界点は、創発的共形不変性と強い多重フラクタル性と一致する絡み合いスケーリングの両方を表示する。 計算結果は平均場解析と一ループ再正規化群による場理論の扱いとよく一致している。 これは、絡み合いの内容における金属-絶縁体遷移のモニタリングのイメージを形作り、2次元モニターされたフェルミオンを新しいアリーナとして確立し、D$次元の非単位量子力学と$D+1$次元の量子統計力学のリンクを探索する。

We explore the entanglement structure and wave function properties of continuously monitored free fermions with $U(1)$-symmetry in two spatial dimensions (2D). Deriving the fermion replica-Keldysh field theory, and a bosonic effective long-wavelength action, we discuss similarities and differences between entanglement phase transitions of monitored fermions in two dimensions and Anderson-type localization transitions in three dimensions. We then establish the phenomenology of entanglement transitions of monitored fermions in 2D by extracting the entanglement entropy, mutual information, and wave function inverse participation ratio from exact numerical simulations. At weak monitoring, a characteristic $L\log L$ entanglement growth and a multifractal dimension $D_q=2$ are reminiscent of a metallic Fermi liquid. For strong monitoring, exponentially localized wave functions yield a saturation towards area law entanglement. In between, the critical point displays both an entanglement scaling consistent with an emergent conformal invariance and strong multifractality. The numerical results are in good agreement with a mean-field analysis and a one-loop renormalization group treatment of the field theory. This shapes the picture of a monitoring induced metal-to-insulator transition in the entanglement content and establishes 2D monitored fermions as a novel arena to explore the link between non-unitary quantum dynamics in $D$ dimensions and quantum statistical mechanics in $D+1$ dimensions.
翻訳日:2023-09-28 10:35:24 公開日:2023-09-27
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v3 )

ライセンス: Link先を確認
Mara Finkelstein and Markus Freitag(参考訳) 自然言語生成(nlg)タスクのデコード手法に関する最近の研究は、モデル確率が必ずしも人間の好みと一致するとは限らないため、マップデコードが最適ではないことを示した。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。 本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。 ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2023-09-28 10:34:56 公開日:2023-09-27
# カラーコードに基づく実用的フォールトトレラント量子コンピューティング

Facilitating Practical Fault-tolerant Quantum Computing Based on Color Codes ( http://arxiv.org/abs/2309.05222v4 )

ライセンス: Link先を確認
Jiaxuan Zhang, Yu-Chun Wu and Guo-Ping Guo(参考訳) カラーコードはフォールトトレラント量子コンピューティングにとって有望なトポロジカルコードである。 カラーコードに関する不十分な研究は、その実用化を遅らせた。 本研究では,カラーコードに基づく実用的フォールトトレラント量子コンピューティングを実現するために,いくつかの重要な課題を解決する。 まず,誤り率関連重み付き復号グラフを導入することで,標準回路レベルのノイズモデルにおける三角形色コードの閾値を0.47\%$に改善し,表面符号とのギャップを狭める。 次に,2次元アーキテクチャを持つ量子コンピュータにおいて論理演算を行う上で重要なカラーコード格子手術の回路レベル復号戦略について検討する。 最後に、三角カラーコードの状態注入プロトコルを提案し、CSSコードの他の状態注入プロトコルと比較して最適な論理誤差率を提供し、マジック状態蒸留の効率を高めるのに有用である。

Color code is a promising topological code for fault-tolerant quantum computing. Insufficient research on color code has delayed its practical application. In this work, we address several key issues to facilitate practical fault-tolerant quantum computing based on color codes. First, by introducing decoding graphs with error-rate-related weights, we improve the threshold of the triangular color code under the standard circuit-level noise model to $0.47\%$, narrowing the gap to that of the surface code. Second, we investigate the circuit-level decoding strategy of color code lattice surgery, which is crucial for performing logical operations in a quantum computer with two-dimensional architecture. Lastly, the state injection protocol of triangular color code is proposed, offering an optimal logical error rate compared to any other state injection protocol of the CSS code, which is beneficial for increasing the efficiency of magic state distillation.
翻訳日:2023-09-28 10:34:34 公開日:2023-09-27
# コントラストトークン音響事前学習による音声表現の学習

Learning Speech Representation From Contrastive Token-Acoustic Pretraining ( http://arxiv.org/abs/2309.00424v4 )

ライセンス: Link先を確認
Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang, Jianwu Dang(参考訳) 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒化タスクでは、音声から抽出した中間表現は、両モードの情報を含むテキストと音響情報の「ブリッジ」として機能すべきである。 セマンティックな内容は強調され、話者のアイデンティティや音響的詳細といったパラ言語的な情報は強調されなければならない。 しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。 コントラスト学習は2つのモードから中間表現をモデル化する良い方法である。 しかし、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。 これらの問題に対処するために,2つのエンコーダを用いて音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。 CTAPモデルは、210kの音声と音素のペアで訓練され、最小に制御されたTS、VC、ASRを達成する。 提案手法は,音声処理における下流タスクの細粒度生成と認識のための有望なソリューションを提供する。 オーディオサンプルをWebサイトに提供する。

For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representations extracted from speech should serve as a "bridge" between text and acoustic information, containing information from both modalities. The semantic content is emphasized, while the paralinguistic information such as speaker identity and acoustic details should be de-emphasized. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Contrastive learning is a good method for modeling intermediate representations from two modalities. However, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named "Contrastive Token-Acoustic Pretraining (CTAP)", which uses two encoders to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CTAP model is trained on 210k speech and phoneme pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing. We provide a website with audio samples.
翻訳日:2023-09-28 10:34:19 公開日:2023-09-27
# object-lane clustering によるオンラインレーングラフ抽出の改善

Improving Online Lane Graph Extraction by Object-Lane Clustering ( http://arxiv.org/abs/2307.10947v3 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 自律運転には正確な現場理解情報が必要である。 この目的のために、自律エージェントは知覚スタックの一部としてオブジェクト検出とオンラインBEVレーングラフ抽出手法をデプロイする。 本研究では,3次元物体検出出力を用いて局所レーングラフ推定精度を向上させるアーキテクチャと損失定式化を提案する。 提案手法では, 中心線をクラスタセンタとして, オブジェクトをクラスタセンタ上の確率分布に割り当てるデータポイントとして考慮し, 中心線にオブジェクトを割り当てることを学ぶ。 このトレーニングスキームはレーンとオブジェクトの関係を直接監視することを保証するので、パフォーマンスが向上する。 提案手法は,最先端手法よりもレーングラフ推定を大幅に改善する。 提案手法は,既存の3次元物体検出手法の出力を用いることで,大幅な性能向上が期待できることを示す。 本手法では, 中間表現ではなく検出出力を用いるため, テスト時に任意の検出手法を単一モデルで使用することができる。

Autonomous driving requires accurate local scene understanding information. To this end, autonomous agents deploy object detection and online BEV lane graph extraction methods as a part of their perception stack. In this work, we propose an architecture and loss formulation to improve the accuracy of local lane graph estimates by using 3D object detection outputs. The proposed method learns to assign the objects to centerlines by considering the centerlines as cluster centers and the objects as data points to be assigned a probability distribution over the cluster centers. This training scheme ensures direct supervision on the relationship between lanes and objects, thus leading to better performance. The proposed method improves lane graph estimation substantially over state-of-the-art methods. The extensive ablations show that our method can achieve significant performance improvements by using the outputs of existing 3D object detection methods. Since our method uses the detection outputs rather than detection method intermediate representations, a single model of our method can use any detection method at test time.
翻訳日:2023-09-28 10:33:50 公開日:2023-09-27
# MoVie:ビューの一般化のためのビジュアルモデルベースのポリシー適応

MoVie: Visual Model-Based Policy Adaptation for View Generalization ( http://arxiv.org/abs/2307.00972v3 )

ライセンス: Link先を確認
Sizhe Yang, Yanjie Ze, Huazhe Xu(参考訳) 限られた視点で訓練された視覚強化学習(RL)エージェントは、学習能力の一般化において大きな課題に直面している。 この固有の困難さは、$\textit{view generalization}$ の問題として知られている。 本研究では,この基本的な問題を,現実の状況によく似た4つの異なる,非常に困難なシナリオに体系的に分類する。 次に、視覚的$\textbf{Mo}$del-based Policy for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) をテスト時間中に、明示的な報酬信号やトレーニング時間中の変更を必要とせずに、容易にかつ効果的に適応できるアプローチを提案する。 提案手法は,dmcontrol,xarm,adroitから供給される合計$\textbf{18}$タスクを含む4つのシナリオにおいて,それぞれ$\mathbf{33}$%,$\mathbf{86}$%,$\mathbf{152}$%の相対的改善を示す。 優れた結果は、現実世界のロボットアプリケーションに対する我々のアプローチの膨大な可能性を浮き彫りにしている。 ビデオはhttps://yangsizhe.github.io/MoVie/で公開されている。

Visual Reinforcement Learning (RL) agents trained on limited views face significant challenges in generalizing their learned abilities to unseen views. This inherent difficulty is known as the problem of $\textit{view generalization}$. In this work, we systematically categorize this fundamental problem into four distinct and highly challenging scenarios that closely resemble real-world situations. Subsequently, we propose a straightforward yet effective approach to enable successful adaptation of visual $\textbf{Mo}$del-based policies for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) during test time, without any need for explicit reward signals and any modification during training time. Our method demonstrates substantial advancements across all four scenarios encompassing a total of $\textbf{18}$ tasks sourced from DMControl, xArm, and Adroit, with a relative improvement of $\mathbf{33}$%, $\mathbf{86}$%, and $\mathbf{152}$% respectively. The superior results highlight the immense potential of our approach for real-world robotics applications. Videos are available at https://yangsizhe.github.io/MoVie/ .
翻訳日:2023-09-28 10:33:34 公開日:2023-09-27
# 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe ( http://arxiv.org/abs/2209.05324v4 )

ライセンス: Link先を確認
Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Jia Zeng, Zhiqi Li, Jiazhi Yang, Hanming Deng, Hao Tian, Enze Xie, Jiangwei Xie, Li Chen, Tianyu Li, Yang Li, Yulu Gao, Xiaosong Jia, Si Liu, Jianping Shi, Dahua Lin and Yu Qiao(参考訳) 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。 ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。 センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。 BEVの知覚における中核的な問題は (a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法 b) bevグリッドにおける根拠真理アノテーションの取得方法 (c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び (d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。 本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。 さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。 さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。 最後に,この領域における今後の研究の方向性を指摘する。 このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待している。 最新の作業を収集するためにアクティブなリポジトリを保持し、https://github.com/OpenDriveLab/Birds-eye-view-Perceptionでトリックの袋を提供する。

Learning powerful representations in bird's-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent works on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report will shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenDriveLab/Birds-eye-view-Perception
翻訳日:2023-09-28 10:33:10 公開日:2023-09-27
# EfficientViT:高分解能Dense予測のためのマルチスケールリニアアテンション

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction ( http://arxiv.org/abs/2205.14756v5 )

ライセンス: Link先を確認
Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han(参考訳) 高分解能高密度予測は、計算写真や自動運転など、多くの現実世界の応用を可能にする。 しかし、計算コストが大きいため、最先端の高解像度の予測モデルをハードウェアデバイスに展開することは困難である。 この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。 従来のソフトマックス, ハードウェア非効率大カーネル畳み込み, 複雑なトポロジ構造に依存した高分解能高密度予測モデルとは異なり, マルチスケール線形注意は, 軽量かつハードウェア効率の高い操作のみで, グローバル受容場とマルチスケール学習(高分解能高密度予測の2つの望ましい特徴)を実現する。 そのため、EfficientViTは、モバイルCPU、エッジGPU、クラウドGPUなど、さまざまなハードウェアプラットフォーム上での大幅なスピードアップによって、これまでの最先端モデルよりも、顕著なパフォーマンス向上を実現している。 Cityscapesのパフォーマンスを損なうことなく、当社のEfficientViTは、SegFormerとSegNeXtでそれぞれ最大13.9xと6.2xのGPUレイテンシを削減します。 超高解像度では、EfficientViTはRestormer上で最大6.4倍のスピードアップを実現し、PSNRでは0.11dBのゲインを提供する。 Segment Anythingでは、EfficientViTはVT-Hugeと同様のゼロショットイメージセグメンテーション品質を提供し、GPUのスループットは84倍になる。 コード:https://github.com/mit-han-lab/efficientvit。

High-resolution dense prediction enables many appealing real-world applications, such as computational photography, autonomous driving, etc. However, the vast computational cost makes deploying state-of-the-art high-resolution dense prediction models on hardware devices difficult. This work presents EfficientViT, a new family of high-resolution vision models with novel multi-scale linear attention. Unlike prior high-resolution dense prediction models that rely on heavy softmax attention, hardware-inefficient large-kernel convolution, or complicated topology structure to obtain good performances, our multi-scale linear attention achieves the global receptive field and multi-scale learning (two desirable features for high-resolution dense prediction) with only lightweight and hardware-efficient operations. As such, EfficientViT delivers remarkable performance gains over previous state-of-the-art models with significant speedup on diverse hardware platforms, including mobile CPU, edge GPU, and cloud GPU. Without performance loss on Cityscapes, our EfficientViT provides up to 13.9x and 6.2x GPU latency reduction over SegFormer and SegNeXt, respectively. For super-resolution, EfficientViT delivers up to 6.4x speedup over Restormer while providing 0.11dB gain in PSNR. For Segment Anything, EfficientViT delivers similar zero-shot image segmentation quality as ViT-Huge with 84x higher throughput on GPU. Code: https://github.com/mit-han-lab/efficientvit.
翻訳日:2023-09-28 10:32:41 公開日:2023-09-27
# 自己回復プロンプト:基礎モデルと自己回復機能を備えた簡易型汎用サービスロボットシステム

Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery ( http://arxiv.org/abs/2309.14425v2 )

ライセンス: Link先を確認
Mimo Shirasaka, Tatsuya Matsushima, Soshi Tsunashima, Yuya Ikeda, Aoi Horo, So Ikoma, Chikaha Tsuji, Hikaru Wada, Tsunekazu Omija, Dai Komukai, Yutaka Matsuo Yusuke Iwasawa(参考訳) 様々な環境において多様なタスクを実行できる汎用サービスロボット(GPSR)は、タスクや環境に高い汎用性と適応性を持つシステムを必要とする。 本稿では,複数の基礎モデルに基づく世界競争のためのトップレベルGPSRシステム(RoboCup@Home 2023)を最初に開発した。 このシステムは変分に一般化可能であり、各モデルに適応する。 そして,本システムの性能解析により,より現実的なGPSRアプリケーション設定において,不十分な情報,誤った計画生成,計画実行失敗の3種類の障害が見つかった。 次に,必要な情報を探索し,障害から回復するためのプロンプトを変更する自己回復型プロンプトパイプラインを提案する。 自己回復機構を有するシステムが様々な障害事例を解決してタスクを遂行できることを実験的に確認した。 補足ビデオはhttps://sites.google.com/view/srgpsrで閲覧できる。

A general-purpose service robot (GPSR), which can execute diverse tasks in various environments, requires a system with high generalizability and adaptability to tasks and environments. In this paper, we first developed a top-level GPSR system for worldwide competition (RoboCup@Home 2023) based on multiple foundation models. This system is both generalizable to variations and adaptive by prompting each model. Then, by analyzing the performance of the developed system, we found three types of failure in more realistic GPSR application settings: insufficient information, incorrect plan generation, and plan execution failure. We then propose the self-recovery prompting pipeline, which explores the necessary information and modifies its prompts to recover from failure. We experimentally confirm that the system with the self-recovery mechanism can accomplish tasks by resolving various failure cases. Supplementary videos are available at https://sites.google.com/view/srgpsr .
翻訳日:2023-09-28 10:25:00 公開日:2023-09-27
# 話の聞き取りと聞き取り : 解釈可能な融合による動機付け面接におけるマルチモーダルクライアント行動分類器

Seeing and hearing what has not been said; A multimodal client behavior classifier in Motivational Interviewing with interpretable fusion ( http://arxiv.org/abs/2309.14398v2 )

ライセンス: Link先を確認
Lucie Galland, Catherine Pelachaud and Florian Pecune(参考訳) モチベーション・インタヴュー(英: Motivational Interviewing、MI)は、協調を重視し、行動の変化を促すセラピーのアプローチである。 MI会話の品質を評価するために、MISCコードを用いてクライアント発話を変更トーク、継続トーク、フォロー/ニュートラルトークのいずれかとして分類することができる。 MI会話における変化話の割合はセラピーの結果と正に相関しており、クライアント発話の正確な分類が不可欠である。 本稿では,テキスト,韻律,表情表現性,身体表現性といったマルチモーダルな特徴を活用し,三つのmiscクラス(チェンジトーク,維持トーク,フォロー/ニュートラルトーク)を正確に区別する分類器を提案する。 モデルをトレーニングするために、公開されたannomiデータセットにアノテーションを実行して、テキスト、オーディオ、表情表現性、身体表現性などのマルチモーダル情報を収集します。 さらに、意思決定プロセスにおいて最も重要なモダリティを特定し、MI会話中の様々なモダリティの相互作用に関する貴重な洞察を提供する。

Motivational Interviewing (MI) is an approach to therapy that emphasizes collaboration and encourages behavioral change. To evaluate the quality of an MI conversation, client utterances can be classified using the MISC code as either change talk, sustain talk, or follow/neutral talk. The proportion of change talk in a MI conversation is positively correlated with therapy outcomes, making accurate classification of client utterances essential. In this paper, we present a classifier that accurately distinguishes between the three MISC classes (change talk, sustain talk, and follow/neutral talk) leveraging multimodal features such as text, prosody, facial expressivity, and body expressivity. To train our model, we perform annotations on the publicly available AnnoMI dataset to collect multimodal information, including text, audio, facial expressivity, and body expressivity. Furthermore, we identify the most important modalities in the decision-making process, providing valuable insights into the interplay of different modalities during a MI conversation.
翻訳日:2023-09-28 10:24:46 公開日:2023-09-27
# データセット拡散: ピクセルレベルセマンティックセグメンテーションのための拡散に基づく合成データセット生成

Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation ( http://arxiv.org/abs/2309.14303v2 )

ライセンス: Link先を確認
Quang Nguyen, Truong Vu, Anh Tran, Khoi Nguyen(参考訳) 深部視覚モデルのトレーニングデータの準備は、労働集約的な作業です。 これに対処するために、生成モデルが合成データを生成する効果的なソリューションとして登場した。 現在の生成モデルは画像レベルのカテゴリラベルを生成する一方で、テキストから画像への生成モデル安定拡散(sd)を用いた画素レベルの意味セグメンテーションラベルを生成する新しい手法を提案する。 テキストプロンプト,クロスアテンション,SDの自己アテンションを利用して,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。 これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。 これらのマップはセマンティクスセグメンタをトレーニングするための擬似ラベルとして機能する。 擬似ラベルの不完全性を考慮し,不確実領域をセグメンテーションに組み込むことで,これらの領域の損失を無視することができる。 PASCAL VOC と MSCOCO の2つのデータセットで評価を行い,本手法は並列処理を著しく上回っている。 ベンチマークとコードはhttps://github.com/VinAIResearch/Dataset-Diffusionで公開される予定です。

Preparing training data for deep vision models is a labor-intensive task. To address this, generative models have emerged as an effective solution for generating synthetic data. While current generative models produce image-level category labels, we propose a novel method for generating pixel-level semantic segmentation labels using the text-to-image generative model Stable Diffusion (SD). By utilizing the text prompts, cross-attention, and self-attention of SD, we introduce three new techniques: class-prompt appending, class-prompt cross-attention, and self-attention exponentiation. These techniques enable us to generate segmentation maps corresponding to synthetic images. These maps serve as pseudo-labels for training semantic segmenters, eliminating the need for labor-intensive pixel-wise annotation. To account for the imperfections in our pseudo-labels, we incorporate uncertainty regions into the segmentation, allowing us to disregard loss from those regions. We conduct evaluations on two datasets, PASCAL VOC and MSCOCO, and our approach significantly outperforms concurrent work. Our benchmarks and code will be released at https://github.com/VinAIResearch/Dataset-Diffusion
翻訳日:2023-09-28 10:24:26 公開日:2023-09-27
# タイル境界を用いた確率線形帯域のMartingale混合に対する改良アルゴリズム

Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for Martingale Mixtures ( http://arxiv.org/abs/2309.14298v2 )

ライセンス: Link先を確認
Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters(参考訳) 確率線形バンディット問題に対する最悪の後悔の保証を伴う改良アルゴリズムを提案する。 広く使われている「不確実性に直面した最適主義」原理は、確率的バンディット問題を未知の報酬関数に対する信頼シーケンスの構築に還元する。 結果として得られたbanditアルゴリズムのパフォーマンスは、信頼性シーケンスのサイズに依存するが、より小さな信頼セットは、よりよい経験的パフォーマンスとより強い後悔の保証をもたらす。 本研究では,適応マルティンゲール混合のための新しいテールバインドを用いて,確率的バンドイットに適した信頼度列を構築する。 これらの信頼シーケンスは凸プログラミングによる効率的な行動選択を可能にする。 信頼性シーケンスに基づく線形バンディットアルゴリズムは、競合する最悪の最悪の後悔を実現することが保証されている。 我々は、我々の信頼シーケンスが、経験的にも理論的にも競合より厳密であることを示す。 最後に,より厳密な信頼シーケンスにより,複数のハイパーパラメータチューニングタスクの性能が向上することを示す。

We present improved algorithms with worst-case regret guarantees for the stochastic linear bandit problem. The widely used "optimism in the face of uncertainty" principle reduces a stochastic bandit problem to the construction of a confidence sequence for the unknown reward function. The performance of the resulting bandit algorithm depends on the size of the confidence sequence, with smaller confidence sets yielding better empirical performance and stronger regret guarantees. In this work, we use a novel tail bound for adaptive martingale mixtures to construct confidence sequences which are suitable for stochastic bandits. These confidence sequences allow for efficient action selection via convex programming. We prove that a linear bandit algorithm based on our confidence sequences is guaranteed to achieve competitive worst-case regret. We show that our confidence sequences are tighter than competitors, both empirically and theoretically. Finally, we demonstrate that our tighter confidence sequences give improved performance in several hyperparameter tuning tasks.
翻訳日:2023-09-28 10:24:03 公開日:2023-09-27
# 強化学習におけるデータ効率の向上:メッシュ情報伝達に基づく新しい想像機構

Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation ( http://arxiv.org/abs/2309.14243v2 )

ライセンス: Link先を確認
Zihang Wang, Maowei Jiang(参考訳) 強化学習(RL)アルゴリズムは、特に高次元の状態空間や大規模問題を扱う場合、データ効率の限界に直面する。 ほとんどのRLメソッドは、エージェントのCriticを更新する際に、同じエピソード内の状態遷移情報にのみ依存することが多く、これはデータ効率の低下と準最適トレーニング時間の消費につながる。 人間の類似推論能力に触発されて,RLアルゴリズムのデータ効率を大幅に向上させるために,新しいメッシュ情報伝達機構「Imagination Mechanism (IM)」を導入する。 具体的には、単一のサンプルによって生成された情報を、単に同じエピソードを送信するのではなく、複数のエピソードで異なる状態に効果的にブロードキャストすることができる。 この能力は、モデルの状態相互依存性の理解を深め、限られたサンプル情報のより効率的な学習を促進する。 汎用性を促進するため,他の広く採用されているRLアルゴリズムにシームレスかつ流動的に統合可能なプラグイン・アンド・プレイモジュールとして機能するIMを拡張した。 実験により,SAC,PPO,DDPG,DQNの4つの主要なSOTA RLアルゴリズムを一定間隔で高速化し,従来よりも性能が向上することが確認された。 コードとデータにアクセスするには、https://github.com/OuAzusaKou/imagination_mechanismをご覧ください。

Reinforcement learning(RL) algorithms face the challenge of limited data efficiency, particularly when dealing with high-dimensional state spaces and large-scale problems. Most of RL methods often rely solely on state transition information within the same episode when updating the agent's Critic, which can lead to low data efficiency and sub-optimal training time consumption. Inspired by human-like analogical reasoning abilities, we introduce a novel mesh information propagation mechanism, termed the 'Imagination Mechanism (IM)', designed to significantly enhance the data efficiency of RL algorithms. Specifically, IM enables information generated by a single sample to be effectively broadcasted to different states across episodes, instead of simply transmitting in the same episode. This capability enhances the model's comprehension of state interdependencies and facilitates more efficient learning of limited sample information. To promote versatility, we extend the IM to function as a plug-and-play module that can be seamlessly and fluidly integrated into other widely adopted RL algorithms. Our experiments demonstrate that IM consistently boosts four mainstream SOTA RL algorithms, such as SAC, PPO, DDPG, and DQN, by a considerable margin, ultimately leading to superior performance than before across various tasks. For access to our code and data, please visit https://github.com/OuAzusaKou/imagination_mechanism
翻訳日:2023-09-28 10:23:47 公開日:2023-09-27
# ICU受信予測のための説明可能な機械学習

Explainable Machine Learning for ICU Readmission Prediction ( http://arxiv.org/abs/2309.13781v3 )

ライセンス: Link先を確認
Alex G. C. de S\'a, Daniel Gould, Anna Fedyukova, Mitchell Nicholas, Lucy Dockrell, Calvin Fletcher, David Pilcher, Daniel Capurro, David B. Ascher, Khaled El-Khawas, Douglas E. V. Pires(参考訳) 集中治療ユニット(ICU)は複雑な病院環境を含み、臨床医による決定は患者の生活に高いリスクをもたらす。 その後、p合併症を減らすために包括的治療経路をたどらなければならない。 この環境における不確かで競合し、計画されていない側面は、ケアパスを均一に実施することの難しさを増大させる。 寛解は、短期間でicuに再入院した患者が死亡率が高く、資源利用率が高い場合に発生する、この経路の難しさに寄与する。 いくつかの研究は患者の医療情報を通じて寛解を予測しようとした。 読み出しを予測しながらある程度成功したが、これらの作品は読み出し予測を適切に評価、特徴付け、理解していない。 本研究は,多心性データベース(eICUコホートが166,355人,200,859人,6,021人)上で患者寛解をモデル化し,単心性(MIMIC IVコホートが382,278人,523,740人,5,984人)と多心性設定で検証する,標準化された説明可能な機械学習パイプラインを提案する。 我々の機械学習パイプラインは、ランダムフォレスト分類モデルを用いて、受信機動作特性曲線(AUC)の面積を最大0.7まで予測し、全体的な校正と検証セットの整合性を実現した。 構築されたモデルによって提供される説明から、主にバイタルサインや血液検査(例えば、アルブミン、血液尿素窒素、ヘモグロビン濃度)、人口動態(例えば、年齢、入場高さと体重)、ICU関連変数(例えば、単位型)に関する、洞察に富んだ結論を導出することができる。 これらの知見は、ICU患者を退院させながら、臨床医の意思決定において貴重な情報源を提供する。

The intensive care unit (ICU) comprises a complex hospital environment, where decisions made by clinicians have a high level of risk for the patients' lives. A comprehensive care pathway must then be followed to reduce p complications. Uncertain, competing and unplanned aspects within this environment increase the difficulty in uniformly implementing the care pathway. Readmission contributes to this pathway's difficulty, occurring when patients are admitted again to the ICU in a short timeframe, resulting in high mortality rates and high resource utilisation. Several works have tried to predict readmission through patients' medical information. Although they have some level of success while predicting readmission, those works do not properly assess, characterise and understand readmission prediction. This work proposes a standardised and explainable machine learning pipeline to model patient readmission on a multicentric database (i.e., the eICU cohort with 166,355 patients, 200,859 admissions and 6,021 readmissions) while validating it on monocentric (i.e., the MIMIC IV cohort with 382,278 patients, 523,740 admissions and 5,984 readmissions) and multicentric settings. Our machine learning pipeline achieved predictive performance in terms of the area of the receiver operating characteristic curve (AUC) up to 0.7 with a Random Forest classification model, yielding an overall good calibration and consistency on validation sets. From explanations provided by the constructed models, we could also derive a set of insightful conclusions, primarily on variables related to vital signs and blood tests (e.g., albumin, blood urea nitrogen and hemoglobin levels), demographics (e.g., age, and admission height and weight), and ICU-associated variables (e.g., unit type). These insights provide an invaluable source of information during clinicians' decision-making while discharging ICU patients.
翻訳日:2023-09-28 10:23:24 公開日:2023-09-27
# ALLURE:反復的インテクスト学習によるLLMによるテキストの評価と改善

ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning ( http://arxiv.org/abs/2309.13701v2 )

ライセンス: Link先を確認
Hosein Hasanbeig and Hiteshi Sharma and Leo Betthauser and Felipe Vieira Frujeri and Ida Momennejad(参考訳) 論文の分類から医学文書の要約に至るまで、人間やAIが生成するテキストの評価には、大型言語モデル(LLM)が使用される。 しかし、LLMは広範な実用性にもかかわらず、個別の障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。 ここでは,大規模言語モデルの理解と推論の誤りを監査するための体系的アプローチであるallureを紹介する。 ALLUREは、LCM生成した評価を注釈付きデータと比較し、ICL(In-context Learning)を活用してLCMによるテキストの堅牢な評価を強化し改善する評価器に、重要な偏差の事例を反復的に組み込む。 この反復的プロセスにより、評価器LLMの性能を改良し、最終的に評価プロセスにおける人間のアノテータへの依存を減らす。 我々は,医学的な要約,教育,生産性など,テキストデータの評価に関連する分野におけるLCMの多様な応用を期待する。

From grading papers to summarizing medical documents, large language models (LLMs) are evermore used for evaluation of text generated by humans and AI alike. However, despite their extensive utility, LLMs exhibit distinct failure modes, necessitating a thorough audit and improvement of their text evaluation capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large Language Models Understanding and Reasoning Errors. ALLURE involves comparing LLM-generated evaluations with annotated data, and iteratively incorporating instances of significant deviation into the evaluator, which leverages in-context learning (ICL) to enhance and improve robust evaluation of text by LLMs. Through this iterative process, we refine the performance of the evaluator LLM, ultimately reducing reliance on human annotators in the evaluation process. We anticipate ALLURE to serve diverse applications of LLMs in various domains related to evaluation of textual data, such as medical summarization, education, and and productivity.
翻訳日:2023-09-28 10:22:23 公開日:2023-09-27
# 言語教師付きセマンティクスセグメンテーションのための橋渡しセマンティクスギャップ

Bridging Semantic Gaps for Language-Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.13505v2 )

ライセンス: Link先を確認
Yun Xing, Jian Kang, Aoran Xiao, Jiahao Nie, Shao Ling, Shijian Lu(参考訳) ビジョンランゲージ事前学習は、その目覚ましいゼロショット認識能力と、言語監督から一般化可能な視覚表現を学習する可能性を示した。 一歩前進して、言語によるセマンティックセグメンテーションは、画像とテキストのペアのみからピクセルグループを学習することで、テキスト入力の空間的局所化を可能にする。 それでも、最先端技術は、視覚とテキストのモダリティの間に明確な意味的ギャップに悩まされている:画像に現れる多くの視覚概念が、ペア化されたキャプションに欠けている。 このような意味的ミスアライメントは事前学習で循環し、テキスト表現で捉えた視覚概念が不十分なため、密集した予測ではゼロショット性能が劣る。 このようなセマンティクスのギャップを埋めるため,CLIPを利用するパイプラインであるConcept Curation(CoCu)を提案する。 各画像とテキストのペアに対して,視覚駆動型拡張とテキスト対視覚誘導ランキングとで視覚的に整合するコンセプトアーカイブを構築した。 したがって、関連する概念はクラスタガイドによるサンプリングによって識別され、事前トレーニングされ、視覚とテキストのセマンティクスのギャップを埋めることができる。 8つのセグメンテーションベンチマークの幅広いスイートにわたる実験は、cocuがスーパーブゼロショット転送性能を達成し、言語教師付きセグメンテーションベースラインを大きなマージンで大きく向上させ、事前トレーニングデータにおけるセマンティクスギャップの橋渡しの価値を示唆している。

Vision-Language Pre-training has demonstrated its remarkable zero-shot recognition ability and potential to learn generalizable visual representations from language supervision. Taking a step ahead, language-supervised semantic segmentation enables spatial localization of textual inputs by learning pixel grouping solely from image-text pairs. Nevertheless, the state-of-the-art suffers from clear semantic gaps between visual and textual modality: plenty of visual concepts appeared in images are missing in their paired captions. Such semantic misalignment circulates in pre-training, leading to inferior zero-shot performance in dense predictions due to insufficient visual concepts captured in textual representations. To close such semantic gap, we propose Concept Curation (CoCu), a pipeline that leverages CLIP to compensate for the missing semantics. For each image-text pair, we establish a concept archive that maintains potential visually-matched concepts with our proposed vision-driven expansion and text-to-vision-guided ranking. Relevant concepts can thus be identified via cluster-guided sampling and fed into pre-training, thereby bridging the gap between visual and textual semantics. Extensive experiments over a broad suite of 8 segmentation benchmarks show that CoCu achieves superb zero-shot transfer performance and greatly boosts language-supervised segmentation baseline by a large margin, suggesting the value of bridging semantic gap in pre-training data.
翻訳日:2023-09-28 10:21:39 公開日:2023-09-27
# InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition ( http://arxiv.org/abs/2309.15112v2 )

ライセンス: Link先を確認
Pan Zhang, Xiaoyi Dong, Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang(参考訳) InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。 私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。 1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。 タイトルを提供すれば、システムは対応する原稿を生成します。 画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。 2) リッチ多言語知識の理解: テキストイメージの理解は,多言語多言語概念の訓練によって強化され,戦略を慎重に構築し,視覚的内容の理解を深める。 3)最先端性能:我々のモデルは、MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench(中国文化ベンチマーク)など、ビジョンベースモデルの様々な主要なベンチマークにおいて、常に最先端の結果を達成する。 集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。 7Bパラメータを持つInternLM-XComposerモデルはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We propose InternLM-XComposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovative nature of our model is highlighted by three appealing properties: 1) Interleaved Text-Image Composition: InternLM-XComposer can effortlessly generate coherent and contextual articles that seamlessly integrate images, providing a more engaging and immersive reading experience. Simply provide a title, and our system will generate the corresponding manuscript. It can intelligently identify the areas in the text where images would enhance the content and automatically insert the most appropriate visual candidates. 2) Comprehension with Rich Multilingual Knowledge: The text-image comprehension is empowered by training on extensive multi-modal multilingual concepts with carefully crafted strategies, resulting in a deep understanding of visual content. 3) State-of-the-art Performance: Our model consistently achieves state-of-the-art results across various mainstream benchmarks for vision-language foundational models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, and CCBench (Chinese Cultural Benchmark). Collectively, InternLM-XComposer seamlessly blends advanced text-image comprehension and composition, revolutionizing vision-language interaction and offering new insights and opportunities. The InternLM-XComposer models with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2023-09-28 10:15:48 公開日:2023-09-27
# LAVIE: Cascaded Latent Diffusion Modelを用いた高品質ビデオ生成

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models ( http://arxiv.org/abs/2309.15103v2 )

ライセンス: Link先を確認
Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu(参考訳) 本研究の目的は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ(T2V)生成モデルを学習することである。 同時に行うことが非常に望ましいが難しいタスクである。 a) 映像的かつ時間的にコヒーレントな映像の合成を実現すること b)事前訓練されたt2iモデルの強い創造性を維持すること。 そこで本稿では,ベースt2vモデル,時間的補間モデル,ビデオ超解像モデルからなる,カスケードされたビデオ潜在拡散モデルで動作する統合ビデオ生成フレームワークlavieを提案する。 私たちの重要な洞察は2つあります。 1) ビデオデータに内在する時間的相関関係を, 簡易な時間的自己注意と回転的位置エンコーディングの併用により適切に捉えることを明らかにする。 2) 高品質で創造的な結果を生み出す上で, 共同映像調整のプロセスが重要な役割を担っていることを検証する。 LaVieの性能向上のために,品質,多様性,美的魅力を優先する2500万のテキストビデオペアからなる,Vimeo25Mという,包括的で多様なビデオデータセットをコントリビュートした。 大規模な実験により、LaVieは定量的にも定性的にも最先端のパフォーマンスを達成することを示した。 さらに,様々な長期ビデオ生成およびパーソナライズされたビデオ合成アプリケーションにおいて,事前学習したLaVieモデルの汎用性を示す。

This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
翻訳日:2023-09-28 10:15:19 公開日:2023-09-27
# MoCaE: 校正専門家の混在がオブジェクト検出を大幅に改善

MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection ( http://arxiv.org/abs/2309.14976v2 )

ライセンス: Link先を確認
Kemal Oksuz, Selim Kuzucu, Tom Joy, Puneet K. Dokania(参考訳) 本研究では,異なる対象検出器を忠実に組み合わせて,個々の専門家に優れた精度のMixture of Experts(MoE)を得る,極めてシンプルで効果的な手法を提案する。 これらの専門家を、よく知られたDeep Ensembles (DEs) と同様の方法で鼻で組み合わせても、効果的なMoEは得られない。 異なる検出器の信頼度スコア分布の不一致が,故障事例の主な原因であると考えられる。 そこで本提案では,まず各検出器を目標校正関数に対して校正することを提案する。 次に、混合中の様々な検出器から全ての予測をフィルタリングして精錬する。 我々はこのアプローチをMoCaEと呼び、オブジェクト検出、インスタンスセグメンテーション、回転オブジェクト検出タスクに関する広範な実験を通してその効果を実証する。 特にMoCaEは改善する (i)COCOテストデブ上の3つの強い物体検出器の2.4ドル$\mathrm{AP}$59.0ドル$\mathrm{AP}$; (ii)難解なlong-tailed lvisデータセットのインスタンスセグメンテーションメソッドは$2.3$$$$$\mathrm{ap}$; である。 (iii)既存の全ての回転物体検出器は、DOTAデータセット上で82.62$$\mathrm{AP_{50}}$に達し、新しい最先端(SOTA)を確立した。 コードは公開されます。

We propose an extremely simple and highly effective approach to faithfully combine different object detectors to obtain a Mixture of Experts (MoE) that has a superior accuracy to the individual experts in the mixture. We find that naively combining these experts in a similar way to the well-known Deep Ensembles (DEs), does not result in an effective MoE. We identify the incompatibility between the confidence score distribution of different detectors to be the primary reason for such failure cases. Therefore, to construct the MoE, our proposal is to first calibrate each individual detector against a target calibration function. Then, filter and refine all the predictions from different detectors in the mixture. We term this approach as MoCaE and demonstrate its effectiveness through extensive experiments on object detection, instance segmentation and rotated object detection tasks. Specifically, MoCaE improves (i) three strong object detectors on COCO test-dev by $2.4$ $\mathrm{AP}$ by reaching $59.0$ $\mathrm{AP}$; (ii) instance segmentation methods on the challenging long-tailed LVIS dataset by $2.3$ $\mathrm{AP}$; and (iii) all existing rotated object detectors by reaching $82.62$ $\mathrm{AP_{50}}$ on DOTA dataset, establishing a new state-of-the-art (SOTA). Code will be made public.
翻訳日:2023-09-28 10:14:57 公開日:2023-09-27
# 非変異排他的コントラスト学習によるプレトレーニングフリー画像操作定位

Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning ( http://arxiv.org/abs/2309.14900v2 )

ライセンス: Link先を確認
Jizhe Zhou, Xiaochen Ma, Xia Du, Ahmed Y.Alhammadi, Wentao Feng(参考訳) Deep Image Manipulation Localization (IML)モデルは、トレーニングデータ不足に悩まされており、事前トレーニングに大きく依存している。 IMLのデータ不足問題に対処するには,コントラスト学習の方が適している,と我々は主張する。 相互に排他的な正と負を作ることは、対照的な学習の前提条件である。 しかし、IMLでコントラスト学習を採用する場合、画像パッチには、改ざん、認証、輪郭パッチの3つのカテゴリがある。 改ざんパッチと正真正銘パッチは自然に排他的であるが、改ざんされたピクセルと正真正銘のピクセルの両方を含む輪郭パッチは、相互に排他的である。 これらの輪郭パッチを単純に省略すると、輪郭パッチが学習結果に決定的であるため、劇的なパフォーマンス損失が生じる。 そこで本稿では,従来のコントラスト学習を支援するために,Non-mutually exclusive Contrastive Learning (NCL) フレームワークを提案する。 nclでは,非変異的排他性に対処するために,まず2つの枝を持つピボット構造を確立し,トレーニング中に正と負の輪郭パッチの役割を常に切り換える。 そこで我々は,ロールスイッチングプロセスによる空間的腐敗を避けるために,ピボット一貫性損失を考案した。 このようにして、NCLはデータ不足に対処する自己監督的メリットを継承し、高い操作ローカライゼーション精度を保持する。 広範な実験によって、我々のnclは、事前トレーニングなしで5つのベンチマークすべてで最先端のパフォーマンスを達成でき、実際のサンプルよりも堅牢であることが確かめられた。 コードはhttps://github.com/knightzjz/ncl-iml。

Deep Image Manipulation Localization (IML) models suffer from training data insufficiency and thus heavily rely on pre-training. We argue that contrastive learning is more suitable to tackle the data insufficiency problem for IML. Crafting mutually exclusive positives and negatives is the prerequisite for contrastive learning. However, when adopting contrastive learning in IML, we encounter three categories of image patches: tampered, authentic, and contour patches. Tampered and authentic patches are naturally mutually exclusive, but contour patches containing both tampered and authentic pixels are non-mutually exclusive to them. Simply abnegating these contour patches results in a drastic performance loss since contour patches are decisive to the learning outcomes. Hence, we propose the Non-mutually exclusive Contrastive Learning (NCL) framework to rescue conventional contrastive learning from the above dilemma. In NCL, to cope with the non-mutually exclusivity, we first establish a pivot structure with dual branches to constantly switch the role of contour patches between positives and negatives while training. Then, we devise a pivot-consistent loss to avoid spatial corruption caused by the role-switching process. In this manner, NCL both inherits the self-supervised merits to address the data insufficiency and retains a high manipulation localization accuracy. Extensive experiments verify that our NCL achieves state-of-the-art performance on all five benchmarks without any pre-training and is more robust on unseen real-life samples. The code is available at: https://github.com/Knightzjz/NCL-IML.
翻訳日:2023-09-28 10:14:31 公開日:2023-09-27
# 芸術におけるAIの説明可能な持続可能性

Explainable Sustainability for AI in the Arts ( http://arxiv.org/abs/2309.14877v2 )

ライセンス: Link先を確認
Petra J\"a\"askel\"ainen(参考訳) AIは、芸術的プラクティスでますます人気が高まっている。しかし、AIの環境への影響(およびその他の持続可能性の影響)について実践者に知らせるためのツールは、創造的なプラクティスよりも他の文脈に適応している。 本稿では,AIアーツのための環境持続可能性リフレクションシステムの開発を目的とした2つの実証的研究について述べるとともに,AIアーツにおける説明可能なサステナビリティについて論じ,紹介する。

AI is becoming increasingly popular in artistic practices, but the tools for informing practitioners about the environmental impact (and other sustainability implications) of AI are adapted for other contexts than creative practices -- making the tools and sustainability implications of AI not accessible for artists and creative practitioners. In this position paper, I describe two empirical studies that aim to develop environmental sustainability reflection systems for AI Arts, and discuss and introduce Explainable Sustainability in for AI Arts.
翻訳日:2023-09-28 10:14:02 公開日:2023-09-27
# ITEM3D:3次元モデルのための照明対応指向性テクスチャ編集

ITEM3D: Illumination-Aware Directional Texture Editing for 3D Models ( http://arxiv.org/abs/2309.14872v2 )

ライセンス: Link先を確認
Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Xiaobo Li, Ke Gao, Jiangjing Lyu, Xiaokang Yang(参考訳) テクスチャ編集は、3Dモデルの表面素材を自動的に操作できる3Dモデリングにおいて重要なタスクである。 しかし、3Dモデルの本質的な複雑さと曖昧なテキスト記述は、この課題の課題に繋がる。 そこで本稿では,テキストプロンプトに応じて自動3dオブジェクト編集を行う照明認識モデルitem3dを提案する。 拡散モデルと微分可能なレンダリングの活用により、item3dはレンダリングされた画像をテキストと3d表現の橋渡しとして、さらに異方性のテクスチャと環境マップを最適化する。 従来の手法では、絶対的な編集方向、すなわちスコア蒸留サンプリング(SDS)を最適化の目的として採用していた。 曖昧なテキストによる問題を解決するため、ソースとターゲットのテキスト間のノイズ差によって定義された最適化目標である相対的な編集方向を導入し、テキストと画像間の意味的あいまいさを解放する。 さらに,テクスチャ領域の予期せぬずれに対処するため,最適化中の方向を徐々に調整する。 質的、定量的な実験により、我々の3dは様々な3dオブジェクトの最先端のメソッドよりも優れています。 また,照明に対する明示的な制御を示すために,テキストガイドによる照明を行う。

Texture editing is a crucial task in 3D modeling that allows users to automatically manipulate the surface materials of 3D models. However, the inherent complexity of 3D models and the ambiguous text description lead to the challenge in this task. To address this challenge, we propose ITEM3D, an illumination-aware model for automatic 3D object editing according to the text prompts. Leveraging the diffusion models and the differentiable rendering, ITEM3D takes the rendered images as the bridge of text and 3D representation, and further optimizes the disentangled texture and environment map. Previous methods adopt the absolute editing direction namely score distillation sampling (SDS) as the optimization objective, which unfortunately results in the noisy appearance and text inconsistency. To solve the problem caused by the ambiguous text, we introduce a relative editing direction, an optimization objective defined by the noise difference between the source and target texts, to release the semantic ambiguity between the texts and images. Additionally, we gradually adjust the direction during optimization to further address the unexpected deviation in the texture domain. Qualitative and quantitative experiments show that our ITEM3D outperforms the state-of-the-art methods on various 3D objects. We also perform text-guided relighting to show explicit control over lighting.
翻訳日:2023-09-28 10:13:53 公開日:2023-09-27
# InvKA: Invertible Koopman Autoencoderによる歩行認識

InvKA: Gait Recognition via Invertible Koopman Autoencoder ( http://arxiv.org/abs/2309.14764v2 )

ライセンス: Link先を確認
Fan Li, Dong Liang, Jing Lian, Qidong Liu, Hegui Zhu, Jizhao Liu(参考訳) 現在の歩容認識法のほとんどは、解釈可能性の低下と計算コストの上昇に苦しむ。 解釈性を改善するために,クープマン作用素理論に基づく埋め込み空間における歩行特徴について検討する。 この空間の遷移行列は、歩行サイクルの複素キネマティックな特徴、すなわちクープマン作用素を捉える。 操作行列の対角要素は全体の動きトレンドを表現でき、物理的に意味のある記述子を提供する。 アルゴリズムの計算コストを削減するために,可逆オートエンコーダを用いてモデルサイズを小さくし,畳み込み層を排除して奥行きを圧縮し,浮動小数点演算を少なくする。 複数のデータセットに対する実験結果から,提案手法は最先端手法と比較して計算コストを1%削減し,非閉塞データセットでは98%の競合認識精度を達成した。

Most current gait recognition methods suffer from poor interpretability and high computational cost. To improve interpretability, we investigate gait features in the embedding space based on Koopman operator theory. The transition matrix in this space captures complex kinematic features of gait cycles, namely the Koopman operator. The diagonal elements of the operator matrix can represent the overall motion trend, providing a physically meaningful descriptor. To reduce the computational cost of our algorithm, we use a reversible autoencoder to reduce the model size and eliminate convolutional layers to compress its depth, resulting in fewer floating-point operations. Experimental results on multiple datasets show that our method reduces computational cost to 1% compared to state-of-the-art methods while achieving competitive recognition accuracy 98% on non-occlusion datasets.
翻訳日:2023-09-28 10:13:30 公開日:2023-09-27
# 抽象概念のためのテキスト・画像生成

Text-to-Image Generation for Abstract Concepts ( http://arxiv.org/abs/2309.14623v2 )

ライセンス: Link先を確認
Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi Han, Dongmei Zhang(参考訳) 近年、自然言語処理やコンピュータビジョンなど、様々な領域で大規模なモデルが大幅に進歩し、具体的な概念の表現が容易になった。 通常、物理的オブジェクトと直接関連づけられる具体的な概念とは異なり、自然言語による抽象概念の表現にはかなりの労力がかかり、複雑な意味論と意味論から生じる。 別のアプローチとして、画像を利用して豊かな視覚情報を補足として伝える方法がある。 それでも、既存のテキスト・トゥ・イメージ(T2I)モデルは、具体的物理オブジェクトで主に訓練されており、抽象概念の視覚化に失敗する傾向がある。 芸術的創造において重要な要素,意図,対象,形態を識別する3層アート理論に着想を得て,抽象概念のためのテキスト・画像生成の枠組みを提案する。 抽象概念は曖昧さを避けるために詳細な定義を持つ明確な意図に明確化される。 LLMはそれを意味的関連のある物理的オブジェクトに変換し、概念に依存したフォームはLLM抽出されたフォームパターンセットから検索される。 これら3つの側面からの情報は、LSMを介してT2Iモデルのプロンプトを生成するために統合される。 ヒューマンアセスメントによる評価結果と新たにデザインしたメートル法概念スコアは,抽象概念を十分に表現できる画像作成における我々のフレームワークの有効性を示す。

Recent years have witnessed the substantial progress of large-scale models across various domains, such as natural language processing and computer vision, facilitating the expression of concrete concepts. Unlike concrete concepts that are usually directly associated with physical objects, expressing abstract concepts through natural language requires considerable effort, which results from their intricate semantics and connotations. An alternative approach is to leverage images to convey rich visual information as a supplement. Nevertheless, existing Text-to-Image (T2I) models are primarily trained on concrete physical objects and tend to fail to visualize abstract concepts. Inspired by the three-layer artwork theory that identifies critical factors, intent, object and form during artistic creation, we propose a framework of Text-to-Image generation for Abstract Concepts (TIAC). The abstract concept is clarified into a clear intent with a detailed definition to avoid ambiguity. LLMs then transform it into semantic-related physical objects, and the concept-dependent form is retrieved from an LLM-extracted form pattern set. Information from these three aspects will be integrated to generate prompts for T2I models via LLM. Evaluation results from human assessments and our newly designed metric concept score demonstrate the effectiveness of our framework in creating images that can sufficiently express abstract concepts.
翻訳日:2023-09-28 10:13:14 公開日:2023-09-27
# NDCシーン:正規化デバイス座標空間における単分子3次元セマンティックシーン補完

NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space ( http://arxiv.org/abs/2309.14616v2 )

ライセンス: Link先を確認
Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang and Hongsheng Li(参考訳) SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑な意味や幾何学的形状を予測し、3D入力を必要としないため、近年注目されている。 本稿では,3次元空間への投影された2次元特徴のあいまいさ,3次元畳み込みのポーズあいまいさ,奥行きの異なる3次元畳み込みにおける計算の不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。 これらの問題に対処するために,デコンボリューション操作による深度次元の漸進的復元により,2次元特徴写像を世界空間に直接ではなく,正規化デバイスコーディネート(NDC)空間へ直接拡張する新しいシーンコンプリートネットワーク(NDC-Scene)を考案した。 実験の結果, 対象の3次元空間から提案する正規化デバイス座標への計算のほとんどを移動させることで, 単眼sscタスクが有効となることがわかった。 さらに,2次元特徴マップと3次元特徴マップを同時に重ね合わせて融合させる奥行き適応型デュアルデコーダの設計を行い,全体的な性能をさらに向上した。 提案手法は,屋外のセマンティックKITTIと屋内のNYUv2データセットの両方において,常に最先端の手法より優れていることを確認した。 私たちのコードはhttps://github.com/Jiawei-Yao0812/NDCSceneで公開されています。

Monocular 3D Semantic Scene Completion (SSC) has garnered significant attention in recent years due to its potential to predict complex semantics and geometry shapes from a single image, requiring no 3D inputs. In this paper, we identify several critical issues in current state-of-the-art methods, including the Feature Ambiguity of projected 2D features in the ray to the 3D space, the Pose Ambiguity of the 3D convolution, and the Computation Imbalance in the 3D convolution across different depth levels. To address these problems, we devise a novel Normalized Device Coordinates scene completion network (NDC-Scene) that directly extends the 2D feature map to a Normalized Device Coordinates (NDC) space, rather than to the world space directly, through progressive restoration of the dimension of depth with deconvolution operations. Experiment results demonstrate that transferring the majority of computation from the target 3D space to the proposed normalized device coordinates space benefits monocular SSC tasks. Additionally, we design a Depth-Adaptive Dual Decoder to simultaneously upsample and fuse the 2D and 3D feature maps, further improving overall performance. Our extensive experiments confirm that the proposed method consistently outperforms state-of-the-art methods on both outdoor SemanticKITTI and indoor NYUv2 datasets. Our code are available at https://github.com/Jiawei-Yao0812/NDCScene.
翻訳日:2023-09-28 10:12:53 公開日:2023-09-27
# Era Splitting - 決定木に対する不変学習

Era Splitting -- Invariant Learning for Decision Trees ( http://arxiv.org/abs/2309.14496v2 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 実生活機械学習の問題は、ある時間から別の時間、あるいはある場所から別の場所へのデータの分散シフトを示す。 この行動は従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間的および場所的にデータの分散を前提としている。 アウト・オブ・ディストリビューション(OOD)の一般化は、環境情報や時代的な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムによって、この現実に対処する。 これまで、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当ててきた。 本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを無作為な森林や勾配決定木などの決定木モデルに適用する。 新たな分割基準では、各データポイントに関連付けられたエラワイズ情報を使用して、ツリーベースのモデルで、データ内のすべての分離期間にわたって最適なスプリットポイントを見つけることができる。 新たな分割基準を詳述し、これらの新しい基準の利点を実証するユニークな実験を開発し、実験のアウトオブサンプルにおけるメトリクスを改善する。 新しい基準は、scikit-learnコードベースの最先端の勾配強化決定木モデルに組み込まれており、自由に利用できる。

Real life machine learning problems exhibit distributional shifts in the data from one time to another or from on place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, including random forest and gradient-boosting decision trees. The new splitting criteria use era-wise information associated with each data point to allow tree-based models to find split points that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. We describe the new splitting criteria in detail and develop unique experiments to showcase the benefits of these new criteria, which improve metrics in our experiments out-of-sample. The new criteria are incorporated into the a state-of-the-art gradient boosted decision tree model in the Scikit-Learn code base, which is made freely available.
翻訳日:2023-09-28 10:12:24 公開日:2023-09-27