このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231107となっている論文です。

PDF登録状況(公開日: 20231107)

TitleAuthorsAbstract論文公表日・翻訳日
# IoTシステムにおける信頼構築のための自己主権IDとTLS 1.3ハンドシェイクの統合について

On the Integration of Self-Sovereign Identity with TLS 1.3 Handshake to Build Trust in IoT Systems ( http://arxiv.org/abs/2311.00386v2 )

ライセンス: Link先を確認
Leonardo Perugini, Andrea Vesco, (参考訳) 集中型PKIは、大規模なIoTシステムでIDを提供するための適切なソリューションではない。 主な問題は、X.509証明書をインストールから定期的な更新や取り消しに至るまで、ライフサイクルを通して管理するコストが高いことである。 SSI(Self-Sovereign Identity)は、人間の介入の必要性を低減し、大規模なIoTシステムにおけるID管理に関連する複雑さとコストを大幅に削減する、分散化されたオプションである。 しかしながら、SSIの潜在能力を最大限活用するには、IoTノードの認証をアプリケーションからTLS(Transport Layer Security)レベルに移行する必要がある。 本稿では,従来のハンドシェイクプロトコルを実装したノードとの相互運用性を維持しつつ,2つの新しいSSI認証モードをサポートするTLS 1.3ハンドシェイクの拡張に対処することで,大規模IoTシステムにおけるSSIの採用に寄与する。 OpenSSLの新しいTLS 1.3ハンドシェイクプロトコルのオープンソース実装は、このアプローチの有効性を実験的に証明するために使用される。

The centralized PKI is not a suitable solution to provide identities in large-scale IoT systems. The main problem is the high cost of managing X.509 certificates throughout their lifecycle, from installation to regular updates and revocation. The Self-Sovereign Identity (SSI) is a decentralised option that reduces the need for human intervention, and therefore has the potential to significantly reduce the complexity and cost associated to identity management in large-scale IoT systems. However, to leverage the full potential of SSI, the authentication of IoT nodes needs to be moved from the application to the Transport Layer Security (TLS) level. This paper contributes to the adoption of SSI in large-scale IoT systems by addressing, for the first time, the extension of the original TLS 1.3 handshake to support two new SSI authentication modes while maintaining the interoperability with nodes implementing the original handshake protocol. The open source implementation of the new TLS 1.3 handshake protocol in OpenSSL is used to experimentally prove the feasibility of the approach.
翻訳日:2024-03-25 13:55:39 公開日:2023-11-07
# SoK: OSのセキュリティ - UEFIのセキュリティ分析

SoK: Security Below the OS -- A Security Analysis of UEFI ( http://arxiv.org/abs/2311.03809v1 )

ライセンス: Link先を確認
Priyanka Prakash Surve, Oleg Brodt, Mark Yampolskiy, Yuval Elovici, Asaf Shabtai, (参考訳) UEFI(Unified Extensible Firmware Interface、統一拡張ファームウェアインタフェース)は、セキュアなシステムの初期化と起動を管理する、現代のコンピューティングシステムのリンチピンである。 近年,UEFI関連の攻撃や脆弱性が急増しているため,本論文は緊急に必要とされている。 この急激な懸念に乗じて、我々はUEFIのランドスケープを広範囲に調査し、その流通供給チェーン、ブートプロセス、およびセキュリティ機能を解剖する。 我々は,UEFI関連の脆弱性を悪用するための,UEFIを標的とした攻撃のスペクトルと概念実証(PoC)を慎重に研究する。 これらの知見に基づいて、脅威アクター、攻撃ベクトル、攻撃タイプ、脆弱性、攻撃能力、攻撃目標を含む包括的な攻撃脅威モデルを構築します。 我々は、MITRE ATT&CKフレームワークからインスピレーションを得て、UEFI攻撃の文脈において戦術、テクニック、およびサブテクニックを記述したMITRE ATT&CKのような分類法を提示する。 この分類法は、既存のギャップを識別し、ルートキット防止、検出、除去のための新しい技術を開発するための道路マップを提供することができる。 最後に、UEFI攻撃のリスクを許容できるレベルまで下げるために、様々な技術的・運用的な対策を含め、UEFI攻撃に対する既存の対策について論じる。 本稿では,UEFIの複雑さを明らかにするとともに,サイバーセキュリティコミュニティに,この重要コンポーネントのセキュリティを強化するために必要な知識を提供する。

The Unified Extensible Firmware Interface (UEFI) is a linchpin of modern computing systems, governing secure system initialization and booting. This paper is urgently needed because of the surge in UEFI-related attacks and vulnerabilities in recent years. Motivated by this urgent concern, we undertake an extensive exploration of the UEFI landscape, dissecting its distribution supply chain, booting process, and security features. We carefully study a spectrum of UEFI-targeted attacks and proofs of concept (PoCs) for exploiting UEFI-related vulnerabilities. Building upon these insights, we construct a comprehensive attack threat model encompassing threat actors, attack vectors, attack types, vulnerabilities, attack capabilities, and attacker objectives. Drawing inspiration from the MITRE ATT&CK framework, we present a MITRE ATT&CK-like taxonomy delineating tactics, techniques, and sub-techniques in the context of UEFI attacks. This taxonomy can provide a road map for identifying existing gaps and developing new techniques for rootkit prevention, detection, and removal. Finally, the paper discusses existing countermeasures against UEFI attacks including a variety of technical and operational measures that can be implemented to lower the risk of UEFI attacks to an acceptable level. This paper seeks to clarify the complexities of UEFI and equip the cybersecurity community with the necessary knowledge to strengthen the security of this critical component against a growing threat landscape.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-07
# IPレベルハードウェアパッチ設計における理論的パッチ可能性の定量化

Theoretical Patchability Quantification for IP-Level Hardware Patching Designs ( http://arxiv.org/abs/2311.03818v1 )

ライセンス: Link先を確認
Wei-Kai Liu, Benjamin Tan, Jason M. Fung, Krishnendu Chakrabarty, (参考訳) System-on-Chip (SoC) 設計の複雑さが増し続けており、システムインテグレータにとって徹底的な検証が重要な課題となっている。 検証の複雑さは、検出されていないバグをもたらす可能性がある。 ソフトウェアやファームウェアのバグとは異なり、ハードウェアのバグはデプロイ後に修正するのが難しく、追加のロジックを必要とする。 しかし、"パッチ可能性"を定義するための標準化された基準がないため、システムインテグレータはそれぞれのIPとセキュリティ要件を理解してアドホックなパッチ設計を設計する。 本稿では,RTL (Restor Transfer Level) における設計を解析するための理論的パッチ可能性定量化手法を提案する。 我々の定量化では、可観測性と可制御性の組み合わせとしてパッチ可能性を定義し、IP変動の可観測性を分析して比較することができる。 この定量化は、各パッチアーキテクチャが実行時にパッチできる能力を推定し、既存のパッチ処理を補完する体系的なアプローチである。 実験では、同じパッチアーキテクチャのいくつかの設計オプションを比較し、理論的パッチ可能性の点での違いと、潜在的な弱点を緩和する可能性について論じる。

As the complexity of System-on-Chip (SoC) designs continues to increase, ensuring thorough verification becomes a significant challenge for system integrators. The complexity of verification can result in undetected bugs. Unlike software or firmware bugs, hardware bugs are hard to fix after deployment and they require additional logic, i.e., patching logic integrated with the design in advance in order to patch. However, the absence of a standardized metric for defining "patchability" leaves system integrators relying on their understanding of each IP and security requirements to engineer ad hoc patching designs. In this paper, we propose a theoretical patchability quantification method to analyze designs at the Register Transfer Level (RTL) with provided patching options. Our quantification defines patchability as a combination of observability and controllability so that we can analyze and compare the patchability of IP variations. This quantification is a systematic approach to estimate each patching architecture's ability to patch at run-time and complements existing patching works. In experiments, we compare several design options of the same patching architecture and discuss their differences in terms of theoretical patchability and how many potential weaknesses can be mitigated.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-07
# IC-SECURE:自動インシデント応答のためのプレイブック作成におけるセキュリティ専門家を支援するインテリジェントシステム

IC-SECURE: Intelligent System for Assisting Security Experts in Generating Playbooks for Automated Incident Response ( http://arxiv.org/abs/2311.03825v1 )

ライセンス: Link先を確認
Ryuta Kremer, Prasanna N. Wudali, Satoru Momiyama, Toshinori Araki, Jun Furukawa, Yuval Elovici, Asaf Shabtai, (参考訳) セキュリティオーケストレーション、自動化、レスポンス(SOAR)システムは、セキュリティ情報とイベント管理(SIEM)システムからアラートを取り込み、関連するプレイブックをトリガーして、一連のセキュリティアクティビティの実行を自動化する。 SOARシステムには2つの大きな制限がある。 (i)セキュリティアナリストは、手動でプレイブックを定義し、作成し、変更する必要がある。 (ii) 起動可能な複数のプレイブックの選択は、セキュリティアナリストが定義したルールに基づいている。 これらの制限に対処するため、近年のサイバーセキュリティのための人工知能分野の研究は、インタラクティブなプレイブック作成の課題を示唆している。 本稿では,新たな深層学習アプローチに基づくインタラクティブなプレイブック作成ソリューションIC-SECUREを提案する。 IC-SECUREは、新しいプレイブックに含まれるべき次のモジュールを合理的に推奨するために、警告データと不完全なプレイブックの現在の状態の形式でコンテキストをキャプチャする。 私たちは3つの評価データセットを作成しました。それぞれが警告ルールのセットとSOARプラットフォームからのプレイブックの組み合わせを含んでいました。 IC-SECUREを各種設定で評価し,2つの最先端レコメンデータシステム手法と比較した。 IC-SECURE の評価では,正セキュリティモジュールを常に推奨し,精度 0.8 と recall@3 > 0.92 を達成し,他の手法と比較して優れた性能を示した。

Security orchestration, automation, and response (SOAR) systems ingest alerts from security information and event management (SIEM) system, and then trigger relevant playbooks that automate and orchestrate the execution of a sequence of security activities. SOAR systems have two major limitations: (i) security analysts need to define, create and change playbooks manually, and (ii) the choice between multiple playbooks that could be triggered is based on rules defined by security analysts. To address these limitations, recent studies in the field of artificial intelligence for cybersecurity suggested the task of interactive playbook creation. In this paper, we propose IC-SECURE, an interactive playbook creation solution based on a novel deep learning-based approach that provides recommendations to security analysts during the playbook creation process. IC-SECURE captures the context in the form of alert data and current status of incomplete playbook, required to make reasonable recommendation for next module that should be included in the new playbook being created. We created three evaluation datasets, each of which involved a combination of a set of alert rules and a set of playbooks from a SOAR platform. We evaluated IC-SECURE under various settings, and compared our results with two state-of-the-art recommender system methods. In our evaluation IC-SECURE demonstrated superior performance compared to other methods by consistently recommending the correct security module, achieving precision@1 > 0.8 and recall@3 > 0.92
翻訳日:2024-03-25 13:36:10 公開日:2023-11-07
# 目視を解き放つ:動的触覚解析によるプロトタイプ汚染装置の検出と評価

Unveiling the Invisible: Detection and Evaluation of Prototype Pollution Gadgets with Dynamic Taint Analysis ( http://arxiv.org/abs/2311.03919v1 )

ライセンス: Link先を確認
Mikhail Shcherbakov, Paul Moosbrugger, Musard Balliu, (参考訳) 良くも悪くも、JavaScriptはモダンなWebの基盤です。 JavaScriptのようなプロトタイプベースの言語は、プロトタイプの汚染脆弱性の影響を受けやすいため、攻撃者はオブジェクトのプロトタイプに任意のプロパティを注入することができる。 攻撃者はその後、セキュリティに敏感な操作を行うような、良質なコード、いわゆるガジェットを実行することで、注入されたプロパティを収益化することができる。 攻撃の成功は、ガジェットの存在に大きく依存しており、特権のエスカレーションや任意のコード実行(ACE)といった顕著なエクスプロイトにつながっている。 本稿では、開発者がアプリケーションのソフトウェアサプライチェーンにあるガジェットを識別するのに役立つ最初の半自動パイプラインであるDastyを提案する。 DastyはサーバサイドのNode.jsアプリケーションをターゲットにしており、動的ASTレベルのインスツルメンテーションで実装した動的テナント分析の強化に依存しています。 さらにDastyは,IDEによるコードフローの可視化のサポートも提供する。 ガジェットの危険性を説明するために、我々は最も依存度の高いNPMパッケージの研究にDastyを使用し、ACEにつながるガジェットの存在を分析する。 Dasty氏は1,269のサーバサイドパッケージを特定し、そのうち631には危険なシンクに達する可能性のあるコードフローがある。 我々は,ejs, nodemailer, workerspoolなどの一般的なパッケージを含む49のNPMパッケージに対する概念実証エクスプロイトを構築するために,候補フローを手作業で優先順位付けし,検証する。 Dastyが既存のツールとどのように統合してエンドツーエンドのエクスプロイトを見つけるかを調べるために、人気のあるデータ視覚化ダッシュボードを詳細に分析して、リモートコード実行につながる高重度なCVE-2023-31415を見つけます。 本研究は,サーバサイドガジェットの危険性を体系的に実証し,その解決に向けたさらなる研究を求めるものである。

For better or worse, JavaScript is the cornerstone of modern Web. Prototype-based languages like JavaScript are susceptible to prototype pollution vulnerabilities, enabling an attacker to inject arbitrary properties into an object's prototype. The attacker can subsequently capitalize on the injected properties by executing otherwise benign pieces of code, so-called gadgets, that perform security-sensitive operations. The success of an attack largely depends on the presence of gadgets, leading to high-profile exploits such as privilege escalation and arbitrary code execution (ACE). This paper proposes Dasty, the first semi-automated pipeline to help developers identify gadgets in their applications' software supply chain. Dasty targets server-side Node.js applications and relies on an enhancement of dynamic taint analysis which we implement with the dynamic AST-level instrumentation. Moreover, Dasty provides support for visualization of code flows with an IDE, thus facilitating the subsequent manual analysis for building proof-of-concept exploits. To illustrate the danger of gadgets, we use Dasty in a study of the most dependent-upon NPM packages to analyze the presence of gadgets leading to ACE. Dasty identifies 1,269 server-side packages, of which 631 have code flows that may reach dangerous sinks. We manually prioritize and verify the candidate flows to build proof-of-concept exploits for 49 NPM packages, including popular packages such as ejs, nodemailer and workerpool. To investigate how Dasty integrates with existing tools to find end-to-end exploits, we conduct an in-depth analysis of a popular data visualization dashboard to find one high-severity CVE-2023-31415 leading to remote code execution. For the first time, our results systematically demonstrate the dangers of server-side gadgets and call for further research to solve the problem.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-07
# 軽量かつセキュアなPUFベースのIoTデバイス認証とキー交換プロトコル

A Lightweight and Secure PUF-Based Authentication and Key-exchange Protocol for IoT Devices ( http://arxiv.org/abs/2311.04078v1 )

ライセンス: Link先を確認
Chandranshu Gupta, Gaurav Varshney, (参考訳) IoT(Internet of Things)は、現代的な生活の多くの側面にシームレスに統合し、プラットフォーム間での情報共有を容易にすることで、人々の生活を改善しました。 デバイス認証とキー交換は、IoTの大きな課題である。 認証中の暗号プリミティブやメッセージ送信に対する高い計算リソース要求により、PKIやIBEといった既存の手法はこれらのリソース制約されたデバイスには適さない。 PUFは、PKIやIBEのような典型的な高度な暗号システムの代わりに、実用的で経済的なセキュリティメカニズムを提供するようだ。 PUFは、製造プロセスの可変性を利用してPUFチップに基づく、不規則で微妙な独特なシグネチャを提供する。 そこで本研究では,軽量ビットワイドXOR,ハッシュ関数,PUFを用いてIoTデバイスを認証する。 PUFを使ってIoTデバイス間の通信を認証する研究はいくつかあるが、著者の知識では、既存のソリューションでは、認証のためのServerと直接対話するために、IoTデバイスによる仲介ゲートウェイとインターネット機能を必要としているため、IoTデバイスがBLEやZigbeeなど、さまざまなテクノロジで動作する場合、スケーラブルではない。 上記の問題に対処するために、認証を行うために、IoTデバイスがサーバと通信するために、継続的なアクティブなインターネット接続を必要としないシステムを提案する。 徹底的なセキュリティ調査の結果は、敵攻撃やPUFモデリング攻撃に対して検証されている。 正式なセキュリティ検証には、AVISPA検証ツールも使用されている。 性能調査では、このプロトコルの軽量な特性を推奨している。 提案プロトコルの許容性と敵攻撃に対する防御は、ESP32で開発されたプロトタイプによって支援されている。

The Internet of Things (IoT) has improved people's lives by seamlessly integrating into many facets of modern life and facilitating information sharing across platforms. Device Authentication and Key exchange are major challenges for the IoT. High computational resource requirements for cryptographic primitives and message transmission during Authentication make the existing methods like PKI and IBE not suitable for these resource constrained devices. PUF appears to offer a practical and economical security mechanism in place of typically sophisticated cryptosystems like PKI and IBE. PUF provides an unclonable and tamper sensitive unique signature based on the PUF chip by using manufacturing process variability. Therefore, in this study, we use lightweight bitwise XOR, hash function, and PUF to Authenticate IoT devices. Despite several studies employing the PUF to authenticate communication between IoT devices, to the authors' knowledge, existing solutions require intermediary gateway and internet capabilities by the IoT device to directly interact with a Server for Authentication and hence, are not scalable when the IoT device works on different technologies like BLE, Zigbee, etc. To address the aforementioned issue, we present a system in which the IoT device does not require a continuous active internet connection to communicate with the server in order to Authenticate itself. The results of a thorough security study are validated against adversarial attacks and PUF modeling attacks. For formal security validation, the AVISPA verification tool is also used. Performance study recommends this protocol's lightweight characteristics. The proposed protocol's acceptability and defenses against adversarial assaults are supported by a prototype developed with ESP32.
翻訳日:2024-03-25 13:36:10 公開日:2023-11-07
# 分散微分プライバシーに基づくフェデレーション実験設計

Federated Experiment Design under Distributed Differential Privacy ( http://arxiv.org/abs/2311.04375v1 )

ライセンス: Link先を確認
Wei-Ning Chen, Graham Cormode, Akash Bharadwaj, Peter Romov, Ayfer Özgür, (参考訳) 実験設計は1世紀以上もさかのぼる豊富な歴史を持ち、それ以来様々な分野において多くの重要な応用が発見されている。 実験におけるユーザのデータの使用と収集は、機密性の高い個人情報を含むことが多いため、データ収集、ストレージ、利用において、個人のプライバシを保護するための追加措置が必要である。 本研究では,サービス提供者に対する信頼を最小化しつつ,ユーザのプライバシの厳格な保護(差分プライバシ(DP)の概念に基づく)に注力する。 具体的には,DP における平均処理効果 (ATE) の推定について検討するとともに,サービスプロバイダが個々のデータにアクセスせずに情報を集約できる分散プロトコルであるセキュアアグリゲーションを通じて,人口レベルの統計データのみを収集する。 現代のA/Bテストワークフローにおいて重要なコンポーネントであるが、プライベートな分散実験はこれまで研究されていない。 DPを実現するために,安全なアグリゲーションに適合する局所的民営化機構を設計し,漸近的にも非漸近的にも,信頼区間の幅の観点からその有用性を解析する。 これらのメカニズムは、実際に一般的に見られる非常に多くの参加者を扱うために、どのようにスケールアップできるかを示す。 また、DPノイズを導入する際には、プライバシー予算を巧みに分割して結果の平均と分散を推定し、DPノイズに応じて信頼区間を慎重に調整することが不可欠である。 最後に,提案手法の総合的な実験評価を行い,実験設計におけるプライバシ・ユーティリティのトレードオフを示す。

Experiment design has a rich history dating back over a century and has found many critical applications across various fields since then. The use and collection of users' data in experiments often involve sensitive personal information, so additional measures to protect individual privacy are required during data collection, storage, and usage. In this work, we focus on the rigorous protection of users' privacy (under the notion of differential privacy (DP)) while minimizing the trust toward service providers. Specifically, we consider the estimation of the average treatment effect (ATE) under DP, while only allowing the analyst to collect population-level statistics via secure aggregation, a distributed protocol enabling a service provider to aggregate information without accessing individual data. Although a vital component in modern A/B testing workflows, private distributed experimentation has not previously been studied. To achieve DP, we design local privatization mechanisms that are compatible with secure aggregation and analyze the utility, in terms of the width of confidence intervals, both asymptotically and non-asymptotically. We show how these mechanisms can be scaled up to handle the very large number of participants commonly found in practice. In addition, when introducing DP noise, it is imperative to cleverly split privacy budgets to estimate both the mean and variance of the outcomes and carefully calibrate the confidence intervals according to the DP noise. Last, we present comprehensive experimental evaluations of our proposed schemes and show the privacy-utility trade-offs in experiment design.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-07
# 無人航空機のリスクマネジメント

Risk Management of Unmanned Aerial Vehicles ( http://arxiv.org/abs/2311.05648v1 )

ライセンス: Link先を確認
Hamid Reza Naji, Aref Ayati, (参考訳) 本稿では無人航空機や無人航空機の効率的なリスク管理モデルを提案する。 提案したリスク管理は,アジャイルメソッドやIT関連のリソースに非常に適応可能な,継続的かつ反復的な構造を備えた循環モデルを確立します。 このモデルは、多くのアプリケーションで利用することができるが、ケーススタディではUAVについて論じている。 多くの分野でUAVやドローンの利用が増加し、異なる脅威が存在することが、それらに対して効率的なリスク管理方法を持つことの主な理由である。 本稿では,IT主導の資産に基づくリスクを取り上げ,データの喪失,機器やシステム障害,循環的かつ反復的なフローに基づく評価や信用の欠如などについて述べる。 UAVやドローンの現在のリスク管理モデルは質的な基準に基づいており、ITベースのリスクの大部分をカバーすることができます。

This paper presents an efficient risk management model for unmanned aerial vehicles or UAVs. Our proposed risk management establishes a cyclic model with a continuous and iterative structure that is very adaptable to agile methods and all IT-related resources. This model can be used in many applications, but as a case study, we have discussed it for UAVs. The increasing use of UAVs or drones in many fields and the existence of different threats is the main reason to have an efficient risk management method for them. In this paper, we cover risks based on IT-driven assets to decrease the chance of losing any data, failing the equipment or the system, and missing the reputation or credit based on cyclic and iterative flow. Our current risk management model for UAVs or drones is based on qualitative measures and can cover most of IT-based risks.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-07
# Divide, Conquer and Verify: シンボリックな実行パフォーマンスの向上

Divide, Conquer and Verify: Improving Symbolic Execution Performance ( http://arxiv.org/abs/2310.03598v2 )

ライセンス: Link先を確認
Christopher Scherb, Luc Bryan Heitz, Hermann Grieder, Olivier Mattmann, (参考訳) シンボル実行(英: Symbolic Execution)は、コンピュータプログラムの動作を確認し、ソフトウェア脆弱性を検出するための形式的な方法である。 ファジィングのような他のテスト手法と比較して、シンボリック実行はプログラムに関する正式な保証を提供するという利点がある。 しかし、近年の性能向上にもかかわらず、シンボリック実行は現実のソフトウェアに適用するには遅すぎる。 これは主に \emph{path explosion problem} と SMT 解決の計算複雑性によって引き起こされる。 本稿では、個々のスライスを実行し、その後に副作用を組み合わせることで、シンボリック実行のための分割対コンカレントアプローチを提案する。 このように、全体的な問題のサイズは小さく保たれ、大きな問題に対する計算複雑性の影響が減少する。

Symbolic Execution is a formal method that can be used to verify the behavior of computer programs and detect software vulnerabilities. Compared to other testing methods such as fuzzing, Symbolic Execution has the advantage of providing formal guarantees about the program. However, despite advances in performance in recent years, Symbolic Execution is too slow to be applied to real-world software. This is primarily caused by the \emph{path explosion problem} as well as by the computational complexity of SMT solving. In this paper, we present a divide-and-conquer approach for symbolic execution by executing individual slices and later combining the side effects. This way, the overall problem size is kept small, reducing the impact of computational complexity on large problems.
翻訳日:2024-03-19 03:12:08 公開日:2023-11-07
# インテリジェントなデータ管理と洞察で農業を変える

Transforming Agriculture with Intelligent Data Management and Insights ( http://arxiv.org/abs/2401.13672v1 )

ライセンス: Link先を確認
Yu Pan, Jianxin Sun, Hongfeng Yu, Geng Bai, Yufeng Ge, Joe Luck, Tala Awada(参考訳) 現代の農業は、気候変動と天然資源の枯渇の制約の下で、人口増加に伴う食料、燃料、飼料、繊維の需要の増加に対応するための大きな課題に直面している。 データ革新は、アグロエコシステムの生産性、持続可能性、レジリエンスの確保と改善に緊急に必要です。 さまざまなセンサやIoT(Internet of Things)インスツルメンテーションがより利用でき、安価で、信頼性が高く、安定しているため、データ収集、統合、分析を複数の時間的、空間的スケール、リアルタイム、高解像度で実施することが可能になった。 同時に、膨大なデータ量がデータストレージと分析にとって大きな課題となり、科学者が採用するデータ管理と分析のプラクティスである \textit{de facto} はますます非効率になっている。 さらに、ゲノミクス、フェノミクス、環境、農業、社会経済といった異なる分野から生成されたデータは、非常に異種である。 つまり、規律を越えたデータセットは、しばしば同じオントロジー、モダリティ、フォーマットを共有しない。 以上はすべて、発見可能、アクセス可能、相互運用可能、再利用可能な(fair)の原則を実装する、新しいデータ管理インフラストラクチャを設計する必要がある。 本稿では,FAIRの原則を満たす農業データ管理・分析(ADMA)を提案する。 我々の新しいデータ管理インフラは、分野によってセマンティックなデータ管理をサポートし、Web GUI、コマンドライン、APIなどのさまざまなデータ管理/分析ポータルを提供し、ハイパフォーマンスコンピューティング(HPC)のパワーを活用してスケーラブルで、ユーザが独自のデータ分析ツールをロードして拡張可能で、各ファイル上のさまざまな操作を追跡して追跡可能で、リッチな成熟したオープンソース技術を使用してオープンで、インタラクティブです。

Modern agriculture faces grand challenges to meet increased demands for food, fuel, feed, and fiber with population growth under the constraints of climate change and dwindling natural resources. Data innovation is urgently required to secure and improve the productivity, sustainability, and resilience of our agroecosystems. As various sensors and Internet of Things (IoT) instrumentation become more available, affordable, reliable, and stable, it has become possible to conduct data collection, integration, and analysis at multiple temporal and spatial scales, in real-time, and with high resolutions. At the same time, the sheer amount of data poses a great challenge to data storage and analysis, and the \textit{de facto} data management and analysis practices adopted by scientists have become increasingly inefficient. Additionally, the data generated from different disciplines, such as genomics, phenomics, environment, agronomy, and socioeconomic, can be highly heterogeneous. That is, datasets across disciplines often do not share the same ontology, modality, or format. All of the above make it necessary to design a new data management infrastructure that implements the principles of Findable, Accessible, Interoperable, and Reusable (FAIR). In this paper, we propose Agriculture Data Management and Analytics (ADMA), which satisfies the FAIR principles. Our new data management infrastructure is intelligent by supporting semantic data management across disciplines, interactive by providing various data management/analysis portals such as web GUI, command line, and API, scalable by utilizing the power of high-performance computing (HPC), extensible by allowing users to load their own data analysis tools, trackable by keeping track of different operations on each file, and open by using a rich set of mature open source technologies.
翻訳日:2024-02-11 17:43:41 公開日:2023-11-07
# 勾配の局所リプシッツ連続性を考慮した凸最適化のための適応近位アルゴリズム

Adaptive proximal algorithms for convex optimization under local Lipschitz continuity of the gradient ( http://arxiv.org/abs/2301.04431v3 )

ライセンス: Link先を確認
Puya Latafat, Andreas Themelis, Lorenzo Stella, and Panagiotis Patrinos(参考訳) バックトラックライン探索は、局所リプシッツ勾配を持つ連続微分可能関数を最小化するデファクトアプローチである。 近年,凸条件下ではライン探索を完全に回避し,関数値のバックトラックや評価を伴わずに局所的滑らか度推定に基づいて段階的に適応できることが示されている。 本研究では,局所滑らか度係数の新たな推定値を用いた適応的近位勾配法 adaPG を提案する。 このアイデアは、PDHG法の拡張と見なせる適応的な3項原始双対アルゴリズムであるadaPDが提案される原始双対設定にまで拡張される。 さらに、この設定では ``essentially'' 完全適応型 adapd$^+$ が提案され、線形作用素ノルムの評価はバックトラッキング手順を呼び出すことで回避され、驚くべきことに、余分な勾配評価は不要である。 数値シミュレーションにより,提案アルゴリズムの有効性が,最先端技術との比較で示される。

Backtracking linesearch is the de facto approach for minimizing continuously differentiable functions with locally Lipschitz gradient. In recent years, it has been shown that in the convex setting it is possible to avoid linesearch altogether, and to allow the stepsize to adapt based on a local smoothness estimate without any backtracks or evaluations of the function value. In this work we propose an adaptive proximal gradient method, adaPG, that uses novel estimates of the local smoothness modulus which leads to less conservative stepsize updates and that can additionally cope with nonsmooth terms. This idea is extended to the primal-dual setting where an adaptive three-term primal-dual algorithm, adaPD, is proposed which can be viewed as an extension of the PDHG method. Moreover, in this setting the ``essentially'' fully adaptive variant adaPD$^+$ is proposed that avoids evaluating the linear operator norm by invoking a backtracking procedure, that, remarkably, does not require extra gradient evaluations. Numerical simulations demonstrate the effectiveness of the proposed algorithms compared to the state of the art.
翻訳日:2023-12-11 04:02:56 公開日:2023-11-07
# 情報のナビゲーションと不確実性:透明性、民主主義、社会福祉にアプローチするためのファジィ論理モデル

Navigating information and uncertainty: A fuzzy logic model to approach transparency, democracy and social wellbeing ( http://arxiv.org/abs/2311.14696v1 )

ライセンス: Link先を確認
Carlos Medel-Ram\'irez, Hilario Medel-L\'opez, Jennifer Lara-M\'erida(参考訳) 情報過負荷と不確実性のディジタル時代において,本稿では,ファジィ論理に基づくtDTSWモデルを提案する。 このモデルは二分的思考を超越し、民主主義、透明性、社会的幸福を分析、ケーススタディを通じて社会での役割を強調する。 資本主義、持続可能性、ジェンダー平等、現代の民主主義における教育といった課題に対処し、ポジティブな変化に対する彼らの相互作用を強調している。 「情報と不確実性」はファジィ論理を導入し、構造化されたアプローチを提供する。 公平で持続可能な社会を作り、より明るい未来を形作るよう読者を誘うために、集団的な努力を呼びかけている。

In the digital age of information overload and uncertainty, the authors propose the tDTSW model based on fuzzy logic to navigate governance complexities. This model transcends binary thinking, analyzes democracy, transparency, and social well-being, highlighting their roles in just societies through case studies. It addresses challenges like capitalism, sustainability, gender equality, and education in modern democracies, emphasizing their interplay for positive change. "Navigating Information and Uncertainty" introduces fuzzy logic, offering a structured approach. It calls for collective efforts to create equitable, sustainable, and just societies, inviting readers to shape a brighter future.
翻訳日:2023-12-03 13:52:52 公開日:2023-11-07
# AI for All: AIシステムにおける多様性と包摂的要件の運用

AI for All: Operationalising Diversity and Inclusion Requirements for AI Systems ( http://arxiv.org/abs/2311.14695v1 )

ライセンス: Link先を確認
Muneera Bano, Didar Zowghi, Vincenzo Gervasi, Rifat Shams(参考訳) 人工知能(AI)は社会の多くの側面に浸透しているため、倫理的懸念と潜在的なリスク、例えば偏見や差別的な意思決定を通じて不平等を持続させるなど、多くの利点をもたらす。 多様なユーザのニーズを満たすAIシステムを開発し、倫理的価値を尊重するためには、多様性と包摂性(D&I)の原則をAI開発とデプロイメントを通じて考慮し、統合することが不可欠である。 要件エンジニアリング(RE)は、多様な利害関係者から関連するニーズを抽出し、特定することによって、ソフトウェアシステムの開発における基本的なプロセスである。 この研究は、AIシステムに対するD&I要件の抽出と取得方法に関する研究と実践の欠如に対処することを目的としている。 文献レビューから総合的なデータ収集と合成を行い、AIにおけるD&Iに関する要件テーマを抽出した。 我々は,d&i要求をキャプチャするためにカスタマイズされたユーザストーリーテンプレートを提案し,2つのaiシステムでd&i要求を書く際に,テーマとユーザストーリーテンプレートを使用するためのフォーカスグループ演習を行った。 さらに,大規模言語モデルの助けを借りて,ユーザストーリーにキャプチャーされた合成D&I要求を生成することで,ソリューションの能力を検討した。

As Artificial Intelligence (AI) permeates many aspects of society, it brings numerous advantages while at the same time raising ethical concerns and potential risks, such as perpetuating inequalities through biased or discriminatory decision-making. To develop AI systems that cater for the needs of diverse users and uphold ethical values, it is essential to consider and integrate diversity and inclusion (D&I) principles throughout AI development and deployment. Requirements engineering (RE) is a fundamental process in developing software systems by eliciting and specifying relevant needs from diverse stakeholders. This research aims to address the lack of research and practice on how to elicit and capture D&I requirements for AI systems. We have conducted comprehensive data collection and synthesis from the literature review to extract requirements themes related to D&I in AI. We have proposed a tailored user story template to capture D&I requirements and conducted focus group exercises to use the themes and user story template in writing D&I requirements for two example AI systems. Additionally, we have investigated the capability of our solution by generating synthetic D&I requirements captured in user stories with the help of a Large Language Model.
翻訳日:2023-12-03 13:52:39 公開日:2023-11-07
# sentinel-1データを用いた高分解能洪水マッピングのための標準化分析準備(star)データキューブ

Standardized Analysis Ready (STAR) data cube for high-resolution Flood mapping using Sentinel-1 data ( http://arxiv.org/abs/2311.14694v1 )

ライセンス: Link先を確認
Surajit Ghosh, Arpan Dawn, Sneha Kour and Susmita Ghosh(参考訳) 洪水は世界中で最も多い災害の1つである。 洪水は多くの点で人間に影響を及ぼす。 そのため,洪水の影響を早期に評価し,その影響を早期に把握するためには,迅速な評価が必要である。 センチネル-1はそのような地球観測(eo)ミッションの一つであり、洪水条件を10mスケールでマッピングするのに広く使われている。 しかし、Sentinel-1データを分析する前に、様々な前処理ステップが関与する。 時間がかかり複雑であるため、研究者は時々必要な修正を避ける。 Sentinel-1データの標準化は、特に研究者がSentinel-1データ処理の複雑さを経験することなくStandardized Analysis-Ready (STAR)データキューブを使用するのを支援するために、時間の必要性である。 本研究では,Google Earth Engine (GEE) 環境でSTARを利用するワークフローを提案する。 2022年のナイジェリア洪水は、モデルの性能を評価するためのケーススタディとして用いられてきた。

Floods are one of the most common disasters globally. Flood affects humans in many ways. Therefore, rapid assessment is needed to assess the effect of floods and to take early action to support the vulnerable community in time. Sentinel-1 is one such Earth Observation (EO) mission widely used for mapping the flooding conditions at a 10m scale. However, various preprocessing steps are involved before analyses of the Sentinel-1 data. Researchers sometimes avoid a few necessary corrections since it is time-consuming and complex. Standardization of the Sentinel-1 data is the need of the hour, specifically for supporting researchers to use the Standardized Analysis-Ready (STAR) data cube without experiencing the complexity of the Sentinel-1 data processing. In the present study, we proposed a workflow to use STAR in Google Earth Engine (GEE) environment. The Nigeria Flood of 2022 has been used as a case study for assessing the model performance.
翻訳日:2023-12-03 13:52:19 公開日:2023-11-07
# デジタルメンタルヘルスにおける大規模言語モデルのメリットとハーム

Benefits and Harms of Large Language Models in Digital Mental Health ( http://arxiv.org/abs/2311.14693v1 )

ライセンス: Link先を確認
Munmun De Choudhury, Sachin R. Pendse, Neha Kumar(参考訳) 過去10年はメンタルヘルスの研究と実践に変化をもたらした。 電子健康記録(EHR)、モバイルデバイス、ソーシャルメディアなど、大規模なデータリポジトリを利用する能力は、患者の経験、早期かつ積極的な介入、パーソナライズされた治療計画に対する貴重な洞察の可能性を明らかにしている。 最近の生成型人工知能、特に大規模言語モデル(llm)の発展は、デジタルメンタルヘルスを未開領域に導く可能性を示している。 患者は、チャットボットから得られる情報、最先端のLLMが医療ソフトウェアやEHRシステムに組み込まれている、そしてAIコンパニオン、友人、パートナーとして機能することを約束するスタートアップのチャットボットによって、医師のアポイントメントに到達している。 本稿では,デジタルメンタルヘルスツールの設計,開発,実装において,llmが与える機会とリスクに関する現代的視点を紹介する。 我々は、環境枠組みを採用し、LLMが提供した4つの応用分野 ― ケアを必要とする個人からの介護行動、地域医療提供、制度・医療提供、社会レベルでのより大きなケアエコロジー ― について論じる。 我々は、LLMベースの技術がメンタルヘルスの強化に有効であるかどうか、そしてどのように採用されるべきなのかを慎重に検討する。 われわれの記事表面の利点と害は、より責任があり、ユーザフレンドリで、公平で、LLMベースのメンタルヘルスと介入のための安全なツールを作成することに焦点を当てた将来の研究、擁護、規制の取り組みを形作るのに役立つだろう。

The past decade has been transformative for mental health research and practice. The ability to harness large repositories of data, whether from electronic health records (EHR), mobile devices, or social media, has revealed a potential for valuable insights into patient experiences, promising early, proactive interventions, as well as personalized treatment plans. Recent developments in generative artificial intelligence, particularly large language models (LLMs), show promise in leading digital mental health to uncharted territory. Patients are arriving at doctors' appointments with information sourced from chatbots, state-of-the-art LLMs are being incorporated in medical software and EHR systems, and chatbots from an ever-increasing number of startups promise to serve as AI companions, friends, and partners. This article presents contemporary perspectives on the opportunities and risks posed by LLMs in the design, development, and implementation of digital mental health tools. We adopt an ecological framework and draw on the affordances offered by LLMs to discuss four application areas -- care-seeking behaviors from individuals in need of care, community care provision, institutional and medical care provision, and larger care ecologies at the societal level. We engage in a thoughtful consideration of whether and how LLM-based technologies could or should be employed for enhancing mental health. The benefits and harms our article surfaces could serve to help shape future research, advocacy, and regulatory efforts focused on creating more responsible, user-friendly, equitable, and secure LLM-based tools for mental health treatment and intervention.
翻訳日:2023-12-03 13:52:02 公開日:2023-11-07
# フィードフォワードSNNのオンライントレーニングにおけるシナプス後効果の推定

Estimating Post-Synaptic Effects for Online Training of Feed-Forward SNNs ( http://arxiv.org/abs/2311.16151v1 )

ライセンス: Link先を確認
Thomas Summe, Clemens JS Schaefer, Siddharth Joshi(参考訳) スパイクニューラルネットワーク(SNN)におけるオンライン学習の実現は、変化する環境に適応し、リアルタイムで連続データストリームから学習できるイベントベースのモデルを開発するための重要なステップである。 前方モードの微分はオンライン学習を可能にするが、その計算要求はスケーラビリティを制限する。 これは通常、深層モデルでの学習を制限する近似によって解決される。 本研究では,リアルタイム・リカレント・ラーニング(RTRL)を近似したフィードフォワードSNNのトレーニングに,OTTT(Online Training Through Time)やOSTL(Online Spatio-Temporal Learning)など,現在の近似では得られない時間的ダイナミクスを組み込むことにより,ポストシナプス推定を用いたオンライントレーニングを提案する。 本研究では, 時間的効果の新たな近似法を用いて, マルチ層ネットワークのスケーリング改善を示す。 この近似は、類似のアルゴリズムと比較して時間と空間の複雑さにおいて最小のオーバーヘッドを伴い、時間効果の計算は各層に局所的に残る。 レートベースおよび時間ベース符号化のための複数のSNNモデル構成に対して提案アルゴリズムの学習性能を特徴付ける。 otpeは、深層ネットワークにおけるバックプロパゲーション・アライメント・アライメント(bptt)によって計算され、時間に基づくエンコーディングでは、他の近似手法よりも高い方向アライメントを示す。 また、同等のハイパーパラメータ (OTTT/OSTL - 70.5%; OTPE75.2%; BPTT - 78.1%) を持つスパイキングハイデルバーグ・ディジットのオフライントレーニングにおいて、同様のアルゴリズムに対する平均的なパフォーマンスの大幅な向上も観察した。

Facilitating online learning in spiking neural networks (SNNs) is a key step in developing event-based models that can adapt to changing environments and learn from continuous data streams in real-time. Although forward-mode differentiation enables online learning, its computational requirements restrict scalability. This is typically addressed through approximations that limit learning in deep models. In this study, we propose Online Training with Postsynaptic Estimates (OTPE) for training feed-forward SNNs, which approximates Real-Time Recurrent Learning (RTRL) by incorporating temporal dynamics not captured by current approximations, such as Online Training Through Time (OTTT) and Online Spatio-Temporal Learning (OSTL). We show improved scaling for multi-layer networks using a novel approximation of temporal effects on the subsequent layer's activity. This approximation incurs minimal overhead in the time and space complexity compared to similar algorithms, and the calculation of temporal effects remains local to each layer. We characterize the learning performance of our proposed algorithms on multiple SNN model configurations for rate-based and time-based encoding. OTPE exhibits the highest directional alignment to exact gradients, calculated with backpropagation through time (BPTT), in deep networks and, on time-based encoding, outperforms other approximate methods. We also observe sizeable gains in average performance over similar algorithms in offline training of Spiking Heidelberg Digits with equivalent hyper-parameters (OTTT/OSTL - 70.5%; OTPE - 75.2%; BPTT - 78.1%).
翻訳日:2023-12-03 13:19:52 公開日:2023-11-07
# 単変量放射基底関数層:低次元入力のための脳誘発深部神経層

Univariate Radial Basis Function Layers: Brain-inspired Deep Neural Layers for Low-Dimensional Inputs ( http://arxiv.org/abs/2311.16148v1 )

ライセンス: Link先を確認
Basavasagar Patil, Xavier Alameda-Pineda, Chris Reinke(参考訳) Deep Neural Networks (DNN) は関数近似の標準ツールとなり、高次元の入力データのためにほとんどのアーキテクチャが開発された。 しかし、現実世界の多くの問題は、標準のMLP(Multi-Layer Perceptrons)がデフォルトの選択となる低次元入力を持つ。 専門アーキテクチャに関する調査は欠落している。 代替として,Univariate Radial Basis Function (U-RBF) と呼ばれる新しいDNN層を提案する。 脳の感覚ニューロンと同様に、U-RBF層は個々の入力次元を異なる入力値に依存するニューロンの集団で処理する。 低次元関数回帰および強化学習タスクにおけるMLPと比較しての有効性を検証する。 その結果,対象関数が複雑になり近似が困難になると,U-RBFは特に有利であることがわかった。

Deep Neural Networks (DNNs) became the standard tool for function approximation with most of the introduced architectures being developed for high-dimensional input data. However, many real-world problems have low-dimensional inputs for which standard Multi-Layer Perceptrons (MLPs) are the default choice. An investigation into specialized architectures is missing. We propose a novel DNN layer called Univariate Radial Basis Function (U-RBF) layer as an alternative. Similar to sensory neurons in the brain, the U-RBF layer processes each individual input dimension with a population of neurons whose activations depend on different preferred input values. We verify its effectiveness compared to MLPs in low-dimensional function regressions and reinforcement learning tasks. The results show that the U-RBF is especially advantageous when the target function becomes complex and difficult to approximate.
翻訳日:2023-12-03 13:19:21 公開日:2023-11-07
# JINSPのエミュレータ

Emulators in JINSP ( http://arxiv.org/abs/2311.16146v1 )

ライセンス: Link先を確認
Lei Zhao, Miaomiao Zhang, Lv Zhe(参考訳) jinsp(jiutian intelligence network simulation platform)は、ユーザ動作シミュレーション、基地局シミュレーション、端末シミュレーションからなる実環境における動的ユーザのためのプロトコルスタックのシミュレーションなど、一連の基本的なエミュレータとそれらの組み合わせを記述する。 マルチターゲットアンテナ最適化や圧縮フィードバックなど、特定のビジネスシナリオに適用される。 本稿では,エミュレータの実装プロセス,プラットフォームとの統合,実験結果,その他の側面を含む,各エミュレータとその組み合わせについて詳細な説明を行う。

JINSP(Jiutian Intelligence Network Simulation Platform) describes a series of basic emulators and their combinations, such as the simulation of the protocol stack for dynamic users in a real environment, which is composed of user behavior simulation, base station simulation, and terminal simulation. It is applied in specific business scenarios, such as multi-target antenna optimization, compression feedback, and so on. This paper provides detailed descriptions of each emulator and its combination based on this foundation, including the implementation process of the emulator, integration with the platform, experimental results, and other aspects.
翻訳日:2023-12-03 13:19:08 公開日:2023-11-07
# 下水管欠陥分類のためのデュアルストリームアテンショントランス

Dual-Stream Attention Transformers for Sewer Defect Classification ( http://arxiv.org/abs/2311.16145v1 )

ライセンス: Link先を確認
Abdullah Al Redwan Newaz, Mahdi Abdeldguerfi, Kendall N. Niles, and Joe Tom(参考訳) 本稿では、RGBおよび光フロー入力を効率よく下水道の欠陥分類のために処理するデュアルストリームマルチスケールビジョントランス (DS-MSHViT) アーキテクチャを提案する。 各モードでトレーニングされた2つの異なるネットワークの予測を組み合わせる既存の方法とは異なり、RGBとモーションの2つのブランチで1つのネットワークを共同でトレーニングする。 私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。 モーションストリームだけでは、RGB画像にリッチな視覚的特徴が欠けているため、正確な注意マップを生成するのに苦労しています。 これを容易にするために、二重ストリーム間の注意一貫性損失を導入する。 自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。 我々は、公開データセット上のデータを評価し、新しいデータセットでモデルパフォーマンスをクロスバリデーションする。 提案手法は,畳み込みニューラルネットワーク (cnns) とマルチスケールハイブリッドビジョントランスフォーマ (mshvits) を両ストリーム間の注意正規化を必要とせず,既存のモデルよりも優れている。

We propose a dual-stream multi-scale vision transformer (DS-MSHViT) architecture that processes RGB and optical flow inputs for efficient sewer defect classification. Unlike existing methods that combine the predictions of two separate networks trained on each modality, we jointly train a single network with two branches for RGB and motion. Our key idea is to use self-attention regularization to harness the complementary strengths of the RGB and motion streams. The motion stream alone struggles to generate accurate attention maps, as motion images lack the rich visual features present in RGB images. To facilitate this, we introduce an attention consistency loss between the dual streams. By leveraging motion cues through a self-attention regularizer, we align and enhance RGB attention maps, enabling the network to concentrate on pertinent input regions. We evaluate our data on a public dataset as well as cross-validate our model performance in a novel dataset. Our method outperforms existing models that utilize either convolutional neural networks (CNNs) or multi-scale hybrid vision transformers (MSHViTs) without employing attention regularization between the two streams.
翻訳日:2023-12-03 13:18:58 公開日:2023-11-07
# OmniVec: クロスモーダル共有による堅牢な表現の学習

OmniVec: Learning robust representations with cross modal sharing ( http://arxiv.org/abs/2311.05709v1 )

ライセンス: Link先を確認
Siddharth Srivastava, Gaurav Sharma(参考訳) 学習に基づく手法の研究の大半は、特定のタスクのためのネットワークの設計とトレーニングを目的としている。 しかし、学習ベースのタスクの多くは、モダリティを越えて共通点を共有し、共同フレームワークで取り組める可能性がある。 我々は,複数のタスク,複数のモダリティ,統一アーキテクチャを学ぶためのアプローチを提案する。 提案するネットワークはタスク固有エンコーダ,中央に共通トランク,次いでタスク固有予測ヘッドで構成される。 まず,自己教師付きマスクトレーニングで事前トレーニングを行い,その後,各タスクの逐次トレーニングを行った。 ビジュアル、オーディオ、テキスト、3Dなど、すべての主要なモダリティでネットワークをトレーニングし、22ドルの多様性と挑戦的な公開ベンチマークの結果を報告します。 共同ネットワークを使ってモダリティをトレーニングすることで意味のある情報共有を実現し、その結果、ほとんどのベンチマークで最先端の結果が得られます。 クロスモーダルなタスクでトレーニングされたネットワークの一般化や、見当たらないデータセットやタスクも示します。

Majority of research in learning based methods has been towards designing and training networks for specific tasks. However, many of the learning based tasks, across modalities, share commonalities and could be potentially tackled in a joint framework. We present an approach in such direction, to learn multiple tasks, in multiple modalities, with a unified architecture. The proposed network is composed of task specific encoders, a common trunk in the middle, followed by task specific prediction heads. We first pre-train it by self-supervised masked training, followed by sequential training for the different tasks. We train the network on all major modalities, e.g.\ visual, audio, text and 3D, and report results on $22$ diverse and challenging public benchmarks. We demonstrate empirically that, using a joint network to train across modalities leads to meaningful information sharing and this allows us to achieve state-of-the-art results on most of the benchmarks. We also show generalization of the trained network on cross-modal tasks as well as unseen datasets and tasks.
翻訳日:2023-11-19 14:29:45 公開日:2023-11-07
# 垂直フェデレート大言語モデルに対する入力再構成攻撃

Input Reconstruction Attack against Vertical Federated Large Language Models ( http://arxiv.org/abs/2311.07585v1 )

ライセンス: Link先を確認
Fei Zheng(参考訳) 近年,ChatGPTの出現により,大規模言語モデル (LLM) が学術や一般の注目を集めている。 LLMは、様々なタスクのためのテキスト生成における驚くべき能力を示しているが、プライバシーに関する懸念は、現実のビジネスでの使用を制限する。 具体的には、ユーザの入力(ユーザがモデルホストサーバにクエリを送信する)またはモデル(ユーザが完全なモデルをダウンロードする)自体が、使用中に明らかにされる。 垂直連合学習(VFL)はこの種の問題に対する有望な解決策である。 モデルの底部と上部に分割することで、ユーザの入力とモデルの知識の両方を保護し、それぞれがユーザとモデルプロバイダによって維持される。 しかし,本稿では,llmsでは,中間組込みから入力を再構成することが簡単で安価であるため,vflではユーザ入力を保護できないことを実証する。 実験の結果、商用GPUでも入力文は1秒で再構築できることがわかった。 また,垂直連合LDMのプライバシーを高めるためのいくつかの解決策についても論じる。

Recently, large language models (LLMs) have drawn extensive attention from academia and the public, due to the advent of the ChatGPT. While LLMs show their astonishing ability in text generation for various tasks, privacy concerns limit their usage in real-life businesses. More specifically, either the user's inputs (the user sends the query to the model-hosting server) or the model (the user downloads the complete model) itself will be revealed during the usage. Vertical federated learning (VFL) is a promising solution to this kind of problem. It protects both the user's input and the knowledge of the model by splitting the model into a bottom part and a top part, which is maintained by the user and the model provider, respectively. However, in this paper, we demonstrate that in LLMs, VFL fails to protect the user input since it is simple and cheap to reconstruct the input from the intermediate embeddings. Experiments show that even with a commercial GPU, the input sentence can be reconstructed in only one second. We also discuss several possible solutions to enhance the privacy of vertical federated LLMs.
翻訳日:2023-11-19 14:18:26 公開日:2023-11-07
# matnexus - 資料発見のための包括的なテキストマイニングおよび分析スイート

MatNexus: A Comprehensive Text Mining and Analysis Suite for Materials Discover ( http://arxiv.org/abs/2311.06303v1 )

ライセンス: Link先を確認
Lei Zhang, Markus Stricker(参考訳) MatNexusは科学論文からのテキストの自動収集、処理、分析のための専用ソフトウェアである。 MatNexusは、一連のモジュールを通じて、科学論文の検索を促進し、洞察のためのテキストデータを処理し、機械学習に適したベクトル表現を生成し、単語埋め込みのための可視化機能を提供する。 MatNexusは、膨大な量の科学出版物とともに、材料科学の科学文献から洞察を得ることを目的とした、研究者のためのエンドツーエンドのツールとして、私たちが提示する電気触媒の例のような材料を探索し、効率的かつ洞察に富むものにしている。

MatNexus is a specialized software for the automated collection, processing, and analysis of text from scientific articles. Through an integrated suite of modules, the MatNexus facilitates the retrieval of scientific articles, processes textual data for insights, generates vector representations suitable for machine learning, and offers visualization capabilities for word embeddings. With the vast volume of scientific publications, MatNexus stands out as an end-to-end tool for researchers aiming to gain insights from scientific literature in material science, making the exploration of materials, such as the electrocatalyst examples we show here, efficient and insightful.
翻訳日:2023-11-19 14:16:19 公開日:2023-11-07
# 接着剤選択のための知識ベースサポート:定着するか?

Knowledge-Based Support for Adhesive Selection: Will it Stick? ( http://arxiv.org/abs/2311.06302v1 )

ライセンス: Link先を確認
Simon Vandevelde, Jeroen Jordens, Bart Van Doninck, Maarten Witters, Joost Vennekens(参考訳) 産業における接着継手の人気が高まるにつれて、適切な接着剤の選択プロセスを支援するツールも必要となる。 そのようなツールはすでにいくつか存在するが、スコープが限られているか、使用の柔軟性が少なすぎるかのどちらかだ。 この研究はより高度なツールを示し、接着剤の専門家チームと一緒に開発された。 まず、このドメインに関する専門家の知識を抽出し、知識ベース(KB)で形式化する。 IDP-Z3推論システムは、このKBから必要な機能を引き出すために使用できる。 ユーザフレンドリーなインタラクティブインターフェースと組み合わせることで,接着剤の専門家を支援するツールが開発される。 アプローチを検証するために,質的なインタビューの形でユーザテストを行った。 専門家たちはこのツールに非常に肯定的であり、特に、時間を節約し、より適切な接着剤を見つけるのに役立つと述べている。 論理プログラミングの理論と実践(tplp)における考察。

As the popularity of adhesive joints in industry increases, so does the need for tools to support the process of selecting a suitable adhesive. While some such tools already exist, they are either too limited in scope, or offer too little flexibility in use. This work presents a more advanced tool, that was developed together with a team of adhesive experts. We first extract the experts' knowledge about this domain and formalize it in a Knowledge Base (KB). The IDP-Z3 reasoning system can then be used to derive the necessary functionality from this KB. Together with a user-friendly interactive interface, this creates an easy-to-use tool capable of assisting the adhesive experts. To validate our approach, we performed user testing in the form of qualitative interviews. The experts are very positive about the tool, stating that, among others, it will help save time and find more suitable adhesives. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2023-11-19 14:16:09 公開日:2023-11-07
# 産業用LLRFシステムのノイズ低減のための変分オートエンコーダ

Variational Autoencoders for Noise Reduction in Industrial LLRF Systems ( http://arxiv.org/abs/2311.02096v2 )

ライセンス: Link先を確認
J. P. Edelen, M. J. Henderson, J. Einstein-Curtis, C. C. Hall, J. A. Diaz Cruz and A. L. Edelen(参考訳) 工業用粒子加速器は、典型的な研究加速器よりも汚い環境で本質的に機能する。 これにより、RFシステムと他の電子システムの両方でノイズが増加する。 産業用加速器が大量生産されているという事実と相まって、個々のシステムの性能を最適化することにはあまり注意が払わない。 その結果、産業システムはハードウェアの能力を考慮すると性能が低下する傾向にある。 医療滅菌、食品照射、がん治療、画像診断のアクセラレーターの需要が高まるにつれ、これらの機械の信号処理の改善により、これらのシステムの展開のマージンが増大する。 本研究は,産業用加速器のパルス-パルスフィードバックに用いるRF信号のノイズを低減するために,機械学習技術を利用することに重点を置いている。 我々は,我々のアルゴリズム,シミュレーション結果,および測定データを扱う結果についてレビューする。 次に、産業システムへのデプロイとテストの次のステップについて議論します。

Industrial particle accelerators inherently operate in much dirtier environments than typical research accelerators. This leads to an increase in noise both in the RF system and in other electronic systems. Combined with the fact that industrial accelerators are mass produced, there is less attention given to optimizing the performance of an individual system. As a result, industrial systems tend to under perform considering their hardware hardware capabilities. With the growing demand for accelerators for medical sterilization, food irradiation, cancer treatment, and imaging, improving the signal processing of these machines will increase the margin for the deployment of these systems. Our work is focusing on using machine learning techniques to reduce the noise of RF signals used for pulse-to-pulse feedback in industrial accelerators. We will review our algorithms, simulation results, and results working with measured data. We will then discuss next steps for deployment and testing on an industrial system.
翻訳日:2023-11-10 17:23:11 公開日:2023-11-07
# 救急医療のためのマルチモーダル臨床ベンチマーク(MC-BEC) : 救急医療の基礎モデル評価のための総合的ベンチマーク

Multimodal Clinical Benchmark for Emergency Care (MC-BEC): A Comprehensive Benchmark for Evaluating Foundation Models in Emergency Medicine ( http://arxiv.org/abs/2311.04937v1 )

ライセンス: Link先を確認
Emma Chen, Aman Kansal, Julie Chen, Boyang Tom Jin, Julia Rachel Reisler, David A Kim, Pranav Rajpurkar(参考訳) 救急医療における基礎モデル評価のための総合的ベンチマークとして,2020年から2022年までの10万回以上連続監視された救急部門訪問のデータセットを用いたマルチモーダル・クリニカル・ベンチマーク(mc-bec)を提案する。 MC-BECは、患者補償、処分、救急部門(ED)の見直しなど、数分から数日のタイムスケールでの臨床的に関連性のある予測タスクに重点を置いており、トレーニングテストの分割と評価基準を備えた標準化された評価フレームワークを含んでいる。 マルチモーダルデータセットは、トリアージ情報、事前診断及び薬品、連続的に測定されたバイタルサイン、心電図及びフォトプレチモグラフ波形、訪問中を通じて管理された順序及び薬品、画像研究のフリーテキストレポート、ed診断、配置およびその後の再訪に関する情報を含む、幅広い詳細な臨床データを含む。 マルチモーダルマルチタスクモデルの評価を可能にするために,各予測タスクのパフォーマンスベースラインを提供する。 mc-becは、研究者がマルチモーダル臨床データに対してより効果的で汎用的でアクセス可能な基礎モデルを開発することを奨励すると信じている。

We propose the Multimodal Clinical Benchmark for Emergency Care (MC-BEC), a comprehensive benchmark for evaluating foundation models in Emergency Medicine using a dataset of 100K+ continuously monitored Emergency Department visits from 2020-2022. MC-BEC focuses on clinically relevant prediction tasks at timescales from minutes to days, including predicting patient decompensation, disposition, and emergency department (ED) revisit, and includes a standardized evaluation framework with train-test splits and evaluation metrics. The multimodal dataset includes a wide range of detailed clinical data, including triage information, prior diagnoses and medications, continuously measured vital signs, electrocardiogram and photoplethysmograph waveforms, orders placed and medications administered throughout the visit, free-text reports of imaging studies, and information on ED diagnosis, disposition, and subsequent revisits. We provide performance baselines for each prediction task to enable the evaluation of multimodal, multitask models. We believe that MC-BEC will encourage researchers to develop more effective, generalizable, and accessible foundation models for multimodal clinical data.
翻訳日:2023-11-10 17:08:45 公開日:2023-11-07
# Conformer-Transducer, Whisper, wav2vec2の比較分析による幼児の音声認識改善

A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition ( http://arxiv.org/abs/2311.04936v1 )

ライセンス: Link先を確認
Andrei Barcovschi and Rishabh Jain and Peter Corcoran(参考訳) 自動音声認識 (asr) システムは, 成人用音声データの性能が著しく向上しているが, 幼児用音声の書き起こしは, 児童用音声と成人用音声の音響的特徴の違いから, いまだに困難である。 本研究の目的は,子どもの音声認識性能を向上させるために,最先端のコンフォーマー・トランスデューサモデルを適用する可能性を検討することである。 さらに,従来同一データに微調整されていた自己教師型wav2vec2モデルと半教師型マルチドメインWhisperモデルとの比較を行った。 子どもの発話におけるコンフォーメータ・トランスデューサモデルの微調整は, 子どもの発話におけるasr性能を非微調整モデルと比較して有意に向上することを示す。 また,子どもの発話データから,whisper と wav2vec2 の適応性を示す。 比較分析の結果,wav2vec2は3つの手法の中で最も一貫した性能改善が得られた。

Automatic Speech Recognition (ASR) systems have progressed significantly in their performance on adult speech data; however, transcribing child speech remains challenging due to the acoustic differences in the characteristics of child and adult voices. This work aims to explore the potential of adapting state-of-the-art Conformer-transducer models to child speech to improve child speech recognition performance. Furthermore, the results are compared with those of self-supervised wav2vec2 models and semi-supervised multi-domain Whisper models that were previously finetuned on the same data. We demonstrate that finetuning Conformer-transducer models on child speech yields significant improvements in ASR performance on child speech, compared to the non-finetuned models. We also show Whisper and wav2vec2 adaptation on different child speech datasets. Our detailed comparative analysis shows that wav2vec2 provides the most consistent performance improvements among the three methods studied.
翻訳日:2023-11-10 17:08:22 公開日:2023-11-07
# Promptキャッシュ: 低レイテンシ推論のためのモジュールアテンション再利用

Prompt Cache: Modular Attention Reuse for Low-Latency Inference ( http://arxiv.org/abs/2311.04934v1 )

ライセンス: Link先を確認
In Gim, Guojun Chen, Seung-seob Lee, Nikhil Sarda, Anurag Khandelwal, Lin Zhong(参考訳) 本稿では,LLMプロンプト間の注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法であるPrompt Cacheを提案する。 多くの入力プロンプトは、システムメッセージ、プロンプトテンプレート、コンテキスト用のドキュメントなど、テキストセグメントを重複させています。 私たちの重要な洞察は、これらの頻繁に発生するテキストセグメントの注意状態を推論サーバに事前計算し保存することで、これらのセグメントがユーザのプロンプトに現れる場合に効率的に再利用できるということです。 Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。 スキーマは注意状態の再利用中に位置精度を確保し、プロンプトでキャッシュされた状態にアクセスするためのインターフェースを提供する。 プロトタイプ実装を用いて,複数の LLM にまたがる Prompt Cache を評価する。 特にドキュメントベースの質問応答やレコメンデーションなど,より長いプロンプトでは,プロンプトキャッシュによりレイテンシが大幅に低減する。 改善点は、GPUベースの推論では8倍、CPUベースの推論では60倍まで、出力精度を維持しながら、モデルパラメータの変更を必要としない。

We present Prompt Cache, an approach for accelerating inference for large language models (LLM) by reusing attention states across different LLM prompts. Many input prompts have overlapping text segments, such as system messages, prompt templates, and documents provided for context. Our key insight is that by precomputing and storing the attention states of these frequently occurring text segments on the inference server, we can efficiently reuse them when these segments appear in user prompts. Prompt Cache employs a schema to explicitly define such reusable text segments, called prompt modules. The schema ensures positional accuracy during attention state reuse and provides users with an interface to access cached states in their prompt. Using a prototype implementation, we evaluate Prompt Cache across several LLMs. We show that Prompt Cache significantly reduce latency in time-to-first-token, especially for longer prompts such as document-based question answering and recommendations. The improvements range from 8x for GPU-based inference to 60x for CPU-based inference, all while maintaining output accuracy and without the need for model parameter modifications.
翻訳日:2023-11-10 17:08:02 公開日:2023-11-07
# 眼科における大規模言語モデルの評価

Evaluating Large Language Models in Ophthalmology ( http://arxiv.org/abs/2311.04933v1 )

ライセンス: Link先を確認
Jason Holmes, Shuyuan Ye, Yiwei Li, Shi-Nan Wu, Zhengliang Liu, Zihao Wu, Jinyu Hu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu, Yi Shao(参考訳) 目的: 3種類の大言語モデル(GPT-3.5, GPT-4, PaLM2)の眼科専門的質問に対して, 3種類の専門職集団(医学生, 医師, 看護医)と比較して評価を行った。 方法:100項目の眼科単焦点検診を3つの異なるLSM(GPT-3.5, GPT-4, PaLM2)と3つの異なる専門レベル(医学生, 医師, 看護医)で行った。 LLMの性能を総合的に評価し,平均スコア,安定性,信頼性の観点からヒト群と比較した。 結果: 各 LLM は, GPT-3.5 と PaLM2 が, GPT-4 は受講医に匹敵するレベルであった。 さらに GPT-4 は GPT-3.5 および PaLM2 よりも回答安定性と信頼性が有意に高かった。 結論: 眼科領域では, GPT-4 で表される LLM が良好に機能することが示された。 さらなる改善により、LSMは近い将来、医学教育と臨床意思決定に予期せぬ利益をもたらすだろう。

Purpose: The performance of three different large language models (LLMS) (GPT-3.5, GPT-4, and PaLM2) in answering ophthalmology professional questions was evaluated and compared with that of three different professional populations (medical undergraduates, medical masters, and attending physicians). Methods: A 100-item ophthalmology single-choice test was administered to three different LLMs (GPT-3.5, GPT-4, and PaLM2) and three different professional levels (medical undergraduates, medical masters, and attending physicians), respectively. The performance of LLM was comprehensively evaluated and compared with the human group in terms of average score, stability, and confidence. Results: Each LLM outperformed undergraduates in general, with GPT-3.5 and PaLM2 being slightly below the master's level, while GPT-4 showed a level comparable to that of attending physicians. In addition, GPT-4 showed significantly higher answer stability and confidence than GPT-3.5 and PaLM2. Conclusion: Our study shows that LLM represented by GPT-4 performs better in the field of ophthalmology. With further improvements, LLM will bring unexpected benefits in medical education and clinical decision making in the near future.
翻訳日:2023-11-10 17:07:42 公開日:2023-11-07
# GC-VTON: 仮想試行のための近傍積分保存による局所流れのグローバル一貫性及び閉塞性予測

GC-VTON: Predicting Globally Consistent and Occlusion Aware Local Flows with Neighborhood Integrity Preservation for Virtual Try-on ( http://arxiv.org/abs/2311.04932v1 )

ライセンス: Link先を確認
Hamza Rawal, Muhammad Junaid Ahmad, Farooq Zaman(参考訳) フローベースの衣服のワープはイメージベースの仮想トライオンネットワークの不可欠な部分である。 しかし,グローバル境界アライメントと局所テクスチャ保存を同時に行うための単一フロー予測ネットワークの最適化は,準最適流れ場における結果をもたらす。 さらに、密流は、身体部分や他の衣服による衣服の閉塞のような複雑な状態を扱うのに本質的に適していない。 上記の問題に対処するためにフローを強制すると、テクスチャのスクイーズやストレッチなど、さまざまな歪みが発生する。 本研究では,GlobalNetモジュールとLocalNetモジュールを介してグローバル境界アライメントと局所テクスチャ保存タスクを分離する手法を提案する。 次に、局所フローと大域境界アライメントを調和させる2つのモジュール間で整合損失が生じる。 さらに, 乱れた衣服の隠蔽領域を隠蔽するために用いられるボディパーツの視認性マスクを予測することにより, 咬合を明示的に処理する。 マスキングは、咬合を補償するためにテクスチャを歪ませる流れを予測することを妨げる。 また,テクスチャの整合性(スリーズドやストレッチド)に反する変形した衣服の領域を特定するための基準を定義した新しい正規化損失(NIPR)を導入する。 NIPRはその後、これらの地域の流れをペナルティ化し、地域のテクスチャを保存する定期的で一貫性のあるワープを確保する。 広範に利用されている仮想試行データセットの評価は、現在のSOTA法と比較してネットワークの性能が強いことを示す。

Flow based garment warping is an integral part of image-based virtual try-on networks. However, optimizing a single flow predicting network for simultaneous global boundary alignment and local texture preservation results in sub-optimal flow fields. Moreover, dense flows are inherently not suited to handle intricate conditions like garment occlusion by body parts or by other garments. Forcing flows to handle the above issues results in various distortions like texture squeezing, and stretching. In this work, we propose a novel approach where we disentangle the global boundary alignment and local texture preserving tasks via our GlobalNet and LocalNet modules. A consistency loss is then employed between the two modules which harmonizes the local flows with the global boundary alignment. Additionally, we explicitly handle occlusions by predicting body-parts visibility mask, which is used to mask out the occluded regions in the warped garment. The masking prevents the LocalNet from predicting flows that distort texture to compensate for occlusions. We also introduce a novel regularization loss (NIPR), that defines a criteria to identify the regions in the warped garment where texture integrity is violated (squeezed or stretched). NIPR subsequently penalizes the flow in those regions to ensure regular and coherent warps that preserve the texture in local neighborhoods. Evaluation on a widely used virtual try-on dataset demonstrates strong performance of our network compared to the current SOTA methods.
翻訳日:2023-11-10 17:07:18 公開日:2023-11-07
# 言語拡張とショットサンプリングによる映画ジャンルの分類

Movie Genre Classification by Language Augmentation and Shot Sampling ( http://arxiv.org/abs/2203.13281v2 )

ライセンス: Link先を確認
Zhongping Zhang, Yiwen Gu, Bryan A. Plummer, Xin Miao, Jiayi Liu, Huayan Wang(参考訳) ビデオベースの映画ジャンル分類は、レコメンデーションシステムにおける様々な用途のために注目されている。 従来の作業は、アクション認識やイベント検出といった従来のビデオ分類タスクからモデルを適用することで、このタスクに対処してきた。 しかし、これらのモデルは、しばしばビデオに現れる言語要素(例えばナレーションや会話)を無視し、ストーリーラインや背景コンテキストのような映画ジャンルの高レベルな意味を暗黙的に伝えることができる。 さらに、既存のアプローチは、主に入力ビデオの全コンテンツをエンコードするように設計されており、映画ジャンルを予測するのに非効率になる。 映画ジャンルの予測は、ジャンルを正確に判断するために数ショットしか必要とせず、ビデオ全体の包括的な理解が不要になる。 これらの課題に対処するために,Language augmentatIon とshot SamPling (Movie-CLIP) に基づく映画ジャンル分類手法を提案する。 Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。 本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。 また,映像クリップをシーン境界検出タスクに一般化し,最先端よりも平均精度(ap)が1.1%向上した。 我々はgithub.com/Zhongping-Zhang/Movie-CLIPで実装をリリースします。

Video-based movie genre classification has garnered considerable attention due to its various applications in recommendation systems. Prior work has typically addressed this task by adapting models from traditional video classification tasks, such as action recognition or event detection. However, these models often neglect language elements (e.g., narrations or conversations) present in videos, which can implicitly convey high-level semantics of movie genres, like storylines or background context. Additionally, existing approaches are primarily designed to encode the entire content of the input video, leading to inefficiencies in predicting movie genres. Movie genre prediction may require only a few shots to accurately determine the genres, rendering a comprehensive understanding of the entire video unnecessary. To address these challenges, we propose a Movie genre Classification method based on Language augmentatIon and shot samPling (Movie-CLIP). Movie-CLIP mainly consists of two parts: a language augmentation module to recognize language elements from the input audio, and a shot sampling module to select representative shots from the entire video. We evaluate our method on MovieNet and Condensed Movies datasets, achieving approximate 6-9% improvement in mean Average Precision (mAP) over the baselines. We also generalize Movie-CLIP to the scene boundary detection task, achieving 1.1% improvement in Average Precision (AP) over the state-of-the-art. We release our implementation at github.com/Zhongping-Zhang/Movie-CLIP.
翻訳日:2023-11-09 20:54:58 公開日:2023-11-07
# 高ダイナミックレンジイメージングのためのウェーブレットネットワーク

Wavelet-Based Network For High Dynamic Range Imaging ( http://arxiv.org/abs/2108.01434v3 )

ライセンス: Link先を確認
Tianhong Dai, Wei Li, Xilei Cao, Jianzhuang Liu, Xu Jia, Ales Leonardis, Youliang Yan, Shanxin Yuan(参考訳) high dynamic range (hdr) imaging from multiple low dynamic range (ldr) images シーンやオブジェクトの動きによって引き起こされるゴーストアーティファクトに悩まされている。 オプティカルフローベースやエンドツーエンドのディープラーニングベースのソリューションといった既存の手法は、詳細な復元やゴーストアーティファクトの削除といったエラーが発生しやすい。 総合的な実証的証拠は、大きな前景運動によって引き起こされるゴーストアーティファクトが主に低周波信号であり、詳細は主として高周波信号であることを示している。 本研究では、周波数領域でHDR融合を行うための新しい周波数誘導エンドツーエンドディープニューラルネットワーク(FHDRNet)を提案し、離散ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。 低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。 U-Netをバックボーンとして用いることで,モジュールのマージと周波数誘導アップサンプリングモジュールの2つの新しいモジュールを提案する。 マージモジュールは、低周波成分にアテンション機構を適用して、大きな前景運動によるゴーストに対処する。 周波数ガイドアップサンプリングモジュールは、複数の周波数固有のコンポーネントから詳細をリッチに再構成する。 さらに、RAW領域におけるマルチフレームHDRイメージングアルゴリズムのトレーニングと評価のために、新しいRAWデータセットを作成する。 公開データセットとRAWデータセットを用いて大規模な実験を行い、提案したFHDRNetが最先端の性能を達成することを示す。

High dynamic range (HDR) imaging from multiple low dynamic range (LDR) images has been suffering from ghosting artifacts caused by scene and objects motion. Existing methods, such as optical flow based and end-to-end deep learning based solutions, are error-prone either in detail restoration or ghosting artifacts removal. Comprehensive empirical evidence shows that ghosting artifacts caused by large foreground motion are mainly low-frequency signals and the details are mainly high-frequency signals. In this work, we propose a novel frequency-guided end-to-end deep neural network (FHDRNet) to conduct HDR fusion in the frequency domain, and Discrete Wavelet Transform (DWT) is used to decompose inputs into different frequency bands. The low-frequency signals are used to avoid specific ghosting artifacts, while the high-frequency signals are used for preserving details. Using a U-Net as the backbone, we propose two novel modules: merging module and frequency-guided upsampling module. The merging module applies the attention mechanism to the low-frequency components to deal with the ghost caused by large foreground motion. The frequency-guided upsampling module reconstructs details from multiple frequency-specific components with rich details. In addition, a new RAW dataset is created for training and evaluating multi-frame HDR imaging algorithms in the RAW domain. Extensive experiments are conducted on public datasets and our RAW dataset, showing that the proposed FHDRNet achieves state-of-the-art performance.
翻訳日:2023-11-09 20:52:11 公開日:2023-11-07
# 情報理論を用いた目的関数の選択法

How to select an objective function using information theory ( http://arxiv.org/abs/2212.06566v3 )

ライセンス: Link先を確認
Timothy O. Hodson, Thomas M. Over, Tyler J. Smith, Lucy M. Marshall(参考訳) 機械学習や科学計算では、モデル性能は客観的関数で測定される。 しかし、なぜ別の目的を選ぶのか? 情報理論は1つの答えを与える: モデルの情報を最大限にするために、最小ビットのエラーを表す目的関数を選択する。 異なる目的を評価するために、それらを可能性関数に変換する。 可能性として、それらの相対的な大きさは、ある目的が他の目標よりもどれだけ強く、その関係のログはビット長の違いと不確実性の違いを表す。 言い換えれば、どちらの目的も不確実性を最小化する。 情報理論のパラダイムの下では、最終的な目標は、特定のユーティリティとは対照的に、情報の最大化(および不確実性の最小化)である。 このパラダイムは、気候変動の影響を理解するために使用される大規模地球系モデルのように、多くの用途があり、明確な実用性を持たないモデルに適していると論じている。

In machine learning or scientific computing, model performance is measured with an objective function. But why choose one objective over another? Information theory gives one answer: To maximize the information in the model, select the objective function that represents the error in the fewest bits. To evaluate different objectives, transform them into likelihood functions. As likelihoods, their relative magnitude represents how strongly we should prefer one objective versus another, and the log of that relation represents the difference in their bit-length, as well as the difference in their uncertainty. In other words, prefer whichever objective minimizes the uncertainty. Under the information-theoretic paradigm, the ultimate objective is to maximize information (and minimize uncertainty), as opposed to any specific utility. We argue that this paradigm is well-suited to models that have many uses and no definite utility, like the large Earth system models used to understand the effects of climate change.
翻訳日:2023-11-09 20:43:42 公開日:2023-11-07
# コミュニティ検出におけるインプシットモデル,潜伏圧縮,内在バイアス,安価なランチ

Implicit models, latent compression, intrinsic biases, and cheap lunches in community detection ( http://arxiv.org/abs/2210.09186v7 )

ライセンス: Link先を確認
Tiago P. Peixoto, Alec Kirkley(参考訳) ネットワークをノードのクラスタに分割して大規模構造を要約することを目的としたコミュニティ検出のタスクは、さまざまな目的を持った多くの競合するアルゴリズムの開発を生み出した。 いくつかのコミュニティ検出手法は予測的であり、確率的生成モデルを通じてクラスタリングの目的を明示的に導出するが、他の手法は記述的であり、特定のアプリケーションによって動機づけられた目的に従ってネットワークを分割する。 本稿では,コミュニティ検出対象,推論対象,記述対象と,それに対応する暗黙的ネットワーク生成モデルとを関連付ける。 これにより、任意の目的の下でネットワークとその分割の記述長を計算し、異なるアルゴリズムのパフォーマンスを「基底真理」ラベルなしで比較するための原則的尺度を提供する。 提案手法は,任意のアルゴリズムに最適なコミュニティ検出問題の事例にもアクセス可能であり,この方法では,一般的な記述手法における固有のバイアスを明らかにし,過度に適合する傾向を説明する。 本フレームワークを用いて,500以上の構造的多様な経験的ネットワークのコーパスと,人工ネットワーク上でのコミュニティ検出手法を比較した。 より表現力のあるコミュニティ検出手法は、より特殊なアルゴリズムが最適に動作する少数の状況において、性能を低下させることなく、構造化データインスタンス上で一貫して優れた圧縮性能を示す。 本研究の結果は,非構造化データインスタンスに限定されているため,概念的にも現実的にも,コミュニティ検出における「無料ランチ」定理の意義を損なうものである。

The task of community detection, which aims to partition a network into clusters of nodes to summarize its large-scale structure, has spawned the development of many competing algorithms with varying objectives. Some community detection methods are inferential, explicitly deriving the clustering objective through a probabilistic generative model, while other methods are descriptive, dividing a network according to an objective motivated by a particular application, making it challenging to compare these methods on the same scale. Here we present a solution to this problem that associates any community detection objective, inferential or descriptive, with its corresponding implicit network generative model. This allows us to compute the description length of a network and its partition under arbitrary objectives, providing a principled measure to compare the performance of different algorithms without the need for "ground truth" labels. Our approach also gives access to instances of the community detection problem that are optimal to any given algorithm, and in this way reveals intrinsic biases in popular descriptive methods, explaining their tendency to overfit. Using our framework, we compare a number of community detection methods on artificial networks, and on a corpus of over 500 structurally diverse empirical networks. We find that more expressive community detection methods exhibit consistently superior compression performance on structured data instances, without having degraded performance on a minority of situations where more specialized algorithms perform optimally. Our results undermine the implications of the "no free lunch" theorem for community detection, both conceptually and in practice, since it is confined to unstructured data instances, unlike relevant community detection problems which are structured by requirement.
翻訳日:2023-11-09 20:43:14 公開日:2023-11-07
# 量子近似最適化を用いたフラストレーションイジングハミルトンのシミュレーション

Simulations of Frustrated Ising Hamiltonians with Quantum Approximate Optimization ( http://arxiv.org/abs/2206.05343v2 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Hanjing Xu, Bilal Khalid, Gilles Buchs, Travis S. Humble, and Arnab Banerjee(参考訳) 新しい磁性材料は将来の技術進歩にとって重要である。 基底状態特性の理論的および数値計算はこれらの物質を理解する上で不可欠であるが、計算複雑性はこれらの状態を研究する従来の方法を制限する。 本稿では、量子近似最適化アルゴリズム(QAOA)を用いて、物質基底状態を作成するための代替手法について検討する。 正方形, シャストリー・サザーランド型, 三角形格子の単位セル上の古典イジングスピンモデルについて, 物質ハミルトン型における磁場振幅とカップリングの変化について検討した。 理論上のqaoa成功確率と基底状態の構造との関係を見出した結果、フラストレーション磁化に繋がるパラメータであっても、我々の9スピンハミルトニアンの基底状態を見つけるには、わずかな数の測定値($\lesssim100$)しか必要ではないことがわかった。 さらに、捕捉されたイオン量子コンピュータ上での計算のアプローチを実証し、理想的な理論値に近い確率でShastry-Sutherland単位セルの各基底状態の回復に成功した。 その結果、フラストレーションのあるイジング限界における材料基底状態生成のためのQAOAの生存可能性を示し、新しい材料を体系的に理解するためには量子計算の優位性が不可欠であることが証明された。

Novel magnetic materials are important for future technological advances. Theoretical and numerical calculations of ground state properties are essential in understanding these materials, however, computational complexity limits conventional methods for studying these states. Here we investigate an alternative approach to preparing materials ground states using the quantum approximate optimization algorithm (QAOA) on near-term quantum computers. We study classical Ising spin models on unit cells of square, Shastry-Sutherland, and triangular lattices, with varying field amplitudes and couplings in the material Hamiltonian. We find relationships between the theoretical QAOA success probability and the structure of the ground state, indicating that only a modest number of measurements ($\lesssim100$) are needed to find the ground state of our nine-spin Hamiltonians, even for parameters leading to frustrated magnetism. We further demonstrate the approach in calculations on a trapped-ion quantum computer and succeed in recovering each ground state of the Shastry-Sutherland unit cell with probabilities close to ideal theoretical values. The results demonstrate the viability of QAOA for materials ground state preparation in the frustrated Ising limit, giving important first steps towards larger sizes and more complex Hamiltonians where quantum computational advantage may prove essential in developing a systematic understanding of novel materials.
翻訳日:2023-11-09 20:39:26 公開日:2023-11-07
# 量子近似最適化における近似ボルツマン分布

Approximate Boltzmann Distributions in Quantum Approximate Optimization ( http://arxiv.org/abs/2212.01857v3 )

ライセンス: Link先を確認
Phillip C. Lotshaw, George Siopsis, James Ostrowski, Rebekah Herrman, Rizwanul Alam, Sarah Powers, and Travis S. Humble(参考訳) 量子近似最適化アルゴリズム(QAOA)から出力確率分布を計算または推定するためには、量子計算の利点が得られる可能性を評価する必要がある。 我々は、7,200のランダムMaxCutインスタンスを$n=14-23$ qubitsおよび深さパラメータ$p \leq 12$で解くQAOA回路の出力を分析し、平均基底状態確率が近似ボルツマン分布に従うことを発見した。 本稿では, 最適解エネルギーを$c_\mathrm{min}$ とする主順序項 $t \sim c_\mathrm{min}/n\sqrt{p}$ の級数を用いて, 指数的スケーリングあるいは「有効温度」の速度を記述する。 このスケーリングを使用することで、最大38キュービットの近似出力分布を生成し、正確にシミュレートできる場合の、重要なパフォーマンス指標の正確な説明が得られます。

Approaches to compute or estimate the output probability distributions from the quantum approximate optimization algorithm (QAOA) are needed to assess the likelihood it will obtain a quantum computational advantage. We analyze output from QAOA circuits solving 7,200 random MaxCut instances, with $n=14-23$ qubits and depth parameter $p \leq 12$, and find that the average basis state probabilities follow approximate Boltzmann distributions: The average probabilities scale exponentially with their energy (cut value), with a peak at the optimal solution. We describe the rate of exponential scaling or "effective temperature" in terms of a series with a leading order term $T \sim C_\mathrm{min}/n\sqrt{p}$, with $C_\mathrm{min}$ the optimal solution energy. Using this scaling we generate approximate output distributions with up to 38 qubits and find these give accurate accounts of important performance metrics in cases we can simulate exactly.
翻訳日:2023-11-09 20:28:06 公開日:2023-11-07
# 大域的モルマー・ソレンセン相互作用におけるモデリングノイズの量子近似最適化への応用

Modelling noise in global Molmer-Sorensen interactions applied to quantum approximate optimization ( http://arxiv.org/abs/2211.00133v2 )

ライセンス: Link先を確認
Phillip C. Lotshaw, Kevin D. Battles, Bryan Gard, Gilles Buchs, Travis S. Humble, and Creston D. Herold(参考訳) 閉じ込められたイオンに適用される多量子m{\o}lmer-s{\o}rensen (ms) 相互作用は量子情報処理にユニークな機能を提供し、量子シミュレーションや量子近似最適化アルゴリズム (qaoa) などにも応用できる。 そこで我々は, 振動モード周波数変動, レーザパワー変動, 温度初期振動状態, 状態準備と測定誤差の4つの実験ノイズ源に基づく多ビットMS相互作用を記述する物理モデルを構築した。 モデルはこれらの誤差を、自由パラメータなしで単純な実験的な測定からパラメータ化する。 このモデルを2つの$^{171}$Yb$^+$イオン上でのMS相互作用のシーケンスを実装する実験と比較して検証する。 このモデルは、還元されたchi-二乗統計量$\chi^2_\mathrm{red} \approx 2$ によって定量化された複数のms相互作用の後、合理的な一致を示す。 応用として、3および6イオンのMaxCut QAOA実験について検討する。 実験性能は、最適理論値の9,1\%$と8,3\%$の近似比によって定量化される。 本モデルでは, それぞれ$0.93^{+0.03}_{-0.02}$と$0.95^{+0.04}_{-0.03}$とを予測し, 後者の値の相違点について検討した。 測定誤差とラジアルトラップ周波数の変動を低減するための現実的な実験的改善により、最適な99$\%の近似比が得られる。 これらの改善を将来の実験に取り入れることで、将来のモデリングと実験的改善のための新しいノイズの側面を明らかにすることが期待される。

Many-qubit M{\o}lmer-S{\o}rensen (MS) interactions applied to trapped ions offer unique capabilities for quantum information processing, with applications including quantum simulation and the quantum approximate optimization algorithm (QAOA). Here, we develop a physical model to describe many-qubit MS interactions under four sources of experimental noise: vibrational mode frequency fluctuations, laser power fluctuations, thermal initial vibrational states, and state preparation and measurement errors. The model parameterizes these errors from simple experimental measurements, without free parameters. We validate the model in comparison with experiments that implement sequences of MS interactions on two $^{171}$Yb$^+$ ions. The model shows reasonable agreement after several MS interactions as quantified by the reduced chi-squared statistic $\chi^2_\mathrm{red} \approx 2$. As an application we examine MaxCut QAOA experiments on three and six ions. The experimental performance is quantified by approximation ratios that are $91\%$ and $83\%$ of the optimal theoretical values. Our model predicts $0.93^{+0.03}_{-0.02}$ and $0.95^{+0.04}_{-0.03}$, respectively, with disagreement in the latter value attributable to secondary noise sources beyond those considered in our analysis. With realistic experimental improvements to reduce measurement error and radial trap frequency variations the model achieves approximation ratios that are 99$\%$ of the optimal. Incorporating these improvements into future experiments is expected to reveal new aspects of noise for future modeling and experimental improvements.
翻訳日:2023-11-09 20:26:46 公開日:2023-11-07
# 雑音量子力学の幾何学的対応による普遍ロバスト量子ゲート

Universal robust quantum gates by geometric correspondence of noisy quantum dynamics ( http://arxiv.org/abs/2210.14521v3 )

ライセンス: Link先を確認
Yong-Ju Hai, Junning Li, Junkai Zeng, and Xiu-Hao Deng(参考訳) ノイズへの露出は量子情報を処理する上で大きな障害であるが、ノイズが必ずしもエラーを引き起こすわけではない。 量子ゲート上の誤差はロバストな量子制御技術によって抑制できる。 しかし、エラーの原因を理解し、普遍的な治療法を見つけることは、いまだに苦しい。 この問題を解決するために、様々なノイズによる量子力学をグラフィカルに捉える幾何学的理論を開発し、量子誤り進化図(QEED)を得る。 この理論は、ロバスト制御ハミルトニアンおよびゲート誤差の定量的な幾何学的指標のための明示的な必要十分条件を提供する。 次に、一般的な誤りを訂正する単一ビットと2ビットのロバストゲートの共通セットを設計するプロトコルを開発する。 この数値シミュレーションでは、任意のゲート時間に対して最も単純で滑らかなパルスを用いて、広い雑音強度の領域で99.99\%以上のゲートフィディティを示す。 提案手法は, 任意のノイズ処理, システムパラメータの独立性, 拡張性, 実験に親しみやすいことなど, 既存の手法に対して, ノイズの量子力学の幾何学的側面に関する新たな知見を提供する。

Exposure to noises is a major obstacle for processing quantum information, but noises don't necessarily induce errors. Errors on the quantum gates could be suppressed via robust quantum control techniques. But understanding the genesis of errors and finding a universal treatment remains grueling. To resolve this issue, we develop a geometric theory to capture quantum dynamics due to various noises graphically, obtaining the quantum erroneous evolution diagrams (QEED). Our theory provides explicit necessary and sufficient criteria for robust control Hamiltonian and quantitative geometric metrics of the gate error. We then develop a protocol to engineer a universal set of single- and two-qubit robust gates that correct the generic errors. Our numerical simulation shows gate fidelities above $99.99\%$ over a broad region of noise strength using simplest and smooth pulses for arbitrary gate time. Our approach offers new insights into the geometric aspects of noisy quantum dynamics and several advantages over existing methods, including the treatment of arbitrary noises, independence of system parameters, scalability, and being friendly to experiments.
翻訳日:2023-11-09 20:26:19 公開日:2023-11-07
# 高配向電界を有する2チャネルInAs-Alナノワイヤにおけるマヨラナクラマーズ対の実現

Realizing Majorana Kramers pairs in two-channel InAs-Al nanowires with highly misaligned electric fields ( http://arxiv.org/abs/2304.07286v2 )

ライセンス: Link先を確認
Benjamin D Woods, Mark Friesen(参考訳) 半導体-超伝導ハイブリッドにおけるトポロジカル超伝導とマヨラナゼロモードを実現するための一般的な提案は、親超伝導体の超伝導ギャップをパラドックス的に抑制する大きな磁場を必要とする。 2チャンネルスキームは磁場を排除する方法として提案されているが、幾何学的制約は、チャネルを反平行電界に浸す必要があるため、その実装を困難にしている。 本稿では,2チャネルのInAs-Alナノワイヤにおいて,磁場のないトポロジカル超伝導を実現する方法を提案する。 重要なことは、チャネルがエネルギ的にデチュレートされている場合、反並列フィールドは不要であることを示す。 我々は、現実的にモデル化されたナノワイヤの位相位相位相図を計算し、マヨルダナゼロモードを包含する可能性のある幅広いパラメータを見つける。 したがって、この研究は大きな技術的課題を解決し、短期的な実験への扉を開く。

Common proposals for realizing topological superconductivity and Majorana zero modes in semiconductor-superconductor hybrids require large magnetic fields, which paradoxically suppress the superconducting gap of the parent superconductor. Although two-channel schemes have been proposed as a way to eliminate magnetic fields, geometric constraints make their implementation challenging, since the channels should be immersed in nearly antiparallel electric fields. Here, we propose an experimentally favorable scheme for realizing field-free topological superconductivity, in two-channel InAs-Al nanowires, that overcomes such growth constraints. Crucially, we show that antiparallel fields are not required, if the channels are energetically detuned. We compute topological phase diagrams for realistically modeled nanowires, finding a broad range of parameters that could potentially harbor Majorana zero modes. This work, therefore, solves a major technical challenge and opens the door to near-term experiments.
翻訳日:2023-11-09 20:18:20 公開日:2023-11-07
# Ethereum Bytecodeにおける自動弱さ検出の進化 : 総合的研究

Evolution of Automated Weakness Detection in Ethereum Bytecode: a Comprehensive Study ( http://arxiv.org/abs/2303.10517v2 )

ライセンス: Link先を確認
Monika di Angelo, Thomas Durieux, Jo\~ao F. Ferreira, Gernot Salzer(参考訳) ブロックチェーンプログラム(スマートコントラクトとも呼ばれる)は、暗号通貨やトークンなどの価値のある資産を管理し、分散ファイナンス(defi)やサプライチェーン管理といったドメインでプロトコルを実装する。 この種のアプリケーションには、公開ブロックチェーンの透明性のために達成が難しい高いレベルのセキュリティが必要です。 弱点を検出するタスクにおいて、多くのツールが開発者と監査人をサポートする。 若い技術として、ブロックチェーンとユーティリティは急速に進化し、ツールや開発者がそのペースに追いつくのが難しくなっている。 本研究では,6年間のブロックチェーン活動を表すデータセット上で,コード解析ツールの堅牢性と弱点検出の進化について検討する。 私たちはEthereumを、最も多くの開発者とデプロイプログラムを抱える暗号エコシステムとして重視しています。 単一ツールの動作と類似の弱点に対処するいくつかのツールの合意について検討する。 私たちの研究は、ethereumのメインチェーンにデプロイされたバイトコードの本体全体をベースとする最初のものです。 同じスケルトンを共有する場合、バイトコードを同等とすることで、このカバレッジを実現します。 バイトコードの骨格は機能的に無関係な部分を省略して得られる。 これにより、2022年1月までにethereumに展開された4800万の契約は、異なる骨格を持つ248328の契約に削減される。 バルク実行では、Solidityスマートコントラクトの分析を容易にするオープンソースのフレームワークSmartBugsを使用し、唯一の入力としてバイトコードを受け入れるように拡張します。 さらにバイトコード解析のための6つのツールを統合する。 データセットに関する我々の研究に含まれる12のツールの実行には30年かかりました。 ツールは合計で1307486の潜在的な弱さを報告しているが、報告された弱さは時間とともに減少し、道具の劣化は程度によって異なる。

Blockchain programs (also known as smart contracts) manage valuable assets like cryptocurrencies and tokens, and implement protocols in domains like decentralized finance (DeFi) and supply-chain management. These types of applications require a high level of security that is hard to achieve due to the transparency of public blockchains. Numerous tools support developers and auditors in the task of detecting weaknesses. As a young technology, blockchains and utilities evolve fast, making it challenging for tools and developers to keep up with the pace. In this work, we study the robustness of code analysis tools and the evolution of weakness detection on a dataset representing six years of blockchain activity. We focus on Ethereum as the crypto ecosystem with the largest number of developers and deployed programs. We investigate the behavior of single tools as well as the agreement of several tools addressing similar weaknesses. Our study is the first that is based on the entire body of deployed bytecode on Ethereum's main chain. We achieve this coverage by considering bytecodes as equivalent if they share the same skeleton. The skeleton of a bytecode is obtained by omitting functionally irrelevant parts. This reduces the 48 million contracts deployed on Ethereum up to January 2022 to 248328 contracts with distinct skeletons. For bulk execution, we utilize the open-source framework SmartBugs that facilitates the analysis of Solidity smart contracts, and enhance it to accept also bytecode as the only input. Moreover, we integrate six further tools for bytecode analysis. The execution of the 12 tools included in our study on the dataset took 30 CPU years. While the tools report a total of 1307486 potential weaknesses, we observe a decrease in reported weaknesses over time, as well as a degradation of tools to varying degrees.
翻訳日:2023-11-09 20:16:19 公開日:2023-11-07
# PULSNAR (Positive Unlabeled Learning Selected Not At Random) : SCAR仮定が成立しない場合のクラス比推定

Positive Unlabeled Learning Selected Not At Random (PULSNAR): class proportion estimation when the SCAR assumption does not hold ( http://arxiv.org/abs/2303.08269v2 )

ライセンス: Link先を確認
Praveen Kumar and Christophe G. Lambert(参考訳) ポジティブおよびアンラベル学習(英: positive and unlabeled learning)は、機械学習アルゴリズムが正のインスタンス群(ラベル付き)と負のインスタンス群(ラベル付き)とを区別する半教師付きバイナリ分類の一種である。 PU学習は、確認された陰性が入手できない、あるいは入手が難しい設定において広く応用されており、ラベルなし化合物(例えば、未試験化合物中の有効薬物)の正の発見に価値がある。 ほとんどのPU学習アルゴリズムは、選択された正が特徴から独立して選択されるという、ランダム(SCAR)な仮定で完全に選択する。 しかし、医療のような現実世界の多くのアプリケーションでは、陽性は傷つきにくい(例えば、重篤な症例は診断される可能性が高い)ため、ラベルなしの例とモデルキャリブレーションの粗悪な例の正の比率である$\alpha$の見積もりが不十分となり、正を選択するための不確定な決定しきい値となる。 pu 学習アルゴリズムは、$\alpha$ または個々のラベルなしインスタンスが陽性または両方である確率を推定することができる。 2つのPU学習アルゴリズムを提案し、$\alpha$を推定し、PUインスタンスの校正確率を計算し、分類基準を改善する。 一 PULSCAR(ランダムに選択された正の未ラベル学習)及び ii) PULSNAR(ランダムに選ばない正の未ラベル学習) PULSNARは、PULSCARを使用してSCARライクなサブプロブレムを作成し、解決する分割・コンカレントアプローチを使用する。 我々の実験では、PULSNARは合成および実世界のベンチマークデータセットにおいて最先端のアプローチより優れていた。

Positive and Unlabeled (PU) learning is a type of semi-supervised binary classification where the machine learning algorithm differentiates between a set of positive instances (labeled) and a set of both positive and negative instances (unlabeled). PU learning has broad applications in settings where confirmed negatives are unavailable or difficult to obtain, and there is value in discovering positives among the unlabeled (e.g., viable drugs among untested compounds). Most PU learning algorithms make the selected completely at random (SCAR) assumption, namely that positives are selected independently of their features. However, in many real-world applications, such as healthcare, positives are not SCAR (e.g., severe cases are more likely to be diagnosed), leading to a poor estimate of the proportion, $\alpha$, of positives among unlabeled examples and poor model calibration, resulting in an uncertain decision threshold for selecting positives. PU learning algorithms can estimate $\alpha$ or the probability of an individual unlabeled instance being positive or both. We propose two PU learning algorithms to estimate $\alpha$, calculate calibrated probabilities for PU instances, and improve classification metrics: i) PULSCAR (positive unlabeled learning selected completely at random), and ii) PULSNAR (positive unlabeled learning selected not at random). PULSNAR uses a divide-and-conquer approach that creates and solves several SCAR-like sub-problems using PULSCAR. In our experiments, PULSNAR outperformed state-of-the-art approaches on both synthetic and real-world benchmark datasets.
翻訳日:2023-11-09 20:15:45 公開日:2023-11-07
# 動的モダリティゲーティングを有する共振器型階層型クロスモーダルトランス:影響認識に関する研究

Incongruity-Aware Hierarchical Crossmodal Transformer with Dynamic Modality Gating: A Study on Affect Recognition ( http://arxiv.org/abs/2305.13583v3 )

ライセンス: Link先を確認
Yaoting Wang, Yuanchao Li, Paul Pu Liang, Louis-Philippe Morency, Peter Bell, Catherine Lai(参考訳) 複数のモダリティを融合させることは、マルチモーダル情報処理に有効であることが証明されている。 しかし、モダリティ間の不整合性は、特に影響認識において、マルチモーダル融合の課題となる。 本研究では,まず,一方のモダリティにおける有意な情動情報が他方にどのように影響するかを解析し,相互モダリティの注意において,相互モダリティ間の違和感が潜在的に存在することを示す。 そこで本研究では, 動的モダリティゲーティングを用いた階層型クロスモーダルトランスフォーマー(HCT-DMG)を提案する。このモデルでは, トレーニングバッチ毎の一次モダリティを動的に選択し, 潜時空間の学習階層を利用して融合時間を短縮し, 不整合を緩和する。 CMU-MOSI, CMU-MOSEI, IEMOCAP(感覚と感情)とUR-FUNNY(ヒューム)とMUStaRD(サルカズム)の5つのベンチマークデータセットを用いた実験結果, 不調和が一般的である場合, 本手法の有効性を検証し, HCT-DMGが有用であることを示す。 1) 約0.8mのパラメータで従来のマルチモーダルモデルを上回る。 2)不整合が認識を難しくするハードサンプルを認識する。 3)過度な注意力で潜伏レベルの不整合を緩和する。

Fusing multiple modalities has proven effective for multimodal information processing. However, the incongruity between modalities poses a challenge for multimodal fusion, especially in affect recognition. In this study, we first analyze how the salient affective information in one modality can be affected by the other, and demonstrate that inter-modal incongruity exists latently in crossmodal attention. Based on this finding, we propose the Hierarchical Crossmodal Transformer with Dynamic Modality Gating (HCT-DMG), a lightweight incongruity-aware model, which dynamically chooses the primary modality in each training batch and reduces fusion times by leveraging the learned hierarchy in the latent space to alleviate incongruity. The experimental evaluation on five benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP (sentiment and emotion), where incongruity implicitly lies in hard samples, as well as UR-FUNNY (humour) and MUStaRD (sarcasm), where incongruity is common, verifies the efficacy of our approach, showing that HCT-DMG: 1) outperforms previous multimodal models with a reduced size of approximately 0.8M parameters; 2) recognizes hard samples where incongruity makes affect recognition difficult; 3) mitigates the incongruity at the latent level in crossmodal attention.
翻訳日:2023-11-09 20:05:20 公開日:2023-11-07
# レベルダウンのないフェア: 新たなインターセクションフェアネス定義

Fair Without Leveling Down: A New Intersectional Fairness Definition ( http://arxiv.org/abs/2305.12495v2 )

ライセンス: Link先を確認
Gaurav Maheshwari, Aur\'elien Bellet, Pascal Denis, Mikaela Keller(参考訳) 本研究は,複数の交叉群が存在する場合,識別自由モデルを学ぶことを目的として,分類設定における交叉群フェアネスの問題を考察する。 まず,交差フェアネスを捉えるためによく用いられる既存フェアネス尺度の欠点について述べる。 そこで我々は,高感度群間の絶対的および相対的性能を結合し,微分的フェアネスの概念の一般化と見なすことのできる,$\alpha$-intersectional fairnessと呼ばれる新たな定義を提案する。 提案する定義の望ましい性質をいくつか強調し,他の公平測度との関係を分析する。 最後に、新しいフェアネス定義を用いて、複数の一般的なプロセス内機械学習アプローチをベンチマークし、単純なベースラインに対する改善が得られないことを示す。 これまでの定義で測定された公平性の増加は,最悪のものを改善するのではなく,グループよりも最高のパフォーマンスを低下させる,という“レベルダウン”効果を隠していることが明らかになった。

In this work, we consider the problem of intersectional group fairness in the classification setting, where the objective is to learn discrimination-free models in the presence of several intersecting sensitive groups. First, we illustrate various shortcomings of existing fairness measures commonly used to capture intersectional fairness. Then, we propose a new definition called the $\alpha$-Intersectional Fairness, which combines the absolute and the relative performance across sensitive groups and can be seen as a generalization of the notion of differential fairness. We highlight several desirable properties of the proposed definition and analyze its relation to other fairness measures. Finally, we benchmark multiple popular in-processing fair machine learning approaches using our new fairness definition and show that they do not achieve any improvement over a simple baseline. Our results reveal that the increase in fairness measured by previous definitions hides a "leveling down" effect, i.e., degrading the best performance over groups rather than improving the worst one.
翻訳日:2023-11-09 20:04:36 公開日:2023-11-07
# 衛星, 回転, コンテクストデータの階層的融合による作物分類の促進

Boosting Crop Classification by Hierarchically Fusing Satellite, Rotational, and Contextual Data ( http://arxiv.org/abs/2305.12011v3 )

ライセンス: Link先を確認
Valentin Barriere and Martin Claverie and Maja Schneider and Guido Lemoine and Rapha\"el d'Andrimont(参考訳) 季節内作物の正確な分類は農作物生産量の推定とモニタリングに不可欠である。 しかし, 植物の成長パターンの複雑さと時空間変動は重要な課題である。 現在のディープラーニングベースの手法では、単一およびマルチモーダル時系列からの作物タイプ分類が期待できるが、既存の手法のほとんどは、衛星リモートセンシングデータや作物の回転パターンのような単一のモダリティに依存している。 本稿では,複数年にわたる精度と堅牢性向上のためのモデルにマルチモーダル情報を融合する新しい手法を提案する。 このアプローチは、Sentinel-2とLandsat 8のリモートセンシング時系列、パーセルの作物回転、および局所的な作物分布の3つのモードに依存している。 このアプローチを評価するため、フランスとオランダで740万の農業パーセルの注釈付きデータセットを新たにリリースしました。 表面反射率(赤とNIR)と生体物理変数(LAI, FAPAR)の時系列とを関連づける。 さらに,作物種を階層的クラス構造に自動集約し,有意義なモデル評価を行う新しい手法と,早期シーズン分類のための新しいデータ提供手法を提案する。 151種から8種にまたがるセマンティックドメインにおいて,マルチモーダルアプローチの性能を異なるアグリゲーションレベルで評価した。 その結果,NLデータセットでは 91\% から 95\% ,FRデータセットでは 85\% から 89\% の精度が得られた。 データセットを事前トレーニングすることで、国間のドメイン適応性が向上し、クロスドメインのゼロショット学習が可能になり、フランスからオランダまでの数ショット環境でのパフォーマンスが堅牢になる。 提案手法は,しばしば見過ごされがちな時空間的文脈を学習法で利用することで,比較した手法を上回っている。

Accurate in-season crop type classification is crucial for the crop production estimation and monitoring of agricultural parcels. However, the complexity of the plant growth patterns and their spatio-temporal variability present significant challenges. While current deep learning-based methods show promise in crop type classification from single- and multi-modal time series, most existing methods rely on a single modality, such as satellite optical remote sensing data or crop rotation patterns. We propose a novel approach to fuse multimodal information into a model for improved accuracy and robustness across multiple years and countries. The approach relies on three modalities used: remote sensing time series from Sentinel-2 and Landsat 8 observations, parcel crop rotation and local crop distribution. To evaluate our approach, we release a new annotated dataset of 7.4 million agricultural parcels in France and Netherlands. We associate each parcel with time-series of surface reflectance (Red and NIR) and biophysical variables (LAI, FAPAR). Additionally, we propose a new approach to automatically aggregate crop types into a hierarchical class structure for meaningful model evaluation and a novel data-augmentation technique for early-season classification. Performance of the multimodal approach was assessed at different aggregation level in the semantic domain spanning from 151 to 8 crop types or groups. It resulted in accuracy ranging from 91\% to 95\% for NL dataset and from 85\% to 89\% for FR dataset. Pre-training on a dataset improves domain adaptation between countries, allowing for cross-domain zero-shot learning, and robustness of the performances in a few-shot setting from France to Netherlands. Our proposed approach outperforms comparable methods by enabling learning methods to use the often overlooked spatio-temporal context of parcels, resulting in increased preci...
翻訳日:2023-11-09 20:04:07 公開日:2023-11-07
# 機械と子どもの比較:発達心理学実験を用いてLaMDA反応の強さと弱さを評価する

Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses ( http://arxiv.org/abs/2305.11243v2 )

ライセンス: Link先を確認
Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik and Danielle Krettek Cobb(参考訳) 発達心理学者は、幼児や子供の知性と知識をテストする実験を数十年かけて開発し、重要な概念と能力の起源を辿ってきた。 さらに、発達心理学における実験技術は、特定の行動の根底にある認知能力を識別するために慎重に設計されている。 本稿では,子どもの発達における古典的実験の利用が,AIモデル,特にLLMの計算能力の探究に特に有効な方法であることを示す。 第一に, 発達心理学の方法論的手法として, 子どもが単純な関連性を用いているかどうかを判断するために, 過去の経験や制御条件の制御に新規刺激を用いることは, LLMの能力を評価する上でも同様に有用である。 この方法でLCMをテストすることで、テキストにエンコードされた情報が、特定の応答を可能にするのに十分かどうか、あるいは物理世界探索の情報など他の種類の情報に依存するかどうかを知ることができる。 本研究では,Googleの大規模言語モデルであるLaMDAの能力を評価するために,古典的な開発実験を適用する。 本稿では, GPT などの他の言語モデルの評価に使用できる新しい LLM Response Score (LRS) メトリクスを提案する。 社会的理解に関する実験において,LaMDAは子どもに類似した適切な反応を生じさせ,これらの領域の知識が言語を通して発見されることを示す。 一方、初期の対象と行動理解におけるLaMDAの反応、心の理論、特に因果推論タスクは、幼児のそれとは大きく異なり、おそらくこれらのドメインはより現実的で自己開始型の探索を必要としており、言語入力のパターンから単に学ぶことができないことを示している。

Developmental psychologists have spent decades devising experiments to test the intelligence and knowledge of infants and children, tracing the origin of crucial concepts and capacities. Moreover, experimental techniques in developmental psychology have been carefully designed to discriminate the cognitive capacities that underlie particular behaviors. We propose that using classical experiments from child development is a particularly effective way to probe the computational abilities of AI models, in general, and LLMs in particular. First, the methodological techniques of developmental psychology, such as the use of novel stimuli to control for past experience or control conditions to determine whether children are using simple associations, can be equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs in this way can tell us whether the information that is encoded in text is sufficient to enable particular responses, or whether those responses depend on other kinds of information, such as information from exploration of the physical world. In this work we adapt classical developmental experiments to evaluate the capabilities of LaMDA, a large language model from Google. We propose a novel LLM Response Score (LRS) metric which can be used to evaluate other language models, such as GPT. We find that LaMDA generates appropriate responses that are similar to those of children in experiments involving social understanding, perhaps providing evidence that knowledge of these domains is discovered through language. On the other hand, LaMDA's responses in early object and action understanding, theory of mind, and especially causal reasoning tasks are very different from those of young children, perhaps showing that these domains require more real-world, self-initiated exploration and cannot simply be learned from patterns in language input.
翻訳日:2023-11-09 20:03:03 公開日:2023-11-07
# PTW:Pivotal Tuning Watermarking for Pre-Trained Image Generators

PTW: Pivotal Tuning Watermarking for Pre-Trained Image Generators ( http://arxiv.org/abs/2304.07361v3 )

ライセンス: Link先を確認
Nils Lukas, Florian Kerschbaum(参考訳) ディープフェイク(Deepfakes)とは、デジタルメディアにおける信頼を損なう可能性があるディープジェネレータを用いて合成されたコンテンツを指す。 高品質なディープフェイクの合成には、大規模で複雑なジェネレータへのアクセスが必要である。 この脅威は、提供されたモデルへのアクセスを利用して、検出を危険にさらすことなく有害なディープフェイクを生成する悪意のあるユーザーである。 ウォーターマーキングは、識別可能なコードをジェネレータに埋め込むことでディープフェイクの検出を可能にし、後に生成された画像から抽出する。 我々は,事前学習済み発電機の透かし法であるptw(pivotal tuning watermarking)を提案する。 (一)スクラッチやスクラッチの透かしより三桁速いこと (ii) トレーニングデータを必要としない。 我々は既存の透かし法を改良し、関連する作業よりも4 \times$大きいジェネレータにスケールする。 PTWは、ジェネレータの画質を良く保ちながら、既存の方法よりも長いコードを埋め込むことができる。 本研究は, 強靭性および非検出性に関する厳密なゲームベース定義を提案し, ジェネレータのパラメータを制御する適応型ホワイトボックス攻撃に対して, 透かしが堅牢でないことを示す。 本研究では,200個の非透かし画像にのみアクセス可能な適応攻撃を提案する。 我々の研究は、発電機のパラメータが利用できる場合、ディープフェイク検出のための透かしの信頼性に挑戦する。 実験を再現するソースコードはhttps://github.com/nilslukas/gan-watermark.comで閲覧できます。

Deepfakes refer to content synthesized using deep generators, which, when misused, have the potential to erode trust in digital media. Synthesizing high-quality deepfakes requires access to large and complex generators only a few entities can train and provide. The threat is malicious users that exploit access to the provided model and generate harmful deepfakes without risking detection. Watermarking makes deepfakes detectable by embedding an identifiable code into the generator that is later extractable from its generated images. We propose Pivotal Tuning Watermarking (PTW), a method for watermarking pre-trained generators (i) three orders of magnitude faster than watermarking from scratch and (ii) without the need for any training data. We improve existing watermarking methods and scale to generators $4 \times$ larger than related work. PTW can embed longer codes than existing methods while better preserving the generator's image quality. We propose rigorous, game-based definitions for robustness and undetectability, and our study reveals that watermarking is not robust against an adaptive white-box attacker who controls the generator's parameters. We propose an adaptive attack that can successfully remove any watermarking with access to only 200 non-watermarked images. Our work challenges the trustworthiness of watermarking for deepfake detection when the parameters of a generator are available. The source code to reproduce our experiments is available at https://github.com/nilslukas/gan-watermark.
翻訳日:2023-11-09 20:00:36 公開日:2023-11-07
# 学習不可能なデータセットから何が学べるか?

What Can We Learn from Unlearnable Datasets? ( http://arxiv.org/abs/2305.19254v3 )

ライセンス: Link先を確認
Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein(参考訳) 広範なWebスクレイピングの時代、未学習のデータセットメソッドは、ディープニューラルネットワークの一般化を防ぎ、データのプライバシを保護する可能性がある。 しかし、それらの利用を危うくする多くの実用的な制限に加えて、データを保護する能力に疑問を投げかける多くの発見を行ないました。 まず、学習不可能なデータセットでトレーニングされたニューラルネットワークはショートカットのみを学ぶと広く信じられている。 これとは対照的に,ネットワークは高いテスト性能を期待できる有用な特徴を実際に学習することができ,画像保護が保証されていないことを示唆している。 学習不能なデータセットは、追加の摂動の線形分離性を通じて学習ショートカットを誘導すると考えられている。 摂動の線形分離性は必要条件ではないことを示す反例を提供する。 線形分離可能な摂動を頼りにすべきでない理由を強調するため,ICML 2021 と ICLR 2023 で発行された未学習データセットから学習が可能な直交射影攻撃を提案する。 提案手法は, 提案手法に比べてかなり複雑ではない。

In an era of widespread web scraping, unlearnable dataset methods have the potential to protect data privacy by preventing deep neural networks from generalizing. But in addition to a number of practical limitations that make their use unlikely, we make a number of findings that call into question their ability to safeguard data. First, it is widely believed that neural networks trained on unlearnable datasets only learn shortcuts, simpler rules that are not useful for generalization. In contrast, we find that networks actually can learn useful features that can be reweighed for high test performance, suggesting that image protection is not assured. Unlearnable datasets are also believed to induce learning shortcuts through linear separability of added perturbations. We provide a counterexample, demonstrating that linear separability of perturbations is not a necessary condition. To emphasize why linearly separable perturbations should not be relied upon, we propose an orthogonal projection attack which allows learning from unlearnable datasets published in ICML 2021 and ICLR 2023. Our proposed attack is significantly less complex than recently proposed techniques.
翻訳日:2023-11-09 19:52:24 公開日:2023-11-07
# 半透明非対称ミラー界面を持つ遠方原子のレベルシフトと自発的崩壊率の変化

Altering level shifts and spontaneous decay rates of distant atoms with partially-transparent asymmetric mirror interfaces ( http://arxiv.org/abs/2305.18826v2 )

ライセンス: Link先を確認
Nicholas Furtak-Wells, Benjamin Dawson, Thomas Mann, Gin Jose and Almut Beige(参考訳) 3次元では、原子レベルのシフトと自然崩壊率を変化させる双極子-双極子相互作用は、発光光の波長に匹敵する距離でしか持続しない。 量子センシングのような量子技術応用のための新しいツールを提供するために、これらの相互作用の範囲を広げるために多くの試みがなされている。 本稿では,このような拡張は負の屈折率メタマテリアルを含まずに部分的に透明な非対称ミラーインタフェースによって達成できることを示す。 2つの原子が界面の反対側に配置され、それぞれが他方の鏡像の位置にあると仮定する。 この場合、放出された光は原子同士が隣り合っているときと同じように干渉する。 したがって、それらの双極子-双極子相互作用は、原子の実際の距離が遷移波長よりも数桁大きい場合でも、追加の最大値となる。

In three dimensions, dipole-dipole interactions which alter atomic level shifts and spontaneous decay rates only persist over distances comparable to the wavelength of the emitted light. To provide novel tools for quantum technology applications, like quantum sensing, many attempts have been made to extend the range of these interactions. In this paper we show that such an extension can be achieved with the help of partially transparent asymmetric mirror interfaces without involving negative refractive index metamaterials. Suppose two atoms are placed on opposite sides of the interface, each at the position of the mirror image of the other. In this case, their emitted light interferes exactly as it would when the atoms are right next to each other. Hence their dipole-dipole interaction assumes an additional maximum, even when the actual distance of the atoms is several orders of magnitude larger than their transition wavelength.
翻訳日:2023-11-09 19:51:37 公開日:2023-11-07
# 画像情報除去によるテキスト・画像編集

Text-to-image Editing by Image Information Removal ( http://arxiv.org/abs/2305.17489v2 )

ライセンス: Link先を確認
Zhongping Zhang, Jian Zheng, Jacob Zhiyuan Fang, Bryan A. Plummer(参考訳) 拡散モデルはテキスト誘導画像生成において顕著な性能を示した。 画像編集にこれらのモデルの知識を活用する現在の手法は、入力画像(例えば、Imagic)を使って微調整するか、構造情報を追加の制約(例えば、ControlNet)として組み込むかである。 しかしながら、単一の画像上での大規模拡散モデルの微調整は、深刻な過剰フィッティング問題と長い推論時間を引き起こす可能性がある。 事前学習されたモデルからの情報漏洩は、テキスト入力に関係のない画像コンテンツを保存するのにも困難である。 さらに、構造的ガイダンス(エッジマップ、セマンティックマップ、キーポイントなど)を組み込んだ手法では、色やテクスチャなどの保持属性が難しい。 入力イメージを制御として使用すると、これらの問題は軽減されるが、これらのモデルは再構成によってトレーニングされるため、モデルは、編集タスクを学ばずに画像を完全に再構築するために、元の画像に関する情報をエンコードする際に単に隠すことができる。 これらの課題に対処するため,原画像から色関連情報やテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。 CUB,Outdoor Scenes,COCOの実験では,我々のアプローチが最良の編集可能性-忠実トレードオフ結果をもたらすことを報告している。 さらに,COCOのユーザ調査では,編集済み画像が前よりも35%多く好まれていることが示された。

Diffusion models have demonstrated impressive performance in text-guided image generation. Current methods that leverage the knowledge of these models for image editing either fine-tune them using the input image (e.g., Imagic) or incorporate structure information as additional constraints (e.g., ControlNet). However, fine-tuning large-scale diffusion models on a single image can lead to severe overfitting issues and lengthy inference time. Information leakage from pretrained models also make it challenging to preserve image content not related to the text input. Additionally, methods that incorporate structural guidance (e.g., edge maps, semantic maps, keypoints) find retaining attributes like colors and textures difficult. Using the input image as a control could mitigate these issues, but since these models are trained via reconstruction, a model can simply hide information about the original image when encoding it to perfectly reconstruct the image without learning the editing task. To address these challenges, we propose a text-to-image editing model with an Image Information Removal module (IIR) that selectively erases color-related and texture-related information from the original image, allowing us to better preserve the text-irrelevant content and avoid issues arising from information hiding. Our experiments on CUB, Outdoor Scenes, and COCO reports our approach achieves the best editability-fidelity trade-off results. In addition, a user study on COCO shows that our edited images are preferred 35% more often than prior work.
翻訳日:2023-11-09 19:51:06 公開日:2023-11-07
# 概念中心変換器:共有グローバルワークスペース内のオブジェクト中心概念学習によるモデル解釈可能性の向上

Concept-Centric Transformers: Enhancing Model Interpretability through Object-Centric Concept Learning within a Shared Global Workspace ( http://arxiv.org/abs/2305.15775v3 )

ライセンス: Link先を確認
Jinyung Hong, Keun Hee Park, Theodore P. Pavlic(参考訳) 多くの解釈可能なAIアプローチが提案され、モデルの意思決定に妥当な説明を提供している。 しかし、計算モジュール間で効果的に通信する説明可能なモデルの設定は、あまり注目されていない。 最近提案されたグローバルワークスペース理論により、分散モジュールのネットワークは、通信制約によってモジュール間の特殊化、構成性、同期が促進されるため、ボトルネックメモリと情報を共有できることがわかった。 そこで本稿では,概念中心トランスフォーマーを提案する。概念中心トランスフォーマーは,解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。 一 入力特徴から意味概念を抽出するためのオブジェクト中心メモリモジュール 二 学習概念と入力埋め込みの相互注意機構 三 人間のアナリストがモデルの分類推論の説明を直接評価できるようにするための標準分類及び説明損失。 cifar100、cub-200-2011、imagenetなど、さまざまなデータセットの分類タスクに関する既存の概念ベースの手法に対して、このアプローチをテストした結果、すべての問題に対するすべてのベースラインよりも優れた分類精度が得られただけでなく、分類アウトプットの一貫性に基づいた概念ベースの説明も生み出しています。

Many interpretable AI approaches have been proposed to provide plausible explanations for a model's decision-making. However, configuring an explainable model that effectively communicates among computational modules has received less attention. A recently proposed shared global workspace theory showed that networks of distributed modules can benefit from sharing information with a bottlenecked memory because the communication constraints encourage specialization, compositionality, and synchronization among the modules. Inspired by this, we propose Concept-Centric Transformers, a simple yet effective configuration of the shared global workspace for interpretability, consisting of: i) an object-centric-based memory module for extracting semantic concepts from input features, ii) a cross-attention mechanism between the learned concept and input embeddings, and iii) standard classification and explanation losses to allow human analysts to directly assess an explanation for the model's classification reasoning. We test our approach against other existing concept-based methods on classification tasks for various datasets, including CIFAR100, CUB-200-2011, and ImageNet, and we show that our model achieves better classification accuracy than all baselines across all problems but also generates more consistent concept-based explanations of classification output.
翻訳日:2023-11-09 19:49:31 公開日:2023-11-07
# ケースベース推論を用いた機械読解

Machine Reading Comprehension using Case-based Reasoning ( http://arxiv.org/abs/2305.14815v3 )

ライセンス: Link先を確認
Dung Thai, Dhruv Agarwal, Mudit Chaudhary, Wenlong Zhao, Rajarshi Das, Manzil Zaheer, Jay-Yoon Lee, Hannaneh Hajishirzi, Andrew McCallum(参考訳) 本稿では,古典的AIからケースベース推論(CBR)を連想させる機械読解における解答抽出法を提案する。 提案手法(cbr-mrc)は,類似質問に対する文脈的回答が相互に意味的類似性を持つという仮説に基づいている。 テスト質問が与えられた場合、CBR-MRCはまず、非パラメトリックメモリから類似したケースの集合を検索し、次に、検索されたケースの回答の文脈化された表現に最もよく似たテストコンテキストにおけるスパンを選択することで、回答を予測する。 このアプローチの半パラメトリックな性質により、特定のエビデンスケースのセットに予測を関連付けることができ、信頼性とデバッグ可能なQAシステムを構築する上で望ましい選択となる。 我々は,CBR-MRCが大規模リーダモデルに匹敵する精度を示し,NaturalQuestionsとNewsQAでそれぞれ11.5と8.4のEMでベースラインを上回ります。 さらに,CBR-MRCが正解トークンだけでなく,最も関連性の高い証拠も識別できることを示す。 そして,CBR-MRCは,完全パラメトリック手法を用いた性能が低下する一方で,これらの変動に対して頑健であることが確認された。

We present an accurate and interpretable method for answer extraction in machine reading comprehension that is reminiscent of case-based reasoning (CBR) from classical AI. Our method (CBR-MRC) builds upon the hypothesis that contextualized answers to similar questions share semantic similarities with each other. Given a test question, CBR-MRC first retrieves a set of similar cases from a nonparametric memory and then predicts an answer by selecting the span in the test context that is most similar to the contextualized representations of answers in the retrieved cases. The semi-parametric nature of our approach allows it to attribute a prediction to the specific set of evidence cases, making it a desirable choice for building reliable and debuggable QA systems. We show that CBR-MRC provides high accuracy comparable with large reader models and outperforms baselines by 11.5 and 8.4 EM on NaturalQuestions and NewsQA, respectively. Further, we demonstrate the ability of CBR-MRC in identifying not just the correct answer tokens but also the span with the most relevant supporting evidence. Lastly, we observe that contexts for certain question types show higher lexical diversity than others and find that CBR-MRC is robust to these variations while performance using fully-parametric methods drops.
翻訳日:2023-11-09 19:48:14 公開日:2023-11-07
# 非対称初期状態からの電荷変動のダイナミクス

Dynamics of charge fluctuations from asymmetric initial states ( http://arxiv.org/abs/2306.12404v2 )

ライセンス: Link先を確認
Bruno Bertini, Katja Klobas, Mario Collura, Pasquale Calabrese, Colin Rylands(参考訳) 保存電荷密度は、量子多体系において非常に特殊な観測可能量であり、建設によって力学に関する情報を符号化する。 したがって、それらの進化は一般的な観測可能なものよりもはるかに単純な解釈であり、任意の時間にシステムの状態に関する普遍的な情報を返すことが期待されている。 ここでは,電荷非対称初期状態における保存された u(1) 電荷のゆらぎのダイナミクスについて検討する。 停止電荷のフルカウント統計とサブシステムと残りのサブシステムの量子エンタングルメントを電荷の対称性セクタに分解することにより,与えられたサブシステム内の電荷変動を特徴付ける。 初期状態が空間において均質であるとしても、電荷揺らぎは初期状態の電荷非対称性に起因する有効不均一性を生成することを示す。 この観測により、この問題を不均一な電荷対称状態上の電荷ゆらぎにマッピングし、最近開発された時空双対性アプローチを用いてそれを扱う。 相互作用可能なシステムに対する処理を専門にすることで、時空双対性アプローチと一般化された流体力学を組み合わせて明確な予測を求める。

Conserved-charge densities are very special observables in quantum many-body systems as, by construction, they encode information about the dynamics. Therefore, their evolution is expected to be of much simpler interpretation than that of generic observables and to return universal information on the state of the system at any given time. Here we study the dynamics of the fluctuations of conserved U(1) charges in systems that are prepared in charge-asymmetric initial states. We characterise the charge fluctuations in a given subsystem using the full-counting statistics of the truncated charge and the quantum entanglement between the subsystem and the rest resolved to the symmetry sectors of the charge. We show that, even though the initial states considered are homogeneous in space, the charge fluctuations generate an effective inhomogeneity due to the charge-asymmetric nature of the initial states. We use this observation to map the problem into that of charge fluctuations on inhomogeneous, charge-symmetric states and treat it using a recently developed space-time duality approach. Specialising the treatment to interacting integrable systems we combine the space-time duality approach with generalised hydrodynamics to find explicit predictions.
翻訳日:2023-11-09 19:38:24 公開日:2023-11-07
# 非エルミートフェルミオン二次形式のジョルダン分解

Jordan Decomposition of Non-Hermitian Fermionic Quadratic Forms ( http://arxiv.org/abs/2308.01166v3 )

ライセンス: Link先を確認
Shunta Kitahama, Hironobu Yoshida, Ryo Toyota, Hosho Katsura(参考訳) 我々は Prosen [Prosen T 2010 J. Stat による Conjecture 3.1 の厳密な証明を与える。 メッチ $\textbf{2010}$ P07020] は二次フェルミオンイオビリアンのジョルダン分解の零部分についてのものである。 また、各大きさのジョーダンブロックの数は、$q$-二項係数と呼ばれる多項式の係数で表せることを示し、また、零部分のジョルダン標準形式を得る手順を記述する。

We give a rigorous proof of Conjecture 3.1 by Prosen [Prosen T 2010 J. Stat. Mech. $\textbf{2010}$ P07020] on the nilpotent part of the Jordan decomposition of a quadratic fermionic Liouvillian. We also show that the number of the Jordan blocks of each size can be expressed in terms of the coefficients of a polynomial called the $q$-binomial coefficient and describe the procedure to obtain the Jordan canonical form of the nilpotent part.
翻訳日:2023-11-09 19:26:17 公開日:2023-11-07
# フロンティアai規制 - 公共安全に対する新たなリスク管理

Frontier AI Regulation: Managing Emerging Risks to Public Safety ( http://arxiv.org/abs/2307.03718v4 )

ライセンス: Link先を確認
Markus Anderljung, Joslyn Barnhart, Anton Korinek, Jade Leung, Cullen O'Keefe, Jess Whittlestone, Shahar Avin, Miles Brundage, Justin Bullock, Duncan Cass-Beggs, Ben Chang, Tantum Collins, Tim Fist, Gillian Hadfield, Alan Hayes, Lewis Ho, Sara Hooker, Eric Horvitz, Noam Kolt, Jonas Schuett, Yonadav Shavit, Divya Siddarth, Robert Trager, Kevin Wolf(参考訳) 高度なAIモデルは人類にとって大きな利益をもたらすと約束しているが、社会はそれに伴うリスクを積極的に管理する必要がある。 本稿では,公共の安全に重大なリスクをもたらすのに十分な危険能力を有するような,高度な能力を持つ基盤モデルについて述べる。 危険な能力が予期せず出現する可能性があり、デプロイされたモデルが誤用されることを堅牢に防止することは困難であり、モデルの能力が広範囲に普及することを止めるのは難しい。 これらの課題に対処するには、(1)フロンティアAI開発者の適切な要件を特定するための標準設定プロセス、(2)フロンティアAI開発プロセスの可視性を提供するための規制当局の登録および報告要件、(3)フロンティアAIモデルの開発と展開のための安全基準の遵守を保証するメカニズムの3つが必要である。 業界の自己規制は重要な第一歩です。 しかし、より広範な社会的な議論と政府の介入は、標準の作成とコンプライアンスの確保のために必要となる。 我々は、規制当局への執行権限の付与やフロンティアaiモデルのライセンス制度など、この目的へのいくつかの選択肢を検討します。 最後に,安全基準の第一セットを提案する。 これには、デプロイ前のリスクアセスメントの実行、モデルの振る舞いの外部的検査、デプロイメント決定にリスクアセスメントを使用すること、モデルの能力とデプロイ後の使用に関する新しい情報に関する監視と応答が含まれる。 この議論が、ai開発のフロンティアにおける公衆安全のリスクとイノベーションのメリットのバランスのとり方に関する幅広い議論に貢献できることを願っている。

Advanced AI models hold the promise of tremendous benefits for humanity, but society needs to proactively manage the accompanying risks. In this paper, we focus on what we term "frontier AI" models: highly capable foundation models that could possess dangerous capabilities sufficient to pose severe risks to public safety. Frontier AI models pose a distinct regulatory challenge: dangerous capabilities can arise unexpectedly; it is difficult to robustly prevent a deployed model from being misused; and, it is difficult to stop a model's capabilities from proliferating broadly. To address these challenges, at least three building blocks for the regulation of frontier models are needed: (1) standard-setting processes to identify appropriate requirements for frontier AI developers, (2) registration and reporting requirements to provide regulators with visibility into frontier AI development processes, and (3) mechanisms to ensure compliance with safety standards for the development and deployment of frontier AI models. Industry self-regulation is an important first step. However, wider societal discussions and government intervention will be needed to create standards and to ensure compliance with them. We consider several options to this end, including granting enforcement powers to supervisory authorities and licensure regimes for frontier AI models. Finally, we propose an initial set of safety standards. These include conducting pre-deployment risk assessments; external scrutiny of model behavior; using risk assessments to inform deployment decisions; and monitoring and responding to new information about model capabilities and uses post-deployment. We hope this discussion contributes to the broader conversation on how to balance public safety risks and innovation benefits from advances at the frontier of AI development.
翻訳日:2023-11-09 19:23:26 公開日:2023-11-07
# 信念伝播を伴うテンソルネットワークの計測

Gauging tensor networks with belief propagation ( http://arxiv.org/abs/2306.17837v3 )

ライセンス: Link先を確認
Joseph Tindall and Matt Fishman(参考訳) 効果的にテンソルネットワークを圧縮し最適化するには、ゲージとして知られるテンソルの潜在自由度を固定するための信頼できる方法が必要である。 本稿では,グラフィカルモデル上で統計的推論を行うための手法である信念伝搬を用いたテンソルネットワークのゲージ化アルゴリズムを提案し,最近テンソルネットワークアルゴリズムに応用を見出した。 本手法は既知のテンソルネットワーク計測手法と密接に関連していることを示す。 しかし、既存の信念伝搬実装をテンソルネットワークのゲージングに再利用することは現実的な利点であり、信念伝播は単にテンソルの収縮に基づく非常に単純なアルゴリズムであり、実装、最適化、一般化が容易である。 我々は,このアルゴリズムが既存のガウイングアルゴリズムよりも高速であることを示す数値的証拠とスケーリング論を提示し,構造化,非構造化,無限テンソルネットワーク上での利用を実証する。 さらに,この手法を,広く用いられている簡易更新ゲート進化アルゴリズムの精度向上に応用した。

Effectively compressing and optimizing tensor networks requires reliable methods for fixing the latent degrees of freedom of the tensors, known as the gauge. Here we introduce a new algorithm for gauging tensor networks using belief propagation, a method that was originally formulated for performing statistical inference on graphical models and has recently found applications in tensor network algorithms. We show that this method is closely related to known tensor network gauging methods. It has the practical advantage, however, that existing belief propagation implementations can be repurposed for tensor network gauging, and that belief propagation is a very simple algorithm based on just tensor contractions so it can be easier to implement, optimize, and generalize. We present numerical evidence and scaling arguments that this algorithm is faster than existing gauging algorithms, demonstrating its usage on structured, unstructured, and infinite tensor networks. Additionally, we apply this method to improve the accuracy of the widely used simple update gate evolution algorithm.
翻訳日:2023-11-09 19:22:54 公開日:2023-11-07
# 部分空間に制限された最適ミキサーと安定化形式

Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v2 )

ライセンス: Link先を確認
Franz G. Fuchs(参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提案する。 この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。 これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。 提案手法は,制御されたノットゲートの数で資源効率のよいミキサーを構築する体系的な方法を提供し,よく知られたXとXYミキサーの一般化とGroverミキサーの緩和と理解することができる。 得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少した。 部分空間を安定化子 s の符号空間に分割し、これらの符号空間に付随する論理回転 x ゲートを連続的に適用できるので、このアプローチを論理 x-mixer あるいは logical x qaoa (\textbf{lx-qaoa}$) と呼ぶ。 全体として、この新しい視点が量子アルゴリズムの開発にさらなる洞察をもたらすことを期待している。

We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers and a relaxation of the Grover mixer: Given a basis of any subspace, a resource efficient mixer can be constructed that preserves the subspace. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. We call our approach logical X-Mixer or logical X QAOA ($\textbf{LX-QAOA}$), since it can be understood as dividing the subspace into code spaces of stabilizers S and consecutively applying logical rotational X gates associated with these code spaces. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms.
翻訳日:2023-11-09 19:22:38 公開日:2023-11-07
# Oobleck: パイプラインテンプレートを使用した大規模モデルのレジリエントな分散トレーニング

Oobleck: Resilient Distributed Training of Large Models Using Pipeline Templates ( http://arxiv.org/abs/2309.08125v2 )

ライセンス: Link先を確認
Insu Jang, Zhenning Yang, Zhen Zhang, Xin Jin, Mosharaf Chowdhury(参考訳) Oobleckは,フォールトトレランスを保証した大規模DNNモデルのレジリエントな分散トレーニングを可能にする。 プランニング・エグゼクティブの共同設計アプローチを採用し、まず不均一なパイプラインテンプレートのセットを生成し、少なくとも$f+1$論理的に等価なパイプラインレプリカをインスタンス化し、$f$同時障害を許容する。 実行中は、高速なリカバリを実現するために、レプリカ全体で既にレプリケーション済みのモデルステートに依存する。 Oobleckは、初期生成されたパイプラインテンプレートの組み合わせによって、$f$以下の同時障害後に利用可能なすべてのリソースをカバーできることを確実に保証している。 数十億のパラメータを持つ大規模なDNNモデルの評価は、Oobleckが一貫して高いスループットを提供し、BambooやVarunaのような最先端のフォールトトレランスソリューションを最大29.6x$で上回っていることを示している。

Oobleck enables resilient distributed training of large DNN models with guaranteed fault tolerance. It takes a planning-execution co-design approach, where it first generates a set of heterogeneous pipeline templates and instantiates at least $f+1$ logically equivalent pipeline replicas to tolerate any $f$ simultaneous failures. During execution, it relies on already-replicated model states across the replicas to provide fast recovery. Oobleck provably guarantees that some combination of the initially created pipeline templates can be used to cover all available resources after $f$ or fewer simultaneous failures, thereby avoiding resource idling at all times. Evaluation on large DNN models with billions of parameters shows that Oobleck provides consistently high throughput, and it outperforms state-of-the-art fault tolerance solutions like Bamboo and Varuna by up to $29.6x$.
翻訳日:2023-11-09 19:13:17 公開日:2023-11-07
# ハイブリッド量子古典的手法による異種都市鉄道網の再スケジュール問題の解法

Solving rescheduling problems in heterogeneous urban railway networks using hybrid quantum-classical approach ( http://arxiv.org/abs/2309.06763v2 )

ライセンス: Link先を確認
M\'aty\'as Koniorczyk, Krzysztof Krawiec, Ludmila Botelho, Nikola Be\v{s}inovi\'c, Krzysztof Domino(参考訳) 鉄道再スケジュール管理問題に対するハイブリッド量子古典解法の適用性について検討する。 与えられた問題に対して整数線形モデルを構築し,d-wave の量子古典ハイブリッド解法と cplex との比較を行った。 提案手法は,ポーランドのヘテロジニアス・アーバン・ネットワークにおいて,単一セグメントと二重セグメントの両方を含み,ネットワークの運用者による要求をすべてカバーしている。 計算結果は、現実的な鉄道シナリオにおける量子古典ハイブリッド・ソルバの適用と利点の準備ができていることを示す。 同時に、得られる解は実現可能であり、時には最適ではない。 さらに、それらはヒューリスティックであるが、いくつかのケースでは古典的解法よりも優れた、有効な代替手段を提供する。

We address the applicability of hybrid quantum-classical solvers for practical railway rescheduling management problems. We build an integer linear model for the given problem and solve it with D-Wave's quantum-classical hybrid solver as well as with CPLEX for comparison. The proposed approach is demonstrated on a real-life heterogeneous urban network in Poland, including both single- and double segments and covers all the requirements posed by the operator of the network. The computational results demonstrate the readiness for application and benefits of quantum-classical hybrid solvers in the a realistic railway scenario: they yield acceptable solutions on time, which is a critical requirement in a rescheduling situation. At the same time, the obtained solutions are feasible and in sometimes suboptimal. Moreover, though they are heuristics they offer a valid alternative and most importantly, outperform classical solvers in some cases.
翻訳日:2023-11-09 19:12:43 公開日:2023-11-07
# 人間と物体の相互作用を検出するための述語視覚コンテキストの探索

Exploring Predicate Visual Context in Detecting Human-Object Interactions ( http://arxiv.org/abs/2308.06202v2 )

ライセンス: Link先を確認
Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould(参考訳) 近年,人間-物体相互作用(HOI)研究における主要なアプローチとしてDETRフレームワークが登場している。 特に、2段変圧器を用いたHOI検出器は、最も高性能で訓練効率の良いアプローチである。 しかし、これらは細かな文脈情報を持たないオブジェクトの特徴をhoi分類し、ポーズや方向情報を避けて、オブジェクトのアイデンティティや箱の四肢に関する視覚的な手がかりを好むことが多い。 これは自然に複雑または曖昧な相互作用の認識を妨げる。 本研究では,これらの問題を可視化と慎重に設計した実験を通して研究する。 そこで本研究では,画像特徴をクロスアテンションにより再導入する最善の方法を検討する。 改良されたクエリ設計、キーと値の広範な探索、空間的ガイダンスとしてのボックスペアの位置埋め込みにより、HICO-DETおよびV-COCOベンチマークにおける最先端の手法よりも高い性能を保ちながら、トレーニングコストの低減を図ることができる。

Recently, the DETR framework has emerged as the dominant approach for human--object interaction (HOI) research. In particular, two-stage transformer-based HOI detectors are amongst the most performant and training-efficient approaches. However, these often condition HOI classification on object features that lack fine-grained contextual information, eschewing pose and orientation information in favour of visual cues about object identity and box extremities. This naturally hinders the recognition of complex or ambiguous interactions. In this work, we study these issues through visualisations and carefully designed experiments. Accordingly, we investigate how best to re-introduce image features via cross-attention. With an improved query design, extensive exploration of keys and values, and box pair positional embeddings as spatial guidance, our model with enhanced predicate visual context (PViC) outperforms state-of-the-art methods on the HICO-DET and V-COCO benchmarks, while maintaining low training cost.
翻訳日:2023-11-09 19:10:44 公開日:2023-11-07
# pb-llm: 部分バイナリ化された大規模言語モデル

PB-LLM: Partially Binarized Large Language Models ( http://arxiv.org/abs/2310.00034v2 )

ライセンス: Link先を確認
Yuzhang Shang, Zhihang Yuan, Qiang Wu, Zhen Dong(参考訳) 本稿では、量子化の急進的な形式であるネットワークバイナライゼーションについて検討し、特にLLM(Large Language Models)圧縮のためのモデル重みを1ビットに圧縮する。 そこで本研究では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partially-Binarized LLM)を提案する。 特に,本研究は,既存の2値化アルゴリズムの非効率性を明らかにし,低ビット量子化を達成する上での有意な重みの意義を強調した。 したがって、PB-LLMはバイナライゼーション中に少量のサリエント重みをフィルターし、高ビットストレージ、すなわち部分二値化に割り当てる。 PB-LLMは、後トレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の観点から分析することにより、量子化LMMの容量を回復するために拡張される。 PTQの下では、GPTQの概念を組み合わせることで、ヘッセン行列によって導かれる二項化重み行列を再構築し、低ビットでのPB-LLMの推論能力の回復に成功した。 qatでは,トレーニング中に塩分重みを凍結し,量子化誤差の最小化に必須な最適スケーリング因子の導出を探索し,残留二元化重みに対するこの派生スケーリング戦略に基づくスケーリング機構を提案する。 これらの探索と開発手法は,低ビット量子化LDMの性能回復に大きく貢献し,LLMのネットワークバイナライゼーション分野における大幅な進歩をもたらし,そのコードはhttps://github.com/hahnyuan/BinaryLLMで公開されている。

This paper explores network binarization, a radical form of quantization, compressing model weights to a single bit, specifically for Large Language Models (LLMs) compression. Due to previous binarization methods collapsing LLMs, we propose a novel approach, Partially-Binarized LLM (PB-LLM), which can achieve extreme low-bit quantization while maintaining the linguistic reasoning capacity of quantized LLMs. Specifically, our exploration first uncovers the ineffectiveness of naive applications of existing binarization algorithms and highlights the imperative role of salient weights in achieving low-bit quantization. Thus, PB-LLM filters a small ratio of salient weights during binarization, allocating them to higher-bit storage, i.e., partially-binarization. PB-LLM is extended to recover the capacities of quantized LMMs, by analyzing from the perspective of post-training quantization (PTQ) and quantization-aware training (QAT). Under PTQ, combining the concepts from GPTQ, we reconstruct the binarized weight matrix guided by the Hessian matrix and successfully recover the reasoning capacity of PB-LLM in low-bit. Under QAT, we freeze the salient weights during training, explore the derivation of optimal scaling factors crucial for minimizing the quantization error, and propose a scaling mechanism based on this derived scaling strategy for residual binarized weights. Those explorations and the developed methodologies significantly contribute to rejuvenating the performance of low-bit quantized LLMs and present substantial advancements in the field of network binarization for LLMs.The code is available at https://github.com/hahnyuan/BinaryLLM.
翻訳日:2023-11-09 18:59:24 公開日:2023-11-07
# 好酸球分画の不確実性定量化

Uncertainty Quantification for Eosinophil Segmentation ( http://arxiv.org/abs/2309.16536v2 )

ライセンス: Link先を確認
Kevin Lin, Donald Brown, Sana Syed, Adam Greene(参考訳) 好酸球性食道炎(EoE)は有病率が高くなるアレルギー性疾患である。 eoeの診断には、1つの高出力領域(400倍の倍率)で15以上の好酸球を見つける必要がある。 患者がEoEを持っているかどうかを判断することは困難であり、診断を助けるために使用される医療画像のアプローチは、効率と精度の両方を考慮する必要がある。 深部画像セグメンテーションを用いた好酸球定量化のための adorno et al 法の改良を提案する。 我々の新しいアプローチは、Deep Learningにおける一般的なアプローチであるMonte Carlo Dropoutを活用して、現在のディープラーニングモデルに対する不確実な定量化を提供します。 この不確実性は、出力画像に可視化され、モデルの性能を評価し、ディープラーニングアルゴリズムがどのように機能するかの洞察を与え、好酸球を同定する病理学者を支援することができる。

Eosinophilic Esophagitis (EoE) is an allergic condition increasing in prevalence. To diagnose EoE, pathologists must find 15 or more eosinophils within a single high-power field (400X magnification). Determining whether or not a patient has EoE can be an arduous process and any medical imaging approaches used to assist diagnosis must consider both efficiency and precision. We propose an improvement of Adorno et al's approach for quantifying eosinphils using deep image segmentation. Our new approach leverages Monte Carlo Dropout, a common approach in deep learning to reduce overfitting, to provide uncertainty quantification on current deep learning models. The uncertainty can be visualized in an output image to evaluate model performance, provide insight to how deep learning algorithms function, and assist pathologists in identifying eosinophils.
翻訳日:2023-11-09 18:58:51 公開日:2023-11-07
# DELPHI: 論争問題への対処におけるLLMの性能評価データ

DELPHI: Data for Evaluating LLMs' Performance in Handling Controversial Issues ( http://arxiv.org/abs/2310.18130v2 )

ライセンス: Link先を確認
David Q. Sun, Artem Abzaliev, Hadas Kotek, Zidi Xiu, Christopher Klein, Jason D. Williams(参考訳) 論争は我々の世俗主義の反映であり、あらゆる言説にとって重要な側面である。 対話型システムとしての大規模言語モデル(LLM)の台頭は、これらのシステムに対する様々な質問に対する回答に対する大衆の信頼を高めている。 したがって、これらのモデルが進行中の議論に関連する質問に対してどのように反応するかを体系的に検討することが重要である。 しかし、現代の議論を反映した人名ラベルの提供にはそのようなデータセットはほとんど存在しない。 この分野の研究を促進するために,議論を呼んでいる質問データセットを新たに構築し,一般公開されたQuora Question Pairs Datasetに拡張する。 このデータセットは、知識の正確性、安全性、公平性、バイアスに関する課題を示す。 我々は、このデータセットのサブセットを使用して異なるLCMを評価し、議論を呼んでいる問題と彼らが採用する姿勢をどのように扱うかを明らかにした。 この研究は最終的に、LLMと議論の的となる問題との相互作用の理解に寄与し、それらの理解の改善と複雑な社会的議論への対処の道を開いた。

Controversy is a reflection of our zeitgeist, and an important aspect to any discourse. The rise of large language models (LLMs) as conversational systems has increased public reliance on these systems for answers to their various questions. Consequently, it is crucial to systematically examine how these models respond to questions that pertaining to ongoing debates. However, few such datasets exist in providing human-annotated labels reflecting the contemporary discussions. To foster research in this area, we propose a novel construction of a controversial questions dataset, expanding upon the publicly released Quora Question Pairs Dataset. This dataset presents challenges concerning knowledge recency, safety, fairness, and bias. We evaluate different LLMs using a subset of this dataset, illuminating how they handle controversial issues and the stances they adopt. This research ultimately contributes to our understanding of LLMs' interaction with controversial issues, paving the way for improvements in their comprehension and handling of complex societal debates.
翻訳日:2023-11-09 18:48:28 公開日:2023-11-07
# マルコフ量子力学のデイビス既約性の基準

Criteria for Davies Irreducibility of Markovian Quantum Dynamics ( http://arxiv.org/abs/2310.17641v2 )

ライセンス: Link先を確認
Yikang Zhang, Thomas Barthel(参考訳) マルコフ開量子系の力学はリンドブラッドマスター方程式によって記述され、量子力学半群を生成する。 そのようなシステムにとって重要な概念は (Davies) 既約性、すなわち非自明な不変部分空間が存在するかどうかという問題である。 既約系の定常状態はユニークで忠実である。 1970年代にフリゲリオは、リンドブラッド作用素が自明な可換な自己共役集合にまたがる場合、系は既約であることを示した。 我々はより一般的で強力な代数的基準について議論し、システムが既約であることと、リンドブラッド作用素 $L_a$ と作用素 $iH+\sum_a L^\dagger_aL_a$ によって生成される乗法代数が作用素空間全体であることを示す。 2段階のシステムの例では、ハミルトン項の変更や散逸子の追加や削除により、還元不能で逆もまた可能となる。 多体系の例では、1つまたは2つのサイトにおいて、大きなスピン鎖のクラスをディスシプターによって既約にすることができる。 さらに、近年の物理学文献、特に境界駆動系の文脈において、量子チャネルと動的半群に対する(Davies)再現性とエバンス再現性の間の決定的な違いについて論じる。 我々は、関連する古典マルコフ過程の観点から量子還元可能性の基準を与え、最後に、主結果と純状態の安定化との関係を議論し、局所的なリンドブラッド作用素を持つ系では純粋なフェルミ海状態は安定化できないと主張する。

The dynamics of Markovian open quantum systems are described by Lindblad master equations, generating a quantum dynamical semigroup. An important concept for such systems is (Davies) irreducibility, i.e., the question whether there exist non-trivial invariant subspaces. Steady states of irreducible systems are unique and faithful, i.e., they have full rank. In the 1970s, Frigerio showed that a system is irreducible if the Lindblad operators span a self-adjoint set with trivial commutant. We discuss a more general and powerful algebraic criterion, showing that a system is irreducible if and only if the multiplicative algebra generated by the Lindblad operators $L_a$ and the operator $iH+\sum_a L^\dagger_aL_a$, involving the Hamiltonian $H$, is the entire operator space. Examples for two-level systems, show that a change of Hamiltonian terms as well as the addition or removal of dissipators can render a reducible system irreducible and vice versa. Examples for many-body systems show that a large class of spin chains can be rendered irreducible by dissipators on just one or two sites. Additionally, we discuss the decisive differences between (Davies) reducibility and Evans reducibility for quantum channels and dynamical semigroups which has lead to some confusion in the recent physics literature, especially, in the context of boundary-driven systems. We give a criterion for quantum reducibility in terms of associated classical Markov processes and, lastly, discuss the relation of the main result to the stabilization of pure states and argue that systems with local Lindblad operators cannot stabilize pure Fermi-sea states.
翻訳日:2023-11-09 18:47:58 公開日:2023-11-07
# 時間テンソル分解のためのストリーミング因子軌道学習

Streaming Factor Trajectory Learning for Temporal Tensor Decomposition ( http://arxiv.org/abs/2310.17021v2 )

ライセンス: Link先を確認
Shikai Fang, Xin Yu, Shibo Li, Zheng Wang, Robert Kirby, Shandian Zhe(参考訳) 実際のテンソルデータはしばしば時間情報と共に行われる。 既存の時間分解手法の多くは、各テンソルモードのオブジェクトに対する固定要素のセットを推定するので、オブジェクトの表現の時間的進化を捉えることはできない。 さらに重要なのは、現実のアプリケーションでよく見られるストリーミングデータからそのような進化を捉えるための効果的なアプローチがないことです。 これらの問題に対処するために,時間テンソル分解のためのストリーミング因子軌道学習を提案する。 我々はガウス過程(GP)を用いて因子の軌道をモデル化し、時間的進化を柔軟に推定する。 ストリーミングデータを扱う際の計算課題に対処するため,等価確率微分方程式(SDE)を構築することにより,GPを状態空間に変換する。 本研究では,新しいデータを受け取り,関連する因子状態の後方に分離した動作を推定する効率的なオンラインフィルタリングアルゴリズムを開発した。 このデカップリング推定により,従来のデータを再検討することなく,標準的なRuch-Tung-Striebel平滑化を行い,全軌道の後方を並列に計算することができる。 合成タスクと実世界のアプリケーションの両方において、SFTLの利点を示してきた。 コードは、https://github.com/xuangu-fang/Streaming-Factor-Trajectory-Learning}で公開されている。

Practical tensor data is often along with time information. Most existing temporal decomposition approaches estimate a set of fixed factors for the objects in each tensor mode, and hence cannot capture the temporal evolution of the objects' representation. More important, we lack an effective approach to capture such evolution from streaming data, which is common in real-world applications. To address these issues, we propose Streaming Factor Trajectory Learning for temporal tensor decomposition. We use Gaussian processes (GPs) to model the trajectory of factors so as to flexibly estimate their temporal evolution. To address the computational challenges in handling streaming data, we convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE). We develop an efficient online filtering algorithm to estimate a decoupled running posterior of the involved factor states upon receiving new data. The decoupled estimation enables us to conduct standard Rauch-Tung-Striebel smoothing to compute the full posterior of all the trajectories in parallel, without the need for revisiting any previous data. We have shown the advantage of SFTL in both synthetic tasks and real-world applications. The code is available at {https://github.com/xuangu-fang/Streaming-Factor-Trajectory-Learning}.
翻訳日:2023-11-09 18:47:24 公開日:2023-11-07
# SonoSAMTrack -- 超音波画像のセグメンテーションと追跡

SonoSAMTrack -- Segment and Track Anything on Ultrasound Images ( http://arxiv.org/abs/2310.16872v2 )

ライセンス: Link先を確認
Hariharan Ravishankar, Rohan Patil, Vikram Melapudi, Stephan Anzengruber, Parminder Bhatia, Kass-Hout Taha, Pavan Annangi(参考訳) 本稿では,超音波画像における関心対象のセグメンテーションのための簡易的基礎モデルであるsonosamと,2d+tおよび3d超音波データセットのセグメンテーションを行うart trackingモデルについて述べる。 SonoSAMは、$\approx200$kの超音波画像マスクのペアから、リッチで多様なオブジェクトの集合に特化して8ドル(約8,800円)の未確認の超音波データセット上で、最先端のパフォーマンスを示し、興味のあるすべての指標で競合する手法よりも優れている。 SonoSAMは平均的なダイス類似度スコアを平均2~6クリック以内のほぼ全てのテストデータセットで90\%$で達成し、超音波画像の注釈付けに有用なツールである。 また,SanoSAMを3D (2-D +t) アプリケーションに拡張し,超音波シネループから高密度アノテーションを生成する上で,優れた性能を示す。 さらに, ソノサムの実用性を高めるため, 性能を損なうことなく, 微調整と知識蒸留の2段階のプロセスを提案する。 本研究は, 超音波の基礎モデルとして, ソノSAMの有効性を示す最新手法と, ソノSAMの質的, 定量的比較を行ったものである。

In this paper, we present SonoSAM - a promptable foundational model for segmenting objects of interest on ultrasound images, followed by state of the art tracking model to perform segmentations on 2D+t and 3D ultrasound datasets. Fine-tuned exclusively on a rich, diverse set of objects from $\approx200$k ultrasound image-mask pairs, SonoSAM demonstrates state-of-the-art performance on $8$ unseen ultrasound data-sets, outperforming competing methods by a significant margin on all metrics of interest. SonoSAM achieves average dice similarity score of $>90\%$ on almost all test data-sets within 2-6 clicks on an average, making it a valuable tool for annotating ultrasound images. We also extend SonoSAM to 3-D (2-D +t) applications and demonstrate superior performance making it a valuable tool for generating dense annotations from ultrasound cine-loops. Further, to increase practical utility of SonoSAM, we propose a two-step process of fine-tuning followed by knowledge distillation to a smaller footprint model without comprising the performance. We present detailed qualitative and quantitative comparisons of SonoSAM with state-of-the-art methods showcasing efficacy of SonoSAM as one of the first reliable, generic foundational model for ultrasound.
翻訳日:2023-11-09 18:47:03 公開日:2023-11-07
# MACP : 協調知覚のための効率的なモデル適応

MACP: Efficient Model Adaptation for Cooperative Perception ( http://arxiv.org/abs/2310.16870v2 )

ライセンス: Link先を確認
Yunsheng Ma and Juanwu Lu and Can Cui and Sicheng Zhao and Xu Cao and Wenqian Ye and Ziran Wang(参考訳) 車両間通信(V2V)は、情報共有を「閉塞を通して見る」ことによって、コネクテッドおよび自動車両(CAV)の認識能力を大幅に向上し、性能が大幅に向上した。 しかし、既存の単エージェントモデルが顕著な一般化能力を示す場合、スクラッチから複雑なマルチエージェント認識モデルの開発と訓練は高価で不要である。 本稿では,協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。 我々は,単一エージェントから協調的な設定へ移行する上での重要な課題を特定し,そのパラメータの大部分を凍結し,いくつかの軽量モジュールを追加することで,この目標にアプローチする。 実験では,提案手法が協調観測を効果的に活用し,シミュレーションおよび実世界の協調認識ベンチマークにおいて,コミュニケーションコストの低減を図りながら,他の最先端の手法よりも優れていることを示した。 ソースコードはhttps://github.com/purduedigitaltwin/macpで入手できます。

Vehicle-to-vehicle (V2V) communications have greatly enhanced the perception capabilities of connected and automated vehicles (CAVs) by enabling information sharing to "see through the occlusions", resulting in significant performance improvements. However, developing and training complex multi-agent perception models from scratch can be expensive and unnecessary when existing single-agent models show remarkable generalization capabilities. In this paper, we propose a new framework termed MACP, which equips a single-agent pre-trained model with cooperation capabilities. We approach this objective by identifying the key challenges of shifting from single-agent to cooperative settings, adapting the model by freezing most of its parameters and adding a few lightweight modules. We demonstrate in our experiments that the proposed framework can effectively utilize cooperative observations and outperform other state-of-the-art approaches in both simulated and real-world cooperative perception benchmarks while requiring substantially fewer tunable parameters with reduced communication costs. Our source code is available at https://github.com/PurdueDigitalTwin/MACP.
翻訳日:2023-11-09 18:46:37 公開日:2023-11-07
# 学習自然言語ルールとオンボーディングによる効果的な人間-aiチーム

Effective Human-AI Teams via Learned Natural Language Rules and Onboarding ( http://arxiv.org/abs/2311.01007v2 )

ライセンス: Link先を確認
Hussein Mozannar, Jimin J Lee, Dennis Wei, Prasanna Sattigeri, Subhro Das, David Sontag(参考訳) 人々はAIエージェントを使ってさまざまなタスクを支援しています。 人間はエージェントにいつ依存するか、エージェントと協力するか、あるいは提案を無視しなければならない。 本研究では,データ領域に根ざし,自然言語で記述したルールを学習し,人間がAIとどのように協力すべきかを説明する。 新たな領域探索アルゴリズムは,データの局所領域を,人間の振る舞いを補正すべき埋め込み空間内の近傍として検出する。 それぞれの領域は、反復的かつコントラスト的な手順で、大きな言語モデルを用いて記述される。 そして、これらのルールをオンボーディングステージを通じて人間に教えます。 オブジェクト検出と質問応答タスクのユーザスタディを通じて、我々の手法がより正確なAIチームにつながることを示す。 また,地域発見と記述アルゴリズムを別々に評価した。

People are relying on AI agents to assist them with various tasks. The human must know when to rely on the agent, collaborate with the agent, or ignore its suggestions. In this work, we propose to learn rules, grounded in data regions and described in natural language, that illustrate how the human should collaborate with the AI. Our novel region discovery algorithm finds local regions in the data as neighborhoods in an embedding space where prior human behavior should be corrected. Each region is then described using a large language model in an iterative and contrastive procedure. We then teach these rules to the human via an onboarding stage. Through user studies on object detection and question-answering tasks, we show that our method can lead to more accurate human-AI teams. We also evaluate our region discovery and description algorithms separately.
翻訳日:2023-11-09 18:35:09 公開日:2023-11-07
# 説明可能なAI機能による医療画像のデノシング

Medical Image Denosing via Explainable AI Feature Preserving Loss ( http://arxiv.org/abs/2310.20101v2 )

ライセンス: Link先を確認
Guanfang Dong and Anup Basu(参考訳) 診断アルゴリズムは、医療画像処理と分析において重要な役割を果たす。 しかし、古典的な弁別アルゴリズムはしばしば説明的・批判的な医学的特徴の保存を無視し、誤診や法的負債につながる可能性がある。 本研究では,様々な種類のノイズを効果的に除去するだけでなく,その過程で重要な医療的特徴を保存できる医用画像のデノージング手法を提案する。 この目的を達成するために、勾配に基づくeXplainable Artificial Intelligence (XAI) アプローチを用いて特徴保存損失関数を設計する。 我々の特徴保存損失関数は、勾配に基づくxaiが雑音に敏感な特性によって動機づけられている。 バックプロパゲーションにより、デノベーション前後の医用画像の特徴を一定に保つことができる。 13種類のノイズ・アーティファクトを含む3種類の医用画像データセットについて広範な実験を行った。 実験結果は,性能,モデル説明可能性,一般化の観点から,本手法の優位性を示すものである。

Denoising algorithms play a crucial role in medical image processing and analysis. However, classical denoising algorithms often ignore explanatory and critical medical features preservation, which may lead to misdiagnosis and legal liabilities. In this work, we propose a new denoising method for medical images that not only efficiently removes various types of noise, but also preserves key medical features throughout the process. To achieve this goal, we utilize a gradient-based eXplainable Artificial Intelligence (XAI) approach to design a feature preserving loss function. Our feature preserving loss function is motivated by the characteristic that gradient-based XAI is sensitive to noise. Through backpropagation, medical image features before and after denoising can be kept consistent. We conducted extensive experiments on three available medical image datasets, including synthesized 13 different types of noise and artifacts. The experimental results demonstrate the superiority of our method in terms of denoising performance, model explainability, and generalization.
翻訳日:2023-11-09 18:33:42 公開日:2023-11-07
# 学習生成モデルの確率的熱力学

Stochastic Thermodynamics of Learning Generative Models ( http://arxiv.org/abs/2310.19802v3 )

ライセンス: Link先を確認
Shervin Sadat Parsi(参考訳) 我々はPPM(Parametric Probabilistic Models)の時間進化として生成機械学習問題を定式化した。 次に,モデルパラメータ間の熱力学的交換($\Theta$)とモデル生成サンプル($X$)について検討した。 学習データセットとSGD(Stochastic Gradient Descent)オプティマイザの動作が,これら2つのサブシステムの時間的進化を管理する作業源であることを示す。 以上の結果から, モデルがX$生成時の熱散逸から学習し, モデルパラメータのエントロピーが増加することが示唆された。 したがって、パラメータサブシステムは、学習した情報を効果的に保存する熱貯水池として機能する。 さらに、熱貯水池としてのモデルのパラメータの役割は、過剰パラメータモデルの一般化力に関する貴重な熱力学的洞察を提供する。 このアプローチは、熱力学変数との接続を確立することにより、決定論的ニューラルネットワーク内の情報理論量を計算するための曖昧なフレームワークを提供する。 本フレームワークの有用性を説明するために,記憶情報(M-info)と学習情報(L-info)の2つの情報理論指標を導入する。

We have formulated generative machine learning problems as the time evolution of Parametric Probabilistic Models (PPMs), inherently rendering a thermodynamic process. Then, we have studied the thermodynamic exchange between the model's parameters, denoted as $\Theta$, and the model's generated samples, denoted as $X$. We demonstrate that the training dataset and the action of the Stochastic Gradient Descent (SGD) optimizer serve as a work source that governs the time evolution of these two subsystems. Our findings reveal that the model learns through the dissipation of heat during the generation of samples $X$, leading to an increase in the entropy of the model's parameters, $\Theta$. Thus, the parameter subsystem acts as a heat reservoir, effectively storing the learned information. Furthermore, the role of the model's parameters as a heat reservoir provides valuable thermodynamic insights into the generalization power of over-parameterized models. This approach offers an unambiguous framework for computing information-theoretic quantities within deterministic neural networks by establishing connections with thermodynamic variables. To illustrate the utility of this framework, we introduce two information-theoretic metrics: Memorized-information (M-info) and Learned-information (L-info), which trace the dynamic flow of information during the learning process of PPMs.
翻訳日:2023-11-09 18:33:29 公開日:2023-11-07
# テキスト・画像拡散モデルによる360度パノラマのカスタマイズ

Customizing 360-Degree Panoramas through Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.18840v2 )

ライセンス: Link先を確認
Hai Wang, Xiaoyu Xiang, Yuchen Fan, Jing-Hao Xue(参考訳) 近年,拡散モデルに基づくPersonalized Text-to-image (T2I) 合成が注目されている。 しかし、既存の手法は主に主題やスタイルをカスタマイズすることに集中し、グローバルな幾何学の探求を無視している。 本研究では,t2i拡散モデルを用いて,大域的な幾何学的性質を本質的に有する360度パノラマのカスタマイズに焦点をあてたアプローチを提案する。 これを実現するために、タスク用に特別に設計されたペア画像テキストデータセットをキュレートし、LoRAで事前学習したT2I拡散モデルを微調整する。 それでも、微調整されたモデルだけでは合成画像の左端と右端の連続性が保証されず、360度パノラマの重要な特徴である。 そこで本研究では,StitchDiffusionと呼ばれる手法を提案する。 具体的には、左端画像領域と右端画像領域からなる縫合ブロックにおいて、デノナイジングプロセスの各ステップ毎に2回、プレデノナイジング操作を行う。 さらに,360度パノラマをシームレスに合成するためにグローバルクロッピングが採用されている。 実験の結果,360度パノラマ画像生成におけるstitchdiffusionと組み合わせたカスタマイズモデルの有効性が実証された。 さらに,カスタマイズしたモデルでは,微調整されたデータセットでは見当たらないシーンを生成できる特異な一般化能力を示す。 コードはhttps://github.com/littlewhitesea/StitchDiffusionで入手できる。

Personalized text-to-image (T2I) synthesis based on diffusion models has attracted significant attention in recent research. However, existing methods primarily concentrate on customizing subjects or styles, neglecting the exploration of global geometry. In this study, we propose an approach that focuses on the customization of 360-degree panoramas, which inherently possess global geometric properties, using a T2I diffusion model. To achieve this, we curate a paired image-text dataset specifically designed for the task and subsequently employ it to fine-tune a pre-trained T2I diffusion model with LoRA. Nevertheless, the fine-tuned model alone does not ensure the continuity between the leftmost and rightmost sides of the synthesized images, a crucial characteristic of 360-degree panoramas. To address this issue, we propose a method called StitchDiffusion. Specifically, we perform pre-denoising operations twice at each time step of the denoising process on the stitch block consisting of the leftmost and rightmost image regions. Furthermore, a global cropping is adopted to synthesize seamless 360-degree panoramas. Experimental results demonstrate the effectiveness of our customized model combined with the proposed StitchDiffusion in generating high-quality 360-degree panoramic images. Moreover, our customized model exhibits exceptional generalization ability in producing scenes unseen in the fine-tuning dataset. Code is available at https://github.com/littlewhitesea/StitchDiffusion.
翻訳日:2023-11-09 18:32:55 公開日:2023-11-07
# 任意の複合系に対する量子安定化形式

Quantum stabilizer formalism for any composite system ( http://arxiv.org/abs/2311.04255v1 )

ライセンス: Link先を確認
Zhelin Tian(参考訳) 量子安定化器形式は、もともと量子エラー訂正符号をより便利に記述するために導入され、現在では量子コンピューティングや量子基礎など、多くの分野で重要な役割を担っている。 この論文では、まず関連する背景と必要な基礎知識を紹介し、量子安定化器の定義とその量子系の進化と測定への応用を紹介する。 最後に、量子安定化器形式を、以前に定義しなかったqubit-qutritおよびqubit-ququart系に拡張し、任意の複合系の量子安定化器をさらに定義する。

The quantum stabilizer formalism was originally introduced to describe quantum error correction codes more conveniently and now are also playing an important role in many other fields, e.g., quantum computing and quantum foundation. In this dissertation, we first introduce relevant background and necessary basic knowledge, then introduce the definition of quantum stabilizer and its application in quantum system evolution and measurement. Finally, we try to extend the quantum stabilizer formalism to qubit-qutrit and qubit-ququart systems which not defined before, and further define quantum stabilizers of arbitrary composite systems.
翻訳日:2023-11-09 18:23:31 公開日:2023-11-07
# ADFactory:光フロータスクのための自動データファクトリ

ADFactory: Automated Data Factory for Optical Flow Tasks ( http://arxiv.org/abs/2311.04246v1 )

ライセンス: Link先を確認
Han Ling(参考訳) 現在のオプティカルフロー手法が直面する大きな課題は、大きな実世界のオプティカルフローデータセットを持たないデータセットの生産コストが高いことによる、それらを現実世界にうまく一般化することの難しさである。 この課題に対処するために,手動のアノテーションを使わずに,対象データ領域上の光フローネットワークを効率的に学習できる新しい光フロートレーニングフレームワークを提案する。 具体的には、単眼カメラで収集した写真群からシーンを再構成し、得られた結果からカメラポーズ対間の光フロー結果を算出するために、高度なnerf技術を用いる。 本研究では,Nerfの再構成品質,光フローラベルの視覚的整合性,再構成深度整合性など,様々な側面から生成されたトレーニングデータをスクリーニングする。 フィルタされたトレーニングデータは、直接ネットワーク監視に使用できる。 実験により,KITTIにおける提案手法の一般化能力は,既存の自己監督型光フローとモノクロシーンフローアルゴリズムを超越している。 さらに、実世界のゼロポイント一般化評価において、常にほとんどの教師付きメソッドを超えることができる。

A major challenge faced by current optical flow methods is the difficulty in generalizing them well into the real world, mainly due to the high production cost of datasets, which currently do not have a large real-world optical flow dataset. To address this challenge, we introduce a novel optical flow training framework that can efficiently train optical flow networks on the target data domain without manual annotation. Specifically, we use advanced Nerf technology to reconstruct scenes from photo groups collected by monocular cameras, and calculate the optical flow results between camera pose pairs from the rendered results. On this basis, we screen the generated training data from various aspects such as Nerf's reconstruction quality, visual consistency of optical flow labels, reconstruction depth consistency, etc. The filtered training data can be directly used for network supervision. Experimentally, the generalization ability of our scheme on KITTI surpasses existing self-supervised optical flow and monocular scene flow algorithms. Moreover, it can always surpass most supervised methods in real-world zero-point generalization evaluation.
翻訳日:2023-11-09 18:23:18 公開日:2023-11-07
# GPT-ST:時空間グラフニューラルネットワークの生成前訓練

GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks ( http://arxiv.org/abs/2311.04245v1 )

ライセンス: Link先を確認
Zhonghang Li, Lianghao Xia, Yong Xu, Chao Huang(参考訳) 近年,交通管理や旅行計画の需要の増加に対応して,時空間予測技術が急速に発達している。 高度なエンドツーエンドモデルは予測性能の改善において顕著な成功を収めているが、その統合と拡張は大きな課題を招いている。 この作業は、下流のベースラインとシームレスに統合し、パフォーマンスを向上する時空間事前学習フレームワークを導入することで、これらの課題に対処することを目的としている。 フレームワークは2つの重要な設計に基づいて構築されている。 i)時空間依存を学習するための事前学習モデルとして時空間マスク自動エンコーダを提案する。 このモデルにはカスタマイズされたパラメータ学習者と階層的空間パターン符号化ネットワークが組み込まれている。 これらのモジュールは、時空間でカスタマイズされた表現とクラスタ内およびクラスタ間セマンティックな関係を捉えるように設計されている。 (ii)プリトレーニング機構の一環として適応マスク戦略を導入する。 この戦略は、ロバストな時空間表現の学習においてマスクオートエンコーダを導くとともに、クラスタ内からクラスタ間までのさまざまな関係のモデリングを、容易かつハードなトレーニング方法で促進する。 代表的なベンチマークを用いた広範囲な実験により,提案手法の有効性を実証した。 モデル実装をhttps://github.com/HKUDS/GPT-STで公開しました。

In recent years, there has been a rapid development of spatio-temporal prediction techniques in response to the increasing demands of traffic management and travel planning. While advanced end-to-end models have achieved notable success in improving predictive performance, their integration and expansion pose significant challenges. This work aims to address these challenges by introducing a spatio-temporal pre-training framework that seamlessly integrates with downstream baselines and enhances their performance. The framework is built upon two key designs: (i) We propose a spatio-temporal mask autoencoder as a pre-training model for learning spatio-temporal dependencies. The model incorporates customized parameter learners and hierarchical spatial pattern encoding networks. These modules are specifically designed to capture spatio-temporal customized representations and intra- and inter-cluster region semantic relationships, which have often been neglected in existing approaches. (ii) We introduce an adaptive mask strategy as part of the pre-training mechanism. This strategy guides the mask autoencoder in learning robust spatio-temporal representations and facilitates the modeling of different relationships, ranging from intra-cluster to inter-cluster, in an easy-to-hard training manner. Extensive experiments conducted on representative benchmarks demonstrate the effectiveness of our proposed method. We have made our model implementation publicly available at https://github.com/HKUDS/GPT-ST.
翻訳日:2023-11-09 18:23:01 公開日:2023-11-07
# HKTGNN:階層的知識伝達可能なグラフニューラルネットワークに基づくサプライチェーンリスクアセスメント

HKTGNN: Hierarchical Knowledge Transferable Graph Neural Network-based Supply Chain Risk Assessment ( http://arxiv.org/abs/2311.04244v1 )

ライセンス: Link先を確認
Zhanting Zhou, Kejun Bi, Yuyanzhen Zhong, Chao Tang, Dongfen Li, Shi Ying, Ruijin Wang(参考訳) サプライチェーンの強さは、国または地域の技術的進歩と全体的な競争力の重要な指標である。 リスクの効果的な管理と緩和のためのサプライチェーンリスクアセスメントモデルの構築がますます重要になっている。 企業数が増えるにつれて、重要な関係はより複雑で測定が困難になる。 これは、グラフデータから関連する情報を抽出する必要性を強調する。 以前は、サプライチェーン内のノード間のリンクの可視性を高めるために、主に知識推論を用いていた。 しかし、単一ノードの特徴特性に関するデータ飢餓問題は解決されていない。 本稿では,階層的な知識伝達可能なグラフニューラルネットワーク(HKTGNN)サプライチェーンリスク評価モデルを提案する。 当社のアプローチは、企業投資リスク評価のための現在のグラフ埋め込み手法に基づいている。 我々は,サプライチェーン内の個々の商品に対応するサプライチェーンネットワークをグラフ埋め込みモジュールを用いて組み込む。 これにより、複雑なサプライチェーンネットワークを基本製品ネットワークに縮小する。 中心性に基づくドメイン差分知識伝達可能なモジュールの使用の難しさに対処し、サプライチェーンの特徴が現実の世界に偏っているという前提で提示される。 一方、機能補完とメッセージパッシングは、ドメインの違いによって引き起こされるデータ飢餓の問題を軽減する。 我々のモデルは実世界のサプライチェーンデータセットの実験において優れています。 比較実験が効果的かつ公平であることを示すための方程式を与える。

The strength of a supply chain is an important measure of a country's or region's technical advancement and overall competitiveness. Establishing supply chain risk assessment models for effective management and mitigation of potential risks has become increasingly crucial. As the number of businesses grows, the important relationships become more complicated and difficult to measure. This emphasizes the need of extracting relevant information from graph data. Previously, academics mostly employed knowledge inference to increase the visibility of links between nodes in the supply chain. However, they have not solved the data hunger problem of single node feature characteristics. We propose a hierarchical knowledge transferable graph neural network-based (HKTGNN) supply chain risk assessment model to address these issues. Our approach is based on current graph embedding methods for assessing corporate investment risk assessment. We embed the supply chain network corresponding to individual goods in the supply chain using the graph embedding module, resulting in a directed homogeneous graph with just product nodes. This reduces the complicated supply chain network into a basic product network. It addresses difficulties using the domain difference knowledge transferable module based on centrality, which is presented by the premise that supply chain feature characteristics may be biased in the actual world. Meanwhile, the feature complement and message passing will alleviate the data hunger problem, which is driven by domain differences. Our model outperforms in experiments on a real-world supply chain dataset. We will give an equation to prove that our comparative experiment is both effective and fair.
翻訳日:2023-11-09 18:22:39 公開日:2023-11-07
# すべての層が等しく重要であるわけではない: すべての層がbertを数える

Not all layers are equally as important: Every Layer Counts BERT ( http://arxiv.org/abs/2311.02265v2 )

ライセンス: Link先を確認
Lucas Georges Gabriel Charpentier and David Samuel(参考訳) 本稿では,言語モデルのデータ効率のよい事前学習のために調整されたトランスフォーマーアーキテクチャの新規な修正を提案する。 この側面はBabyLMチャレンジに参加して評価され、厳密なトラックと厳密なトラックの両方でソリューションが勝利した。 我々のアプローチでは、各トランスフォーマー層が処理する前のレイヤの出力を選択することができる。 実験結果は、この単純な修正の可能性を検証し、すべての層が等しく重要であるわけではないことを示す。

This paper introduces a novel modification of the transformer architecture, tailored for the data-efficient pretraining of language models. This aspect is evaluated by participating in the BabyLM challenge, where our solution won both the strict and strict-small tracks. Our approach allows each transformer layer to select which outputs of previous layers to process. The empirical results verify the potential of this simple modification and show that not all layers are equally as important.
翻訳日:2023-11-09 18:18:34 公開日:2023-11-07
# 絡み合うことの複雑さ

The Complexity of Being Entangled ( http://arxiv.org/abs/2311.04277v1 )

ライセンス: Link先を確認
Stefano Baiguera, Shira Chapman, Giuseppe Policastro and Tal Schwartzman(参考訳) ニールセンの量子状態複雑性へのアプローチは、一元変換の多様体上の特定のノルムで計算された測地線の長さに状態を作るのに必要な最小の量子ゲート数に関連する。 二成分系では、一つのサブシステム上で作用するゲートがコストのかかるノルムに対応する結合複雑性を調べる。 我々は、適切な計量を備えたシュミット係数の多様体上の測地学の研究に問題を還元する。 結合複雑性は分散コンピューティングや量子通信の複雑さといった他の量と密接に関連しており、ads/cftの文脈でホログラフィック双対が提案されている。 リーマンノルムを持つ有限次元系に対しては、結合複雑性と最小R'enyiエントロピーの正確な関係を見出す。 また、最も一般的に用いられる非リーマンノルム(いわゆる$f_1$ノルム)の分析結果を見つけ、量子計算やホログラフィにおいてユビキタスな状態複雑性の概念の下限を提供する。 我々の結果は、サブシステム全体にわたって作用するジェネレータに割り当てられた大量のペナルティ要因に対して有効であると主張する。 文献に欠けていた$F_1$ノルムの場合, 単一のスピンに対して通常の複雑性(結合性ではない)を研究するために, この結果を借りることができた。 最後に、回路が少なくとも2ドルの局所的相互作用を含むような、多部結合複雑性と関連する(連続的な)回路複雑性のバウンダリを導出する。

Nielsen's approach to quantum state complexity relates the minimal number of quantum gates required to prepare a state to the length of geodesics computed with a certain norm on the manifold of unitary transformations. For a bipartite system, we investigate binding complexity, which corresponds to norms in which gates acting on a single subsystem are free of cost. We reduce the problem to the study of geodesics on the manifold of Schmidt coefficients, equipped with an appropriate metric. Binding complexity is closely related to other quantities such as distributed computing and quantum communication complexity, and has a proposed holographic dual in the context of AdS/CFT. For finite dimensional systems with a Riemannian norm, we find an exact relation between binding complexity and the minimal R\'enyi entropy. We also find analytic results for the most commonly used non-Riemannian norm (the so-called $F_1$ norm) and provide lower bounds for the associated notion of state complexity ubiquitous in quantum computation and holography. We argue that our results are valid for a large class of penalty factors assigned to generators acting across the subsystems. We demonstrate that our results can be borrowed to study the usual complexity (not-binding) for a single spin for the case of the $F_1$ norm which was previously lacking from the literature. Finally, we derive bounds for multi-partite binding complexities and the related (continuous) circuit complexity where the circuit contains at most $2$-local interactions.
翻訳日:2023-11-09 18:10:02 公開日:2023-11-07
# キーフレームに基づくGANを用いたビデオ会議の知覚的品質改善

Perceptual Quality Improvement in Videoconferencing using Keyframes-based GAN ( http://arxiv.org/abs/2311.04263v1 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo(参考訳) 近年,ビデオ会議は対人関係において,個人的・ビジネス的にも基本的な役割を担っている。 リアルタイムビデオストリーミングに必要な帯域幅を削減できるため、ビデオ圧縮アルゴリズムはビデオ会議を可能にする技術である。 しかし、映像圧縮の損失は視覚品質を低下させる。 近年,圧縮アーチファクトの低減と映像品質向上のための多くの技術が提案されている。 本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。 この文脈では、話者は一般的にカメラの前にいて、送信の全期間同じであり、ビデオストリーム内で送信される高品質なIフレームから人の参照キーフレームのセットを維持し、それらを活用して視覚的品質の改善を導くことができ、このアプローチの新たな側面は、コンパクトで効果的な参照キーフレームのセットをメンテナンスし更新する更新ポリシーである。 まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。 そして、当社のアーキテクチャは、顔のランドマークに従って、これらの機能を漸進的に組み合わせます。 これにより、ビデオ圧縮後に失われた高周波の詳細を復元することができる。 実験により,提案手法は高圧縮率でも視覚的品質を改善し,フォトリアリスティックな結果が得られることが示された。 コードとトレーニング済みのネットワークはhttps://github.com/LorenzoAgnolucci/Keyframes-GANで公開されている。

In the latest years, videoconferencing has taken a fundamental role in interpersonal relations, both for personal and business purposes. Lossy video compression algorithms are the enabling technology for videoconferencing, as they reduce the bandwidth required for real-time video streaming. However, lossy video compression decreases the perceived visual quality. Thus, many techniques for reducing compression artifacts and improving video visual quality have been proposed in recent years. In this work, we propose a novel GAN-based method for compression artifacts reduction in videoconferencing. Given that, in this context, the speaker is typically in front of the camera and remains the same for the entire duration of the transmission, we can maintain a set of reference keyframes of the person from the higher-quality I-frames that are transmitted within the video stream and exploit them to guide the visual quality improvement; a novel aspect of this approach is the update policy that maintains and updates a compact and effective set of reference keyframes. First, we extract multi-scale features from the compressed and reference frames. Then, our architecture combines these features in a progressive manner according to facial landmarks. This allows the restoration of the high-frequency details lost after the video compression. Experiments show that the proposed approach improves visual quality and generates photo-realistic results even with high compression rates. Code and pre-trained networks are publicly available at https://github.com/LorenzoAgnolucci/Keyframes-GAN.
翻訳日:2023-11-09 18:09:40 公開日:2023-11-07
# etdpc:電子論文と論文におけるページ分類のためのマルチモダリティフレームワーク

ETDPC: A Multimodality Framework for Classifying Pages in Electronic Theses and Dissertations ( http://arxiv.org/abs/2311.04262v1 )

ライセンス: Link先を確認
Muntabir Hasan Choudhury, Lamia Salsabil, William A. Ingram, Edward A. Fox, Jian Wu(参考訳) 電子論文・論文(etd)は25年以上にわたって提案・提唱・作成されてきた。 etdは、商用または機関のデジタルライブラリリポジトリによってホストされているが、学術的なビッグデータの一種であり、一部は会議やジャーナルよりも長いためである。 セグメンテーションetdは、研究者がセクションコンテンツを研究することができる。 読者は興味のあるページをナビゲートし、長いドキュメントに埋もれたコンテンツを発見、探索することができる。 ドキュメントページ分類に関する既存のフレームワークのほとんどは、一般的なドキュメントを分類するために設計されており、etdでパフォーマンスが悪い。 本稿では,ETDPCを提案する。 バックボーンは2ストリームのマルチモーダルモデルで、ETDページを13のカテゴリに分類するクロスアテンションネットワークを備えている。 不均衡なラベル付きサンプルの課題を克服するために,マイノリティカテゴリのデータを拡張し,階層的分類器を用いた。 ETDPCはあらゆるカテゴリーで最先端のモデルより優れており、13カテゴリ中9カテゴリのF1は0.84-0.96である。 データ効率も実証しました。 コードとデータはGitHubにある(https://github.com/lamps-lab/ETDMiner/tree/master/etd_segmentation)。

Electronic theses and dissertations (ETDs) have been proposed, advocated, and generated for more than 25 years. Although ETDs are hosted by commercial or institutional digital library repositories, they are still an understudied type of scholarly big data, partially because they are usually longer than conference proceedings and journals. Segmenting ETDs will allow researchers to study sectional content. Readers can navigate to particular pages of interest, discover, and explore the content buried in these long documents. Most existing frameworks on document page classification are designed for classifying general documents and perform poorly on ETDs. In this paper, we propose ETDPC. Its backbone is a two-stream multimodal model with a cross-attention network to classify ETD pages into 13 categories. To overcome the challenge of imbalanced labeled samples, we augmented data for minority categories and employed a hierarchical classifier. ETDPC outperforms the state-of-the-art models in all categories, achieving an F1 of 0.84 -- 0.96 for 9 out of 13 categories. We also demonstrated its data efficiency. The code and data can be found on GitHub (https://github.com/lamps-lab/ETDMiner/tree/master/etd_segmentation).
翻訳日:2023-11-09 18:09:21 公開日:2023-11-07
# Swin-UNetを用いたアナログ映像の復元

Restoration of Analog Videos Using Swin-UNet ( http://arxiv.org/abs/2311.04261v1 )

ライセンス: Link先を確認
Lorenzo Agnolucci, Leonardo Galteri, Marco Bertini, Alberto Del Bimbo(参考訳) 本稿では,歴史的アーカイブのアナログ映像を復元するシステムを提案する。 これらのビデオは、しばしばテープサポートの劣化のために、元のコンテンツを回復するために手作業で費用がかかるという深刻な視覚的劣化を含んでいる。 提案システムでは, マルチフレーム方式を用いて, テープの誤り追跡に対処し, 完全なスクランブルフレームを実現する。 大規模な歴史的ビデオアーカイブによる実世界のビデオに対するテストは、我々のデモシステムの有効性を示している。 コードと事前トレーニングされたモデルはhttps://github.com/miccunifi/analog-video-restorationで公開されている。

In this paper, we present a system to restore analog videos of historical archives. These videos often contain severe visual degradation due to the deterioration of their tape supports that require costly and slow manual interventions to recover the original content. The proposed system uses a multi-frame approach and is able to deal with severe tape mistracking, which results in completely scrambled frames. Tests on real-world videos from a major historical video archive show the effectiveness of our demo system. The code and the pre-trained model are publicly available at https://github.com/miccunifi/analog-video-restoration.
翻訳日:2023-11-09 18:08:58 公開日:2023-11-07
# 生成・実行・評価のための完全自動化タスク管理:連続空間における自然言語命令によるフェッチ・アンド・キャッシュタスクのためのフレームワーク

Fully Automated Task Management for Generation, Execution, and Evaluation: A Framework for Fetch-and-Carry Tasks with Natural Language Instructions in Continuous Space ( http://arxiv.org/abs/2311.04260v1 )

ライセンス: Link先を確認
Motonari Kambara and Komei Sugiura(参考訳) 本稿では,Fetch-and-Carry with Object Grounding (FCOG)タスクの自然言語命令に応答して,視覚情報に基づくタスク実行を可能にするフレームワークを開発することを目的とする。 多くのフレームワークがあるが、通常は手書きの命令文に依存している。 そのため、評価は固定的な作業でのみ行われてきた。 さらに、ベンチマークのための多くのマルチモーダル言語理解モデルは、離散的なアクションのみを考慮する。 そこで本研究では,FCOGタスクの生成,実行,評価の完全自動化のためのフレームワークを提案する。 さらに,fcogタスクを4つのサブタスクに分割することで解決する手法を提案する。

This paper aims to develop a framework that enables a robot to execute tasks based on visual information, in response to natural language instructions for Fetch-and-Carry with Object Grounding (FCOG) tasks. Although there have been many frameworks, they usually rely on manually given instruction sentences. Therefore, evaluations have only been conducted with fixed tasks. Furthermore, many multimodal language understanding models for the benchmarks only consider discrete actions. To address the limitations, we propose a framework for the full automation of the generation, execution, and evaluation of FCOG tasks. In addition, we introduce an approach to solving the FCOG tasks by dividing them into four distinct subtasks.
翻訳日:2023-11-09 18:08:49 公開日:2023-11-07
# センサ統合と機械学習決定支援を備えた魚類養殖用IoT型環境制御システム

IoT-Based Environmental Control System for Fish Farms with Sensor Integration and Machine Learning Decision Support ( http://arxiv.org/abs/2311.04258v1 )

ライセンス: Link先を確認
D. Dhinakaran, S. Gopalakrishnan, M.D. Manigandan, T. P. Anish(参考訳) 魚介類に対する世界的な需要の急増と魚介類管理の課題に対して,センサ技術と高度な機械学習決定支援を統合した,革新的なIoTベースの環境制御システムを導入する。 水温、phレベル、湿度、魚の行動など、重要な環境パラメータに関するリアルタイムデータを収集する。 このデータは、計算、外乱検出、機能エンジニアリング、同期などの信頼性を確保するために、精巧な事前処理を行う。 At the heart of our system are four distinct machine learning algorithms: Random Forests predict and optimize water temperature and pH levels for the fish, fostering their health and growth; Support Vector Machines (SVMs) function as an early warning system, promptly detecting diseases and parasites in fish; Gradient Boosting Machines (GBMs) dynamically fine-tune the feeding schedule based on real-time environmental conditions, promoting resource efficiency and fish productivity; Neural Networks manage the operation of critical equipment like water pumps and heaters to maintain the desired environmental conditions within the farm. これらの機械学習アルゴリズムは、魚農場の環境条件が予め定義された仕様に合致することを保証するために、リアルタイムに決定を行い、魚の健康と生産性を改善し、同時に資源の無駄を減らし、利益と持続可能性を高める。 本稿では,魚養殖におけるデータ主導型意思決定支援の力を紹介するとともに,環境責任と経済性を重視しつつ,魚養殖の未来に革命をもたらすことを約束する。

In response to the burgeoning global demand for seafood and the challenges of managing fish farms, we introduce an innovative IoT based environmental control system that integrates sensor technology and advanced machine learning decision support. Deploying a network of wireless sensors within the fish farm, we continuously collect real-time data on crucial environmental parameters, including water temperature, pH levels, humidity, and fish behavior. This data undergoes meticulous preprocessing to ensure its reliability, including imputation, outlier detection, feature engineering, and synchronization. At the heart of our system are four distinct machine learning algorithms: Random Forests predict and optimize water temperature and pH levels for the fish, fostering their health and growth; Support Vector Machines (SVMs) function as an early warning system, promptly detecting diseases and parasites in fish; Gradient Boosting Machines (GBMs) dynamically fine-tune the feeding schedule based on real-time environmental conditions, promoting resource efficiency and fish productivity; Neural Networks manage the operation of critical equipment like water pumps and heaters to maintain the desired environmental conditions within the farm. These machine learning algorithms collaboratively make real-time decisions to ensure that the fish farm's environmental conditions align with predefined specifications, leading to improved fish health and productivity while simultaneously reducing resource wastage, thereby contributing to increased profitability and sustainability. This research article showcases the power of data-driven decision support in fish farming, promising to meet the growing demand for seafood while emphasizing environmental responsibility and economic viability, thus revolutionizing the future of fish farming.
翻訳日:2023-11-09 18:08:37 公開日:2023-11-07
# mPLUG-Owl2: Modality Collaborationによる多モード大言語モデルの革新

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration ( http://arxiv.org/abs/2311.04257v1 )

ライセンス: Link先を確認
Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou(参考訳) MLLM(Multi-modal Large Language Models)は、様々なオープンエンドタスクにまたがる印象的な命令能力を示す。 しかし、従来の手法は主にマルチモーダル機能の拡張に重点を置いている。 本研究では,マルチモーダルな大規模言語モデルであるmplug-owl2を導入し,モダリティ協調を効果的に活用し,テキストタスクとマルチモーダルタスクの両方のパフォーマンスを向上させる。 mPLUG-Owl2はモジュール化されたネットワーク設計を採用し、言語デコーダは様々なモダリティを管理する汎用インターフェースとして機能する。 具体的には、mPLUG-Owl2は共有機能モジュールを組み込んでモダリティの協調を容易にし、モダリティ固有の特徴を保存するモダリティ適応モジュールを導入する。 mPLUG-Owl2は、テキストタスクとマルチモーダルタスクの両方を一般化し、単一のジェネリックモデルで最先端のパフォーマンスを達成することができる。 特に、mPLUG-Owl2は、純粋なテキストとマルチモーダルの両方のシナリオにおいて、モダリティ協調現象を示す最初のMLLMモデルであり、将来のマルチモーダル基盤モデルの開発における先駆的な経路を定めている。

Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
翻訳日:2023-11-09 18:08:13 公開日:2023-11-07
# 重み付きファジィ集合の基本命題と重み付きファジィ情報システムのパラメータ還元

Foundational propositions of hesitant fuzzy sets and parameter reductions of hesitant fuzzy information systems ( http://arxiv.org/abs/2311.04256v1 )

ライセンス: Link先を確認
Shizhan Lu(参考訳) 曖昧なファジィ集合は不確実性や迷信の例で広く使われている。 包含関係は集合の重要かつ基礎的な定義である。 ヘジットファジィ集合は、ある種の集合として、包含関係を明確に定義する必要がある。 離散形式の迷入ファジィ会員度に基づいて、迷入ファジィ集合のいくつかの種類の包含関係を提案する。 そして、迷うファジィ集合と迷うファジィ集合の族の基本命題が提示される。 最後に、パラメータ還元に関する迷入ファジィ情報システムのいくつかの基礎的提案を行い、パラメータ還元の過程を説明するために、例とアルゴリズムを与える。

Hesitant fuzzy sets are widely used in the instances of uncertainty and hesitation. The inclusion relationship is an important and foundational definition for sets. Hesitant fuzzy set, as a kind of set, needs explicit definition of inclusion relationship. Base on the hesitant fuzzy membership degree of discrete form, several kinds of inclusion relationships for hesitant fuzzy sets are proposed. And then some foundational propositions of hesitant fuzzy sets and the families of hesitant fuzzy sets are presented. Finally, some foundational propositions of hesitant fuzzy information systems with respect to parameter reductions are put forward, and an example and an algorithm are given to illustrate the processes of parameter reductions.
翻訳日:2023-11-09 18:07:50 公開日:2023-11-07
# 思考のすべて:思考生成のためのペンローズ三角形の法則の否定

Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation ( http://arxiv.org/abs/2311.04254v1 )

ライセンス: Link先を確認
Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Wei Zhang, Si Qin, Saravan Rajmohan, Qingwei Lin and Dongmei Zhang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、複雑な問題をより管理可能な言語シーケンスに分解することで、意思決定に革命をもたらした。 効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮するべきです。 しかし、現存する思想には2つの属性がある。 これらの制約に対処するため、既存の思考パラダイムの「ペンローズ三角形」の法則を無視する「思考のすべて」と呼ばれる新しい思考促進手法を導入する。 XoTは、事前訓練された強化学習とモンテカルロ木探索(MCTS)を活用して、外部のドメイン知識を思考に組み込むことにより、LLMの能力を向上し、問題の発見を効率的に一般化できるようにする。 MCTS-LLM協調思考修正フレームワークの利用により、最小限のLLM相互作用を伴う高品質な包括的認知マッピングを自律的に作成する。 さらに、XoTはLLMに制約のない思考を強制し、複数のソリューションの問題に対する柔軟な認知マッピングを可能にする。

Recent advancements in Large Language Models (LLMs) have revolutionized decision-making by breaking down complex problems into more manageable language sequences referred to as ``thoughts''. An effective thought design should consider three key perspectives: performance, efficiency, and flexibility. However, existing thought can at most exhibit two of these attributes. To address these limitations, we introduce a novel thought prompting approach called ``Everything of Thoughts'' (XoT) to defy the law of ``Penrose triangle of existing thought paradigms. XoT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs' capabilities and enabling them to generalize to unseen problems efficiently. Through the utilization of the MCTS-LLM collaborative thought revision framework, this approach autonomously produces high-quality comprehensive cognitive mappings with minimal LLM interactions. Additionally, XoT empowers LLMs to engage in unconstrained thinking, allowing for flexible cognitive mappings for problems with multiple solutions.
翻訳日:2023-11-09 18:07:41 公開日:2023-11-07
# 無線Q-QAMによるブラインドフェデレーション学習

Blind Federated Learning via Over-the-Air q-QAM ( http://arxiv.org/abs/2311.04253v1 )

ライセンス: Link先を確認
Saeed Razavikia, Jos\'e Mairton Barros Da Silva J\'unior, Carlo Fischione(参考訳) 本研究では,フェデレーション付きエッジ学習を,フェデレーション型マルチアクセスチャネル上で検討する。 エッジデバイスとアクセスポイント間の通信負担を軽減するため,Q-aryの2次振幅変調を用いた先駆的なディジタルオーバーザエア計算方式を導入し,低遅延通信方式で実現した。 実際、我々は、エッジデバイスがチャネル状態情報にアクセスできない状態で、エッジサーバへのオーバー・ザ・エア・アップリンク送信にデジタル変調を使用する新しいフェデレーションエッジ学習フレームワークを提案する。 さらに、エッジサーバに複数のアンテナを組み込んで無線通信固有のフェージングを克服する。 フェージングの影響を効果的に緩和するために必要となるアンテナ数を分析した。 ノイズとフェーディング条件の両条件下で,デジタル上向きアップリンク伝送を用いたフェデレーション学習における平均2乗誤差の漸近上界を証明した。 導出した上界を利用して,非凸損失関数の学習過程の収束率を,フェージングチャネルによる勾配の平均二乗誤差の観点から特徴付ける。 さらに,デジタルフェデレートエッジ学習フレームワークの平均二乗誤差と収束効果に関する数値実験を通じて,理論的な保証を検証した。 特に,エッジサーバにおけるアンテナ数の増加と高次変調の採用により,モデルの精度が最大60\%向上することを示す。

In this work, we investigate federated edge learning over a fading multiple access channel. To alleviate the communication burden between the edge devices and the access point, we introduce a pioneering digital over-the-air computation strategy employing q-ary quadrature amplitude modulation, culminating in a low latency communication scheme. Indeed, we propose a new federated edge learning framework in which edge devices use digital modulation for over-the-air uplink transmission to the edge server while they have no access to the channel state information. Furthermore, we incorporate multiple antennas at the edge server to overcome the fading inherent in wireless communication. We analyze the number of antennas required to mitigate the fading impact effectively. We prove a non-asymptotic upper bound for the mean squared error for the proposed federated learning with digital over-the-air uplink transmissions under both noisy and fading conditions. Leveraging the derived upper bound, we characterize the convergence rate of the learning process of a non-convex loss function in terms of the mean square error of gradients due to the fading channel. Furthermore, we substantiate the theoretical assurances through numerical experiments concerning mean square error and the convergence efficacy of the digital federated edge learning framework. Notably, the results demonstrate that augmenting the number of antennas at the edge server and adopting higher-order modulations improve the model accuracy up to 60\%.
翻訳日:2023-11-09 18:07:22 公開日:2023-11-07
# 時系列センサデータを用いたCNNによる構造損傷検出

CNN-Based Structural Damage Detection using Time-Series Sensor Data ( http://arxiv.org/abs/2311.04252v1 )

ライセンス: Link先を確認
Ishan Pathak, Ishan Jha, Aditya Sadana, and Basuraj Bhowmik(参考訳) 構造健康モニタリング(SHM)は,センサデータ解析による損傷検出を目的とした構造状態の評価に不可欠である。 現代の産業における予測メンテナンスと整合し、潜在的な構造的な問題に対処することでダウンタイムとコストを最小化する。 様々な機械学習技術が振動データから貴重な情報を抽出するために使われており、しばしば事前の構造知識に依存している。 本研究では,新しい畳み込みニューラルネットワーク(CNN)アルゴリズムを用いて,構造損傷検出の革新的なアプローチを提案する。 時系列データから深い空間的特徴を抽出するために、cnnは長期的な時間的接続を認識するように教えられる。 この手法は空間的特徴と時間的特徴を組み合わせ、深部空間的特徴にのみ依存する手法と比較して識別能力を高める。 時系列データは、提案したニューラルネットワークを用いて2つのカテゴリに分けられる。 有効性を検証するため,ロスアラモス国立研究所(LANL)の3フロア構造から得られたベンチマークデータセットを用いて精度を検証した。 その結果,新しいCNNアルゴリズムは構造劣化の発見に極めて正確であることが示唆された。

Structural Health Monitoring (SHM) is vital for evaluating structural condition, aiming to detect damage through sensor data analysis. It aligns with predictive maintenance in modern industry, minimizing downtime and costs by addressing potential structural issues. Various machine learning techniques have been used to extract valuable information from vibration data, often relying on prior structural knowledge. This research introduces an innovative approach to structural damage detection, utilizing a new Convolutional Neural Network (CNN) algorithm. In order to extract deep spatial features from time series data, CNNs are taught to recognize long-term temporal connections. This methodology combines spatial and temporal features, enhancing discrimination capabilities when compared to methods solely reliant on deep spatial features. Time series data are divided into two categories using the proposed neural network: undamaged and damaged. To validate its efficacy, the method's accuracy was tested using a benchmark dataset derived from a three-floor structure at Los Alamos National Laboratory (LANL). The outcomes show that the new CNN algorithm is very accurate in spotting structural degradation in the examined structure.
翻訳日:2023-11-09 18:06:58 公開日:2023-11-07
# MixtureGrowth:学習パラメータの再結合によるニューラルネットワークの成長

MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters ( http://arxiv.org/abs/2311.04251v1 )

ライセンス: Link先を確認
Chau Pham, Piotr Teterwak, Soren Nelson, Bryan A. Plummer(参考訳) ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。 ネットワークのサイズを拡大する必要がある場合は、スクラッチから再トレーニングする必要があります。 これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。 しかし、このナイーブなアプローチは、成長プロセスにノイズをもたらすため、実際には不足しています。 先行研究は、計算コストの高い分析ステップを実行することによって、既に学習済みの重み付けとトレーニングデータを活用して新しい重み付けを生成することでこの問題に取り組みました。 本稿では,先行業務における初期化オーバーヘッドを回避するネットワーク構築のための新しいアプローチであるmixed growthを提案する。 成長する前に、モデルの各レイヤはパラメータテンプレートの線形結合で生成される。 新しい成長層重みは、既存のテンプレートを1層に線形に組み合わせることで生成される。 一方、これらのテンプレートはタスクのためにすでにトレーニングされており、強い初期化を提供する。 一方、新しい係数は、付加層重みが新しいことを学ぶための柔軟性を提供する。 今回のアプローチは,cifar-100とimagenetのデータセット上で,最先端よりもtop-1の精度を2-2.5%向上させると同時に,スクラッチからトレーニングした大規模ネットワークへのフラップを少なくして同等のパフォーマンスを実現していることを示す。 コードはhttps://github.com/chaudatascience/mixture growingで入手できる。

Most deep neural networks are trained under fixed network architectures and require retraining when the architecture changes. If expanding the network's size is needed, it is necessary to retrain from scratch, which is expensive. To avoid this, one can grow from a small network by adding random weights over time to gradually achieve the target network size. However, this naive approach falls short in practice as it brings too much noise to the growing process. Prior work tackled this issue by leveraging the already learned weights and training data for generating new weights through conducting a computationally expensive analysis step. In this paper, we introduce MixtureGrowth, a new approach to growing networks that circumvents the initialization overhead in prior work. Before growing, each layer in our model is generated with a linear combination of parameter templates. Newly grown layer weights are generated by using a new linear combination of existing templates for a layer. On one hand, these templates are already trained for the task, providing a strong initialization. On the other, the new coefficients provide flexibility for the added layer weights to learn something new. We show that our approach boosts top-1 accuracy over the state-of-the-art by 2-2.5% on CIFAR-100 and ImageNet datasets, while achieving comparable performance with fewer FLOPs to a larger network trained from scratch. Code is available at https://github.com/chaudatascience/mixturegrowth.
翻訳日:2023-11-09 18:06:39 公開日:2023-11-07
# 構造化エンティティアンカーを用いた効率的なコントラスト知識グラフ補完のための構造と言語意味の統一

Unifying Structure and Language Semantic for Efficient Contrastive Knowledge Graph Completion with Structured Entity Anchors ( http://arxiv.org/abs/2311.04250v1 )

ライセンス: Link先を確認
Sang-Hyun Je, Wontae Choi, Kwangjin Oh(参考訳) 知識グラフ補完(kgc)の目標は、既に知られている学習済みの事実を用いて、kgの欠落リンクを予測することである。 近年では、テキスト情報と構造情報の両方を利用する事前学習された言語モデル(plm)ベースの手法が登場しているが、その性能は最先端(sota)構造ベースメソッドやいくつかのメソッドに遅れており、テキストエンコーダに構造を埋め込む過程において、帰納的推論能力を失う。 本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。 我々はエンティティアンカーを採用し、これらのアンカーとkg要素のテキスト記述をplmベースのエンコーダに結合して統一表現を学ぶ。 さらに,コントラスト学習中に各ミニバッチで再利用可能なランダムな負のサンプルを付加し,一般化されたエンティティ表現を学習する。 提案手法の有効性を様々な実験と分析により検証する。 リンク予測タスクで広く用いられている標準ベンチマーク実験の結果,提案モデルが既存のsoma kgcモデルよりも優れていることがわかった。 特に本手法は,構造型KGC方式のSOTAと競合するFB15K-237の性能向上を示す。

The goal of knowledge graph completion (KGC) is to predict missing links in a KG using trained facts that are already known. In recent, pre-trained language model (PLM) based methods that utilize both textual and structural information are emerging, but their performances lag behind state-of-the-art (SOTA) structure-based methods or some methods lose their inductive inference capabilities in the process of fusing structure embedding to text encoder. In this paper, we propose a novel method to effectively unify structure information and language semantics without losing the power of inductive reasoning. We adopt entity anchors and these anchors and textual description of KG elements are fed together into the PLM-based encoder to learn unified representations. In addition, the proposed method utilizes additional random negative samples which can be reused in the each mini-batch during contrastive learning to learn a generalized entity representations. We verify the effectiveness of the our proposed method through various experiments and analysis. The experimental results on standard benchmark widely used in link prediction task show that the proposed model outperforms existing the SOTA KGC models. Especially, our method show the largest performance improvement on FB15K-237, which is competitive to the SOTA of structure-based KGC methods.
翻訳日:2023-11-09 18:06:13 公開日:2023-11-07
# 原子力発電のライフサイクル・インテリジェンスにおける有限サンプルを用いた深層学習の解析と応用

Analysis and Applications of Deep Learning with Finite Samples in Full Life-Cycle Intelligence of Nuclear Power Generation ( http://arxiv.org/abs/2311.04247v1 )

ライセンス: Link先を確認
Chenwei Tang and Wenqiang Zhou and Dong Wang and Caiyang Yu and Zhenan He and Jizhe Zhou and Shudong Huang and Yi Gao and Jianming Chen and Wentao Feng and Jiancheng Lv(参考訳) 産業4.0の出現により、産業コンテキストにおける人工知能(ai)手法の導入が進み、インテリジェントな製造、運用、保守、あるいは産業インテリジェンス(industrial intelligence)の実現を目指している。 しかし、特にエネルギー探査と生産に関する複雑な産業用ミリオスは、ロングテールのクラス分布、サンプルの不均衡、ドメインシフトを特徴とするデータをしばしば包含する。 これらの属性は、産業インテリジェンスの実現に不可欠であるデータ中心のディープラーニング(DL)技術に注目すべき課題である。 本研究は,原子力発電(npg)の複雑かつ独特な産業シナリオに焦点をあて,有限データサンプルの制約下でのdl技術の適用を細心の注意を払って検討する。 当初この論文は、NPGの全ライフサイクルにわたるAIの潜在的な雇用シナリオについて解説した。 その後, 有限標本の観点から, DLの進展を定量的に検討した。 これは、小サンプル学習、少数ショット学習、ゼロショット学習、オープンセット認識などの側面を含み、NPGのユニークなデータ特性にも言及している。 論文はその後、2つの特定のケーススタディを提示します。 第1はジルコニウム合金メタログラフィーの自動認識、第2は機械センサの信号診断のためのオープンセット認識に関するものである。 NPGのライフサイクル全体にわたるこれらのケースには、建設的な成果と洞察に富んだ検討が伴う。 有限サンプル可用性の制約の中でdl方法論を探求し適用することで、堅牢な技術的基盤を提供するだけでなく、この高度エネルギー源の安全かつ効率的な発展と活用に向けた新たな視点も導入する。

The advent of Industry 4.0 has precipitated the incorporation of Artificial Intelligence (AI) methods within industrial contexts, aiming to realize intelligent manufacturing, operation as well as maintenance, also known as industrial intelligence. However, intricate industrial milieus, particularly those relating to energy exploration and production, frequently encompass data characterized by long-tailed class distribution, sample imbalance, and domain shift. These attributes pose noteworthy challenges to data-centric Deep Learning (DL) techniques, crucial for the realization of industrial intelligence. The present study centers on the intricate and distinctive industrial scenarios of Nuclear Power Generation (NPG), meticulously scrutinizing the application of DL techniques under the constraints of finite data samples. Initially, the paper expounds on potential employment scenarios for AI across the full life-cycle of NPG. Subsequently, we delve into an evaluative exposition of DL's advancement, grounded in the finite sample perspective. This encompasses aspects such as small-sample learning, few-shot learning, zero-shot learning, and open-set recognition, also referring to the unique data characteristics of NPG. The paper then proceeds to present two specific case studies. The first revolves around the automatic recognition of zirconium alloy metallography, while the second pertains to open-set recognition for signal diagnosis of machinery sensors. These cases, spanning the entirety of NPG's life-cycle, are accompanied by constructive outcomes and insightful deliberations. By exploring and applying DL methodologies within the constraints of finite sample availability, this paper not only furnishes a robust technical foundation but also introduces a fresh perspective toward the secure and efficient advancement and exploitation of this advanced energy source.
翻訳日:2023-11-09 18:05:49 公開日:2023-11-07
# beyond tradition: 航空宇宙ソフトウェア開発のためのdo-178cにおけるアジャイル実現可能性の評価

Beyond Tradition: Evaluating Agile feasibility in DO-178C for Aerospace Software Development ( http://arxiv.org/abs/2311.04344v1 )

ライセンス: Link先を確認
J. Eduardo Ferreira Ribeiro, Jo\~ao Gabriel Silva, Ademar Aguiar(参考訳) ドメイン固有の標準とガイドラインは、安全クリティカルなシステムの規制において重要な役割を担い、その一例が航空宇宙産業のためのDO-178C文書である。 この文書は、ソフトウェアシステムの安全性と認証を保証するために組織にガイドラインを提供する。 本稿では,アジャイルソフトウェア開発に重点を置く安全クリティカルな航空宇宙システムのソフトウェア開発の文脈におけるdo-178c文書を分析し,その実現可能性を評価する。 特定の開発方法の制限とは異なり、do-178cは安全に対する信頼を保ち、航空宇宙産業の目的とシームレスに一致させるために必須のサポートを提供する。 私たちの分析では、do-178cにはアジャイルの採用を阻害する制限や制限はなく、従来のウォーターフォールメソッドが必須であるという業界全体の意見とは対照的に、適切な証拠を得るためにガイドラインや目標を提供し、アジャイルメソッドを含む様々な作業方法を可能にしています。 さらに、ガイドラインの説明は、アジャイルメソッドを使用するソフトウェア専門家に明確に適合しており、標準の一般的な概要のみを提供する出版物よりも、はるかに具体的な焦点を与えています。

Domain-specific standards and guidelines play a crucial role in regulating safety-critical systems, with one notable example being the DO-178C document for the aerospace industry. This document provides guidelines for organisations seeking to ensure the safety and certification of their software systems. This paper analyses the DO-178C document within the context of software development for safety-critical aerospace systems focusing on Agile software development, aiming to assess its feasibility. Unlike restricting specific development methods, DO-178C offers indispensable support that upholds confidence in safety, aligning seamlessly with the objectives of aerospace industries. Our analysis reveals that there are no limitations or restrictions within the DO-178C that inhibit the adoption of Agile and provides guidelines and objectives for achieving suitable evidence, allowing for various working methods, including Agile methods, contrary to the overall opinion in the industry that the traditional waterfall method is mandatory. Additionally, we emphasise that the guidelines explanation is explicitly tailored to software professionals using Agile methods, giving it a much more specific focus than publications that only provide a generic overview of the standard.
翻訳日:2023-11-09 17:57:56 公開日:2023-11-07
# 乱流高損失チャネル上のデコイ状態非対称測定-デバイス非依存量子鍵分布

Experimental decoy-state asymmetric measurement-device-independent quantum key distribution over a turbulent high-loss channel ( http://arxiv.org/abs/2311.04334v1 )

ライセンス: Link先を確認
Kazi Reaz, Md Mehdi Hassan, Adrien Green, Noah Crum, George Siopsis(参考訳) 現実のBB84量子キー配信(QKD)システムは、サイドチャネル攻撃として知られるセキュリティに脆弱性をもたらす不完全なデバイスを利用する。 Measurement-Device-Independent (MDI) QKDは、信頼できない第三者が測定を行い、すべてのサイドチャネル攻撃を取り除くことを認可する。 MDI-QKDの典型的な実装は、非対称チャネル損失が存在する場合、通常は通信環境の結果として、多くの実践シナリオにおいて物理的に実現し難い準対称チャネルを用いる。 海上および衛星による通信は、異なるチャネルの損失を継続的に変化させることで特徴付けられる2つの例である。 本研究では,acousto-optic modulationor (aom) を用いたシミュレーション乱流を有する実験室環境で非対称mdi-qkdを行い,自由空間量子通信の性能を問う。 乱流条件下では、散乱とビームの漂流が強度変動を引き起こし、検出された信号-雑音比を減少させる。 Wangらは,P-RTS(Prefixed-Threshold Real-time Selection)と組み合わせて提案した 7-intensity Optimization 法を用いて,有限サイズデコイドMDI QKD の乱流条件下でのキーレート向上を示す。 さらに,P-RTSは広い範囲の大気チャネルパラメータに対して極めて高いキーレートが得られることを示す。

Real-world BB84 Quantum Key Distribution (QKD) systems utilize imperfect devices that introduce vulnerabilities to their security, known as side-channel attacks. Measurement-Device-Independent (MDI) QKD authorizes an untrusted third party to make measurements and removes all side-channel attacks. The typical implementations of MDI-QKD employ near symmetric channels which are difficult to realize physically in many practical scenarios such as when asymmetric channel losses are present, normally a consequence of the communication environment. Maritime and satellite-based communications are two such instances in which the channels are characterized by continuously changing losses in different channels. In this work, we perform asymmetric MDI-QKD in a laboratory environment with simulated turbulence using an Acousto-Optic Modulator (AOM) to interrogate the performance of free-space quantum communication. Under turbulent conditions, scattering and beam wandering cause intensity fluctuations which decrease the detected signal-to-noise ratio. Using the 7-intensity optimization method proposed by Wang et al., coupled with Prefixed-Threshold Real-time Selection (P-RTS), we demonstrate enhancement in the secure key rate under turbulent conditions for finite-size decoy-state MDI QKD. Furthermore, we show that P-RTS can yield considerably higher secure key rates for a wide range of atmospheric channel parameters.
翻訳日:2023-11-09 17:57:16 公開日:2023-11-07
# 言語モデリングの形式的側面

Formal Aspects of Language Modeling ( http://arxiv.org/abs/2311.04329v1 )

ライセンス: Link先を確認
Ryan Cotterell, Anej Svete, Clara Meister, Tianyu Liu and Li Du(参考訳) 大規模言語モデルは最も一般的なNLP発明の1つとなっている。 過去半世紀、彼らのコアな自然言語処理ツールへの統合は、そうしたツールのパフォーマンスを劇的に向上させ、人工知能を取り巻く公開の議論に参入した。 したがって、開発者も研究者も、大規模言語モデルの数学的基礎や実装方法を理解することが重要である。 これらの注記は、大きな言語モデルに関するeth z\"urichコースの理論的部分の伴奏であり、形式的、理論的観点から言語モデルを構成するものをカバーする。

Large language models have become one of the most commonly deployed NLP inventions. In the past half-decade, their integration into core natural language processing tools has dramatically increased the performance of such tools, and they have entered the public discourse surrounding artificial intelligence. Consequently, it is important for both developers and researchers alike to understand the mathematical foundations of large language models, as well as how to implement them. These notes are the accompaniment to the theoretical portion of the ETH Z\"urich course on large language models, covering what constitutes a language model from a formal, theoretical perspective.
翻訳日:2023-11-09 17:56:38 公開日:2023-11-07
# 技術を通じた農村起業家育成:生産性向上技術体験キット(PETE-Kits)を事例として

Promoting Rural Entrepreneurship through Technology: A Case Study using Productivity Enhancing Technology Experience Kits (PETE-Kits) ( http://arxiv.org/abs/2311.04327v1 )

ライセンス: Link先を確認
Matthew W. Rutherford, Brian E. Whitacre, Levi Captain, Sabit Ekin, Julie Angle, Tom Hensley, and John F. O'Hara(参考訳) 貢献:2つの要素をもつ農村型教育プログラムの事例研究 1 高校生及び教員を地域問題の解決に利用できるスマート・コネクテッド・テクノロジー(SCT)に導入すること。 2)地域社会が地域技術主導の起業を支援すること。 背景: 農村部は一般的に、デジタル経済への参加や技術全般において遅れを取っている。 しかし、自己雇用率が高く、民間雇用機会が低かったため、多くを得ることが多い。 研究課題:広い範囲の田園部技術教育プログラムが改善につながるか 1)学生と教師のSCT意識 2) SCT スキル 3)今後のSCT活用への期待 : 起業と地域社会の健全化に向けて 方法論: 私たちの学際チームは、農村部の高校ロボットチームや地域コミュニティと関わり合うために、混合メソッドのアプローチを採用しました。 1年間にわたり、学生はscts(pete-kitsと関連するカリキュラム)と、イデオレーションイベントを通じて起業したブレーンストーミングプロジェクトとのハンズオントレーニングに参加した。 プロジェクトの開始と終了にはコミュニティメンバーが参加し、SCTを用いた学生ビジネスのアイデアが提示される「シャークタンク」スタイルのイベントを判断した。 Findings: 学生のプレ/ポストアクティビティアセスメントの結果は、このプログラムが技術との快適さを高め、技術的スキルと起業家の機会を組み合わせるのに効果的であったことを示唆している。 教師を含むコミュニティメンバーからのポスト調査は、このプログラムに対する明確なサポートと、sct/デジタルスキルが地域経済や福祉にどのように貢献できるかの理解を示した。

Contribution: Case study of a rural-focused educational program with two components: 1) introducing high school students and teachers to Smart and Connected Technologies (SCTs) that can be used to solve local problems; 2) engaging the local community in supporting local technology-driven entrepreneurship. Background: Rural communities typically lag behind in terms of participation in the digital economy, and use of technology in general. Yet they often have the most to gain, due to high rates of self-employment and lower private-sector job opportunities. Research Questions: Can a broadly-scoped rural technology education program lead to improvements in 1) student and teacher SCT awareness, 2) SCT skills, 3) aspirations for future SCT use directed toward entrepreneurship and overall community wellbeing? Methodology: Our multidisciplinary team used a mixed-methods approach to engage a rural high school robotics team as well as the local community. Over the course of one year, students took part in hands-on-training with SCTs ("PETE-Kits" and associated curriculum) and brainstormed entrepreneurial projects via ideation events. Community members were involved at the beginning and end of the project, including judging a "shark-tank" style event where student business ideas using SCT were presented. Findings: Results from student pre / post activity assessments suggest that the program was effective at increasing comfort with technology and combining technical skills with entrepreneurial opportunities. Post surveys from community members, including teachers, demonstrated clear support for the program and an appreciation of how SCTs / digital skills could benefit the local economy and wellbeing.
翻訳日:2023-11-09 17:56:20 公開日:2023-11-07
# aiサイバーセキュリティ研究のための教育 : 倫理・システム思考・コミュニケーション要件

Educating for AI Cybersecurity Work and Research: Ethics, Systems Thinking, and Communication Requirements ( http://arxiv.org/abs/2311.04326v1 )

ライセンス: Link先を確認
Sorin Adam Matei, Elisa Bertino(参考訳) 本研究は、aiツールを含む変化するサイバーセキュリティ環境において効果的に働くための、新入のサイバーセキュリティワーカーや学生の備えに関する管理職やインストラクターの認識を調査した。 具体的には、倫理、システム思考、コミュニケーションスキルに技術的準備の認識を関連づける。 マネージャと教授は、サイバーセキュリティにAIツールを使用する準備が、技術以外の3つのスキルセットに大きく関連していることに気付きました。 倫理は、関係のネットワークにおける明確なリーダーである。 倫理的懸念は、セキュリティにおける最も高度なAIツールの採用を急ぐ中で残るという期待に反して、高等教育のインストラクターとマネージャは、彼らの役割を高く評価し、それらが技術的な技術に密接に関連しているのを見る。 もう一つの重要な発見は、教授が生徒の倫理的、システム思考、コミュニケーション能力に対する準備を、新たに雇用されたIT労働者に対するIT管理者の認識と比べて過大評価していることである。

The present study explored managerial and instructor perceptions of their freshly employed cybersecurity workers' or students' preparedness to work effectively in a changing cybersecurity environment that includes AI tools. Specifically, we related perceptions of technical preparedness to ethical, systems thinking, and communication skills. We found that managers and professors perceive preparedness to use AI tools in cybersecurity to be significantly associated with all three non-technical skill sets. Most important, ethics is a clear leader in the network of relationships. Contrary to expectations that ethical concerns are left behind in the rush to adopt the most advanced AI tools in security, both higher education instructors and managers appreciate their role and see them closely associated with technical prowess. Another significant finding is that professors over-estimate students' preparedness for ethical, system thinking, and communication abilities compared to IT managers' perceptions of their newly employed IT workers.
翻訳日:2023-11-09 17:55:54 公開日:2023-11-07
# 機械学習に基づく早期セプシス検出を異なるデモグラフィックに拡張する

Extending Machine Learning-Based Early Sepsis Detection to Different Demographics ( http://arxiv.org/abs/2311.04325v1 )

ライセンス: Link先を確認
Surajsinh Parmar and Tao Shan and San Lee and Yonghwan Kim and Jang Yong Kim(参考訳) セプシスは緊急診断を必要とするが、研究は主に西洋のデータセットに焦点を当てている。 本研究では,公立のeICU-CRDデータセットと韓国のセントメアリー病院のプライベートなデータセットを用いて,LightGBMとXGBoostのアンサンブル学習手法の比較分析を行った。 本分析は,医療データの不均衡に対処し,敗血症検出を増強する手法の有効性を明らかにする。 具体的には、LightGBMは計算効率とスケーラビリティをわずかに表しています。 この研究は、クリティカルケアにおける機械学習の広範な応用への道を開き、医療における予測分析の範囲をグローバルに拡大する。

Sepsis requires urgent diagnosis, but research is predominantly focused on Western datasets. In this study, we perform a comparative analysis of two ensemble learning methods, LightGBM and XGBoost, using the public eICU-CRD dataset and a private South Korean St. Mary's Hospital's dataset. Our analysis reveals the effectiveness of these methods in addressing healthcare data imbalance and enhancing sepsis detection. Specifically, LightGBM shows a slight edge in computational efficiency and scalability. The study paves the way for the broader application of machine learning in critical care, thereby expanding the reach of predictive analytics in healthcare globally.
翻訳日:2023-11-09 17:55:37 公開日:2023-11-07
# 拡散パーソナライゼーションのためのアイデンティティ保護強化に関するデータ視点

A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization ( http://arxiv.org/abs/2311.04315v1 )

ライセンス: Link先を確認
Xingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Helge Rhodin, Ratheesh Kalarot(参考訳) 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。 しかし、ペットや家のオブジェクトなど、特にユニークな、あるいは個人的な視覚的な概念は、オリジナルのモデルでは捉えられません。 これにより、新しい視覚概念を4-6例の例を使って新しいテキストトークンに縛り付ける方法に興味を持つようになった。 相当な進歩にもかかわらず、この課題は、特に被写体のアイデンティティを保つ上で大きな課題であり続けている。 ほとんどの研究者はモデルアーキテクチャを変更することでこの問題に対処しようとしますが、我々のアプローチはデータ中心の観点から、モデル自体よりもデータの変更を提唱しています。 本稿では,テキストと画像の両方に新しい正規化データセット生成戦略を導入し,テキストの一貫性を損なうことやアイデンティティの保存性を向上させるために,リッチで構造化された正規化データセット(自動生成)の重要性を示す。 改善された品質は、オーバーフィットやデジェネレーションなしに最大5倍の微調整のイテレーションを可能にすることで実現される。 所望の被写体のランディションは、入力テキストプロンプトに従う多様なサンプルを生成する能力を維持しながら、テキストやロゴなどの細部までも保持する。 本手法は,モデルアーキテクチャを調整せず,データ拡張に焦点を当てているため,補完的であり,事前作業と組み合わせることができる。 データ中心のアプローチが画像品質の面で新たな状態を形成し、アイデンティティの保存、多様性、テキストアライメントのトレードオフが最善であることを、確立されたベンチマークで示しています。

Large text-to-image models have revolutionized the ability to generate imagery using natural language. However, particularly unique or personal visual concepts, such as your pet, an object in your house, etc., will not be captured by the original model. This has led to interest in how to inject new visual concepts, bound to a new text token, using as few as 4-6 examples. Despite significant progress, this task remains a formidable challenge, particularly in preserving the subject's identity. While most researchers attempt to to address this issue by modifying model architectures, our approach takes a data-centric perspective, advocating the modification of data rather than the model itself. We introduce a novel regularization dataset generation strategy on both the text and image level; demonstrating the importance of a rich and structured regularization dataset (automatically generated) to prevent losing text coherence and better identity preservation. The better quality is enabled by allowing up to 5x more fine-tuning iterations without overfitting and degeneration. The generated renditions of the desired subject preserve even fine details such as text and logos; all while maintaining the ability to generate diverse samples that follow the input text prompt. Since our method focuses on data augmentation, rather than adjusting the model architecture, it is complementary and can be combined with prior work. We show on established benchmarks that our data-centric approach forms the new state of the art in terms of image quality, with the best trade-off between identity preservation, diversity, and text alignment.
翻訳日:2023-11-09 17:55:27 公開日:2023-11-07
# 高速ピッチ変換学習による音声合成の改良

Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning ( http://arxiv.org/abs/2311.04313v1 )

ライセンス: Link先を確認
Rishabh Jain and Peter Corcoran(参考訳) 音声合成技術は近年顕著な進歩を遂げており、自然かつ表現力のある合成音声の作成を可能にしている。 特に興味のある分野は、子どもの独特な発声特性と発達段階から独特な課題を呈する合成子音声の生成である。 本稿では,高品質合成音声を生成するためのfastpitch text-to-speech(tts)モデルを用いた新しい手法を提案する。 本研究は移動学習訓練パイプラインを用いる。 このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。 MySTデータセットのクリーン化バージョン(55時間)を、微調整実験に使用しています。 また,本研究から生成した合成音声サンプルのプロトタイプデータセットをモデルコードとともにリリースし,さらなる研究を支援する。 事前訓練したMOSNetを用いて,実子声と合成子声の有意な相関性を示す客観的評価を行った。 さらに,生成した音声の妥当性を検証するために,実音声と合成音声の単語誤り率(WER)を比較するために,自動音声認識(ASR)モデルを用いた。 また、事前訓練された話者エンコーダを用いて、実音声と生成音声の話者類似度を測定する。

Speech synthesis technology has witnessed significant advancements in recent years, enabling the creation of natural and expressive synthetic speech. One area of particular interest is the generation of synthetic child speech, which presents unique challenges due to children's distinct vocal characteristics and developmental stages. This paper presents a novel approach that leverages the Fastpitch text-to-speech (TTS) model for generating high-quality synthetic child speech. This study uses the transfer learning training pipeline. The approach involved finetuning a multi-speaker TTS model to work with child speech. We use the cleaned version of the publicly available MyST dataset (55 hours) for our finetuning experiments. We also release a prototype dataset of synthetic speech samples generated from this research together with model code to support further research. By using a pretrained MOSNet, we conducted an objective assessment that showed a significant correlation between real and synthetic child voices. Additionally, to validate the intelligibility of the generated speech, we employed an automatic speech recognition (ASR) model to compare the word error rates (WER) of real and synthetic child voices. The speaker similarity between the real and generated speech is also measured using a pretrained speaker encoder.
翻訳日:2023-11-09 17:55:00 公開日:2023-11-07
# 汎用医療モデルのためのクラスインクリメンタル連続学習

Class-Incremental Continual Learning for General Purpose Healthcare Models ( http://arxiv.org/abs/2311.04301v1 )

ライセンス: Link先を確認
Amritpal Singh, Mustafa Burak Gurbuz, Shiva Souhith Gantha, Prahlad Jasti(参考訳) 医療クリニックは、患者数の変動、治療方針、医療機器、新興疾患パターンによって変化するダイナミックなデータに定期的に遭遇する。 ディープラーニングモデルは、このようなシナリオで微調整された場合、壊滅的な忘れに苦しむ可能性がある。 継続的学習は、新しいタスクで以前のタスクのパフォーマンスを落とさずに学習できる。 本研究は, 多様なモダリティ, 臨床専門, 病院の10の分類データセットを含む4つの異なる医療画像シナリオにおける連続学習モデルの性能について検討する。 各種の連続学習手法を実装し,これらのシナリオにおける性能評価を行った。 その結果,1つのモデルが異なる専門分野から新しいタスクを逐次学習し,ナイーブな手法に匹敵する性能が得られることがわかった。 これらの結果は,同一あるいは異なる医療分野におけるリサイクルやモデル共有の実現可能性を示し,組織間で共有可能な汎用医用画像aiの開発に向けた新たな一歩となる。

Healthcare clinics regularly encounter dynamic data that changes due to variations in patient populations, treatment policies, medical devices, and emerging disease patterns. Deep learning models can suffer from catastrophic forgetting when fine-tuned in such scenarios, causing poor performance on previously learned tasks. Continual learning allows learning on new tasks without performance drop on previous tasks. In this work, we investigate the performance of continual learning models on four different medical imaging scenarios involving ten classification datasets from diverse modalities, clinical specialties, and hospitals. We implement various continual learning approaches and evaluate their performance in these scenarios. Our results demonstrate that a single model can sequentially learn new tasks from different specialties and achieve comparable performance to naive methods. These findings indicate the feasibility of recycling or sharing models across the same or different medical specialties, offering another step towards the development of general-purpose medical imaging AI that can be shared across institutions.
翻訳日:2023-11-09 17:54:42 公開日:2023-11-07
# リーポイント対称性と物理情報ネットワーク

Lie Point Symmetry and Physics Informed Networks ( http://arxiv.org/abs/2311.04293v1 )

ライセンス: Link先を確認
Tara Akhound-Sadegh, Laurence Perreault-Levasseur, Johannes Brandstetter, Max Welling, Siamak Ravanbakhsh(参考訳) 対称性は、データ拡張から同変アーキテクチャへの様々なメカニズムを通じて、ニューラルネットワークの一般化を改善するために利用されてきた。 しかし、そのポテンシャルにもかかわらず、偏微分方程式(PDE)に対するニューラルソルバへの統合はほとんど未解明のままである。 物理学インフォームドニューラルネットワーク(PINN)として知られるニューラルネットワークのメインファミリーにおけるPDE対称性(リーポイント対称性)の統合について検討する。 我々は,pinnモデルが損失関数を通じて基盤となるpdeを強制しようとするのと同じように,ネットワークにリーポイント対称性を知らせる損失関数を提案する。 直感的には、我々の対称性損失はリー群の無限小生成元がPDE解を保存することを保証する。 これは、ネットワークが解を学ぶと、リー点対称性によって生成される隣り合う解も学習することを意味する。 実験により,PDEのリー点対称性による誘導バイアスはPINNの試料効率を大幅に向上させることが示された。

Symmetries have been leveraged to improve the generalization of neural networks through different mechanisms from data augmentation to equivariant architectures. However, despite their potential, their integration into neural solvers for partial differential equations (PDEs) remains largely unexplored. We explore the integration of PDE symmetries, known as Lie point symmetries, in a major family of neural solvers known as physics-informed neural networks (PINNs). We propose a loss function that informs the network about Lie point symmetries in the same way that PINN models try to enforce the underlying PDE through a loss function. Intuitively, our symmetry loss ensures that the infinitesimal generators of the Lie group conserve the PDE solutions. Effectively, this means that once the network learns a solution, it also learns the neighbouring solutions generated by Lie point symmetries. Empirical evaluations indicate that the inductive bias introduced by the Lie point symmetries of the PDEs greatly boosts the sample efficiency of PINNs.
翻訳日:2023-11-09 17:54:27 公開日:2023-11-07
# Aspect-based Meeting Transcript Summarization:Weak Supervisionによる文分類の2段階的アプローチ

Aspect-based Meeting Transcript Summarization: A Two-Stage Approach with Weak Supervision on Sentence Classification ( http://arxiv.org/abs/2311.04292v1 )

ライセンス: Link先を確認
Zhongfen Deng, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Quan Hung Tran, Shuaiqi Liu, Wenting Zhao, Tao Zhang, Yibo Wang, Philip S. Yu(参考訳) Aspect-based meeting transcript summarization は複数の要約を生成することを目的としており、それぞれが会議 transcript におけるコンテンツの一側面に焦点を当てている。 異なる側面に関連する文が混ざり合わされ、特定の側面に関連する文が会議の長い書き起こし全体に散在するので、これは困難である。 従来の要約手法では、すべての側面の1つの要約混合情報を生成するが、アスペクトベースミーティングの要約処理の課題には対処できない。 本稿では,アスペクトベースミーティング記録要約のための2段階の手法を提案する。 特定の側面に関連する入力内容を選択するために、疑似ラベル付きAMIコーパスから構築したデータセット上で文分類器を訓練する。 次に,特定のアスペクトに選択された文を要約器の入力としてマージし,アスペクトベースの要約を生成する。 AMIコーパスの実験結果は,提案手法の有効性を検証し,多くの強いベースラインを上回った。

Aspect-based meeting transcript summarization aims to produce multiple summaries, each focusing on one aspect of content in a meeting transcript. It is challenging as sentences related to different aspects can mingle together, and those relevant to a specific aspect can be scattered throughout the long transcript of a meeting. The traditional summarization methods produce one summary mixing information of all aspects, which cannot deal with the above challenges of aspect-based meeting transcript summarization. In this paper, we propose a two-stage method for aspect-based meeting transcript summarization. To select the input content related to specific aspects, we train a sentence classifier on a dataset constructed from the AMI corpus with pseudo-labeling. Then we merge the sentences selected for a specific aspect as the input for the summarizer to produce the aspect-based summary. Experimental results on the AMI corpus outperform many strong baselines, which verifies the effectiveness of our proposed method.
翻訳日:2023-11-09 17:54:11 公開日:2023-11-07
# テキスト・画像モデルの全体的評価

Holistic Evaluation of Text-To-Image Models ( http://arxiv.org/abs/2311.04287v1 )

ライセンス: Link先を確認
Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang(参考訳) 最近のテキストから画像へのモデルの驚くべき質的改善は、彼らの注目と普及につながった。 しかし、その能力とリスクの包括的定量的な理解が欠けている。 このギャップを埋めるために、新しいベンチマークであるHolistic Evaluation of Text-to-Image Models (HEIM)を導入する。 従来の評価では,テキスト画像アライメント,画像品質,美学,独創性,推論,知識,バイアス,毒性,公平性,堅牢性,多言語性,効率性など12の側面を識別した。 これらの側面を含む62のシナリオをキュレートし、このベンチマークで26の最先端のテキスト画像モデルを評価する。 その結果,すべての面で優れたモデルがひとつも存在せず,異なるモデルが異なる強みを示していることが明らかとなった。 生成された画像と人による評価結果を、https://crfm.stanford.edu/heim/v1.1.0で、そして https://github.com/stanford-crfm/helmでリリースします。

The stunning qualitative improvement of recent text-to-image models has led to their widespread attention and adoption. However, we lack a comprehensive quantitative understanding of their capabilities and risks. To fill this gap, we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models (HEIM). Whereas previous evaluations focus mostly on text-image alignment and image quality, we identify 12 aspects, including text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios encompassing these aspects and evaluate 26 state-of-the-art text-to-image models on this benchmark. Our results reveal that no single model excels in all aspects, with different models demonstrating different strengths. We release the generated images and human evaluation results for full transparency at https://crfm.stanford.edu/heim/v1.1.0 and the code at https://github.com/stanford-crfm/helm, which is integrated with the HELM codebase.
翻訳日:2023-11-09 17:53:54 公開日:2023-11-07
# 強化学習による製品形式ハミルトンシミュレーションのコンパイル

Compilation of product-formula Hamiltonian simulation via reinforcement learning ( http://arxiv.org/abs/2311.04285v1 )

ライセンス: Link先を確認
Lea M. Trenkwalder, Eleanor Scerri, Thomas E. O'Brien, Vedran Dunjko(参考訳) ハミルトンシミュレーションは、量子コンピュータが量子優位をもたらす最初のタスクの1つであると考えられている。 ハミルトンシミュレーションの最も一般的な方法の1つはトロッター化であり、これは近似 $e^{i\sum_jA_j}\sim \prod_je^{iA_j}$ と高階補正を用いる。 しかし、これは操作の順序(すなわち、近似の質に影響を与えることが知られている$j$以上の製品の順序)に関する疑問を解き放つ。 いくつかのケースでは、この順序は近似の誤差を最小限に抑えたいという願望によって固定されるが、そうでない場合には、ネイティブな量子アーキテクチャへのコンパイルを最適化するために順序を選択することができる。 これは新しいコンパイル問題 -- 順序非依存の量子回路コンパイル -- を示し、最悪の場合にはnpハードであることを証明します。 計算が容易な完全解の代わりに、コンパイルのヒューリスティック最適化の方法に目を向ける。 コンピレーションタスクの逐次性による強化学習に着目し,モンテカルロ木探索と模擬アニーリングとの比較を行った。 2つの方法がナイーブのヒューリスティックよりも優れているのに対して、強化学習は他のすべての方法よりも明らかに優れており、第2の方法に関して約12%、ゲート数でナイーブのヒューリスティックと比較すると約50%の利得がある。 さらに、コンパイル問題のインスタンスをまたいで一般化するrlの能力をテストし、単一の学習者が問題ファミリー全体を解決できることを見出す。 これは、順序に依存しない量子コンパイルタスクで補助を提供する機械学習技術の能力を示す。

Hamiltonian simulation is believed to be one of the first tasks where quantum computers can yield a quantum advantage. One of the most popular methods of Hamiltonian simulation is Trotterization, which makes use of the approximation $e^{i\sum_jA_j}\sim \prod_je^{iA_j}$ and higher-order corrections thereto. However, this leaves open the question of the order of operations (i.e. the order of the product over $j$, which is known to affect the quality of approximation). In some cases this order is fixed by the desire to minimise the error of approximation; when it is not the case, we propose that the order can be chosen to optimize compilation to a native quantum architecture. This presents a new compilation problem -- order-agnostic quantum circuit compilation -- which we prove is NP-hard in the worst case. In lieu of an easily-computable exact solution, we turn to methods of heuristic optimization of compilation. We focus on reinforcement learning due to the sequential nature of the compilation task, comparing it to simulated annealing and Monte Carlo tree search. While two of the methods outperform a naive heuristic, reinforcement learning clearly outperforms all others, with a gain of around 12% with respect to the second-best method and of around 50% compared to the naive heuristic in terms of the gate count. We further test the ability of RL to generalize across instances of the compilation problem, and find that a single learner is able to solve entire problem families. This demonstrates the ability of machine learning techniques to provide assistance in an order-agnostic quantum compilation task.
翻訳日:2023-11-09 17:53:32 公開日:2023-11-07
# CRAB:実世界の出来事の因果関係の強さを評価する

CRAB: Assessing the Strength of Causal Relationships Between Real-world Events ( http://arxiv.org/abs/2311.04284v1 )

ライセンス: Link先を確認
Angelika Romanou, Syrielle Montariol, Debjit Paul, Leo Laugier, Karl Aberer, Antoine Bosselut(参考訳) 物語を理解するには、テキストで言及される出来事間の因果関係を推論する必要がある。 既存の基礎モデルは、多くのNLPタスクにおいて推論を必要とする印象的な結果をもたらすが、物語における出来事の因果関係のネットワークの複雑さを理解しているかどうかは不明である。 本研究では,現実世界の物語における出来事の因果的理解を評価するための新しい因果関係評価ベンチマークであるCRABを提案する。 CRABには、様々なニュースに値するイベントのタイムライン(例えば、イーロン・マスクによるTwitterの買収)を記述した、約2.7Kの実世界のイベントの詳細な因果アノテーションが含まれている。 CRABを用いて複数の大規模言語モデルの性能を計測し、ほとんどのシステムがタスクにおける性能の低下を実証する。 また, カニ類における事象群の因果構造を分析し, 単純な線形因果連鎖と比較して, 事象が複雑な因果構造に由来する場合の因果推論において, モデルがより良く作用することを示す。 データセットとコードを研究コミュニティに公開しています。

Understanding narratives requires reasoning about the cause-and-effect relationships between events mentioned in the text. While existing foundation models yield impressive results in many NLP tasks requiring reasoning, it is unclear whether they understand the complexity of the underlying network of causal relationships of events in narratives. In this work, we present CRAB, a new Causal Reasoning Assessment Benchmark designed to evaluate causal understanding of events in real-world narratives. CRAB contains fine-grained, contextual causality annotations for ~2.7K pairs of real-world events that describe various newsworthy event timelines (e.g., the acquisition of Twitter by Elon Musk). Using CRAB, we measure the performance of several large language models, demonstrating that most systems achieve poor performance on the task. Motivated by classical causal principles, we also analyze the causal structures of groups of events in CRAB, and find that models perform worse on causal reasoning when events are derived from complex causal structures compared to simple linear causal chains. We make our dataset and code available to the research community.
翻訳日:2023-11-09 17:53:02 公開日:2023-11-07
# 量子位相感度モデルにおける反断熱最適化駆動

Counterdiabatic optimized driving in quantum phase sensitive models ( http://arxiv.org/abs/2311.04282v1 )

ライセンス: Link先を確認
Francesco Pio Barone and Oriel Kiss and Michele Grossi and Sofia Vallecorsa and Antonio Mandarino(参考訳) 状態準備は、量子位相推定を含む多くの量子アルゴリズムにおいて重要な役割を果たす。 本稿では,アキシャル次ネアレスト近傍イジング(annni),xxz,haldane-shastry(hs)の3つの相転移を特徴とする対ダイアバティック駆動プロトコルを拡張し,ベンチマークする。 我々は、エネルギーコスト関数を最適化することで量子最適制御プロトコルを実行し、正確な状態を必要とする忠実性とは対照的に常に評価することができる。 さらに、様々な断熱ゲージポテンシャルを計算するためのコードパッケージにベイズ最適化を組み込む。 このプロトコルは一貫して標準的なアニーリングスケジュールを超え、しばしば数桁のパフォーマンス改善を達成している。 特に、ANNNIモデルは、0.5を超える忠実度がほとんどの場合達成可能な顕著な例である。 さらに最適化された経路は高次元システムへの有望な一般化能力を示し、より小さなモデルからのパラメータの拡張を可能にする。 これにより、プロトコルを高次元システムに適用する可能性が開ける。 しかし,本研究はXXZモデルやHSモデルの場合,特に強磁性相から移行する場合の限界を明らかにした。 これは、特定のシステムに対する最適なダイアバティックゲージポテンシャルを見つけることが重要な研究方向であることを示唆している。

State preparation plays a pivotal role in numerous quantum algorithms, including quantum phase estimation. This paper extends and benchmarks counterdiabatic driving protocols across three one-dimensional spin systems characterized by phase transitions: the axial next-nearest neighbor Ising (ANNNI), XXZ, and Haldane-Shastry (HS) models. We perform quantum optimal control protocols by optimizing the energy cost function, which can always be evaluated as opposed to the fidelity one requiring the exact state. Moreover, we incorporate Bayesian optimization within a code package for computing various adiabatic gauge potentials. This protocol consistently surpasses standard annealing schedules, often achieving performance improvements of several orders of magnitude. Notably, the ANNNI model stands out as a notable example, where fidelities exceeding 0.5 are attainable in most cases. Furthermore, the optimized paths exhibits promising generalization capabilities to higher-dimensional systems, allowing for the extension of parameters from smaller models. This opens up possibilities for applying the protocol to higher-dimensional systems. However, our investigations reveal limitations in the case of the XXZ and HS models, particularly when transitioning away from the ferromagnetic phase. This suggests that finding optimal diabatic gauge potentials for specific systems remains an important research direction.
翻訳日:2023-11-09 17:52:44 公開日:2023-11-07
# 機械学習とCuckoo Sandboxの統合によるマルウェア検出の強化

Enhancing Malware Detection by Integrating Machine Learning with Cuckoo Sandbox ( http://arxiv.org/abs/2311.04372v1 )

ライセンス: Link先を確認
Amaal F. Alshmarni and Mohammed A. Alliheedi(参考訳) 現代のマルウェアは、その多様性と量の両方が大幅に増加しており、デジタル世界の普及と一致している。 このマルウェアの急増は、サイバーセキュリティの分野で重大な課題として浮上し、この問題に取り組むための多くの研究努力と貢献を促した。 機械学習アルゴリズムは、巨大なデータセット内で隠されたパターンを発見できるため、マルウェア検出に活用されている。 しかし、多層構造を特徴とするディープラーニングアルゴリズムは、従来の機械学習アプローチの限界を超えている。 本研究では,CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)といったディープラーニング技術を用いて,APIコールシーケンスを含むデータセットから抽出されたマルウェアを分類・同定することを目的とする。 これらのアルゴリズムの性能は、SVM(Support Vector Machine)、RF(Random Forest)、KNN(K-Nearest Neighbors)、XGB(Extreme Gradient Boosting)、GBC(Gradient Boosting Classifier)といった従来の機械学習手法と比較される。 この研究の結果、ディープラーニングと機械学習の両方のアルゴリズムが驚くほど高い精度を達成し、特定のケースでは最大99%に達することが示された。

In the modern era, malware is experiencing a significant increase in both its variety and quantity, aligning with the widespread adoption of the digital world. This surge in malware has emerged as a critical challenge in the realm of cybersecurity, prompting numerous research endeavors and contributions to address the issue. Machine learning algorithms have been leveraged for malware detection due to their ability to uncover concealed patterns within vast datasets. However, deep learning algorithms, characterized by their multi-layered structure, surpass the limitations of traditional machine learning approaches. By employing deep learning techniques such as CNN (Convolutional Neural Network) and RNN (Recurrent Neural Network), this study aims to classify and identify malware extracted from a dataset containing API call sequences. The performance of these algorithms is compared with that of conventional machine learning methods, including SVM (Support Vector Machine), RF (Random Forest), KNN (K-Nearest Neighbors), XGB (Extreme Gradient Boosting), and GBC (Gradient Boosting Classifier), all using the same dataset. The outcomes of this research demonstrate that both deep learning and machine learning algorithms achieve remarkably high levels of accuracy, reaching up to 99% in certain cases.
翻訳日:2023-11-09 17:44:57 公開日:2023-11-07
# 小児眼科における多言語モデルの評価

Evaluating multiple large language models in pediatric ophthalmology ( http://arxiv.org/abs/2311.04368v1 )

ライセンス: Link先を確認
Jason Holmes, Rui Peng, Yiwei Li, Jinyu Hu, Zhengliang Liu, Zihao Wu, Huan Zhao, Xi Jiang, Wei Liu, Hong Wei, Jie Zou, Tianming Liu, Yi Shao(参考訳) 小児眼科の診察において、異なる大言語モデル(llm)と、医学生、大学院生、医師を含む様々な個人による反応効果が明確に確立されていない。 客観的な設計 小児眼科に基づく100名の質問試験で、高度に特殊なシナリオでllmの性能を評価し、異なるレベルの医学生や医師のパフォーマンスと比較する。 本研究は, 小児眼科における質問への回答能力として, 医学生, 大学院生, 医師の3人のコホートとともに, chatgpt (gpt-3.5), gpt-4, palm2の3つのllmを評価した。 LLMネットワークインタフェースを用いたテストペーパーの形式でアンケートを実施し,ボランティアの有意義な参加によって実施した。 主な結果と尺度は、100のマルチチョイス質問に対するllmと人間のスコア、および各llmの回答安定性、相関、応答信頼度を意味する。 一方,ChatGPT (GPT-3.5) と PaLM2 は医学生よりも成績が高かったが,大学院生はわずかに遅れていた。 さらに, GPT-4は, ChatGPT (GPT-3.5) や PaLM2 と比較して, 質問応答時の安定性と信頼性が高かった。 小児眼科における LLM の医療支援の可能性について考察し, 医学生の教育指導に有意な能力があることを示唆した。

IMPORTANCE The response effectiveness of different large language models (LLMs) and various individuals, including medical students, graduate students, and practicing physicians, in pediatric ophthalmology consultations, has not been clearly established yet. OBJECTIVE Design a 100-question exam based on pediatric ophthalmology to evaluate the performance of LLMs in highly specialized scenarios and compare them with the performance of medical students and physicians at different levels. DESIGN, SETTING, AND PARTICIPANTS This survey study assessed three LLMs, namely ChatGPT (GPT-3.5), GPT-4, and PaLM2, were assessed alongside three human cohorts: medical students, postgraduate students, and attending physicians, in their ability to answer questions related to pediatric ophthalmology. It was conducted by administering questionnaires in the form of test papers through the LLM network interface, with the valuable participation of volunteers. MAIN OUTCOMES AND MEASURES Mean scores of LLM and humans on 100 multiple-choice questions, as well as the answer stability, correlation, and response confidence of each LLM. RESULTS GPT-4 performed comparably to attending physicians, while ChatGPT (GPT-3.5) and PaLM2 outperformed medical students but slightly trailed behind postgraduate students. Furthermore, GPT-4 exhibited greater stability and confidence when responding to inquiries compared to ChatGPT (GPT-3.5) and PaLM2. CONCLUSIONS AND RELEVANCE Our results underscore the potential for LLMs to provide medical assistance in pediatric ophthalmology and suggest significant capacity to guide the education of medical students.
翻訳日:2023-11-09 17:44:33 公開日:2023-11-07
# 構文誘導変換器:多モード環境における組成一般化とグラウンド化

Syntax-Guided Transformers: Elevating Compositional Generalization and Grounding in Multimodal Environments ( http://arxiv.org/abs/2311.04364v1 )

ライセンス: Link先を確認
Danial Kamali and Parisa Kordjamshidi(参考訳) 構成の一般化、コンポーネントの理解を新しい構成に外挿するインテリジェントモデルの能力は、AI研究において、特にマルチモーダル環境において、根本的なが挑戦的な側面である。 本研究では,合成一般化を促進するために,言語の構文構造を活用することで,この問題に対処する。 本稿では,特にテキスト入力解析に基づく注意マスキング技術を用いて,構文的接地の重要性を高める。 マルチモーダルグラウンドリング問題における構文情報の利用のメリットを紹介し,評価する。 本研究は,トランスフォーマーエンコーダにおける重み共有を応用した場合の,多種多様なタスクに対する依存性解析の正の影響を明らかにするものである。 その結果、マルチモーダルグラウンドとパラメータ効率の良いモデリングの最先端が押し出され、今後の研究への洞察が得られます。

Compositional generalization, the ability of intelligent models to extrapolate understanding of components to novel compositions, is a fundamental yet challenging facet in AI research, especially within multimodal environments. In this work, we address this challenge by exploiting the syntactic structure of language to boost compositional generalization. This paper elevates the importance of syntactic grounding, particularly through attention masking techniques derived from text input parsing. We introduce and evaluate the merits of using syntactic information in the multimodal grounding problem. Our results on grounded compositional generalization underscore the positive impact of dependency parsing across diverse tasks when utilized with Weight Sharing across the Transformer encoder. The results push the state-of-the-art in multimodal grounding and parameter-efficient modeling and provide insights for future research.
翻訳日:2023-11-09 17:43:54 公開日:2023-11-07
# 回路プローブを用いた変圧器の因果変数の解明

Uncovering Causal Variables in Transformers using Circuit Probing ( http://arxiv.org/abs/2311.04354v1 )

ライセンス: Link先を確認
Michael A. Lepori, Thomas Serre, Ellie Pavlick(参考訳) ニューラルネットワークモデルは、さまざまな複雑なタスクで高いパフォーマンスを達成しているが、それらが実装するアルゴリズムは、解釈が難しいことで悪名高い。 これらのアルゴリズムを理解するためには、ネットワークの計算に関わる中間変数を仮定する必要がある。 例えば、言語モデルは文を生成する際に特定の構文特性に依存しますか? しかし,既存の解析ツールでは,このような仮説の検証が困難である。 我々は,仮説の中間変数を計算する低レベル回路を自動的に解明する新しい解析手法 -- 回路探索 -- を提案する。 これにより、モデルパラメータのレベルでのターゲットアブレーションによる因果解析が可能になる。 本手法を単純な算術タスクで学習したモデルに適用し,(1)モデルが学習したアルゴリズムの解法,(2)モデル内のモジュラー構造を明らかにすること,(3)トレーニングによる回路開発を追跡することの有効性を実証する。 これら3つの実験で回路探索法を他の手法と比較し,既存の解析法と同等かそれ以上の有効性を見いだした。 最後に,GPT2-SmallおよびMediumにおける主観的収束と反射性アナフォラの原因となる回路を明らかにする。

Neural network models have achieved high performance on a wide variety of complex tasks, but the algorithms that they implement are notoriously difficult to interpret. In order to understand these algorithms, it is often necessary to hypothesize intermediate variables involved in the network's computation. For example, does a language model depend on particular syntactic properties when generating a sentence? However, existing analysis tools make it difficult to test hypotheses of this type. We propose a new analysis technique -- circuit probing -- that automatically uncovers low-level circuits that compute hypothesized intermediate variables. This enables causal analysis through targeted ablation at the level of model parameters. We apply this method to models trained on simple arithmetic tasks, demonstrating its effectiveness at (1) deciphering the algorithms that models have learned, (2) revealing modular structure within a model, and (3) tracking the development of circuits over training. We compare circuit probing to other methods across these three experiments, and find it on par or more effective than existing analysis methods. Finally, we demonstrate circuit probing on a real-world use case, uncovering circuits that are responsible for subject-verb agreement and reflexive anaphora in GPT2-Small and Medium.
翻訳日:2023-11-09 17:43:41 公開日:2023-11-07
# 畳み込みオートエンコーダを用いたビデオ異常検出のための深層学習手法

A Deep Learning Approach to Video Anomaly Detection using Convolutional Autoencoders ( http://arxiv.org/abs/2311.04351v1 )

ライセンス: Link先を確認
Gopikrishna Pavuluri, Gayathri Annem(参考訳) 本研究では,ucsdデータセット上の畳み込みオートエンコーダとデコーダニューラルネットワークを用いて,映像中の異常を検出するディープラーニング手法を提案する。この手法は畳み込みオートエンコーダを用いて,通常の映像の時空間パターンを学習し,テスト映像の各フレームをこの学習表現と比較する。 ucsdデータセットに対するアプローチを評価し、ped1データセットでは99.35%、ped2データセットでは99.77%の全体的な精度を達成し、監視ビデオにおける異常検出手法の有効性を実証した。 その結果,本手法は他の最先端手法よりも優れており,実世界の映像異常検出に使用できることがわかった。

In this research we propose a deep learning approach for detecting anomalies in videos using convolutional autoencoder and decoder neural networks on the UCSD dataset.Our method utilizes a convolutional autoencoder to learn the spatiotemporal patterns of normal videos and then compares each frame of a test video to this learned representation. We evaluated our approach on the UCSD dataset and achieved an overall accuracy of 99.35% on the Ped1 dataset and 99.77% on the Ped2 dataset, demonstrating the effectiveness of our method for detecting anomalies in surveillance videos. The results show that our method outperforms other state-of-the-art methods, and it can be used in real-world applications for video anomaly detection.
翻訳日:2023-11-09 17:43:21 公開日:2023-11-07
# 協調エッジネットワークにおけるフェデレーション学習のためのデバイスサンプリングと資源最適化

Device Sampling and Resource Optimization for Federated Learning in Cooperative Edge Networks ( http://arxiv.org/abs/2311.04350v1 )

ライセンス: Link先を確認
Su Wang, Roberto Morabito, Seyyedali Hosseinalipour, Mung Chiang, Christopher G. Brinton(参考訳) 従来のフェデレートラーニング(FedL)アーキテクチャは、サーバによって定期的に集約されたローカルモデルをトレーニングすることで、機械学習(ML)をワーカーデバイスに分散させる。 しかし、FedLは現代の無線ネットワークの2つの重要な特徴を無視している。 i)ネットワークには異種通信・計算資源が含まれ、 (ii)デバイスのローカルデータ分布には大きな重複がある可能性がある。 本研究では,デバイス対デバイス(d2d)オフロードを補完するインテリジェントデバイスサンプリングにより,これらの要因を共同で考慮する新しい最適化手法を開発した。 本研究では,サンプルノードとデータオフロード構成の最適な組み合わせを選択し,federトレーニング精度を最大化するとともに,ネットワークトポロジとデバイス能力の現実的な制約を受けるデータ処理とd2d通信リソース消費を最小化することを目的とした。 D2Dオフロードサブプロブレムの理論解析は、新しいFedL収束境界と効率的な逐次凸最適化器をもたらす。 これらの結果を用いて,ネットワーク属性,サンプリングノード,d2dデータオフロードの関係を学習し,feder精度を最大化するグラフ畳み込みネットワーク(gcns)に基づくサンプリング手法を開発した。 エッジテストベッドを用いたポピュラーデータセットの評価と実世界のネットワーク計測により,本手法はmlモデルの性能,データ処理のオーバーヘッド,エネルギー消費の観点から,文献から一般的なデバイスサンプリング手法を上回っていることがわかった。

The conventional federated learning (FedL) architecture distributes machine learning (ML) across worker devices by having them train local models that are periodically aggregated by a server. FedL ignores two important characteristics of contemporary wireless networks, however: (i) the network may contain heterogeneous communication/computation resources, and (ii) there may be significant overlaps in devices' local data distributions. In this work, we develop a novel optimization methodology that jointly accounts for these factors via intelligent device sampling complemented by device-to-device (D2D) offloading. Our optimization methodology aims to select the best combination of sampled nodes and data offloading configuration to maximize FedL training accuracy while minimizing data processing and D2D communication resource consumption subject to realistic constraints on the network topology and device capabilities. Theoretical analysis of the D2D offloading subproblem leads to new FedL convergence bounds and an efficient sequential convex optimizer. Using these results, we develop a sampling methodology based on graph convolutional networks (GCNs) which learns the relationship between network attributes, sampled nodes, and D2D data offloading to maximize FedL accuracy. Through evaluation on popular datasets and real-world network measurements from our edge testbed, we find that our methodology outperforms popular device sampling methodologies from literature in terms of ML model performance, data processing overhead, and energy consumption.
翻訳日:2023-11-09 17:43:07 公開日:2023-11-07
# 科学文書推論における検索型大規模言語モデルの有効性評価

Evaluating the Effectiveness of Retrieval-Augmented Large Language Models in Scientific Document Reasoning ( http://arxiv.org/abs/2311.04348v1 )

ライセンス: Link先を確認
Sai Munikoti, Anurag Acharya, Sridevi Wagle, Sameera Horawalavithana(参考訳) LLM(Large Language Model)開発の劇的な進歩にもかかわらず、LLMは、しばしば幻覚と呼ばれる、もっともらしいが事実ではない情報を提供する。 Retrieval-augmented LLMは、外部データソースから関連情報を検索し、トレーニングプロセスを拡張することで、これらの問題を解決するための非パラメトリックなアプローチを提供する。 これらのモデルは、モデル予測をより良く解釈し検証できるように、外部から提供された知識ベースから証拠を追跡するのに役立ちます。 本研究では,これらのモデルが科学的文書推論タスクで実行可能であることを批判的に評価する。 この目的のために, 科学に焦点をあてた複数のモデル変形をチューニングし, 検索した文書パスの有用性を科学的文書推論ベンチマークで評価した。 以上の結果から, モデルが科学的課題の予測を正当化し, 科学的コーパスを事前学習データとして活用することは, 証拠作成のリスクを軽減するものではないことが示唆された。

Despite the dramatic progress in Large Language Model (LLM) development, LLMs often provide seemingly plausible but not factual information, often referred to as hallucinations. Retrieval-augmented LLMs provide a non-parametric approach to solve these issues by retrieving relevant information from external data sources and augment the training process. These models help to trace evidence from an externally provided knowledge base allowing the model predictions to be better interpreted and verified. In this work, we critically evaluate these models in their ability to perform in scientific document reasoning tasks. To this end, we tuned multiple such model variants with science-focused instructions and evaluated them on a scientific document reasoning benchmark for the usefulness of the retrieved document passages. Our findings suggest that models justify predictions in science tasks with fabricated evidence and leveraging scientific corpus as pretraining data does not alleviate the risk of evidence fabrication.
翻訳日:2023-11-09 17:42:41 公開日:2023-11-07
# SaFL: 顔認識を応用したSybil-aware Federated Learning

SaFL: Sybil-aware Federated Learning with Application to Face Recognition ( http://arxiv.org/abs/2311.04346v1 )

ライセンス: Link先を確認
Mahdi Ghafourian, Julian Fierrez, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales(参考訳) フェデレーション学習(federated learning, fl)は、顧客間で共同学習を行うための機械学習パラダイムである。 主な目標は、プライバシを維持しながら、クライアントのローカルトレーニングパラメータを統合サーバと共有することである。 この方法では、ローカルデバイスに機密データを保持しながら、機械学習モデルの性能向上のために、大量のモバイルユーザーのデータを活用することができる。 マイナス面として、FLは研究を開始したばかりのセキュリティとプライバシーの懸念を高めている。 flの重要な脅威に対処するために、研究者は安全な集約法(準同型暗号化、安全なマルチパーティ計算など)の使用を提案している。 これらのソリューションは、いくつかのセキュリティとプライバシのメトリクスを改善すると同時に、毒殺攻撃、バックドア攻撃、フリーランニング攻撃など他の深刻な脅威をもたらす。 本稿では,新規な時変凝集法を用いてシビルの効果を最小限に抑えるsafl(sybil-aware federated learning)と呼ばれるflの中毒攻撃に対する防御手法を提案する。

Federated Learning (FL) is a machine learning paradigm to conduct collaborative learning among clients on a joint model. The primary goal is to share clients' local training parameters with an integrating server while preserving their privacy. This method permits to exploit the potential of massive mobile users' data for the benefit of machine learning models' performance while keeping sensitive data on local devices. On the downside, FL raises security and privacy concerns that have just started to be studied. To address some of the key threats in FL, researchers have proposed to use secure aggregation methods (e.g. homomorphic encryption, secure multiparty computation, etc.). These solutions improve some security and privacy metrics, but at the same time bring about other serious threats such as poisoning attacks, backdoor attacks, and free running attacks. This paper proposes a new defense method against poisoning attacks in FL called SaFL (Sybil-aware Federated Learning) that minimizes the effect of sybils with a novel time-variant aggregation scheme.
翻訳日:2023-11-09 17:42:26 公開日:2023-11-07
# 宝くじの分類 : オンライン毒性のアノテーションの観点からの課題と機会の探索

A Taxonomy of Rater Disagreements: Surveying Challenges & Opportunities from the Perspective of Annotating Online Toxicity ( http://arxiv.org/abs/2311.04345v1 )

ライセンス: Link先を確認
Wenbo Zhang, Hangzhi Guo, Ian D Kivlichan, Vinodkumar Prabhakaran, Davis Yadav, Amulya Yadav(参考訳) Toxicityは、オンライン空間でますます一般的で深刻な問題になっている。 その結果、過去10年間の機械学習研究の豊富な行は、オンライン毒性を計算的に検出し緩和することに集中してきた。 これらの取り組みは、ソーシャルメディアのテキストで様々な種類の有害なコンテンツを識別する、人間の注釈付きデータセットに依存している。 しかし、歴史的にそのような注釈は、多数決やその他のアプローチで単一根拠の真理ラベルに到達することで取り扱われる、レータ間合意の低いものとなった。 近年の研究では、これらのデータセットの構築と活用において、この課題の主観的性質を考慮に入れることが重要であることが指摘されており、このことが、raterの不一致を分析し、理解を深める作業の引き金となり、それらが機械学習開発パイプラインに効果的に組み込まれる可能性がある。 これらの取り組みは重要なギャップを満たしている一方で、raterの不一致の根本原因に関する広範な枠組みが欠如しているため、この作業はより広い視野内で行われることになる。 本稿では,オンライン毒性に着目したraterの不一致の原因に関する幅広い文献を分析し,それに対する詳細な分類法を提案する。 さらに、各理由を対象とする潜在的な解決策を要約し、議論する。 また、オンライン毒性研究の今後の発展を促進するいくつかのオープンな課題についても論じる。

Toxicity is an increasingly common and severe issue in online spaces. Consequently, a rich line of machine learning research over the past decade has focused on computationally detecting and mitigating online toxicity. These efforts crucially rely on human-annotated datasets that identify toxic content of various kinds in social media texts. However, such annotations historically yield low inter-rater agreement, which was often dealt with by taking the majority vote or other such approaches to arrive at a single ground truth label. Recent research has pointed out the importance of accounting for the subjective nature of this task when building and utilizing these datasets, and this has triggered work on analyzing and better understanding rater disagreements, and how they could be effectively incorporated into the machine learning developmental pipeline. While these efforts are filling an important gap, there is a lack of a broader framework about the root causes of rater disagreement, and therefore, we situate this work within that broader landscape. In this survey paper, we analyze a broad set of literature on the reasons behind rater disagreements focusing on online toxicity, and propose a detailed taxonomy for the same. Further, we summarize and discuss the potential solutions targeting each reason for disagreement. We also discuss several open issues, which could promote the future development of online toxicity research.
翻訳日:2023-11-09 17:42:07 公開日:2023-11-07
# InstrumentGen:テキストからサンプルベースの楽器を生成する

InstrumentGen: Generating Sample-Based Musical Instruments From Text ( http://arxiv.org/abs/2311.04339v1 )

ライセンス: Link先を確認
Shahan Nercessian, Johannes Imort(参考訳) 本稿では,テキストプロンプトに基づくサンプルベースの楽器生成を目的としたテキスト・ツー・インスツルメントタスクを提案する。 そこで,本研究では,テキスト・プロジェクティブ・オーディオ・フレームワークを楽器群,ソースタイプ,ピッチ(88キースペクトル全体),速度,共同テキスト・オーディオ・埋め込みに拡張するモデルであるInstrumentGenを提案する。 さらに, サンプルベース機器のインストルメント内音節の整合性を評価するために, 異なる損失関数を提案する。 本研究は, サンプル自動生成の分野における研究を延長し, 基礎的なテキスト・インスツルメントベースラインを確立する。

We introduce the text-to-instrument task, which aims at generating sample-based musical instruments based on textual prompts. Accordingly, we propose InstrumentGen, a model that extends a text-prompted generative audio framework to condition on instrument family, source type, pitch (across an 88-key spectrum), velocity, and a joint text/audio embedding. Furthermore, we present a differentiable loss function to evaluate the intra-instrument timbral consistency of sample-based instruments. Our results establish a foundational text-to-instrument baseline, extending research in the domain of automatic sample-based instrument generation.
翻訳日:2023-11-09 17:41:45 公開日:2023-11-07
# 制約付き線形バンディットの凸法

Convex Methods for Constrained Linear Bandits ( http://arxiv.org/abs/2311.04338v1 )

ライセンス: Link先を確認
Amirhossein Afsharrad, Ahmadreza Moradipari, Sanjay Lall(参考訳) 近年,人間との交流が繰り返される現実世界の安全クリティカルシステムにおいて,帯域最適化が注目されている。 文献には性能保証のある様々なアルゴリズムが存在するが、実際のアルゴリズムの実装はそれほど注目されていない。 本研究は,convexプログラミングツールを活用して計算効率のよいポリシを作成するフレームワークを導入することにより,安全バンディットアルゴリズム,特に安全線形バンディットの計算的側面を包括的に研究する。 特に,我々はまず,安全な線形バンディット問題に対する最適ポリシーの特性を特徴付け,次いで凸問題のみを解決できる安全な線形バンディットアルゴリズムのエンドツーエンドパイプラインを提案する。 また,提案手法の性能を数値的に評価した。

Recently, bandit optimization has received significant attention in real-world safety-critical systems that involve repeated interactions with humans. While there exist various algorithms with performance guarantees in the literature, practical implementation of the algorithms has not received as much attention. This work presents a comprehensive study on the computational aspects of safe bandit algorithms, specifically safe linear bandits, by introducing a framework that leverages convex programming tools to create computationally efficient policies. In particular, we first characterize the properties of the optimal policy for safe linear bandit problem and then propose an end-to-end pipeline of safe linear bandit algorithms that only involves solving convex problems. We also numerically evaluate the performance of our proposed methods.
翻訳日:2023-11-09 17:41:23 公開日:2023-11-07
# ハイパーカラム相関を用いた効率的なセマンティックマッチング

Efficient Semantic Matching with Hypercolumn Correlation ( http://arxiv.org/abs/2311.04336v1 )

ライセンス: Link先を確認
Seungwook Kim, Juhong Min, Minsu Cho(参考訳) 近年の研究では、4D相関マップにおけるマッチング関係の活用は意味的対応を確立する上で大きな改善をもたらすが、計算と遅延の増大のコストがかかることが示されている。 本研究では,近年の手法の性能改善は,低レベルの幾何学的手がかりから高レベルの意味的文脈に至るまで,様々な情報を保持するマルチスケール相関マップの利用に大きく寄与すると考えられる。 この目的のために,HCCNetを提案する。HCCNetは,高コストなマッチング関係のマイニングを4次元相関マップ上で実現しつつ,マルチスケール相関マップの潜在能力を最大限活用する,効率的かつ効果的なセマンティックマッチング手法である。 具体的には、HCCNetはボトルネック機能に対して機能スライシングを行い、ハイパーカラム相関を構築するために使用される、よりリッチな中間機能セットを生成する。 したがって、HCCNetは、従来の高次元の畳み込みや自己アテンション操作の体積を効率よくポイントワイド畳み込みに減らし、効果的に意味対応を確立することができる。 HCCNetは、セマンティックマッチングの標準ベンチマークで最先端または競合的なパフォーマンスを示しながら、既存のSoTAメソッドと比較して明らかにレイテンシと計算オーバーヘッドが低い。

Recent studies show that leveraging the match-wise relationships within the 4D correlation map yields significant improvements in establishing semantic correspondences - but at the cost of increased computation and latency. In this work, we focus on the aspect that the performance improvements of recent methods can also largely be attributed to the usage of multi-scale correlation maps, which hold various information ranging from low-level geometric cues to high-level semantic contexts. To this end, we propose HCCNet, an efficient yet effective semantic matching method which exploits the full potential of multi-scale correlation maps, while eschewing the reliance on expensive match-wise relationship mining on the 4D correlation map. Specifically, HCCNet performs feature slicing on the bottleneck features to yield a richer set of intermediate features, which are used to construct a hypercolumn correlation. HCCNet can consequently establish semantic correspondences in an effective manner by reducing the volume of conventional high-dimensional convolution or self-attention operations to efficient point-wise convolutions. HCCNet demonstrates state-of-the-art or competitive performances on the standard benchmarks of semantic matching, while incurring a notably lower latency and computation overhead compared to the existing SoTA methods.
翻訳日:2023-11-09 17:41:11 公開日:2023-11-07
# 部分文エンコーダ:命題意味表現のコントラスト学習

Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic Representations ( http://arxiv.org/abs/2311.04335v1 )

ライセンス: Link先を確認
Sihao Chen and Hongming Zhang and Tong Chen and Ben Zhou and Wenhao Yu and Dian Yu and Baolin Peng and Hongwei Wang and Dan Roth and Dong Yu(参考訳) テキストの細粒度意味表現のためのコンテクスト埋め込みモデルであるsub-sentence encoderを提案する。 テキスト列全体の意味を固定長ベクトルに符号化する文埋め込みの標準的な慣習とは対照的に、サブセンスエンコーダは、異なる原子命題、すなわちテキスト列内で表現される意味の原子単位に対応する異なる文脈的埋め込みを生成することを学ぶ。 サブ文埋め込みは、異なるテキストシーケンス間で命題間の意味的同値(推論)を認識することを対照的に学習する。 本実験は,テキストの微粒化に対するサポート事実の検索や,テキスト間の条件付き意味的類似性認識などの応用におけるサブ文エンコーダの有効性を示す。 実際、サブセンテンスエンコーダは文エンコーダと同じレベルの推論コストと空間複雑性を維持できることを実証する。

We introduce sub-sentence encoder, a contrastively-learned contextual embedding model for fine-grained semantic representation of text. In contrast to the standard practice with sentence embeddings, where the meaning of an entire sequence of text is encoded into a fixed-length vector, the sub-sentence encoder learns to produce distinct contextual embeddings corresponding to different atomic propositions, i.e. atomic units of meaning expressed within a text sequence. The sub-sentence embeddings are contrastively learned to recognize (inferred) semantic equivalence between propositions across different text sequences. Our experiments show the effectiveness of sub-sentence encoders in applications, such as retrieving supporting facts for fine-grained text attribution or recognizing the conditional semantic similarity between texts. In practice, we demonstrate that sub-sentence encoders keep the same level of inference cost and space complexity compared to sentence encoders.
翻訳日:2023-11-09 17:40:47 公開日:2023-11-07
# ToP-ToM: 信頼を意識したロボット政策

ToP-ToM: Trust-aware Robot Policy with Theory of Mind ( http://arxiv.org/abs/2311.04397v1 )

ライセンス: Link先を確認
Chuang Yu, Baris Serhan and Angelo Cangelosi(参考訳) 心の理論 (Theory of Mind, ToM) は、人間に心的状態を他人に与える能力を与える基本的な認知アーキテクチャである。 人間は自分の行動を観察することで他人の欲求、信念、意図を推測し、その結果、より良い対人コミュニケーションとチームコラボレーションを促進するために行動を調整する。 本論文では,人間同士がロボットと協力するマルチエージェント環境で,信頼を意識したロボット政策を心の理論を用いて検討した。 チームパフォーマンスにのみ焦点をあてることで、ロボットは逆心理学のトリックに頼り、メンテナンスを信頼する上で大きな脅威となる可能性がある。 人間のロボットへの信頼は、ロボットによる欺きの行動を発見すると崩壊する。 この問題を軽減するため,我々はロボットマインドモデルを採用し,真の信念や虚偽の信念(トムの本質的要素)を含む人間の信頼信念を推論する。 我々は,ロボットの方針学習を指導するために,異なる信頼信念に基づく動的信頼認識報酬関数を設計し,ロボットの逆心理学による人間の信頼崩壊回避のバランスをとることを目的とした。 実験結果から,人間ロボット信頼のためのToM型ロボットポリシーの重要性と,マルチエージェントインタラクション設定におけるToM型ロボットポリシーの有効性が示された。

Theory of Mind (ToM) is a fundamental cognitive architecture that endows humans with the ability to attribute mental states to others. Humans infer the desires, beliefs, and intentions of others by observing their behavior and, in turn, adjust their actions to facilitate better interpersonal communication and team collaboration. In this paper, we investigated trust-aware robot policy with the theory of mind in a multiagent setting where a human collaborates with a robot against another human opponent. We show that by only focusing on team performance, the robot may resort to the reverse psychology trick, which poses a significant threat to trust maintenance. The human's trust in the robot will collapse when they discover deceptive behavior by the robot. To mitigate this problem, we adopt the robot theory of mind model to infer the human's trust beliefs, including true belief and false belief (an essential element of ToM). We designed a dynamic trust-aware reward function based on different trust beliefs to guide the robot policy learning, which aims to balance between avoiding human trust collapse due to robot reverse psychology. The experimental results demonstrate the importance of the ToM-based robot policy for human-robot trust and the effectiveness of our robot ToM-based robot policy in multiagent interaction settings.
翻訳日:2023-11-09 17:30:19 公開日:2023-11-07
# 3DiffTection:幾何学的拡散特徴を考慮した3次元物体検出

3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features ( http://arxiv.org/abs/2311.04391v1 )

ライセンス: Link先を確認
Chenfeng Xu, Huan Ling, Sanja Fidler, Or Litany(参考訳) 本研究では,3次元拡散モデルを用いた3次元物体検出手法である3difftectionを提案する。 3d検出のための大規模な画像データのアノテーションは、リソース集約的で時間がかかります。 近年,2次元知覚タスクに有効な特徴抽出器として,事前訓練された大規模画像拡散モデルが注目されている。 しかし、これらの機能は最初は3dタスクに最適化されていないペアのテキストと画像データに基づいてトレーニングされ、ターゲットデータに適用されるとドメインのギャップが生じることが多い。 我々のアプローチは、幾何学と意味の2つの特別なチューニング戦略を通じて、これらのギャップを埋める。 幾何的チューニングでは、新しいエピポーラワープ演算子を導入し、単一の画像上で新しいビュー合成を行うために拡散モデルを微調整する。 このタスクは2つの基本的な基準を満たしている: 3d認識の必要性と、ポーズ画像データのみに依存すること。 セマンティクスの精細化のために,対象データに対するモデルのさらなる訓練を行い,検出の監督を行う。 どちらのチューニングフェーズも、オリジナルの機能機能の完全性を維持するためにcontrolnetを使用している。 最後のステップでは、これらの拡張機能を利用して、複数の仮想視点でテスト時間予測アンサンブルを実行する。 提案手法により,3次元検出に適した3次元認識機能と,視点間対応の同定に優れる特徴を得る。 その結果,本モデルは,omni3d-arkitsceneデータセット上のap3dにおいて,single-view 3d検出の前例であるcube-rcnnを9.43\%上回る強力な3d検出器として出現する。 さらに、3difftectionは、クロスドメインデータに対するロバストなデータ効率と一般化を示す。

We present 3DiffTection, a state-of-the-art method for 3D object detection from single images, leveraging features from a 3D-aware diffusion model. Annotating large-scale image data for 3D detection is resource-intensive and time-consuming. Recently, pretrained large image diffusion models have become prominent as effective feature extractors for 2D perception tasks. However, these features are initially trained on paired text and image data, which are not optimized for 3D tasks, and often exhibit a domain gap when applied to the target data. Our approach bridges these gaps through two specialized tuning strategies: geometric and semantic. For geometric tuning, we fine-tune a diffusion model to perform novel view synthesis conditioned on a single image, by introducing a novel epipolar warp operator. This task meets two essential criteria: the necessity for 3D awareness and reliance solely on posed image data, which are readily available (e.g., from videos) and does not require manual annotation. For semantic refinement, we further train the model on target data with detection supervision. Both tuning phases employ ControlNet to preserve the integrity of the original feature capabilities. In the final step, we harness these enhanced capabilities to conduct a test-time prediction ensemble across multiple virtual viewpoints. Through our methodology, we obtain 3D-aware features that are tailored for 3D detection and excel in identifying cross-view point correspondences. Consequently, our model emerges as a powerful 3D detector, substantially surpassing previous benchmarks, e.g., Cube-RCNN, a precedent in single-view 3D detection by 9.43\% in AP3D on the Omni3D-ARkitscene dataset. Furthermore, 3DiffTection showcases robust data efficiency and generalization to cross-domain data.
翻訳日:2023-11-09 17:29:35 公開日:2023-11-07
# 分散メモリを用いたメニーコアプロセッサを用いたスパース・リカレントモデルの高速化

Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models ( http://arxiv.org/abs/2311.04386v1 )

ライセンス: Link先を確認
Jan Finkbeiner, Thomas Gmeinder, Mark Pupilli, Alexander Titterton, Emre Neftci(参考訳) 現在のaiトレーニングインフラストラクチャは、シングルインストラクションマルチデータ(simd)と、gpu(graphics processing unit)やtpu(tensor processing units)といったシストリックアレイアーキテクチャによって支配されており、並列ワークロードの高速化や、高密度ベクトル行列の乗算に優れている。 潜在的にスパーシティと再帰性を活用したより効率的なニューラルネットワークモデルは、simdプロセッサのフルパワーを活用できないため、今日のトランスフォーマーやcnnのような著名な並列アーキテクチャに比べて重大なデメリットがあるため、より持続可能なaiへの道を妨げている。 この制限を克服するために、分散ローカルメモリを持つ超並列マルチ命令マルチデータ(mimd)アーキテクチャ上でのスパースおよびリカレントモデルトレーニングについて検討する。 本稿では,脳にインスパイアされたスパイキングニューラルネットワーク(SNN)のための,時間によるバックプロパゲーション(BPTT)に基づくトレーニングルーチンを実装した。 我々は,MIMDプロセッサを用いたスパースアクティベーションテンソル,インテリジェンス・プロセッシング・ユニット(IPU)において,GPUと比較して大きな優位性を示す。 トレーニングワークロードでは,A100 GPUと比較して5~10倍のスループット向上,高レベルのアクティベーションスパシティでは最大38倍のスループット向上を実現した。 さらに, モデルサイズが大きくなるにつれて, シングル IPU 構成とマルチ IPU 構成の両立が期待できる傾向を示した。 我々の研究は、GPUを超えるAIトレーニングハードウェアと競合する大規模SNNモデルを通じて、より効率的で非標準モデルへの道を開いた。

Current AI training infrastructure is dominated by single instruction multiple data (SIMD) and systolic array architectures, such as Graphics Processing Units (GPUs) and Tensor Processing Units (TPUs), that excel at accelerating parallel workloads and dense vector matrix multiplications. Potentially more efficient neural network models utilizing sparsity and recurrence cannot leverage the full power of SIMD processor and are thus at a severe disadvantage compared to today's prominent parallel architectures like Transformers and CNNs, thereby hindering the path towards more sustainable AI. To overcome this limitation, we explore sparse and recurrent model training on a massively parallel multiple instruction multiple data (MIMD) architecture with distributed local memory. We implement a training routine based on backpropagation through time (BPTT) for the brain-inspired class of Spiking Neural Networks (SNNs) that feature binary sparse activations. We observe a massive advantage in using sparse activation tensors with a MIMD processor, the Intelligence Processing Unit (IPU) compared to GPUs. On training workloads, our results demonstrate 5-10x throughput gains compared to A100 GPUs and up to 38x gains for higher levels of activation sparsity, without a significant slowdown in training convergence or reduction in final model performance. Furthermore, our results show highly promising trends for both single and multi IPU configurations as we scale up to larger model sizes. Our work paves the way towards more efficient, non-standard models via AI training hardware beyond GPUs, and competitive large scale SNN models.
翻訳日:2023-11-09 17:29:04 公開日:2023-11-07
# 非登録面の空間における基礎制限弾性形状解析

Basis restricted elastic shape analysis on the space of unregistered surfaces ( http://arxiv.org/abs/2311.04382v1 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson, Martin Bauer, Mohamed Daoudi, Nicolas Charon(参考訳) 本稿では,形状空間上の弾性リーマン計量の一般設定から導かれる表面解析の新しい数学的・数値的枠組みを提案する。 伝統的に、これらの計量は没入曲面の無限次元多様体上で定義され、リパラメトリゼーションのような変換を保存する面のモジュラー形状の比較を可能にする特定の不変性を満たす。 我々が展開するアプローチの特異性は、変形場の事前定義された有限次元基底への許容変換の空間を制限することである。 これらはデータ駆動の方法で推定され、トレーニングセットで観察される特定の種類の表面変換をエミュレートする。 そのような基底を用いることで、対応する形状空間の有限次元の潜在空間への表現を単純化することができる。 しかし、例えばメッシュオートエンコーダを含む手法とは対照的に、潜在空間には上記の弾性計量の族から正確に受け継がれた非ユークリッドリーマン計量が備わっている。 次に,この基底制約モデルを用いて,表面メッシュ上で様々なタスクを実行するように効果的に実装できることを実証する。 我々は,人体の形状やポーズデータや顔スキャンに対するアプローチを具体的に検証し,形状登録,補間,運動移動,ランダムポーズ生成といった問題に対する最先端の手法を概ね上回っていることを示す。

This paper introduces a new mathematical and numerical framework for surface analysis derived from the general setting of elastic Riemannian metrics on shape spaces. Traditionally, those metrics are defined over the infinite dimensional manifold of immersed surfaces and satisfy specific invariance properties enabling the comparison of surfaces modulo shape preserving transformations such as reparametrizations. The specificity of the approach we develop is to restrict the space of allowable transformations to predefined finite dimensional bases of deformation fields. These are estimated in a data-driven way so as to emulate specific types of surface transformations observed in a training set. The use of such bases allows to simplify the representation of the corresponding shape space to a finite dimensional latent space. However, in sharp contrast with methods involving e.g. mesh autoencoders, the latent space is here equipped with a non-Euclidean Riemannian metric precisely inherited from the family of aforementioned elastic metrics. We demonstrate how this basis restricted model can be then effectively implemented to perform a variety of tasks on surface meshes which, importantly, does not assume these to be pre-registered (i.e. with given point correspondences) or to even have a consistent mesh structure. We specifically validate our approach on human body shape and pose data as well as human face scans, and show how it generally outperforms state-of-the-art methods on problems such as shape registration, interpolation, motion transfer or random pose generation.
翻訳日:2023-11-09 17:28:34 公開日:2023-11-07
# 最小固有値を求める平方根高速化

A square-root speedup for finding the smallest eigenvalue ( http://arxiv.org/abs/2311.04379v1 )

ライセンス: Link先を確認
Alex Kerzner, Vlad Gheorghiu, Michele Mosca, Thomas Guilbaud, Federico Carminati, Fabio Fracas, Luca Dellantonio(参考訳) エルミート行列の最小固有値を求める量子アルゴリズムについて述べる。 このアルゴリズムは、量子位相推定と量子振幅推定を組み合わせることで、行列次元の最良の古典的アルゴリズム、すなわち、行列を符号化するオラクルに対して、$n$が行列次元であり$\epsilon$が所望の精度である$\widetilde{\mathcal{o}}(\sqrt{n}/\epsilon)$ブラックボックスクエリを実現する。 対照的に、同じタスクに最適な古典的アルゴリズムは$\Omega(N)\text{polylog}(1/\epsilon)$クエリを必要とする。 さらに、このアルゴリズムにより、ユーザは一定の成功確率を選択できる。 また、同じランタイムで同様のアルゴリズムを提供し、行列の低エネルギー部分空間に主に置かれる量子状態の準備を可能にします。 両アルゴリズムのシミュレーションを実装し,量子化学および材料科学における問題への応用を実証する。

We describe a quantum algorithm for finding the smallest eigenvalue of a Hermitian matrix. This algorithm combines Quantum Phase Estimation and Quantum Amplitude Estimation to achieve a quadratic speedup with respect to the best classical algorithm in terms of matrix dimensionality, i.e., $\widetilde{\mathcal{O}}(\sqrt{N}/\epsilon)$ black-box queries to an oracle encoding the matrix, where $N$ is the matrix dimension and $\epsilon$ is the desired precision. In contrast, the best classical algorithm for the same task requires $\Omega(N)\text{polylog}(1/\epsilon)$ queries. In addition, this algorithm allows the user to select any constant success probability. We also provide a similar algorithm with the same runtime that allows us to prepare a quantum state lying mostly in the matrix's low-energy subspace. We implement simulations of both algorithms and demonstrate their application to problems in quantum chemistry and materials science.
翻訳日:2023-11-09 17:28:09 公開日:2023-11-07
# 砂中の透かし:生成モデルにおける強透かしの可能性

Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models ( http://arxiv.org/abs/2311.04378v1 )

ライセンス: Link先を確認
Hanlin Zhang, Benjamin L. Edelman, Danilo Francati, Daniele Venturi, Giuseppe Ateniese, Boaz Barak(参考訳) 透かし生成モデルは、モデルの出力に統計信号(透かし)を植えることで、その出力が与えられたモデルによって生成されたことを後から検証することができる。 強力な透かしスキームは、計算的に有界な攻撃者が重要な品質劣化を引き起こすことなく透かしを消去できないという特性を満たす。 本稿では,強力な透かし方式の (im) 可能性について検討する。 我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。 これは、ウォーターマーク挿入および検出アルゴリズムが攻撃者に未知の秘密鍵を共有するプライベート検出アルゴリズム設定においても保持される。 この結果を証明するために,攻撃者はスキームの秘密鍵やどのスキームが使用されるかを知る必要がなく,汎用的な効果的なウォーターマーク攻撃を導入する。 我々の攻撃は,(1) 攻撃者は,(1) 候補者の出力がプロンプトに対する高品質な応答であるかどうかを評価できる「品質オラクル」にアクセスし,(2) 攻撃者は,品質を維持する非自明な確率で出力を変更可能な「摂動オラクル」にアクセスでき,高品質な出力を効率的に混合したランダムウォークを誘導する。 我々は、どちらの仮定も、攻撃者がブラックボックスアクセスしか持たないウォーターマークモデル自体よりも弱い計算能力を持つ攻撃者によって現実的に満足できると論じる。 さらに、モデルが能力とモダリティを増すにつれ、私たちの仮定は時間とともに満足しやすくなるでしょう。 我々は,kirchenbauer et al. (2023), kuditipudi et al. (2023), zhao et al. (2023) という,大規模言語モデルのための既存の3つの透かしスキームをインスタンス化することで,攻撃の可能性を示す。 同じ攻撃は、3つのスキームすべてによって植えられた透かしをうまく取り除き、わずかな品質の劣化だけでした。

Watermarking generative models consists of planting a statistical signal (watermark) in a model's output so that it can be later verified that the output was generated by the given model. A strong watermarking scheme satisfies the property that a computationally bounded attacker cannot erase the watermark without causing significant quality degradation. In this paper, we study the (im)possibility of strong watermarking schemes. We prove that, under well-specified and natural assumptions, strong watermarking is impossible to achieve. This holds even in the private detection algorithm setting, where the watermark insertion and detection algorithms share a secret key, unknown to the attacker. To prove this result, we introduce a generic efficient watermark attack; the attacker is not required to know the private key of the scheme or even which scheme is used. Our attack is based on two assumptions: (1) The attacker has access to a "quality oracle" that can evaluate whether a candidate output is a high-quality response to a prompt, and (2) The attacker has access to a "perturbation oracle" which can modify an output with a nontrivial probability of maintaining quality, and which induces an efficiently mixing random walk on high-quality outputs. We argue that both assumptions can be satisfied in practice by an attacker with weaker computational capabilities than the watermarked model itself, to which the attacker has only black-box access. Furthermore, our assumptions will likely only be easier to satisfy over time as models grow in capabilities and modalities. We demonstrate the feasibility of our attack by instantiating it to attack three existing watermarking schemes for large language models: Kirchenbauer et al. (2023), Kuditipudi et al. (2023), and Zhao et al. (2023). The same attack successfully removes the watermarks planted by all three schemes, with only minor quality degradation.
翻訳日:2023-11-09 17:27:51 公開日:2023-11-07
# 熱平衡または真空中の双曲運動における偏光粒子のスカラーqedモデル

Scalar QED Model for Polarizable Particles in Thermal Equilibrium or in Hyperbolic Motion in Vacuum ( http://arxiv.org/abs/2311.04377v1 )

ライセンス: Link先を確認
Kanu Sinha and Peter W. Milonni(参考訳) 偏光性粒子の熱平衡における摩擦力および運動量変動のスカラーQEDモデルと真空中における双曲運動について検討した。 前者の場合、摩擦力による粒子運動エネルギーの損失は運動量拡散に伴う運動エネルギーの増加によって補償され、その結果、平均運動エネルギーが等分定理を満たすと仮定された場合にプランク分布が生じる。 真空中における双曲運動の場合、摩擦力と運動量拡散は同様にデイビス-ウンルー温度の熱平衡と一致する。 運動量の量子揺らぎは、粒子が一定の印加力を受けるとき、その粒子が一定となる平均加速度であることを意味する。

We consider a scalar QED model for the frictional force and the momentum fluctuations of a polarizable particle in thermal equilibrium with radiation or in hyperbolic motion in a vacuum. In the former case the loss of particle kinetic energy due to the frictional force is compensated by the increase in kinetic energy associated with the momentum diffusion, resulting in the Planck distribution when it is assumed that the average kinetic energy satisfies the equipartition theorem. For hyperbolic motion in vacuum the frictional force and the momentum diffusion are similarly consistent with a thermal equilibrium at the Davies-Unruh temperature. The quantum fluctuations of the momentum imply that it is only the average acceleration that is constant when the particle is subject to a constant applied force.
翻訳日:2023-11-09 17:27:14 公開日:2023-11-07
# ヒッグス真空がゼロの可視宇宙の双対として実現される隠れたセクタダークマター

Hidden Sector Dark Matter Realized as a Twin of the Visible Universe With Zero Higgs Vacuum Expectation ( http://arxiv.org/abs/2308.08107v3 )

ライセンス: Link先を確認
Stephen L. Adler(参考訳) 宇宙は2つの同一の粒子集合とゲージ相互作用を含み、ヒッグスポテンシャルによって異なる重力によってのみ結合する。 基礎となる対称性のため、非結合時の2つのセクタは非零相と零ヒッグス真空期待相の境界にあるヒッグスポテンシャルを持つと仮定する。 2つのセクター間の結合を断ち切ることで、あるセクターにおけるヒッグスポテンシャルを非ゼロヒッグス期待領域に(可視セクターを)押し込み、もう一方セクターにおけるヒッグスポテンシャルをゼロヒッグス期待領域に(暗セクターを)押し込むことができる。 ダークセクターで最小の質量のバリオンは、自ら相互作用するダークマター粒子の候補となる。

We propose that the universe contains two identical sets of particles and gauge interactions, coupling only through gravitation, which differ by their Higgs potentials. We postulate that because of underlying symmetries, the two sectors when uncoupled have Higgs potentials that lie at the boundary between phases with nonzero and zero Higgs vacuum expectation. Turning on the coupling between the two sectors can break the degeneracy, pushing the Higgs potential in one sector into the domain of nonzero Higgs expectation (giving the visible sector), and pushing the Higgs potential in the other sector into the domain of zero Higgs expectation (giving the dark sector). The least massive baryon in the dark sector will then be a candidate self-interacting dark matter particle.
翻訳日:2023-11-09 12:58:26 公開日:2023-11-07
# 量子熱化学エンジン

Quantum thermochemical engines ( http://arxiv.org/abs/2208.04132v2 )

ライセンス: Link先を確認
Ugo Marzolino(参考訳) 化学エネルギーの機械加工への変換は、分子機械やブラウンモーターのようなナノスケールにおけるいくつかの自然現象の基本的なメカニズムである。 量子力学的効果はこれらのプロセスの最適化と原子スケールでの実装に関係している。 本稿では, 異なる化学ポテンシャルで熱源とエネルギーおよび粒子交換によって化学作用を機械作用に変換するエンジンについて述べる。 可逆性は、時間に依存する量子マスター方程式によって生成される有限時間ダイナミクスによるエンジン変換をモデル化することによって導入された。 量子縮退ガスは可逆エンジンの最大効率を提供するが、古典的な限界は少ない効率を示す。 不可逆エンジンの場合、最大出力での出力パワーと効率の両方が古典的な限界よりも量子状態においてはるかに大きい。 理想的な均一気体の分析は、上記の性能に対する量子統計の影響を把握し、相互作用の存在とより一般的なトラップングを継続する。 また, ボース・アインシュタイン凝縮体 (BECs) の性能依存性についても検討した。 検討中のBECは、基底状態に有限個の粒子を持つ標準BECであり、並列モータを持つ固有状態またはコプラナーモータを持つ状態が閉じ込め異方性に応じてマクロ的に占有される一般化BECである。 したがって、量子統計学は化学を機械的作業に変換する性能を高めるための資源である。

Conversion of chemical energy into mechanical work is the fundamental mechanism of several natural phenomena at the nanoscale, like molecular machines and Brownian motors. Quantum mechanical effects are relevant for optimising these processes and to implement them at the atomic scale. This paper focuses on engines that transform chemical work into mechanical work through energy and particle exchanges with thermal sources at different chemical potentials. Irreversibility is introduced by modelling the engine transformations with finite-time dynamics generated by a time-depending quantum master equation. Quantum degenerate gases provide maximum efficiency for reversible engines, whereas the classical limit implies small efficiency. For irreversible engines, both the output power and the efficiency at maximum power are much larger in the quantum regime than in the classical limit. The analysis of ideal homogeneous gases grasps the impact of quantum statistics on the above performances, which persists in the presence of interactions and more general trapping. The performance dependence on different types of Bose-Einstein Condensates (BECs) is also studied. BECs under considerations are standard BECs with a finite fraction of particles in the ground state, and generalised BECs where eigenstates with parallel momenta, or those with coplanar momenta are macroscopically occupied according to the confinement anisotropy. Quantum statistics is therefore a resource for enhanced performances of converting chemical into mechanical work.
翻訳日:2023-11-08 23:17:02 公開日:2023-11-07
# 構造因果モデル - 線形プログラムモデリングにおける共同創設者のバイアス

Structural Causal Models Reveal Confounder Bias in Linear Program Modelling ( http://arxiv.org/abs/2105.12697v6 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) 近年、特にディープニューラルネットワークにおいて、敵対的攻撃に関する広範な研究が注目されている。 この研究で我々は,この現象が自然界において,すなわち,古典的分類タスク以外での敵対的攻撃としてより一般的であるかどうか,という疑問を提起し,検討する。 具体的には,現代AI研究の基本部分を構成する最適化問題について検討する。 この目的のために,線形プログラム (LP) というオプティマイザの基本クラスを検討する。 対向例の形式主義とLPの「対向写像」の最初の試みにおいて、LPの対向例の合理的な概念を理解するために欠落する重要な要素を素早く同定した。 興味深いことに、パールの因果性の概念の形式主義は、LPの例のような敵の正しい記述を可能にする。 特徴として、構造因果モデル(SCM)がその後のLP最適化に直接的な影響を与えることを示し、最終的に(SCMが継承した)LPにおける相反する概念が敵対的な攻撃を可能にする。 本稿では,3つの組合せ問題,すなわち線形アサインメント,ショート・パス,およびエネルギーシステムの実世界の問題に対する,SCMに基づくLPパラメータ化の有意な証明とともに,公式な証明を提供する。

The recent years have been marked by extended research on adversarial attacks, especially on deep neural networks. With this work we intend on posing and investigating the question of whether the phenomenon might be more general in nature, that is, adversarial-style attacks outside classical classification tasks. Specifically, we investigate optimization problems as they constitute a fundamental part of modern AI research. To this end, we consider the base class of optimizers namely Linear Programs (LPs). On our initial attempt of a na\"ive mapping between the formalism of adversarial examples and LPs, we quickly identify the key ingredients missing for making sense of a reasonable notion of adversarial examples for LPs. Intriguingly, the formalism of Pearl's notion to causality allows for the right description of adversarial like examples for LPs. Characteristically, we show the direct influence of the Structural Causal Model (SCM) onto the subsequent LP optimization, which ultimately exposes a notion of confounding in LPs (inherited by said SCM) that allows for adversarial-style attacks. We provide both the general proof formally alongside existential proofs of such intriguing LP-parameterizations based on SCM for three combinatorial problems, namely Linear Assignment, Shortest Path and a real world problem of energy systems.
翻訳日:2023-11-08 23:16:09 公開日:2023-11-07
# 制限付き非凸最適化のための縮小半径によるブロック偏極最小化

Block majorization-minimization with diminishing radius for constrained nonconvex optimization ( http://arxiv.org/abs/2012.03503v5 )

ライセンス: Link先を確認
Hanbaek Lyu and Yuchen Li(参考訳) BMM(Block Majorization-minimization)は、非凸制約最適化のための単純な反復アルゴリズムであり、各ブロック座標における目的関数のサロゲートを逐次最小化し、他の座標を固定する。 bmmはブロック座標降下とその近点変種、期待最小化、ブロック投影勾配降下といった大きな最適化アルゴリズムを含んでいる。 一般に制約のある非凸最適化では、強凸サロゲートを持つ bmm は $o(\epsilon^{-2}(\log \epsilon^{-1})^{2})$ の反復内に $\epsilon$-stationary point を生成でき、漸近的に定常点の集合に収束する。 さらに, コンベックスのみのサロゲートを処理し, 繰り返しの複雑さと漸近的な定常性が得られるBMMの信頼領域変種を提案する。 これらの結果は、最適性ギャップが要約可能である限り、凸部分問題が不必要に解かれた場合でも頑健に保たれる。 応用として、Lee と Seung による非負行列因数分解のための有名な乗法更新アルゴリズムの正規化バージョンが、反復複雑性$O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$であることを示す。 同じ結果は、正規化された非負のテンソル分解アルゴリズムと古典的ブロック投影勾配勾配アルゴリズムの幅広いクラスに当てはまる。 これらの理論結果は様々な数値実験によって検証される。

Block majorization-minimization (BMM) is a simple iterative algorithm for nonconvex constrained optimization that sequentially minimizes majorizing surrogates of the objective function in each block coordinate while the other coordinates are held fixed. BMM entails a large class of optimization algorithms such as block coordinate descent and its proximal-point variant, expectation-minimization, and block projected gradient descent. We establish that for general constrained nonconvex optimization, BMM with strongly convex surrogates can produce an $\epsilon$-stationary point within $O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$ iterations and asymptotically converges to the set of stationary points. Furthermore, we propose a trust-region variant of BMM that can handle surrogates that are only convex and still obtain the same iteration complexity and asymptotic stationarity. These results hold robustly even when the convex sub-problems are inexactly solved as long as the optimality gaps are summable. As an application, we show that a regularized version of the celebrated multiplicative update algorithm for nonnegative matrix factorization by Lee and Seung has iteration complexity of $O(\epsilon^{-2}(\log \epsilon^{-1})^{2})$. The same result holds for a wide class of regularized nonnegative tensor decomposition algorithms as well as the classical block projected gradient descent algorithm. These theoretical results are validated through various numerical experiments.
翻訳日:2023-11-08 23:15:46 公開日:2023-11-07
# 操作とピアメカニズム:調査

Manipulation and Peer Mechanisms: A Survey ( http://arxiv.org/abs/2210.01984v2 )

ライセンス: Link先を確認
Matthew Olckers, Toby Walsh(参考訳) ピアメカニズムでは、賞の競争相手も勝者を決定する。 各競技者には、賞のランク、成績、候補者の指名を依頼することができる。 この賞は、金融援助、コースグレード、会議での賞などの価値があり得るため、競技者はその仕組みを操作する誘惑を受けることができる。 ピアメカニズムの操作を防止または回避するためのアプローチを調査する。 我々はいくつかの重要な研究課題を特定して調査を締めくくる。

In peer mechanisms, the competitors for a prize also determine who wins. Each competitor may be asked to rank, grade, or nominate peers for the prize. Since the prize can be valuable, such as financial aid, course grades, or an award at a conference, competitors may be tempted to manipulate the mechanism. We survey approaches to prevent or discourage the manipulation of peer mechanisms. We conclude our survey by identifying several important research challenges.
翻訳日:2023-11-08 23:11:23 公開日:2023-11-07
# 量子マックスカットの近似アルゴリズムの改良

An Improved Approximation Algorithm for Quantum Max-Cut ( http://arxiv.org/abs/2209.02589v3 )

ライセンス: Link先を確認
Robbie King(参考訳) sdp緩和を絡み合った量子状態へと丸めることで機能する量子マックスカットの近似アルゴリズムを提案する。 SDPは変動量子回路のパラメータを選択するために用いられる。 絡み合った状態は、製品状態に適用された量子回路として表現される。 三角グラフ上の近似比0.582を達成する。 前回のAnshu、Gosset、Morenz、Parekhのアルゴリズムでは、それぞれ0.531と0.533の近似比を達成した。 さらに、EPRハミルトニアンの研究は、局所ハミルトニアン問題のいくつかの重要な量子的特徴を分離する自然中間問題であると主張する。 eprハミルトニアンに対して、すべてのグラフに対して近似比 1 / \sqrt{2}$ の近似アルゴリズムを与える。

We give an approximation algorithm for Quantum Max-Cut which works by rounding an SDP relaxation to an entangled quantum state. The SDP is used to choose the parameters of a variational quantum circuit. The entangled state is then represented as the quantum circuit applied to a product state. It achieves an approximation ratio of 0.582 on triangle-free graphs. The previous best algorithms of Anshu, Gosset, Morenz, and Parekh, Thompson achieved approximation ratios of 0.531 and 0.533 respectively. In addition, we study the EPR Hamiltonian, which we argue is a natural intermediate problem which isolates some key quantum features of local Hamiltonian problems. For the EPR Hamiltonian, we give an approximation algorithm with approximation ratio $1 / \sqrt{2}$ on all graphs.
翻訳日:2023-11-08 23:11:16 公開日:2023-11-07
# 空間変動一般化ガウスモデルに基づく共同画像復元と特徴抽出のための変分アプローチ

A Variational Approach for Joint Image Recovery and Feature Extraction Based on Spatially-Varying Generalised Gaussian Models ( http://arxiv.org/abs/2209.01375v2 )

ライセンス: Link先を確認
Emilie Chouzenoux, Marie-Caroline Corbineau, Jean-Christophe Pesquet, Gabriele Scrivanti(参考訳) 再構成/特徴抽出の連立問題は画像処理において難しい課題である。 画像の復元と特徴の抽出を共同で行う。 本稿では,まず,この問題の非滑らかかつ非凸な変分定式化を提案する。 この目的のために、指数を含むパラメータが空間不変である全多元一般化ガウス事前を導入する。 第二に、提案した非凸目的関数の構造を効率的に活用する交互近位最適化アルゴリズムを設計する。 また,このアルゴリズムの収束を解析する。 連成除染作業における数値実験で示すように,提案手法は高品質な結果をもたらす。

The joint problem of reconstruction / feature extraction is a challenging task in image processing. It consists in performing, in a joint manner, the restoration of an image and the extraction of its features. In this work, we firstly propose a novel nonsmooth and non-convex variational formulation of the problem. For this purpose, we introduce a versatile generalised Gaussian prior whose parameters, including its exponent, are space-variant. Secondly, we design an alternating proximal-based optimisation algorithm that efficiently exploits the structure of the proposed non-convex objective function. We also analyse the convergence of this algorithm. As shown in numerical experiments conducted on joint deblurring/segmentation tasks, the proposed method provides high-quality results.
翻訳日:2023-11-08 23:11:04 公開日:2023-11-07
# ゴールを意識した後見経験リプレイの失敗

Failed Goal Aware Hindsight Experience Replay ( http://arxiv.org/abs/2208.14741v3 )

ライセンス: Link先を確認
Taeyoung Kim, Dongsoo Har(参考訳) 与えられた環境に対する多目的強化学習において、エージェントは環境との相互作用から得られる経験を用いて、複数の目標を達成するためのポリシーを学ぶ。 この設定における重要な課題の1つは、スパースバイナリ報酬を使用したトレーニングエージェントである。 この課題に対処するため、後視体験再生(HER)は失敗経験から成功した経験を生成する。 しかし、一様にサンプリングされた経験から成功した経験を生成するプロセスは非効率である。 本稿では, サンプリング効率を高めるために, 目標認識の失敗 (faher) と呼ばれる新しいアプローチを提案する。 このアプローチは、達成できない本来の目標として定義される失敗した目標に関連して達成された目標の特性を利用する。 提案手法では,クラスタモデルを用いて達成目標の異なるエピソードをクラスタリングし,その後に自身の方法で経験をサンプリングする。 クラスタモデルは、失敗した目標にクラスタリングアルゴリズムを適用することで生成される。 提案手法は,OpenAIジムの3つのロボット制御タスクを用いた実験により検証された。 実験の結果,提案手法はサンプル効率が向上し,ベースライン法よりも性能が向上することが示された。

In multi-goal reinforcement learning for a given environment, agents learn policies to achieve multiple goals by using experiences gained from interactions with the environment. One of the key challenges in this setting is training agents using sparse binary rewards, which can be difficult due to a lack of successful experiences. To address this challenge, hindsight experience replay (HER) generates successful experiences from unsuccessful experiences. However, the process of generating successful experiences from uniformly sampled ones can be inefficient. In this paper, a novel approach called Failed goal Aware HER (FAHER) is proposed to enhance the sampling efficiency. The approach exploits the property of achieved goals in relation to failed goals that are defined as the original goals not achieved. The proposed method involves clustering episodes with different achieved goals using a cluster model and subsequently sampling experiences in the manner of HER. The cluster model is generated by applying a clustering algorithm to failed goals. The proposed method is validated by experiments with three robotic control tasks of the OpenAI gym. The results of experiments demonstrate that the proposed method is more sample efficient and achieves improved performance over baseline approaches.
翻訳日:2023-11-08 23:10:52 公開日:2023-11-07
# コヒーレント制御熱化プロセスによる熱状態の活性化

Activation of thermal states by coherently controlled thermalization processes ( http://arxiv.org/abs/2208.04034v2 )

ライセンス: Link先を確認
Kyrylo Simonov, Saptarshi Roy, Tamal Guha, Zolt\'an Zimbor\'as, Giulio Chiribella(参考訳) 熱分解プロセスは、任意の加工媒体の状態が劣化し、任意の初期状態が抽出できないパッシブ状態となる。 最近、量子SWITCHと呼ばれるシナリオにおいて、2つの同じ熱化過程がコヒーレントに制御された順序で行われる場合、この劣化は避けられることが示されている。 ある状況では、順序の制御は、媒体が当初受動的状態であったときの作業抽出を可能にする。 しかし、この活性化現象には限界がある: ゼロでない仕事を抽出するためには、媒体の初期温度は貯水池の温度の半分以下でなければならない。 ここで、この制限を解析し、媒体がコヒーレントに制御された順序で$n\ge 2$の貯水池と相互作用してもなお真であることを示す。 次に, 媒体と制御系が初期相関している場合に, 制限を解除できることを示す。 特に、媒体と制御が絡まった場合、媒体の局所温度の初期値毎にワーク抽出が可能となる。

Thermalization processes degrade the states of any working medium, turning any initial state into a passive state from which no work can be extracted. Recently, it has been shown that this degradation can be avoided if two identical thermalization processes take place in coherently controlled order, in a scenario known as the quantum SWITCH. In some situations, control over the order even enables work extraction when the medium was initially in a passive state. This activation phenomenon, however, is subject to a limitation: to extract non-zero work, the initial temperature of the medium should be less than half of the temperature of the reservoirs. Here we analyze this limitation, showing that it still holds true even when the medium interacts with $N\ge 2$ reservoirs in a coherently-controlled order. Then, we show that the limitation can be lifted when the medium and the control systems are initially correlated. In particular, when the medium and control are entangled, work extraction becomes possible for every initial value of the local temperature of the medium.
翻訳日:2023-11-08 23:10:37 公開日:2023-11-07
# プログラマブル量子プロセッサを用いた逐次stern-gerlach実験の提案

Proposal for Sequential Stern-Gerlach Experiment with Programmable Quantum Processors ( http://arxiv.org/abs/2208.00167v2 )

ライセンス: Link先を確認
Meng-Jun Hu, Haixing Miao, and Yong-Sheng Zhang(参考訳) Stern-Gerlach実験の歴史的意義は、宇宙量子化の初期の証拠を提供することである。 時間とともに、その逐次形式は、量子論の基本原理を効果的に示すエレガントなパラダイムへと進化してきた。 これまで、シーケンシャルStern-Gerlach実験の実践的な実装は完了していない。 本研究では、逐次Stern-Gerlach実験をシミュレートするプログラマブル量子プロセッサの能力を実証する。 特定のパラメトリック浅量子回路は、現在のノイズ量子ハードウェアの限界に適したものであり、異なる方向に測定を行う能力を持つStern-Gerlachデバイスの機能を再現するために与えられる。 驚くべきことに、WignerのStern-Gerlach干渉計はシーケンシャル量子回路で容易に実装可能であることが示されている。 同一回路を利用することで、ホイーラーの遅延選択実験を実施することもできる。 そこで本研究では, プログラム可能量子プロセッサを用いた逐次実験を行い, シミュレーション結果と理論予測との整合性を示す。 baqis quafuのようなクラウドベースの量子コンピューティングの急速な進歩により、提案するソリューションはクラウドへのデプロイに適しており、パブリックアクセシビリティが確保できると信じています。 我々の発見は、量子コンピュータの潜在的な応用を広げるだけでなく、量子理論の基本原理のより深い理解にも貢献する。

The historical significance of the Stern-Gerlach experiment lies in its provision of the initial evidence for space quantization. Over time, its sequential form has evolved into an elegant paradigm that effectively illustrates the fundamental principles of quantum theory. To date, the practical implementation of the sequential Stern-Gerlach experiment has not been fully achieved. In this study, we demonstrate the capability of programmable quantum processors to simulate the sequential Stern-Gerlach experiment. The specific parametric shallow quantum circuits, which are suitable for the limitations of current noisy quantum hardware, are given to replicate the functionality of Stern-Gerlach devices with the ability to perform measurements in different directions. Surprisingly, it has been demonstrated that Wigner's Stern-Gerlach interferometer can be readily implemented in our sequential quantum circuit. With the utilization of the identical circuits, it is also feasible to implement Wheeler's delayed-choice experiment. We propose the utilization of cross-shaped programmable quantum processors to showcase sequential experiments, and the simulation results demonstrate a strong alignment with theoretical predictions. With the rapid advancement of cloud-based quantum computing, such as BAQIS Quafu, it is our belief that the proposed solution is well-suited for deployment on the cloud, allowing for public accessibility. Our findings not only expand the potential applications of quantum computers, but also contribute to a deeper comprehension of the fundamental principles underlying quantum theory.
翻訳日:2023-11-08 23:10:19 公開日:2023-11-07
# 量子ダーウィン主義と近似量子マルコビアン性の関係について

On the relation between quantum Darwinism and approximate quantum Markovianity ( http://arxiv.org/abs/2207.02470v3 )

ライセンス: Link先を確認
Xiao-Kan Guo and Zhiqiang Huang(参考訳) 文献には、量子非マルコフ性が量子ダーウィン論の存在を妨げるという強い証拠がある。 本稿では、量子条件相互情報の性質を利用して、オープン量子系における量子ダーウィン主義と近似量子マルコビアン性の関係を考察する。 約マルコフ量子過程において、条件付き相互情報は量子ダーウィン論のスケーリング特性を持つことを示す。 次に、情報のバックフローに関する2つの一般的な境界が得られ、量子ダーウィン論の存在は情報バックフローを制限し、量子非マルコフ性は小さくなければならないことを示すことができる。

There are strong evidences in the literature that quantum non-Markovianity would hinder the presence of Quantum Darwinism. In this Letter, we study the relation between quantum Darwinism and approximate quantum Markovianity for open quantum systems by exploiting the properties of quantum conditional mutual information. We show that for approximately Markovian quantum processes the conditional mutual information still has the scaling property for Quantum Darwinism. Then two general bounds on the backflow of information are obtained, with which we can show that the presence of Quantum Darwinism restricts the information backflow and the quantum non-Markovianity must be small.
翻訳日:2023-11-08 23:09:55 公開日:2023-11-07
# 任意に多くの独立観測者によって連続的に三部類非局所性を共有する

Sharing tripartite nonlocality sequentially by arbitrarily many independent observers ( http://arxiv.org/abs/2207.00296v2 )

ライセンス: Link先を確認
Ya Xi Mao-Sheng Li Libin Fu and Zhu-Jun Zheng(参考訳) Clauser-Horne-Shimony-Holt (CHSH) Bellの不平等の違反を1つのアリスと任意に多くの連続したボブによって観察できる二分的絡み合い状態(Phys. Rev. 125, 090401 (2020)))がある。 ここでは三部体系の類似を考察する:三部体系の絡み合った状態はアリス、ボブ、および複数のチャーリーの間で共有される。 最初のチャーリーはキュービットを計測し、次に次のチャーリーにキュービットを渡す。 ゴールは、アリスとボブで何らかの非局所性を観察できるチャーリーの数を最大化することである。 少なくとも2つのチャーリーは、アリスとボブとのsvetlichny不等式を破ることで、グリーンバーガー=ホーン=サイーリンガー(ghz)状態の真の非局所性を共有することが示されている [quantum inf. process. 18, 42 (2019) and phys. rev. a 103, 032216 (2021)]。 本研究は, 任意の数のチャーリーが標準的な非局所性(メルミン不等式違反)と, 1つのアリスと1つのボブとの真の非局所性(真の非局所性)を持つことを示す。

There exist bipartite entangled states whose violations of Clauser-Horne-Shimony-Holt (CHSH) Bell inequality can be observed by a single Alice and arbitrarily many sequential Bobs [Phys. Rev. Lett. 125, 090401 (2020)]. Here we consider its analogues for tripartite systems: a tripartite entangled state is shared among Alice, Bob and multiple Charlies. The first Charlie measures his qubit and then passes his qubit to the next Charlie who measures again with other measurements and so on. The goal is to maximize the number of Charlies that can observe some kind of nonlocality with the single Alice and Bob. It has been shown that at most two Charlies could share genuine nonlocality of the Greenberger-Horne-Zeilinger (GHZ) state via the violation of Svetlichny inequality with Alice and Bob [Quantum Inf. Process. 18, 42 (2019) and Phys. Rev. A 103, 032216 (2021)]. In this work, we show that arbitrarily many Charlies can have standard nonlocality (via violations of Mermin inequality) and some other kind of genuine nonlocality (which is known as genuinely nonsignal nonlocality) with the single Alice and single Bob.
翻訳日:2023-11-08 23:09:43 公開日:2023-11-07
# 演算子プールタイリングによる適応量子シミュレーションアルゴリズムのスケーリング

Scaling adaptive quantum simulation algorithms via operator pool tiling ( http://arxiv.org/abs/2206.14215v2 )

ライセンス: Link先を確認
John S. Van Dyke, Karunya Shirali, George S. Barron, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou(参考訳) 適応変分量子シミュレーションアルゴリズムは、量子コンピュータの情報を用いて、与えられた問題ハミルトニアンに対する最適な試行波動関数を動的に生成する。 これらのアルゴリズムの重要な要素は、トライアル波動関数が構築される事前定義された演算子プールである。 問題のサイズが大きくなるにつれて、適切なプールを見つけることがアルゴリズムの効率にとって重要である。 ここでは、任意に大きな問題インスタンスのための問題調整プールの構築を容易にする演算子プールタイリングという手法を提案する。 まず,大規模だが非効率な演算子プールを用いて,問題の小さなインスタンスに対してADAPT-VQE計算を行うことにより,最も関連性の高い演算子を抽出し,より効率的な演算子プールの設計を行う。 この手法を1次元と2次元の強い相関量子スピンモデルで示し、ADAPTがこれらのシステムに対して非常に効果的なアンサッツを自動的に見つけることを発見した。 凝縮物質物理学において生じるような多くの問題が自然に繰り返される格子構造を持つことを考えると、プールタイリング法はそのようなシステムに適応する手法として広く応用できるものと期待できる。

Adaptive variational quantum simulation algorithms use information from the quantum computer to dynamically create optimal trial wavefunctions for a given problem Hamiltonian. A key ingredient in these algorithms is a predefined operator pool from which trial wavefunctions are constructed. Finding suitable pools is critical for the efficiency of the algorithm as the problem size increases. Here, we present a technique called operator pool tiling that facilitates the construction of problem-tailored pools for arbitrarily large problem instances. By first performing an ADAPT-VQE calculation on a smaller instance of the problem using a large, but computationally inefficient operator pool, we extract the most relevant operators and use them to design more efficient pools for larger instances. We demonstrate the method here on strongly correlated quantum spin models in one and two dimensions, finding that ADAPT automatically finds a highly effective ansatz for these systems. Given that many problems, such as those arising in condensed matter physics, have a naturally repeating lattice structure, we expect the pool tiling method to be a widely applicable technique apt for such systems.
翻訳日:2023-11-08 23:09:14 公開日:2023-11-07
# Sum-Product Networksを用いた深層学習の不確かさの評価

Using Sum-Product Networks to Assess Uncertainty in Deep Active Learning ( http://arxiv.org/abs/2206.09798v2 )

ライセンス: Link先を確認
Mohamadsadegh Khosravani and Sandra Zilles(参考訳) 深層アクティブラーニングの成功は、期待される情報量に応じてラベル付けされていないデータポイントをランク付けする効果的な獲得関数の選択にかかっている。 多くの取得関数は(部分的には)現在のモデルが点のクラスラベルに関する不確実性に基づいているが、そのような不確実性を計算するための戦略について一般的に合意されていない。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた深層学習における不確かさの計算方法を提案する。 主な考え方は、CNNによって抽出された特徴表現を、Sum-Product Network (SPN) のトレーニングデータとして使うことである。 SPNは一般にデータセットの分布を推定するために使用されるため、最大エントロピーや変分比といった標準的な取得関数によって直接使用できるクラス確率を推定するタスクに適している。 本手法の有効性を,画像分類のための標準ベンチマークデータセットを用いて実験的に検証し,深層能動学習における不確実性を評価するための様々な最先端手法と比較した。

The success of deep active learning hinges on the choice of an effective acquisition function, which ranks not yet labeled data points according to their expected informativeness. Many acquisition functions are (partly) based on the uncertainty that the current model has about the class label of a point, yet there is no generally agreed upon strategy for computing such uncertainty. This paper proposes a new and very simple approach to computing uncertainty in deep active learning with a Convolutional Neural Network (CNN). The main idea is to use the feature representation extracted by the CNN as data for training a Sum-Product Network (SPN). Since SPNs are typically used for estimating the distribution of a dataset, they are well suited to the task of estimating class probabilities that can be used directly by standard acquisition functions such as max entropy and variational ratio. The effectiveness of our method is demonstrated in an experimental study on several standard benchmark datasets for image classification, where we compare it to various state-of-the-art methods for assessing uncertainty in deep active learning.
翻訳日:2023-11-08 23:08:54 公開日:2023-11-07
# k平均最大エントロピー探索

k-Means Maximum Entropy Exploration ( http://arxiv.org/abs/2205.15623v4 )

ライセンス: Link先を確認
Alexander Nedergaard, Matthew Cook(参考訳) スパース報酬を伴う高次元連続空間の探索は強化学習においてオープンな問題である。 人工好奇心アルゴリズムは、探索につながる報酬を作成することでこの問題に対処する。 報酬を最大化できる強化学習アルゴリズムを考えると、この問題は探索と整合した最適化目標を見つけることにつながる。 最大エントロピー探索は、そのような目的として状態訪問分布のエントロピーを用いる。 しかし,高次元連続空間において,状態訪問分布のエントロピーを効率的に推定することは困難である。 本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。 境界は k-平均を用いた任意の次元における非パラメトリック密度推定の結果に依存する。 提案手法は,高次元連続空間における探索のためのベンチマーク,特に強化学習アルゴリズムが報酬を見つけられないタスクにおいて,計算効率が高く競争力があることを示す。

Exploration in high-dimensional, continuous spaces with sparse rewards is an open problem in reinforcement learning. Artificial curiosity algorithms address this by creating rewards that lead to exploration. Given a reinforcement learning algorithm capable of maximizing rewards, the problem reduces to finding an optimization objective consistent with exploration. Maximum entropy exploration uses the entropy of the state visitation distribution as such an objective. However, efficiently estimating the entropy of the state visitation distribution is challenging in high-dimensional, continuous spaces. We introduce an artificial curiosity algorithm based on lower bounding an approximation to the entropy of the state visitation distribution. The bound relies on a result we prove for non-parametric density estimation in arbitrary dimensions using k-means. We show that our approach is both computationally efficient and competitive on benchmarks for exploration in high-dimensional, continuous spaces, especially on tasks where reinforcement learning algorithms are unable to find rewards.
翻訳日:2023-11-08 23:08:37 公開日:2023-11-07
# アンシラキュービットを用いない2重最適並列ワイヤ切断

Doubly optimal parallel wire cutting without ancilla qubits ( http://arxiv.org/abs/2303.07340v2 )

ライセンス: Link先を確認
Hiroyuki Harada, Kaito Wada, Naoki Yamamoto(参考訳) 利用可能な量子ビットの品質と量の制限は、短期および早期のフォールトトレラント量子コンピュータを実用的タスクに適用する上で、かなりの障害となる。 この課題に対処するため、古典的な処理によってシステムサイズを効果的に増大させる手法が提案されている。 量子回路切断の主な考え方は、元の回路を小さなサブ回路に分解し、これらのサブ回路からの出力を結合して元の出力を回収することである。 このアプローチは、物理的に利用可能な回路以上の大きな量子回路をシミュレートすることを可能にするが、元の出力を再構築する測定数におけるサンプリングオーバーヘッドと分解のチャネル数という、2つの指標によって定量化される古典的なオーバーヘッドが必要である。 したがって,両メトリクスを最小化して全体の実行時間を短縮する分解法を考案することが重要である。 本稿では,並列な$n$-qubitの同一性チャネル,すなわち$n$-parallelのワイヤカットを,局所操作と古典的通信のセットに分解する問題について検討する。 これは、ancilla qubitsで最適なサンプリングオーバーヘッドを達成する既存の方法とは全く対照的である。 さらに, 並列線切断におけるチャネル数を細密に下限に導出し, 既存の方法の中で, この下限を得られるのは本手法のみであることを示した。 特に,本手法は,上述のアンシラ支援法と比較して,チャネル数の指数関数的に改善し,サンプリングオーバーヘッドを最適化する。

A restriction in the quality and quantity of available qubits presents a substantial obstacle to the application of near-term and early fault-tolerant quantum computers in practical tasks. To confront this challenge, some techniques for effectively augmenting the system size through classical processing have been proposed; one promising approach is quantum circuit cutting. The main idea of quantum circuit cutting is to decompose an original circuit into smaller sub-circuits and combine outputs from these sub-circuits to recover the original output. Although this approach enables us to simulate larger quantum circuits beyond physically available circuits, it needs classical overheads quantified by the two metrics: the sampling overhead in the number of measurements to reconstruct the original output, and the number of channels in the decomposition. Thus, it is crucial to devise a decomposition method that minimizes both of these metrics, thereby reducing the overall execution time. This paper studies the problem of decomposing the parallel $n$-qubit identity channel, i.e., $n$-parallel wire cutting, into a set of local operations and classical communication; then we give an optimal wire-cutting method comprised of channels based on mutually unbiased bases, that achieves minimal overheads in both the sampling overhead and the number of channels, without ancilla qubits. This is in stark contrast to the existing method that achieves the optimal sampling overhead yet with ancilla qubits. Moreover, we derive a tight lower bound of the number of channels in parallel wire cutting without ancilla systems and show that only our method achieves this lower bound among the existing methods. Notably, our method shows an exponential improvement in the number of channels, compared to the aforementioned ancilla-assisted method that achieves optimal sampling overhead.
翻訳日:2023-11-08 22:59:10 公開日:2023-11-07
# d-分割可能な量子進化族

D-divisible quantum evolution families ( http://arxiv.org/abs/2303.04260v2 )

ライセンス: Link先を確認
Krzysztof Szczygielski(参考訳) 我々は、行列代数上の可除(d-可除)微分可能量子進化族の概念を提案し、検討する。 これは、プロパゲータに課される完全な肯定性要件を、より一般的な非互換性の条件で置き換えることによって達成される。 このようなD-可分な力学写像はマスター方程式の一般化版を満たすことが示され、時間局所生成器によって完全に特徴づけられる。 D-divisibility には必要かつ十分な条件がある。 さらに、半群を分解可能なトレース保存する。

We propose and explore a notion of decomposably divisible (D-divisible) differentiable quantum evolution families on matrix algebras. This is achieved by replacing the complete positivity requirement, imposed on the propagator, by more general condition of decomposability. It is shown that such D-divisible dynamical maps satisfy a generalized version of Master Equation and are totally characterized by their time-local generators. Necessary and sufficient conditions for D-divisibility are found. Additionally, decomposable trace preserving semigroups are examined.
翻訳日:2023-11-08 22:58:38 公開日:2023-11-07
# AIのゴーストライター効果:AIが生成したテキストの所有権を認識せず、著者として自己宣言する

The AI Ghostwriter Effect: When Users Do Not Perceive Ownership of AI-Generated Text But Self-Declare as Authors ( http://arxiv.org/abs/2303.03283v2 )

ライセンス: Link先を確認
Fiona Draxler, Anna Werner, Florian Lehmann, Matthias Hoppe, Albrecht Schmidt, Daniel Buschek, Robin Welsch(参考訳) テキスト生成における人間とAIの相互作用は、著者の複雑さを増大させる。 2つの実証研究(n1 = 30 & n2 = 96)において、パーソナライズされた言語生成のための人間とAIのコラボレーションにおけるオーサシップとオーナシップについて検討する。 AIゴーストライター効果: ユーザーは自分自身をAI生成テキストの所有者や著者とはみなさず、公然とAI著者を宣言することを控える。 ai生成テキストのパーソナライズは、aiゴーストライター効果に影響を与えず、テキストに対する参加者の影響が高まるにつれて、所有意識が高まった。 参加者は、aiゴーストライターよりも、おそらく人間のゴーストライターに所有権を付与する可能性が高い。 AIゴーストライターと人間のゴーストライターの著者の合理化も同様である。 本稿では,テキスト生成タスクにおけるAIのオーサシップフレームワークとユーザインターフェースの適用の基礎となる,心理的オーサシップと人間-AIインタラクションとの関連について論じる。

Human-AI interaction in text production increases complexity in authorship. In two empirical studies (n1 = 30 & n2 = 96), we investigate authorship and ownership in human-AI collaboration for personalized language generation. We show an AI Ghostwriter Effect: Users do not consider themselves the owners and authors of AI-generated text but refrain from publicly declaring AI authorship. Personalization of AI-generated texts did not impact the AI Ghostwriter Effect, and higher levels of participants' influence on texts increased their sense of ownership. Participants were more likely to attribute ownership to supposedly human ghostwriters than AI ghostwriters, resulting in a higher ownership-authorship discrepancy for human ghostwriters. Rationalizations for authorship in AI ghostwriters and human ghostwriters were similar. We discuss how our findings relate to psychological ownership and human-AI interaction to lay the foundations for adapting authorship frameworks and user interfaces in AI in text-generation tasks.
翻訳日:2023-11-08 22:58:31 公開日:2023-11-07
# 短期量子コンピュータにおける適応的分割型アナログ量子シミュレーション:ダイヤモンド中のNV中心の非古典的自由誘導崩壊

Adaptively partitioned analog quantum simulation on near-term quantum computers: The nonclassical free-induction decay of NV centers in diamond ( http://arxiv.org/abs/2303.01970v2 )

ライセンス: Link先を確認
Yun-Hua Kuo and Hong-Bin Chen(参考訳) 制御可能な量子デバイスで量子物理学をシミュレートするというアイデアは、数十年前に提案された。 量子技術の広範な発展により、興味のあるシステムを模倣する人工ハミルトニアンを調整したアナログ量子シミュレーションのような大規模シミュレーションが、精巧な量子実験プラットフォーム上で実装されている。 しかし、大きなノイズと接続性によって生じる制限のため、アナログシミュレーションは短期量子コンピューティングプラットフォームでは一般的には不可能である。 本稿では,短期量子デバイスに対するアナログシミュレーション手法を提案する。 提案手法は, 量子デバイスの性能に基づいて浴槽を複数のグループに適応的に分割することで, 限界を回避する。 我々は,膨大な数の核に結合したダイヤモンドnv$^-$中心における電子スピンの自由誘導減衰をシミュレートし,核スピン偏極による非古典性を調べる。 このシミュレーションは、IBM量子コンピュータ上の真正デバイスやシミュレータと協調して実装されている。 また,量子ビット間のクロストークによる非古典的雑音に対処するために,本手法を適用した。 この研究は、ノイズの多い短期量子コンピュータ上の大規模物質をシミュレートするための柔軟なアプローチに光を当てる。

The idea of simulating quantum physics with controllable quantum devices had been proposed several decades ago. With the extensive development of quantum technology, large-scale simulation, such as the analog quantum simulation tailoring an artificial Hamiltonian mimicking the system of interest, has been implemented on elaborate quantum experimental platforms. However, due to the limitations caused by the significant noises and the connectivity, analog simulation is generically infeasible on near-term quantum computing platforms. Here we propose an alternative analog simulation approach on near-term quantum devices. Our approach circumvents the limitations by adaptively partitioning the bath into several groups based on the performance of the quantum devices. We apply our approach to simulate the free induction decay of the electron spin in a diamond NV$^-$ center coupled to a huge number of nuclei and investigate the nonclassicality induced by the nuclear spin polarization. The simulation is implemented collaboratively with authentic devices and simulators on IBM quantum computers. We have also applied our approach to address the nonclassical noise caused by the crosstalk between qubits. This work sheds light on a flexible approach to simulate large-scale materials on noisy near-term quantum computers.
翻訳日:2023-11-08 22:58:10 公開日:2023-11-07
# 位相的絡み合いに対する統計的アプローチ:高次既約相関のボルツマンマシン表現

A statistical approach to topological entanglement: Boltzmann machine representation of high-order irreducible correlation ( http://arxiv.org/abs/2302.03212v3 )

ライセンス: Link先を確認
Shi Feng, Deqian Kong and Nandini Trivedi(参考訳) 強相互作用系は、様々な順序における相関関数の観点から記述することができる。 高次相関の量子アナログ (quantum analog of high-order correlations) は、トポロジカルエントロピー (TEE) によって定量化される、0温度の物質のトポロジカル秩序状態におけるトポロジカルエンタングルメントである。 本研究では,この2つを同じ情報理論の枠組みで統一する統計的解釈を提案する。 非ゼロなTEEの存在は、統計学的な見解では、射影的に測定されたサンプルに反映される創発的な$n$th次相互情報$I_n$(任意の整数$n\ge 3$)として理解でき、また、その抽出のための既存の2つの方法、すなわちKokuev-Preskill と Levin-Wen の構成の等価性を明示する。 I_n$ の統計的性質を活用するために,高次相関とそれに対応する位相的絡み合いを,局所領域の絡み合いハミルトニアンを適切なベースで表現することにより,投影標本の分布に符号化する制限ボルツマンマシン (RBM) を構築した。 さらに、訓練されたRBMを問う方法を示す閉形式を導出し、$I_n$に関連する任意の相関の任意の順序の分析形式を明示する。 また,高次相関を抽出する問合せ法は,多様な相互作用モデルに関連する多体相互作用を乱す補助場の構築にも適用可能であることを指摘した。

Strongly interacting systems can be described in terms of correlation functions at various orders. A quantum analog of high-order correlations is the topological entanglement in topologically ordered states of matter at zero temperature, usually quantified by topological entanglement entropy (TEE). In this work, we propose a statistical interpretation that unifies the two under the same information-theoretic framework. We demonstrate that the existence of a non-zero TEE can be understood in the statistical view as the emergent $n$th order mutual information $I_n$ (for arbitrary integer $n\ge 3$) reflected in projectively measured samples, which also makes explicit the equivalence between the two existing methods for its extraction -- the Kitaev-Preskill and the Levin-Wen construction. To exploit the statistical nature of $I_n$, we construct a restricted Boltzmann machine (RBM) which captures the high-order correlations and correspondingly the topological entanglement that are encoded in the distribution of projected samples by representing the entanglement Hamiltonian of a local region under the proper basis. Furthermore, we derive a closed form which presents a method to interrogate the trained RBM, making explicit the analytical form of arbitrary order of correlations relevant for $I_n$. We remark that the interrogation method for extracting high-order correlation can also be applied to the construction of auxiliary fields that disentangle many-body interactions relevant for diverse interacting models.
翻訳日:2023-11-08 22:57:48 公開日:2023-11-07
# 頂点作用素代数からの格子上のキラル位相秩序状態

Chiral topologically ordered states on a lattice from vertex operator algebras ( http://arxiv.org/abs/2301.08697v2 )

ライセンス: Link先を確認
Nikita Sopenko(参考訳) 単項有理頂点作用素代数に付随する位相次数を実現する2次元格子系の純粋状態のクラスを提案する。 これらの状態は熱力学的極限においてよく定義され、相関の指数的減衰を示す。 この構成は、任意のオンを挿入し、ある位相不変量を計算する自然な方法を提供する。 また、E_8$相を含む非自明な可逆相におけるボゾン状態の候補を与える。

We propose a class of pure states of two-dimensional lattice systems realizing topological order associated with unitary rational vertex operator algebras. We show that the states are well-defined in the thermodynamic limit and have exponential decay of correlations. The construction provides a natural way to insert anyons and compute certain topological invariants. It also gives candidates for bosonic states in non-trivial invertible phases, including the $E_8$ phase.
翻訳日:2023-11-08 22:57:14 公開日:2023-11-07
# 頑健な最適輸送による推論:理論と方法

Inference via robust optimal transportation: theory and methods ( http://arxiv.org/abs/2301.06297v2 )

ライセンス: Link先を確認
Yiming Ma, Hang Liu, Davide La Vecchia, Metthieu Lerasle(参考訳) 最適輸送(OT)理論と関連する$p$-ワッサーシュタイン距離(W_p$, $p\geq 1$)は統計学や機械学習に広く応用されている。 その人気にもかかわらず、これらのツールに基づく推論は、外れ値に敏感か、または基礎となるモデルに重みがある場合、パフォーマンスが悪くなる。 これらの問題に対処するため,我々は新しい手順を導入する。 (i)初期ot問題(robot)の頑健なバージョンを検討し、チューニングパラメータ $\lambda > 0$ に依存する {robust wasserstein distance}, $w^{(\lambda)}$ を定義することを示す。 (ii)$W_1$と$W^{(\lambda)}$の関連を説明し、その重要な測度論的な側面を研究する。 (iii)$W^{(\lambda)}$に対して濃度不等式を導出する。 (iii)最小距離推定器を定義するために$W^{(\lambda)}$を使用し、統計的保証を提供し、$\lambda$の選択に濃度不等式を適用する方法を説明する。 (v)ROBOTのdual形式を導出し,その機械学習問題(生成的対向ネットワークとドメイン適応)への適用性を示す。 数値的なエクササイズは、我々の方法がもたらす利点の証拠となる。

Optimal transport (OT) theory and the related $p$-Wasserstein distance ($W_p$, $p\geq 1$) are widely-applied in statistics and machine learning. In spite of their popularity, inference based on these tools is sensitive to outliers or it can perform poorly when the underlying model has heavy-tails. To cope with these issues, we introduce a new class of procedures. (i) We consider a robust version of the primal OT problem (ROBOT) and show that it defines the {robust Wasserstein distance}, $W^{(\lambda)}$, which depends on a tuning parameter $\lambda > 0$. (ii) We illustrate the link between $W_1$ and $W^{(\lambda)}$ and study its key measure theoretic aspects. (iii) We derive some concentration inequalities for $W^{(\lambda)}$. (iii) We use $W^{(\lambda)}$ to define minimum distance estimators, we provide their statistical guarantees and we illustrate how to apply concentration inequalities for the selection of $\lambda$. (v) We derive the {dual} form of the ROBOT and illustrate its applicability to machine learning problems (generative adversarial networks and domain adaptation). Numerical exercises provide evidence of the benefits yielded by our methods.
翻訳日:2023-11-08 22:57:08 公開日:2023-11-07
# 位相正規化データ埋め込み

Topologically Regularized Data Embeddings ( http://arxiv.org/abs/2301.03338v2 )

ライセンス: Link先を確認
Edith Heiter, Robin Vandaele, Tijl De Bie, Yvan Saeys, Jefrey Lijffijt(参考訳) 教師なし表現学習法は、高次元、非構造化、構造化データに対する洞察を得るために広く使われている。 場合によっては、既知のクラスタ構造や、そのデータが木構造やグラフ構造トポロジに沿うことが知られているという事実など、データに関する事前のトポロジ的知識を持つ場合もある。 しかし、そのような構造を確実にする一般的な方法は、低次元表現が不足している。 これは、低次元埋め込みの解釈可能性に悪影響を与え、おそらく下流の学習タスクに影響を及ぼす。 この問題を解決するために、代数的トポロジに基づく一般的なアプローチであるトポロジカル正規化を導入し、トポロジカル事前知識を低次元埋め込みに組み込む。 位相損失関数のクラスを導入し、そのような位相損失関数を正規化器として併用することにより、局所的な近似だけでなく所望の位相構造も反映した埋め込みが得られることを示す。 本稿では,代数的トポロジーにおける基本概念の自己完結的な概要と,クラスタ,サイクル,分岐など,様々な形状のトポロジ的損失関数の設計方法についての直感的なガイダンスを提供する。 線形および非線形次元削減法とグラフ埋め込み法を組み合わせた計算効率,堅牢性,汎用性に関する提案手法を実験的に評価した。

Unsupervised representation learning methods are widely used for gaining insight into high-dimensional, unstructured, or structured data. In some cases, users may have prior topological knowledge about the data, such as a known cluster structure or the fact that the data is known to lie along a tree- or graph-structured topology. However, generic methods to ensure such structure is salient in the low-dimensional representations are lacking. This negatively impacts the interpretability of low-dimensional embeddings, and plausibly downstream learning tasks. To address this issue, we introduce topological regularization: a generic approach based on algebraic topology to incorporate topological prior knowledge into low-dimensional embeddings. We introduce a class of topological loss functions, and show that jointly optimizing an embedding loss with such a topological loss function as a regularizer yields embeddings that reflect not only local proximities but also the desired topological structure. We include a self-contained overview of the required foundational concepts in algebraic topology, and provide intuitive guidance on how to design topological loss functions for a variety of shapes, such as clusters, cycles, and bifurcations. We empirically evaluate the proposed approach on computational efficiency, robustness, and versatility in combination with linear and non-linear dimensionality reduction and graph embedding methods.
翻訳日:2023-11-08 22:56:46 公開日:2023-11-07
# メタバースにおけるフェデレーション学習によるモバイル拡張現実

Mobile Augmented Reality with Federated Learning in the Metaverse ( http://arxiv.org/abs/2212.08324v2 )

ライセンス: Link先を確認
Xinyu Zhou, Jun Zhao(参考訳) メタバースはインターネットの次の進化と見なされ、最近多くの注目を集めている。 モバイル拡張現実(MAR)によるメタバースアプリケーションは、デジタルデータを現実世界と混在させるために、迅速かつ正確なオブジェクト検出を必要とする。 モバイルデバイスが進化するにつれて、計算能力が増大し、その計算リソースを機械学習モデルのトレーニングに活用することができる。 ユーザのプライバシとデータセキュリティの懸念が高まる中、フェデレーション学習(fl)は、プライバシ保存分析のための有望な分散学習フレームワークとなっている。 本稿では、FLとMARをMetaverseにまとめます。 FLとMARの組み合わせの必要性と合理性について論じる。 また, fl と mar をメタバースでサポートする技術についても述べる。 さらに、メタバースにおけるflとmarのフルフィルメントを妨げる既存の課題と、いくつかのアプリケーションシナリオが提示されている。 最後にメタバースFL-MARシステムの3つのケーススタディを示す。

The Metaverse is deemed the next evolution of the Internet and has received much attention recently. Metaverse applications via mobile augmented reality (MAR) require rapid and accurate object detection to mix digital data with the real world. As mobile devices evolve, their computational capabilities are increasing, and thus their computational resources can be leveraged to train machine learning models. In light of the increasing concerns of user privacy and data security, federated learning (FL) has become a promising distributed learning framework for privacy-preserving analytics. In this article, FL and MAR are brought together in the Metaverse. We discuss the necessity and rationality of the combination of FL and MAR. The prospective technologies that support FL and MAR in the Metaverse are also discussed. In addition, existing challenges that prevent the fulfillment of FL and MAR in the Metaverse and several application scenarios are presented. Finally, three case studies of Metaverse FL-MAR systems are demonstrated.
翻訳日:2023-11-08 22:56:25 公開日:2023-11-07
# 不規則な動きと類似した外観を持つ物体の追跡は困難か? マッチングスペースをバッファリングすることで、より簡単に

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space ( http://arxiv.org/abs/2211.14317v3 )

ライセンス: Link先を確認
Fan Yang, Shigeyuki Odashima, Shoichi Masui, Shan Jiang(参考訳) 本稿では,不規則な動きと識別不能な外観を持つ複数の物体を追跡するために,カスケードバッファリングIoU(C-BIoU)トラッカーを提案する。 外観特徴が信頼できず、幾何学的特徴が不規則な動きによって混同される場合、従来の多重物体追跡(mot)法を適用すると不十分な結果が得られる。 この問題に対処するために, c-biou trackerは, 検出とトラックのマッチング空間を拡大するためのバッファを追加し, 不規則な動きの影響を2つの面において緩和する。 さらに、マッチング空間の過剰膨張のリスクを低減するために、まず生存中のトラックと検出を小さなバッファでマッチングし、次に不一致のトラックと検出を大きなバッファでマッチングするカスケードマッチングが用いられる。 その単純さにもかかわらず、我々のC-BIoUトラッカーは驚くほどうまく機能し、不規則な動きと識別不能な外観に焦点を当てたMOTデータセットの最先端の結果を達成する。 さらに,C-BIoUトラッカーはCVPR'22 SoccerNet MOTとECCV'22 MOTComplex DanceTrackの課題において,私たちの2位ソリューションの主要なコンポーネントである。 最後に, アブレーション研究におけるc-biou trackerの限界を分析し, その適用範囲について考察する。

We propose a Cascaded Buffered IoU (C-BIoU) tracker to track multiple objects that have irregular motions and indistinguishable appearances. When appearance features are unreliable and geometric features are confused by irregular motions, applying conventional Multiple Object Tracking (MOT) methods may generate unsatisfactory results. To address this issue, our C-BIoU tracker adds buffers to expand the matching space of detections and tracks, which mitigates the effect of irregular motions in two aspects: one is to directly match identical but non-overlapping detections and tracks in adjacent frames, and the other is to compensate for the motion estimation bias in the matching space. In addition, to reduce the risk of overexpansion of the matching space, cascaded matching is employed: first matching alive tracks and detections with a small buffer, and then matching unmatched tracks and detections with a large buffer. Despite its simplicity, our C-BIoU tracker works surprisingly well and achieves state-of-the-art results on MOT datasets that focus on irregular motions and indistinguishable appearances. Moreover, the C-BIoU tracker is the dominant component for our 2-nd place solution in the CVPR'22 SoccerNet MOT and ECCV'22 MOTComplex DanceTrack challenges. Finally, we analyze the limitation of our C-BIoU tracker in ablation studies and discuss its application scope.
翻訳日:2023-11-08 22:56:10 公開日:2023-11-07
# ノイズラベルがロングテールジレンマに合致する場合:表現校正法

When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration Method ( http://arxiv.org/abs/2211.10955v3 )

ライセンス: Link先を確認
Manyi Zhang, Xuyang Zhao, Jun Yao, Chun Yuan, Weiran Huang(参考訳) 現実世界の大規模データセットは、騒々しくラベル付けされ、クラス不均衡です。 問題は、訓練されたモデルの一般化を著しく損なう。 したがって、長い尾を持つデータ上でノイズのあるラベルで学習する問題を、同時に不正確なラベル付けとクラス不均衡に対処することが重要である。 従来の研究ではいくつかの方法が開発されている。 しかし、彼らは常に無効または実際にチェックが難しい強い仮定に依存している。 本稿では,問題に対処し,先行研究の限界に対処するために,表現校正手法RCALを提案する。 具体的には、RCALは教師なしコントラスト学習によって抽出された表現で動作する。 不正なラベリングとクラスの不均衡がなければ、各クラスのインスタンスの表現は多変量ガウス分布に準拠し、より穏やかで容易にチェックできると仮定する。 この仮定に基づき,誤ラベルデータとクラス不均衡データから汚染された表現分布を復元する。 得られた分布から追加のデータポイントをサンプリングして一般化する。 さらに、分類子訓練において、表現学習は、対照学習によってもたらされる表現の強固さを活用し、さらに分類子性能を向上させる。 代表校正の有効性を議論するために理論的結果を引き出す。 複数のベンチマークを用いた実験により,提案手法の有効性を確認した。

Real-world large-scale datasets are both noisily labeled and class-imbalanced. The issues seriously hurt the generalization of trained models. It is hence significant to address the simultaneous incorrect labeling and class-imbalance, i.e., the problem of learning with noisy labels on long-tailed data. Previous works develop several methods for the problem. However, they always rely on strong assumptions that are invalid or hard to be checked in practice. In this paper, to handle the problem and address the limitations of prior works, we propose a representation calibration method RCAL. Specifically, RCAL works with the representations extracted by unsupervised contrastive learning. We assume that without incorrect labeling and class imbalance, the representations of instances in each class conform to a multivariate Gaussian distribution, which is much milder and easier to be checked. Based on the assumption, we recover underlying representation distributions from polluted ones resulting from mislabeled and class-imbalanced data. Additional data points are then sampled from the recovered distributions to help generalization. Moreover, during classifier training, representation learning takes advantage of representation robustness brought by contrastive learning, which further improves the classifier performance. We derive theoretical results to discuss the effectiveness of our representation calibration. Experiments on multiple benchmarks justify our claims and confirm the superiority of the proposed method.
翻訳日:2023-11-08 22:55:45 公開日:2023-11-07
# 付加共分散行列モデル:イギリスにおける地域電力ネットデマンドのモデル化

Additive Covariance Matrix Models: Modelling Regional Electricity Net-Demand in Great Britain ( http://arxiv.org/abs/2211.07451v2 )

ライセンス: Link先を確認
V. Gioia, M. Fasiolo, J. Browell, R. Bellio(参考訳) 地域電力需要の予測、消費最小の組込み発電は、信頼性と経済システムの運用とエネルギー取引に欠かせないインプットである。 このような予測は地域によって行われるのが一般的であるが、電力フローの管理などの操作には空間的に一貫性のある共同予測が必要である。 ここでは、イギリスの電力網を構成する14の地域において、ネット需要の同時分布を予測する。 共同モデリングは、各地域における純需要変動と地域間の依存性が、時間的、社会経済的、気象関連要因によって異なるという事実によって複雑である。 修正されたコレスキーパラメトリションに基づいて多変量ガウスモデルを提案し、加法モデルを用いて各非拘束パラメータをモデル化することができる。 モデルパラメータと共変量の数は大きいので、勾配ブースティングに基づいて半自動的なモデル選択アプローチを採用する。 提案モデルの複数バージョンの予測性能と2つの非ガウシアンコプラモデルとの比較に加えて,モデル出力を視覚的に探索し,共変量がどのように純需要変動と依存に影響を及ぼすかを解釈する。 この論文で結果を再現するためのコードはhttps://doi.org/10.5281/zenodo.7315105で、多変量ガウス加法モデルの構築と適合の方法は、https://github.com/VinGioia90/SCMで入手できるSCM Rパッケージによって提供されている。

Forecasts of regional electricity net-demand, consumption minus embedded generation, are an essential input for reliable and economic power system operation, and energy trading. While such forecasts are typically performed region by region, operations such as managing power flows require spatially coherent joint forecasts, which account for cross-regional dependencies. Here, we forecast the joint distribution of net-demand across the 14 regions constituting Great Britain's electricity network. Joint modelling is complicated by the fact that the net-demand variability within each region, and the dependencies between regions, vary with temporal, socio-economical and weather-related factors. We accommodate for these characteristics by proposing a multivariate Gaussian model based on a modified Cholesky parametrisation, which allows us to model each unconstrained parameter via an additive model. Given that the number of model parameters and covariates is large, we adopt a semi-automated approach to model selection, based on gradient boosting. In addition to comparing the forecasting performance of several versions of the proposed model with that of two non-Gaussian copula-based models, we visually explore the model output to interpret how the covariates affect net-demand variability and dependencies. The code for reproducing the results in this paper is available at https://doi.org/10.5281/zenodo.7315105, while methods for building and fitting multivariate Gaussian additive models are provided by the SCM R package, available at https://github.com/VinGioia90/SCM.
翻訳日:2023-11-08 22:55:25 公開日:2023-11-07
# 消費者のエッジaiコンピューティングの未来

The Future of Consumer Edge-AI Computing ( http://arxiv.org/abs/2210.10514v2 )

ライセンス: Link先を確認
Stefanos Laskaridis and Stylianos I. Venieris and Alexandros Kouris and Rui Li and Nicholas D. Lane(参考訳) 過去10年間でDeep Learningは、主にデバイス間のハードウェアアクセラレーションによって、消費者のエンドに急速に浸透した。 しかし、今後の展望として、ハードウェアの分離が不十分であることは明らかである。 複雑なAIタスクは、共有リソース、デバイス間のコラボレーション、複数のデータタイプを、ユーザのプライバシやエクスペリエンスの質を損なうことなく要求する。 そこで我々は,edgeai-hubデバイスを中心とした新しいパラダイムを導入し,計算資源とデータアクセスをコンシューマーエッジで再編成し,最適化する。 この目的のために、私たちは、オンデバイスからコンシューマ環境におけるエッジAIサービスシステムへの移行のための、全体的な基盤を構築しました。

In the last decade, Deep Learning has rapidly infiltrated the consumer end, mainly thanks to hardware acceleration across devices. However, as we look towards the future, it is evident that isolated hardware will be insufficient. Increasingly complex AI tasks demand shared resources, cross-device collaboration, and multiple data types, all without compromising user privacy or quality of experience. To address this, we introduce a novel paradigm centered around EdgeAI-Hub devices, designed to reorganise and optimise compute resources and data access at the consumer edge. To this end, we lay a holistic foundation for the transition from on-device to Edge-AI serving systems in consumer environments, detailing their components, structure, challenges and opportunities.
翻訳日:2023-11-08 22:54:54 公開日:2023-11-07
# 教師付き機械学習におけるクリーンキュービットのパワー

The Power of One Clean Qubit in Supervised Machine Learning ( http://arxiv.org/abs/2210.09275v4 )

ライセンス: Link先を確認
Mahsa Karimi, Ali Javadi-Abhari, Christoph Simon, Roohollah Ghobadi(参考訳) 本稿では、教師付き機械学習において、決定論的量子コンピューティング(DQC1)と呼ばれる非ユニバーサル量子コンピューティングモデルにおける量子コヒーレンスと量子不協和の潜在的な利点について検討する。 本稿では,DQC1モデルを用いて,複雑なカーネル関数を推定する効率的な手法を提案する。 機械学習において重要な要素であるコヒーレンス消費とカーネル関数の単純な関係を示す。 本稿では、DQC1モデルを用いたIBMハードウェア上でのバイナリ分類問題の実装と、量子コヒーレンスとハードウェアノイズの影響を解析する。 この提案の利点は、絡み合いよりも雑音に対して弾力性が高い量子ディスコードの利用にある。

This paper explores the potential benefits of quantum coherence and quantum discord in the non-universal quantum computing model called deterministic quantum computing with one qubit (DQC1) in supervised machine learning. We show that the DQC1 model can be leveraged to develop an efficient method for estimating complex kernel functions. We demonstrate a simple relationship between coherence consumption and the kernel function, a crucial element in machine learning. The paper presents an implementation of a binary classification problem on IBM hardware using the DQC1 model and analyzes the impact of quantum coherence and hardware noise. The advantage of our proposal lies in its utilization of quantum discord, which is more resilient to noise than entanglement.
翻訳日:2023-11-08 22:54:26 公開日:2023-11-07
# ミニマックスゲームにおけるグラディエント手法の局所収束性:部分曲率の一般性

Local Convergence of Gradient Methods for Min-Max Games: Partial Curvature Generically Suffices ( http://arxiv.org/abs/2305.17275v2 )

ライセンス: Link先を確認
Guillaume Wang, L\'ena\"ic Chizat(参考訳) 2つのプレイヤーゼロサム微分可能なゲームに対する勾配法の局所的ナッシュ平衡について検討する。 そのようなダイナミクスが局所的に収束するのは、$S \succ 0$ が$S=0$ のときであり、$S\succeq 0$ がゲームの「ポテンシャル」成分であるヤコビ行列の対称部分であるときである。 これらのダイナミクスは、$S$ が 0 でない(部分曲率)とすぐに収束し、反対称部分 $A$ の固有ベクトルは、一般に$S$ の核に関する位置にあることを示す。 次に、$s \ll a$の収束率を調べ、通常、最小化問題の類推が示唆する最小値ではなく、$s$の固有値の平均に依存することを証明します。 この結果を説明するために,連続ゲームにおける混合ナッシュ平衡の計算問題を考える。 部分曲率のおかげで、混合戦略の重みと支持の両方を最適化する円錐粒子法は、固定支持法よりも一般的に収束する。 min-maxゲームの場合、「曲率のある」自由度を加えることは有益であり、これはオーバーパラメータ化の別の利点と解釈できる。

We study the convergence to local Nash equilibria of gradient methods for two-player zero-sum differentiable games. It is well-known that such dynamics converge locally when $S \succ 0$ and may diverge when $S=0$, where $S\succeq 0$ is the symmetric part of the Jacobian at equilibrium that accounts for the "potential" component of the game. We show that these dynamics also converge as soon as $S$ is nonzero (partial curvature) and the eigenvectors of the antisymmetric part $A$ are in general position with respect to the kernel of $S$. We then study the convergence rates when $S \ll A$ and prove that they typically depend on the average of the eigenvalues of $S$, instead of the minimum as an analogy with minimization problems would suggest. To illustrate our results, we consider the problem of computing mixed Nash equilibria of continuous games. We show that, thanks to partial curvature, conic particle methods -- which optimize over both weights and supports of the mixed strategies -- generically converge faster than fixed-support methods. For min-max games, it is thus beneficial to add degrees of freedom "with curvature": this can be interpreted as yet another benefit of over-parameterization.
翻訳日:2023-11-08 22:46:05 公開日:2023-11-07
# $\mathbb{R}$-smooth Banach空間における非線形方程式のPINN誤差推定

PINNs error estimates for nonlinear equations in $\mathbb{R}$-smooth Banach spaces ( http://arxiv.org/abs/2305.11915v2 )

ライセンス: Link先を確認
Jiexing Gao, Yurii Zakharian(参考訳) 本稿では,PINNの誤差推定を許容するPDEの演算型クラスについて述べる。 また、$L^p$空間に対して、PINNの残差境界のツールであるブランブル・ヒルベルト型補題を得る。

In the paper, we describe in operator form classes of PDEs that admit PINN's error estimation. Also, for $L^p$ spaces, we obtain a Bramble-Hilbert type lemma that is a tool for PINN's residuals bounding.
翻訳日:2023-11-08 22:45:40 公開日:2023-11-07
# 高速カロリーメータシミュレーションのための幾何学的自己回帰モデル(GAAM)による新しいジオメトリへの一般化

Generalizing to new geometries with Geometry-Aware Autoregressive Models (GAAMs) for fast calorimeter simulation ( http://arxiv.org/abs/2305.11531v4 )

ライセンス: Link先を確認
Junze Liu, Aishik Ghosh, Dylan Smith, Pierre Baldi, Daniel Whiteson(参考訳) 衝突生成物に対するシミュレート検出器の応答は素粒子物理学のデータ解析に不可欠であるが、計算量は非常に高価である。 1つのサブ検出器であるカロリメータは、細胞の粒度が高く、相互作用の複雑さのために計算時間を支配している。 生成モデルは、より迅速なサンプル生産を提供することができるが、現在、特定の検出器ジオメトリのパフォーマンスを最適化するためにかなりの労力を必要としており、しばしば、他のジオメトリに一般化することなく、様々なセルサイズや配置を記述するために多くのモデルが必要となる。 我々は,温度計の応答が幾何によってどう変化するかを学習し,余分なトレーニングを伴わずに未知の測地に対するシミュレーション応答を生成できる,$\textit{geometry-aware}$ autoregressive modelを開発した。 幾何認識モデルは、生成したワッサーシュタイン距離や、シミュレーションされた応答を要約する鍵量の真の分布といったいくつかの指標において、ベースライン無意識モデルよりも50\%以上優れている。 1つの幾何学的認識モデルは、大型ハドロン衝突型加速器で収集されたデータを分析する物理学者によって、現在カロリーメーターシミュレーション用に設計された数百の生成モデルを置き換えることができる。 この概念実証研究は、将来の検出器の研究に不可欠な道具となる基礎モデルの設計を動機付け、通常生成熱量計モデルを開発するのに必要な大規模な事前投資を劇的に削減する。

Generation of simulated detector response to collision products is crucial to data analysis in particle physics, but computationally very expensive. One subdetector, the calorimeter, dominates the computational time due to the high granularity of its cells and complexity of the interactions. Generative models can provide more rapid sample production, but currently require significant effort to optimize performance for specific detector geometries, often requiring many models to describe the varying cell sizes and arrangements, without the ability to generalize to other geometries. We develop a $\textit{geometry-aware}$ autoregressive model, which learns how the calorimeter response varies with geometry, and is capable of generating simulated responses to unseen geometries without additional training. The geometry-aware model outperforms a baseline unaware model by over $50\%$ in several metrics such as the Wasserstein distance between the generated and the true distributions of key quantities which summarize the simulated response. A single geometry-aware model could replace the hundreds of generative models currently designed for calorimeter simulation by physicists analyzing data collected at the Large Hadron Collider. This proof-of-concept study motivates the design of a foundational model that will be a crucial tool for the study of future detectors, dramatically reducing the large upfront investment usually needed to develop generative calorimeter models.
翻訳日:2023-11-08 22:45:35 公開日:2023-11-07
# U(1)対称系における高次相関関数の解析的アプローチ

Analytical approach to higher-order correlation functions in U(1) symmetric systems ( http://arxiv.org/abs/2305.08923v2 )

ライセンス: Link先を確認
Zhi-Guang Lu, Cheng Shang, Ying Wu, and Xin-You L\"u(参考訳) 我々は、弱いコヒーレント状態入力の下で散乱行列(S$行列)を用いて、$n$thの等時相関関数のコンパクトな解析解を導出した。 我々の解は、U(1)対称性を尊重する散逸量子系に適用される。 さらに,入力チャネルと出力チャネルが同一かどうかに応じて,分析ソリューションを2つのカテゴリに拡張した。 第1のカテゴリは相互相関や多重駆動のケースを研究するための異なる経路を提供し、第2のカテゴリは導波路量子電磁力学系の研究に役立つ。 解析解は複雑な系においても複数の光子の統計特性を簡単に調査できる。 さらに,我々は,量子相関解法として知られるpythonのユーザフレンドリーなオープンソースライブラリを開発し,上記の基準を満たす様々な散逸量子システムを研究するための便利な手段を提供する。 本研究では,$s$マトリクスを用いてフォトニック相関を研究し,複雑な系を探索する可能性について検討する。

We derive a compact analytical solution of the $n$th-order equal-time correlation functions by using scattering matrix ($S$ matrix) under a weak coherent state input. Our solution applies to any dissipative quantum system that respects the U(1) symmetry. We further extend our analytical solution into two categories depending on whether the input and output channels are identical. The first category provides a different path for studying cross-correlation and multiple-drive cases, while the second category is instrumental in studying waveguide quantum electrodynamics systems. Our analytical solution allows for easy investigation of the statistical properties of multiple photons even in complex systems. Furthermore, we have developed a user-friendly open-source library in Python known as the quantum correlation solver, and this tool provides a convenient means to study various dissipative quantum systems that satisfy the above-mentioned criteria. Our study enables using $S$ matrix to study the photonic correlation and advance the possibilities for exploring complex systems.
翻訳日:2023-11-08 22:44:58 公開日:2023-11-07
# パラメトリゼーションPDEのモデル次数削減のためのグラフ畳み込みオートエンコーダアプローチ

A graph convolutional autoencoder approach to model order reduction for parametrized PDEs ( http://arxiv.org/abs/2305.08573v2 )

ライセンス: Link先を確認
Federico Pichi, Beatriz Moya, and Jan S. Hesthaven(参考訳) 本稿では,グラフ畳み込みオートエンコーダ(GCA-ROM)に基づく非線形モデルオーダー削減のためのフレームワークを提案する。 還元次数モデリング(rom)の文脈では、パラメトリック偏微分方程式(pdes)の実時間および多値評価の取得に関心がある。 Proper Orthogonal Decomposition (POD) や Greedy アルゴリズムのような線形手法は網羅的に分析されてきたが、コルモゴロフ n-幅の高速崩壊を示す線形およびアフィンモデルを扱う場合にはより適している。 一方、autoencoderアーキテクチャはpod圧縮手順の非線形一般化を表しており、主な特徴を抽出しながら、潜在変数のセットに主情報をエンコードすることができる。 一方、グラフニューラルネットワーク(GNN)は、非構造化メッシュ上で定義されたPDEソリューションを研究するための自然なフレームワークである。 そこで我々は,GNNを用いた非侵襲・データ駆動非線形還元手法を開発し,低減された多様体を符号化し,パラメタライズされたPDEの高速評価を可能にする。 物理および幾何学的にパラメトリケートされた環境での高速・スロー崩壊を伴う線形・非線形・スカラー・ベクトル問題である。 私たちのアプローチの主な特性は (i)複雑な体制であっても、低データ体制における高い一般化可能性。 (ii)一般非構造グリッドの物理的コンプライアンス (iii)散乱データから学習するためのプール操作とアンプール操作の活用。

The present work proposes a framework for nonlinear model order reduction based on a Graph Convolutional Autoencoder (GCA-ROM). In the reduced order modeling (ROM) context, one is interested in obtaining real-time and many-query evaluations of parametric Partial Differential Equations (PDEs). Linear techniques such as Proper Orthogonal Decomposition (POD) and Greedy algorithms have been analyzed thoroughly, but they are more suitable when dealing with linear and affine models showing a fast decay of the Kolmogorov n-width. On one hand, the autoencoder architecture represents a nonlinear generalization of the POD compression procedure, allowing one to encode the main information in a latent set of variables while extracting their main features. On the other hand, Graph Neural Networks (GNNs) constitute a natural framework for studying PDE solutions defined on unstructured meshes. Here, we develop a non-intrusive and data-driven nonlinear reduction approach, exploiting GNNs to encode the reduced manifold and enable fast evaluations of parametrized PDEs. We show the capabilities of the methodology for several models: linear/nonlinear and scalar/vector problems with fast/slow decay in the physically and geometrically parametrized setting. The main properties of our approach consist of (i) high generalizability in the low-data regime even for complex regimes, (ii) physical compliance with general unstructured grids, and (iii) exploitation of pooling and un-pooling operations to learn from scattered data.
翻訳日:2023-11-08 22:44:43 公開日:2023-11-07
# 量子コンピュータ上の確率的想像時間進化における最適スケジューリング

Optimal scheduling in probabilistic imaginary-time evolution on a quantum computer ( http://arxiv.org/abs/2305.04600v3 )

ライセンス: Link先を確認
Hirofumi Nishi, Koki Hamada, Yusuke Nishiya, Taichi Kosugi, Yu-ichiro Matsushita(参考訳) 基底状態の準備は量子計算において重要なタスクである。 確率的想像時間進化法(PITE)は、単一のアンシラ量子ビットと前方および後方制御されたリアルタイム進化演算子からなるハミルトニアンの基底状態を作成するための有望な候補である。 基底状態の準備は、複雑性クラス量子Merlin-Arthurに分類される量子計算においても難しい課題である。 しかし、PITEの最適パラメータは計算効率をある程度向上させる可能性がある。 本研究では,PITE法の計算コストを,仮想時間ステップサイズを線形および指数的にスケジューリングし,計算コストを削減するために解析する。 まず, 状態間の密接性として定義される誤差を, 直交時間と近似時間発展演算子により解析的に考察する。 また,最適な仮想時間ステップサイズと時間変化率についても論じる。 解析的議論は1次元ハイゼンベルク鎖の数値シミュレーションを用いて検証される。 結果から、ハミルトンの未知固有値の場合、線形スケジューリングはうまく機能することがわかった。 幅広い固有状態に対して、線形スケジューリングは平均より小さなエラーを返す。 しかし、スケジューリングの線形性は固有状態の特定のエネルギー領域に問題を引き起こす。 これらの問題を回避するためには、指数的キャラクタを含むようなスケジューリングにある種の非線形性を組み込むことで、pite法の計算コストを削減することが望ましい。 この研究の結果は、量子コンピュータ上での多体ハミルトニアンの基底状態準備の分野に大きく貢献することができる。

Ground-state preparation is an important task in quantum computation. The probabilistic imaginary-time evolution (PITE) method is a promising candidate for preparing the ground state of the Hamiltonian, which comprises a single ancilla qubit and forward- and backward-controlled real-time evolution operators. The ground state preparation is a challenging task even in the quantum computation, classified as complexity-class quantum Merlin-Arthur. However, optimal parameters for PITE could potentially enhance the computational efficiency to a certain degree. In this study, we analyze the computational costs of the PITE method for both linear and exponential scheduling of the imaginary-time step size for reducing the computational cost. First, we analytically discuss an error defined as the closeness between the states acted on by exact and approximate imaginary-time evolution operators. The optimal imaginary-time step size and rate of change of imaginary time are also discussed. Subsequently, the analytical discussion is validated using numerical simulations for a one-dimensional Heisenberg chain. From the results, we find that linear scheduling works well in the case of unknown eigenvalues of the Hamiltonian. For a wide range of eigenstates, the linear scheduling returns smaller errors on average. However, the linearity of the scheduling causes problems for some specific energy regions of eigenstates. To avoid these problems, incorporating a certain level of nonlinearity into the scheduling, such as by inclusion of an exponential character, is preferable for reducing the computational costs of the PITE method. The findings of this study can make a significant contribute to the field of ground-state preparation of many-body Hamiltonians on quantum computers.
翻訳日:2023-11-08 22:44:21 公開日:2023-11-07
# 単光子検出による干渉計の位相同期

Phase-locking an interferometer with single-photon detections ( http://arxiv.org/abs/2305.03641v2 )

ライセンス: Link先を確認
Bastian Hacker, Kevin G\"unthner, Conrad R\"o{\ss}ler, Christoph Marquardt(参考訳) 本稿では, 離散単光子検出に基づくファイバベースマッハ・ツェンダー干渉計の位相同期技術について報告する。 干渉計は量子鍵分布用相対位相エンコード光パルス対をデコードし、弱い受信信号に加えてロックレーザーも必要としない。 我々の新しい単純なロック方式は、Ornstein-Uhlenbeck動的に生成し、与えられたカウントレートに対して最適な位相ノイズを達成する。 ドップラーシフト衛星信号の受信時に発生する波長ドリフトの場合、アーム長差は継続的に調整され、干渉計位相を安定させる。

We report on a novel phase-locking technique for fiber-based Mach-Zehnder interferometers based on discrete single-photon detections, and demonstrate this in a setup. Our interferometer decodes relative-phase-encoded optical pulse pairs for quantum key distribution applications and requires no locking laser in addition to the weak received signal. Our new simple locking scheme is shown to produce an Ornstein-Uhlenbeck dynamic and achieve optimal phase noise for a given count rate. In case of wavelength drifts that arise during the reception of Doppler-shifted satellite signals, the arm-length difference gets continuously readjusted to keep the interferometer phase stable.
翻訳日:2023-11-08 22:43:57 公開日:2023-11-07
# 可能性リアリズム:確率に基づく現実的で非決定論的物理学

Potentiality realism: A realistic and indeterministic physics based on propensities ( http://arxiv.org/abs/2305.02429v2 )

ライセンス: Link先を確認
Flavio Del Santo and Nicolas Gisin(参考訳) 我々はポテンシャルリアリズムという物理の解釈を提案する。 この見解は古典的だけでなく量子物理学にも適用でき、ポテンシャル(すなわち、個々の事象が得られる固有の客観的確率)を現実の要素とみなし、物理的変数によって取られる実際の性質を補完する。 これにより、任意の理論的な枠組みにおいて、自然に現実主義と基本的非決定主義を調和させることができる。 我々は、統計学と大数の法則を許容しながら、形式レベルでの確率から逸脱することを要求する確率の具体的な解釈について議論する。 この見解は古典物理学と量子物理学の整合に役立ち、伝統的に後者の独特な問題(測定問題など)と見なされる概念的問題のほとんどは、実際にはすべての非決定論的物理理論に共通していることを示す。

We propose an interpretation of physics named potentiality realism. This view, which can be applied to classical as well as to quantum physics, regards potentialities (i.e. intrinsic, objective propensities for individual events to obtain) as elements of reality, thereby complementing the actual properties taken by physical variables. This allows one to naturally reconcile realism and fundamental indeterminism in any theoretical framework. We discuss our specific interpretation of propensities, that require them to depart from being probabilities at the formal level, though allowing for statistics and the law of large numbers. This view helps reconcile classical and quantum physics by showing that most of the conceptual problems that are customarily taken to be unique issues of the latter -- such as the measurement problem -- are actually in common to all indeterministic physical theories.
翻訳日:2023-11-08 22:43:45 公開日:2023-11-07
# easyhec: 微分可能レンダリングと宇宙探査による高精度で自動的な手眼校正

EasyHeC: Accurate and Automatic Hand-eye Calibration via Differentiable Rendering and Space Exploration ( http://arxiv.org/abs/2305.01191v2 )

ライセンス: Link先を確認
Linghao Chen, Yuzhe Qin, Xiaowei Zhou, Hao Su(参考訳) ハンドアイキャリブレーションはロボット工学において重要な課題であり、操作や握りなどの重要な操作の有効性に直接影響を与える。 この目的を達成するための従来の手法は、共同ポーズの注意深い設計と特別なキャリブレーションマーカーの使用を必要とするが、近年では単にポーズ回帰を用いた学習に基づくアプローチは、不正確さを診断する能力に限られている。 本研究では,マーカーレスでホワイトボックスであり,精度とロバスト性に優れた手眼校正手法であるEasyHeCを提案する。 本研究では,キャリブレーションプロセスの高精度なエンドツーエンド最適化を実現するとともに,ロボットジョイントポーズの煩雑な手作業による設計の必要性をなくすため,2つの重要な技術を使用することを提案する。 本評価は, 合成および実世界のデータセットにおいて優れた性能を示し, オブジェクトの位置決めと対話のための正確なカメラポーズを提供することにより, 下流操作タスクを強化する。 コードはプロジェクトのページで公開されている。

Hand-eye calibration is a critical task in robotics, as it directly affects the efficacy of critical operations such as manipulation and grasping. Traditional methods for achieving this objective necessitate the careful design of joint poses and the use of specialized calibration markers, while most recent learning-based approaches using solely pose regression are limited in their abilities to diagnose inaccuracies. In this work, we introduce a new approach to hand-eye calibration called EasyHeC, which is markerless, white-box, and delivers superior accuracy and robustness. We propose to use two key technologies: differentiable rendering-based camera pose optimization and consistency-based joint space exploration, which enables accurate end-to-end optimization of the calibration process and eliminates the need for the laborious manual design of robot joint poses. Our evaluation demonstrates superior performance in synthetic and real-world datasets, enhancing downstream manipulation tasks by providing precise camera poses for locating and interacting with objects. The code is available at the project page: https://ootts.github.io/easyhec.
翻訳日:2023-11-08 22:43:30 公開日:2023-11-07
# 効率的なロボット学習のための空間言語注意政策

Spatial-Language Attention Policies for Efficient Robot Learning ( http://arxiv.org/abs/2304.11235v3 )

ライセンス: Link先を確認
Priyam Parashar, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam Powers, Yonatan Bisk, Chris Paxton(参考訳) 言語操作の進歩にもかかわらず、既存の作業はテーブルトップ設定に制限されている。 テーブルトップは、完璧で一貫性のあるカメラアングルを可能にする。 環境を動き回るタスクプランは、エゴセントリックな視点や平面の変化や把握角度に頑健でなければならない。 さらに課題は、限られたデータから効率的にスキルを習得しながら、これがすべて正しいことを保証することだ。 本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。 SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。 1つのモデルで8つのタスクにまたがる実世界では80%の成功率を示し、1つのタスクにほんの一握りの例であっても、見当たらないクレームや見当たらないオブジェクト構成を導入すると47.5%の成功率を示す。 これは、以前の作業よりも30%の改善である(見当たらない障害と構成で20%)。 モバイル操作設定ではベースラインよりも4倍改善しています。 さらに,マルチステップ移動操作のための大規模言語モデルを用いて,オープンボキャブラリ命令からタスクプランを実行するためのslapsのロバスト性を示す。 ビデオはwebサイト(https://robotslap.github.io)を参照。

Despite great strides in language-guided manipulation, existing work has been constrained to table-top settings. Table-tops allow for perfect and consistent camera angles, properties are that do not hold in mobile manipulation. Task plans that involve moving around the environment must be robust to egocentric views and changes in the plane and angle of grasp. A further challenge is ensuring this is all true while still being able to learn skills efficiently from limited data. We propose Spatial-Language Attention Policies (SLAP) as a solution. SLAP uses three-dimensional tokens as the input representation to train a single multi-task, language-conditioned action prediction policy. Our method shows an 80% success rate in the real world across eight tasks with a single model, and a 47.5% success rate when unseen clutter and unseen object configurations are introduced, even with only a handful of examples per task. This represents an improvement of 30% over prior work (20% given unseen distractors and configurations). We see a 4x improvement over baseline in mobile manipulation setting. In addition, we show how SLAPs robustness allows us to execute Task Plans from open-vocabulary instructions using a large language model for multi-step mobile manipulation. For videos, see the website: https://robotslap.github.io
翻訳日:2023-11-08 22:43:01 公開日:2023-11-07
# 非エルミートホログラフィにおける導電性

Electric conductivity in non-Hermitian holography ( http://arxiv.org/abs/2304.11183v3 )

ライセンス: Link先を確認
Zhuo-Yu Xian, David Rodr\'iguez Fern\'andez, Zhaohui Chen, Yang Liu, Rene Meyer(参考訳) 非エルミート型PT対称ホログラフィーモデルarXiv:1912.06647の有限温度における相構造と電荷輸送および化学ポテンシャルについて検討した。 非エルミートpt対称変形は、大域u(1)対称性のパラメータを複素数に促進することによって実現される。 変形強度によっては, 安定なpt-対称相, 不安定なpt-対称相, 不安定なpt-対称破壊相の3相が認められる。 3つの相では、縮合体の正方形と0周波数での交流伝導率のスペクトル重みはそれぞれ正、負、複素である。 我々は、交流伝導度に対するフェレル・グルーバー・ティンカム和則が3つの相すべてで成り立つことを確認する。 また,pt対称変形を伴う複雑なu(1)回転子モデルについて検討し,その位相構造と凝縮パターンを導出し,ホログラムモデルに類似した零周波スペクトル量を求める。

We study the phase structure and charge transport at finite temperature and chemical potential in the non-Hermitian PT-symmetric holographic model of arXiv:1912.06647. The non-Hermitian PT-symmetric deformation is realized by promoting the parameter of a global U(1) symmetry to a complex number. Depending on the strength of the deformation, we find three phases: stable PT-symmetric phase, unstable PT-symmetric phase, and an unstable PT-symmetry broken phase. In the three phases, the square of the condensate and also the spectral weight of the AC conductivity at zero frequency are, respectively, positive, negative, and complex. We check that the Ferrell-Glover-Tinkham sum rule for the AC conductivity holds in all the three phases. We also investigate a complexified U(1) rotor model with PT-symmetric deformation, derive its phase structure and condensation pattern, and find a zero frequency spectral weight analogous to the holographic model.
翻訳日:2023-11-08 22:42:41 公開日:2023-11-07
# 対称射影による資源効率の高い高次元絡み合い検出

Resource-efficient high-dimensional entanglement detection via symmetric projections ( http://arxiv.org/abs/2304.04274v2 )

ライセンス: Link先を確認
Simon Morelli, Marcus Huber, Armin Tavakoli(参考訳) 任意の局所次元の2部量子状態の絡み合いの検出と定量化のための2つの基準を導入する。 1つは互いに偏りのない基底の測定に基づいており、もう1つは等角測定に基づいている。 どちらの基準も、状態の絡み合い次元における定性的な結果と、最大絡み合い状態との忠実度の観点からの定量的結果を与える。 この基準は、国家に関する仮定は必要ないため、普遍的に適用できる。 さらに、実験者は、実施した測定回数を選択して、資源効率と耐雑音性のトレードオフを制御することができる。 パラメタレーショナルノイズモデルでは,任意の次元におけるほぼ最適検出を実現するためには,少数の測定しか必要としない。 大域的積射影の数は局所次元でのみ線形にスケールするので、非常に高次元の絡み合いの検出と定量化の道を開くことができる。

We introduce two families of criteria for detecting and quantifying the entanglement of a bipartite quantum state of arbitrary local dimension. The first is based on measurements in mutually unbiased bases and the second is based on equiangular measurements. Both criteria give a qualitative result in terms of the state's entanglement dimension and a quantitative result in terms of its fidelity with the maximally entangled state. The criteria are universally applicable since no assumptions on the state are required. Moreover, the experimenter can control the trade-off between resource-efficiency and noise-tolerance by selecting the number of measurements performed. For paradigmatic noise models, we show that only a small number of measurements are necessary to achieve nearly-optimal detection in any dimension. The number of global product projections scales only linearly in the local dimension, thus paving the way for detection and quantification of very high-dimensional entanglement.
翻訳日:2023-11-08 22:42:24 公開日:2023-11-07
# 反復微分によるニューラルフィールド畳み込み

Neural Field Convolutions by Repeated Differentiation ( http://arxiv.org/abs/2304.01834v2 )

ライセンス: Link先を確認
Ntumba Elie Nsampi, Adarsh Djeacoumar, Hans-Peter Seidel, Tobias Ritschel, Thomas Leimk\"uhler(参考訳) ニューラルフィールドは、ビジュアルコンピューティングのための汎用的な連続表現へと進化している。 しかし、多くの魅力的な特性にもかかわらず、信号処理には適さない。 本研究では,ニューラルネットワークなどの一般連続信号を用いた一般連続畳み込みを行う手法を提案する。 分割多項式核は、繰り返し微分された後にディラックデルタのスパース集合に還元され、畳み込みアイデンティティを活用し、繰り返し積分場を訓練し、大規模畳み込みを効率的に行う。 我々は,様々なデータモダリティと空間変動するカーネルに対する我々のアプローチを実証する。

Neural fields are evolving towards a general-purpose continuous representation for visual computing. Yet, despite their numerous appealing properties, they are hardly amenable to signal processing. As a remedy, we present a method to perform general continuous convolutions with general continuous signals such as neural fields. Observing that piecewise polynomial kernels reduce to a sparse set of Dirac deltas after repeated differentiation, we leverage convolution identities and train a repeated integral field to efficiently execute large-scale convolutions. We demonstrate our approach on a variety of data modalities and spatially-varying kernels.
翻訳日:2023-11-08 22:42:09 公開日:2023-11-07
# プレノッセル放射域におけるrgb-dマッピングと追跡

RGB-D Mapping and Tracking in a Plenoxel Radiance Field ( http://arxiv.org/abs/2307.03404v2 )

ライセンス: Link先を確認
Andreas L. Teigen, Yeonsoo Park, Annette Stahl, Rudolf Mester(参考訳) 神経放射野(neural radiance fields, nerfs)が広く普及したことにより、近年では、新しい視点合成の領域が大幅に進歩している。 これらのモデルはシーンの体積放射場をキャプチャし、単純で微分可能なレンダリング方程式を用いて、非常に説得力があり、密度の高いフォトリアリズムモデルを作成する。 その人気にもかかわらず、これらのアルゴリズムはRGBセンサー固有の視覚データの曖昧さに悩まされており、ビュー合成によって生成された画像は、視覚的に非常に信頼できるように見えるが、基礎となる3Dモデルは、しばしば間違っている。 これにより、ロボティクスや拡張現実(XR)のような実用的応用において、正確な3D再構成が重要な意味を持つようなモデルの有用性が大幅に制限される。 本稿では,ビュー合成モデルと3次元再構成モデルとの違いについて述べる。 また,新しい視点合成手法のパラダイムを用いて,外向きシーンの正確な形状のモデル化に奥行きセンサが不可欠である理由について解説する。 ニューラルネットワークを用いず,rgb-dデータに基づく放射能場を用いた高密度マッピングと追跡のための解析的微分アプローチを提示する。 提案手法は,タスクのマッピングと追跡を両立させるとともに,競合するニューラルネットワークのアプローチよりも高速である。 コードは以下の通りである。 https://github.com/ysus33/RGB-D_Plenoxel_Mapping_Tracking.git

The widespread adoption of Neural Radiance Fields (NeRFs) have ensured significant advances in the domain of novel view synthesis in recent years. These models capture a volumetric radiance field of a scene, creating highly convincing, dense, photorealistic models through the use of simple, differentiable rendering equations. Despite their popularity, these algorithms suffer from severe ambiguities in visual data inherent to the RGB sensor, which means that although images generated with view synthesis can visually appear very believable, the underlying 3D model will often be wrong. This considerably limits the usefulness of these models in practical applications like Robotics and Extended Reality (XR), where an accurate dense 3D reconstruction otherwise would be of significant value. In this paper, we present the vital differences between view synthesis models and 3D reconstruction models. We also comment on why a depth sensor is essential for modeling accurate geometry in general outward-facing scenes using the current paradigm of novel view synthesis methods. Focusing on the structure-from-motion task, we practically demonstrate this need by extending the Plenoxel radiance field model: Presenting an analytical differential approach for dense mapping and tracking with radiance fields based on RGB-D data without a neural network. Our method achieves state-of-the-art results in both mapping and tracking tasks, while also being faster than competing neural network-based approaches. The code is available at: https://github.com/ysus33/RGB-D_Plenoxel_Mapping_Tracking.git
翻訳日:2023-11-08 22:35:18 公開日:2023-11-07
# Infinite Tensor Network Contraction によるオープン量子システムダイナミクス

Open Quantum System Dynamics from Infinite Tensor Network Contraction ( http://arxiv.org/abs/2307.01802v3 )

ライセンス: Link先を確認
Valentin Link, Hong-Hao Tu, Walter T. Strunz(参考訳) 非マルコフ開量子系の長時間のダイナミクスへのアプローチは、入浴が強く結合されている場合、難しい課題となる。 最近の提案では、いわゆるプロセステンソルをテンソルネットワークで表現することでこの問題に対処し、行列積状態 (MPS) に縮約することができる。 ガウス環境においては, 浴槽応答の定常性を有効利用して, 無限MPS進化法によるMPSを効率的に構築できることを示す。 この結果は、階層的あるいは擬態的手法のように、慎重に設計された補助的な自由度を持つオープンシステムの進化と構造的に類似している。 しかし、これらの自由度はMPS進化アルゴリズムによって自動的に生成される。 重要なことに、結果のプロパゲータの半群特性は任意の進化時間に達し、定常状態の相転移のような漸近的性質の体系的な探索にスペクトル理論を適用することができる。 さらに, プロセステンソルネットワークを縮約するアルゴリズムは, 強結合方式において既存の提案よりも大きな計算速度向上をもたらす。

Approaching the long-time dynamics of non-Markovian open quantum systems presents a challenging task if the bath is strongly coupled. Recent proposals address this problem through a representation of the so-called process tensor in terms of a tensor network, which can be contracted to matrix product state (MPS) form. We show that for Gaussian environments the stationarity of the bath response can be exploited in order to efficiently construct such a MPS with infinite MPS evolution methods. The result structurally resembles open system evolution with carefully designed auxiliary degrees of freedom, as in hierarchical or pseudomode methods. Here, however, these degrees of freedom are generated automatically by the MPS evolution algorithm. Crucially, the semi-group property of the resulting propagator enables us to reach arbitrary evolution times and apply spectral theory for a systematic exploration of asymptotic properties, such as phase transitions in the steady state. Moreover, our algorithm for contracting the process tensor network leads to significant computational speed-up over existing proposals in the strong coupling regime.
翻訳日:2023-11-08 22:34:52 公開日:2023-11-07
# MedAugment: 医用画像解析のためのユニバーサル自動データ拡張プラグイン

MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis ( http://arxiv.org/abs/2306.17466v3 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Yifan Li and Ziduo Yang and Lei Shen(参考訳) データ拡張(DA)は、データ不足を軽減するためにコンピュータビジョンの領域で広く活用されているが、医療画像分析(MIA)におけるDAは、複数の課題に直面している。 MIAにおける一般的なDAアプローチは、従来のDA、合成DA、自動DAを含む。 しかし、これらのアプローチの利用は、経験駆動設計や集中的な計算コストといった様々な課題をもたらす。 本稿では,MedAugmentと呼ばれる効率的かつ効果的な自動DA手法を提案する。 本稿では,画素増倍空間と空間増倍空間を提案し,医用画像の詳細と特徴を破る操作を除外する。 さらに, 2 つの空間から限られた数の演算をサンプリングし, 新たなサンプリング戦略を提案する。 さらに,MedAugmentを1つのハイパーパラメータで完全に制御可能にするために,高パラメータマッピング関係を提案する。 これらの改訂は、自然画像と医療画像の違いに対処する。 4つの分類と3つのセグメンテーションデータセットの大規模な実験結果は、MedAugmentの優位性を示している。 我々は、プラグアンドユースとトレーニングフリーのMedAugmentが、医学分野、特に深層学習における基礎知識の欠如した医療専門家に有意義な貢献をする可能性を秘めていると仮定する。 コードはhttps://github.com/NUS-Tim/MedAugment.comで入手できる。

Data augmentation (DA) has been widely leveraged in the realm of computer vision to alleviate the data shortage, whereas the DA in medical image analysis (MIA) faces multiple challenges. The prevalent DA approaches in MIA encompass conventional DA, synthetic DA, and automatic DA. However, the utilization of these approaches poses various challenges such as experience-driven design and intensive computation cost. Here, we propose an efficient and effective automatic DA method termed MedAugment. We propose the pixel augmentation space and spatial augmentation space and exclude the operations that can break the details and features within medical images. Besides, we propose a novel sampling strategy by sampling a limited number of operations from the two spaces. Moreover, we present a hyperparameter mapping relationship to produce a rational augmentation level and make the MedAugment fully controllable using a single hyperparameter. These revisions address the differences between natural and medical images. Extensive experimental results on four classification and three segmentation datasets demonstrate the superiority of MedAugment. We posit that the plug-and-use and training-free MedAugment holds the potential to make a valuable contribution to the medical field, particularly benefiting medical experts lacking foundational expertise in deep learning. Code is available at https://github.com/NUS-Tim/MedAugment.
翻訳日:2023-11-08 22:34:36 公開日:2023-11-07
# 逆タンパク質フォールディングのためのグラフデノイング拡散

Graph Denoising Diffusion for Inverse Protein Folding ( http://arxiv.org/abs/2306.16819v2 )

ライセンス: Link先を確認
Kai Yi, Bingxin Zhou, Yiqing Shen, Pietro Li\`o, Yu Guang Wang(参考訳) 逆タンパク質折り畳みは、多くの可能なアミノ酸配列が単一の同一のタンパク質バックボーンに折り畳むことができる、固有の一対多のマッピング特性のために難しい。 このタスクは、実行可能な列を識別するだけでなく、潜在的な解の多様性も表す。 しかし、トランスフォーマーベースの自己回帰モデルのような既存の差別モデルでは、多様な可算解をカプセル化することが困難である。 対照的に、拡散確率モデルは、生成的アプローチの新しいジャンルとして、決定されたタンパク質バックボーンの多様な配列候補を生成する可能性がある。 本稿では,逆タンパク質の折り畳みに対する新しい拡散モデルを提案する。そこでは,タンパク質のバックボーンが対応するアミノ酸残基の拡散過程を案内する。 本モデルでは, ノードの物理化学的性質と局所環境に基づくアミノ酸の結合分布を推定する。 さらに, 拡散前処理にアミノ酸置換マトリックスを用い, アミノ酸の生物学的に有意な事前知識をその空間的および逐次的隣人およびそれ自身から符号化することにより, 生成過程のサンプリング空間を減少させる。 本モデルでは, 一般的な塩基配列回復法に対して最先端のパフォーマンスを実現し, 決定されたタンパク質骨格構造に対して, 多様なタンパク質配列を生成できる可能性を示す。

Inverse protein folding is challenging due to its inherent one-to-many mapping characteristic, where numerous possible amino acid sequences can fold into a single, identical protein backbone. This task involves not only identifying viable sequences but also representing the sheer diversity of potential solutions. However, existing discriminative models, such as transformer-based auto-regressive models, struggle to encapsulate the diverse range of plausible solutions. In contrast, diffusion probabilistic models, as an emerging genre of generative approaches, offer the potential to generate a diverse set of sequence candidates for determined protein backbones. We propose a novel graph denoising diffusion model for inverse protein folding, where a given protein backbone guides the diffusion process on the corresponding amino acid residue types. The model infers the joint distribution of amino acids conditioned on the nodes' physiochemical properties and local environment. Moreover, we utilize amino acid replacement matrices for the diffusion forward process, encoding the biologically-meaningful prior knowledge of amino acids from their spatial and sequential neighbors as well as themselves, which reduces the sampling space of the generative process. Our model achieves state-of-the-art performance over a set of popular baseline methods in sequence recovery and exhibits great potential in generating diverse protein sequences for a determined protein backbone structure.
翻訳日:2023-11-08 22:34:14 公開日:2023-11-07
# スコアベース音源分離とディジタル通信信号への応用

Score-based Source Separation with Applications to Digital Communication Signals ( http://arxiv.org/abs/2306.14411v2 )

ライセンス: Link先を確認
Tejas Jayashankar, Gary C.F. Lee, Alejandro Lancho, Amir Weiss, Yury Polyanskiy, Gregory W. Wornell(参考訳) 拡散型生成モデルを用いた重畳音源の分離手法を提案する。 本手法は,複数のガウス平滑化レベルにまたがって,後続推定の最大化によって導かれる新しい目的関数を確立するために,独立した情報源の個別に訓練された統計前置値のみに依存する。 無線周波数(RF)システムへの応用により、我々は、ビット誤り率(BER)によって測定された、興味のある信号からの離散特性と符号化ビットの回復の基盤となる情報源に興味を持っている。 RF混合実験の結果,従来の学習法と既存学習法を比べ,BERの95%削減効果が示された。 解析の結果,提案手法は離散分布のモードに漸近的にアプローチする解を導出することが示された。 さらに,本手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張として,条件付きサンプリング以外の用途に光を流し込むことができる。 プロジェクトwebページはhttps://alpha-rgs.github.ioで入手できる。

We propose a new method for separating superimposed sources using diffusion-based generative models. Our method relies only on separately trained statistical priors of independent sources to establish a new objective function guided by maximum a posteriori estimation with an $\alpha$-posterior, across multiple levels of Gaussian smoothing. Motivated by applications in radio-frequency (RF) systems, we are interested in sources with underlying discrete nature and the recovery of encoded bits from a signal of interest, as measured by the bit error rate (BER). Experimental results with RF mixtures demonstrate that our method results in a BER reduction of 95% over classical and existing learning-based methods. Our analysis demonstrates that our proposed method yields solutions that asymptotically approach the modes of an underlying discrete distribution. Furthermore, our method can be viewed as a multi-source extension to the recently proposed score distillation sampling scheme, shedding additional light on its use beyond conditional sampling. The project webpage is available at https://alpha-rgs.github.io
翻訳日:2023-11-08 22:33:50 公開日:2023-11-07
# 小型縮退ギャップを用いた高速最大$k$-Plexアルゴリズム

Fast Maximum $k$-Plex Algorithms Parameterized by Small Degeneracy Gaps ( http://arxiv.org/abs/2306.13258v2 )

ライセンス: Link先を確認
Zhengren Wang, Yi Zhou, Chunyu Luo, Mingyu Xiao, Jin-Kao Hao(参考訳) グラフが与えられたとき、$k$-plex は各頂点が集合内の少なくとも $k-1$ の他の頂点に隣接しない頂点の集合である。 与えられたグラフから最大$k$-plexを求める最大$k$-plex問題は、グラフマイニングやコミュニティ検出といったアプリケーションにおいて、重要ではあるが計算上困難な問題である。 今のところ、実用的なアルゴリズムは数多く存在するが、その効率に関する理論的説明は提供されていない。 入力のインスタンスの新たなパラメータである$g_k(G)$、与えられたグラフの退化境界と最大$k$-plexのサイズの間のギャップを定義し、この$g_k(G)$でパラメータ化された正確なアルゴリズムを示す。 実世界の入力では、$g_k(G)$は非常に小さく、通常$O(\log{(|V|)})$で束縛されている。 さらに、より小さなパラメータである$cg_k(G)$、コミュニティ縮退境界と最大$k$-plexの大きさのギャップまで議論を拡大し、多くの修正がなければ、我々のアルゴリズムは$cg_k(G)$でパラメータ化できることを示す。 これらのアルゴリズムの実証性能を検証するため、我々は、これらのアルゴリズムが最先端のアルゴリズムと競合することを示す広範な実験を行った。 特に15ドルや20ドルといった大きな$k$の場合、我々のアルゴリズムは既存のアルゴリズムを支配しています。 最後に、実験分析を行い、実装におけるパラメータやその他の重要なコンポーネントの有効性を説明する。

Given a graph, a $k$-plex is a set of vertices in which each vertex is not adjacent to at most $k-1$ other vertices in the set. The maximum $k$-plex problem, which asks for the largest $k$-plex from the given graph, is an important but computationally challenging problem in applications such as graph mining and community detection. So far, there are many practical algorithms, but without providing theoretical explanations on their efficiency. We define a novel parameter of the input instance, $g_k(G)$, the gap between the degeneracy bound and the size of the maximum $k$-plex in the given graph, and present an exact algorithm parameterized by this $g_k(G)$, which has a worst-case running time polynomial in the size of the input graph and exponential in $g_k(G)$. In real-world inputs, $g_k(G)$ is very small, usually bounded by $O(\log{(|V|)})$, indicating that the algorithm runs in polynomial time. We further extend our discussion to an even smaller parameter $cg_k(G)$, the gap between the community-degeneracy bound and the size of the maximum $k$-plex, and show that without much modification, our algorithm can also be parameterized by $cg_k(G)$. To verify the empirical performance of these algorithms, we carry out extensive experiments to show that these algorithms are competitive with the state-of-the-art algorithms. In particular, for large $k$ values such as $15$ and $20$, our algorithms dominate the existing algorithms. Finally, empirical analysis is performed to illustrate the effectiveness of the parameters and other key components in the implementation.
翻訳日:2023-11-08 22:33:30 公開日:2023-11-07
# OpenGSL: グラフ構造学習のための総合ベンチマーク

OpenGSL: A Comprehensive Benchmark for Graph Structure Learning ( http://arxiv.org/abs/2306.10280v3 )

ライセンス: Link先を確認
Zhiyao Zhou, Sheng Zhou, Bochao Mao, Xuanyi Zhou, Jiawei Chen, Qiaoyu Tan, Daochen Zha, Yan Feng, Chun Chen, Can Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフトポロジとノード属性を効果的に統合する能力のため、グラフ上での表現学習のデファクトスタンダードとして登場した。 しかし、グラフの複雑で連続的な生成過程から生じるノード接続の固有な最適部分性質は、それらを効果的にモデル化する上で大きな課題を提起する。 この問題に対処するために、データ中心の学習アプローチのファミリであるグラフ構造学習(GSL)が近年注目を集めている。 GSLの中核となる概念は、グラフ構造と対応するGNNモデルを協調的に最適化することである。 多くのGSL手法の提案にもかかわらず、データセットのバリエーション、データ処理技術、分割戦略など、一貫性のない実験プロトコルのため、この分野の進展はいまだ不明である。 本稿では,このギャップに対処することを目的とした,GSLの最初の総合ベンチマークであるOpenGSLを紹介する。 OpenGSLは、均一なデータ処理と分割戦略を使用して、様々な一般的なデータセットで評価することで、最先端のGSLメソッドの公平な比較を可能にする。 広範な実験により、既存のGSL法はバニラGNN法よりも一貫して優れているわけではないことが観察された。 また,学習構造と課題性能との間には有意な相関関係が見られず,共通の信念に異議を唱えている。 さらに,学習したグラフ構造は,高い計算量と空間消費にもかかわらず,異なるGNNモデル間で強力な一般化能力を示す。 当社のオープンソースライブラリは,迅速かつ公平な評価を促進するとともに,この分野におけるさらなる革新的な研究を促すことを願っている。 ベンチマークのコードはhttps://github.com/OpenGSL/OpenGSLで確認できる。

Graph Neural Networks (GNNs) have emerged as the de facto standard for representation learning on graphs, owing to their ability to effectively integrate graph topology and node attributes. However, the inherent suboptimal nature of node connections, resulting from the complex and contingent formation process of graphs, presents significant challenges in modeling them effectively. To tackle this issue, Graph Structure Learning (GSL), a family of data-centric learning approaches, has garnered substantial attention in recent years. The core concept behind GSL is to jointly optimize the graph structure and the corresponding GNN models. Despite the proposal of numerous GSL methods, the progress in this field remains unclear due to inconsistent experimental protocols, including variations in datasets, data processing techniques, and splitting strategies. In this paper, we introduce OpenGSL, the first comprehensive benchmark for GSL, aimed at addressing this gap. OpenGSL enables a fair comparison among state-of-the-art GSL methods by evaluating them across various popular datasets using uniform data processing and splitting strategies. Through extensive experiments, we observe that existing GSL methods do not consistently outperform vanilla GNN counterparts. We also find that there is no significant correlation between the homophily of the learned structure and task performance, challenging the common belief. Moreover, we observe that the learned graph structure demonstrates a strong generalization ability across different GNN models, despite the high computational and space consumption. We hope that our open-sourced library will facilitate rapid and equitable evaluation and inspire further innovative research in this field. The code of the benchmark can be found in https://github.com/OpenGSL/OpenGSL.
翻訳日:2023-11-08 22:32:37 公開日:2023-11-07
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v9 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは無限ポテンシャル和の近似によって実現され、証明可能な誤差境界を持ついくつかのポテンシャル級数近似に対するエワルド和を拡張する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations, where we extend the Ewald summation for several potential series approximations with provable error bounds. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS/tree/main/OpenMat/PotNet).
翻訳日:2023-11-08 22:32:08 公開日:2023-11-07
# Floquet-Tailored Rydberg Interactions

Floquet-Tailored Rydberg Interactions ( http://arxiv.org/abs/2306.08596v2 )

ライセンス: Link先を確認
Luheng Zhao, Michael Dao Kang Lee, Mohammad Mujahid Aliyu, Huanqian Loh(参考訳) ライドベルク封鎖は配列中の原子を絡める重要な要素である。 しかし、これは局所的な量子ゲートの範囲を制限するブロック半径内に原子をうまく配置する必要がある。 ここでは、Floquet周波数変調を用いてこの制約を破り、従来の閉塞半径を超えるRydberg-Blockadeの絡み合いを実証し、拡張された絡み合い範囲が中性原子配列におけるqubit接続性をどのように改善するかを示す。 さらに,Floquet周波数変調の下では,絡み合った状態のコヒーレンスを拡張できることがわかった。 最後に、封鎖半径内の2つのリドベルグナトリウム原子のリドベルグ阻害状態を実現する。 このような近接範囲の原子に対するrydberg反遮断状態は、強く相互作用し長寿命なrydberg状態の強固な合成を可能にするが、その定常的な人口は従来の静的駆動だけでは達成できない。 我々の研究は、Rydbergブロックとアンチブロッカドのパラダイム的な状態の間で変化し、より連結的で一貫性があり、調整可能な中性原子量子プロセッサを単一のアプローチで実現する方法を舗装する。

The Rydberg blockade is a key ingredient for entangling atoms in arrays. However, it requires atoms to be spaced well within the blockade radius, which limits the range of local quantum gates. Here we break this constraint using Floquet frequency modulation, with which we demonstrate Rydberg-blockade entanglement beyond the traditional blockade radius and show how the enlarged entanglement range improves qubit connectivity in a neutral atom array. Further, we find that the coherence of entangled states can be extended under Floquet frequency modulation. Finally, we realize Rydberg anti-blockade states for two sodium Rydberg atoms within the blockade radius. Such Rydberg anti-blockade states for atoms at close range enables the robust preparation of strongly-interacting, long-lived Rydberg states, yet their steady-state population cannot be achieved with only the conventional static drive. Our work transforms between the paradigmatic regimes of Rydberg blockade versus anti-blockade and paves the way for realizing more connected, coherent, and tunable neutral atom quantum processors with a single approach.
翻訳日:2023-11-08 22:31:51 公開日:2023-11-07
# クリップレベルとフレームレベルを両立する自己教師間トランスフォーマ

Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks ( http://arxiv.org/abs/2306.04186v2 )

ライセンス: Link先を確認
Xian Li, Nian Shao, and Xiaofei Li(参考訳) 自己教師付き学習(SSL)は、音声表現を学習するための一般的なアプローチである。 オーディオ自己教師型事前学習の目標は、一般的にクリップレベルやフレームレベルのタスクを含む下流オーディオタスクに知識を伝達することである。 フレームレベルのタスクはきめ細かい音響シーン/イベント理解に重要であるが、以前の研究は主にクリップレベルのダウンストリームタスクで評価されている。 本稿では,クリップレベルとフレームレベルの両方のタスクに取り組むために,クリップレベルバージョン(atst-clip)とフレームレベルバージョン(atst-frame)を用いて,クリップレベルとフレームレベルの表現をそれぞれ学習するオーディオ教師用トランスフォーマー(atst)を提案する。 どちらの方法も、トランスフォーマーエンコーダと教師・生徒のトレーニングスキームを使用する。 我々は、ATST-ClipとATST-Frameのビュー作成戦略を慎重に設計した。 具体的には、ATST-Clipはセグメントワイドデータ拡張を使用し、ATST-Frameはフレームワイドデータ拡張とマスキングを統合する。 実験の結果,ATST-Frameモデルでは,クリップレベルおよびフレームレベルの下流タスクのほとんどにおいて,最先端(SOTA)の性能が得られた。 特に、フレームレベルの音響イベント検出タスクにおいて、他のモデルよりも大きなマージンで勝っている。 さらに、知識蒸留により2つのモデルを組み合わせることにより、さらなる性能向上が図られる。 私たちのコードはオンラインで入手できる。

Self-supervised learning (SSL) has emerged as a popular approach for learning audio representations. One goal of audio self-supervised pre-training is to transfer knowledge to downstream audio tasks, generally including clip-level and frame-level tasks. While frame-level tasks are important for fine-grained acoustic scene/event understanding, prior studies primarily evaluate on clip-level downstream tasks. In order to tackle both clip-level and frame-level tasks, this paper proposes Audio Teacher-Student Transformer (ATST), with a clip-level version (named ATST-Clip) and a frame-level version (named ATST-Frame), responsible for learning clip-level and frame-level representations, respectively. Both methods use a Transformer encoder and a teacher-student training scheme. We have carefully designed the view creation strategy for ATST-Clip and ATST-Frame. Specifically, ATST-Clip uses segment-wise data augmentations, and ATST-Frame integrates frame-wise data augmentations and masking. Experimental results show that our ATST-Frame model obtains state-of-the-art (SOTA) performances on most of the clip-level and frame-level downstream tasks. Especially, it outperforms other models by a large margin on the frame-level sound event detection task. In addition, the performance can be further improved by combining the two models through knowledge distillation. Our code is available online.
翻訳日:2023-11-08 22:31:25 公開日:2023-11-07
# 拡散モデルにおける生成過程の最適選択:正規対確率微分方程式

Exploring the Optimal Choice for Generative Processes in Diffusion Models: Ordinary vs Stochastic Differential Equations ( http://arxiv.org/abs/2306.02063v2 )

ライセンス: Link先を確認
Yu Cao, Jingrun Chen, Yixin Luo, Xiang Zhou(参考訳) 拡散モデルはコンピュータビジョンにおいて顕著な成功を収めてきたが、ODEベースの確率フローとSDEベースの拡散モデルの方が優れているか、どのような状況下かは定かではない。 データ分散やスコアトレーニング、その他の数値問題に依存するため、この2つを比較することは難しい。 本稿では,ゼロ拡散(ODE)の場合と大拡散の場合の2つの制限シナリオについて数学的に検討する。 まず,スコア関数を摂動させ,サンプリング品質の誤差蓄積を解析するためにパルス形状誤差を導入し,さらに任意の誤差に対する一般化を徹底的に解析する。 その結果, 生成過程の最後に摂動が発生すると, ODEモデルは大きな拡散係数でSDEモデルより優れることがわかった。 しかし, 摂動が早期に生じた場合, sdeモデルがodeモデルよりも優れており, 拡散項の大きさが無限大になるにつれて, パルス状摂動による試料生成誤差が指数関数的に抑制されることを示す。 この現象の数値検証は、MNISTやCIFAR-10のような現実的なデータセットと同様に、ガウシアン、ガウシアン混合物、スイスロール分布を用いて行われる。

The diffusion model has shown remarkable success in computer vision, but it remains unclear whether the ODE-based probability flow or the SDE-based diffusion model is more superior and under what circumstances. Comparing the two is challenging due to dependencies on data distributions, score training, and other numerical issues. In this paper, we study the problem mathematically for two limiting scenarios: the zero diffusion (ODE) case and the large diffusion case. We first introduce a pulse-shape error to perturb the score function and analyze error accumulation of sampling quality, followed by a thorough analysis for generalization to arbitrary error. Our findings indicate that when the perturbation occurs at the end of the generative process, the ODE model outperforms the SDE model with a large diffusion coefficient. However, when the perturbation occurs earlier, the SDE model outperforms the ODE model, and we demonstrate that the error of sample generation due to such a pulse-shape perturbation is exponentially suppressed as the diffusion term's magnitude increases to infinity. Numerical validation of this phenomenon is provided using Gaussian, Gaussian mixture, and Swiss roll distribution, as well as realistic datasets like MNIST and CIFAR-10.
翻訳日:2023-11-08 22:30:16 公開日:2023-11-07
# MAGNet: 形状から分子をモチーフ非依存に生成する

MAGNet: Motif-Agnostic Generation of Molecules from Shapes ( http://arxiv.org/abs/2305.19303v2 )

ライセンス: Link先を確認
Leon Hetzel and Johanna Sommer and Bastian Rieck and Fabian Theis and Stephan G\"unnemann(参考訳) 分子の機械学習の最近の進歩は、シリコの予測から薬物発見を促進する大きな可能性を示している。 分子生成のほとんどのモデルは、分子が頻繁に生じる部分構造(モチーフ)に分解され、そこから新しい化合物が生成される。 モチーフ表現は分子分布の学習に大いに役立つが、そのような方法は既知のモチーフ集合を超えてサブ構造を表現するのに苦労する。 この問題を緩和し、データセット間の柔軟性を向上させるために、原子と結合の型を割り当てる前に抽象的な形状を生成するグラフベースモデルMAGNetを提案する。 この目的のために,分子の全体的文脈を考慮し,原子や結合の形状への適切な割り当ての学習を容易にする,分子のデータ分布の新たな因子化を提案する。 形状抽象化の複雑さが増したにもかかわらず、MAGNetは標準ベンチマークで他のグラフベースのアプローチよりも優れている。 重要なことは、MAGNetの表現性の向上が、よりトポロジカルに異なる構造を持つ分子と、同時に多様な原子と結合の割り当てをもたらすことを示した。

Recent advances in machine learning for molecules exhibit great potential for facilitating drug discovery from in silico predictions. Most models for molecule generation rely on the decomposition of molecules into frequently occurring substructures (motifs), from which they generate novel compounds. While motif representations greatly aid in learning molecular distributions, such methods struggle to represent substructures beyond their known motif set. To alleviate this issue and increase flexibility across datasets, we propose MAGNet, a graph-based model that generates abstract shapes before allocating atom and bond types. To this end, we introduce a novel factorisation of the molecules' data distribution that accounts for the molecules' global context and facilitates learning adequate assignments of atoms and bonds onto shapes. Despite the added complexity of shape abstractions, MAGNet outperforms most other graph-based approaches on standard benchmarks. Importantly, we demonstrate that MAGNet's improved expressivity leads to molecules with more topologically distinct structures and, at the same time, diverse atom and bond assignments.
翻訳日:2023-11-08 22:29:51 公開日:2023-11-07
# segmentanythingは自動および定量的オルガノイド検出と解析に基づく顕微鏡画像支援

SegmentAnything helps microscopy images based automatic and quantitative organoid detection and analysis ( http://arxiv.org/abs/2309.04190v3 )

ライセンス: Link先を確認
Xiaodan Xing, Chunling Tang, Yunzhe Guo, Nicholas Kurniawan, and Guang Yang(参考訳) オルガノイド(英: organoids)は、生体内組織や臓器の構造や機能をよく表わす自己組織化した3d細胞クラスターである。 オルガノイドの形態の定量化は、臓器形成、薬物発見、毒性評価の研究に役立つ。 最近の顕微鏡技術は、オルガノイドの形態的特徴を取得する強力なツールを提供するが、手動画像解析は依然として手間と時間を要するプロセスである。 そこで本研究では,SegmentAnythingを用いた顕微鏡解析のための包括的パイプラインを提案する。 さらに, 周囲, 面積, 半径, 非湿潤性, 非循環性などの形態的特徴を導入し, オルガノイド構造を定量的かつ自動的に解析する。 提案手法の有効性を検証するため,ヒト誘導多能性幹細胞(iPSCs)由来神経上皮性オルガノイド(NE)の明視野画像の検討を行った。 自動パイプラインから得られた結果は,手動オルガノイド検出および測定と密接に一致し,オルガノイド形態解析の高速化における提案手法の有効性を示した。

Organoids are self-organized 3D cell clusters that closely mimic the architecture and function of in vivo tissues and organs. Quantification of organoid morphology helps in studying organ development, drug discovery, and toxicity assessment. Recent microscopy techniques provide a potent tool to acquire organoid morphology features, but manual image analysis remains a labor and time-intensive process. Thus, this paper proposes a comprehensive pipeline for microscopy analysis that leverages the SegmentAnything to precisely demarcate individual organoids. Additionally, we introduce a set of morphological properties, including perimeter, area, radius, non-smoothness, and non-circularity, allowing researchers to analyze the organoid structures quantitatively and automatically. To validate the effectiveness of our approach, we conducted tests on bright-field images of human induced pluripotent stem cells (iPSCs) derived neural-epithelial (NE) organoids. The results obtained from our automatic pipeline closely align with manual organoid detection and measurement, showcasing the capability of our proposed method in accelerating organoids morphology analysis.
翻訳日:2023-11-08 22:22:37 公開日:2023-11-07
# 一般化文字列ネットモデルにおける位相的および非位相的異質性

Topological and nontopological degeneracies in generalized string-net models ( http://arxiv.org/abs/2309.00343v2 )

ライセンス: Link先を確認
Anna Ritz-Zwilling, Jean-No\"el Fuchs, Steven H. Simon, Julien Vidal(参考訳) 一般化された文字列ネットモデルは、元の文字列ネット構成から生じるトポロジカル量子位相の集合を拡大するために最近提案されている。 本研究では, 頂点励起を考慮せず, 重要な同一性を満たすプラケット励起やフラクトンに制限する。 任意のユニタリ融合圏に付随する一般化文字列-ネットハミルトンのエネルギー準退化を計算する方法について説明する。 純粋に位相的である基底状態の退化とは対照的に、励起エネルギー準位は圏のドリンフェルト中心だけでなく、圏から定義されるチューブ代数から得られる内部乗法にも依存する。 非可換圏の場合、これらの内部多重性は超非位相的縮退をもたらす。 結果は任意の三価グラフと任意の向き付け可能な曲面に対して有効である。 非自明な例を例に紹介する。

Generalized string-net models have been recently proposed in order to enlarge the set of possible topological quantum phases emerging from the original string-net construction. In the present work, we do not consider vertex excitations and restrict to plaquette excitations, or fluxons, that satisfy important identities. We explain how to compute the energy-level degeneracies of the generalized string-net Hamiltonian associated to an arbitrary unitary fusion category. In contrast to the degeneracy of the ground state, which is purely topological, that of excited energy levels depends not only on the Drinfeld center of the category, but also on internal multiplicities obtained from the tube algebra defined from the category. For a noncommutative category, these internal multiplicities result in extra nontopological degeneracies. Our results are valid for any trivalent graph and any orientable surface. We illustrate our findings with nontrivial examples.
翻訳日:2023-11-08 22:21:54 公開日:2023-11-07
# 深部・狭部MLPの最小幅:微分同相法

Minimum Width for Deep, Narrow MLP: A Diffeomorphism Approach ( http://arxiv.org/abs/2308.15873v2 )

ライセンス: Link先を確認
Geonho Hwang(参考訳) 近年、深層・狭層パーセプトロン (mlps) における普遍近似性を達成するための最小幅要求量を決定することに焦点が当てられている。 これらの課題のうち、特に難しい課題は、一様ノルムの下で連続函数を近似することであり、その下界と上界の間の大きな差が示される。 この問題に対処するため,深い細いMLPの最小幅の探索を単純化し,$w(d_x, d_y)$と表される純粋幾何学関数を決定するフレームワークを提案する。 この関数は入力次元と出力次元のみに依存し、それぞれ$d_x$と$d_y$と表現される。 このフレームワークをサポートする2つの重要なステップ。 まず、小さな追加の幅が与えられたとき、深い狭い MLP が$C^2$-微分同相を近似できることを示す。 この結果を用いて、$w(d_x, d_y)$ が、より深く狭い MLP が普遍性を達成するために必要な最小の幅に等しいことを証明した。 上記のフレームワークとホイットニー埋め込み定理を用いることで、最小幅の上限を$\operatorname{max}(2d_x+1, d_y) + \alpha(\sigma)$ で与え、ここで$0 \leq \alpha(\sigma) \leq 2$ は活性化関数に依存する定数を表す。 さらに、入力次元と出力次元の両方が2に等しい場合、最小幅に対して4ドル以下の下限を提供する。

Recently, there has been a growing focus on determining the minimum width requirements for achieving the universal approximation property in deep, narrow Multi-Layer Perceptrons (MLPs). Among these challenges, one particularly challenging task is approximating a continuous function under the uniform norm, as indicated by the significant disparity between its lower and upper bounds. To address this problem, we propose a framework that simplifies finding the minimum width for deep, narrow MLPs into determining a purely geometrical function denoted as $w(d_x, d_y)$. This function relies solely on the input and output dimensions, represented as $d_x$ and $d_y$, respectively. Two key steps support this framework. First, we demonstrate that deep, narrow MLPs, when provided with a small additional width, can approximate a $C^2$-diffeomorphism. Subsequently, using this result, we prove that $w(d_x, d_y)$ equates to the optimal minimum width required for deep, narrow MLPs to achieve universality. By employing the aforementioned framework and the Whitney embedding theorem, we provide an upper bound for the minimum width, given by $\operatorname{max}(2d_x+1, d_y) + \alpha(\sigma)$, where $0 \leq \alpha(\sigma) \leq 2$ represents a constant depending on the activation function. Furthermore, we provide a lower bound of $4$ for the minimum width in cases where the input and output dimensions are both equal to two.
翻訳日:2023-11-08 22:21:40 公開日:2023-11-07
# ベイズデータ選択によるモデル学習の高速化

Towards Accelerated Model Training via Bayesian Data Selection ( http://arxiv.org/abs/2308.10544v3 )

ライセンス: Link先を確認
Zhijie Deng, Peng Cui, Jun Zhu(参考訳) 現実のシナリオにおけるミスラベル付き、重複、バイアス付きのデータは、長期間のトレーニングにつながり、モデル収束を妨げます。 簡単あるいはハードなサンプルを優先順位付けする従来のソリューションは、このような多様性を同時に扱う柔軟性を欠いている。 最近の研究は、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択原則を提案している。 しかし、その実践的な採用は、より原則的な近似と追加のホールドアウトデータに依存している。 本研究は, 軽量ベイズ処理を活用し, 大規模事前学習モデルを用いた既定ゼロショット予測器を組み込むことにより, この問題を解決した。 結果として得られるアルゴリズムは効率的で実装が容易です。 我々は,オンラインバッチ選択シナリオにおいて,データノイズと不均衡がかなり大きい難易度ベンチマークについて広範な実証研究を行い,競合ベースラインよりも優れたトレーニング効率を観察する。 特に、挑戦的なwebvisionベンチマークにおいて、本手法は、リードデータ選択法よりもトレーニングイテレーションをかなり少なくして、同様の予測性能を達成することができる。

Mislabeled, duplicated, or biased data in real-world scenarios can lead to prolonged training and even hinder model convergence. Traditional solutions prioritizing easy or hard samples lack the flexibility to handle such a variety simultaneously. Recent work has proposed a more reasonable data selection principle by examining the data's impact on the model's generalization loss. However, its practical adoption relies on less principled approximations and additional holdout data. This work solves these problems by leveraging a lightweight Bayesian treatment and incorporating off-the-shelf zero-shot predictors built on large-scale pre-trained models. The resulting algorithm is efficient and easy to implement. We perform extensive empirical studies on challenging benchmarks with considerable data noise and imbalance in the online batch selection scenario, and observe superior training efficiency over competitive baselines. Notably, on the challenging WebVision benchmark, our method can achieve similar predictive performance with significantly fewer training iterations than leading data selection methods.
翻訳日:2023-11-08 22:21:07 公開日:2023-11-07
# SE(3) 等変拡大結合流

SE(3) Equivariant Augmented Coupling Flows ( http://arxiv.org/abs/2308.10364v3 )

ライセンス: Link先を確認
Laurence I. Midgley and Vincent Stimper and Javier Antor\'an and Emile Mathieu and Bernhard Sch\"olkopf and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 結合正規化フローは高速サンプリングと密度評価を可能にし、物理システムの確率的モデリングに最適なツールとなる。 しかし、標準結合構造は、se(3)と物理系の置換不変性を持つ原子の直交座標上で作用する内転流を妨げている。 本研究は,SE(3)と置換等式を付加次元に沿って座標分割して保持する結合流を提案する。 各層において、フローは原子の位置を学習されたSE(3)不変基底にマッピングし、そこではモノトニックな有理クアドラティックスプラインのような標準フロー変換を適用し、元の基底に戻る。 重要な点として,我々のフローは高速サンプリングと密度評価を保ち,重要サンプリングによる目標分布に対する予測の偏りのない推定を行うのに有用である。 DW4, LJ13, QM9-ポジションデータセットでトレーニングすると, 流れは等変連続正規化フローと競合すると同時に, 1桁以上のサンプリングを高速に行うことができる。 さらに、我々の知る限りでは、我々は、その原子のカルテシアン位置のみをモデル化することによって、初めて、アラニンジペプチドのボルツマン分布を学習する。 最後に,DW4粒子系とLJ13粒子系のボルツマン分布から,エネルギー関数のみを用いて,我々の流れをおよそサンプルとしてトレーニングできることを実証した。

Coupling normalizing flows allow for fast sampling and density evaluation, making them the tool of choice for probabilistic modeling of physical systems. However, the standard coupling architecture precludes endowing flows that operate on the Cartesian coordinates of atoms with the SE(3) and permutation invariances of physical systems. This work proposes a coupling flow that preserves SE(3) and permutation equivariance by performing coordinate splits along additional augmented dimensions. At each layer, the flow maps atoms' positions into learned SE(3) invariant bases, where we apply standard flow transformations, such as monotonic rational-quadratic splines, before returning to the original basis. Crucially, our flow preserves fast sampling and density evaluation, and may be used to produce unbiased estimates of expectations with respect to the target distribution via importance sampling. When trained on the DW4, LJ13, and QM9-positional datasets, our flow is competitive with equivariant continuous normalizing flows, while allowing sampling more than an order of magnitude faster. Moreover, to the best of our knowledge, we are the first to learn the full Boltzmann distribution of alanine dipeptide by only modeling the Cartesian positions of its atoms. Lastly, we demonstrate that our flow can be trained to approximately sample from the Boltzmann distribution of the DW4 and LJ13 particle systems using only their energy functions.
翻訳日:2023-11-08 22:20:52 公開日:2023-11-07
# SRガンマのためのSR-GAN:コライダー実験における光子量計画像の超解像

SR-GAN for SR-gamma: super resolution of photon calorimeter images at collider experiments ( http://arxiv.org/abs/2308.09025v2 )

ライセンス: Link先を確認
Johannes Erdmann, Aaron van der Graaf, Florian Mausolf, Olaf Nackenhorst(参考訳) 生成逆数ネットワークに基づくコライダー実験において,光子の単一像超解像アルゴリズムについて検討した。 おもちゃの電磁カロリメータにおける光子の模擬電磁シャワーと中性イオン崩壊のエネルギー蓄積を2次元画像として扱い,超解像ネットワークを訓練し,各次元の4倍の解像度で人工的に高分解能の画像を生成する。 生成された画像は、名目上の解像度で画像から明らかでない電磁シャワーの特徴を再現することができる。 人工強調画像を用いてシャワー形状変数の再構成とシャワーセンター位置の復元を行い, 有意な改善が得られた。 深層学習光子同定アルゴリズムにおける前処理ステップとして生成した画像の利用について検討し、小型のトレーニングサンプルの場合の改善を観察する。

We study single-image super-resolution algorithms for photons at collider experiments based on generative adversarial networks. We treat the energy depositions of simulated electromagnetic showers of photons and neutral-pion decays in a toy electromagnetic calorimeter as 2D images and we train super-resolution networks to generate images with an artificially increased resolution by a factor of four in each dimension. The generated images are able to reproduce features of the electromagnetic showers that are not obvious from the images at nominal resolution. Using the artificially-enhanced images for the reconstruction of shower-shape variables and of the position of the shower center results in significant improvements. We additionally investigate the utilization of the generated images as a pre-processing step for deep-learning photon-identification algorithms and observe improvements in the case of training samples of small size.
翻訳日:2023-11-08 22:20:29 公開日:2023-11-07
# チャーン数の計算:実空間とツイスト境界条件の同値性

Calculations of Chern number: equivalence of real-space and twisted-boundary-condition formulae ( http://arxiv.org/abs/2308.04164v3 )

ライセンス: Link先を確認
Ling Lin, Yongguan Ke, Li Zhang and Chaohong Lee(参考訳) チャーン数は二次元量子系の位相的特徴を特徴づける重要な不変量である。 実空間チャーン数は、変換対称性を伴わずにシステムの位相的性質を抽出できるため、障害や不純物を伴うトポロジカルシステムの調査において重要な役割を果たす。 一方、ツイスト境界条件(TBC)は、翻訳対称性のないチャーン数を定義するためにも用いられる。 適切なゲージの下でのtbcの摂動的性質に基づいて、チャーン絶縁体と量子スピンホール絶縁体に対して数値的に確認されるチャーン数の2つの実空間公式(すなわち、非可換チャーン数とボット指数公式)を導出する。 この結果は、チャーン数の実空間とTBC式の間の同値性を確立するだけでなく、ねじれた境界条件を通じて実空間位相不変式を導出するための具体的およびインストラクティブな例も提供する。

Chern number is a crucial invariant for characterizing topological feature of two-dimensional quantum systems. Real-space Chern number allows us to extract topological properties of systems without involving translational symmetry, and hence plays an important role in investigating topological systems with disorder or impurity. On the other hand, the twisted boundary condition (TBC) can also be used to define the Chern number in the absence of translational symmetry. Based on the perturbative nature of the TBC under appropriate gauges, we derive the two real-space formulae of Chern number (namely the non-commutative Chern number and the Bott index formula), which are numerically confirmed for the Chern insulator and the quantum spin Hall insulator. Our results not only establish the equivalence between the real-space and TBC formula of the Chern number, but also provide concrete and instructive examples for deriving the real-space topological invariant through the twisted boundary condition.
翻訳日:2023-11-08 22:20:13 公開日:2023-11-07
# d波超伝導体平面ジョセフソン接合におけるマヨラナ境界状態

Majorana bound states in d-wave superconductor planar Josephson junction ( http://arxiv.org/abs/2307.15162v2 )

ライセンス: Link先を確認
Hamed Vakili, Moaz Ali, Mohamed Elekhtiar, Alexey A. Kovalev(参考訳) スピン軌道結合の強い2次元電子ガスと高臨界温度の利点を有するd波超伝導体からなる位相制御平面ジョセフソン接合について検討した。 2つの超伝導体の間の領域は、面内ゼーマン場によって位相状態に調整でき、マヨラナ境界状態をホストできることを示す。 ゼーマン場の関数としての位相図、化学ポテンシャル、超伝導体間の位相差は、幅広いパラメータに対するマヨラナ結合状態の出現を示している。 さらに, 位相ギャップの挙動と, d波ペアリング(d, d+is, d+id')のタイプ依存性について検討し, 純d波超伝導体におけるギャップのない励起の存在により生じる難しさについて考察した。 一方、d+is と d+id' の対を持つ超伝導体に基づく平面ジョセフソン接合は、マヨラナ境界状態の実現に繋がる可能性がある。 この提案は銅酸化物超伝導体、例えばねじれた二層膜と層状半導体bi2o2seで実現可能である。

We study phase-controlled planar Josephson junctions comprising a two-dimensional electron gas with strong spin-orbit coupling and d-wave superconductors, which have an advantage of high critical temperature. We show that a region between the two superconductors can be tuned into a topological state by the in-plane Zeeman field, and can host Majorana bound states. The phase diagram as a function of the Zeeman field, chemical potential, and the phase difference between superconductors exhibits the appearance of Majorana bound states for a wide range of parameters. We further investigate the behavior of the topological gap and its dependence on the type of d-wave pairing, i.e., d, d+is, or d+id', and note the difficulties that can arise due to the presence of gapless excitations in pure d-wave superconductors. On the other hand, the planar Josephson junctions based on superconductors with d+is and d+id' pairings can potentially lead to realizations of Majorana bound states. Our proposal can be realized in cuprate superconductors, e.g., in a twisted bilayer, combined with the layered semiconductor Bi2O2Se.
翻訳日:2023-11-08 22:19:54 公開日:2023-11-07
# 量子機械学習におけるパラメタライズド量子回路とその近似容量

Parametrized Quantum Circuits and their approximation capacities in the context of quantum machine learning ( http://arxiv.org/abs/2307.14792v2 )

ライセンス: Link先を確認
Alberto Manzano, David Dechant, Jordi Tura, Vedran Dunjko(参考訳) パラメトリズド量子回路(pqc)は、固定ゲートとパラメトリズドゲートの両方からなる量子回路である。 最近の量子機械学習(qml)のアプローチでは、pqcは本質的にユビキタスであり、古典的なニューラルネットワークに類似した役割を果たす。 それらは様々なタイプのデータを学習するために使用され、pqcが十分に深く作られ、データが豊富になった場合、一般化エラーは消滅し、モデルが分散の本質的な特徴を捉えると期待されている。 L^2$ 距離の PQC による2乗可積分関数の近似性を証明する結果は存在するが、他の函数空間や他の距離での近似は、あまり研究されていない。 本研究では, pqc が連続関数, $p$ 可積分関数, $h^k$ ソボレフ空間の空間を近似できることを示す。 さらに,異なる関数空間と距離を接続する一般化境界を開発する。 これらの結果はpqcsの異なる応用、例えば微分方程式の解法に対する理論的基礎を与える。 さらに、ユーザのニーズに合ったPQCと損失関数を設計する方法について、新たな洞察を与えてくれます。

Parametrized quantum circuits (PQC) are quantum circuits which consist of both fixed and parametrized gates. In recent approaches to quantum machine learning (QML), PQCs are essentially ubiquitous and play the role analogous to classical neural networks. They are used to learn various types of data, with an underlying expectation that if the PQC is made sufficiently deep, and the data plentiful, the generalization error will vanish, and the model will capture the essential features of the distribution. While there exist results proving the approximability of square-integrable functions by PQCs under the $L^2$ distance, the approximation for other function spaces and under other distances has been less explored. In this work we show that PQCs can approximate the space of continuous functions, $p$-integrable functions and the $H^k$ Sobolev spaces under specific distances. Moreover, we develop generalization bounds that connect different function spaces and distances. These results provide a theoretical basis for different applications of PQCs, for example for solving differential equations. Furthermore, they provide us with new insight on how to design PQCs and loss functions which better suit the specific needs of the users.
翻訳日:2023-11-08 22:19:33 公開日:2023-11-07
# 暗黙的グローバル-ローカル値正規化によるオフラインマルチエージェント強化学習

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization ( http://arxiv.org/abs/2307.11620v2 )

ライセンス: Link先を確認
Xiangsen Wang, Haoran Xu, Yinan Zheng, Xianyuan Zhan(参考訳) 近年,オフライン強化学習 (RL) は, 環境相互作用のないオフラインデータセットから学習ポリシーを学習する魅力的な機能として注目されている。 シングルエージェント設定の成功にもかかわらず、オフラインマルチエージェントrl(marl)は依然として課題である。 大きな結合状態-作用空間と結合したマルチエージェントの挙動は、オフラインポリシーの最適化に余分な複雑さをもたらす。 既存のオフラインMARL研究の多くは、グローバルレベルでマルチエージェントシステムを完全に考慮することなく、個々のエージェントにオフラインデータ関連正規化を適用する。 本研究では,暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズム OMIGA を提案する。 OMIGAは、グローバルレベルの値正規化を等価な暗黙的局所値正規化に変換するための原則的なフレームワークを提供し、同時にサンプル内学習を可能にする。 オフラインマルチエージェントの MuJoCo と StarCraft II のマイクロマネジメントタスクに関する総合的な実験から,OMIGA は最先端のオフライン MARL 手法よりもほぼ全てのタスクにおいて優れた性能を発揮することを示す。

Offline reinforcement learning (RL) has received considerable attention in recent years due to its attractive capability of learning policies from offline datasets without environmental interactions. Despite some success in the single-agent setting, offline multi-agent RL (MARL) remains to be a challenge. The large joint state-action space and the coupled multi-agent behaviors pose extra complexities for offline policy optimization. Most existing offline MARL studies simply apply offline data-related regularizations on individual agents, without fully considering the multi-agent system at the global level. In this work, we present OMIGA, a new offline m ulti-agent RL algorithm with implicit global-to-local v alue regularization. OMIGA provides a principled framework to convert global-level value regularization into equivalent implicit local value regularizations and simultaneously enables in-sample learning, thus elegantly bridging multi-agent value decomposition and policy learning with offline regularizations. Based on comprehensive experiments on the offline multi-agent MuJoCo and StarCraft II micro-management tasks, we show that OMIGA achieves superior performance over the state-of-the-art offline MARL methods in almost all tasks.
翻訳日:2023-11-08 22:19:11 公開日:2023-11-07
# ハードウェアインスパイアしたゼロノイズ外挿を用いた変分固有解法における量子ゲート誤差の軽減

Mitigating Quantum Gate Errors for Variational Eigensolvers Using Hardware-Inspired Zero-Noise Extrapolation ( http://arxiv.org/abs/2307.11156v2 )

ライセンス: Link先を確認
Alexey Uvarov, Daniil Rabinovich, Olga Lakhmanskaya, Kirill Lakhmanskiy, Jacob Biamonte, Soumik Adhikary(参考訳) 変分量子アルゴリズムは、現代の量子アルゴリズム研究の基盤として登場した。 これらのアルゴリズムの実践的実装は、体系的エラーに対してある程度の堅牢性を提供するが、確率的エラーとコヒーレンス時間に制限があるため、性能の低下を示す。 本研究では,ゼロノイズ外挿を用いた変分アルゴリズムの量子ゲート誤差を緩和する手法を開発した。 回路の誤差強度を制御できる実験可能な手法を提案する。 物理量子デバイスにおけるゲートエラーは、異なる量子ビットと量子ビットペアで不均一に分布するという事実を利用する。 その結果、回路内の抽象量子ビットを物理デバイスにマッピングする方法に基づいて、異なる回路誤差和を達成できる。 回路誤差和 (CES) に関して, 変動的アプローチにおける推定エネルギーは概ね線形であることがわかった。 したがって、CESをゼロにすると、エネルギー-CESデータによる線形フィットはノイズのない変動アルゴリズムによって推定されるエネルギーを近似することができる。 これを数値的に示し,その適用範囲について検討する。

Variational quantum algorithms have emerged as a cornerstone of contemporary quantum algorithms research. Practical implementations of these algorithms, despite offering certain levels of robustness against systematic errors, show a decline in performance due to the presence of stochastic errors and limited coherence time. In this work, we develop a recipe for mitigating quantum gate errors for variational algorithms using zero-noise extrapolation. We introduce an experimentally amenable method to control error strength in the circuit. We utilize the fact that gate errors in a physical quantum device are distributed inhomogeneously over different qubits and qubit pairs. As a result, one can achieve different circuit error sums based on the manner in which abstract qubits in the circuit are mapped to a physical device. We find that the estimated energy in the variational approach is approximately linear with respect to the circuit error sum (CES). Consequently, a linear fit through the energy-CES data, when extrapolated to zero CES, can approximate the energy estimated by a noiseless variational algorithm. We demonstrate this numerically and investigate the applicability range of the technique.
翻訳日:2023-11-08 22:18:50 公開日:2023-11-07
# 最大値を近似するにはいくつのニューロンが必要か?

How Many Neurons Does it Take to Approximate the Maximum? ( http://arxiv.org/abs/2307.09212v2 )

ライセンス: Link先を確認
Itay Safran, Daniel Reichman, Paul Valiant(参考訳) 本稿では、ReLUアクティベーションを用いたネットワークに対して、連続分布に対する$L_2$ノルムに対する近似の最も基本的な設定において、$d$入力の最大関数を近似するために必要なニューラルネットワークのサイズについて検討する。 様々な深さでの近似に必要な幅の新たな下界と上界を提供する。 この結果から深度2と3と深度3と5のネットワーク間の新たな深度分離と,最大関数を近似した深さ$\mathcal{O}(\log(\log(d)))$と幅$\mathcal{O}(d)$の構成が得られた。 重みの大きさに指数的な上界を仮定して、一様分布上の最大関数を近似した新しい深度2ネットワークの下位境界により、深度分離の結果が促進される。 さらに、この深さ2下界を用いて、深さ3ネットワークで最大値を近似するのに必要なニューロン数に厳密な境界を与えることができる。 我々の下界は、広く研究され使われている 'emph{max} 関数に適用され、特別に構築されたあるいは病理的な関数や分布に基づく多くの以前の結果とは対照的に、潜在的に広い関心を持つ。

We study the size of a neural network needed to approximate the maximum function over $d$ inputs, in the most basic setting of approximating with respect to the $L_2$ norm, for continuous distributions, for a network that uses ReLU activations. We provide new lower and upper bounds on the width required for approximation across various depths. Our results establish new depth separations between depth 2 and 3, and depth 3 and 5 networks, as well as providing a depth $\mathcal{O}(\log(\log(d)))$ and width $\mathcal{O}(d)$ construction which approximates the maximum function. Our depth separation results are facilitated by a new lower bound for depth 2 networks approximating the maximum function over the uniform distribution, assuming an exponential upper bound on the size of the weights. Furthermore, we are able to use this depth 2 lower bound to provide tight bounds on the number of neurons needed to approximate the maximum by a depth 3 network. Our lower bounds are of potentially broad interest as they apply to the widely studied and used \emph{max} function, in contrast to many previous results that base their bounds on specially constructed or pathological functions and distributions.
翻訳日:2023-11-08 22:18:34 公開日:2023-11-07
# マヨラナエッジモードへの渦の注入の動的シミュレーション

Dynamical simulation of the injection of vortices into a Majorana edge mode ( http://arxiv.org/abs/2307.07447v3 )

ライセンス: Link先を確認
I. M. Fl\'or, A. Don\'is Vela, C. W. J. Beenakker and G. Lemut(参考訳) 位相超伝導体のキラルなエッジモードは、アーベル交換統計量を持つフェルミオン準粒子を輸送することができるが、非可換なアノンを輸送することもできる: 境界に沿って伝播する$\pi$-phase のドメインウォールに束縛されたエッジ渦。 そのような辺渦の対は、ジョセフソン接合上の$h/2e$フラックスバイアスの適用により注入される。 既存の注入過程の記述は、ヨーゼフソン接合の内部力学が無視される断熱系(Beenakker et al. Phys.Rev.Lett. 122, (2019))の瞬時散乱近似に依存する。 ここでは, インジェクション過程の時間依存多体シミュレーションでその近似を超越し, 超伝導体のバルクに非移動性アブリコソフ渦を1対の非移動型アブリコソフ渦で移動端渦をブレイディングする。 我々のシミュレーションは、空飛ぶ位相量子ビットの実装に必要とされるジョセフソン接合の性質に光を当てている。

The chiral edge modes of a topological superconductor can transport fermionic quasiparticles, with Abelian exchange statistics, but they can also transport non-Abelian anyons: Edge-vortices bound to a $\pi$-phase domain wall that propagates along the boundary. A pair of such edge-vortices is injected by the application of an $h/2e$ flux bias over a Josephson junction. Existing descriptions of the injection process rely on the instantaneous scattering approximation of the adiabatic regime [Beenakker et al. Phys.Rev.Lett. 122, (2019)], where the internal dynamics of the Josephson junction is ignored. Here we go beyond that approximation in a time-dependent many-body simulation of the injection process, followed by a braiding of mobile edge-vortices with a pair of immobile Abrikosov vortices in the bulk of the superconductor. Our simulation sheds light on the properties of the Josephson junction needed for a successful implementation of a flying topological qubit.
翻訳日:2023-11-08 22:17:20 公開日:2023-11-07
# 神経崩壊のレンズによるアウトオブディストリビューションの検出

Detecting Out-of-Distribution Through the Lens of Neural Collapse ( http://arxiv.org/abs/2311.01479v2 )

ライセンス: Link先を確認
Litian Liu, Yao Qin(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、AIの安全なデプロイに不可欠である。 特に、OOD検出器は様々なシナリオで効果的に一般化されるべきである。 既存のOOD検出器の一般化性を改善するために,Neural Collapse inspired OOD detector (NC-OOD) と呼ばれる多機能なOOD検出器を導入する。 我々は、OOD特徴が遠くにあるのに対して、ID特徴がクラスターを形成する傾向にあるという一般的な観察を拡張した。 特に、最近のニューラル・コラプス(Neural Collapse)の観測から、ID特徴が重みベクトルに近接する傾向にあることを示す。 拡張観測から,重みベクトルに近接する特徴量に基づいてOODを検出することを提案する。 さらにOODのサンプルを除外するために、OODの特徴がIDの特徴よりも起源に近い傾向にあるという観察を活用する。 大規模な実験により,本手法は既存の作業の一般化可能性を高め,様々な分類タスク,トレーニング損失,モデルアーキテクチャに対して,幅広いOODベンチマークの最先端OOD検出性能を一貫して達成できることが示されている。

Out-of-distribution (OOD) detection is essential for the safe deployment of AI. Particularly, OOD detectors should generalize effectively across diverse scenarios. To improve upon the generalizability of existing OOD detectors, we introduce a highly versatile OOD detector, called Neural Collapse inspired OOD detector (NC-OOD). We extend the prevalent observation that in-distribution (ID) features tend to form clusters, whereas OOD features are far away. Particularly, based on the recent observation, Neural Collapse, we further demonstrate that ID features tend to cluster in proximity to weight vectors. From our extended observation, we propose to detect OOD based on feature proximity to weight vectors. To further rule out OOD samples, we leverage the observation that OOD features tend to reside closer to the origin than ID features. Extensive experiments show that our approach enhances the generalizability of existing work and can consistently achieve state-of-the-art OOD detection performance across a wide range of OOD Benchmarks over different classification tasks, training losses, and model architectures.
翻訳日:2023-11-08 22:09:41 公開日:2023-11-07
# 時系列予測のための深度重み付け:未学習モデルを避ける

Deep Double Descent for Time Series Forecasting: Avoiding Undertrained Models ( http://arxiv.org/abs/2311.01442v2 )

ライセンス: Link先を確認
Valentino Assandri, Sam Heshmati, Burhaneddin Yaman, Anton Iakovlev, Ariel Emiliano Repetur(参考訳) ディープラーニングモデル、特にトランスフォーマーは、時系列予測を含むさまざまな領域で素晴らしい結果をもたらしています。 既存の時系列文献は、主にモデルアーキテクチャの変更とデータ拡張技術に焦点を当てているが、本論文では、時系列のディープラーニングモデルのトレーニングスキーマについて検討する。 公開時系列データセット上で訓練された複数の変圧器モデルにおいて, 深い二重降下が発生することを調べるために, 広範囲にわたる実験を行った。 我々は,エポック方向の深い二重降下を示し,さらに多くのエポックを用いてオーバーフィッティングを戻すことができることを示した。 これらの知見を活かして,72ベンチマークの70%近くで長期時系列予測を行い,最新の結果を得た。 これは、文献の多くのモデルが未解決のポテンシャルを持っていることを示唆している。 さらに,データ拡張,モデル入力,モデルターゲット,モデル毎の時系列,計算予算をカバーする,トレーニングスキーマ修正を分類する分類法を提案する。

Deep learning models, particularly Transformers, have achieved impressive results in various domains, including time series forecasting. While existing time series literature primarily focuses on model architecture modifications and data augmentation techniques, this paper explores the training schema of deep learning models for time series; how models are trained regardless of their architecture. We perform extensive experiments to investigate the occurrence of deep double descent in several Transformer models trained on public time series data sets. We demonstrate epoch-wise deep double descent and that overfitting can be reverted using more epochs. Leveraging these findings, we achieve state-of-the-art results for long sequence time series forecasting in nearly 70% of the 72 benchmarks tested. This suggests that many models in the literature may possess untapped potential. Additionally, we introduce a taxonomy for classifying training schema modifications, covering data augmentation, model inputs, model targets, time series per model, and computational budget.
翻訳日:2023-11-08 22:09:20 公開日:2023-11-07
# Atom: LLMの効率と精度向上のための低ビット量子化

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving ( http://arxiv.org/abs/2310.19102v2 )

ライセンス: Link先を確認
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen and Baris Kasikci(参考訳) コンテンツ生成、インテリジェントチャットボット、感情分析といったアプリケーションにおけるLLM(Large Language Models)の需要の増加は、LLMサービスプロバイダにとって大きな課題となっている。 GPUリソースを効率的に使用しスループットを向上するために、複数のリクエストのバッチ化が一般的なパラダイムとして現れ、バッチ化をさらにスピードアップするため、LLM量子化技術はメモリ消費を削減し、計算能力を向上させる。 しかし、一般的な量子化スキーム(例えば8ビット重み活性化量子化)では、4ビット整数演算子のような現代のgpuの能力を十分に活用できないため、サブ最適性能が得られる。 llmsの処理スループットを最大化するために,低ビット量子化法であるatomを導入する。 Atomは低ビット演算子を使用することでスループットを大幅に向上し、低ビット量子化によるメモリ消費を大幅に削減する。 新規な混合精度および細粒度量子化法を適用して高精度化を図る。 我々は,4ビット重み活性化量子化設定におけるatomの評価を行う。 Atomは、FP16と比較して最大7.73\times$、INT8量子化と比較して2.53\times$で、同じレイテンシターゲットを維持しながら、エンドツーエンドのスループットを改善する。

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization setups in the serving context. Atom improves end-to-end throughput by up to $7.73\times$ compared to the FP16 and by $2.53\times$ compared to INT8 quantization, while maintaining the same latency target.
翻訳日:2023-11-08 22:08:20 公開日:2023-11-07
# カーネルを用いた複数グラフ学習とグラフ信号のクラスタリング

Kernel-based Joint Multiple Graph Learning and Clustering of Graph Signals ( http://arxiv.org/abs/2310.19005v2 )

ライセンス: Link先を確認
Mohamad H. Alizade, Aref Einizade, and Jhony H. Giraldo(参考訳) グラフ信号処理(gsp)の文脈において、グラフ学習(gl)は、nodal観測からグラフの基盤構造を推論することに関するものである。 しかし、実世界のデータはしばしば多様な情報を含み、複数のグラフの同時クラスタリングと学習を必要とする。 実用的な用途では、ノード固有の共変量(カーネルとして表される)は、既存のグラフ信号クラスタリング法によって過小評価されている。 本稿では,マルチ凸最適化手法を応用した,カーネルベースジョイントマルチプルglとグラフ信号クラスタリング(kmgl)という新しいフレームワークを提案する。 これによりノード側情報を統合し、低域フィルタを構築し、最適化問題を効率的に解くことができる。 実験により、KMGLは、特に高いノイズレベルとかなりの数のクラスタを持つシナリオにおいて、GLとクラスタリングの堅牢性を大幅に向上することが示された。 これらの知見は,多様な実世界のアプリケーションにおいて,GSP法の性能を向上させるKMGLの可能性を明らかにするものである。

Within the context of Graph Signal Processing (GSP), Graph Learning (GL) is concerned with the inference of the graph's underlying structure from nodal observations. However, real-world data often contains diverse information, necessitating the simultaneous clustering and learning of multiple graphs. In practical applications, valuable node-specific covariates, represented as kernels, have been underutilized by existing graph signal clustering methods. In this letter, we propose a new framework, named Kernel-based joint Multiple GL and clustering of graph signals (KMGL), that leverages a multi-convex optimization approach. This allows us to integrate node-side information, construct low-pass filters, and efficiently solve the optimization problem. The experiments demonstrate that KMGL significantly enhances the robustness of GL and clustering, particularly in scenarios with high noise levels and a substantial number of clusters. These findings underscore the potential of KMGL for improving the performance of GSP methods in diverse, real-world applications.
翻訳日:2023-11-08 22:07:58 公開日:2023-11-07
# MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter ( http://arxiv.org/abs/2310.12798v2 )

ライセンス: Link先を確認
Zhiyuan Liu, Sihang Li, Yanchen Luo, Hao Fei, Yixin Cao, Kenji Kawaguchi, Xiang Wang, Tat-Seng Chua(参考訳) 言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。 しかし、それらは本質的に2dグラフ知覚を欠いている - 分子のトポロジー構造を理解するための人間専門家の批判的な能力である。 このギャップを埋めるために,MolCA: クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリングを提案する。 MolCAは、LM(例えばGalactica)が、クロスモーダルプロジェクターを介してテキストおよびグラフベースの分子内容を理解することを可能にする。 具体的には、クロスモーダルプロジェクタをQ-Formerとして実装し、グラフエンコーダの表現空間とLMのテキスト空間を接続する。 さらに molca は lm の下流タスクへの効率的な適応のために uni-modal adapter (すなわち lora) を採用している。 クロスモーダルなコントラスト学習によってlmとグラフエンコーダを結合する以前の研究とは異なり、molcaはlmのオープンエンドテキスト生成能力を保ち、2dグラフ情報で拡張する。 提案手法の有効性を示すため,分子キャプション,IUPAC名予測,分子テキスト検索のタスクにおいてMomolCAを広範囲にベンチマークした。 私たちのコードとチェックポイントはhttps://github.com/acharkq/MolCA.orgで確認できます。

Language Models (LMs) have demonstrated impressive molecule understanding ability on various 1D text-related tasks. However, they inherently lack 2D graph perception - a critical ability of human professionals in comprehending molecules' topological structures. To bridge this gap, we propose MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. MolCA enables an LM (e.g., Galactica) to understand both text- and graph-based molecular contents via the cross-modal projector. Specifically, the cross-modal projector is implemented as a Q-Former to connect a graph encoder's representation space and an LM's text space. Further, MolCA employs a uni-modal adapter (i.e., LoRA) for the LM's efficient adaptation to downstream tasks. Unlike previous studies that couple an LM with a graph encoder via cross-modal contrastive learning, MolCA retains the LM's ability of open-ended text generation and augments it with 2D graph information. To showcase its effectiveness, we extensively benchmark MolCA on tasks of molecule captioning, IUPAC name prediction, and molecule-text retrieval, on which MolCA significantly outperforms the baselines. Our codes and checkpoints can be found at https://github.com/acharkq/MolCA.
翻訳日:2023-11-08 22:07:21 公開日:2023-11-07
# 雑音量子デバイス上の誤差緩和フェルミオン古典影

Error-mitigated fermionic classical shadows on noisy quantum devices ( http://arxiv.org/abs/2310.12726v2 )

ライセンス: Link先を確認
Bujiao Wu and Dax Enshan Koh(参考訳) フェルミオンハミルトニアンの期待値($k$-粒子還元密度行列($k$-RDMs)を$n$-モードフェルミオン状態とする)を効率的に推定することは、多体物理学、化学、材料の分野から豊富な物理系の量子シミュレーションに不可欠である。 しかし、従来の量子状態トモグラフィー手法は、リソース要件の観点からはコストがかかりすぎる。 古典的影(CS)アルゴリズムは、量子状態のコピー数を著しく減らし、この問題に対処するための解決策として提案されている。 しかし、これらのアルゴリズムの実装は、短期量子デバイス固有のノイズのために重大な課題に直面し、ゲート操作の不正確さにつながる。 この課題に対処するため,フェミオン系に対する誤り軽減CSアルゴリズムを提案する。 n$-qubit 量子システムでは、簡単な初期状態 $|0^n\rangle\! 0^n|$はノイズのないと仮定され、$k$-RDMのすべての要素を$\widetilde{\mathcal O}(kn^k)$スケールされた量子状態のコピーと$\widetilde{\mathcal O}(\sqrt{n})$スケールドキャリブレーションの測定で確実に効率的に推定する。 ゲートや、脱分極、振幅減衰、あるいは少なくとも一定の雑音強度を持つ$X$ローテーションノイズのような測定ノイズの存在下においてもそうである。 さらに, 量子状態のコピー数に関して, フェルミオン系の従来のcsアルゴリズムに匹敵するスケーリングを示すとともに, 雑音に対するレジリエンスも向上することを示した。 我々はこれらのノイズ源の存在下でのアルゴリズムの性能とガウス単位雑音下での性能を数値的に示す。 この結果は、短期量子デバイスにアルゴリズムを実装する潜在的有用性を強調している。

Efficiently estimating the expectation values of fermionic Hamiltonians, including $k$-particle reduced density matrices ($k$-RDMs) of an $n$-mode fermionic state, is crucial for quantum simulations of a wealth of physical systems from the fields of many-body physics, chemistry, and materials. Yet, conventional quantum state tomography methods are too costly in terms of their resource requirements. Classical shadow (CS) algorithms have been proposed as a solution to address this task by substantially reducing the number of copies of quantum states. However, the implementation of these algorithms faces a significant challenge due to the inherent noise in near-term quantum devices, leading to inaccuracies in gate operations. To address this challenge, we propose an error-mitigated CS algorithm for fermionic systems. For $n$-qubit quantum systems, our algorithm, which employs the easily prepared initial state $|0^n\rangle\!\langle 0^n|$ assumed to be noiseless, provably efficiently estimates all elements of $k$-RDMs with $\widetilde{\mathcal O}(kn^k)$ scaled copies of quantum states and $\widetilde{\mathcal O}(\sqrt{n})$ scaled calibration measurements. It does so even in the presence of gate or measurement noise such as depolarizing, amplitude damping, or $X$-rotation noise with at most a constant noise strength. Furthermore, our algorithm exhibits scaling comparable to previous CS algorithms for fermionic systems with respect to the number of quantum state copies, while also demonstrating enhanced resilience to noise. We numerically demonstrate the performance of our algorithm in the presence of these noise sources, and its performance under Gaussian unitary noise. Our results underscore the potential utility of implementing our algorithm on near-term quantum devices.
翻訳日:2023-11-08 22:06:57 公開日:2023-11-07
# オフラインRLにおけるQ値の多様性の理解、予測、改善

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL ( http://arxiv.org/abs/2310.04411v2 )

ライセンス: Link先を確認
Yang Yue, Rui Lu, Bingyi Kang, Shiji Song, Gao Huang(参考訳) Q値推定のばらつきは、エージェントが実際のダイナミクスにアクセスできないオフラインRLにおいて顕著な問題となっている。 従来の信念では、値のターゲットをブートストラップするときにディストリビューションのアクションを問うことが不安定である。 この問題は、政策制約や保守的なQ推定によって緩和できるが、発散の原因となるメカニズムに関する理論的理解は欠如している。 本研究では,この機構を徹底的に理解し,改良した解を求める。 まず,オフラインrlにおけるq値推定の発散の主な原因として,自励という基本パターンを同定した。 そこで本研究では,学習時のqネットワークの進化的特性を測定するために,神経接核(ntk)に基づく新しい自己排他的固有値測度(seem)メトリックを提案し,発散の発生の興味深い説明を提供する。 本理論では,早期にトレーニングが分岐するか否かを確実に判断し,推定したQ値,モデルの規範,SGDオプティマイザを使用する際のクラッシュステップの順を予測できる。 この実験は、この理論解析と完全に一致している。 そこで本研究では,新たな視点からの分岐の解消,すなわち,より優れた行動推定のためにモデルのアーキテクチャを改善することを提案する。 広範な実証研究を通じて,レイヤノルムは不利なバイアスを伴わずに発散を効果的に回避し,優れた性能をもたらすよい解決策であると結論づけた。 実験の結果、データセットの1つのトランジッションのみを使用することで、これまですべてのメソッドが失敗するなど、最も困難な設定でも動作することが判明した。 さらに、最新のオフラインRLメソッドに簡単にプラグインでき、多くの課題に対してSOTA結果が得られる。 また、その効果について独自の洞察を与えます。

The divergence of the Q-value estimation has been a prominent issue in offline RL, where the agent has no access to real dynamics. Traditional beliefs attribute this instability to querying out-of-distribution actions when bootstrapping value targets. Though this issue can be alleviated with policy constraints or conservative Q estimation, a theoretical understanding of the underlying mechanism causing the divergence has been absent. In this work, we aim to thoroughly comprehend this mechanism and attain an improved solution. We first identify a fundamental pattern, self-excitation, as the primary cause of Q-value estimation divergence in offline RL. Then, we propose a novel Self-Excite Eigenvalue Measure (SEEM) metric based on Neural Tangent Kernel (NTK) to measure the evolving property of Q-network at training, which provides an intriguing explanation of the emergence of divergence. For the first time, our theory can reliably decide whether the training will diverge at an early stage, and even predict the order of the growth for the estimated Q-value, the model's norm, and the crashing step when an SGD optimizer is used. The experiments demonstrate perfect alignment with this theoretic analysis. Building on our insights, we propose to resolve divergence from a novel perspective, namely improving the model's architecture for better extrapolating behavior. Through extensive empirical studies, we identify LayerNorm as a good solution to effectively avoid divergence without introducing detrimental bias, leading to superior performance. Experimental results prove that it can still work in some most challenging settings, i.e. using only 1 transitions of the dataset, where all previous methods fail. Moreover, it can be easily plugged into modern offline RL methods and achieve SOTA results on many challenging tasks. We also give unique insights into its effectiveness.
翻訳日:2023-11-08 22:05:49 公開日:2023-11-07
# 曲線レット変換の不確実性原理と短い格子ベクトルを求める量子アルゴリズムの不実現性

An Uncertainty Principle for the Curvelet Transform, and the Infeasibility of Quantum Algorithms for Finding Short Lattice Vectors ( http://arxiv.org/abs/2310.03735v2 )

ライセンス: Link先を確認
Yi-Kai Liu(参考訳) 曲線変換は特別な種類のウェーブレット変換であり、ユークリッド空間で伝播する波の位置と向きを推定するのに有用である。 我々は、n次元のラジアル波動関数に対して、これらの推定の分散を下限とする不確実性原理を証明する。 この不確実性原理の適用例として、近似的最短ベクトル問題(近似-SVP)や境界距離復号法(BDD)といった格子問題の解法として量子アルゴリズムを構築する方法の有効性を示す。 これは、整数プログラミングのアルゴリズムや量子後暗号システムにおいて重要な役割を果たす近似SVPの計算難解性に関する洞察を与える。 格子問題を解くこのアプローチでは、格子点を中心とするガウス型波動関数の量子重ね合わせを準備する。 この手順の重要なステップは、量子曲線変換を用いて各ガウス型波動関数の中心を見つけることである。 ガウス波動関数の任意の選択に対して、このステップの誤差はBDDと近似SVPを解くのに必要なしきい値を超えていることが示される。

The curvelet transform is a special type of wavelet transform, which is useful for estimating the locations and orientations of waves propagating in Euclidean space. We prove an uncertainty principle that lower-bounds the variance of these estimates, for radial wave functions in n dimensions. As an application of this uncertainty principle, we show the infeasibility of one approach to constructing quantum algorithms for solving lattice problems, such as the approximate shortest vector problem (approximate-SVP), and bounded distance decoding (BDD). This gives insight into the computational intractability of approximate-SVP, which plays an important role in algorithms for integer programming, and in post-quantum cryptosystems. In this approach to solving lattice problems, one prepares quantum superpositions of Gaussian-like wave functions centered at lattice points. A key step in this procedure requires finding the center of each Gaussian-like wave function, using the quantum curvelet transform. We show that, for any choice of the Gaussian-like wave function, the error in this step will be above the threshold required to solve BDD and approximate-SVP.
翻訳日:2023-11-08 22:05:19 公開日:2023-11-07
# FAIR4Cov:COVID-19検出のための融合オーディオインスタンスと表現

FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection ( http://arxiv.org/abs/2204.10581v3 )

ライセンス: Link先を確認
Tuan Truong, Matthias Lenga, Antoine Serrurier, Sadegh Mohammadi(参考訳) 体音の音声に基づく分類技術は、呼吸器疾患の診断を助けるために長年研究されてきた。 ほとんどの研究は、主要なバイオマーカーとしてcoughの使用に重点を置いているが、他の身体音は呼吸器疾患を検出する可能性も持っている。 新型コロナウイルスに関する最近の研究によると、息の音と発声音は、この病気と相関している。 本研究は,呼吸性疾患の診断方法としてFAIR(Fused Audio Instance and Representation)を提案する。 フェアは波形とスペクトログラムで表される様々なボディサウンドからジョイント特徴ベクトルを構築することに依存している。 体音の波形とスペクトログラムの表現を組み合わせることで、COVID-19検出のユースケースについて実験を行った。 以上の結果から, 聴覚, 呼吸, 音声から抽出した特徴を組み合わすことで, 受信者動作特性曲線(AUC)スコアが0.8658, 感度が0.8057, 特異性が0.7958であることが示唆された。 スペクトログラムや波形にのみ訓練されたモデルと比較して、両表現の使用によりAUCスコアが向上し、スペクトルと波形表現の組み合わせは抽出した特徴を豊かにし、1つの表現のみを使用するモデルよりも優れていることを示す。

Audio-based classification techniques on body sounds have long been studied to aid in the diagnosis of respiratory diseases. While most research is centered on the use of cough as the main biomarker, other body sounds also have the potential to detect respiratory diseases. Recent studies on COVID-19 have shown that breath and speech sounds, in addition to cough, correlate with the disease. Our study proposes Fused Audio Instance and Representation (FAIR) as a method for respiratory disease detection. FAIR relies on constructing a joint feature vector from various body sounds represented in waveform and spectrogram form. We conducted experiments on the use case of COVID-19 detection by combining waveform and spectrogram representation of body sounds. Our findings show that the use of self-attention to combine extracted features from cough, breath, and speech sounds leads to the best performance with an Area Under the Receiver Operating Characteristic Curve (AUC) score of 0.8658, a sensitivity of 0.8057, and a specificity of 0.7958. Compared to models trained solely on spectrograms or waveforms, the use of both representations results in an improved AUC score, demonstrating that combining spectrogram and waveform representation helps to enrich the extracted features and outperforms the models that use only one representation.
翻訳日:2023-11-08 20:20:46 公開日:2023-11-07
# ロバスト微調整のための測地線マルチモーダル混合法

Geodesic Multi-Modal Mixup for Robust Fine-Tuning ( http://arxiv.org/abs/2203.03897v4 )

ライセンス: Link先を確認
Changdae Oh, Junhyuk So, Hoyoon Byun, YongTaek Lim, Minchul Shin, Jong-June Jeon, Kyungwoo Song(参考訳) CLIPのような事前訓練されたマルチモーダルモデルは、転送可能な埋め込みを提供し、多様なアプリケーションで有望な結果を示す。 しかし、学習したマルチモーダル埋め込みの解析は比較的未探索であり、埋め込み転送性を向上させることができる。 本研究では,CLIPが2つの異なるモードで分離された埋め込み部分空間を保持することを観察し,一様配向レンズを用いて学習表現の質を測定する。 理論的にも経験的にも,CLIPは微調整後も均一性やアライメントに乏しいことが示されている。 このようなアライメントと均一性の欠如は、埋め込みの転送可能性とロバスト性を制限する可能性がある。 そこで本研究では,アライメントと均一性に富むロバスト表現のための新しい微調整手法を提案する。 まず、画像とテキストの埋め込みを混合し、超球面上の硬い負のサンプルを生成するGeodesic Multi-Modal Mixupを提案する。 次に、ハード負のモデルと元の負のモデルと対照損失の正のモデルを微調整する。 硬さ保証と限界行動に関する理論的分析に基づき,本手法の使用を正当化する。 検索,キャリブレーション,少数あるいはゼロショットの分類(分布シフト),埋め込み算術,画像キャプションの広範な実験により,本手法が伝達可能な表現を提供し,多様なタスクに頑健なモデル適応を可能にすることを示す。 コード: https://github.com/changdaeoh/multimodal-mixup

Pre-trained multi-modal models, such as CLIP, provide transferable embeddings and show promising results in diverse applications. However, the analysis of learned multi-modal embeddings is relatively unexplored, and the embedding transferability can be improved. In this work, we observe that CLIP holds separated embedding subspaces for two different modalities, and then we investigate it through the lens of uniformity-alignment to measure the quality of learned representation. Both theoretically and empirically, we show that CLIP retains poor uniformity and alignment even after fine-tuning. Such a lack of alignment and uniformity might restrict the transferability and robustness of embeddings. To this end, we devise a new fine-tuning method for robust representation equipping better alignment and uniformity. First, we propose a Geodesic Multi-Modal Mixup that mixes the embeddings of image and text to generate hard negative samples on the hypersphere. Then, we fine-tune the model on hard negatives as well as original negatives and positives with contrastive loss. Based on the theoretical analysis about hardness guarantee and limiting behavior, we justify the use of our method. Extensive experiments on retrieval, calibration, few- or zero-shot classification (under distribution shift), embedding arithmetic, and image captioning further show that our method provides transferable representations, enabling robust model adaptation on diverse tasks. Code: https://github.com/changdaeoh/multimodal-mixup
翻訳日:2023-11-08 20:20:25 公開日:2023-11-07
# 階層系列生成における階層的テキスト分類

Hierarchical Text Classification As Sub-Hierarchy Sequence Generation ( http://arxiv.org/abs/2111.11104v3 )

ライセンス: Link先を確認
SangHun Im, Gibaeg Kim, Heung-Seon Oh, Seongung Jo, Donghwan Kim(参考訳) 階層的テキスト分類(HTC)は、様々な実アプリケーションに必須である。 しかし、HTCモデルは大量の文書やラベルを階層的な分類で処理する必要があるため、開発が難しい。 ディープラーニングに基づく最近のHTCモデルは、階層情報をモデル構造に組み込もうとしている。 その結果、モデル構造が階層のサイズに依存するため、モデルパラメータが大規模階層で増加すると、これらのモデルは実装が困難になる。 この問題を解決するために,htc を階層系列生成サブ階層として定式化し,階層情報をモデル構造に代えてターゲットラベルシーケンスに組み込む。 その後、再帰的階層デコードを用いてテキストシーケンスをサブ階層シーケンスにデコードし、同じレベルですべての親を一度に子供に分類する階層DECoder(HiDEC)を提案する。 さらに、HiDECは、注目機構と階層対応マスキングを介して、対象文書のラベルからなるサブ階層において、根から各葉への階層パス情報を使用するように訓練されている。 HiDECは、RCV1-v2、NYT、EURLEX57Kといったベンチマークデータセットの既存のモデルに比べて、かなり少ないモデルパラメータで最先端のパフォーマンスを達成した。

Hierarchical text classification (HTC) is essential for various real applications. However, HTC models are challenging to develop because they often require processing a large volume of documents and labels with hierarchical taxonomy. Recent HTC models based on deep learning have attempted to incorporate hierarchy information into a model structure. Consequently, these models are challenging to implement when the model parameters increase for a large-scale hierarchy because the model structure depends on the hierarchy size. To solve this problem, we formulate HTC as a sub-hierarchy sequence generation to incorporate hierarchy information into a target label sequence instead of the model structure. Subsequently, we propose the Hierarchy DECoder (HiDEC), which decodes a text sequence into a sub-hierarchy sequence using recursive hierarchy decoding, classifying all parents at the same level into children at once. In addition, HiDEC is trained to use hierarchical path information from a root to each leaf in a sub-hierarchy composed of the labels of a target document via an attention mechanism and hierarchy-aware masking. HiDEC achieved state-of-the-art performance with significantly fewer model parameters than existing models on benchmark datasets, such as RCV1-v2, NYT, and EURLEX57K.
翻訳日:2023-11-08 20:19:59 公開日:2023-11-07
# 実践的エネルギーベース回帰のための学習提案

Learning Proposals for Practical Energy-Based Regression ( http://arxiv.org/abs/2110.11948v2 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) エネルギーベースモデル(EBM)は近年、確率的回帰の有望な代替手段として、機械学習内で復活を遂げている。 しかし、エネルギーベースの回帰は、手動でトレーニング用に設計する提案分布を必要とし、最初の見積もりはテスト時に提供する必要がある。 そこで本研究では, ネットワークヘッドによってパラメータ化される効果的な提案分布を自動学習する概念的に単純な手法を導入することで, 両課題に対処した。 この結果から,EBM への提案からの KL の分岐と EBM の負の対数類似性を両立させる統一的な学習目標が導出された。 テスト時には,学習したESMを効率よく評価し,スタンドアローン予測を生成するために,トレーニングされた提案で重要サンプリングを利用することができる。 さらに,コンピュータビジョンにおける4つの実世界の回帰タスクにおいて,従来のMDNトレーニングを一貫して上回りながら,混合密度ネットワーク(MDN)とエネルギーベースの教師を併用して学習する。 コードはhttps://github.com/fregu856/ebms_proposalsで入手できる。

Energy-based models (EBMs) have experienced a resurgence within machine learning in recent years, including as a promising alternative for probabilistic regression. However, energy-based regression requires a proposal distribution to be manually designed for training, and an initial estimate has to be provided at test-time. We address both of these issues by introducing a conceptually simple method to automatically learn an effective proposal distribution, which is parameterized by a separate network head. To this end, we derive a surprising result, leading to a unified training objective that jointly minimizes the KL divergence from the proposal to the EBM, and the negative log-likelihood of the EBM. At test-time, we can then employ importance sampling with the trained proposal to efficiently evaluate the learned EBM and produce stand-alone predictions. Furthermore, we utilize our derived training objective to learn mixture density networks (MDNs) with a jointly trained energy-based teacher, consistently outperforming conventional MDN training on four real-world regression tasks within computer vision. Code is available at https://github.com/fregu856/ebms_proposals.
翻訳日:2023-11-08 20:19:40 公開日:2023-11-07
# Kレーン:都市道路と高速道路のライダーレーンデータセットとベンチマーク

K-Lane: Lidar Lane Dataset and Benchmark for Urban Roads and Highways ( http://arxiv.org/abs/2110.11048v3 )

ライセンス: Link先を確認
Donghee Paek, Seung-Hyun Kong and Kevin Tirta Wijaya(参考訳) レーン検出は自動運転にとって重要な機能である。 近年のディープラーニングの発展とカメラレーンデータセットとベンチマークの公開により、カメラレーン検出ネットワーク(CLDN)は著しく発展してきた。 残念なことにcldnsは、消失線付近で歪められ、照明条件の悪いカメライメージに依存している。 これは、Lidar lane Detection Network (LLDNs) とは対照的に、鳥の目視(BEV)の線を直接抽出して、様々な照明条件下で頑健に動作することができる。 しかし、LDDNは、大きな公共のライダーレーンデータセットがないため、活発に研究されていない。 本稿では,世界初で最大の都市道路であるKAIST-Lane(K-Lane)について紹介する。 Kレーンには15K以上のフレームがあり、様々な道路や交通条件下で6車線の注釈が含まれており、例えば、複数の閉塞レベルの道路、昼夜の道路、合流(収束と分岐)、湾曲した車線がある。 また,グローバル特徴相関器(LLDN-GFC)を用いたLidarレーン検出ネットワークと呼ぶベースラインネットワークも提供する。 LLDN-GFCは点雲上の線線の空間的特性を利用しており、点雲の地上面全体に沿って細く、薄く、伸びている。 実験結果から、LDDN-GFCはKレーンでF1-スコア82.1%の最先端のパフォーマンスを達成する。 さらに, LLDN-GFCは, 従来のCNNを用いたLDNとは異なり, CLDNと異なり, 強閉塞しても頑健な照明条件下での強い性能を示す。 K-Lane、LLDN-GFCトレーニングコード、事前訓練されたモデル、評価、視覚化、アノテーションツールを含む完全な開発キットはhttps://github.com/kaist-avelab/k-laneで入手できる。

Lane detection is a critical function for autonomous driving. With the recent development of deep learning and the publication of camera lane datasets and benchmarks, camera lane detection networks (CLDNs) have been remarkably developed. Unfortunately, CLDNs rely on camera images which are often distorted near the vanishing line and prone to poor lighting condition. This is in contrast with Lidar lane detection networks (LLDNs), which can directly extract the lane lines on the bird's eye view (BEV) for motion planning and operate robustly under various lighting conditions. However, LLDNs have not been actively studied, mostly due to the absence of large public lidar lane datasets. In this paper, we introduce KAIST-Lane (K-Lane), the world's first and the largest public urban road and highway lane dataset for Lidar. K-Lane has more than 15K frames and contains annotations of up to six lanes under various road and traffic conditions, e.g., occluded roads of multiple occlusion levels, roads at day and night times, merging (converging and diverging) and curved lanes. We also provide baseline networks we term Lidar lane detection networks utilizing global feature correlator (LLDN-GFC). LLDN-GFC exploits the spatial characteristics of lane lines on the point cloud, which are sparse, thin, and stretched along the entire ground plane of the point cloud. From experimental results, LLDN-GFC achieves the state-of-the-art performance with an F1- score of 82.1%, on the K-Lane. Moreover, LLDN-GFC shows strong performance under various lighting conditions, which is unlike CLDNs, and also robust even in the case of severe occlusions, unlike LLDNs using the conventional CNN. The K-Lane, LLDN-GFC training code, pre-trained models, and complete development kits including evaluation, visualization and annotation tools are available at https://github.com/kaist-avelab/k-lane.
翻訳日:2023-11-08 20:19:18 公開日:2023-11-07
# 深層学習を用いた喫煙・呼気の分類

Classification of Smoking and Calling using Deep Learning ( http://arxiv.org/abs/2012.08026v2 )

ライセンス: Link先を確認
Miaowei Wang, Alexander William Mohacey, Hongyu Wang, James Apfel(参考訳) 2014年以降、非常に深い畳み込みニューラルネットワークが提案され、あらゆる種類の競争においてチャンピオンにとって必須の武器となっている。 本報告では,事前学習したインセプションv3を変更することにより,喫煙と呼び出しの分類を行うパイプラインを導入する。 深層学習に基づく明度向上は、この分類タスクの分類と、他の有用なトレーニングトリックを改善するために実施される。 品質と量の結果から, バイアスのあるサンプルの少ないパイプラインは実用的で, 高い精度で有用であることがわかった。

Since 2014, very deep convolutional neural networks have been proposed and become the must-have weapon for champions in all kinds of competition. In this report, a pipeline is introduced to perform the classification of smoking and calling by modifying the pretrained inception V3. Brightness enhancing based on deep learning is implemented to improve the classification of this classification task along with other useful training tricks. Based on the quality and quantity results, it can be concluded that this pipeline with small biased samples is practical and useful with high accuracy.
翻訳日:2023-11-08 20:18:16 公開日:2023-11-07
# エネルギーモデルを用いた高精度3次元物体検出

Accurate 3D Object Detection using Energy-Based Models ( http://arxiv.org/abs/2012.04634v2 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) ロボットによる複雑な環境の安全なナビゲーションには,正確な3Dオブジェクト検出(3DOD)が不可欠である。 しかし, 粗いLiDARデータに基づいて, 粗い環境下での正確な3Dバウンディングボックスの回帰は極めて難しい問題である。 確率回帰のための条件付きエネルギーベースモデル(EBM)の最近の進歩を探求することによって、この問題に対処する。 EBMを用いた回帰法は画像中の2次元物体検出において顕著な性能を示したが、これらの手法は直接3次元境界ボックスに適用できない。 そこで本研究では,EMMネットワークのコアモジュールとして機能する3次元バウンディングボックス用の可変プール演算子を設計する。 我々は、この一般的なアプローチを最先端の3Dオブジェクト検出器SA-SSDに統合する。 KITTIデータセットでは,提案手法はSA-SSDベースラインを全3DOD指標で一貫して上回り,高精度な3DODに対するESMベースの回帰の可能性を示す。 コードはhttps://github.com/fregu856/ebms_3dodで入手できる。

Accurate 3D object detection (3DOD) is crucial for safe navigation of complex environments by autonomous robots. Regressing accurate 3D bounding boxes in cluttered environments based on sparse LiDAR data is however a highly challenging problem. We address this task by exploring recent advances in conditional energy-based models (EBMs) for probabilistic regression. While methods employing EBMs for regression have demonstrated impressive performance on 2D object detection in images, these techniques are not directly applicable to 3D bounding boxes. In this work, we therefore design a differentiable pooling operator for 3D bounding boxes, serving as the core module of our EBM network. We further integrate this general approach into the state-of-the-art 3D object detector SA-SSD. On the KITTI dataset, our proposed approach consistently outperforms the SA-SSD baseline across all 3DOD metrics, demonstrating the potential of EBM-based regression for highly accurate 3DOD. Code is available at https://github.com/fregu856/ebms_3dod.
翻訳日:2023-11-08 20:18:06 公開日:2023-11-07
# CompRes:ニュースにおける物語構造のためのデータセット

CompRes: A Dataset for Narrative Structure in News ( http://arxiv.org/abs/2007.04874v2 )

ライセンス: Link先を確認
Effi Levi, Guy Mor, Shaul Shenhav, Tamir Sheafer(参考訳) 本稿では,原文中のナラティブ構造を自動的に検出するタスクについて述べる。 以前の作品では、ラボフとワルツキーによる口頭物語理論を利用して、個人的な物語のテキスト中の様々な物語要素を同定している。 その代わり、我々は、その社会的影響の高まりと、世論の創造と形成における役割に動機づけられたニュース記事に焦点をあてる。 ニュースメディアにおける物語構造のための最初のデータセットであるCompResを紹介する。 まず、我々は、ラボフとワレツキーの物語理論から要素を適応させ、独自の物語要素を追加することによって、ニュースメディアに適した新しい物語論法を設計し、その後、ニュースやパルチザンのウェブサイトから収集された29の英ニュース記事(1,099文を含む)を注釈付けするために、その手法を用いた。 注釈付きデータセットを使用して、いくつかの教師付きモデルをトレーニングし、異なる物語要素を識別し、最大0.7のF_1$スコアを達成します。 我々は、将来の仕事のためにいくつかの有望な方向を提案して締めくくる。

This paper addresses the task of automatically detecting narrative structures in raw texts. Previous works have utilized the oral narrative theory by Labov and Waletzky to identify various narrative elements in personal stories texts. Instead, we direct our focus to news articles, motivated by their growing social impact as well as their role in creating and shaping public opinion. We introduce CompRes -- the first dataset for narrative structure in news media. We describe the process in which the dataset was constructed: first, we designed a new narrative annotation scheme, better suited for news media, by adapting elements from the narrative theory of Labov and Waletzky (Complication and Resolution) and adding a new narrative element of our own (Success); then, we used that scheme to annotate a set of 29 English news articles (containing 1,099 sentences) collected from news and partisan websites. We use the annotated dataset to train several supervised models to identify the different narrative elements, achieving an $F_1$ score of up to 0.7. We conclude by suggesting several promising directions for future work.
翻訳日:2023-11-08 20:17:49 公開日:2023-11-07
# 自動診断のための階層的強化学習

Hierarchical Reinforcement Learning for Automatic Disease Diagnosis ( http://arxiv.org/abs/2004.14254v2 )

ライセンス: Link先を確認
Cheng Zhong, Kangenbei Liao, Wei Chen, Qianlong Liu, Baolin Peng, Xuanjing Huang, Jiajie Peng and Zhongyu Wei(参考訳) モチベーション: 疾患診断指向対話システムはマルコフ決定プロセスや強化学習アルゴリズムとしてインタラクティブな相談手順をモデル化して問題解決を行う。 既存のアプローチは通常、平らなポリシー構造を採用し、すべての症状や疾患を平等に治療する。 この戦略は、アクション空間が小さい場合の単純なシナリオでうまく機能するが、実際の環境ではその効率性に挑戦する。 オフラインのコンサルティングプロセスに着想を得て,政策学習のための対話システムに2段階の階層的な政策構造を統合することを提案する。 ハイレベルポリシーは低レベルモデルの引き金となるマスターモデルからなり、低レベルポリシーはいくつかの症状チェッカーと疾患分類器から成り立っている。 提案した政策構造は,多くの疾患や症状を含む診断問題に対処することができる。 結果: 3つの実世界のデータセットと合成データセットを用いた実験結果から,既存のシステムと比較して,階層的フレームワークが疾患診断において高い精度と症状のリコールを実現することが示された。 我々は、データセットと既存のアルゴリズムの実装を含むベンチマークを構築し、フォローアップ研究を促進する。 可用性: コードとデータはhttps://github.com/FudanDISC/DISCOpen-MedBox-DialoDiagnosis Contact: 21210980124@m.fudan.edu.cn 追加情報: 補助データはBioinformaticsでオンラインで入手できる。

Motivation: Disease diagnosis oriented dialogue system models the interactive consultation procedure as Markov Decision Process and reinforcement learning algorithms are used to solve the problem. Existing approaches usually employ a flat policy structure that treat all symptoms and diseases equally for action making. This strategy works well in the simple scenario when the action space is small, however, its efficiency will be challenged in the real environment. Inspired by the offline consultation process, we propose to integrate a hierarchical policy structure of two levels into the dialogue systemfor policy learning. The high-level policy consists of amastermodel that is responsible for triggering a low-levelmodel, the lowlevel policy consists of several symptom checkers and a disease classifier. The proposed policy structure is capable to deal with diagnosis problem including large number of diseases and symptoms. Results: Experimental results on three real-world datasets and a synthetic dataset demonstrate that our hierarchical framework achieves higher accuracy and symptom recall in disease diagnosis compared with existing systems. We construct a benchmark including datasets and implementation of existing algorithms to encourage follow-up researches. Availability: The code and data is available from https://github.com/FudanDISC/DISCOpen-MedBox-DialoDiagnosis Contact: 21210980124@m.fudan.edu.cn Supplementary information: Supplementary data are available at Bioinformatics online.
翻訳日:2023-11-08 20:17:29 公開日:2023-11-07
# ニューロシンボリックモデルの自然拘束に対する保証的適合性

Guaranteed Conformance of Neurosymbolic Models to Natural Constraints ( http://arxiv.org/abs/2212.01346v8 )

ライセンス: Link先を確認
Kaustubh Sridhar, Souradeep Dutta, James Weimer, Insup Lee(参考訳) ディープニューラルネットワークは、特に力学系のモデルとして、ロボット工学と制御応用の幅広い部分のワークホースとして登場した。 このようなデータ駆動モデルは、自律システムの設計と検証に使用される。 データは治療の個別化に活用できる医療システムのモデリングに特に有用である。 安全クリティカルな応用においては、データ駆動モデルは自然科学の確立した知識に適合することが重要である。 そのような知識はしばしば利用可能であり、しばしば(おそらくブラックボックス)モデルに蒸留される。 例えば、f1レーシングカーはニュートンの法則(一輪車モデルにエンコードされる)に従わなければならない。 モデル $m$ と状態遷移データセットが与えられたとき、私たちは$m$ から離れた境界距離でありながら、システムモデルを最もよく近似したいと考えています。 この適合性を保証する方法を提案する。 最初のステップは、神経ガスの増加というアイデアを使って、データセットをmemoriesと呼ばれる代表的なサンプルに蒸留することです。 次に、これらの記憶を用いて状態空間を非結合部分集合に分割し、各サブセットでニューラルネットワークによって尊重されるべき境界を計算する。 これは保証された適合性のシンボリックラッパーとして機能する。 理論的には、これは近似誤差の有界増加に繋がるだけであり、これは記憶数を増やすことによって制御できる。 カーモデル, ドローン, 人工膵の3つのケーススタディにおいて, 拘束されたニューロシンボリックモデルが, ラグランジアンおよびバニラの訓練法と比較して, オーダー・オブ・マグニチュードの改善を伴う特定のモデル(各制約を符号化する)に適合していることが実験的に示された。 私たちのコードは、https://github.com/kaustubhsridhar/constrained_modelsにあります。

Deep neural networks have emerged as the workhorse for a large section of robotics and control applications, especially as models for dynamical systems. Such data-driven models are in turn used for designing and verifying autonomous systems. They are particularly useful in modeling medical systems where data can be leveraged to individualize treatment. In safety-critical applications, it is important that the data-driven model is conformant to established knowledge from the natural sciences. Such knowledge is often available or can often be distilled into a (possibly black-box) model. For instance, an F1 racing car should conform to Newton's laws (which are encoded within a unicycle model). In this light, we consider the following problem - given a model $M$ and a state transition dataset, we wish to best approximate the system model while being a bounded distance away from $M$. We propose a method to guarantee this conformance. Our first step is to distill the dataset into a few representative samples called memories, using the idea of a growing neural gas. Next, using these memories we partition the state space into disjoint subsets and compute bounds that should be respected by the neural network in each subset. This serves as a symbolic wrapper for guaranteed conformance. We argue theoretically that this only leads to a bounded increase in approximation error; which can be controlled by increasing the number of memories. We experimentally show that on three case studies (Car Model, Drones, and Artificial Pancreas), our constrained neurosymbolic models conform to specified models (each encoding various constraints) with order-of-magnitude improvements compared to the augmented Lagrangian and vanilla training methods. Our code can be found at: https://github.com/kaustubhsridhar/Constrained_Models
翻訳日:2023-11-08 20:12:28 公開日:2023-11-07
# コンファウンディング時のオフライン政策評価と最適化

Offline Policy Evaluation and Optimization under Confounding ( http://arxiv.org/abs/2211.16583v4 )

ライセンス: Link先を確認
Chinmaya Kausik, Yangyi Lu, Kevin Tan, Maggie Makar, Yixin Wang, Ambuj Tewari(参考訳) 監視されていない共同創設者の存在下でのポリシーの評価と最適化は、オフライン強化学習への関心が高まっている。 従来のオフラインRLの手法をコンバウンディングの存在下で使用すると、不適切な判断や政策が悪化するだけでなく、医療や教育といった重要な応用にも壊滅的な影響を及ぼす可能性がある。 コンファレンスMDPのオフラインポリシ評価の状況について,メモリレスかどうか,データ収集ポリシーへの影響に基づいて,コンファウンディングの仮定を区別し,考察を行った。 我々は、一貫性のある値推定が実現可能でない設定を特徴付け、その代わりに、値の境界を低く見積もる保証をアルゴリズムに提供する。 一貫性のある推定が達成可能な場合、サンプルの複雑性を保証する値推定アルゴリズムを提供する。 また,オフラインポリシー改善のための新しいアルゴリズムを提案し,局所収束保証を証明する。 最後に,グリッドワールド環境と敗血症患者の管理をシミュレートした医療環境の両方において,アルゴリズムを実験的に評価した。 グリッドワールドでは,モデルに基づく手法は既存の手法よりも厳密な境界を提供し,セプシスシミュレータでは,提案手法が共同設立・公開ベンチマークを著しく上回っている。

Evaluating and optimizing policies in the presence of unobserved confounders is a problem of growing interest in offline reinforcement learning. Using conventional methods for offline RL in the presence of confounding can not only lead to poor decisions and poor policies, but also have disastrous effects in critical applications such as healthcare and education. We map out the landscape of offline policy evaluation for confounded MDPs, distinguishing assumptions on confounding based on whether they are memoryless and on their effect on the data-collection policies. We characterize settings where consistent value estimates are provably not achievable, and provide algorithms with guarantees to instead estimate lower bounds on the value. When consistent estimates are achievable, we provide algorithms for value estimation with sample complexity guarantees. We also present new algorithms for offline policy improvement and prove local convergence guarantees. Finally, we experimentally evaluate our algorithms on both a gridworld environment and a simulated healthcare setting of managing sepsis patients. In gridworld, our model-based method provides tighter lower bounds than existing methods, while in the sepsis simulator, our methods significantly outperform confounder-oblivious benchmarks.
翻訳日:2023-11-08 20:11:56 公開日:2023-11-07
# 表現学習のための手続き型画像プログラム

Procedural Image Programs for Representation Learning ( http://arxiv.org/abs/2211.16412v2 )

ライセンス: Link先を確認
Manel Baradad, Chun-Fu Chen, Jonas Wulff, Tongzhou Wang, Rogerio Feris, Antonio Torralba, Phillip Isola(参考訳) 合成データを使って画像表現を学習することで、プライバシやバイアスなど、実際のイメージに関係のないニューラルネットワークのトレーニングが可能になる。 既存の作業は、設計に専門家の知識を必要とする、少数のキュレートされた生成プロセスに焦点を当てています。 そこで本研究では,21万のプログラムからなる大規模データセットを用いて,多様な合成画像を生成するトレーニングを提案する。 これらのプログラムは短いコードスニペットで、修正が容易で、openglを使って高速に実行できます。 提案するデータセットは教師なし表現学習と教師なし表現学習の両方に使用可能であり、実画像と手続き的生成画像との事前学習のギャップを38%削減できる。

Learning image representations using synthetic data allows training neural networks without some of the concerns associated with real images, such as privacy and bias. Existing work focuses on a handful of curated generative processes which require expert knowledge to design, making it hard to scale up. To overcome this, we propose training with a large dataset of twenty-one thousand programs, each one generating a diverse set of synthetic images. These programs are short code snippets, which are easy to modify and fast to execute using OpenGL. The proposed dataset can be used for both supervised and unsupervised representation learning, and reduces the gap between pre-training with real and procedurally generated images by 38%.
翻訳日:2023-11-08 20:11:36 公開日:2023-11-07
# NLPにおける望ましくないバイアス:測定の課題に対処する

Undesirable biases in NLP: Addressing challenges of measurement ( http://arxiv.org/abs/2211.13709v3 )

ライセンス: Link先を確認
Oskar van der Wal, Dominik Bachmann, Alina Leidinger, Leendert van Maanen, Willem Zuidema, Katrin Schulz(参考訳) 大規模言語モデルと自然言語処理(NLP)技術が急速に発展し、日々の生活に広まっていくにつれ、それらの利用が人々に与える影響を予想することが重要となる。 近年、多くの注目を集めている問題の一つは、この技術が有害なバイアスを示しており、デロギ的ステレオタイプの生成から、異なる社会集団で異なる結果を生み出すまでである。 これらのバイアスの評価と緩和に多くの労力が費やされてきたが、nlpモデルのバイアスを測定する方法には深刻な問題がある。 本稿では,NLPモデルバイアスの問題を,直接観測できないバイアスのような概念の測定に特化している心理測定のレンズを用いて議論するための学際的アプローチを提案する。 特に、心理計測から得られる2つの中心的な概念、すなわち、測定ツールの \emph{construct valid} と \emph{reliability} を探求し、モデルバイアス測定の文脈でどのように適用できるかについて議論する。 我々のゴールは、NLP実践者により良いバイアス測定を設計するための方法論的なツールを提供することであり、バイアス測定ツールの開発において、より一般的にサイコメトリックからツールを探索することである。

As Large Language Models and Natural Language Processing (NLP) technology rapidly develop and spread into daily life, it becomes crucial to anticipate how their use could harm people. One problem that has received a lot of attention in recent years is that this technology has displayed harmful biases, from generating derogatory stereotypes to producing disparate outcomes for different social groups. Although a lot of effort has been invested in assessing and mitigating these biases, our methods of measuring the biases of NLP models have serious problems and it is often unclear what they actually measure. In this paper, we provide an interdisciplinary approach to discussing the issue of NLP model bias by adopting the lens of psychometrics -- a field specialized in the measurement of concepts like bias that are not directly observable. In particular, we will explore two central notions from psychometrics, the \emph{construct validity} and the \emph{reliability} of measurement tools, and discuss how they can be applied in the context of measuring model bias. Our goal is to provide NLP practitioners with methodological tools for designing better bias measures, and to inspire them more generally to explore tools from psychometrics when working on bias measurement tools.
翻訳日:2023-11-08 20:11:22 公開日:2023-11-07
# 量子放射場:量子を動力とするフォトリアリスティックレンダリング

Quantum Radiance Fields: A Quantum-Powered Photorealistic Rendering ( http://arxiv.org/abs/2211.03418v4 )

ライセンス: Link先を確認
YuanFu Yang, Min Sun(参考訳) 現実世界のシーンのフォトリアリスティックなレンダリングを実現することは、複合現実や仮想現実など、さまざまなアプリケーションにおいて大きな課題となる。 微分方程式の解法で広く研究されたニューラルネットワークは、以前はフォトリアリスティックレンダリングの暗黙表現として紹介されていた。 しかし、従来の計算手法によるリアリズムの実現は、レンダリング中の各サンプリングポイントのカラー、透過性、不透明性の広範な数値積分を必要とするため、時間を要する光線トレーシングのために困難である。 本稿では,量子回路,量子アクティベーション関数,および暗黙的にシーンを表現する量子ボリュームレンダリングを組み込んだQRF(Quantum Radiance Fields)を提案する。 この結果から,QRFは量子コンピューティングの並列処理能力を活用することで,広範な数値積分に関する計算課題に効果的に直面することを示した。 さらに、現在のニューラルネットワークは、細かい信号の詳細を捉え、高周波情報や高次微分を正確にモデル化するのに苦労している。 量子コンピューティングの高次非線形性は、この文脈において明確な利点をもたらす。 その結果、QRFは高非線形処理と広範な並列処理の2つの重要な強みを生かし、現実世界のシーンのフォトリアリスティックレンダリングを実現する強力なツールとなっている。

Achieving photorealistic rendering of real-world scenes poses a significant challenge with diverse applications, including mixed reality and virtual reality. Neural networks, extensively explored in solving differential equations, have previously been introduced as implicit representations for photorealistic rendering. However, achieving realism through traditional computing methods is arduous due to the time-consuming optical ray tracing, as it necessitates extensive numerical integration of color, transparency, and opacity values for each sampling point during the rendering process. In this paper, we introduce Quantum Radiance Fields (QRF), which incorporate quantum circuits, quantum activation functions, and quantum volume rendering to represent scenes implicitly. Our results demonstrate that QRF effectively confronts the computational challenges associated with extensive numerical integration by harnessing the parallelism capabilities of quantum computing. Furthermore, current neural networks struggle with capturing fine signal details and accurately modeling high-frequency information and higher-order derivatives. Quantum computing's higher order of nonlinearity provides a distinct advantage in this context. Consequently, QRF leverages two key strengths of quantum computing: highly non-linear processing and extensive parallelism, making it a potent tool for achieving photorealistic rendering of real-world scenes.
翻訳日:2023-11-08 20:11:01 公開日:2023-11-07
# ニューロシンボリック因果推論は、創発的セマンティックコミュニケーションのためのシグナルゲームと出会う

Neuro-Symbolic Causal Reasoning Meets Signaling Game for Emergent Semantic Communications ( http://arxiv.org/abs/2210.12040v2 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas and Walid Saad(参考訳) セマンティックコミュニケーション(sc)は、異種サービスとユーザとのシームレスな接続を提供すると同時に、最小限のデータ転送で確実に通信することを目的としている。 本稿では,創発的言語設計のためのシグナリングゲームと,因果推論のためのニューロシンボリック(nesy)人工知能(ai)アプローチからなる,新しい創発的sc(esc)システムフレームワークを提案する。 言語を設計するために、通信ノードのユーティリティ間の交互最大化を用いて、シグナリングゲームを解決する。 創発的な言語は、コンテキスト対応の送信語彙(最小の意味表現)の作成を支援し、複雑なメッセージをより単純な推論タスクに分割することで、推論プロセス(未知のシナリオに一般化を促す)を支援する。 次に、送信機における因果記述を、データに存在する関連する属性の後方分布として(神経成分)モデル化する。 再構成された因果状態を用いて、受信者は一連の論理式(シンボル部分)を評価してタスクを実行する。 ノードnesy推論コンポーネントは、最近提案された生成フローネットワークと呼ばれるaiツールによって実装され、高いセマンティクス信頼性のために最適化されている。 ESCシステムは、カテゴリー理論から厳密な代数的性質を用いて設計された意味情報、信頼性、歪み、類似性の新たなメトリクスを強化するために設計されており、その結果、シャノンの不確実性の概念を超えたメトリクスを一般化する。 シミュレーションの結果、ESCが効率よく(ビットを減らして)通信でき、因果推論能力を利用していない従来の無線システムや最先端システムよりもセマンティックな信頼性が得られることが検証された。

Semantic communication (SC) aims to communicate reliably with minimal data transfer while simultaneously providing seamless connectivity to heterogeneous services and users. In this paper, a novel emergent SC (ESC) system framework is proposed and is composed of a signaling game for emergent language design and a neuro-symbolic (NeSy) artificial intelligence (AI) approach for causal reasoning. In order to design the language, the signaling game is solved using an alternating maximization between the communicating node's utilities. The emergent language helps create a context-aware transmit vocabulary (minimal semantic representation) and aids the reasoning process (enabling generalization to unseen scenarios) by splitting complex messages into simpler reasoning tasks for the receiver. The causal description at the transmitter is then modeled (a neural component) as a posterior distribution of the relevant attributes present in the data. Using the reconstructed causal state, the receiver evaluates a set of logical formulas (symbolic part) to execute its task. The nodes NeSy reasoning components are implemented by the recently proposed AI tool called Generative Flow Networks, and they are optimized for higher semantic reliability. The ESC system is designed to enhance the novel metrics of semantic information, reliability, distortion and similarity that are designed using rigorous algebraic properties from category theory thereby generalizing the metrics beyond Shannon's notion of uncertainty. Simulation results validate the ability of ESC to communicate efficiently (with reduced bits) and achieve better semantic reliability than conventional wireless and state-of-the-art systems that do not exploit causal reasoning capabilities.
翻訳日:2023-11-08 20:10:38 公開日:2023-11-07
# 分布シフト下における対向ロバストネスの一般化可能性

Generalizability of Adversarial Robustness Under Distribution Shifts ( http://arxiv.org/abs/2209.15042v3 )

ライセンス: Link先を確認
Kumail Alhamoud, Hasan Abed Al Kader Hammoud, Motasem Alfarra, Bernard Ghanem(参考訳) 経験的および認定された堅牢性の最近の進歩は、信頼性とデプロイ可能なDeep Neural Networks(DNN)を提供することを約束している。 この成功にもかかわらず、既存のDNNロバスト性の評価は、モデルがトレーニングされたのと同じ分布からサンプリングされた画像で行われている。 しかし、現実世界では、DNNは大きな分散シフトを示す動的な環境に展開される可能性がある。 本研究では,経験的および認定された対向的ロバスト性と他の領域の一般化との相互作用を徹底的に検討する第一歩を踏み出す。 そのために、複数のドメイン上でロバストモデルをトレーニングし、その正確性とロバスト性を評価する。 1) 経験的および認定されたロバスト性は, 未認識領域に一般化し, (2) 一般化可能性のレベルは, ソース領域とターゲット領域のfidによって測定された入力視覚類似度とよく相関しない。 また,本研究は,クリーンなデータ正確性に最小限の影響でロバストネスの一般化を著しく促進する現実の医療応用を対象とする。

Recent progress in empirical and certified robustness promises to deliver reliable and deployable Deep Neural Networks (DNNs). Despite that success, most existing evaluations of DNN robustness have been done on images sampled from the same distribution on which the model was trained. However, in the real world, DNNs may be deployed in dynamic environments that exhibit significant distribution shifts. In this work, we take a first step towards thoroughly investigating the interplay between empirical and certified adversarial robustness on one hand and domain generalization on another. To do so, we train robust models on multiple domains and evaluate their accuracy and robustness on an unseen domain. We observe that: (1) both empirical and certified robustness generalize to unseen domains, and (2) the level of generalizability does not correlate well with input visual similarity, measured by the FID between source and target domains. We also extend our study to cover a real-world medical application, in which adversarial augmentation significantly boosts the generalization of robustness with minimal effect on clean data accuracy.
翻訳日:2023-11-08 20:09:52 公開日:2023-11-07
# 特徴相互作用検出とスパース選択によるスパース相互作用付加ネットワーク

Sparse Interaction Additive Networks via Feature Interaction Detection and Sparse Selection ( http://arxiv.org/abs/2209.09326v2 )

ライセンス: Link先を確認
James Enouen and Yan Liu(参考訳) 現在、線形回帰や加法スプラインのような統計的に厳密な手法と、ニューラルネットワークを用いた強力な深層法の間には、大きな性能の差がある。 このギャップを解消しようとする以前の研究は、ディープネットワークがトレーニング中に自動的に考慮する機能組み合わせの指数関数的に増加する数を完全に調査できなかった。 本研究では,特徴の相互作用検出における手法を活用し,必要な特徴の組み合わせを効率的に識別する抽出可能な選択アルゴリズムを開発した。 提案するスパース相互作用加法ネットワーク (sian) は、これらの単純かつ解釈可能なモデルから完全連結ニューラルネットワークへのブリッジを構築する。 SIANは、複数の大規模表グラフデータセットをまたいだ最先端の手法に対する競争性能を達成し、ニューラルネットワークのモデリング能力と単純な手法の一般化との最適なトレードオフを一貫して見出す。

There is currently a large gap in performance between the statistically rigorous methods like linear regression or additive splines and the powerful deep methods using neural networks. Previous works attempting to close this gap have failed to fully investigate the exponentially growing number of feature combinations which deep networks consider automatically during training. In this work, we develop a tractable selection algorithm to efficiently identify the necessary feature combinations by leveraging techniques in feature interaction detection. Our proposed Sparse Interaction Additive Networks (SIAN) construct a bridge from these simple and interpretable models to fully connected neural networks. SIAN achieves competitive performance against state-of-the-art methods across multiple large-scale tabular datasets and consistently finds an optimal tradeoff between the modeling capacity of neural networks and the generalizability of simpler methods.
翻訳日:2023-11-08 20:09:28 公開日:2023-11-07
# リー群とその同次空間上の定常核とガウス過程 i:コンパクトケース

Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces I: the compact case ( http://arxiv.org/abs/2208.14960v3 )

ライセンス: Link先を確認
Iskander Azangulov, Andrei Smolensky, Alexander Terenin, and Viacheslav Borovitskiy(参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。 彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。 多くの応用、特に物理科学や工学において、地球統計学や神経科学などの分野において、対称性への不変性は考慮できる最も基本的な情報形式の一つである。 そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。 本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。 私たちの技術はそれを可能にします i)共分散カーネルを計算し、 (ii)そのような空間上で定義される前ガウス過程及び後ガウス過程からのサンプルは、実際的に両方ある。 この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。 我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。

Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners.
翻訳日:2023-11-08 20:09:13 公開日:2023-11-07
# SSIVD-Net:Weaponized Violenceのための新しい高精細画像分類・検出技術

SSIVD-Net: A Novel Salient Super Image Classification & Detection Technique for Weaponized Violence ( http://arxiv.org/abs/2207.12850v8 )

ライセンス: Link先を確認
Toluwani Aremu, Li Zhiyuan, Reem Alameeri, Mustaqeem Khan, Abdulmotaleb El Saddik(参考訳) CCTV映像における暴力や武器による暴力の検出には、包括的なアプローチが必要である。 本研究は,監視ビデオにおける武器分布の学習を容易にするために特別に設計された, \emph{smart-city cctv violence detection (scvd)データセットを紹介する。 本稿では,暴力認識タスクにおける3D監視ビデオ解析の複雑さに対処するため,<emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection。 本手法は,高精細画像表現による推論,性能,説明性を改善しつつ,3次元映像データの複雑さ,次元性,情報損失を低減させる。 筆者らは,未来的スマートシティのスケーラビリティと持続可能性要件を考慮して,カーネル化アプローチと残留学習戦略を組み合わせた新しいアーキテクチャである 'emph{Salient-Classifier} を紹介した。 SCVDデータセット上でSSIVD-NetとSalient Classifierのバリエーションを評価し,暴力検出によく使用されるSOTAモデルに対するベンチマークを行った。 本手法は,武器化と非兵器化の両方の暴力事例の検出において有意な改善を示す。 暴力検出においてSOTAを前進させることで、我々の研究は現実のアプリケーションに適した実用的でスケーラブルなソリューションを提供する。 提案手法は,cctv映像における暴力検出の課題に対処するだけでなく,スマート監視における武器分布の理解にも寄与する。 究極的には、我々の研究成果はよりスマートでより安全な都市を可能にし、公共の安全対策を強化するだろう。

Detection of violence and weaponized violence in closed-circuit television (CCTV) footage requires a comprehensive approach. In this work, we introduce the \emph{Smart-City CCTV Violence Detection (SCVD)} dataset, specifically designed to facilitate the learning of weapon distribution in surveillance videos. To tackle the complexities of analyzing 3D surveillance video for violence recognition tasks, we propose a novel technique called \emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection). Our method reduces 3D video data complexity, dimensionality, and information loss while improving inference, performance, and explainability through salient-super-Image representations. Considering the scalability and sustainability requirements of futuristic smart cities, the authors introduce the \emph{Salient-Classifier}, a novel architecture combining a kernelized approach with a residual learning strategy. We evaluate variations of SSIVD-Net and Salient Classifier on our SCVD dataset and benchmark against state-of-the-art (SOTA) models commonly employed in violence detection. Our approach exhibits significant improvements in detecting both weaponized and non-weaponized violence instances. By advancing the SOTA in violence detection, our work offers a practical and scalable solution suitable for real-world applications. The proposed methodology not only addresses the challenges of violence detection in CCTV footage but also contributes to the understanding of weapon distribution in smart surveillance. Ultimately, our research findings should enable smarter and more secure cities, as well as enhance public safety measures.
翻訳日:2023-11-08 20:08:42 公開日:2023-11-07
# イメージ・アモーダル・コンプリート:調査

Image Amodal Completion: A Survey ( http://arxiv.org/abs/2207.02062v3 )

ライセンス: Link先を確認
Jiayang Ao, Qiuhong Ke and Krista A. Ehinger(参考訳) 既存のコンピュータビジョンシステムは、物体の見えない部分を理解するために人間と競合するが、部分的に隠された物体の見えない部分を描くという点では、まだ人間には及ばない。 画像のアモーダル補完は、コンピュータに人間のようなアモーダル補完機能を持たせることを目的としている。 本調査の目的は,研究ホットスポット,主要技術,画像アモーダル補完の分野における今後のトレンドを直感的に理解することである。 まず,本分野の最新文献の包括的レビューを行い,アモーダル形状完成,アモーダル外観完成,秩序知覚の3つの課題について考察する。 次に,画像アモーダル補完に関連する一般的なデータセットと,それらの共通データ収集手法と評価指標について検討する。 最後に,既存の技術の課題と今後の研究動向に対する読者の理解を促進するために,実世界の応用とイメージ・アモーダル・コンプリートに向けた今後の研究方向性について論じる。

Existing computer vision systems can compete with humans in understanding the visible parts of objects, but still fall far short of humans when it comes to depicting the invisible parts of partially occluded objects. Image amodal completion aims to equip computers with human-like amodal completion functions to understand an intact object despite it being partially occluded. The main purpose of this survey is to provide an intuitive understanding of the research hotspots, key technologies and future trends in the field of image amodal completion. Firstly, we present a comprehensive review of the latest literature in this emerging field, exploring three key tasks in image amodal completion, including amodal shape completion, amodal appearance completion, and order perception. Then we examine popular datasets related to image amodal completion along with their common data collection methods and evaluation metrics. Finally, we discuss real-world applications and future research directions for image amodal completion, facilitating the reader's understanding of the challenges of existing technologies and upcoming research trends.
翻訳日:2023-11-08 20:08:08 公開日:2023-11-07
# 記号回帰データセットの再考と科学的発見のためのベンチマーク

Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery ( http://arxiv.org/abs/2206.10540v4 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Yoshitaka Ushiku(参考訳) 本稿では,その科学的発見の可能性に焦点を当てたシンボリック回帰(SR)のデータセットと評価基準を再検討する。 feynman lectures on physicsに基づく既存のデータセットで使われる式セットに着目し,120のデータセットを再現し,srsd(symbolive regression for scientific discovery)の性能について検討した。 120個のSRSDデータセットのそれぞれに対して、この公式とその変数の特性を慎重にレビューし、合理的に現実的なサンプリング範囲を設計し、新しいSRSDデータセットを使用して、SRメソッドがそれらのデータセットから物理法則を(再)発見できるかどうかを評価する。 また、ダミー変数を含む120のデータセットを作成し、SRメソッドが必要な変数のみを選択できるかどうかを調べる。 さらに、予測方程式と真の方程式木との間の正規化編集距離(NED)を用いて、既存のSRメトリクスが与えられた入力に対するターゲット値とSRモデルの予測値の間の二進的または誤りである重要な問題に対処する。 各種SRSD手法を用いて新しいSRSDデータセットのベンチマーク実験を行った。 実験結果から,我々はより現実的な性能評価を行い,NEDは既存のSR測定値よりも極めて高い相関性を示した。

This paper revisits datasets and evaluation criteria for Symbolic Regression (SR), specifically focused on its potential for scientific discovery. Focused on a set of formulas used in the existing datasets based on Feynman Lectures on Physics, we recreate 120 datasets to discuss the performance of symbolic regression for scientific discovery (SRSD). For each of the 120 SRSD datasets, we carefully review the properties of the formula and its variables to design reasonably realistic sampling ranges of values so that our new SRSD datasets can be used for evaluating the potential of SRSD such as whether or not an SR method can (re)discover physical laws from such datasets. We also create another 120 datasets that contain dummy variables to examine whether SR methods can choose necessary variables only. Besides, we propose to use normalized edit distances (NED) between a predicted equation and the true equation trees for addressing a critical issue that existing SR metrics are either binary or errors between the target values and an SR model's predicted values for a given input. We conduct benchmark experiments on our new SRSD datasets using various representative SR methods. The experimental results show that we provide a more realistic performance evaluation, and our user study shows that the NED correlates with human judges significantly more than an existing SR metric.
翻訳日:2023-11-08 20:07:51 公開日:2023-11-07
# K-Radar: 各種気象条件下における自律走行のための4次元レーダー物体検出

K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions ( http://arxiv.org/abs/2206.08171v4 )

ライセンス: Link先を確認
Dong-Hee Paek, Seung-Hyun Kong, Kevin Tirta Wijaya(参考訳) 可視光帯域を使用するrgbカメラ(384$\sim$769 thz)や赤外線帯域を使用するlidar(361$\sim$331 thz)とは異なり、レーダーは比較的長い波長の電波帯域(77$\sim$81 ghz)を使用するため、悪天候下では堅牢な測定を行う。 残念ながら、既存のRadarデータセットには、既存のカメラやLidarデータセットと比較して、比較的少数のサンプルしか含まれていない。 これはレーダーベースの知覚のための高度なデータ駆動ディープラーニング技術の開発を妨げる可能性がある。 さらに、既存のRadarデータセットのほとんどは、ドップラー、範囲、方位次元に沿った電力測定を含む3D Radar tensor (3DRT)データしか提供していない。 標高情報がないため、物体の3D境界ボックスを3DRTから推定することは困難である。 本研究では,4dレーダーテンソル(4drt)データの35kフレームとドップラー,距離,方位,標高の3次元のパワー計測と,道路上の物体の3dバウンディングボックスラベルを注意深く注釈した,新しい大規模物体検出データセットであるkaist-radar(k-radar)を紹介する。 Kラーダーは様々な道路構造(都市、郊外の道路、路地、高速道路)で悪天候(霧、雨、雪)のような困難な運転条件を含んでいる。 4drtに加えて,高精細度lidar,サラウンドステレオカメラ,rtk-gpsによる補助計測を行う。 また,4drtに基づくベースラインニューラルネットワーク(baseline nns)も提供し,高さ情報が3次元物体検出に重要であることを示す。 そして、ベースラインNNと同様の構造を持つLidarベースのニューラルネットワークを比較することで、4D Radarが悪天候に対するより堅牢なセンサーであることを実証した。 すべてのコードはhttps://github.com/kaist-avelab/k-radarで入手できる。

Unlike RGB cameras that use visible light bands (384$\sim$769 THz) and Lidars that use infrared bands (361$\sim$331 THz), Radars use relatively longer wavelength radio bands (77$\sim$81 GHz), resulting in robust measurements in adverse weathers. Unfortunately, existing Radar datasets only contain a relatively small number of samples compared to the existing camera and Lidar datasets. This may hinder the development of sophisticated data-driven deep learning techniques for Radar-based perception. Moreover, most of the existing Radar datasets only provide 3D Radar tensor (3DRT) data that contain power measurements along the Doppler, range, and azimuth dimensions. As there is no elevation information, it is challenging to estimate the 3D bounding box of an object from 3DRT. In this work, we introduce KAIST-Radar (K-Radar), a novel large-scale object detection dataset and benchmark that contains 35K frames of 4D Radar tensor (4DRT) data with power measurements along the Doppler, range, azimuth, and elevation dimensions, together with carefully annotated 3D bounding box labels of objects on the roads. K-Radar includes challenging driving conditions such as adverse weathers (fog, rain, and snow) on various road structures (urban, suburban roads, alleyways, and highways). In addition to the 4DRT, we provide auxiliary measurements from carefully calibrated high-resolution Lidars, surround stereo cameras, and RTK-GPS. We also provide 4DRT-based object detection baseline neural networks (baseline NNs) and show that the height information is crucial for 3D object detection. And by comparing the baseline NN with a similarly-structured Lidar-based neural network, we demonstrate that 4D Radar is a more robust sensor for adverse weather conditions. All codes are available at https://github.com/kaist-avelab/k-radar.
翻訳日:2023-11-08 20:07:25 公開日:2023-11-07
# 計算病理学における再現性研究のためのプラットフォームとしてのNCI Imaging Data Commons

The NCI Imaging Data Commons as a platform for reproducible research in computational pathology ( http://arxiv.org/abs/2303.09354v3 )

ライセンス: Link先を確認
Daniela P. Schacherer, Markus D. Herrmann, David A. Clunie, Henning H\"ofener, William Clifford, William J.R. Longabaugh, Steve Pieper, Ron Kikinis, Andrey Fedorov, Andr\'e Homeyer(参考訳) 背景と目的: 再現性は、計算病理学(CompPath)における機械学習(ML)ベースのソリューションを開発する上で大きな課題である。 NCI Imaging Data Commons (IDC)は、FAIR原則に従って120以上のがんイメージコレクションを提供し、クラウドMLサービスで使用するように設計されている。 ここでは,CompPath研究における再現性向上の可能性を探る。 方法: IDCを用いて, 肺腫瘍組織を分類する代表的ML法を訓練し, 異なるデータセットで評価する2つの実験を行った。 再現性を評価するために、実験は、同じ構成の共通mlサービスのインスタンスで複数回実行された。 結果: 同じ実験の異なる実行のAUC値は概ね一致していた。 しかし,AUC値の0.045までの変動は小さく,再現性に限界があることが示唆された。 結論:IDCはCompPath研究の再現性限界に近づきやすいと結論づける。 (i)研究者が全く同じデータセットを再利用できるようにすること (ii) クラウドMLサービスとの統合により、同じ構成のコンピューティング環境で実験を実行できる。

Background and Objectives: Reproducibility is a major challenge in developing machine learning (ML)-based solutions in computational pathology (CompPath). The NCI Imaging Data Commons (IDC) provides >120 cancer image collections according to the FAIR principles and is designed to be used with cloud ML services. Here, we explore its potential to facilitate reproducibility in CompPath research. Methods: Using the IDC, we implemented two experiments in which a representative ML-based method for classifying lung tumor tissue was trained and/or evaluated on different datasets. To assess reproducibility, the experiments were run multiple times with separate but identically configured instances of common ML services. Results: The AUC values of different runs of the same experiment were generally consistent. However, we observed small variations in AUC values of up to 0.045, indicating a practical limit to reproducibility. Conclusions: We conclude that the IDC facilitates approaching the reproducibility limit of CompPath research (i) by enabling researchers to reuse exactly the same datasets and (ii) by integrating with cloud ML services so that experiments can be run in identically configured computing environments.
翻訳日:2023-11-08 19:59:23 公開日:2023-11-07
# Amodal Under-class Instance Segmentation: 合成データセットとベンチマーク

Amodal Intra-class Instance Segmentation: Synthetic Datasets and Benchmark ( http://arxiv.org/abs/2303.06596v2 )

ライセンス: Link先を確認
Jiayang Ao, Qiuhong Ke, Krista A. Ehinger(参考訳) 現実的なシーンのイメージは、しばしば、互いに密接な関係にあるクラス内オブジェクトを含んでおり、オブジェクトの隠された部分を解析する必要のあるアモーダルな知覚タスクを困難にしている。 ロボット把持システムなどの下流タスクでは重要であるが,詳細なアノテーションを用いた大規模アモーダルデータセットの欠如により,クラス内オクルージョンを明示的にモデル化することは困難である。 本稿では,複数のマスク,アモーダルバウンディングボックス,二重順序関係,インスタンスとバックグラウンドの完全な出現を含む,クラス内閉塞シナリオの合計267Kイメージを含む,画像アモーダル完了タスクのための2つの新しいアモーダルデータセットを提案する。 また,クラス内オクルージョンシナリオ用に特別に設計されたアモーダルインスタンスセグメンテーションに対して,レイヤプリエントを用いた点教師付きスキームを提案する。 実験により, 弱教師付きアプローチは, sota完全教師付き手法よりも優れており, また, 合成画像と実画像の両方においてクラス内咬合の場合, 層先行設計は顕著な性能改善を示した。

Images of realistic scenes often contain intra-class objects that are heavily occluded from each other, making the amodal perception task that requires parsing the occluded parts of the objects challenging. Although important for downstream tasks such as robotic grasping systems, the lack of large-scale amodal datasets with detailed annotations makes it difficult to model intra-class occlusions explicitly. This paper introduces two new amodal datasets for image amodal completion tasks, which contain a total of over 267K images of intra-class occlusion scenarios, annotated with multiple masks, amodal bounding boxes, dual order relations and full appearance for instances and background. We also present a point-supervised scheme with layer priors for amodal instance segmentation specifically designed for intra-class occlusion scenarios. Experiments show that our weakly supervised approach outperforms the SOTA fully supervised methods, while our layer priors design exhibits remarkable performance improvements in the case of intra-class occlusion in both synthetic and real images.
翻訳日:2023-11-08 19:59:05 公開日:2023-11-07
# コンピテンスに基づく言語モデルの解析

Competence-Based Analysis of Language Models ( http://arxiv.org/abs/2303.00333v3 )

ライセンス: Link先を確認
Adam Davies, Jize Jiang, ChengXiang Zhai(参考訳) さまざまなプロンプトタスクにおける大規模で事前訓練されたニューラルネットワークモデル(LLM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。 このような振る舞いをよりよく理解し、より堅牢なLLMの設計を動機付けるために、LLMの文脈における言語能力の因果的定式化を提案し、LLM能力の研究と測定のための一般的な枠組みを提案する。 提案手法であるcalm(competence-based analysis of language models)は,様々な言語特性に関するモデルの内部表現を,与えられた因果モデルを用いて,因果探索を用いて様々なタスクを遂行する過程で損なうことにより,llm能力の定量的測定を初めて確立する。 また,既存の手法よりも広い範囲の属性や表現を対象とする,勾配に基づく逆攻撃を用いた因果探索を行うための新しい手法を開発した。 これらの介入を用いて、様々な語彙推論タスクにおけるbertとrobertaの能力を分析するケーススタディを実施し、これらのタスクをまたいだ行動の説明と予測に、calmフレームワークと能力指標が有用であることを示した。

Despite the recent success of large, pretrained neural language models (LLMs) on a variety of prompting tasks, these models can be alarmingly brittle to small changes in inputs or application contexts. To better understand such behavior and motivate the design of more robust LLMs, we provide a causal formulation of linguistic competence in the context of LLMs and propose a general framework to study and measure LLM competence. Our framework, CALM (Competence-based Analysis of Language Models), establishes the first quantitative measure of LLM competence, which we study by damaging models' internal representations of various linguistic properties in the course of performing various tasks using causal probing and evaluating models' alignment under these interventions with a given causal model. We also develop a novel approach for performing causal probing interventions using gradient-based adversarial attacks, which can target a broader range of properties and representations than existing techniques. We carry out a case study of CALM using these interventions to analyze BERT and RoBERTa's competence across a variety of lexical inference tasks, showing that the CALM framework and competence metric can be valuable tools for explaining and predicting their behavior across these tasks.
翻訳日:2023-11-08 19:58:45 公開日:2023-11-07
# 簡易グラフ畳み込みのための主軸木を用いたグラフ構築

Graph Construction using Principal Axis Trees for Simple Graph Convolution ( http://arxiv.org/abs/2302.12000v3 )

ライセンス: Link先を確認
Mashaan Alshammari, John Stavrakakis, Adel F. Ahmed, Masahiro Takatsuka(参考訳) グラフニューラルネットワーク(GNN)がグラフ学習のお気に入りの方法になりつつある。 深層学習の半教師付き性質を利用して、従来のグラフ学習手法に関連する計算ボトルネックを回避している。 特徴行列 $x$ に加えて、gnn は特徴伝達を実行するために隣接行列 $a$ が必要である。 多くの場合、隣接行列の$A$が欠落している。 我々は,教師なし情報と教師なし情報を用いて隣接行列 $a$ を構成するグラフ構築スキームを提案する。 教師なし情報は、ポイント周辺を特徴付ける。 主軸木 (pa-trees) を教師なし情報源として使用し, 同一の葉ノードに落下する点間のエッジを作成した。 教師付き情報にはペナルティグラフと本質グラフという概念を用いた。 ペナルティグラフは異なるクラスラベルでポイントを接続するが、固有のグラフは同じクラスラベルでポイントを接続する。 PA木を用いて構築したグラフにエッジを削除または付加するために,ペナルティグラフと本質グラフを使用した。 我々はこのグラフ構築スキームを2つのよく知られたGNNで検証した。 1)グラフ畳み込みネットワーク(GCN)と 2) 単純なグラフ畳み込み(SGC)。 実験の結果,より高速でGCNと同等あるいは同等の結果が得られるため,SGCを使用する方がよいことがわかった。 また,GCNおよびSGCに対するオーバースムーシングの効果についても検討した。 過度なスムース化を避けるためには,SGCに対してスムース化のレベルを慎重に選択する必要があることがわかった。

Graph Neural Networks (GNNs) are increasingly becoming the favorite method for graph learning. They exploit the semi-supervised nature of deep learning, and they bypass computational bottlenecks associated with traditional graph learning methods. In addition to the feature matrix $X$, GNNs need an adjacency matrix $A$ to perform feature propagation. In many cases, the adjacency matrix $A$ is missing. We introduce a graph construction scheme that constructs the adjacency matrix $A$ using unsupervised and supervised information. Unsupervised information characterizes the neighborhood around points. We used Principal Axis trees (PA-trees) as a source for unsupervised information, where we create edges between points falling onto the same leaf node. For supervised information, we used the concept of penalty and intrinsic graphs. A penalty graph connects points with different class labels, whereas an intrinsic graph connects points with the same class labels. We used the penalty and intrinsic graphs to remove or add edges to the graph constructed via PA-tree. We tested this graph construction scheme on two well-known GNNs: 1) Graph Convolutional Network (GCN) and 2) Simple Graph Convolution (SGC). The experiments show that it is better to use SGC because it is faster and delivers better or the same results as GCN. We also test the effect of oversmoothing on both GCN and SGC. We found out that the level of smoothing has to be carefully selected for SGC to avoid oversmoothing.
翻訳日:2023-11-08 19:58:21 公開日:2023-11-07
# 深層学習による医用画像分割のためのマスク処理による余剰画素補間の評価

Evaluation of Extra Pixel Interpolation with Mask Processing for Medical Image Segmentation with Deep Learning ( http://arxiv.org/abs/2302.11522v3 )

ライセンス: Link先を確認
Olivier Rukundo(参考訳) 現在のマスク処理は、bicubic (bic)やbilinear (bil) interpolationのような余分なピクセルを生成するアルゴリズムとは対照的に、near neighbor (nn) interpolationのような余分なピクセルを生成しない補間アルゴリズムに依存している。 本研究は,nnベースのマスク処理に対する代替手法を提案し,その深層学習結果への影響を評価した。 本研究では,BICベースの画像とマスク処理とBICとNNベースの画像とマスク処理の両方が,NNベースの画像とマスク処理に与える影響を評価した。 bic-bicモデル/ネットワークは8.9578 %(画像サイズ256 x 256)と1.0496 %(画像サイズ384 x 384)であり、nn-nnネットワークは8.3127 %(画像サイズ256 x 256)と0.2887 %(画像サイズ384 x 384)でnn-nnネットワークが増加した。

Current mask processing operations rely on interpolation algorithms that do not produce extra pixels, such as nearest neighbor (NN) interpolation, as opposed to algorithms that do produce extra pixels, like bicubic (BIC) or bilinear (BIL) interpolation. In our previous study, the author proposed an alternative approach to NN-based mask processing and evaluated its effects on deep learning training outcomes. In this study, the author evaluated the effects of both BIC-based image and mask processing and BIC-and-NN-based image and mask processing versus NN-based image and mask processing. The evaluation revealed that the BIC-BIC model/network was an 8.9578 % (with image size 256 x 256) and a 1.0496 % (with image size 384 x 384) increase of the NN-NN network compared to the NN-BIC network which was an 8.3127 % (with image size 256 x 256) and a 0.2887 % (with image size 384 x 384) increase of the NN-NN network.
翻訳日:2023-11-08 19:57:58 公開日:2023-11-07
# 自動走行系列の時間順序からの自己教師あり表現学習

Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences ( http://arxiv.org/abs/2302.09043v2 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Lars Schillingmann, Karsten Haug, Abhinav Valada(参考訳) 自己監督型特徴学習により、知覚システムは世界中の車両が記録する膨大な生データから恩恵を受けることができる。 ビデオレベルの自己教師付き学習アプローチは分類タスクにおいて強い一般化性を示しているが、逐次データから密接な表現を学習する可能性は比較的未検討である。 本研究では,認識タスクのための領域レベルの特徴表現を事前学習するための時間順述文タスクであるTempOを提案する。 提案する特徴ベクトルの非順序集合,すなわち物体検出や追従システムにとって自然な表現を各フレームに埋め込み,シーケンス長に対して複雑性が2倍未満のトランスフォーマティブベースのマルチフレームアーキテクチャにおいて,フレーム遷移確率を予測して逐次順序を定式化する。 BDD100K,nuImages,MOT17データセットの大規模な評価から,TempOの事前学習アプローチは単一フレームの自己教師付き学習手法と教師あり移行学習初期化戦略を上回り,オブジェクト検出のためのmAPの+0.7%,マルチオブジェクト追跡のためのHOTAスコアの+2.0%の改善を実現している。

Self-supervised feature learning enables perception systems to benefit from the vast raw data recorded by vehicle fleets worldwide. While video-level self-supervised learning approaches have shown strong generalizability on classification tasks, the potential to learn dense representations from sequential data has been relatively unexplored. In this work, we propose TempO, a temporal ordering pretext task for pre-training region-level feature representations for perception tasks. We embed each frame by an unordered set of proposal feature vectors, a representation that is natural for object detection or tracking systems, and formulate the sequential ordering by predicting frame transition probabilities in a transformer-based multi-frame architecture whose complexity scales less than quadratic with respect to the sequence length. Extensive evaluations on the BDD100K, nuImages, and MOT17 datasets show that our TempO pre-training approach outperforms single-frame self-supervised learning methods as well as supervised transfer learning initialization strategies, achieving an improvement of +0.7% in mAP for object detection and +2.0% in the HOTA score for multi-object tracking.
翻訳日:2023-11-08 19:57:31 公開日:2023-11-07
# LiDAR点雲における変化検出のための最適輸送

Optimal Transport for Change Detection on LiDAR Point Clouds ( http://arxiv.org/abs/2302.07025v4 )

ライセンス: Link先を確認
Marco Fiorucci, Peter Naylor, Makoto Yamada(参考訳) 大気中LiDARデータポイント間の非監督的変化検出は, 取得システムからの空間的支持とノイズのアンマッチのため困難である。 点雲の変化を検出するための現在のアプローチは、DEM(Digital Elevation Models)画像と教師付き手法の計算に大きく依存している。 demを取得すると、ピクセル化によるlidar情報損失が発生し、監視には現実世界のシナリオでは利用できない大量のラベル付きデータが必要になる。 本稿では,2つの時間的支援による3次元LiDAR点の移動の計算に基づく教師なしアプローチを提案する。 この方法は不均衡な最適輸送に基づいており、LiDARデータによるあらゆる変化検出問題に一般化することができる。 提案手法を利用可能なデータセットに適用し,実際に使用されるセンサを模倣した様々なノイズや解像度の設定による都市スプロールの監視を行う。 本手法では,教師なしのマルチクラス分類が可能であり,それまでの教師なしのアプローチを有意差で上回っている。

Unsupervised change detection between airborne LiDAR data points, taken at separate times over the same location, can be difficult due to unmatching spatial support and noise from the acquisition system. Most current approaches to detect changes in point clouds rely heavily on the computation of Digital Elevation Models (DEM) images and supervised methods. Obtaining a DEM leads to LiDAR informational loss due to pixelisation, and supervision requires large amounts of labelled data often unavailable in real-world scenarios. We propose an unsupervised approach based on the computation of the transport of 3D LiDAR points over two temporal supports. The method is based on unbalanced optimal transport and can be generalised to any change detection problem with LiDAR data. We apply our approach to publicly available datasets for monitoring urban sprawling in various noise and resolution configurations that mimic several sensors used in practice. Our method allows for unsupervised multi-class classification and outperforms the previous state-of-the-art unsupervised approaches by a significant margin.
翻訳日:2023-11-08 19:57:08 公開日:2023-11-07
# DynGFN:GFlowNetを用いた遺伝子制御ネットワークのベイズ推定に向けて

DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with GFlowNets ( http://arxiv.org/abs/2302.04178v3 )

ライセンス: Link先を確認
Lazar Atanackovic, Alexander Tong, Bo Wang, Leo J. Lee, Yoshua Bengio, Jason Hartford(参考訳) 細胞生物学における大きな課題の1つは、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する遺伝子制御ネットワーク(GRN)を推論することである。 1) 規制ネットワークは本質的に循環的であるため、grnを有向非循環グラフ(dag)としてモデル化すべきではなく、2) 観測は重要な測定ノイズを持つので、典型的なサンプルサイズでは、データが与えられた可能性のあるグラフの大きな同値クラスが常に存在し、この不確かさを捉える方法を求めている。 既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。 本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。 速度情報へのアクセスがあるので,ベイズ構造学習問題を動的系のスパース同定問題として扱うことができ,循環フィードバックループを時間を通じて捉えることができる。 本研究の目的は, 離散構造上の不確実性をモデル化することであり, 生成フローネットワーク(GFlowNets)を用いて, 結合空間の後方分布を推定することである。 提案手法は, 従来のベイズ構造学習法と比較して, 循環構造の分布をよりよくカプセル化した後部学習法であることが示唆された。

One of the grand challenges of cell biology is inferring the gene regulatory network (GRN) which describes interactions between genes and their products that control gene expression and cellular function. We can treat this as a causal discovery problem but with two non-standard challenges: (1) regulatory networks are inherently cyclic so we should not model a GRN as a directed acyclic graph (DAG), and (2) observations have significant measurement noise, so for typical sample sizes there will always be a large equivalence class of graphs that are likely given the data, and we want methods that capture this uncertainty. Existing methods either focus on challenge (1), identifying cyclic structure from dynamics, or on challenge (2) learning complex Bayesian posteriors over DAGs, but not both. In this paper we leverage the fact that it is possible to estimate the "velocity" of gene expression with RNA velocity techniques to develop an approach that addresses both challenges. Because we have access to velocity information, we can treat the Bayesian structure learning problem as a problem of sparse identification of a dynamical system, capturing cyclic feedback loops through time. Since our objective is to model uncertainty over discrete structures, we leverage Generative Flow Networks (GFlowNets) to estimate the posterior distribution over the combinatorial space of possible sparse dependencies. Our results indicate that our method learns posteriors that better encapsulate the distributions of cyclic structures compared to counterpart state-of-the-art Bayesian structure learning approaches.
翻訳日:2023-11-08 19:56:41 公開日:2023-11-07
# 実世界の分布シフト下での回帰モデルの不確実性はどの程度信頼できるのか?

How Reliable is Your Regression Model's Uncertainty Under Real-World Distribution Shifts? ( http://arxiv.org/abs/2302.03679v2 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) 多くの重要なコンピュータビジョンアプリケーションは回帰問題として自然に定式化されている。 医療画像内では、正確な回帰モデルは様々なタスクを自動化し、コストを下げ、患者の結果を改善する可能性がある。 しかし、このような安全クリティカルなデプロイメントでは、モデルの不確かさの信頼性の高い推定が必要となる。 そこで本研究では,実世界の分布変化を考慮した回帰不確かさ推定手法の信頼性について検討する。 そこで本研究では,分散シフトの異なる8種類の画像ベース回帰データセットの広範なベンチマークを提案する。 次に,本ベンチマークを用いて不確実性推定法を多数評価し,分散検出の課題から2つの不確実性評価結果を得た。 分散シフトがない場合、メソッドは十分に校正されているが、ベンチマークデータセットの多くに非常に自信が持たれる。 これにより、現在の不確実性推定手法の重要な限界が明らかとなり、提案したベンチマークが研究コミュニティにとっての課題となる。 我々は,本ベンチマークが真に信頼性の高い回帰不確実性推定手法の開発にさらなる取り組みを刺激することを期待する。 コードはhttps://github.com/fregu856/regression_uncertaintyで入手できる。

Many important computer vision applications are naturally formulated as regression problems. Within medical imaging, accurate regression models have the potential to automate various tasks, helping to lower costs and improve patient outcomes. Such safety-critical deployment does however require reliable estimation of model uncertainty, also under the wide variety of distribution shifts that might be encountered in practice. Motivated by this, we set out to investigate the reliability of regression uncertainty estimation methods under various real-world distribution shifts. To that end, we propose an extensive benchmark of 8 image-based regression datasets with different types of challenging distribution shifts. We then employ our benchmark to evaluate many of the most common uncertainty estimation methods, as well as two state-of-the-art uncertainty scores from the task of out-of-distribution detection. We find that while methods are well calibrated when there is no distribution shift, they all become highly overconfident on many of the benchmark datasets. This uncovers important limitations of current uncertainty estimation methods, and the proposed benchmark therefore serves as a challenge to the research community. We hope that our benchmark will spur more work on how to develop truly reliable regression uncertainty estimation methods. Code is available at https://github.com/fregu856/regression_uncertainty.
翻訳日:2023-11-08 19:56:14 公開日:2023-11-07
# 教師なし領域適応型人物再同定のための画像合成による照度変化補正

Illumination Variation Correction Using Image Synthesis For Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2301.09702v3 )

ライセンス: Link先を確認
Jiaqi Guo and Amy R. Reibman and Edward J. Delp(参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (re-ID) は、ソースドメイン内のラベル付き画像から識別情報を学習し、ターゲットドメイン内のラベルなし画像に適用することを目的としている。 多くの教師なし再同定手法の大きな問題は、照明、視点、オクルージョンといった大きなドメインのバリエーションに対してうまく機能しないことである。 本稿では,教師なしのリIDにおける照明変動に対処する合成モデルバンク(SMB)を提案する。 提案したSMBは特徴抽出のためのいくつかの畳み込みニューラルネットワーク(CNN)と距離測定のためのマハラノビス行列からなる。 それらは異なる照明条件の合成データを用いて訓練され、その相乗効果によってSMBは照明変動に対して堅牢になる。 照明強度の定量化と合成画像の品質向上を目的として,GANに基づく画像合成のための3次元バーチャルヒューマンデータセットを提案する。 実験の結果,提案したSMBは,いくつかのre-IDベンチマークにおいて,他の合成手法よりも優れていた。

Unsupervised domain adaptive (UDA) person re-identification (re-ID) aims to learn identity information from labeled images in source domains and apply it to unlabeled images in a target domain. One major issue with many unsupervised re-identification methods is that they do not perform well relative to large domain variations such as illumination, viewpoint, and occlusions. In this paper, we propose a Synthesis Model Bank (SMB) to deal with illumination variation in unsupervised person re-ID. The proposed SMB consists of several convolutional neural networks (CNN) for feature extraction and Mahalanobis matrices for distance metrics. They are trained using synthetic data with different illumination conditions such that their synergistic effect makes the SMB robust against illumination variation. To better quantify the illumination intensity and improve the quality of synthetic images, we introduce a new 3D virtual-human dataset for GAN-based image synthesis. From our experiments, the proposed SMB outperforms other synthesis methods on several re-ID benchmarks.
翻訳日:2023-11-08 19:55:38 公開日:2023-11-07
# 言語生成のための潜時拡散

Latent Diffusion for Language Generation ( http://arxiv.org/abs/2212.09462v2 )

ライセンス: Link先を確認
Justin Lovelace and Varsha Kishore and Chao Wan and Eliot Shekhtman and Kilian Q. Weinberger(参考訳) 拡散モデルは、画像、音声、ビデオなどの連続データモダリティのモデリングで大きな成功を収めてきたが、言語のような離散的な領域での使用は限られている。 言語への拡散を適応しようとする最近の試みは、既存の事前訓練言語モデルの代替として拡散を提示している。 拡散モデルと既存の言語モデルは相補的だと考えている。 エンコーダ・デコーダ言語モデルを用いて,高品質な言語オートエンコーダを効率的に学習できることを実証する。 次に,連続拡散モデルが言語オートエンコーダの潜在空間で学習できることを実証し,事前学習したデコーダを用いて自然言語にデコードできる連続的潜在表現のサンプル化を可能にする。 非条件,クラス条件,シーケンス対シーケンス言語生成に対するアプローチの有効性を検証する。 複数の多様なデータセットにまたがって、我々の潜在言語拡散モデルは、以前の拡散言語モデルよりもはるかに効果的であることを示す。

Diffusion models have achieved great success in modeling continuous data modalities such as images, audio, and video, but have seen limited use in discrete domains such as language. Recent attempts to adapt diffusion to language have presented diffusion as an alternative to existing pretrained language models. We view diffusion and existing language models as complementary. We demonstrate that encoder-decoder language models can be utilized to efficiently learn high-quality language autoencoders. We then demonstrate that continuous diffusion models can be learned in the latent space of the language autoencoder, enabling us to sample continuous latent representations that can be decoded into natural language with the pretrained decoder. We validate the effectiveness of our approach for unconditional, class-conditional, and sequence-to-sequence language generation. We demonstrate across multiple diverse data sets that our latent language diffusion models are significantly more effective than previous diffusion language models.
翻訳日:2023-11-08 19:55:21 公開日:2023-11-07
# cap2aug: 画像データ拡張のための字幕案内画像

Cap2Aug: Caption guided Image to Image data Augmentation ( http://arxiv.org/abs/2212.05404v2 )

ライセンス: Link先を確認
Aniket Roy, Anshul Shah, Ketul Shah, Anirban Roy, Rama Chellappa(参考訳) 低データ体制における視覚的認識は困難であり、過度に適合する傾向がある。 この問題を軽減するために、いくつかのデータ拡張戦略が提案されている。 しかし、回転、収穫、反転といった標準的な変換は、限定的な意味変化をもたらす。 そこで本研究では,画像キャプションをテキストプロンプトとして用いた画像から画像への拡散モデルに基づくデータ拡張戦略cap2augを提案する。 限られた訓練画像からキャプションを生成し、これらのキャプションを使用して画像間安定拡散モデルを用いてトレーニング画像を編集し、意味的に意味のある拡張を生成する。 この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル間で意味的な多様性を提供する。 画像から画像への拡散モデルを用いて, クラス内の変動をキャプションによって捕捉し, 様々なサンプルを生成することができることを示す。 しかし,実画像と合成画像の領域差のため,合成画像でのナイーブ学習は不十分である。 そこで本研究では,合成画像と実画像との整合にmmd(maximum mean discrepancy)損失を用い,領域ギャップを最小化する。 提案手法は,特に低データ体制において,少数・長期の分類タスクにおいて評価され,最先端技術よりも性能が向上する。

Visual recognition in a low-data regime is challenging and often prone to overfitting. To mitigate this issue, several data augmentation strategies have been proposed. However, standard transformations, e.g., rotation, cropping, and flipping provide limited semantic variations. To this end, we propose Cap2Aug, an image-to-image diffusion model-based data augmentation strategy using image captions as text prompts. We generate captions from the limited training images and using these captions edit the training images using an image-to-image stable diffusion model to generate semantically meaningful augmentations. This strategy generates augmented versions of images similar to the training images yet provides semantic diversity across the samples. We show that the variations within the class can be captured by the captions and then translated to generate diverse samples using the image-to-image diffusion model guided by the captions. However, naive learning on synthetic images is not adequate due to the domain gap between real and synthetic images. Thus, we employ a maximum mean discrepancy (MMD) loss to align the synthetic images to the real images for minimizing the domain gap. We evaluate our method on few-shot and long-tail classification tasks and obtain performance improvements over state-of-the-art, especially in the low-data regimes.
翻訳日:2023-11-08 19:55:07 公開日:2023-11-07
# 分散処理効果試験のための二重ロバストカーネル統計

Doubly Robust Kernel Statistics for Testing Distributional Treatment Effects ( http://arxiv.org/abs/2212.04922v2 )

ライセンス: Link先を確認
Jake Fawkes, Robert Hu, Robin J. Evans, Dino Sejdinovic(参考訳) 因果推論の広範な適用により、様々な状況において因果効果の有無をテストできるツールを持つことがますます重要になっている。 ここでは, 平均だけでなく, 分布の高次モーメントや多次元的, 構造化された結果にも影響を及ぼす, 因果効果の試行に焦点をあてる。 我々は、以前導入されたフレームワークである、カーネルヒルベルト空間(英語版)(rkhs)の再現における因果分布を表現するために、分布埋め込みのための新しい改良された推定子を提案する。 これらの改良された推定器は、カーネル空間内で同様の形式を用いて因果平均の二重ロバストな推定器にインスパイアされている。 これらの推定器を解析し,2つの頑健な特性を保ち,元の推定器と比較して収束率を向上させたことを示す。 これは、テスト統計として提案する推定子を用いて、分布的因果効果のための新しい置換ベースのテストをもたらす。 我々は試験の有効性を実験的に理論的に実証した。

With the widespread application of causal inference, it is increasingly important to have tools which can test for the presence of causal effects in a diverse array of circumstances. In this vein we focus on the problem of testing for \emph{distributional} causal effects, where the treatment affects not just the mean, but also higher order moments of the distribution, as well as multidimensional or structured outcomes. We build upon a previously introduced framework, Counterfactual Mean Embeddings, for representing causal distributions within Reproducing Kernel Hilbert Spaces (RKHS) by proposing new, improved, estimators for the distributional embeddings. These improved estimators are inspired by doubly robust estimators of the causal mean, using a similar form within the kernel space. We analyse these estimators, proving they retain the doubly robust property and have improved convergence rates compared to the original estimators. This leads to new permutation based tests for distributional causal effects, using the estimators we propose as tests statistics. We experimentally and theoretically demonstrate the validity of our tests.
翻訳日:2023-11-08 19:54:49 公開日:2023-11-07
# 進化的多目的最適化のための一般化スカラー化法

A Generalized Scalarization Method for Evolutionary Multi-Objective Optimization ( http://arxiv.org/abs/2212.01545v2 )

ライセンス: Link先を確認
Ruihao Zheng and Zhenkun Wang(参考訳) 分解に基づく多目的進化アルゴリズム(MOEA/D)は、多目的最適化問題(MOP)を協調最適化のための単目的サブプロブレムの集合に変換する。 サブプロブレムとソリューションのミスマッチは、MOEA/Dの大幅な性能劣化を引き起こす可能性がある。 既存のミスマッチ対応戦略のほとんどは、$L_{\infty}$ scalarizationを使用する場合にのみ有効である。 L_{p}$スカラー化を利用できるミスマッチ対応戦略は、非凸パレートフロントのMOPに面しても、MOEA/Dにとって非常に重要である。 本稿では,グローバル置換(GR)をバックボーンとして使用する。 我々は、$L_{\infty}$が別の$L_{p}$に$p\in [1,\infty)$に置き換えられ、$L_p$ベースの1\leq p<\infty$)サブプロブレムが矛盾なく大きな嗜好領域を持つとき、GRがもはやミスマッチを避けることができないかを分析する。 p$ が小さい値に設定されると、いくつかの中間部分問題は非常に小さな選好領域を持つため、その方向ベクトルは対応する選好領域を通過できない。 したがって、サブプロブレムの方向ベクトルがその優先領域を通過することを保証するために、一般化された$L_p$(G$L_p$)スカラー化を提案する。 理論解析により、任意の$p\geq 1$に対してg$l_p$スカラー化を使用する場合、grは常にミスマッチを回避できることが示された。 種々のMOPに関する実験的研究は理論解析に適合する。

The decomposition-based multi-objective evolutionary algorithm (MOEA/D) transforms a multi-objective optimization problem (MOP) into a set of single-objective subproblems for collaborative optimization. Mismatches between subproblems and solutions can lead to severe performance degradation of MOEA/D. Most existing mismatch coping strategies only work when the $L_{\infty}$ scalarization is used. A mismatch coping strategy that can use any $L_{p}$ scalarization, even when facing MOPs with non-convex Pareto fronts, is of great significance for MOEA/D. This paper uses the global replacement (GR) as the backbone. We analyze how GR can no longer avoid mismatches when $L_{\infty}$ is replaced by another $L_{p}$ with $p\in [1,\infty)$, and find that the $L_p$-based ($1\leq p<\infty$) subproblems having inconsistently large preference regions. When $p$ is set to a small value, some middle subproblems have very small preference regions so that their direction vectors cannot pass through their corresponding preference regions. Therefore, we propose a generalized $L_p$ (G$L_p$) scalarization to ensure that the subproblem's direction vector passes through its preference region. Our theoretical analysis shows that GR can always avoid mismatches when using the G$L_p$ scalarization for any $p\geq 1$. The experimental studies on various MOPs conform to the theoretical analysis.
翻訳日:2023-11-08 19:54:30 公開日:2023-11-07
# QTSumm: タブラルデータに対するクエリ指向の要約

QTSumm: Query-Focused Summarization over Tabular Data ( http://arxiv.org/abs/2305.14303v2 )

ライセンス: Link先を確認
Yilun Zhao, Zhenting Qi, Linyong Nan, Boyu Mi, Yixin Liu, Weijin Zou, Simeng Han, Ruizhe Chen, Xiangru Tang, Yumo Xu, Dragomir Radev, Arman Cohan(参考訳) 人々は主に、データ分析や特定の質問に答えるためにテーブルをコンサルティングします。 ユーザの情報に合わせた正確な表要約を提供するテキスト生成システムは、関連するデータへのより効率的なアクセスを容易にする。 そこで本研究では,テキスト生成モデルが与えられたテーブル上で人間ライクな推論と解析を行い,調整した要約を生成する必要がある,新しい問合せ型テーブル要約タスクを定義する。 このタスクのために、QTSummという新しいベンチマークを導入し、多様なトピックをカバーする2,934のテーブル上に、7,111の人間による注釈付きクエリ-サマリーペアを含む。 テキスト生成,テーブル間生成,大規模言語モデルなど,qtsummの強力なベースラインのセットを調査した。 実験結果と手動による分析により,テーブル・ツー・テクスト生成における新たな課題が明らかとなった。 さらに,表データからクエリ関連情報を検索して推論し,複数の自然言語ファクトを生成するrefactorという新しい手法を提案する。 実験結果は、生成した事実をモデル入力に結合することで、リファクタリングがベースラインに改善をもたらすことを実証する。 私たちのデータとコードはhttps://github.com/yale-nlp/qtsummで公開されている。

People primarily consult tables to conduct data analysis or answer specific questions. Text generation systems that can provide accurate table summaries tailored to users' information needs can facilitate more efficient access to relevant data insights. Motivated by this, we define a new query-focused table summarization task, where text generation models have to perform human-like reasoning and analysis over the given table to generate a tailored summary. We introduce a new benchmark named QTSumm for this task, which contains 7,111 human-annotated query-summary pairs over 2,934 tables covering diverse topics. We investigate a set of strong baselines on QTSumm, including text generation, table-to-text generation, and large language models. Experimental results and manual analysis reveal that the new task presents significant challenges in table-to-text generation for future research. Moreover, we propose a new approach named ReFactor, to retrieve and reason over query-relevant information from tabular data to generate several natural language facts. Experimental results demonstrate that ReFactor can bring improvements to baselines by concatenating the generated facts to the model input. Our data and code are publicly available at https://github.com/yale-nlp/QTSumm.
翻訳日:2023-11-08 19:46:56 公開日:2023-11-07
# 多視点視線推定のための回転拘束型クロスビュー特徴融合

Rotation-Constrained Cross-View Feature Fusion for Multi-View Appearance-based Gaze Estimation ( http://arxiv.org/abs/2305.12704v2 )

ライセンス: Link先を確認
Yoichiro Hisadome, Tianyi Wu, Jiawei Qin, Yusuke Sugano(参考訳) 近年,外見に基づく視線推定が活発に研究されている。 しかし,未発見の頭部ポーズに対する一般化性能は,既存の手法では依然として大きな制限となっている。 本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。 ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力として用いる。 提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出し,重畳された融合モジュールを介して回転可能な特徴を適応的に融合する。 この単純かつ効率的なアプローチは、計算コストを大幅に増加させることなく、目立たない姿勢下での一般化性能を大幅に向上させる。 モデルは位置決めを固定することなくランダムにカメラの組み合わせで訓練することができ、推論中に見えないカメラペアに一般化することができる。 複数のデータセットを用いた実験により、最先端領域一般化手法を含むベースライン法よりも提案手法の利点を実証する。 コードは \url{https://github.com/ut-vision/Rot-MVGaze} で入手できる。

Appearance-based gaze estimation has been actively studied in recent years. However, its generalization performance for unseen head poses is still a significant limitation for existing methods. This work proposes a generalizable multi-view gaze estimation task and a cross-view feature fusion method to address this issue. In addition to paired images, our method takes the relative rotation matrix between two cameras as additional input. The proposed network learns to extract rotatable feature representation by using relative rotation as a constraint and adaptively fuses the rotatable features via stacked fusion modules. This simple yet efficient approach significantly improves generalization performance under unseen head poses without significantly increasing computational cost. The model can be trained with random combinations of cameras without fixing the positioning and can generalize to unseen camera pairs during inference. Through experiments using multiple datasets, we demonstrate the advantage of the proposed method over baseline methods, including state-of-the-art domain generalization approaches. The code will be available at \url{https://github.com/ut-vision/Rot-MVGaze}.
翻訳日:2023-11-08 19:46:34 公開日:2023-11-07
# MINT:エネルギー効率の良いスパイクニューラルネットワークのための乗算器レスINTeger量子化

MINT: Multiplier-less INTeger Quantization for Energy Efficient Spiking Neural Networks ( http://arxiv.org/abs/2305.09850v4 )

ライセンス: Link先を確認
Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)における重みと膜電位を効率よく圧縮する一様量子化手法であるMINT(Multiplier-less INTeger)量子化を提案する。 従来のSNN量子化法とは異なり、MINTはメモリ集約膜電位を非常に低い精度(2ビット)に量子化し、メモリフットプリントを大幅に減少させる。 MINTはまた、重量と膜電位の間の量子化スケーリング係数を共有し、従来の均一な量子化に必要な乗算器の必要性を排除している。 実験結果から,本手法は,メモリフットプリント削減とハードウェアコスト効率を上回りながら,完全精度モデルや他の最先端SNN量子化手法の精度と一致していることがわかった。 例えば、2ビットのMINT VGG-16はCIFAR-10で90.6%の精度を達成し、完全な精度モデルからメモリフットプリントを約93.8%削減し、計算エネルギーを90%削減した。 コードはhttps://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantizationで公開されている。

We propose Multiplier-less INTeger (MINT) quantization, a uniform quantization scheme that efficiently compresses weights and membrane potentials in spiking neural networks (SNNs). Unlike previous SNN quantization methods, MINT quantizes memory-intensive membrane potentials to an extremely low precision (2-bit), significantly reducing the memory footprint. MINT also shares the quantization scaling factor between weights and membrane potentials, eliminating the need for multipliers required in conventional uniform quantization. Experimental results show that our method matches the accuracy of full-precision models and other state-of-the-art SNN quantization techniques while surpassing them in memory footprint reduction and hardware cost efficiency at deployment. For example, 2-bit MINT VGG-16 achieves 90.6% accuracy on CIFAR-10, with roughly 93.8% reduction in memory footprint from the full-precision model and 90% reduction in computation energy compared to vanilla uniform quantization at deployment. The code is available at https://github.com/Intelligent-Computing-Lab-Yale/MINT-Quantization.
翻訳日:2023-11-08 19:46:19 公開日:2023-11-07
# 平均シフトの収束解析

Convergence Analysis of Mean Shift ( http://arxiv.org/abs/2305.08463v3 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) 平均シフト(MS)アルゴリズムは、カーネル密度推定(KDE)のモードを求める。 本研究では,MSアルゴリズムが生成するモード推定シーケンスの収束保証と,比較的穏やかな条件下での収束率の評価について,この不等式に関する議論の助けを借りて提案する。 本研究は解析的カーネルとepanechnikovカーネルを対象とする既存カーネルの拡張である。 これらは、KDEに基づくモード推定の漸近的統計効率の観点から、非負のカーネルの中で最適である双重カーネルをカバーする点で重要である。

The mean shift (MS) algorithm seeks a mode of the kernel density estimate (KDE). This study presents a convergence guarantee of the mode estimate sequence generated by the MS algorithm and an evaluation of the convergence rate, under fairly mild conditions, with the help of the argument concerning the {\L}ojasiewicz inequality. Our findings extend existing ones covering analytic kernels and the Epanechnikov kernel. Those are significant in that they cover the biweight kernel, which is optimal among non-negative kernels in terms of the asymptotic statistical efficiency for the KDE-based mode estimation.
翻訳日:2023-11-08 19:45:58 公開日:2023-11-07
# MindGames:動的認識型モーダル論理を用いた大規模言語モデルにおける心の理論

MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic ( http://arxiv.org/abs/2305.03353v2 )

ライセンス: Link先を確認
Damien Sileo and Antoine Lernould(参考訳) 心の理論(ToM)は知性の重要な構成要素であるが、その評価は熱い議論の対象のままである。 以前の研究では、人間が作成した標準テストまたはルールベースのテンプレートを使用して自然言語処理モデルに人間のToMアセスメントを適用していた。 しかし、これらの手法は主に単純化された推論に焦点を合わせ、さらなる検証を必要とする。 そこで我々は,動的疫学論理を利用してToMの特定の成分を分離し,制御された問題を生成する。 また,これらの問題を英語の自然言語で表現するための新しい言語化手法を提案する。 その結果,70Mから6B,350Mから174Bまでの言語モデルスケーリングでは,ランダムな確率よりも連続的に結果が得られないことがわかった。 GPT-4は優れたてんかん推論能力を示すが、まだ改善の余地がある。 私たちのコードとデータセットは公開されています(https://huggingface.co/datasets/sileod/mindgames , https://github.com/sileod/llm-theory-of-mind )。

Theory of Mind (ToM) is a critical component of intelligence but its assessment remains the subject of heated debates. Prior research applied human ToM assessments to natural language processing models using either human-created standardized tests or rule-based templates. However, these methods primarily focus on simplistic reasoning and require further validation. Here, we leverage dynamic epistemic logic to isolate a particular component of ToM and to generate controlled problems. We also introduce new verbalization techniques to express these problems in English natural language. Our findings indicate that some language model scaling (from 70M to 6B and 350M to 174B) does not consistently yield results better than random chance. While GPT-4 demonstrates superior epistemic reasoning capabilities, there is still room for improvement. Our code and datasets are publicly available (https://huggingface.co/datasets/sileod/mindgames , https://github.com/sileod/llm-theory-of-mind )
翻訳日:2023-11-08 19:45:49 公開日:2023-11-07
# 緩和仮定によるアダムの収束

Convergence of Adam Under Relaxed Assumptions ( http://arxiv.org/abs/2304.13972v3 )

ライセンス: Link先を確認
Haochuan Li, Alexander Rakhlin, Ali Jadbabaie(参考訳) 本稿では,適応モーメント推定(adam)アルゴリズムの幅広い最適化対象に対する収束の厳密な証明を提案する。 ディープニューラルネットワークのトレーニングにおけるアダムアルゴリズムの人気と効率性にもかかわらず、その理論的性質はまだ完全には理解されておらず、既存の収束証明は静止点への収束を示すために、グローバル境界勾配のような非現実的に強い仮定を必要とする。 本稿では、Adamがより現実的な条件下で、${O}(\epsilon^{-4})$勾配複雑性を持つ$\epsilon$-定常点に確実に収束することを示す。 解析の鍵となるのは、アダムの最適化軌道に沿った勾配の有界性(英語版)(boundedness)の新たな証明であり、局所滑らか性(すなわち、それが存在するときのヘッセンノルム)が勾配ノルムの部分二次函数によって有界となる一般化された滑らか性仮定の下でである。 さらに、Adamの分散還元版を${O}(\epsilon^{-3})$の加速勾配複雑性で提案する。

In this paper, we provide a rigorous proof of convergence of the Adaptive Moment Estimate (Adam) algorithm for a wide class of optimization objectives. Despite the popularity and efficiency of the Adam algorithm in training deep neural networks, its theoretical properties are not yet fully understood, and existing convergence proofs require unrealistically strong assumptions, such as globally bounded gradients, to show the convergence to stationary points. In this paper, we show that Adam provably converges to $\epsilon$-stationary points with ${O}(\epsilon^{-4})$ gradient complexity under far more realistic conditions. The key to our analysis is a new proof of boundedness of gradients along the optimization trajectory of Adam, under a generalized smoothness assumption according to which the local smoothness (i.e., Hessian norm when it exists) is bounded by a sub-quadratic function of the gradient norm. Moreover, we propose a variance-reduced version of Adam with an accelerated gradient complexity of ${O}(\epsilon^{-3})$.
翻訳日:2023-11-08 19:45:32 公開日:2023-11-07
# 類似性調音バックプロパゲーションに基づく効率的な説明可能な顔認証

Efficient Explainable Face Verification based on Similarity Score Argument Backpropagation ( http://arxiv.org/abs/2304.13409v2 )

ライセンス: Link先を確認
Marco Huber, Anh Thi Luu, Philipp Terh\"orst, Naser Damer(参考訳) セキュリティクリティカルなアプリケーションでは、この技術の利用が根底にあるため、説明可能な顔認識が注目を集めている。 2つの顔画像が、与えられた顔認識システムによってマッチするかどうかを理解することは、オペレータ、ユーザ、開発者にとって、信頼、説明責任の向上、より良いシステムの開発、不公平な行動の強調において重要である。 そこで本研究では,類似点と相似点を示す空間地図を基礎となるFRモデルで解釈した上で,顔マッチング決定を支持したり,反対したりする類似点に基づく議論をバックプロファイリングするxSSABを提案する。 さらに、新しい評価プロトコルとともに、説明可能な顔認識手法における類似性と相似性マップの妥当性の最初の定量的評価を可能にする新しい説明可能な顔検証ベンチマークであるPatch-LFWを提案する。 我々は、効率と性能のトレードオフが優れていることを示す最先端アプローチと比較する。 コードと提案されたPatch-LFWは、https://github.com/marcohuber/xSSABで公開されている。

Explainable Face Recognition is gaining growing attention as the use of the technology is gaining ground in security-critical applications. Understanding why two faces images are matched or not matched by a given face recognition system is important to operators, users, anddevelopers to increase trust, accountability, develop better systems, and highlight unfair behavior. In this work, we propose xSSAB, an approach to back-propagate similarity score-based arguments that support or oppose the face matching decision to visualize spatial maps that indicate similar and dissimilar areas as interpreted by the underlying FR model. Furthermore, we present Patch-LFW, a new explainable face verification benchmark that enables along with a novel evaluation protocol, the first quantitative evaluation of the validity of similarity and dissimilarity maps in explainable face recognition approaches. We compare our efficient approach to state-of-the-art approaches demonstrating a superior trade-off between efficiency and performance. The code as well as the proposed Patch-LFW is publicly available at: https://github.com/marcohuber/xSSAB.
翻訳日:2023-11-08 19:45:11 公開日:2023-11-07
# ディープスパイクニューラルネットワークのためのマルチスケール進化的ニューラルネットワーク探索

Multi-scale Evolutionary Neural Architecture Search for Deep Spiking Neural Networks ( http://arxiv.org/abs/2304.10749v5 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Guobin Shen, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、離散的な信号処理によるエネルギー効率の優位性だけでなく、マルチスケールの生物学的可塑性を統合する自然的適合性にも大きな注目を集めている。 しかし、ほとんどのSNNは、確立されたディープニューラルネットワーク(DNN)の構造を直接採用しており、SNNのために自動的にニューラルネットワーク探索(NAS)を設計することは滅多にない。 神経モチーフのトポロジー、モジュール型地域構造、人間の脳のグローバルな横断脳領域接続は自然進化の産物であり、脳にインスパイアされたSNNアーキテクチャを設計するための完璧なリファレンスとなる。 本稿では,マイクロ,メソ,マクロの脳トポロジを進化探索空間として考慮し,SNNのためのマルチスケール進化型ニューラルネットワーク探索(MSE-NAS)を提案する。 MSE-NASは、個々のニューロンの操作、複数の回路モチーフの自己組織化の統合、脳にインスパイアされた間接的評価機能であるRepresentational Dissimilarity Matrices (RDMs)を通じて、グローバルなモチーフ間の接続を進化させる。 このトレーニング不要な適合関数は、計算消費とNASの時間を大幅に削減し、そのタスク非依存性により、検索されたSNNが複数のデータセットに優れた転送性を示すことができる。 さらに,MSE-NASはトレーニング法やノイズに対して堅牢性を示す。 提案アルゴリズムは静的データセット (CIFAR10, CIFAR100) とニューロモルフィックデータセット (CIFAR10-DVS, DVS128-Gesture) のシミュレーションステップを短縮して, 最先端 (SOTA) 性能を実現することを示した。 網羅的な分析はまた、異なるスケールでのトポロジ的進化とRDMの適合関数から導かれる顕著な性能改善と一貫した生体解釈可能性を示している。

Spiking Neural Networks (SNNs) have received considerable attention not only for their superiority in energy efficiency with discrete signal processing but also for their natural suitability to integrate multi-scale biological plasticity. However, most SNNs directly adopt the structure of the well-established Deep Neural Networks (DNNs), and rarely automatically design Neural Architecture Search (NAS) for SNNs. The neural motifs topology, modular regional structure and global cross-brain region connection of the human brain are the product of natural evolution and can serve as a perfect reference for designing brain-inspired SNN architecture. In this paper, we propose a Multi-Scale Evolutionary Neural Architecture Search (MSE-NAS) for SNN, simultaneously considering micro-, meso- and macro-scale brain topologies as the evolutionary search space. MSE-NAS evolves individual neuron operation, self-organized integration of multiple circuit motifs, and global connectivity across motifs through a brain-inspired indirect evaluation function, Representational Dissimilarity Matrices (RDMs). This training-free fitness function could greatly reduce computational consumption and NAS's time, and its task-independent property enables the searched SNNs to exhibit excellent transferability on multiple datasets. Furthermore, MSE-NAS show robustness against the training method and noise. Extensive experiments demonstrate that the proposed algorithm achieves state-of-the-art (SOTA) performance with shorter simulation steps on static datasets (CIFAR10, CIFAR100) and neuromorphic datasets (CIFAR10-DVS and DVS128-Gesture). The thorough analysis also illustrates the significant performance improvement and consistent bio-interpretability deriving from the topological evolution at different scales and the RDMs fitness function.
翻訳日:2023-11-08 19:44:29 公開日:2023-11-07
# 平均場ニューラルネットワークにおける有限幅カーネルのダイナミクスと予測変動

Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks ( http://arxiv.org/abs/2304.03408v3 )

ライセンス: Link先を確認
Blake Bordelon, Cengiz Pehlevan(参考訳) 広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。 無限幅深層ニューラルネットワークカーネルの動的平均場理論記述と予測ダイナミクスから,ネットワーク重みのランダム初期化によるdmftオーダーパラメータの$o(1/\sqrt{\text{width}})$ゆらぎを特徴付ける。 我々の結果は,先行分析とは異なり,幅の摂動的ではあるが,特徴学習の強さにおいて非摂動的である。 ネットワークトレーニングの遅延制限では、すべてのカーネルはランダムだが静的であり、予測分散は普遍的な形式を持つ。 しかし、リッチで特徴学習の体制では、カーネルと予測のゆらぎは、自己整合的に計算できる分散と動的に結合する。 2層ネットワークにおいて,機能学習によって最終接核の分散と最終ネットワーク予測を動的に低減できることを示す。 また,初期化のばらつきが,大規模だが有限のネットワークでオンライン学習を遅くする可能性を示す。 より深いネットワークでは、カーネルの分散はその後の大きな特徴学習強度で劇的に増大するが、機能学習は特徴カーネルの信号対雑音比を改善し続けている。 離散時間において,安定性効果のエッジのような大きな学習速度現象は無限幅ダイナミクスによってよく捉えられ,初期化分散は動的に減少することを示した。 CIFAR-10で訓練されたCNNに対して、有限幅によるネットワークダイナミクスのバイアスと分散の両方に有意な補正を経験的に求める。

We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Starting from a dynamical mean field theory description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $O(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initializations of the network weights. Our results, while perturbative in width, unlike prior analyses, are non-perturbative in the strength of feature learning. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with a variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final tangent kernel and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the signal-to-noise ratio of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.
翻訳日:2023-11-08 19:43:54 公開日:2023-11-07
# 潜在状態を持つ未知システムに対する性能保証を用いた学習ベース最適制御

Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States ( http://arxiv.org/abs/2303.17963v2 )

ライセンス: Link先を確認
Robert Lefringhausen, Supitsana Srithasan, Armin Lederer, Sandra Hirche(参考訳) 制御工学の手法がますます複雑なシステムに適用されるにつれて、システム識別のためのデータ駆動アプローチは、物理に基づくモデリングに代わる有望な選択肢として現れる。 安全クリティカルな用途に一般的なベイズ的アプローチは、通常、状態測定の可用性に依存しているが、複雑なシステムの状態は直接測定できないことが多い。 その後、ダイナミクスと潜在状態の同時推定が必要となり、不確かさの定量化と正式な性能保証を備えたコントローラの設計が大幅に困難になる。 本稿では, 粒子マルコフ連鎖モンテカルロ法とシナリオ理論を組み合わせた, 潜在状態を持つ未知の非線形系に対する最適入力軌道の計算法を提案する。 入力軌道に対して確率的性能保証が導出され、任意の制御則の性能を検証するアプローチが提示される。 提案手法の有効性を数値シミュレーションにより検証した。

As control engineering methods are applied to increasingly complex systems, data-driven approaches for system identification appear as a promising alternative to physics-based modeling. While the Bayesian approaches prevalent for safety-critical applications usually rely on the availability of state measurements, the states of a complex system are often not directly measurable. It may then be necessary to jointly estimate the dynamics and the latent state, making the quantification of uncertainties and the design of controllers with formal performance guarantees considerably more challenging. This paper proposes a novel method for the computation of an optimal input trajectory for unknown nonlinear systems with latent states based on a combination of particle Markov chain Monte Carlo methods and scenario theory. Probabilistic performance guarantees are derived for the resulting input trajectory, and an approach to validate the performance of arbitrary control laws is presented. The effectiveness of the proposed method is demonstrated in a numerical simulation.
翻訳日:2023-11-08 19:43:26 公開日:2023-11-07
# 符号化による最適化:再正規化群の観点から

Optimisation via encodings: a renormalisation group perspective ( http://arxiv.org/abs/2303.16258v2 )

ライセンス: Link先を確認
Konstantin Klemm and Anita Mehta and Peter F. Stadler(参考訳) 特にNP完全性の難しい最適化問題は、伝統的に探索ヒューリスティックスを用いて解く。 通常これらは、地元のミニマが探索プロセスを停止するため、遭遇した荒れ果てた風景によって遅くなる。 カバーエンコーディングマップは、元の風景を局所的な極小ではなく、最適に近い解で豊かにすることで、この問題を回避するために考案された。 定義上、これらは元の(より大きい)探索空間をより小さな部分空間にマッピングすることであり、通常粗粒化の形式に等しい過程によって行われる。 本稿では,この粗粒化の詳細を形式的議論と,解析的にも計算的にも検討された被覆符号化マップの具体例を用いて検討する。 その結果,カバーエンコーディングマップの粗粒化は,再正規化グループスキームで発生する粗粒化と強く類似していることが示唆された。 これら2つの形式主義の明らかに異なる性質を考えると、これらの強い類似性はむしろ驚くべきものであり、さらなる探検を待つ深い数学的基礎を示唆する。

Difficult, in particular NP-complete, optimization problems are traditionally solved approximately using search heuristics. These are usually slowed down by the rugged landscapes encountered, because local minima arrest the search process. Cover-encoding maps were devised to circumvent this problem by transforming the original landscape to one that is free of local minima and enriched in near-optimal solutions. By definition, these involve the mapping of the original (larger) search space into smaller subspaces, by processes that typically amount to a form of coarse-graining. In this paper, we explore the details of this coarse-graining using formal arguments, as well as concrete examples of cover-encoding maps, that are investigated analytically as well as computationally. Our results strongly suggest that the coarse-graining involved in cover-encoding maps bears a strong resemblance to that encountered in renormalisation group schemes. Given the apparently disparate nature of these two formalisms, these strong similarities are rather startling, and suggest deep mathematical underpinnings that await further exploration.
翻訳日:2023-11-08 19:43:12 公開日:2023-11-07
# 論理推論における言語モデルを支援する明示的計画法

Explicit Planning Helps Language Models in Logical Reasoning ( http://arxiv.org/abs/2303.15714v4 )

ライセンス: Link先を確認
Hongyu Zhao, Kangrui Wang, Mo Yu, Hongyuan Mei(参考訳) 言語モデルは、幅広い自然言語処理タスクで驚くほどよく機能することが示されている。 本稿では,言語モデルを用いて多段階論理推論を行い,推論手順に明示的な計画を取り込む新しいシステムであるleapを提案する。 明示的な計画により、システムは将来の効果を見据えて、各ステップでより深い推論決定を行うことができる。 さらに,計画プロセスがスプリアスな特徴によって引き起こされるのを防止できるトレーニング戦略を提案する。 当社の全システムは、複数の標準データセットで競合する他のメソッドを大幅に上回っています。 小型T5モデルをコア選択および導出成分として使用する場合,約1Bパラメータ(GPT-3の175倍小さい)を持つにもかかわらず,GPT-3と比較して競合的に動作する。 GPT-3.5を使用する場合、挑戦的なPrOntoQAデータセットにおいて、チェーン・オブ・シークレットを著しく上回る。 我々は,システムの性能において明示的な計画が重要な役割を担っていることを示すために,広範な実証研究を行った。

Language models have been shown to perform remarkably well on a wide range of natural language processing tasks. In this paper, we propose LEAP, a novel system that uses language models to perform multi-step logical reasoning and incorporates explicit planning into the inference procedure. Explicit planning enables the system to make more informed reasoning decisions at each step by looking ahead into their future effects. Moreover, we propose a training strategy that safeguards the planning process from being led astray by spurious features. Our full system significantly outperforms other competing methods on multiple standard datasets. When using small T5 models as its core selection and deduction components, our system performs competitively compared to GPT-3 despite having only about 1B parameters (i.e., 175 times smaller than GPT-3). When using GPT-3.5, it significantly outperforms chain-of-thought prompting on the challenging PrOntoQA dataset. We have conducted extensive empirical studies to demonstrate that explicit planning plays a crucial role in the system's performance.
翻訳日:2023-11-08 19:42:55 公開日:2023-11-07
# コラボレーションAIの根と要件

Roots and Requirements for Collaborative AIs ( http://arxiv.org/abs/2303.12040v5 )

ライセンス: Link先を確認
Mark Stefik(参考訳) AI協力者のビジョンは神話とSFの基礎であり、特別な才能を持つ人工エージェントが人間のパートナーやチームを支援する。 この夢では、高度なAIはコラボレーションと人間のコミュニケーションのニュアンスを理解する。 コラボレーションの夢としてのAIは、人間の知性(IA)を増強するコンピュータツールや、中間的な人間のコラボレーションとは異なる。 このようなツールは1960年代に起源を持ち、情報技術革命の推進に寄与した。 役に立ちますが、知的ではなく、熟練した人々ほど効果的に協力しません。 新型コロナウイルス(COVID-19)のパンデミック以降のハイブリッドワークとリモートワークの増加に伴い、より良いコーディネーション、コラボレーション、コミュニケーションのためのメリットと要件が職場でホットな話題になりつつある。 雇用主と労働者は、在宅勤務とオフィス勤務の選択肢を交渉するときに、選択とトレードオフに直面します。 雇用主の近くの住宅の高コストなど多くの要因がオフィスへの大量復帰を妨げている。 AIの政府諮問グループとリーダーは、AIは透明で効果的な協力者であるべきだと長年主張してきた。 それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。 AIチームメイトはソリューションの一部か? 人工的な知性(AI)はどの程度あるべきか? このポジションペーパーは、人間と機械のチームづくりのための技術と公共の要求の弧を概観する。 心理学や社会科学において、人間のようなコラボレーションが必要とするものについて研究している。 本稿では、レジリエンス、インテリジェント、および人間と互換性のあるAIを作成するための技術と方法論の急激なシフトを提唱する第2の科学主導の論文(Stefik & Price, 2023)のコンテキストを設定する。 願望的な目標は、そのようなAIが学び、学んだことを共有し、高い能力を達成するために協力することだ。

The vision of AI collaborators is a staple of mythology and science fiction, where artificial agents with special talents assist human partners and teams. In this dream, sophisticated AIs understand nuances of collaboration and human communication. The AI as collaborator dream is different from computer tools that augment human intelligence (IA) or intermediate human collaboration. Such tools have their roots in the 1960s and helped to drive an information technology revolution. They can be useful but they are not intelligent and do not collaborate as effectively as skilled people. With the increase of hybrid and remote work since the COVID pandemic, the benefits and requirements for better coordination, collaboration, and communication are becoming a hot topic in the workplace. Employers and workers face choices and trade-offs as they negotiate the options for working from home versus working at the office. Many factors such as the high costs of homes near employers are impeding a mass return to the office. Government advisory groups and leaders in AI have advocated for years that AIs should be transparent and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. Are AI teammates part of a solution? How artificially intelligent (AI) could and should they be? This position paper reviews the arc of technology and public calls for human-machine teaming. It draws on earlier research in psychology and the social sciences about what human-like collaboration requires. This paper sets a context for a second science-driven paper that advocates a radical shift in technology and methodology for creating resilient, intelligent, and human-compatible AIs (Stefik & Price, 2023). The aspirational goal is that such AIs would learn, share what they learn, and collaborate to achieve high capabilities.
翻訳日:2023-11-08 19:42:38 公開日:2023-11-07
# 失認者再確認のための消去・変換・通知防御ネットワーク

Erasing, Transforming, and Noising Defense Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2307.07187v2 )

ライセンス: Link先を確認
Neng Dong, Liyan Zhang, Shuanglin Yan, Hao Tang and Jinhui Tang(参考訳) 排他的摂動は、人物の再識別(re-ID)において重大な課題を示し、外部の視覚的手がかりに依存する既存の手法では、追加の計算資源を必要とし、排他的情報の欠落の問題のみを考慮する。 本稿では, 騒音障害としてオクルージョンを扱い, 敵防御の観点から隠蔽された人物のre-IDを解消する, 消去, トランスフォーミング, 騒音防御ネットワーク (ETNDNet) という, シンプルで効果的なフレームワークを提案する。 提案するETNDNetでは,まず特徴マップをランダムに消去し,不完全な情報を持つ敵表現を生成する。 第2に,オクルージョンによる位置ずれをシミュレートするランダムな変換を導入し,抽出器と分類器を逆さまに訓練し,不整合情報に対する堅牢な表現を学習する。 第3に,障害物や非目標歩行者が導入した騒音情報に対処するために,ランダムな値で特徴マップを摂動させ,re-IDシステムにおいて敵ゲーミングを採用し,閉塞音に対する耐性を高める。 ETNDNetには3つの重要なハイライトがある。 (i)パラメータを持つ外部モジュールを一切必要としない。 (ii)障害物や非目標歩行者からの閉塞による諸問題を効果的に処理し、 三 隠蔽者再IDのための最初のGANベースの敵防衛パラダイムを設計する。 5つの公開データセットに対する大規模な実験は、提案したETNDNetの有効性、優位性、実用性を完全に証明している。 コードは \url{https://github.com/nengdong96/ETNDNet} でリリースされる。

Occlusion perturbation presents a significant challenge in person re-identification (re-ID), and existing methods that rely on external visual cues require additional computational resources and only consider the issue of missing information caused by occlusion. In this paper, we propose a simple yet effective framework, termed Erasing, Transforming, and Noising Defense Network (ETNDNet), which treats occlusion as a noise disturbance and solves occluded person re-ID from the perspective of adversarial defense. In the proposed ETNDNet, we introduce three strategies: Firstly, we randomly erase the feature map to create an adversarial representation with incomplete information, enabling adversarial learning of identity loss to protect the re-ID system from the disturbance of missing information. Secondly, we introduce random transformations to simulate the position misalignment caused by occlusion, training the extractor and classifier adversarially to learn robust representations immune to misaligned information. Thirdly, we perturb the feature map with random values to address noisy information introduced by obstacles and non-target pedestrians, and employ adversarial gaming in the re-ID system to enhance its resistance to occlusion noise. Without bells and whistles, ETNDNet has three key highlights: (i) it does not require any external modules with parameters, (ii) it effectively handles various issues caused by occlusion from obstacles and non-target pedestrians, and (iii) it designs the first GAN-based adversarial defense paradigm for occluded person re-ID. Extensive experiments on five public datasets fully demonstrate the effectiveness, superiority, and practicality of the proposed ETNDNet. The code will be released at \url{https://github.com/nengdong96/ETNDNet}.
翻訳日:2023-11-08 19:34:17 公開日:2023-11-07
# 生成逆数ネットワークのための動的マスク判別器

Dynamically Masked Discriminator for Generative Adversarial Networks ( http://arxiv.org/abs/2306.07716v2 )

ライセンス: Link先を確認
Wentian Zhang, Haozhe Liu, Bing Li, Jinheng Xie, Yawen Huang, Yuexiang Li, Yefeng Zheng, Bernard Ghanem(参考訳) GAN(Generative Adversarial Networks)のトレーニングは依然として難しい問題である。 判別器は、実データ分布を学習して生成器を訓練する。 しかし、生成したデータの分布はトレーニングプロセスを通して変化するため、判別者が学ぶことは困難である。 本稿では,オンライン連続学習の観点から,GANの新たな手法を提案する。 歴史的に生成されたデータに基づいて訓練された判別器モデルは、新しい到着したデータの変化への適応を遅くすることが多いため、結果の品質が低下する。 学習中に生成されたデータをストリームとして扱うことにより,識別者が生成したデータにおける新たな知識の学習を遅くするかどうかを検出する。 したがって、識別者が新しい知識を素早く学ぶように明示的に強制することができる。 特に,その遅延を自動的に検出し,その特徴を動的にマスキングする新たな識別器を提案する。 実験の結果,本手法は最先端手法よりも優れていた。

Training Generative Adversarial Networks (GANs) remains a challenging problem. The discriminator trains the generator by learning the distribution of real/generated data. However, the distribution of generated data changes throughout the training process, which is difficult for the discriminator to learn. In this paper, we propose a novel method for GANs from the viewpoint of online continual learning. We observe that the discriminator model, trained on historically generated data, often slows down its adaptation to the changes in the new arrival generated data, which accordingly decreases the quality of generated results. By treating the generated data in training as a stream, we propose to detect whether the discriminator slows down the learning of new knowledge in generated data. Therefore, we can explicitly enforce the discriminator to learn new knowledge fast. Particularly, we propose a new discriminator, which automatically detects its retardation and then dynamically masks its features, such that the discriminator can adaptively learn the temporally-vary distribution of generated data. Experimental results show our method outperforms the state-of-the-art approaches.
翻訳日:2023-11-08 19:33:34 公開日:2023-11-07
# シンプルで制御可能な音楽生成

Simple and Controllable Music Generation ( http://arxiv.org/abs/2306.05284v2 )

ライセンス: Link先を確認
Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre D\'efossez(参考訳) 我々は条件付き音楽生成の課題に取り組む。 我々は,圧縮された離散的音楽表現,すなわちトークンのストリームを運用する単一言語モデル (lm) である musicgen を紹介する。 以前の作業とは異なり、MusicGenはシングルステージトランスフォーマーLMと効率的なトークンインターリーブパターンで構成されており、階層化やアップサンプリングといったいくつかのモデルをカスケードする必要がなくなる。 このアプローチに従うと、MusicGenがモノとステレオの両方の高品質なサンプルを生成しながら、テキスト記述やメロディ的な特徴を条件にすることで、生成した出力をよりよく制御できることを示す。 提案手法が標準テキストから音楽へのベンチマークで評価されたベースラインよりも優れていることを示す。 アブレーション研究を通じて,MusicGenを構成する各コンポーネントの重要性に光を当てた。 音楽サンプル、コード、モデルはhttps://github.com/facebookresearch/audiocraftで入手できる。

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft
翻訳日:2023-11-08 19:33:20 公開日:2023-11-07
# アーキテクチャ非依存等分散に対する確率的対称性の学習

Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance ( http://arxiv.org/abs/2306.02866v2 )

ライセンス: Link先を確認
Jinwoo Kim, Tien Dat Nguyen, Ayhan Suleymanzade, Hyeokjun An, Seunghoon Hong(参考訳) 群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。 等変アーキテクチャとは対照的に、MLPや変圧器のような任意の基底モデルを用い、対称性化の根底にある確率分布をパラメータ化する小さな同変ネットワークを用いることで、与えられた群に同変であるようにシンメトリゼーションする。 分布は、対称性のサンプル複雑性を減らしながら、性能を最大化できるベースモデルで、エンドツーエンドで訓練される。 このアプローチは、与えられた群に同値なだけでなく、予想における普遍近似能力も確保できることを示す。 本手法は,事前学習された視覚トランスフォーマーから初期化可能なパッチベースのトランスフォーマーを含む様々なベースモデルに実装し,置換群とユークリッド群およびそれらの組合せを含む幅広い対称性群に対してテストを行う。 経験的テストは、調整された同変アーキテクチャに対する競合結果を示し、非等変ユニバーサルベースアーキテクチャを用いて多様な群に対する同変関数を学習する可能性を示している。 さらに,視覚などの非対称モダリティから事前学習した場合,グラフのような対称モダリティにおける強化学習の証拠を示す。 コードはhttps://github.com/jw9730/lpsで入手できる。

We present a novel framework to overcome the limitations of equivariant architectures in learning functions with group symmetries. In contrary to equivariant architectures, we use an arbitrary base model such as an MLP or a transformer and symmetrize it to be equivariant to the given group by employing a small equivariant network that parameterizes the probabilistic distribution underlying the symmetrization. The distribution is end-to-end trained with the base model which can maximize performance while reducing sample complexity of symmetrization. We show that this approach ensures not only equivariance to given group but also universal approximation capability in expectation. We implement our method on various base models, including patch-based transformers that can be initialized from pretrained vision transformers, and test them for a wide range of symmetry groups including permutation and Euclidean groups and their combinations. Empirical tests show competitive results against tailored equivariant architectures, suggesting the potential for learning equivariant functions for diverse groups using a non-equivariant universal base architecture. We further show evidence of enhanced learning in symmetric modalities, like graphs, when pretrained from non-symmetric modalities, like vision. Code is available at https://github.com/jw9730/lps.
翻訳日:2023-11-08 19:33:02 公開日:2023-11-07
# UMDFood:視覚言語モデルによって食品のコンポジションが向上

UMDFood: Vision-language models boost food composition compilation ( http://arxiv.org/abs/2306.01747v2 )

ライセンス: Link先を確認
Peihua Ma, Yixin Wu, Ning Yu, Yang Zhang, Michael Backes, Qin Wang, Cheng-I Wei(参考訳) 栄養情報は精密栄養と食品産業において重要である。 現在の食品構成のコンパイルパラダイムは、労力と経験に依存した方法に依存している。 しかし、これらの手法は動的消費者市場に追いつくのに苦労し、結果として栄養データが遅れて不完全な結果となった。 さらに、初期の機械学習手法は、食品成分ステートメントの情報を見落としたり、食品画像の特徴を無視したりする。 そこで本研究では,食品組成プロファイルを高精度に推定するために,パッケージ表ラベルと製品画像を用いた視覚言語モデルumdfood-vlを提案する。 モデルトレーニングの強化を目的として,画像およびテキストベースの成分記述と11種類の栄養アノテーションをラベル付けした89,533個のサンプルを含む,これまでで最も包括的なマルチモーダル食品データベースであるUDDFood-90kを構築した。 UMDFood-VLは, 既存の基準法よりも格段に高い脂肪量推定のマクロAUCROCを0.921まで達成し, 食品組成合成の実際的要件を満たす。 一方、化学分析結果とモデル推定結果の間の推定誤差の82.2%は10%以下である。 このパフォーマンスは、他の食品および栄養関連データコンパイルへの一般化と、パーソナライズを必要とする他の食品アプリケーションにおける生成AIベースの技術の進化への触媒化に光を当てている。

Nutrition information is crucial in precision nutrition and the food industry. The current food composition compilation paradigm relies on laborious and experience-dependent methods. However, these methods struggle to keep up with the dynamic consumer market, resulting in delayed and incomplete nutrition data. In addition, earlier machine learning methods overlook the information in food ingredient statements or ignore the features of food images. To this end, we propose a novel vision-language model, UMDFood-VL, using front-of-package labeling and product images to accurately estimate food composition profiles. In order to empower model training, we established UMDFood-90k, the most comprehensive multimodal food database to date, containing 89,533 samples, each labeled with image and text-based ingredient descriptions and 11 nutrient annotations. UMDFood-VL achieves the macro-AUCROC up to 0.921 for fat content estimation, which is significantly higher than existing baseline methods and satisfies the practical requirements of food composition compilation. Meanwhile, up to 82.2% of selected products' estimated error between chemical analysis results and model estimation results are less than 10%. This performance sheds light on generalization towards other food and nutrition-related data compilation and catalyzation for the evolution of generative AI-based technology in other food applications that require personalization.
翻訳日:2023-11-08 19:32:40 公開日:2023-11-07
# 高次相互作用のための相互作用測度、分割格子および核テスト

Interaction Measures, Partition Lattices and Kernel Tests for High-Order Interactions ( http://arxiv.org/abs/2306.00904v3 )

ライセンス: Link先を確認
Zhaolu Liu, Robert L. Peach, Pedro A.M. Mediano, and Mauricio Barahona(参考訳) 対関係にのみ依存するモデルは、社会経済、生態学、生物医学システムなど、様々な領域で見られる複雑な多変量データの完全な統計構造を捉えることができないことが多い。 2つ以上の変数からなるグループ間の非自明な依存関係は、そのようなシステムの分析とモデリングにおいて重要な役割を果たすが、データからそのような高次相互作用を抽出することは依然として困難である。 ここでは、d$-order (d \geq 2$) 相互作用測度の階層を導入し、ジョイント確率分布の可能な因子化をますます包含し、非パラメトリックなカーネルベースのテストを定義し、d$-order相互作用の統計的意義を体系的に確立する。 また、相互作用測度とその複合置換試験の導出を解明する格子理論との数学的関係を確立し、単純錯体とカーネル行列遠心率の関連を明らかにするとともに、計算効率を高める手段を提供する。 本研究は,合成データおよび神経画像データへの応用により,数値的に結果を示す。

Models that rely solely on pairwise relationships often fail to capture the complete statistical structure of the complex multivariate data found in diverse domains, such as socio-economic, ecological, or biomedical systems. Non-trivial dependencies between groups of more than two variables can play a significant role in the analysis and modelling of such systems, yet extracting such high-order interactions from data remains challenging. Here, we introduce a hierarchy of $d$-order ($d \geq 2$) interaction measures, increasingly inclusive of possible factorisations of the joint probability distribution, and define non-parametric, kernel-based tests to establish systematically the statistical significance of $d$-order interactions. We also establish mathematical links with lattice theory, which elucidate the derivation of the interaction measures and their composite permutation tests; clarify the connection of simplicial complexes with kernel matrix centring; and provide a means to enhance computational efficiency. We illustrate our results numerically with validations on synthetic data, and through an application to neuroimaging data.
翻訳日:2023-11-08 19:32:19 公開日:2023-11-07
# 拡散反転チェーンの整列化による実世界画像の変動

Real-World Image Variation by Aligning Diffusion Inversion Chain ( http://arxiv.org/abs/2305.18729v3 )

ライセンス: Link先を確認
Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia(参考訳) 近年の拡散モデルの発展により,テキストプロンプトによる高忠実度画像の生成が可能になった。 しかし、生成された画像と実世界の画像の間にドメインギャップが存在し、実世界の画像の高品質なバリエーションを生成することが困難となる。 この領域のギャップは、異なる拡散過程における潜伏者の分布ギャップに由来することが判明した。 そこで本研究では,拡散モデルを用いて1つの画像から画像変動を生成する,実世界画像変動アライメント(rival)と呼ばれる新しい推定パイプラインを提案する。 当社のパイプラインでは,画像生成プロセスをソース画像の反転チェーンに合わせることにより,画像変動の生成品質を向上させる。 具体的には, ステップワイズ潜在分布アライメントが高品質な変動生成に不可欠であることを実証する。 これを実現するために、機能相互作用のためのクロスイメージ自己注意注入と、遅延特徴を整合させるためにステップワイズ分布正規化を設計する。 これらのアライメントプロセスを拡散モデルに組み込むことで、ライバルはさらなるパラメータ最適化なしに高品質な画像変動を生成することができる。 提案手法は意味的類似性や知覚的品質に関する既存手法よりも優れていることを示す。 この一般化推論パイプラインは、画像条件付きテキスト・ツー・イメージ生成やスタイリングなど、他の拡散ベースの生成タスクにも容易に適用できる。

Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods concerning semantic similarity and perceptual quality. This generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and stylization.
翻訳日:2023-11-08 19:31:14 公開日:2023-11-07
# NeuManifold: 効率的かつ高品質なレンダリング支援によるニューラルウォータータイトマニフォールド再構成

NeuManifold: Neural Watertight Manifold Reconstruction with Efficient and High-Quality Rendering Support ( http://arxiv.org/abs/2305.17134v2 )

ライセンス: Link先を確認
Xinyue Wei, Fanbo Xiang, Sai Bi, Anpei Chen, Kalyan Sunkavalli, Zexiang Xu, Hao Su(参考訳) マルチビュー入力画像から高品質な水密多様体メッシュを生成する手法を提案する。 既存のボリュームレンダリング手法は最適化には堅牢だが、トポロジに乏しいノイズの多いメッシュを生成する傾向がある。 異なるラスタライゼーションに基づく手法は高品質なメッシュを生成することができるが、初期化に敏感である。 本手法は両世界の利点を組み合わせ, ニューラル体積場から得られる幾何初期化を考慮し, さらに, ラスタライザを用いたコンパクトなニューラルテクスチャ表現を最適化する。 広範な実験により,従来のボリュームレンダリング法に匹敵する忠実な外観のメッシュ再構成を,レンダリングの桁違いな速度で生成できることを実証した。 また、生成したメッシュとニューラルテクスチャの再構成が既存のグラフィックスパイプラインと互換性があることを示し、シミュレーションのような下流3Dアプリケーションを可能にする。 プロジェクトページ: https://sarahweiii.github.io/neumanifold/

We present a method for generating high-quality watertight manifold meshes from multi-view input images. Existing volumetric rendering methods are robust in optimization but tend to generate noisy meshes with poor topology. Differentiable rasterization-based methods can generate high-quality meshes but are sensitive to initialization. Our method combines the benefits of both worlds; we take the geometry initialization obtained from neural volumetric fields, and further optimize the geometry as well as a compact neural texture representation with differentiable rasterizers. Through extensive experiments, we demonstrate that our method can generate accurate mesh reconstructions with faithful appearance that are comparable to previous volume rendering methods while being an order of magnitude faster in rendering. We also show that our generated mesh and neural texture reconstruction is compatible with existing graphics pipelines and enables downstream 3D applications such as simulation. Project page: https://sarahweiii.github.io/neumanifold/
翻訳日:2023-11-08 19:30:49 公開日:2023-11-07
# 確率生成関数による離散モデルに関する厳密なベイズ推論:確率的プログラミングアプローチ

Exact Bayesian Inference on Discrete Models via Probability Generating Functions: A Probabilistic Programming Approach ( http://arxiv.org/abs/2305.17058v3 )

ライセンス: Link先を確認
Fabian Zaiser, Andrzej S. Murawski, Luke Ong(参考訳) 離散統計モデルに対する正確なベイズ推定法を提案する。これは無限サポートや連続前置法であっても、大きな離散推論問題のクラスに対する厳密な解を見つけることができる。 このようなモデルを表現するために、離散かつ連続的なサンプリング、離散観測、アフィン関数、(確率的な)分岐、離散事象の条件付けをサポートする確率的プログラミング言語を導入する。 我々の鍵となるツールは確率生成関数であり、プログラムによって定義可能な分布のコンパクトな閉形式表現を提供し、後確率、期待、分散、より高いモーメントの正確な計算を可能にする。 この推論手法は自動微分(特にテイラー多項式)を用いるgenferと呼ばれるツールで証明可能かつ完全自動化されているが、計算機代数は必要ない。 我々の実験は、Genferが既存の正確な推論ツールであるPSI、Dice、Prodigyよりも高速であることを示している。 これらの正確なツールが解決できない様々な現実世界の推論問題において、genferのパフォーマンスは近似誤差を避けつつ近似モンテカルロ法と競合している。

We present an exact Bayesian inference method for discrete statistical models, which can find exact solutions to a large class of discrete inference problems, even with infinite support and continuous priors. To express such models, we introduce a probabilistic programming language that supports discrete and continuous sampling, discrete observations, affine functions, (stochastic) branching, and conditioning on discrete events. Our key tool is probability generating functions: they provide a compact closed-form representation of distributions that are definable by programs, thus enabling the exact computation of posterior probabilities, expectation, variance, and higher moments. Our inference method is provably correct and fully automated in a tool called Genfer, which uses automatic differentiation (specifically, Taylor polynomials), but does not require computer algebra. Our experiments show that Genfer is often faster than the existing exact inference tools PSI, Dice, and Prodigy. On a range of real-world inference problems that none of these exact tools can solve, Genfer's performance is competitive with approximate Monte Carlo methods, while avoiding approximation errors.
翻訳日:2023-11-08 19:30:34 公開日:2023-11-07
# DealMVC:マルチビュークラスタリングのためのデュアルコントラスト校正

DealMVC: Dual Contrastive Calibration for Multi-view Clustering ( http://arxiv.org/abs/2308.09000v3 )

ライセンス: Link先を確認
Xihong Yang, Jiaqi Jin, Siwei Wang, Ke Liang, Yue Liu, Yi Wen, Suyuan Liu, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) 強い視点と一貫性のある情報マイニング能力により、マルチビューコントラストクラスタリングは近年多くの注目を集めている。 しかし,クラスタ化性能のさらなる向上を阻害する,以下の欠点を考察する。 既存のマルチビューモデルは、クロスビューシナリオにおける類似しているが異なるサンプルの状況を無視しながら、異なるビューにおける同じサンプルの一貫性に重点を置いている。 そこで本研究では,マルチビュークラスタリング(DealMVC)のための新しいDualコントラストキャリブレーションネットワークを提案する。 具体的には,まずグローバルクロスビュー機能を得るために融合機構を設計する。 次に、ビュー特徴類似度グラフと高信頼擬似ラベルグラフとを整合させることにより、グローバルコントラスト校正損失を提案する。 さらに,多視点情報の多様性を生かして,一対的視点の特徴の一貫性を制約した局所的なコントラストキャリブレーション損失を提案する。 機能構造は信頼できるクラス情報によって規則化されるため、類似したサンプルが異なるビューで類似した機能を持つことが保証される。 トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。 他の最先端手法と比較して、8つのベンチマークデータセットから得られた総合的な実験結果は、我々のアルゴリズムの有効性と優越性をかなり検証する。 DealMVCのコードはGitHubでhttps://github.com/xihongyang 1999/DealMVCで公開しています。

Benefiting from the strong view-consistent information mining capacity, multi-view contrastive clustering has attracted plenty of attention in recent years. However, we observe the following drawback, which limits the clustering performance from further improvement. The existing multi-view models mainly focus on the consistency of the same samples in different views while ignoring the circumstance of similar but different samples in cross-view scenarios. To solve this problem, we propose a novel Dual contrastive calibration network for Multi-View Clustering (DealMVC). Specifically, we first design a fusion mechanism to obtain a global cross-view feature. Then, a global contrastive calibration loss is proposed by aligning the view feature similarity graph and the high-confidence pseudo-label graph. Moreover, to utilize the diversity of multi-view information, we propose a local contrastive calibration loss to constrain the consistency of pair-wise view features. The feature structure is regularized by reliable class information, thus guaranteeing similar samples have similar features in different views. During the training procedure, the interacted cross-view feature is jointly optimized at both local and global levels. In comparison with other state-of-the-art approaches, the comprehensive experimental results obtained from eight benchmark datasets provide substantial validation of the effectiveness and superiority of our algorithm. We release the code of DealMVC at https://github.com/xihongyang1999/DealMVC on GitHub.
翻訳日:2023-11-08 19:22:29 公開日:2023-11-07
# TPTU:タスクプランニングとツール使用のための大規模言語モデルベースAIエージェント

TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage ( http://arxiv.org/abs/2308.03427v3 )

ライセンス: Link先を確認
Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao(参考訳) 近年の自然言語処理の進歩により、Large Language Models (LLM) は様々な現実世界のアプリケーションのための強力なツールとして登場した。 それらの長所にもかかわらず、LLMの本質的な生成能力は、タスク計画と外部ツールの使用を必要とする複雑なタスクを扱うには不十分である。 本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案し,複雑な問題に対処するために必要な重要な機能について議論する。 このフレームワーク内では、推論プロセスを実行するために2つの異なるタイプのエージェント(すなわち、ワンステップエージェントとシーケンシャルエージェント)を設計する。 その後、様々なLCMを用いてフレームワークをインスタンス化し、典型的なタスクにおけるタスク計画とツール利用(TPTU)能力を評価する。 私たちのゴールは、重要な発見と課題を強調することで、研究者や実践者がAIアプリケーションでLLMのパワーを活用する上で有用なリソースを提供することです。 本研究は,これらのモデルの有効性を強調し,さらなる調査と改善を必要とする領域を特定する。

With recent advancements in natural language processing, Large Language Models (LLMs) have emerged as powerful tools for various real-world applications. Despite their prowess, the intrinsic generative abilities of LLMs may prove insufficient for handling complex tasks which necessitate a combination of task planning and the usage of external tools. In this paper, we first propose a structured framework tailored for LLM-based AI Agents and discuss the crucial capabilities necessary for tackling intricate problems. Within this framework, we design two distinct types of agents (i.e., one-step agent and sequential agent) to execute the inference process. Subsequently, we instantiate the framework using various LLMs and evaluate their Task Planning and Tool Usage (TPTU) abilities on typical tasks. By highlighting key findings and challenges, our goal is to provide a helpful resource for researchers and practitioners to leverage the power of LLMs in their AI applications. Our study emphasizes the substantial potential of these models, while also identifying areas that need more investigation and improvement.
翻訳日:2023-11-08 19:22:06 公開日:2023-11-07
# EMAのスケール方法

How to Scale Your EMA ( http://arxiv.org/abs/2307.13813v3 )

ライセンス: Link先を確認
Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb(参考訳) バッチサイズ間のトレーニングダイナミクスを維持することは、バッチサイズとウォールクロック時間のトレードオフを可能にするため、実用的な機械学習にとって重要なツールである。 このトレードオフは通常、例えば確率的勾配勾配勾配において、バッチサイズと線形に学習率をスケールするスケーリングルールによって実現される。 もうひとつの重要な機械学習ツールは、運動量ハイパーパラメータによってパラメータ化されたレートで指数移動平均(ema)に従ってパラメータがターゲットモデルに移動する、ターゲットモデルの機能的コピーであるmodel emaである。 このモデルEMAは、教師付き学習の堅牢性と一般化を改善し、擬似ラベルを安定化させ、自己監督学習(SSL)のための学習信号を提供する。 以前の作業では、スケーリングを行う際のモデルemaの最適化を考慮していなかったため、バッチサイズとモデルパフォーマンスの低下によるトレーニングダイナミクスが異なっていた。 本研究では,モデルEMAの存在下での最適化のためのスケーリングルールを提供し,その妥当性をアーキテクチャ,最適化器,データモダリティの範囲で示す。 また、モデルEMAがターゲットモデルの最適化に寄与するルールの有効性を示し、EMAベースの擬似ラベルとSSLメソッドを小規模かつ大規模なバッチサイズで訓練することを可能にする。 SSLでは,性能を犠牲にすることなく,バッチサイズ24,576までのBYOLのトレーニングを可能にする。

Preserving training dynamics across batch sizes is an important tool for practical machine learning as it enables the trade-off between batch size and wall-clock time. This trade-off is typically enabled by a scaling rule, for example, in stochastic gradient descent, one should scale the learning rate linearly with the batch size. Another important machine learning tool is the model EMA, a functional copy of a target model, whose parameters move towards those of its target model according to an Exponential Moving Average (EMA) at a rate parameterized by a momentum hyperparameter. This model EMA can improve the robustness and generalization of supervised learning, stabilize pseudo-labeling, and provide a learning signal for Self-Supervised Learning (SSL). Prior works have not considered the optimization of the model EMA when performing scaling, leading to different training dynamics across batch sizes and lower model performance. In this work, we provide a scaling rule for optimization in the presence of a model EMA and demonstrate the rule's validity across a range of architectures, optimizers, and data modalities. We also show the rule's validity where the model EMA contributes to the optimization of the target model, enabling us to train EMA-based pseudo-labeling and SSL methods at small and large batch sizes. For SSL, we enable training of BYOL up to batch size 24,576 without sacrificing performance, a 6$\times$ wall-clock time reduction under idealized hardware settings.
翻訳日:2023-11-08 19:21:50 公開日:2023-11-07
# FedMEKT:マルチモーダル・フェデレート学習のための蒸留型埋め込み知識伝達

FedMEKT: Distillation-based Embedding Knowledge Transfer for Multimodal Federated Learning ( http://arxiv.org/abs/2307.13214v2 )

ライセンス: Link先を確認
Huy Q. Le, Minh N. H. Nguyen, Chu Myaet Thwal, Yu Qiao, Chaoning Zhang, and Choong Seon Hong(参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートデータを共有せずに、汎用グローバルモデルを共同でトレーニングするための分散機械学習パラダイムを可能にする。 既存の作品の多くは単にシングルモーダルデータのための典型的なflシステムを提案し、将来のパーソナライズされたアプリケーションのために価値のあるマルチモーダルデータを利用する可能性を制限する。 さらに、flアプローチの大部分はクライアント側のラベル付きデータに依存しており、ユーザからの自己注釈ができないため、現実世界のアプリケーションでは制限されている。 これらの制約を考慮し,様々なモダリティから表現を活用すべく,半教師付き学習アプローチを用いた新しいマルチモーダルFLフレームワークを提案する。 そこで我々は,この概念をシステムに持ち込むことで,小規模のマルチモーダルプロキシデータセットから抽出した学習モデルの共有知識をサーバとクライアントが交換できる,蒸留ベースのマルチモーダル埋め込み知識伝達機構feedmektを開発した。 当社のfeedmektは,汎用的なグローバルエンコーダを,参加者のクライアントによる統合組み込み知識によって反復的に更新する。 これにより、既存のFLシステムにおけるモダリティの相違やラベル付きデータ制約に対処するため、FedMEKTは局所的なマルチモーダルオートエンコーダ学習、一般化されたマルチモーダルオートエンコーダ構築、一般化された分類器学習を含む。 3つのマルチモーダルなヒューマンアクティビティ認識データセットに関する広範な実験を通じて、FedMEKTは線形評価において優れたグローバルエンコーダ性能を実現し、他のベースラインよりも通信コストの少ない個人データやモデルパラメータのユーザプライバシを保証することを実証した。

Federated learning (FL) enables a decentralized machine learning paradigm for multiple clients to collaboratively train a generalized global model without sharing their private data. Most existing works simply propose typical FL systems for single-modal data, thus limiting its potential on exploiting valuable multimodal data for future personalized applications. Furthermore, the majority of FL approaches still rely on the labeled data at the client side, which is limited in real-world applications due to the inability of self-annotation from users. In light of these limitations, we propose a novel multimodal FL framework that employs a semi-supervised learning approach to leverage the representations from different modalities. Bringing this concept into a system, we develop a distillation-based multimodal embedding knowledge transfer mechanism, namely FedMEKT, which allows the server and clients to exchange the joint knowledge of their learning models extracted from a small multimodal proxy dataset. Our FedMEKT iteratively updates the generalized global encoders with the joint embedding knowledge from the participating clients. Thereby, to address the modality discrepancy and labeled data constraint in existing FL systems, our proposed FedMEKT comprises local multimodal autoencoder learning, generalized multimodal autoencoder construction, and generalized classifier learning. Through extensive experiments on three multimodal human activity recognition datasets, we demonstrate that FedMEKT achieves superior global encoder performance on linear evaluation and guarantees user privacy for personal data and model parameters while demanding less communication cost than other baselines.
翻訳日:2023-11-08 19:21:24 公開日:2023-11-07
# techno-utopians, scammers, bullshitters: オペレーターとベンチャーキャピタルの投資家によるweb3とブロックチェーン技術の約束と危機

Techno-Utopians, Scammers, and Bullshitters: The Promise and Peril of Web3 and Blockchain Technologies According to Operators and Venture Capital Investors ( http://arxiv.org/abs/2307.10222v2 )

ライセンス: Link先を確認
Amy A. Winecoff and Johannes Lenhard(参考訳) Web3とブロックチェーンの支持者や開発者は、これらの技術が個人に権限を与え、意思決定力を分配することで、人々の生活と働き方に革命をもたらすと主張している。 技術者はしばしば、彼らの技術が長期的に達成することを期待していますが、現在の制約の中でシステムを開発、スケーリング、保守するという実践的な課題は、このビジョンへの進歩を損ないます。 技術者は、自分たちの望む技術的未来をどのように考え、日々の問題をナビゲートするかが、テクノロジーがもたらす形態、潜在的な利益、潜在的な害に影響を与える。 現在の作業では、Web3とブロックチェーンテクノロジストのビジョンを探求し、彼らのビジョンを脅かす可能性のある、直接的な課題を特定しました。 我々は、Web3およびブロックチェーン分野の29のオペレーターおよびプロフェッショナル投資家と半構造化インタビューを行った。 この結果から, 分散化は, ユーザの自律性の実現, 統治力の分散, 財務的包摂性を促進する重要なメカニズムであることが明らかとなった。 しかし参加者は、迅速な技術開発の必要性、プラットフォームファイナンスダイナミクスによる利害対立、"Web3倫理"を共有しないメインストリームユーザへの拡大といった、これらの約束を果たす上での実践的な困難を認めている。 交渉が効果的でない場合、これらの課題は、腐敗した統治、不平等の増加、詐欺や疑わしい投資スキームの流行の増加といったネガティブな結果につながる可能性がある。 参加者は、教育、規制、および元のブロックチェーンイデアルに対する新たなコミットメントがいくつかの問題を緩和できると考えたが、これらのソリューションの可能性について懐疑的だった。

Proponents and developers of Web3 and blockchain argue that these technologies can revolutionize how people live and work by empowering individuals and distributing decision-making power. While technologists often have expansive hopes for what their technologies will accomplish over the long term, the practical challenges of developing, scaling, and maintaining systems amidst present-day constraints can compromise progress toward this vision. How technologists think about the technological future they hope to enable and how they navigate day-to-day issues impacts the form technologies take, their potential benefits, and their potential harms. In our current work, we aimed to explore the visions of Web3 and blockchain technologists and identify the immediate challenges that could threaten their visions. We conducted semi-structured interviews with 29 operators and professional investors in the Web3 and blockchain field. Our findings revealed that participants supported several ideological goals for their projects, with decentralization being a pivotal mechanism to enable user autonomy, distribute governance power, and promote financial inclusion. However, participants acknowledged the practical difficulties in fulfilling these promises, including the need for rapid technology development, conflicts of interest among stakeholders due to platform financing dynamics, and the challenge of expanding to mainstream users who may not share the "Web3 ethos." If negotiated ineffectively, these challenges could lead to negative outcomes, such as corrupt governance, increased inequality, and increased prevalence of scams and dubious investment schemes. While participants thought education, regulation, and a renewed commitment to the original blockchain ideals could alleviate some problems, they expressed skepticism about the potential of these solutions.
翻訳日:2023-11-08 19:20:55 公開日:2023-11-07
# 反事実境界の効率的な計算

Efficient Computation of Counterfactual Bounds ( http://arxiv.org/abs/2307.08304v2 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas and David Huber and Dario Azzimonti(参考訳) 我々は、有向非巡回グラフ、すなわち構造因果モデルを誘導する離散変数に対する構造方程式と、その内部ノードに関するデータとを仮定する。 私たちが答えたい質問は、そのような入力から部分的に識別可能な偽のクエリの境界を計算する方法です。 まず、構造的なカジュアルモデルからクレダルネットワークへのマップを提供することから始めます。 これにより、構造因果モデルのサブクラスにおけるクレダルネットのアルゴリズムによって、正確な反ファクト境界を計算することができる。 因果推論がポリツリー上でもNPハードであることを考えると、厳密な計算は一般に非効率である。 次に、因果EMスキームを用いて近似境界を求める。 近似のクオリティについて信頼性の高い間隔を提供することで精度を評価するとともに、emスキームがかなりの数のランで正確な結果をもたらすことを合成ベンチマークで示す。 議論の過程では、反事実境界は構造方程式の知識なしに計算できるというトレンドのアイデアに対する無視された制限が指摘される。 また,我々のアルゴリズムが実用的用途にどのように利用できるかを示すために,緩和ケアに関する実際のケーススタディも提示する。

We assume to be given structural equations over discrete variables inducing a directed acyclic graph, namely, a structural causal model, together with data about its internal nodes. The question we want to answer is how we can compute bounds for partially identifiable counterfactual queries from such an input. We start by giving a map from structural casual models to credal networks. This allows us to compute exact counterfactual bounds via algorithms for credal nets on a subclass of structural causal models. Exact computation is going to be inefficient in general given that, as we show, causal inference is NP-hard even on polytrees. We target then approximate bounds via a causal EM scheme. We evaluate their accuracy by providing credible intervals on the quality of the approximation; we show through a synthetic benchmark that the EM scheme delivers accurate results in a fair number of runs. In the course of the discussion, we also point out what seems to be a neglected limitation to the trending idea that counterfactual bounds can be computed without knowledge of the structural equations. We also present a real case study on palliative care to show how our algorithms can readily be used for practical purposes.
翻訳日:2023-11-08 19:20:24 公開日:2023-11-07
# 文化的視点の前提としての大規模言語モデル

Large Language Models as Superpositions of Cultural Perspectives ( http://arxiv.org/abs/2307.07870v3 )

ライセンス: Link先を確認
Grgur Kova\v{c}, Masataka Sawayama, R\'emy Portelas, C\'edric Colas, Peter Ford Dominey, Pierre-Yves Oudeyer(参考訳) 大きな言語モデル(LLM)は、しばしば個性や値の集合を持つものとして誤解を招く。 LLMは、異なる価値観と性格特性を持つ視点の重ね合わせとみなすことができる。 LLMは、文脈に依存した価値観と人格特性を示す(人間とは対照的に、コンテキスト間でより一貫性のある価値観と人格特性を持つ傾向がある)。 本稿では,異なる価値観と性格特性を持つ様々な視点を取り入れるためのモデルとして,視点制御可能性の概念を紹介する。 実験では,心理学(PVQ,VSM,IPIP)の質問紙を用いて,様々な視点から評価値と性格特性がどう変化するかを検討した。 質的実験により,プロンプトに(単純にあるいは明示的に)意味がある場合,llm が異なる値を示すこと,また,(文脈に依存しない)意味を示さない場合であっても llm が異なる値を示すことを示す。 次に、異なるモデルの可制御性(GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM)、視点を誘導する様々な方法の有効性、モデルの乾燥性について定量的に検討する。 我々は、我々の研究のより広範な意味を調べ、様々な科学的疑問を概説する。 プロジェクトのwebサイトはhttps://sites.google.com/view/llm-superpositionsで入手できる。

Large Language Models (LLMs) are often misleadingly recognized as having a personality or a set of values. We argue that an LLM can be seen as a superposition of perspectives with different values and personality traits. LLMs exhibit context-dependent values and personality traits that change based on the induced perspective (as opposed to humans, who tend to have more coherent values and personality traits across contexts). We introduce the concept of perspective controllability, which refers to a model's affordance to adopt various perspectives with differing values and personality traits. In our experiments, we use questionnaires from psychology (PVQ, VSM, IPIP) to study how exhibited values and personality traits change based on different perspectives. Through qualitative experiments, we show that LLMs express different values when those are (implicitly or explicitly) implied in the prompt, and that LLMs express different values even when those are not obviously implied (demonstrating their context-dependent nature). We then conduct quantitative experiments to study the controllability of different models (GPT-4, GPT-3.5, OpenAssistant, StableVicuna, StableLM), the effectiveness of various methods for inducing perspectives, and the smoothness of the models' drivability. We conclude by examining the broader implications of our work and outline a variety of associated scientific questions. The project website is available at https://sites.google.com/view/llm-superpositions .
翻訳日:2023-11-08 19:20:05 公開日:2023-11-07
# think-on-graph:知識グラフによる大規模言語モデルの深く責任ある推論

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph ( http://arxiv.org/abs/2307.07697v4 )

ライセンス: Link先を確認
Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Lionel M. Ni, Heung-Yeung Shum, Jian Guo(参考訳) 大規模言語モデル(llm)は様々なタスクで大きな成功を収めているが、幻覚の問題、特に深く責任ある推論を必要とするシナリオにしばしば苦労している。 これらの問題は、LLM推論に外部知識グラフ(KG)を導入することで部分的に解決できる。 本稿では, llmをエージェントとして扱い, kgs上の関連エンティティや関係を対話的に探索し, 得られた知識に基づいて推論を行う, llm-kg統合パラダイムである`$\hbox{llm}\otimes\hbox{kg}$''を提案する。 我々は、このパラダイムを、LLMエージェントがKG上でビームサーチを反復的に実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す、Think-on-Graph(ToG)と呼ばれる新しいアプローチを導入することで、さらに実装する。 私たちは、ToGの次の利点を検証し、説明するために、よく設計された多くの実験を使用します。 1) LLMと比較して、ToGはより深い推論能力を有する。 2)togは,llms推論と専門家のフィードバックを活用し,知識のトレーサビリティと知識の正確性を有する。 3)ToGは、異なるLLM、KG、および追加のトレーニングコストなしで戦略を推進するための柔軟なプラグアンドプレイフレームワークを提供する。 4) 小型LLMモデルによるToGの性能は, 特定のシナリオにおいて GPT-4 などの大型 LLM を超える可能性があり, これにより, LLM の展開・適用コストを低減できる。 ToGは、計算コストが低く、より汎用性の高いトレーニングフリーの方法として、以前のSOTAが追加のトレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。

Although large language models (LLMs) have achieved significant success in various tasks, they often struggle with hallucination problems, especially in scenarios requiring deep and responsible reasoning. These issues could be partially addressed by introducing external knowledge graphs (KG) in LLM reasoning. In this paper, we propose a new LLM-KG integrating paradigm ``$\hbox{LLM}\otimes\hbox{KG}$'' which treats the LLM as an agent to interactively explore related entities and relations on KGs and perform reasoning based on the retrieved knowledge. We further implement this paradigm by introducing a new approach called Think-on-Graph (ToG), in which the LLM agent iteratively executes beam search on KG, discovers the most promising reasoning paths, and returns the most likely reasoning results. We use a number of well-designed experiments to examine and illustrate the following advantages of ToG: 1) compared with LLMs, ToG has better deep reasoning power; 2) ToG has the ability of knowledge traceability and knowledge correctability by leveraging LLMs reasoning and expert feedback; 3) ToG provides a flexible plug-and-play framework for different LLMs, KGs and prompting strategies without any additional training cost; 4) the performance of ToG with small LLM models could exceed large LLM such as GPT-4 in certain scenarios and this reduces the cost of LLM deployment and application. As a training-free method with lower computational cost and better generality, ToG achieves overall SOTA in 6 out of 9 datasets where most previous SOTAs rely on additional training.
翻訳日:2023-11-08 19:19:39 公開日:2023-11-07
# 時間差強化学習における損失ダイナミクス

Loss Dynamics of Temporal Difference Reinforcement Learning ( http://arxiv.org/abs/2307.04841v2 )

ライセンス: Link先を確認
Blake Bordelon, Paul Masset, Henry Kuo, Cengiz Pehlevan(参考訳) 強化学習は、エージェントがスパースフィードバックで環境で行動することを学ばなければならないいくつかのアプリケーションで成功している。 しかし、この経験的な成功にもかかわらず、強化学習モデルのパラメータと状態を表すのに使われる特徴が学習のダイナミクスを制御するためにどのように相互作用するかの理論的な理解が不足している。 本研究では,統計物理学の概念を用いて,線形関数近似子を用いた値関数の時間差学習のための典型的な事例学習曲線を考察する。 我々の理論は、ランダム軌道上の平均を時間的に相関したガウス特徴平均に置き換えるガウス同値仮説に基づいて導出され、小規模マルコフ決定過程における仮定を検証する。 従来の勾配降下力学とは異なり,考えられるエピソードの空間のサブサンプリングによる確率的半勾配雑音は,値誤差の顕著な高次化をもたらすことがわかった。 学習のダイナミクスと高原は,特徴構造,学習率,割引率,報酬関数にどのように依存するかを検討した。 次に学習率アニーリングや報酬シェーピングといった戦略が学習のダイナミクスや高原をどのように変えるかを分析する。 本研究は,強化学習における学習動力学の理論の展開に向けた新たな方向性を開くための新しいツールを提案する。

Reinforcement learning has been successful across several applications in which agents have to learn to act in environments with sparse feedback. However, despite this empirical success there is still a lack of theoretical understanding of how the parameters of reinforcement learning models and the features used to represent states interact to control the dynamics of learning. In this work, we use concepts from statistical physics, to study the typical case learning curves for temporal difference learning of a value function with linear function approximators. Our theory is derived under a Gaussian equivalence hypothesis where averages over the random trajectories are replaced with temporally correlated Gaussian feature averages and we validate our assumptions on small scale Markov Decision Processes. We find that the stochastic semi-gradient noise due to subsampling the space of possible episodes leads to significant plateaus in the value error, unlike in traditional gradient descent dynamics. We study how learning dynamics and plateaus depend on feature structure, learning rate, discount factor, and reward function. We then analyze how strategies like learning rate annealing and reward shaping can favorably alter learning dynamics and plateaus. To conclude, our work introduces new tools to open a new direction towards developing a theory of learning dynamics in reinforcement learning.
翻訳日:2023-11-08 19:18:42 公開日:2023-11-07
# BeaverTails: ヒューマンパラメータデータセットによるLCMの安全性向上を目指して

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset ( http://arxiv.org/abs/2307.04657v3 )

ライセンス: Link先を確認
Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang(参考訳) 本稿では,大規模言語モデル(llm)における安全性アライメント研究の促進を目的としたbeavertailsデータセットを提案する。 このデータセットは、質問応答ペアの有益さと無害さのアノテーションを一意に分離するので、これらの重要な属性に対する明確な視点を提供する。 333,963対のq&a(q&a)と361,903対の専門家比較データに対する安全性メタラベルを収集した。 さらに,人間のフィードバックによるコンテンツモデレーションと強化学習(RLHF)におけるBeaverTailsの応用について紹介し,LLMにおける実用的安全対策の可能性を強調した。 このデータセットはコミュニティに重要なリソースを提供し、LLMの安全な開発とデプロイに寄与すると考えています。 私たちのプロジェクトページは以下のURLで利用可能です。

In this paper, we introduce the BeaverTails dataset, aimed at fostering research on safety alignment in large language models (LLMs). This dataset uniquely separates annotations of helpfulness and harmlessness for question-answering pairs, thus offering distinct perspectives on these crucial attributes. In total, we have gathered safety meta-labels for 333,963 question-answer (QA) pairs and 361,903 pairs of expert comparison data for both the helpfulness and harmlessness metrics. We further showcase applications of BeaverTails in content moderation and reinforcement learning with human feedback (RLHF), emphasizing its potential for practical safety measures in LLMs. We believe this dataset provides vital resources for the community, contributing towards the safe development and deployment of LLMs. Our project page is available at the following URL: https://sites.google.com/view/pku-beavertails.
翻訳日:2023-11-08 19:18:21 公開日:2023-11-07
# サイズの問題:HiGGを用いた大規模グラフ生成

Size Matters: Large Graph Generation with HiGGs ( http://arxiv.org/abs/2306.11412v2 )

ライセンス: Link先を確認
Alex O. Davies, Nirav S. Ajmeri, Telmo M. Silva Filho(参考訳) 大規模なグラフは、ソーシャルネットワーク、民間インフラ、物理科学など、いくつかの分野に存在している。 グラフ生成も同様に広く普及し、創薬、ネットワーク分析、合成データセットなどに応用されている。 GNN(Graph Neural Network)モデルはこれらの領域に適用されているが、高インメモリコストは小さなグラフに制限されている。 逆に、コストのかかるルールベースの手法は複雑な構造を再現するのに苦労する。 HIGGS (Hierarchical Generation of Graphs) を現実的な局所構造を持つグラフを生成するモデルに依存しないフレームワークとして提案する。 HIGGSは、条件生成機能を備えたGNNモデルを使用して、解像度の階層内のグラフをサンプリングする。 その結果、HIGGSは与えられたGNNモデルから生成されたグラフのスケールを2次順序で拡張する能力を持つ。 実演として,新しいエッジ予測拡散変種エッジディグレスを含むグラフ拡散モデルであるDiGressを用いてHIGGSを実装した。 この実装を使用して、数万のノードで分類的に属性付けられたグラフを生成する。 これらのHIGGS生成グラフは、以前GNNで作成されたグラフよりもはるかに大きい。 このスケールの飛躍にもかかわらず、HIGGSが生成するグラフは、局所的なスケールで、ルールベースのモデルであるBTERよりも現実的であることを示す。

Large graphs are present in a variety of domains, including social networks, civil infrastructure, and the physical sciences to name a few. Graph generation is similarly widespread, with applications in drug discovery, network analysis and synthetic datasets among others. While GNN (Graph Neural Network) models have been applied in these domains their high in-memory costs restrict them to small graphs. Conversely less costly rule-based methods struggle to reproduce complex structures. We propose HIGGS (Hierarchical Generation of Graphs) as a model-agnostic framework of producing large graphs with realistic local structures. HIGGS uses GNN models with conditional generation capabilities to sample graphs in hierarchies of resolution. As a result HIGGS has the capacity to extend the scale of generated graphs from a given GNN model by quadratic order. As a demonstration we implement HIGGS using DiGress, a recent graph-diffusion model, including a novel edge-predictive-diffusion variant edge-DiGress. We use this implementation to generate categorically attributed graphs with tens of thousands of nodes. These HIGGS generated graphs are far larger than any previously produced using GNNs. Despite this jump in scale we demonstrate that the graphs produced by HIGGS are, on the local scale, more realistic than those from the rule-based model BTER.
翻訳日:2023-11-08 19:17:24 公開日:2023-11-07
# 合成タスクでより少ない幻覚を与えるための言語モデルを教える

Teaching Language Models to Hallucinate Less with Synthetic Tasks ( http://arxiv.org/abs/2310.06827v3 )

ライセンス: Link先を確認
Erik Jones, Hamid Palangi, Clarisse Sim\~oes, Varun Chandrasekaran, Subhabrata Mukherjee, Arindam Mitra, Ahmed Awadallah, Ece Kamar(参考訳) 大規模言語モデル(llm)は、すべての必要な情報がコンテキストに含まれるにもかかわらず、文書ベースの質問応答、ミーティングの要約、臨床レポート生成などの抽象的な要約タスクをしばしば紹介する。 しかし、各最適化ステップにおいて幻覚を効果的に評価することは困難であるため、これらのタスクの割礼を減らすためのllmの最適化は困難である。 本研究では,合成作業における幻覚の低減が,現実世界の下流作業における幻覚の低減につながることを示す。 提案手法であるsyntraは, 幻覚の誘発と測定が容易な合成タスクを最初に設計する。 次に、合成タスクのプレフィックスチューニングを通じてllmのシステムメッセージを最適化し、最終的にシステムメッセージを現実的な最適化タスクに転送する。 3つの現実的な抽象的要約タスクの中で、SynTraは2つの13BパラメータLLMに対する幻覚を減らす。 また,モデル重みよりもシステムメッセージの最適化が重要であり,モデル全体を合成タスクで微調整することは幻覚を直観的に増加させる可能性がある。 全体としてsyntraは、合成データを扱う余分な柔軟性が、実際には望ましくない振る舞いを軽減できることを実証している。

Large language models (LLMs) frequently hallucinate on abstractive summarization tasks such as document-based question-answering, meeting summarization, and clinical report generation, even though all necessary information is included in context. However, optimizing LLMs to hallucinate less on these tasks is challenging, as hallucination is hard to efficiently evaluate at each optimization step. In this work, we show that reducing hallucination on a synthetic task can also reduce hallucination on real-world downstream tasks. Our method, SynTra, first designs a synthetic task where hallucinations are easy to elicit and measure. It next optimizes the LLM's system message via prefix-tuning on the synthetic task, and finally transfers the system message to realistic, hard-to-optimize tasks. Across three realistic abstractive summarization tasks, SynTra reduces hallucination for two 13B-parameter LLMs using only a synthetic retrieval task for supervision. We also find that optimizing the system message rather than the model weights can be critical; fine-tuning the entire model on the synthetic task can counterintuitively increase hallucination. Overall, SynTra demonstrates that the extra flexibility of working with synthetic data can help mitigate undesired behaviors in practice.
翻訳日:2023-11-08 19:09:31 公開日:2023-11-07
# 組合せ問題に対する解サンプリングの最適化--政策グラディエント手法のランドスケープ

Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods ( http://arxiv.org/abs/2310.05309v2 )

ライセンス: Link先を確認
Constantine Caramanis, Dimitris Fotakis, Alkis Kalavasis, Vasilis Kontonis, Christos Tzamos(参考訳) 深層ニューラルネットワークと強化学習手法は、組合せ問題に取り組む上で大きな可能性を実証してきた。 これらの手法では、ディープニューラルネットワークを解生成器として使用し、勾配に基づく手法(例えばポリシー勾配)で訓練し、より良い解分布を連続的に得る。 本研究では,そのような手法の有効性を解析するための理論的枠組みを紹介する。 生成モデルが存在するかどうかを問うと i) ほぼ最適な解を生成するのに十分な表現性 (ii) 抽出可能な,すなわち入力の大きさの多項式,パラメータ数を有する。 (iii)その最適化の展望は、準最適静止点を含まないという意味で良質である。 私たちの主な貢献は、この質問に対するポジティブな答えです。 その結果,Max-およびMin-Cut,Max-$k$-CSP,Maximum-Weight-Bipartite-Matching,Traveing Salesman問題など,幅広い組み合わせの問題が得られた。 解析の副産物として,バニラ勾配降下の新たな正則化プロセスを導入し,脱落勾配問題に対処し,不動点を回避できることを理論的および実験的に証明する。

Deep Neural Networks and Reinforcement Learning methods have empirically shown great promise in tackling challenging combinatorial problems. In those methods a deep neural network is used as a solution generator which is then trained by gradient-based methods (e.g., policy gradient) to successively obtain better solution distributions. In this work we introduce a novel theoretical framework for analyzing the effectiveness of such methods. We ask whether there exist generative models that (i) are expressive enough to generate approximately optimal solutions; (ii) have a tractable, i.e, polynomial in the size of the input, number of parameters; (iii) their optimization landscape is benign in the sense that it does not contain sub-optimal stationary points. Our main contribution is a positive answer to this question. Our result holds for a broad class of combinatorial problems including Max- and Min-Cut, Max-$k$-CSP, Maximum-Weight-Bipartite-Matching, and the Traveling Salesman Problem. As a byproduct of our analysis we introduce a novel regularization process over vanilla gradient descent and provide theoretical and experimental evidence that it helps address vanishing-gradient issues and escape bad stationary points.
翻訳日:2023-11-08 19:09:10 公開日:2023-11-07
# ノイズ観測における改善獲得関数の補正

A Corrected Expected Improvement Acquisition Function Under Noisy Observations ( http://arxiv.org/abs/2310.05166v2 )

ライセンス: Link先を確認
Han Zhou and Xingchen Ma and Matthew B Blaschko(参考訳) 期待される改善の逐次最大化(EI)は、ベイズ最適化において、ノイズの多い観測を扱うための単純さと能力のために最も広く使われている政策の一つである。 特に、改善関数は、ノイズの多い設定において、最良の後部平均を最も多く使用します。 しかし、既存の解に付随する不確実性は、多くの分析的ei型手法では無視されることが多い: 閉形式獲得関数はノイズのない設定で導かれるが、ノイズの観測を伴う設定に適用される。 この制限に対処するために,ガウス過程(GP)モデルによって提供される共分散情報を組み込んで,その閉形式表現を補正するEIの修正を提案する。 この取得関数は古典的なノイズフリーな結果に特化しており、ベイズ最適化ソフトウェアパッケージ、チュートリアル、教科書にその公式を置き換えるべきである。 この強化された取得は、ノイズやノイズのない設定に対して優れた一般化を提供する。 本研究では,不連続観測雑音下での累積残差に対するサブ線形収束率を求める。 実験の結果,提案する獲得関数は,ブラックボックス最適化のためのベンチマーク関数やニューラルネットワークモデル圧縮のパラメータ探索において,ノイズ観測の存在下ではeiよりも優れることがわかった。

Sequential maximization of expected improvement (EI) is one of the most widely used policies in Bayesian optimization because of its simplicity and ability to handle noisy observations. In particular, the improvement function often uses the best posterior mean as the best incumbent in noisy settings. However, the uncertainty associated with the incumbent solution is often neglected in many analytic EI-type methods: a closed-form acquisition function is derived in the noise-free setting, but then applied to the setting with noisy observations. To address this limitation, we propose a modification of EI that corrects its closed-form expression by incorporating the covariance information provided by the Gaussian Process (GP) model. This acquisition function specializes to the classical noise-free result, and we argue should replace that formula in Bayesian optimization software packages, tutorials, and textbooks. This enhanced acquisition provides good generality for noisy and noiseless settings. We show that our method achieves a sublinear convergence rate on the cumulative regret bound under heteroscedastic observation noise. Our empirical results demonstrate that our proposed acquisition function can outperform EI in the presence of noisy observations on benchmark functions for black-box optimization, as well as on parameter search for neural network model compression.
翻訳日:2023-11-08 19:08:49 公開日:2023-11-07
# 変形不変ニューラルネットワークとその歪画像復元・解析への応用

Deformation-Invariant Neural Network and Its Applications in Distorted Image Restoration and Analysis ( http://arxiv.org/abs/2310.02641v2 )

ライセンス: Link先を確認
Han Zhang, Qiguang Chen, Lok Ming Lui(参考訳) 幾何学的歪みによって劣化した画像は、画像や物体認識などのコンピュータビジョンタスクにおいて重要な課題となる。 深層学習に基づく画像モデルは、通常、幾何学的に歪んだ画像に対して正確な性能を与えることができない。 本稿では、幾何学的に歪んだ画像の撮像課題に対処するフレームワークである変形不変ニューラルネットワーク(DINN)を提案する。 DINNは、幾何学的に歪んでいるが、同じ基礎となるオブジェクトやシーンを表す画像に対して一貫した遅延特徴を出力する。 DINNの考え方は、準コンフォーマルトランスフォーマーネットワーク(QCTN)と呼ばれる単純なコンポーネントを、イメージングタスクのために既存のディープネットワークに組み込むことである。 QCTNは準等角写像を出力するディープニューラルネットワークであり、幾何学的に歪んだ画像を自然な画像や良い画像の分布に近い改良版に変換するのに使用できる。 まず、出力変形写像の準共形性を測定するベルトラミ係数を出力する。 ベルトラミ係数を制御することにより、準共形写像下の局所幾何学的歪みを制御することができる。 QCTNは軽量でシンプルで、既存のディープニューラルネットワークと容易に統合してパフォーマンスを向上させることができる。 フレームワークを活用し,歪み画像の正確な分類を実現する画像分類ネットワークを開発した。 提案手法は, 大気乱流と水乱流による幾何歪み画像の復元に応用されている。 DINNはこれらのシナリオ下で既存のGANベースの復元手法より優れており、提案フレームワークの有効性を実証している。 さらに, 提案手法を大気乱流下での人間の顔画像の1-1検証に適用し, 良好な性能を実現し, 提案手法の有効性を実証する。

Images degraded by geometric distortions pose a significant challenge to imaging and computer vision tasks such as object recognition. Deep learning-based imaging models usually fail to give accurate performance for geometrically distorted images. In this paper, we propose the deformation-invariant neural network (DINN), a framework to address the problem of imaging tasks for geometrically distorted images. The DINN outputs consistent latent features for images that are geometrically distorted but represent the same underlying object or scene. The idea of DINN is to incorporate a simple component, called the quasiconformal transformer network (QCTN), into other existing deep networks for imaging tasks. The QCTN is a deep neural network that outputs a quasiconformal map, which can be used to transform a geometrically distorted image into an improved version that is closer to the distribution of natural or good images. It first outputs a Beltrami coefficient, which measures the quasiconformality of the output deformation map. By controlling the Beltrami coefficient, the local geometric distortion under the quasiconformal mapping can be controlled. The QCTN is lightweight and simple, which can be readily integrated into other existing deep neural networks to enhance their performance. Leveraging our framework, we have developed an image classification network that achieves accurate classification of distorted images. Our proposed framework has been applied to restore geometrically distorted images by atmospheric turbulence and water turbulence. DINN outperforms existing GAN-based restoration methods under these scenarios, demonstrating the effectiveness of the proposed framework. Additionally, we apply our proposed framework to the 1-1 verification of human face images under atmospheric turbulence and achieve satisfactory performance, further demonstrating the efficacy of our approach.
翻訳日:2023-11-08 19:08:29 公開日:2023-11-07
# MobileNVC: モバイルデバイス上のリアルタイム1080pニューラルビデオ圧縮

MobileNVC: Real-time 1080p Neural Video Compression on a Mobile Device ( http://arxiv.org/abs/2310.01258v2 )

ライセンス: Link先を確認
Ties van Rozendaal, Tushar Singhal, Hoang Le, Guillaume Sautiere, Amir Said, Krishna Buska, Anjuman Raha, Dimitris Kalatzis, Hitarth Mehta, Frank Mayer, Liang Zhang, Markus Nagel, Auke Wiggers(参考訳) ニューラルビデオコーデックは最近、低遅延設定でHEVCのような標準コーデックと競合している。 しかし、ほとんどのニューラルコーデックは大きな浮動小数点ネットワークであり、時間的モデリングにピクセル密度のワープ操作を使用するため、モバイルデバイスへの展開には計算コストがかかりすぎる。 最近の研究は、モバイルでリアルタイムにニューラルデコーダを走らせることが実証されているが、これは720pのRGBビデオでしか見られない。 この研究は、1080p yuv420ビデオをモバイルデバイス上でリアルタイムにデコードする最初のニューラルビデオコーデックである。 私たちのコーデックは2つの大きな貢献に依存している。 まず,移動加速器のワープコア上で利用可能なブロックベースの動き補償アルゴリズムを用いた効率的なコーデックを設計し,このモデルを整数精度に定量化する方法を示す。 第2に,ニューラルネットワークコンポーネントをニューラルネットワークプロセッサ上で同時実行し,並列エントロピー符号化をモバイルgpu上で実行し,ワーピングコアをウォーピングする高速デコーダパイプラインを実装した。 我々のコーデックは、これまでのデバイス上のコーデックを最大48%のBDレートの節約率で上回り、レシーバ側のMACカウントを10 \times$で下げている。 導入した動作補償スキームの効果を示すために注意深いアブレーションを行い,モデル量子化の効果を緩和する。

Neural video codecs have recently become competitive with standard codecs such as HEVC in the low-delay setting. However, most neural codecs are large floating-point networks that use pixel-dense warping operations for temporal modeling, making them too computationally expensive for deployment on mobile devices. Recent work has demonstrated that running a neural decoder in real time on mobile is feasible, but shows this only for 720p RGB video. This work presents the first neural video codec that decodes 1080p YUV420 video in real time on a mobile device. Our codec relies on two major contributions. First, we design an efficient codec that uses a block-based motion compensation algorithm available on the warping core of the mobile accelerator, and we show how to quantize this model to integer precision. Second, we implement a fast decoder pipeline that concurrently runs neural network components on the neural signal processor, parallel entropy coding on the mobile GPU, and warping on the warping core. Our codec outperforms the previous on-device codec by a large margin with up to 48% BD-rate savings, while reducing the MAC count on the receiver side by $10 \times$. We perform a careful ablation to demonstrate the effect of the introduced motion compensation scheme, and ablate the effect of model quantization.
翻訳日:2023-11-08 19:08:04 公開日:2023-11-07
# AI倫理への投資への回帰 - 全体論的なフレームワーク

The Return on Investment in AI Ethics: A Holistic Framework ( http://arxiv.org/abs/2309.13057v3 )

ライセンス: Link先を確認
Marialena Bevilacqua, Nicholas Berente, Heather Domin, Brian Goehring and Francesca Rossi(参考訳) 本稿では,人工知能(AI)倫理活動への組織的投資の回帰を理解するために,HROE(Hollistic Return on Ethics)フレームワークを提案する。 このフレームワークは、投資決定のリターンを定量化したい組織にとって有用である。 この枠組みは、そのような投資の直接的な経済的なリターン、組織的評判にかかわる無形を通した間接的経路、能力にかかわるリアルオプションを識別する。 包括的なフレームワークは、最終的に組織にAI倫理投資を採用、正当化する能力を提供する。

We propose a Holistic Return on Ethics (HROE) framework for understanding the return on organizational investments in artificial intelligence (AI) ethics efforts. This framework is useful for organizations that wish to quantify the return for their investment decisions. The framework identifies the direct economic returns of such investments, the indirect paths to return through intangibles associated with organizational reputation, and real options associated with capabilities. The holistic framework ultimately provides organizations with the competency to employ and justify AI ethics investments.
翻訳日:2023-11-08 19:07:02 公開日:2023-11-07
# スケーラブルニューラルネットワークによる粒子流イベント再構成の現状と将来

Improved particle-flow event reconstruction with scalable neural networks for current and future particle detectors ( http://arxiv.org/abs/2309.06782v3 )

ライセンス: Link先を確認
Joosep Pata, Eric Wulff, Farouk Mokhtar, David Southwick, Mengke Zhang, Maria Girone, Javier Duarte(参考訳) 高エネルギー電子-ポジトロン衝突におけるフルイベント再構成のためのスケーラブルな機械学習モデルについて,高粒度検出器シミュレーションに基づいて検討した。 粒子フロー再構成は、トラックやカロリメータクラスタやヒットを使って教師あり学習タスクとして定式化することができる。 グラフニューラルネットワークとカーネルベースのトランスフォーマーを比較し,2次メモリ割り当てと計算コストを回避しつつ,現実的な再構築を実現することを実証する。 スーパーコンピュータ上でのハイパーパラメータチューニングは, モデルの物理性能を大幅に向上させ, ジェット横運動量分解能をベースラインに比べて最大50%向上させることを示した。 結果として得られるモデルは、ハードウェアプロセッサ間で非常にポータブルである。 最後に,トラックと温度計のヒットからなる高粒度入力でモデルをトレーニングできることを示し,その結果,ベースラインと競合する物理性能が得られることを示した。 研究を再現するデータセットとソフトウェアは、発見可能、アクセス可能、相互運用可能、再利用可能な原則に従って発行される。

We study scalable machine learning models for full event reconstruction in high-energy electron-positron collisions based on a highly granular detector simulation. Particle-flow reconstruction can be formulated as a supervised learning task using tracks and calorimeter clusters or hits. We compare a graph neural network and kernel-based transformer and demonstrate that both avoid quadratic memory allocation and computational cost while achieving realistic reconstruction. We show that hyperparameter tuning on a supercomputer significantly enhances the physics performance of the models, improving the jet transverse momentum resolution by up to 50% compared to the baseline. The resulting model is highly portable across hardware processors. Finally, we demonstrate that the model can be trained on highly granular inputs consisting of tracks and calorimeter hits, resulting in a competitive physics performance with the baseline. Datasets and software to reproduce the studies are published following the findable, accessible, interoperable, and reusable principles.
翻訳日:2023-11-08 19:06:24 公開日:2023-11-07
# 学習可能な医療サイバー物理システムのための自然敵データセットのキュレーション

Curating Naturally Adversarial Datasets for Learning-Enabled Medical Cyber-Physical Systems ( http://arxiv.org/abs/2309.00543v2 )

ライセンス: Link先を確認
Sydney Pugh, Ivan Ruchkin, Insup Lee, James Weimer(参考訳) ディープラーニングモデルは、時系列医療アプリケーションに対して有望な予測精度を示している。 しかし、これらのモデルの堅牢性を保証することは、信頼できるAIシステムを構築する上で不可欠である。 既存の研究は主に、入力データに知覚不能な摂動を加えることによって作られた合成敵の例に対する堅牢性に焦点を当てている。 しかし、これらの合成敵対例は、特に医療データの文脈において、最も困難な現実のシナリオを正確に反映していない。 したがって、合成敵例に対するロバスト性は、必ずしも自然に生じる敵例に対するロバスト性に変換されるとは限らない。 本稿では,モデルロバスト性を評価するために,自然敵例からなるデータセットをキュレートする手法を提案する。 この手法は、ノイズと安価で観察可能なラベルヒューリスティックを組み合わせた、自動化された弱教師付きラベルから得られる確率的ラベルに依存する。 これらのラベルに基づいて、本手法は入力データを逆順に順序付けし、この順序付けを用いて、ますます敵対的なデータセットのシーケンスを構築する。 6例の症例と3例の非医学的ケーススタディについての評価を行い,本手法の有効性と統計的妥当性を実証した。

Deep learning models have shown promising predictive accuracy for time-series healthcare applications. However, ensuring the robustness of these models is vital for building trustworthy AI systems. Existing research predominantly focuses on robustness to synthetic adversarial examples, crafted by adding imperceptible perturbations to clean input data. However, these synthetic adversarial examples do not accurately reflect the most challenging real-world scenarios, especially in the context of healthcare data. Consequently, robustness to synthetic adversarial examples may not necessarily translate to robustness against naturally occurring adversarial examples, which is highly desirable for trustworthy AI. We propose a method to curate datasets comprised of natural adversarial examples to evaluate model robustness. The method relies on probabilistic labels obtained from automated weakly-supervised labeling that combines noisy and cheap-to-obtain labeling heuristics. Based on these labels, our method adversarially orders the input data and uses this ordering to construct a sequence of increasingly adversarial datasets. Our evaluation on six medical case studies and three non-medical case studies demonstrates the efficacy and statistical validity of our approach to generating naturally adversarial datasets
翻訳日:2023-11-08 19:05:26 公開日:2023-11-07
# ウィキペディア記事のリンク予測のためのテキストベースアプローチ

A Text-based Approach For Link Prediction on Wikipedia Articles ( http://arxiv.org/abs/2309.00317v2 )

ライセンス: Link先を確認
Anh Hoang Tran, Tam Minh Nguyen and Son T. Luu(参考訳) 本稿では,ウィキペディア記事のリンク予測に関するDSAA 2023 Challengeで紹介する。 テキストから抽出したPOSタグ(part-of-speechタグ)機能を備えた従来の機械学習モデルを用いて、2つのノードにリンクがあるかどうかを予測する。 そして、これらのタグを使ってさまざまな機械学習モデルをテストする。 結果は0.99999でf1得点で獲得し,コンペティションで7位となった。 私たちのソースコードはこのリンクで公開されている。 https://github.com/tam1032/dsaa2023-challenge-link-prediction-ds-uit_sat

This paper present our work in the DSAA 2023 Challenge about Link Prediction for Wikipedia Articles. We use traditional machine learning models with POS tags (part-of-speech tags) features extracted from text to train the classification model for predicting whether two nodes has the link. Then, we use these tags to test on various machine learning models. We obtained the results by F1 score at 0.99999 and got 7th place in the competition. Our source code is publicly available at this link: https://github.com/Tam1032/DSAA2023-Challenge-Link-prediction-DS-UIT_SAT
翻訳日:2023-11-08 19:05:11 公開日:2023-11-07
# FastSurfer-HypVINN:高分解能脳MRIにおける視床下部および隣接構造の自動化サブセグメンテーション

FastSurfer-HypVINN: Automated sub-segmentation of the hypothalamus and adjacent structures on high-resolutional brain MRI ( http://arxiv.org/abs/2308.12736v2 )

ライセンス: Link先を確認
Santiago Estrada, David K\"ugler, Emad Bahrami, Peng Xu, Dilshad Mousa, Monique M.B. Breteler, N. Ahmad Aziz, Martin Reuter(参考訳) 視床下部は、幅広い生理的、行動的、認知的機能の調節において重要な役割を担っている。 しかし、その重要性にもかかわらず、手動セグメンテーションのスケーラビリティと再現性に対処する完全に自動化されたセグメンテーションツールが欠如しているために、そのサブストラクチャを調査する小規模の神経画像研究はごくわずかである。 視床下部をニューラルネットワークで自動的にサブセグメント化する試みは、1.0mm等方性T1強調MRI(T1w)を約束するものであったが、高分解能MRIスキャン(HiRes)の自動化ツールが必要である。 そこで本研究では,視床下部および隣接構造物を0.8mm等方性t1wおよびt2w脳mr画像にサブセグメンテーションするために,hypvinnという新しい,高速かつ完全自動化された深層学習法を提案する。 我々は,視床下部の容積効果(性差など)を再現するためのセグメンテーション精度,一般化可能性,セッション内テストの信頼性,感度に関して,我々のモデルを広範囲に検証した。 提案手法は,t1w画像およびt1w/t2w画像ペアに対して高いセグメンテーション性能を示す。 フレキシブルな入力を受け入れる能力が加わったとしても、我々のモデルは固定された入力を持つ最先端のメソッドのパフォーマンスと一致または上回っている。 さらに、Rhineland Study と UK Biobank の 1.0 mm MR スキャン実験において、本手法の一般化可能性を実証した。 最後にhypvinnは、セグメンテーションを1分以内(gpu)で実行でき、オープンソースのfastsurfer neuroimaging software suiteで利用可能になり、視床下部のイメージング由来の表現型を評価するための、検証済み、効率的、スケーラブルなソリューションを提供する。

The hypothalamus plays a crucial role in the regulation of a broad range of physiological, behavioural, and cognitive functions. However, despite its importance, only a few small-scale neuroimaging studies have investigated its substructures, likely due to the lack of fully automated segmentation tools to address scalability and reproducibility issues of manual segmentation. While the only previous attempt to automatically sub-segment the hypothalamus with a neural network showed promise for 1.0 mm isotropic T1-weighted (T1w) MRI, there is a need for an automated tool to sub-segment also high-resolutional (HiRes) MR scans, as they are becoming widely available, and include structural detail also from multi-modal MRI. We, therefore, introduce a novel, fast, and fully automated deep learning method named HypVINN for sub-segmentation of the hypothalamus and adjacent structures on 0.8 mm isotropic T1w and T2w brain MR images that is robust to missing modalities. We extensively validate our model with respect to segmentation accuracy, generalizability, in-session test-retest reliability, and sensitivity to replicate hypothalamic volume effects (e.g. sex-differences). The proposed method exhibits high segmentation performance both for standalone T1w images as well as for T1w/T2w image pairs. Even with the additional capability to accept flexible inputs, our model matches or exceeds the performance of state-of-the-art methods with fixed inputs. We, further, demonstrate the generalizability of our method in experiments with 1.0 mm MR scans from both the Rhineland Study and the UK Biobank. Finally, HypVINN can perform the segmentation in less than a minute (GPU) and will be available in the open source FastSurfer neuroimaging software suite, offering a validated, efficient, and scalable solution for evaluating imaging-derived phenotypes of the hypothalamus.
翻訳日:2023-11-08 19:05:01 公開日:2023-11-07
# 移動データ駆動型階層型深層強化学習によるリアルタイム需要応答型鉄道計画と駅過密化

A Mobile Data-Driven Hierarchical Deep Reinforcement Learning Approach for Real-time Demand-Responsive Railway Rescheduling and Station Overcrowding Mitigation ( http://arxiv.org/abs/2308.11849v2 )

ライセンス: Link先を確認
Enze Liu, Zhiyuan Lin, Judith Y.T. Wang, Hong Chen(参考訳) リアルタイム鉄道再スケジュールは, 予期せぬ, ダイナミックな状況に対応して, タイムリーかつ柔軟な運転回復を可能にする重要な手法である。 現在の研究は、主にODに基づくデータと、列車の旅客需要を推定するためのモデルに基づく手法に依存している。 これらのアプローチは主に平均的なディスラプションパターンに重点を置いており、しばしば時間とともに需要の即時不均一な分布を見落としている。 実際、乗客の需要は特に災害時の予測から大きく逸脱している。 2022年の西州洪水のような悲惨な状況は、中国の主要鉄道中心地である西州鉄道駅自体に前例のない影響をもたらしただけでなく、西州から西に最も近い西安など、西州と繋がる他の主要ハブにも影響を及ぼしている。 本研究では,実時間需要応答型鉄道再スケジュール問題(rtdr)について,需要の変動性,駅の混雑性管理という2つの側面に注目して定義する。 本稿では,このRTDR問題に対処するために,リアルタイムモバイルデータ(MD)を用いたデータ駆動型アプローチを提案する。 階層的深層強化学習(HDRL)フレームワークは,要求応答型でリアルタイムなスケジューリングを行うように設計されている。 MDの使用により、列車の遅延や駅混雑に応答して乗客動態のモデル化が可能となり、また、乗客の破壊に対する行動応答による需要の変化を考慮した列車運行の再スケジュールをリアルタイムに最適化できるようになった。 その結果, 原車両の61%で需要の62%以上を安定的に満たすことができ, 過密化せずに連続運転を確実にできることがわかった。 さらに, エージェントは, 需要が増大して新たな環境に移行した際の適応性を示し, リアルタイム環境における予期せぬ破壊に対処する効果を強調した。

Real-time railway rescheduling is an important technique to enable operational recovery in response to unexpected and dynamic conditions in a timely and flexible manner. Current research relies mostly on OD based data and model-based methods for estimating train passenger demands. These approaches primarily focus on averaged disruption patterns, often overlooking the immediate uneven distribution of demand over time. In reality, passenger demand deviates significantly from predictions, especially during a disaster. Disastrous situations such as flood in Zhengzhou, China in 2022 has created not only unprecedented effect on Zhengzhou railway station itself, which is a major railway hub in China, but also other major hubs connected to Zhengzhou, e.g., Xi'an, the closest hub west of Zhengzhou. In this study, we define a real-time demand-responsive (RTDR) railway rescheduling problem focusing two specific aspects, namely, volatility of the demand, and management of station crowdedness. For the first time, we propose a data-driven approach using real-time mobile data (MD) to deal with this RTDR problem. A hierarchical deep reinforcement learning (HDRL) framework is designed to perform real-time rescheduling in a demand-responsive manner. The use of MD has enabled the modelling of passenger dynamics in response to train delays and station crowdedness, and a real-time optimisation for rescheduling of train services in view of the change in demand as a result of passengers' behavioural response to disruption. Results show that the agent can steadily satisfy over 62% of the demand with only 61% of the original rolling stock, ensuring continuous operations without overcrowding. Moreover, the agent exhibits adaptability when transferred to a new environment with increased demand, highlighting its effectiveness in addressing unforeseen disruptions in real-time settings.
翻訳日:2023-11-08 19:04:24 公開日:2023-11-07
# フローベース分布ロバスト最適化

Flow-based distributionally robust optimization ( http://arxiv.org/abs/2310.19253v2 )

ライセンス: Link先を確認
Chen Xu, Jonghyeok Lee, Xiuyuan Cheng, Yao Xie(参考訳) 我々は,フローベース分布のロバスト最適化(dro)問題をwassersteinの不確実性集合を用いて解き,連続的最悪の分布(lfdとも呼ばれる)を求めるための計算効率の高いフレームワークであるflowdroを提案する。 lfdが連続であることの要件は、大きなサンプルサイズを持つ問題に対してアルゴリズムがスケーラブルになり、誘導ロバストアルゴリズムのより良い一般化能力を達成することである。 無限次元最適化問題に挑戦するために、フローベースモデルとデータ分布と対象分布の間の連続時間可逆トランスポートマップを利用する。 また,ワッサースタイン近位勾配流型アルゴリズムを開発した。 理論上、元の定式化への最適輸送写像による解の同値性を確立するとともに、ワッサーシュタイン積分とブレニエ定理による問題の双対形式も確立する。 実際には、勾配降下によりブロックで漸進的に訓練されたニューラルネットワークの列によって輸送マップをパラメータ化する。 計算フレームワークは一般に,大規模なサンプルサイズを持つ高次元データを扱うことができ,様々な用途に有用である。 本稿では, 逆学習, 分散堅牢な仮説テスト, およびデータ駆動型分散摂動摂動差分プライバシーの新しいメカニズムを実証し, 提案手法は実次元データに対して強い経験的性能を与える。

We present a computationally efficient framework, called FlowDRO, for solving flow-based distributionally robust optimization (DRO) problems with Wasserstein uncertainty sets while aiming to find continuous worst-case distribution (also called the Least Favorable Distribution, LFD). The requirement for LFD to be continuous is so that the algorithm can be scalable to problems with larger sample sizes and achieve better generalization capability for the induced robust algorithms. To tackle the computationally challenging infinitely dimensional optimization problem, we leverage flow-based models and continuous-time invertible transport maps between the data distribution and the target distribution. We also develop a Wasserstein proximal gradient flow type of algorithm. In theory, we establish the equivalence of the solution by optimal transport map to the original formulation, as well as the dual form of the problem through Wasserstein calculus and Brenier theorem. In practice, we parameterize the transport maps by a sequence of neural networks progressively trained in blocks by gradient descent. Our computational framework is general, can handle high-dimensional data with large sample sizes, and can be useful for various applications. We demonstrate its usage in adversarial learning, distributionally robust hypothesis testing, and a new mechanism for data-driven distribution perturbation differential privacy, where the proposed method gives strong empirical performance on real high-dimensional data.
翻訳日:2023-11-08 18:57:10 公開日:2023-11-07
# マルチモーダル画像のための動的タスクと重量優先カリキュラム学習

Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery ( http://arxiv.org/abs/2310.19109v2 )

ライセンス: Link先を確認
Huseyin Fuat Alsan, Taner Arsan(参考訳) 本稿では,カリキュラム学習法を訓練したマルチモーダル深層学習モデルを用いたディザスタ後の分析について検討する。 災害後の分析研究は、被害の程度と資源配分に関するタイムリーかつ正確な洞察を提供することによって、災害の影響を軽減する上で重要な役割を担っている。 本稿では,マルチモーダル深層学習モデルの性能向上のためのカリキュラム学習戦略を提案する。 カリキュラム学習は、ますます複雑なデータでディープラーニングモデルをトレーニングすることで、人間教育における進歩的な学習シーケンスをエミュレートする。 我々の主な目的は、FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021}データセットを用いた災害解析のためのセマンティックセグメンテーションと合わせて、画像とテキストデータの共同処理が可能な視覚的質問応答(VQA)に焦点を当てたカリキュラム学習深層学習モデルを開発することである。 これを実現するために、U-Netモデルはセマンティックセグメンテーションと画像エンコーディングに使用される。 視覚的質問応答には独自のテキスト分類器が使用される。 既存のカリキュラム学習方法は、手動で定義された難易度関数に依存する。 DATWEP(Dynamic Task and Weight Prioritization)と呼ばれる新しいカリキュラム学習手法を導入し、勾配に基づく手法を用いてカリキュラム学習中にタスクの難易度を自動的に決定し、明示的な難易度計算の必要性を解消する。 DATWEPをマルチモーダルモデルに統合すると、VQAの性能が改善される。 ソースコードはhttps://github.com/fualsan/DATWEPで入手できる。

This paper explores post-disaster analytics using multimodal deep learning models trained with curriculum learning method. Studying post-disaster analytics is important as it plays a crucial role in mitigating the impact of disasters by providing timely and accurate insights into the extent of damage and the allocation of resources. We propose a curriculum learning strategy to enhance the performance of multimodal deep learning models. Curriculum learning emulates the progressive learning sequence in human education by training deep learning models on increasingly complex data. Our primary objective is to develop a curriculum-trained multimodal deep learning model, with a particular focus on visual question answering (VQA) capable of jointly processing image and text data, in conjunction with semantic segmentation for disaster analytics using the FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021} dataset. To achieve this, U-Net model is used for semantic segmentation and image encoding. A custom built text classifier is used for visual question answering. Existing curriculum learning methods rely on manually defined difficulty functions. We introduce a novel curriculum learning approach termed Dynamic Task and Weight Prioritization (DATWEP), which leverages a gradient-based method to automatically decide task difficulty during curriculum learning training, thereby eliminating the need for explicit difficulty computation. The integration of DATWEP into our multimodal model shows improvement on VQA performance. Source code is available at https://github.com/fualsan/DATWEP.
翻訳日:2023-11-08 18:56:47 公開日:2023-11-07
# ネットワークにおける入力分布と線形領域間の相互作用の進化

The Evolution of the Interplay Between Input Distributions and Linear Regions in Networks ( http://arxiv.org/abs/2310.18725v2 )

ライセンス: Link先を確認
Xuan Qi, Yi Wei(参考訳) 深層ニューラルネットワークの表現性は、その深さ、幅、その他の関連する考慮を包含して、さまざまな要因に依存することが一般的に認識されている。 現在、ディープニューラルネットワークの実践的性能は未だに不明である。 ReLU(Rectified Linear Unit)ネットワークに対して、線形なアクティベーションを持つ線形凸領域の数は、ネットワークの表現性を評価する自然な指標となる。 本稿では,深層ニューラルネットワークにおける線形凸領域の数をreluに基づいてカウントする。 特に、任意の1次元入力に対して、その表現に必要なニューロンの数に対して最小限の閾値が存在することを証明する。 また、同じネットワークに対して、複雑な入力が線形領域を表現できないことを実証的に観察する。 さらに,学習中のreluネットワークにおける決定境界の反復的洗練プロセスも明らかにする。 我々は、深層ネットワークが提示する行動の探索と分析において、ネットワーク最適化の努力と支援のインスピレーションとなる研究を奨励する。

It is commonly recognized that the expressiveness of deep neural networks is contingent upon a range of factors, encompassing their depth, width, and other relevant considerations. Currently, the practical performance of the majority of deep neural networks remains uncertain. For ReLU (Rectified Linear Unit) networks with piecewise linear activations, the number of linear convex regions serves as a natural metric to gauge the network's expressivity. In this paper, we count the number of linear convex regions in deep neural networks based on ReLU. In particular, we prove that for any one-dimensional input, there exists a minimum threshold for the number of neurons required to express it. We also empirically observe that for the same network, intricate inputs hinder its capacity to express linear regions. Furthermore, we unveil the iterative refinement process of decision boundaries in ReLU networks during training. We aspire for our research to serve as an inspiration for network optimization endeavors and aids in the exploration and analysis of the behaviors exhibited by deep networks.
翻訳日:2023-11-08 18:56:17 公開日:2023-11-07
# ODM3D:半教師付き単眼立体物体検出のための前景空間の緩和

ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D Object Detection ( http://arxiv.org/abs/2310.18620v2 )

ライセンス: Link先を確認
Weijia Zhang, Dongnan Liu, Chao Ma, Weidong Cai(参考訳) 単眼3次元物体検出(M3OD)は、1枚のRGB画像に明確な深度手がかりがないため、自律運転において重要な課題である。 本稿では,半教師付き学習によるラベルなしデータの豊富活用により,現在性能の低い単眼的3d物体検出器の高速化に努める。 提案するODM3Dフレームワークは,トレーニング中にLiDARドメインの知識を単分子検出器に注入するために,様々なレベルでのクロスモーダルな知識蒸留を行う。 既存手法の準最適トレーニングの主要因として前景空間を同定することにより,LiDAR点に埋め込まれた正確な位置情報を利用して,提案したBEV占有誘導マスクを介して,より前景収容的で効率的な蒸留が可能となり,知識伝達とM3OD性能が著しく向上した。 さらに,既存のGTサンプリング技術が手作業で失敗する理由を考察した上で,実効的なRGB-LiDARジョイントラーニングのための新たなクロスモーダルオブジェクト指向データ拡張戦略を設計する。 本手法は,BEVおよび3次元検出測定値において,既存の単分子法および半教師付き法をはるかに上回り,KITTIバリデーションおよびテストベンチマークにおいて第1位にランクインする。

Monocular 3D object detection (M3OD) is a significant yet inherently challenging task in autonomous driving due to absence of explicit depth cues in a single RGB image. In this paper, we strive to boost currently underperforming monocular 3D object detectors by leveraging an abundance of unlabelled data via semi-supervised learning. Our proposed ODM3D framework entails cross-modal knowledge distillation at various levels to inject LiDAR-domain knowledge into a monocular detector during training. By identifying foreground sparsity as the main culprit behind existing methods' suboptimal training, we exploit the precise localisation information embedded in LiDAR points to enable more foreground-attentive and efficient distillation via the proposed BEV occupancy guidance mask, leading to notably improved knowledge transfer and M3OD performance. Besides, motivated by insights into why existing cross-modal GT-sampling techniques fail on our task at hand, we further design a novel cross-modal object-wise data augmentation strategy for effective RGB-LiDAR joint learning. Our method ranks 1st in both KITTI validation and test benchmarks, significantly surpassing all existing monocular methods, supervised or semi-supervised, on both BEV and 3D detection metrics.
翻訳日:2023-11-08 18:56:02 公開日:2023-11-07
# LITEを用いた命令チューニングによる中間層デコーディングによるLLaMA推論の高速化

Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE ( http://arxiv.org/abs/2310.18581v2 )

ライセンス: Link先を確認
Neeraj Varshney, Agneet Chatterjee, Mihir Parmar, Chitta Baral(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を達成しているが、その大きなサイズは推論を遅く、計算的に高価にする。 この問題に焦点をあて,中間層(LITE)から余分な損失を伴って調律LLMを指導し,最終層の生成能力に影響を与えることなく,これらの層が「良い」生成能力を得ることができることを示す。 中間層からトークンレベルで「動的信頼度に基づく早期終了」を行い、生成の品質を損なうことなく、テキスト生成の効率を向上させる。 我々は,Alpacaデータセット上でLLaMA-2モデルをチューニングし,4つの異なる人体教育試験セットに対して全体的評価を行う。 動的早期退避は、応答の生成品質を維持しつつ、一貫した推論計算コストの改善(7Bが37.86%、13Bモデルが46.35%)を達成することを示す。 さらに、出力の意味的類似性の比較や、出力で生成されたトークン数の比較による効率改善の解剖など、いくつかの重要な側面から結果を徹底的に分析する。 まとめると,本研究は,LLM推論の効率向上に寄与し,生成品質を維持しつつ,その普及に向けた重要なステップとなる。

Large Language Models (LLMs) have achieved remarkable performance across a wide variety of natural language tasks; however, their large size makes their inference slow and computationally expensive. Focusing on this problem, we propose to instruction tune LLMs with additional explicit losses from the intermediate layers (LITE) and show that it enables these layers to acquire 'good' generation ability without affecting the generation ability of the final layer. We perform 'dynamic confidence-based early exiting' at token level from the intermediate layers which improves the efficiency of text generation without compromising the quality of the generation. We conduct comprehensive experiments by instruction tuning LLaMA-2 models on the Alpaca dataset and holistically evaluate on four different human-instruction test sets. We show that dynamic early exiting achieves consistent and considerable inference computation cost improvements (37.86% for 7B and 46.35% for 13B model) while maintaining the generation quality of the responses. We further conduct a thorough analysis of the results over several important aspects, such as comparing the semantic similarity of the outputs and dissecting the efficiency improvements by comparing the number of tokens generated in the output. In summary, our work contributes to improving the efficiency of LLM inference while maintaining the generation quality, a crucial step en route to enabling their widespread adoption.
翻訳日:2023-11-08 18:55:38 公開日:2023-11-07
# GitBug-Actions:GitHubアクションで再現可能なバグフィックスベンチマークを構築する

GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions ( http://arxiv.org/abs/2310.15642v2 )

ライセンス: Link先を確認
Nuno Saavedra, Andr\'e Silva, Martin Monperrus(参考訳) バグフィックスベンチマークは、自動プログラム修復(APR)やフォールトローカライゼーション(FL)など、ソフトウェア工学の様々なサブフィールドを進化させる上で基本的なものである。 優れたベンチマークには、今日の技術と開発プラクティスを正確に反映する最近の例を含める必要があります。 長期的に実行可能なベンチマークは、例えば、もはや利用できない依存関係のために、残業時間を劣化しないテストスイートを特徴としなければならない。 既存のベンチマークは両方の基準を満たさない。 例えば、最上位のjavaベンチマークである defects4j が、2020年にアップデートされた。 さらに、既存のベンチマークの大半では、完全な再現性は無視されている。 本稿では,gitbug-actionsについて述べる。最新かつ完全に再現可能なバグフィックスを用いて,バグフィックスベンチマークを構築するための新しいツールである。 GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存して、バグフィックスを検出し、制御された再現可能な環境でCIパイプラインをスマートにローカルに実行する。 私たちの知る限りでは、GitHub Actionsを使ってバグフィックスを収集するのは初めてです。 ツールチェーンを示すために、gitbug-actionsをデプロイして、さまざまなリポジトリから実行可能な、完全に再現可能なバグ修正を含む、概念実証のgoバグフィックスベンチマークを構築します。 GitBug-Actionsをデモするビデオは、https://youtu.be/aBWwa1sJYBsで公開されている。

Bug-fix benchmarks are fundamental in advancing various sub-fields of software engineering such as automatic program repair (APR) and fault localization (FL). A good benchmark must include recent examples that accurately reflect technologies and development practices of today. To be executable in the long term, a benchmark must feature test suites that do not degrade overtime due to, for example, dependencies that are no longer available. Existing benchmarks fail in meeting both criteria. For instance, Defects4J, one of the foremost Java benchmarks, last received an update in 2020. Moreover, full-reproducibility has been neglected by the majority of existing benchmarks. In this paper, we present GitBug-Actions: a novel tool for building bug-fix benchmarks with modern and fully-reproducible bug-fixes. GitBug-Actions relies on the most popular CI platform, GitHub Actions, to detect bug-fixes and smartly locally execute the CI pipeline in a controlled and reproducible environment. To the best of our knowledge, we are the first to rely on GitHub Actions to collect bug-fixes. To demonstrate our toolchain, we deploy GitBug-Actions to build a proof-of-concept Go bug-fix benchmark containing executable, fully-reproducible bug-fixes from different repositories. A video demonstrating GitBug-Actions is available at: https://youtu.be/aBWwa1sJYBs.
翻訳日:2023-11-08 18:54:34 公開日:2023-11-07
# 非公式文書の抽象的コード要約のための深層学習の活用

Leveraging Deep Learning for Abstractive Code Summarization of Unofficial Documentation ( http://arxiv.org/abs/2310.15015v2 )

ライセンス: Link先を確認
AmirHossein Naghshzan, Latifa Guerrouj, Olga Baysal(参考訳) 通常、プログラミング言語には、API、メソッド、クラスで開発者をガイドする公式ドキュメントがある。 しかし研究者たちは、APIを学ぶための障壁として、APIの複雑な構造に関する不十分で不十分なドキュメント例と欠陥を特定した。 その結果、開発者はAPIについて詳しく知るために他のソース(StackOverflow、GitHubなど)を参照することができる。 近年の研究では、非公式な文書がコード要約を生成する貴重な情報源であることが示されている。 そこで我々は,このようなドキュメンテーションと深層学習技術を活用して,非公式なドキュメンテーションで議論されたAPIの高品質な要約を生成する動機付けを行った。 本稿では,StackOverflowで議論されているAPIの要約を生成するために,最先端のトランスフォーマーモデルであるBARTアルゴリズムを用いた自動アプローチを提案する。 我々は,テキスト要約において最も広く利用されている評価指標であるROUGEとBLEUを用いて,そのアプローチを評価するために,人為的な要約のオラクルを構築した。 さらに,前回の作業に対して,品質の観点から経験的に要約を評価した。 以上の結果から,深層学習アルゴリズムを用いることで,要約の質が向上し,精度が平均 %57,リコールが %66,f-measure が %61 となり,動作速度が4.4 倍速くなった。

Usually, programming languages have official documentation to guide developers with APIs, methods, and classes. However, researchers identified insufficient or inadequate documentation examples and flaws with the API's complex structure as barriers to learning an API. As a result, developers may consult other sources (StackOverflow, GitHub, etc.) to learn more about an API. Recent research studies have shown that unofficial documentation is a valuable source of information for generating code summaries. We, therefore, have been motivated to leverage such a type of documentation along with deep learning techniques towards generating high-quality summaries for APIs discussed in informal documentation. This paper proposes an automatic approach using the BART algorithm, a state-of-the-art transformer model, to generate summaries for APIs discussed in StackOverflow. We built an oracle of human-generated summaries to evaluate our approach against it using ROUGE and BLEU metrics which are the most widely used evaluation metrics in text summarization. Furthermore, we evaluated our summaries empirically against a previous work in terms of quality. Our findings demonstrate that using deep learning algorithms can improve summaries' quality and outperform the previous work by an average of %57 for Precision, %66 for Recall, and %61 for F-measure, and it runs 4.4 times faster.
翻訳日:2023-11-08 18:54:11 公開日:2023-11-07
# safety-gymnasium - 統合型安全強化学習ベンチマーク

Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2310.12567v2 )

ライセンス: Link先を確認
Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang(参考訳) 人工知能(AI)システムは、社会の進歩を促進する大きな可能性を秘めている。 しかし、その配置は重大な安全上の懸念からしばしば障害に直面している。 安全強化学習(SafeRL)は、複数の制約を同時に遵守しながらポリシーを最適化するソリューションとして登場し、安全クリティカルなシナリオにおける強化学習の統合という課題に対処する。 本稿では,ベクトルと視覚のみの入力を受け付け,単一のシナリオとマルチエージェントシナリオの両方において安全クリティカルなタスクを含む,セーフティ・ジムナシウムという環境スイートを提案する。 さらに, セーフポリシー最適化 (SafePO) と呼ばれるアルゴリズムのライブラリを提供し, 最先端のSafeRLアルゴリズムを16種類提供している。 この総合的なライブラリは、研究コミュニティのバリデーションツールとして機能する。 このベンチマークを導入することで、安全性能の評価と比較が容易になり、より安全で信頼性が高く、責任のある実世界のアプリケーションのための強化学習の開発が促進される。 プロジェクトのwebサイトはhttps://sites.google.com/view/safety-gymnasiumでアクセスできる。

Artificial intelligence (AI) systems possess significant potential to drive societal progress. However, their deployment often faces obstacles due to substantial safety concerns. Safe reinforcement learning (SafeRL) emerges as a solution to optimize policies while simultaneously adhering to multiple constraints, thereby addressing the challenge of integrating reinforcement learning in safety-critical scenarios. In this paper, we present an environment suite called Safety-Gymnasium, which encompasses safety-critical tasks in both single and multi-agent scenarios, accepting vector and vision-only input. Additionally, we offer a library of algorithms named Safe Policy Optimization (SafePO), comprising 16 state-of-the-art SafeRL algorithms. This comprehensive library can serve as a validation tool for the research community. By introducing this benchmark, we aim to facilitate the evaluation and comparison of safety performance, thus fostering the development of reinforcement learning for safer, more reliable, and responsible real-world applications. The website of this project can be accessed at https://sites.google.com/view/safety-gymnasium.
翻訳日:2023-11-08 18:53:28 公開日:2023-11-07
# 大規模言語モデルの時代における宣言的ソフトウェア仕様の自動修復

Automated Repair of Declarative Software Specifications in the Era of Large Language Models ( http://arxiv.org/abs/2310.12425v2 )

ライセンス: Link先を確認
Md Rashedul Hasan, Jiawei Li, Iftekhar Ahmed, Hamid Bagheri(参考訳) 宣言型ソフトウェア仕様言語の採用が増加し、デバッグの難しさと相まって、そのような言語に適用可能な効果的な自動修復技術の必要性が強調されている。 研究者は最近、テンプレートベースの修復、フィードバック駆動の反復的修復、境界付き徹底的なアプローチなど、宣言的ソフトウェア仕様を自動的に修復する様々な方法を模索している。 大規模な言語モデルの最新開発は、宣言的仕様の自動修復の新たな機会を提供する。 本研究では,OpenAI の ChatGPT を利用したアロイ宣言言語によるソフトウェア仕様の修復の有効性を評価する。 命令型言語とは異なり、アロイの仕様は実行されず、論理式に変換され、バックエンド制約ソルバを使用して仕様インスタンスを識別し、アサーションに反例する。 本評価は, 自動修理による合金宣言仕様の正しさと完全性を向上させるChatGPTの能力に焦点をあてる。 chatgptによって得られた結果を分析し、それらを主要な自動合金修復法と比較する。 我々の研究によると、ChatGPTは既存の技術と比べて不足しているものの、他の手法では対応できないバグの修正に成功した。 また,chatgptが生成した修正の誤り,不適切なオペレータ使用,型エラー,高階論理誤用,リレーショナルアーリティミスマッチについても分析を行った。 また,ChatGPTによる補修の幻覚例と,その結果の矛盾も観察した。 我々の研究は、宣言的な仕様修正のためにChatGPTを検討するソフトウェア実践者、研究者、ツールビルダーに貴重な洞察を提供する。

The growing adoption of declarative software specification languages, coupled with their inherent difficulty in debugging, has underscored the need for effective and automated repair techniques applicable to such languages. Researchers have recently explored various methods to automatically repair declarative software specifications, such as template-based repair, feedback-driven iterative repair, and bounded exhaustive approaches. The latest developments in large language models provide new opportunities for the automatic repair of declarative specifications. In this study, we assess the effectiveness of utilizing OpenAI's ChatGPT to repair software specifications written in the Alloy declarative language. Unlike imperative languages, specifications in Alloy are not executed but rather translated into logical formulas and evaluated using backend constraint solvers to identify specification instances and counterexamples to assertions. Our evaluation focuses on ChatGPT's ability to improve the correctness and completeness of Alloy declarative specifications through automatic repairs. We analyze the results produced by ChatGPT and compare them with those of leading automatic Alloy repair methods. Our study revealed that while ChatGPT falls short in comparison to existing techniques, it was able to successfully repair bugs that no other technique could address. Our analysis also identified errors in ChatGPT's generated repairs, including improper operator usage, type errors, higher-order logic misuse, and relational arity mismatches. Additionally, we observed instances of hallucinations in ChatGPT-generated repairs and inconsistency in its results. Our study provides valuable insights for software practitioners, researchers, and tool builders considering ChatGPT for declarative specification repairs.
翻訳日:2023-11-08 18:53:11 公開日:2023-11-07
# ニューラルネットワークを用いた局所的測定からグローバル量子特性の学習

Learning Global Quantum Properties from Local Measurements with Neural Networks ( http://arxiv.org/abs/2310.11807v2 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Yuexuan Wang and Giulio Chiribella(参考訳) 多粒子量子システムの特性を特徴づけることは、量子コンピューティングと多体量子物理学にとって重要な課題である。 しかし、システムのサイズが大きくなり、関心のある特性が多数のサイトにおけるグローバルな測定を伴う場合、タスクは極めて困難になる。 ここでは,周辺地域から収集される限られた測定データのみを用いて,文字列順序パラメータや多体位相不変量などの多体量子システムの大域的特性を正確に予測できるマルチタスクニューラルネットワークモデルを開発する。 このモデルは、量子可観測体の期待値だけでなく、絡み合いエントロピーのような量子状態の一般的な非線形関数を含む複数の量子特性を同時に予測することができる。 注目すべきは、与えられた量子特性の集合に対するマルチタスクトレーニングにより、モデルが元の集合以外の新しい性質を発見できることである。 ラベル付きデータなしでは、モデルは物質の量子位相の教師なし分類を行い、異なる位相間の未知の境界を明らかにすることができる。

Characterizing the properties of multiparticle quantum systems is a crucial task for quantum computing and many-body quantum physics. The task, however, becomes extremely challenging when the system size becomes large and when the properties of interest involve global measurements on a large number of sites. Here we develop a multi-task neural network model that can accurately predict global properties of many-body quantum systems, like string order parameters and many-body topological invariants, using only limited measurement data gathered from few neighbouring sites. The model can simultaneously predict multiple quantum properties, including not only expectation values of quantum observables, but also general nonlinear functions of the quantum state, such as entanglement entropies. Remarkably, we find that multi-task training over a given set of quantum properties enables our model to discover new properties outside the original set. Without any labeled data, the model can perform unsupervised classification of quantum phases of matter and uncover unknown boundaries between different phases.
翻訳日:2023-11-08 18:52:46 公開日:2023-11-07
# Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structure Beauty of Images or the Livingness of Space

Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structural Beauty of Images or the Livingness of Space ( http://arxiv.org/abs/2310.10149v2 )

ライセンス: Link先を確認
Yao Qianxiang and Bin Jiang(参考訳) 本研究では,画像の美的魅力を評価するための客観的計算手法として「構造美」の概念を導入する。 セグメント・エバンスモデル(sam)の活用により,再帰的セグメンテーションを利用して細粒度のサブ構造を抽出する手法を提案する。 さらに,階層構造を再構築することで,下位構造量と階層のより正確な表現を得る。 このアプローチはこれまでの研究を再現し、拡張し、グレースケールの変換や前景と背景の住まいの別個の計算を必要とせず、フルカラー画像における住まいの同時評価を可能にする。 さらに,本手法を主観的景観評価のレポジトリであるScenic or Notデータセットに適用することにより,0-6スコア範囲の主観的評価と高い一貫性を示す。 このことは、構造的美は単に主観的知覚ではなく、客観的な計算を通してアクセス可能な量的属性であることを示している。 ケーススタディを通じて、我々は3つの重要な結論に達した。 1) 絵画中の抽象的な部分構造だけでなく,木,建物,窓などの有意義な物体を正確に分割できることを示す。 2) 画像の明瞭度が計算結果に与える影響が観察され, より鮮明な画像では高い生存率が得られる傾向が見られた。 しかし、均等にぼやけた画像では、生活性は人間の視覚知覚と一致し、著しく低下することはない。 3)本手法は,畳み込みニューラルネットワーク(cnns)を用いた画像スコア予測手法と根本的に異なる。 我々の手法は計算結果を提供するだけでなく、透明性と解釈可能性も提供し、説明可能なAI(XAI)の領域における新たな道として位置づける。

This study introduces the concept of "structural beauty" as an objective computational approach for evaluating the aesthetic appeal of images. Through the utilization of the Segment anything model (SAM), we propose a method that leverages recursive segmentation to extract finer-grained substructures. Additionally, by reconstructing the hierarchical structure, we obtain a more accurate representation of substructure quantity and hierarchy. This approach reproduces and extends our previous research, allowing for the simultaneous assessment of Livingness in full-color images without the need for grayscale conversion or separate computations for foreground and background Livingness. Furthermore, the application of our method to the Scenic or Not dataset, a repository of subjective scenic ratings, demonstrates a high degree of consistency with subjective ratings in the 0-6 score range. This underscores that structural beauty is not solely a subjective perception, but a quantifiable attribute accessible through objective computation. Through our case studies, we have arrived at three significant conclusions. 1) our method demonstrates the capability to accurately segment meaningful objects, including trees, buildings, and windows, as well as abstract substructures within paintings. 2) we observed that the clarity of an image impacts our computational results; clearer images tend to yield higher Livingness scores. However, for equally blurry images, Livingness does not exhibit a significant reduction, aligning with human visual perception. 3) our approach fundamentally differs from methods employing Convolutional Neural Networks (CNNs) for predicting image scores. Our method not only provides computational results but also offers transparency and interpretability, positioning it as a novel avenue in the realm of Explainable AI (XAI).
翻訳日:2023-11-08 18:52:30 公開日:2023-11-07
# MiniGPT-v2:視覚言語多タスク学習のための統一インターフェースとしての大規模言語モデル

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning ( http://arxiv.org/abs/2310.09478v3 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny(参考訳) 大規模言語モデルは、様々な言語関連アプリケーションのための汎用インターフェースとして、目覚ましい能力を示している。 そこで我々は,画像記述や視覚的質問応答,視覚的接地など,多くの視覚言語タスクを完遂するための統一インターフェースの構築を目標としている。 課題は、単純なマルチモーダル命令で視覚言語タスクを効果的に実行するために単一のモデルを使用することである。 この目的のために,様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるMiniGPT-v2を導入する。 モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。 これらの識別子により、各タスク命令を無益に識別し、各タスクのモデル学習効率を向上させることができる。 3段階の学習の結果,MiniGPT-v2は他の視覚言語モデルと比較して,多くの視覚的質問応答および視覚的グラウンド化ベンチマークにおいて高い性能を示した。 私たちのモデルとコードはhttps://minigpt-v2.github.io/で利用可能です。

Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/
翻訳日:2023-11-08 18:51:59 公開日:2023-11-07
# AWEQ:大規模言語モデルに対するアクティベーション-ウェイト等化によるポストトレーニング量子化

AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models ( http://arxiv.org/abs/2311.01305v2 )

ライセンス: Link先を確認
Baisong Li and Xingwang Wang and Haixiao Xu(参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって優れた性能を示すが、計算と記憶のコストがかなり高い。 これらのモデルを定量化することは、この問題を軽減する効果的な方法である。 しかし、既存の手法はモデル精度とハードウェア効率のバランスをとるのに苦労している。 ここで、追加のトレーニングオーバーヘッドを必要としないポストトレーニング方法であるAWEQを紹介します。 AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。 重量量子化は活性化量子化よりも難しくないという観測がある。 AWEQは、チャネル等化を用いて活性化量子化の困難さを重みに転送し、両方の量子化の困難さのバランスを達成し、性能を最大化する。 さらに, 量子化バイアス誤差を軽減し, モデルのロバスト性を確保するため, 等化法をさらに洗練した。 LLaMA や OPT のような一般的なモデルに対する大規模な実験は、AWEQ が大規模モデルに対する既存の学習後の量子化手法よりも優れていることを示した。

Large language models(LLMs) exhibit excellent performance across a variety of tasks, but they come with significant computational and storage costs. Quantizing these models is an effective way to alleviate this issue. However, existing methods struggle to strike a balance between model accuracy and hardware efficiency. This is where we introduce AWEQ, a post-training method that requires no additional training overhead. AWEQ excels in both ultra-low-bit quantization and 8-bit weight and activation (W8A8) quantization. There is an observation that weight quantization is less challenging than activation quantization. AWEQ transfers the difficulty of activation quantization to weights using channel equalization, achieving a balance between the quantization difficulties of both, and thereby maximizing performance. We have further refined the equalization method to mitigate quantization bias error, ensuring the robustness of the model. Extensive experiments on popular models such as LLaMA and OPT demonstrate that AWEQ outperforms all existing post-training quantization methods for large models.
翻訳日:2023-11-08 18:42:19 公開日:2023-11-07
# TPSeNCE: 雨中の脱落・物検出のための人工無実雨発生を目指して

TPSeNCE: Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in Rain ( http://arxiv.org/abs/2311.00660v2 )

ライセンス: Link先を確認
Shen Zheng, Changjie Lu, Srinivasa G. Narasimhan(参考訳) 降雨生成アルゴリズムは,降雨条件下でのデレーニング手法の一般化とシーン理解を改善する可能性がある。 しかし実際には、アーチファクトや歪みを生み出し、適切な制約の欠如によって発生する雨量をコントロールするのに苦労する。 本稿では,現実的な降雨画像を生成するための画像間翻訳フレームワークを提案する。 まずTPS(Triangular Probability similarity)制約を導入し, 識別器多様体内の鮮明で雨の多い画像へ誘導し, 降雨時のアーチファクトや歪みを最小限に抑える。 従来, 負のサンプルをアンカーから無差別に押下する対照的な学習手法とは違って, セマンティックノイズコントラスト推定(SeNCE)戦略を提案し, クリア画像とレイン画像のセマンティック類似性とアンカーと負のサンプルの特徴類似性に基づいて, 負のサンプルのプッシュ力を再評価する。 実験は、雨のイメージレーディングと物体検出の恩恵を受ける、最小限のアーティファクトと歪みによる現実的な雨の発生を実証する。 さらに、この手法は現実的な雪と夜の画像を生成できるため、より広い適用可能性の可能性を強調できる。 コードはhttps://github.com/ShenZheng2000/TPSeNCEで入手できる。

Rain generation algorithms have the potential to improve the generalization of deraining methods and scene understanding in rainy conditions. However, in practice, they produce artifacts and distortions and struggle to control the amount of rain generated due to a lack of proper constraints. In this paper, we propose an unpaired image-to-image translation framework for generating realistic rainy images. We first introduce a Triangular Probability Similarity (TPS) constraint to guide the generated images toward clear and rainy images in the discriminator manifold, thereby minimizing artifacts and distortions during rain generation. Unlike conventional contrastive learning approaches, which indiscriminately push negative samples away from the anchors, we propose a Semantic Noise Contrastive Estimation (SeNCE) strategy and reassess the pushing force of negative samples based on the semantic similarity between the clear and the rainy images and the feature similarity between the anchor and the negative samples. Experiments demonstrate realistic rain generation with minimal artifacts and distortions, which benefits image deraining and object detection in rain. Furthermore, the method can be used to generate realistic snowy and night images, underscoring its potential for broader applicability. Code is available at https://github.com/ShenZheng2000/TPSeNCE.
翻訳日:2023-11-08 18:41:00 公開日:2023-11-07
# 多言語数学的推論における言語バリアの破壊:洞察と観察

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations ( http://arxiv.org/abs/2310.20246v3 )

ライセンス: Link先を確認
Nuo Chen, Zinan Zheng, Ning Wu, Ming Gong, Yangqiu Song, Dongmei Zhang, Jia Li(参考訳) 既存の研究は主に、単言語言語における数学的推論のための強力な言語学習モデル(llm)の開発に焦点を当てている。 このギャップを埋めるために, マルチリンガル数学推論 (xMR) LLM の探索と訓練を行った。 まず,多言語数学推論指導データセットmgsm8kinstructを構築し,10個の異なる言語を包含することで,xmrタスクにおけるデータ不足の学習問題に対処する。 収集したデータセットに基づいて,MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。 特にMathOctopus-13Bの精度は47.6%に達し、MGSMテストセットのChatGPT 46.3%を超えている。 1) 拒否的サンプリング戦略を多言語文脈に拡張すると, モデルの性能に有効であることが証明されるが, 限定的である。 2) 複数の言語にまたがる並列コーパス (SFT) の利用は, モデル性能を多言語的に向上させるだけでなく, モノリンガル性能も向上させる。 これは,多言語コーパスの作成が,特に数学的推論タスクにおいて,特定の言語におけるモデル性能を高める上で重要な戦略であることを示す。 例えば、mathoctopus-7bは、gsm8kテストセットで42.2%から50.8%に向上した。

Existing research predominantly focuses on developing powerful language learning models (LLMs) for mathematical reasoning within monolingual languages, with few explorations in preserving efficacy in a multilingual context. To bridge this gap, this paper pioneers exploring and training powerful Multilingual Math Reasoning (xMR) LLMs. Firstly, by utilizing translation, we construct the first multilingual math reasoning instruction dataset, MGSM8KInstruct, encompassing ten distinct languages, thus addressing the issue of training data scarcity in xMR tasks. Based on the collected dataset, we propose different training strategies to build powerful xMR LLMs, named MathOctopus, notably outperform conventional open-source LLMs and exhibit superiority over ChatGPT in few-shot scenarios. Notably, MathOctopus-13B reaches 47.6% accuracy which exceeds ChatGPT 46.3% on MGSM testset. Beyond remarkable results, we unearth several pivotal observations and insights from extensive experiments: (1) When extending the rejection sampling strategy to the multilingual context, it proves effective for model performances, albeit limited. (2) Employing parallel corpora for math Supervised Fine-Tuning (SFT) across multiple languages not only significantly enhances model performance multilingually but also elevates their monolingual performance. This indicates that crafting multilingual corpora can be regarded as a vital strategy for enhancing model performance in a specific language, especially in mathematical reasoning tasks. For instance, MathOctopus-7B improves its counterparts that trained on English from 42.2% to 50.8% on GSM8K testset.
翻訳日:2023-11-08 18:40:08 公開日:2023-11-07
# 部分最小二乗構造方程式モデルを用いた教育におけるチャットボットのユーザ知覚の分析

Analysis of the User Perception of Chatbots in Education Using A Partial Least Squares Structural Equation Modeling Approach ( http://arxiv.org/abs/2311.03636v1 )

ライセンス: Link先を確認
Md Rabiul Hasan, Nahian Ismail Chowdhury, Md Hadisur Rahman, Md Asif Bin Syed, and JuHyeong Ryu(参考訳) 人工知能(AI)の教育への統合は、この変革的な風景に注目すべき追加としてチャットボットが登場し、最近の発展である。 オンライン学習プラットフォームが急速に進歩するにつれ、学生はこのダイナミックな環境に素早く適応する必要がある。 したがって、チャットボットの受け入れ、特にChat Generative Pretrained Transformer(ChatGPT)やGoogle Bard、その他の対話型AI技術といったLarge Language Model(LLM)を利用するものを理解することが最重要となる。 しかし、教育におけるチャットボットに関する既存の研究は、オプティミズム、イノベーティブネス、不快感、セキュリティ、透明性、倫理、相互作用、エンゲージメント、正確さといった重要な行動に関する側面を見落としている。 このギャップに対処するため,本研究では,tam (technology readiness index) とtam (technology acceptance model) を考慮し,学生の教育におけるチャットボット採用の決定要因を検討するために,部分最小二乗構造方程式モデリング (pls-sem) を用いた。 データ収集に5点のLikertスケールを用い,R-Studioソフトウェアを用いて,合計185の応答を解析した。 その目的を達成するために12の仮説を立てました。 その結果, 楽観性と革新性は, 使いやすさ (peou) と有用性 (pu) に正の相関があることがわかった。 逆に、不快感と不安はPEOUに悪影響を及ぼし、セキュリティだけがPUに悪影響を及ぼした。 これらの知見は将来の技術設計者に対する洞察を与え、チャットボットの採用と教育的文脈での活用に影響を与える重要なユーザ行動要因を解明する。

The integration of Artificial Intelligence (AI) into education is a recent development, with chatbots emerging as a noteworthy addition to this transformative landscape. As online learning platforms rapidly advance, students need to adapt swiftly to excel in this dynamic environment. Consequently, understanding the acceptance of chatbots, particularly those employing Large Language Model (LLM) such as Chat Generative Pretrained Transformer (ChatGPT), Google Bard, and other interactive AI technologies, is of paramount importance. However, existing research on chatbots in education has overlooked key behavior-related aspects, such as Optimism, Innovativeness, Discomfort, Insecurity, Transparency, Ethics, Interaction, Engagement, and Accuracy, creating a significant literature gap. To address this gap, this study employs Partial Least Squares Structural Equation Modeling (PLS-SEM) to investigate the determinant of chatbots adoption in education among students, considering the Technology Readiness Index (TRI) and Technology Acceptance Model (TAM). Utilizing a five-point Likert scale for data collection, we gathered a total of 185 responses, which were analyzed using R-Studio software. We established 12 hypotheses to achieve its objectives. The results showed that Optimism and Innovativeness are positively associated with Perceived Ease of Use (PEOU) and Perceived Usefulness (PU). Conversely, Discomfort and Insecurity negatively impact PEOU, with only Insecurity negatively affecting PU. These findings provide insights for future technology designers, elucidating critical user behavior factors influencing chatbots adoption and utilization in educational contexts.
翻訳日:2023-11-08 17:31:07 公開日:2023-11-07
# 機械学習におけるイノベーションと単語使用パターン

Innovation and Word Usage Patterns in Machine Learning ( http://arxiv.org/abs/2311.03633v1 )

ライセンス: Link先を確認
V\'itor Bandeira Borges and Daniel Oliveira Cajueiro(参考訳) 本研究では,機械学習研究の進化のダイナミックな展望について考察する。 当初は、遅延ディリクレ割当の利用により、機械学習の領域に現れた中心的なテーマと基本的な概念を識別する。 その後,これらのテーマの進化的軌跡を網羅的に分析した。 研究貢献の斬新さと多様化を定量化するために、Kullback-Leibler Divergence 計量を用いる。 この統計指標は、学術論文の内容とその後の研究の発展との違いの程度を示す「サプライズ」の指標として機能する。 これらの洞察を融合することで、著名な研究者が果たす重要な役割と、機械学習領域における特定のアカデミック会場(周期や会議)の重要性を確認することができる。

In this study, we delve into the dynamic landscape of machine learning research evolution. Initially, through the utilization of Latent Dirichlet Allocation, we discern pivotal themes and fundamental concepts that have emerged within the realm of machine learning. Subsequently, we undertake a comprehensive analysis to track the evolutionary trajectories of these identified themes. To quantify the novelty and divergence of research contributions, we employ the Kullback-Leibler Divergence metric. This statistical measure serves as a proxy for ``surprise'', indicating the extent of differentiation between the content of academic papers and the subsequent developments in research. By amalgamating these insights, we gain the ability to ascertain the pivotal roles played by prominent researchers and the significance of specific academic venues (periodicals and conferences) within the machine learning domain.
翻訳日:2023-11-08 17:30:34 公開日:2023-11-07
# コントラスト学習による対物データ強化

Counterfactual Data Augmentation with Contrastive Learning ( http://arxiv.org/abs/2311.03630v1 )

ライセンス: Link先を確認
Ahmed Aloui, Juncheng Dong, Cat P. Le, Vahid Tarokh(参考訳) 異なる治療群間の統計的格差は、条件平均治療効果(CATE)を推定する上で最も重要な課題の1つである。 そこで本研究では,個人の選択した部分集合に対する反事実的帰結を暗示するモデル非依存データ拡張法を提案する。 具体的には、比較学習を用いて表現空間と類似度尺度を学習し、学習表現空間において学習類似度尺度で識別された個人が類似した結果が得られるようにする。 この性質は、代替治療群から近接した隣人に対する対実的な結果の信頼性の高い計算を保証する。 これらの信頼できるインプテーションで元のデータセットを補強することにより、最小インプテーションエラーを誘発しながら、異なる治療群間の不一致を効果的に低減することができる。 その後、拡張データセットを使用して、CATE推定モデルをトレーニングする。 合成および半合成ベンチマークに関する理論的解析および実験的研究は、最先端モデルにオーバーフィットする性能と頑健性を両立させることを実証する。

Statistical disparity between distinct treatment groups is one of the most significant challenges for estimating Conditional Average Treatment Effects (CATE). To address this, we introduce a model-agnostic data augmentation method that imputes the counterfactual outcomes for a selected subset of individuals. Specifically, we utilize contrastive learning to learn a representation space and a similarity measure such that in the learned representation space close individuals identified by the learned similarity measure have similar potential outcomes. This property ensures reliable imputation of counterfactual outcomes for the individuals with close neighbors from the alternative treatment group. By augmenting the original dataset with these reliable imputations, we can effectively reduce the discrepancy between different treatment groups, while inducing minimal imputation error. The augmented dataset is subsequently employed to train CATE estimation models. Theoretical analysis and experimental studies on synthetic and semi-synthetic benchmarks demonstrate that our method achieves significant improvements in both performance and robustness to overfitting across state-of-the-art models.
翻訳日:2023-11-08 17:30:23 公開日:2023-11-07
# 自己教師付き表現学習のためのランダムフィールド強化

Random Field Augmentations for Self-Supervised Representation Learning ( http://arxiv.org/abs/2311.03629v1 )

ライセンス: Link先を確認
Philip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar, Karan Singhal(参考訳) 自己教師付き表現学習は、表現に符号化された不変性を特定するためにデータ拡張に大きく依存する。 これまでの研究は、下流のパフォーマンスには多様なデータ拡張を適用することが不可欠であることを示した。 本研究では,自己教師付き表現学習のための画像拡張を生成するために,ガウス確率場に基づく局所変換の新しいファミリーを提案する。 これらの変換は、確立されたアフィン変換と色変換(変換、回転、色ジッタなど)を一般化し、変換パラメータ値をピクセルからピクセルに変化させることで拡張の空間を大きく拡大する。 パラメータは空間座標の連続関数として扱われ、独立なガウス確率場としてモデル化される。 実験結果は,自己指導型表現学習における新しい変換の有効性を示す。 具体的には、ImageNet下流分類のベースラインよりも1.7%のTop-1精度向上と、配信外iNaturalist下流分類の3.6%の改善を実現している。 しかし、新しい変換の柔軟性のため、学習された表現はハイパーパラメータに敏感である。 穏やかな変換は表現を改善するが、強い変換は画像の構造を劣化させ、拡張の多様性と強さのバランスをとることが学習表現の一般化を改善する上で重要であることを示している。

Self-supervised representation learning is heavily dependent on data augmentations to specify the invariances encoded in representations. Previous work has shown that applying diverse data augmentations is crucial to downstream performance, but augmentation techniques remain under-explored. In this work, we propose a new family of local transformations based on Gaussian random fields to generate image augmentations for self-supervised representation learning. These transformations generalize the well-established affine and color transformations (translation, rotation, color jitter, etc.) and greatly increase the space of augmentations by allowing transformation parameter values to vary from pixel to pixel. The parameters are treated as continuous functions of spatial coordinates, and modeled as independent Gaussian random fields. Empirical results show the effectiveness of the new transformations for self-supervised representation learning. Specifically, we achieve a 1.7% top-1 accuracy improvement over baseline on ImageNet downstream classification, and a 3.6% improvement on out-of-distribution iNaturalist downstream classification. However, due to the flexibility of the new transformations, learned representations are sensitive to hyperparameters. While mild transformations improve representations, we observe that strong transformations can degrade the structure of an image, indicating that balancing the diversity and strength of augmentations is important for improving generalization of learned representations.
翻訳日:2023-11-08 17:30:07 公開日:2023-11-07
# GNAT: 一般的なナラティブアライメントツール

GNAT: A General Narrative Alignment Tool ( http://arxiv.org/abs/2311.03627v1 )

ライセンス: Link先を確認
Tanzir Pial, Steven Skiena(参考訳) アルゴリズムシーケンスアライメントは、文書のペア間で共有される類似セグメントを特定し、多くのNLPタスクに基本となる。 しかし、翻訳や書き直しといった物語の遠いバージョン、特に原作小説よりもはるかに短い要約や要約の類似性を認識することは困難である。 バイオインフォマティクスと現代のテキスト類似度指標を結合したSmith-Watermanアルゴリズムのナラティブアライメントに対する一般的なアプローチを開発する。 我々はアライメントスコアの背景がガムベル分布に適合していることを示し、任意のアライメントの意義について厳密なp値を定義する。 本研究は,本手法のパワーと性能を概観する,文書の相対的・絶対的な長さ,すなわち要約から書籍へのアライメント,翻訳本のアライメント,短編アライメント,プラジャリズム検出という4つの異なる問題領域に対して,gnat(general narrative alignment tool)を適用し,評価する。

Algorithmic sequence alignment identifies similar segments shared between pairs of documents, and is fundamental to many NLP tasks. But it is difficult to recognize similarities between distant versions of narratives such as translations and retellings, particularly for summaries and abridgements which are much shorter than the original novels. We develop a general approach to narrative alignment coupling the Smith-Waterman algorithm from bioinformatics with modern text similarity metrics. We show that the background of alignment scores fits a Gumbel distribution, enabling us to define rigorous p-values on the significance of any alignment. We apply and evaluate our general narrative alignment tool (GNAT) on four distinct problem domains differing greatly in both the relative and absolute length of documents, namely summary-to-book alignment, translated book alignment, short story alignment, and plagiarism detection -- demonstrating the power and performance of our methods.
翻訳日:2023-11-08 17:29:45 公開日:2023-11-07
# 言葉は十分か? 感情的音楽生成のセマンティック・コンディショニングについて

Are Words Enough? On the semantic conditioning of affective music generation ( http://arxiv.org/abs/2311.03624v1 )

ライセンス: Link先を確認
Jorge Forero, Gilberto Bernardes, M\'onica Mendes(参考訳) 音楽は一般に感情を表現する手段として認識されている。 この意味では、音楽的感情を言語化する必要性から激しい議論が生まれる。 この懸念は、音楽の自動生成を意味論的命題に促すことができる深層学習モデルを用いた自然言語処理の指数関数的成長を考えると、今日では非常に重要と思われる。 このスコーピングレビューは、感情によって条件づけられた音楽生成の可能性を分析し、議論することを目的としている。 この問題に対処するため,本稿では,このトピックに寄与する様々な規律や手法を包含する歴史的視点を提案する。 本稿では,ルールベースモデルと機械学習モデルという,自動音楽生成における2つの主要なパラダイムについて述べる。 注目すべきは、テキスト記述から高忠実な音楽を生み出すことを目的としたディープラーニングアーキテクチャである。 これらのモデルは、感情を言葉で表現できるのか、あるいはそれらを通して表現できるのかなど、音楽の表現性に関する基本的な疑問を提起する。 音楽を通して感情を表現するための言語の制限と曖昧さを克服し、自然言語によるディープラーニングの利用は、新しい音楽作品のプロンプトと生成のための強力なツールを提供することで、創造的産業に影響を及ぼす可能性があると結論づける。

Music has been commonly recognized as a means of expressing emotions. In this sense, an intense debate emerges from the need to verbalize musical emotions. This concern seems highly relevant today, considering the exponential growth of natural language processing using deep learning models where it is possible to prompt semantic propositions to generate music automatically. This scoping review aims to analyze and discuss the possibilities of music generation conditioned by emotions. To address this topic, we propose a historical perspective that encompasses the different disciplines and methods contributing to this topic. In detail, we review two main paradigms adopted in automatic music generation: rules-based and machine-learning models. Of note are the deep learning architectures that aim to generate high-fidelity music from textual descriptions. These models raise fundamental questions about the expressivity of music, including whether emotions can be represented with words or expressed through them. We conclude that overcoming the limitation and ambiguity of language to express emotions through music, some of the use of deep learning with natural language has the potential to impact the creative industries by providing powerful tools to prompt and generate new musical works.
翻訳日:2023-11-08 17:29:26 公開日:2023-11-07
# TWIST: 教師と学生の仮想世界モデル蒸留

TWIST: Teacher-Student World Model Distillation for Efficient Sim-to-Real Transfer ( http://arxiv.org/abs/2311.03622v1 )

ライセンス: Link先を確認
Jun Yamada, Marc Rigter, Jack Collins, Ingmar Posner(参考訳) モデルベースRLは、モデルフリーRLと比較してサンプル効率と一般化能力が改善されたために、現実のロボットにとって有望なアプローチである。 しかし、視覚に基づく実世界のアプリケーションに有効なモデルベースRLソリューションは、学習したあらゆる世界モデルに対して、シムから現実のギャップを埋める必要がある。 計算コストが大きいため、標準領域のランダム化はこの問題に対する効果的な解決策を提供しない。 本稿では,TWIST(Teacher-Student World Model Distillation for Sim-to-Real Transfer)を提案する。 具体的には、TWISTは状態観察をシミュレータから取得した特権情報として利用し、シミュレート・トゥ・リアル転送を著しく高速化する。 具体的には、状態情報に基づいて教師世界モデルを効率的に訓練する。 同時に、ドメインランダム化された画像観測から一致するデータセットが収集される。 教師の世界モデルは、ドメインをランダム化した画像観察を入力とする学生の世界モデルを監督する。 TWISTは教師から学生モデルに学習された潜在ダイナミクスモデルを蒸留することにより、視覚に基づくRLタスクの効率的かつ効果的なシミュレートを実現する。 シミュレーションおよび実ロボットタスクにおける実験により,本手法は,サンプル効率およびsim-to-real転送のタスク性能の観点から,ナイーブドメインランダム化およびモデルフリー手法よりも優れることが示された。

Model-based RL is a promising approach for real-world robotics due to its improved sample efficiency and generalization capabilities compared to model-free RL. However, effective model-based RL solutions for vision-based real-world applications require bridging the sim-to-real gap for any world model learnt. Due to its significant computational cost, standard domain randomisation does not provide an effective solution to this problem. This paper proposes TWIST (Teacher-Student World Model Distillation for Sim-to-Real Transfer) to achieve efficient sim-to-real transfer of vision-based model-based RL using distillation. Specifically, TWIST leverages state observations as readily accessible, privileged information commonly garnered from a simulator to significantly accelerate sim-to-real transfer. Specifically, a teacher world model is trained efficiently on state information. At the same time, a matching dataset is collected of domain-randomised image observations. The teacher world model then supervises a student world model that takes the domain-randomised image observations as input. By distilling the learned latent dynamics model from the teacher to the student model, TWIST achieves efficient and effective sim-to-real transfer for vision-based model-based RL tasks. Experiments in simulated and real robotics tasks demonstrate that our approach outperforms naive domain randomisation and model-free methods in terms of sample efficiency and task performance of sim-to-real transfer.
翻訳日:2023-11-08 17:29:07 公開日:2023-11-07
# 変分オートエンコーダを用いたトーン音楽の潜時空間探索

Exploring Latent Spaces of Tonal Music using Variational Autoencoders ( http://arxiv.org/abs/2311.03621v1 )

ライセンス: Link先を確認
N\'adia Carvalho, Gilberto Bernardes(参考訳) 変分オートエンコーダ(vaes)は認知的および意味的価値の潜在表現を生成する効果的なモデルであることが証明されている。 バッハの合唱曲371コラールの原型調律音楽コーパスでvaesが訓練された度合は、第5の円を代表する潜在空間と、音楽認知で描かれた各キー成分ピッチの階層的関係を定義する。 より詳しくは,VAEコーパス符号化の潜時空間(ピアノロール,MIDI,ABC,トネッツ,ピッチのDFT,ピッチクラス分布)を比較し,認知的距離に一致したキー関係のピッチ空間を提供する。 これらの符号化のモデル性能を客観的指標を用いて評価し, 精度, 平均二乗誤差 (mse) , kl-divergence, 計算コストを測定した。 ABCエンコーディングは元のデータを再構築する上で最善を尽くし、Pitch DFTは潜伏空間からより多くの情報を取得する。 さらに、1ピースにつき12個のメジャーまたはマイナーな転位を客観的に評価し、アラインメントを定量化する。 1)鍵及び鍵ごとの区内及び区間距離 2)認知的ピッチ空間への鍵距離。 その結果、ピッチdft vae 潜在空間は認知空間と最もよく一致し、キー内の重なり合う物体がファジィクラスタであり、構造的意義や安定性の明確な順序(すなわち音階階層)を課す共通音空間となることがわかった。 異なるキーのトーナル階層は、キー距離とキー内コンポーネントの複数の階層(例えば音符と和音)の関係を測定するのに使うことができる。 VAEとエンコーディングフレームワークの実装はオンラインで利用可能です。

Variational Autoencoders (VAEs) have proven to be effective models for producing latent representations of cognitive and semantic value. We assess the degree to which VAEs trained on a prototypical tonal music corpus of 371 Bach's chorales define latent spaces representative of the circle of fifths and the hierarchical relation of each key component pitch as drawn in music cognition. In detail, we compare the latent space of different VAE corpus encodings -- Piano roll, MIDI, ABC, Tonnetz, DFT of pitch, and pitch class distributions -- in providing a pitch space for key relations that align with cognitive distances. We evaluate the model performance of these encodings using objective metrics to capture accuracy, mean square error (MSE), KL-divergence, and computational cost. The ABC encoding performs the best in reconstructing the original data, while the Pitch DFT seems to capture more information from the latent space. Furthermore, an objective evaluation of 12 major or minor transpositions per piece is adopted to quantify the alignment of 1) intra- and inter-segment distances per key and 2) the key distances to cognitive pitch spaces. Our results show that Pitch DFT VAE latent spaces align best with cognitive spaces and provide a common-tone space where overlapping objects within a key are fuzzy clusters, which impose a well-defined order of structural significance or stability -- i.e., a tonal hierarchy. Tonal hierarchies of different keys can be used to measure key distances and the relationships of their in-key components at multiple hierarchies (e.g., notes and chords). The implementation of our VAE and the encodings framework are made available online.
翻訳日:2023-11-08 17:28:40 公開日:2023-11-07
# FusionViT:LiDAR-Camera Vision Transformer Fusionによる階層型3次元物体検出

FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision Transformer Fusion ( http://arxiv.org/abs/2311.03620v1 )

ライセンス: Link先を確認
Xinhao Xiang, Jiawei Zhang(参考訳) 3dオブジェクト検出では、カメラとライダーの両方が、2d rgbイメージと3dポイントクラウドのような異なるモダリティのデータ表現で、同じ景色に関する補完的な情報を提供する有用なセンサーデバイスであることが示されている。 このようなマルチモーダルセンサデータの効果的な表現学習と融合は、より優れた3dオブジェクト検出性能のために必要不可欠である。 そこで本研究では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを提案する。 既存の3dオブジェクト検出アプローチとは異なり、fusionvitはpure-vitベースのフレームワークで、トランスフォーマーモデルを拡張してイメージとポイントクラウドの両方を埋め込んで効果的な表現学習を行う。 このようなマルチモーダルなデータ埋め込み表現は、学習した特徴をオブジェクト検出ヘッドに供給する前に、融合ビジョントランスフォーマーモデルを介してさらに融合し、入力シーン内の3Dオブジェクトの検出とローカライズを行う。 FusionViTの有効性を示すために、実際の交通オブジェクト検出ベンチマークデータセットであるKITTIとWaymo Openで広範な実験が行われた。 特に、fusionvitモデルは最先端のパフォーマンスを達成でき、カメライメージやlidarポイントクラウドに依存する既存のベースラインメソッドだけでなく、最新のマルチモーダルイメージポイントクラウドディープフュージョンアプローチよりも優れています。

For 3D object detection, both camera and lidar have been demonstrated to be useful sensory devices for providing complementary information about the same scenery with data representations in different modalities, e.g., 2D RGB image vs 3D point cloud. An effective representation learning and fusion of such multi-modal sensor data is necessary and critical for better 3D object detection performance. To solve the problem, in this paper, we will introduce a novel vision transformer-based 3D object detection model, namely FusionViT. Different from the existing 3D object detection approaches, FusionViT is a pure-ViT based framework, which adopts a hierarchical architecture by extending the transformer model to embed both images and point clouds for effective representation learning. Such multi-modal data embedding representations will be further fused together via a fusion vision transformer model prior to feeding the learned features to the object detection head for both detection and localization of the 3D objects in the input scenery. To demonstrate the effectiveness of FusionViT, extensive experiments have been done on real-world traffic object detection benchmark datasets KITTI and Waymo Open. Notably, our FusionViT model can achieve state-of-the-art performance and outperforms not only the existing baseline methods that merely rely on camera images or lidar point clouds, but also the latest multi-modal image-point cloud deep fusion approaches.
翻訳日:2023-11-08 17:28:06 公開日:2023-11-07
# バルクダイヤモンドにおけるソーフィッシュフォトニック結晶キャビティの作製

Fabrication of Sawfish photonic crystal cavities in bulk diamond ( http://arxiv.org/abs/2311.03618v1 )

ライセンス: Link先を確認
Tommaso Pregnolato, Marco E. Stucki, Julian M. Bopp, Maarten H. v. d. Hoeven, Alok Gokhale, Olaf Kr\"uger, and Tim Schr\"oder(参考訳) ダイヤモンドの色中心は、長いコヒーレンス時間を示す光学活性スピン状態を持つ量子系であり、そのため効率的なスピン光子界面の開発に有望な候補である。 しかし、放出された光子のごく一部のみがゼロフォノン線(zpl)のコヒーレントな光遷移によって生成され、システム全体の性能が制限される。 これらのエミッタをフォトニック結晶空洞に埋め込むことで、zpl光子とのカップリングが改善され、放出速度が向上する。 近年提案されている「ソーフィッシュ」キャビティの創製プロセスについて,46の因子と2つの光子を同時に効率88%の単一モードファイバに結合させることにより,発光速度を同時に向上させる実験現実的な可能性を持つ設計である。 このプロセスでは、総長さが20.5$\mu$mで、サイズは40nmまで小さく、完全に吊り下げられたデバイスを作ることができる。 光学特性は、対応する設計パラメータと品質(Q)因子から期待される振る舞いに従う基本モード共鳴を最大3825まで示す。 最後に, ナノファブリケーションがデバイスに与える影響について検討し, 微細な特性が著しく損なわれるにもかかわらず, キャビティ共鳴の測定値は対応するシミュレーション値から0.9 (1.2)%しかずれないことを示した。 このことは、Sawfishの設計が製造の不完全性に対して堅牢であることを示し、量子フォトニックネットワークの開発において魅力的な選択となっている。

Color centers in diamond are quantum systems with optically active spin-states that show long coherence times and are therefore a promising candidate for the development of efficient spin-photon interfaces. However, only a small portion of the emitted photons is generated by the coherent optical transition of the zero-phonon line (ZPL), which limits the overall performance of the system. Embedding these emitters in photonic crystal cavities improves the coupling to the ZPL photons and increases their emission rate. Here, we demonstrate the fabrication process of "Sawfish" cavities, a design recently proposed that has the experimentally-realistic potential to simultaneously enhance the emission rate by a factor of 46 and couple photons into a single-mode fiber with an efficiency of 88%. The presented process allows for the fabrication of fully suspended devices with a total length of 20.5 $\mu$m and features size as small as 40 nm. The optical characterization shows fundamental mode resonances that follow the behavior expected from the corresponding design parameters and quality (Q) factors as high as 3825. Finally, we investigate the effects of nanofabrication on the devices and show that, despite a noticeable erosion of the fine features, the measured cavity resonances deviate by only 0.9 (1.2)% from the corresponding simulated values. This proves that the Sawfish design is robust against fabrication imperfections, which makes it an attractive choice for the development of quantum photonic networks.
翻訳日:2023-11-08 17:27:44 公開日:2023-11-07
# 宇宙船近接操作とドッキングのための深ベイズ強化学習

Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking ( http://arxiv.org/abs/2311.03680v1 )

ライセンス: Link先を確認
Desong Du, Naiming Qi, Yanfang Liu, Wei Pan(参考訳) 自律型宇宙船の近接操作とドッキング(PMD)の追求において,安定性を保証する制御ポリシーを学習するための新しいベイズアクター批判強化学習アルゴリズムを導入する。 pmdタスクは、相対動的モデル、ドッキングコーン、コスト関数を反映したマルコフ決定プロセスとして定式化される。 リアプノフ理論の原理から、時間差分学習を制約付きガウス過程回帰問題として構成する。 この革新的なアプローチは、状態値関数をリアプノフ関数として表現し、ガウス過程と深層カーネル学習を活用する。 我々は,lyapunov に基づく安定性制約を統合しつつ,政策勾配を解析的に計算する新しいベイズ二次政策最適化手法を開発した。 この統合は、宇宙飛行ミッションの厳格な安全要求を満たす上で重要である。 提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 印象的かつ有望な性能を示した。

In the pursuit of autonomous spacecraft proximity maneuvers and docking(PMD), we introduce a novel Bayesian actor-critic reinforcement learning algorithm to learn a control policy with the stability guarantee. The PMD task is formulated as a Markov decision process that reflects the relative dynamic model, the docking cone and the cost function. Drawing from the principles of Lyapunov theory, we frame the temporal difference learning as a constrained Gaussian process regression problem. This innovative approach allows the state-value function to be expressed as a Lyapunov function, leveraging the Gaussian process and deep kernel learning. We develop a novel Bayesian quadrature policy optimization procedure to analytically compute the policy gradient while integrating Lyapunov-based stability constraints. This integration is pivotal in satisfying the rigorous safety demands of spaceflight missions. The proposed algorithm has been experimentally evaluated on a spacecraft air-bearing testbed and shows impressive and promising performance.
翻訳日:2023-11-08 17:18:30 公開日:2023-11-07
# unsupervised convolutional neural network fusion approachによるリモートセンシング画像の変化検出

Unsupervised convolutional neural network fusion approach for change detection in remote sensing images ( http://arxiv.org/abs/2311.03679v1 )

ライセンス: Link先を確認
Weidong Yan, Pei Yan, Li Cao(参考訳) 近年,ディープラーニングの急速な発展に伴い,ディープラーニングに基づくさまざまな変化検出手法が登場している。 しかし、これらの手法は通常、ネットワークモデルをトレーニングするために多数のトレーニングサンプルを必要とするため、非常に高価である。 本稿では,変化検出のための完全教師なし浅層畳み込みニューラルネットワーク(USCNN)融合手法を提案する。 まず、異なる大きさの畳み込み核を用いて画像のマルチスケール情報を抽出することにより、バイタイムイメージを異なる特徴空間に変換する。 次に、同一畳み込み核における双時間画像の出力特性を減算して対応する差分画像を得るとともに、1*1畳み込み層を用いて同一スケールの差分特徴画像を1つの特徴画像に融合させる。 最後に、異なるスケールの出力特徴を連結し、1×1の畳み込み層を用いて画像のマルチスケール情報を融合する。 モデルパラメータは再設計されたスパース関数によって得られる。 我々のモデルには3つの特徴がある: トレーニングプロセス全体は教師なしで行われ、ネットワークアーキテクチャは浅く、目的関数はスパースである。 したがって、それは一種の軽量ネットワークモデルと見なすことができる。 4つの実リモートセンシングデータセットの実験結果は,提案手法の有効性と有効性を示している。

With the rapid development of deep learning, a variety of change detection methods based on deep learning have emerged in recent years. However, these methods usually require a large number of training samples to train the network model, so it is very expensive. In this paper, we introduce a completely unsupervised shallow convolutional neural network (USCNN) fusion approach for change detection. Firstly, the bi-temporal images are transformed into different feature spaces by using convolution kernels of different sizes to extract multi-scale information of the images. Secondly, the output features of bi-temporal images at the same convolution kernels are subtracted to obtain the corresponding difference images, and the difference feature images at the same scale are fused into one feature image by using 1 * 1 convolution layer. Finally, the output features of different scales are concatenated and a 1 * 1 convolution layer is used to fuse the multi-scale information of the image. The model parameters are obtained by a redesigned sparse function. Our model has three features: the entire training process is conducted in an unsupervised manner, the network architecture is shallow, and the objective function is sparse. Thus, it can be seen as a kind of lightweight network model. Experimental results on four real remote sensing datasets indicate the feasibility and effectiveness of the proposed approach.
翻訳日:2023-11-08 17:18:13 公開日:2023-11-07
# cbsimt: 重み付きプレフィックストレーニングによる同時機械翻訳における幻覚緩和

CBSiMT: Mitigating Hallucination in Simultaneous Machine Translation with Weighted Prefix-to-Prefix Training ( http://arxiv.org/abs/2311.03672v1 )

ライセンス: Link先を確認
Mengge Liu, Wen Zhang, Xiang Li, Yanzhi Tian, Yuhang Guo, Jian Luan, Bin Wang, Shuoying Chen(参考訳) 同時機械翻訳(SiMT)は、全文が利用可能になる前に翻訳を開始する必要がある課題である。 Prefix-to-prefixフレームワークは、部分的なソースプレフィックスのみを使用してターゲットトークンを予測するSiMTに適用されることが多い。 しかし、言語間の単語の順序の違いにより、不整合プレフィックスペアはSiMTモデルを深刻な幻覚的問題、すなわちソース入力に不満足なターゲット出力に悩まさせる。 このような問題は、ソースプレフィックスがサポートしていないターゲットトークンを生成するだけでなく、より多くのソース単語を受信することで正しい翻訳を生成するのを妨げる。 本研究では,モデル信頼度を用いて幻覚トークンを知覚し,その負の影響を重み付きプレフィックストレーニングで軽減する信頼性ベース同時機械翻訳(CBSiMT)フレームワークを提案する。 具体的には、モデル信頼度に基づいてトークンレベルおよび文レベルの重みを算出し、損失関数に作用する。 トークンレベルの重みを用いて生成された目標トークンの忠実度を明示的に定量化し、文レベルの重みをモデル上で重大な単語順の差異を伴う文対の乱れを緩和する。 MuST-C English-to- Chinese および WMT15 German-to- English SiMT task の実験結果から,我々の手法は,ほとんどの待ち時間における翻訳品質を継続的に向上し,最大2 BLEU は低レイテンシで改善できることが示された。

Simultaneous machine translation (SiMT) is a challenging task that requires starting translation before the full source sentence is available. Prefix-to-prefix framework is often applied to SiMT, which learns to predict target tokens using only a partial source prefix. However, due to the word order difference between languages, misaligned prefix pairs would make SiMT models suffer from serious hallucination problems, i.e. target outputs that are unfaithful to source inputs. Such problems can not only produce target tokens that are not supported by the source prefix, but also hinder generating the correct translation by receiving more source words. In this work, we propose a Confidence-Based Simultaneous Machine Translation (CBSiMT) framework, which uses model confidence to perceive hallucination tokens and mitigates their negative impact with weighted prefix-to-prefix training. Specifically, token-level and sentence-level weights are calculated based on model confidence and acted on the loss function. We explicitly quantify the faithfulness of the generated target tokens using the token-level weight, and employ the sentence-level weight to alleviate the disturbance of sentence pairs with serious word order differences on the model. Experimental results on MuST-C English-to-Chinese and WMT15 German-to-English SiMT tasks demonstrate that our method can consistently improve translation quality at most latency regimes, with up to 2 BLEU scores improvement at low latency.
翻訳日:2023-11-08 17:17:53 公開日:2023-11-07
# 強化学習のための収縮理論による安定モジュール制御

Stable Modular Control via Contraction Theory for Reinforcement Learning ( http://arxiv.org/abs/2311.03669v1 )

ライセンス: Link先を確認
Bing Song, Jean-Jacques Slotine, Quang-Cuong Pham(参考訳) 本稿では, 安定度, 堅牢度, 一般化のための強化学習(RL)と制御技術を統合する新しい手法を提案する。 信号合成と動的分解によるモジュラリティを実現する。 信号合成は、RLが報酬の最大化に適用する潜在空間を生成する。 動的分解は座標変換によって実現され、各信号、すなわち各サブシステムが安定な自己フィードバックを持つときの安定性を保てるように、潜在信号が結合される補助空間を生成する。 モジュラリティを活用することで、非線形安定性問題は代数的に解くことができる問題、補助空間におけるサブシステムの安定性に分解され、ネットワークの重み付けの符号を切り替えるのと同じくらい簡単な制御ネットワークの入力勾配に線形制約を与える。 この最小侵襲的な安定性の方法は、階層的RLのような機械学習におけるモジュラーニューラルネットワークへの統合を容易にし、パフォーマンスを向上させる。 本研究では,本手法の必要性と有効性,すなわちロバスト性と一般化の必要性,学習操作における階層的RLの改善効果をシミュレーションで示す。

We propose a novel way to integrate control techniques with reinforcement learning (RL) for stability, robustness, and generalization: leveraging contraction theory to realize modularity in neural control, which ensures that combining stable subsystems can automatically preserve the stability. We realize such modularity via signal composition and dynamic decomposition. Signal composition creates the latent space, within which RL applies to maximizing rewards. Dynamic decomposition is realized by coordinate transformation that creates an auxiliary space, within which the latent signals are coupled in the way that their combination can preserve stability provided each signal, that is, each subsystem, has stable self-feedbacks. Leveraging modularity, the nonlinear stability problem is deconstructed into algebraically solvable ones, the stability of the subsystems in the auxiliary space, yielding linear constraints on the input gradients of control networks that can be as simple as switching the signs of network weights. This minimally invasive method for stability allows arguably easy integration into the modular neural architectures in machine learning, like hierarchical RL, and improves their performance. We demonstrate in simulation the necessity and the effectiveness of our method: the necessity for robustness and generalization, and the effectiveness in improving hierarchical RL for manipulation learning.
翻訳日:2023-11-08 17:17:25 公開日:2023-11-07
# 米国における医療保障の展開と社会・技術的な意味

Healthcare Security Breaches in the United States: Insights and their Socio-Technical Implications ( http://arxiv.org/abs/2311.03664v1 )

ライセンス: Link先を確認
Megha M. Moncy and Sadia Afreen and Saptarshi Purkayastha(参考訳) 本研究は,技術進歩と人間の行動の融合にある医療データ管理の分野で,人間の行動が果たす重要な役割について考察する。 2009年から現在までの米国におけるセキュリティ侵害の詳細な分析は、人間によるセキュリティ侵害の支配を解明している。 技術的弱点は確かに懸念されるが、我々の研究は、侵害のかなりの割合が人間の誤りや慣行によって引き起こされていることを強調し、トレーニング、認識、組織アーキテクチャにおいて顕著な欠陥を指摘している。 hipaa(health insurance portability and accountability act)やhitech(health information technology for economic and clinical health)法のような厳格な連邦政府の義務にもかかわらず、侵害は継続され、この領域におけるヒューマンファクターの不可欠な役割を強調している。 このような監視は患者のデータの機密性を損なうだけでなく、医療インフラに固有の基礎的信頼を損なう。 医療データセキュリティ侵害の社会技術的側面を探索することにより、医療データセキュリティに対する統合的でダイナミックで包括的なアプローチを提唱する。 この発見は、人間の行動と制度的倫理を同時に高揚させながら、技術的防御を強化することの意義を核にし、堅牢で命令的な医療データ管理環境を育む。

This research examines the pivotal role of human behavior in the realm of healthcare data management, situated at the confluence of technological advancements and human conduct. An in-depth analysis of security breaches in the United States from 2009 to the present elucidates the dominance of human-induced security breaches. While technological weak points are certainly a concern, our study highlights that a significant proportion of breaches are precipitated by human errors and practices, thus pinpointing a conspicuous deficiency in training, awareness, and organizational architecture. In spite of stringent federal mandates, such as the Health Insurance Portability and Accountability Act (HIPAA) and the Health Information Technology for Economic and Clinical Health (HITECH) Act, breaches persist, emphasizing the indispensable role of human factors within this domain. Such oversights not only jeopardize patient data confidentiality but also undermine the foundational trust inherent in the healthcare infrastructure. By probing the socio-technical facets of healthcare security infringements, this article advocates for an integrated, dynamic, and holistic approach to healthcare data security. The findings underscore the imperative of augmenting technological defenses while concurrently elevating human conduct and institutional ethos, thereby cultivating a robust and impervious healthcare data management environment.
翻訳日:2023-11-08 17:17:05 公開日:2023-11-07
# NLPモデルの一般化:表記と因果関係

Generalization of NLP Models: Notion and Causation ( http://arxiv.org/abs/2311.03663v1 )

ライセンス: Link先を確認
Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor(参考訳) NLPコミュニティは通常、一般化を評価するためにホールドアウトテストセットでモデルのパフォーマンスに依存する。 公式のテストセット以外でデータセットで観察されるパフォーマンス低下は、一般的に"分散外"効果に起因する。 そこで本研究では,一般性の基礎を探求し,その影響する諸要因について考察し,臨床研究から一般性を学ぶ。 臨床研究の一般性は a)原因及び効果の制御された測定を確実にするための実験の内部妥当性及び (b)より広い人口に対して結果の外部的妥当性又は輸送性。 本稿では,自然言語処理における機械学習モデル構築において,内部的妥当性を確保する必要性について述べる。 本研究では,関係抽出タスクにおけるエンティティ間の距離などの素因がモデル内部の妥当性にどのように影響し,一般化に悪影響を及ぼすかを示す。 また、一般化失敗の分析方法に関するガイダンスも提供します。

The NLP community typically relies on performance of a model on a held-out test set to assess generalization. Performance drops observed in datasets outside of official test sets are generally attributed to "out-of-distribution'' effects. Here, we explore the foundations of generalizability and study the various factors that affect it, articulating generalizability lessons from clinical studies. In clinical research generalizability depends on (a) internal validity of experiments to ensure controlled measurement of cause and effect, and (b) external validity or transportability of the results to the wider population. We present the need to ensure internal validity when building machine learning models in natural language processing, especially where results may be impacted by spurious correlations in the data. We demonstrate how spurious factors, such as the distance between entities in relation extraction tasks, can affect model internal validity and in turn adversely impact generalization. We also offer guidance on how to analyze generalization failures.
翻訳日:2023-11-08 17:16:41 公開日:2023-11-07
# 電力グリッド運用リスク評価のためのグラフニューラルネットワーク

Graph Neural Networks for Power Grid Operational Risk Assessment ( http://arxiv.org/abs/2311.03661v1 )

ライセンス: Link先を確認
Yadong Zhang, Pranav M Karve, Sankaran Mahadevan(参考訳) 本稿では,モンテカルロ(mc)サンプリングに基づく電力系統の日々の運用におけるリスク定量化のためのグラフニューラルネットワーク(gnn)サロゲートの有用性について検討する。 MCシミュレーションプロセスは、計算的に禁止されている確率格子変数(電力需要と再生可能生成)のサンプル値に対応する多数の最適電力フロー(OPF)問題を解決する必要がある。 計算的に安価なOPF問題のサロゲートは、高速MCシミュレーションの魅力的な代替手段となる。 GNNサロゲートはグラフ構造化データを扱う能力に優れており、特に適している。 したがって、OPF問題のGNNサロゲートは教師付き学習を用いて訓練される。 その後、(数時間前の)確率的風力発生と負荷予測から、モンテカルロ(MC)の関心量(運転準備、送電線の流れ)のサンプルを得るのに使用される。 GNNサロゲートの有用性は、OPFベースのグリッドとGNNベースのグリッドの信頼性とIEEE Case118合成グリッドのリスクを比較して評価する。 GNNサロゲートは(バスレベル、ブランチレベル、システムレベルの)グリッド状態を予測するのに十分正確であり、電力グリッドの高速かつ正確な運用リスク定量化を可能にする。 本稿では,GNNを用いた実世界の電力グリッドの高速信頼性とリスク定量化のための様々なツールを開発する。

In this article, the utility of graph neural network (GNN) surrogates for Monte Carlo (MC) sampling-based risk quantification in daily operations of power grid is investigated. The MC simulation process necessitates solving a large number of optimal power flow (OPF) problems corresponding to the sample values of stochastic grid variables (power demand and renewable generation), which is computationally prohibitive. Computationally inexpensive surrogates of the OPF problem provide an attractive alternative for expedited MC simulation. GNN surrogates are especially suitable due to their superior ability to handle graph-structured data. Therefore, GNN surrogates of OPF problem are trained using supervised learning. They are then used to obtain Monte Carlo (MC) samples of the quantities of interest (operating reserve, transmission line flow) given the (hours-ahead) probabilistic wind generation and load forecast. The utility of GNN surrogates is evaluated by comparing OPF-based and GNN-based grid reliability and risk for IEEE Case118 synthetic grid. It is shown that the GNN surrogates are sufficiently accurate for predicting the (bus-level, branch-level and system-level) grid state and enable fast as well as accurate operational risk quantification for power grids. The article thus develops various tools for fast reliability and risk quantification for real-world power grids using GNNs.
翻訳日:2023-11-08 17:16:29 公開日:2023-11-07
# 大規模言語モデルの線形表現仮説と幾何学

The Linear Representation Hypothesis and the Geometry of Large Language Models ( http://arxiv.org/abs/2311.03658v1 )

ライセンス: Link先を確認
Kiho Park, Yo Joong Choe, Victor Veitch(参考訳) 非公式に「線形表現仮説」とは、高レベル概念がある表現空間の方向として線型に表現されるという考えである。 本稿では,2つの密接に関連する疑問に対処する: 「線形表現」とは実際に何を意味するのか? そして、表現空間における幾何学的概念(コサイン類似性や射影など)をどのように意味づけるか。 これらに答えるために、反事実の言語を用いて「線形表現」の2つの形式化、出力(単語)表現空間の1つ、入力(文)空間の1つを与える。 次に、これらを線形プローブとモデルステアリングにそれぞれ接続することを証明する。 幾何学的概念を理解するために、形式化を用いて言語構造を正確に表現する特定の(非ユークリッド的)内積を特定する。 この因果内積を用いて、線型表現のすべての概念を統一する方法を示す。 特に、これは反実対を用いたプローブとステアリングベクトルの構築を可能にする。 LLaMA-2の実験では、概念の線形表現の存在、解釈と制御の関連、および内積の選択の基本的な役割が示されている。

Informally, the 'linear representation hypothesis' is the idea that high-level concepts are represented linearly as directions in some representation space. In this paper, we address two closely related questions: What does "linear representation" actually mean? And, how do we make sense of geometric notions (e.g., cosine similarity or projection) in the representation space? To answer these, we use the language of counterfactuals to give two formalizations of "linear representation", one in the output (word) representation space, and one in the input (sentence) space. We then prove these connect to linear probing and model steering, respectively. To make sense of geometric notions, we use the formalization to identify a particular (non-Euclidean) inner product that respects language structure in a sense we make precise. Using this causal inner product, we show how to unify all notions of linear representation. In particular, this allows the construction of probes and steering vectors using counterfactual pairs. Experiments with LLaMA-2 demonstrate the existence of linear representations of concepts, the connection to interpretation and control, and the fundamental role of the choice of inner product.
翻訳日:2023-11-08 17:16:08 公開日:2023-11-07
# マルチスケールKain-Fritsch(MSKF)対流スキームの機械学習パラメータ化

Machine Learning Parameterization of the Multi-scale Kain-Fritsch (MSKF) Convection Scheme ( http://arxiv.org/abs/2311.03652v1 )

ライセンス: Link先を確認
Xiaohui Zhong and Xing Yu and Hao Li(参考訳) 温暖帯の豪雨はしばしば南シナ沿岸で発生し、普通は局地化され、長く続くため、予測は困難である。 高分解能数値気象予測(nwp)モデルは、地形的特徴の解決とそのような高影響気象事象の予測にますます使われている。 しかし、格子間隔がグレイゾーンとして知られる対流の長さスケールに匹敵するようになると、大気境界層の乱流渦は部分的に解決され、ある程度パラメータ化される。 グレイゾーンにおける対流パラメタライゼーション(CP)スキームの使用は議論の余地がある。 グレーゾーン内の対流輸送の表現を高めるため,スケール対応CPスキームを開発した。 マルチスケールのKain-Fritsch (MSKF) スキームには、グリッド解像度で最大2kmの効率的な実装を可能にする修正が含まれている。 近年,物理パラメータ化をMLモデルに置き換えるなど,さまざまな分野の大気科学への機械学習(ML)モデルの適用が増加している。 本研究は、スケール認識型MSKF CPスキームの代替として、多出力双方向長短期メモリ(Bi-LSTM)モデルを提案する。 気象調査・予測(WRF)モデルは、南中国上空で5kmの水平解像度でトレーニングとテストデータを生成するために使用される。 さらに、WRFモデルはMLベースのCPスキームと結合し、WRFシミュレーションとMSKFスキームを比較した。 その結果, Bi-LSTMモデルは高い精度を達成でき, グレーゾーンのMSKFスキームを置き換えるMLモデルの可能性を示した。

Warm-sector heavy rainfall often occurs along the coast of South China, and it is usually localized and long-lasting, making it challenging to predict. High-resolution numerical weather prediction (NWP) models are increasingly used to better resolve topographic features and forecast such high-impact weather events. However, when the grid spacing becomes comparable to the length scales of convection, known as the gray zone, the turbulent eddies in the atmospheric boundary layer are only partially resolved and parameterized to some extent. Whether using a convection parameterization (CP) scheme in the gray zone remains controversial. Scale-aware CP schemes are developed to enhance the representation of convective transport within the gray zone. The multi-scale Kain-Fritsch (MSKF) scheme includes modifications that allow for its effective implementation at a grid resolution as high as 2 km. In recent years, there has been an increasing application of machine learning (ML) models to various domains of atmospheric sciences, including the replacement of physical parameterizations with ML models. This work proposes a multi-output bidirectional long short-term memory (Bi-LSTM) model as a replace the scale-aware MSKF CP scheme. The Weather Research and Forecast (WRF) model is used to generate training and testing data over South China at a horizontal resolution of 5 km. Furthermore, the WRF model is coupled with the ML based CP scheme and compared with WRF simulations with original MSKF scheme. The results demonstrate that the Bi-LSTM model can achieve high accuracy, indicating the potential use of ML models to substitute the MSKF scheme in the gray zone.
翻訳日:2023-11-08 17:15:50 公開日:2023-11-07
# sero: 分散状態からの回復のための自己教師付き強化学習

SeRO: Self-Supervised Reinforcement Learning for Recovery from Out-of-Distribution Situations ( http://arxiv.org/abs/2311.03651v1 )

ライセンス: Link先を確認
Chan Kim, Jaekyung Cho, Christophe Bobda, Seung-Woo Seo, and Seong-Woo Kim(参考訳) 強化学習を用いて訓練されたロボットエージェントは、アウトオブディストリビューション(ood)状態において信頼性の低いアクションを取るという問題がある。 エージェントは、トレーニング中に状態空間全体を訪れて学ぶことはほとんど不可能であるため、現実世界環境では簡単にOODになることができます。 残念ながら、信頼できないアクションはエージェントが元のタスクをうまく実行しないことを保証する。 したがって、エージェントはOOD状態にあるかどうかを認識し、信頼できない行動を続けるのではなく、学習した状態分布に戻る方法を学ぶ必要がある。 そこで本研究では,OOD状態に陥ると,OOD状態から回復するエージェントを自己管理的に訓練する方法を提案する。 実験結果から,本手法は,OOD状況から元のタスクのサンプル効率と性能の回復の観点から,エージェントがOOD状態から回復する能力を大幅に向上することを示した。 また, 本手法は, 分布状態の探索による訪問が困難であった場合でも, ood状況から回復するようエージェントを再訓練できることを示した。

Robotic agents trained using reinforcement learning have the problem of taking unreliable actions in an out-of-distribution (OOD) state. Agents can easily become OOD in real-world environments because it is almost impossible for them to visit and learn the entire state space during training. Unfortunately, unreliable actions do not ensure that agents perform their original tasks successfully. Therefore, agents should be able to recognize whether they are in OOD states and learn how to return to the learned state distribution rather than continue to take unreliable actions. In this study, we propose a novel method for retraining agents to recover from OOD situations in a self-supervised manner when they fall into OOD states. Our in-depth experimental results demonstrate that our method substantially improves the agent's ability to recover from OOD situations in terms of sample efficiency and restoration of the performance for the original tasks. Moreover, we show that our method can retrain the agent to recover from OOD situations even when in-distribution states are difficult to visit through exploration.
翻訳日:2023-11-08 17:15:24 公開日:2023-11-07
# 深層文書偽造検出のための画像生成と学習戦略

Image Generation and Learning Strategy for Deep Document Forgery Detection ( http://arxiv.org/abs/2311.03650v1 )

ライセンス: Link先を確認
Yamato Okamoto, Osada Genki, Iu Yahiro, Rintaro Hasegawa, Peifei Zhu, Hirokatsu Kataoka(参考訳) 近年、文書処理が盛んになり、多くの利益をもたらした。 しかし, 偽造文書画像の報告例は著しい増加傾向にある。 特に、生成タスクのためのディープニューラルネットワーク(dnn)メソッドの最近の進歩は、文書偽造の脅威を増幅する可能性がある。 一般的なコピー-ムーブ法で作成された文書画像に対する従来のアプローチは、DNNベースの手法で作成されたものとは相容れない。 この問題に対処するために,テキストの追加,削除,最近のDNNメソッドへの置き換えなどの攻撃をエミュレートすることで,文書偽造画像のトレーニングデータセットFD-VIEDを構築した。 さらに,自然画像と文書画像の両方を用いた自己教師付き学習による効果的な事前学習手法を提案する。 実験では,本手法が検出性能を向上させることを示す。

In recent years, document processing has flourished and brought numerous benefits. However, there has been a significant rise in reported cases of forged document images. Specifically, recent advancements in deep neural network (DNN) methods for generative tasks may amplify the threat of document forgery. Traditional approaches for forged document images created by prevalent copy-move methods are unsuitable against those created by DNN-based methods, as we have verified. To address this issue, we construct a training dataset of document forgery images, named FD-VIED, by emulating possible attacks, such as text addition, removal, and replacement with recent DNN-methods. Additionally, we introduce an effective pre-training approach through self-supervised learning with both natural images and document images. In our experiments, we demonstrate that our approach enhances detection performance.
翻訳日:2023-11-08 17:14:53 公開日:2023-11-07
# もっと教えてくれ! 視覚インコンテキスト学習のためのランダムプロンプト

Instruct Me More! Random Prompting for Visual In-Context Learning ( http://arxiv.org/abs/2311.03648v1 )

ライセンス: Link先を確認
Jiahao Zhang, Bowen Wang, Liangzhi Li, Yuta Nakashima, Hajime Nagahara(参考訳) 広範囲なデータセットでトレーニングされた大規模モデルは、様々なタスクにわたる高い一般化性のために好まれるアプローチとして現れている。 自然言語処理で一般的な戦略であるin-context learning(icl)は、モデルパラメータを更新せずに指示的なプロンプトを提供することで、異なるタスクにそのようなモデルを使用する。 このアイデアは現在、コンピュータビジョンで検討されており、入力/出力画像ペア(in-context pairと呼ばれる)がクエリイメージをプロンプトとしてモデルに供給され、所望の出力が例示される。 視覚 icl の効果はプロンプトの質に依存することが多い。 そこで我々は,学習可能な摂動(prompt)を用いて文脈内ペアを増強するinstruct me more(inmemo)という手法を導入する。 主流タスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。 特に、学習可能なプロンプトのないベースラインと比較して、InMeMoは前景のセグメンテーションと単一のオブジェクト検出タスクでmIoUスコアを7.35と15.13に向上させる。 この結果から,InMeMoは軽量トレーニングによる視覚ICLの性能向上のための多目的かつ効率的な方法であることがわかった。 コードはhttps://github.com/Jackieam/InMeMoで入手できる。

Large-scale models trained on extensive datasets, have emerged as the preferred approach due to their high generalizability across various tasks. In-context learning (ICL), a popular strategy in natural language processing, uses such models for different tasks by providing instructive prompts but without updating model parameters. This idea is now being explored in computer vision, where an input-output image pair (called an in-context pair) is supplied to the model with a query image as a prompt to exemplify the desired output. The efficacy of visual ICL often depends on the quality of the prompts. We thus introduce a method coined Instruct Me More (InMeMo), which augments in-context pairs with a learnable perturbation (prompt), to explore its potential. Our experiments on mainstream tasks reveal that InMeMo surpasses the current state-of-the-art performance. Specifically, compared to the baseline without learnable prompt, InMeMo boosts mIoU scores by 7.35 and 15.13 for foreground segmentation and single object detection tasks, respectively. Our findings suggest that InMeMo offers a versatile and efficient way to enhance the performance of visual ICL with lightweight training. Code is available at https://github.com/Jackieam/InMeMo.
翻訳日:2023-11-08 17:14:33 公開日:2023-11-07
# 非結合量子力学の代数的定式化

An algebraic formulation of nonassociative quantum mechanics ( http://arxiv.org/abs/2311.03647v1 )

ライセンス: Link先を確認
Peter Schupp, Richard J. Szabo(参考訳) 我々は、可観測物の非連想代数を扱える量子力学の好適な一般バージョンを開発し、従来の連想状態における標準量子理論に還元する。 我々の代数的アプローチは自然確率的であり、一般非結合代数の普遍包絡代数に基づいている。 状態の性質をトレースの概念とともに定式化し、それらを用いてGNS構造を開発する。 ハイゼンベルクとシュロディンガーの完全な正の力学の像を記述し、オクタニオン代数と同様に有限次元行列ジョルダン代数の明示的な例について形式論を述べる。

We develop a suitably general version of quantum mechanics that can handle nonassociative algebras of observables and which reduces to standard quantum theory in the traditional associative setting. Our algebraic approach is naturally probabilistic and is based on the universal enveloping algebra of a general nonassociative algebra. We formulate properties of states together with notions of trace, and use them to develop GNS constructions. We describe Heisenberg and Schrodinger pictures of completely positive dynamics, and we illustrate our formalism on the explicit examples of finite-dimensional matrix Jordan algebras as well as the octonion algebra.
翻訳日:2023-11-08 17:14:00 公開日:2023-11-07
# 単一スピンにおける非エルミート系の結び目位相の観察

Observation of the Knot Topology of Non-Hermitian Systems in a Single Spin ( http://arxiv.org/abs/2311.03642v1 )

ライセンス: Link先を確認
Yang Wu, Yunhan Wang, Xiangyu Ye, Wenquan Liu, Chang-Kui Duan, Ya Wang, Xing Rong, and Jiangfeng Du(参考訳) 系の非ハーモニティ性は、エルミート的トポロジーを持たない異なる結び目トポロジーをもたらす。 本稿では,長いコヒーレンス時間窒素空洞中心を持つ普遍的希釈法に基づく,ギャップ付き非エルミート系における結び目トポロジーの包括的研究を,$^{\text{12}}$C同位体精製ダイヤモンドで報告する。 エネルギーバンドのブレイディングパターンと固有状態トポロジーの両方が明らかにされる。 さらに,非エルミート系の位相的不変性を明らかにするため,固有状態トポロジーに関連する大域的生物rthogonal berry相が観察された。 提案手法は,非エルミート量子系におけるバンドブレイディング,固有状態トポロジー,対称性間の相互作用のさらなる探索方法である。

The non-Hermiticity of the system gives rise to distinct knot topology that has no Hermitian counterpart. Here, we report a comprehensive study of the knot topology in gapped non-Hermitian systems based on the universal dilation method with a long coherence time nitrogen-vacancy center in a $^{\text{12}}$C isotope purified diamond. Both the braiding patterns of energy bands and the eigenstate topology are revealed. Furthermore, the global biorthogonal Berry phase related to the eigenstate topology has been successfully observed, which identifies the topological invariance for the non-Hermitian system. Our method paves the way for further exploration of the interplay among band braiding, eigenstate topology and symmetries in non-Hermitian quantum systems.
翻訳日:2023-11-08 17:13:40 公開日:2023-11-07
# ドラグ・リフト係数の時間進化予測のための物理誘導二要素フーリエ機能演算子学習フレームワーク

A Physics-Guided Bi-Fidelity Fourier-Featured Operator Learning Framework for Predicting Time Evolution of Drag and Lift Coefficients ( http://arxiv.org/abs/2311.03639v1 )

ライセンス: Link先を確認
Amirhossein Mollaali, Izzet Sahin, Iqrar Raza, Christian Moya, Guillermo Paniagua, Guang Lin(参考訳) 努力を最小限に抑えつつ、正確な実験データと計算データの追求では、忠実度の高い結果が常に必要である。 しかし、そのような結果を達成するには、しばしば重要な計算資源が必要となる。 この課題に対処するため,本稿では,トレーニングに限定された高忠実度データセットを必要とする深層オペレータ学習ベースのフレームワークを提案する。 低忠実度データセットと高忠実度データセットを効果的に組み合わせ,それぞれの強みを生かした,新しい物理誘導型,双方向,フーリエ機能付き深層演算子ネットワーク(deeponet)フレームワークを提案する。 提案手法では,物理誘導型Fourier-Featured DeepONetの設計から始まり,対象解の本質的な物理的挙動からインスピレーションを得た。 その後、このネットワークをトレーニングし、広範囲なデータセットを用いて、主に低忠実度ソリューションを学習する。 このプロセスは、基礎的なソリューションパターンを包括的に把握することを保証する。 この基礎学習に続いて、低忠実度ディープオペレータネットワークの出力は物理誘導フーリエ特徴付き残差ディープオペレータネットワークを用いて強化される。 このネットワークは、初期低忠実度出力を洗練し、訓練に小さな高忠実度データセットを使用することで、高忠実度ソリューションを実現する。 特に,我々のフレームワークでは,目標解の発振特性を高精度に捉え,学習する能力から,フーリエ特徴ネットワークをdeeponetsのトランクネットワークとして採用している。 我々は,リフト係数とドラッグ係数の時間軌道予測を目的とした,よく知られた2次元ベンチマークシリンダ問題を用いて,このアプローチを検証する。 その結果,本フレームワークの基本構成要素として機能する物理誘導型フーリエ機能ディープオペレータネットワークは,データ駆動方式に比べてリフトおよびドラッグ係数の予測能力に優れていた。

In the pursuit of accurate experimental and computational data while minimizing effort, there is a constant need for high-fidelity results. However, achieving such results often requires significant computational resources. To address this challenge, this paper proposes a deep operator learning-based framework that requires a limited high-fidelity dataset for training. We introduce a novel physics-guided, bi-fidelity, Fourier-featured Deep Operator Network (DeepONet) framework that effectively combines low and high-fidelity datasets, leveraging the strengths of each. In our methodology, we began by designing a physics-guided Fourier-featured DeepONet, drawing inspiration from the intrinsic physical behavior of the target solution. Subsequently, we train this network to primarily learn the low-fidelity solution, utilizing an extensive dataset. This process ensures a comprehensive grasp of the foundational solution patterns. Following this foundational learning, the low-fidelity deep operator network's output is enhanced using a physics-guided Fourier-featured residual deep operator network. This network refines the initial low-fidelity output, achieving the high-fidelity solution by employing a small high-fidelity dataset for training. Notably, in our framework, we employ the Fourier feature network as the Trunk network for the DeepONets, given its proficiency in capturing and learning the oscillatory nature of the target solution with high precision. We validate our approach using a well-known 2D benchmark cylinder problem, which aims to predict the time trajectories of lift and drag coefficients. The results highlight that the physics-guided Fourier-featured deep operator network, serving as a foundational building block of our framework, possesses superior predictive capability for the lift and drag coefficients compared to its data-driven counterparts.
翻訳日:2023-11-08 17:13:16 公開日:2023-11-07
# 量子クロスプラットフォーム検証のためのマルチモーダル深層表現学習

Multimodal deep representation learning for quantum cross-platform verification ( http://arxiv.org/abs/2311.03713v1 )

ライセンス: Link先を確認
Yang Qian, Yuxuan Du, Zhenliang He, Min-hsiu Hsieh, Dacheng Tao(参考訳) 初期の量子コンピューティングの領域において重要な取り組みであるクロスプラットフォーム検証は、2つの不完全な量子デバイスが同一のアルゴリズムを実行し、最小限の測定値を利用して類似性を特徴づける試みである。 この文脈ではランダムな測定手法が有効であるが、量子ビット数の増加を伴う準指数計算の需要は、大量子ビットシナリオで実現不可能である。 この知識のギャップを埋めるために,本課題におけるデータの形式化が2つの異なるモダリティを具現化していることを認識する,革新的なマルチモーダル学習手法を提案する。 この知見に基づいて,マルチモーダルニューラルネットワークを考案し,これらのモダリティから知識を独立に抽出し,総合的なデータ表現を作成するための融合演算を行う。 学習表現は、学習データに存在しない新しい量子アルゴリズムを実行する際に、探索された量子デバイス間の類似性を効果的に特徴付けることができる。 提案手法は,50キュービットまでのシステムサイズを包含する様々なノイズモデルを特徴とするプラットフォーム上で評価する。 その結果、ランダムな測定値と比較して予測精度が3桁向上し、クロスプラットフォーム検証において各モダリティが果たした相補的な役割の有意な証拠が得られた。 これらの発見は、より広い量子システム学習タスクにおける課題を克服するために、マルチモーダル学習のパワーを活用する道を開いた。

Cross-platform verification, a critical undertaking in the realm of early-stage quantum computing, endeavors to characterize the similarity of two imperfect quantum devices executing identical algorithms, utilizing minimal measurements. While the random measurement approach has been instrumental in this context, the quasi-exponential computational demand with increasing qubit count hurdles its feasibility in large-qubit scenarios. To bridge this knowledge gap, here we introduce an innovative multimodal learning approach, recognizing that the formalism of data in this task embodies two distinct modalities: measurement outcomes and classical description of compiled circuits on explored quantum devices, both enriched with unique information. Building upon this insight, we devise a multimodal neural network to independently extract knowledge from these modalities, followed by a fusion operation to create a comprehensive data representation. The learned representation can effectively characterize the similarity between the explored quantum devices when executing new quantum algorithms not present in the training data. We evaluate our proposal on platforms featuring diverse noise models, encompassing system sizes up to 50 qubits. The achieved results demonstrate a three-orders-of-magnitude improvement in prediction accuracy compared to the random measurements and offer compelling evidence of the complementary roles played by each modality in cross-platform verification. These findings pave the way for harnessing the power of multimodal learning to overcome challenges in wider quantum system learning tasks.
翻訳日:2023-11-08 17:05:49 公開日:2023-11-07
# 2つのTD正規化アクタによる推定誤差の緩和と深部強化学習への批判

Mitigating Estimation Errors by Twin TD-Regularized Actor and Critic for Deep Reinforcement Learning ( http://arxiv.org/abs/2311.03711v1 )

ライセンス: Link先を確認
Junmin Zhong, Ruofan Wu, and Jennie Si(参考訳) 本稿では,TD-regularized actor-critic(TDR)法を新たに導入し,深層強化学習(DRL)における推定バイアスの問題に対処する。 過度と過度の両方のエラーを減らすことを目的としている。 分散学習と長期N段代理ステージ報酬(LNSS)法などの優れたDRL改善を組み合わせることで,本手法がDeepMind Control Suiteの課題環境において,TDRベースのアクタークリティカルラーニングにより,DRL法がそれぞれのベースラインを上回ることを示す。 さらに、TD3とSACは、それぞれD4PG(現在のSOTA)と同等の性能レベルまで上昇し、D4PGを平均報酬、収束速度、学習成功率、学習分散度で測定した新しいSOTAレベルに改善する。

We address the issue of estimation bias in deep reinforcement learning (DRL) by introducing solution mechanisms that include a new, twin TD-regularized actor-critic (TDR) method. It aims at reducing both over and under-estimation errors. With TDR and by combining good DRL improvements, such as distributional learning and long N-step surrogate stage reward (LNSS) method, we show that our new TDR-based actor-critic learning has enabled DRL methods to outperform their respective baselines in challenging environments in DeepMind Control Suite. Furthermore, they elevate TD3 and SAC respectively to a level of performance comparable to that of D4PG (the current SOTA), and they also improve the performance of D4PG to a new SOTA level measured by mean reward, convergence speed, learning success rate, and learning variance.
翻訳日:2023-11-08 17:05:24 公開日:2023-11-07
# NeurIPS 2022 Neural MMO Challenge: 専門化と貿易を兼ね備えた大規模マルチエージェントコンペティション

The NeurIPS 2022 Neural MMO Challenge: A Massively Multiagent Competition with Specialization and Trade ( http://arxiv.org/abs/2311.03707v1 )

ライセンス: Link先を確認
Enhong Liu, Joseph Suarez, Chenhui You, Bo Wu, Bingcheng Chen, Jun Hu, Jiaxin Chen, Xiaolong Zhu, Clare Zhu, Julian Togelius, Sharada Mohanty, Weijun Hong, Rui Du, Yibing Zhang, Qinwen Wang, Xinhang Li, Zheng Yuan, Xiang Li, Yuejia Huang, Kun Zhang, Hanhui Yang, Shiqi Tang, Phillip Isola(参考訳) 本稿では,500人が参加して1,600件以上の応募を受けたNeurIPS-2022 Neural MMO Challengeの結果を報告する。 以前のIJCAI-2022 Neural MMO Challengeと同様に、プロシージャ的に生成された世界に生き残った16人のエージェントがリソースを集め、相手を倒すことで参加した。 今年の競技は最新のv1.6 Neural MMOで行われ、新しい装備、戦闘、取引、より良いスコアシステムが導入されている。 これらの要素が組み合わさって、以前の競争には存在しないさらなる堅牢性と一般化の課題が生じる。 本稿では,課題の設計と成果を要約し,学習方法のベンチマークとして,この環境の可能性を探究し,少ない報酬を伴う複雑なタスクに対する実践的な強化学習手法を提案する。 さらに、環境ラッパー、ベンチマーク、将来の研究のための可視化ツールなど、ベースラインをオープンソース化しました。

In this paper, we present the results of the NeurIPS-2022 Neural MMO Challenge, which attracted 500 participants and received over 1,600 submissions. Like the previous IJCAI-2022 Neural MMO Challenge, it involved agents from 16 populations surviving in procedurally generated worlds by collecting resources and defeating opponents. This year's competition runs on the latest v1.6 Neural MMO, which introduces new equipment, combat, trading, and a better scoring system. These elements combine to pose additional robustness and generalization challenges not present in previous competitions. This paper summarizes the design and results of the challenge, explores the potential of this environment as a benchmark for learning methods, and presents some practical reinforcement learning training approaches for complex tasks with sparse rewards. Additionally, we have open-sourced our baselines, including environment wrappers, benchmarks, and visualization tools for future research.
翻訳日:2023-11-08 17:05:04 公開日:2023-11-07
# 局所変数を持つプログラムの効率的なボトムアップ合成

Efficient Bottom-Up Synthesis for Programs with Local Variables ( http://arxiv.org/abs/2311.03705v1 )

ライセンス: Link先を確認
Xiang Li and Xiangyu Zhou and Rui Dong and Yihong Zhang and Xinyu Wang(参考訳) 本稿では,プログラムをローカル変数(ラムダで導入されたもの)で効率的に検索できる新しい合成アルゴリズムを提案する。 従来のボトムアップ合成アルゴリズムは、自由な局所変数を持つプログラムを評価できないため、そのようなプログラムの探索空間(例えば、標準の観測等価性低減技術を用いて)を効果的に削減することができず、合成が遅くなる。 アルゴリズムは局所変数を持つプログラムの空間を削減できる。 lifted interpretationと呼ばれる重要なアイデアは、プログラム解釈プロセスを1つのプログラムを一度に評価することから、文法からすべてのプログラムを同時に評価することである。 Lifted interpretationは、ローカル変数のすべてのバインディングコンテキストを体系的に列挙し、ローカル変数を持つプログラムの空間を評価・縮小するメカニズムを提供する。 私たちのアイデアはWebオートメーションの領域でインスタンス化されています。 その結果生まれたArboristは、WebRobotやHelenaといった最先端技術よりも、はるかに広範囲の課題タスクを自動化することができる。

We propose a new synthesis algorithm that can efficiently search programs with local variables (e.g., those introduced by lambdas). Prior bottom-up synthesis algorithms are not able to evaluate programs with free local variables, and therefore cannot effectively reduce the search space of such programs (e.g., using standard observational equivalence reduction techniques), making synthesis slow. Our algorithm can reduce the space of programs with local variables. The key idea, dubbed lifted interpretation, is to lift up the program interpretation process, from evaluating one program at a time to simultaneously evaluating all programs from a grammar. Lifted interpretation provides a mechanism to systematically enumerate all binding contexts for local variables, thereby enabling us to evaluate and reduce the space of programs with local variables. Our ideas are instantiated in the domain of web automation. The resulting tool, Arborist, can automate a significantly broader range of challenging tasks more efficiently than state-of-the-art techniques including WebRobot and Helena.
翻訳日:2023-11-08 17:04:48 公開日:2023-11-07
# 実用性能保証を用いたDNN推論のためのパイプライン並列処理

Pipeline Parallelism for DNN Inference with Practical Performance Guarantees ( http://arxiv.org/abs/2311.03703v1 )

ライセンス: Link先を確認
Aaron Archer, Matthew Fahrbach, Kuikui Liu, Prakash Prabhu(参考訳) モデルグラフを$k$ステージに分割し、通信を含むボトルネックステージの実行時間を最小限にすることで、ディープニューラルネットワーク(dnn)推論のためのパイプライン並列性を最適化する。 本稿では,np-hard問題に対する実用的アルゴリズムを設計し,mip(mixed-integer programming)により得られた強下界との比較により,実用的にほぼ最適であることを示す。 これらのアルゴリズムと下限法を生産モデルに適用し,標準組合せ下限と比較して近似保証を大幅に改善した。 例えば、k=16$パイプラインステージを持つ生産データ全体の幾何学的手段によって評価されたmipは、下限を2倍以上に定式化し、近似比を2.175$から$1.058$に改善した。 この研究は、max-throughputパーティショニングは理論的には難しいが、実際、問題のアルゴリズム的な側面を扱っていることを示し、残りの課題の多くは、パーティショニングアルゴリズムにフィードするより正確なコストモデルを開発することである。

We optimize pipeline parallelism for deep neural network (DNN) inference by partitioning model graphs into $k$ stages and minimizing the running time of the bottleneck stage, including communication. We design practical algorithms for this NP-hard problem and show that they are nearly optimal in practice by comparing against strong lower bounds obtained via novel mixed-integer programming (MIP) formulations. We apply these algorithms and lower-bound methods to production models to achieve substantially improved approximation guarantees compared to standard combinatorial lower bounds. For example, evaluated via geometric means across production data with $k=16$ pipeline stages, our MIP formulations more than double the lower bounds, improving the approximation ratio from $2.175$ to $1.058$. This work shows that while max-throughput partitioning is theoretically hard, we have a handle on the algorithmic side of the problem in practice and much of the remaining challenge is in developing more accurate cost models to feed into the partitioning algorithms.
翻訳日:2023-11-08 17:04:32 公開日:2023-11-07
# 動力学的インダクタンスパラメトリック発振器を用いたゼプトホルムスピンエコーのラッチ検出

Latched Detection of Zeptojoule Spin Echoes with a Kinetic Inductance Parametric Oscillator ( http://arxiv.org/abs/2311.03702v1 )

ライセンス: Link先を確認
Wyatt Vine, Anders Kringh{\o}j, Mykhailo Savytskyi, Daniel Parker, Thomas Schenkel, Brett C. Johnson, Jeffrey C. McCallum, Andrea Morello, Jarryd J. Pla(参考訳) 共鳴周波数が2倍に強く励起されると、非線形共振器は、パラメトリック自己振動として知られる高振幅のキャビティ場を発達させる。 この不安定性が発生する境界は非常に鋭く、それゆえ検出器を実現する機会を与える。 ここでは超伝導マイクロ波共振器をベースとし、非線型性は運動インダクタンスから得られる。 この装置は、自己振動状態に遷移して低出力マイクロ波波束の吸収を示す。 校正波束を用いて、ゼプトジュールエネルギー波束による検出効率を測定する。 次に、共振器に誘導結合したシリコン中の$^{209}$Biドナーのアンサンブルを用いて、電子スピン共鳴の測定に適用する。 我々は、根底にあるスピンエコーの5倍の振幅で、スピン信号のラッチ・リードアウトを実現する。

When strongly pumped at twice their resonant frequency, non-linear resonators develop a high-amplitude intracavity field, a phenomenon known as parametric self-oscillations. The boundary over which this instability occurs can be extremely sharp and thereby presents an opportunity for realizing a detector. Here we operate such a device based on a superconducting microwave resonator whose non-linearity is engineered from kinetic inductance. The device indicates the absorption of low-power microwave wavepackets by transitioning to a self-oscillating state. Using calibrated wavepackets we measure the detection efficiency with zeptojoule energy wavepackets. We then apply it to measurements of electron spin resonance, using an ensemble of $^{209}$Bi donors in silicon that are inductively coupled to the resonator. We achieve a latched-readout of the spin signal with an amplitude that is five hundred times greater than the underlying spin echoes.
翻訳日:2023-11-08 17:04:13 公開日:2023-11-07
# 迅速なメタ強化学習適応のための仮説ネットワーク計画探索

Hypothesis Network Planned Exploration for Rapid Meta-Reinforcement Learning Adaptation ( http://arxiv.org/abs/2311.03701v1 )

ライセンス: Link先を確認
Maxwell Joseph Jacobson, Yexiang Xue(参考訳) メタ強化学習(Meta RL)は、急速に変化する環境やタスクに適応するエージェントを訓練する。 現在の戦略は、しばしばモデル探索の受動的性質によって適応効率を失うため、新しい遷移力学の理解が遅れる。 この結果、特に急速に進化するタスクは解決できない。 提案手法は,仮説ネットワークによる探索プロセスを統合し,適応速度を最適化する手法である仮説ネットワーク計画探索(Hypothesis Network Planned Exploration, HyPE)を提案する。 HyPEは生成仮説ネットワークを用いて状態遷移力学のポテンシャルモデルを作成し、戦略的に考案された実験を通じて誤ったモデルを除去する。 Alchemyゲームのシンボリックバージョンで評価され、HyPEは適応速度とモデルの精度においてベースライン法を上回り、急速に進化する環境で強化学習適応を強化する可能性を検証する。

Meta Reinforcement Learning (Meta RL) trains agents that adapt to fast-changing environments and tasks. Current strategies often lose adaption efficiency due to the passive nature of model exploration, causing delayed understanding of new transition dynamics. This results in particularly fast-evolving tasks being impossible to solve. We propose a novel approach, Hypothesis Network Planned Exploration (HyPE), that integrates an active and planned exploration process via the hypothesis network to optimize adaptation speed. HyPE uses a generative hypothesis network to form potential models of state transition dynamics, then eliminates incorrect models through strategically devised experiments. Evaluated on a symbolic version of the Alchemy game, HyPE outpaces baseline methods in adaptation speed and model accuracy, validating its potential in enhancing reinforcement learning adaptation in rapidly evolving settings.
翻訳日:2023-11-08 17:03:58 公開日:2023-11-07
# 逆強化学習のための新しい変分下限

A Novel Variational Lower Bound for Inverse Reinforcement Learning ( http://arxiv.org/abs/2311.03698v1 )

ライセンス: Link先を確認
Yikang Gui, Prashant Doshi(参考訳) 逆強化学習(IRL)は、専門家の軌道から報酬関数を学習し、模倣や協力の課題を理解し、手動の報酬工学の必要性を取り除く。 しかし、未知のダイナミクスを持つ大規模で高次元的な問題の文脈におけるIRLは特に困難である。 本稿では、最適ノードを持つ確率的グラフィカルモデルの枠組みに基づいて、新しい変動下界IRL(VLB-IRL)を提案する。 提案手法は,学習した報奨関数の下での報酬関数とポリシーを同時に学習し,与えられた報奨関数の最適度分布と与えられた軌道の最適度の真の分布との逆のクルバック・リーブラー偏差を最小化することと等価な下界を最大化する。 これにより、学習された報酬のポリシーがいくつかの既知のドメインで専門家レベルのパフォーマンスを達成するように、有効な報酬関数を学習する新しいirlメソッドが導かれる。 重要なことは、この手法がこれらの領域における既存の最先端IRLアルゴリズムより優れており、学習方針からの報奨がより優れていることを示している。

Inverse reinforcement learning (IRL) seeks to learn the reward function from expert trajectories, to understand the task for imitation or collaboration thereby removing the need for manual reward engineering. However, IRL in the context of large, high-dimensional problems with unknown dynamics has been particularly challenging. In this paper, we present a new Variational Lower Bound for IRL (VLB-IRL), which is derived under the framework of a probabilistic graphical model with an optimality node. Our method simultaneously learns the reward function and policy under the learned reward function by maximizing the lower bound, which is equivalent to minimizing the reverse Kullback-Leibler divergence between an approximated distribution of optimality given the reward function and the true distribution of optimality given trajectories. This leads to a new IRL method that learns a valid reward function such that the policy under the learned reward achieves expert-level performance on several known domains. Importantly, the method outperforms the existing state-of-the-art IRL algorithms on these domains by demonstrating better reward from the learned policy.
翻訳日:2023-11-08 17:03:44 公開日:2023-11-07
# 2言語コーパスマイニングと多段階ファインチューニングによる講義テキストの機械翻訳の改善

Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine Translation of Lecture Transcripts ( http://arxiv.org/abs/2311.03696v1 )

ライセンス: Link先を確認
Haiyue Song, Raj Dabre, Chenhui Chu, Atsushi Fujita and Sadao Kurohashi(参考訳) 講義書き起こし翻訳は、学習者がオンラインコースを理解するのに役立つが、高品質の講義機械翻訳システムを構築するには、公開されている並列コーパスが欠如している。 そこで本研究では,並列コーパスマイニングのためのフレームワークについて検討し,Courseraの公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。 並列コーパスを作成するために,機械翻訳文のコサイン類似性を利用した動的プログラムベース文アライメントアルゴリズムを提案する。 文アライメントF1スコアは96%に達し、BERTScore, LASER, sentBERTメソッドよりも高い。 英語と英語の同時翻訳では,約5万行の並列コーパスを抽出し,手動フィルタリングによる翻訳性能のベンチマークによる開発・テストセットを作成した。 機械翻訳実験により, マイニングしたコーパスが多段微調整により, 領域外並列コーパスと併用することにより, 講義翻訳の質を高めることを示した。 さらに, コーパスの収集と清掃, 並列文のマイニング, マイニングデータのクリーニング, 高品質な評価スプリットの作成に関するガイドラインも提案した。 再現性のために、私たちはコーパスとそれらを作成するコードをリリースしました。 データセットはhttps://github.com/shyyhs/courseraparallelcorpusminingで入手できる。

Lecture transcript translation helps learners understand online courses, however, building a high-quality lecture machine translation system lacks publicly available parallel corpora. To address this, we examine a framework for parallel corpus mining, which provides a quick and effective way to mine a parallel corpus from publicly available lectures on Coursera. To create the parallel corpora, we propose a dynamic programming based sentence alignment algorithm which leverages the cosine similarity of machine-translated sentences. The sentence alignment F1 score reaches 96%, which is higher than using the BERTScore, LASER, or sentBERT methods. For both English--Japanese and English--Chinese lecture translations, we extracted parallel corpora of approximately 50,000 lines and created development and test sets through manual filtering for benchmarking translation performance. Through machine translation experiments, we show that the mined corpora enhance the quality of lecture transcript translation when used in conjunction with out-of-domain parallel corpora via multistage fine-tuning. Furthermore, this study also suggests guidelines for gathering and cleaning corpora, mining parallel sentences, cleaning noise in the mined data, and creating high-quality evaluation splits. For the sake of reproducibility, we have released the corpora as well as the code to create them. The dataset is available at https://github.com/shyyhs/CourseraParallelCorpusMining.
翻訳日:2023-11-08 17:03:25 公開日:2023-11-07
# オフラインメタ強化学習におけるコンテキストシフト削減

Context Shift Reduction for Offline Meta-Reinforcement Learning ( http://arxiv.org/abs/2311.03695v1 )

ライセンス: Link先を確認
Yunkai Gao, Rui Zhang, Jiaming Guo, Fan Wu, Qi Yi, Shaohui Peng, Siming Lan, Ruizhi Chen, Zidong Du, Xing Hu, Qi Guo, Ling Li, Yunji Chen(参考訳) オフラインメタ強化学習(omrl)は、事前に収集されたオフラインデータセットを使用して、未処理タスクにおけるエージェントの一般化能力を高める。 しかしながら、(行動方針から)トレーニングに使用されるコンテキストと(探索政策から)テストに使用されるコンテキストの分布の不一致によって、コンテキストシフトの問題が発生する。 文脈シフト問題は誤ったタスク推論をもたらし、メタ政治の一般化能力をさらに悪化させる。 既存のOMRLメソッドはこの問題を無視するか、追加情報で軽減しようとする。 本稿では,オフラインデータセットのみを用いてコンテキストシフト問題に対処するための新しい手法として,omrl (csro) を提案する。 CSROの重要な洞察は、メタトレーニングとメタテストの両方の段階でのポリシーの影響を最小限に抑えることである。 メタトレーニング中、タスク表現に対する行動ポリシーの影響を低減するために、最大最小の相互情報表現学習機構を設計する。 メタテストフェーズでは,探索政策の効果を低減するために,非事前コンテキスト収集戦略を導入する。 実験の結果、CSROはコンテキストシフトを著しく低減し、様々な挑戦領域にまたがる従来の手法を上回る一般化能力を向上させることが示された。

Offline meta-reinforcement learning (OMRL) utilizes pre-collected offline datasets to enhance the agent's generalization ability on unseen tasks. However, the context shift problem arises due to the distribution discrepancy between the contexts used for training (from the behavior policy) and testing (from the exploration policy). The context shift problem leads to incorrect task inference and further deteriorates the generalization ability of the meta-policy. Existing OMRL methods either overlook this problem or attempt to mitigate it with additional information. In this paper, we propose a novel approach called Context Shift Reduction for OMRL (CSRO) to address the context shift problem with only offline datasets. The key insight of CSRO is to minimize the influence of policy in context during both the meta-training and meta-test phases. During meta-training, we design a max-min mutual information representation learning mechanism to diminish the impact of the behavior policy on task representation. In the meta-test phase, we introduce the non-prior context collection strategy to reduce the effect of the exploration policy. Experimental results demonstrate that CSRO significantly reduces the context shift and improves the generalization ability, surpassing previous methods across various challenging domains.
翻訳日:2023-11-08 17:03:01 公開日:2023-11-07
# 大規模言語モデルの訓練・微調整・推論における実行時性能の判別

Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models ( http://arxiv.org/abs/2311.03687v1 )

ライセンス: Link先を確認
Longteng Zhang, Xiang Liu, Zeyu Li, Xinglin Pan, Peijie Dong, Ruibo Fan, Rui Guo, Xin Wang, Qiong Luo, Shaohuai Shi, Xiaowen Chu(参考訳) 大規模言語モデル(LLM)は、学術と産業の両方において大きな進歩を遂げており、その人気は、LLM事前学習、微調整、推論を加速する多くのオープンソースフレームワークと技術をもたらす。 LLMの訓練と展開は、かなりの計算資源とメモリを必要とするためコストがかかるため、システムパイプラインとオペレーターの改善のために多くの効率的なアプローチが開発されている。 しかし、ランタイムのパフォーマンスはハードウェアとソフトウェアスタックによって大きく異なるため、最高の構成を選択することは困難である。 本研究では,マクロとマイクロの両方の観点から性能をベンチマークすることを目的とする。 まず、ZeRO、量子化、再計算、FlashAttentionを含む、個別に最適化された3つの8GPUプラットフォーム上の7, 13, 70億のパラメータ(7B, 13B, 70B)の異なるサイズで、事前トレーニング、微調整、サービスLLMのエンドツーエンドのパフォーマンスをベンチマークする。 次に,LLMにおける計算処理や通信演算子を含む,サブモジュールの詳細なランタイム解析を行う。 エンドユーザにとって、私たちのベンチマークと調査結果は、LLMをデプロイするための構成を選択するハードウェアプラットフォームとともに、さまざまな最適化テクニック、トレーニング、推論フレームワークをより理解するのに役立ちます。 研究者にとって、我々は、LLMのランタイム性能をさらに最適化する将来的な作業の可能性を見出した。

Large Language Models (LLMs) have seen great advance in both academia and industry, and their popularity results in numerous open-source frameworks and techniques in accelerating LLM pre-training, fine-tuning, and inference. Training and deploying LLMs are expensive as it requires considerable computing resources and memory, hence many efficient approaches have been developed for improving system pipelines as well as operators. However, the runtime performance can vary significantly across hardware and software stacks, which makes it difficult to choose the best configuration. In this work, we aim to benchmark the performance from both macro and micro perspectives. First, we benchmark the end-to-end performance of pre-training, fine-tuning, and serving LLMs in different sizes , i.e., 7, 13, and 70 billion parameters (7B, 13B, and 70B) on three 8-GPU platforms with and without individual optimization techniques, including ZeRO, quantization, recomputation, FlashAttention. Then, we dive deeper to provide a detailed runtime analysis of the sub-modules, including computing and communication operators in LLMs. For end users, our benchmark and findings help better understand different optimization techniques, training and inference frameworks, together with hardware platforms in choosing configurations for deploying LLMs. For researchers, our in-depth module-wise analyses discover potential opportunities for future work to further optimize the runtime performance of LLMs.
翻訳日:2023-11-08 17:02:41 公開日:2023-11-07
# 動的非モノトンサブモジュラー最大化

Dynamic Non-monotone Submodular Maximization ( http://arxiv.org/abs/2311.03685v1 )

ライセンス: Link先を確認
Kiarash Banihashem and Leyla Biabani and Samira Goudarzi and MohammadTaghi Hajiaghayi and Peyman Jabbarzade and Morteza Monemizadeh(参考訳) 部分モジュラ関数の最大化は、データ要約、レコメンデーションシステム、特徴選択など、機械学習の多くのアプリケーションでますます利用されている。 さらに、サブモジュラル最大化と動的アルゴリズムの両方に対する関心が高まっている。 2020年、monemizadeh と lattanzi, mitrovic, norouzi{-}fard, tarnawski, zadimoghaddam は濃度制約 $k$ の下で単調部分モジュラー最大化問題のための動的アルゴリズムの開発を開始した。 最近では、Banihashem、Biabani、Goudarzi、Hajiaghayi、Jabbarzade、Monemizadehによるトピックの改善が行われている。 2022年、チェンとペンはこの問題の複雑さを研究し、重要なオープンな疑問を提起した。 同じ制約の下で単調でない部分モジュラ函数を最大化することから、同じ制約下での単調な部分モジュラ函数を最大化することへの還元を示すことで、これらの疑問に肯定的に答える。 この還元により、濃度制約$k$で非単調部分モジュラー最大化問題を解くための最初の動的アルゴリズムを得る。 我々のアルゴリズムは、ソリューションの$(8+\epsilon)$-approximateを維持し、期待されている$O(\epsilon^{-3}k^3\log^3(n)\log(k))$または$O(\epsilon^{-1}k^2\log^3(k))$oracle query per updateを使用する。 さらに,実世界の複数のデータセット上での映像要約と最大カット問題に対する動的アルゴリズムの利点を示す。

Maximizing submodular functions has been increasingly used in many applications of machine learning, such as data summarization, recommendation systems, and feature selection. Moreover, there has been a growing interest in both submodular maximization and dynamic algorithms. In 2020, Monemizadeh and Lattanzi, Mitrovic, Norouzi{-}Fard, Tarnawski, and Zadimoghaddam initiated developing dynamic algorithms for the monotone submodular maximization problem under the cardinality constraint $k$. Recently, there have been some improvements on the topic made by Banihashem, Biabani, Goudarzi, Hajiaghayi, Jabbarzade, and Monemizadeh. In 2022, Chen and Peng studied the complexity of this problem and raised an important open question: "Can we extend [fully dynamic] results (algorithm or hardness) to non-monotone submodular maximization?". We affirmatively answer their question by demonstrating a reduction from maximizing a non-monotone submodular function under the cardinality constraint $k$ to maximizing a monotone submodular function under the same constraint. Through this reduction, we obtain the first dynamic algorithms to solve the non-monotone submodular maximization problem under the cardinality constraint $k$. Our algorithms maintain an $(8+\epsilon)$-approximate of the solution and use expected amortized $O(\epsilon^{-3}k^3\log^3(n)\log(k))$ or $O(\epsilon^{-1}k^2\log^3(k))$ oracle queries per update, respectively. Furthermore, we showcase the benefits of our dynamic algorithm for video summarization and max-cut problems on several real-world data sets.
翻訳日:2023-11-08 17:02:12 公開日:2023-11-07
# トランスモン量子エンタングリングゲートのための強化学習パルス

Reinforcement learning pulses for transmon qubit entangling gates ( http://arxiv.org/abs/2311.03684v1 )

ライセンス: Link先を確認
Ho Nam Nguyen, Felix Motzoi, Mekena Metcalf, K. Birgitta Whaley, Marin Bukov, and Markus Schmitt(参考訳) 量子コンピュータの有用性は、正確な量子論理演算を確実に実行する能力に大きく依存する。 最適制御解を見つけるためには、量子プロセッサの理論モデルの限られた精度に制約されないため、多くの確立されたゲート実装戦略とは対照的に、モデルフリーアプローチを検討することが特に重要である。 本研究では,連続制御強化学習アルゴリズムを用いて,超伝導量子ビットのための2量子ビットゲートを絡み合うように設計する。 固定周波数, 固定結合トランスモン量子ビットのシミュレーション環境を用いて, 確率的ユニタリノイズに匹敵する感受性を維持しつつ, 標準共振ゲートよりも優れた新しいパルス列を生成する能力を実証した。 さらに,学習と入力情報の強化により,エージェントがハードウェア特性のドリフトにパルス設計能力を適応させることができることを示した。 その結果,トランスモンゲート設計における適応フィードバック学習に基づく最適化手法の利点が明らかとなった。

The utility of a quantum computer depends heavily on the ability to reliably perform accurate quantum logic operations. For finding optimal control solutions, it is of particular interest to explore model-free approaches, since their quality is not constrained by the limited accuracy of theoretical models for the quantum processor - in contrast to many established gate implementation strategies. In this work, we utilize a continuous-control reinforcement learning algorithm to design entangling two-qubit gates for superconducting qubits; specifically, our agent constructs cross-resonance and CNOT gates without any prior information about the physical system. Using a simulated environment of fixed-frequency, fixed-coupling transmon qubits, we demonstrate the capability to generate novel pulse sequences that outperform the standard cross-resonance gates in both fidelity and gate duration, while maintaining a comparable susceptibility to stochastic unitary noise. We further showcase an augmentation in training and input information that allows our agent to adapt its pulse design abilities to drifting hardware characteristics, importantly with little to no additional optimization. Our results exhibit clearly the advantages of unbiased adaptive-feedback learning-based optimization methods for transmon gate design.
翻訳日:2023-11-08 17:01:32 公開日:2023-11-07
# 点推定判別ニューラルネットワークにおける遠距離データへの任意高信頼の防止

Preventing Arbitrarily High Confidence on Far-Away Data in Point-Estimated Discriminative Neural Networks ( http://arxiv.org/abs/2311.03683v1 )

ライセンス: Link先を確認
Ahmad Rashid, Serena Hacker, Guojun Zhang, Agustinus Kristiadi and Pascal Poupart(参考訳) 識別的に訓練された決定論的ニューラルネットワークは、分類問題の事実上の選択である。 しかし、ドメイン内テストセットで最先端の結果を得たとしても、オフ・オブ・ディストリビューション(OOD)データに過信される傾向にある。 例えば、一般的なニューラルネットワークアーキテクチャのクラスであるReLUネットワークは、テストデータがトレーニングセットから遠く離れている場合や、OODデータでトレーニングされている場合であっても、ほぼ常に高い信頼性の予測が得られることが示されている。 我々は、トレーニングデータから離れる際に、元のクラスのロジットを支配できるように設計した、余分なクラスのロジットに対応するニューラルネットワークの出力に項を追加することで、この問題を克服する。この技術は、単純な識別的ポイント推定トレーニングを維持しながら、遠距離テストデータに対する任意に高い信頼を確実に防止する。 様々なベンチマークによる評価は、遠方および現実のOODデータにおいて、競合ベースラインに対して強い性能を示す。

Discriminatively trained, deterministic neural networks are the de facto choice for classification problems. However, even though they achieve state-of-the-art results on in-domain test sets, they tend to be overconfident on out-of-distribution (OOD) data. For instance, ReLU networks -- a popular class of neural network architectures -- have been shown to almost always yield high confidence predictions when the test data are far away from the training set, even when they are trained with OOD data. We overcome this problem by adding a term to the output of the neural network that corresponds to the logit of an extra class, that we design to dominate the logits of the original classes as we move away from the training data.This technique provably prevents arbitrarily high confidence on far-away test data while maintaining a simple discriminative point-estimate training. Evaluation on various benchmarks demonstrates strong performance against competitive baselines on both far-away and realistic OOD data.
翻訳日:2023-11-08 17:01:13 公開日:2023-11-07
# n,2,d)完全関連多成分ベル関数の反復公式とその応用

The Iteration Formula of (n,2,d) Full-correlated Multi-component Bell Function and Its Applications ( http://arxiv.org/abs/2311.03681v1 )

ライセンス: Link先を確認
Hui-Xian Meng, Yu Zhang, Xing-Yan Fan, Jie Zhou, Wei-Min Shang, and Jing-Ling Chen(参考訳) n-partite, k-settings of measurement, d-dimensional (n,k,d) 系のベル不等式を構築することは非常に困難で重要である。 Mermin-Ardehali-Belinski{\u{\i}}-Klyshkoの不等式(MABK)の反復公式形式に着想を得て、二部類d-次元系の多成分相関関数をn-部分類に一般化し、対応するベルの不等式を構築する。 Collins-Gisin-Linden-Massar-Popescu不等式はこの方法で再現できる。 素数 d に対して最も重要な結果は、(n,2,d) 系に対する全相関多成分相関関数形式の一般ベル函数は、(n-1,2,d) 系に対する2つの全相関多成分ベル関数によって反復公式で再構成できるということである。 応用として,3,2,3),(4,2,3),(5,2,3),および3,2,5)ベルシナリオに対して,MABKの不等式と最もロバストなベルの不等式を再現する。 これは、反復公式が多部ベルの不等式を構成する効率的な方法であることを意味する。 さらに、同じロバスト性を持つが既知のものとは同値でない新しいベル不等式も与える。

It is very difficult and important to construct Bell inequalities for n-partite, k-settings of measurement, and d-dimensional (n,k,d) systems. Inspired by the iteration formula form of the Mermin-Ardehali-Belinski{\u{\i}}-Klyshko (MABK) inequality, we generalize the multi-component correlation functions for bipartite d-dimensional systems to n-partite ones, and construct the corresponding Bell inequality. The Collins-Gisin-Linden-Massar-Popescu inequality can be reproduced by this way. The most important result is that for prime d the general Bell function in full-correlated multi-component correlation function form for (n,2,d) systems can be reformulated in iteration formula by two full-correlated multi-component Bell functions for (n-1,2,d) systems. As applications, we recover the MABK inequality and the most robust coincidence Bell inequalities for (3,2,3),(4,2,3),(5,2,3), and (3,2,5) Bell scenarios with this iteration formula. This implies that the iteration formula is an efficient way of constructing multi-partite Bell inequalities. In addition, we also give some new Bell inequalities with the same robustness but inequivalent to the known ones.
翻訳日:2023-11-08 17:00:55 公開日:2023-11-07
# cool:制約オブジェクト指向論理プログラミング言語とそのニューラルシンボリックコンパイルシステム

COOL: A Constraint Object-Oriented Logic Programming Language and its Neural-Symbolic Compilation System ( http://arxiv.org/abs/2311.03753v1 )

ライセンス: Link先を確認
Jipeng Han(参考訳) 本稿では,ニューラルネットワークと論理プログラミングの統合について検討し,ニューラルネットワークの一般化と学習能力と記号論理の精度を組み合わせることによる長年の課題に対処する。 この統合に対する従来の試みは、初期データ取得の難しさ、トレーニング不足のネットワークの信頼性、トレーニング済みモデルの再利用と拡張の複雑さによって妨げられている。 これらの問題を解決するために,ニューラルネットワーク技術と論理的推論をシームレスに組み合わせた,COOL(Constraint Object-Oriented Logic)プログラミング言語を導入する。 COOLはデータ収集を自律的に処理するために設計されており、ユーザが提供する初期データの必要性を軽減している。 ユーザプロンプトをコーディングプロセスに組み込んで、トレーニング中のリスクを低減し、ライフサイクルを通じてモデル間のインタラクションを強化し、ネットワークの再利用と拡張を促進する。 さらに、COOLの設計とコンパイルシステムの基本原理とアルゴリズムは、プログラミング言語やニューラルネットワークアーキテクチャにおける将来の発展に貴重な洞察を与えることができる。

This paper explores the integration of neural networks with logic programming, addressing the longstanding challenges of combining the generalization and learning capabilities of neural networks with the precision of symbolic logic. Traditional attempts at this integration have been hampered by difficulties in initial data acquisition, the reliability of undertrained networks, and the complexity of reusing and augmenting trained models. To overcome these issues, we introduce the COOL (Constraint Object-Oriented Logic) programming language, an innovative approach that seamlessly combines logical reasoning with neural network technologies. COOL is engineered to autonomously handle data collection, mitigating the need for user-supplied initial data. It incorporates user prompts into the coding process to reduce the risks of undertraining and enhances the interaction among models throughout their lifecycle to promote the reuse and augmentation of networks. Furthermore, the foundational principles and algorithms in COOL's design and its compilation system could provide valuable insights for future developments in programming languages and neural network architectures.
翻訳日:2023-11-08 16:52:31 公開日:2023-11-07
# rustの自動証明合成に大規模な言語モデルを活用する

Leveraging Large Language Models for Automated Proof Synthesis in Rust ( http://arxiv.org/abs/2311.03739v1 )

ライセンス: Link先を確認
Jianan Yao, Ziqiao Zhou, Weiteng Chen, Weidong Cui(参考訳) 形式的検証は、重要なシステムソフトウェアの正しさを確実に保証するが、高い証明負担が長い間その普及を妨げてきた。 近年,大規模言語モデル(llm)がコード解析と合成に成功している。 本稿では,LLMと静的解析を組み合わせることで,Rustベースの公式検証フレームワークVerusの不変性,アサーション,その他の証明構造を合成する。 数ショット設定では、llmはポストコンディションの生成やループ不変量、特に短いコードスニペットの解析において印象的な論理能力を示している。 しかし、LLMには従来の静的解析の強みである文脈情報を保持・伝播する能力がない。 これらの観測に基づいて,OpenAIのGPT-4モデルに基づくプロトタイプを開発した。 プロトタイプでは,検証タスクを複数の小さなタスクに分割し,反復的にGPT-4をクエリし,出力と軽量な静的解析を組み合わせる。 20個のベクタ操作プログラムの自動化ループにおいて,プロトタイプを開発者によって評価した。 結果は、エントリレベルの証明コードを記述する人の労力を大幅に削減できることを示しています。

Formal verification can provably guarantee the correctness of critical system software, but the high proof burden has long hindered its wide adoption. Recently, Large Language Models (LLMs) have shown success in code analysis and synthesis. In this paper, we present a combination of LLMs and static analysis to synthesize invariants, assertions, and other proof structures for a Rust-based formal verification framework called Verus. In a few-shot setting, LLMs demonstrate impressive logical ability in generating postconditions and loop invariants, especially when analyzing short code snippets. However, LLMs lack the ability to retain and propagate context information, a strength of traditional static analysis. Based on these observations, we developed a prototype based on OpenAI's GPT-4 model. Our prototype decomposes the verification task into multiple smaller ones, iteratively queries GPT-4, and combines its output with lightweight static analysis. We evaluated the prototype with a developer in the automation loop on 20 vector-manipulating programs. The results demonstrate that it significantly reduces human effort in writing entry-level proof code.
翻訳日:2023-11-08 16:52:16 公開日:2023-11-07
# 正則化マルチタスク学習による恒星スペクトルのパラメータ化

deep-REMAP: Parameterization of Stellar Spectra Using Regularized Multi-Task Learning ( http://arxiv.org/abs/2311.03738v1 )

ライセンス: Link先を確認
Sankalp Gilda(参考訳) 従来のスペクトル分析法は、現代の天文学調査によって生成されたデータの爆発によってますます困難になってきた。 そこで我々は,PHOENIXライブラリからのリッチな合成スペクトルとMARVELSサーベイによる観測データを用いて,恒星大気パラメータを正確に予測する新しいフレームワークである,確率推論のための非対称損失を用いた深層正規化型マルチタスク学習("\rm{deep-REMAP}$")を開発した。 マルチタスク学習や革新的な非対称損失関数を含む高度な機械学習技術を活用することで、$\rm{deep-REMAP}$は観測されたスペクトルから有効温度、表面重力、および金属性を決定する優れた予測能力を示す。 本結果は,他の恒星ライブラリやプロパティに拡張する上でのフレームワークの有効性を明らかにし,より高度で自動的な特徴付け手法の道を開いた。

Traditional spectral analysis methods are increasingly challenged by the exploding volumes of data produced by contemporary astronomical surveys. In response, we develop deep-Regularized Ensemble-based Multi-task Learning with Asymmetric Loss for Probabilistic Inference ($\rm{deep-REMAP}$), a novel framework that utilizes the rich synthetic spectra from the PHOENIX library and observational data from the MARVELS survey to accurately predict stellar atmospheric parameters. By harnessing advanced machine learning techniques, including multi-task learning and an innovative asymmetric loss function, $\rm{deep-REMAP}$ demonstrates superior predictive capabilities in determining effective temperature, surface gravity, and metallicity from observed spectra. Our results reveal the framework's effectiveness in extending to other stellar libraries and properties, paving the way for more sophisticated and automated techniques in stellar characterization.
翻訳日:2023-11-08 16:51:59 公開日:2023-11-07
# Neural MMO 2.0: 大規模マルチタスクによる大規模マルチエージェント学習

Neural MMO 2.0: A Massively Multi-task Addition to Massively Multi-agent Learning ( http://arxiv.org/abs/2311.03736v1 )

ライセンス: Link先を確認
Joseph Su\'arez, Phillip Isola, Kyoung Whan Choe, David Bloomin, Hao Xiang Li, Nikhil Pinnaparaju, Nishaanth Kanna, Daniel Scott, Ryan Sullivan, Rose S. Shuman, Lucas de Alc\^antara, Herbie Bradley, Louis Castricato, Kirsty You, Yuhao Jiang, Qimai Li, Jiaxin Chen, Xiaolong Zhu(参考訳) ニューラルMMO 2.0は強化学習研究のための大規模マルチエージェント環境である。 この新しいバージョンの主な機能はフレキシブルなタスクシステムで、ユーザーは幅広い目的と報酬の信号を定義することができる。 我々は、訓練中に見たことのないタスクや地図、対戦相手に一般化できるエージェントを訓練する研究者に挑戦する。 ニューラルMMOは、標準設定で128のエージェントを持つ手続き的に生成されたマップと、最大サポートを備えている。 バージョン2.0は前バージョンを完全に書き直したもので、3倍の性能改善とCleanRLとの互換性がある。 私たちはこのプラットフォームを無償でオープンソースソフトウェアとしてリリースし、neuralmmo.github.ioで包括的なドキュメントを入手できます。 この新プラットフォームに関する初期の研究をきっかけに、neurips 2023で同時にコンペティションを実施しています。

Neural MMO 2.0 is a massively multi-agent environment for reinforcement learning research. The key feature of this new version is a flexible task system that allows users to define a broad range of objectives and reward signals. We challenge researchers to train agents capable of generalizing to tasks, maps, and opponents never seen during training. Neural MMO features procedurally generated maps with 128 agents in the standard setting and support for up to. Version 2.0 is a complete rewrite of its predecessor with three-fold improved performance and compatibility with CleanRL. We release the platform as free and open-source software with comprehensive documentation available at neuralmmo.github.io and an active community Discord. To spark initial research on this new platform, we are concurrently running a competition at NeurIPS 2023.
翻訳日:2023-11-08 16:51:42 公開日:2023-11-07
# 説明可能なマルチホップ質問応答と推論のための構造化情報の活用

Leveraging Structured Information for Explainable Multi-hop Question Answering and Reasoning ( http://arxiv.org/abs/2311.03734v1 )

ライセンス: Link先を確認
Ruosen Li, Xinya Du(参考訳) 大規模言語モデル(llm)を含むニューラルモデルは、マルチホップ質問応答において優れた性能を達成する。 LLMから推論能力を引き出すため、近年の研究では、推論チェーンと応答の両方を生成するためのチェーン・オブ・シント(CoT)機構が提案されており、マルチホップ推論を行う際のモデルの能力を高めている。 しかし、不正確な推論、幻覚、解釈可能性の欠如など、いくつかの課題が残っている。 一方、情報抽出(IE)は、テキストに基づいてエンティティ、関係、イベントを識別する。 抽出された構造化情報は人や機械で容易に解釈できる(Grishman, 2019)。 本研究では,抽出した意味構造(graphs)を多面的質問応答,特に推論プロセスのために構築し,活用することを検討する。 実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。 さらに、抽出された構造自体が自然に、生成された推論連鎖や塩分に基づく説明と比較して、人間が好む基礎的な説明を提供する。

Neural models, including large language models (LLMs), achieve superior performance on multi-hop question-answering. To elicit reasoning capabilities from LLMs, recent works propose using the chain-of-thought (CoT) mechanism to generate both the reasoning chain and the answer, which enhances the model's capabilities in conducting multi-hop reasoning. However, several challenges still remain: such as struggling with inaccurate reasoning, hallucinations, and lack of interpretability. On the other hand, information extraction (IE) identifies entities, relations, and events grounded to the text. The extracted structured information can be easily interpreted by humans and machines (Grishman, 2019). In this work, we investigate constructing and leveraging extracted semantic structures (graphs) for multi-hop question answering, especially the reasoning process. Empirical results and human evaluations show that our framework: generates more faithful reasoning chains and substantially improves the QA performance on two benchmark datasets. Moreover, the extracted structures themselves naturally provide grounded explanations that are preferred by humans, as compared to the generated reasoning chains and saliency-based explanations.
翻訳日:2023-11-08 16:51:29 公開日:2023-11-07
# 深部および狭部フィードフォワードニューラルネットワークの重み初期化改善

Improved weight initialization for deep and narrow feedforward neural network ( http://arxiv.org/abs/2311.03733v1 )

ライセンス: Link先を確認
Hyunwoo Lee, Yunho Kim, Seungyeop Yang, Hayoung Choi(参考訳) 適切なウェイト初期化設定とReLUアクティベーション関数は、現代のディープラーニングの基盤であり、多様な人工知能をまたいだ高効率で効率的なニューラルネットワークモデルのトレーニングとデプロイを可能にしている。 ReLUニューロンが不活性になり出力がゼロとなるReLU死の問題は、ReLU活性化機能を持つディープニューラルネットワークのトレーニングにおいて大きな課題となる。 理論的研究と様々な手法がこの問題に対処するために導入されている。 しかし、これらの手法や研究によっても、reluアクティベーション機能を持つ非常に深く狭いフィードフォワードネットワークでは、トレーニングが難しいままである。 本稿では,この問題に対処する新しい重み初期化法を提案する。 提案する初期重み行列の性質を証明し,これらの特性が信号ベクトルの効果的な伝播を促進することを示す。 既存の手法との比較実験を通じて,新しい初期化手法の有効性を実証する。

Appropriate weight initialization settings, along with the ReLU activation function, have been a cornerstone of modern deep learning, making it possible to train and deploy highly effective and efficient neural network models across diverse artificial intelligence. The problem of dying ReLU, where ReLU neurons become inactive and yield zero output, presents a significant challenge in the training of deep neural networks with ReLU activation function. Theoretical research and various methods have been introduced to address the problem. However, even with these methods and research, training remains challenging for extremely deep and narrow feedforward networks with ReLU activation function. In this paper, we propose a new weight initialization method to address this issue. We prove the properties of the proposed initial weight matrix and demonstrate how these properties facilitate the effective propagation of signal vectors. Through a series of experiments and comparisons with existing methods, we demonstrate the effectiveness of the new initialization method.
翻訳日:2023-11-08 16:51:11 公開日:2023-11-07
# 単発連続アクティブラーニングのための学習

Learning to Learn for Few-shot Continual Active Learning ( http://arxiv.org/abs/2311.03732v1 )

ライセンス: Link先を確認
Stella Ho, Ming Liu, Shang Gao, Longxiang Gao(参考訳) 継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。 CLの最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。 本研究では,ラベル付きデータが不十分であり,ラベル付きデータが豊富だがアノテーションの予算が限られている,数ショット連続型アクティブラーニング(CAL)について考察する。 メタContinual Active Learningと呼ばれる,シンプルだが効率的な手法を提案する。 具体的には、安定性と可塑性のトレードオフに対処するため、メタラーニングと経験リプレイを採用しています。 その結果、過去のタスクの破滅的な忘れ込みを防止しつつ、アノテートされた情報を高速適応に効率的に活用する最適な初期化が見つかる。 提案手法の有効性を検証するために広範な実験を行い,数回のcal設定における各種アクティブラーニング戦略とメモリサンプル選択手法の効果を分析した。 実験の結果,無作為サンプリングは能動的学習とメモリサンプル選択の両方において最善の既定戦略であることがわかった。

Continual learning strives to ensure stability in solving previously seen tasks while demonstrating plasticity in a novel domain. Recent advances in CL are mostly confined to a supervised learning setting, especially in NLP domain. In this work, we consider a few-shot continual active learning (CAL) setting where labeled data is inadequate, and unlabeled data is abundant but with a limited annotation budget. We propose a simple but efficient method, called Meta-Continual Active Learning. Specifically, we employ meta-learning and experience replay to address the trade-off between stability and plasticity. As a result, it finds an optimal initialization that efficiently utilizes annotated information for fast adaptation while preventing catastrophic forgetting of past tasks. We conduct extensive experiments to validate the effectiveness of the proposed method and analyze the effect of various active learning strategies and memory sample selection methods in a few-shot CAL setup. Our experiment results demonstrate that random sampling is the best default strategy for both active learning and memory sample selection to solve few-shot CAL problems.
翻訳日:2023-11-08 16:50:58 公開日:2023-11-07
# 大規模言語モデルの帰属に関する調査

A Survey of Large Language Models Attribution ( http://arxiv.org/abs/2311.03731v1 )

ライセンス: Link先を確認
Dongfang Li, Zetian Sun, Xinshuo Hu, Zhenyu Liu, Ziyang Chen, Baotian Hu, Aiguo Wu, Min Zhang(参考訳) オープンドメイン生成システムは会話型ai(例えば生成型検索エンジン)の分野で大きな注目を集めている。 本稿では,これらのシステム,特に大規模言語モデルが採用する帰属機構について概説する。 帰属や引用は事実と妥当性を改善するが、曖昧な知識貯水池、固有のバイアス、過剰な帰属の欠点はこれらのシステムの有効性を妨げる。 本研究の目的は,オープンドメイン生成システムによる応答の信頼性と妥当性を高めるために,帰属方法論の洗練を支援するために,研究者に貴重な洞察を提供することである。 この分野はまだ初期段階にあると考えているので、現在進行中の研究を https://github.com/HITsz-TMG/awesome-llm-attributions で追跡するリポジトリを維持しています。

Open-domain generative systems have gained significant attention in the field of conversational AI (e.g., generative search engines). This paper presents a comprehensive review of the attribution mechanisms employed by these systems, particularly large language models. Though attribution or citation improve the factuality and verifiability, issues like ambiguous knowledge reservoirs, inherent biases, and the drawbacks of excessive attribution can hinder the effectiveness of these systems. The aim of this survey is to provide valuable insights for researchers, aiding in the refinement of attribution methodologies to enhance the reliability and veracity of responses generated by open-domain generative systems. We believe that this field is still in its early stages; hence, we maintain a repository to keep track of ongoing studies at https://github.com/HITsz-TMG/awesome-llm-attributions.
翻訳日:2023-11-08 16:50:40 公開日:2023-11-07
# DeepInspect:AIによる製造業の欠陥検出

DeepInspect: An AI-Powered Defect Detection for Manufacturing Industries ( http://arxiv.org/abs/2311.03725v1 )

ライセンス: Link先を確認
Arti Kumbhar, Amruta Chougale, Priya Lokhande, Saloni Navaghane, Aditi Burud, Saee Nimbalkar(参考訳) 畳み込みニューラルネットワーク(cnns)、recurrent neural networks(rnns)、generative adversarial networks(gans)を用いて、製造における欠陥検出のための革新的なアプローチを導入する。 この技術は、製品写真から複雑な詳細を抽出し、RNNを利用して進化するエラーを検出し、合成欠陥データを生成し、様々な欠陥シナリオにおけるモデルの堅牢性と適応性を高めることによって、欠陥を正確に識別する。 このプロジェクトは、ディープラーニングフレームワークを活用して、製造プロセスのリアルタイム欠陥検出を自動化する。 注釈付き画像の広範なデータセットを利用して、複雑な欠陥パターンを識別する。 この統合システムは、生産ワークフローにシームレスに適合し、効率を高め、製品品質を高めます。 その結果、無駄と運用コストを削減し、最終的に市場の競争力を高めます。

Utilizing Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), and Generative Adversarial Networks (GANs), our system introduces an innovative approach to defect detection in manufacturing. This technology excels in precisely identifying faults by extracting intricate details from product photographs, utilizing RNNs to detect evolving errors and generating synthetic defect data to bolster the model's robustness and adaptability across various defect scenarios. The project leverages a deep learning framework to automate real-time flaw detection in the manufacturing process. It harnesses extensive datasets of annotated images to discern complex defect patterns. This integrated system seamlessly fits into production workflows, thereby boosting efficiency and elevating product quality. As a result, it reduces waste and operational costs, ultimately enhancing market competitiveness.
翻訳日:2023-11-08 16:50:22 公開日:2023-11-07
# 一般化ハイブリッド検索とブロックチェーンとハッシュ関数セキュリティへの応用

Generalized Hybrid Search and Applications to Blockchain and Hash Function Security ( http://arxiv.org/abs/2311.03723v1 )

ライセンス: Link先を確認
Alexandru Cojocaru and Juan Garay and Fang Song(参考訳) 本研究では,まず,量子と古典の両方の能力を持つアルゴリズムによるハイブリッド量子古典戦略を用いて,様々な探索問題の難解性を検討する。 次に,ハイブリッド量子古典探索アルゴリズムを構築し,その成功確率を分析する。 前者については、複数の解を持ち、任意の分布に従って入力がサンプリングされる探索問題に対して、それらのハイブリッド量子古典的問合せ複雑度(すなわち、一定の数の古典的および量子的問合せが与えられた場合、探索課題を解決する確率を決定する。 技術レベルでは、rosmanisが提案したハイブリッド量子古典探索アルゴリズムのフレームワークを一般化する。 すなわち、Boolean関数上の任意の分布$D$に対して、$\tau_c$ classical と $\tau_q$ の量子量子方程式を備えたアルゴリズムは、$D$からサンプリングされた関数に対して$$$1 のプリイメージを見つけるのに成功し、最も高いのは $\nu_D \cdot(2\sqrt{\tau_c} + 2\tau_q + 1)^2$ である。 ハードネスの結果の応用として、我々はまずbitcoinバックボーンと呼ばれるbitcoinプロトコルのセキュリティを再検討し、一般化し、敵が量子と古典の両方の能力を持つように設定し、プロトコルが適切に動作するために必要な新しいハイブリッドな正直な多数派条件を提示します。 次に,ハイブリッド敵に対するハッシュ関数の汎用セキュリティについて検討する。 第2のコントリビューションでは、まずすべての古典的なクエリを消費するハイブリッドアルゴリズムを設計し、第2の段階では、初期状態が分布の$D$に依存する 'modified Grover'' を実行する。 任意の対象分布に対するその成功確率を解析する方法と、その一様分布とベルヌーイ分布の場合に対する最適性を示す。

In this work we first examine the hardness of solving various search problems by hybrid quantum-classical strategies, namely, by algorithms that have both quantum and classical capabilities. We then construct a hybrid quantum-classical search algorithm and analyze its success probability. Regarding the former, for search problems that are allowed to have multiple solutions and in which the input is sampled according to arbitrary distributions we establish their hybrid quantum-classical query complexities -- i.e., given a fixed number of classical and quantum queries, determine what is the probability of solving the search task. At a technical level, our results generalize the framework for hybrid quantum-classical search algorithms proposed by Rosmanis. Namely, for an arbitrary distribution $D$ on Boolean functions, the probability an algorithm equipped with $\tau_c$ classical and $\tau_q$ quantum queries succeeds in finding a preimage of $1$ for a function sampled from $D$ is at most $\nu_D \cdot(2\sqrt{\tau_c} + 2\tau_q + 1)^2$, where $\nu_D$ captures the average (over $D$) fraction of preimages of $1$. As applications of our hardness results, we first revisit and generalize the security of the Bitcoin protocol called the Bitcoin backbone, to a setting where the adversary has both quantum and classical capabilities, presenting a new hybrid honest majority condition necessary for the protocol to properly operate. Secondly, we examine the generic security of hash functions against hybrid adversaries. Regarding our second contribution, we design a hybrid algorithm which first spends all of its classical queries and in the second stage runs a ``modified Grover'' where the initial state depends on the distribution $D$. We show how to analyze its success probability for arbitrary target distributions and, importantly, its optimality for the uniform and the Bernoulli distribution cases.
翻訳日:2023-11-08 16:50:09 公開日:2023-11-07
# visual-inertial odometry/slamにおける特徴対応の不確かさ推定

Inertial Guided Uncertainty Estimation of Feature Correspondence in Visual-Inertial Odometry/SLAM ( http://arxiv.org/abs/2311.03722v1 )

ライセンス: Link先を確認
Seongwook Yoon, Jaehyun Kim, and Sanghoon Sull(参考訳) コンピュータビジョンとロボティクスの分野で最も重要なタスクの1つとして、視覚計測と同時局所マッピング(SLAM)が研究され、自律的なナビゲーションと拡張現実システムに寄与している。 特徴ベースドメトリー/SLAMの場合、移動型視覚センサは異なる視点から1組の3Dポイントを観測し、各画像内の投影された2Dポイント間の対応は通常、特徴追跡とマッチングによって確立される。 しかし、対応点が誤認しうるため、信頼性の高い不確実性推定はオドメトリー/SLAM法の精度を向上させることができる。 さらに、慣性計測装置を用いて、視覚-慣性融合の観点から視覚センサを支援する。 本稿では,動きのぼやけ,照明変化,閉塞による画像劣化に頑健な慣性誘導を用いて特徴対応の不確かさを推定する手法を提案する。 予測分布をサンプル対応にモデル化し、画像誤差に基づくエネルギー関数に分布を適合させ、従来の方法よりも堅牢な不確実性をもたらす。 パブリックデータセットのための最近のビジュアル慣性オドメトリー/SLAMアルゴリズムの1つに組み込むことで、我々のアプローチの実現可能性を示す。

Visual odometry and Simultaneous Localization And Mapping (SLAM) has been studied as one of the most important tasks in the areas of computer vision and robotics, to contribute to autonomous navigation and augmented reality systems. In case of feature-based odometry/SLAM, a moving visual sensor observes a set of 3D points from different viewpoints, correspondences between the projected 2D points in each image are usually established by feature tracking and matching. However, since the corresponding point could be erroneous and noisy, reliable uncertainty estimation can improve the accuracy of odometry/SLAM methods. In addition, inertial measurement unit is utilized to aid the visual sensor in terms of Visual-Inertial fusion. In this paper, we propose a method to estimate the uncertainty of feature correspondence using an inertial guidance robust to image degradation caused by motion blur, illumination change and occlusion. Modeling a guidance distribution to sample possible correspondence, we fit the distribution to an energy function based on image error, yielding more robust uncertainty than conventional methods. We also demonstrate the feasibility of our approach by incorporating it into one of recent visual-inertial odometry/SLAM algorithms for public datasets.
翻訳日:2023-11-08 16:49:29 公開日:2023-11-07
# ClimateSet: 機械学習のための大規模気候モデルデータセット

ClimateSet: A Large-Scale Climate Model Dataset for Machine Learning ( http://arxiv.org/abs/2311.03721v1 )

ライセンス: Link先を確認
Julia Kaltenborn, Charlotte E. E. Lange, Venkatesh Ramesh, Philippe Brouillard, Yaniv Gurwicz, Chandni Nagda, Jakob Runge, Peer Nowack and David Rolnick(参考訳) 気候モデルは、気候変動の影響を評価し、将来の気候シナリオをシミュレートするための鍵となっている。 機械学習(ML)コミュニティは、気候モデルエミュレーション、ダウンスケーリング、予測タスクといった様々なタスクにおける気候科学者の取り組みを支援することへの関心が高まっている。 これらのタスクの多くは、単一の気候モデルで作成されたデータセットに対処されている。 しかし、気候科学とMLコミュニティの両方が、これらのタスクを大規模に対処するには、大規模で一貫性があり、ML対応の気候モデルデータセットが必要であることを示唆している。 本稿では,インプット4mipsおよびcmip6アーカイブからの36の気候モデルの入力と出力を含むデータセットであるclimatesetを紹介する。 さらに、追加の気候モデルとシナリオを検索および前処理するためのモジュラーデータセットパイプラインも提供しています。 我々は、MLベースの気候モデルエミュレーションのベンチマークとしてこれを用いてデータセットの可能性を示す。 我々は、異なる気候モデルにまたがるパフォーマンスを分析することにより、異なるMLモデルのパフォーマンスと一般化能力に関する新たな洞察を得る。 さらに、データセットを使用して、MLエミュレータを複数の気候モデル上でトレーニングすることも可能だ。 このような「スーパーエミュレータ」は、政策立案者に提供された既存のシナリオを補完する、新しい気候変動シナリオを迅速に計画することができる。 climatesetは、mlコミュニティが大規模に気候関連のタスクに取り組むために必要な基盤を作ると信じています。

Climate models have been key for assessing the impact of climate change and simulating future climate scenarios. The machine learning (ML) community has taken an increased interest in supporting climate scientists' efforts on various tasks such as climate model emulation, downscaling, and prediction tasks. Many of those tasks have been addressed on datasets created with single climate models. However, both the climate science and ML communities have suggested that to address those tasks at scale, we need large, consistent, and ML-ready climate model datasets. Here, we introduce ClimateSet, a dataset containing the inputs and outputs of 36 climate models from the Input4MIPs and CMIP6 archives. In addition, we provide a modular dataset pipeline for retrieving and preprocessing additional climate models and scenarios. We showcase the potential of our dataset by using it as a benchmark for ML-based climate model emulation. We gain new insights about the performance and generalization capabilities of the different ML models by analyzing their performance across different climate models. Furthermore, the dataset can be used to train an ML emulator on several climate models instead of just one. Such a "super emulator" can quickly project new climate change scenarios, complementing existing scenarios already provided to policymakers. We believe ClimateSet will create the basis needed for the ML community to tackle climate-related tasks at scale.
翻訳日:2023-11-08 16:49:06 公開日:2023-11-07
# トロッター誤差解析による振動分子スペクトルの量子計算のための精錬資源推定

Refining resource estimation for the quantum computation of vibrational molecular spectra through Trotter error analysis ( http://arxiv.org/abs/2311.03719v1 )

ライセンス: Link先を確認
Dimitar Trenev, Pauline J Ollitrault, Stuart M. Harwood, Tanvi P. Gujarati, Sumathy Raman, Antonio Mezzacapo, and Sarah Mostame(参考訳) 振動分子スペクトルの正確なシミュレーションは、従来のコンピュータでは高価である。 電子構造問題と比較して、量子コンピュータの振動構造問題の研究は少ない。 本研究では,プログラム可能な量子コンピュータ上での振動構造計算に必要な量子ビット数や量子ゲート数などの量子資源を正確に推定する。 我々のアプローチは量子位相推定に基づいており、フォールトトレラント量子デバイスに焦点を当てている。 一般化合物の漸近的推定に加えて,アセチレン様ポリインの振動構造計算において生じるハミルトニアンシミュレーションに必要な量子資源について,より詳細な解析を行った。 ネストコンミュータを活用して,これまでの調査と比較して,トロッター誤差の詳細な定量分析を行う。 最終的に、この研究は振動構造シミュレーションにおける潜在的な量子優位性を分析するためのガイドとなる。

Accurate simulations of vibrational molecular spectra are expensive on conventional computers. Compared to the electronic structure problem, the vibrational structure problem with quantum computers is less investigated. In this work we accurately estimate quantum resources, such as number of qubits and quantum gates, required for vibrational structure calculations on a programmable quantum computer. Our approach is based on quantum phase estimation and focuses on fault-tolerant quantum devices. In addition to asymptotic estimates for generic chemical compounds, we present a more detailed analysis of the quantum resources needed for the simulation of the Hamiltonian arising in the vibrational structure calculation of acetylene-like polyynes of interest. Leveraging nested commutators, we provide an in-depth quantitative analysis of trotter errors compared to the prior investigations. Ultimately, this work serves as a guide for analyzing the potential quantum advantage within vibrational structure simulations.
翻訳日:2023-11-08 16:48:45 公開日:2023-11-07
# LLM as a Art Director (LaDi): LLMを用いたテキスト・メディア・ジェネレータの改良

LLM as an Art Director (LaDi): Using LLMs to improve Text-to-Media Generators ( http://arxiv.org/abs/2311.03716v1 )

ライセンス: Link先を確認
Allen Roush, Emil Zakirov, Artemiy Shirokov, Polina Lunina, Jack Gane, Alexander Duffy, Charlie Basil, Aber Whitcomb, Jim Benedetto, Chris DeWolfe(参考訳) テキスト対画像生成の最近の進歩は、高品質なコンテキスト認識画像やビデオの生成を自動化することによって、アートやシネマを含む多くの分野に革命をもたらした。 しかし、これらの技術の有用性は、ジェネレータに芸術的に一貫性のある主題関連画像を作成するよう誘導するテキストプロンプトの不適切さによって制限されることが多い。 本稿では,Large Language Models (LLM) を画像および映像生成を向上するアートディレクターとして機能させる技術について述べる。 我々はこれをladiと呼ぶ統一システムについて述べる。 本稿では,テキスト・ツー・イメージ・ジェネレータ(T2Is)とテキスト・ツー・ビデオ・ジェネレータ(T2Vs)の能力を増強する複数の技術を統合する方法について考察する。 LaDiとその技術は今日、Plai Labsが開発したアプリやプラットフォームで使われている。

Recent advancements in text-to-image generation have revolutionized numerous fields, including art and cinema, by automating the generation of high-quality, context-aware images and video. However, the utility of these technologies is often limited by the inadequacy of text prompts in guiding the generator to produce artistically coherent and subject-relevant images. In this paper, We describe the techniques that can be used to make Large Language Models (LLMs) act as Art Directors that enhance image and video generation. We describe our unified system for this called "LaDi". We explore how LaDi integrates multiple techniques for augmenting the capabilities of text-to-image generators (T2Is) and text-to-video generators (T2Vs), with a focus on constrained decoding, intelligent prompting, fine-tuning, and retrieval. LaDi and these techniques are being used today in apps and platforms developed by Plai Labs.
翻訳日:2023-11-08 16:48:32 公開日:2023-11-07
# 公正な教師付き学習のための損失バランス

Loss Balancing for Fair Supervised Learning ( http://arxiv.org/abs/2311.03714v1 )

ライセンス: Link先を確認
Mohammad Mahdi Khalili, Xueru Zhang, Mahed Abroshan(参考訳) 指導的学習モデルは、貸付、大学入学、顔認識、自然言語処理など様々な分野で使用されている。 しかし、トレーニングデータから既存のバイアスを継承し、保護された社会集団に対する差別を示すこともある。 不公平問題に対処する様々な公正概念が提案されている。 この研究では、期待される損失を(およそ)異なるグループで等化する必要がある公平性の概念である等化損失(EL)に焦点を当てる。 学習過程にELを導入すると、損失関数が凸であっても非凸最適化問題が発生し、既存の公正学習アルゴリズムはEL制約の下で公正な予測子を見つけるために適切に適用できない。 本稿では,既製の凸型プログラミングツール(例:cvxpy)を用いて,この非凸最適化のグローバル最適性を求めるアルゴリズムを提案する。 特に,非凸最適化を一連の凸最適化問題に還元することにより,ELの下で最適値予測器を求めるELminimizerアルゴリズムを提案する。 理論的には、このアルゴリズムは特定の条件下で大域最適解を求める。 そして、いくつかの実証的研究を通して理論結果を支持する。

Supervised learning models have been used in various domains such as lending, college admission, face recognition, natural language processing, etc. However, they may inherit pre-existing biases from training data and exhibit discrimination against protected social groups. Various fairness notions have been proposed to address unfairness issues. In this work, we focus on Equalized Loss (EL), a fairness notion that requires the expected loss to be (approximately) equalized across different groups. Imposing EL on the learning process leads to a non-convex optimization problem even if the loss function is convex, and the existing fair learning algorithms cannot properly be adopted to find the fair predictor under the EL constraint. This paper introduces an algorithm that can leverage off-the-shelf convex programming tools (e.g., CVXPY) to efficiently find the global optimum of this non-convex optimization. In particular, we propose the ELminimizer algorithm, which finds the optimal fair predictor under EL by reducing the non-convex optimization to a sequence of convex optimization problems. We theoretically prove that our algorithm finds the global optimal solution under certain conditions. Then, we support our theoretical results through several empirical studies.
翻訳日:2023-11-08 16:48:12 公開日:2023-11-07
# Neuro-GPT:脳波の基礎モデルの開発

Neuro-GPT: Developing A Foundation Model for EEG ( http://arxiv.org/abs/2311.03764v1 )

ライセンス: Link先を確認
Wenhui Cui, Woojae Jeong, Philipp Th\"olke, Takfarinas Medani, Karim Jerbi, Anand A. Joshi, Richard M. Leahy(参考訳) 脳-コンピューターインタフェース(bci)タスクにおける脳波(eeg)データの不足と不均一性を処理し、その膨大な公開データを活用するために、脳波エンコーダとgptモデルからなる基礎モデルであるneuro-gptを提案する。 ファンデーションモデルは、大規模なパブリックEEGデータセット上で事前トレーニングされ、自己監督タスクを使用して、EEGのマスキングチャンクの再構築方法を学ぶ。 次に、9名の被験者しかいない運動画像分類タスクで基礎モデルを微調整する。 実験により、基礎モデルの適用により、スクラッチから訓練されたモデルと比較して、分類性能が著しく向上することが示された。

To handle the scarcity and heterogeneity of electroencephalography (EEG) data in Brain-Computer Interface (BCI) tasks, and to harness the vast public data, we propose Neuro-GPT, a foundation model consisting of an EEG encoder and a GPT model. The foundation model is pre-trained on a large-scale public EEG dataset, using a self-supervised task which learns how to reconstruct the masked chunk in EEG. We then fine-tune the foundation model on a Motor Imagery Classification task where only 9 subjects are available. Experiments demonstrated that applying foundation model can significantly improve classification performance compared to the model trained from scratch, which provides evidence for the advanced generalizability of foundation model and the ability to address the challenges of data scarcity and heterogeneity.
翻訳日:2023-11-08 16:40:10 公開日:2023-11-07
# 少数のサンプルによる画像変化検出

Image change detection with only a few samples ( http://arxiv.org/abs/2311.03762v1 )

ライセンス: Link先を確認
Ke Liu, Zhaoyi Song and Haoyue Bai(参考訳) 本稿では,少数のサンプルのみによる画像変化の検出について考察する。 画像変化検出タスクの大きな障害は、さまざまな場面をカバーする大きな注釈付きデータセットがないことである。 不十分なデータセットに基づいてトレーニングされた変更検出モデルは、一般化能力の低下を示している。 一般化の貧弱な問題に対処するため,合成データセットを生成するための単純な画像処理手法と,サイアメイズニューラルネットワークより優れたオブジェクト検出に基づく早期融合ネットワークの設計を提案する。 我々の重要な洞察は、この合成データにより、訓練されたモデルが様々なシナリオに対して優れた一般化能力を持つことである。 合成データに基づいてトレーニングされたモデルと、挑戦的なデータセットであるCDNetから得られた実世界のデータとを、6つの異なるテストセットを用いて比較する。 その結果, 合成データは実世界の不十分なデータよりも高い一般化能力を実現するのに十分な情報であることがわかった。 また, 合成データで学習したモデルを微調整するために, 数例(数十例)のサンプルを用いることで, 優れた結果が得られることを示した。

This paper considers image change detection with only a small number of samples, which is a significant problem in terms of a few annotations available. A major impediment of image change detection task is the lack of large annotated datasets covering a wide variety of scenes. Change detection models trained on insufficient datasets have shown poor generalization capability. To address the poor generalization issue, we propose using simple image processing methods for generating synthetic but informative datasets, and design an early fusion network based on object detection which could outperform the siamese neural network. Our key insight is that the synthetic data enables the trained model to have good generalization ability for various scenarios. We compare the model trained on the synthetic data with that on the real-world data captured from a challenging dataset, CDNet, using six different test sets. The results demonstrate that the synthetic data is informative enough to achieve higher generalization ability than the insufficient real-world data. Besides, the experiment shows that utilizing a few (often tens of) samples to fine-tune the model trained on the synthetic data will achieve excellent results.
翻訳日:2023-11-08 16:39:56 公開日:2023-11-07
# 深層学習に基づく変調認識のためのウェーブレット変換による無線信号の拡張

Augmenting Radio Signals with Wavelet Transform for Deep Learning-Based Modulation Recognition ( http://arxiv.org/abs/2311.03761v1 )

ライセンス: Link先を確認
Tao Chen, Shilian Zheng, Kunfeng Qiu, Luxin Zhang, Qi Xuan, and Xiaoniu Yang(参考訳) 近年,無線変調認識における深層学習の利用が盛んに行われている。 このアプローチは、大きなデータセットから自動的に高次元の特徴を抽出し、変調スキームの正確な分類を容易にする。 しかし、現実のシナリオでは、事前に十分なトレーニングデータを集めることは不可能かもしれない。 データ拡張は、トレーニングデータセットの多様性と量を増やし、データのスパーシリティと不均衡を減らすために使用される方法である。 本稿では,離散ウェーブレット変換により分解された詳細係数を置き換え,新しいサンプルを生成し,トレーニングセットを拡張するデータ拡張法を提案する。 異なる生成法を用いて置換配列を生成する。 シミュレーションの結果,提案手法は他の拡張法よりも有意に優れていた。

The use of deep learning for radio modulation recognition has become prevalent in recent years. This approach automatically extracts high-dimensional features from large datasets, facilitating the accurate classification of modulation schemes. However, in real-world scenarios, it may not be feasible to gather sufficient training data in advance. Data augmentation is a method used to increase the diversity and quantity of training dataset and to reduce data sparsity and imbalance. In this paper, we propose data augmentation methods that involve replacing detail coefficients decomposed by discrete wavelet transform for reconstructing to generate new samples and expand the training set. Different generation methods are used to generate replacement sequences. Simulation results indicate that our proposed methods significantly outperform the other augmentation methods.
翻訳日:2023-11-08 16:39:39 公開日:2023-11-07
# Tighter Bayesian Regret boundsを用いた後方サンプリングに基づくベイズ最適化

Posterior Sampling-Based Bayesian Optimization with Tighter Bayesian Regret Bounds ( http://arxiv.org/abs/2311.03760v1 )

ライセンス: Link先を確認
Shion Takeno, Yu Inatsu, Masayuki Karasuyama, Ichiro Takeuchi(参考訳) ベイズ最適化 (BO) における様々な獲得関数 (AF) のうち、ガウス過程上信頼境界 (GP-UCB) とトンプソンサンプリング (TS) はベイズ累積後悔 (BCR) に関する確立された理論的性質を持つよく知られた選択肢である。 近年,GP-UCBの無作為な変種はGP-UCBよりも厳密なBCRを達成できることが示されている。 本研究から着想を得た本論文は,まずtsがよりタイトなbcr結合を達成することを示す。 一方、gp-ucbとtsはそれぞれ手動のハイパーパラメータチューニングと過剰な爆発問題に悩まされることが多い。 これらの課題を克服するため、サンプルパス(PIMS)の最大値から改善の確率という別のAFを提案する。 GP-UCBとは異なり,PIMSはより厳密なBCR境界を実現し,ハイパーパラメータチューニングを回避する。 さらに,GP-UCBとTSの実践的問題を緩和するPIMSの有効性に着目し,幅広い実験を行った。

Among various acquisition functions (AFs) in Bayesian optimization (BO), Gaussian process upper confidence bound (GP-UCB) and Thompson sampling (TS) are well-known options with established theoretical properties regarding Bayesian cumulative regret (BCR). Recently, it has been shown that a randomized variant of GP-UCB achieves a tighter BCR bound compared with GP-UCB, which we call the tighter BCR bound for brevity. Inspired by this study, this paper first shows that TS achieves the tighter BCR bound. On the other hand, GP-UCB and TS often practically suffer from manual hyperparameter tuning and over-exploration issues, respectively. To overcome these difficulties, we propose yet another AF called a probability of improvement from the maximum of a sample path (PIMS). We show that PIMS achieves the tighter BCR bound and avoids the hyperparameter tuning, unlike GP-UCB. Furthermore, we demonstrate a wide range of experiments, focusing on the effectiveness of PIMS that mitigates the practical issues of GP-UCB and TS.
翻訳日:2023-11-08 16:39:28 公開日:2023-11-07
# 多様体学習:何、どのように、そしてなぜ

Manifold learning: what, how, and why ( http://arxiv.org/abs/2311.03757v1 )

ライセンス: Link先を確認
Marina Meil\u{a} and Hanyu Zhang(参考訳) マニフォールド学習(英: Manifold learning、ML)は、データの低次元構造を見つけるための一連の手法である。 MLによって得られた新しい表現や記述子は、高次元の点雲の幾何学的形状を明らかにし、それらを視覚化し、分解し、解釈することを可能にする。 本調査は,MLの基礎となる原則,代表的手法,および実践統計学者の視点からの統計基盤を提示する。 これはトレードオフと、信頼できる結論を得るためにパラメータとアルゴリズムの選択について理論が教えてくれることを説明する。

Manifold learning (ML), known also as non-linear dimension reduction, is a set of methods to find the low dimensional structure of data. Dimension reduction for large, high dimensional data is not merely a way to reduce the data; the new representations and descriptors obtained by ML reveal the geometric shape of high dimensional point clouds, and allow one to visualize, de-noise and interpret them. This survey presents the principles underlying ML, the representative methods, as well as their statistical foundations from a practicing statistician's perspective. It describes the trade-offs, and what theory tells us about the parameter and algorithmic choices we make in order to obtain reliable conclusions.
翻訳日:2023-11-08 16:39:04 公開日:2023-11-07
# マルチエージェントグラフ強化学習による分散型トラヒック信号制御装置の学習

Learning Decentralized Traffic Signal Controllers with Multi-Agent Graph Reinforcement Learning ( http://arxiv.org/abs/2311.03756v1 )

ライセンス: Link先を確認
Yao Zhang, Zhiwen Yu, Jun Zhang, Liang Wang, Tom H. Luan, Bin Guo, Chau Yuen(参考訳) 本稿では,複雑なネットワークシステム制御問題として検討されてきたスマートシティにおける交通信号の最適制御について考察する。 信号機と道路ネットワーク間の相互作用のダイナミクスを考えると、制御器の適応性とスケーラビリティが主な課題である。 MARL(Multi-Agent Reinforcement Learning)の枠組みの下で信号機間の時空間相関を捉えることは有望な解決法である。 それでも既存のMARLアルゴリズムは、分散エージェントの学習能力向上の基礎となる効果的な情報集約を無視している。 本稿では,空間的時間的相関を捉えるために,環境観測性を改善した新しい分散制御アーキテクチャを設計する。 具体的には,道路ネットワークに収集された非構造データから相関関連情報を抽出するトポロジ対応情報集約戦略を開発する。 特に,道路ネットワークのトポロジを,トポロジ上の拡散過程を形成してグラフシフト演算子に転送し,グラフ信号の構築を容易にする。 拡散畳み込みモジュールが開発され、新しいMARLアルゴリズムが作成され、エージェントにグラフ学習の能力を与える。 合成データと実世界データの両方に基づく広範な実験により,提案手法が既存の分散アルゴリズムよりも優れていることを検証した。

This paper considers optimal traffic signal control in smart cities, which has been taken as a complex networked system control problem. Given the interacting dynamics among traffic lights and road networks, attaining controller adaptivity and scalability stands out as a primary challenge. Capturing the spatial-temporal correlation among traffic lights under the framework of Multi-Agent Reinforcement Learning (MARL) is a promising solution. Nevertheless, existing MARL algorithms ignore effective information aggregation which is fundamental for improving the learning capacity of decentralized agents. In this paper, we design a new decentralized control architecture with improved environmental observability to capture the spatial-temporal correlation. Specifically, we first develop a topology-aware information aggregation strategy to extract correlation-related information from unstructured data gathered in the road network. Particularly, we transfer the road network topology into a graph shift operator by forming a diffusion process on the topology, which subsequently facilitates the construction of graph signals. A diffusion convolution module is developed, forming a new MARL algorithm, which endows agents with the capabilities of graph learning. Extensive experiments based on both synthetic and real-world datasets verify that our proposal outperforms existing decentralized algorithms.
翻訳日:2023-11-08 16:38:54 公開日:2023-11-07
# 多言語数学的オートフォーマライゼーション

Multilingual Mathematical Autoformalization ( http://arxiv.org/abs/2311.03755v1 )

ライセンス: Link先を確認
Albert Q. Jiang, Wenda Li, Mateja Jamnik(参考訳) 自動形式化(autoformalization)は、自然言語を機械検証可能な形式に変換する作業である。 自己形式化研究の進展は、同じ本質を表現する非公式な形式対からなる大きなデータセットの欠如によって妨げられている。 既存の手法では、小さなコーパスを手動でキュレートしたり、大きな言語モデルで数発の学習を行うことで、この問題を回避する傾向にある。 しかし、これらの手法はデータの不足と正式な言語習得の困難に苦しんでいる。 本研究では,フォーマルな数学的文から対応する形式的文へ,言語モデルを用いて逆方向に翻訳することにより,非公式な形式的ペアの大規模,柔軟,多言語,多ドメインデータセットである$\texttt{mma}$を作成する。 実験によると、$\texttt{MMA}$で微調整された言語モデルは、$\texttt{miniF2F}$と$\texttt{ProofNet}$ベンチマークで最小限の修正で許容される文の16-18\%$を生成します。 多言語形式データの微調整により,単言語タスクにデプロイしても,より有能な自己形成モデルが得られることを示す。

Autoformalization is the task of translating natural language materials into machine-verifiable formalisations. Progress in autoformalization research is hindered by the lack of a sizeable dataset consisting of informal-formal pairs expressing the same essence. Existing methods tend to circumvent this challenge by manually curating small corpora or using few-shot learning with large language models. But these methods suffer from data scarcity and formal language acquisition difficulty. In this work, we create $\texttt{MMA}$, a large, flexible, multilingual, and multi-domain dataset of informal-formal pairs, by using a language model to translate in the reverse direction, that is, from formal mathematical statements into corresponding informal ones. Experiments show that language models fine-tuned on $\texttt{MMA}$ produce $16-18\%$ of statements acceptable with minimal corrections on the $\texttt{miniF2F}$ and $\texttt{ProofNet}$ benchmarks, up from $0\%$ with the base model. We demonstrate that fine-tuning on multilingual formal data results in more capable autoformalization models even when deployed on monolingual tasks.
翻訳日:2023-11-08 16:38:35 公開日:2023-11-07
# どちらがよいか? LLMに基づくメトリクスのプロンプト戦略の探求

Which is better? Exploring Prompting Strategy For LLM-based Metrics ( http://arxiv.org/abs/2311.03754v1 )

ライセンス: Link先を確認
Joonghoon Kim, Saeran Park, Kiyoon Jeong, Sangmin Lee, Seung Hun Han, Jiyoon Lee, Pilsung Kang(参考訳) 本稿では,dsbaの大規模言語モデルへの提案について,説明可能なメトリクス共有タスクとして述べる。 GPT-4のような先進的な大規模言語モデル(LLM)により、自然言語生成(NLG)の品質を評価することがますます重要になっている。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。 この問題に対処するために, LLM ベースのメトリクスの可能性, 特にオープンソース LLM の活用について検討する。 本研究では, 戦略, スコアアグリゲーション, 説明可能性の3つのアプローチを用いて, 幅広いプロンプトとプロンプト手法を体系的に分析した。 本研究は, 効果的なプロンプトテンプレートの定式化, NLG品質スコアの粒度決定, LLMに基づく評価における文脈内例の影響評価に焦点をあてる。 さらに,3つの集計戦略を比較し,nlg品質スコアを集計する最も信頼性の高い方法を特定する。 説明可能性を検討するため,オープンソースのLCMが生み出した説明の特徴を解析し,スコアの合理性を生成する戦略を考案した。 広範な実験は、オープンソースのllmの評価能力に関する洞察を提供し、効果的なプロンプト戦略を提案する。

This paper describes the DSBA submissions to the Prompting Large Language Models as Explainable Metrics shared task, where systems were submitted to two tracks: small and large summarization tracks. With advanced Large Language Models (LLMs) such as GPT-4, evaluating the quality of Natural Language Generation (NLG) has become increasingly paramount. Traditional similarity-based metrics such as BLEU and ROUGE have shown to misalign with human evaluation and are ill-suited for open-ended generation tasks. To address this issue, we explore the potential capability of LLM-based metrics, especially leveraging open-source LLMs. In this study, wide range of prompts and prompting techniques are systematically analyzed with three approaches: prompting strategy, score aggregation, and explainability. Our research focuses on formulating effective prompt templates, determining the granularity of NLG quality scores and assessing the impact of in-context examples on LLM-based evaluation. Furthermore, three aggregation strategies are compared to identify the most reliable method for aggregating NLG quality scores. To examine explainability, we devise a strategy that generates rationales for the scores and analyzes the characteristics of the explanation produced by the open-source LLMs. Extensive experiments provide insights regarding evaluation capabilities of open-source LLMs and suggest effective prompting strategies.
翻訳日:2023-11-08 16:38:11 公開日:2023-11-07
# 歯科用X線画像における歯の注意モジュールを用いたマルチクラスセグメンテーション

Multiclass Segmentation using Teeth Attention Modules for Dental X-ray Images ( http://arxiv.org/abs/2311.03749v1 )

ライセンス: Link先を確認
Afnan Ghafoor and Seong-Yong Moon and Bumshik Lee(参考訳) 本稿では,m-netライクな構造とスウィントランス,新しい歯の注意ブロック(tab)を融合した,最先端の歯の分節構造を提案する。 既存の歯像分割法では, 歯の複雑な形状や形態の違いにより, 精度が低く, 信頼性に欠けるセグメンテーションの結果が問題視されるが, 歯のパノラマ画像における歯のセグメンテーションは歯の診断に不可欠である。 本稿では,m-netライクなスウィントランスとタブを組み込んだ歯の分割モデルを提案する。 提案したTABは、歯の複雑な構造に特化するユニークな注意機構を利用する。 TABの注意機構は、パノラマ画像における歯の特徴の重要な要素を正確に強調し、より正確なセグメンテーション結果をもたらす。 提案アーキテクチャは,各歯とその周辺構造を正確に定義し,局所的およびグローバルな文脈情報を効果的に取得する。 さらに,u-net構造の左右脚を活用し,特徴表現の強化によりセグメンテーションの性能を高めるマルチスケールの監督戦略を採用している。 2乗ダイス損失はクラス不均衡問題に対処し、すべてのクラスにまたがる正確なセグメンテーションを保証するために利用される。 提案法をパノラマ歯x線データセットで検証し,実世界の歯科診断で検討した。 本研究は, 歯科画像データセットにおける歯のセグメンテーションにおける提案手法の有効性を実証するものであり, 客観的測定および視覚検査において, 既存の最先端手法を上回っている。 本研究は, 歯科画像解析を著しく向上させ, 歯科応用の進歩に寄与する可能性がある。

This paper proposed a cutting-edge multiclass teeth segmentation architecture that integrates an M-Net-like structure with Swin Transformers and a novel component named Teeth Attention Block (TAB). Existing teeth image segmentation methods have issues with less accurate and unreliable segmentation outcomes due to the complex and varying morphology of teeth, although teeth segmentation in dental panoramic images is essential for dental disease diagnosis. We propose a novel teeth segmentation model incorporating an M-Net-like structure with Swin Transformers and TAB. The proposed TAB utilizes a unique attention mechanism that focuses specifically on the complex structures of teeth. The attention mechanism in TAB precisely highlights key elements of teeth features in panoramic images, resulting in more accurate segmentation outcomes. The proposed architecture effectively captures local and global contextual information, accurately defining each tooth and its surrounding structures. Furthermore, we employ a multiscale supervision strategy, which leverages the left and right legs of the U-Net structure, boosting the performance of the segmentation with enhanced feature representation. The squared Dice loss is utilized to tackle the class imbalance issue, ensuring accurate segmentation across all classes. The proposed method was validated on a panoramic teeth X-ray dataset, which was taken in a real-world dental diagnosis. The experimental results demonstrate the efficacy of our proposed architecture for tooth segmentation on multiple benchmark dental image datasets, outperforming existing state-of-the-art methods in objective metrics and visual examinations. This study has the potential to significantly enhance dental image analysis and contribute to advances in dental applications.
翻訳日:2023-11-08 16:37:44 公開日:2023-11-07
# サンプル認識型ダイナミックスパースファインタニングによる低リソース同時ラベリング

Unified Low-Resource Sequence Labeling by Sample-Aware Dynamic Sparse Finetuning ( http://arxiv.org/abs/2311.03748v1 )

ライセンス: Link先を確認
Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Peng Shi, Wenpeng Yin, Rui Zhang(参考訳) 名前付きエンティティ認識、関係抽出、セマンティックロールラベリングなどの異なるシーケンスラベリング問題を一般化されたシーケンス・ツー・シーケンス形式で表現する統一シーケンスラベリングは、構造化予測に向けて大きな言語モデル知識を最大限に活用する機会を開く。 残念ながら、これはターゲットフォーマットに微調整を必要とするベース事前訓練言語モデル(PLM)に未知の特殊な拡張フォーマットにフォーマットする必要がある。 これは、大きなモデルを微調整してもターゲットフォーマットに適切に一般化できないデータ制限設定において、その有用性を著しく制限する。 この課題に対処し,PLMの知識を効果的に活用するために,サンプル認識型動的スパース微調整戦略であるFISH-DIPを提案する。 スパーシリティのダイナミズムを活用することで,十分に学習されたサンプルの影響を緩和し,汎用性を改善するために低パフォーマンスなインスタンスを優先する手法を提案する。 シーケンスラベリングの5つのタスクを通じて,fish-dipは,ターゲット評価設定に応じて,最大40%のパフォーマンス改善を提供する低リソース設定で,モデルをスムーズに最適化できることを実証する。 また、テキスト内学習やその他のパラメータ効率のよい微調整手法と比較して、FISH-DIPは、特に極端に低リソースな設定において、可視またはより優れた性能を発揮する。

Unified Sequence Labeling that articulates different sequence labeling problems such as Named Entity Recognition, Relation Extraction, Semantic Role Labeling, etc. in a generalized sequence-to-sequence format opens up the opportunity to make the maximum utilization of large language model knowledge toward structured prediction. Unfortunately, this requires formatting them into specialized augmented format unknown to the base pretrained language model (PLMs) necessitating finetuning to the target format. This significantly bounds its usefulness in data-limited settings where finetuning large models cannot properly generalize to the target format. To address this challenge and leverage PLM knowledge effectively, we propose FISH-DIP, a sample-aware dynamic sparse finetuning strategy that selectively focuses on a fraction of parameters, informed by feedback from highly regressing examples, during the fine-tuning process. By leveraging the dynamism of sparsity, our approach mitigates the impact of well-learned samples and prioritizes underperforming instances for improvement in generalization. Across five tasks of sequence labeling, we demonstrate that FISH-DIP can smoothly optimize the model in low resource settings offering upto 40% performance improvements over full fine-tuning depending on target evaluation settings. Also, compared to in-context learning and other parameter-efficient fine-tuning approaches, FISH-DIP performs comparably or better, notably in extreme low-resource settings.
翻訳日:2023-11-08 16:37:14 公開日:2023-11-07
# SBCFormer:シングルボードコンピュータ上で1FPSでフルサイズのイメージネット分類が可能な軽量ネットワーク

SBCFormer: Lightweight Network Capable of Full-size ImageNet Classification at 1 FPS on Single Board Computers ( http://arxiv.org/abs/2311.03747v1 )

ライセンス: Link先を確認
Xiangyong Lu, Masanori Suganuma, Takayuki Okatani(参考訳) コンピュータビジョンは、スマート農業、漁業、畜産管理など、さまざまなドメインにわたる現実世界の問題を解決するためにますます普及している。 これらのアプリケーションは毎秒多くの画像フレームを処理する必要がないため、実践者はシングルボードコンピュータ(SBC)を使用する必要がある。 多くの軽量ネットワークがモバイル/エッジデバイス向けに開発されたが、主にローエンドCPUを搭載したSBCではなく、より強力なプロセッサを搭載したスマートフォンをターゲットにしている。 本稿では,CNN-ViTハイブリッドネットワークであるSBCFormerを提案する。 これらのCPUのハードウェア制約により、Transformerの注意機構は畳み込みよりも好まれる。 しかし、ローエンドCPUに注意を払ってみると、高解像度な内部特徴マップは過剰な計算資源を必要とするが、解像度を下げることで局所的な画像の詳細が失われる。 SBCFormerはこの問題に対処するためのアーキテクチャ設計を導入する。 その結果、SBCFormerはARM-Cortex A72 CPUを搭載したRaspberry Pi 4 Model Bの精度と速度のトレードオフが最も高い。 初めてimagenet-1k top-1の精度約80%をsbcで1.0フレーム/秒の速度で達成した。 コードはhttps://github.com/xyongLu/SBCFormerで入手できる。

Computer vision has become increasingly prevalent in solving real-world problems across diverse domains, including smart agriculture, fishery, and livestock management. These applications may not require processing many image frames per second, leading practitioners to use single board computers (SBCs). Although many lightweight networks have been developed for mobile/edge devices, they primarily target smartphones with more powerful processors and not SBCs with the low-end CPUs. This paper introduces a CNN-ViT hybrid network called SBCFormer, which achieves high accuracy and fast computation on such low-end CPUs. The hardware constraints of these CPUs make the Transformer's attention mechanism preferable to convolution. However, using attention on low-end CPUs presents a challenge: high-resolution internal feature maps demand excessive computational resources, but reducing their resolution results in the loss of local image details. SBCFormer introduces an architectural design to address this issue. As a result, SBCFormer achieves the highest trade-off between accuracy and speed on a Raspberry Pi 4 Model B with an ARM-Cortex A72 CPU. For the first time, it achieves an ImageNet-1K top-1 accuracy of around 80% at a speed of 1.0 frame/sec on the SBC. Code is available at https://github.com/xyongLu/SBCFormer.
翻訳日:2023-11-08 16:36:44 公開日:2023-11-07
# 多周波楕円問題に対する領域スケーリングと残差補正法による物理インフォームニューラルネットワークの強化

Enhanced physics-informed neural networks with domain scaling and residual correction methods for multi-frequency elliptic problems ( http://arxiv.org/abs/2311.03746v1 )

ライセンス: Link先を確認
Deok-Kyu Jang, Hyea Hyun Kim, Kyungsoo Kim(参考訳) 本稿では,多周波解を用いた楕円偏微分方程式に対するニューラルネットワーク近似法を開発した。 ニューラルネットワークの作業近似法は、微分方程式の形式や問題領域の形状や次元に大きな関心を払わずに適用できるという古典的なアプローチよりも利点がある。 マルチ周波数解問題に適用する場合、ニューラルネットワーク近似法の性能と精度は、解の高周波数と低周波数のコントラストの影響を強く受けている。 この問題に対処するため,ドメインスケーリングと残差補正手法を提案する。 提案手法の有効性と精度を多周波モデル問題に適用する。

In this paper, neural network approximation methods are developed for elliptic partial differential equations with multi-frequency solutions. Neural network work approximation methods have advantages over classical approaches in that they can be applied without much concerns on the form of the differential equations or the shape or dimension of the problem domain. When applied to problems with multi-frequency solutions, the performance and accuracy of neural network approximation methods are strongly affected by the contrast of the high- and low-frequency parts in the solutions. To address this issue, domain scaling and residual correction methods are proposed. The efficiency and accuracy of the proposed methods are demonstrated for multi-frequency model problems.
翻訳日:2023-11-08 16:36:24 公開日:2023-11-07
# 教師なしビデオ要約

Unsupervised Video Summarization ( http://arxiv.org/abs/2311.03745v1 )

ライセンス: Link先を確認
Hanqing Li, Diego Klabjan, Jean Utke(参考訳) 本稿では,生成型adversarial networkからのアイデアを駆使して,識別器を除去し,簡易な損失関数を有し,モデルの異なる部分の訓練を分離する,教師なしのビデオ自動要約手法を提案する。 また、複数の反復に対して再構成子とフレームセレクタを交互に訓練することにより、反復訓練戦略を適用する。 さらに、トレーニングおよび評価中に要約生成時にトレーニング可能なマスクベクトルをモデルに追加する。 また、教師なしモデル選択アルゴリズムを含む。 2つの公開データセット(SumMeとTVSum)と私たちが作成した4つのデータセット(Soccer、LoL、MLB、ShortMLB)による実験の結果は、各コンポーネントがモデルパフォーマンス、特に反復的トレーニング戦略に与える影響を実証している。 最先端手法の評価と比較は,提案手法の性能,安定性,訓練効率の利点を浮き彫りにしたものである。

This paper introduces a new, unsupervised method for automatic video summarization using ideas from generative adversarial networks but eliminating the discriminator, having a simple loss function, and separating training of different parts of the model. An iterative training strategy is also applied by alternately training the reconstructor and the frame selector for multiple iterations. Furthermore, a trainable mask vector is added to the model in summary generation during training and evaluation. The method also includes an unsupervised model selection algorithm. Results from experiments on two public datasets (SumMe and TVSum) and four datasets we created (Soccer, LoL, MLB, and ShortMLB) demonstrate the effectiveness of each component on the model performance, particularly the iterative training strategy. Evaluations and comparisons with the state-of-the-art methods highlight the advantages of the proposed method in performance, stability, and training efficiency.
翻訳日:2023-11-08 16:36:15 公開日:2023-11-07
# 3diffusiondet:ロバストlidarカメラ融合による3次元物体検出のための拡散モデル

3DifFusionDet: Diffusion Model for 3D Object Detection with Robust LiDAR-Camera Fusion ( http://arxiv.org/abs/2311.03742v1 )

ライセンス: Link先を確認
Xinhao Xiang, Simon Dr\"ager, Jiawei Zhang(参考訳) LiDAR-Cameraセンサーの優れた3Dオブジェクト検出性能は、シームレスな機能アライメントと融合戦略を必要とする。 本稿では,ノイズの多い3Dボックスからターゲットボックスへの拡散過程として3Dオブジェクト検出を行う3DifFusionDetフレームワークを提案する。 このフレームワークでは、基底真理ボックスはトレーニングのためにランダムな分布に拡散し、モデルはノイズ発生過程を逆転することを学ぶ。 推論の間、モデルは結果にランダムに生成されたボックスの集合を徐々に洗練する。 特徴整合戦略の下では、プログレッシブ改良法はロバストLiDAR-Camera融合に重要な貢献をする可能性がある。 反復的なリファインメントプロセスは、様々な精度と速度のレベルを必要とする様々な検出状況にフレームワークを適用することで、大きな適応性を示すこともできる。 実世界の交通物体識別のベンチマークであるKITTIの大規模な実験により、3DifFusionDetは以前のよく検討された検出器と比較して好適に動作可能であることが明らかになった。

Good 3D object detection performance from LiDAR-Camera sensors demands seamless feature alignment and fusion strategies. We propose the 3DifFusionDet framework in this paper, which structures 3D object detection as a denoising diffusion process from noisy 3D boxes to target boxes. In this framework, ground truth boxes diffuse in a random distribution for training, and the model learns to reverse the noising process. During inference, the model gradually refines a set of boxes that were generated at random to the outcomes. Under the feature align strategy, the progressive refinement method could make a significant contribution to robust LiDAR-Camera fusion. The iterative refinement process could also demonstrate great adaptability by applying the framework to various detecting circumstances where varying levels of accuracy and speed are required. Extensive experiments on KITTI, a benchmark for real-world traffic object identification, revealed that 3DifFusionDet is able to perform favorably in comparison to earlier, well-respected detectors.
翻訳日:2023-11-08 16:36:00 公開日:2023-11-07
# ユーザレベルの微分プライベート確率凸最適化:最適レートの効率的なアルゴリズム

User-level Differentially Private Stochastic Convex Optimization: Efficient Algorithms with Optimal Rates ( http://arxiv.org/abs/2311.03797v1 )

ライセンス: Link先を確認
Hilal Asi, Daogao Liu(参考訳) ユーザレベルのプライバシの下で,各ユーザが複数のデータアイテムを保持可能なDP-SCOについて検討した。 既存のDP-SCOの作業には、スーパーポリノミカルランタイム(Ghazi et al. (2023))が必要か、さらに厳密な仮定(Bassily et al. (2023))を伴って、問題の次元と多項式的に成長するユーザ数を必要とする。 我々は,多項式時間における凸関数と強凸関数の両方の最適レートを求めるDP-SCOの新しいアルゴリズムを開発し,各次元の対数的にしか成長しないユーザ数を求める。 さらに, このアルゴリズムは多項式時間における非滑らか関数の最適値を得る最初の方法である。 これらのアルゴリズムはマルチパスdp-sgdに基づいており、集中データに対する新しいプライベート平均推定法と組み合わせて、勾配の平均を推定する前に外れ値除去ステップを適用する。

We study differentially private stochastic convex optimization (DP-SCO) under user-level privacy, where each user may hold multiple data items. Existing work for user-level DP-SCO either requires super-polynomial runtime [Ghazi et al. (2023)] or requires the number of users to grow polynomially with the dimensionality of the problem with additional strict assumptions [Bassily et al. (2023)]. We develop new algorithms for user-level DP-SCO that obtain optimal rates for both convex and strongly convex functions in polynomial time and require the number of users to grow only logarithmically in the dimension. Moreover, our algorithms are the first to obtain optimal rates for non-smooth functions in polynomial time. These algorithms are based on multiple-pass DP-SGD, combined with a novel private mean estimation procedure for concentrated data, which applies an outlier removal step before estimating the mean of the gradients.
翻訳日:2023-11-08 16:28:14 公開日:2023-11-07
# 量子キックトップにおけるカオスの動的シグネチャの周期性

Periodicity of dynamical signatures of chaos in quantum kicked top ( http://arxiv.org/abs/2311.03795v1 )

ライセンス: Link先を確認
Sreeram P.G, M.S. Santhanam(参考訳) 量子相関の一連の動的測度(時間外順序相関子、ロスシュミットエコー、一般化された絡み合い、観測エントロピー)は、量子構造における古典的カオスダイナミクスを推測するのに有用である。 本研究では、これらの測度を用いて、キック強度を$k$で解析する。 定義の違いにもかかわらず、これらの測度は k$ の周期的であり、周期性はキックされたトップで表されるスピンの数に依存することが示されている。 周期的な振舞いはキックされたトップフロケ作用素の構造から生じ、対応する古典力学が主にカオスである体制にまたがる。 この結果は、繰り返しのダイナミクスを避けるために、正しいキック強度の選択に向けて実験を導くことができる。

A host of dynamical measures of quantum correlations -- out-of-time ordered correlators, Loschmidt echo, generalized entanglement and observational entropy -- are useful to infer about the underlying classical chaotic dynamics in quantum regime. In this work, these measures are employed to analyse quantum kicked top with kick strength $k$. It is shown that, despite the differences in their definitions, these measures are periodic with $k$, and the periodicity depends on the number of spins represented by the kicked top. The periodic behaviour arises from the structure of the kicked top Floquet operator and spans the regime in which the corresponding classical dynamics is predominantly chaotic. This result can guide experiments towards the right choice of kick strengths to avoid repetitive dynamics.
翻訳日:2023-11-08 16:27:53 公開日:2023-11-07
# 高次元の浅層ニューラルネットワークのトレーニングにおける過パラメータ化の影響について

On the Impact of Overparameterization on the Training of a Shallow Neural Network in High Dimensions ( http://arxiv.org/abs/2311.03794v1 )

ライセンス: Link先を確認
Simon Martin (DI-ENS, LPENS), Francis Bach (DI-ENS), Giulio Biroli (LPENS)(参考訳) 教師学習環境における2次活性化機能と2次コストを有する浅層ニューラルネットワークの学習ダイナミクスについて検討した。 同じニューラルアーキテクチャの先行研究と並行して、データポイントの平均値が分布上の期待値に置き換わる集団リスクの勾配フローに従って最適化を行い、まず勾配フローの収束特性を導出し、強力な信号回復を達成するために必要な過剰パラメータ化を定量化する。 そして,初期化時の教師と生徒が独立した正規直交系を形成することを仮定して,流れに対する高次元の限界を導出し,最小の過パラメータ化が強い回復に十分であることを示す。 これらの結果がより一般的な初期化に有効であることを数値実験により検証する。

We study the training dynamics of a shallow neural network with quadratic activation functions and quadratic cost in a teacher-student setup. In line with previous works on the same neural architecture, the optimization is performed following the gradient flow on the population risk, where the average over data points is replaced by the expectation over their distribution, assumed to be Gaussian.We first derive convergence properties for the gradient flow and quantify the overparameterization that is necessary to achieve a strong signal recovery. Then, assuming that the teachers and the students at initialization form independent orthonormal families, we derive a high-dimensional limit for the flow and show that the minimal overparameterization is sufficient for strong recovery. We verify by numerical experiments that these results hold for more general initializations.
翻訳日:2023-11-08 16:27:37 公開日:2023-11-07
# シーケンスアライメント付きトランスフォーマーアーキテクチャを用いた文字レベルバングラテキスト-IPA転写

Character-Level Bangla Text-to-IPA Transcription Using Transformer Architecture with Sequence Alignment ( http://arxiv.org/abs/2311.03792v1 )

ライセンス: Link先を確認
Jakir Hasan, Shrestha Datta, Ameya Debnath(参考訳) 国際音声アルファベット(IPA)は、言語学習と理解において不可欠であり、正確な発音と理解を支援する。 さらに、音声療法、言語研究、正確な翻訳、テキスト対音声システムの開発において重要な役割を担っており、様々な分野にまたがる重要なツールとなっている。 広く使われている言語の7番目であるBanglaは、そのドメインでIPAを必要としている。 IPAマッピングは多種多様で、手動でキャプチャできるため、この分野では人工知能と機械学習の必要性がある。 本研究では,文字と記号レベルでのトランスフォーマティブに基づくシーケンス・ツー・シーケンスモデルを用いて,各バングラ語のipaを,単語の関連付けにおけるipaのばらつきとしてほぼ無効にする。 我々のトランスモデルは850万のパラメータと1つのデコーダ層とエンコーダ層のみで構成されている。 さらに,テキスト中の句読点や外国語の発生に対処するために,モデルがバングラ語からそれらを切り離すことを学習できなくなり,必要な計算資源を削減できるため,手作業によるマッピングも活用した。 最後に、文成分IPAの相対的な位置を維持し、組み合わせたIPAの生成は、DataVerse Challenge - ITVerse 2023 (https://www.kaggle.com/competitions/dataverse_2023/) の公開ランキングにおいて、単語エラー率0.10582でトップの位置に到達した。

The International Phonetic Alphabet (IPA) is indispensable in language learning and understanding, aiding users in accurate pronunciation and comprehension. Additionally, it plays a pivotal role in speech therapy, linguistic research, accurate transliteration, and the development of text-to-speech systems, making it an essential tool across diverse fields. Bangla being 7th as one of the widely used languages, gives rise to the need for IPA in its domain. Its IPA mapping is too diverse to be captured manually giving the need for Artificial Intelligence and Machine Learning in this field. In this study, we have utilized a transformer-based sequence-to-sequence model at the letter and symbol level to get the IPA of each Bangla word as the variation of IPA in association of different words is almost null. Our transformer model only consisted of 8.5 million parameters with only a single decoder and encoder layer. Additionally, to handle the punctuation marks and the occurrence of foreign languages in the text, we have utilized manual mapping as the model won't be able to learn to separate them from Bangla words while decreasing our required computational resources. Finally, maintaining the relative position of the sentence component IPAs and generation of the combined IPA has led us to achieve the top position with a word error rate of 0.10582 in the public ranking of DataVerse Challenge - ITVerse 2023 (https://www.kaggle.com/competitions/dataverse_2023/).
翻訳日:2023-11-08 16:27:24 公開日:2023-11-07
# 言語表現予測:多言語言語モデルにおける言語間のファクチュアル知識の伝達は可能か?

Language Representation Projection: Can We Transfer Factual Knowledge across Languages in Multilingual Language Models? ( http://arxiv.org/abs/2311.03788v1 )

ライセンス: Link先を確認
Shaoyang Xu, Junzhuo Li, Deyi Xiong(参考訳) 多言語事前訓練言語モデルは、多言語事実知識のリポジトリとして機能する。 それでも、多言語事前訓練言語モデルにおける言語間の暗黙的な事実知識の伝達を示唆する、高リソース言語と低リソース言語の間には、事実知識のかなりのパフォーマンスギャップが存在する。 本稿では,比較的豊かな事実知識を英語から非英語に明示的に移行する可能性を検討する。 これを実現するために、パラメータフリーな $\textbf{L}$anguage $\textbf{R}$epresentation $\textbf{P}$rojection module (LRP2)を提案する。 第1のモジュールは非英語表現を英語的な同値に変換し、第2のモジュールは英語のような表現を対応する非英語言語の表現に戻す。 mLAMAデータセットによる実験結果から,LRP2は事実知識検索の精度を大幅に向上し,多種多様な非英語言語間の知識伝達を容易にすることが示された。 さらに、表現空間と言語間知識ニューロンの観点からLRP2の作用機構について検討する。

Multilingual pretrained language models serve as repositories of multilingual factual knowledge. Nevertheless, a substantial performance gap of factual knowledge probing exists between high-resource languages and low-resource languages, suggesting limited implicit factual knowledge transfer across languages in multilingual pretrained language models. This paper investigates the feasibility of explicitly transferring relatively rich factual knowledge from English to non-English languages. To accomplish this, we propose two parameter-free $\textbf{L}$anguage $\textbf{R}$epresentation $\textbf{P}$rojection modules (LRP2). The first module converts non-English representations into English-like equivalents, while the second module reverts English-like representations back into representations of the corresponding non-English language. Experimental results on the mLAMA dataset demonstrate that LRP2 significantly improves factual knowledge retrieval accuracy and facilitates knowledge transferability across diverse non-English languages. We further investigate the working mechanism of LRP2 from the perspectives of representation space and cross-lingual knowledge neuron.
翻訳日:2023-11-08 16:26:53 公開日:2023-11-07
# Self-MI: Auxiliary Mutual Information Maximizationを用いた自己監督型マルチタスク学習による効率的なマルチモーダルフュージョン

Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task Learning with Auxiliary Mutual Information Maximization ( http://arxiv.org/abs/2311.03785v1 )

ライセンス: Link先を確認
Cam-Van Thi Nguyen, Ngoc-Hoa Thi Nguyen, Duc-Trong Le, Quang-Thuy Ha(参考訳) マルチモーダル表現学習は,複数のモーダルから情報的特徴と特徴を抽出する上で重要な課題となる。 既存の手法はしばしば、統一マルチモーダルアノテーションによる各モダリティのユニークな特徴を利用するのに苦労する。 本研究では, 自己教師型学習方式のセルフMIを提案し, コントラスト予測符号化(CPC)を補助的手法として活用し, 単項入力対と多項融合結果との相互情報(MI)を一項入力で最大化する。 さらに,ラベル生成モジュールである$ULG_{MI}$を設計し,各モダリティに有意義かつ有意義なラベルを自己管理的に作成できるようにする。 相互情報の最大化により、マルチモーダル融合と個々のモダリティの整合性が向上し、マルチモーダル融合の改善が促進される。 CMU-MOSI、CMU-MOSEI、SIMSを含む3つのベンチマークデータセットに対する大規模な実験は、マルチモーダル核融合タスクの強化におけるSelf-MIの有効性を示す。

Multimodal representation learning poses significant challenges in capturing informative and distinct features from multiple modalities. Existing methods often struggle to exploit the unique characteristics of each modality due to unified multimodal annotations. In this study, we propose Self-MI in the self-supervised learning fashion, which also leverage Contrastive Predictive Coding (CPC) as an auxiliary technique to maximize the Mutual Information (MI) between unimodal input pairs and the multimodal fusion result with unimodal inputs. Moreover, we design a label generation module, $ULG_{MI}$ for short, that enables us to create meaningful and informative labels for each modality in a self-supervised manner. By maximizing the Mutual Information, we encourage better alignment between the multimodal fusion and the individual modalities, facilitating improved multimodal fusion. Extensive experiments on three benchmark datasets including CMU-MOSI, CMU-MOSEI, and SIMS, demonstrate the effectiveness of Self-MI in enhancing the multimodal fusion task.
翻訳日:2023-11-08 16:26:35 公開日:2023-11-07
# UP-NeRF:制約のないパルスフリー神経放射場

UP-NeRF: Unconstrained Pose-Prior-Free Neural Radiance Fields ( http://arxiv.org/abs/2311.03784v1 )

ライセンス: Link先を確認
Injae Kim, Minhyuk Choi, Hyunwoo J. Kim(参考訳) neural radiance field (nerf) は高忠実度画像とカメラポーズを持つ新しいビュー合成を可能にした。 その後の作業は、NeRFとカメラのポーズを共同最適化することで、ポーズの必要をなくすことに成功した。 しかし、これらの作品は、フォトメトリック一貫性やオクルーダーフリーな画像コレクション、ビデオからの一連の画像など、比較的単純な設定に限られている。 そのため、照度や過渡オクローダの異なる制約のない画像を扱うのが困難である。 本稿では,NeRFをカメラポーズのない非制約画像コレクションで最適化するために, {textbf{UP-NeRF} (\textbf{U}nconstrained \textbf{P}ose-prior-free \textbf{Ne}ural \textbf{R}adiance \textbf{F}ields)を提案する。 色に敏感な特徴フィールドを最適化するsurrogateタスクと、ポーズ推定への影響をブロックする一時的なオクルーダのための別モジュールによって、これらの課題に取り組む。 さらに,よりロバストなポーズ推定を可能にする候補ヘッドと,不正確な事前の影響を最小限に抑えるための過渡認識奥行き監視を提案する。 提案手法は, BARFとその変種を含むベースラインと比較して, 難解なインターネット写真コレクションである \textit{Phototourism} データセットにおいて優れた性能を示す。 UP-NeRFのコードは \url{https://github.com/mlvlab/UP-NeRF} で公開されている。

Neural Radiance Field (NeRF) has enabled novel view synthesis with high fidelity given images and camera poses. Subsequent works even succeeded in eliminating the necessity of pose priors by jointly optimizing NeRF and camera pose. However, these works are limited to relatively simple settings such as photometrically consistent and occluder-free image collections or a sequence of images from a video. So they have difficulty handling unconstrained images with varying illumination and transient occluders. In this paper, we propose \textbf{UP-NeRF} (\textbf{U}nconstrained \textbf{P}ose-prior-free \textbf{Ne}ural \textbf{R}adiance \textbf{F}ields) to optimize NeRF with unconstrained image collections without camera pose prior. We tackle these challenges with surrogate tasks that optimize color-insensitive feature fields and a separate module for transient occluders to block their influence on pose estimation. In addition, we introduce a candidate head to enable more robust pose estimation and transient-aware depth supervision to minimize the effect of incorrect prior. Our experiments verify the superior performance of our method compared to the baselines including BARF and its variants in a challenging internet photo collection, \textit{Phototourism} dataset. The code of UP-NeRF is available at \url{https://github.com/mlvlab/UP-NeRF}.
翻訳日:2023-11-08 16:26:13 公開日:2023-11-07
# 身近なAIのためのシーン駆動型マルチモーダル知識グラフ構築

Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI ( http://arxiv.org/abs/2311.03783v1 )

ライセンス: Link先を確認
Song Yaoxian, Sun Penglei, Liu Haoyu, Li Zhixu, Song Wei, Xiao Yanghua, Zhou Xiaofang(参考訳) Embodied AIは人工知能とロボット工学において最も人気のある研究の1つであり、人間に仕える現実世界のエージェント(つまりロボット)の知能を効果的に向上させることができる。 環境知識は、エージェントが周囲を理解し、様々なオープンな世界で正しい判断をする上で重要である。 現在、具体化されたタスクの知識ベースが欠落しており、既存の作業の多くはエージェントの知性を高めるために一般的な知識ベースまたは事前訓練されたモデルを使用している。 従来の知識ベースでは、データ収集の能力とコストが不足している。 事前訓練されたモデルでは、知識の不確実性とハードメンテナンスが直面する。 シーン知識の課題を克服するため,従来の知識工学と大規模言語モデルを組み合わせたシーン駆動マルチモーダル知識グラフ(scene-mmkg)の構築手法を提案する。 知識表現のための統合されたシーン知識注入フレームワークが導入された。 提案手法の利点を評価するため,典型的な屋内ロボット機能(マニピュレーションとモビリティ)を考慮したScene-MMKGのインスタンス化を行った。 特性比較の結果,manipmob-mmkgはデータ収集効率と知識品質に優れていた。 実験結果から, モデル構造を複雑に再設計することなく, インタライズしたManipMob-MMKGを用いた知識強化手法により, 明らかに性能を向上できることが示された。 私たちのプロジェクトはhttps://sites.google.com/view/manipmob-mmkgにあります。

Embodied AI is one of the most popular studies in artificial intelligence and robotics, which can effectively improve the intelligence of real-world agents (i.e. robots) serving human beings. Scene knowledge is important for an agent to understand the surroundings and make correct decisions in the varied open world. Currently, knowledge base for embodied tasks is missing and most existing work use general knowledge base or pre-trained models to enhance the intelligence of an agent. For conventional knowledge base, it is sparse, insufficient in capacity and cost in data collection. For pre-trained models, they face the uncertainty of knowledge and hard maintenance. To overcome the challenges of scene knowledge, we propose a scene-driven multimodal knowledge graph (Scene-MMKG) construction method combining conventional knowledge engineering and large language models. A unified scene knowledge injection framework is introduced for knowledge representation. To evaluate the advantages of our proposed method, we instantiate Scene-MMKG considering typical indoor robotic functionalities (Manipulation and Mobility), named ManipMob-MMKG. Comparisons in characteristics indicate our instantiated ManipMob-MMKG has broad superiority in data-collection efficiency and knowledge quality. Experimental results on typical embodied tasks show that knowledge-enhanced methods using our instantiated ManipMob-MMKG can improve the performance obviously without re-designing model structures complexly. Our project can be found at https://sites.google.com/view/manipmob-mmkg
翻訳日:2023-11-08 16:25:46 公開日:2023-11-07
# capst:deepfakeビデオ分類のための拡張および軽量手法

CapST: An Enhanced and Lightweight Method for Deepfake Video Classification ( http://arxiv.org/abs/2311.03782v1 )

ライセンス: Link先を確認
Wasim Ahmad, Yan-Tsung Peng, Yuan-Hao Chang, Gaddisa Olani Ganfure, Sarwar Khan, Sahibzada Adil Shahzad(参考訳) ディープフェイクビデオの拡散、高度な人工知能技術によって生成された合成メディアは、政治、エンターテイメント、セキュリティといった領域を含む様々な分野に重大な懸念をもたらしている。 そこで本研究では,5種類のエンコーダが生成するディープフェイク映像の分類法を提案する。 提案手法は, 技術性能だけでなく, 計算資源の最適化にも有効である。 提案手法は,VGG19bnの一部をバックボーンとして,画像関連タスクにおいて効果的に特徴を抽出する手法である。 我々は,資源を保存しながら,カプセルネットワークと空間的テンポラルアテンション機構を統合して,モデルの分類能力を増強する。 この組み合わせは、機能間の複雑な階層をキャプチャし、ディープフェイク属性の堅牢な識別を容易にする。 我々のイノベーションの複雑さを掘り下げて、時間的注意のメカニズムを巧みに活用する既存のビデオレベルの融合技術を紹介します。 このメカニズムは、ディープフェイクビデオに埋め込まれた固有の時間的依存関係を活かして、連結された特徴ベクトルを扱うのに役立つ。 フレームにまたがる洞察を集約することで、私たちのモデルはビデオコンテンツを総合的に理解し、より正確な予測を可能にします。 DFDMと呼ばれるディープフェイクビデオの広範囲なベンチマークデータセットの実験結果から,提案手法の有効性が示された。 特に,本手法では,ベースラインモデルと比較してディープフェイク動画を正確に分類する上で,計算資源の削減が要求される。

The proliferation of deepfake videos, synthetic media produced through advanced Artificial Intelligence techniques has raised significant concerns across various sectors, encompassing realms such as politics, entertainment, and security. In response, this research introduces an innovative and streamlined model designed to classify deepfake videos generated by five distinct encoders adeptly. Our approach not only achieves state of the art performance but also optimizes computational resources. At its core, our solution employs part of a VGG19bn as a backbone to efficiently extract features, a strategy proven effective in image-related tasks. We integrate a Capsule Network coupled with a Spatial Temporal attention mechanism to bolster the model's classification capabilities while conserving resources. This combination captures intricate hierarchies among features, facilitating robust identification of deepfake attributes. Delving into the intricacies of our innovation, we introduce an existing video level fusion technique that artfully capitalizes on temporal attention mechanisms. This mechanism serves to handle concatenated feature vectors, capitalizing on the intrinsic temporal dependencies embedded within deepfake videos. By aggregating insights across frames, our model gains a holistic comprehension of video content, resulting in more precise predictions. Experimental results on an extensive benchmark dataset of deepfake videos called DFDM showcase the efficacy of our proposed method. Notably, our approach achieves up to a 4 percent improvement in accurately categorizing deepfake videos compared to baseline models, all while demanding fewer computational resources.
翻訳日:2023-11-08 16:25:19 公開日:2023-11-07
# 知識グラフ補完のためのテキストモデルと構造モデルの構築

Ensembling Textual and Structure-Based Models for Knowledge Graph Completion ( http://arxiv.org/abs/2311.03780v1 )

ライセンス: Link先を確認
Ananjan Nandi, Navdeep Kaur, Parag Singla, Mausam(参考訳) 本稿では,KGC(Knowledge Graph Completion)に対する2つの一般的なアプローチについて考察する。テキストエンティティ記述に依存するテキストモデルと,KG(Knowledge Graph)の接続構造を利用する構造モデルである。 構造に基づくモデルは、金の解答がKGのクエリヘッドから容易に到達できるときにうまく機能し、テキストモデルは、金の解答が到達できない場合でも、説明を利用して優れた性能を与える。 これに対し,両アプローチの最良の組み合わせ方法として,アンサンブルについて検討する。 本稿では,各モデルに割り当てられたスコアの分布を用いて,クエリ依存のアンサンブル重みを学習する手法を提案する。 我々のアンサンブルベースラインは、最大6.8 pt mrrと8.3 pt hits@1の3つの標準kgcデータセットで最先端の結果を得る。

We consider two popular approaches to Knowledge Graph Completion (KGC): textual models that rely on textual entity descriptions, and structure-based models that exploit the connectivity structure of the Knowledge Graph (KG). Preliminary experiments show that these approaches have complementary strengths: structure-based models perform well when the gold answer is easily reachable from the query head in the KG, while textual models exploit descriptions to give good performance even when the gold answer is not reachable. In response, we explore ensembling as a way of combining the best of both approaches. We propose a novel method for learning query-dependent ensemble weights by using the distributions of scores assigned by individual models to all candidate entities. Our ensemble baseline achieves state-of-the-art results on three standard KGC datasets, with up to 6.8 pt MRR and 8.3 pt Hits@1 gains over best individual models.
翻訳日:2023-11-08 16:24:54 公開日:2023-11-07
# フィルタ付き部分微分方程式:物理インフォームドディープラーニングフレームワークにおける頑健な代理制約

Filtered Partial Differential Equations: a robust surrogate constraint in physics-informed deep learning framework ( http://arxiv.org/abs/2311.03776v1 )

ライセンス: Link先を確認
Dashan Zhang, Yuntian Chen, and Shiyi Chen(参考訳) ニューラルネットワーク(NN)トレーニングに物理的な知識を組み込むことは、ホットなトピックだ。 しかし、複雑な現実世界に直面している場合、既存の手法の多くは観測データの量と品質に強く依存している。 さらに、ニューラルネットワークは、実方程式の解が非常に複雑であるとき、しばしば収束するのに苦労する。 数値流体力学における大きな渦シミュレーションに触発され,フィルタリングに基づく改良手法を提案する。 物理情報処理の困難さの原因を機械学習で解析し,ノイズやスパース観測データの影響を低減するために,元の物理方程式の代用制約(フィルタPDE,FPDE,略)を提案した。 ノイズ・スパシティ実験では、提案したFPDEモデル(FPDE制約によって最適化されている)は従来のPDEモデルよりも堅牢性が高い。 実験により、FPDEモデルは、100%高いノイズと12%のベースライン観測データで、同じ品質の解が得られることが示された。 さらに,実例におけるFPDE改善を示すために,実測データの2つのグループを用いる。 最終結果は、FPDEが不完全方程式問題と非常にスパースで高雑音条件に直面するとき、より物理的に妥当な解を与えることを示している。 実世界の実験データを物理インフォームドトレーニングに組み合わせることで、提案したFPDE制約は、血管内の血流速度のモデル化と、スクラッチ内の細胞移動の2つの実世界の実験で有効に機能する。

Embedding physical knowledge into neural network (NN) training has been a hot topic. However, when facing the complex real-world, most of the existing methods still strongly rely on the quantity and quality of observation data. Furthermore, the neural networks often struggle to converge when the solution to the real equation is very complex. Inspired by large eddy simulation in computational fluid dynamics, we propose an improved method based on filtering. We analyzed the causes of the difficulties in physics informed machine learning, and proposed a surrogate constraint (filtered PDE, FPDE in short) of the original physical equations to reduce the influence of noisy and sparse observation data. In the noise and sparsity experiment, the proposed FPDE models (which are optimized by FPDE constraints) have better robustness than the conventional PDE models. Experiments demonstrate that the FPDE model can obtain the same quality solution with 100% higher noise and 12% quantity of observation data of the baseline. Besides, two groups of real measurement data are used to show the FPDE improvements in real cases. The final results show that FPDE still gives more physically reasonable solutions when facing the incomplete equation problem and the extremely sparse and high-noise conditions. For combining real-world experiment data into physics-informed training, the proposed FPDE constraint is useful and performs well in two real-world experiments: modeling the blood velocity in vessels and cell migration in scratches.
翻訳日:2023-11-08 16:24:37 公開日:2023-11-07
# Meta-Adapter:視覚言語モデルのためのオンラインFew-shot学習者

Meta-Adapter: An Online Few-shot Learner for Vision-Language Model ( http://arxiv.org/abs/2311.03774v1 )

ライセンス: Link先を確認
Cheng Cheng, Lin Song, Ruoyi Xue, Hang Wang, Hongbin Sun, Yixiao Ge, Ying Shan(参考訳) 対照的な視覚言語事前学習はクリップと呼ばれ、オープンワールドの視覚概念を知覚する顕著な可能性を示し、効果的なゼロショット画像認識を可能にする。 それでも、CLIPに基づく少数ショット学習法は、通常、数ショットサンプルのパラメータをオフラインで微調整する必要があるため、推論時間が長くなり、特定のドメインに過度に適合するリスクがある。 これらの課題に対処するために,数発のサンプルをオンライン的にガイドしたCLIP機能を改良する,軽量な残留型アダプタであるMeta-Adapterを提案する。 少数のトレーニングサンプルを用いて,実効的なマイナショット学習能力を実現し,追加の微調整や競争力の達成,高効率なデータやタスクの一般化を実現している。 提案手法は,8つの画像分類データセットにおいて,推定速度の高い平均3.6\%の精度で,最先端のオンライン少数ショット学習手法を上回っている。 さらに,このモデルはシンプルで柔軟性があり,下流タスクに直接適用可能なプラグイン・アンド・プレイモジュールとして機能する。 さらなる微調整がなければ、meta-adapterは、オープンボキャブラリなオブジェクト検出とセグメンテーションタスクで注目すべきパフォーマンス改善が得られます。

The contrastive vision-language pre-training, known as CLIP, demonstrates remarkable potential in perceiving open-world visual concepts, enabling effective zero-shot image recognition. Nevertheless, few-shot learning methods based on CLIP typically require offline fine-tuning of the parameters on few-shot samples, resulting in longer inference time and the risk of over-fitting in certain domains. To tackle these challenges, we propose the Meta-Adapter, a lightweight residual-style adapter, to refine the CLIP features guided by the few-shot samples in an online manner. With a few training samples, our method can enable effective few-shot learning capabilities and generalize to unseen data or tasks without additional fine-tuning, achieving competitive performance and high efficiency. Without bells and whistles, our approach outperforms the state-of-the-art online few-shot learning method by an average of 3.6\% on eight image classification datasets with higher inference speed. Furthermore, our model is simple and flexible, serving as a plug-and-play module directly applicable to downstream tasks. Without further fine-tuning, Meta-Adapter obtains notable performance improvements in open-vocabulary object detection and segmentation tasks.
翻訳日:2023-11-08 16:24:13 公開日:2023-11-07
# 地域的注意と洗練による軽量ポートレートマットリング

Lightweight Portrait Matting via Regional Attention and Refinement ( http://arxiv.org/abs/2311.03770v1 )

ライセンス: Link先を確認
Yatao Zhong and Ilya Zharkov(参考訳) 我々は高解像度ポートレートマッチングのための軽量モデルを提案する。 このモデルはトリマップや背景キャプチャなどの補助入力を一切使用せず、hdビデオのリアルタイム性能と4kのほぼリアルタイム性能を実現している。 本モデルでは, 粗アルファ推定のための低分解能ネットワークと, 局所領域改善のための改良ネットワークを備えた2段階フレームワークを構築した。 しかし,この2段階モデルでは,補助入力を使わなければマットング品質が低下する。 本稿では,視覚トランスフォーマ(vit)を低解像度ネットワークのバックボーンとして活用することで,vitのトークン化ステップが可能な限り多くの画素情報を保持しつつ空間分解能を低減できるという観測を動機とする。 そこで本研究では,周辺地域のコンテキスト情報を伝達するための改良ネットワークにおける新しいクロスリージョンアテンション(CRA)モジュールを提案する。 提案手法は,既存の最先端モデルと比較して,FLOPSの1/20ドルしか使用せず,3つのベンチマークデータセット上で他のベースラインよりも優れていることを示す。

We present a lightweight model for high resolution portrait matting. The model does not use any auxiliary inputs such as trimaps or background captures and achieves real time performance for HD videos and near real time for 4K. Our model is built upon a two-stage framework with a low resolution network for coarse alpha estimation followed by a refinement network for local region improvement. However, a naive implementation of the two-stage model suffers from poor matting quality if not utilizing any auxiliary inputs. We address the performance gap by leveraging the vision transformer (ViT) as the backbone of the low resolution network, motivated by the observation that the tokenization step of ViT can reduce spatial resolution while retain as much pixel information as possible. To inform local regions of the context, we propose a novel cross region attention (CRA) module in the refinement network to propagate the contextual information across the neighboring regions. We demonstrate that our method achieves superior results and outperforms other baselines on three benchmark datasets while only uses $1/20$ of the FLOPS compared to the existing state-of-the-art model.
翻訳日:2023-11-08 16:23:52 公開日:2023-11-07
# PT-Tuning:Prompt Token Tuningによる時系列マスケード復元と予測のギャップを埋める

PT-Tuning: Bridging the Gap between Time Series Masked Reconstruction and Forecasting via Prompt Token Tuning ( http://arxiv.org/abs/2311.03768v1 )

ライセンス: Link先を確認
Hao Liu, Jinrui Gan, Xiaoxuan Fan, Yi Zhang, Chuanxian Luo, Jing Zhang, Guangxin Jiang, Yucheng Qian, Changwei Zhao, Huan Ma, Zhenyu Guo(参考訳) 近年,自己指導型学習が時系列領域で積極的に研究されている。 これらのメソッドのほとんどは、新しいデコーダが特定のダウンストリームタスクに適合するようにプリトレーニングされたデコーダを置き換える"プレトレーニング+微調整"パラダイムに従っている。 本稿では,まず,課題目標の統一と課題難易度への適応が,時系列仮面再構築と予測のギャップを埋める上で重要であることを指摘した。 微調整段階に予め訓練したマスクトークンを保存することにより、予測タスクを、履歴値に基づいて将来の値をマスクして再構成するマスク再構築の特別なケースとすることができる。 タスクの目的の整合性を保証するが、タスクの難しさにはまだギャップがある。 仮面復元は文脈情報を活用できるが、予測は歴史情報のみを活用できるためである。 さらに,既存のギャップを緩和するため,プリトレーニングされたパラメータをすべて凍結し,拡張マスクトークンに要素順にわずか数個のトレーニング可能なプロンプトトークンを追加する,簡易かつ効果的なプロンプトトークンチューニング(ptチューニング)パラダイムを提案する。 実世界のデータセットに関する広範な実験は、表現学習やエンドツーエンドの教師付き予測手法と比較して、最先端のパフォーマンスで提案するパラダイムが優れていることを示している。

Self-supervised learning has been actively studied in time series domain recently, especially for masked reconstruction. Most of these methods follow the "Pre-training + Fine-tuning" paradigm in which a new decoder replaces the pre-trained decoder to fit for a specific downstream task, leading to inconsistency of upstream and downstream tasks. In this paper, we first point out that the unification of task objectives and adaptation for task difficulty are critical for bridging the gap between time series masked reconstruction and forecasting. By reserving the pre-trained mask token during fine-tuning stage, the forecasting task can be taken as a special case of masked reconstruction, where the future values are masked and reconstructed based on history values. It guarantees the consistency of task objectives but there is still a gap in task difficulty. Because masked reconstruction can utilize contextual information while forecasting can only use historical information to reconstruct. To further mitigate the existed gap, we propose a simple yet effective prompt token tuning (PT-Tuning) paradigm, in which all pre-trained parameters are frozen and only a few trainable prompt tokens are added to extended mask tokens in element-wise manner. Extensive experiments on real-world datasets demonstrate the superiority of our proposed paradigm with state-of-the-art performance compared to representation learning and end-to-end supervised forecasting methods.
翻訳日:2023-11-08 16:23:34 公開日:2023-11-07
# ジェンダーの抑揚または偏り--機械翻訳におけるバイアス評価のための文法的ジェンダー手がかりの使用について

Gender Inflected or Bias Inflicted: On Using Grammatical Gender Cues for Bias Evaluation in Machine Translation ( http://arxiv.org/abs/2311.03767v1 )

ライセンス: Link先を確認
Pushpdeep Singh(参考訳) Neural Machine Translation(NMT)モデルは、機械翻訳の最先端技術である。 しかし、これらのモデルは様々な社会バイアス、特に性バイアスを持つことが知られている。 nmtにおけるジェンダーバイアスの評価に関するほとんどの仕事は、主に英語をソース言語として扱っている。 英語とは異なるソース言語では、ほとんどの研究は性バイアスを評価するために性中立の文を使用する。 しかし、実際には、私たちが遭遇する多くの文は性別情報を持っている。 したがって、そのような文を用いて偏見を評価することはより合理的である。 これにより、NMTモデルは、例えば、職業用語とのバイアス付き相関に頼らず、原文の文法的ジェンダーキューに基づいて正しいジェンダーを特定できるかどうかを判断できる。 本研究では,ヒンディー語を原語として用いて,ジェンダーの偏見を自動評価するために使用する,OTSC-HindiとWinoMT-Hindiという2種類のジェンダー固有文を構築した。 本研究は,このような偏り評価データセットを設計する際に言語の性質を検討することの重要性を強調した。

Neural Machine Translation (NMT) models are state-of-the-art for machine translation. However, these models are known to have various social biases, especially gender bias. Most of the work on evaluating gender bias in NMT has focused primarily on English as the source language. For source languages different from English, most of the studies use gender-neutral sentences to evaluate gender bias. However, practically, many sentences that we encounter do have gender information. Therefore, it makes more sense to evaluate for bias using such sentences. This allows us to determine if NMT models can identify the correct gender based on the grammatical gender cues in the source sentence rather than relying on biased correlations with, say, occupation terms. To demonstrate our point, in this work, we use Hindi as the source language and construct two sets of gender-specific sentences: OTSC-Hindi and WinoMT-Hindi that we use to evaluate different Hindi-English (HI-EN) NMT systems automatically for gender bias. Our work highlights the importance of considering the nature of language when designing such extrinsic bias evaluation datasets.
翻訳日:2023-11-08 16:23:07 公開日:2023-11-07
# ティグルティ集束光渦トワイザーによるレイリー政権下の力の見直し

A revision of the forces exerted in the Rayleigh regime by a tighlty focused optical vortex tweezer ( http://arxiv.org/abs/2311.03847v1 )

ライセンス: Link先を確認
Khalid Aloufi, Vasileios E. Lembessis and Omar M. Aldossary(参考訳) 光ツイーザーは、レーザービームの光を使って、微小粒子の動きを操作する。 レーザー光が強く集中するが、それでも同軸であるとき、そのe/m場は、横方向の光に匹敵する大きさの長手成分で特徴づけられ、ツイーズ力の理論解析では無視されている。 我々の研究では、小さな粒子が自由空間において円偏光渦ビームと相互作用する場合、この無視された場項を考慮に入れて、放射線圧力力の様々な成分の計算をレイリーレジームや双極子近似の限界内で修正する。 この用語は、様々な成分の大きさをかなり修正し、また、スピン角運動量(SAM)と渦ビームの光子の軌道角運動量(OAM)の結合を含む用語の出現に寄与している。 縦方向のフィールド成分を無視したものとの比較を行った。

Optical tweezers use light from a tightly focused laser beam to manipulate the motion of tiny particles. When the laser light is strongly focused, but still paraxial, its e/m field is characterized by a longitudinal component which is of magnitude comparable to the transverse ones and which has been ignored in the theoretical analysis of the tweezing forces. In our work we revise the calculations of the various components of the radiation pressure force, within the limits of Rayleigh regime or dipole approximation, in the case where a tiny particle interacts, in free space, with a circularly polarized optical vortex beam, by taking into account this ignored field term. We show that this term is responsible for considerable modifications in the magnitude of the various components, moreover and also for the appearance of terms involving the coupling of the spin angular momentum (SAM) and the orbital angular momentum (OAM) of the photons of the vortex beam. We compare our findings with the ones taken ignoring the longitudinal field component.
翻訳日:2023-11-08 16:15:55 公開日:2023-11-07
# 光子形成:ボソニックcqedによる量子計算

Shaping photons: quantum computation with bosonic cQED ( http://arxiv.org/abs/2311.03846v1 )

ライセンス: Link先を確認
Adrian Copetudo, Clara Yun Fontaine, Fernando Valadares, Yvonne Y. Gao(参考訳) 量子調和振動子(quantum harmonic oscillator)は、実世界の量子システムを理解するための固有のプラットフォームであり、量子コンピュータの心臓としても優れている。 情報処理に量子調和振動子を利用する、特に有望で急速に進歩しているプラットフォームは、ボソニック回路量子電磁力学(cqed)システムである。 本稿では,ボソニックcQED量子コンピュータの進展,課題,今後の方向性について述べる。 本稿では,主ハードウェアビルディングブロックと,量子エラー補正,メトロジー,シミュレーションの実施方法について述べる。 我々は、地平線上に存在する重要な課題と、それを克服し、bosonic cqedハードウェアを用いた実用的な量子コンピュータを構築するための科学的、文化的戦略について見解をまとめる。

With its rich dynamics, the quantum harmonic oscillator is an innate platform for understanding real-world quantum systems, and could even excel as the heart of a quantum computer. A particularly promising and rapidly advancing platform that harnesses quantum harmonic oscillators for information processing is the bosonic circuit quantum electrodynamics (cQED) system. In this article, we provide perspectives on the progress, challenges, and future directions in building a bosonic cQED quantum computer. We describe the main hardware building blocks and how they facilitate quantum error correction, metrology, and simulation. We conclude with our views of the key challenges that lie on the horizon, as well as scientific and cultural strategies for overcoming them and building a practical quantum computer with bosonic cQED hardware.
翻訳日:2023-11-08 16:15:36 公開日:2023-11-07
# 人間の記憶と大規模言語モデル

Aspects of human memory and Large Language Models ( http://arxiv.org/abs/2311.03839v1 )

ライセンス: Link先を確認
Romuald A. Janik(参考訳) 大きな言語モデル(LLM)は、主にテキストを生成するのに役立ちながら、非常に洗練された言語使用確率モデルを提供する巨大な人工ニューラルネットワークである。 意味的に一貫性のあるテキストを生成するには有効なメモリが必要となるため、llmのメモリ特性を調べ、人間の記憶の重要な特徴と驚くほどの類似性を見いだす。 この結果は、人間の記憶の生物学的特徴が、テクスト的な物語を構造化する方法にインプリントを残していることを強く示唆している。

Large Language Models (LLMs) are huge artificial neural networks which primarily serve to generate text, but also provide a very sophisticated probabilistic model of language use. Since generating a semantically consistent text requires a form of effective memory, we investigate the memory properties of LLMs and find surprising similarities with key characteristics of human memory. This result strongly suggests that the biological features of human memory leave an imprint on the way that we structure our textual narratives.
翻訳日:2023-11-08 16:15:23 公開日:2023-11-07
# OLaLa: 大規模言語モデルとのオントロジーマッチング

OLaLa: Ontology Matching with Large Language Models ( http://arxiv.org/abs/2311.03837v1 )

ライセンス: Link先を確認
Sven Hertling, Heiko Paulheim(参考訳) オントロジ(より一般的には知識グラフ)マッチングは、自然言語における情報処理が最も重要なシグナルの1つとなる困難なタスクである。 大規模言語モデルの台頭に伴い、この知識をマッチングパイプラインによりよい方法で組み込むことが可能になった。 例えば、モデルに有用なプロンプトを生成する方法、プロンプトでkgの情報をどのように定式化するか、どの大きな言語モデルを選ぶべきか、モデルに既存の対応を提供する方法、候補の生成方法などだ。 本稿では,オントロジーアライメント評価イニシアチブ(OAEI)の様々なタスクに対して,複数開言語モデルを用いたゼロショットと少数ショットのプロンプトを適用して,これらの問題を探索するプロトタイプを提案する。 少数の例と十分に設計されたプロンプトで、基礎的真理のはるかに大きな部分を利用する教師付きマッチングシステムに匹敵する結果が得られることを示す。

Ontology (and more generally: Knowledge Graph) Matching is a challenging task where information in natural language is one of the most important signals to process. With the rise of Large Language Models, it is possible to incorporate this knowledge in a better way into the matching pipeline. A number of decisions still need to be taken, e.g., how to generate a prompt that is useful to the model, how information in the KG can be formulated in prompts, which Large Language Model to choose, how to provide existing correspondences to the model, how to generate candidates, etc. In this paper, we present a prototype that explores these questions by applying zero-shot and few-shot prompting with multiple open Large Language Models to different tasks of the Ontology Alignment Evaluation Initiative (OAEI). We show that with only a handful of examples and a well-designed prompt, it is possible to achieve results that are en par with supervised matching systems which use a much larger portion of the ground truth.
翻訳日:2023-11-08 16:15:15 公開日:2023-11-07
# 生成aiを用いた要件工学: プロンプトとプロンプトパターン

Requirements Engineering using Generative AI: Prompts and Prompting Patterns ( http://arxiv.org/abs/2311.03832v1 )

ライセンス: Link先を確認
Krishna Ronanki, Beatriz Cabrero-Daniel, Jennifer Horkoff, Christian Berger(参考訳) [コンテキスト]:企業は資源集約性から要求工学(RE)タスクの自動化の重要性をますます認識している。 GenAIの出現は、コンテキストを効果的に理解し解釈する能力のおかげで、これらのタスクを自動化しやすくした。 [議題]しかし、GenAIの文脈では、迅速なエンジニアリングが成功にとって重要な要素です。 それにもかかわらず、私たちは現在、特定のREタスクに最も効果的なプロンプトパターンを体系的に評価し、決定するツールやメソッドがありません。 [方法]GPT-3.5ターボAPIを用いて要求分類と追跡の2つのタスクを自動化した。 パフォーマンス評価には、5つのプロンプトパターンを使用して作成され、プログラムで実装され、選択されたREタスクを実行し、精度、リコール、精度、Fスコアなどのメトリクスに焦点を当てた。 結果: 本論文は, GPT-3.5ターボが選択されたREタスクを実行する5つのプロンプトパターンの有効性を評価し, 特定のREタスクに使用するプロンプトパターンを提案する。 さらに、異なるREタスクに対して異なるプロンプトパターンを評価したい研究者や実践者への参照として、評価フレームワークも提供する。

[Context]: Companies are increasingly recognizing the importance of automating Requirements Engineering (RE) tasks due to their resource-intensive nature. The advent of GenAI has made these tasks more amenable to automation, thanks to its ability to understand and interpret context effectively. [Problem]: However, in the context of GenAI, prompt engineering is a critical factor for success. Despite this, we currently lack tools and methods to systematically assess and determine the most effective prompt patterns to employ for a particular RE task. [Method]: Two tasks related to requirements, specifically requirement classification and tracing, were automated using the GPT-3.5 turbo API. The performance evaluation involved assessing various prompts created using 5 prompt patterns and implemented programmatically to perform the selected RE tasks, focusing on metrics such as precision, recall, accuracy, and F-Score. [Results]: This paper evaluates the effectiveness of the 5 prompt patterns' ability to make GPT-3.5 turbo perform the selected RE tasks and offers recommendations on which prompt pattern to use for a specific RE task. Additionally, it also provides an evaluation framework as a reference for researchers and practitioners who want to evaluate different prompt patterns for different RE tasks.
翻訳日:2023-11-08 16:14:57 公開日:2023-11-07
# 脱離拡散模型の蒸留における空間適合誤差の低減

Reducing Spatial Fitting Error in Distillation of Denoising Diffusion Models ( http://arxiv.org/abs/2311.03830v1 )

ライセンス: Link先を確認
Shengzhe Zhou, Zejian Lee, Shengyuan Zhang, Lefan Hou, Changyuan Yang, Guang Yang, Lingyun Sun(参考訳) Denoising Diffusion Modelは、画像生成において顕著な能力を示した。 しかし、高品質なサンプルを生成するには大量のイテレーションが必要となる。 拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法であるが、劣化した生成品質を引き起こす。 偏差分解と実験観察による分析から,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的嵌合誤差を考察した。 したがって、$\textbf{s}$patial$\textbf{f}$itting-$\textbf{e}$rror$\textbf{r}$eduction$\textbf{d}$istillation model ($\textbf{sferd}$)を提案する。 SFERDは教師モデルと設計した意味勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。 提案手法は,いくつかの機能評価において,高品質なサンプル生成を容易にする。 1ステップで、cifar-10で5.31、imagenet 64$\times$64で9.39のfidを達成し、既存の拡散法を上回った。 本研究は,本質的なデノナイジング能力を強調することで,拡散蒸留の新しい視点を提供する。

Denoising Diffusion models have exhibited remarkable capabilities in image generation. However, generating high-quality samples requires a large number of iterations. Knowledge distillation for diffusion models is an effective method to address this limitation with a shortened sampling process but causes degraded generative quality. Based on our analysis with bias-variance decomposition and experimental observations, we attribute the degradation to the spatial fitting error occurring in the training of both the teacher and student model. Accordingly, we propose $\textbf{S}$patial $\textbf{F}$itting-$\textbf{E}$rror $\textbf{R}$eduction $\textbf{D}$istillation model ($\textbf{SFERD}$). SFERD utilizes attention guidance from the teacher model and a designed semantic gradient predictor to reduce the student's fitting error. Empirically, our proposed model facilitates high-quality sample generation in a few function evaluations. We achieve an FID of 5.31 on CIFAR-10 and 9.39 on ImageNet 64$\times$64 with only one step, outperforming existing diffusion methods. Our study provides a new perspective on diffusion distillation by highlighting the intrinsic denoising ability of models.
翻訳日:2023-11-08 16:14:34 公開日:2023-11-07
# 人物再識別のための多視点情報統合と伝播

Multi-view Information Integration and Propagation for Occluded Person Re-identification ( http://arxiv.org/abs/2311.03828v1 )

ライセンス: Link先を確認
Neng Dong, Shuanglin Yan, Hao Tang, Jinhui Tang, Liyan Zhang(参考訳) 被占領者の再識別(re-ID)は,閉塞摂動による課題である。 閉塞音によるモデル障害を防止するために多大な努力がなされているが、現在のソリューションのほとんどは1つの画像からのみ情報をキャプチャし、同じ歩行者を描いた複数の画像で利用可能な豊富な補完情報を無視している。 本稿では,MVI$^{2}$P(Multi-view Information Integration and Propagation)と呼ばれる新しいフレームワークを提案する。 具体的には,対象歩行者を効果的にキャラクタリゼーションするマルチビュー画像の可能性を認識し,その特徴地図を統合して総合表現を作成する。 この過程で, 咬合音の導入を避けるため, 識別に寄与する情報を選択的に統合するcams対応ローカライズモジュールを開発した。 さらに,異なる画像の識別特性のばらつきを考慮し,信頼性の高い情報を統合するための確率認識量子化モジュールを設計する。 さらに、同一の同一性を持つ複数の画像がテスト段階ではアクセスできないため、包括的表現から単一の隠蔽画像の知識を抽出する情報伝達(IP)機構を考案する。 広範な実験と解析により、提案するmvi$^{2}$pの有効性と優位性が明らかに証明された。 コードは \url{https://github.com/nengdong96/MVIIP} でリリースされる。

Occluded person re-identification (re-ID) presents a challenging task due to occlusion perturbations. Although great efforts have been made to prevent the model from being disturbed by occlusion noise, most current solutions only capture information from a single image, disregarding the rich complementary information available in multiple images depicting the same pedestrian. In this paper, we propose a novel framework called Multi-view Information Integration and Propagation (MVI$^{2}$P). Specifically, realizing the potential of multi-view images in effectively characterizing the occluded target pedestrian, we integrate feature maps of which to create a comprehensive representation. During this process, to avoid introducing occlusion noise, we develop a CAMs-aware Localization module that selectively integrates information contributing to the identification. Additionally, considering the divergence in the discriminative nature of different images, we design a probability-aware Quantification module to emphatically integrate highly reliable information. Moreover, as multiple images with the same identity are not accessible in the testing stage, we devise an Information Propagation (IP) mechanism to distill knowledge from the comprehensive representation to that of a single occluded image. Extensive experiments and analyses have unequivocally demonstrated the effectiveness and superiority of the proposed MVI$^{2}$P. The code will be released at \url{https://github.com/nengdong96/MVIIP}.
翻訳日:2023-11-08 16:14:09 公開日:2023-11-07
# 巨大原子を用いた導波路QED系における可変光子-光子相関

Tunable photon-photon correlations in waveguide QED systems with giant atoms ( http://arxiv.org/abs/2311.03817v1 )

ライセンス: Link先を確認
Wenju Gu, Lei Chen, Zhen Yi, Sujing Liu, and Gao-xiang Li(参考訳) 2つの巨大原子に結合した1次元(1次元)導波路における2つの光子の散乱過程を調べる。 カップリング点間の累積位相シフトを調整することで、これらの散乱光子の特性を効果的に操作することができる。 Lippmann-Schwinger (LS) 形式を利用して、2つの光子が別々に、編み出し、ネストされた構成で相互作用することを示す波動関数の解析式を導出する。 これらの波動関数に基づいて,不整合なパワースペクトルと二次相関関数に対するオブチアン解析式も求めた。 小さい原子とは対照的に、境界状態の相関によって定義される非コヒーレントスペクトルは4つの異なるピークとより広い周波数範囲を示すことができる。 さらに、伝達場と反射場における2次相関関数は、小さな原子では不可能である共鳴駆動の束縛または反束を示すように調整することができる。 導波管QEDの巨大原子によって提供されるこれらの特徴は、量子ネットワークにおける非古典的イテナント光子の生成に有用である。

We investigate the scattering processes of two photons in a one-dimensional (1D) waveguide coupled to two giant atoms. By adjusting the accumulated phase shifts between the coupling points, we are able to effectively manipulate the characteristics of these scattering photons. Utilizing the Lippmann-Schwinger (LS) formalism, we derive analytical expressions for the wavefunctions describing two photon interacting in separate, braided and nested configurations. Based on these wavefunctions, we also obtian analytical expressions for the incoherent power spectra and second-order correlation functions. In contrast to small atoms, the incoherent spectrum, which is defined by the correlation of the bound state, can exhibit four distinct peaks and a wider frequency range. Additionally, the second order correlation functions in the transmission and reflection fields could be tuned to exhibit either bunching or antibunching upon resonant driving, a behavior that is not possible with small atoms. These unique features offered by the giant atoms in waveguide QED could benefit the generation of non-classical itinerant photons in quantum networks.
翻訳日:2023-11-08 16:13:47 公開日:2023-11-07
# 円筒状geナノワイヤにおけるホールサブバンド分散:軸方向ルッティンガー・コーン効果質量モデルによる厳密解

Hole subband dispersions in a cylindrical Ge nanowire: exact solution of the axial Luttinger-Kohn effective mass model ( http://arxiv.org/abs/2311.03816v1 )

ライセンス: Link先を確認
Rui Li(参考訳) 軸方向近似におけるラッティンガー・コーン・ハミルトニアンに基づき、円筒状geナノワイヤ内のホールサブバンド分散を決定する超越方程式を解析的に導出する。 この式は球面近似を用いて導かれるものよりも一般的であり、サブバンド分散の成長方向依存性の研究に適している。 この軸近似は、高対称性ナノワイヤ成長方向 [001] と [111] の正確な低エネルギーサブバンド分散を与える。 非軸項からの摂動補正はこれら2つの方向に対して無視できる。 最低の2つのサブバンド分散は、成長方向 [001] と [111] の両方に対して $k_{z}=0$ のエネルギーギャップを持つ2つのシフト放物曲線と見なすことができる。 エネルギーギャップのある場所では、成長方向の固有状態[111]は成長方向の反転型[001]である。 k_{z}=0$のエネルギーギャップが閉まるナノワイヤ成長方向は[001]と[111]の間に存在すると予測される。

Based on the Luttinger-Kohn Hamiltonian in the axial approximation, the transcendental equation determining the hole subband dispersions in a cylindrical Ge nanowire is analytically derived. This equation is more general than that derived using the spherical approximation, and is suitable to study the growth direction dependence of the subband dispersions. The axial approximation almost gives the accurate low-energy subband dispersions for high symmetry nanowire growth directions [001] and [111]. The perturbation corrections from the non-axial terms are negligible for these two directions. The lowest two subband dispersions can be regarded as two shifted parabolic curves with an energy gap at $k_{z}=0$ for both growth directions [001] and [111]. At the site of the energy gap, the eigenstates for growth direction [111] are inverted types of that for growth direction [001]. A nanowire growth direction where the energy gap at $k_{z}=0$ closes is predicted to exist between directions [001] and [111].
翻訳日:2023-11-08 16:13:27 公開日:2023-11-07
# ガリシア語における会話:低表現言語のための大きな言語モデル

Conversations in Galician: a Large Language Model for an Underrepresented Language ( http://arxiv.org/abs/2311.03812v1 )

ライセンス: Link先を確認
Eliseo Bao, Anxo P\'erez and Javier Parapar(参考訳) 近年のLarge Conversation Language Modelsの普及は、現在の情報時代におけるこの種のAI技術への広範なアクセスの経済的重要性を強調している。 それにもかかわらず、一般的なモデルは一般的な言語で書かれた文書からなるコーパスで主に訓練されている。 低リソース言語に対するこのような最先端のツールの破壊は、現在の経済状況における彼らの過小評価をさらに悪化させ、それによって彼らの母国語話者に影響を及ぼす。 本稿では,ガリシア語に対する自然言語処理(NLP)を強化するために設計された2つの新しい資源を紹介する。 52,000の指示と実演を含むアルパカデータセットのガリシア適応について述べる。 このデータセットは、提供された命令により正確に準拠するように微調整することで言語モデルを強化するのに有用である。 さらに、データセットユーティリティのデモとして、Alpacaフォーマットに従って、元々モデルによってサポートされていない言語であるGalicianの理解と応答をLLaMA-7Bに微調整した。 この研究は、低リソース設定に適した多言語モデルの研究に寄与し、大規模言語モデルの開発に全言語コミュニティを確実に組み込むための重要な取り組みである。 この研究のもう1つの注目すべき側面は、密接な関係のある言語の知識、この場合ポルトガルは、訓練資源が不足しているときに一貫性のあるテキストを生成するのにどのように役立つかを探ることである。 Galician AlpacaデータセットとCabuxa-7BはいずれもHuggingface Hub上で公開されています。

The recent proliferation of Large Conversation Language Models has highlighted the economic significance of widespread access to this type of AI technologies in the current information age. Nevertheless, prevailing models have primarily been trained on corpora consisting of documents written in popular languages. The dearth of such cutting-edge tools for low-resource languages further exacerbates their underrepresentation in the current economic landscape, thereby impacting their native speakers. This paper introduces two novel resources designed to enhance Natural Language Processing (NLP) for the Galician language. We present a Galician adaptation of the Alpaca dataset, comprising 52,000 instructions and demonstrations. This dataset proves invaluable for enhancing language models by fine-tuning them to more accurately adhere to provided instructions. Additionally, as a demonstration of the dataset utility, we fine-tuned LLaMA-7B to comprehend and respond in Galician, a language not originally supported by the model, by following the Alpaca format. This work contributes to the research on multilingual models tailored for low-resource settings, a crucial endeavor in ensuring the inclusion of all linguistic communities in the development of Large Language Models. Another noteworthy aspect of this research is the exploration of how knowledge of a closely related language, in this case, Portuguese, can assist in generating coherent text when training resources are scarce. Both the Galician Alpaca dataset and Cabuxa-7B are publicly accessible on our Huggingface Hub, and we have made the source code available to facilitate replication of this experiment and encourage further advancements for underrepresented languages.
翻訳日:2023-11-08 16:13:06 公開日:2023-11-07
# エンドツーエンド音声翻訳のためのマルチタスク学習の再考と改善

Rethinking and Improving Multi-task Learning for End-to-end Speech Translation ( http://arxiv.org/abs/2311.03810v1 )

ライセンス: Link先を確認
Yuhao Zhang, Chen Xu, Bei Li, Hao Chen, Tong Xiao, Chunliang Zhang, Jingbo Zhu(参考訳) マルチタスク学習の適用により、エンドツーエンド音声翻訳(ST)の大幅な改善が達成されている。 しかし、補助的なタスクがSTタスクと高度に一致し、このアプローチが本当にどれほど役立つかは、十分に研究されていない。 本稿では,異なる時間とモジュールを考慮したタスク間の一貫性について検討する。 テキストエンコーダは、主にクロスモーダル変換が促進されるが、音声中の雑音の存在は、テキストと音声表現の一貫性を妨げる。 さらに,stタスクに対するマルチタスク学習(imtl)手法の改良を提案し,長さと表現の違いを緩和することでモーダルギャップを橋渡しする。 MuST-Cデータセット上で実験を行う。 その結果,本手法は最先端の結果を得ることができた。 さらに,追加データを用いた場合,現在の sota 法で要求されるトレーニング時間の20.8%で, must-c 英語とスペイン語のタスクで新たな sota 結果が得られる。

Significant improvements in end-to-end speech translation (ST) have been achieved through the application of multi-task learning. However, the extent to which auxiliary tasks are highly consistent with the ST task, and how much this approach truly helps, have not been thoroughly studied. In this paper, we investigate the consistency between different tasks, considering different times and modules. We find that the textual encoder primarily facilitates cross-modal conversion, but the presence of noise in speech impedes the consistency between text and speech representations. Furthermore, we propose an improved multi-task learning (IMTL) approach for the ST task, which bridges the modal gap by mitigating the difference in length and representation. We conduct experiments on the MuST-C dataset. The results demonstrate that our method attains state-of-the-art results. Moreover, when additional data is used, we achieve the new SOTA result on MuST-C English to Spanish task with 20.8% of the training time required by the current SOTA method.
翻訳日:2023-11-08 16:12:39 公開日:2023-11-07
# 量子回路の最適化

Quantum Circuit Unoptimization ( http://arxiv.org/abs/2311.03805v1 )

ライセンス: Link先を確認
Yusei Mori, Hideaki Hakoshima, Kyohei Sudo, Toshio Mori, Kosuke Mitarai, and Keisuke Fujii(参考訳) 回路の最適化は、量子コンピュータと古典コンピュータの両方にとって、その効率を改善するために不可欠である。 対照的に、古典論理の最適化は困難であることが知られており、これまで多くのヒューリスティックなアプローチが開発されてきた。 本研究では,回路等価性,すなわち回路最適化の逆演算を保ちながら,いくつかの冗長性を導入し,与えられた量子回路複合体を構成する量子回路最適化と呼ばれる量子アルゴリズムプリミティブを定義し,構築する。 量子回路の非最適化を用いて、NPクラスとBQPクラスの両方に含まれる決定問題である量子回路等価性テストを提案する。 さらに,コンパイラベンチマークを生成するための具体的非最適化レシピを構築し,qiskitとpytketを用いた回路最適化性能の評価を行う。 数値シミュレーションにより,コンパイラの最適化が困難な冗長回路を系統的に生成し,異なるコンパイラの性能の比較と性能向上に有効であることを示す。 また、量子有利な機械学習データセットや量子コンピュータ忠実性ベンチマークを生成するなど、量子回路非最適化の潜在的な応用も提供する。

Optimization of circuits is an essential task for both quantum and classical computers to improve their efficiency. In contrast, classical logic optimization is known to be difficult, and a lot of heuristic approaches have been developed so far. In this study, we define and construct a quantum algorithmic primitive called quantum circuit unoptimization, which makes a given quantum circuit complex by introducing some redundancies while preserving circuit equivalence, i.e., the inverse operation of circuit optimization. Using quantum circuit unoptimization, we propose the quantum circuit equivalence test, a decision problem contained both in NP and BQP classes. Furthermore, as a practical application, we construct concrete unoptimization recipes to generate compiler benchmarks and evaluate circuit optimization performance using Qiskit and Pytket. Our numerical simulations demonstrate that quantum circuit unoptimizer systematically generates redundant circuits that are challenging for compilers to optimize, which can be used to compare the performance of different compilers and improve them. We also offer potential applications of quantum circuit unoptimization, such as generating quantum advantageous machine learning datasets and quantum computer fidelity benchmarks.
翻訳日:2023-11-08 16:12:23 公開日:2023-11-07
# 散逸結合による非ヘルミタン皮膚効果と非相反性

Non-Hermitian skin effect and nonreciprocity induced by dissipative couplings ( http://arxiv.org/abs/2311.03803v1 )

ライセンス: Link先を確認
Xinyao Huang, Yaohua Li, Guo-Feng Zhang, Yong-Chun Liu(参考訳) 非エルミート皮膚効果(Non-Hermitian skin effect, NHSE)は、非エルミート系において最も興味深い現象である。 NHSEの以前の実現は、通常、不平等な左結合やオンサイトゲインと損失を必要とする。 本稿では,左-右カップリングの強度は等しいが,相は複素共役を満足しない,散逸結合によるnhseを実現する新しいメカニズムを提案する。 周期的散逸結合構造によって提供されるマルチチャネル干渉と組み合わせると、散逸結合は不等な左-右結合を引き起こし、nhseを誘導する。 さらに, 散逸結合によって引き起こされる非ヘルミティリティは, 余分な利得損失型非ヘルミティ性をもたらすことなく, 完全に非相反性型非ヘルミティに変換できることを示した。 これにより、追加挿入損失を発生させることなく一方向エネルギー伝送が可能となる。 我々の研究は、非エルミート位相効果の研究と方向光ネットワークの設計に新たな道を開く。

Non-Hermitian skin effect (NHSE), indicating the breakdown of conventional bulk-boundary correspondence, is a most intriguing phenomenon of non-Hermitian systems. Previous realizations of NHSE typically require unequal left-right couplings or on-site gain and loss. Here we propose a new mechanism for realizing NHSE via dissipative couplings, in which the left-right couplings have equal strengths but the phases do not satisfy the complex conjugation. When combined with multi-channel interference provided by a periodic dissipative-coherent coupling structure, the dissipative couplings can lead to unequal left-right couplings, inducing NHSE. Moreover, we show that the non-Hermiticity induced by dissipative couplings can be fully tranformed into nonreciprocity-type non-Hermiticity without bringing extra gain-loss-type non-Hermiticity. Thus, this mechanism enables unidirectional energy transmission without introducing additional insertion loss. Our work opens a new avenue for the study of non-Hermitian topological effects and the design of directional optical networks.
翻訳日:2023-11-08 16:12:03 公開日:2023-11-07
# 人間と物体の相互作用関係を検出する:基礎モデルに基づく空間的プロンプト学習を用いたユニバーサルHOI検出器

Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models ( http://arxiv.org/abs/2311.03799v1 )

ライセンス: Link先を確認
Yichao Cao, Qingfei Tang, Xiu Su, Chen Song, Shan You, Xiaobo Lu, Chang Xu(参考訳) 人間-物体相互作用(HOI)検出は、人間と物体の間の複雑な関係を理解し、$<人,アクション,オブジェクト>$三重項を予測し、多数のコンピュータビジョンタスクの基礎となることを目的としている。 しかし、現実世界における人間とオブジェクトの相互作用の複雑さと多様性は、アノテーションと認識の両方、特にオープンワールドのコンテキストにおける相互作用の認識において重大な課題をもたらす。 本研究では,視覚言語基盤モデル(VL)と大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。 提案手法は \emph{\textbf{UniHOI}} と呼ばれる。 本稿では、視覚的HOI検出器に固有の3つの階層的特徴を深く分析し、VL基礎モデルを対象とした高次関係抽出法を提案する。 我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。 さらに,対話解釈にllm(\emph{i,e} gpt)を用い,複雑なhoisに対してより豊かな言語理解を生成する。 オープンカテゴリのインタラクション認識には,対話句と解釈文の2つの入力タイプをサポートする。 我々の効率的なアーキテクチャ設計と学習手法は、VLファンデーションモデルとLLMの可能性を効果的に解き放ち、UniHOIは教師付きおよびゼロショット設定の両方の下で、既存のすべての手法をかなりのマージンで超えることができる。 コードは \url{https://github.com/caoyichao/unihoi} で利用可能である。

Human-object interaction (HOI) detection aims to comprehend the intricate relationships between humans and objects, predicting $<human, action, object>$ triplets, and serving as the foundation for numerous computer vision tasks. The complexity and diversity of human-object interactions in the real world, however, pose significant challenges for both annotation and recognition, particularly in recognizing interactions within an open world context. This study explores the universal interaction recognition in an open-world setting through the use of Vision-Language (VL) foundation models and large language models (LLMs). The proposed method is dubbed as \emph{\textbf{UniHOI}}. We conduct a deep analysis of the three hierarchical features inherent in visual HOI detectors and propose a method for high-level relation extraction aimed at VL foundation models, which we call HO prompt-based learning. Our design includes an HO Prompt-guided Decoder (HOPD), facilitates the association of high-level relation representations in the foundation model with various HO pairs within the image. Furthermore, we utilize a LLM (\emph{i.e.} GPT) for interaction interpretation, generating a richer linguistic understanding for complex HOIs. For open-category interaction recognition, our method supports either of two input types: interaction phrase or interpretive sentence. Our efficient architecture design and learning methods effectively unleash the potential of the VL foundation models and LLMs, allowing UniHOI to surpass all existing methods with a substantial margin, under both supervised and zero-shot settings. The code and pre-trained weights are available at: \url{https://github.com/Caoyichao/UniHOI}.
翻訳日:2023-11-08 16:11:44 公開日:2023-11-07
# 音響検索用ノイズペア補正器

Noisy Pair Corrector for Dense Retrieval ( http://arxiv.org/abs/2311.03798v1 )

ライセンス: Link先を確認
Hang Zhang, Yeyun Gong, Xingwei He, Dayiheng Liu, Daya Guo, Jiancheng Lv, Jian Guo(参考訳) ほとんどの密集した検索モデルは暗黙の仮定を含んでいる: トレーニングされたクエリとドキュメントのペアは正確に一致している。 コーパスに手動で注釈をつけるのは費用がかかるため、現実世界のアプリケーションではトレーニングペアが自動的に収集されるため、必然的にミスマッチペアノイズが発生する。 本稿では,密集検索における興味深く,かつ困難な課題について検討し,不一致ペアノイズを伴う効果的なモデルの学習方法について検討する。 そこで本研究では,検出モジュールと修正モジュールから構成されるNPC(Noisy Pair Corrector)という新しい手法を提案する。 検出モジュールは、注釈付き正の文書と簡単な負の文書との複雑度を計算して雑音対を推定する。 補正モジュールは指数移動平均(EMA)モデルを用いて、ノイズの影響を緩和するソフト教師付き信号を提供する。 我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。 実験結果から,NPCは合成ノイズと現実雑音の両方を扱うのに優れた性能を示した。

Most dense retrieval models contain an implicit assumption: the training query-document pairs are exactly matched. Since it is expensive to annotate the corpus manually, training pairs in real-world applications are usually collected automatically, which inevitably introduces mismatched-pair noise. In this paper, we explore an interesting and challenging problem in dense retrieval, how to train an effective model with mismatched-pair noise. To solve this problem, we propose a novel approach called Noisy Pair Corrector (NPC), which consists of a detection module and a correction module. The detection module estimates noise pairs by calculating the perplexity between annotated positive and easy negative documents. The correction module utilizes an exponential moving average (EMA) model to provide a soft supervised signal, aiding in mitigating the effects of noise. We conduct experiments on text-retrieval benchmarks Natural Question and TriviaQA, code-search benchmarks StaQC and SO-DS. Experimental results show that NPC achieves excellent performance in handling both synthetic and realistic noise.
翻訳日:2023-11-08 16:11:14 公開日:2023-11-07
# Adaptive Augmentation Contrastive を用いた時間グラフ表現学習

Temporal Graph Representation Learning with Adaptive Augmentation Contrastive ( http://arxiv.org/abs/2311.03897v1 )

ライセンス: Link先を確認
Hongjiang Chen, Pengfei Jiao, Huijun Tang, Huaming Wu(参考訳) 時間グラフ表現学習は、時間情報と構造情報とプロパティ情報を取り込むために、低次元の動的ノード埋め込みを生成することを目的としている。 時間的ネットワークのための現在の表現学習手法は、しばしば細かな情報を捉えることに焦点を当てており、本質的な意味情報の代わりにランダムノイズを捉えるモデルに繋がる可能性がある。 グラフコントラスト学習はノイズを扱うことには期待できるが、静的グラフやスナップショットには当てはまり、時間依存のノイズを扱うのに適さない可能性がある。 上記の課題を解決するために,適応拡張コントラスト(TGAC)モデルを用いたテンポラルグラフ表現学習を提案する。 時間グラフ上の適応的な拡張は、事前知識と時間情報を組み合わせたもので、拡張されたビュー間コントラストとビュー内コントラストを定義することでコントラスト目的関数を構築する。 tgacを補完するために,ネットワークからのノイズを低減するために位相的特徴を変化させる3つの適応的拡張戦略を提案する。 各種実ネットワークに関する広範な実験により,提案手法が他の時間グラフ表現学習法より優れていることを示す。

Temporal graph representation learning aims to generate low-dimensional dynamic node embeddings to capture temporal information as well as structural and property information. Current representation learning methods for temporal networks often focus on capturing fine-grained information, which may lead to the model capturing random noise instead of essential semantic information. While graph contrastive learning has shown promise in dealing with noise, it only applies to static graphs or snapshots and may not be suitable for handling time-dependent noise. To alleviate the above challenge, we propose a novel Temporal Graph representation learning with Adaptive augmentation Contrastive (TGAC) model. The adaptive augmentation on the temporal graph is made by combining prior knowledge with temporal information, and the contrastive objective function is constructed by defining the augmented inter-view contrast and intra-view contrast. To complement TGAC, we propose three adaptive augmentation strategies that modify topological features to reduce noise from the network. Our extensive experiments on various real networks demonstrate that the proposed model outperforms other temporal graph representation learning methods.
翻訳日:2023-11-08 16:03:35 公開日:2023-11-07
# iACOS:InformativeおよびAdaptive Negative例を用いたインプシットセンシティメント抽出の改善

iACOS: Advancing Implicit Sentiment Extraction with Informative and Adaptive Negative Examples ( http://arxiv.org/abs/2311.03896v1 )

ライセンス: Link先を確認
Xiancai Xu, Jia-Dong Zhang, Lei Xiong, Zhishang Liu(参考訳) アスペクトベース感情分析(ABSA)は広く研究されているが,4つの基本要素(アスペクト,カテゴリ,意見,感情,特に暗黙的な側面と意見)から構成される4倍の抽出にはほとんど光が当たっていない。 本稿では,カテゴリーや意見の暗黙的な側面を感情で抽出する新しい手法であるiacosを提案する。 まず、iACOSはテキストの最後に2つの暗黙のトークンを付加し、暗黙のアスペクトや意見を含むすべてのトークンのコンテキスト認識表現をキャプチャする。 次に、iacosはコンテキスト認識トークン表現の上にシーケンスラベリングモデルを開発し、明示的かつ暗黙的な側面と意見を共抽出する。 第3に、iACOSはアスペクトオピニオン対を発見し、カテゴリと感情を同時に予測する、特別なマルチヘッドアテンションを持つマルチラベル分類器を考案した。 第4に、iACOSは情報的かつ適応的な負の例を利用して、マルチタスク学習によるカテゴリと感情の分類器と他の2つの分類器を共同で訓練する。 最後に,2つのベンチマークデータセットのf1スコアに比較して,iacosが他の4倍体抽出ベースラインを有意に上回っていることを実験的に示した。

Aspect-based sentiment analysis (ABSA) have been extensively studied, but little light has been shed on the quadruple extraction consisting of four fundamental elements: aspects, categories, opinions and sentiments, especially with implicit aspects and opinions. In this paper, we propose a new method iACOS for extracting Implicit Aspects with Categories and Opinions with Sentiments. First, iACOS appends two implicit tokens at the end of a text to capture the context-aware representation of all tokens including implicit aspects and opinions. Second, iACOS develops a sequence labeling model over the context-aware token representation to co-extract explicit and implicit aspects and opinions. Third, iACOS devises a multi-label classifier with a specialized multi-head attention for discovering aspect-opinion pairs and predicting their categories and sentiments simultaneously. Fourth, iACOS leverages informative and adaptive negative examples to jointly train the multi-label classifier and the other two classifiers on categories and sentiments by multi-task learning. Finally, the experimental results show that iACOS significantly outperforms other quadruple extraction baselines according to the F1 score on two public benchmark datasets.
翻訳日:2023-11-08 16:03:14 公開日:2023-11-07
# アクティブ推論を用いたツール発見とツールイノベーションの理解

Understanding Tool Discovery and Tool Innovation Using Active Inference ( http://arxiv.org/abs/2311.03893v1 )

ライセンス: Link先を確認
Poppy Collis, Paul F Kinghorn, Christopher L Buckley(参考訳) 新しいツールを発明する能力は、動的および新しい環境で問題解決する種としての我々の能力の重要な面として認識されている。 人工エージェントによるツールの使用は困難な課題であり、自律ロボティクスの分野における重要な目標として広く認識されているが、エージェントによる新しいツールの発明に取り組んだ研究は少ない。 本稿では,(1)ツール発見とツール革新の区別を,アクティブ推論の形式化の下での2つの概念の最小限の説明を提供することで明確に述べる。 次に,この記述を適用して,エージェントの確率的生成モデルの隠れた状態にツールアフォーアンスの概念を導入することにより,ツール革新の玩具モデルを構築する。 この特定の状態因子化は、ツールの発見だけでなく、適切なツールプロパティのオフライン誘導を通じてツールを発明する能力を促進する。 これらの予備的な結果の意味を論じ、今後の研究の方向性を概説する。

The ability to invent new tools has been identified as an important facet of our ability as a species to problem solve in dynamic and novel environments. While the use of tools by artificial agents presents a challenging task and has been widely identified as a key goal in the field of autonomous robotics, far less research has tackled the invention of new tools by agents. In this paper, (1) we articulate the distinction between tool discovery and tool innovation by providing a minimal description of the two concepts under the formalism of active inference. We then (2) apply this description to construct a toy model of tool innovation by introducing the notion of tool affordances into the hidden states of the agent's probabilistic generative model. This particular state factorisation facilitates the ability to not just discover tools but invent them through the offline induction of an appropriate tool property. We discuss the implications of these preliminary results and outline future directions of research.
翻訳日:2023-11-08 16:02:50 公開日:2023-11-07
# マルチパーティ量子鍵分布における不完全測定の影響

Impact of imperfect measurements on multi-party quantum key distribution ( http://arxiv.org/abs/2311.03888v1 )

ライセンス: Link先を確認
Yang Xiang(参考訳) 実世界のシナリオにおける測定の不完全性は、デバイス非依存の量子鍵分布(DIQKD)プロトコルの性能を損なう可能性がある。 本稿では,Svetlichnyの不等式(SI)違反に依存する特定のDIQKDプロトコルに着目し,凸結合攻撃を利用した盗聴器について検討する。 分析では、DIQKDケースと一般的な$n$-partyシナリオの両方をカバーしている。 本研究の主な成果は,多人数シナリオにおける測定精度と抽出可能な秘密鍵率の関係である。 その結果、測定精度が向上すると、抽出可能な秘密鍵レートは1ドルに近づき、測定精度が完璧であれば最大値に達する。 正の抽出可能な秘密鍵レートを達成するには、SIに違反するために必要な臨界測定精度よりも一貫して高い閾値測定精度が必要である。 我々は、これらのしきい値が$n=3$から$n=10$のシナリオで表現され、パーティ数n$が増加するにつれて、どちらのしきい値も、ユニティに向けて急速に単調に収束することを示している。 さらに,非最大エンタングル状態と不完全な測定を伴い,初期GHZ状態の放射が伝達中にノイズを発生し,ワーナー状態となるシナリオを考察する。 さらに, 抽出可能な秘密鍵率, ヴェルナー状態の可視性, 測定精度との関係を定量化し, とくに3者シナリオを強調する。 本研究の目的は,マルチパーティdiqkdプロトコルのセキュリティと性能に対する不完全測定精度の影響を明らかにすることである。 その結果、正のシークレットキーレートを達成し、SIの違反を維持する上で、高い測定精度の重要性を強調した。

The imperfection of measurements in real-world scenarios can compromise the performance of device-independent quantum key distribution (DIQKD) protocols. In this paper, we focus on a specific DIQKD protocol that relies on the violation of the Svetlichny's inequality (SI), considering an eavesdropper utilizing the convex combination attack. Our analysis covers both the three-party DIQKD case and the general $n$-party scenario. Our main result is the relationship between the measurement accuracy and the extractable secret-key rate in all multi-party scenarios. The result demonstrates that as measurement accuracy improves, the extractable secret-key rate approaches $1$, reaching its maximum value when the measurement accuracy is perfect. We reveal that achieving positive extractable secret-key rates requires a threshold measurement accuracy that is consistently higher than the critical measurement accuracy necessary to violate the SI. We depict these thresholds for $n$-party scenarios ranging from $n=3$ to $n=10$, demonstrating that as the number of parties ($n$) increases, both thresholds exhibit a rapid and monotonic convergence towards unity. Furthermore, we consider a scenario involving a non-maximally entangled state with imperfect measurements, where the emission of the initial GHZ state undergoes noise during transmission, resulting in a Werner state. The study further quantifies and demonstrates the relationship between the extractable secret-key rate, the visibility of the Werner state, and the measurement accuracy, specifically emphasizing the three-party scenario. This study aims to illuminate the influence of imperfect measurement accuracy on the security and performance of multi-party DIQKD protocols. The results emphasize the importance of high measurement accuracy in achieving positive secret-key rates and maintaining the violation of the SI.
翻訳日:2023-11-08 16:02:35 公開日:2023-11-07
# 最適輸送による離散確率流の定式化

Formulating Discrete Probability Flow Through Optimal Transport ( http://arxiv.org/abs/2311.03886v1 )

ライセンス: Link先を確認
Pengze Zhang, Hubery Yin, Chen Li, Xiaohua Xie(参考訳) 連続拡散モデルは決定論的確率フローを示すのが一般的であるが、離散拡散モデルはそうではない。 本稿では,離散拡散モデルの確率フローに関する基礎理論を確立することを目的とする。 具体的には、連続確率フローが特定の条件下でのモンジュ最適輸送写像であることを最初に証明し、また離散ケースの等価な証拠を示す。 これらの知見を踏まえて、最適な輸送の原理に従って離散的な確率フローを定義することができる。 最後に,新たに確立した定義に基づき,従来の離散拡散モデルを超える新たなサンプリング手法を提案する。 人工玩具データセットとcifar-10データセットの広範な実験により,提案する離散確率フローの有効性が検証された。 コードは、https://github.com/PangzeCheung/Discrete-Probability-Flowでリリースされている。

Continuous diffusion models are commonly acknowledged to display a deterministic probability flow, whereas discrete diffusion models do not. In this paper, we aim to establish the fundamental theory for the probability flow of discrete diffusion models. Specifically, we first prove that the continuous probability flow is the Monge optimal transport map under certain conditions, and also present an equivalent evidence for discrete cases. In view of these findings, we are then able to define the discrete probability flow in line with the principles of optimal transport. Finally, drawing upon our newly established definitions, we propose a novel sampling method that surpasses previous discrete diffusion models in its ability to generate more certain outcomes. Extensive experiments on the synthetic toy dataset and the CIFAR-10 dataset have validated the effectiveness of our proposed discrete probability flow. Code is released at: https://github.com/PangzeCheung/Discrete-Probability-Flow.
翻訳日:2023-11-08 16:02:06 公開日:2023-11-07
# MeVGAN:GANベースのビデオ生成用プラグインモデルと大腸内視鏡への応用

MeVGAN: GAN-based Plugin Model for Video Generation with Applications in Colonoscopy ( http://arxiv.org/abs/2311.03884v1 )

ライセンス: Link先を確認
{\L}ukasz Struski, Tomasz Urba\'nczyk, Krzysztof Bucki, Bart{\l}omiej Cupia{\l}, Aneta Kaczy\'nska, Przemys{\l}aw Spurek, Jacek Tabor(参考訳) ビデオ生成は特に医学において重要であり、この形式で多くのデータが提供される。 しかし、高解像度データの映像生成は、メモリの必要性が大きいため、生成モデルにとって非常に要求の多いタスクである。 本稿では,プラグイン型アーキテクチャを用いたGAN(Generative Adversarial Network)のメモリ効率向上ビデオGAN(MeVGAN)を提案する。 トレーニング済みの2D画像GANを用いて、ノイズ空間内の各軌跡を構成するための単純なニューラルネットワークのみを付加し、GANモデルを通して転送された軌跡が実写映像を構築する。 大腸内視鏡ビデオ作成作業にMeVGANを適用した。 大腸内視鏡は,特に大腸癌のスクリーニングと管理に有用である。 しかし、大腸内視鏡は困難で学習に時間がかかるため、大腸内視鏡シミュレータは若い大腸スコピストの教育に広く用いられている。 我々は,MeVGANが高品質な合成大腸内視鏡映像を制作できることを示し,仮想シミュレータで使用することができることを示した。

Video generation is important, especially in medicine, as much data is given in this form. However, video generation of high-resolution data is a very demanding task for generative models, due to the large need for memory. In this paper, we propose Memory Efficient Video GAN (MeVGAN) - a Generative Adversarial Network (GAN) which uses plugin-type architecture. We use a pre-trained 2D-image GAN and only add a simple neural network to construct respective trajectories in the noise space, so that the trajectory forwarded through the GAN model constructs a real-life video. We apply MeVGAN in the task of generating colonoscopy videos. Colonoscopy is an important medical procedure, especially beneficial in screening and managing colorectal cancer. However, because colonoscopy is difficult and time-consuming to learn, colonoscopy simulators are widely used in educating young colonoscopists. We show that MeVGAN can produce good quality synthetic colonoscopy videos, which can be potentially used in virtual simulators.
翻訳日:2023-11-08 16:01:52 公開日:2023-11-07
# 文章埋め込みのスパースコントラスト学習

Sparse Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2311.03881v1 )

ライセンス: Link先を確認
Ruize An, Chen Zhang, Dawei Song(参考訳) 近年、SimCSEは、文章の埋め込みにおけるコントラスト学習の実現可能性を示し、その表現性は、整列と均一な埋め込み空間にまたがることを示す。 しかし、従来の研究では、高密度モデルにはモデル性能に影響を与える有害なパラメータが含まれていることが示されており、そのようなパラメータでSimCSEが発明されるのも不思議ではない。 これによりパラメータスパーシフィケーションが適用され、各パラメータの文埋め込みの全体的な品質への寄与を測定するためにアライメントと一様性スコアが使用される。 予備研究から, 最小の寄与率を持つパラメータは, モデル性能の向上につながるため, 有害であると考えられる。 乱用パラメータのユビキタス性について議論し,それらを除去するために,標準意味テキスト類似性(sts)タスクと転送学習タスクに関する実験を行い,提案手法がsparsified simcse(sparsecse)と比較して優れた性能を持つことを示す。 さらに,本手法の有効性と安定性を確認し,sparsecseが生成する埋め込み空間はsimcseが生成するようなアライメントが向上することを示した。 重要な点として、統一性はまだ未妥協のままである。

Recently, SimCSE has shown the feasibility of contrastive learning in training sentence embeddings and illustrates its expressiveness in spanning an aligned and uniform embedding space. However, prior studies have shown that dense models could contain harmful parameters that affect the model performance, and it is no wonder that SimCSE can as well be invented with such parameters. Driven by this, parameter sparsification is applied, where alignment and uniformity scores are used to measure the contribution of each parameter to the overall quality of sentence embeddings. Drawing from a preliminary study, we consider parameters with minimal contributions to be detrimental, as their sparsification results in improved model performance. To discuss the ubiquity of detrimental parameters and remove them, more experiments on the standard semantic textual similarity (STS) tasks and transfer learning tasks are conducted, and the results show that the proposed sparsified SimCSE (SparseCSE) has excellent performance in comparison with SimCSE. Furthermore, through in-depth analysis, we establish the validity and stability of our sparsification method, showcasing that the embedding space generated by SparseCSE exhibits improved alignment compared to that produced by SimCSE. Importantly, the uniformity yet remains uncompromised.
翻訳日:2023-11-08 16:01:36 公開日:2023-11-07
# ミニアダプター「Mini But Mighty」(動画あり)

Mini but Mighty: Finetuning ViTs with Mini Adapters ( http://arxiv.org/abs/2311.03873v1 )

ライセンス: Link先を確認
Imad Eddine Marouf, Enzo Tartaglione, St\'ephane Lathuili\`ere(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて支配的なアーキテクチャの1つとなり、訓練済みのViTモデルは微調整によって新しいタスクに適応する。 近年の研究では、ファインタニングの禁止トレーニングやストレージコストを回避するために、アダプタのようなパラメータ効率のよい転送学習法が提案されている。 本研究では,アダプタの寸法が小さい場合,アダプタの性能が低いことを観察し,この問題に対処するトレーニングフレームワークであるMiMiを提案する。 まず、ハイパフォーマンスに到達し、反復的にサイズを削減できる大きなアダプタから始めます。 また,各アダプタの隠れ次元を自動的に推定するために,層間におけるニューロンの重要度を比較するための新たなスコアリング機能を導入する。 提案手法は,3つのデータセットベンチマーク(DomainNet, VTAB, Multi-task)において,精度とトレーニングパラメータの最良のトレードオフを求める上で,29のデータセットに対して,既存の手法よりも優れている。

Vision Transformers (ViTs) have become one of the dominant architectures in computer vision, and pre-trained ViT models are commonly adapted to new tasks via fine-tuning. Recent works proposed several parameter-efficient transfer learning methods, such as adapters, to avoid the prohibitive training and storage cost of finetuning. In this work, we observe that adapters perform poorly when the dimension of adapters is small, and we propose MiMi, a training framework that addresses this issue. We start with large adapters which can reach high performance, and iteratively reduce their size. To enable automatic estimation of the hidden dimension of every adapter, we also introduce a new scoring function, specifically designed for adapters, that compares the neuron importance across layers. Our method outperforms existing methods in finding the best trade-off between accuracy and trained parameters across the three dataset benchmarks DomainNet, VTAB, and Multi-task, for a total of 29 datasets.
翻訳日:2023-11-08 16:01:11 公開日:2023-11-07
# まちづくりラベルの不整合に対する知識伝達手法の比較検討

A Comparative Study of Knowledge Transfer Methods for Misaligned Urban Building Labels ( http://arxiv.org/abs/2311.03867v1 )

ライセンス: Link先を確認
Bipul Neupane, Jagannath Aryal, Abbas Rajabifard(参考訳) 地球観測におけるミスアライメント(EO)画像とビルディングラベルは、ビルディングフットプリントのセマンティックセグメンテーションのための正確な畳み込みニューラルネットワーク(CNN)のトレーニングに影響を与える。 近年,教師-学生の知識伝達手法として,教師付きドメイン適応(SDA),知識蒸留(KD),深層相互学習(DML)の3つが紹介されている。 しかし、これらの手法は、建物の高さと空間分解能によって不整合が増加する都市建物(低層、中層、高層、高層ビル)に対してのみ研究されている。 本研究では,3つの手法の系統的比較研究のワークフローについて述べる。 このワークフローはまず、最も優れた(評価スコアの高い)ハイパーパラメータ、学生のための軽量CNN(コンピュータビジョンの43のCNN)、教師と学生の両方のためのエンコーダデコーダネットワーク(EDN)を識別する。 第2に, 3つの建物足跡データセットを開発し, 3つの転校方法において, 特定した教師と学生を訓練し, 評価する。 その結果,vgg19 (u-vgg19) のu-netが最良の教師であり,u- efficiencynetv2b3 と u- efficientnet-lite0 が優れた学生であることがわかった。 これらの教師と学生のペアで、SDAは、それぞれ低層、中層、高層、高層ビルで0.943、0.868、0.912、0.697F1のスコアを得ることができた。 KDとDMLは、性能の限界損失にもかかわらず、最大82%のモデル圧縮を提供する。 この新たな比較結果から,SDAはミスアライメント問題に対処する最も効果的な手法であり,KDとDMLは性能を著しく損なうことなく効率よくネットワークサイズを圧縮できることがわかった。 この研究で開発された158の実験とデータセットは、誤ったラベルを最小化するために有用である。

Misalignment in Earth observation (EO) images and building labels impact the training of accurate convolutional neural networks (CNNs) for semantic segmentation of building footprints. Recently, three Teacher-Student knowledge transfer methods have been introduced to address this issue: supervised domain adaptation (SDA), knowledge distillation (KD), and deep mutual learning (DML). However, these methods are merely studied for different urban buildings (low-rise, mid-rise, high-rise, and skyscrapers), where misalignment increases with building height and spatial resolution. In this study, we present a workflow for the systematic comparative study of the three methods. The workflow first identifies the best (with the highest evaluation scores) hyperparameters, lightweight CNNs for the Student (among 43 CNNs from Computer Vision), and encoder-decoder networks (EDNs) for both Teachers and Students. Secondly, three building footprint datasets are developed to train and evaluate the identified Teachers and Students in the three transfer methods. The results show that U-Net with VGG19 (U-VGG19) is the best Teacher, and U-EfficientNetv2B3 and U-EfficientNet-lite0 are among the best Students. With these Teacher-Student pairs, SDA could yield upto 0.943, 0.868, 0.912, and 0.697 F1 scores in the low-rise, mid-rise, high-rise, and skyscrapers respectively. KD and DML provide model compression of upto 82%, despite marginal loss in performance. This new comparison concludes that SDA is the most effective method to address the misalignment problem, while KD and DML can efficiently compress network size without significant loss in performance. The 158 experiments and datasets developed in this study will be valuable to minimise the misaligned labels.
翻訳日:2023-11-08 16:00:52 公開日:2023-11-07
# SCONE-GAN: 終末画像翻訳のための意味的コントラスト学習に基づく生成的対立ネットワーク

SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial Network for an end-to-end image translation ( http://arxiv.org/abs/2311.03866v1 )

ライセンス: Link先を確認
Iman Abbasnejad, Fabio Zambetta, Flora Salim, Timothy Wiley, Jeffrey Chan, Russell Gallagher, Ehsan Abbasnejad(参考訳) SCONE-GANは、現実的で多様な風景画像を生成する学習に有効なエンドツーエンドの画像翻訳を提供する。 現在の画像から画像への変換アプローチのほとんどは、ソースからターゲットドメインへの変換と、その逆を表すための2つのマッピングとして考案されている。 多くのアプリケーションで成功したが、これらのアプローチは、限られた多様性を持つ自明な解を生成することに悩まされる。 これは、これらの手法がシーン構造よりも頻繁な関連を学ぶためである。 そこで本研究では,グラフ畳み込みネットワークを用いてオブジェクトの依存関係を学習し,画像構造を維持し,その意味を維持しながら対象領域に画像を転送するscone-ganを提案する。 より現実的で多様な画像生成のために、スタイル参照画像を導入する。 我々は,スタイル画像と出力の相互情報を最大化するためにモデルを強制する。 提案手法は,関連パッチ間の相互情報を明示的に最大化し,より多様な画像の生成を促す。 画像から画像への変換と屋外画像のスタイリングのためのアルゴリズムを提案する。 定性的かつ定量的な結果は,4つのデータセットに対するアプローチの有効性を示す。

SCONE-GAN presents an end-to-end image translation, which is shown to be effective for learning to generate realistic and diverse scenery images. Most current image-to-image translation approaches are devised as two mappings: a translation from the source to target domain and another to represent its inverse. While successful in many applications, these approaches may suffer from generating trivial solutions with limited diversity. That is because these methods learn more frequent associations rather than the scene structures. To mitigate the problem, we propose SCONE-GAN that utilises graph convolutional networks to learn the objects dependencies, maintain the image structure and preserve its semantics while transferring images into the target domain. For more realistic and diverse image generation we introduce style reference image. We enforce the model to maximize the mutual information between the style image and output. The proposed method explicitly maximizes the mutual information between the related patches, thus encouraging the generator to produce more diverse images. We validate the proposed algorithm for image-to-image translation and stylizing outdoor images. Both qualitative and quantitative results demonstrate the effectiveness of our approach on four dataset.
翻訳日:2023-11-08 16:00:16 公開日:2023-11-07
# FD-MIA:フェアネス強化モデルに対する効率的な攻撃

FD-MIA: Efficient Attacks on Fairness-enhanced Models ( http://arxiv.org/abs/2311.03865v1 )

ライセンス: Link先を確認
Huan Tian, Guangsheng Zhang, Bo Liu, Tianqing Zhu, Ming Ding, Wanlei Zhou(参考訳) これまでの研究は、特定の部分群に対する差別的行動を示すバイアスモデルに対する公平性法を開発した。 これらのモデルは、公正な予測を達成する上で有望であるが、最近の研究では、スコアベースのメンバーシップ推論攻撃(MIA)に対する潜在的な脆弱性を特定している。 これらの攻撃では、モデルの予測スコアを分析して、特定のデータサンプルがトレーニング中に使用されたかどうかを推測することができる。 しかし,これらのスコアベースMIAは,二項分類における公平性向上モデルを対象としている場合,有効ではないことが明らかとなった。 miasを発射する訓練を受けた攻撃モデルは、単純なしきい値モデルに分解され、攻撃性能が低下する。 一方,公平性はトレーニングデータの多数部分群に対する予測性能の低下につながることがしばしば観測された。 これにより、攻撃の成功への障壁が高まり、メンバーデータと非メンバーデータの間の予測ギャップが拡大する。 これらの知見に基づいて、フェアネス差分結果(FD-MIA)に基づくフェアネス強化モデルに対する効率的なMIA手法を提案する。 オリジナルモデルとフェアネスエンハンスモデルの両方からの予測の違いを活用し、観測された予測ギャップを攻撃の手がかりとして活用する。 また、プライバシー漏洩を緩和するための潜在的戦略についても検討する。 広範な実験を行い,提案手法の有効性を実証した。

Previous studies have developed fairness methods for biased models that exhibit discriminatory behaviors towards specific subgroups. While these models have shown promise in achieving fair predictions, recent research has identified their potential vulnerability to score-based membership inference attacks (MIAs). In these attacks, adversaries can infer whether a particular data sample was used during training by analyzing the model's prediction scores. However, our investigations reveal that these score-based MIAs are ineffective when targeting fairness-enhanced models in binary classifications. The attack models trained to launch the MIAs degrade into simplistic threshold models, resulting in lower attack performance. Meanwhile, we observe that fairness methods often lead to prediction performance degradation for the majority subgroups of the training data. This raises the barrier to successful attacks and widens the prediction gaps between member and non-member data. Building upon these insights, we propose an efficient MIA method against fairness-enhanced models based on fairness discrepancy results (FD-MIA). It leverages the difference in the predictions from both the original and fairness-enhanced models and exploits the observed prediction gaps as attack clues. We also explore potential strategies for mitigating privacy leakages. Extensive experiments validate our findings and demonstrate the efficacy of the proposed method.
翻訳日:2023-11-08 15:59:57 公開日:2023-11-07
# 機械学習に基づく分散ネットワークのリアクティブ電力最適化のための説明可能なフレームワーク

An Explainable Framework for Machine learning-Based Reactive Power Optimization of Distribution Network ( http://arxiv.org/abs/2311.03863v1 )

ライセンス: Link先を確認
Wenlong Liao, Benjamin Sch\"afer, Dalin Qin, Gonghao Zhang, Zhixian Wang, Zhe Yang(参考訳) 分散ネットワークのリアクティブ電力最適化の計算負荷を低減するため,機械学習モデルに注目が集まっている。 しかし、ほとんどの機械学習モデル(ニューラルネットワークなど)は一般にブラックボックスとみなされており、機械学習モデルの意思決定プロセスにおいて潜在的なバイアスやエラーを識別し理解することが困難である。 この問題に対処するために,分散ネットワークのリアクティブパワーを最適化するために,説明可能な機械学習フレームワークが提案されている。 まず、機械学習モデルから生成されたリアクティブ電力最適化の解に対する各入力特徴の寄与度を測定するために、shapleyの加法説明フレームワークを提案する。 次に、Shapley値の直接計算に伴う計算負担を回避するために、Shapley値を推定するモデル非依存近似法を開発した。 シミュレーションの結果,提案フレームワークは,グローバルおよびインスタンスの観点から視覚分析を用いて,機械学習モデルに基づくリアクティブパワー最適化のソリューションを正確に説明できることがわかった。 さらに、提案する説明可能なフレームワークはモデルに依存しないため、様々なモデル(ニューラルネットワークなど)に適用できる。

To reduce the heavy computational burden of reactive power optimization of distribution networks, machine learning models are receiving increasing attention. However, most machine learning models (e.g., neural networks) are usually considered as black boxes, making it challenging for power system operators to identify and comprehend potential biases or errors in the decision-making process of machine learning models. To address this issue, an explainable machine-learning framework is proposed to optimize the reactive power in distribution networks. Firstly, a Shapley additive explanation framework is presented to measure the contribution of each input feature to the solution of reactive power optimizations generated from machine learning models. Secondly, a model-agnostic approximation method is developed to estimate Shapley values, so as to avoid the heavy computational burden associated with direct calculations of Shapley values. The simulation results show that the proposed explainable framework can accurately explain the solution of the machine learning model-based reactive power optimization by using visual analytics, from both global and instance perspectives. Moreover, the proposed explainable framework is model-agnostic, and thus applicable to various models (e.g., neural networks).
翻訳日:2023-11-08 15:59:36 公開日:2023-11-07
# ノード属性を持つハイパーグラフ:構造と推論

Hypergraphs with node attributes: structure and inference ( http://arxiv.org/abs/2311.03857v1 )

ライセンス: Link先を確認
Anna Badalyan, Nicol\`o Ruggeri and Caterina De Bacco(参考訳) ハイパーグラフでエンコードされた2つ以上のグループで相互作用するユニットを持つ多くのネットワークデータセットは、職場における個人の役割など、ノードに関する追加情報を伴う。 ここでは,これらのノード属性を用いて,高次相互作用による構造理解を改善する方法について述べる。 我々は,ハイパーグラフにおけるコミュニティ検出の問題を検討し,高次インタラクションとノード属性を組み合わせた基本モデルを構築し,観察された相互作用をよりよく表現し,これらの情報のみを使用するよりもコミュニティをより正確に検出する。 この方法は、入力データから、データの説明に寄与する構造と属性の程度を自動的に学習し、有益でない場合、属性を重み付けまたは破棄する。 我々のアルゴリズムの実装は効率的で、大量のハイパーグラフや多数のユニットの相互作用にスケールする。 提案手法を様々なシステムに適用し,ハイパーエッジ予測タスクや情報提供時に属性に関連付けられたコミュニティ分割の選択において,強力な性能を示す。 提案手法は,高次データで利用可能な情報ノード属性の利点を示す。

Many networked datasets with units interacting in groups of two or more, encoded with hypergraphs, are accompanied by extra information about nodes, such as the role of an individual in a workplace. Here we show how these node attributes can be used to improve our understanding of the structure resulting from higher-order interactions. We consider the problem of community detection in hypergraphs and develop a principled model that combines higher-order interactions and node attributes to better represent the observed interactions and to detect communities more accurately than using either of these types of information alone. The method learns automatically from the input data the extent to which structure and attributes contribute to explain the data, down weighing or discarding attributes if not informative. Our algorithmic implementation is efficient and scales to large hypergraphs and interactions of large numbers of units. We apply our method to a variety of systems, showing strong performance in hyperedge prediction tasks and in selecting community divisions that correlate with attributes when these are informative, but discarding them otherwise. Our approach illustrates the advantage of using informative node attributes when available with higher-order data.
翻訳日:2023-11-08 15:59:18 公開日:2023-11-07
# 非指数家庭における局所指数家庭の繊維束を用いたMDL推定器の改良

Improved MDL Estimators Using Fiber Bundle of Local Exponential Families for Non-exponential Families ( http://arxiv.org/abs/2311.03852v1 )

ライセンス: Link先を確認
Kohei Miyamoto, Andrew R. Barron, and Jun'ichi Takeuchi(参考訳) ユニバーサルコーディングのための2部分符号を用いた最小記述長(MDL)推定器を解析した。 特定の正規性条件下での一般パラメトリックな族に対して、後悔がミニマックスの後悔に近い2つの部分のコードを導入する。そこでは、対象ファミリーmに関するコードの後悔は、コードのコード長とmの要素によって達成される理想的なコード長との差である。これは、指数関数的ファミリーに対するgr\"unwaldによる結果の一般化である。 我々のコードは、指数族には不要なデータ記述のために、局所指数族を束ねたMの強化構造を用いて構築される。 この結果は、1991年にバロンとカバーによって導入された理論に基づいて、mdl推定器のリスクと損失の厳密な上限を与える。 さらに,非経験的家族の典型例である混合族に結果を適用することができることを示す。

Minimum Description Length (MDL) estimators, using two-part codes for universal coding, are analyzed. For general parametric families under certain regularity conditions, we introduce a two-part code whose regret is close to the minimax regret, where regret of a code with respect to a target family M is the difference between the code length of the code and the ideal code length achieved by an element in M. This is a generalization of the result for exponential families by Gr\"unwald. Our code is constructed by using an augmented structure of M with a bundle of local exponential families for data description, which is not needed for exponential families. This result gives a tight upper bound on risk and loss of the MDL estimators based on the theory introduced by Barron and Cover in 1991. Further, we show that we can apply the result to mixture families, which are a typical example of non-exponential families.
翻訳日:2023-11-08 15:58:58 公開日:2023-11-07
# 相関は常に検出できる

Correlations are always detectable ( http://arxiv.org/abs/2311.03849v1 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) 環境と相互作用するオープン量子システムを考える。 実験者がシステムにのみアクセス可能であると仮定すると、システム上でのみ測定を行うことで、システムと環境の間の初期相関を検出することができるかどうかが興味深い。 システム上の局所的な測定により相関を検出する様々な手法が提案されている。 これらの手法を見直した上で,システムと環境の相関が常に検出可能であることを示す。 特に、局所的に相関を目撃するために提案されたトレース距離法が成功するようなシステム環境全体のユニタリ進化を常に見つけることができることを示す。 次に、局所的に相関が検出可能な最適なユニタリ進化が存在する条件を見出す。 最後に,システムと環境が時間に依存しないハミルトニアンを介して相互作用する場合を考察し,この場合,システムの局所的な測定によって相関が検出できないことを示す。

Consider an open quantum system which interacts with its environment. Assuming that the experimenter has access only to the system, an interesting question is that whether it is possible to detect initial correlations, between the system and the environment, by performing measurements only on the system. Various methods have been proposed to detect correlations by local measurements on the system. After reviewing these methods, we will show that correlations, between the system and the environment, are always detectable. In particular, we will show that one can always find a unitary evolution, for the whole system-environment, such that the trace distance method, proposed to witness correlations locally, succeeds. Then, we will find the condition for existence of the optimal unitary evolution, for which entire correlation is locally detectable. Finally, we will consider the case that the system and the environment interact through a time-independent Hamiltonian, and show that, for this case, correlation can be undetectable, by local measurements on the system.
翻訳日:2023-11-08 15:58:42 公開日:2023-11-07
# 音声アシスタントにおける対話修復の分析

An Analysis of Dialogue Repair in Voice Assistants ( http://arxiv.org/abs/2311.03952v1 )

ライセンス: Link先を確認
Matthew Galbraith(参考訳) 音声対話システムは、クエリに対するリアルタイム応答を提供することで、人間と機械の対話を変革した。 しかし、ユーザとシステム間の誤解は継続する。 本研究は,GoogleアシスタントとSiriとのインタラクションを解析することにより,仮想アシスタントとユーザ間の対話修復における対話言語の重要性を考察する。 発見によると、アシスタント生成戦略はいくつかあるが、人間のような修復戦略を再現できない。 英語とスペイン語のユーザアクセプタビリティ調査では、ユーザの修復戦略の好みとアシスタントの使用状況の違いが示され、両者の類似点と相違点が示されている。 これらの結果は、人間と人間の相互作用における対話言語と人間と機械の相互作用との間の不平等に光を当て、英語とそれ以降の人間と機械の相互作用における対話言語の影響に関するさらなる研究の必要性を強調した。

Spoken dialogue systems have transformed human-machine interaction by providing real-time responses to queries. However, misunderstandings between the user and system persist. This study explores the significance of interactional language in dialogue repair between virtual assistants and users by analyzing interactions with Google Assistant and Siri, focusing on their utilization and response to the other-initiated repair strategy "huh?" prevalent in human-human interaction. Findings reveal several assistant-generated strategies but an inability to replicate human-like repair strategies such as "huh?". English and Spanish user acceptability surveys show differences in users' repair strategy preferences and assistant usage, with both similarities and disparities among the two surveyed languages. These results shed light on inequalities between interactional language in human-human interaction and human-machine interaction, underscoring the need for further research on the impact of interactional language in human-machine interaction in English and beyond.
翻訳日:2023-11-08 15:51:11 公開日:2023-11-07
# SWAP制御による次元非依存弱値推定

Dimension-independent weak value estimation via controlled SWAP operations ( http://arxiv.org/abs/2311.03941v1 )

ライセンス: Link先を確認
Giulio Chiribella, Kyrylo Simonov, Xuanqiang Zhao(参考訳) 量子可観測物の弱値は、幅広い量子現象を研究する強力なツールである。 そのため、実験室で測定する方法がいくつか提案されている。 これらの手法のいくつかは弱い相互作用とポストセレクションを必要とし、他の方法は決定論的であるが、測定された粒子の数とともに指数関数的に増加する多くの実験に関する統計を必要とする。 本稿では,任意の可観測性の弱値を推定するための決定論的次元非依存スキームを提案する。 このスキームは、コヒーレントに制御されたSWAP操作に基づいており、初期状態と最終状態の事前の知識は必要とせず、測定された可観測物も必要とせず、そのため、非特性化された準備および測定装置で作業することができる。 副産物として、このスキームは2つの時間状態、すなわち前と後の選択を受ける量子系を記述する状態に対する代替表現を提供する。 この式を用いて,制御スワップスキームを用いて正の部分的転置を伴う二成分量子状態に関連する2つの時間状態の弱値を推定できることを示した。

Weak values of quantum observables are a powerful tool for investigating a broad spectrum of quantum phenomena. For this reason, several methods to measure them in the laboratory have been proposed. Some of these methods require weak interactions and postselection, while others are deterministic, but require statistics over a number of experiments growing exponentially with the number of measured particles. Here we propose a deterministic dimension-independent scheme for estimating weak values of arbitrary observables. The scheme, based on coherently controlled SWAP operations, does not require prior knowledge of the initial and final states, nor of the measured observables, and therefore can work with uncharacterized preparation and measurement devices. As a byproduct, our scheme provides an alternative expression for two-time states, that is, states describing quantum systems subject to pre and post-selections. Using this expression, we show that the controlled-SWAP scheme can be used to estimate weak values for a class of two-time states associated to bipartite quantum states with positive partial transpose.
翻訳日:2023-11-08 15:50:45 公開日:2023-11-07
# 訓練単眼深度推定モデルにおけるnan発散の解析

Analysis of NaN Divergence in Training Monocular Depth Estimation Model ( http://arxiv.org/abs/2311.03938v1 )

ライセンス: Link先を確認
Bum Jun Kim, Hyeonah Jang, Sang Woo Kim(参考訳) ディープラーニングの最近の進歩により、高精度な単眼深度推定モデルの開発が促進された。 しかし, 単分子深度推定ネットワークをトレーニングする際, 実験者や研究者は, 勾配降下最適化を阻害する数(NaN)の損失を観測していない。 幾人かの実践者が、トレーニングを悩ませるNaN損失の確率的かつ神秘的な発生を報告しているが、その根本原因は文献では議論されていない。 本研究は,単眼深度推定ネットワークのトレーニング中のNaN損失の詳細な分析を行い,NaN損失の原因となる3種類の脆弱性を同定した。 1) 四角根損失の使用は,不安定な勾配をもたらす。 2)数値安定性問題を示すlog-sigmoid関数 3)不正確な計算をもたらすある種の分散実装。 さらに,各脆弱性に対してNaN損失の発生を示し,NaN損失を防止するための実践的ガイドラインを提示した。 実験の結果, 単眼深度推定における最適化安定性と性能は, ガイドラインに従って改善できることがわかった。

The latest advances in deep learning have facilitated the development of highly accurate monocular depth estimation models. However, when training a monocular depth estimation network, practitioners and researchers have observed not a number (NaN) loss, which disrupts gradient descent optimization. Although several practitioners have reported the stochastic and mysterious occurrence of NaN loss that bothers training, its root cause is not discussed in the literature. This study conducted an in-depth analysis of NaN loss during training a monocular depth estimation network and identified three types of vulnerabilities that cause NaN loss: 1) the use of square root loss, which leads to an unstable gradient; 2) the log-sigmoid function, which exhibits numerical stability issues; and 3) certain variance implementations, which yield incorrect computations. Furthermore, for each vulnerability, the occurrence of NaN loss was demonstrated and practical guidelines to prevent NaN loss were presented. Experiments showed that both optimization stability and performance on monocular depth estimation could be improved by following our guidelines.
翻訳日:2023-11-08 15:50:15 公開日:2023-11-07
# 代名詞トークン化と副文字分解による韓国語NLPタスクの改善

Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition ( http://arxiv.org/abs/2311.03928v1 )

ライセンス: Link先を確認
Taehee Jeon, Bongseok Yang, Changhwan Kim, Yoonseob Lim(参考訳) 本稿では,韓国語にバイトペア符号化(bpe)を適用する際の課題を解決するために,サブキャラクタ分解を利用した形態素認識サブワードトークン化手法を提案する。 本手法は,事前学習言語モデル(PLM)における言語精度と計算効率のバランスをとる。 本手法は, NIKL-CoLAの構文的タスクにおいて, 総合的に優れた性能を発揮することを示す。 これは、形態素型情報を統合することで言語モデルの構文的・意味的能力を高めることができることを示唆している。

We introduce a morpheme-aware subword tokenization method that utilizes sub-character decomposition to address the challenges of applying Byte Pair Encoding (BPE) to Korean, a language characterized by its rich morphology and unique writing system. Our approach balances linguistic accuracy with computational efficiency in Pre-trained Language Models (PLMs). Our evaluations show that this technique achieves good performances overall, notably improving results in the syntactic task of NIKL-CoLA. This suggests that integrating morpheme type information can enhance language models' syntactic and semantic capabilities, indicating that adopting more linguistic insights can further improve performance beyond standard morphological analysis.
翻訳日:2023-11-08 15:49:37 公開日:2023-11-07
# 表現類似度を用いたハードウェア・アウェア進化型ニューラルネットワーク探索

Hardware Aware Evolutionary Neural Architecture Search using Representation Similarity Metric ( http://arxiv.org/abs/2311.03923v1 )

ライセンス: Link先を確認
Nilotpal Sinha, Abd El Rahman Shabayek, Anis Kacem, Peyman Rostami, Carl Shneider, Djamila Aouada(参考訳) ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)は、特定のタスクとターゲットハードウェアのためにニューラルネットワークのアーキテクチャを自動的に設計する技術である。 しかし,HW-NASでは重要な計算資源を必要とするため,候補アーキテクチャの性能評価が重要な課題である。 この課題に対処するために,HW-EvRSNASと呼ばれるハードウェア対応進化型NASアプローチを提案する。 当社のアプローチでは,ニューラルネットワークの探索問題を,対象ハードウェアの参照モデルに類似した性能を持つアーキテクチャとして再設計し,そのハードウェアのコスト制約に固執する。 これはRepresentation Mutual Information (RMI) として知られる表現類似度測定によって達成される。 単一のトレーニングバッチを使用して、参照モデルの隠されたレイヤ表現とサンプルアーキテクチャの相互情報を計測する。 また,アーキテクチャのハードウェアコストが所望のハードウェアコスト閾値からどの程度離れているかに比例して検索プロセスをペナルティ化するペナルティ用語を用いる。 これにより、CO2排出量の減少につながる8000倍のスピードアップに達する文献と比較して、探索時間が大幅に短縮された。 提案手法は,より低い計算資源を用いて2つの異なる探索空間で評価する。 さらに,様々なハードウェアコスト制約下で6種類のエッジデバイスについて徹底的に検討した。

Hardware-aware Neural Architecture Search (HW-NAS) is a technique used to automatically design the architecture of a neural network for a specific task and target hardware. However, evaluating the performance of candidate architectures is a key challenge in HW-NAS, as it requires significant computational resources. To address this challenge, we propose an efficient hardware-aware evolution-based NAS approach called HW-EvRSNAS. Our approach re-frames the neural architecture search problem as finding an architecture with performance similar to that of a reference model for a target hardware, while adhering to a cost constraint for that hardware. This is achieved through a representation similarity metric known as Representation Mutual Information (RMI) employed as a proxy performance evaluator. It measures the mutual information between the hidden layer representations of a reference model and those of sampled architectures using a single training batch. We also use a penalty term that penalizes the search process in proportion to how far an architecture's hardware cost is from the desired hardware cost threshold. This resulted in a significantly reduced search time compared to the literature that reached up to 8000x speedups resulting in lower CO2 emissions. The proposed approach is evaluated on two different search spaces while using lower computational resources. Furthermore, our approach is thoroughly examined on six different edge devices under various hardware cost constraints.
翻訳日:2023-11-08 15:49:22 公開日:2023-11-07
# インテリジェントエッジ展開型室内空気質モニタリングと活動認識アプローチ

An Intelligent Edge-Deployable Indoor Air Quality Monitoring and Activity Recognition Approach ( http://arxiv.org/abs/2311.03920v1 )

ライセンス: Link先を確認
Mohamed Rafik Aymene Berkani, Ammar Chouchane, Yassine Himeur, Abdelmalik Ouamane and Abbes Amira(参考訳) 室内空気質の監視は環境安全性の確保に最重要であり、テクノロジーの進歩と人工知能とディープラーニング(dl)ツールの応用により、その課題はますます実現されていった。 本稿では,1次元畳み込みニューラルネットワーク(1D-CNN)に基づくDLアプローチを用いて,室内環境における空気質の監視と分類を行うインテリジェントシステムを提案する。 本システムでは,6種類のセンサを統合して測定パラメータを収集し,活動認識のための1次元cnnモデルを学習する。 提案したモデルは軽量でエッジデプロイ可能な設計で、リアルタイムアプリケーションに最適である。 生活行動(ADL)分類に特化して設計された空気質データセットを用いて実験を行った。 その結果,提案モデルの有効性が示され,97.00%の精度,0.15%の損失最小値,41ミリ秒の迅速な予測が可能となった。

The surveillance of indoor air quality is paramount for ensuring environmental safety, a task made increasingly viable due to advancements in technology and the application of artificial intelligence and deep learning (DL) tools. This paper introduces an intelligent system dedicated to monitoring air quality and categorizing activities within indoor environments using a DL approach based on 1D Convolutional Neural Networks (1D-CNNs). Our system integrates six diverse sensors to gather measurement parameters, which subsequently train a 1D CNN model for activity recognition. This proposed model boasts a lightweight and edge-deployable design, rendering it ideal for real-time applications. We conducted our experiments utilizing an air quality dataset specifically designed for Activity of Daily Living (ADL) classification. The results illustrate the proposed model's efficacy, achieving a remarkable accuracy of 97.00%, a minimal loss value of 0.15%, and a swift prediction time of 41 milliseconds.
翻訳日:2023-11-08 15:48:41 公開日:2023-11-07
# 原子空洞内の非線形量子光学

Nonlinear Quantum Optics in an Atomic Cavity ( http://arxiv.org/abs/2311.03918v1 )

ライセンス: Link先を確認
Simon Panyella Pedersen(参考訳) 光子を効果的に相互作用させるという考えは、いくつかの理由から近年多くの関心を集めている。 第一に、光子は自然に相互作用しないので、どんな媒体がこれらの基本粒子と非相互作用粒子の相互作用を仲介できるか、そしてどの程度の程度を観察することは、基本的な物理的関心事である。 第二に、フォトニクスは光子の操作、読み出し、輸送が容易であるため、将来の量子技術の主要な候補であり、量子情報処理に最適である。 最後に、光子間の強力で調整可能な相互作用を達成することで、光流体の多体物理学を探求する道を開くことになる。 この論文では、2レベル原子のサブ波長格子からなる空洞が、光子を長い時間非線形環境に閉じ込めることができ、放射された光子がモータと時間統計の間に強い相関関係を蓄積していることを示す。 これは空洞内で強い光子-光子相互作用を示す。 非線形性は個々の原子の飽和度に起因し、格子構造は光との強い低損失な集団相互作用をもたらす。 単一の原子格子は概して線形な性質を持つが、個々の原子の効果が集団反応で洗い出されるため、空洞の凝縮幾何学は光子が非線形性が復活するまでの長い時間、原子の基底飽和度に曝されることを意味する。 我々は,システムの非線形物理学を数値的に扱う標準的な入力出力形式と,さらなる近似を伴わずに正確な解析結果を得られるグリーン関数に基づく強力なアプローチの両方を用いて,このシステムを解析する。 この解析的な記述は、2次元の設定で相互作用する光子の多体物理学の正確な研究につながる可能性がある。

The idea of making photons effectively interact has attracted a lot of interest in recent years, for several reasons. Firstly, since photons do not naturally interact with each other, it is of fundamental physical interest to see what kind of medium can mediate interactions between these fundamental and non-interacting particles, and to what extent. Secondly, photonics is a major candidate for future quantum technology, due to the easy manipulation, readout, and transport of photons, which makes them ideal for quantum information processing. Finally, achieving strong and tunable interactions among photons would open up an avenue for exploring the many-body physics of a fluid of light. In this thesis, we will see how a cavity formed of subwavelength lattices of two-level atoms can confine photons to a nonlinear environment for a long time, such that emitted photons have accumulated strong correlations both among their momenta and in their temporal statistics. This speaks of a strong photon-photon interaction within the cavity. The nonlinearity originates in the saturability of individual atoms, and the lattice structure results in a strong and low-loss collective interaction with light. While a single atomic lattice has a largely linear nature, as the effect of individual atoms washes out in the collective response, the confining geometry of the cavity means the photons are exposed to the underlying saturability of the atoms for such a long time that the nonlinearity is revived. We will analyse this system both using a standard input-output formalism, where the nonlinear physics of the system is handled numerically, and a powerful Green's function-based approach that allows for exact analytical results with no additional approximations. This analytical description has the potential to lead to an exact study of the many-body physics of interacting photons in a two-dimensional setting.
翻訳日:2023-11-08 15:48:24 公開日:2023-11-07
# 量子skyrmionにおける位相次数同定のための位相絡みエントロピー

Topological entanglement entropy to identify topological order in quantum skyrmions ( http://arxiv.org/abs/2311.03915v1 )

ライセンス: Link先を確認
Vipin Vijayan, L. Chotorlishvili, A. Ernst, S. S. P. Parkin, M. I. Katsnelson, S. K. Mishra(参考訳) 二次元三角形格子に形成される位相秩序なスカイミオンのトポロジカルエントロピーとスカラーキラリティについて検討した。 スカラーキラリティーは、ヘリカルと量子skyrmion位相の両方において磁場の滑らかな関数である。 対照的に、位相的絡み合いエントロピーは量子skyrmion相ではほぼ一定であるが、ヘリカル相ではゆらぎが増大する。 したがって、トポロジカルエントロピーは、2つの位相を区別し、系の量子位相遷移をピンポイントする有効な手段である。

We study the topological entanglement entropy and scalar chirality of a topologically ordered skyrmion formed in a two-dimensional triangular lattice. Scalar chirality remains a smooth function of the magnetic field in both helical and quantum skyrmion phases. In contrast, topological entanglement entropy remains almost constant in the quantum skyrmion phase, whereas it experiences enhanced fluctuations in the helical phase. Therefore, topological entanglement entropy is an effective tool to distinguish between the two phases and pinpoint the quantum phase transition in the system.
翻訳日:2023-11-08 15:47:52 公開日:2023-11-07
# FLORA:視覚変換器のための細粒度低ランクアーキテクチャ探索

FLORA: Fine-grained Low-Rank Architecture Search for Vision Transformer ( http://arxiv.org/abs/2311.03912v1 )

ライセンス: Link先を確認
Chi-Chih Chang, Yuan-Yao Sung, Shixing Yu, Ning-Chi Huang, Diana Marculescu, Kai-Chiang Wu(参考訳) Vision Transformers (ViT)は、最近コンピュータビジョンタスクで成功したことを実証した。 しかし、計算能力の増大は実世界の展開に重大な課題をもたらす。 低ランク近似は計算負荷を削減する有名な手法であるが、ViTにおける目標ランク選択を効率的に自動化することは依然として課題である。 ランク選択のプロセスとワンショットNASとの顕著な類似性と整合性から、NASに基づくエンドツーエンド自動フレームワークであるFLORAを導入する。 FLORAは,探索空間の広いスーパーネットの設計課題を克服するため,低ランクな候補フィルタリング方式を採用している。 本手法は、サブネットワーク間の潜在的な過訓練と干渉を効果的に軽減し、過パフォーマンスな候補を適切に識別し排除する。 低ランクスーパーネットの品質をさらに高めるため、低ランク特有のトレーニングパラダイムをデザインする。 まず,スーパーネットを構成するために重みの継承を提案し,低ランクモジュール間の勾配共有を実現する。 第2に,事前学習モデルからの継承情報を考慮して,戦略的にトレーニングリソースを割り当てるために,低ランクアウェアサンプリングを採用する。 FLORAの有効性を実証した。 提案手法では,より微細な階調構成を自動生成し,単純な均一構成に比べて最大で33%のFLOPを削減できる。 より具体的には、FLORA-DeiT-B/FLORA-Swin-Bは性能劣化なしに最大55%/42%のFLOPを節約できる。 重要なことは、FLORAは汎用性と直交性の両方を誇っており、主要な圧縮技術やコンパクトハイブリッド構造と統合した場合、さらに21%-26%のFLOPを削減できる。 私たちのコードはhttps://github.com/shadowpa0327/FLORAで公開されています。

Vision Transformers (ViT) have recently demonstrated success across a myriad of computer vision tasks. However, their elevated computational demands pose significant challenges for real-world deployment. While low-rank approximation stands out as a renowned method to reduce computational loads, efficiently automating the target rank selection in ViT remains a challenge. Drawing from the notable similarity and alignment between the processes of rank selection and One-Shot NAS, we introduce FLORA, an end-to-end automatic framework based on NAS. To overcome the design challenge of supernet posed by vast search space, FLORA employs a low-rank aware candidate filtering strategy. This method adeptly identifies and eliminates underperforming candidates, effectively alleviating potential undertraining and interference among subnetworks. To further enhance the quality of low-rank supernets, we design a low-rank specific training paradigm. First, we propose weight inheritance to construct supernet and enable gradient sharing among low-rank modules. Secondly, we adopt low-rank aware sampling to strategically allocate training resources, taking into account inherited information from pre-trained models. Empirical results underscore FLORA's efficacy. With our method, a more fine-grained rank configuration can be generated automatically and yield up to 33% extra FLOPs reduction compared to a simple uniform configuration. More specific, FLORA-DeiT-B/FLORA-Swin-B can save up to 55%/42% FLOPs almost without performance degradtion. Importantly, FLORA boasts both versatility and orthogonality, offering an extra 21%-26% FLOPs reduction when integrated with leading compression techniques or compact hybrid structures. Our code is publicly available at https://github.com/shadowpa0327/FLORA.
翻訳日:2023-11-08 15:47:42 公開日:2023-11-07
# 普遍式の構造

Structure of universal formulas ( http://arxiv.org/abs/2311.03910v1 )

ライセンス: Link先を確認
Dmitry Yarotsky(参考訳) 普遍公式により、固定された複雑性を持つがコンパクト集合上の任意の連続函数を近似するパラメータ化された解析式を理解する。 このような公式には、ニューラルネットワークの形式を含む様々な例がある。 本稿では,これらの高表現性モデルの本質的構造要素を解析する。 我々は,大域的近似性と無限vc次元の弱い性質をつなぐ表現性クラスの階層を導入し,複雑化する関数群に対する一連の分類結果を証明する。 特に、多項式的指数代数関数の一般族を導入し、証明したように多項式制約を受ける。 その結果、超越的活性化(例えば、正弦波や標準シグモイド)を持つニューロンの1層以上を有する固定サイズニューラルネットワークは、任意の有限集合上の一般の近似関数では不可能であることがわかった。 一方、任意の有限集合上の関数を近似する2層ニューラルネットワークを含む関数族を例に挙げるが、定義領域全体においてそれを行うことができない。

By universal formulas we understand parameterized analytic expressions that have a fixed complexity, but nevertheless can approximate any continuous function on a compact set. There exist various examples of such formulas, including some in the form of neural networks. In this paper we analyze the essential structural elements of these highly expressive models. We introduce a hierarchy of expressiveness classes connecting the global approximability property to the weaker property of infinite VC dimension, and prove a series of classification results for several increasingly complex functional families. In particular, we introduce a general family of polynomially-exponentially-algebraic functions that, as we prove, is subject to polynomial constraints. As a consequence, we show that fixed-size neural networks with not more than one layer of neurons having transcendental activations (e.g., sine or standard sigmoid) cannot in general approximate functions on arbitrary finite sets. On the other hand, we give examples of functional families, including two-hidden-layer neural networks, that approximate functions on arbitrary finite sets, but fail to do that on the whole domain of definition.
翻訳日:2023-11-08 15:47:15 公開日:2023-11-07
# 安定化回路の高速シミュレーションのための相記号化

SymPhase: Phase Symbolization for Fast Simulation of Stabilizer Circuits ( http://arxiv.org/abs/2311.03906v1 )

ライセンス: Link先を確認
Wang Fang and Mingsheng Ying(参考訳) 本稿では,回路を1回だけトラバースする効率的な安定化回路シミュレーションアルゴリズムを提案する。 安定化器発生器に位相記号を導入し、安定化器発生器の位相におけるシンボル表現として回路内のパウリ断層を明示的に蓄積できるようにする。 このようにして、測定結果はシンボリック表現であり、回路を繰り返すことなく、具体的な値でシンボル変数を置換することでそれらをサンプリングすることができる。 本稿では, ビットベクトル符号化を用いて, シンボリック位相を安定化器テーブルーに統合し, 効率よく維持する方法を示す。 メモリにおける安定化器テーブルーの新たなデータレイアウトを提案し,このアルゴリズムの性能を向上する(安定化器テーブルーに基づく他の安定化器シミュレーションアルゴリズム)。 アルゴリズムとデータレイアウトを Julia パッケージである \texttt{SymPhase.jl} に実装し,いくつかのベンチマークで最先端シミュレータ Stim と比較した。 以上の結果から,<texttt{SymPhase.jl} はサンプリング時間において優れた性能を示し,さらに多くのサンプルを生成する上で重要である。

This paper proposes an efficient stabilizer circuit simulation algorithm that only traverses the circuit forward once. We introduce phase symbolization into stabilizer generators, which allows possible Pauli faults in the circuit to be accumulated explicitly as symbolic expressions in the phases of stabilizer generators. This way, the measurement outcomes are also symbolic expressions, and we can sample them by substituting the symbolic variables with concrete values, without traversing the circuit repeatedly. We show how to integrate symbolic phases into the stabilizer tableau and maintain them efficiently using bit-vector encoding. A new data layout of the stabilizer tableau in memory is proposed, which improves the performance of our algorithm (and other stabilizer simulation algorithms based on the stabilizer tableau). We implement our algorithm and data layout in a Julia package named \texttt{SymPhase.jl}, and compare it with Stim, the state-of-the-art simulator, on several benchmarks. We show that \texttt{SymPhase.jl} has superior performance in terms of sampling time, which is crucial for generating a large number of samples for further analysis.
翻訳日:2023-11-08 15:46:58 公開日:2023-11-07
# RobustMat: 混在環境下での街路ランドマークパッチマッチングのためのニューラルネットワーク拡散

RobustMat: Neural Diffusion for Street Landmark Patch Matching under Challenging Environments ( http://arxiv.org/abs/2311.03904v1 )

ライセンス: Link先を確認
Rui She, Qiyu Kang, Sijie Wang, Yuan-Rui Yang, Kai Zhao, Yang Song and Wee Peng Tay(参考訳) 自動運転車(AV)では、カメラのようなセンサーに基づく視覚認識技術が情報取得と処理において重要な役割を果たす。 avsの様々なコンピュータ知覚タスクでは、オンボードカメラが撮影したランドマークパッチと他のランドマークパッチを異なる時間に撮影したり、ストリートシーン画像データベースに保存したりするのに役立ちます。 季節・天気・照明の変化による困難な運転環境下でマッチングを行うため,各パッチの空間的近傍情報を利用する。 神経微分方程式からの摂動に対するロバスト性を示すロバストマットという手法を提案する。 畳み込み型ニューラルネットワークode拡散モジュールを使用して、ランドマークパッチの特徴表現を学習する。 グラフニューラルネットワークPDE拡散モジュールは、ストリートシーン内の隣接するランドマークパッチから情報を集約する。 最後に、特徴類似性学習は最終一致スコアを出力する。 提案手法は,複数の街路景観データセットを用いて評価し,環境変動下での最先端のマッチング結果を実証した。

For autonomous vehicles (AVs), visual perception techniques based on sensors like cameras play crucial roles in information acquisition and processing. In various computer perception tasks for AVs, it may be helpful to match landmark patches taken by an onboard camera with other landmark patches captured at a different time or saved in a street scene image database. To perform matching under challenging driving environments caused by changing seasons, weather, and illumination, we utilize the spatial neighborhood information of each patch. We propose an approach, named RobustMat, which derives its robustness to perturbations from neural differential equations. A convolutional neural ODE diffusion module is used to learn the feature representation for the landmark patches. A graph neural PDE diffusion module then aggregates information from neighboring landmark patches in the street scene. Finally, feature similarity learning outputs the final matching score. Our approach is evaluated on several street scene datasets and demonstrated to achieve state-of-the-art matching results under environmental perturbations.
翻訳日:2023-11-08 15:46:38 公開日:2023-11-07
# 公正な雇用自動化がEU非差別法を破る理由

Why Fair Automated Hiring Systems Breach EU Non-Discrimination Law ( http://arxiv.org/abs/2311.03900v1 )

ライセンス: Link先を確認
Robert Lee Poe(参考訳) 機械学習に基づく自動雇用システムを利用する雇用選択プロセスは、ますます一般的になりつつある。 一方、このようなシステムから生じるアルゴリズム的直接的および間接的差別に関する懸念は、前もって中心であり、研究コミュニティが提供する技術的解決策はしばしば、保護された属性に基づく集団に対する異質な影響と戦うために、平等な治療の原則から体系的に逸脱する。 これらの技術的ソリューションは現在、商用の自動化雇用システムで使用されており、現実世界の差別にかかわる可能性がある。 アルゴリズム的公平性とアルゴリズム的非差別は同じではない。 この記事では、これら2つの雇用制度がeu非差別法に準拠しているかどうかについて検討する。

Employment selection processes that use automated hiring systems based on machine learning are becoming increasingly commonplace. Meanwhile, concerns about algorithmic direct and indirect discrimination that result from such systems are front-and-center, and the technical solutions provided by the research community often systematically deviate from the principle of equal treatment to combat disparate or adverse impacts on groups based on protected attributes. Those technical solutions are now being used in commercially available automated hiring systems, potentially engaging in real-world discrimination. Algorithmic fairness and algorithmic non-discrimination are not the same. This article examines a conflict between the two: whether such hiring systems are compliant with EU non-discrimination law.
翻訳日:2023-11-08 15:46:20 公開日:2023-11-07
# C-RANにおける学習型レイテンシ制約付きフロントホール圧縮最適化

Learning-Based Latency-Constrained Fronthaul Compression Optimization in C-RAN ( http://arxiv.org/abs/2311.03899v1 )

ライセンス: Link先を確認
Axel Gr\"onland, Bleron Klaiqi, Xavier Gelabert(参考訳) 無線アクセスネットワーク(ran)機能を中央または分散のロケーションにホストできるクラウド化へのワイヤレスモバイルネットワークの進化は、低コストなデプロイメント、高容量化、ハードウェア利用の改善といった多くのメリットを提供している。 それでも、機能デプロイメントの柔軟性は、厳格なフロントハウル(FH)キャパシティとレイテンシ要件のコストが伴う。 これらの厳密な制約に対処する1つの可能なアプローチは、FH圧縮技術を使用することである。 FHのキャパシティとレイテンシの要件を満たすため、高負荷時により多くのFH圧縮が適用され、中低負荷時には少ない圧縮が適用され、FH利用率と空気界面性能が向上する。 本稿では, モデルフリー深部強化学習(DRL)に基づくFH圧縮(DRL-FC)フレームワークを提案し, 変調順序, プリコーダの粒度, およびFH負荷および空気界面性能に影響を与えるプリコーダの量量子化など, 各種構成パラメータによるFH圧縮を動的に制御する。 シミュレーションの結果、DRL-FCはFH負荷レベルの異なる基準スキーム(すなわち、適用圧縮のない)よりもFH利用率(平均68.7%)と空気界面のスループットが著しく高いことが示された。 同時に、DRL-FCフレームワークは、さまざまなFH負荷下で、予め定義されたFHレイテンシ制約(ここでは260$\mu$sに設定する)を満たすことができる。

The evolution of wireless mobile networks towards cloudification, where Radio Access Network (RAN) functions can be hosted at either a central or distributed locations, offers many benefits like low cost deployment, higher capacity, and improved hardware utilization. Nevertheless, the flexibility in the functional deployment comes at the cost of stringent fronthaul (FH) capacity and latency requirements. One possible approach to deal with these rigorous constraints is to use FH compression techniques. To ensure that FH capacity and latency requirements are met, more FH compression is applied during high load, while less compression is applied during medium and low load to improve FH utilization and air interface performance. In this paper, a model-free deep reinforcement learning (DRL) based FH compression (DRL-FC) framework is proposed that dynamically controls FH compression through various configuration parameters such as modulation order, precoder granularity, and precoder weight quantization that affect both FH load and air interface performance. Simulation results show that DRL-FC exhibits significantly higher FH utilization (68.7% on average) and air interface throughput than a reference scheme (i.e. with no applied compression) across different FH load levels. At the same time, the proposed DRL-FC framework is able to meet the predefined FH latency constraints (in our case set to 260 $\mu$s) under various FH loads.
翻訳日:2023-11-08 15:46:08 公開日:2023-11-07
# 光から原子配列への量子相関の散逸移動

Dissipative transfer of quantum correlations from light to atomic arrays ( http://arxiv.org/abs/2311.03898v1 )

ライセンス: Link先を確認
Roni Ben-Maimon, Yakov Solomons, and Ephraim Shahmoon(参考訳) 原子配列の光への方向的集団応答が、例えば量子メトロロジーに関係した、絡み合った原子状態の散逸生成にどのように利用されるかを示す。 圧縮真空場の同軸ビームによって照らされた原子配列を考察し、量子スケーズ相関が配列原子に散逸的に伝達され、原子スピンスケーズ定常状態となることを示す。 その結果,アレーの共振光反射率によって,エンタングルメント伝達効率とスピンスクイージングの程度が決定されることがわかった。 有限サイズアレイと照明ビームの現実的な場合を考えると, スピンスクイーズ強度が, アレイ内の層数やビームとの空間的重なりなど, システムパラメータとどのようにスケールするかが分かる。 光およびマイクロ波領域における原子時計への応用について論じる。

We show how the directional collective response of atomic arrays to light can be exploited for the dissipative generation of entangled atomic states, relevant for e.g. quantum metrology. We consider an atomic array illuminated by a paraxial beam of a squeezed-vacuum field and demonstrate that quantum-squeezing correlations are dissipatively transferred to the array atoms, resulting in an atomic spin-squeezed steady state. We find that the entanglement transfer efficiency and hence the degree of spin squeezing are determined by the resonant optical reflectivity of the array. Considering realistic cases of finite-size array and illuminating beam, we find how the spin-squeezing strength scales with system parameters, such as the number of layers in the array and its spatial overlap with the beam. We discuss applications in atomic clocks both in optical and microwave domains.
翻訳日:2023-11-08 15:45:42 公開日:2023-11-07
# 物理の先測、形式言語、構成主義的基礎

Pregeometry, Formal Language and Constructivist Foundations of Physics ( http://arxiv.org/abs/2311.03973v1 )

ライセンス: Link先を確認
Xerxes D. Arsiwalla, Hatem Elshatlawy, Dean Rickles(参考訳) 物理の基礎に必要な構造構造をどのように定式化するか。 この研究は、量子幾何学の新しい概念と既存の概念が基礎となる前幾何学構造のメタ物理を概念化する試みである。 本稿では, ウィーラー, ライプニッツおよびトポス理論における近代的現象によるプレジオメトリー構造の哲学について論じる。 我々は、形式言語、特にホモトピー型理論の枠組みが、プレジオメトリーの理論のための概念的構成要素を提供することを示す証拠に注意を向ける。 この研究は、主に物理理論における空間の概念の概念を概念化する前兆となるアイデアの合成である。 特に、我々がエスポージするアプローチは構成主義的な哲学に基づいており、``structureless structures'' は形式的な証明とプログラムを実現する構文型である。 物理理論に関連する空間と代数は形式言語の合成規則から構築された型理論ルーチンとしてモデル化される。 これは共通の理論的枠組みを用いて幾何学の異なる概念を分類する驚くべき可能性を与える。 特に、この観点は、ヴォルフラムモデルのような形式計算と物理学を結びつけるモデルにおいて空間性がどのように実現されるかという決定的な問題に対処する。

How does one formalize the structure of structures necessary for the foundations of physics? This work is an attempt at conceptualizing the metaphysics of pregeometric structures, upon which new and existing notions of quantum geometry may find a foundation. We discuss the philosophy of pregeometric structures due to Wheeler, Leibniz as well as modern manifestations in topos theory. We draw attention to evidence suggesting that the framework of formal language, in particular, homotopy type theory, provides the conceptual building blocks for a theory of pregeometry. This work is largely a synthesis of ideas that serve as a precursor for conceptualizing the notion of space in physical theories. In particular, the approach we espouse is based on a constructivist philosophy, wherein ``structureless structures'' are syntactic types realizing formal proofs and programs. Spaces and algebras relevant to physical theories are modeled as type-theoretic routines constructed from compositional rules of a formal language. This offers the remarkable possibility of taxonomizing distinct notions of geometry using a common theoretical framework. In particular, this perspective addresses the crucial issue of how spatiality may be realized in models that link formal computation to physics, such as the Wolfram model.
翻訳日:2023-11-08 15:37:37 公開日:2023-11-07
# 合成顔認証におけるバイアスと多様性

Bias and Diversity in Synthetic-based Face Recognition ( http://arxiv.org/abs/2311.03970v1 )

ライセンス: Link先を確認
Marco Huber, Anh Thi Luu, Fadi Boutros, Arjan Kuijper, Naser Damer(参考訳) 合成データは、顔データを扱う際の倫理的および法的課題を解決するために、認証データの代用として出現している。 現在のモデルは、存在しない人のリアルな顔画像を作ることができる。 しかし、顔認識システムがバイアス、すなわち異なる人口統計学的属性と非人口統計学的属性のパフォーマンスの違いに影響を受けやすく、不公平な決定に繋がる可能性があることは知られ、敏感な問題である。 本研究では,合成顔認識データセットの多様性が真のデータセットとどのように比較されるか,および生成モデルのトレーニングデータの分布が合成データの分布に与える影響について検討する。 そのために,性別,民族,年齢,頭部位置の分布を検討した。 さらに,近年の3つの合成型顔認識モデルの具体的バイアスについて,実データに基づくベースラインモデルと比較して検討した。 その結果, 発電機は, 使用するトレーニングデータと同様の分布を異なる属性で生成することがわかった。 バイアスに関しては、合成ベースモデルが真ベースモデルと類似したバイアス挙動を持っていることが分かる。 しかし, アイデンティティ内属性の整合性を明らかにすることにより, バイアスの低減に有効と考えられる。

Synthetic data is emerging as a substitute for authentic data to solve ethical and legal challenges in handling authentic face data. The current models can create real-looking face images of people who do not exist. However, it is a known and sensitive problem that face recognition systems are susceptible to bias, i.e. performance differences between different demographic and non-demographics attributes, which can lead to unfair decisions. In this work, we investigate how the diversity of synthetic face recognition datasets compares to authentic datasets, and how the distribution of the training data of the generative models affects the distribution of the synthetic data. To do this, we looked at the distribution of gender, ethnicity, age, and head position. Furthermore, we investigated the concrete bias of three recent synthetic-based face recognition models on the studied attributes in comparison to a baseline model trained on authentic data. Our results show that the generator generate a similar distribution as the used training data in terms of the different attributes. With regard to bias, it can be seen that the synthetic-based models share a similar bias behavior with the authentic-based models. However, with the uncovered lower intra-identity attribute consistency seems to be beneficial in reducing bias.
翻訳日:2023-11-08 15:37:18 公開日:2023-11-07
# ファクタリング・ヘイトスピーチ:ソーシャルメディアにおけるヘイトスピーチ研究のための新しいアノテーションフレームワーク

Factoring Hate Speech: A New Annotation Framework to Study Hate Speech in Social Media ( http://arxiv.org/abs/2311.03969v1 )

ライセンス: Link先を確認
Gal Ron, Effi Levi, Odelia Oshri and Shaul R. Shenhav(参考訳) 本研究では,ヘイトスピーチを5つのカテゴリーに分けた新しいアノテーション手法を提案する。 提案手法を評価するために,ユダヤ人に対する憎悪表現を含む290万以上のtwitter投稿のコーパスを構築し,1,050ツイートのサンプルデータセットをアノテートする。 本稿では,注釈付きデータセットの統計的解析とアノテーション例の議論を行い,将来的な研究の方向性について論じる。

In this work we propose a novel annotation scheme which factors hate speech into five separate discursive categories. To evaluate our scheme, we construct a corpus of over 2.9M Twitter posts containing hateful expressions directed at Jews, and annotate a sample dataset of 1,050 tweets. We present a statistical analysis of the annotated dataset as well as discuss annotation examples, and conclude by discussing promising directions for future work.
翻訳日:2023-11-08 15:37:00 公開日:2023-11-07
# cecnn:超広視野眼底画像に基づく屈折誤差と軸長の同時予測におけるコプラエンハンスド畳み込みニューラルネットワーク

CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images ( http://arxiv.org/abs/2311.03967v1 )

ライセンス: Link先を確認
Chong Zhong, Yang Li, Danjuan Yang, Meiyan Li, Xingyao Zhou, Bo Fu, Catherine C. Liu, and A.H. Welsh(参考訳) UWF (Ultra-widefield) の眼底画像は、より広い視野の視線が近視眼に有利であるため、ミオピアに関連する合併症のスクリーニング、検出、予測、治療において従来の眼底画像を置き換える。 球状同値 (SE) は主近視結果の指標として広く用いられ, 軸長 (AL) は近視評価の重要な眼球成分として注目されている。 切断端の研究はSEとALが強く相関していることを示している。 SE と AL のジョイント情報を使用することは,どちらを別々に使用するよりもよい可能性がある。 深層学習コミュニティでは、3次元画像バイオマーカーを用いたマルチレスポンスタスクの研究があるが、応答間の依存は散発的にのみ考慮されている。 統計的手法によってデータから抽出された情報によって深層学習モデルの予測精度が向上するという精神に触発され,回帰分類と回帰回帰回帰という二変量課題に対して,高次テンソルバイオマーカーを用いた多変量応答回帰モデルのクラスを定式化する。 具体的には,ガウシアンコプラ(ウォームアップcnnから推定されるパラメータを含む)による応答間の依存性を取り入れ,バックボーンcnnによるコプラ類似度損失を誘発するコプラ拡張畳み込みニューラルネットワーク(cecnn)フレームワークを提案する。 上記の2つの二変量タスクの統計的枠組みとアルゴリズムを確立する。 バックボーンモデルに依存性情報を追加すると,CeCNNの精度が向上することを示す。 モデリングと提案されたCeCNNアルゴリズムはUWFのシナリオを超えて適用でき、ResNetやLeNet以外のバックボーンでも有効である。

Ultra-widefield (UWF) fundus images are replacing traditional fundus images in screening, detection, prediction, and treatment of complications related to myopia because their much broader visual range is advantageous for highly myopic eyes. Spherical equivalent (SE) is extensively used as the main myopia outcome measure, and axial length (AL) has drawn increasing interest as an important ocular component for assessing myopia. Cutting-edge studies show that SE and AL are strongly correlated. Using the joint information from SE and AL is potentially better than using either separately. In the deep learning community, though there is research on multiple-response tasks with a 3D image biomarker, dependence among responses is only sporadically taken into consideration. Inspired by the spirit that information extracted from the data by statistical methods can improve the prediction accuracy of deep learning models, we formulate a class of multivariate response regression models with a higher-order tensor biomarker, for the bivariate tasks of regression-classification and regression-regression. Specifically, we propose a copula-enhanced convolutional neural network (CeCNN) framework that incorporates the dependence between responses through a Gaussian copula (with parameters estimated from a warm-up CNN) and uses the induced copula-likelihood loss with the backbone CNNs. We establish the statistical framework and algorithms for the aforementioned two bivariate tasks. We show that the CeCNN has better prediction accuracy after adding the dependency information to the backbone models. The modeling and the proposed CeCNN algorithm are applicable beyond the UWF scenario and can be effective with other backbones beyond ResNet and LeNet.
翻訳日:2023-11-08 15:36:51 公開日:2023-11-07
# テンソルフに基づく日向の速い屋外照明

Fast Sun-aligned Outdoor Scene Relighting based on TensoRF ( http://arxiv.org/abs/2311.03965v1 )

ライセンス: Link先を確認
Yeonjin Chang, Yearim Kim, Seunghyeon Seo, Jung Yi, Nojun Kwak(参考訳) 本稿では,sun-aligned relighting tensorf (sr-tensorf) と呼ばれる神経放射野(nerf)の屋外シーンライトニング手法を紹介する。 SR-TensoRFは太陽に合わせた軽量で高速なパイプラインを提供し、環境マップの必要性をなくすシンプルなワークフローを実現する。 我々の日向戦略は、視線に依存したアルベドとは異なり、影は光の方向によって決定されるという洞察によって動機付けられている。 影発生時に太陽方向を直接入力として使用し、推論プロセスの要求を大幅に単純化する。 さらに、SR-TensoRFは、提案した立方体マップの概念を取り入れて、テンソRFのトレーニング効率を活用し、既存の手法と比較してトレーニングとレンダリングの双方において顕著な加速をもたらす。

In this work, we introduce our method of outdoor scene relighting for Neural Radiance Fields (NeRF) named Sun-aligned Relighting TensoRF (SR-TensoRF). SR-TensoRF offers a lightweight and rapid pipeline aligned with the sun, thereby achieving a simplified workflow that eliminates the need for environment maps. Our sun-alignment strategy is motivated by the insight that shadows, unlike viewpoint-dependent albedo, are determined by light direction. We directly use the sun direction as an input during shadow generation, simplifying the requirements of the inference process significantly. Moreover, SR-TensoRF leverages the training efficiency of TensoRF by incorporating our proposed cubemap concept, resulting in notable acceleration in both training and rendering processes compared to existing methods.
翻訳日:2023-11-08 15:36:17 公開日:2023-11-07
# 生成負のマイニングによる視覚言語モデルのマルチモーダル合成推論の強化

Enhancing Multimodal Compositional Reasoning of Visual Language Models with Generative Negative Mining ( http://arxiv.org/abs/2311.03964v1 )

ライセンス: Link先を確認
Ugur Sahin, Hang Li, Qadeer Khan, Daniel Cremers, Volker Tresp(参考訳) 現代の大規模視覚言語モデル(vlms)は、強い表現能力を示し、画像やテキスト理解のタスクをユビキタスにする。 それらはしばしば、大きく多様な画像のコーパスと、それに対応するテキストキャプションをインターネットからかき集めて、対比的に訓練される。 これにもかかわらず、VLMは、オブジェクトとその属性の複雑な相互作用を詳細に理解する必要がある構成的推論タスクに苦慮することが多い。 この失敗は2つの主な要因に起因する。 1) 対照的なアプローチは、伝統的に既存のデータセットからネガティブな例をマイニングすることに重点を置いてきた。 しかし、マイニングされた負の例は、モデルが正と区別することが難しくないかもしれない。 鉱業の代替手段は 負のサンプル生成です 2) 既存の生成的アプローチは, 画像に付随する硬い負のテキストの生成に重点を置いている。 反対方向のマイニング、すなわち、あるテキストに関連付けられた負の画像サンプルを生成することは無視されている。 両者の限界を克服するため,我々は,両方向のマイニングだけでなく,画像やテキストなど,両方のモダリティにおいて難解な負のサンプルを生成するフレームワークを提案する。 これらの生成的強陰性サンプルを活用することで、多モード合成推論を含むタスクにおけるVLMの性能を著しく向上させる。 私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlでリリースしています。

Contemporary large-scale visual language models (VLMs) exhibit strong representation capacities, making them ubiquitous for enhancing image and text understanding tasks. They are often trained in a contrastive manner on a large and diverse corpus of images and corresponding text captions scraped from the internet. Despite this, VLMs often struggle with compositional reasoning tasks which require a fine-grained understanding of the complex interactions of objects and their attributes. This failure can be attributed to two main factors: 1) Contrastive approaches have traditionally focused on mining negative examples from existing datasets. However, the mined negative examples might not be difficult for the model to discriminate from the positive. An alternative to mining would be negative sample generation 2) But existing generative approaches primarily focus on generating hard negative texts associated with a given image. Mining in the other direction, i.e., generating negative image samples associated with a given text has been ignored. To overcome both these limitations, we propose a framework that not only mines in both directions but also generates challenging negative samples in both modalities, i.e., images and texts. Leveraging these generative hard negative samples, we significantly enhance VLMs' performance in tasks involving multimodal compositional reasoning. Our code and dataset are released at https://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.html.
翻訳日:2023-11-08 15:36:01 公開日:2023-11-07
# メタファ検出のための期待実現モデル

An Expectation-Realization Model for Metaphor Detection ( http://arxiv.org/abs/2311.03963v1 )

ライセンス: Link先を確認
Oseremen O. Uduehi and Razvan C. Bunescu(参考訳) 本稿では,2つの主要モジュールを中心に構築されたメタファ検出アーキテクチャを提案する。コンテキストが与えられたリテラル単語の予測表現を推定する予測コンポーネントと,コンテキスト内の実際の単語の意味表現を計算する実現コンポーネントである。 全体的なアーキテクチャは、単語の比喩的使用を特徴付ける予測実現(ER)パターンを学ぶために訓練される。 分布内,分布外,新しいメタファー一般化の3つのメタファーデータセットを評価した結果,本手法は最先端技術よりも競争力のある結果を得ることができた。 さらに、ERモデルのアンサンブルによりメタファー検出精度が向上する。

We propose a metaphor detection architecture that is structured around two main modules: an expectation component that estimates representations of literal word expectations given a context, and a realization component that computes representations of actual word meanings in context. The overall architecture is trained to learn expectation-realization (ER) patterns that characterize metaphorical uses of words. When evaluated on three metaphor datasets for within distribution, out of distribution, and novel metaphor generalization, the proposed method is shown to obtain results that are competitive or better than state-of-the art. Further increases in metaphor detection accuracy are obtained through ensembling of ER models.
翻訳日:2023-11-08 15:35:39 公開日:2023-11-07
# 深部生成データの有効性向上

Improving the Effectiveness of Deep Generative Data ( http://arxiv.org/abs/2311.03959v1 )

ライセンス: Link先を確認
Ruyu Wang, Sabrina Schmedding, Marco F. Huber(参考訳) 近年,gans (generative adversarial networks) やdpms (distribution probabilistic models) などの深層生成モデル (dgms) は,高忠実なフォトリアリスティック画像を生成する能力を示している。 人間の目には魅力的に見えるが、画像分類のような下流の画像処理タスクのための純粋合成画像のトレーニングは、実際のデータでのトレーニングと比べて望ましくないパフォーマンス低下をもたらすことが多い。 これまでの研究は、DGMの合成画像による実際のデータセットの強化が有用であることを示した。 しかし、改善には一定の状況が必要であり、実際の画像の数に匹敵するものではなかった。 本研究では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。 我々は,dgmの合成画像を用いた場合,コンテンツギャップが性能低下の大部分を占めると仮定し,下流タスクでより効果的に利用するための戦略を提案する。 複数のデータセットに対する広範囲な実験では、合成のみ(合成から現実への)トレーニングと、実データと合成データの混合(データ拡張)のトレーニングの両方において、下流分類タスクのベースラインよりも優れています。

Recent deep generative models (DGMs) such as generative adversarial networks (GANs) and diffusion probabilistic models (DPMs) have shown their impressive ability in generating high-fidelity photorealistic images. Although looking appealing to human eyes, training a model on purely synthetic images for downstream image processing tasks like image classification often results in an undesired performance drop compared to training on real data. Previous works have demonstrated that enhancing a real dataset with synthetic images from DGMs can be beneficial. However, the improvements were subjected to certain circumstances and yet were not comparable to adding the same number of real images. In this work, we propose a new taxonomy to describe factors contributing to this commonly observed phenomenon and investigate it on the popular CIFAR-10 dataset. We hypothesize that the Content Gap accounts for a large portion of the performance drop when using synthetic images from DGM and propose strategies to better utilize them in downstream tasks. Extensive experiments on multiple datasets showcase that our method outperforms baselines on downstream classification tasks both in case of training on synthetic only (Synthetic-to-Real) and training on a mix of real and synthetic data (Data Augmentation), particularly in the data-scarce scenario.
翻訳日:2023-11-08 15:35:29 公開日:2023-11-07
# Cup Curriculum: モデル容量に関するカリキュラム学習

Cup Curriculum: Curriculum Learning on Model Capacity ( http://arxiv.org/abs/2311.03956v1 )

ライセンス: Link先を確認
Luca Scharr and Vanessa Toborek(参考訳) カリキュラム学習(CL)は,特定のタスクにおける学習者の能力向上を目的として,専門的な学習戦略を適用する。 この戦略はデータセット、タスク、またはモデルに重点を置いている。 自然言語処理のモデルキャパシティにclを適用する可能性を分析する作業はほとんどない。 このギャップを埋めるために、カップカリキュラムを提案する。 トレーニングの第1フェーズでは、モデルのキャパシティを低減するために、反復等級プルーニングのバリエーションを使用します。 これらの重みは第2フェーズで再導入され、トレーニングイテレーションでカップ型の曲線を示すことができる。 我々は,cupカリキュラムの異なる戦略を実証的に評価し,オーバーフィッティングに対する高いレジリエンスを示しながら,早期停止を確実に上回ることを示す。

Curriculum learning (CL) aims to increase the performance of a learner on a given task by applying a specialized learning strategy. This strategy focuses on either the dataset, the task, or the model. There is little to no work analysing the possibilities to apply CL on the model capacity in natural language processing. To close this gap, we propose the cup curriculum. In a first phase of training we use a variation of iterative magnitude pruning to reduce model capacity. These weights are reintroduced in a second phase, resulting in the model capacity to show a cup-shaped curve over the training iterations. We empirically evaluate different strategies of the cup curriculum and show that it outperforms early stopping reliably while exhibiting a high resilience to overfitting.
翻訳日:2023-11-08 15:35:05 公開日:2023-11-07
# 弾性情報ボトルネック

Elastic Information Bottleneck ( http://arxiv.org/abs/2311.03955v1 )

ライセンス: Link先を確認
Yuyan Ni, Yanyan Lan, Ao Liu, Zhiming Ma(参考訳) 情報ボトルネック(Information bottleneck)は、ラベルに関する情報をできるだけ多く保存する最大圧縮表現を学習することを目的とした、表現学習の情報理論の原則である。 この原理の下では、情報ボトルネック(IB)と決定論的情報ボトルネック(DIB)という2つの異なる手法が提案されており、ディープラーニングアルゴリズムの表現機構を説明する上で大きな進歩を遂げている。 しかし、これらの理論的および経験的成功は、トレーニングデータとテストデータが同じ分布から引き出されるという仮定でのみ有効であり、多くの実世界のアプリケーションでは明らかに満足できない。 本稿では,移動学習シナリオにおけるそれらの一般化能力について検討し,ターゲット誤差を3つのコンポーネント,すなわちソース経験誤差,ソース一般化ギャップ(SG),表現の不一致(RD)に分解する。 IB と DIB を比較すると、DIB の SG 境界は IB よりも強く、DIB の RD は IB よりも大きいことを示す。 したがって、どちらがよいかを知ることは困難である。 SGとRDのトレードオフのバランスをとるために、IBとDIBの正規化器を補間する弾性情報ボトルネック(EIB)を提案し、IBフレームワーク内のParetoフロンティアを保証する。 さらにシミュレーションや実データ実験により、eibはibやdibよりもドメイン適応性が向上し、理論の正しさが検証できることを示した。

Information bottleneck is an information-theoretic principle of representation learning that aims to learn a maximally compressed representation that preserves as much information about labels as possible. Under this principle, two different methods have been proposed, i.e., information bottleneck (IB) and deterministic information bottleneck (DIB), and have gained significant progress in explaining the representation mechanisms of deep learning algorithms. However, these theoretical and empirical successes are only valid with the assumption that training and test data are drawn from the same distribution, which is clearly not satisfied in many real-world applications. In this paper, we study their generalization abilities within a transfer learning scenario, where the target error could be decomposed into three components, i.e., source empirical error, source generalization gap (SG), and representation discrepancy (RD). Comparing IB and DIB on these terms, we prove that DIB's SG bound is tighter than IB's while DIB's RD is larger than IB's. Therefore, it is difficult to tell which one is better. To balance the trade-off between SG and the RD, we propose an elastic information bottleneck (EIB) to interpolate between the IB and DIB regularizers, which guarantees a Pareto frontier within the IB framework. Additionally, simulations and real data experiments show that EIB has the ability to achieve better domain adaptation results than IB and DIB, which validates the correctness of our theories.
翻訳日:2023-11-08 15:34:52 公開日:2023-11-07
# ダイヤモンド中の窒素空孔中心スピンとグレープダイマーのカップリング

Coupling nitrogen-vacancy centre spins in diamond to a grape dimer ( http://arxiv.org/abs/2311.03951v1 )

ライセンス: Link先を確認
Ali Fawaz, Sarath Raman Nair, and Thomas Volz(参考訳) マイクロ波(mw)オーブンの内部に照射された2つのブドウは通常、一連の火花を生成し、暴力的なプラズマを点火する。 プラズマの根本原因は、水性誘電体二量体におけるモルフォロジー依存共鳴(MDR)の形成によるものとされ、それらの間に強いエバネッセンスMWホットスポットが生じる。 これまでの実験では、プラズマ点火の背後にある駆動力として磁場の電場成分に焦点を当てていた。 ここでは、ナノダイアモンド(ND)中の窒素空孔(NV)スピンのアンサンブルをダイマーMW磁場の磁場成分に結合する。 光磁気共鳴 (ODMR) を用いて, ブドウ二量体間に形成されるMW磁場ホットスポットへのNVスピンの効率的な結合を実証した。 ODMR測定は、NDのNVスピンを銅線のエバネッセントMWフィールドに結合することにより行われる。 NDの周囲に一対のブドウを配置し、NDの位置を期待する磁場ホットスポットに合わせると、ブドウを含まない測定と比較してODMRコントラストが2倍以上向上することがわかった。 有限要素モデルを用いて, ブドウ二量体間のMWホットスポット形成によるフィールドエンハンスメントの実験的観察を行った。 本研究は, 従来のグレープダイマー共振器ジオメトリーの理解だけでなく, 量子技術のための新しいMW共振器の設計を探求するための新たな道を開いた。

Two grapes irradiated inside a microwave (MW) oven typically produce a series of sparks and can ignite a violent plasma. The underlying cause of the plasma has been attributed to the formation of morphological-dependent resonances (MDRs) in the aqueous dielectric dimers that lead to the generation of a strong evanescent MW hotspot between them. Previous experiments have focused on the electric-field component of the field as the driving force behind the plasma ignition. Here we couple an ensemble of nitrogen-vacancy (NV) spins in nanodiamonds (NDs) to the magnetic-field component of the dimer MW field. We demonstrate the efficient coupling of the NV spins to the MW magnetic-field hotspot formed between the grape dimers using Optically Detected Magnetic Resonance (ODMR). The ODMR measurements are performed by coupling NV spins in NDs to the evanescent MW fields of a copper wire. When placing a pair of grapes around the NDs and matching the ND position with the expected magnetic-field hotspot, we see an enhancement in the ODMR contrast by more than a factor of two compared to the measurements without grapes. Using finite-element modelling, we attribute our experimental observation of the field enhancement to the MW hotspot formation between the grape dimers. The present study not only validates previous work on understanding grape-dimer resonator geometries, but it also opens up a new avenue for exploring novel MW resonator designs for quantum technologies.
翻訳日:2023-11-08 15:34:25 公開日:2023-11-07
# SU(N)上の量子信号処理 : Shor-like仮定による多項式変換の指数的高速化

Quantum signal processing over SU(N): exponential speed-up for polynomial transformations under Shor-like assumptions ( http://arxiv.org/abs/2311.03949v1 )

ライセンス: Link先を確認
Lorenzo Laneve(参考訳) 量子信号処理(QSP)と量子特異値変換(QSVT)は、量子アルゴリズムの開発を単純化するための重要なツールである。 これらの手法は、ブロックエンコード行列の固有値または特異値の多項式変換を利用し、1つの制御量子ビットを用いて達成する。 しかし、多項式変換の度合いはQSPプロトコルの長さと線形にスケールする。 本稿では,複数の制御キュービットを導入することで,元のqsp ansatzを拡張した。 行列の2つの変換のパワーは、ショアの因子分解アルゴリズムのように容易に実装できると仮定すると、制御キュービットの数で指数関数的にスケールする次数で多項式変換を実現できる。 本研究は、元の位相推定回路と離散対数を例示として、この手法で実装可能な多項式の部分的特徴付けを提供することを目的としている。

Quantum signal processing (QSP) and the quantum singular value transformation (QSVT) are pivotal tools for simplifying the development of quantum algorithms. These techniques leverage polynomial transformations on the eigenvalues or singular values of block-encoded matrices, achieved with the use of just one control qubit. However, the degree of the polynomial transformations scales linearly with the length of the QSP protocol. In this work, we extend the original QSP ansatz by introducing multiple control qubits. Assuming that powers of two of the matrix to transform are easily implementable - as in Shor's factoring algorithm - we can achieve polynomial transformations with degrees that scale exponentially with the number of control qubits. This work aims to provide a partial characterization of the polynomials that can be implemented using this approach, with the original phase estimation circuit and discrete logarithm serving as illustrative examples.
翻訳日:2023-11-08 15:33:58 公開日:2023-11-07
# 画像強調のためのCLIPガイド画像知覚プロンプト学習

CLIP Guided Image-perceptive Prompt Learning for Image Enhancement ( http://arxiv.org/abs/2311.03943v1 )

ライセンス: Link先を確認
Zinuo Li, Qiuhong Ke, Weiwen Chen(参考訳) 画像強調はコンピュータビジョンと画像処理の分野で重要な研究領域である。 近年,ルックアップテーブル(lut)が有効なツールであることが証明され,画像強調のための学習ベースの手法が数多く開発されている。 本稿では,CLIP(Contrastive Language- Image Pre-Training)ガイドプロンプト学習の可能性を探り,画像強調のためのCLIP-LUTという単純な構造を提案する。 CLIPの事前知識は、劣化した画像の品質を効果的に識別し、信頼性の高いガイダンスを提供する。 具体的には、まずCLIPモデルを用いて、オリジナル画像とターゲット画像を区別するイメージ知覚プロンプトを学習する一方、単純なベースラインを組み込んで、3種類のLUTの重みを拡張ネットワークとして予測することで、非常に単純なネットワークを導入する。 得られたプロンプトを用いて、損失関数のようなエンハンスメントネットワークを操り、モデルの性能を向上させる。 簡単な方法とCLIPを組み合わせることで,満足な結果が得られることを示す。

Image enhancement is a significant research area in the fields of computer vision and image processing. In recent years, many learning-based methods for image enhancement have been developed, where the Look-up-table (LUT) has proven to be an effective tool. In this paper, we delve into the potential of Contrastive Language-Image Pre-Training (CLIP) Guided Prompt Learning, proposing a simple structure called CLIP-LUT for image enhancement. We found that the prior knowledge of CLIP can effectively discern the quality of degraded images, which can provide reliable guidance. To be specific, We initially learn image-perceptive prompts to distinguish between original and target images using CLIP model, in the meanwhile, we introduce a very simple network by incorporating a simple baseline to predict the weights of three different LUT as enhancement network. The obtained prompts are used to steer the enhancement network like a loss function and improve the performance of model. We demonstrate that by simply combining a straightforward method with CLIP, we can obtain satisfactory results.
翻訳日:2023-11-08 15:33:44 公開日:2023-11-07
# Music Meta Ontology: 音楽メタデータの相互運用性のための柔軟なセマンティックモデル

The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata ( http://arxiv.org/abs/2311.03942v1 )

ライセンス: Link先を確認
Jacopo de Berardinis, Valentina Anita Carriero, Albert Mero\~no-Pe\~nuela, Andrea Poltronieri, Valentina Presutti(参考訳) 音楽メタデータのセマンティック記述は、情報検索と知識発見のために調整、統合、アクセス可能な音楽データセットを作成するための重要な要件である。 それにもかかわらず、様々なジャンル、スタイル、時代から生じる音楽概念の複雑さにより、様々な利害関係者(音楽学者、司書、データエンジニアなど)を収容するリンガ・フランカの利益を享受するためである。 この移行を開始するために、アーティスト、作曲、パフォーマンス、録音、リンクに関連する音楽メタデータを記述するリッチで柔軟なセマンティックモデルであるMusic Meta Ontologyを導入する。 データエンジニアリングの極端な設計方法論とベストプラクティスに従い、様々な利害関係者の視点と要求をモデルの設計に反映するとともに、オントロジーデザインパターンを活用し、さまざまなレベルの出所(要求、リンク)を計算します。 Music Metaの主な機能を提示した後、モデルの最初の評価、他のスキーマ(Music Ontology, DOREMUS, Wikidata)へのアライメント、データ変換のサポートを提供する。

The semantic description of music metadata is a key requirement for the creation of music datasets that can be aligned, integrated, and accessed for information retrieval and knowledge discovery. It is nonetheless an open challenge due to the complexity of musical concepts arising from different genres, styles, and periods -- standing to benefit from a lingua franca to accommodate various stakeholders (musicologists, librarians, data engineers, etc.). To initiate this transition, we introduce the Music Meta ontology, a rich and flexible semantic model to describe music metadata related to artists, compositions, performances, recordings, and links. We follow eXtreme Design methodologies and best practices for data engineering, to reflect the perspectives and the requirements of various stakeholders into the design of the model, while leveraging ontology design patterns and accounting for provenance at different levels (claims, links). After presenting the main features of Music Meta, we provide a first evaluation of the model, alignments to other schema (Music Ontology, DOREMUS, Wikidata), and support for data transformation.
翻訳日:2023-11-08 15:33:25 公開日:2023-11-07
# 確率微分方程式に基づく児童母系におけるY演算子に基づく強化学習の性能向上の一手法

A Method to Improve the Performance of Reinforcement Learning Based on the Y Operator for a Class of Stochastic Differential Equation-Based Child-Mother Systems ( http://arxiv.org/abs/2311.04014v1 )

ライセンス: Link先を確認
Cheng Yin, Yi Chen(参考訳) 本稿では,確率微分方程式(SDEs)に支配されるシステムに対するアクタ・クライト(AC)に基づく強化学習における制御性能を高めるために,Y演算子と呼ばれる新しい演算子を提案する。 The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.

This paper introduces a novel operator, termed the Y operator, to elevate control performance in Actor-Critic(AC) based reinforcement learning for systems governed by stochastic differential equations(SDEs). The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network's loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system's SDEs.A rigorous mathematical proof confirms the operator's validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.
翻訳日:2023-11-08 15:26:39 公開日:2023-11-07
# AGNES: ディープニューラルネットワークセキュリティのための抽象化誘導フレームワーク

AGNES: Abstraction-guided Framework for Deep Neural Networks Security ( http://arxiv.org/abs/2311.04009v1 )

ライセンス: Link先を確認
Akshay Dhonthi, Marcello Eiermann, Ernst Moritz Hahn, Vahid Hashemi(参考訳) ディープニューラルネットワーク(DNN)は特に安全クリティカルな領域で広く普及している。 1つの顕著な応用は、自動運転における画像認識であり、安全な運転には、交通標識などの物体の正確な分類が不可欠である。 残念なことに、DNNはバックドアに近づきやすいため、正しい分類とは無関係な画像の属性に集中している。 バックドアは、トレーニング中にdnnに統合され、悪意のある意図(操作されたトレーニングプロセスのような、黄色のステッカーが常に停止標識として認識される交通標識につながるため)や意図しない(バイアスのあるトレーニングデータのために、あらゆる交通標識が動物横断と認識される田舎の背景など)。 本稿では,画像認識のためのDNNのバックドア検出ツールであるAGNESを紹介する。 我々はAGNESを基盤とする原則的アプローチについて議論する。 その後,本手法は複数のケーススタディにおいて,多くの最先端手法よりも優れた性能を示した。

Deep Neural Networks (DNNs) are becoming widespread, particularly in safety-critical areas. One prominent application is image recognition in autonomous driving, where the correct classification of objects, such as traffic signs, is essential for safe driving. Unfortunately, DNNs are prone to backdoors, meaning that they concentrate on attributes of the image that should be irrelevant for their correct classification. Backdoors are integrated into a DNN during training, either with malicious intent (such as a manipulated training process, because of which a yellow sticker always leads to a traffic sign being recognised as a stop sign) or unintentional (such as a rural background leading to any traffic sign being recognised as animal crossing, because of biased training data). In this paper, we introduce AGNES, a tool to detect backdoors in DNNs for image recognition. We discuss the principle approach on which AGNES is based. Afterwards, we show that our tool performs better than many state-of-the-art methods for multiple relevant case studies.
翻訳日:2023-11-08 15:26:25 公開日:2023-11-07
# 縦・時空間生存データのための関節モデル

Joint model for longitudinal and spatio-temporal survival data ( http://arxiv.org/abs/2311.04008v1 )

ライセンス: Link先を確認
Victor Medina-Olivares, Finn Lindgren, Raffaella Calabrese, Jonathan Crook(参考訳) 信用リスク分析では、固定的および時間的共変量を持つ生存モデルが借主の時間-イベントを予測するために広く使われている。 時変ドライバが内因性である場合、生存時間と内因性共変量の進化を共同でモデル化することは最も適切なアプローチであり、縦断的および生存的データのジョイントモデルとしても知られている。 時間的要素に加えて、空間的クラスタリングとその時間的変化を考慮して、借主の地理的情報を含む際の信用リスクモデルを強化することができる。 時空間効果とその相互作用を捉えるための時空間関節モデル(stjm)を提案する。 このベイズ階層継手モデルは、特定の時間に同じ地域に位置する借主の間で観測されていない不均一性の生存効果を推定する。 大規模データセットのSTJMモデルを推定するために,Integrated Nested Laplace Approximation (INLA)法を検討する。 57,258人の米国住宅ローン借入者が250万人以上の観察を行った場合,STJMを適用して全額前払いの時期を予測した。 実験結果から,空間効果を含むと継手モデルの性能が一貫して向上することが示された。 しかし、時空間的相互作用が加わった場合、利得は決定的でない。

In credit risk analysis, survival models with fixed and time-varying covariates are widely used to predict a borrower's time-to-event. When the time-varying drivers are endogenous, modelling jointly the evolution of the survival time and the endogenous covariates is the most appropriate approach, also known as the joint model for longitudinal and survival data. In addition to the temporal component, credit risk models can be enhanced when including borrowers' geographical information by considering spatial clustering and its variation over time. We propose the Spatio-Temporal Joint Model (STJM) to capture spatial and temporal effects and their interaction. This Bayesian hierarchical joint model reckons the survival effect of unobserved heterogeneity among borrowers located in the same region at a particular time. To estimate the STJM model for large datasets, we consider the Integrated Nested Laplace Approximation (INLA) methodology. We apply the STJM to predict the time to full prepayment on a large dataset of 57,258 US mortgage borrowers with more than 2.5 million observations. Empirical results indicate that including spatial effects consistently improves the performance of the joint model. However, the gains are less definitive when we additionally include spatio-temporal interactions.
翻訳日:2023-11-08 15:26:07 公開日:2023-11-07
# エネルギー予測型スマートメータデータセット--先進コンペの分析と今後の展開

The Energy Prediction Smart-Meter Dataset: Analysis of Previous Competitions and Beyond ( http://arxiv.org/abs/2311.04007v1 )

ライセンス: Link先を確認
Direnc Pekaslan, Jose Maria Alonso-Moral, Kasun Bandara, Christoph Bergmeir, Juan Bernabe-Moreno, Robert Eigenmann, Nils Einecke, Selvi Ergen, Rakshitha Godahewa, Hansika Hewamalage, Jesus Lago, Steffen Limmer, Sven Rebhan, Boris Rabinovich, Dilini Rajapasksha, Heda Song, Christian Wagner, Wenlong Wu, Luis Magdalena, Isaac Triguero(参考訳) 本稿では,実世界のスマートメータデータセットについて述べるとともに,ieee computing intelligence society (ieee-cis) technical challenge on energy prediction from smartmeter data in 2020 (ep) と,それに続く2021年のieee international conference on fuzzy systems (fuzz-ieee) (xep) の2つの主要なコンペティションを中心に,エネルギー予測の技術的課題から得られたソリューションの分析を行う。 これらの競争は、正確なエネルギー消費予測と基礎となる要因を理解する上での解釈可能性の重要性に焦点を当てている。 課題は、過去のスマートメータデータに制限のある正確な請求問題に対処するため、家計の月次および年次消費量を予測することにある。 データセットは3,248個のスマートメーターで構成され、データ可用性は最低1ヶ月から1年間まで様々である。 本稿では,実世界のスマートメータデータに関する課題の課題,解決策,分析,家計レベルでの正確な予測,解釈可能性評価のための評価基準の導入について述べる。 さらに,本論文では,家庭レベルでのエネルギー分散とパターン検出の機会,最適化請求におけるエネルギー駆動要因の伝達の重要性,責任あるaiとデータのプライバシ配慮の重要性を強調する。 これらの側面は、エネルギー消費予測における幅広い意味と潜在的な進歩に関する洞察を与える。 総合的に、これらのコンペティションは住宅エネルギー研究のためのデータセットを提供し、正確な予測、解釈可能性の向上、エネルギーの分散、需要対応プログラム、行動介入といった様々な側面の議論に向けた進展を促進する触媒となる。

This paper presents the real-world smart-meter dataset and offers an analysis of solutions derived from the Energy Prediction Technical Challenges, focusing primarily on two key competitions: the IEEE Computational Intelligence Society (IEEE-CIS) Technical Challenge on Energy Prediction from Smart Meter data in 2020 (named EP) and its follow-up challenge at the IEEE International Conference on Fuzzy Systems (FUZZ-IEEE) in 2021 (named as XEP). These competitions focus on accurate energy consumption forecasting and the importance of interpretability in understanding the underlying factors. The challenge aims to predict monthly and yearly estimated consumption for households, addressing the accurate billing problem with limited historical smart meter data. The dataset comprises 3,248 smart meters, with varying data availability ranging from a minimum of one month to a year. This paper delves into the challenges, solutions and analysing issues related to the provided real-world smart meter data, developing accurate predictions at the household level, and introducing evaluation criteria for assessing interpretability. Additionally, this paper discusses aspects beyond the competitions: opportunities for energy disaggregation and pattern detection applications at the household level, significance of communicating energy-driven factors for optimised billing, and emphasising the importance of responsible AI and data privacy considerations. These aspects provide insights into the broader implications and potential advancements in energy consumption prediction. Overall, these competitions provide a dataset for residential energy research and serve as a catalyst for exploring accurate forecasting, enhancing interpretability, and driving progress towards the discussion of various aspects such as energy disaggregation, demand response programs or behavioural interventions.
翻訳日:2023-11-08 15:25:47 公開日:2023-11-07
# ChatGPTを用いたテーマ分析における人間とAIのコラボレーション--ユーザスタディとデザインレコメンデーション

Human-AI Collaboration in Thematic Analysis using ChatGPT: A User Study and Design Recommendations ( http://arxiv.org/abs/2311.03999v1 )

ライセンス: Link先を確認
Lixiang Yan, Vanessa Echeverria, Gloria Fernandez Nieto, Yueqiao Jin, Zachari Swiecki, Linxuan Zhao, Dragan Ga\v{s}evi\'c, Roberto Martinez-Maldonado(参考訳) ジェネレーティブ人工知能(GenAI)は、質的研究において人間とAIのコラボレーションを促進する有望な可能性を提供する。 しかし、既存の研究は従来の機械学習とパターンベースのAIシステムに焦点を当てており、研究者が定性的な研究でどのようにGenAIと相互作用するかはほとんど分かっていない。 この研究は、GenAI、特にChatGPTとのコラボレーションに対する研究者の認識を掘り下げている。 10人の質的研究者によるユーザ調査を通じて、chatgptはテーマ分析の貴重な協力者であり、コーディング効率の向上、初期データ探索の支援、詳細な定量的洞察の提供、非ネイティブ話者や非専門家の理解を支援するものだと考えました。 しかし、信頼性と正確性、信頼性と一貫性、文脈的理解の制限、研究コミュニティ内で広く受け入れられることへの懸念が続いている。 我々は,効果的な人間とAIのコラボレーションを促進するために,実行可能な5つの設計勧告に貢献する。 これには、透過的な説明機構の導入、インターフェースと統合機能の強化、コンテキスト理解とカスタマイズの優先順位付け、人間とAIのフィードバックループと反復機能の埋め込み、バリデーションメカニズムによる信頼強化などが含まれる。

Generative artificial intelligence (GenAI) offers promising potential for advancing human-AI collaboration in qualitative research. However, existing works focused on conventional machine-learning and pattern-based AI systems, and little is known about how researchers interact with GenAI in qualitative research. This work delves into researchers' perceptions of their collaboration with GenAI, specifically ChatGPT. Through a user study involving ten qualitative researchers, we found ChatGPT to be a valuable collaborator for thematic analysis, enhancing coding efficiency, aiding initial data exploration, offering granular quantitative insights, and assisting comprehension for non-native speakers and non-experts. Yet, concerns about its trustworthiness and accuracy, reliability and consistency, limited contextual understanding, and broader acceptance within the research community persist. We contribute five actionable design recommendations to foster effective human-AI collaboration. These include incorporating transparent explanatory mechanisms, enhancing interface and integration capabilities, prioritising contextual understanding and customisation, embedding human-AI feedback loops and iterative functionality, and strengthening trust through validation mechanisms.
翻訳日:2023-11-08 15:24:50 公開日:2023-11-07
# ピアレビュー作成のためのjiu-jitsu argumentationの検討

Exploring Jiu-Jitsu Argumentation for Writing Peer Review Rebuttals ( http://arxiv.org/abs/2311.03998v1 )

ライセンス: Link先を確認
Sukannya Purkayastha, Anne Lauscher, Iryna Gurevych(参考訳) 多くの議論領域において、人々の議論はいわゆる態度の根源、すなわち根底にある信念や世界観とそれに対応する態度のテーマによって引き起こされる。 これらの潜伏したドライバーの強みを考えると、心理学における最近の研究は、表面レベルの推論(例えば、与えられた前提を偽造する)に直接対抗するのではなく、ジウジツの「ソフト」戦闘システム(Hornsey and Fielding, 2017)にインスパイアされた議論スタイルに従うべきであることを示唆している。 本研究は,新しい態度課題とテーマ主導の反動生成を提案することにより,ピアレビューのためのjiu-jitsuの議論を初めて検討する。 この目的のために我々は,態度の根源,態度のテーマ,正統的な反感を伴うピアレビューにおいて,既存の談話構造データセットを充実させた。 このプロセスを容易にするために、既存のアノテーション概念をピアレビューのドメイン(例えば、レビュー文が関連するアスペクト)から再キャストし、ドメイン固有のモデルをトレーニングします。 次に,エンド・ツー・エンドの姿勢とテーマガイド付きリバッタル生成と2つのサブタスクのための新しいデータセットをベンチマークし,強固なリバッタル生成戦略を提案する。

In many domains of argumentation, people's arguments are driven by so-called attitude roots, i.e., underlying beliefs and world views, and their corresponding attitude themes. Given the strength of these latent drivers of arguments, recent work in psychology suggests that instead of directly countering surface-level reasoning (e.g., falsifying given premises), one should follow an argumentation style inspired by the Jiu-Jitsu 'soft' combat system (Hornsey and Fielding, 2017): first, identify an arguer's attitude roots and themes, and then choose a prototypical rebuttal that is aligned with those drivers instead of invalidating those. In this work, we are the first to explore Jiu-Jitsu argumentation for peer review by proposing the novel task of attitude and theme-guided rebuttal generation. To this end, we enrich an existing dataset for discourse structure in peer reviews with attitude roots, attitude themes, and canonical rebuttals. To facilitate this process, we recast established annotation concepts from the domain of peer reviews (e.g., aspects a review sentence is relating to) and train domain-specific models. We then propose strong rebuttal generation strategies, which we benchmark on our novel dataset for the task of end-to-end attitude and theme-guided rebuttal generation and two subtasks.
翻訳日:2023-11-08 15:24:19 公開日:2023-11-07
# 表データを用いたニューロンネットワークの初期化スキーマ

An Initialization Schema for Neuronal Networks on Tabular Data ( http://arxiv.org/abs/2311.03996v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 現在、多くの現代アプリケーションは異種な表データを必要とするが、回帰や分類の面では依然として困難な課題である。 このタスクにニューラルネットワークを適用するために、多くのアプローチが提案されているが、それでも意思決定木の強化と詰め込みは、このタスクに最適な方法である。 本稿では,二項初期化ニューラルネットワークを表データ上で効果的に使用できることを示す。 提案手法はニューラルネットワークの最初の隠蔽層を初期化するための単純だが効果的なアプローチを示す。 また、この初期化スキーマは、バッチエントリに勾配マスキングを追加し、ニューラルネットワークの最後の層に対する二項初期化を使用することで、アンサンブルを共同で訓練することができることを示す。 本研究の目的は, アンサンブルトレーニングに適応するために, ヒンジ2次損失とソフトマックス損失を修正したことである。 我々は、複数のパブリックデータセットに対するアプローチを評価し、他のニューラルネットワークベースのアプローチと比較して、パフォーマンスの向上を示す。 さらに,グラフデータへのニューラルネットワークの適用性向上に向けた,我々のアプローチの限界とさらなる研究の可能性について論じる。 リンク: https://es-cloud.cs.uni-tuebingen.de/8e2ab8c3fdd444e1a135/? p=%2FinitializationNeuronalNetworksTabularData&mode=list

Nowadays, many modern applications require heterogeneous tabular data, which is still a challenging task in terms of regression and classification. Many approaches have been proposed to adapt neural networks for this task, but still, boosting and bagging of decision trees are the best-performing methods for this task. In this paper, we show that a binomial initialized neural network can be used effectively on tabular data. The proposed approach shows a simple but effective approach for initializing the first hidden layer in neural networks. We also show that this initializing schema can be used to jointly train ensembles by adding gradient masking to batch entries and using the binomial initialization for the last layer in a neural network. For this purpose, we modified the hinge binary loss and the soft max loss to make them applicable for joint ensemble training. We evaluate our approach on multiple public datasets and showcase the improved performance compared to other neural network-based approaches. In addition, we discuss the limitations and possible further research of our approach for improving the applicability of neural networks to tabular data. Link: https://es-cloud.cs.uni-tuebingen.de/d/8e2ab8c3fdd444e1a135/?p=%2FInitializationNeuronalNetworksTabularData&mode=list
翻訳日:2023-11-08 15:23:36 公開日:2023-11-07
# 長距離量子ネットワークのためのテレコムバンド量子ドット技術

Telecom band quantum dot technologies for long-distance quantum networks ( http://arxiv.org/abs/2311.03993v1 )

ライセンス: Link先を確認
Ying Yu, Shunfa Liu, Chang-Min Lee, Peter Michler, Stephan Reitzenstein, Kartik Srinivasan, Edo Waks, Jin Liu(参考訳) 将来の量子インターネットは、異なる量子ノードを光量子状態を介してリンクすることで、世界中の量子ビット(量子ビット)を生成、配布、保存、処理することが期待されている。 長距離動作を容易にするために、長距離量子ネットワークのビルディングブロックである量子リピータは、低損失ファイバネットワークと光学通信の確立した技術の両方を活用するために、テレコム波長で動作する必要がある。 半導体量子ドット(QD)は、量子リピータにおいて、量子光源やスピン光子インターフェースなどの重要な要素として例外的な性能を示してきたが、近赤外線(NIR)方式でのみである。 したがって、ファイバネットワークに基づく将来の固体量子インターネットにおいては、高性能な通信帯域qdデバイスの開発が極めて望ましい。 本稿では,量子ネットワーク用通信用oバンドおよびcバンドに放出されるエピタキシャルqdデバイスに関する物理と技術開発について,直接通信用高次エピタキシャル成長と通信帯域ダウン変換用量子周波数変換(qfc)を用いて述べる。 また,ハイブリッド統合を活用して,性能の向上と機能拡張を図った通信QDデバイスの実現に向けた課題と機会についても論じる。

A future quantum internet is expected to generate, distribute, store and process quantum bits (qubits) over the globe by linking different quantum nodes via quantum states of light. To facilitate the long-haul operations, quantum repeaters, the building blocks for a long-distance quantum network, have to be operated in the telecom wavelengths to take advantage of both the low-loss fiber network and the well-established technologies for optical communications. Semiconductors quantum dots (QDs) so far have exhibited exceptional performances as key elements, i.e., quantum light sources and spin-photon interfaces, for quantum repeaters, but only in the near-infrared (NIR) regime. Therefore, the development of high-performance telecom-band QD devices is highly desirable for a future solid-state quantum internet based on fiber networks. In this review, we present the physics and the technological developments towards epitaxial QD devices emitting at the telecom O- and C-bands for quantum networks by using advanced epitaxial growth for direct telecom emission, and quantum frequency conversion (QFC) for telecom-band down-conversion. We also discuss the challenges and opportunities in the future to realize telecom QD devices with improved performances and expanded functionalities by taking advantage of hybrid integrations.
翻訳日:2023-11-08 15:22:57 公開日:2023-11-07
# bandit pareto set identification: the fixed budget setting

Bandit Pareto Set Identification: the Fixed Budget Setting ( http://arxiv.org/abs/2311.03992v1 )

ライセンス: Link先を確認
Cyrille Kone, Emilie Kaufmann, Laura Richert(参考訳) マルチアームバンディットモデルにおける多目的純粋探索問題について検討する。 各アームは未知の多変量分布に関連付けられており、その目的は平均が他の分布よりも一様でない分布、すなわちパレート最適集合を特定することである。 我々は, \emph{fixed budget} pareto set identificationタスクのための最初のアルゴリズムを提案し,解析する。 本稿では,Pareto セットの内外における '`hardness to classification'' の各アームの注意深い推定と,汎用的な除去手法を組み合わせたアルゴリズムである Empirical Gap Elimination を提案する。 EGE-SR と EGE-SH の2つの特定の例は,情報理論的下界が支持する指数で,予算で指数関数的に高速に減衰する誤差の確率を持つことを示す。 これらの知見を実世界および合成データセットを用いた経験的研究で補完し,アルゴリズムの優れた性能を示す。

We study a multi-objective pure exploration problem in a multi-armed bandit model. Each arm is associated to an unknown multi-variate distribution and the goal is to identify the distributions whose mean is not uniformly worse than that of another distribution: the Pareto optimal set. We propose and analyze the first algorithms for the \emph{fixed budget} Pareto Set Identification task. We propose Empirical Gap Elimination, a family of algorithms combining a careful estimation of the ``hardness to classify'' each arm in or out of the Pareto set with a generic elimination scheme. We prove that two particular instances, EGE-SR and EGE-SH, have a probability of error that decays exponentially fast with the budget, with an exponent supported by an information theoretic lower-bound. We complement these findings with an empirical study using real-world and synthetic datasets, which showcase the good performance of our algorithms.
翻訳日:2023-11-08 15:22:29 公開日:2023-11-07
# 学習因果予測

Learned Causal Method Prediction ( http://arxiv.org/abs/2311.03989v1 )

ライセンス: Link先を確認
Shantanu Gupta, Cheng Zhang, Agrin Hilmkil(参考訳) 因果的疑問に対しては、与えられたデータセットに使用する因果的推論手法を効率的に決定することが重要である。 因果的手法は一般に複雑で検証が難しい仮定に頼っているため,基礎的真理因果的量を観測できないため,クロスバリデーションは適用できないため,本研究では,与えられたデータセットの最良の方法を予測するためのフレームワークであるCausal Method Predictor(CAMP)を提案する。 この目的のために、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。 次に、因果推論に関連するデータセットの仮定を中心とした自己指導型事前学習目標を定式化することにより、コストのかかるラベル付きデータの必要性を大幅に低減し、トレーニング効率を向上させる。 我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学ぶ。 実験では,因果発見のための手法予測に焦点をあてた。 CAMPは、任意の候補メソッドを選択し、半合成および実世界のベンチマークを目にしないような、有望な一般化を示す。

For a given causal question, it is important to efficiently decide which causal inference method to use for a given dataset. This is challenging because causal methods typically rely on complex and difficult-to-verify assumptions, and cross-validation is not applicable since ground truth causal quantities are unobserved.In this work, we propose CAusal Method Predictor (CAMP), a framework for predicting the best method for a given dataset. To this end, we generate datasets from a diverse set of synthetic causal models, score the candidate methods, and train a model to directly predict the highest-scoring method for that dataset. Next, by formulating a self-supervised pre-training objective centered on dataset assumptions relevant for causal inference, we significantly reduce the need for costly labeled data and enhance training efficiency. Our strategy learns to map implicit dataset properties to the best method in a data-driven manner. In our experiments, we focus on method prediction for causal discovery. CAMP outperforms selecting any individual candidate method and demonstrates promising generalization to unseen semi-synthetic and real-world benchmarks.
翻訳日:2023-11-08 15:22:07 公開日:2023-11-07
# マルチモーダル拡張現実の応用は、研究・医学におけるバイオメディカル画像解析に有用である

Multimodal extended reality applications offer benefits for volumetric biomedical image analysis in research and medicine ( http://arxiv.org/abs/2311.03986v1 )

ライセンス: Link先を確認
Kathrin Krieger, Jan Egger, Jens Kleesiek, Matthias Gunzer, Jianxu Chen(参考訳) 高解像度ボリューム画像からの3Dデータは、現代医学における診断と治療の中心的な資源である。 AIの急速な開発は画像と分析を強化するが、一般的に使われている可視化手法はずっと遅れている。 近年の研究では、視覚深度知覚と触覚を持つ3次元画像の知覚に拡張現実(XR)を用いている。 容積データ検査には非制限タッチが有用であるが,XRとの自然な触覚相互作用の実装は困難である。 研究課題は、反復的な触覚相互作用を持つマルチモーダルXRアプリケーションが価値を付加し、追求すべきかどうかである。 ある研究では、研究と医学におけるバイオメディカルイメージの24の探索を行った。 触覚グローブを用いたマルチモーダルバーチャルリアリティ(vr)プロトタイプ、vrコントローラを用いたシンプルなvrプロトタイプ、一般的な標準的なpcアプリケーションである。 アンケート調査の結果,ユーザビリティに関する3つのアプリケーションタイプ間に有意差は認められず,両vrアプリケーションとも有意差は認められなかった。 参加者は、vrビジュアライゼーションはより深い情報を提供し、コントローラーの代わりに手を使うことはデータ探索を単純化し、マルチモーダルvrプロトタイプは直感的なデータ探索を可能にし、従来のデータ検査方法よりも有益である、という声明に同意した。 ほとんどの参加者が手動操作を最善の側面として挙げているが、最も即興性が高いことも分かった。 手動インタラクションを改良したマルチモーダルxrアプリケーションは,量的バイオメディカルデータ検査に付加価値を付加する。 ISH3DE(Intuitive Stereoptic Haptic 3D Data Exploration)は、医療教育、治療決定、手術準備、研究データ分析を支援するためのオープンソースの研究プロジェクトである。

3D data from high-resolution volumetric imaging is a central resource for diagnosis and treatment in modern medicine. While the fast development of AI enhances imaging and analysis, commonly used visualization methods lag far behind. Recent research used extended reality (XR) for perceiving 3D images with visual depth perception and touch, but used restricting haptic devices. While unrestricted touch is beneficial for volumetric data examination, implementing natural haptic interaction with XR is challenging. The research question is whether a multimodal XR application with intutitive haptic interaction adds value and should be pursued. In a study, 24 expterts for biomedical images in research and medicine. explored 3D anatomical medical shapes with 3 applications: a multimodal virtual reality (VR) prototype using haptic gloves, a simple VR prototype using VR controllers, and a commonly used standard PC application. Results of the standardized questionnaires showed no significant differences between the three application types regarding usability and no significant difference between both VR applications regarding presence. Participants agreed to statements that VR visualizations provide better depth information, that using the hands instead of controllers simplifies data exploration, that the multimodal VR prototype allows intuitive data exploration, and that it is beneficial over traditional data examination methods. While most participants mentioned the manual interaction as best aspect, they also found it the most improvable. We conclude that a multimodal XR application with improved manual interaction adds value for volumetric biomedical data examination. We will proceed with our open-source research project ISH3DE (Intuitive Stereoptic Haptic 3D Data Exploration) to serve medical education, therapeutic decisions, surgery preparations, or research data analysis.
翻訳日:2023-11-08 15:21:47 公開日:2023-11-07
# 包括的NARXニューラルネットワークを用いた擬似体実験動的同定

Quadrotor Experimental Dynamic Identification with Comprehensive NARX Neural Networks ( http://arxiv.org/abs/2311.03985v1 )

ライセンス: Link先を確認
Khaled Telli, Okba Kraa, Yassine Himeur, Mohamed Boumehraz, Shadi Atalla, Wathiq Mansoor, Abdelmalik Ouamane(参考訳) 本研究は, 非線形性, 過アクチュエータ性, 多変数性で有名な二次運動学の分野を掘り下げるものである。 この文脈で正確なモデリングと制御が不可欠であるため、NARX(Nonlinear AutoRegressive with eXogenous inputs) Neural Networks (NN)の機能について検討する。 これらのネットワークは、隠れたダイナミクスを捉える能力を生かして、クアドローターの振る舞いの包括的かつ正確なモデリングに利用される。 本研究は, PRBS (Pseudo-random binary sequence) 信号の励起を含む厳密な実験装置を包含し, NARX-NNの有効性を検証する。 その結果,評価データと検証データの両方において適合率が99%を超える異常な精度が示された。 さらに,Sigmoid NN を用いた NARX モデル,NARX フィードフォワードNN,カスケード NN など,異なる NARX NN 構造を用いて,四重項ダイナミクスを同定した。 要約すると、NARX-NNは、自律ナビゲーションから航空ロボットまで、その正確で包括的なモデリング能力のおかげで、四角形アプリケーションの変換ツールとして位置づけられている。

This research paper delves into the field of quadrotor dynamics, which are famous by their nonlinearity, under-actuation, and multivariable nature. Due to the critical need for precise modeling and control in this context we explore the capabilities of NARX (Nonlinear AutoRegressive with eXogenous inputs) Neural Networks (NN). These networks are employed for comprehensive and accurate modeling of quadrotor behaviors, take advantage of their ability to capture the hided dynamics. Our research encompasses a rigorous experimental setup, including the use of PRBS (Pseudo-random binary sequence) signals for excitation, to validate the efficacy of NARX-NN in predicting and controlling quadrotor dynamics. The results reveal exceptional accuracy, with fit percentages exceeding 99% on both estimation and validation data. Moreover, we identified the quadrotor dynamics using different NARX NN structures, including the NARX model with a sigmoid NN, NARX feedforward NN, and cascade NN. In summary, our study positions NARX-NN as a transformative tool for quadrotor applications, ranging from autonomous navigation to aerial robotics, thanks to their accurate and comprehensive modeling capabilities.
翻訳日:2023-11-08 15:21:15 公開日:2023-11-07
# シリコンフォトニクス集積受信機を用いた連続可変量子鍵分布の実証実験

Experimental demonstration of Continuous-Variable Quantum Key Distribution with a silicon photonics integrated receiver ( http://arxiv.org/abs/2311.03978v1 )

ライセンス: Link先を確認
Yoann Pi\'etri, Luis Trigo Vidarte, Matteo Schiavon, Laurent Vivien, Philippe Grangier, Amine Rhouni, Eleni Diamanti(参考訳) 量子鍵分散(QKD)は、秘密鍵交換のための情報理論セキュリティを提供する量子暗号分野における顕著な応用である。 フォトニック集積回路(PIC)におけるQKDシステムの実装は、そのようなシステムのサイズとコストを削減し、実用的なインフラへの展開を容易にする。 この目的のために、連続可変(CV)QKDシステムは単光子検出器を必要としないため、特に適している。 ここでは、平衡検出が可能なシリコンPICに基づくCV-QKD受信機を提案する。 高変調と秘密鍵レートが可能な特別に設計されたデータ処理を備えた周波数多重パイロットスキームを用いて、実験室のqkd設定でその性能を特徴付ける。 得られた余剰ノイズ値は、それぞれ10kmと23kmのエミュレート距離で2.4Mbit/sと220kbit/sの漸近秘密鍵レートと互換性がある。 これらの結果から,高速・首都圏間セキュア通信に適した完全統合デバイスへのこの技術の適用可能性を示す。

Quantum Key Distribution (QKD) is a prominent application in the field of quantum cryptography providing information-theoretic security for secret key exchange. The implementation of QKD systems on photonic integrated circuits (PICs) can reduce the size and cost of such systems and facilitate their deployment in practical infrastructures. To this end, continuous-variable (CV) QKD systems are particularly well-suited as they do not require single-photon detectors, whose integration is presently challenging. Here we present a CV-QKD receiver based on a silicon PIC capable of performing balanced detection. We characterize its performance in a laboratory QKD setup using a frequency multiplexed pilot scheme with specifically designed data processing allowing for high modulation and secret key rates. The obtained excess noise values are compatible with asymptotic secret key rates of 2.4 Mbit/s and 220 kbit/s at an emulated distance of 10 km and 23 km, respectively. These results demonstrate the potential of this technology towards fully integrated devices suitable for high-speed, metropolitan-distance secure communication.
翻訳日:2023-11-08 15:20:51 公開日:2023-11-07
# 線形最適化のための量子中央経路アルゴリズム

A quantum central path algorithm for linear optimization ( http://arxiv.org/abs/2311.03977v1 )

ライセンス: Link先を確認
Brandon Augustino, Jiaqi Leng, Giacomo Nannicini, Tam\'as Terlaky and Xiaodi Wu(参考訳) 中央経路の量子力学的シミュレーションにより線形最適化問題を解く新しい量子アルゴリズムを提案する。 内部点法は,摂動kkt条件の逐次線形化を扱う反復アルゴリズムを用いて中心経路を追従するが,非線形相補性方程式と直接作用する単一シミュレーションを行う。 Combining our approach with iterative refinement techniques, we obtain an exact solution to a linear optimization problem involving $m$ constraints and $n$ variables using at most $\mathcal{O} \left( (m + n) \text{nnz} (A) \kappa (\mathcal{M}) L \cdot \text{polylog} \left(m, n, \kappa (\mathcal{M}) \right) \right)$ elementary gates and $\mathcal{O} \left( \text{nnz} (A) L \right)$ classical arithmetic operations, where $ \text{nnz} (A)$ is the total number of non-zero elements found in the constraint matrix, $L$ denotes binary input length of the problem data, and $\kappa (\mathcal{M})$ is a condition number that depends only on the problem data.

We propose a novel quantum algorithm for solving linear optimization problems by quantum-mechanical simulation of the central path. While interior point methods follow the central path with an iterative algorithm that works with successive linearizations of the perturbed KKT conditions, we perform a single simulation working directly with the nonlinear complementarity equations. Combining our approach with iterative refinement techniques, we obtain an exact solution to a linear optimization problem involving $m$ constraints and $n$ variables using at most $\mathcal{O} \left( (m + n) \text{nnz} (A) \kappa (\mathcal{M}) L \cdot \text{polylog} \left(m, n, \kappa (\mathcal{M}) \right) \right)$ elementary gates and $\mathcal{O} \left( \text{nnz} (A) L \right)$ classical arithmetic operations, where $ \text{nnz} (A)$ is the total number of non-zero elements found in the constraint matrix, $L$ denotes binary input length of the problem data, and $\kappa (\mathcal{M})$ is a condition number that depends only on the problem data.
翻訳日:2023-11-08 15:20:36 公開日:2023-11-07
# すべては私に当てはまる:複数の領域におけるコントラスト学習を伴う基礎トポロジーモデル

Its All Graph To Me: Foundational Topology Models with Contrastive Learning on Multiple Domains ( http://arxiv.org/abs/2311.03976v1 )

ライセンス: Link先を確認
Alex O. Davies, Riku W. Green, Nirav S. Ajmeri, Telmo M. Silva Filho(参考訳) グラフデータの表現と埋め込みは多くの研究領域において不可欠である。 このような表現を学習する原則上の利点は、事前学習されたモデルは、データやラベルが乏しい小さなデータセット上で微調整可能であることである。 しかし、既存のモデルはドメイン固有であり、例えば、分子グラフで訓練されたモデルは、他の分子グラフ上で微調整される。 これは多くの場合、事前学習されたモデルの選択は任意であり、新しいドメインは適切な事前学習されたモデルを持たない可能性があることを意味する。 これは、データが乏しく、従来の教師付きメソッドに先行する、特に問題です。 本研究では,多くのグラフ領域で事前学習されたモデルである \method の提示に,逆コントラスト学習を用いる。 トポロジでのみモデルをトレーニングするが、評価にはノードラベルを含める。 各種下流タスクにおける学習表現の有効性を評価する。 単一ドメインで事前トレーニングされたベースラインモデルや、トレーニングされていないモデルや移行されていないモデルに対して、単一モデルでのパフォーマンスが同等かそれ以上かを示す。 これには評価にノードラベルを使用する場合が含まれており、パフォーマンスは単一ドメインや非事前訓練モデルよりも一貫して優れている。

Representations and embeddings of graph data have been essential in many domains of research. The principle benefit of learning such representations is that the pre-trained model can be fine-tuned on smaller datasets where data or labels are scarse. Existing models, however, are domain specific; for example a model trained on molecular graphs is fine-tuned on other molecular graphs. This means that in many application cases the choice of pre-trained model can be arbitrary, and novel domains may lack an appropriate pre-trained model. This is of particular issue where data is scarse, precluding traditional supervised methods. In this work we use adversarial contrastive learning to present a \method, a model pre-trained on many graph domains. We train the model only on topologies but include node labels in evaluation. We evaluate the efficacy of its learnt representations on various downstream tasks. Against baseline models pre-trained on single domains, as well as un-trained models and non-transferred models, we show that performance is equal or better using our single model. This includes when node labels are used in evaluation, where performance is consistently superior to single-domain or non-pre-trained models.
翻訳日:2023-11-08 15:20:16 公開日:2023-11-07
# レイテンシと消費電力の比較:量子対古典前処理

Comparing Latency and Power Consumption: Quantum vs. Classical Preprocessing ( http://arxiv.org/abs/2311.04053v1 )

ライセンス: Link先を確認
Zuhra Amiri, Janis N\"otzel(参考訳) 低レイテンシと低消費電力は、将来のネットワークの主要な目標です。 ファイバ光学はすでに高速化のために広く使われている。 我々は、光復号化が将来の目標を達成するためのさらなる利点があるかどうかを調査したい。 我々はMOSFETで構築した光チップとその電子チップの復号遅延と消費電力について検討・比較を行った。 我々は、光学処理は、速度と消費電力の利点があることを発見した。 将来のネットワークやリアルタイムアプリケーションにとって、これは現在の電子プロセッサよりも大きな利点をもたらす可能性がある。

Low latency and low power consumption are the main goals for our future networks. Fiber optics are already widely used for their faster speed. We want to investigate if optical decoding has further advantages to reaching future goals. We have investigated and compared the decoding latency and power consumption of an optical chip and its electronic counterpart built with MOSFETs. We have found that optical processing has a speed and power consumption benefit. For future networks and real-time applications, this can bring huge advantages over our current electronic processors.
翻訳日:2023-11-08 15:12:31 公開日:2023-11-07
# BIMと拡散モデルを統合した生成的構造設計

Generative Structural Design Integrating BIM and Diffusion Model ( http://arxiv.org/abs/2311.04052v1 )

ライセンス: Link先を確認
Zhili He, Yu-Hsing Wang, Jian Zhang(参考訳) AIを用いたインテリジェントな構造設計は、時間オーバーヘッドを効果的に削減し、効率を向上する。 将来、エンジニアを支援して置き換える新しいデザインパラダイムになる可能性があり、学術界では研究のホットスポットとなっている。 しかし、現在の手法には、アプリケーションの範囲、生成された結果の視覚的品質、結果の評価基準など、いくつかの制限がある。 本研究は包括的解決法を提案する。 まず,知的構造設計にビルディング・インフォメーション・モデリング(bim)を導入し,従来のcad描画のみを考慮したフレームワークの強力な補完であるbimとジェネレーティブaiを統合した構造設計パイプラインを確立する。 知覚の質と世代の詳細を改善するために,本研究では3つの貢献を行う。 第一に、人間の描画のプロセスにインスパイアされた生成フレームワークにおいて、従来のエンドツーエンドフレームワークを置き換えるために、2段階生成フレームワークが提案され、AIモデルの生成困難が軽減される。 次に, 生成型aiツールに関して, 広く用いられている生成型逆ネットワーク(gan)モデルを置き換えるために拡散モデル(dms)を導入し, 異なる設計条件を考慮した新しい物理ベースの条件付き拡散モデル(pcdm)を提案する。 第3に、ニューラルネットワークの分野では、自己注意ブロック(SAB)と並列横断ブロック(PCAB)からなるアテンションブロック(AB)が、クロスドメインデータの融合を容易にするように設計されている。 定量的および定性的な結果は、PCDMの強力な生成と表現能力を示す。 方法の妥当性を検討するために, 必要なアブレーション研究を行う。 この研究は、DMがGANを置き換える可能性があり、土木工学における生成問題の新たなベンチマークとなることも示している。

Intelligent structural design using AI can effectively reduce time overhead and increase efficiency. It has potential to become the new design paradigm in the future to assist and even replace engineers, and so it has become a research hotspot in the academic community. However, current methods have some limitations to be addressed, whether in terms of application scope, visual quality of generated results, or evaluation metrics of results. This study proposes a comprehensive solution. Firstly, we introduce building information modeling (BIM) into intelligent structural design and establishes a structural design pipeline integrating BIM and generative AI, which is a powerful supplement to the previous frameworks that only considered CAD drawings. In order to improve the perceptual quality and details of generations, this study makes 3 contributions. Firstly, in terms of generation framework, inspired by the process of human drawing, a novel 2-stage generation framework is proposed to replace the traditional end-to-end framework to reduce the generation difficulty for AI models. Secondly, in terms of generative AI tools adopted, diffusion models (DMs) are introduced to replace widely used generative adversarial network (GAN)-based models, and a novel physics-based conditional diffusion model (PCDM) is proposed to consider different design prerequisites. Thirdly, in terms of neural networks, an attention block (AB) consisting of a self-attention block (SAB) and a parallel cross-attention block (PCAB) is designed to facilitate cross-domain data fusion. The quantitative and qualitative results demonstrate the powerful generation and representation capabilities of PCDM. Necessary ablation studies are conducted to examine the validity of the methods. This study also shows that DMs have the potential to replace GANs and become the new benchmark for generative problems in civil engineering.
翻訳日:2023-11-08 15:12:24 公開日:2023-11-07
# 3D EAGAN : 経直腸超音波画像における前立腺分節に対する3Dエッジ認識による対向神経ネットワーク

3D EAGAN: 3D edge-aware attention generative adversarial network for prostate segmentation in transrectal ultrasound images ( http://arxiv.org/abs/2311.04049v1 )

ライセンス: Link先を確認
Mengqing Liu, Xiao Shao, Liping Jiang, Kaizhi Wu(参考訳) TRUS画像における前立腺の自動分割は、TRUS画像における前立腺があいまいな境界と不均一な強度分布を持つため、常に難しい問題である。 多くの前立腺セグメンテーション法が提案されているが、エッジ情報に対する感受性の欠如により改善される必要がある。 本研究の目的は,これらの制約を克服し,TRUS画像における前立腺の正確なセグメンテーションを実現する,高効率な前立腺分割法を考案することである。 本稿では,前立腺分割を行うエッジ・アウェア・セグメンテーション・ネットワーク(EASNet)と,予測前立腺と実前立腺を識別する識別器ネットワークからなる3次元エッジ・アウェア・アウェア・アウェア・ジェネレーティブ・逆立腺ネットワーク(3D EAGAN)を用いた前立腺分割法を提案する。 提案するeasnetはエンコーダデコーダベースのu-netバックボーンネットワーク,ディテール補償モジュール,4つの3d空間およびチャネルアテンションモジュール,エッジエンハンスモジュール,グローバル特徴抽出モジュールで構成される。 エンコーダのダウンサンプリング処理によって引き起こされる詳細情報の損失を補うために,ディテール補償モジュールを提案する。 詳細補償モジュールの特徴は、3次元空間及びチャネルアテンションモジュールによって選択的に強化される。 さらに,easnetの浅層層に対して,前立腺の輪郭情報とエッジ情報に着目したエッジエンハンスモジュールを提案する。 最後に,デコーダモジュールの浅い層からの特徴と階層的な特徴をグローバルな特徴抽出器を通じて融合し,セグメンテーション前立腺を予測する。

Automatic prostate segmentation in TRUS images has always been a challenging problem, since prostates in TRUS images have ambiguous boundaries and inhomogeneous intensity distribution. Although many prostate segmentation methods have been proposed, they still need to be improved due to the lack of sensibility to edge information. Consequently, the objective of this study is to devise a highly effective prostate segmentation method that overcomes these limitations and achieves accurate segmentation of prostates in TRUS images. A 3D edge-aware attention generative adversarial network (3D EAGAN)-based prostate segmentation method is proposed in this paper, which consists of an edge-aware segmentation network (EASNet) that performs the prostate segmentation and a discriminator network that distinguishes predicted prostates from real prostates. The proposed EASNet is composed of an encoder-decoder-based U-Net backbone network, a detail compensation module, four 3D spatial and channel attention modules, an edge enhance module, and a global feature extractor. The detail compensation module is proposed to compensate for the loss of detailed information caused by the down-sampling process of the encoder. The features of the detail compensation module are selectively enhanced by the 3D spatial and channel attention module. Furthermore, an edge enhance module is proposed to guide shallow layers in the EASNet to focus on contour and edge information in prostates. Finally, features from shallow layers and hierarchical features from the decoder module are fused through the global feature extractor to predict the segmentation prostates.
翻訳日:2023-11-08 15:11:55 公開日:2023-11-07
# xaiと大規模言語モデルを用いた化学における解釈可能な構造・属性関係の抽出

Extracting human interpretable structure-property relationships in chemistry using XAI and large language models ( http://arxiv.org/abs/2311.04047v1 )

ライセンス: Link先を確認
Geemi P. Wellawatte and Philippe Schwaller(参考訳) 説明可能な人工知能(XAI)は、機械学習モデルの不透明な性質に対処することを目的とした、AIの新興分野である。 さらに、XAIは入力-出力関係の抽出に利用でき、化学において構造-プロパティ関係を理解するのに役立つことが示されている。 しかしながら、XAI法の主な制限の一つは、技術的指向のユーザ向けに開発されたことである。 本稿では,xai法と大規模言語モデル(llm)を統合し,科学文献にアクセスして生化学データの自然言語説明を自動生成するxpertaiフレームワークを提案する。 XpertAIの成績を評価するために5つのケーススタディを行った。 以上の結果から,XpertAI は LLM と XAI ツールの強みを組み合わせ,具体的な,科学的,解釈可能な説明を生成することが示唆された。

Explainable Artificial Intelligence (XAI) is an emerging field in AI that aims to address the opaque nature of machine learning models. Furthermore, it has been shown that XAI can be used to extract input-output relationships, making them a useful tool in chemistry to understand structure-property relationships. However, one of the main limitations of XAI methods is that they are developed for technically oriented users. We propose the XpertAI framework that integrates XAI methods with large language models (LLMs) accessing scientific literature to generate accessible natural language explanations of raw chemical data automatically. We conducted 5 case studies to evaluate the performance of XpertAI. Our results show that XpertAI combines the strengths of LLMs and XAI tools in generating specific, scientific, and interpretable explanations.
翻訳日:2023-11-08 15:11:22 公開日:2023-11-07
# 強化学習による言語モデルの微調整は、より抽出可能な機能に偏っている

Reinforcement Learning Fine-tuning of Language Models is Biased Towards More Extractable Features ( http://arxiv.org/abs/2311.04046v1 )

ライセンス: Link先を確認
Diogo Cruz, Edoardo Pona, Alex Holness-Tofts, Elias Schmied, V\'ictor Abia Alonso, Charlie Griffin, Bogdan-Ionut Cirstea(参考訳) 多くの有能な大規模言語モデル(LLM)は、自己教師付き事前訓練を経て開発され、強化学習の微調整フェーズが続く。 この段階では、モデルは誘導バイアスによって導かれ、より単純な特徴に頼り、より容易に抽出でき、堅牢性と一般化にコストがかかる。 我々は,LLMの微調整における帰納的バイアスを規定する原則が,強化学習を用いた微調整プロセスにおいても適用できるかどうかを考察する。 Lovering et al (2021) に続いて、我々は2つの仮説を検証した: 事前学習後の$\textit{extractable}$が最終方針によって活用される可能性が高く、また、機能に対する証拠が活用されるかどうかを予測する。 合成および自然言語タスクの制御実験を通じて,これらの仮説の強い証拠となる統計的に有意な相関を見出した。

Many capable large language models (LLMs) are developed via self-supervised pre-training followed by a reinforcement-learning fine-tuning phase, often based on human or AI feedback. During this stage, models may be guided by their inductive biases to rely on simpler features which may be easier to extract, at a cost to robustness and generalisation. We investigate whether principles governing inductive biases in the supervised fine-tuning of LLMs also apply when the fine-tuning process uses reinforcement learning. Following Lovering et al (2021), we test two hypotheses: that features more $\textit{extractable}$ after pre-training are more likely to be utilised by the final policy, and that the evidence for/against a feature predicts whether it will be utilised. Through controlled experiments on synthetic and natural language tasks, we find statistically significant correlations which constitute strong evidence for these hypotheses.
翻訳日:2023-11-08 15:11:08 公開日:2023-11-07
# p-bench: 言語モデルのための多レベルプライバシー評価ベンチマーク

P-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models ( http://arxiv.org/abs/2311.04044v1 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Donghao Li, Wei Fan, Qi Hu, Xin Liu, Chunkit Chan, Duanyi Yao, Yangqiu Song(参考訳) 言語モデル(LM)の急速な開発は、モデルとユーザの両方に前例のないアクセシビリティと利用をもたらす。 一方、大量のテキストデータで訓練された強力なLMは、多くの下流NLPタスクに対して最先端のパフォーマンスを達成する。 一方で、データ漏洩の悪意あるプライバシーリスクをもたらす未制限のモデルアクセスには、ますます多くの注意が払われている。 これらの問題に対処するため、近年の多くの研究で、差分プライバシー(DP)を用いたプライバシー保護言語モデル(PPLM)が提案されている。 残念ながら、異なるDP実装は既存のPPLMと公正な比較を困難にしている。 本稿では,LMのプライバシー漏洩を経験的かつ直感的に定量化する多視点プライバシー評価ベンチマークであるP-Benchを提案する。 DPパラメータで保護されたデータのプライバシを保護し、測定する代わりに、P-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。 P-Benchは最初、プライベートな微調整中に多面的なプライバシーの目的を明確に定義した。 次に、P-Benchは、プライベートな微調整を行う統一パイプラインを構築する。 最後に、P-Benchは、実証的な評価結果として、予め定義されたプライバシー目標を持つLMに対する既存のプライバシ攻撃を実行する。 様々なPPLMのプライバシー漏洩を公平かつ直感的に評価するために,経験的攻撃結果を用いている。 メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。

The rapid development of language models (LMs) brings unprecedented accessibility and usage for both models and users. On the one hand, powerful LMs, trained with massive textual data, achieve state-of-the-art performance over numerous downstream NLP tasks. On the other hand, more and more attention is paid to unrestricted model accesses that may bring malicious privacy risks of data leakage. To address these issues, many recent works propose privacy-preserving language models (PPLMs) with differential privacy (DP). Unfortunately, different DP implementations make it challenging for a fair comparison among existing PPLMs. In this paper, we present P-Bench, a multi-perspective privacy evaluation benchmark to empirically and intuitively quantify the privacy leakage of LMs. Instead of only protecting and measuring the privacy of protected data with DP parameters, P-Bench sheds light on the neglected inference data privacy during actual usage. P-Bench first clearly defines multi-faceted privacy objectives during private fine-tuning. Then, P-Bench constructs a unified pipeline to perform private fine-tuning. Lastly, P-Bench performs existing privacy attacks on LMs with pre-defined privacy objectives as the empirical evaluation results. The empirical attack results are used to fairly and intuitively evaluate the privacy leakage of various PPLMs. We conduct extensive experiments on three datasets of GLUE for mainstream LMs.
翻訳日:2023-11-08 15:10:51 公開日:2023-11-07
# バルク基準によるタンパク質含量回帰と粒品種分類のための近赤外ハイパースペクトルイメージング

Analyzing Near-Infrared Hyperspectral Imaging for Protein Content Regression and Grain Variety Classification Using Bulk References and Varying Grain-to-Background Ratios ( http://arxiv.org/abs/2311.04042v1 )

ライセンス: Link先を確認
Ole-Christian Galbo Engstr{\o}m and Erik Schou Dreier and Birthe M{\o}ller Jespersen and Kim Steenstrup Pedersen(参考訳) 本研究は,NIR-HSI画像を用いた2つのデータセットのモデルキャリブレーションを行い,タンパク質含量回帰と粒度分類に着目した。 タンパク質含量の限定参照データをサブサンプリングしてバルク試料と関連付けることで拡張する。 しかし, この手法は, PLS-Rモデルと深部CNNモデルの両方に影響を及ぼすスキュートレプトーラス予測分布による有意なバイアスをもたらす。 これらのバイアスを緩和し、平均タンパク質参照予測を改善するための調整を提案する。 さらに,両タスクの粒界間比の影響について検討した。 高い比はより正確な予測をもたらすが、キャリブレーションにおける低比画像を含むと、そのようなシナリオに対するモデルロバスト性が向上する。

Based on previous work, we assess the use of NIR-HSI images for calibrating models on two datasets, focusing on protein content regression and grain variety classification. Limited reference data for protein content is expanded by subsampling and associating it with the bulk sample. However, this method introduces significant biases due to skewed leptokurtic prediction distributions, affecting both PLS-R and deep CNN models. We propose adjustments to mitigate these biases, improving mean protein reference predictions. Additionally, we investigate the impact of grain-to-background ratios on both tasks. Higher ratios yield more accurate predictions, but including lower-ratio images in calibration enhances model robustness for such scenarios.
翻訳日:2023-11-08 15:10:32 公開日:2023-11-07
# シンクホーンアルゴリズムの有界成長と指数収束の関数に対するヒルベルトの射影距離

Hilbert's projective metric for functions of bounded growth and exponential convergence of Sinkhorn's algorithm ( http://arxiv.org/abs/2311.04041v1 )

ライセンス: Link先を確認
Stephan Eckstein(参考訳) 我々は、有界成長の可積分函数の空間に対するヒルベルトの射影距離のバージョンを研究する。 これらの計量は、あるテスト関数に乗じて非負の積分値を持つすべての関数を含むという意味で、すべての非負関数の円錐の緩和である円錐に由来する。 カーネル積分作用素は、カーネルの零点への減衰が制御されることを条件として、零点から外れていないカーネルに対しても、そのようなメトリクスの適切な仕様に関する収縮であることを示す。 エントロピー最適輸送への応用として、コスト関数の増大に比較して、限界分布が十分な光尾を持つ設定において、シンクホーンのアルゴリズムの指数収束を示す。

We study versions of Hilbert's projective metric for spaces of integrable functions of bounded growth. These metrics originate from cones which are relaxations of the cone of all non-negative functions, in the sense that they include all functions having non-negative integral values when multiplied with certain test functions. We show that kernel integral operators are contractions with respect to suitable specifications of such metrics even for kernels which are not bounded away from zero, provided that the decay to zero of the kernel is controlled. As an application to entropic optimal transport, we show exponential convergence of Sinkhorn's algorithm in settings where the marginal distributions have sufficiently light tails compared to the growth of the cost function.
翻訳日:2023-11-08 15:10:19 公開日:2023-11-07
# データ活用:部分注釈データを用いたオブジェクト検出と意味セグメンテーションのマルチタスク学習

Data exploitation: multi-task learning of object detection and semantic segmentation on partially annotated data ( http://arxiv.org/abs/2311.04040v1 )

ライセンス: Link先を確認
Ho\`ang-\^An L\^e and Minh-Tan Pham(参考訳) 各データポイントが1つのタスクにアノテートされたマルチタスクの一部のアノテートデータは、ネットワークがタスク間の関係を活用できれば、データ不足に寄与する可能性がある。 本稿では、部分アノテーション付きマルチタスクデータから、オブジェクト検出とセマンティックセグメンテーションの併用学習について検討する。 マルチタスクネットワークが両方のタスクを同時に最適化できない場合、各タスクのパフォーマンスを評価し、それらの相補性を探索する。 共同タスク最適化の活用を目的とした知識蒸留手法を提案する。 実験結果から,マルチタスク学習や知識蒸留において,シングルタスク学習よりも優れた結果が得られた。 すべてのコードとデータはhttps://github.com/lhoangan/multasで公開されている。

Multi-task partially annotated data where each data point is annotated for only a single task are potentially helpful for data scarcity if a network can leverage the inter-task relationship. In this paper, we study the joint learning of object detection and semantic segmentation, the two most popular vision problems, from multi-task data with partial annotations. Extensive experiments are performed to evaluate each task performance and explore their complementarity when a multi-task network cannot optimize both tasks simultaneously. We propose employing knowledge distillation to leverage joint-task optimization. The experimental results show favorable results for multi-task learning and knowledge distillation over single-task learning and even full supervision scenario. All code and data splits are available at https://github.com/lhoangan/multas
翻訳日:2023-11-08 15:10:06 公開日:2023-11-07
# ローカルプライバシー下での因果発見

Causal Discovery Under Local Privacy ( http://arxiv.org/abs/2311.04037v1 )

ライセンス: Link先を確認
R\=uta Binkyt\.e, Carlos Pinz\'on, Szilvia Lesty\'an, Kangsoo Jung, H\'eber H. Arcolezi, Catuscia Palamidessi(参考訳) 差分プライバシーは、データセット内のデータプロバイダの機密情報を保護するために設計された広く採用されているフレームワークである。 これは、データの保存と処理を行うサーバとデータコンシューマの間のインターフェースにおける制御されたノイズのアプリケーションに基づいている。 ローカル差分プライバシーは、データプロバイダが個別にデータに民営化メカニズムを適用できる変種である。 したがって、サーバやデータコレクタさえ信頼できない状況でも保護を提供する。 しかし、ノイズの導入はデータの有用性に必然的に影響を与え、特に個々のデータコンポーネント間の相関関係を歪ませる。 この歪みは因果発見のようなタスクに有害である。 本稿では,各自のプライバシ間のトレードオフと,それらのメカニズムによって隠蔽されたデータに適用された場合の因果学習のためのアルゴリズムによる因果構造の比較を行う。 本分析は,因果発見タスクに適した局所微分プライベートプロトコルを選択するための貴重な洞察を与える。 我々の発見は、研究者や実践者が局所的な因果発見を行うのに役立つと予測している。

Differential privacy is a widely adopted framework designed to safeguard the sensitive information of data providers within a data set. It is based on the application of controlled noise at the interface between the server that stores and processes the data, and the data consumers. Local differential privacy is a variant that allows data providers to apply the privatization mechanism themselves on their data individually. Therefore it provides protection also in contexts in which the server, or even the data collector, cannot be trusted. The introduction of noise, however, inevitably affects the utility of the data, particularly by distorting the correlations between individual data components. This distortion can prove detrimental to tasks such as causal discovery. In this paper, we consider various well-known locally differentially private mechanisms and compare the trade-off between the privacy they provide, and the accuracy of the causal structure produced by algorithms for causal learning when applied to data obfuscated by these mechanisms. Our analysis yields valuable insights for selecting appropriate local differentially private protocols for causal discovery tasks. We foresee that our findings will aid researchers and practitioners in conducting locally private causal discovery.
翻訳日:2023-11-08 15:09:51 公開日:2023-11-07
# 距離最小化に基づく評価データの欠落値計算アルゴリズム

Discordance Minimization-based Imputation Algorithms for Missing Values in Rating Data ( http://arxiv.org/abs/2311.04035v1 )

ライセンス: Link先を確認
Young Woong Park, Jinhak Kim, Dan Zhu(参考訳) 評価は、教育から医療まで、様々な応用における被験者の評価と比較に頻繁に用いられる。 しかし、複数の評価リストが組み合わされたり、考慮されたりする場合、ほとんどの評価リストは、組み合わせたリストのすべての被験者を評価しないため、しばしば評価を欠いている。 本研究では,様々なアプリケーションにおける6つの実世界のデータセットを用いた値パターンの欠落,およびインプテーションアルゴリズムの適用可能性の条件について解析を行う。 解析結果から得られた特殊構造と特性に基づいて、評価提供者間での総合評価不一致を最小限に抑える最適化モデルとアルゴリズムを提案し、既知の評価情報のみを用いて、組み合わせた評価リストに欠落した評価を示唆する。 総評価不一致は、ペアワイズ不一致計量の和として定義され、二次函数として記述できる。 実世界および合成レーティングデータセットに基づく計算実験により,提案手法が文献の一般的インプテーション法をインプテーション精度で上回っていることが示された。

Ratings are frequently used to evaluate and compare subjects in various applications, from education to healthcare, because ratings provide succinct yet credible measures for comparing subjects. However, when multiple rating lists are combined or considered together, subjects often have missing ratings, because most rating lists do not rate every subject in the combined list. In this study, we propose analyses on missing value patterns using six real-world data sets in various applications, as well as the conditions for applicability of imputation algorithms. Based on the special structures and properties derived from the analyses, we propose optimization models and algorithms that minimize the total rating discordance across rating providers to impute missing ratings in the combined rating lists, using only the known rating information. The total rating discordance is defined as the sum of the pairwise discordance metric, which can be written as a quadratic function. Computational experiments based on real-world and synthetic rating data sets show that the proposed methods outperform the state-of-the-art general imputation methods in the literature in terms of imputation accuracy.
翻訳日:2023-11-08 15:09:32 公開日:2023-11-07
# HPOがAutoML予測アンサンブルに及ぼす影響

Impact of HPO on AutoML Forecasting Ensembles ( http://arxiv.org/abs/2311.04034v1 )

ライセンス: Link先を確認
David Hoffmann(参考訳) 特にMQ-CNN,DeepAR,Prophet,NPTS,ARIMA,ETSといった,局所的およびグローバルな一変量予測のための多様な推定器からなる予測アンサンブルを用いて,様々な問題の予測を行うことができる。 本稿では、このようなセットアップ(DeepARとMQ-CNN)において、異なるハイパーパラメータ最適化戦略を深層学習モデルに追加し、追加のトレーニングコストと異なる構成の精度の向上とのトレードオフを探る。 このような設定では、ハイパーパラメータの最適化がパフォーマンス向上につながり、最終設定では、hpoのないベースラインアンサンブル上でのavg-wqlに対する9.9パーセントの精度向上と、エンドツーエンドアンサンブルレイテンシの65.8%向上が見られた。 この改善は、アンサンブルパイプラインと異なるチューニング戦略、すなわちベイズ最適化とハイパーバンドとそれらの戦略の異なる構成を組み合わせた経験的分析に基づいている。 最終構成では、アンサンブル学習とhpoの組み合わせは、art商用automl予測ソリューションであるamazon forecastの状態を上回り、3.5 %低いエラーと16.0 %低いエンド・ツー・エンドアンサンブルレイテンシを持つ。

A forecasting ensemble consisting of a diverse range of estimators for both local and global univariate forecasting, in particular MQ-CNN,DeepAR, Prophet, NPTS, ARIMA and ETS, can be used to make forecasts for a variety of problems. This paper delves into the aspect of adding different hyperparameter optimization strategies to the deep learning models in such a setup (DeepAR and MQ-CNN), exploring the trade-off between added training cost and the increase in accuracy for different configurations. It shows that in such a setup, adding hyperparameter optimization can lead to performance improvements, with the final setup having a 9.9 % percent accuracy improvement with respect to the avg-wQL over the baseline ensemble without HPO, accompanied by a 65.8 % increase in end-to-end ensemble latency. This improvement is based on an empirical analysis of combining the ensemble pipeline with different tuning strategies, namely Bayesian Optimisation and Hyperband and different configurations of those strategies. In the final configuration, the proposed combination of ensemble learning and HPO outperforms the state of the art commercial AutoML forecasting solution, Amazon Forecast, with a 3.5 % lower error and 16.0 % lower end-to-end ensemble latency.
翻訳日:2023-11-08 15:09:14 公開日:2023-11-07
# ナラティブアライメントによる映画適応分析

Analyzing Film Adaptation through Narrative Alignment ( http://arxiv.org/abs/2311.04020v1 )

ライセンス: Link先を確認
Tanzir Pial, Shahreen Salim, Charuta Pethe, Allen Kim, Steven Skiena(参考訳) 小説はしばしば長編映画に脚色されるが、2つのメディアの違いは、通常、映画脚本からソーステキストのセクションを落とさなければならない。 そこで本研究では,Smith-Waterman局所アライメントアルゴリズムとSBERT埋め込み距離を組み合わせることで,シーンとブックユニット間のテキスト類似性を定量化する。 これらのアライメントを使用して40の適応を自動解析し、スクリーンライティングプロセスに関する洞察を明らかにする。 (i)適応の忠実さ (ii)ダイアログの重要性 (iii)物語順の保存、及び (iv)bechdelテストを反映した性表現問題。

Novels are often adapted into feature films, but the differences between the two media usually require dropping sections of the source text from the movie script. Here we study this screen adaptation process by constructing narrative alignments using the Smith-Waterman local alignment algorithm coupled with SBERT embedding distance to quantify text similarity between scenes and book units. We use these alignments to perform an automated analysis of 40 adaptations, revealing insights into the screenwriting process concerning (i) faithfulness of adaptation, (ii) importance of dialog, (iii) preservation of narrative order, and (iv) gender representation issues reflective of the Bechdel test.
翻訳日:2023-11-08 15:08:50 公開日:2023-11-07
# データ品質のデータセットスケール指標の探索

Exploring Dataset-Scale Indicators of Data Quality ( http://arxiv.org/abs/2311.04016v1 )

ライセンス: Link先を確認
Benjamin Feuer, Chinmay Hegde(参考訳) 現代のコンピュータビジョンの基礎モデルは大量のデータに基づいて訓練され、経済と環境に大きなコストがかかる。 近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。 しかし、コンピュータビジョンにおけるデータ品質とは何か? 与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルの構成要素に分解でき、前者は後者よりも広範囲に研究されていると仮定する。 ラベルセット設計とクラスバランスという,2つの重要なデータセットレベルの構成要素の効果を比較検討する。 私たちが提供する重要な指標を使ってこれらの構成要素を監視することで、研究者や実践者は、分散シフトに対する正確性と堅牢性の観点から測定したモデルパフォーマンスをより良く予測できます。

Modern computer vision foundation models are trained on massive amounts of data, incurring large economic and environmental costs. Recent research has suggested that improving data quality can significantly reduce the need for data quantity. But what constitutes data quality in computer vision? We posit that the quality of a given dataset can be decomposed into distinct sample-level and dataset-level constituents, and that the former have been more extensively studied than the latter. We ablate the effects of two important dataset-level constituents: label set design, and class balance. By monitoring these constituents using key indicators we provide, researchers and practitioners can better anticipate model performance, measured in terms of its accuracy and robustness to distribution shifts.
翻訳日:2023-11-08 15:08:37 公開日:2023-11-07
# 凸緩和下におけるReLU-Networksの表現性

Expressivity of ReLU-Networks under Convex Relaxations ( http://arxiv.org/abs/2311.04015v1 )

ライセンス: Link先を確認
Maximilian Baader, Mark Niklas M\"uller, Yuhao Mao, Martin Vechev(参考訳) 凸緩和は、確実に安全なニューラルネットワークのトレーニングと認定の鍵となるコンポーネントである。 しかし、かなりの進歩にもかかわらず、標準ネットワークに対する広範かつ未理解の精度のギャップが残っており、凸緩和の基本的限界によるものであるかどうかという疑問が提起されている。 この問題を調査した最初の研究は、シンプルで広く使われているIPP緩和に焦点を当てた。 この結果, 単変量, 凸, 連続ピースワイド線形(CPWL)関数は任意のReLUネットワークで符号化できず, IBP解析が正確であることが判明した。 この制限がより先進的な凸緩和によって共有されるかどうかを調べるために、ReLUネットワークのすべての一般的な凸緩和における表現力に関する詳細な研究を行う。 ご覧の通りです i)より高度な緩和により、より大きな単変数函数のクラスを正確に解析可能なReLUネットワークとして表現することができる。 (ii)より正確な緩和は、同じ関数を符号化するReLUネットワークの指数関数的に大きい解空間を可能にする。 3)最も正確な単一ニューロン緩和を用いても,多変量,凸,単トンCPWL関数を正確に解析可能なReLUネットワークを構築することは不可能である。

Convex relaxations are a key component of training and certifying provably safe neural networks. However, despite substantial progress, a wide and poorly understood accuracy gap to standard networks remains, raising the question of whether this is due to fundamental limitations of convex relaxations. Initial work investigating this question focused on the simple and widely used IBP relaxation. It revealed that some univariate, convex, continuous piecewise linear (CPWL) functions cannot be encoded by any ReLU network such that its IBP-analysis is precise. To explore whether this limitation is shared by more advanced convex relaxations, we conduct the first in-depth study on the expressive power of ReLU networks across all commonly used convex relaxations. We show that: (i) more advanced relaxations allow a larger class of univariate functions to be expressed as precisely analyzable ReLU networks, (ii) more precise relaxations can allow exponentially larger solution spaces of ReLU networks encoding the same functions, and (iii) even using the most precise single-neuron relaxations, it is impossible to construct precisely analyzable ReLU networks that express multivariate, convex, monotone CPWL functions.
翻訳日:2023-11-08 15:08:26 公開日:2023-11-07
# 機械学習によるパーソナリティ・スタイル認識:患者音声からのアナクリティック・イントロジェクティブ・パーソナリティ・スタイルの同定

Personality Style Recognition via Machine Learning: Identifying Anaclitic and Introjective Personality Styles from Patients' Speech ( http://arxiv.org/abs/2311.04088v1 )

ライセンス: Link先を確認
Semere Kiros Bitew, Vincent Schelstraete, Klim Zaporojets, Kimberly Van Nieuwenhove, Reitske Meganck and Chris Develder(参考訳) 精神病理学で観察される異質性の解消では、患者の個性が重要であると考えられている。 パーソナリティ特性が患者が使用する言語に反映されることが実証されているが、これは音声発話から直接パーソナリティタイプの自動推論が可能であり、パーソナリティ分類のために明示的に設計された従来のアンケートに基づくアプローチよりも精度が高いと仮定する。 この仮説を検証するために、自然言語処理(NLP)と標準機械学習ツールを用いて分類する。 主観的うつ病性障害(mdd)と診断された患者79名(人格的スタイルに基づく異なる治療が推奨されている)について、cdi(recorded clinical diagnostic interviews)のデータセットでこれをテストし、アナリスティック・イントロジェクティブ・パーソナリティ・スタイルに分類した。 まず、各スタイルのより深い理解を得るために、各スタイルにどの言語的特徴が関連しているかをインタビューの分析から始める。 そこで我々は,自動分類器を開発する。 (a)標準化された質問応答 b) 基本文の特徴,すなわち,単語及び単語列のtf−idfスコア c) liwc (linguistic query and word count) と bert (bidirectional encoder representations from transformers) を用いた文脈認識機能を用いた、より高度なテキスト機能 (d)オーディオ機能。 言語由来の特徴(liwcに基づく)による自動分類は,アンケートに基づく分類モデルを大幅に上回っている。 さらに、LIWCとアンケート特徴を組み合わせることで、最高の性能が得られる。 このことから,人格を特徴付けるための言語ベースの自動手法の開発には,さらなる作業が必要であることが示唆された。

In disentangling the heterogeneity observed in psychopathology, personality of the patients is considered crucial. While it has been demonstrated that personality traits are reflected in the language used by a patient, we hypothesize that this enables automatic inference of the personality type directly from speech utterances, potentially more accurately than through a traditional questionnaire-based approach explicitly designed for personality classification. To validate this hypothesis, we adopt natural language processing (NLP) and standard machine learning tools for classification. We test this on a dataset of recorded clinical diagnostic interviews (CDI) on a sample of 79 patients diagnosed with major depressive disorder (MDD) -- a condition for which differentiated treatment based on personality styles has been advocated -- and classified into anaclitic and introjective personality styles. We start by analyzing the interviews to see which linguistic features are associated with each style, in order to gain a better understanding of the styles. Then, we develop automatic classifiers based on (a) standardized questionnaire responses; (b) basic text features, i.e., TF-IDF scores of words and word sequences; (c) more advanced text features, using LIWC (linguistic inquiry and word count) and context-aware features using BERT (bidirectional encoder representations from transformers); (d) audio features. We find that automated classification with language-derived features (i.e., based on LIWC) significantly outperforms questionnaire-based classification models. Furthermore, the best performance is achieved by combining LIWC with the questionnaire features. This suggests that more work should be put into developing linguistically based automated techniques for characterizing personality, however questionnaires still to some extent complement such methods.
翻訳日:2023-11-08 15:02:24 公開日:2023-11-07
# 確率的ステートフル政策を用いた時間効率強化学習

Time-Efficient Reinforcement Learning with Stochastic Stateful Policies ( http://arxiv.org/abs/2311.04082v1 )

ライセンス: Link先を確認
Firas Al-Hafez and Guoping Zhao and Jan Peters and Davide Tateo(参考訳) ステートフルな政策は、部分的に観察可能な環境を扱うこと、堅牢性を高めること、あるいは政策構造に直接帰納バイアスを課すことなど、強化学習において重要な役割を果たす。 従来のステートフルポリシーのトレーニング方法はBPTT(Backproagation Through Time)であり、シーケンシャルな勾配の伝播による遅いトレーニングや、消滅または爆発的な勾配の発生など、大きな欠点がある。 勾配はしばしばこれらの問題に対処するために切り離され、バイアスのあるポリシー更新となる。 本稿では,後者を確率的内部状態カーネルとステートレスポリシーに分解し,ステートフルポリシー勾配に従うことによって協調的に最適化した,ステートフルポリシーのトレーニング手法を提案する。 我々は、ステートフルポリシー勾配定理の異なるバージョンを導入し、人気のある強化学習と模倣学習アルゴリズムのステートフル変種を簡単にインスタンス化できるようにする。 さらに,新しい勾配推定器の理論的解析を行い,BPTTと比較した。 我々は,ヒューマノイド運動などの複雑な連続制御タスクに対するアプローチを評価し,勾配推定器がbpttのより高速でシンプルな代替手段を提供しながら,タスク複雑性と効果的にスケールできることを実証する。

Stateful policies play an important role in reinforcement learning, such as handling partially observable environments, enhancing robustness, or imposing an inductive bias directly into the policy structure. The conventional method for training stateful policies is Backpropagation Through Time (BPTT), which comes with significant drawbacks, such as slow training due to sequential gradient propagation and the occurrence of vanishing or exploding gradients. The gradient is often truncated to address these issues, resulting in a biased policy update. We present a novel approach for training stateful policies by decomposing the latter into a stochastic internal state kernel and a stateless policy, jointly optimized by following the stateful policy gradient. We introduce different versions of the stateful policy gradient theorem, enabling us to easily instantiate stateful variants of popular reinforcement learning and imitation learning algorithms. Furthermore, we provide a theoretical analysis of our new gradient estimator and compare it with BPTT. We evaluate our approach on complex continuous control tasks, e.g., humanoid locomotion, and demonstrate that our gradient estimator scales effectively with task complexity while offering a faster and simpler alternative to BPTT.
翻訳日:2023-11-08 15:01:50 公開日:2023-11-07
# 高周波データを用いた超解像超音波局在顕微鏡の学習

Learning Super-Resolution Ultrasound Localization Microscopy from Radio-Frequency Data ( http://arxiv.org/abs/2311.04081v1 )

ライセンス: Link先を確認
Christopher Hahne, Georges Chabouh, Olivier Couture, Raphael Sznitman(参考訳) 超音波局在顕微鏡 (ulm) は, 造影剤粒子位置を経時的に蓄積することにより, マイクロメートル範囲の血管構造のイメージングを可能にする。 高精度かつ効率的な目標位置推定精度は、この有望な医療画像技術の限界をさらに推し進めるために、ULM分野において活発な研究課題である。 既存の作業では、遅延アンドサム(DAS)ビームフォーミングを粒子ローカライゼーションパイプラインに組み込んでおり、最終的にULM画像分解能を決定する。 本稿では,非処理高周波(rf)データを超解像ネットワークに供給し,dasビームフォーミングとその限界を回避することを提案する。 これを容易にするために,BモードとRF座標空間間のラベル投影と逆点変換を,我々のアプローチで要求されるように示す。 本手法は,シリコとin vivoデータを特徴とする公開データセットに基づいて,最先端技術に対する評価を行う。 RFトレーニングネットワークの結果から,DASビームフォーミングを除くと,ULM分解能性能を最適化できる可能性が示唆された。

Ultrasound Localization Microscopy (ULM) enables imaging of vascular structures in the micrometer range by accumulating contrast agent particle locations over time. Precise and efficient target localization accuracy remains an active research topic in the ULM field to further push the boundaries of this promising medical imaging technology. Existing work incorporates Delay-And-Sum (DAS) beamforming into particle localization pipelines, which ultimately determines the ULM image resolution capability. In this paper we propose to feed unprocessed Radio-Frequency (RF) data into a super-resolution network while bypassing DAS beamforming and its limitations. To facilitate this, we demonstrate label projection and inverse point transformation between B-mode and RF coordinate space as required by our approach. We assess our method against state-of-the-art techniques based on a public dataset featuring in silico and in vivo data. Results from our RF-trained network suggest that excluding DAS beamforming offers a great potential to optimize on the ULM resolution performance.
翻訳日:2023-11-08 15:01:27 公開日:2023-11-07
# 標準定義ナビゲーションマップによる車線知覚とトポロジ理解の強化

Augmenting Lane Perception and Topology Understanding with Standard Definition Navigation Maps ( http://arxiv.org/abs/2311.04079v1 )

ライセンス: Link先を確認
Katie Z Luo, Xinshuo Weng, Yan Wang, Shuang Wu, Jie Li, Kilian Q Weinberger, Yue Wang, Marco Pavone(参考訳) 自律運転は伝統的にコストが高く労働集約的なHigh Definition(HD)マップに大きく依存しており、スケーラビリティを妨げる。 対照的に、SD(Standard Definition)マップはより安価で、世界中でカバーでき、スケーラブルな代替手段を提供する。 本研究では,リアルタイムレーントポロジ理解におけるsdマップの効果を体系的に検討する。 本稿では,オンライン地図予測にSDマップを統合する新しいフレームワークを提案し,トランスフォーマーからトランスフォーマーベースのエンコーダであるSD Map Encoder Representationsを提案する。 この強化は、ベルやホイッスルを使わずに、現在最先端のオンライン地図予測法におけるレーン検出とトポロジー予測を一貫して(最大60%)大幅に向上させ、トランスフォーマーベースのレーントポロジー法に即座に組み込むことができる。 コードはhttps://github.com/NVlabs/SMERFで入手できる。

Autonomous driving has traditionally relied heavily on costly and labor-intensive High Definition (HD) maps, hindering scalability. In contrast, Standard Definition (SD) maps are more affordable and have worldwide coverage, offering a scalable alternative. In this work, we systematically explore the effect of SD maps for real-time lane-topology understanding. We propose a novel framework to integrate SD maps into online map prediction and propose a Transformer-based encoder, SD Map Encoder Representations from transFormers, to leverage priors in SD maps for the lane-topology prediction task. This enhancement consistently and significantly boosts (by up to 60%) lane detection and topology prediction on current state-of-the-art online map prediction methods without bells and whistles and can be immediately incorporated into any Transformer-based lane-topology method. Code is available at https://github.com/NVlabs/SMERF.
翻訳日:2023-11-08 15:01:09 公開日:2023-11-07
# LLMは人間の反応バイアスを示すか? 調査設計における事例研究

Do LLMs exhibit human-like response biases? A case study in survey design ( http://arxiv.org/abs/2311.04076v1 )

ライセンス: Link先を確認
Lindia Tjuatja, Valerie Chen, Sherry Tongshuang Wu, Ameet Talwalkar, Graham Neubig(参考訳) 大規模言語モデル(LLM)の能力が向上するにつれて、調査や世論調査などの主観的ラベルが望まれる現実世界のタスクにおいて、LLMを人間のためのプロキシとして使用する可能性への興奮が高まっている。 しかし興味深いことに、人間は反応バイアスの形での変化を指示する感度も示しています。 したがって、LLMが人間の意見の近似に使用されるのであれば、LLMが人間の反応バイアスを反映する程度を調査する必要があると論じる。 本研究では,<prompts' という単語の置換による人間の反応バイアスが広範に研究されている事例研究として,サーベイデザインを用いる。 社会心理学における先行研究から,我々はデータセットを設計し,LLMが人間的な反応バイアスを示すかどうかを評価する枠組みを提案する。 9つのモデルの包括的評価からは,一般的なオープンおよび商用のllmは,一般的に人間的な行動を反映していないことが分かる。 これらの矛盾は、微調整されたモデルでは顕著である。 さらに,モデルがヒトと同じ方向において有意な変化を示したとしても,ヒトの有意な変化を誘発しない摂動も同様の変化を生じさせる可能性があり,この結果が他のスプリアス相関による部分的原因である可能性が示唆された。 これらの結果は、アノテーションパイプラインの一部で人間を置換するためにLLMを使うことの潜在的な落とし穴を強調し、さらにモデル行動のよりきめ細かい特徴付けの重要性を強調している。 私たちのコード、データセット、収集したサンプルはhttps://github.com/lindiatjuatja/biasmonkeyで入手できます。

As large language models (LLMs) become more capable, there is growing excitement about the possibility of using LLMs as proxies for humans in real-world tasks where subjective labels are desired, such as in surveys and opinion polling. One widely-cited barrier to the adoption of LLMs is their sensitivity to prompt wording -- but interestingly, humans also display sensitivities to instruction changes in the form of response biases. As such, we argue that if LLMs are going to be used to approximate human opinions, it is necessary to investigate the extent to which LLMs also reflect human response biases, if at all. In this work, we use survey design as a case study, where human response biases caused by permutations in wordings of ``prompts'' have been extensively studied. Drawing from prior work in social psychology, we design a dataset and propose a framework to evaluate whether LLMs exhibit human-like response biases in survey questionnaires. Our comprehensive evaluation of nine models shows that popular open and commercial LLMs generally fail to reflect human-like behavior. These inconsistencies tend to be more prominent in models that have been instruction fine-tuned. Furthermore, even if a model shows a significant change in the same direction as humans, we find that perturbations that are not meant to elicit significant changes in humans may also result in a similar change, suggesting that such a result could be partially due to other spurious correlations. These results highlight the potential pitfalls of using LLMs to substitute humans in parts of the annotation pipeline, and further underscore the importance of finer-grained characterizations of model behavior. Our code, dataset, and collected samples are available at https://github.com/lindiatjuatja/BiasMonkey
翻訳日:2023-11-08 15:00:51 公開日:2023-11-07
# 模倣を超えて:アライメントのためのきめ細かい品質信号を活用する

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment ( http://arxiv.org/abs/2311.04072v1 )

ライセンス: Link先を確認
Geyang Guo, Ranchi Zhao, Tianyi Tang, Wayne Xin Zhao, Ji-Rong Wen(参考訳) 人間の好みに合わせたアライメントは、大きな言語モデル(LLM)の望ましい特性である。 現在、主なアライメントアプローチは、人間のフィードバック(RLHF)からの強化学習に基づいている。 rlhfの有効性にもかかわらず、実装と訓練は複雑であり、教師付き微調整(sft)に基づく代替アライメントアプローチの開発方法が研究されている。 SFTの大きな制限は、基本的に模倣学習を行うことであり、期待される行動が何であるかを完全に理解できないことである。 この問題に対処するため、FIGAという改良されたアライメント手法を提案する。 先行手法と異なり,良質な応答と悪質な応答を対比して得られた,きめ細かい(トークンやフレーズレベルの)品質信号を取り入れた。 我々のアプローチは2つの大きな貢献をした。 まず、初期応答とそれに対応する修正データセットをペアにした精巧なアライメントデータセットをキュレートする。 第二に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。 多くの競合ベースラインを比較することで、我々のアプローチの有効性を広範な実験で実証しました。

Alignment with human preference is a desired property of large language models (LLMs). Currently, the main alignment approach is based on reinforcement learning from human feedback (RLHF). Despite the effectiveness of RLHF, it is intricate to implement and train, thus recent studies explore how to develop alternative alignment approaches based on supervised fine-tuning (SFT). A major limitation of SFT is that it essentially does imitation learning, which cannot fully understand what are the expected behaviors. To address this issue, we propose an improved alignment approach named FIGA. Different from prior methods, we incorporate fine-grained (i.e., token or phrase level) quality signals that are derived by contrasting good and bad responses. Our approach has made two major contributions. Firstly, we curate a refined alignment dataset that pairs initial responses and the corresponding revised ones. Secondly, we devise a new loss function can leverage fine-grained quality signals to instruct the learning of LLMs for alignment. Extensive experiments have demonstrated the effectiveness of our approaches by comparing a number of competitive baselines.
翻訳日:2023-11-08 15:00:20 公開日:2023-11-07
# テストタイムフリーランチを用いたエネルギーベースキャリブレーションvae

Energy-based Calibrated VAE with Test Time Free Lunch ( http://arxiv.org/abs/2311.04071v1 )

ライセンス: Link先を確認
Yihong Luo, Siya Qiu, Xingjian Tao, Yujun Cai, Jing Tang(参考訳) 本稿では,条件付きebmを用いた可変オートエンコーダ(vaes)の拡張を行う新しいエネルギー共役生成モデルを提案する。 VAEは効率よくサンプリングされるが、生成方向の訓練の欠如により、しばしばぼやけた生成結果に悩まされる。 一方、エネルギーベースモデル(EBM)は高品質なサンプルを生成することができるが、高価なマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要である。 これらの課題に対処するために,テスト時間サンプリングに必要とせず,トレーニング中の生成方向を調整するための条件付きEMMを導入する。 提案手法は,データおよび適応重み付き校正標本に基づいて生成モデルを訓練し,MCMCサンプリングを推論フェーズで必要とせずに効率と有効性を向上する。 また, 提案手法は, 流れの正規化と変動後部を校正するために拡張可能であることを示す。 さらに,提案手法をニューラルトランスポートとレンジヌル理論によるゼロショット画像復元に適用する。 提案手法の有効性を,画像生成やゼロショット画像復元など様々な応用の広範な実験により実証する。 本手法は, 単段階の非逆数生成における最先端性能を示す。

In this paper, we propose a novel Energy-Calibrated Generative Model that utilizes a Conditional EBM for enhancing Variational Autoencoders (VAEs). VAEs are sampling efficient but often suffer from blurry generation results due to the lack of training in the generative direction. On the other hand, Energy-Based Models (EBMs) can generate high-quality samples but require expensive Markov Chain Monte Carlo (MCMC) sampling. To address these issues, we introduce a Conditional EBM for calibrating the generative direction during training, without requiring it for test time sampling. Our approach enables the generative model to be trained upon data and calibrated samples with adaptive weight, thereby enhancing efficiency and effectiveness without necessitating MCMC sampling in the inference phase. We also show that the proposed approach can be extended to calibrate normalizing flows and variational posterior. Moreover, we propose to apply the proposed method to zero-shot image restoration via neural transport prior and range-null theory. We demonstrate the effectiveness of the proposed method through extensive experiments in various applications, including image generation and zero-shot image restoration. Our method shows state-of-the-art performance over single-step non-adversarial generation.
翻訳日:2023-11-08 15:00:02 公開日:2023-11-07
# LISBET:社会行動モチーフの自動セグメンテーションのための自己教師型トランスフォーマーモデル

LISBET: a self-supervised Transformer model for the automatic segmentation of social behavior motifs ( http://arxiv.org/abs/2311.04069v1 )

ライセンス: Link先を確認
Giuseppe Chindemi, Benoit Girard, Camilla Bellone(参考訳) 個人が他者に反応して行動し反応する過程として定義される社会的行動は、社会の機能に不可欠であり、精神的健康に重大な影響を及ぼす。 社会的行動の複雑さを十分に把握し、社会的欠陥に対処するための治療目標を特定するためには、その核となる原則を理解することが不可欠である。 機械学習アルゴリズムは複雑な振る舞いの特定の側面を研究するのを容易にするが、現在の手法は主に単一動物行動に焦点を当てる傾向がある。 本研究では,社会相互作用の検出とセグメント化を目的としたモデルであるLISBET(seLf-supervIsed Social BEhavioral Transformer)を導入する。 本モデルでは,動的身体部位追跡データから社会的行動の検出と定量化に自己教師付き学習を用いることで,特徴選択や広範な人間アノテーションの必要性を解消する。 LISBETは、教師付き微調整を用いて行動分類を自動化する仮説駆動型モードや、教師なし学習を用いて社会的行動モチーフを分割する発見駆動型モードで使用できる。 発見駆動アプローチを用いて認識されるモチーフは,ヒトの注記と密接に一致するだけでなく,心室四肢野(vta)のドーパミン作動性ニューロンの電気生理学的活性とも相関することがわかった。 LISBETは、コミュニティが社会行動とその神経基盤を理解するのに役立つことを願っています。

Social behavior, defined as the process by which individuals act and react in response to others, is crucial for the function of societies and holds profound implications for mental health. To fully grasp the intricacies of social behavior and identify potential therapeutic targets for addressing social deficits, it is essential to understand its core principles. Although machine learning algorithms have made it easier to study specific aspects of complex behavior, current methodologies tend to focus primarily on single-animal behavior. In this study, we introduce LISBET (seLf-supervIsed Social BEhavioral Transformer), a model designed to detect and segment social interactions. Our model eliminates the need for feature selection and extensive human annotation by using self-supervised learning to detect and quantify social behaviors from dynamic body parts tracking data. LISBET can be used in hypothesis-driven mode to automate behavior classification using supervised finetuning, and in discovery-driven mode to segment social behavior motifs using unsupervised learning. We found that motifs recognized using the discovery-driven approach not only closely match the human annotations but also correlate with the electrophysiological activity of dopaminergic neurons in the Ventral Tegmental Area (VTA). We hope LISBET will help the community improve our understanding of social behaviors and their neural underpinnings.
翻訳日:2023-11-08 14:59:41 公開日:2023-11-07
# 対話型タスク完了のためのマルチタスクマルチモーダル訓練

Multitask Multimodal Prompted Training for Interactive Embodied Task Completion ( http://arxiv.org/abs/2311.04067v1 )

ライセンス: Link先を確認
Georgios Pantazopoulos, Malvina Nikandrou, Amit Parekh, Bhathiya Hemanthage, Arash Eshghi, Ioannis Konstas, Verena Rieser, Oliver Lemon, Alessandro Suglia(参考訳) インタラクティブで具体化されたタスクは、既存のビジョン&言語(VL)モデルに少なくとも2つの根本的な課題をもたらす。 1)行動・観察の軌跡における接地言語 2)参照の曖昧さ。 これらの課題に対処するために、画像や軌跡を考慮に入れた統一エンコーダデコーダモデルであるEmbodied MultiModal Agent (EMMA)を提案し、アクション予測をマルチモーダルテキスト生成としてキャストする。 すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。 独立に訓練されたコンポーネントを持つ以前のモジュラーアプローチとは異なり、各タスクがゴール完了に寄与する単一のマルチタスクモデルを使用する。 EMMAは、いくつかのVLベンチマークで同様のモデルと同等に動作し、Alexa Arenaにおけるダイアログ誘導エージェントを評価するベンチマークであるDialog-Guided Task Completion (DTC)上で、最先端のパフォーマンス(36.81%の成功率)を新たに設定する。

Interactive and embodied tasks pose at least two fundamental challenges to existing Vision & Language (VL) models, including 1) grounding language in trajectories of actions and observations, and 2) referential disambiguation. To tackle these challenges, we propose an Embodied MultiModal Agent (EMMA): a unified encoder-decoder model that reasons over images and trajectories, and casts action prediction as multimodal text generation. By unifying all tasks as text generation, EMMA learns a language of actions which facilitates transfer across tasks. Different to previous modular approaches with independently trained components, we use a single multitask model where each task contributes to goal completion. EMMA performs on par with similar models on several VL benchmarks and sets a new state-of-the-art performance (36.81% success rate) on the Dialog-guided Task Completion (DTC), a benchmark to evaluate dialog-guided agents in the Alexa Arena
翻訳日:2023-11-08 14:59:15 公開日:2023-11-07
# CLIPはソースのローカライゼーションに役立つか?

Can CLIP Help Sound Source Localization? ( http://arxiv.org/abs/2311.04066v1 )

ライセンス: Link先を確認
Sooyoung Park, Arda Senocak, Joon Son Chung(参考訳) 大規模な事前訓練された画像テキストモデルは、その堅牢な表現能力と効果的なマルチモーダルアライメントの恩恵を受けながら、様々なタスクにまたがる顕著な汎用性を示す。 我々は、これらのモデル、特にクリップの応用を音源の局所化の領域にまで拡張する。 従来のアプローチとは異なり、音声と視覚の対応にのみ依存せず、明示的なテキスト入力なしで事前学習したCLIPモデルを採用する。 そこで本研究では,音声信号をクリップのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。 本手法は,これらの埋め込みを直接使用することにより,提供されたオーディオ用音声接地マスクを生成し,強調領域から音声接地画像の特徴を抽出し,音声-視覚対応目標を用いて音声駆動の埋め込みと整列する。 その結果,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できることがわかった。 広範な実験により,本手法は最先端のアプローチをかなりのマージンで上回っていることが示された。

Large-scale pre-trained image-text models demonstrate remarkable versatility across diverse tasks, benefiting from their robust representational capabilities and effective multimodal alignment. We extend the application of these models, specifically CLIP, to the domain of sound source localization. Unlike conventional approaches, we employ the pre-trained CLIP model without explicit text input, relying solely on the audio-visual correspondence. To this end, we introduce a framework that translates audio signals into tokens compatible with CLIP's text encoder, yielding audio-driven embeddings. By directly using these embeddings, our method generates audio-grounded masks for the provided audio, extracts audio-grounded image features from the highlighted regions, and aligns them with the audio-driven embeddings using the audio-visual correspondence objective. Our findings suggest that utilizing pre-trained image-text models enable our model to generate more complete and compact localization maps for the sounding objects. Extensive experiments show that our method outperforms state-of-the-art approaches by a significant margin.
翻訳日:2023-11-08 14:58:54 公開日:2023-11-07
# 風車の保守作業順序から信頼性KPIを抽出する手法の実装と比較

Implementation and Comparison of Methods to Extract Reliability KPIs out of Textual Wind Turbine Maintenance Work Orders ( http://arxiv.org/abs/2311.04064v1 )

ライセンス: Link先を確認
Marc-Alexander Lutz, Bastian Sch\"afermeier, Rachael Sexton, Michael Sharp, Alden Dima, Stefan Faulstich, Jagan Mohini Aluri(参考訳) 保守作業命令は、風力タービンの運転とメンテナンスに関する情報を文書化するために一般的に使用される。 これには、予防や修正メンテナンスなど、アクティブで反応性のある風力タービンのダウンタイムの詳細が含まれている。 しかし、メンテナンス作業の発注に含まれる情報はしばしば構造化されておらず、分析が難しいため、意思決定者がこの情報を運用や保守の最適化に利用するのが困難である。 この問題に対処するため,本研究では,保守作業順序から信頼性キー性能指標を計算するための3つのアプローチを提案する。 最初のアプローチでは、ドメインの専門家によるメンテナンス作業の順序を手動でラベリングし、産業ガイドラインで定義されたスキーマを使用してラベルを割り当てる。 第2のアプローチは、テキスト分類手法を使用してメンテナンス作業順序を自動的にラベル付けするモデルの開発である。 第3のテクニックは、AI支援のタグ付けツールを使用して、メンテナンス作業順序に含まれる生のメンテナンス情報をタグ付けし、構造化する。 第1アプローチの計算された信頼性鍵性能指標を、第2および第3アプローチの結果と比較するためのベンチマークとして用いる。 使用した品質と時間は評価基準として考慮される。 これら3つの方法は,保守作業順序からメンテナンス情報を抽出し,信頼性の高いキー性能指標の評価を可能にし,風力タービンの運転とメンテナンスの最適化を支援する。

Maintenance work orders are commonly used to document information about wind turbine operation and maintenance. This includes details about proactive and reactive wind turbine downtimes, such as preventative and corrective maintenance. However, the information contained in maintenance work orders is often unstructured and difficult to analyze, making it challenging for decision-makers to use this information for optimizing operation and maintenance. To address this issue, this work presents three different approaches to calculate reliability key performance indicators from maintenance work orders. The first approach involves manual labeling of the maintenance work orders by domain experts, using the schema defined in an industrial guideline to assign the label accordingly. The second approach involves the development of a model that automatically labels the maintenance work orders using text classification methods. The third technique uses an AI-assisted tagging tool to tag and structure the raw maintenance information contained in the maintenance work orders. The resulting calculated reliability key performance indicator of the first approach are used as a benchmark for comparison with the results of the second and third approaches. The quality and time spent are considered as criteria for evaluation. Overall, these three methods make extracting maintenance information from maintenance work orders more efficient, enable the assessment of reliability key performance indicators and therefore support the optimization of wind turbine operation and maintenance.
翻訳日:2023-11-08 14:58:34 公開日:2023-11-07
# 頑健な純粋触手操作のための推定子結合強化学習

Estimator-Coupled Reinforcement Learning for Robust Purely Tactile In-Hand Manipulation ( http://arxiv.org/abs/2311.04060v1 )

ライセンス: Link先を確認
Lennart R\"ostel, Johannes Pitz, Leon Sievers, Berthold B\"auml(参考訳) 本稿では,ロボットハンド操作のための学習ベースコントローラと状態推定器とを自然に組み合わせた問題を特定し,解決する。 具体的には、手を下向きに向けて、純粋に触覚、ゴールコンディショニング、多角的な手のリオリエンテーションという課題に取り組む。 センサが限られているため、オブジェクトの状態の完全な知識を持つ場合、シミュレーションで実現可能な多くの制御戦略は、正確な状態推定を許さない。 したがって、コントローラと推定器を別々にトレーニングし、テスト時に2つを組み合わせることでパフォーマンスが低下する。 シミュレーションのトレーニング中に,制御ポリシーを状態推定器に結合することで,この問題を解決する。 このアプローチは、エンドツーエンドのポリシー学習よりも解釈可能性のアドバンテージを維持しながら、より堅牢な状態推定とタスク全体のパフォーマンスをもたらす。 当社のGPUアクセラレート実装では、スクラッチからの学習は、単一の低コストGPUで6.5時間のトレーニング時間のみを要します。 DLR-Hand IIと4つの異なる物体形状のシミュレーション実験において,本手法の性能を詳細に解析する。 4つの物体を24方向全てに回転させることで、sim2実数移動が成功したことを、so(3)の$\pi/2$離散化で証明する。 最後に,本手法は,従来手法の到達範囲を超えていた9つの目標 (median) に連続して立方体を再配置することができる。

This paper identifies and addresses the problems with naively combining (reinforcement) learning-based controllers and state estimators for robotic in-hand manipulation. Specifically, we tackle the challenging task of purely tactile, goal-conditioned, dextrous in-hand reorientation with the hand pointing downwards. Due to the limited sensing available, many control strategies that are feasible in simulation when having full knowledge of the object's state do not allow for accurate state estimation. Hence, separately training the controller and the estimator and combining the two at test time leads to poor performance. We solve this problem by coupling the control policy to the state estimator already during training in simulation. This approach leads to more robust state estimation and overall higher performance on the task while maintaining an interpretability advantage over end-to-end policy learning. With our GPU-accelerated implementation, learning from scratch takes a median training time of only 6.5 hours on a single, low-cost GPU. In simulation experiments with the DLR-Hand II and for four significantly different object shapes, we provide an in-depth analysis of the performance of our approach. We demonstrate the successful sim2real transfer by rotating the four objects to all 24 orientations in the $\pi/2$ discretization of SO(3), which has never been achieved for such a diverse set of shapes. Finally, our method can reorient a cube consecutively to nine goals (median), which was beyond the reach of previous methods in this challenging setting.
翻訳日:2023-11-08 14:57:54 公開日:2023-11-07
# mmFUSION:3Dオブジェクト検出のためのマルチモーダルフュージョン

mmFUSION: Multimodal Fusion for 3D Objects Detection ( http://arxiv.org/abs/2311.04058v1 )

ライセンス: Link先を確認
Javed Ahmad and Alessio Del Bue(参考訳) マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。 カメラとLiDARは最もよく使われるセンサーであり、通常は関心のある領域(RoI)の助けを借りて3D検出器の初期段階または後期に融合する。 一方、中間レベルでの融合は、モダリティからroisを必要とせず、異なる視点から両方のモダリティの特徴が提示されるため複雑であるため、より適応的である。 本稿では,これらの課題を克服するための新しい中間レベルマルチモーダル融合(mmFUSION)手法を提案する。 第一に、mmFUSIONは各モードごとに異なるエンコーダを使用して、所望の低い空間体積で特徴を計算する。 第二に、これらの特徴はmmFUSIONで提案されたクロスモダリティおよびマルチモダリティアテンション機構を通じて融合される。 mmFUSIONフレームワークはマルチモーダル情報を保存し、注意重みを通してモダリティの欠陥を補完することを学ぶ。 mmFUSIONフレームワークの強力なマルチモーダル機能は、単純な3次元検出ヘッドに供給され、3次元予測を行う。 KITTI と NuScenes のデータセット上で mmFUSION を評価し,早期,中期,後期,さらには2段階の融合方式よりも優れた性能を示した。 mmdetection3dプロジェクトプラグインのコードは近く公開される予定だ。

Multi-sensor fusion is essential for accurate 3D object detection in self-driving systems. Camera and LiDAR are the most commonly used sensors, and usually, their fusion happens at the early or late stages of 3D detectors with the help of regions of interest (RoIs). On the other hand, fusion at the intermediate level is more adaptive because it does not need RoIs from modalities but is complex as the features of both modalities are presented from different points of view. In this paper, we propose a new intermediate-level multi-modal fusion (mmFUSION) approach to overcome these challenges. First, the mmFUSION uses separate encoders for each modality to compute features at a desired lower space volume. Second, these features are fused through cross-modality and multi-modality attention mechanisms proposed in mmFUSION. The mmFUSION framework preserves multi-modal information and learns to complement modalities' deficiencies through attention weights. The strong multi-modal features from the mmFUSION framework are fed to a simple 3D detection head for 3D predictions. We evaluate mmFUSION on the KITTI and NuScenes dataset where it performs better than available early, intermediate, late, and even two-stage based fusion schemes. The code with the mmdetection3D project plugin will be publicly available soon.
翻訳日:2023-11-08 14:57:07 公開日:2023-11-07
# 部分可観測性を用いた多視点因果表現学習

Multi-View Causal Representation Learning with Partial Observability ( http://arxiv.org/abs/2311.04056v1 )

ライセンス: Link先を確認
Dingling Yao, Danru Xu, S\'ebastien Lachapelle, Sara Magliacane, Perouz Taslakian, Georg Martius, Julius von K\"ugelgen and Francesco Locatello(参考訳) 本稿では,データモダリティの相違など,同時観測されたビューから学習した表現の識別性を研究するための統一フレームワークを提案する。 各ビューが基礎となる潜在変数のサブセットの非線形混合を構成する部分的観測設定を可能とし、因果的に関連付けることができる。 任意のビューのすべてのサブセット間で共有される情報は、コントラスト学習とビュー毎の単一エンコーダを用いて、スムーズなビジェクションまで学習できることを実証する。 また,任意の潜在変数を単純なルールセットで識別できることを示すグラフィカルな基準を提供し,これを識別可能代数学と呼ぶ。 我々の一般的な枠組みと理論的結果は、多視点非線形ICA、非絡み合い、因果表現学習に関する過去の研究を統一し拡張する。 数値、画像、マルチモーダルデータセットに関する我々の主張を実験的に検証する。 さらに,従来手法の性能が,設定の特別な場合に異なる場合に回復できることを実証する。 全体として、複数の部分ビューへのアクセスによって、部分的可観測性という仮定の下で、よりきめ細かい表現を識別できることが分かっています。

We present a unified framework for studying the identifiability of representations learned from simultaneously observed views, such as different data modalities. We allow a partially observed setting in which each view constitutes a nonlinear mixture of a subset of underlying latent variables, which can be causally related. We prove that the information shared across all subsets of any number of views can be learned up to a smooth bijection using contrastive learning and a single encoder per view. We also provide graphical criteria indicating which latent variables can be identified through a simple set of rules, which we refer to as identifiability algebra. Our general framework and theoretical results unify and extend several previous works on multi-view nonlinear ICA, disentanglement, and causal representation learning. We experimentally validate our claims on numerical, image, and multi-modal data sets. Further, we demonstrate that the performance of prior methods is recovered in different special cases of our setup. Overall, we find that access to multiple partial views enables us to identify a more fine-grained representation, under the generally milder assumption of partial observability.
翻訳日:2023-11-08 14:56:18 公開日:2023-11-07
# 半教師付き学習のための特徴空間の正規化

Feature Space Renormalization for Semi-supervised Learning ( http://arxiv.org/abs/2311.04055v1 )

ライセンス: Link先を確認
Jun Sun, Zhongjie Mao, Chao Li, Chao Zhou, Xiao-Jun Wu(参考訳) 半教師付き学習(ssl)は、ラベルなしのデータを利用して大きなラベル付きデータセットへのモデルの依存を緩和する強力な方法であることが証明されている。 最近のアプローチの共通する枠組みは、入力摂動に不変となるモデル予測を制約するために、一貫性の規則化を伴う大量の非競合データでモデルを訓練することである。 しかし、既存のSSLフレームワークには、一貫性の正規化方法を改善する余地がある。 本稿では,既存のフレームワークのようにラベル空間のカテゴリ予測を正規化する代わりに,SSLの機能空間再正規化(FSR)機構を提案する。 まず、よく使われる整合性正規化機構の代わりに、より優れた識別的特徴を学習するための特徴空間再正規化機構を提案する。 このメカニズムを適用するために、まず基礎モデルと経験モデルを構築し、経験モデルのガイダンスを用いて基礎モデルの特徴学習を正規化するためのメカニズムを導入する。 第二に、提案機構と擬似ラベリングを組み合わせて、FreMatchという新しい有効SSLモデルを得る。 実験の結果,提案手法はさまざまな標準SSLベンチマークデータセットの性能向上を実現し,提案手法は他のSSL手法の性能向上にも寄与することがわかった。

Semi-supervised learning (SSL) has been proven to be a powerful method for leveraging unlabelled data to alleviate models' dependence on large labelled datasets. The common framework among recent approaches is to train the model on a large amount of unlabelled data with consistency regularization to constrain the model predictions to be invariant to input perturbation. However, the existing SSL frameworks still have room for improvement in the consistency regularization method. Instead of regularizing category predictions in the label space as in existing frameworks, this paper proposes a feature space renormalization (FSR) mechanism for SSL. First, we propose a feature space renormalization mechanism to substitute for the commonly used consistency regularization mechanism to learn better discriminative features. To apply this mechanism, we start by building a basic model and an empirical model and then introduce our mechanism to renormalize the feature learning of the basic model with the guidance of the empirical model. Second, we combine the proposed mechanism with pseudo-labelling to obtain a novel effective SSL model named FreMatch. The experimental results show that our method can achieve better performance on a variety of standard SSL benchmark datasets, and the proposed feature space renormalization mechanism can also enhance the performance of other SSL approaches.
翻訳日:2023-11-08 14:55:52 公開日:2023-11-07
# 中性原子量子コンピュータのベンチマーク

Benchmarking a Neutral-Atom Quantum Computer ( http://arxiv.org/abs/2311.04141v1 )

ライセンス: Link先を確認
N. Wagner, C. Poole, T. M. Graham, and M. Saffman(参考訳) 本研究では,小型中性原子量子コンピュータのアルゴリズム性能をシミュレーションし,その性能をオール・ツー・オールと近辺接続で比較した。 この比較はquantum economic development consortiumが開発した一連のアルゴリズムベンチマークを用いて行われた。 回路はNature 604, 457 (2022)の実験データと一致するノイズモデルでシミュレートされた。 最寄りの接続に比べて、全接続によりシミュレーション回路の忠実性が10\%-15\%$向上することが判明した。

In this study, we simulated the algorithmic performance of a small neutral atom quantum computer and compared its performance when operating with all-to-all versus nearest-neighbor connectivity. This comparison was made using a suite of algorithmic benchmarks developed by the Quantum Economic Development Consortium. Circuits were simulated with a noise model consistent with experimental data from Nature 604, 457 (2022). We find that all-to-all connectivity improves simulated circuit fidelity by $10\%-15\%$, compared to nearest-neighbor connectivity.
翻訳日:2023-11-08 14:47:12 公開日:2023-11-07
# 感情分析のモデリング: llmとデータ拡張技術

Modelling Sentiment Analysis: LLMs and data augmentation techniques ( http://arxiv.org/abs/2311.04139v1 )

ライセンス: Link先を確認
Guillem Senabre Prades(参考訳) 本稿では、小さなトレーニングデータセット上でのバイナリ感情分類に異なるアプローチを提案する。 感情分析の最先端を提供するLLMや、BERT、RoBERTa、XLNetといった類似のドメインが使用されている。

This paper provides different approaches for a binary sentiment classification on a small training dataset. LLMs that provided state-of-the-art results in sentiment analysis and similar domains are being used, such as BERT, RoBERTa and XLNet.
翻訳日:2023-11-08 14:46:59 公開日:2023-11-07
# ランダム自然勾配

Random Natural Gradient ( http://arxiv.org/abs/2311.04135v1 )

ライセンス: Link先を確認
Ioannis Kolotouros and Petros Wallden(参考訳) ハイブリッド量子古典アルゴリズムは、短期量子アプリケーションにとって最も有望なアプローチである。 重要なボトルネックは古典的な最適化ループであり、複数の局所ミニマとバレンプレートの出現はこれらのアプローチを魅力的にしない。 最適化を改善するために,量子状態空間の局所幾何情報を用いた量子自然勾配法 [量子4,269 (2020)] を導入した。 QNGベースの最適化は有望であるが、QNGを計算するためには$O(m^2)$の量子状態の準備が必要であり、$m$はパラメータ化された回路のパラメータの数である。 本研究は,QNG最適化の利点と性能を維持しつつ,QNGに必要な資源・状態準備を削減できる2つの手法を提案する。 具体的には、ランダム測定と古典的なフィッシャー情報行列(QNGで使用される量子フィッシャー情報とは対照的に)を用いたランダム自然勾配(RNG)を導入する。 必須量子資源は線形$O(m)$に減少し、2次的な"スピードアップ"を提供するが、数値シミュレーションでは精度の点でQNGと一致する。 我々は、RNGに関する理論的議論を行い、古典的問題と量子的問題の両方についてQNGを用いて手法をベンチマークする。 第2に、確率座標法に着想を得て、各繰り返しにおける全パラメータの小さな(ランダムにサンプリングされた)分だけを最適化する確率座標量子自然勾配と呼ばれるQNGに対する新しい近似を提案する。 この方法はベンチマークでも同等に機能するが、QNGよりも少ないリソースを使用する。

Hybrid quantum-classical algorithms appear to be the most promising approach for near-term quantum applications. An important bottleneck is the classical optimization loop, where the multiple local minima and the emergence of barren plateaux make these approaches less appealing. To improve the optimization the Quantum Natural Gradient (QNG) method [Quantum 4, 269 (2020)] was introduced - a method that uses information about the local geometry of the quantum state-space. While the QNG-based optimization is promising, in each step it requires more quantum resources, since to compute the QNG one requires $O(m^2)$ quantum state preparations, where $m$ is the number of parameters in the parameterized circuit. In this work we propose two methods that reduce the resources/state preparations required for QNG, while keeping the advantages and performance of the QNG-based optimization. Specifically, we first introduce the Random Natural Gradient (RNG) that uses random measurements and the classical Fisher information matrix (as opposed to the quantum Fisher information used in QNG). The essential quantum resources reduce to linear $O(m)$ and thus offer a quadratic "speed-up", while in our numerical simulations it matches QNG in terms of accuracy. We give some theoretical arguments for RNG and then benchmark the method with the QNG on both classical and quantum problems. Secondly, inspired by stochastic-coordinate methods, we propose a novel approximation to the QNG which we call Stochastic-Coordinate Quantum Natural Gradient that optimizes only a small (randomly sampled) fraction of the total parameters at each iteration. This method also performs equally well in our benchmarks, while it uses fewer resources than the QNG.
翻訳日:2023-11-08 14:46:54 公開日:2023-11-07
# 変圧器におけるクロスタスクシーケンス継続回路の同定

Locating Cross-Task Sequence Continuation Circuits in Transformers ( http://arxiv.org/abs/2311.04131v1 )

ライセンス: Link先を確認
Michael Lan, Fazl Barez(参考訳) トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にする。 最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる可読表現にリバースエンジニアリングすることを目的としている。 この研究は、桁数、数語数、月数の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。 回路解析手法の適用により、シーケンス部材の検出と次の配列部材の予測に責任を負うキーサブ回路を同定する。 解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存することが明らかとなった。 全体として、共有計算構造の文書化は、モデルの振る舞いのより良い予測、エラーの識別、より安全な編集手順を可能にする。 トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。

While transformer models exhibit strong capabilities on linguistic tasks, their complex architectures make them difficult to interpret. Recent work has aimed to reverse engineer transformer models into human-readable representations called circuits that implement algorithmic functions. We extend this research by analyzing and comparing circuits for similar sequence continuation tasks, which include increasing sequences of digits, number words, and months. Through the application of circuit analysis techniques, we identify key sub-circuits responsible for detecting sequence members and for predicting the next member in a sequence. Our analysis reveals that semantically related sequences rely on shared circuit subgraphs with analogous roles. Overall, documenting shared computational structures enables better prediction of model behaviors, identification of errors, and safer editing procedures. This mechanistic understanding of transformers is a critical step towards building more robust, aligned, and interpretable language models.
翻訳日:2023-11-08 14:46:28 公開日:2023-11-07
# 光キャビティ内における量子エミッタのパーセル修飾ドップラー冷却

Purcell modified Doppler cooling of quantum emitters inside optical cavities ( http://arxiv.org/abs/2311.04129v1 )

ライセンス: Link先を確認
Julian Lyne, Nico S. Bassler, Song Eun Park, Guido Pupillo, Claudiu Genes(参考訳) 原子または誘電体粒子の標準キャビティ冷却は、高精細なキャビティにおける分散光学力の作用に基づいている。 本稿では,標準ドップラー冷却法に類似したキャビティ損失を特徴とする相補的な構造について検討する。 単一2レベルエミッタの場合、大きな協調性限界における自発的エミッタのパーセル増強から冷却速度の修正が得られる。 この機構は、クローズドトランジションのない量子エミッタを冷却することを目的としており、これは分子系の場合であり、パーセル効果は冷却サイクルから集団の損失を緩和することができる。 我々は, 弱い個々のカップリングによって制御される多数の粒子の場合に解析的定式化を拡張し, キャビティモードに集合的に強いパーセル強化を示す。

Standard cavity cooling of atoms or dielectric particles is based on the action of dispersive optical forces in high-finesse cavities. We investigate here a complementary regime characterized by large cavity losses, resembling the standard Doppler cooling technique. For a single two-level emitter a modification of the cooling rate is obtained from the Purcell enhancement of spontaneous emission in the large cooperativity limit. This mechanism is aimed at cooling of quantum emitters without closed transitions, which is the case for molecular systems, where the Purcell effect can mitigate the loss of population from the cooling cycle. We extend our analytical formulation to the many particle case governed by weak individual coupling but exhibiting collective strong Purcell enhancement to a cavity mode.
翻訳日:2023-11-08 14:46:12 公開日:2023-11-07
# 非線形ダイナミクスのための生成学習

Generative learning for nonlinear dynamics ( http://arxiv.org/abs/2311.04128v1 )

ライセンス: Link先を確認
William Gilpin(参考訳) 現代の生成機械学習モデルは、フォトリアリスティックアートワーク、正確なタンパク質構造、会話テキストなど、トレーニングデータを超えてリアルなアウトプットを作成する驚くべき能力を示している。 これらの成功は、生成モデルが任意に複雑な分布を効果的にパラメトリズしサンプルすることを学ぶことを示唆している。 半世紀ほど前、非線形力学の基礎研究は、情報理論のツールを使って時系列からカオスアトラクションの特性を推測し、実際のデータセットにおけるカオスをパラメータ化するアルゴリズムの開発を動機づけた。 この観点から、我々はこれらの古典作品と大規模生成統計学習の新たなテーマを結びつけることを目指している。 まず、時系列の状態空間モデルによって学習された潜在表現の制約を反映した古典的アトラクタ再構成を考える。 次に,ブラックボックス統計モデルを蒸留・解釈する現代の試みに関連する問題として,記号近似を用いて複雑なプロセスの基礎となる最小の離散発生器の比較を行う。 創発的な学際的な研究は、複雑な流体の流れの演算子理論法や、生物学的データセットにおける詳細バランスの破れた検出など、非線形力学と学習理論を橋渡しする。 将来の機械学習技術は、情報伝達の減衰や複雑性-エントロピーのトレードオフなど、非線形力学から他の古典的概念を再考する可能性があると予測する。

Modern generative machine learning models demonstrate surprising ability to create realistic outputs far beyond their training data, such as photorealistic artwork, accurate protein structures, or conversational text. These successes suggest that generative models learn to effectively parametrize and sample arbitrarily complex distributions. Beginning half a century ago, foundational works in nonlinear dynamics used tools from information theory to infer properties of chaotic attractors from time series, motivating the development of algorithms for parametrizing chaos in real datasets. In this perspective, we aim to connect these classical works to emerging themes in large-scale generative statistical learning. We first consider classical attractor reconstruction, which mirrors constraints on latent representations learned by state space models of time series. We next revisit early efforts to use symbolic approximations to compare minimal discrete generators underlying complex processes, a problem relevant to modern efforts to distill and interpret black-box statistical models. Emerging interdisciplinary works bridge nonlinear dynamics and learning theory, such as operator-theoretic methods for complex fluid flows, or detection of broken detailed balance in biological datasets. We anticipate that future machine learning techniques may revisit other classical concepts from nonlinear dynamics, such as transinformation decay and complexity-entropy tradeoffs.
翻訳日:2023-11-08 14:46:00 公開日:2023-11-07
# ダイアグラムからデプロイ: 効率的なマルチロボットシステムプログラミングのためのBPMNコラボレーションをX-Klaimに変換する

From Diagram to Deployment: Translating BPMN Collaborations into X-Klaim for Efficient Multi-Robot System Programming ( http://arxiv.org/abs/2311.04126v1 )

ライセンス: Link先を確認
Khalid Bourr, Francesco Tiezzi(参考訳) 本稿では,ビジネスプロセスモデルと表記法(BPMN)を,マルチロボットシステム(MRS)のための実行可能なX-クレームコードに変換する新しい手法を提案する。 BPMNの明快さとX-Klaimの運用力を組み合わせることで、ユーザから基礎となるプログラミング言語の深い知識を必要とせずに、複雑なロボットインタラクションの設計と実行を可能にします。 我々のアプローチは、X-Klaimへの翻訳においてBPMNモデルのコア設計原則とロジックを維持し、MSSアプリケーションの可読性と保守性を高めます。 本稿では,変換プロセスを自動化するB2XKLAIMツールを紹介する。 本手法は,設計と実装の段階を通じて,MDSプログラミングの合理化と,ロボット工学者とドメインエキスパートとのコラボレーションの改善を目的とする。

This paper introduces a novel method for translating Business Process Model and Notation (BPMN) diagrams into executable X-Klaim code for Multi-Robot Systems (MRSs). Merging the clarity of BPMN with the operational strength of X-Klaim, we enable the design and execution of complex robotic interactions without requiring in-depth knowledge of the underlying programming language from the users. Our approach maintains the BPMN model's core design principles and logic in the translation to X-Klaim, thus enhancing the readability and maintainability of MRS applications. We offer a series of translated examples, address optimization strategies, and introduce the B2XKLAIM tool, which automates the conversion process. This method aims to streamline MRS programming and improve collaboration between roboticists and domain experts throughout the design and implementation stages.
翻訳日:2023-11-08 14:45:35 公開日:2023-11-07
# 大規模言語モデルの安全性向上

Unveiling Safety Vulnerabilities of Large Language Models ( http://arxiv.org/abs/2311.04124v1 )

ライセンス: Link先を確認
George Kour, Marcel Zalmanovici, Naama Zwerdling, Esther Goldbraich, Ora Nova Fandina, Ateret Anaby-Tavor, Orna Raz and Eitan Farchi(参考訳) 大きな言語モデルが普及するにつれて、有害または不適切な応答が懸念される。 本稿では,このような有害な応答や不適切な応答を誘発するように設計された,質問形式での逆例を含むユニークなデータセットについて紹介する。 我々は,さまざまなモデルの脆弱性を分析し,データセットの有効性を評価する。 さらに,モデルが有害なアウトプットを生成する可能性のある入力セマンティクス領域である,脆弱なセマンティクス領域を識別・命名する新しい手法を提案する。 これは、入力攻撃のセマンティックな類似性とモデルの応答の有害性の両方を考慮する特殊なクラスタリング技術の適用によって達成される。 脆弱なセマンティック領域の自動識別は、モデルの弱点の評価を強化し、その安全性メカニズムと全体的な信頼性を目標とする改善を促進する。

As large language models become more prevalent, their possible harmful or inappropriate responses are a cause for concern. This paper introduces a unique dataset containing adversarial examples in the form of questions, which we call AttaQ, designed to provoke such harmful or inappropriate responses. We assess the efficacy of our dataset by analyzing the vulnerabilities of various models when subjected to it. Additionally, we introduce a novel automatic approach for identifying and naming vulnerable semantic regions - input semantic areas for which the model is likely to produce harmful outputs. This is achieved through the application of specialized clustering techniques that consider both the semantic similarity of the input attacks and the harmfulness of the model's responses. Automatically identifying vulnerable semantic regions enhances the evaluation of model weaknesses, facilitating targeted improvements to its safety mechanisms and overall reliability.
翻訳日:2023-11-08 14:45:22 公開日:2023-11-07
# 言語モデルはコードのセマンティクスを学ぶか? 脆弱性検出のケーススタディ

Do Language Models Learn Semantics of Code? A Case Study in Vulnerability Detection ( http://arxiv.org/abs/2311.04109v1 )

ライセンス: Link先を確認
Benjamin Steenhoek, Md Mahbubur Rahman, Shaila Sharmin, and Wei Le(参考訳) 近年,プリトレーニングされた言語モデルが脆弱性検出タスクにおいて最先端のパフォーマンスを示している。 これらのモデルはソースコードの大規模なコーパスで事前トレーニングされ、より小さな教師付き脆弱性データセットで微調整される。 異なるトレーニング目標とモデルの性能のため、モデルが脆弱性検出、すなわちバグセマンティクスに関連するコードのセマンティクスを学習したかどうか、そしてもしバグセマンティクスへのアライメントがモデルのパフォーマンスにどのように関係しているかを考察することは興味深い。 本稿では,解釈ツール,注意分析,相互作用行列分析という3つの異なる手法を用いてモデル解析を行う。 モデルに影響を及ぼす機能セットとバグの原因を定義するバグセマンティクス機能を比較し,バグパスや潜在的に脆弱なステートメント(pvs)などを比較した。 1) 優れた性能のモデルもPSVとよく一致し,(2) モデルがPSVと強く一致しなかったこと,(3) モデルがバグのあるパスと全く一致しなかったこと,などが判明した。 本分析に基づいて,モデル入力内のバグセマンティクスを強調するアノテーション手法を2つ開発した。 4つの異なるトランスフォーマーモデルと4つの脆弱性データセットに対するアプローチを評価した結果、アノテーションは16のうち11でモデルのパフォーマンスを改善し、従来の微調整と比べて最大9.57ポイント改善しました。 さらに、アノテーションによってモデルが、潜在的に脆弱なステートメントに対して最大232%改善されていることも分かりました。 この結果から,モデルが対応できるバグセマンティクスに関する情報をモデルに提供することは有用であり,より複雑なパスベースのバグセマンティクスを学ぶための今後の作業の動機となることが示唆された。 私たちのコードとデータはhttps://figshare.com/s/4a16a528d6874aad51a0で利用可能です。

Recently, pretrained language models have shown state-of-the-art performance on the vulnerability detection task. These models are pretrained on a large corpus of source code, then fine-tuned on a smaller supervised vulnerability dataset. Due to the different training objectives and the performance of the models, it is interesting to consider whether the models have learned the semantics of code relevant to vulnerability detection, namely bug semantics, and if so, how the alignment to bug semantics relates to model performance. In this paper, we analyze the models using three distinct methods: interpretability tools, attention analysis, and interaction matrix analysis. We compare the models' influential feature sets with the bug semantic features which define the causes of bugs, including buggy paths and Potentially Vulnerable Statements (PVS). We find that (1) better-performing models also aligned better with PVS, (2) the models failed to align strongly to PVS, and (3) the models failed to align at all to buggy paths. Based on our analysis, we developed two annotation methods which highlight the bug semantics inside the model's inputs. We evaluated our approach on four distinct transformer models and four vulnerability datasets and found that our annotations improved the models' performance in the majority of settings - 11 out of 16, with up to 9.57 points improvement in F1 score compared to conventional fine-tuning. We further found that with our annotations, the models aligned up to 232% better to potentially vulnerable statements. Our findings indicate that it is helpful to provide the model with information of the bug semantics, that the model can attend to it, and motivate future work in learning more complex path-based bug semantics. Our code and data are available at https://figshare.com/s/4a16a528d6874aad51a0.
翻訳日:2023-11-08 14:45:08 公開日:2023-11-07
# スキルベースビジュアルオブジェクトナビゲーションのための対話型セマンティックマップ表現

Interactive Semantic Map Representation for Skill-based Visual Object Navigation ( http://arxiv.org/abs/2311.04107v1 )

ライセンス: Link先を確認
Tatiana Zemskova, Aleksei Staroverov, Kirill Muravyev, Dmitry Yudin, Aleksandr Panov(参考訳) 学習手法を用いたビジュアルオブジェクトナビゲーションは、モバイルロボティクスにおける重要なタスクの1つである。 本稿では,室内環境とのエージェントインタラクション中に形成されるシーン意味マップの表現について紹介する。 これは、正規(後方)または遅延(前方)画像シーケンスでの推論中に予測された融合損失値のバックプロパゲーションによりセグメンテーションモデルの重みを調整するニューラルネットワーク方式に基づいている。 我々は、この表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装し、強化学習と古典地図に基づく計画手法に基づいて、エンドツーエンドのポリシーからロボットスキルを選択することができる。 提案されたアプローチは、ロボット探索のための中間目標と、オブジェクトナビゲーションの最終目標の両方を形成することができる。 本研究は,生息環境において提案手法を用いた集中的な実験を行い,最新手法と比較してナビゲーション品質指標に有意な優位性を示した。 開発コードと使用されるカスタムデータセットはgithub.com/AIRI-Institute/skill-fusionで公開されている。

Visual object navigation using learning methods is one of the key tasks in mobile robotics. This paper introduces a new representation of a scene semantic map formed during the embodied agent interaction with the indoor environment. It is based on a neural network method that adjusts the weights of the segmentation model with backpropagation of the predicted fusion loss values during inference on a regular (backward) or delayed (forward) image sequence. We have implemented this representation into a full-fledged navigation approach called SkillTron, which can select robot skills from end-to-end policies based on reinforcement learning and classic map-based planning methods. The proposed approach makes it possible to form both intermediate goals for robot exploration and the final goal for object navigation. We conducted intensive experiments with the proposed approach in the Habitat environment, which showed a significant superiority in navigation quality metrics compared to state-of-the-art approaches. The developed code and used custom datasets are publicly available at github.com/AIRI-Institute/skill-fusion.
翻訳日:2023-11-08 14:44:34 公開日:2023-11-07
# 柔軟なジョブショップ問題に対するqaoaのグラフ制御型置換ミキサー

Graph-controlled Permutation Mixers in QAOA for the Flexible Job-Shop Problem ( http://arxiv.org/abs/2311.04100v1 )

ライセンス: Link先を確認
Lilly Palackal, Leonhard Richter, Maximilian Hess(参考訳) 量子コンピューティングのノイズの多い中間スケール時代に量子コンピュータで最適化問題を解く最も有望な試みの1つは、変分量子アルゴリズムである。 Quantum Alternating Operator Ansatzは制約付き組合せ最適化問題のためのアルゴリズムフレームワークを提供する。 よりよく知られた標準qaoaプロトコルとは対照的に、最適化問題の制約はアンサッツ回路の混合層に組み込まれており、従って探索は実現可能な解のより小さいヒルベルト空間に制限される。 本研究では,フレキシブルなジョブショップ問題を含む幅広いスケジューリング問題に対する混合演算子を開発した。 これらの混合演算子は、制約グラフモデルによって定義される特別な制御スキームに基づいている。 これらの混合作用素の明示的な構成を記述した後、それらは実現可能な部分空間を探索するだけでなく、実現可能性を保つことが証明される。

One of the most promising attempts towards solving optimization problems with quantum computers in the noisy intermediate scale era of quantum computing are variational quantum algorithms. The Quantum Alternating Operator Ansatz provides an algorithmic framework for constrained, combinatorial optimization problems. As opposed to the better known standard QAOA protocol, the constraints of the optimization problem are built into the mixing layers of the ansatz circuit, thereby limiting the search to the much smaller Hilbert space of feasible solutions. In this work we develop mixing operators for a wide range of scheduling problems including the flexible job shop problem. These mixing operators are based on a special control scheme defined by a constraint graph model. After describing an explicit construction of those mixing operators, they are proven to be feasibility preserving, as well as exploring the feasible subspace.
翻訳日:2023-11-08 14:44:19 公開日:2023-11-07
# DeepPatent2: テクニカル描画理解のための大規模ベンチマークコーパス

DeepPatent2: A Large-Scale Benchmarking Corpus for Technical Drawing Understanding ( http://arxiv.org/abs/2311.04098v1 )

ライセンス: Link先を確認
Kehinde Ajayi, Xin Wei, Martin Gryder, Winston Shields, Jian Wu, Shawn M. Jones, Michal Kucer, Diane Oyen(参考訳) 近年のコンピュータビジョン(CV)と自然言語処理の進歩は,実践的応用におけるビッグデータの利用によって加速されている。 しかし、これらの研究分野は、利用可能なデータセットの量、汎用性、多様性によって制限されている。 自然画像で主に行われている画像キャプションなどのcvタスクは、科学的・技術的文書にしばしば含まれるスケッチ画像に正確で意味のあるキャプションを作成するのに苦戦している。 2次元画像からの3次元再構成などのタスクは、複数の視点でより大きなデータセットを必要とする。 大規模なデータセットであるDeepPatent2を導入し、14年間の米国設計特許文書から抽出された132,890のオブジェクト名と22,394の視点で270万以上の技術図面を提供する。 概念キャプションを用いたDeepPatent2の有用性を示す。 さらに,3次元画像再構成や画像検索などの他の研究分野を促進するために,データセットの有用性も示唆する。

Recent advances in computer vision (CV) and natural language processing have been driven by exploiting big data on practical applications. However, these research fields are still limited by the sheer volume, versatility, and diversity of the available datasets. CV tasks, such as image captioning, which has primarily been carried out on natural images, still struggle to produce accurate and meaningful captions on sketched images often included in scientific and technical documents. The advancement of other tasks such as 3D reconstruction from 2D images requires larger datasets with multiple viewpoints. We introduce DeepPatent2, a large-scale dataset, providing more than 2.7 million technical drawings with 132,890 object names and 22,394 viewpoints extracted from 14 years of US design patent documents. We demonstrate the usefulness of DeepPatent2 with conceptual captioning. We further provide the potential usefulness of our dataset to facilitate other research areas such as 3D image reconstruction and image retrieval.
翻訳日:2023-11-08 14:44:04 公開日:2023-11-07
# pd-realデータセットを用いたimage-pointcloud fusionに基づく異常検出

Image-Pointcloud Fusion based Anomaly Detection using PD-REAL Dataset ( http://arxiv.org/abs/2311.04095v1 )

ライセンス: Link先を確認
Jianjian Qin, Chunzhi Gu, Jun Yu, Chao Zhang(参考訳) PD-REALは3次元領域における非教師なし異常検出(AD)のための新しい大規模データセットである。 ADタスクにおける2Dのみの表現は、照明条件や撮影角度の不確実性により、異常の幾何学的構造を捉えることができない。 pd-realは15のオブジェクトカテゴリのplay-dohモデルで構成されており、制御された環境での3d情報からの潜在的な利益の分析に焦点を当てている。 具体的には、オブジェクトは最初、デント、ひび割れ、穿孔などの6種類の異常で作成され、その後、異なる照明条件下で撮影され、現実世界の検査シナリオを模倣する。 3D情報の有用性を示すために,市販のRealSenseカメラを用いてRGBと深度画像の撮影を行う。 ADタスクの既存の3Dデータセットと比較して、PD-REALのデータ取得は大幅に安価で、スケーラブルで、変数の制御が容易である。 我々のデータセット上の最先端ADアルゴリズムによる広範囲な評価は、3D情報を使用する際の利点と課題を示している。 私たちのデータセットはhttps://github.com/Andy-cs008/PD-REALからダウンロードできます。

We present PD-REAL, a novel large-scale dataset for unsupervised anomaly detection (AD) in the 3D domain. It is motivated by the fact that 2D-only representations in the AD task may fail to capture the geometric structures of anomalies due to uncertainty in lighting conditions or shooting angles. PD-REAL consists entirely of Play-Doh models for 15 object categories and focuses on the analysis of potential benefits from 3D information in a controlled environment. Specifically, objects are first created with six types of anomalies, such as dent, crack, or perforation, and then photographed under different lighting conditions to mimic real-world inspection scenarios. To demonstrate the usefulness of 3D information, we use a commercially available RealSense camera to capture RGB and depth images. Compared to the existing 3D dataset for AD tasks, the data acquisition of PD-REAL is significantly cheaper, easily scalable and easier to control variables. Extensive evaluations with state-of-the-art AD algorithms on our dataset demonstrate the benefits as well as challenges of using 3D information. Our dataset can be downloaded from https://github.com/Andy-cs008/PD-REAL
翻訳日:2023-11-08 14:43:47 公開日:2023-11-07
# クリロフ複雑性は状態や作用素間の距離の尺度ではない

Krylov complexity is not a measure of distance between states or operators ( http://arxiv.org/abs/2311.04093v1 )

ライセンス: Link先を確認
Sergio E. Aguilar-Gutierrez and Andrew Rolph(参考訳) 我々は、クリロフ複雑性が回路とNielsenの複雑性の定義と相互互換であるかどうかを問う。 3つの状態の間のクリロフ複素数は三角不等式を満たせないため、距離の尺度にはならない: クリロフ複雑性が対象の状態や作用素への最短経路の長さであるような指標は存在しない。 私たちはこれを最も単純な例、単一のキュービット、一般に明示的に示します。

We ask whether Krylov complexity is mutually compatible with the circuit and Nielsen definitions of complexity. We show that the Krylov complexities between three states fail to satisfy the triangle inequality and so cannot be a measure of distance: there is no possible metric for which Krylov complexity is the length of the shortest path to the target state or operator. We show this explicitly in the simplest example, a single qubit, and in general.
翻訳日:2023-11-08 14:43:28 公開日:2023-11-07
# 第5回読書音楽システム国際ワークショップ参加報告

Proceedings of the 5th International Workshop on Reading Music Systems ( http://arxiv.org/abs/2311.04091v1 )

ライセンス: Link先を確認
Jorge Calvo-Zaragoza, Alexander Pacha, Elona Shatri (Eds.)(参考訳) The International Workshop on Reading Music Systems (WoRMS)は、光学音楽認識の分野のような音楽を読むシステムを開発する研究者と、図書館員や音楽学者のようなシステムから恩恵を受けることができる他の研究者や実践者を結びつけるワークショップである。 ワークショップには、音楽読取システム、光学的音楽認識、データセットとパフォーマンス評価、音楽スコアの画像処理、作者識別、音楽スコアのオーサリング、編集、保存、プレゼンテーションシステム、マルチモーダルシステム、作曲された音楽を作成するための新しい入力メソッド、Webベースの音楽情報検索サービス、アプリケーションとプロジェクト、そして、書き込まれた音楽に関連するユースケースが含まれる。 2023年11月4日にイタリアのミラノで開催された第5回読書音楽システム国際ワークショップの議事録である。

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 5th International Workshop on Reading Music Systems, held in Milan, Italy on Nov. 4th 2023.
翻訳日:2023-11-08 14:43:21 公開日:2023-11-07
# ARM-RAGによるLCMインテリジェンス向上:検索拡張生成のための補助的Rationaleメモリ

Enhancing LLM Intelligence with ARM-RAG: Auxiliary Rationale Memory for Retrieval Augmented Generation ( http://arxiv.org/abs/2311.04177v1 )

ライセンス: Link先を確認
Eric Melz(参考訳) 大規模言語モデル(llm)は賢いが忘れやすい。 現代のLLMにおける最近の研究 (Bubeck et al., 2023) は、人間レベルの知能を必要とする驚くべきタスクを遂行できることを示した。 しかし、人間とは異なり、凍結したllmは時間とともに改善せず、新たな知識を得ることも、成功や失敗から学ぶこともない。 LLMのインテリジェンスを改善するいくつかのアプローチには、問題解決性能に基づく微調整モデル(Zelikman et al., 2022)、より大きく洗練されたモデルの構築(Bubeck et al., 2023)などがある。 しかし、これらの手法は既存のモデルを再トレーニングするためにかなりのデータと計算リソースを必要とするという欠点がある。 本稿では,RAG(Lewis et al., 2021)としても知られるRetrieval Augmented Generationを用いて,問題解決性能の向上を図る。 本稿では,高訓練コストを伴わずにその成功から学習するシステムであるarm-rag (auxiliary rationale memory for search augmented generation)を提案する。 本研究は,小学校数学の課題において,論理列の保存とその後の検索が性能に肯定的な影響を及ぼすことを示す。

Large Language Models (LLMs) are smart but forgetful. Recent studies, (e.g., (Bubeck et al., 2023)) on modern LLMs have shown that they are capable of performing amazing tasks typically necessitating human-level intelligence. However, unlike humans, frozen LLMs do not improve over time; they neither acquire new knowledge nor learn from their successes or failures. Some approaches to improving the intelligence of LLMs include fine-tuning models based on problem-solving performance (Zelikman et al., 2022), and building bigger and more sophisticated models (Bubeck et al., 2023). However, these methods have the drawback of requiring substantial data and computational resources to retrain existing models. In this paper, we explore the use of Retrieval Augmented Generation, also known as RAG (Lewis et al., 2021) to improve problem-solving performance. We propose ARM-RAG (Auxiliary Rationale Memory for Retrieval Augmented Generation), a system that learns from its successes without incurring high training costs. We demonstrate that the storage and subsequent retrieval of reasoning chains have a positive influence on performance in grade-school math problems.
翻訳日:2023-11-08 14:36:41 公開日:2023-11-07
# HADES:局所的比較による高速特異度検出

HADES: Fast Singularity Detection with Local Measure Comparison ( http://arxiv.org/abs/2311.04171v1 )

ライセンス: Link先を確認
Uzu Lim, Harald Oberhauser, Vidit Nanda(参考訳) データ中の特異点を検出するための教師なしアルゴリズムhadesを紹介する。 このアルゴリズムはカーネルの好適性テストを採用しており、結果として既存のトポロジベースの代替手法よりもはるかに高速でスケール性が高い。 微分幾何学と最適輸送理論のツールを用いて、データサンプルが同次元多様体の横断交叉上に存在するとき、ハデスは高い確率で特異点を正しく検出できることを証明した。 計算実験において、Hadesは合成されたデータの特異点、道路ネットワークデータの分岐点、分子配座空間の交叉環、画像データの異常を復元する。

We introduce Hades, an unsupervised algorithm to detect singularities in data. This algorithm employs a kernel goodness-of-fit test, and as a consequence it is much faster and far more scaleable than the existing topology-based alternatives. Using tools from differential geometry and optimal transport theory, we prove that Hades correctly detects singularities with high probability when the data sample lives on a transverse intersection of equidimensional manifolds. In computational experiments, Hades recovers singularities in synthetically generated data, branching points in road network data, intersection rings in molecular conformation space, and anomalies in image data.
翻訳日:2023-11-08 14:36:17 公開日:2023-11-07
# 言語モデルで共有される不変性を示す摂動例

Perturbed examples reveal invariances shared by language models ( http://arxiv.org/abs/2311.04166v1 )

ライセンス: Link先を確認
Ruchit Rawal, Mariya Toneva(参考訳) 言語における作業の急増により、利用可能な自然言語処理モデルが増え続けており、新しいモデルがより理解されたモデルと比較する方法についてはほとんど理解されていない。 この難しさの主な理由は、ベンチマークデータセットの飽和化である。 本研究では、特定の言語機能(例えば、Synonym-Invariance、Typo-Invariance)をターゲットにした、解釈可能な入力摂動に対する共用不変性を明らかにすることによって、2つの自然言語処理モデルを比較する新しいフレームワークを提案する。 同一および異なるアーキテクチャファミリ内のモデルに関する実験を通じて、このフレームワークは、モデルの変更(蒸留、サイズの増加、事前学習の量など)が複数のよく定義された言語機能にどのように影響するかに関する多くの洞察を提供する。 さらに、我々のフレームワークは、商用のブラックボックスAPI(例えば、InstructGPTファミリ)として利用可能なモデルと、比較的よく理解されたモデル(例えば、GPT-2)の間で共有される不変性の評価を可能にする。 いくつかの実験で、大きな言語モデルは様々なサイズのモデルによって符号化された多くの不変性を共有しているのに対し、大きな言語モデルによって符号化された不変性は他の大きなモデルによってのみ共有されている。 多様な不変性を評価することは、近年の大規模言語モデルの成功の鍵となる理由であり、我々のフレームワークは、新しいモデルで保持または出現する不変性の種類に光を当てることができる。

An explosion of work in language is leading to ever-increasing numbers of available natural language processing models, with little understanding of how new models compare to better-understood models. One major reason for this difficulty is saturating benchmark datasets, which may not reflect well differences in model performance in the wild. In this work, we propose a novel framework for comparing two natural language processing models by revealing their shared invariance to interpretable input perturbations that are designed to target a specific linguistic capability (e.g., Synonym-Invariance, Typo-Invariance). Via experiments on models from within the same and across different architecture families, this framework offers a number of insights about how changes in models (e.g., distillation, increase in size, amount of pre-training) affect multiple well-defined linguistic capabilities. Furthermore, we also demonstrate how our framework can enable evaluation of the invariances shared between models that are available as commercial black-box APIs (e.g., InstructGPT family) and models that are relatively better understood (e.g., GPT-2). Across several experiments, we observe that large language models share many of the invariances encoded by models of various sizes, whereas the invariances encoded by large language models are only shared by other large models. Possessing a wide variety of invariances may be a key reason for the recent successes of large language models, and our framework can shed light on the types of invariances that are retained by or emerge in new models.
翻訳日:2023-11-08 14:36:05 公開日:2023-11-07
# 対向信号を持つ外乱はニューラルネットワーク最適化に大きく影響する

Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization ( http://arxiv.org/abs/2311.04163v1 )

ライセンス: Link先を確認
Elan Rosenfeld, Andrej Risteski(参考訳) 自然データにおける深度と特定の重み付き構造との相互作用から生じるニューラルネットワーク最適化の新しい現象を同定する。 その結果、ネットワークトレーニングダイナミクスに関するいくつかの報告に対して直感的な説明が得られた。 特に,進歩的なシャープ化と安定性の限界に対する概念的な新たな原因を示唆する。また,グロッキングや単純さバイアス,シャープネス対応の最小化など,最適化や一般化における他の概念とのつながりも強調する。 実験では, 対向する強い信号を持つトレーニングデータに, 対向する2つのオフレーヤ群が有意な影響を示そう: トレーニングを通してネットワーク出力を支配し, 反対方向を向く勾配を与える, 一貫性のある, 大規模特徴。 これらの異常により、早期の最適化は、対立するグループを慎重にバランスさせる狭い谷に入り、その後に鋭くすると、損失は急速に増加し、一方のグループともう一方のグループの間では、全体の損失が急増するまで振動する。 我々は,これらのグループを識別し,それらを分離する要因を探索し,ネットワークの最適化と行動に与える影響を慎重に検討する。 我々はこれらの実験を,対向する信号のおもちゃの例と,単純なモデルによる2層線形ネットワークの理論解析で補完する。 実験によって確認した訓練行動の新しい質的予測を可能にする。 また、Adam対SGDのケーススタディを通じて強調するように、確率最適化のための現代的なトレーニングプラクティスを研究、改善するための新しいレンズも提供する。

We identify a new phenomenon in neural network optimization which arises from the interaction of depth and a particular heavy-tailed structure in natural data. Our result offers intuitive explanations for several previously reported observations about network training dynamics. In particular, it implies a conceptually new cause for progressive sharpening and the edge of stability; we also highlight connections to other concepts in optimization and generalization including grokking, simplicity bias, and Sharpness-Aware Minimization. Experimentally, we demonstrate the significant influence of paired groups of outliers in the training data with strong opposing signals: consistent, large magnitude features which dominate the network output throughout training and provide gradients which point in opposite directions. Due to these outliers, early optimization enters a narrow valley which carefully balances the opposing groups; subsequent sharpening causes their loss to rise rapidly, oscillating between high on one group and then the other, until the overall loss spikes. We describe how to identify these groups, explore what sets them apart, and carefully study their effect on the network's optimization and behavior. We complement these experiments with a mechanistic explanation on a toy example of opposing signals and a theoretical analysis of a two-layer linear network on a simple model. Our finding enables new qualitative predictions of training behavior which we confirm experimentally. It also provides a new lens through which to study and improve modern training practices for stochastic optimization, which we highlight via a case study of Adam versus SGD.
翻訳日:2023-11-08 14:35:38 公開日:2023-11-07
# 確率最適化問題における重圧遮音壁の破壊

Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems ( http://arxiv.org/abs/2311.04161v1 )

ライセンス: Link先を確認
Nikita Puchkin, Eduard Gorbunov, Nikolay Kutuzov, Alexander Gasnikov(参考訳) 構造密度を持つ重項雑音の確率的最適化問題を考える。 そのような問題に対して、確率的勾配が順序 $\alpha \in (1, 2]$ の有限モーメントを持つ場合、収束速度が$\mathcal{o}(k^{-2(\alpha - 1)/\alpha})$よりも速いことを示す。 特に、この解析によりノイズノルムは非有界な期待値を持つことができる。 これらの結果を得るために,スムーズな平均中央値を用いて確率勾配を安定化する。 得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。 これにより、クリップされたSGDとクリップされたSSTMに慎重に組み込むことができ、考慮されたセットアップにおいて新しい高確率複雑性境界を導出できる。

We consider stochastic optimization problems with heavy-tailed noise with structured density. For such problems, we show that it is possible to get faster rates of convergence than $\mathcal{O}(K^{-2(\alpha - 1)/\alpha})$, when the stochastic gradients have finite moments of order $\alpha \in (1, 2]$. In particular, our analysis allows the noise norm to have an unbounded expectation. To achieve these results, we stabilize stochastic gradients, using smoothed medians of means. We prove that the resulting estimates have negligible bias and controllable variance. This allows us to carefully incorporate them into clipped-SGD and clipped-SSTM and derive new high-probability complexity bounds in the considered setup.
翻訳日:2023-11-08 14:35:11 公開日:2023-11-07
# 約$\ell_p$感度の計算

Computing Approximate $\ell_p$ Sensitivities ( http://arxiv.org/abs/2311.04158v1 )

ライセンス: Link先を確認
Swati Padmanabhan, David P. Woodruff, and Qiuyi (Richard) Zhang(参考訳) 回帰タスクの次元的削減に関する最近の研究は、データセットにおける特定のデータポイントの重要性を推定する感度の概念を導入し、サブサンプリングによる低感度データポイントの除去後の近似の品質保証を提供する。 しかし、近似的な$\ell_p$回帰と同値である$\ell_p$感度を近似する高速アルゴリズムは、レバレッジスコアと呼ばれる$\ell_2$設定でのみ知られている。 本研究では,与えられた行列の$\ell_p$ 感性および関連する要約統計を近似する効率的なアルゴリズムを提案する。 特に、与えられた$n \times d$ 行列に対して、$o(n/\alpha)$ 感度計算のコストで $\alpha$-approximation をその$\ell_1$ 感度に計算する。 合計$\ell_p$感度(すなわち$\ell_p$感度の和)を推定するために、約$O(\sqrt{d})$感度計算のコストでの総感度に対する定数係数近似を演算する、$\ell_p$Lewis重みの重要サンプリングに基づくアルゴリズムを提供する。 さらに、$O(d)$の感度計算を用いて、最大$\ell_1$の感度を$\sqrt{d}$の係数まで推定する。 これらの結果を全て$\ell_p$ norms for $p > 1$に一般化する。 最後に、実世界のデータセットの幅広いクラスにおいて、全感度を迅速に近似し、理論的予測よりも著しく小さくし、実世界のデータセットは本質的な有効次元が低いことを示した。

Recent works in dimensionality reduction for regression tasks have introduced the notion of sensitivity, an estimate of the importance of a specific datapoint in a dataset, offering provable guarantees on the quality of the approximation after removing low-sensitivity datapoints via subsampling. However, fast algorithms for approximating $\ell_p$ sensitivities, which we show is equivalent to approximate $\ell_p$ regression, are known for only the $\ell_2$ setting, in which they are termed leverage scores. In this work, we provide efficient algorithms for approximating $\ell_p$ sensitivities and related summary statistics of a given matrix. In particular, for a given $n \times d$ matrix, we compute $\alpha$-approximation to its $\ell_1$ sensitivities at the cost of $O(n/\alpha)$ sensitivity computations. For estimating the total $\ell_p$ sensitivity (i.e. the sum of $\ell_p$ sensitivities), we provide an algorithm based on importance sampling of $\ell_p$ Lewis weights, which computes a constant factor approximation to the total sensitivity at the cost of roughly $O(\sqrt{d})$ sensitivity computations. Furthermore, we estimate the maximum $\ell_1$ sensitivity, up to a $\sqrt{d}$ factor, using $O(d)$ sensitivity computations. We generalize all these results to $\ell_p$ norms for $p > 1$. Lastly, we experimentally show that for a wide class of matrices in real-world datasets, the total sensitivity can be quickly approximated and is significantly smaller than the theoretical prediction, demonstrating that real-world datasets have low intrinsic effective dimensionality.
翻訳日:2023-11-08 14:34:56 公開日:2023-11-07
# 微細画像分類・解析のための簡易解釈変換器

A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis ( http://arxiv.org/abs/2311.04157v1 )

ライセンス: Link先を確認
Dipanjyoti Paul, Arpita Chowdhury, Xinqi Xiong, Feng-Ju Chang, David Carlyn, Samuel Stevens, Kaiya Provost, Anuj Karpatne, Bryan Carstens, Daniel Rubenstein, Charles Stewart, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao(参考訳) 本稿では,画像分類を解釈可能なトランスフォーマーを提案する。 最後の完全接続層が予測を行うためにクラス情報を組み込むのを待つ主流の分類器とは異なり、私たちは各クラスにイメージ内で自身を検索するよう依頼する積極的なアプローチを調査する。 我々はこのアイデアを,Detection TRansformer (DETR) にインスパイアされた Transformer encoder-decoder で実現した。 私たちは ``class-specific''' クエリをデコーダへの入力として学習し、各クラスがクロスアテンションを通じてそのパターンをイメージにローカライズできるようにします。 実装が比較的容易で,いくつかの説得力のある特性を有するintr( approach interpretable transformer)と命名する。 我々は,INTRが各クラスに固有の参加を促すことを示し,横断的な重み付けは予測の忠実な解釈を与える。 興味深いことに、`multi-head'' のクロスアテンションによって、intrはクラスの異なる ``attributes'' を識別することができ、特に8つのデータセットで示すきめ細かい分類と分析に適している。 私たちのコードと事前トレーニングされたモデルは、https://github.com/imageomics/intr.comから公開できます。

We present a novel usage of Transformers to make image classification interpretable. Unlike mainstream classifiers that wait until the last fully-connected layer to incorporate class information to make predictions, we investigate a proactive approach, asking each class to search for itself in an image. We realize this idea via a Transformer encoder-decoder inspired by DEtection TRansformer (DETR). We learn ``class-specific'' queries (one for each class) as input to the decoder, enabling each class to localize its patterns in an image via cross-attention. We name our approach INterpretable TRansformer (INTR), which is fairly easy to implement and exhibits several compelling properties. We show that INTR intrinsically encourages each class to attend distinctively; the cross-attention weights thus provide a faithful interpretation of the prediction. Interestingly, via ``multi-head'' cross-attention, INTR could identify different ``attributes'' of a class, making it particularly suitable for fine-grained classification and analysis, which we demonstrate on eight datasets. Our code and pre-trained model are publicly accessible at https://github.com/Imageomics/INTR.
翻訳日:2023-11-08 14:34:22 公開日:2023-11-07
# Black-Box Prompt Optimization: モデルトレーニングなしで大規模言語モデルを調整する

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training ( http://arxiv.org/abs/2311.04155v1 )

ライセンス: Link先を確認
Jiale Cheng, Xiao Liu, Kehan Zheng, Pei Ke, Hongning Wang, Yuxiao Dong, Jie Tang, Minlie Huang(参考訳) 大規模言語モデル(llm)は様々なアプリケーションで素晴らしい成功を収めている。 しかしながら、これらのモデルは人間の意図とよく一致しないことが多く、それに対して追加的な治療、すなわちアライメントの問題を要求する。 LLMがユーザー指示に従うのを良くするために、既存のアライメントメソッドは主にそれらをさらに訓練することに焦点を当てている。 しかし、LLMの余分なトレーニングは通常GPU計算の点で高価であり、さらに悪いことに、LPMはGPTのようなユーザ要求のトレーニングではアクセスできないことが多い。 この作業では、アライメントを実行するために、別の視点 -- Black-Box Prompt Optimization (BPO) -- を取ります。 ユーザプロンプトをLLMの入力理解に合わせるように最適化し、LLMのパラメータを更新せずにユーザの意図を最大限に実現する。 BPOはモデル非依存であり、実験結果から、BPO対応のChatGPTは、元のバージョンに対する勝利率の22倍、GPT-4に対する10倍の上昇を示す。 重要な点として、モデル整列 LLM は PPO と DPO で整列された同じモデルよりも優れており、また、 \model と PPO または DPO を組み合わせることで、さらなるパフォーマンス向上をもたらす。 コードとデータセットはhttps://github.com/thu-coai/bpoでリリースされる。

Large language models (LLMs) have shown impressive success in various applications. However, these models are often not well aligned with human intents, which calls for additional treatments on them, that is, the alignment problem. To make LLMs better follow user instructions, existing alignment methods mostly focus on further training them. However, the extra training of LLMs are usually expensive in terms of GPU compute; worse still, LLMs of interest are oftentimes not accessible for user-demanded training, such as GPTs. In this work, we take a different perspective -- Black-Box Prompt Optimization (BPO) -- to perform alignments. The idea is to optimize user prompts to suit LLMs' input understanding, so as to best realize users' intents without updating LLMs' parameters. BPO is model-agnostic and the empirical results demonstrate that the BPO-aligned ChatGPT yields a 22\% increase in the win rate against its original version, and 10\% for GPT-4. Importantly, the \model-aligned LLMs can outperform the same models aligned by PPO and DPO, and it also brings additional performance gains when combining \model with PPO or DPO. Code and datasets are released at https://github.com/thu-coai/BPO.
翻訳日:2023-11-08 14:34:02 公開日:2023-11-07
# ニューラルラジアンス場を用いた植物の高忠実度3次元再構成

High-fidelity 3D Reconstruction of Plants using Neural Radiance Field ( http://arxiv.org/abs/2311.04154v1 )

ライセンス: Link先を確認
Kewei Hu, Ying Wei, Yaoqiang Pan, Hanwen Kang, Chao Chen(参考訳) 植物表現型の正確な再構築は,精密農業(PA)分野における持続可能な農業実践の最適化に重要な役割を果たしている。 現在、光学センサによるアプローチがこの分野を支配しているが、非構造農業環境における作物や植物の高忠実な3D再構成の必要性は依然として困難である。 近年,神経密度場を利用した新しい手法であるNeRF(Neural Radiance Field)の形で,有望な発展がみられた。 この手法は、様々な新しい視覚合成タスクで印象的な性能を示したが、農業の文脈では、比較的未開拓のままである。 本研究では,植物表現学における2つの基本的な課題,(1)2次元新規画像の合成,(2)作物と植物モデルの3次元再構成に焦点を当てた。 ニューラルラジアンス場,特に2つのsota法について検討する。instant-ngpは印象的なトレーニングと推論速度で高品質な画像を生成するのに優れ,instant-nsrはトレーニング中に符号付き距離関数(sdf)を組み込むことで再構成された形状を改善する。 特に,実環境からの実際の植物画像を含む新しい植物表現型データセットを提案する。 このデータセットは、農業の文脈におけるNeRFの利点と限界を包括的に探求することを目的とした、先駆的なイニシアチブである。 実験の結果,NeRFは3Dマルチビューステレオ(MVS)をベースとした再構成のための商用ソフトウェアであるReal Captureと競合する再現性を実現することができることがわかった。 しかし,本研究では,比較的遅いトレーニング速度,サンプリングが不十分な場合のパフォーマンス制限,複雑なセットアップにおける幾何学的品質獲得の課題など,NeRFの欠点も強調した。

Accurate reconstruction of plant phenotypes plays a key role in optimising sustainable farming practices in the field of Precision Agriculture (PA). Currently, optical sensor-based approaches dominate the field, but the need for high-fidelity 3D reconstruction of crops and plants in unstructured agricultural environments remains challenging. Recently, a promising development has emerged in the form of Neural Radiance Field (NeRF), a novel method that utilises neural density fields. This technique has shown impressive performance in various novel vision synthesis tasks, but has remained relatively unexplored in the agricultural context. In our study, we focus on two fundamental tasks within plant phenotyping: (1) the synthesis of 2D novel-view images and (2) the 3D reconstruction of crop and plant models. We explore the world of neural radiance fields, in particular two SOTA methods: Instant-NGP, which excels in generating high-quality images with impressive training and inference speed, and Instant-NSR, which improves the reconstructed geometry by incorporating the Signed Distance Function (SDF) during training. In particular, we present a novel plant phenotype dataset comprising real plant images from production environments. This dataset is a first-of-its-kind initiative aimed at comprehensively exploring the advantages and limitations of NeRF in agricultural contexts. Our experimental results show that NeRF demonstrates commendable performance in the synthesis of novel-view images and is able to achieve reconstruction results that are competitive with Reality Capture, a leading commercial software for 3D Multi-View Stereo (MVS)-based reconstruction. However, our study also highlights certain drawbacks of NeRF, including relatively slow training speeds, performance limitations in cases of insufficient sampling, and challenges in obtaining geometry quality in complex setups.
翻訳日:2023-11-08 14:33:37 公開日:2023-11-07
# 太陽系外惑星トランジットおよび$h_0$推論のためのカーネル、平均、ノイズマージ付きガウス過程

Kernel-, mean- and noise-marginalised Gaussian processes for exoplanet transits and $H_0$ inference ( http://arxiv.org/abs/2311.04153v1 )

ライセンス: Link先を確認
Namu Kroupa, David Yallup, Will Handley and Michael Hobson(参考訳) 完全にベイズ的アプローチを用いて、ガウス過程の回帰は、カーネル選択とカーネルハイパーパラメータに対する限界化を含むように拡張される。 さらに、証拠によるベイズモデルの比較は直接カーネル比較を可能にする。 関節後方の計算は, 離散的カーネル選択とそれらのハイパーパラメータを同時にサンプリングし, 標本をネストサンプリングで採取した高次元空間に埋め込むトランス次元サンプリング器を用いて実施した。 この手法は、太陽系外惑星のトランジット光曲線シミュレーションによる合成データについて検討した。 真のカーネルは低ノイズ領域で回収されたが、大きなノイズに対してカーネルは好まなかった。 さらに,物理系外惑星ハイパーパラメーターの推定を行った。 高騒音域では, 後方のバイアスを除去し, 後方を拡幅し, 推定精度を高めた。 さらに,カーネル選択の不確実性により,平均関数予測分布の不確かさが増大した。 その後、平均関数とノイズモデル上の限界化に拡張され、宇宙論的にモデルに依存しない宇宙年代計と {\lambda}cdm依存のバリオン振動観測から得られたレッドシフト関数としてのハッブルパラメータの実測値から、現在のハッブルパラメータである$h_0$の推測に適用された。 宇宙クロノメーターから推定された$h_0$、バリオン音響振動、複合データセットはそれぞれ$h_0$ = 66$\pm$6 km/s/mpc、$h_0$ = 67$\pm$10 km/s/mpc、$h_0$ = 69$\pm$6 km/s/mpcである。 宇宙クロノメーターデータセットの後方のカーネルは、非定常線形カーネルを好む。 最後に、データセットはln(R)=12.17$\pm$0.02と緊張しない。

Using a fully Bayesian approach, Gaussian Process regression is extended to include marginalisation over the kernel choice and kernel hyperparameters. In addition, Bayesian model comparison via the evidence enables direct kernel comparison. The calculation of the joint posterior was implemented with a transdimensional sampler which simultaneously samples over the discrete kernel choice and their hyperparameters by embedding these in a higher-dimensional space, from which samples are taken using nested sampling. This method was explored on synthetic data from exoplanet transit light curve simulations. The true kernel was recovered in the low noise region while no kernel was preferred for larger noise. Furthermore, inference of the physical exoplanet hyperparameters was conducted. In the high noise region, either the bias in the posteriors was removed, the posteriors were broadened or the accuracy of the inference was increased. In addition, the uncertainty in mean function predictive distribution increased due to the uncertainty in the kernel choice. Subsequently, the method was extended to marginalisation over mean functions and noise models and applied to the inference of the present-day Hubble parameter, $H_0$, from real measurements of the Hubble parameter as a function of redshift, derived from the cosmologically model-independent cosmic chronometer and {\Lambda}CDM-dependent baryon acoustic oscillation observations. The inferred $H_0$ values from the cosmic chronometers, baryon acoustic oscillations and combined datasets are $H_0$ = 66$\pm$6 km/s/Mpc, $H_0$ = 67$\pm$10 km/s/Mpc and $H_0$ = 69$\pm$6 km/s/Mpc, respectively. The kernel posterior of the cosmic chronometers dataset prefers a non-stationary linear kernel. Finally, the datasets are shown to be not in tension with ln(R)=12.17$\pm$0.02.
翻訳日:2023-11-08 14:33:04 公開日:2023-11-07
# HyperS2V:ハイパーネットワークにおけるノードの構造表現フレームワーク

HyperS2V: A Framework for Structural Representation of Nodes in Hyper Networks ( http://arxiv.org/abs/2311.04149v1 )

ライセンス: Link先を確認
Shu Liu, Cameron Lai, Fujio Toriumi(参考訳) 通常の(単純な)ネットワークとは対照的に、ハイパーネットワークはノード間のより複雑な関係を描写し、広範な情報を格納する能力を持っている。 このようなネットワークは、社会的相互作用のような現実世界のアプリケーションでよく見られる。 ノードの組込み表現を学習するには、ネットワーク構造をより単純化された空間に変換するプロセスが伴うため、ベクトルデータをネットワークデータに拡張するために設計された機械学習アプローチの適用が可能になる。 それでも、構造的側面を優先する組込み表現の学習方法を検討する必要がある。 本研究では,ハイパーネットワークの構造的類似性に着目したノード埋め込み手法であるHyperS2Vを紹介する。 まず,ハイパーネットワーク内のノードの構造特性を捉えるために,ハイパー学位の概念を確立する。 その後、異なる超次値間の構造的類似性を測定するために、新しい関数が定式化される。 最後に,マルチスケールランダムウォークフレームワークを用いた構造埋め込みを生成する。 さらに,玩具ネットワークと実ネットワークの両方で,本質的および外生的両方の実験が実施されている。 この結果は、ダウンストリームタスクの解釈可能性と適用可能性の両方の観点から、hypers2vの優れた性能を強調する。

In contrast to regular (simple) networks, hyper networks possess the ability to depict more complex relationships among nodes and store extensive information. Such networks are commonly found in real-world applications, such as in social interactions. Learning embedded representations for nodes involves a process that translates network structures into more simplified spaces, thereby enabling the application of machine learning approaches designed for vector data to be extended to network data. Nevertheless, there remains a need to delve into methods for learning embedded representations that prioritize structural aspects. This research introduces HyperS2V, a node embedding approach that centers on the structural similarity within hyper networks. Initially, we establish the concept of hyper-degrees to capture the structural properties of nodes within hyper networks. Subsequently, a novel function is formulated to measure the structural similarity between different hyper-degree values. Lastly, we generate structural embeddings utilizing a multi-scale random walk framework. Moreover, a series of experiments, both intrinsic and extrinsic, are performed on both toy and real networks. The results underscore the superior performance of HyperS2V in terms of both interpretability and applicability to downstream tasks.
翻訳日:2023-11-08 14:32:27 公開日:2023-11-07
# 無接触指紋バイオメトリックスプーフィング--教師なし深層学習アプローチ

Contactless Fingerprint Biometric Anti-Spoofing: An Unsupervised Deep Learning Approach ( http://arxiv.org/abs/2311.04148v1 )

ライセンス: Link先を確認
Banafsheh Adami and Nima Karimian(参考訳) コンタクトレス指紋認識はユーザーの快適度を高め、衛生上の懸念をより効果的に解決する。 しかし、フォトペーパー、ペーパープリントアウト、各種ディスプレイアタックなどの表示攻撃にも脆弱であり、コンタクトベースのモダリティに比べて生体認証システムの実装が困難である。 無接触指紋システムにおけるプレゼンテーション攻撃に関する限られた研究が行われており、トレーニングモデルではボナフィドサンプルとプレゼンテーションアタックの両方が使用されているため、一般化とスケーラビリティの面での課題に直面している。 このアプローチは有望なようだが、目に見えない攻撃を扱う能力が欠けているため、効果的に一般化できるPADメソッドを開発する上で重要な要素である。 非教師付きオートエンコーダと畳み込みブロックアテンションモジュールを組み合わせた,既存のメソッドの制限に対処する革新的なアンチスプーフィング手法を導入した。 本モデルは, トレーニング期間中にスプーフサンプルに曝露することなく, ボナファイド画像のみを訓練する。 そして、テストフェーズで様々なタイプのプレゼンテーションアタックイメージに対して評価される。 提案手法は, 各種スプーフサンプルを含む提示攻撃に対して, APCER が 1.6 %, 平均 BPCER が 0.96 % に達した。

Contactless fingerprint recognition offers a higher level of user comfort and addresses hygiene concerns more effectively. However, it is also more vulnerable to presentation attacks such as photo paper, paper-printout, and various display attacks, which makes it more challenging to implement in biometric systems compared to contact-based modalities. Limited research has been conducted on presentation attacks in contactless fingerprint systems, and these studies have encountered challenges in terms of generalization and scalability since both bonafide samples and presentation attacks are utilized during training model. Although this approach appears promising, it lacks the ability to handle unseen attacks, which is a crucial factor for developing PAD methods that can generalize effectively. We introduced an innovative anti-spoofing approach that combines an unsupervised autoencoder with a convolutional block attention module to address the limitations of existing methods. Our model is exclusively trained on bonafide images without exposure to any spoofed samples during the training phase. It is then evaluated against various types of presentation attack images in the testing phase. The scheme we proposed has achieved an average BPCER of 0.96\% with an APCER of 1.6\% for presentation attacks involving various types of spoofed samples.
翻訳日:2023-11-08 14:32:07 公開日:2023-11-07
# 長期予測用マルチレゾリューション時系列変圧器

Multi-resolution Time-Series Transformer for Long-term Forecasting ( http://arxiv.org/abs/2311.04147v1 )

ライセンス: Link先を確認
Yitian Zhang, Liheng Ma, Soumyasundar Pal, Yingxue Zhang, Mark Coates(参考訳) 時系列予測用変圧器の性能は大幅に向上した。 最近のアーキテクチャでは、時系列をパッチに分割し、パッチをトークンとして使用することで、複雑な時間パターンを学習している。 パッチのサイズはトランスフォーマーの時間パターンを異なる周波数で学習する能力を制御する。 この観察に触発されて,様々な時相パターンを異なる解像度で同時モデリングするマルチブランチアーキテクチャからなるマルチレゾリューション時系列トランスフォーマ(mtst)を提案する。 多くの既存の時系列変換器とは対照的に、異なるスケールで周期成分を抽出するのに適する相対的な位置符号化を用いる。 いくつかの実世界のデータセットに対する大規模な実験は、最先端の予測技術と比較してMTSTの有効性を示す。

The performance of transformers for time-series forecasting has improved significantly. Recent architectures learn complex temporal patterns by segmenting a time-series into patches and using the patches as tokens. The patch size controls the ability of transformers to learn the temporal patterns at different frequencies: shorter patches are effective for learning localized, high-frequency patterns, whereas mining long-term seasonalities and trends requires longer patches. Inspired by this observation, we propose a novel framework, Multi-resolution Time-Series Transformer (MTST), which consists of a multi-branch architecture for simultaneous modeling of diverse temporal patterns at different resolutions. In contrast to many existing time-series transformers, we employ relative positional encoding, which is better suited for extracting periodic components at different scales. Extensive experiments on several real-world datasets demonstrate the effectiveness of MTST in comparison to state-of-the-art forecasting techniques.
翻訳日:2023-11-08 14:31:30 公開日:2023-11-07
# I2VGen-XL:カスケード拡散モデルによる高画質映像合成

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models ( http://arxiv.org/abs/2311.04145v1 )

ライセンス: Link先を確認
Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou(参考訳) ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。 しかし、意味的正確性、明確性、時空間的連続性の観点からはまだ課題に直面している。 それらは主に、高度に整列したテキストビデオデータの不足と、ビデオの複雑な固有構造から生じており、モデルが意味的かつ質的卓越性を同時に確保することが困難である。 本稿では,これら2つの要因を分離し,静的画像を用いた入力データのアライメントを重要なガイダンスの形式として活用することにより,モデル性能を向上させるカスケードi2vgen-xl手法を提案する。 i2vgen-xlは2段階からなる。 一 基本段階は、二つの階層エンコーダを用いて、コヒーレントなセマンティクスを保証し、入力画像からコンテンツを保存すること。 二 改良段階は、追加のブリーフテキストを組み込むことにより、映像の詳細を高め、解像度を1280$\times$720に改善する。 多様性を改善するために、私たちはモデルを最適化するために、約3500万のシングルショットのテキストビデオペアと60億のテキストイメージペアを集めました。 これにより、I2VGen-XLは、生成したビデオの意味的精度、詳細性の連続性、明快さを同時に向上させることができる。 我々は,I2VGen-XLの基礎となる原理を実験的に検討し,その効果を多種多様なデータで実証できる現在のトップ手法と比較した。 ソースコードとモデルは、 \url{https://i2vgen-xl.github.io} で公開される。

Video synthesis has recently made remarkable strides benefiting from the rapid development of diffusion models. However, it still encounters challenges in terms of semantic accuracy, clarity and spatio-temporal continuity. They primarily arise from the scarcity of well-aligned text-video data and the complex inherent structure of videos, making it difficult for the model to simultaneously ensure semantic and qualitative excellence. In this report, we propose a cascaded I2VGen-XL approach that enhances model performance by decoupling these two factors and ensures the alignment of the input data by utilizing static images as a form of crucial guidance. I2VGen-XL consists of two stages: i) the base stage guarantees coherent semantics and preserves content from input images by using two hierarchical encoders, and ii) the refinement stage enhances the video's details by incorporating an additional brief text and improves the resolution to 1280$\times$720. To improve the diversity, we collect around 35 million single-shot text-video pairs and 6 billion text-image pairs to optimize the model. By this means, I2VGen-XL can simultaneously enhance the semantic accuracy, continuity of details and clarity of generated videos. Through extensive experiments, we have investigated the underlying principles of I2VGen-XL and compared it with current top methods, which can demonstrate its effectiveness on diverse data. The source code and models will be publicly available at \url{https://i2vgen-xl.github.io}.
翻訳日:2023-11-08 14:31:04 公開日:2023-11-07
# 知識蒸留における損失とは何か

What is Lost in Knowledge Distillation? ( http://arxiv.org/abs/2311.04142v1 )

ライセンス: Link先を確認
Manas Mohanty, Tanya Roosta, Peyman Passban(参考訳) ディープニューラルネットワーク(DNN)はNLPタスクを大幅に改善しているが、そのようなネットワークのトレーニングとメンテナンスにはコストがかかる可能性がある。 知識蒸留(KD)のようなモデル圧縮技術はこの問題に対処するために提案されているが、圧縮過程は失われる可能性がある。 本研究は, 蒸留モデルが教師とどのように異なるか, 蒸留プロセスが情報損失を引き起こしているか, 損失が特定のパターンに従うかどうかを調査する。 我々の実験は、レイヤー数やアテンションヘッドなど、さまざまな要因の寄与について、データポイントを報告することで、KDに敏感なタスクの種類について、光を当てることを目的としている。 我々のような結果は、より大規模な(教師)モデルとより小さな(学生)モデルの間で最適な情報伝達を実現するために、効率的かつ効率的な構成を決定する際に利用することができる。

Deep neural networks (DNNs) have improved NLP tasks significantly, but training and maintaining such networks could be costly. Model compression techniques, such as, knowledge distillation (KD), have been proposed to address the issue; however, the compression process could be lossy. Motivated by this, our work investigates how a distilled student model differs from its teacher, if the distillation process causes any information losses, and if the loss follows a specific pattern. Our experiments aim to shed light on the type of tasks might be less or more sensitive to KD by reporting data points on the contribution of different factors, such as the number of layers or attention heads. Results such as ours could be utilized when determining effective and efficient configurations to achieve optimal information transfers between larger (teacher) and smaller (student) models.
翻訳日:2023-11-08 14:30:32 公開日:2023-11-07
# OtterHD: 高分解能マルチモダリティモデル

OtterHD: A High-Resolution Multi-modality Model ( http://arxiv.org/abs/2311.04219v1 )

ライセンス: Link先を確認
Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu(参考訳) 本稿では,fuyu-8bから進化した革新的なマルチモーダルモデルであるotterhd-8bについて述べる。 固定サイズのビジョンエンコーダによって制約される従来のモデルとは異なり、OtterHD-8Bはフレキシブルな入力次元を扱う能力を持ち、様々な推論要求に対してその汎用性を保証する。 このモデルとともに、小物体の細部の詳細や空間的関係を識別するモデルの能力を調べるための評価フレームワークMagnifierBenchを紹介する。 比較分析の結果、現在の先行モデルではこのベンチマークでは、otterhd-8bは特に高精細な入力を直接処理する場合には、相当のマージンでそのモデルを上回ることがわかった。 この結果は、異なるモデル間の視覚情報処理における構造的ばらつきと、視覚エンコーダの事前学習解像度のばらつきが、これらのベンチマークにおけるモデル有効性に与える影響を照らしている。 本研究は,大規模マルチモーダルモデルにおけるフレキシビリティと高分解能入力機能の重要性を強調し,複雑な視覚データを扱う上での冬のアーキテクチャの単純さに固有の可能性を実証する。

In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models' ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders' pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture's simplicity for handling complex visual data.
翻訳日:2023-11-08 14:22:59 公開日:2023-11-07
# 単一画像からの衣服縫製パターンの再構築に向けて

Towards Garment Sewing Pattern Reconstruction from a Single Image ( http://arxiv.org/abs/2311.04218v1 )

ライセンス: Link先を確認
Lijuan Liu, Xiangyu Xu, Zhijie Lin, Jiabin Liang, Shuicheng Yan(参考訳) ガーメント縫製パターンは衣服の本質的な休息形態を表しており、ファッションデザイン、バーチャルトライオン、デジタルアバターなどの多くの応用のコアとなっている。 本研究は, 日常写真から衣服の縫製パターンを復元し, 補修する際の課題について考察する。 そこで本研究では,まず,モデルトレーニングと定量的評価のために,約1m画像と地中縫製パターンからなる多彩なデータセットswerfactoryを合成する。 SewFactoryは、さまざまな人間のポーズ、体形、縫製パターンをカバーし、提案された人間のテクスチャ合成ネットワークのおかげで現実的な外観を持つ。 次に,縫製パターン予測性能を大幅に向上させるSewformerと呼ばれる2レベルトランスフォーマーネットワークを提案する。 広範な実験により,提案手法は縫製パターンの回復に有効であり,カジュアルに撮影されたヒト写真によく一般化できることが示されている。 コード、データセット、事前トレーニングされたモデルは以下の通りである。

Garment sewing pattern represents the intrinsic rest shape of a garment, and is the core for many applications like fashion design, virtual try-on, and digital avatars. In this work, we explore the challenging problem of recovering garment sewing patterns from daily photos for augmenting these applications. To solve the problem, we first synthesize a versatile dataset, named SewFactory, which consists of around 1M images and ground-truth sewing patterns for model training and quantitative evaluation. SewFactory covers a wide range of human poses, body shapes, and sewing patterns, and possesses realistic appearances thanks to the proposed human texture synthesis network. Then, we propose a two-level Transformer network called Sewformer, which significantly improves the sewing pattern prediction performance. Extensive experiments demonstrate that the proposed framework is effective in recovering sewing patterns and well generalizes to casually-taken human photos. Code, dataset, and pre-trained models are available at: https://sewformer.github.io.
翻訳日:2023-11-08 14:22:38 公開日:2023-11-07
# 量子光学ベクトルスピングラスにおけるレプリカ対称性の破れ

Replica symmetry breaking in a quantum-optical vector spin glass ( http://arxiv.org/abs/2311.04216v1 )

ライセンス: Link先を確認
Ronen M. Kroeze, Brendan P. Marsh, David Atri Schuller, Henry S. Hunt, Sarang Gopalakrishnan, Jonathan Keeling, and Benjamin L. Lev(参考訳) スピングラスは複雑な物質の標準的な例である。 構造についてはまだ不明な点が多いが、不純物を持つ金属の磁気秩序から進化、タンパク質の折り畳み、気候モデル、組合せ最適化、人工知能まで、様々な複雑な現象が説明されている。 実際、スピングラス理論はニューロモルフィックコンピューティングと脳モデリングの数学的基礎を形成する。 構造への実験的洞察の進歩には、ミクロな自由度に対する反復可能な制御が必要である。 ここでは、共焦点キャビティ内で共鳴する光子を介して結合された原子の超低温ガスからなる量子光学系を用いて、原子レベルでこれを達成する。 この能動量子ガス顕微鏡は、全接続性を持つ横磁場ベクトルスピンガラスの異種型を実現する。 スピン配置はキャビティエミッションで観察され、スピンガラス秩序のシグネチャとしてレプリカ対称性の破断と新鮮超計量構造が出現する。 系の駆動散逸性の性質はモンテカルロシミュレーションとの質的対応において非熱的パリ分布として現れる。 この新しいスピングラスシステムによって提供される制御性は、量子スピンレベルまで下がれば、新しい状態におけるスピングラス物理学の研究と量子ニューラルネットワークコンピューティングへの応用を可能にする。

Spin glasses are canonical examples of complex matter. Although much about their structure remains uncertain, they inform the description of a wide array of complex phenomena, ranging from magnetic ordering in metals with impurities to aspects of evolution, protein folding, climate models, combinatorial optimization, and artificial intelligence. Indeed, spin glass theory forms a mathematical basis for neuromorphic computing and brain modeling. Advancing experimental insight into their structure requires repeatable control over microscopic degrees of freedom. Here, we achieve this at the atomic level using a quantum-optical system comprised of ultracold gases of atoms coupled via photons resonating within a confocal cavity. This active quantum gas microscope realizes an unusual type of transverse-field vector spin glass with all-to-all connectivity. Spin configurations are observed in cavity emission and reveal the emergence of replica symmetry breaking and nascent ultrametric structure as signatures of spin-glass order. The driven-dissipative nature of the system manifests as a nonthermal Parisi distribution, in qualitative correspondence with Monte Carlo simulations. The controllability provided by this new spin-glass system, potentially down to the quantum-spin-level, enables the study of spin-glass physics in novel regimes with application to quantum neural network computing.
翻訳日:2023-11-08 14:22:20 公開日:2023-11-07
# スーパーマリオや座った大学の試験、身体運動などを行う被験者のウェアラブルデータは、自己教師付き学習による急性の気分のエピソードを検出するのに役立つ

Wearable data from subjects playing Super Mario, sitting university exams, or performing physical exercise help detect acute mood episodes via self-supervised learning ( http://arxiv.org/abs/2311.04215v1 )

ライセンス: Link先を確認
Filippo Corponi, Bryan M. Li, Gerard Anmella, Cl\`audia Valenzuela-Pascual, Ariadna Mas, Isabella Pacchiarotti, Marc Valent\'i, Iria Grande, Antonio Benabarre, Marina Garriga, Eduard Vieta, Allan H Young, Stephen M. Lawrie, Heather C. Whalley, Diego Hidalgo-Mazzei, Antonio Vergari(参考訳) 個人の感覚は、受動的かつほぼ連続的に収集されたデータを、彼らの生態環境にある患者のウェアラブルで活用し、世界中の病気の重荷を決定づける主要な要因である気分障害(MD)を監視するための、有望なパラダイムである。 しかし、ウェアラブルデータの収集とアノテートは非常にリソース集約的です。 この種の研究は、通常、わずか数十人の患者を雇う余裕がある。 これは、現代の教師付き機械学習技術をmds検出に適用するための大きな障害の1つである。 本稿では,このデータボトルネックを克服し,最近の自己教師付き学習(ssl)の進歩を背景として,ウェアラブルデータからmds急性エピソードvs安定状態の検出を進める。 これは、事前トレーニング中に表現を学ぶためにラベルのないデータを活用する。 まず,md監視とは無関係な異なるempatica e4を用いて記録したオープンアクセスデータセットを,スーパーマリオプレイヤの感情認識から大学生のストレス検出まで,個人センシングタスクに適用し,オン/オフボディ検出,睡眠覚醒検出,セグメンテーション,(オプションで)特徴抽出を行う前処理パイプラインを考案した。 161のE4記録被写体を用いて,これまでで最大規模のオープンアクセスコレクションであるE4SelfLearningとその前処理パイプラインを紹介する。 第2に,新しい E4-tailored Transformer Architecture (E4mer) あるいは古典的ベースライン XGBoost の81.23% 対 75.35% (E4mer) と 72.02% (XGBoost) は,64例 (半急性,半安定) の録音セグメントを正しく分類した。 最後に、SSLのパフォーマンスは、事前トレーニングに使用される特定のサロゲートタスクと、遅延のないデータ可用性と強く関連していることを示す。

Personal sensing, leveraging data passively and near-continuously collected with wearables from patients in their ecological environment, is a promising paradigm to monitor mood disorders (MDs), a major determinant of worldwide disease burden. However, collecting and annotating wearable data is very resource-intensive. Studies of this kind can thus typically afford to recruit only a couple dozens of patients. This constitutes one of the major obstacles to applying modern supervised machine learning techniques to MDs detection. In this paper, we overcome this data bottleneck and advance the detection of MDs acute episode vs stable state from wearables data on the back of recent advances in self-supervised learning (SSL). This leverages unlabelled data to learn representations during pre-training, subsequently exploited for a supervised task. First, we collected open-access datasets recording with an Empatica E4 spanning different, unrelated to MD monitoring, personal sensing tasks -- from emotion recognition in Super Mario players to stress detection in undergraduates -- and devised a pre-processing pipeline performing on-/off-body detection, sleep-wake detection, segmentation, and (optionally) feature extraction. With 161 E4-recorded subjects, we introduce E4SelfLearning, the largest to date open access collection, and its pre-processing pipeline. Second, we show that SSL confidently outperforms fully-supervised pipelines using either our novel E4-tailored Transformer architecture (E4mer) or classical baseline XGBoost: 81.23% against 75.35% (E4mer) and 72.02% (XGBoost) correctly classified recording segments from 64 (half acute, half stable) patients. Lastly, we illustrate that SSL performance is strongly associated with the specific surrogate task employed for pre-training as well as with unlabelled data availability.
翻訳日:2023-11-08 14:22:02 公開日:2023-11-07
# ビデオインスタンスのマッティング

Video Instance Matting ( http://arxiv.org/abs/2311.04212v1 )

ライセンス: Link先を確認
Jiachen Li, Roberto Henschel, Vidit Goel, Marianna Ohanyan, Shant Navasardyan, Humphrey Shi(参考訳) 従来のビデオマッチングは、ビデオフレームに現れるすべてのインスタンスに対して1つのアルファマットを出力し、個々のインスタンスが区別されないようにする。 ビデオインスタンスのセグメンテーションは時間一貫性のあるインスタンスマスクを提供するが、特に適用されたバイナリ化のため、マッティングアプリケーションでは結果が不十分である。 この不足を解消するために,ビデオシーケンスの各フレームにおける各インスタンスのアルファマットを推定するビデオインスタンスmatting~(vim)を提案する。 この課題に対処するために,マスクシーケンスガイドビデオインスタンスマッチングニューラルネットワークであるMSG-VIMを,VIMの新たなベースラインモデルとして提案する。 MSG-VIMは、マスク強化の混合を利用して、不正確なマスクガイダンスと一貫性のないマスクガイダンスを堅牢に予測する。 時間的マスクと時間的特徴ガイダンスを取り入れ、アルファマット予測の時間的一貫性を改善する。 さらに,複数の人間インスタンスを前景オブジェクトとして50本のビデオクリップを含むvim50と呼ばれる新しいベンチマークを構築した。 VIMタスクのパフォーマンスを評価するために、ビデオインスタンス対応のマッティング品質~(VIMQ)という適切な指標を導入する。 提案モデルであるMSG-VIMは、VIM50ベンチマークに強いベースラインを設定し、既存の手法よりも大きなマージンで性能を向上する。 プロジェクトはhttps://github.com/SHI-Labs/VIMで公開されている。

Conventional video matting outputs one alpha matte for all instances appearing in a video frame so that individual instances are not distinguished. While video instance segmentation provides time-consistent instance masks, results are unsatisfactory for matting applications, especially due to applied binarization. To remedy this deficiency, we propose Video Instance Matting~(VIM), that is, estimating alpha mattes of each instance at each frame of a video sequence. To tackle this challenging problem, we present MSG-VIM, a Mask Sequence Guided Video Instance Matting neural network, as a novel baseline model for VIM. MSG-VIM leverages a mixture of mask augmentations to make predictions robust to inaccurate and inconsistent mask guidance. It incorporates temporal mask and temporal feature guidance to improve the temporal consistency of alpha matte predictions. Furthermore, we build a new benchmark for VIM, called VIM50, which comprises 50 video clips with multiple human instances as foreground objects. To evaluate performances on the VIM task, we introduce a suitable metric called Video Instance-aware Matting Quality~(VIMQ). Our proposed model MSG-VIM sets a strong baseline on the VIM50 benchmark and outperforms existing methods by a large margin. The project is open-sourced at https://github.com/SHI-Labs/VIM.
翻訳日:2023-11-08 14:21:21 公開日:2023-11-07
# householder量子化によるディープハッシュ

Deep Hashing via Householder Quantization ( http://arxiv.org/abs/2311.04207v1 )

ライセンス: Link先を確認
Lucas R. Schwengber, Lucas Resende, Paulo Orenstein, Roberto I. Oliveira(参考訳) ハッシュ化は大規模画像類似性探索の核心であり,最近の手法はディープラーニング技術によって大幅に改善されている。 このようなアルゴリズムは通常、データの連続的な埋め込みを学習する。 その後のコスト二項化のステップを避けるため、共通解として、類似性学習項(類似画像が近傍の埋め込みにグループ化されることを保証する)と量子化ペナルティ項(埋め込みエントリが例えば-1 や 1)に近いことを保証する)を組み合わせた損失関数を用いる。 しかし、これらの2つの用語間の相互作用は学習を難しくし、埋め込みを悪化させる可能性がある。 まず、量子化のない埋め込み空間上で類似性学習を行い、次に埋め込みの座標がその符号に近いように埋め込みの最適直交変換を見つけ、次に符号関数を通して変換された埋め込みを量子化する。 第2段階では, 家計行列を用いて直交変換をパラメトリズして, 確率勾配降下を効率的に活用する。 類似度測度は通常直交変換の下で不変であるため、この量子化戦略は性能面ではコストがかからない。 結果として得られるアルゴリズムは教師なし、高速、ハイパーパラメータフリーであり、既存のディープハッシュやメトリック学習アルゴリズム上で実行できる。 我々は、この手法が広く使われている画像データセットの最先端のパフォーマンスにつながることを示し、他の量子化戦略とは異なり、既存のディープハッシュアルゴリズムに一貫した性能改善をもたらすことを示す。

Hashing is at the heart of large-scale image similarity search, and recent methods have been substantially improved through deep learning techniques. Such algorithms typically learn continuous embeddings of the data. To avoid a subsequent costly binarization step, a common solution is to employ loss functions that combine a similarity learning term (to ensure similar images are grouped to nearby embeddings) and a quantization penalty term (to ensure that the embedding entries are close to binarized entries, e.g., -1 or 1). Still, the interaction between these two terms can make learning harder and the embeddings worse. We propose an alternative quantization strategy that decomposes the learning problem in two stages: first, perform similarity learning over the embedding space with no quantization; second, find an optimal orthogonal transformation of the embeddings so each coordinate of the embedding is close to its sign, and then quantize the transformed embedding through the sign function. In the second step, we parametrize orthogonal transformations using Householder matrices to efficiently leverage stochastic gradient descent. Since similarity measures are usually invariant under orthogonal transformations, this quantization strategy comes at no cost in terms of performance. The resulting algorithm is unsupervised, fast, hyperparameter-free and can be run on top of any existing deep hashing or metric learning algorithm. We provide extensive experimental results showing that this approach leads to state-of-the-art performance on widely used image datasets, and, unlike other quantization strategies, brings consistent improvements in performance to existing deep hashing algorithms.
翻訳日:2023-11-08 14:20:59 公開日:2023-11-07
# Rephrase and Respond: 大規模言語モデルでテーマに対する質問を改善する

Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves ( http://arxiv.org/abs/2311.04205v1 )

ライセンス: Link先を確認
Yihe Deng, Weitong Zhang, Zixiang Chen, Quanquan Gu(参考訳) 誤解は対人コミュニケーションだけでなく、人間と大規模言語モデル(llm)の間でも生じる。 このような不一致は、LCMが予期せぬ方法で不明瞭な質問を解釈し、誤った反応をもたらす可能性がある。 質問などのプロンプトの質がLLMの応答の質に大きく影響していることは広く認識されているが、LLMがより理解しやすい質問を体系的に作成する方法はまだ未開発である。 本稿では,LLMが人間による質問をリフレーズ・拡張し,応答を1つのプロンプトで提供する手法であるRaR(Rephrase and Respond)を提案する。 このアプローチは、パフォーマンスを改善するためのシンプルで効果的なプロンプト手法として役立ちます。 また、2段階のRaRを導入し、まずLLMが質問をリフレーズし、次に元の質問とリフレーズした質問をそれぞれ別の応答LLMに渡す。 これにより、ある LLM と別の LLM が生成した言い換え質問を効果的に活用することができる。 実験により,本手法はタスクの範囲で,様々なモデルの性能を著しく向上させることを示した。 さらに、RaRと一般的なChain-of-Thought(CoT)法を理論的にも経験的にも包括的に比較する。 RaRはCoTと相補的であり、CoTと組み合わせることでより優れたパフォーマンスを実現することができることを示す。 我々の研究は,LLMの性能向上に効率よく貢献するだけでなく,LLM能力の公平な評価にも光を当てている。 データとコードはhttps://github.com/uclaml/rephrase-and-respondで入手できる。

Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at https://github.com/uclaml/Rephrase-and-Respond.
翻訳日:2023-11-08 14:20:33 公開日:2023-11-07
# GPT-4V(ision)の勧告能力の探索 : 予備的検討

Exploring Recommendation Capabilities of GPT-4V(ision): A Preliminary Case Study ( http://arxiv.org/abs/2311.04199v1 )

ライセンス: Link先を確認
Peilin Zhou, Meng Cao, You-Liang Huang, Qichen Ye, Peiyan Zhang, Junling Liu, Yueqi Xie, Yining Hua and Jaeboum Kim(参考訳) 大規模マルチモーダルモデル(lmms)は、様々なビジョンや言語タスクで印象的なパフォーマンスを示しているが、視覚補助を伴うレコメンデーションタスクの潜在的な応用は未検討のままである。 このギャップを埋めるために,OpenAI が最近リリースした LMM である GPT-4V(ison) の推奨機能について予備的検討を行った。 我々は,複数のドメインにまたがる質的テストサンプルを構築し,これらのサンプルを用いてgpt-4vの応答をレコメンデーションシナリオで評価する。 これらの検査結果から, GPT-4Vは, 多様な領域にまたがって, 頑健な視覚テキスト理解能力と広範な一般知識により, 優れたゼロショットレコメンデーション能力を有することが示された。 しかし,GPT-4Vをレコメンデーションに使用する際の制限もいくつか指摘されている。 本報告はgpt-4vをレコメンデーションシナリオで利用する際の課題と研究機会について詳細に論じた。 我々の目標は、視覚や言語タスクからレコメンデーションタスクまでLMMを拡張する可能性を探ることである。 我々は,多様性と対話性を高め,ユーザエクスペリエンスを向上させる次世代のマルチモーダル生成レコメンデーションモデルについて,さらなる研究を希望する。 このレポートで使用されるすべてのイメージとプロンプトは、https://github.com/PALIN2018/Evaluate_GPT-4V_Recで参照できる。

Large Multimodal Models (LMMs) have demonstrated impressive performance across various vision and language tasks, yet their potential applications in recommendation tasks with visual assistance remain unexplored. To bridge this gap, we present a preliminary case study investigating the recommendation capabilities of GPT-4V(ison), a recently released LMM by OpenAI. We construct a series of qualitative test samples spanning multiple domains and employ these samples to assess the quality of GPT-4V's responses within recommendation scenarios. Evaluation results on these test samples prove that GPT-4V has remarkable zero-shot recommendation abilities across diverse domains, thanks to its robust visual-text comprehension capabilities and extensive general knowledge. However, we have also identified some limitations in using GPT-4V for recommendations, including a tendency to provide similar responses when given similar inputs. This report concludes with an in-depth discussion of the challenges and research opportunities associated with utilizing GPT-4V in recommendation scenarios. Our objective is to explore the potential of extending LMMs from vision and language tasks to recommendation tasks. We hope to inspire further research into next-generation multimodal generative recommendation models, which can enhance user experiences by offering greater diversity and interactivity. All images and prompts used in this report will be accessible at https://github.com/PALIN2018/Evaluate_GPT-4V_Rec.
翻訳日:2023-11-08 14:20:06 公開日:2023-11-07
# JPAVE: 製品属性予測と価値抽出のための生成と分類に基づくモデル

JPAVE: A Generation and Classification-based Model for Joint Product Attribute Prediction and Value Extraction ( http://arxiv.org/abs/2311.04196v1 )

ライセンス: Link先を確認
Zhongfen Deng, Hao Peng, Tao Zhang, Shuaiqi Liu, Wenting Zhao, Yibo Wang, Philip S. Yu(参考訳) 製品属性の抽出はeコマースにおいて重要なタスクであり、製品検索やレコメンデーションなどの下流アプリケーションを支援する。 これまでのほとんどのモデルは、製品テキスト内の値のシーケンシャルな位置情報に依存し、トレーニングとテストの間のデータの不一致に弱いシーケンスラベリングや質問応答メソッドを使用してこのタスクを処理します。 これにより、それぞれの製品がテキストとスタイルが異なるさまざまなショッピングプラットフォームにまたがって複数の記述を持つ現実のシナリオへの一般化能力が制限される。 新しい値に対するゼロショット機能も限定されている。 本稿では,テキスト中の値の位置情報を必要としない,JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。 さらに、値生成器のコピー機構と値分類器の値注目モジュールは、入力テキストの関連部分のみに着目し、テキスト内の文構造などの不一致の原因となる他の情報を無視することによって、データ不一致問題に対処するのに役立つ。 さらに,オープンワールドとクローズドワールドのシナリオを想定したモデルが2種類ある。 さらに、値生成に基づく最初の変種で導入されたコピー機構は、目に見えない値を識別するゼロショット能力を向上させることができる。 公開データセットにおける実験結果は,強いベースラインと新しい値の予測の一般化と比較して,モデルの優越性を示す。

Product attribute value extraction is an important task in e-Commerce which can help several downstream applications such as product search and recommendation. Most previous models handle this task using sequence labeling or question answering method which rely on the sequential position information of values in the product text and are vulnerable to data discrepancy between training and testing. This limits their generalization ability to real-world scenario in which each product can have multiple descriptions across various shopping platforms with different composition of text and style. They also have limited zero-shot ability to new values. In this paper, we propose a multi-task learning model with value generation/classification and attribute prediction called JPAVE to predict values without the necessity of position information of values in the text. Furthermore, the copy mechanism in value generator and the value attention module in value classifier help our model address the data discrepancy issue by only focusing on the relevant part of input text and ignoring other information which causes the discrepancy issue such as sentence structure in the text. Besides, two variants of our model are designed for open-world and closed-world scenarios. In addition, copy mechanism introduced in the first variant based on value generation can improve its zero-shot ability for identifying unseen values. Experimental results on a public dataset demonstrate the superiority of our model compared with strong baselines and its generalization ability of predicting new values.
翻訳日:2023-11-08 14:19:39 公開日:2023-11-07
# 身体的AIの収束と一般化を改善する選択的視覚表現

Selective Visual Representations Improve Convergence and Generalization for Embodied AI ( http://arxiv.org/abs/2311.04193v1 )

ライセンス: Link先を確認
Ainaz Eftekhar, Kuo-Hao Zeng, Jiafei Duan, Ali Farhadi, Ani Kembhavi, Ranjay Krishna(参考訳) 身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。 このような汎用表現は、シーンに関する豊富な構文的および意味的情報をエンコードしているが、これらの情報の多くは、しばしば目の前の特定のタスクとは無関係である。 これは学習プロセスにノイズをもたらし、エージェントの焦点をタスクに関連する視覚的な手がかりから遠ざけます。 人間における選択的注意(その経験、知識、手作業に基づいてその知覚をフィルタリングするプロセス)に触発され、身体化されたaiの視覚刺激をフィルタリングするパラメーター効率の高いアプローチを導入する。 提案手法は,小さな学習可能なコードブックモジュールを用いてタスク条件付きボトルネックを誘導する。 このコードブックは、タスク報酬を最適化するために共同で訓練され、視覚的観察に対するタスク条件の選択フィルタとして機能する。 ProcTHor, ArchitecTHor, Robothor, AI2-iTHor, Manipulathor の5つのベンチマークにおいて, 目標ナビゲーションと物体変位の最先端性能を示す。 コードブックによって生成されたフィルタされた表現は、居住地のような他のシミュレーション環境に適応することで、より一般化し、より高速に収束することができる。 質的分析により,エージェントはより効果的に環境を探索でき,その表現は対象物体認識のようなタスク関連情報を保持しつつ,他の物体に対する過剰な情報を無視していることが示された。 コードと事前トレーニングされたモデルは、プロジェクトのWebサイトで利用可能です。

Embodied AI models often employ off the shelf vision backbones like CLIP to encode their visual observations. Although such general purpose representations encode rich syntactic and semantic information about the scene, much of this information is often irrelevant to the specific task at hand. This introduces noise within the learning process and distracts the agent's focus from task-relevant visual cues. Inspired by selective attention in humans-the process through which people filter their perception based on their experiences, knowledge, and the task at hand-we introduce a parameter-efficient approach to filter visual stimuli for embodied AI. Our approach induces a task-conditioned bottleneck using a small learnable codebook module. This codebook is trained jointly to optimize task reward and acts as a task-conditioned selective filter over the visual observation. Our experiments showcase state-of-the-art performance for object goal navigation and object displacement across 5 benchmarks, ProcTHOR, ArchitecTHOR, RoboTHOR, AI2-iTHOR, and ManipulaTHOR. The filtered representations produced by the codebook are also able generalize better and converge faster when adapted to other simulation environments such as Habitat. Our qualitative analyses show that agents explore their environments more effectively and their representations retain task-relevant information like target object recognition while ignoring superfluous information about other objects. Code and pretrained models are available at our project website: https://embodied-codebook.github.io.
翻訳日:2023-11-08 14:19:14 公開日:2023-11-07
# JaSPICE:画像キャプションモデルのための述語構造を用いた自動評価基準

JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models ( http://arxiv.org/abs/2311.04192v1 )

ライセンス: Link先を確認
Yuiga Wada, Kanta Kaneda, Komei Sugiura(参考訳) 画像キャプションの研究はBLEUやMETEORなどの自動評価指標に大きく依存している。 しかし、このようなn-gramベースのメトリクスは人間の評価と相関が低いことが示されており、英語のSPICEのような代替指標が提案されているが、他の言語では同等のメトリクスが確立されていない。 そこで本研究では,シーングラフに基づく日本語字幕評価を行うJaSPICEという自動評価指標を提案する。 提案手法は,依存関係と述語構造からシーングラフを生成し,同義語を用いてグラフを拡張する。 実験では,STAIRキャプションとPFN-PICで訓練した10の画像キャプションモデルを用いて,103,170人の評価を含む七味データセットを構築した。 その結果, 相関係数の基準値と人的評価値との相関係数を比較検討した。

Image captioning studies heavily rely on automatic evaluation metrics such as BLEU and METEOR. However, such n-gram-based metrics have been shown to correlate poorly with human evaluation, leading to the proposal of alternative metrics such as SPICE for English; however, no equivalent metrics have been established for other languages. Therefore, in this study, we propose an automatic evaluation metric called JaSPICE, which evaluates Japanese captions based on scene graphs. The proposed method generates a scene graph from dependencies and the predicate-argument structure, and extends the graph using synonyms. We conducted experiments employing 10 image captioning models trained on STAIR Captions and PFN-PIC and constructed the Shichimi dataset, which contains 103,170 human evaluations. The results showed that our metric outperformed the baseline metrics for the correlation coefficient with the human evaluation.
翻訳日:2023-11-08 14:18:48 公開日:2023-11-07
# ハドロン熱量計のデータ品質モニタリングのためのグラフネットワークを用いた時空間異常検出

Spatio-Temporal Anomaly Detection with Graph Networks for Data Quality Monitoring of the Hadron Calorimeter ( http://arxiv.org/abs/2311.04190v1 )

ライセンス: Link先を確認
Mulugeta Weldezgina Asres, Christian Walter Omlin, Long Wang, David Yu, Pavel Parygin, Jay Dittmann, Georgia Karapostoli, Markus Seidel, Rosamaria Venditti, Luka Lambrecht, Emanuele Usai, Muhammad Ahmad, Javier Fernandez Menendez, Kaori Maeshima and the CMS-HCAL Collaboration(参考訳) 小型ミューオンソレノイド (CMS) 実験はCERNの大型ハドロン衝突型加速器 (LHC) で高エネルギー衝突を行う汎用検出器である。 オンラインデータ品質監視(DQM)システムを使用して、データ品質の損失を避けるために、素粒子データ取得問題を迅速に発見、診断する。 本研究では,DQMの3次元ジギ占有地図データを用いて,CMSのハドロン熱量計(HCAL)の物理粒子読影チャネルに対する半教師付き時空間異常検出(AD)モニタリングを提案する。 本稿では,コンボリューションニューラルネットワークとグラフニューラルネットワークを用いて,検出器を横切る粒子による局所的空間特性と,チャネルの共有回路接続とハウジングボックスによる大域的挙動を学習するグラフスタッドシステムを提案する。 繰り返しニューラルネットワークは、抽出された空間的特徴の時間的進化を捉える。 我々は,LHC Run-2の衝突データセットを用いて,多様なチャネル障害を捕捉するADシステムの精度を検証した。 GraphSTADシステムは、実運用レベルの精度を達成し、HCALのリアルタイム監視のためのCMSコアプロダクションシステムに統合されている。 また,提案システムの有望な活用を実証するために,代替ベンチマークモデルと定量的な性能比較を行った。

The compact muon solenoid (CMS) experiment is a general-purpose detector for high-energy collision at the large hadron collider (LHC) at CERN. It employs an online data quality monitoring (DQM) system to promptly spot and diagnose particle data acquisition problems to avoid data quality loss. In this study, we present semi-supervised spatio-temporal anomaly detection (AD) monitoring for the physics particle reading channels of the hadronic calorimeter (HCAL) of the CMS using three-dimensional digi-occupancy map data of the DQM. We propose the GraphSTAD system, which employs convolutional and graph neural networks to learn local spatial characteristics induced by particles traversing the detector, and global behavior owing to shared backend circuit connections and housing boxes of the channels, respectively. Recurrent neural networks capture the temporal evolution of the extracted spatial features. We have validated the accuracy of the proposed AD system in capturing diverse channel fault types using the LHC Run-2 collision data sets. The GraphSTAD system has achieved production-level accuracy and is being integrated into the CMS core production system--for real-time monitoring of the HCAL. We have also provided a quantitative performance comparison with alternative benchmark models to demonstrate the promising leverage of the presented system.
翻訳日:2023-11-08 14:18:31 公開日:2023-11-07
# spadelef:スペイン語のコロケーションの語彙関数の階層分類のためのデータセット

SpaDeLeF: A Dataset for Hierarchical Classification of Lexical Functions for Collocations in Spanish ( http://arxiv.org/abs/2311.04189v1 )

ライセンス: Link先を確認
Yevhen Kostiuk, Grigori Sidorov, Olga Kolesnikova(参考訳) 自然言語処理 (NLP) において、語彙関数 (lexical function) は、意味テキスト理論で最初に作られたテキストにおいて、単語やフレーズの意味的特徴と構文的特徴を曖昧に表現する概念である。 語彙関数の階層分類は、これらの特徴をカテゴリやラベルのツリーのような階層に分類する。 テキスト中の単語やフレーズ間の文脈や関係をよく理解する必要があるため、これは難しい作業である。 また、言語モデルを効果的に訓練するために大量のラベル付きデータも必要です。 本稿では,最も頻度の高いスペイン語動詞・名詞のコロケーションと文のデータセットを,階層的分類タスクのクラスとして定義された37の語彙関数の1つに割り当てる。 各クラスは、意味的および構文的特徴を含むコロケーションにおける名詞と動詞の関係を表す。 我々は,これらのクラスを木構造で結合し,各階層の分類目標を導入する。 データセットは、スペイン語ニュースの句の構文解析とマッチングによって作成された。 各目的に対してベースラインとデータ分割を提供します。

In natural language processing (NLP), lexical function is a concept to unambiguously represent semantic and syntactic features of words and phrases in text first crafted in the Meaning-Text Theory. Hierarchical classification of lexical functions involves organizing these features into a tree-like hierarchy of categories or labels. This is a challenging task as it requires a good understanding of the context and the relationships among words and phrases in text. It also needs large amounts of labeled data to train language models effectively. In this paper, we present a dataset of most frequent Spanish verb-noun collocations and sentences where they occur, each collocation is assigned to one of 37 lexical functions defined as classes for a hierarchical classification task. Each class represents a relation between the noun and the verb in a collocation involving their semantic and syntactic features. We combine the classes in a tree-based structure, and introduce classification objectives for each level of the structure. The dataset was created by dependency tree parsing and matching of the phrases in Spanish news. We provide baselines and data splits for each objective.
翻訳日:2023-11-08 14:18:09 公開日:2023-11-07
# 粗粒タンパク質折り畳みモデルのための量子アルゴリズムの資源解析

Resource analysis of quantum algorithms for coarse-grained protein folding models ( http://arxiv.org/abs/2311.04186v1 )

ライセンス: Link先を確認
Hanna Linn, Isak Brundin, Laura Garc\'ia-\'Alvarez, G\"oran Johansson(参考訳) タンパク質の折りたたみプロセスは分子生物学の重要な側面であり、従来のコンピュータではシミュレートが難しい。 量子アルゴリズムは特定の問題に対して優れていることが証明されており、この複雑な生命科学の課題に取り組むのに役立つかもしれない。 量子コンピュータ上でタンパク質の折り畳みをシミュレーションするための資源要件を分析し,現在および近未来の技術的展望におけるこの問題の可能性を評価する。 我々は、折りたたみ問題の特定の情報を持つヒューリスティック量子アルゴリズムを構築するのに必要な最小の量子ビット数、相互作用、および2量子ゲートを計算する。 特に,特定のアミノ酸数に対するタンパク質の折りたたみモデルに関連付けられたハミルトニアンに基づく量子演算を構築するために必要な資源に着目した。 このような操作はこれらの量子アルゴリズムの基本的な構成要素であり、効率的な計算のために量子状態の進化を導く。 具体的には,格子および固定バックボーン側鎖コンフォーメーションモデル上でのコース粒度の折り畳みモデルについて検討し,ビットエンコーディングの異なる既存の量子ハードウェアの制約との整合性を評価する。 必要な量子ビットの数は、現在の技術能力に該当する。 しかし、制限因子はハミルトニアンにおける多くの相互作用であり、今日では量子ゲート数は利用できない。

Protein folding processes are a vital aspect of molecular biology that is hard to simulate with conventional computers. Quantum algorithms have been proven superior for certain problems and may help tackle this complex life science challenge. We analyze the resource requirements for simulating protein folding on a quantum computer, assessing this problem's feasibility in the current and near-future technological landscape. We calculate the minimum number of qubits, interactions, and two-qubit gates necessary to build a heuristic quantum algorithm with the specific information of a folding problem. Particularly, we focus on the resources needed to build quantum operations based on the Hamiltonian linked to the protein folding models for a given amino acid count. Such operations are a fundamental component of these quantum algorithms, guiding the evolution of the quantum state for efficient computations. Specifically, we study course-grained folding models on the lattice and the fixed backbone side-chain conformation model and assess their compatibility with the constraints of existing quantum hardware given different bit-encodings. We conclude that the number of qubits required falls within current technological capabilities. However, the limiting factor is the high number of interactions in the Hamiltonian, resulting in a quantum gate count unavailable today.
翻訳日:2023-11-08 14:17:52 公開日:2023-11-07
# 機械学習パイプラインの漏洩について

On Leakage in Machine Learning Pipelines ( http://arxiv.org/abs/2311.04179v1 )

ライセンス: Link先を確認
Leonard Sasse and Eliana Nicolaisen-Sobesky and Juergen Dukart and Simon B. Eickhoff and Michael G\"otz and Sami Hamdan and Vera Komeyer and Abhijit Kulkarni and Juha Lahnakoski and Bradley C. Love and Federico Raimondo and Kaustubh R. Patil(参考訳) 機械学習(ML)は予測モデリングのための強力なツールを提供する。 MLの人気は、物理学やマーケティング、医療など、さまざまな分野の応用において、サンプルレベルの予測が約束されることに由来する。 しかし、適切に実装され評価されていない場合、MLパイプラインは、通常、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。 これは深刻な負の財政と社会的影響をもたらす可能性がある。 私たちの目標は、MLパイプラインの設計、実装、評価においてリークにつながる原因に関する理解を広げることです。 具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。

Machine learning (ML) provides powerful tools for predictive modeling. ML's popularity stems from the promise of sample-level prediction with applications across a variety of fields from physics and marketing to healthcare. However, if not properly implemented and evaluated, ML pipelines may contain leakage typically resulting in overoptimistic performance estimates and failure to generalize to new data. This can have severe negative financial and societal implications. Our aim is to expand understanding associated with causes leading to leakage when designing, implementing, and evaluating ML pipelines. Illustrated by concrete examples, we provide a comprehensive overview and discussion of various types of leakage that may arise in ML pipelines.
翻訳日:2023-11-08 14:17:33 公開日:2023-11-07
# PPTCベンチマーク:PowerPointタスク完了のための大規模言語モデルの評価

PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion ( http://arxiv.org/abs/2311.01767v2 )

ライセンス: Link先を確認
Yiduo Guo, Zekai Zhang, Yaobo Liang, Dongyan Zhao, Nan Duan(参考訳) 最近のLLM(Large Language Models)の評価は、基本的な自然言語タスクのためのゼロショット/フェーショット機能のテストと、ツールAPIへの変換機能を中心にしている。 しかし,複雑なマルチモーダル環境におけるマルチターン・マルチモーダル命令を仕上げるための複雑なツールを用いたLCMの評価は行われていない。 このギャップに対処するために,ユーザ命令に基づいてPPTファイルを作成・編集するLLMの能力を評価するために,PowerPoint Task Completion (PPTC)ベンチマークを導入する。 多様なトピックとマルチモーダル操作を含む数百の命令をカバーする279のマルチターンセッションが含まれている。 また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLLMが命令を終了するかどうかを評価するPPTX-Match評価システムを提案し,様々なLLM生成APIシーケンスをサポートする。 3つの閉LLMと6つのオープンソースLLMを測定する。 その結果,gpt-4 は他の llm を75.1\% の精度で上回っており,セッション全体の完成には困難が伴い,セッション精度はわずか 6\% となった。 ベンチマークでは、マルチターンセッションにおけるエラー蓄積、長いPTテンプレート処理、マルチモーダリティ知覚の3つの主なエラー原因が見つかった。 これらは将来のLLMとエージェントシステムにとって大きな課題となる。 本稿では,PPTCのデータ,コード,評価システムについて,<url{https://github.com/gydpku/PPTC}で公開する。

Recent evaluations of Large Language Models (LLMs) have centered around testing their zero-shot/few-shot capabilities for basic natural language tasks and their ability to translate instructions into tool APIs. However, the evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal instructions in a complex multi-modal environment has not been investigated. To address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark to assess LLMs' ability to create and edit PPT files based on user instructions. It contains 279 multi-turn sessions covering diverse topics and hundreds of instructions involving multi-modal operations. We also propose the PPTX-Match Evaluation System that evaluates if LLMs finish the instruction based on the prediction file rather than the label API sequence, thus it supports various LLM-generated API sequences. We measure 3 closed LLMs and 6 open-source LLMs. The results show that GPT-4 outperforms other LLMs with 75.1\% accuracy in single-turn dialogue testing but faces challenges in completing entire sessions, achieving just 6\% session accuracy. We find three main error causes in our benchmark: error accumulation in the multi-turn session, long PPT template processing, and multi-modality perception. These pose great challenges for future LLM and agent systems. We release the data, code, and evaluation system of PPTC at \url{https://github.com/gydpku/PPTC}.
翻訳日:2023-11-08 12:35:03 公開日:2023-11-07
# 結合構造を改良した低損失ミリ波共振器

Low-loss Millimeter-wave Resonators with an Improved Coupling Structure ( http://arxiv.org/abs/2311.01670v2 )

ライセンス: Link先を確認
Alexander Anferov, Shannon P. Harvey, Fanghui Wan, Kan-Heng Lee, Jonathan Simon and David I. Schuster(参考訳) ミリ波超伝導共振器は、量子デバイスコヒーレンスを新しい周波数領域で研究するのに有用である。 しかし、ミリ波信号を2次元構造に結合する堅牢で信頼性の高い手法がなければ、共振器の改善は困難である。 矩形導波路と平面スロットライン導波路を結合したテープ状遷移構造を14GHz以上の0.5dB効率で開発し,それをW帯(75-110GHz)の地中シールド共振器の測定に用いる。 共振器を放射損失から分離し, 単一光子品質係数を10^5$以上, 2レベル損失限界を10^6$以上と一貫して達成し, 酸化物除去処理の有効性を検証することで損失を低減した。 これらの値は、wバンドで報告された値よりも4-5倍高く、典型的な平面マイクロ波デバイスにかなり近く、低損失のオンチップミリ波量子技術の可能性を示している。

Millimeter-wave superconducting resonators are a useful tool for studying quantum device coherence in a new frequency domain. However, improving resonators is difficult without a robust and reliable method for coupling millimeter-wave signals to 2D structures. We develop and characterize a tapered transition structure coupling a rectangular waveguide to a planar slotline waveguide with better than 0.5 dB efficiency over 14 GHz, and use it to measure ground-shielded resonators in the W band (75-110 GHz). Having decoupled the resonators from radiative losses, we consistently achieve single-photon quality factors above $10^5$, with a two-level-system loss limit above $10^6$, and verify the effectiveness of oxide removal treatments to reduce loss. These values are 4-5 times higher than those previously reported in the W band, and much closer to typical planar microwave devices, demonstrating the potential for low-loss on-chip millimeter wave quantum technology.
翻訳日:2023-11-08 12:34:38 公開日:2023-11-07
# オフライン強化学習における事前学習言語モデルの活用

Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.20587v3 )

ライセンス: Link先を確認
Ruizhe Shi, Yuyao Liu, Yanjie Ze, Simon S. Du, Huazhe Xu(参考訳) オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。 現実のシナリオでは、データ収集は高価でリスクが高いため、ドメイン内のデータが制限された場合、オフラインRLは特に困難になる。 近年のLLM(Large Language Models)とその数発の学習技術の進歩を踏まえ、オフラインRLに事前学習言語モデル(LM)を効果的に活用するための決定変換器に基づく一般的なフレームワークである$\textbf{La}$tion Control(\textbf{LaMo}$tion Control)(\textbf{LaMo}$)について紹介する。 Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. 実験結果から、sparse-reward タスクでは $\textbf{LaMo}$ が最先端のパフォーマンスを達成し、高密度リワードタスクでは値ベースオフライン RL メソッドと決定変換器とのギャップを埋めることを示す。 特に本手法は,データサンプルが限られたシナリオにおいて優れた性能を示す。 プロジェクトのwebサイトは$\href{https://lamo2023.github.io}{\text{this https url}}$です。

Offline reinforcement learning (RL) aims to find a near-optimal policy using pre-collected datasets. In real-world scenarios, data collection could be costly and risky; therefore, offline RL becomes particularly challenging when the in-domain data is limited. Given recent advances in Large Language Models (LLMs) and their few-shot learning prowess, this paper introduces $\textbf{La}$nguage Models for $\textbf{Mo}$tion Control ($\textbf{LaMo}$), a general framework based on Decision Transformers to effectively use pre-trained Language Models (LMs) for offline RL. Our framework highlights four crucial components: (1) Initializing Decision Transformers with sequentially pre-trained LMs, (2) employing the LoRA fine-tuning method, in contrast to full-weight fine-tuning, to combine the pre-trained knowledge from LMs and in-domain knowledge effectively, (3) using the non-linear MLP transformation instead of linear projections, to generate embeddings, and (4) integrating an auxiliary language prediction loss during fine-tuning to stabilize the LMs and retain their original abilities on languages. Empirical results indicate $\textbf{LaMo}$ achieves state-of-the-art performance in sparse-reward tasks and closes the gap between value-based offline RL methods and decision transformers in dense-reward tasks. In particular, our method demonstrates superior performance in scenarios with limited data samples. Our project website is $\href{https://lamo2023.github.io}{\text{this https URL}}$.
翻訳日:2023-11-08 12:34:18 公開日:2023-11-07
# クラスタリングによるエントロピーベースのテスト時間適応性の改善

Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v3 )

ライセンス: Link先を確認
Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin(参考訳) ドメインシフトは現実的な世界で共通の問題であり、トレーニングデータとテストデータは異なるデータ分布に従う。 この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを利用してモデルを適応する。 特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースTTA(EBTTA)法は,大きな成功を収めている。 本稿では,クラスタリングの観点からこれらの手法を解釈するEBTTAの新しい視点を紹介する。 これは反復アルゴリズムである。 1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、 2) 更新ステップでは、下位プロセスは割り当てられたサンプルを通してモデルの更新である。 この解釈に基づいて、ETTTAの深い理解を得ることができ、エントロピー損失が最大確率をさらに増大させることを示す。 そこで本研究では,既存のETBTTAメソッドが初期割り当てやアウトレーヤ,バッチサイズに敏感である理由について,別の説明を行う。 この観察は、ETTTAの改善を推し進めるために役立ちます。 上記の問題を緩和するために,ロバストなラベル割り当て,重量調整,勾配蓄積を提案する。 実験の結果,本手法は様々なデータセットに対して一貫した改善が得られた。 コードは補足材料で提供される。

Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, Entropy-Based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new perspective on the EBTTA, which interprets these methods from a view of clustering. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. Based on the interpretation, we can gain a deeper understanding of EBTTA, where we show that the entropy loss would further increase the largest probability. Accordingly, we offer an alternative explanation for why existing EBTTA methods are sensitive to initial assignments, outliers, and batch size. This observation can guide us to put forward the improvement of EBTTA. We propose robust label assignment, weight adjustment, and gradient accumulation to alleviate the above problems. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material.
翻訳日:2023-11-08 12:33:47 公開日:2023-11-07
# LG-Self: ローカルグローバルな自己監督型視覚表現学習

LG-Self: Local-Global Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2310.18651v3 )

ライセンス: Link先を確認
Ali Javidani, Mohammad Amin Sadeghi, Babak Nadjar Araabi(参考訳) 自己教師付き表現学習法は主に画像レベルのインスタンス識別に焦点をあてる。 本研究は,既存の手法にパッチレベルの識別を組み込むことによる,局所的およびグローバル的な視覚特徴を同時に見ることにより,学習表現の品質を向上させることによる潜在的メリットを検討する。 このアイデアに向けて、画像の拡張ビューにまたがって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。 その後、拡張ビューはViT(Vision Transformer)をバックボーンとする自己教師型学習フレームワークに入力される。 その結果、イメージレベルとパッチレベルの両方の表現が生成される。 提案するパッチマッチングアルゴリズムを利用して,clsトークンだけでなく,対応するパッチ間の表現距離を最小化する。 その結果、このモデルは画像全体とより詳細な詳細の両方をより包括的に理解するようになる。 提案手法を小規模,中規模,大規模データセットで事前学習する。 本手法は,画像分類と下流タスクの両方において,最先端のイメージレベル表現学習手法を上回ることができることを示す。 キーワード:自己監督学習、視覚表現、局所言語表現学習、パッチワイズ表現学習、視覚変換器(ViT)

Self-supervised representation learning methods mainly focus on image-level instance discrimination. This study explores the potential benefits of incorporating patch-level discrimination into existing methods to enhance the quality of learned representations by simultaneously looking at local and global visual features. Towards this idea, we present a straightforward yet effective patch-matching algorithm that can find the corresponding patches across the augmented views of an image. The augmented views are subsequently fed into a self-supervised learning framework employing Vision Transformer (ViT) as its backbone. The result is the generation of both image-level and patch-level representations. Leveraging the proposed patch-matching algorithm, the model minimizes the representation distance between not only the CLS tokens but also the corresponding patches. As a result, the model gains a more comprehensive understanding of both the entirety of the image as well as its finer details. We pretrain the proposed method on small, medium, and large-scale datasets. It is shown that our approach could outperform state-of-the-art image-level representation learning methods on both image classification and downstream tasks. Keywords: Self-Supervised Learning; Visual Representations; Local-Global Representation Learning; Patch-Wise Representation Learning; Vision Transformer (ViT)
翻訳日:2023-11-08 12:33:27 公開日:2023-11-07
# VMD-GARCH-LSTMモデルを用いた時系列予測の非線形手法

A Nonlinear Method for time series forecasting using VMD-GARCH-LSTM model ( http://arxiv.org/abs/2310.08812v3 )

ライセンス: Link先を確認
Zhengtao Gui, Haoyuan Li, Sijie Xu, Yu Chen(参考訳) 時系列予測は様々な分野において重要かつ困難なタスクである。 近年,局所的な特徴を捉え,データから固有モードを抽出するという利点から,モード分解に基づく手法が複雑な時系列予測を優位に立たしている。 残念なことに、ほとんどのモデルは重要な情報を含む暗黙のボラティリティを捉えていない。 そこで我々は,現在,急速に進化し,揮発する時系列の予測性を高めるために,新しい分解・感覚パラダイムであるvmd-lstm-garchモデルを提案する。 変動モード分解アルゴリズムを用いて時系列をKサブモードに分解する。 その後、GARCHモデルはこれらのサブモードからボラティリティ情報を抽出し、LSTMの入力として機能する。 各サブモードの数値およびボラティリティ情報は、Long Short-Term Memory Networkのトレーニングに使用される。 このネットワークはサブモードを予測し、すべてのサブモードから予測を集約して出力を生成します。 econometric and artificial intelligence (econometric and artificial intelligence) 法を統合し, 時系列の数値的および変動性情報の両方を考慮して, 実験結果におけるmse, rmse, mapeの有意な減少が示すように, 時系列予測における優れた性能を示す。

Time series forecasting represents a significant and challenging task across various fields. Recently, methods based on mode decomposition have dominated the forecasting of complex time series because of the advantages of capturing local characteristics and extracting intrinsic modes from data. Unfortunately, most models fail to capture the implied volatilities that contain significant information. To enhance the forecasting of current, rapidly evolving, and volatile time series, we propose a novel decomposition-ensemble paradigm, the VMD-LSTM-GARCH model. The Variational Mode Decomposition algorithm is employed to decompose the time series into K sub-modes. Subsequently, the GARCH model extracts the volatility information from these sub-modes, which serve as the input for the LSTM. The numerical and volatility information of each sub-mode is utilized to train a Long Short-Term Memory network. This network predicts the sub-mode, and then we aggregate the predictions from all sub-modes to produce the output. By integrating econometric and artificial intelligence methods, and taking into account both the numerical and volatility information of the time series, our proposed model demonstrates superior performance in time series forecasting, as evidenced by the significant decrease in MSE, RMSE, and MAPE in our comparative experimental results.
翻訳日:2023-11-08 12:33:10 公開日:2023-11-07
# パープレキシティによる言語モデル攻撃の検出

Detecting Language Model Attacks with Perplexity ( http://arxiv.org/abs/2308.14132v3 )

ライセンス: Link先を確認
Gabriel Alon, Michael Kamfonas(参考訳) 大規模な言語モデル(llm)を含む新しいハックが登場し、敵の接尾辞を利用してモデルをだまして有害な応答を生成する。 このようなジェイルブレイクは、LSMを騙して、悪意のあるユーザに、爆発物を作ったり、銀行強盗を組織したり、攻撃的なコンテンツの制作を手伝うための複雑な指示を与えることができる。 オープンソースLCM (GPT-2) を用いて, 逆接接尾辞を用いたクエリのパープレキシティを評価することにより, 高いパープレキシティ値が得られた。 正則(非競合的)なプロンプト多様体の幅広い範囲を調査した結果、偽陽性は平易なパープレキシティフィルタリングの重要な課題であると結論づけた。 難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。

A novel hack involving Large Language Models (LLMs) has emerged, exploiting adversarial suffixes to deceive models into generating perilous responses. Such jailbreaks can trick LLMs into providing intricate instructions to a malicious user for creating explosives, orchestrating a bank heist, or facilitating the creation of offensive content. By evaluating the perplexity of queries with adversarial suffixes using an open-source LLM (GPT-2), we found that they have exceedingly high perplexity values. As we explored a broad range of regular (non-adversarial) prompt varieties, we concluded that false positives are a significant challenge for plain perplexity filtering. A Light-GBM trained on perplexity and token length resolved the false positives and correctly detected most adversarial attacks in the test set.
翻訳日:2023-11-08 12:32:48 公開日:2023-11-07
# 輸送は変分推論に合致する:制御モンテカルロ拡散

Transport meets Variational Inference: Controlled Monte Carlo Diffusions ( http://arxiv.org/abs/2307.01050v5 )

ライセンス: Link先を確認
Francisco Vargas, Shreyas Padhy, Denis Blessing, Nikolas N\"usken(参考訳) 最適輸送と変分推論をつなぐことで,経路空間上の発散を中心としたサンプリング・生成モデルのための原理的・体系的枠組みを提案する。 本研究は, 拡散モデルにおける前方および後方のダイナミクスを決定的に適応するスコアに基づくアニーリング手法であるベイズ計算のための, \emph{ controlled monte carlo diffusion} sampler (cmcd) の開発に結実する。 そこで本研究では,Shr{\"o}dingerブリッジのEM-algorithmと反復比例フィッティング(IPF)の関係を明らかにするとともに,標準IPF更新の反復的ボトルネックを回避した正規化目的を導出する。 最後に,CMCDは統計物理学からJarzinskyとCrooksのアイデンティティに強い基盤を持ち,様々な実験において競合するアプローチよりも優れていることを示す。

Connecting optimal transport and variational inference, we present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of the \emph{Controlled Monte Carlo Diffusion} sampler (CMCD) for Bayesian computation, a score-based annealing technique that crucially adapts both forward and backward dynamics in a diffusion model. On the way, we clarify the relationship between the EM-algorithm and iterative proportional fitting (IPF) for Schr{\"o}dinger bridges, deriving as well a regularised objective that bypasses the iterative bottleneck of standard IPF-updates. Finally, we show that CMCD has a strong foundation in the Jarzinsky and Crooks identities from statistical physics, and that it convincingly outperforms competing approaches across a wide array of experiments.
翻訳日:2023-11-08 12:32:32 公開日:2023-11-07
# GQE-Net:ポイントクラウドカラー属性のためのグラフベースの品質向上ネットワーク

GQE-Net: A Graph-based Quality Enhancement Network for Point Cloud Color Attribute ( http://arxiv.org/abs/2303.13764v3 )

ライセンス: Link先を確認
Jinrui Xing, Hui Yuan, Raouf Hamzaoui, Hao Liu, and Junhui Hou(参考訳) 近年、点雲は3次元(3次元)の視覚オブジェクトやシーンを表現するために人気が高まっている。 点雲を効率的に保存・送信するために圧縮法が開発されているが、品質が劣化することが多い。 点雲の色歪みを低減するため,幾何学情報を補助入力とし,グラフ畳み込みブロックを用いて局所特徴を効率的に抽出するグラフベース品質向上ネットワーク(GQE-Net)を提案する。 具体的には,マルチヘッドグラフアテンション機構を備えた並列シリアルグラフアテンションモジュールを用いて重要な点や特徴に着目し,それらを融合させる。 さらに,点間の正規性と幾何学的距離を考慮に入れた特徴改善モジュールを設計する。 GPUメモリ容量の制限の中で機能するために、歪んだポイントクラウドはオーバーラップ可能な3Dパッチに分割され、品質向上のためにGQE-Netに送られる。 異なる色成分間のデータ分布の違いを考慮するため、3つの色成分について3つのモデルを訓練する。 実験結果から,本手法は最先端性能を実現することが示された。 例えば、幾何ベースのポイントクラウド圧縮 (g-pcc) 標準である 0.43 db, 0.25 db, 0.36 db bjontegaard delta (bd)-peak-signal-to-noise ratio (psnr) の最近のテストモデル上でgqe-netを実装する場合、それぞれ、y、cb、crコンポーネントの高密度ポイントクラウド上で、14.0%、9.3%、14.5%のbdレート節約を達成できる。 このメソッドのソースコードはhttps://github.com/xjr998/gqe-netで入手できる。

In recent years, point clouds have become increasingly popular for representing three-dimensional (3D) visual objects and scenes. To efficiently store and transmit point clouds, compression methods have been developed, but they often result in a degradation of quality. To reduce color distortion in point clouds, we propose a graph-based quality enhancement network (GQE-Net) that uses geometry information as an auxiliary input and graph convolution blocks to extract local features efficiently. Specifically, we use a parallel-serial graph attention module with a multi-head graph attention mechanism to focus on important points or features and help them fuse together. Additionally, we design a feature refinement module that takes into account the normals and geometry distance between points. To work within the limitations of GPU memory capacity, the distorted point cloud is divided into overlap-allowed 3D patches, which are sent to GQE-Net for quality enhancement. To account for differences in data distribution among different color components, three models are trained for the three color components. Experimental results show that our method achieves state-of-the-art performance. For example, when implementing GQE-Net on a recent test model of the geometry-based point cloud compression (G-PCC) standard, 0.43 dB, 0.25 dB, and 0.36 dB Bjontegaard delta (BD)-peak-signal-to-noise ratio (PSNR), corresponding to 14.0%, 9.3%, and 14.5% BD-rate savings can be achieved on dense point clouds for the Y, Cb, and Cr components, respectively. The source code of our method is available at https://github.com/xjr998/GQE-Net.
翻訳日:2023-11-08 12:32:13 公開日:2023-11-07
# 混合整数線形最適化のための可変切削平面層

Differentiable Cutting-plane Layers for Mixed-integer Linear Optimization ( http://arxiv.org/abs/2311.03350v2 )

ライセンス: Link先を確認
Gabriele Dragotto, Stefan Clarke, Jaime Fern\'andez Fisac, Bartolomeo Stellato(参考訳) 入力データの一部が変化するパラメトリック混合整数線形最適化問題の一群を解決する問題を考える。 本稿では,切削平面層(CPL)の概念,すなわち,問題データと過去の繰り返しを切断平面にマッピングする識別可能な切削平面発生器を紹介する。 我々は分割カットを生成するためのCPLの実装を提案し、いくつかのCPLを組み合わせることでパラメトリックインスタンスの繰り返しの性質を生かした微分可能なカットプレーンアルゴリズムを考案した。 オフラインフェーズでは、CPLを制御する内部パラメータを更新し、カット生成を変更することでアルゴリズムを訓練する。 一度トレーニングすると、アルゴリズムは、予測可能な実行時間と一定数のカット、低い積分ギャップの解を計算します。 予備計算実験により,本アルゴリズムは未知のインスタンスを一般化し,基礎となるパラメトリック構造を捉える。

We consider the problem of solving a family of parametric mixed-integer linear optimization problems where some entries in the input data change. We introduce the concept of cutting-plane layer (CPL), i.e., a differentiable cutting-plane generator mapping the problem data and previous iterates to cutting planes. We propose a CPL implementation to generate split cuts, and by combining several CPLs, we devise a differentiable cutting-plane algorithm that exploits the repeated nature of parametric instances. In an offline phase, we train our algorithm by updating the internal parameters controlling the CPLs, thus altering cut generation. Once trained, our algorithm computes, with predictable execution times and a fixed number of cuts, solutions with low integrality gaps. Preliminary computational tests show that our algorithm generalizes on unseen instances and captures underlying parametric structures.
翻訳日:2023-11-08 12:27:06 公開日:2023-11-07
# GPT-4Vにおける幻覚の全体的解析 : バイアスと干渉問題

Holistic Analysis of Hallucination in GPT-4V(ision): Bias and Interference Challenges ( http://arxiv.org/abs/2311.03287v2 )

ライセンス: Link先を確認
Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James Zou, Huaxiu Yao(参考訳) GPT-4Vは視覚情報とテキスト情報を同時にモデル化するが、幻覚行動は体系的に評価されていない。 このギャップを埋めるため、Visual Language Models (Bingo) の Bias and Interference Challenges という新しいベンチマークを導入する。 このベンチマークは、ビジュアル言語モデルにおける2つの一般的なタイプの幻覚、バイアスと干渉を評価するために設計されている。 ここで、バイアスはモデルが特定のタイプの応答を幻覚する傾向を示しており、おそらくトレーニングデータの不均衡のためにである。 干渉は、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判断を妨害することができるシナリオに関するものである。 GPT-4V(ision)は、他国の画像や他の言語にテキストを含むものと比較して、西洋のイメージやイメージを英語で解釈するのに優れている。 さらに、GPT-4V(ision)は主要な問題に対して脆弱であり、複数の画像をまとめて解釈する際にはしばしば混乱する。 自己修正や思考の連鎖といった一般的な緩和アプローチは、これらの課題を解決する上では有効ではない。 また、LLaVAとBardで同様のバイアスや干渉の脆弱性を特定しました。 gpt-4v(ision)と最先端のビジュアル言語モデルの幻覚課題を特徴とし,新しいソリューションの必要性を強調した。 bingoベンチマークはhttps://github.com/gzcch/bingoで入手できる。

While GPT-4V(ision) impressively models both visual and textual information simultaneously, it's hallucination behavior has not been systematically assessed. To bridge this gap, we introduce a new benchmark, namely, the Bias and Interference Challenges in Visual Language Models (Bingo). This benchmark is designed to evaluate and shed light on the two common types of hallucinations in visual language models: bias and interference. Here, bias refers to the model's tendency to hallucinate certain types of responses, possibly due to imbalance in its training data. Interference pertains to scenarios where the judgment of GPT-4V(ision) can be disrupted due to how the text prompt is phrased or how the input image is presented. We identify a notable regional bias, whereby GPT-4V(ision) is better at interpreting Western images or images with English writing compared to images from other countries or containing text in other languages. Moreover, GPT-4V(ision) is vulnerable to leading questions and is often confused when interpreting multiple images together. Popular mitigation approaches, such as self-correction and chain-of-thought reasoning, are not effective in resolving these challenges. We also identified similar biases and interference vulnerabilities with LLaVA and Bard. Our results characterize the hallucination challenges in GPT-4V(ision) and state-of-the-art visual-language models, and highlight the need for new solutions. The Bingo benchmark is available at https://github.com/gzcch/Bingo.
翻訳日:2023-11-08 12:26:51 公開日:2023-11-07
# S-LoRA: 数千の同時LoRAアダプタ

S-LoRA: Serving Thousands of Concurrent LoRA Adapters ( http://arxiv.org/abs/2311.03285v2 )

ライセンス: Link先を確認
Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica(参考訳) Pretrain-then-finetune"パラダイムは、大きな言語モデルのデプロイに一般的に採用されている。 パラメータ効率の良い微調整法であるローランク適応法(lora)は、多くのタスクにベースモデルを適用するためにしばしば用いられ、結果として1つのベースモデルから派生したloraアダプタのかなりのコレクションとなる。 我々は,このパラダイムが提供中のバッチ推論に重要な機会をもたらすことを観察した。 これらの機会を生かして,多くのLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。 S-LoRAはすべてのアダプタをメインメモリに格納し、現在実行中のクエリが使用するアダプタをGPUメモリにフェッチする。 GPUメモリを効率的に使用し、フラグメンテーションを低減するため、S-LoRAはUnified Pagingを提案する。 Unified Pagingは統一メモリプールを使用して、異なるランクの動的アダプタウェイトと異なるシーケンス長のKVキャッシュテンソルを管理する。 さらに、S-LoRAは、新しいテンソル並列化戦略と高度に最適化されたカスタムCUDAカーネルを用いて、LoRA計算の不均一なバッチ処理を行う。 これらの機能により、S-LoRAは単一のGPUまたは複数のGPU上で数千のLoRAアダプタを提供することができる。 HuggingFace PEFTやvLLMのような最先端のライブラリと比較すると、S-LoRAはスループットを最大4倍改善し、サービスアダプタの数を桁違いに増やすことができる。 その結果、S-LoRAは多くのタスク固有の細調整されたモデルのスケーラブルな提供を可能にし、大規模にカスタマイズされた細調整サービスの可能性を秘めている。 コードはhttps://github.com/S-LoRA/S-LoRAで公開されている。

The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA
翻訳日:2023-11-08 12:26:25 公開日:2023-11-07
# SugarViT -- 糖蜜の重症度予測に基づく視覚変換器とディープラベル分布学習によるUAV画像の多目的回帰

SugarViT -- Multi-objective Regression of UAV Images with Vision Transformers and Deep Label Distribution Learning Demonstrated on Disease Severity Prediction in Sugar Beet ( http://arxiv.org/abs/2311.03076v2 )

ライセンス: Link先を確認
Maurice G\"under, Facundo Ram\'on Ispizua Yamati, Abel Andree Barreto Alc\'antara, Anne-Katrin Mahlein, Rafet Sifa, Christian Bauckhage(参考訳) リモートセンシングと人工知能は、現代の精密農業の重要な技術である。 機械学習技術と組み合わせた大規模フィールド画像の効率的な検索は、表現型、雑草、収穫、疾病管理といった様々なタスクで成功している。 本研究は,サトウキビにおけるCercospora Leaf Spot (CLS)の症例重症度評価のための,大規模植物特異的形質アノテーションの自動化のための機械学習フレームワークを導入する。 深層ラベル分布学習 (dldl) の概念, 特殊損失関数, 適応型モデルアーキテクチャを用いて,sugarvitと呼ばれる病害度スコアリングのための効率的な視覚トランスフォーマモデルを開発した。 この研究の新たな点は、リモートセンシングデータと、病気の重症度予測のための実験場の環境パラメータを組み合わせることである。 この特殊なユースケースでモデルは評価されるが、様々な画像に基づく分類や回帰タスクにも可能な限り汎用的に適用可能である。 本フレームワークでは,環境メタデータの事前学習により,多目的問題に関するモデルを学習することも可能である。

Remote sensing and artificial intelligence are pivotal technologies of precision agriculture nowadays. The efficient retrieval of large-scale field imagery combined with machine learning techniques shows success in various tasks like phenotyping, weeding, cropping, and disease control. This work will introduce a machine learning framework for automatized large-scale plant-specific trait annotation for the use case disease severity scoring for Cercospora Leaf Spot (CLS) in sugar beet. With concepts of Deep Label Distribution Learning (DLDL), special loss functions, and a tailored model architecture, we develop an efficient Vision Transformer based model for disease severity scoring called SugarViT. One novelty in this work is the combination of remote sensing data with environmental parameters of the experimental sites for disease severity prediction. Although the model is evaluated on this special use case, it is held as generic as possible to also be applicable to various image-based classification and regression tasks. With our framework, it is even possible to learn models on multi-objective problems as we show by a pretraining on environmental metadata.
翻訳日:2023-11-08 12:25:57 公開日:2023-11-07
# OrthoNets: 直交チャネルアテンションネットワーク

OrthoNets: Orthogonal Channel Attention Networks ( http://arxiv.org/abs/2311.03071v2 )

ライセンス: Link先を確認
Hadi Salman, Caleb Parks, Matthew Swan, John Gauch(参考訳) 効果的なチャネルアテンション機構を設計することで、最適な特徴表現を可能にする損失圧縮法を見つけることができる。 近年の進展にもかかわらず、未解決の問題となっている。 fcanetは最先端のチャンネルアテンション機構であり、離散コサイン変換(dct)を用いた情報豊富な圧縮を試みている。 FcaNetの欠点の1つは、DCT周波数の自然な選択がないことである。 この問題を回避するため、FcaNetはImageNetで最適な周波数を見つける実験を行った。 我々は、周波数の選択が支持的役割のみを担い、その注意フィルタの有効性の第一の駆動力はdctカーネルの直交性であると仮定する。 この仮説をテストするために,ランダムに初期化直交フィルタを用いたアテンション機構を構築する。 このメカニズムをResNetに統合し、OrthoNetを作成します。 鳥,ms-coco,places356のfcanet(およびその他の注意機構)と比較し,優れた性能を示す。 ImageNetデータセットでは、我々の手法は現在の最先端と競合するか、上回っている。 この結果から,フィルタの最適選択は解法的であり,十分な数の直交フィルタで一般化が達成できることが示唆された。 さらに,ネットワークにおけるその位置やチャネルグループ化など,チャネル注意を実装するための他の一般的な原則についても検討する。 私たちのコードはhttps://github.com/hady1011/OrthoNets/で公開されています。

Designing an effective channel attention mechanism implores one to find a lossy-compression method allowing for optimal feature representation. Despite recent progress in the area, it remains an open problem. FcaNet, the current state-of-the-art channel attention mechanism, attempted to find such an information-rich compression using Discrete Cosine Transforms (DCTs). One drawback of FcaNet is that there is no natural choice of the DCT frequencies. To circumvent this issue, FcaNet experimented on ImageNet to find optimal frequencies. We hypothesize that the choice of frequency plays only a supporting role and the primary driving force for the effectiveness of their attention filters is the orthogonality of the DCT kernels. To test this hypothesis, we construct an attention mechanism using randomly initialized orthogonal filters. Integrating this mechanism into ResNet, we create OrthoNet. We compare OrthoNet to FcaNet (and other attention mechanisms) on Birds, MS-COCO, and Places356 and show superior performance. On the ImageNet dataset, our method competes with or surpasses the current state-of-the-art. Our results imply that an optimal choice of filter is elusive and generalization can be achieved with a sufficiently large number of orthogonal filters. We further investigate other general principles for implementing channel attention, such as its position in the network and channel groupings. Our code is publicly available at https://github.com/hady1011/OrthoNets/
翻訳日:2023-11-08 12:25:40 公開日:2023-11-07
# anytext:多言語視覚テキストの生成と編集

AnyText: Multilingual Visual Text Generation And Editing ( http://arxiv.org/abs/2311.03054v2 )

ライセンス: Link先を確認
Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie(参考訳) 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。 現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。 この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。 前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。 後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。 テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。 広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。 さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。 私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
翻訳日:2023-11-08 12:25:18 公開日:2023-11-07
# 擬ランダムアイソメトリ

Pseudorandom Isometries ( http://arxiv.org/abs/2311.02901v2 )

ライセンス: Link先を確認
Prabhanjan Ananth, Aditya Gulati, Fatih Kaleoglu, Yao-Ting Lin(参考訳) 我々は、${\cal Q}$-secure pseudorandom isometries (PRI)と呼ばれる新しい概念を導入する。 擬似乱数等長法(pseudorandom isometry)は、n$-qubit状態から$(n+m)$-qubit状態へ等長法でマッピングする効率的な量子回路である。 セキュリティに関して言えば、$\rho$ 上の$q$-fold pri の出力は、任意の多項式 $q$ に対して$ \rho \in {\cal q}$ に対して、$\rho$ 上の$q$-fold haar 等長の出力と計算的に区別できないべきである。 \par ${\cal Q}$ を微調整することで、擬似ランダム性の多くの既存の概念を回復する。 我々は、pri の構成と、量子一方向関数を仮定すると、${\cal q}$-secure pseudorandom isometries (pri) の安全性を、${\cal q}$ の異なる興味深い設定に対して証明する。 また、prisの暗号応用として、量子疑似ランダム性概念に対する長さ拡張定理、量子状態に対するメッセージ認証スキーム、マルチコピーセキュアな公開およびプライベート暗号スキーム、簡潔な量子コミットメントなどがある。

We introduce a new notion called ${\cal Q}$-secure pseudorandom isometries (PRI). A pseudorandom isometry is an efficient quantum circuit that maps an $n$-qubit state to an $(n+m)$-qubit state in an isometric manner. In terms of security, we require that the output of a $q$-fold PRI on $\rho$, for $ \rho \in {\cal Q}$, for any polynomial $q$, should be computationally indistinguishable from the output of a $q$-fold Haar isometry on $\rho$. \par By fine-tuning ${\cal Q}$, we recover many existing notions of pseudorandomness. We present a construction of PRIs and assuming post-quantum one-way functions, we prove the security of ${\cal Q}$-secure pseudorandom isometries (PRI) for different interesting settings of ${\cal Q}$. We also demonstrate many cryptographic applications of PRIs, including, length extension theorems for quantum pseudorandomness notions, message authentication schemes for quantum states, multi-copy secure public and private encryption schemes, and succinct quantum commitments.
翻訳日:2023-11-08 12:24:48 公開日:2023-11-07
# 内IoU:補助バウンディングボックスによるユニオン損失に対するより効果的なインターセクション

Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box ( http://arxiv.org/abs/2311.02877v2 )

ライセンス: Link先を確認
Hao Zhang, Cong Xu, Shuaijie Zhang(参考訳) 検出器の急速な開発に伴い、バウンディングボックス回帰(BBR)損失関数は常に更新され、最適化されている。 しかし、既存のIoUベースのBBRは、IoU損失項自体の制限を無視して、新たな損失項を追加することで収束を加速することに注力している。 理論的には、IoU損失はバウンディングボックス回帰の状態を効果的に記述できるが、実際は異なる検出器や検出タスクに従って自分自身を調整できず、強力な一般化を持たない。 以上に基づいて,まずBBRモデルを解析し,異なる回帰サンプルを識別し,異なるスケールの補助的境界ボックスを用いて損失を計算することにより,境界ボックス回帰過程を効果的に加速することができると結論付けた。 高いIoUサンプルでは、損失を計算するために小さい補助的境界ボックスを使用することで収束を加速し、大きな補助的境界ボックスは低いIoUサンプルに適している。 そこで我々は,補助的バウンディングボックスを通じてIoU損失を算出する内IoU損失を提案する。 異なるデータセットと検出器に対して、損失を計算するための補助境界ボックスのスケールサイズを制御するためのスケーリング係数比を導入する。 最後に、シミュレーションと比較実験のために既存のIoUベースの損失関数にInner-IoUを統合する。 実験の結果,本論文で提案する手法の活用により検出性能がさらに向上し,内部iou損失の有効性と一般化性が検証された。

With the rapid development of detectors, Bounding Box Regression (BBR) loss function has constantly updated and optimized. However, the existing IoU-based BBR still focus on accelerating convergence by adding new loss terms, ignoring the limitations of IoU loss term itself. Although theoretically IoU loss can effectively describe the state of bounding box regression,in practical applications, it cannot adjust itself according to different detectors and detection tasks, and does not have strong generalization. Based on the above, we first analyzed the BBR model and concluded that distinguishing different regression samples and using different scales of auxiliary bounding boxes to calculate losses can effectively accelerate the bounding box regression process. For high IoU samples, using smaller auxiliary bounding boxes to calculate losses can accelerate convergence, while larger auxiliary bounding boxes are suitable for low IoU samples. Then, we propose Inner-IoU loss, which calculates IoU loss through auxiliary bounding boxes. For different datasets and detectors, we introduce a scaling factor ratio to control the scale size of the auxiliary bounding boxes for calculating losses. Finally, integrate Inner-IoU into the existing IoU-based loss functions for simulation and comparative experiments. The experiment result demonstrate a further enhancement in detection performance with the utilization of the method proposed in this paper, verifying the effectiveness and generalization ability of Inner-IoU loss.
翻訳日:2023-11-08 12:24:24 公開日:2023-11-07
# 言語モデルの品質向上と圧縮のための共学習と共蒸留

Co-training and Co-distillation for Quality Improvement and Compression of Language Models ( http://arxiv.org/abs/2311.02849v2 )

ライセンス: Link先を確認
Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min(参考訳) 知識蒸留 (kd) は計算コストの高い事前学習言語モデル (plm) を圧縮し、知識をより小さなモデルに移し、リソース制約付きまたはリアルタイムの設定で使用できるようにする。 しかし、ほとんどの小型モデルはオリジナルの大型モデルの性能を超えず、推論速度を改善するために性能を犠牲にしている。 そこで本研究では,知識を相互に蒸留しながら2つのモデルを共同学習することで,性能と推論速度を両立させる新しいフレームワークであるCTCDを提案する。 CTCDフレームワークは2つの重要な発見に基づいてこれを達成している。 1) 学習中の小モデルから大モデルへの知識の蒸留は、大モデルの性能を向上させる。 2)大型モデルの性能向上により,小型モデルの性能はさらに向上する。 ctcdフレームワークは、アーキテクチャ設計やデータ拡張といった既存の技術と組み合わせ、一方通行のkdメソッドを置き換えることで、さらなるパフォーマンス改善を実現することができる。 広範囲にわたるアブレーション研究はCTCDの有効性を示し、CTCDで蒸留した小型モデルはGLUEベンチマークで1.66の差で元の大型モデルよりも優れていた。

Knowledge Distillation (KD) compresses computationally expensive pre-trained language models (PLMs) by transferring their knowledge to smaller models, allowing their use in resource-constrained or real-time settings. However, most smaller models fail to surpass the performance of the original larger model, resulting in sacrificing performance to improve inference speed. To address this issue, we propose Co-Training and Co-Distillation (CTCD), a novel framework that improves performance and inference speed together by co-training two models while mutually distilling knowledge. The CTCD framework successfully achieves this based on two significant findings: 1) Distilling knowledge from the smaller model to the larger model during co-training improves the performance of the larger model. 2) The enhanced performance of the larger model further boosts the performance of the smaller model. The CTCD framework shows promise as it can be combined with existing techniques like architecture design or data augmentation, replacing one-way KD methods, to achieve further performance improvement. Extensive ablation studies demonstrate the effectiveness of CTCD, and the small model distilled by CTCD outperforms the original larger model by a significant margin of 1.66 on the GLUE benchmark.
翻訳日:2023-11-08 12:23:59 公開日:2023-11-07
# SemanticTopoLoop: 擬似レベルオブジェクトマップに基づく3次元トポロジカルグラフを用いたセマンティックループクロージャ

SemanticTopoLoop: Semantic Loop Closure With 3D Topological Graph Based on Quadric-Level Object Map ( http://arxiv.org/abs/2311.02831v2 )

ライセンス: Link先を確認
Zhenzhong Cao(参考訳) SLAMにおける重要なコンポーネントの1つであるループクロージャは、蓄積したエラーを修正する上で重要な役割を果たす。 bag-of-wordsモデルのような伝統的な外観ベースの手法は、しばしば局所的な2d特徴とトレーニングデータの量によって制限され、現実世界のシナリオでは汎用性や堅牢性が低下し、ループクロージャでの誤検出や誤検出に繋がる。 これらの課題に対処するために,我々はまず,現在のフレームの2次元意味的特徴と地図の3次元オブジェクトランドマークを関連付ける多段階検証に基づくオブジェクトレベルのデータアソシエーション手法を提案する。 次に,これらの関係を生かした2次オブジェクトマップトポロジに基づくセマンティックループクロージャ手法を導入する。これはオブジェクトのトポロジグラフを通してシーンを表現し,トポロジグラフの違いを比較することによって,広い視野で正確なループクロージャを実現する。 最後に、これら2つの手法を完全なオブジェクト認識SLAMシステムに統合する。 定性的実験とアブレーション研究は、提案したオブジェクトレベルのデータアソシエーションアルゴリズムの有効性とロバスト性を示す。 定量的な実験により,semantic loop closure法が既存の最先端手法よりも精度,リコール,ローカライズ精度の指標で優れていることが示された。

Loop closure, as one of the crucial components in SLAM, plays an essential role in correcting the accumulated errors. Traditional appearance-based methods, such as bag-of-words models, are often limited by local 2D features and the volume of training data, making them less versatile and robust in real-world scenarios, leading to missed detections or false positives detections in loop closure. To address these issues, we first propose a object-level data association method based on multi-level verification, which can associate 2D semantic features of current frame with 3D objects landmarks of map. Next, taking advantage of these association relations, we introduce a semantic loop closure method based on quadric-level object map topology, which represents scenes through the topological graph of objects and achieves accurate loop closure at a wide field of view by comparing differences in the topological graphs. Finally, we integrate these two methods into a complete object-aware SLAM system. Qualitative experiments and ablation studies demonstrate the effectiveness and robustness of the proposed object-level data association algorithm. Quantitative experiments show that our semantic loop closure method outperforms existing state-of-the-art methods in terms of precision, recall and localization accuracy metrics.
翻訳日:2023-11-08 12:23:38 公開日:2023-11-07
# 注意モジュールによる産業検査における画像レベル異常検出の改善:DifferNetケーススタディ

Attention Modules Improve Image-Level Anomaly Detection for Industrial Inspection: A DifferNet Case Study ( http://arxiv.org/abs/2311.02747v2 )

ライセンス: Link先を確認
Andr\'e Luiz Buarque Vieira e Silva, Francisco Sim\~oes, Danny Kowerko, Tobias Schlosser, Felipe Battisti, Veronica Teichrieb(参考訳) 半自動化された視覚産業検査の中で、ディープラーニングを含む視覚的欠陥を評価する学習ベースのアプローチは、高解像度画像上のピクセルサイズの小さな欠陥パターンの処理を可能にする。 これらまれに発生する欠陥パターンの出現は、ラベル付きデータコーパスの一般的な必要性を説明する。 この問題を緩和し、教師なし視覚検査における技術の現状を前進させるため、この研究は注意モジュールで強化されたDifferNetベースのソリューションを提案する。 産業検査用の3つの視覚異常検出データセット、InsPLAD-fault, MVTec AD, Semiconductor Waferの画像レベルの検出と分類機能を改善する。 attentdiffernetは、最先端の技術と比較して、改良された結果を達成しています。 我々の定量的評価は,3つのデータセットすべてを考慮すると,AUROC全体のDifferNetof 1.77 +/- 0.25ポイントに対して平均的な改善を示している。 attentdiffernetに対する我々の変異が現在研究されているアプローチの文脈で大きな展望を示しているため、ベースラインが定式化されており、野生および制御された環境での産業的異常検出における注意の重要性を強調している。

Within (semi-)automated visual industrial inspection, learning-based approaches for assessing visual defects, including deep neural networks, enable the processing of otherwise small defect patterns in pixel size on high-resolution imagery. The emergence of these often rarely occurring defect patterns explains the general need for labeled data corpora. To alleviate this issue and advance the current state of the art in unsupervised visual inspection, this work proposes a DifferNet-based solution enhanced with attention modules: AttentDifferNet. It improves image-level detection and classification capabilities on three visual anomaly detection datasets for industrial inspection: InsPLAD-fault, MVTec AD, and Semiconductor Wafer. In comparison to the state of the art, AttentDifferNet achieves improved results, which are, in turn, highlighted throughout our quali-quantitative study. Our quantitative evaluation shows an average improvement - compared to DifferNet - of 1.77 +/- 0.25 percentage points in overall AUROC considering all three datasets, reaching SOTA results in InsPLAD-fault, an industrial inspection in-the-wild dataset. As our variants to AttentDifferNet show great prospects in the context of currently investigated approaches, a baseline is formulated, emphasizing the importance of attention for industrial anomaly detection both in the wild and in controlled environments.
翻訳日:2023-11-08 12:23:13 公開日:2023-11-07
# 身体的シーケンスモデリングにおける抽象状態表現の出現

Emergence of Abstract State Representations in Embodied Sequence Modeling ( http://arxiv.org/abs/2311.02171v2 )

ライセンス: Link先を確認
Tian Yun, Zilai Zeng, Kunal Handa, Ashish V. Thapliyal, Bo Pang, Ellie Pavlick, Chen Sun(参考訳) シーケンスモデリングによる決定は、具体的エージェントによるアクションが予測トークンとしてモデル化される言語モデルの成功を模倣することを目的としている。 その有望な性能にもかかわらず、具体的シーケンスモデリングが環境状態情報を表す内部表現の出現に繋がるかどうかは不明である。 抽象状態表現を欠いたモデルは、一般化に失敗する表面統計に基づいて決定をする義務がある。 言語条件付きナビゲーションタスクが実行されるグリッドワールドであるBabyAI環境を、言語命令、アクションのシーケンス、環境観察を入力として、シーケンスモデリングトランスフォーマーを構築する。 抽象状態表現の出現を調べるために,初期環境レイアウト,言語命令,タスクを完了するための動作シーケンスのみをトレーニングに利用できる"blindfolded"ナビゲーションタスクを設計した。 実験の結果,学習モデルの内部アクティベーションから中間環境配置を合理的に再構築することができ,言語指導が再現精度に果たす役割が示唆された。 以上の結果から, 状態表現の多くの重要な特徴は, 具体的シーケンスモデリングによって実現し, より複雑な具体的決定領域へのシーケンスモデリング目的の適用に対する楽観的な展望をサポートすることが示唆された。

Decision making via sequence modeling aims to mimic the success of language models, where actions taken by an embodied agent are modeled as tokens to predict. Despite their promising performance, it remains unclear if embodied sequence modeling leads to the emergence of internal representations that represent the environmental state information. A model that lacks abstract state representations would be liable to make decisions based on surface statistics which fail to generalize. We take the BabyAI environment, a grid world in which language-conditioned navigation tasks are performed, and build a sequence modeling Transformer, which takes a language instruction, a sequence of actions, and environmental observations as its inputs. In order to investigate the emergence of abstract state representations, we design a "blindfolded" navigation task, where only the initial environmental layout, the language instruction, and the action sequence to complete the task are available for training. Our probing results show that intermediate environmental layouts can be reasonably reconstructed from the internal activations of a trained model, and that language instructions play a role in the reconstruction accuracy. Our results suggest that many key features of state representations can emerge via embodied sequence modeling, supporting an optimistic outlook for applications of sequence modeling objectives to more complex embodied decision-making domains.
翻訳日:2023-11-08 12:22:34 公開日:2023-11-07
# 大規模分散グラフのための協調ネットワーク学習

Cooperative Network Learning for Large-Scale and Decentralized Graphs ( http://arxiv.org/abs/2311.02117v2 )

ライセンス: Link先を確認
Qiang Wu, Yiming Huang, Yujie Zeng, Yijie Teng, Fang Zhou, Linyuan L\"u(参考訳) グラフ研究(グラフとして表される相互接続されたデータポイントの体系的研究)は、ネットワークシステム内の複雑な関係を捉える上で重要な役割を果たす。 しかし、グラフのスケールアップに伴って、異なるデータ所有機関間のデータセキュリティに関する懸念が生まれ、情報共有が妨げられ、最終的にはグラフデータの利用が妨げられる。 したがって,グラフ機関間の相互信頼機構の確立は,グラフの潜在能力を最大限に活用するために重要である。 本稿では,協調ネットワーク学習(CNL)フレームワークを導入し,グラフタスクに対するセキュアなグラフ計算を実現する。 基本的に、このcnlフレームワークは、gnnコンピューティングのローカルおよびグローバルな観点と、すべての参加機関を固定された中央コーディネータなしでグローバルグラフとして仮想接続することにより、機関のための分散データを統合する。 緊急間コンピューティングは、同型暗号化やセキュアトランスミッションなど、我々のフレームワークに固有の様々な技術によって保護されている。 さらに、各機関は、現地またはグローバルの観点から様々なグラフ学習モデルを設計または採用する公正な権利を有する。 これにより、CNLは局所グラフとグローバルグラフから推定される分散グラフに基づいてGNNモデルを協調的に訓練することができる。 感染動態予測と従来のグラフタスク(ノード分類とリンク予測)の実験は、我々のCNLアーキテクチャが個々のサイトで開発された最先端のGNNよりも優れており、ネットワークアプリケーションのための効果的でパーソナライズされたモデルを構築するために信頼性があり、公正で、セキュアで、プライバシ保護され、グローバルな視点を提供できることを示した。 このフレームワークがグラフ関連研究におけるプライバシの懸念に対処し、分散グラフデータ構造を統合することで、ネットワーク研究コミュニティの協力とイノベーションの恩恵を受けることを願っています。

Graph research, the systematic study of interconnected data points represented as graphs, plays a vital role in capturing intricate relationships within networked systems. However, in the real world, as graphs scale up, concerns about data security among different data-owning agencies arise, hindering information sharing and, ultimately, the utilization of graph data. Therefore, establishing a mutual trust mechanism among graph agencies is crucial for unlocking the full potential of graphs. Here, we introduce a Cooperative Network Learning (CNL) framework to ensure secure graph computing for various graph tasks. Essentially, this CNL framework unifies the local and global perspectives of GNN computing with distributed data for an agency by virtually connecting all participating agencies as a global graph without a fixed central coordinator. Inter-agency computing is protected by various technologies inherent in our framework, including homomorphic encryption and secure transmission. Moreover, each agency has a fair right to design or employ various graph learning models from its local or global perspective. Thus, CNL can collaboratively train GNN models based on decentralized graphs inferred from local and global graphs. Experiments on contagion dynamics prediction and traditional graph tasks (i.e., node classification and link prediction) demonstrate that our CNL architecture outperforms state-of-the-art GNNs developed at individual sites, revealing that CNL can provide a reliable, fair, secure, privacy-preserving, and global perspective to build effective and personalized models for network applications. We hope this framework will address privacy concerns in graph-related research and integrate decentralized graph data structures to benefit the network research community in cooperation and innovation.
翻訳日:2023-11-08 12:21:56 公開日:2023-11-07
# ProS: プロトタイプに基づく自己蒸留による表情表現学習

ProS: Facial Omni-Representation Learning via Prototype-based Self-Distillation ( http://arxiv.org/abs/2311.01929v2 )

ライセンス: Link先を確認
Xing Di, Yiyu Zheng, Xiaoming Liu, Yu Cheng(参考訳) 本稿では,教師なし顔表現学習のためのPrototype-based Self-Distillation (ProS) という新しいアプローチを提案する。 既存の監視手法は、大量のアノテーション付きトレーニング顔データに大きく依存しており、データ収集とプライバシの懸念という面で課題を提起している。 これらの問題に対処するために,我々は,ラベルのない顔画像の膨大なコレクションを活用して,包括的な顔の全表現を学習するプロを提案する。 特にProSは、2つの視覚変換器(教師と生徒のモデル)で構成されており、異なる画像(クロップ、ぼやけ、着色など)で訓練されている。 さらに,顔領域を主眼とするキュレート画像を得るために,顔認識検索システムを構築した。 学習した特徴の識別を強化するために,特徴(教師や学生)と学習可能なプロトタイプとの類似度分布を整合させるプロトタイプベースのマッチング損失を導入する。 事前トレーニング後、教師ビジョントランスフォーマーは属性推定、表現認識、ランドマークアライメントなどの下流タスクのバックボーンとして機能し、追加のレイヤによる単純な微調整によって達成される。 広汎な実験により,本手法は多種多様なタスクにおいて,フルショットと少数ショットの両方で,最先端のパフォーマンスを実現する。 さらに,合成顔画像を用いた事前学習についても検討し,prosは有望な性能を示す。

This paper presents a novel approach, called Prototype-based Self-Distillation (ProS), for unsupervised face representation learning. The existing supervised methods heavily rely on a large amount of annotated training facial data, which poses challenges in terms of data collection and privacy concerns. To address these issues, we propose ProS, which leverages a vast collection of unlabeled face images to learn a comprehensive facial omni-representation. In particular, ProS consists of two vision-transformers (teacher and student models) that are trained with different augmented images (cropping, blurring, coloring, etc.). Besides, we build a face-aware retrieval system along with augmentations to obtain the curated images comprising predominantly facial areas. To enhance the discrimination of learned features, we introduce a prototype-based matching loss that aligns the similarity distributions between features (teacher or student) and a set of learnable prototypes. After pre-training, the teacher vision transformer serves as a backbone for downstream tasks, including attribute estimation, expression recognition, and landmark alignment, achieved through simple fine-tuning with additional layers. Extensive experiments demonstrate that our method achieves state-of-the-art performance on various tasks, both in full and few-shot settings. Furthermore, we investigate pre-training with synthetic face images, and ProS exhibits promising performance in this scenario as well.
翻訳日:2023-11-08 12:21:22 公開日:2023-11-07
# inkn'hue: アライメント多重エンコーダVAEによる複数プリミティブからのマンガカラー化の強化

inkn'hue: Enhancing Manga Colorization from Multiple Priors with Alignment Multi-Encoder VAE ( http://arxiv.org/abs/2311.01804v2 )

ライセンス: Link先を確認
Tawin Jiramahapokee(参考訳) マンガは日本の漫画の一形態であり、視覚的なストーリーテリングは世界中で読者を魅了している。 伝統的に白黒で表現されるマンガの魅力は、複雑なラインアートやシェーディングを通じて複雑な物語や感情を伝える能力にある。 しかし、鮮やかな色でマンガを体験したいという願望は、アーティストにとって最重要課題であるマンガの彩色を追求するきっかけとなった。 しかし、元々ラインアートやスケッチ用に設計された既存の手法は、マンガに適用する際の課題に直面している。 これらの方法はしばしば望ましい結果を達成するのに不足しており、特殊なマンガ固有の解が必要となる。 既存のアプローチは、単一のトレーニングステップや大規模な手作業によるアーティスト介入に依存することが多い。 これらの課題に対処するために,我々はマンガの彩色のための特殊な枠組みを提案する。 シェーディングと鮮やかな色付けの確立したモデルを活用することで、マルチエンコーダVAEを用いて両者を整合させる。 この構造化ワークフローは、参照イメージと手動ヒントを組み込むオプションによって、明確でカラフルな結果を保証する。

Manga, a form of Japanese comics and distinct visual storytelling, has captivated readers worldwide. Traditionally presented in black and white, manga's appeal lies in its ability to convey complex narratives and emotions through intricate line art and shading. Yet, the desire to experience manga in vibrant colors has sparked the pursuit of manga colorization, a task of paramount significance for artists. However, existing methods, originally designed for line art and sketches, face challenges when applied to manga. These methods often fall short in achieving the desired results, leading to the need for specialized manga-specific solutions. Existing approaches frequently rely on a single training step or extensive manual artist intervention, which can yield less satisfactory outcomes. To address these challenges, we propose a specialized framework for manga colorization. Leveraging established models for shading and vibrant coloring, our approach aligns both using a multi-encoder VAE. This structured workflow ensures clear and colorful results, with the option to incorporate reference images and manual hints.
翻訳日:2023-11-08 12:20:57 公開日:2023-11-07