このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231223となっている論文です。

PDF登録状況(公開日: 20231223)

TitleAuthorsAbstract論文公表日・翻訳日
# ABACuS: スケーラブルで低オーバーヘッドなRowHammer緩和のための全銀行のアクティベーションカウンタ

ABACuS: All-Bank Activation Counters for Scalable and Low Overhead RowHammer Mitigation ( http://arxiv.org/abs/2310.09977v2 )

ライセンス: Link先を確認
Ataberk Olgun, Yahya Can Tugrul, Nisa Bostanci, Ismail Emir Yuksel, Haocong Luo, Steve Rhyner, Abdullah Giray Yaglikci, Geraldo F. Oliveira, Onur Mutlu, (参考訳) 我々はABACuSを紹介した。ABACuSは、RowHammerの脆弱性を悪化させ、パフォーマンス、エネルギー、面積効率を向上する、新しい低コストのハードウェアカウンタベースのRowHammer緩和技術である。 良性ワークロードとRowHammer攻撃の両方が、複数のDRAMバンクで同じ行アドレスを持つDRAM行に、ほぼ同時にアクセスする傾向にあることを観察する。 この観測に基づいて、ABACuSのキーとなるアイデアは、単一の共有行アクティベーションカウンタを使用して、すべてのDRAMバンクで同じ行アドレスを持つ行へのアクティベーションを追跡することである。 DRAMバンク毎に個別の行アクティベーションカウンタを実装する、最先端のRowHammer緩和メカニズムとは異なり、ABACuSでは、同じ数の攻撃行を追跡するカウンタ(例えば、たった1つ)が少ない。 評価の結果,ABACuSはローハマービットフリップを低性能/エネルギーオーバーヘッド,低面積コストで確実に防止できることがわかった。 我々はABACuSを4つの最先端緩和機構と比較した。 約1000のRowHammerしきい値では、ABACuSは0.58% (0.77%)のパフォーマンスと1.66% (2.12%)のDRAMエネルギーオーバーヘッドを発生させ、平均62のシングルコア(8コア)のワークロードで、ストレージは9.47KiBしか必要としなかった。 1000のRowHammerしきい値では、ABACuSよりも平均的なパフォーマンスオーバーヘッドが1.80%高く、ABACuSは2.50倍小さいチップ面積を必要とする。 将来のRowHammerしきい値125では、ABACuSは22.72倍の小さなチップ領域を必要としながら、最高の性能とエネルギー効率のRowHammer軽減機構を(性能の0.38%で)実現している。 ABACuSはhttps://github.com/CMU-SAFARI/ABACuSで無料で公開されている。

We introduce ABACuS, a new low-cost hardware-counter-based RowHammer mitigation technique that performance-, energy-, and area-efficiently scales with worsening RowHammer vulnerability. We observe that both benign workloads and RowHammer attacks tend to access DRAM rows with the same row address in multiple DRAM banks at around the same time. Based on this observation, ABACuS's key idea is to use a single shared row activation counter to track activations to the rows with the same row address in all DRAM banks. Unlike state-of-the-art RowHammer mitigation mechanisms that implement a separate row activation counter for each DRAM bank, ABACuS implements fewer counters (e.g., only one) to track an equal number of aggressor rows. Our evaluations show that ABACuS securely prevents RowHammer bitflips at low performance/energy overhead and low area cost. We compare ABACuS to four state-of-the-art mitigation mechanisms. At a near-future RowHammer threshold of 1000, ABACuS incurs only 0.58% (0.77%) performance and 1.66% (2.12%) DRAM energy overheads, averaged across 62 single-core (8-core) workloads, requiring only 9.47 KiB of storage per DRAM rank. At the RowHammer threshold of 1000, the best prior low-area-cost mitigation mechanism incurs 1.80% higher average performance overhead than ABACuS, while ABACuS requires 2.50X smaller chip area to implement. At a future RowHammer threshold of 125, ABACuS performs very similarly to (within 0.38% of the performance of) the best prior performance- and energy-efficient RowHammer mitigation mechanism while requiring 22.72X smaller chip area. ABACuS is freely and openly available at https://github.com/CMU-SAFARI/ABACuS.
翻訳日:2024-03-19 02:23:27 公開日:2023-12-23
# マルチモーダル・ジェイルブレイク攻撃検出のための突然変異に基づく手法

A Mutation-Based Method for Multi-Modal Jailbreaking Attack Detection ( http://arxiv.org/abs/2312.10766v2 )

ライセンス: Link先を確認
Xiaoyu Zhang, Cen Zhang, Tianlin Li, Yihao Huang, Xiaojun Jia, Xiaofei Xie, Yang Liu, Chao Shen, (参考訳) 大規模言語モデルとマルチモーダルLLMは普及し、セキュリティの重要性も増しているが、現代のLLMは脱獄攻撃に弱いことが知られている。 これらの攻撃は、悪意のあるユーザーがモデルを利用することを可能にするため、有効なジェイルブレイク検出メカニズムは、LLMベースのアプリケーションの完全性と信頼性を維持する上で不可欠な側面である。 しかし、jailbreak攻撃に関する既存の検出作業には制限がある。 既存のクエリベースの戦略では、ターゲットとなるドメイン知識が必要であり、プリクエリベースのメソッドは主にテキストレベルの攻撃に重点を置いており、現代のLLMに置かれるますます複雑なマルチモーダルセキュリティ要件を満たすことができない。 このギャップは、これらの影響力のあるシステムを保護するためのより包括的なアプローチの必要性を浮き彫りにする。 本研究では、画像とテキストのモダリティの両方をサポートする最初の突然変異ベースのジェイルブレイク検出フレームワークであるJailGuardを提案する。 私たちのキーとなる観察は、攻撃クエリは本質的に、良質なクエリに比べてロバスト性が低いことです。 具体的には、モデルを混乱させるために、攻撃クエリは通常、よく設計されたテンプレートで作成されるか、複雑な摂動によって構成される。 この堅牢性の欠如は、攻撃検出に利用することができる。 この直感に基づいて、19の異なるミュータと発散に基づく検出式からなる検出フレームワークを設計、実装した。 筆者らは,このフレームワークの有効性を十分に理解するために,最初のマルチモーダルLLMジェイルブレイク攻撃データセットを構築した。 この評価は、JailGuardが画像とテキストの入力で89.38%/85.42%の最高の検出精度を達成し、最先端の防御手法を15.28%上回ったことを示唆している。

Large Language Models and Multi-Modal LLMs have become pervasive, and so does the importance of their security; yet, modern LLMs are known to be vulnerable to jailbreaking attacks. These attacks can allow malicious users to exploit the models, making the case for effective jailbreak detection mechanisms an essential aspect of maintaining the integrity and trustworthiness of LLM-based applications. However, existing detection works on jailbreak attacks have limitations. Existing post-query-based strategies require target domain knowledge, and pre-query-based methods mainly focus on text-level attacks and fail to meet the increasingly complex multi-modal security requirements placed upon contemporary LLMs. This gap underscores the need for a more comprehensive approach to safeguarding these influential systems. In this work, we propose JailGuard, the first mutation-based jailbreaking detection framework which supports both image and text modalities. Our key observation is that attack queries inherently possess less robustness compared to benign queries. Specifically, to confuse the model, attack queries are usually crafted with well-designed templates or complicate perturbations, leading to a fact that a slight disturbance in input may result in a drastic change in the response. This lack of robustness can be utilized in attack detection. Based on this intuition, we designed and implemented a detection framework comprising 19 different mutators and a divergence-based detection formula. To fully understand the effectiveness of our framework, we built the first multi-modal LLM jailbreaking attack dataset, which has 304 items of data, covering ten types of known jailbreaking attacks on image and text modalities. The evaluation suggests that JailGuard achieves the best detection accuracy of 89.38%/85.42% on image and text inputs, outperforming state-of-the-art defense methods by 15.28%.
翻訳日:2024-03-18 11:57:39 公開日:2023-12-23
# Windows Securityの内部作業

The Inner Workings of Windows Security ( http://arxiv.org/abs/2312.15150v1 )

ライセンス: Link先を確認
Ashvini A Kulshrestha, Guanqun Song, Ting Zhu, (参考訳) 2022年はMicrosoftの脆弱性が大幅に増加し、過去10年間で最高に達した。 新たな脆弱性が常に出現するにつれ、システムを強化し、潜在的なサイバー脅威から保護するための積極的なアプローチが緊急に必要となる。 このプロジェクトの目的は、Windows Operating Systemの脆弱性を調査し、これらの脅威に対処するBitLocker、Microsoft Defender、Windows Firewallといった主要なセキュリティ機能の有効性を検討することである。 これを実現するために、コード化された例を使って様々なセキュリティ脅威を制御された環境でシミュレートし、セキュリティソリューションの有効性を徹底的に評価する。 本研究は,システムセキュリティを強化し,Windowsのセキュリティ機能による保護を強化するための緩和策を提案する。 Windowsのセキュリティインフラストラクチャの潜在的な弱点と改善の領域を特定することで、このプロジェクトはより堅牢でレジリエントなセキュリティソリューションの開発に貢献し、新たなサイバー脅威に対するシステム保護に役立つだろう。

The year 2022 saw a significant increase in Microsoft vulnerabilities, reaching an all-time high in the past decade. With new vulnerabilities constantly emerging, there is an urgent need for proactive approaches to harden systems and protect them from potential cyber threats. This project aims to investigate the vulnerabilities of the Windows Operating System and explore the effectiveness of key security features such as BitLocker, Microsoft Defender, and Windows Firewall in addressing these threats. To achieve this, various security threats are simulated in controlled environments using coded examples, allowing for a thorough evaluation of the security solutions' effectiveness. Based on the results, this study will provide recommendations for mitigation strategies to enhance system security and strengthen the protection provided by Windows security features. By identifying potential weaknesses and areas of improvement in the Windows security infrastructure, this project will contribute to the development of more robust and resilient security solutions that can better safeguard systems against emerging cyber threats.
翻訳日:2024-03-18 11:28:18 公開日:2023-12-23
# Inodeデータ構造を用いた仮想ファイルシステムの設計と実装に関する考察

Design and Implementation Considerations for a Virtual File System Using an Inode Data Structure ( http://arxiv.org/abs/2312.15153v1 )

ライセンス: Link先を確認
Qin Sun, Grace McKenzie, Guanqun Song, Ting Zhu, (参考訳) 仮想ファイルシステムは、複雑で複数の階層、ハードディスクなどから構成されるファイルシステムを中央集権化し、動員するためのツールである。 本稿では、Unixベースのファイルシステムの設計と、インオードデータ構造とディスクエミュレータを用いたこのタイプのファイルシステムレイアウトを、Linuxの単一ファイル仮想ファイルシステムとして実装する方法について論じる。 我々は,仮想ファイルシステムがセキュリティ攻撃に対して脆弱である方法を探り,そのような攻撃の防止や軽減に役立つ簡単なソリューションを導入する。

Virtual file systems are a tool to centralize and mobilize a file system that could otherwise be complex and consist of multiple hierarchies, hard disks, and more. In this paper, we discuss the design of Unix-based file systems and how this type of file system layout using inode data structures and a disk emulator can be implemented as a single-file virtual file system in Linux. We explore the ways that virtual file systems are vulnerable to security attacks and introduce straightforward solutions that can be implemented to help prevent or mitigate the consequences of such attacks.
翻訳日:2024-03-18 11:28:18 公開日:2023-12-23
# スマートホームのアンチデジタル法医学のコンセプト化

Conceptualising an Anti-Digital Forensics Kill Chain for Smart Homes ( http://arxiv.org/abs/2312.15215v1 )

ライセンス: Link先を確認
Mario Raciti, (参考訳) 家庭におけるIoT(Internet of Things)デバイスの広範な統合は、特にスマートホームエコシステムにおいて、広範なデジタルフットプリントを生み出します。 これらのIoTデバイスは、住民に関するデータとともに、不注意にも人間の活動に関する洞察を提供し、殺人のような犯罪行為さえも具現化している。 技術が進歩するにつれて、様々な技術を活用して証拠を隠蔽し、捜査を回避しようとする犯罪者も懸念される。 本稿では、スマートホームのシナリオにおけるアンチデジタルフォサイシクス(ADF)の適用について述べ、その可能性を認識して(デジタル)調査をディスラプトする。 それは、現在の課題とギャップを解明し、それに対して、スマートホームエコシステムに合わせたAFDキルチェーンの概念化を議論することで実現している。 犯人を武器にしているように見えるが、Kill Chainは、スマートホームのシナリオにおけるアンチデジタル法医学の特徴をよりよく理解する。 この理解は、デジタル鑑識プロセスの強化と、悪意ある活動に対する堅牢な対策の開発に不可欠である。

The widespread integration of Internet of Things (IoT) devices in households generates extensive digital footprints, notably within Smart Home ecosystems. These IoT devices, brimming with data about residents, inadvertently offer insights into human activities, potentially embodying even criminal acts, such as a murder. As technology advances, so does the concern for criminals seeking to exploit various techniques to conceal evidence and evade investigations. This paper delineates the application of Anti-Digital Forensics (ADF) in Smart Home scenarios and recognises its potential to disrupt (digital) investigations. It does so by elucidating the current challenges and gaps and by arguing, in response, the conceptualisation of an ADF Kill Chain tailored to Smart Home ecosystems. While seemingly arming criminals, the Kill Chain will allow a better understanding of the distinctive peculiarities of Anti-Digital Forensics in Smart Home scenario. This understanding is essential for fortifying the Digital Forensics process and, in turn, developing robust countermeasures against malicious activities.
翻訳日:2024-03-18 11:28:18 公開日:2023-12-23
# セキュリティ強化認証プロトコル

A Security Enhanced Authentication Protocol ( http://arxiv.org/abs/2312.15250v1 )

ライセンス: Link先を確認
Sai Sreekar Vankayalapati, Srijanee Mookherji, Vanga Odelu, (参考訳) モノのインターネット(IoT)は近年人気を集めている。 IoTデバイスの増加に伴い、セキュリティとプライバシの脆弱性も増加している。 医療や産業といった繊細な分野にとって、そのような脆弱性は嫌悪を引き起こす可能性がある。 このように、認証は様々な参加者間のセキュアなコミュニケーションを確立する上で重要な側面である。 本稿では,最近の認証プロトコルと鍵交換プロトコルについて述べる。 これらのプロトコルがリプレイアタックや修正アタックに対して脆弱であること、および技術的正確性に悩まされていることを実証する。 そして、議論された脆弱性を克服する可能性のある改善を提示します。 この拡張により、元のプロトコルのパフォーマンスが保たれる。

Internet of Things (IoT) have gained popularity in recent times. With an increase in the number of IoT devices, security and privacy vulnerabilities are also increasing. For sensitive domains like healthcare and industrial sectors, such vulnerabilities can cause havoc. Thus, authentication is an important aspect for establishing a secure communication between various participants. In this paper, we study the two recent authentication and key exchange protocols. We prove that these protocols are vulnerable to replay attack and modification attack, and also suffer from technical correctness. We then present the possible improvements to overcome the discussed vulnerabilities. The enhancement preserves performance of the original protocols.
翻訳日:2024-03-18 11:28:18 公開日:2023-12-23
# カオスとDPA耐性ボックスに基づくハイブリッド画像暗号化方式

A Hybrid Image Encryption Scheme based on Chaos and a DPA-Resistant Sbox ( http://arxiv.org/abs/2312.15280v1 )

ライセンス: Link先を確認
Mohammad Gholamzadeh, Behrooz Khadem, (参考訳) 画像暗号化は、デジタル画像を保護する最も一般的で効果的な方法の1つである。 最近、Khalid M. Hosny氏は、6DハイパーカオスマッピングとQ-Fibonacci行列に基づく画像暗号化スキームを発表したが、その顕著な理論的および実用的な性質にもかかわらず、ブラック画像暗号化の不正確さ、不適切なホワイト画像暗号化(不適切なエントロピーパラメータ、相関、チ二乗検定、ヒストグラム、UACI、NPCR)、弱鍵、不適切な鍵使用など、いくつかの弱点がある。 本稿では、Khaled Hosnyの設計に基づいて、暗号化のセキュリティと効率を改善した新しい効果的な設計を提案する。 また、提案設計では、DPA攻撃に耐性のある高い透明性順序を持つセキュアキーと置換ボックスが加えられている。 また,カオスパラメータの転送を改善する手法も提案した。 実験の結果,画像暗号化方式の共通攻撃に対する設計の抵抗性が向上し,帯域幅の削減が図られた。 また、提案手法は、他の類似した新しいスキームと比較して、セキュリティと効率の両面で良好な結果が得られたことが示されている。

Image encryption is one of the most common and effective methods to secure digital images. Recently, Khalid M. Hosny presented an image encryption scheme based on 6D hyper chaotic mapping and Q-Fibonacci matrix, which, despite its remarkable theoretical and practical properties, has several weaknesses, including inaccuracy of black image encryption, inappropriate white image encryption (improper entropy parameters, correlation, chi-square test, histogram, UACI, and NPCR), weak keys, inappropriate key usage. In this paper, based on Khaled Hosny's design, a new effective design is presented that has improved encryption security and efficiency. In addition, in the proposed design, a secure key and a substitution box with a high degree of transparency order, which is resistant to DPA attacks, have been added. Also, a method to improve transferring chaos parameters is also proposed. The test results show the improvement of the resistance of the proposed design against the common attacks of image encryption schemes and improvement in bandwidth consumption. Also it has been shown that the proposed scheme has produced better results in terms of both security and efficiency compared to other similar new schemes.
翻訳日:2024-03-18 11:28:18 公開日:2023-12-23
# TMAP:産業用IoTシステムのための脅威モデリングと攻撃経路分析フレームワーク(IoMとIoPを事例として)

TMAP: A Threat Modeling and Attack Path Analysis Framework for Industrial IoT Systems (A Case Study of IoM and IoP) ( http://arxiv.org/abs/2312.15319v1 )

ライセンス: Link先を確認
Kumar Saurabh, Deepak Gajjala, Krishna Kaipa, Ranjana Vyas, O. P. Vyas, Rahamatullah Khondoker, (参考訳) 産業用サイバー物理システム(ICPS)は、情報技術と産業プロセスの自動化を徐々に統合し、悪意あるアクターに対してより脆弱になる。 したがって、スマートファクトリにセキュアな産業制御生産システム(ICPS)を配備するには、サイバー脅威とリスクに対処する必要がある。 すべての脅威を特定するために、Threat Modelingは有望なソリューションである。 サイバー物理システム(CPS)における脅威モデリングのための多くの方法論的ソリューションが存在するにもかかわらず、現在のアプローチは、IIoT技術に関わる研究者や組織に明確な洞察を提供することにおいて、アドホックで非効率である。 これらのアプローチには、サイバー脅威の包括的な分析が欠如しており、ICPSライフサイクル全体にわたって効果的なパス分析を促進することができず、スマートな製造技術やツールが組み込まれている。 これらのギャップに対処するために、予測可能な攻撃ベクトルを特定し、攻撃経路を評価し、各ベクトルの大きさを評価することを目的とした、新しい定量的脅威モデリング手法を提案する。 また,本提案手法を産業生産ライン,すなわち製造業のインターネット(IoM)と生産のインターネット(IoP)の2つのケーススタディで実施した。

Industrial cyber-physical systems (ICPS) are gradually integrating information technology and automating industrial processes, leading systems to become more vulnerable to malicious actors. Thus, to deploy secure Industrial Control and Production Systems (ICPS) in smart factories, cyber threats and risks must be addressed. To identify all possible threats, Threat Modeling is a promising solution. Despite the existence of numerous methodological solutions for threat modeling in cyber-physical systems (CPS), current approaches are ad hoc and inefficient in providing clear insights to researchers and organizations involved in IIoT technologies. These approaches lack a comprehensive analysis of cyber threats and fail to facilitate effective path analysis across the ICPS lifecycle, incorporating smart manufacturing technologies and tools. To address these gaps, a novel quantitative threat modeling approach is proposed, aiming to identify probable attack vectors, assess the path of attacks, and evaluate the magnitude of each vector. This paper also explains the execution of the proposed approach with two case studies, namely the industrial manufacturing line, i.e., the Internet of Manufacturing (IoM), and the power and industry, i.e., the Internet of Production (IoP).
翻訳日:2024-03-18 11:18:35 公開日:2023-12-23
# 5Gネットワークのセキュリティ - 5Gネットワークが位置情報追跡の脆弱性を軽減する方法

Security in 5G Networks -- How 5G networks help Mitigate Location Tracking Vulnerability ( http://arxiv.org/abs/2312.16200v1 )

ライセンス: Link先を確認
Abshir Ali, Guanqun Song, Ting Zhu, (参考訳) 5Gネットワークが主流になるにつれ、プライバシーはエンドユーザーの目玉となっている。 3Gや4Gといった以前の世代の携帯電話技術では、携帯電話ネットワークの登録中にエンドユーザーモバイルデバイスから基地局に送信された機密メタデータをどのように扱うかがより精査されている。 これらの世代の携帯電話ネットワークは、このプロセス中に送信された情報に対して暗号化を強制せず、悪意のあるアクターが情報を傍受する簡単な方法を与える。 このようなインターセプションにより、敵は衝撃的な精度でエンドユーザーを見つけることができる。 本稿では,この問題を詳細に検討し,新たに導入した5Gネットワークのアプローチがこの問題にどう対処するかを論じる。 本稿は、この脆弱性と、この機密情報を保護するために使用される暗号化スキームを含む、新しいアプローチの技術的詳細について論じる。 最後に、本論文では、この新しいアプローチの制限について論じる。

As 5G networks become more mainstream, privacy has come to the forefront of end users. More scrutiny has been shown to previous generation cellular technologies such as 3G and 4G on how they handle sensitive metadata transmitted from an end user mobile device to base stations during registration with a cellular network. These generation cellular networks do not enforce any encryption on this information transmitted during this process, giving malicious actors an easy way to intercept the information. Such an interception can allow an adversary to locate end users with shocking accuracy. This paper investigates this problem in great detail and discusses how a newly introduced approach in 5G networks is helping combat this problem. The paper discusses the implications of this vulnerability and the technical details of the new approach, including the encryption schemes used to secure this sensitive information. Finally, the paper will discuss any limitations to this new approach.
翻訳日:2024-03-18 11:18:35 公開日:2023-12-23
# フレームを超えて: ユーザ定義長の単一かつ多用なビデオ要約法

Beyond the Frame: Single and mutilple video summarization method with user-defined length ( http://arxiv.org/abs/2401.10254v1 )

ライセンス: Link先を確認
Vahid Ahmadi Kalkhorani, Qingquan Zhang, Guanqun Song, Ting Zhu(参考訳) ビデオのsmmarizationは、長いビデオの視聴/再生に要する時間を短縮する、ビデオの時間を削減するための重要な方法である。 毎日の出版ビデオの増加に伴い、このアポラチはますます重要になっている。 単一または複数のビデオは、マルチモーダルオーディオ視覚技術から自然言語処理アプローチまで、様々な技術を用いて、比較的短いビデオにまとめることができる。 オーディオビジュアル技術は重要な視覚イベントを認識し、最も重要な部分を選択するのに使うことができるが、nlp技術は音声の書き起こしを評価し、元のビデオから主文(タイムスタンプ)と対応するビデオフレームを抽出するのに使うことができる。 もう1つのアプローチは、両方のドメインのベストを使用することです。 つまり、音声と視覚の手がかりだけでなく、ビデオの書き起こしも、ビデオの抽出と要約に利用できます。 本稿では,様々なnlp技術(extractive and contect-based summaryr)とビデオ処理技術を組み合わせることで,長い映像を1つの比較的短い映像に変換する。 この料金は、ユーザが要約ビデオの相対的長さを指定できるように設計する。 また、複数の動画を1つの短いビデオにまとめ、まとめる方法も検討しており、同じ主題から最も重要な概念を1つの短いビデオにまとめるのに役立ちます。 アウトアプローチは、ビデオの要約は難しいが重要な作業であり、さらなる研究と開発の可能性があり、NLPモデルの開発により可能であることを示している。

Video smmarization is a crucial method to reduce the time of videos which reduces the spent time to watch/review a long video. This apporach has became more important as the amount of publisehed video is increasing everyday. A single or multiple videos can be summarized into a relatively short video using various of techniques from multimodal audio-visual techniques, to natural language processing approaches. Audiovisual techniques may be used to recognize significant visual events and pick the most important parts, while NLP techniques can be used to evaluate the audio transcript and extract the main sentences (timestamps) and corresponding video frames from the original video. Another approach is to use the best of both domain. Meaning that we can use audio-visual cues as well as video transcript to extract and summarize the video. In this paper, we combine a variety of NLP techniques (extractive and contect-based summarizers) with video processing techniques to convert a long video into a single relatively short video. We design this toll in a way that user can specify the relative length of the summarized video. We have also explored ways of summarizing and concatenating multiple videos into a single short video which will help having most important concepts from the same subject in a single short video. Out approach shows that video summarizing is a difficult but significant work, with substantial potential for further research and development, and it is possible thanks to the development of NLP models.
翻訳日:2024-01-28 16:28:32 公開日:2023-12-23
# Hybrid-Task Meta-Learning: スケーラブルで転送可能な帯域割り当てのためのグラフニューラルネットワークアプローチ

Hybrid-Task Meta-Learning: A Graph Neural Network Approach for Scalable and Transferable Bandwidth Allocation ( http://arxiv.org/abs/2401.10253v1 )

ライセンス: Link先を確認
Xin Hao, Changyang She, Phee Lep Yeoh, Yuhong Liu, Branka Vucetic, and Yonghui Li(参考訳) 本稿では,深層学習に基づく帯域割り当て政策について述べる。 1)ユーザ数にスケーラブルで 2)非定常無線通信,QoS(Quality-of-Service)要件,動的利用可能なリソースなど,さまざまな通信シナリオに転送可能である。 スケーラビリティをサポートするために、帯域割り当てポリシーは、ユーザ数に応じてトレーニングパラメータの数が変化しないグラフニューラルネットワーク(GNN)によって表現される。 GNNの一般化を実現するために,GNNの初期パラメータをメタトレーニング中に異なる通信シナリオで訓練するハイブリッドタスクメタ学習(HML)アルゴリズムを開発した。 次に、メタテストの間、いくつかのサンプルを使用して、見えない通信シナリオでGNNを微調整する。 シミュレーションの結果、我々のhmlアプローチは、既存のベンチマークと比較して、初期パフォーマンスを8.79\%$、サンプリング効率を73\%$向上できることが示されました。 微調整後、我々の最適に近いgnnベースのポリシーは、反復最適化によって得られた最適ポリシーよりもずっと低い推論複雑性で、ほぼ同じ報酬を得ることができる。

In this paper, we develop a deep learning-based bandwidth allocation policy that is: 1) scalable with the number of users and 2) transferable to different communication scenarios, such as non-stationary wireless channels, different quality-of-service (QoS) requirements, and dynamically available resources. To support scalability, the bandwidth allocation policy is represented by a graph neural network (GNN), with which the number of training parameters does not change with the number of users. To enable the generalization of the GNN, we develop a hybrid-task meta-learning (HML) algorithm that trains the initial parameters of the GNN with different communication scenarios during meta-training. Next, during meta-testing, a few samples are used to fine-tune the GNN with unseen communication scenarios. Simulation results demonstrate that our HML approach can improve the initial performance by $8.79\%$, and sampling efficiency by $73\%$, compared with existing benchmarks. After fine-tuning, our near-optimal GNN-based policy can achieve close to the same reward with much lower inference complexity compared to the optimal policy obtained using iterative optimization.
翻訳日:2024-01-28 16:28:08 公開日:2023-12-23
# 衛星-地上統合ネットワークの動的ルーティング:制約付きマルチエージェント強化学習アプローチ

Dynamic Routing for Integrated Satellite-Terrestrial Networks: A Constrained Multi-Agent Reinforcement Learning Approach ( http://arxiv.org/abs/2401.09455v1 )

ライセンス: Link先を確認
Yifeng Lyu, Han Hu, Rongfei Fan, Zhi Liu, Jianping An, Shiwen Mao(参考訳) istn(integrated satellite-terrestrial network)システムは、地上インフラが限られた遠隔地におけるシームレスな通信サービスを提供している。 しかし、ISTNのルーティング方式の設計は、主に地上局の追加による複雑さの増大と、衛星サービス品質に関する様々な制約を満たすことによる、非常に困難である。 これらの課題に対処するため、高速通信を優先し、エネルギー効率とパケット損失要件を満たしながら、地上局や衛星とのパケットルーティングを共同で研究する。 具体的には,ラグランジュ法を用いて制約付きパケットルーティング問題を最大ミニ問題として定式化する。 CMADRと呼ばれる新しい制約付きマルチエージェント強化学習(MARL)動的ルーティングアルゴリズムを提案し、ポリシーとラグランジュ乗算器の更新時の客観的改善と制約満足度を効率的にバランスさせる。 最後に,onewebとtelesatを用いた広範囲な実験とアブレーション実験を行った。 その結果、CMADRはパケット遅延を最小21%と15%削減し、一方、厳しいエネルギー消費とパケット損失率の制約を満たし、いくつかのベースラインアルゴリズムより優れていた。

The integrated satellite-terrestrial network (ISTN) system has experienced significant growth, offering seamless communication services in remote areas with limited terrestrial infrastructure. However, designing a routing scheme for ISTN is exceedingly difficult, primarily due to the heightened complexity resulting from the inclusion of additional ground stations, along with the requirement to satisfy various constraints related to satellite service quality. To address these challenges, we study packet routing with ground stations and satellites working jointly to transmit packets, while prioritizing fast communication and meeting energy efficiency and packet loss requirements. Specifically, we formulate the problem of packet routing with constraints as a max-min problem using the Lagrange method. Then we propose a novel constrained Multi-Agent reinforcement learning (MARL) dynamic routing algorithm named CMADR, which efficiently balances objective improvement and constraint satisfaction during the updating of policy and Lagrange multipliers. Finally, we conduct extensive experiments and an ablation study using the OneWeb and Telesat mega-constellations. Results demonstrate that CMADR reduces the packet delay by a minimum of 21% and 15%, while meeting stringent energy consumption and packet loss rate constraints, outperforming several baseline algorithms.
翻訳日:2024-01-22 09:29:38 公開日:2023-12-23
# ベイズ知識の第一原理に基づくパラメトリック制約

Parametric Constraints for Bayesian Knowledge Tracing from First Principles ( http://arxiv.org/abs/2401.09456v1 )

ライセンス: Link先を確認
Denis Shchepakin, Sreecharan Sankaranarayanan, Dawn Zimmaro(参考訳) ベイズ知識トレース(英: bayesian knowledge tracing、bkt)は、知識要素に対応する学習者の熟達状態の確率モデルである。 学習者の熟達状態は「隠れている」または潜伏したバイナリ変数と見なされ、状態間の遷移確率を表すパラメータを用いて学習者の応答の観測された正確性に基づいてこの状態を更新する。 BKTはしばしば隠れマルコフモデルとして表現され、これらのパラメータを推測するために期待最大化(EM)アルゴリズムが使用される。 しかし、このアルゴリズムは、複数の実行可能なパラメータセットの生成、ローカルミニマへの落ち着き、縮退したパラメータ値の生成、適合時の計算コストなど、いくつかの問題に苦しむ可能性がある。 本稿では、BKTパラメータ空間に課せられる制約を導出するために、「第一原理から」アプローチをとる。 本稿では, 確率の基本的な数学的真理から, 実系における bkt パラメータに期待される挙動まで構築することから, bkt パラメータ空間に課される簡潔な制約をもたらす数学的導出を提案する。 これらの制約は必要条件であるため、計算コストとEMプロシージャから生じる可能性のある問題の可能性を減らすために、適合前に適用することができる。 そこで本研究では,BKTパラメータを新たに定義した制約に基づいて推定する新しいアルゴリズムを提案する。 退化パラメータ値の問題は以前にも報告されているが、本論文は第一原理からの制約を導出すると同時に、それらの制約を尊重するアルゴリズムも提示する最初の最善の知識である。

Bayesian Knowledge Tracing (BKT) is a probabilistic model of a learner's state of mastery corresponding to a knowledge component. It considers the learner's state of mastery as a "hidden" or latent binary variable and updates this state based on the observed correctness of the learner's response using parameters that represent transition probabilities between states. BKT is often represented as a Hidden Markov Model and the Expectation-Maximization (EM) algorithm is used to infer these parameters. However, this algorithm can suffer from several issues including producing multiple viable sets of parameters, settling into a local minima, producing degenerate parameter values, and a high computational cost during fitting. This paper takes a "from first principles" approach to deriving constraints that can be imposed on the BKT parameter space. Starting from the basic mathematical truths of probability and building up to the behaviors expected of the BKT parameters in real systems, this paper presents a mathematical derivation that results in succinct constraints that can be imposed on the BKT parameter space. Since these constraints are necessary conditions, they can be applied prior to fitting in order to reduce computational cost and the likelihood of issues that can emerge from the EM procedure. In order to see that promise through, the paper further introduces a novel algorithm for estimating BKT parameters subject to the newly defined constraints. While the issue of degenerate parameter values has been reported previously, this paper is the first, to our best knowledge, to derive the constrains from first principles while also presenting an algorithm that respects those constraints.
翻訳日:2024-01-22 09:13:06 公開日:2023-12-23
# 不均衡解消機構における分布強化学習に基づくエネルギー仲裁戦略

Distributional Reinforcement Learning-based Energy Arbitrage Strategies in Imbalance Settlement Mechanism ( http://arxiv.org/abs/2401.00015v1 )

ライセンス: Link先を確認
Seyed Soroush Karimi Madahi, Bert Claessens, Chris Develder(参考訳) 再生可能エネルギー源の浸透の進展により、供給がより不確実になり、システムの不均衡が増大する。 この傾向は、単一不均衡価格とともに、不均衡解決機構においてエネルギー仲裁を行う責任ある当事者(BRP)のバランスを取る機会を開く。 そこで本研究では,分散強化学習(DRL)に基づく電池制御フレームワークを提案する。 提案するコントロールフレームワークはリスクに敏感な視点をとっており、brpがリスクの好みを調整できるようにしています。 2022年のベルギーの不均衡価格を用いて,提案手法の性能評価を行い,2つの最先端RL法,深層Q学習法,ソフトアクター批判法を比較した。 その結果,分布型ソフトアクター批判法は,他の手法よりも優れていることがわかった。 さらに,我々の完全リスク回避エージェントは,エージェントが価格についてより確実な場合にのみ,電池を充電することで,未知の不均衡価格に関連するリスクに対して適切にヘッジを学習する。

Growth in the penetration of renewable energy sources makes supply more uncertain and leads to an increase in the system imbalance. This trend, together with the single imbalance pricing, opens an opportunity for balance responsible parties (BRPs) to perform energy arbitrage in the imbalance settlement mechanism. To this end, we propose a battery control framework based on distributional reinforcement learning (DRL). Our proposed control framework takes a risk-sensitive perspective, allowing BRPs to adjust their risk preferences: we aim to optimize a weighted sum of the arbitrage profit and a risk measure while constraining the daily number of cycles for the battery. We assess the performance of our proposed control framework using the Belgian imbalance prices of 2022 and compare two state-of-the-art RL methods, deep Q learning and soft actor-critic. Results reveal that the distributional soft actor-critic method can outperform other methods. Moreover, we note that our fully risk-averse agent appropriately learns to hedge against the risk related to the unknown imbalance price by (dis)charging the battery only when the agent is more certain about the price.
翻訳日:2024-01-15 12:26:43 公開日:2023-12-23
# テキスト・画像作成のための意味描画工学

Semantic Draw Engineering for Text-to-Image Creation ( http://arxiv.org/abs/2401.04116v1 )

ライセンス: Link先を確認
Yang Li and Huaqiang Jiang and Yangkai Wu(参考訳) テキストから画像への生成は、gan(generative adversarial network)またはtransformerモデルを通じて行われる。 しかし、現在の課題は、特に対象画像の内容とテーマが曖昧であるシナリオにおいて、テキスト記述に基づく画像の正確な生成である。 本稿では,人工知能モデルを用いたテーマ創造性評価手法を提案し,続いて実際の絵画プロセスの分類モデルを提案する。 この手法では、画像を作成する前に、すべての視覚要素を定量データ構造に変換する。 本手法の有効性を,既存の画像生成アルゴリズムと比較して,意味的精度,画像再現性,計算効率の観点から評価する。

Text-to-image generation is conducted through Generative Adversarial Networks (GANs) or transformer models. However, the current challenge lies in accurately generating images based on textual descriptions, especially in scenarios where the content and theme of the target image are ambiguous. In this paper, we propose a method that utilizes artificial intelligence models for thematic creativity, followed by a classification modeling of the actual painting process. The method involves converting all visual elements into quantifiable data structures before creating images. We evaluate the effectiveness of this approach in terms of semantic accuracy, image reproducibility, and computational efficiency, in comparison with existing image generation algorithms.
翻訳日:2024-01-15 09:21:37 公開日:2023-12-23
# 地理的, 環境的, 農業的, 都市計画的応用のためのマルチモーダル基礎モデルの約束と課題

On the Promises and Challenges of Multimodal Foundation Models for Geographical, Environmental, Agricultural, and Urban Planning Applications ( http://arxiv.org/abs/2312.17016v1 )

ライセンス: Link先を確認
Chenjiao Tan, Qian Cao, Yiwei Li, Jielu Zhang, Xiao Yang, Huaqin Zhao, Zihao Wu, Zhengliang Liu, Hao Yang, Nemin Wu, Tao Tang, Xinyue Ye, Lilong Chai, Ninghao Liu, Changying Li, Lan Mu, Tianming Liu, Gengchen Mai(参考訳) 大規模言語モデル(LLM)の出現により、言語とビジョンを統合するマルチモーダルアプリケーションへの関心が高まっている。 本稿では, 地理, 環境科学, 農業, 都市計画の分野におけるgpt-4vの能力について, 様々な課題における性能評価を通して検討する。 データソースは衛星画像、空中写真、地上画像、フィールド画像、パブリックデータセットで構成されている。 このモデルは,地理的局在化,地図からのテキストデータ抽出,リモートセンシング画像分類,視覚的質問応答,作物型識別,病気・害虫・雑草認識,鶏の行動分析,農業オブジェクトカウント,都市計画知識質問応答,計画生成など,一連のタスクに基づいて評価される。 その結果,地理局在化,土地被覆分類,視覚的質問応答,基本画像理解におけるGPT-4Vの可能性が示唆された。 しかし、細かな認識と正確なカウントを必要とするいくつかのタスクには制限がある。 ゼロショット学習はpromiseを示すが、パフォーマンスは問題領域や画像の複雑さによって異なる。 実際の地理空間、環境、農業、都市計画の課題に対するGPT-4Vの能力と限界に関する新たな洞察を提供する。 さらなる研究は、モデルの知識の拡大と、拡張トレーニングによる専門領域の推論に焦点を当てるべきである。 全体として、この分析は基礎的なマルチモーダル知性を示し、コンピュータビジョンと言語のnexusにおける学際的アプリケーションを進めるためのマルチモーダル基礎モデル(fms)の可能性を強調している。

The advent of large language models (LLMs) has heightened interest in their potential for multimodal applications that integrate language and vision. This paper explores the capabilities of GPT-4V in the realms of geography, environmental science, agriculture, and urban planning by evaluating its performance across a variety of tasks. Data sources comprise satellite imagery, aerial photos, ground-level images, field images, and public datasets. The model is evaluated on a series of tasks including geo-localization, textual data extraction from maps, remote sensing image classification, visual question answering, crop type identification, disease/pest/weed recognition, chicken behavior analysis, agricultural object counting, urban planning knowledge question answering, and plan generation. The results indicate the potential of GPT-4V in geo-localization, land cover classification, visual question answering, and basic image understanding. However, there are limitations in several tasks requiring fine-grained recognition and precise counting. While zero-shot learning shows promise, performance varies across problem domains and image complexities. The work provides novel insights into GPT-4V's capabilities and limitations for real-world geospatial, environmental, agricultural, and urban planning challenges. Further research should focus on augmenting the model's knowledge and reasoning for specialized domains through expanded training. Overall, the analysis demonstrates foundational multimodal intelligence, highlighting the potential of multimodal foundation models (FMs) to advance interdisciplinary applications at the nexus of computer vision and language.
翻訳日:2023-12-31 03:04:15 公開日:2023-12-23
# 因果モデル監査と開発を支援する大規模言語モデルへの説明可能なaiアプローチ

An Explainable AI Approach to Large Language Model Assisted Causal Model Auditing and Development ( http://arxiv.org/abs/2312.16211v1 )

ライセンス: Link先を確認
Yanming Zhang, Brette Fitzgibbon, Dino Garofolo, Akshith Kota, Eric Papenhausen, Klaus Mueller(参考訳) 因果ネットワークは、変数間の複雑な関係をモデル化するために、疫学、社会科学、医学、工学など、多くの分野で広く使われている。 観測データから直接これらのモデルをアルゴリズムで推測することは便利であるが、結果として得られるネットワークはしばしば誤ったエッジで悩まされる。 これらのネットワークの監査と修正は、アナリストが頻繁に利用できないドメインの専門知識を必要とする可能性がある。 因果ネットワークの監査役としてchatgptなどの大規模言語モデルの利用を提案する。 提案手法では,ChatGPTに因果ネットワークを同時に提供し,エッジの方向性,共同創設者の可能性,変数の仲介について考察する。 chatgptに各因果関係のさまざまな側面を振り返ってもらい、人間の分析者がエッジを指示したり、より多くのデータを収集したり、さらに仮説を検証したりするためにこれらの視点を要約する視覚化を作成します。 我々は、大規模言語モデル、自動因果推論、そして人間アナリストとドメインエキスパートが、あらゆるケースシナリオに対して全体的かつ包括的な因果モデルを導出するチームとして手を組むシステムを構想する。 本稿では,新しいプロトタイプで得られた最初の結果を示す。

Causal networks are widely used in many fields, including epidemiology, social science, medicine, and engineering, to model the complex relationships between variables. While it can be convenient to algorithmically infer these models directly from observational data, the resulting networks are often plagued with erroneous edges. Auditing and correcting these networks may require domain expertise frequently unavailable to the analyst. We propose the use of large language models such as ChatGPT as an auditor for causal networks. Our method presents ChatGPT with a causal network, one edge at a time, to produce insights about edge directionality, possible confounders, and mediating variables. We ask ChatGPT to reflect on various aspects of each causal link and we then produce visualizations that summarize these viewpoints for the human analyst to direct the edge, gather more data, or test further hypotheses. We envision a system where large language models, automated causal inference, and the human analyst and domain expert work hand in hand as a team to derive holistic and comprehensive causal models for any given case scenario. This paper presents first results obtained with an emerging prototype.
翻訳日:2023-12-31 03:03:47 公開日:2023-12-23
# 連続可変量子鍵分布の実用繊維による有限離開時のセキュリティ解析

The Security Analysis of Continuous-Variable Quantum Key Distribution under Limited Eavesdropping with Practical Fiber ( http://arxiv.org/abs/2312.16206v1 )

ライセンス: Link先を確認
Sheng Liu, Lu Fan, Zhengyu Li, Qiang Zhou, Yunbo Li, Dong Wang, Dechao Zhang, Yichen Zhang, and Han Li(参考訳) 実用条件下での最適盗聴モデルの研究は、セキュアな情報伝達に量子鍵分布(QKD)システムを用いる場合の現実的なリスクを評価するのに役立つ。 直感的には、繊維の損失は、盗聴者によって収穫されるのではなく、環境への光エネルギーの漏出につながり、qkdシステムの性能を実用的に向上しながら盗聴能力を制限する。 しかし、チャネルが正規パートナーの制御外であり、漏洩信号が検出できないため、損失ファイバの存在下で最適な盗聴モデルを定義することは困難である。 本稿では,2つの遠隔局と共用絡み込み源を必要とする遠隔地攻撃モデルに基づいて,ファイバロスが盗聴能力に与える影響について検討する。 実際の損失により分散した絡み合いが制限されると、2つのテレポーテーションステーションを1つにマージして送信サイトの近くに配置すると最適な攻撃が起こり、これは絡み合い攻撃と類似するがワイヤーテーピング比が低下する。 Eveが最高のホロウコアファイバーを使用していると仮定すると、実用環境での秘密鍵レートは理想の盗聴よりも20%から40%高い。 エンタングルメント蒸留技術が十分に成熟し、高品質な分散エンタングルメントを提供することができるなら、2つのテレポーテーションステーションは、盗聴性能を向上させるために遠距離分離されるべきであり、盗聴は最適な集団攻撃に近づくことさえ可能である。 現在の絡み合い浄化技術の下では、避けられない繊維の損失は、盗聴能力を大幅に制限し、現実的なシステムの秘密鍵レートと送信距離を高め、実用的な応用シナリオにおけるQKDシステムの開発を促進することができる。

Research on optimal eavesdropping models under practical conditions will help to evaluate realistic risk when employing quantum key distribution (QKD) system for secure information transmission. Intuitively, fiber loss will lead to the optical energy leaking to the environment, rather than harvested by the eavesdropper, which also limits the eavesdropping ability while improving the QKD system performance in practical use. However, defining the optimal eavesdropping model in the presence of lossy fiber is difficult because the channel is beyond the control of legitimate partners and the leaked signal is undetectable. Here we investigate how the fiber loss influences the eavesdropping ability based on a teleportation-based collective attack model which requires two distant stations and a shared entanglement source. We find that if the distributed entanglement is limited due to the practical loss, the optimal attack occurs when the two teleportation stations are merged to one and placed close to the transmitter site, which performs similar to the entangling-cloning attack but with a reduced wiretapping ratio. Assuming Eve uses the best available hollow-core fiber, the secret key rate in the practical environment can be 20%~40% higher than that under ideal eavesdropping. While if the entanglement distillation technology is mature enough to provide high quality of distributed entanglement, the two teleportation stations should be distantly separated for better eavesdropping performance, where the eavesdropping can even approach the optimal collective attack. Under the current level of entanglement purification technology, the unavoidable fiber loss can still greatly limit the eavesdropping ability as well as enhance the secret key rate and transmission distance of the realistic system, which promotes the development of QKD systems in practical application scenarios.
翻訳日:2023-12-31 03:03:27 公開日:2023-12-23
# RLDF拡散モデルに対する反復的プロンプトリラベル法

Iterative Prompt Relabeling for diffusion model with RLDF ( http://arxiv.org/abs/2312.16204v1 )

ライセンス: Link先を確認
Jiaxin Ge, Xinyan Chen, Tianjun Zhang, Shanghang Zhang(参考訳) 拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。 このアルゴリズムは従来のGAN法やトランスフォーマー法よりも優れた性能を示す。 しかし、モデルが自然言語命令に従う能力(オブジェクト間の空間的関係、複雑なシーンを生成するなど)はまだ不十分である。 このような能力を高めるための重要な研究分野である。 先行研究では、拡散モデルの振る舞いを調整するために強化学習を採用する。 しかし、rl法は注意深い報酬設計と複雑なハイパーパラメータチューニングを必要とするだけでなく、豊富な自然言語フィードバックを取り入れることができない。 本稿では,反復的な画像サンプリングとプロンプト・レザベリングにより,画像とテキストを協調する新しいアルゴリズムであるIP-RLDFを提案する。 IP-RLDFはまずテキストに条件付き画像のバッチをサンプリングし、未マッチングのテキストイメージペアのテキストプロンプトに分類器のフィードバックをラベル付けする。 SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。 また,IP-RLDFでは,従来のRL法よりも優れた性能を示すとともに,空間関係の困難さを最大15.22%改善した。

Diffusion models have shown impressive performance in many domains, including image generation, time series prediction, and reinforcement learning. The algorithm demonstrates superior performance over the traditional GAN and transformer based methods. However, the model's capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. This has been an important research area to enhance such capability. Prior works adopt reinforcement learning to adjust the behavior of the diffusion models. However, RL methods not only require careful reward design and complex hyperparameter tuning, but also fails to incorporate rich natural language feedback. In this work, we propose iterative prompt relabeling (IP-RLDF), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling. IP-RLDF first samples a batch of images conditioned on the text, then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on three different models, including SDv2, GLIGEN, and SDXL, testing their capability to generate images following instructions. With IP-RLDF, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods.
翻訳日:2023-12-31 03:02:55 公開日:2023-12-23
# 個人化属性推論攻撃に対するユーザ同意型フェデレーションレコメンダシステム

User Consented Federated Recommender System Against Personalized Attribute Inference Attack ( http://arxiv.org/abs/2312.16203v1 )

ライセンス: Link先を確認
Qi Hu, Yangqiu Song(参考訳) レコメンダシステムはプライバシーに敏感である。 ユーザの個人的歴史的インタラクションを保護するため,分散学習においてユーザ表現のためのフェデレーション学習が提案されている。 federated recommender (fedrec)システムを使用することで、ローカルデバイス上で共有レコメンデーションモデルをトレーニングし、生のデータ転送やコレクションを防ぐことができる。 しかし、共通のFedRecが学習するレコメンデーションモデルは、プライベート情報漏洩のリスク、特に属性推論攻撃に対して脆弱である可能性があるため、攻撃者は学習モデルからユーザの個人属性を簡単に推測することができる。 さらに、従来のFedRecsでは、ユーザのさまざまなプライバシ優先をほとんど考慮せず、レコメンデーションユーティリティとプライバシ保護のバランスをとるのが難しい。 したがって、feedrecは過保護と個人情報の漏洩により不要なレコメンデーション性能の損失を被る可能性がある。 本研究では,ユーザのプライバシニーズを柔軟に満たすために,最小限のレコメンデーション精度を払って,ユーザ合意型フェデレーションレコメンデーションシステム(UC-FedRec)を提案する。 UC-FedRecは、ユーザーが様々な要求を満たすためにプライバシー設定を自己定義し、ユーザーの同意を得てレコメンデーションを行うことを可能にする。 異なる実世界のデータセットで実施された実験は、我々のフレームワークがベースラインよりも効率的で柔軟なことを示している。

Recommender systems can be privacy-sensitive. To protect users' private historical interactions, federated learning has been proposed in distributed learning for user representations. Using federated recommender (FedRec) systems, users can train a shared recommendation model on local devices and prevent raw data transmissions and collections. However, the recommendation model learned by a common FedRec may still be vulnerable to private information leakage risks, particularly attribute inference attacks, which means that the attacker can easily infer users' personal attributes from the learned model. Additionally, traditional FedRecs seldom consider the diverse privacy preference of users, leading to difficulties in balancing the recommendation utility and privacy preservation. Consequently, FedRecs may suffer from unnecessary recommendation performance loss due to over-protection and private information leakage simultaneously. In this work, we propose a novel user-consented federated recommendation system (UC-FedRec) to flexibly satisfy the different privacy needs of users by paying a minimum recommendation accuracy price. UC-FedRec allows users to self-define their privacy preferences to meet various demands and makes recommendations with user consent. Experiments conducted on different real-world datasets demonstrate that our framework is more efficient and flexible compared to baselines.
翻訳日:2023-12-31 03:02:30 公開日:2023-12-23
# Time Travelling Pixels: リモートセンシング画像変化検出のための基礎モデルとバイテンポラル特徴の統合

Time Travelling Pixels: Bitemporal Features Integration with Foundation Model for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2312.16202v1 )

ライセンス: Link先を確認
Keyan Chen, Chengyang Liu, Wenyuan Li, Zili Liu, Hao Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi(参考訳) リモートセンシングにおける顕著な研究領域である変化検出は、表面変換の観察と解析において重要である。 深層学習に基づく手法による大幅な進歩にもかかわらず、時空間的に複雑なリモートセンシングシナリオにおける高精度な変化検出の実行は依然として重大な課題である。 最近の基盤モデルの出現とその強力な普遍性と一般化能力は、潜在的な解決策を提供する。 しかし、データとタスクのギャップを埋めることは大きな障害である。 本稿では,SAM基盤モデルの潜在知識を変化検出に統合する新しいアプローチであるTime Travelling Pixels (TTP)を紹介する。 本手法は, 一般知識伝達における領域シフトと, 多時間画像の同種・異種特性を表現することの課題に効果的に対処する。 LEVIR-CDで得られた最先端の結果は,TTPの有効性を裏付けるものであった。 コードは \url{https://kychen.me/ttp} で入手できる。

Change detection, a prominent research area in remote sensing, is pivotal in observing and analyzing surface transformations. Despite significant advancements achieved through deep learning-based methods, executing high-precision change detection in spatio-temporally complex remote sensing scenarios still presents a substantial challenge. The recent emergence of foundation models, with their powerful universality and generalization capabilities, offers potential solutions. However, bridging the gap of data and tasks remains a significant obstacle. In this paper, we introduce Time Travelling Pixels (TTP), a novel approach that integrates the latent knowledge of the SAM foundation model into change detection. This method effectively addresses the domain shift in general knowledge transfer and the challenge of expressing homogeneous and heterogeneous characteristics of multi-temporal images. The state-of-the-art results obtained on the LEVIR-CD underscore the efficacy of the TTP. The Code is available at \url{https://kychen.me/TTP}.
翻訳日:2023-12-31 03:02:04 公開日:2023-12-23
# 属性パターンを用いたセッションベースレコメンデーションにおけるユーザインテントキャプチャの強化

Enhancing User Intent Capture in Session-Based Recommendation with Attribute Patterns ( http://arxiv.org/abs/2312.16199v1 )

ライセンス: Link先を確認
Xin Liu, Zheng Li, Yifan Gao, Jingfeng Yang, Tianyu Cao, Zhengyang Wang, Bing Yin, Yangqiu Song(参考訳) Eコマースにおけるセッションベースのレコメンデーションの目標は、匿名ユーザがブラウジングと購入履歴に基づいて購入する次のアイテムを予測することである。 しかし、セッションデータを補うためにグローバルまたはローカルな遷移グラフを構築することは、ノイズの多い相関とユーザ意図の消滅につながる可能性がある。 本稿では,属性遷移グラフの構築と属性パターンのマッチングによってユーザの意図を特徴付ける,頻繁な属性パターン拡張トランスフォーマー(fapat)を提案する。 特に、頻繁でコンパクトな属性パターンは、セッション表現を増強するためのメモリとして提供され、続いて、セッション情報全体を融合するゲートとトランスフォーマーブロックが続く。 2つの公開ベンチマークと3つの領域における1億の産業データに関する広範な実験を通じて、FAPATは様々な評価指標(Hits, NDCG, MRR)で平均4.5%の最先端の手法を一貫して上回っていることを示した。 次点予測の評価に加えて、アイテムの属性と周期的推奨によってユーザ意図をキャプチャするモデルの能力を推定する。

The goal of session-based recommendation in E-commerce is to predict the next item that an anonymous user will purchase based on the browsing and purchase history. However, constructing global or local transition graphs to supplement session data can lead to noisy correlations and user intent vanishing. In this work, we propose the Frequent Attribute Pattern Augmented Transformer (FAPAT) that characterizes user intents by building attribute transition graphs and matching attribute patterns. Specifically, the frequent and compact attribute patterns are served as memory to augment session representations, followed by a gate and a transformer block to fuse the whole session information. Through extensive experiments on two public benchmarks and 100 million industrial data in three domains, we demonstrate that FAPAT consistently outperforms state-of-the-art methods by an average of 4.5% across various evaluation metrics (Hits, NDCG, MRR). Besides evaluating the next-item prediction, we estimate the models' capabilities to capture user intents via predicting items' attributes and period-item recommendations.
翻訳日:2023-12-31 03:01:49 公開日:2023-12-23
# ニューラルラジアンス場を有するセマンティックアライメントハイパーネットを用いたINFAMOUS-NeRFによる改良Ngファスモデリング

INFAMOUS-NeRF: ImproviNg FAce MOdeling Using Semantically-Aligned Hypernetworks with Neural Radiance Fields ( http://arxiv.org/abs/2312.16197v1 )

ライセンス: Link先を確認
Andrew Hou, Feng Liu, Zhiyuan Ren, Michel Sarkis, Ning Bi, Yiying Tong, Xiaoming Liu(参考訳) 提案するINFAMOUS-NeRFは,多くの訓練対象の存在下での表現力を向上させるために,NeRFにハイパーネットを導入する暗黙の変形可能な顔モデルである。 同時にINFAMOUS-NeRFは、主観的なモデルに拘わらず、意味的に整合した潜在空間を学習することで、表現力と編集性という古典的なハイパーネットワークのトレードオフを解消する。 INFAMOUS-NeRFはさらに、顔境界に沿ってNeRFレンダリングを改善するための新しい制約を導入した。 この制約は、測光面レンダリングとマルチビュー監視を活用し、表面色予測を誘導し、表面近傍のレンダリングを改善する。 最後に, サンプリング冗長性を低減し, より効果的なNeRFトレーニングのための新しい適応サンプリング手法を提案する。 本手法は,従来の顔のモデリング手法よりも高速な表現能力を実現することを定量的かつ定性的に示す。 コードとモデルは公開時にリリースされる。

We propose INFAMOUS-NeRF, an implicit morphable face model that introduces hypernetworks to NeRF to improve the representation power in the presence of many training subjects. At the same time, INFAMOUS-NeRF resolves the classic hypernetwork tradeoff of representation power and editability by learning semantically-aligned latent spaces despite the subject-specific models, all without requiring a large pretrained model. INFAMOUS-NeRF further introduces a novel constraint to improve NeRF rendering along the face boundary. Our constraint can leverage photometric surface rendering and multi-view supervision to guide surface color prediction and improve rendering near the surface. Finally, we introduce a novel, loss-guided adaptive sampling method for more effective NeRF training by reducing the sampling redundancy. We show quantitatively and qualitatively that our method achieves higher representation power than prior face modeling methods in both controlled and in-the-wild settings. Code and models will be released upon publication.
翻訳日:2023-12-31 03:01:27 公開日:2023-12-23
# 触覚センシングによる手指物体の一般的な6次元ポーズ追跡の強化

Enhancing Generalizable 6D Pose Tracking of an In-Hand Object with Tactile Sensing ( http://arxiv.org/abs/2210.04026v2 )

ライセンス: Link先を確認
Yun Liu, Xiaomeng Xu, Weihang Chen, Haocheng Yuan, He Wang, Jing Xu, Rui Chen, Li Yi(参考訳) 複雑なタスクを達成するために物体を操作するとき、人間は物体の6Dポーズを追跡するために視覚と触覚の両方に依存する。 しかし、ロボット工学における既存の物体ポーズ追跡システムは視覚信号のみに依存しており、ロボットが物体を効果的に操作する能力を妨げる。 この制限に対処するため,触覚を付加した6DポーズトラッキングシステムであるTEG-Trackを導入する。 連続した触覚信号から、TEG-Trackは、滑り込みが起こらない場合のマーカーフローからの物体速度を最適化する。 推定された物体速度は、既存の視覚的ポーズトラッカーを強化するために幾何学的運動最適化スキームに統合される。 本手法の評価と今後の研究を容易にするため,視覚触覚オブジェクトのポーズトラッキングのための実世界のデータセットを構築した。 実験により,TEG-Trackは,合成および実世界のシナリオにおいて,最先端の一般化可能な6Dポーズトラッカーを一貫して強化することを示した。 私たちのコードとデータセットはhttps://github.com/leolyliu/teg-trackで利用可能です。

When manipulating an object to accomplish complex tasks, humans rely on both vision and touch to keep track of the object's 6D pose. However, most existing object pose tracking systems in robotics rely exclusively on visual signals, which hinder a robot's ability to manipulate objects effectively. To address this limitation, we introduce TEG-Track, a tactile-enhanced 6D pose tracking system that can track previously unseen objects held in hand. From consecutive tactile signals, TEG-Track optimizes object velocities from marker flows when slippage does not occur, or regresses velocities using a slippage estimation network when slippage is detected. The estimated object velocities are integrated into a geometric-kinematic optimization scheme to enhance existing visual pose trackers. To evaluate our method and to facilitate future research, we construct a real-world dataset for visual-tactile in-hand object pose tracking. Experimental results demonstrate that TEG-Track consistently enhances state-of-the-art generalizable 6D pose trackers in synthetic and real-world scenarios. Our code and dataset are available at https://github.com/leolyliu/TEG-Track.
翻訳日:2023-12-28 02:21:50 公開日:2023-12-23
# 生成分子設計モデルの多目的潜在空間最適化

Multi-Objective Latent Space Optimization of Generative Molecular Design Models ( http://arxiv.org/abs/2203.00526v2 )

ライセンス: Link先を確認
A N M Nafiz Abeer, Nathan Urban, M Ryan Weil, Francis J. Alexander, Byung-Jun Yoon(参考訳) 可変オートエンコーダ(VAE)のような生成モデルに基づく分子設計は、高次元の分子空間を探索して所望の特性を持つ分子を同定する効率性から、近年人気が高まっている。 初期モデルの有効性はトレーニングデータに強く依存するが、改良された特性を持つ新規分子を提案するモデルのサンプリング効率は、潜在空間最適化によってさらに向上することができる。 本稿では、生成分子設計(GMD)の性能を大幅に向上させる多目的潜在空間最適化(LSO)手法を提案する。 提案手法では, トレーニングデータの各分子の重み付けがPareto効率によって決定される反復重み付け再学習手法を採用する。 複数分子特性を共同最適化するための多目的GMD LSO法により, GMDの性能を大幅に向上できることを示す。

Molecular design based on generative models, such as variational autoencoders (VAEs), has become increasingly popular in recent years due to its efficiency for exploring high-dimensional molecular space to identify molecules with desired properties. While the efficacy of the initial model strongly depends on the training data, the sampling efficiency of the model for suggesting novel molecules with enhanced properties can be further enhanced via latent space optimization. In this paper, we propose a multi-objective latent space optimization (LSO) method that can significantly enhance the performance of generative molecular design (GMD). The proposed method adopts an iterative weighted retraining approach, where the respective weights of the molecules in the training data are determined by their Pareto efficiency. We demonstrate that our multi-objective GMD LSO method can significantly improve the performance of GMD for jointly optimizing multiple molecular properties.
翻訳日:2023-12-28 02:20:19 公開日:2023-12-23
# 合理化可能性への非結合バンディット学習:ベンチマーク、障壁、アルゴリズム

Uncoupled Bandit Learning towards Rationalizability: Benchmarks, Barriers, and Algorithms ( http://arxiv.org/abs/2111.05486v3 )

ライセンス: Link先を確認
Jibang Wu, Haifeng Xu, Fan Yao(参考訳) アンカップラーニング設定の下では、ナッシュ平衡に対する最終点収束保証は多くのゲームで不可能であることが示されている。 本研究は,nashと相関均衡の両方における厳密な信念仮定を緩和する認識ゲーム理論における鍵となる解概念である,合理化可能性に対する一般ゲームにおけるラストイテレート収束保証を考察する。 この学習課題は、合理的な行動プロファイルと反復的に支配される行動の排除との間の本質的な関係により、最適な腕識別問題を自然に一般化する。 一見単純な作業ですが、私たちの最初の主な結果は驚くほど否定的な結果です。つまり、重複平均アルゴリズムのファミリー全体を含む、後悔のない、大きくて自然なクラスは、合理化可能性に到達するために指数関数的に多くのラウンドを取ります。 さらに、noスワップ後悔の強いアルゴリズムも同様の指数関数的非効率に苦しむ。 これらの障壁を克服するために, Exp3 を Diminishing Historical rewards ( Exp3-DH と呼ぶ) で調整するアルゴリズムを開発した。 すべてのエージェントがExp3-DH(つまりマルチエージェント学習におけるセルフプレイ)を実行すると、反復的に支配されるアクションは多項式的に多くのラウンドで排除される。 我々の実験結果はExp3-DHの効率をさらに証明し、ゲームで学習するために開発された最先端のバンディットアルゴリズムでさえ、効果的に合理化できないことを示した。

Under the uncoupled learning setup, the last-iterate convergence guarantee towards Nash equilibrium is shown to be impossible in many games. This work studies the last-iterate convergence guarantee in general games toward rationalizability, a key solution concept in epistemic game theory that relaxes the stringent belief assumptions in both Nash and correlated equilibrium. This learning task naturally generalizes best arm identification problems, due to the intrinsic connections between rationalizable action profiles and the elimination of iteratively dominated actions. Despite a seemingly simple task, our first main result is a surprisingly negative one; that is, a large and natural class of no regret algorithms, including the entire family of Dual Averaging algorithms, provably take exponentially many rounds to reach rationalizability. Moreover, algorithms with the stronger no swap regret also suffer similar exponential inefficiency. To overcome these barriers, we develop a new algorithm that adjusts Exp3 with Diminishing Historical rewards (termed Exp3-DH); Exp3-DH gradually forgets history at carefully tailored rates. We prove that when all agents run Exp3-DH (a.k.a., self-play in multi-agent learning), all iteratively dominated actions can be eliminated within polynomially many rounds. Our experimental results further demonstrate the efficiency of Exp3-DH, and that state-of-the-art bandit algorithms, even those developed specifically for learning in games, fail to reach rationalizability efficiently.
翻訳日:2023-12-28 02:19:02 公開日:2023-12-23
# 非決定論的ハイブリッドシステムのためのサンプリングに基づく反応合成

Sampling-based Reactive Synthesis for Nondeterministic Hybrid Systems ( http://arxiv.org/abs/2304.06876v3 )

ライセンス: Link先を確認
Qi Heng Ho, Zachary N. Sunberg, Morteza Lahijanian(参考訳) 本稿では,時間的および到達可能性制約下で複雑な連続ダイナミクスを持つ非決定的ハイブリッドシステムに対するサンプリングに基づく戦略合成アルゴリズムを提案する。 我々は,ハイブリッドシステムの進化を2人プレイヤゲームとしてモデル化し,非決定性は時間的および到達可能性の目標達成を阻止することを目的とした敵プレイヤーである。 目的は、敵プレイヤーのあらゆる可能な動きの下でゴールの満足度を保証する、勝利戦略 - 反応性(ロバスト)戦略を合成することである。 提案手法は,サンプリングに基づくモーションプランニングと,部分的戦略の選択と改善のための新しいバンディットベース手法を組み合わせることで,ハイブリッド空間における(検索)ゲームツリーを育成するものである。 アルゴリズムが確率的に完全であることを示す。つまり、もし存在するならば、アルゴリズムは漸近的に勝利戦略を見つける。 ケーススタディとベンチマークの結果から,本アルゴリズムは汎用的かつ効果的であり,artアルゴリズムの状態を一貫して上回っていることが示された。

This paper introduces a sampling-based strategy synthesis algorithm for nondeterministic hybrid systems with complex continuous dynamics under temporal and reachability constraints. We model the evolution of the hybrid system as a two-player game, where the nondeterminism is an adversarial player whose objective is to prevent achieving temporal and reachability goals. The aim is to synthesize a winning strategy -- a reactive (robust) strategy that guarantees the satisfaction of the goals under all possible moves of the adversarial player. Our proposed approach involves growing a (search) game-tree in the hybrid space by combining sampling-based motion planning with a novel bandit-based technique to select and improve on partial strategies. We show that the algorithm is probabilistically complete, i.e., the algorithm will asymptotically almost surely find a winning strategy, if one exists. The case studies and benchmark results show that our algorithm is general and effective, and consistently outperforms state of the art algorithms.
翻訳日:2023-12-28 02:12:04 公開日:2023-12-23
# 無限温度貯水池と相互作用する二段階系の脱コヒーレンスと緩和の相互作用

Interplay of decoherence and relaxation in a two-level system interacting with an infinite-temperature reservoir ( http://arxiv.org/abs/2303.11870v3 )

ライセンス: Link先を確認
Jiaozi Wang, Jochen Gemmer(参考訳) 本研究では,浴槽と接触する単一キュービットの時間発展を投影演算子法の枠組みの中で検討する。 エネルギー保存相互作用を非摂動的に扱ういわゆる修正レッドフィールド理論を応用し、通常のアプローチの範囲を超えた状態を研究することができる。 量子ビットの運動量の減少方程式は、バスとシステム-バスの相互作用がガウス分布のランダム行列によってモデル化される理想主義系で導出される。 強脱コヒーレンス系では, エネルギー保存相互作用によって引き起こされる脱コヒーレンス過程と浴の相関関数の単純な関係がみられた。 これは、相互作用を保存するエネルギーが緩和過程を遅くし、十分に強いとゼノが凍ることを意味する。 さらに, 数値シミュレーションでも実験結果が確認された。

We study the time evolution of a single qubit in contact with a bath, within the framework of projection operator methods. Employing the so-called modified Redfield theory which also treats energy conserving interactions non-perturbatively, we are able to study the regime beyond the scope of the ordinary approach. Reduced equations of motion for the qubit are derived in a idealistic system where both the bath and system-bath interactions are modeled by Gaussian distributed random matrices. In the strong decoherence regime, a simple relation between the bath correlation function and the decoherence process induced by the energy conserving interaction is found. It implies that energy conserving interactions slow down the relaxation process, which leads to a zeno freezing if they are sufficiently strong. Furthermore, our results are also confirmed in numerical simulations.
翻訳日:2023-12-28 02:11:31 公開日:2023-12-23
# muscleMap: 野生におけるビデオベースの活性化筋群推定を目指して

MuscleMap: Towards Video-based Activated Muscle Group Estimation in the Wild ( http://arxiv.org/abs/2303.00952v3 )

ライセンス: Link先を確認
Kunyu Peng, David Schneider, Alina Roitberg, Kailun Yang, Jiaming Zhang, Chen Deng, Kaiyu Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen(参考訳) 本稿では,野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。 この目的のために、135の異なるアクティビティと20のラベル付き筋群を持つ15Kビデオクリップを特徴とする、筋マップデータセットを提供する。 このデータセットは、フレキシブルな環境制約の下でスポーツやリハビリテーション医療において、複数のビデオベースのアプリケーションにビスタを開放する。 musclemapデータセットはyoutubeビデオで構築されており、特に野生のhiit(high-intensity interval training)身体運動を対象としている。 AMGEモデルを現実の状況に適用するためには、トレーニング中に存在しない多くの身体活動と、新しい活性化筋の組み合わせを伴ってモデルを適切に一般化することが不可欠である。 これを実現するために,本ベンチマークでは,モデルがトレーニングセットから除外されたアクティビティタイプに露出する評価設定についても取り上げている。 実験の結果,AMGEタスクに適応した既存アーキテクチャの汎用性は依然として課題であることがわかった。 そこで本研究では,ビデオトランスモデルとスケルトンに基づくグラフ畳み込みモデルと,多分類トークン上で実行される新しいクロスモーダル知識蒸留を用いたマルチモーダル特徴融合機構を用いたTransM3Eを提案する。 提案手法は,従来の身体活動と新しい身体活動の両方を扱う場合,すべての人気ビデオ分類モデルを上回る。 投稿されたデータセットとコードはhttps://github.com/KPeng9510/MuscleMapで公開されている。

In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying active muscle regions during physical activity in the wild. To this intent, we provide the MuscleMap dataset featuring >15K video clips with 135 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine under flexible environment constraints. The proposed MuscleMap dataset is constructed with YouTube videos, specifically targeting High-Intensity Interval Training (HIIT) physical exercise in the wild. To make the AMGE model applicable in real-life situations, it is crucial to ensure that the model can generalize well to numerous types of physical activities not present during training and involving new combinations of activated muscles. To achieve this, our benchmark also covers an evaluation setting where the model is exposed to activity types excluded from the training set. Our experiments reveal that the generalizability of existing architectures adapted for the AMGE task remains a challenge. Therefore, we also propose a new approach, TransM3E, which employs a multi-modality feature fusion mechanism between both the video transformer model and the skeleton-based graph convolution model with novel cross-modal knowledge distillation executed on multi-classification tokens. The proposed method surpasses all popular video classification models when dealing with both, previously seen and new types of physical activities. The contributed dataset and code are made publicly available at https://github.com/KPeng9510/MuscleMap.
翻訳日:2023-12-28 02:11:16 公開日:2023-12-23
# 非定常帯域学習の情報理論解析

An Information-Theoretic Analysis of Nonstationary Bandit Learning ( http://arxiv.org/abs/2302.04452v2 )

ライセンス: Link先を確認
Seungki Min, Daniel Russo(参考訳) 非定常的バンディット学習問題では、意思決定者は継続的に情報を収集し、環境の潜伏状態が発展するにつれて行動選択を適用する必要がある。 それぞれの期間において、潜在的な最適行動は、環境状態下での期待報酬を最大化する。 最適な動作シーケンスを確率的プロセスとみなし、情報理論を用いて達成可能な性能を解析する。 我々は, 最適作用過程のエントロピー率の観点から, 周期毎の後悔を制限する。 この境界は、文献で研究された幅広い問題に適用され、その情報比を通じて問題の情報構造を反映する。

In nonstationary bandit learning problems, the decision-maker must continually gather information and adapt their action selection as the latent state of the environment evolves. In each time period, some latent optimal action maximizes expected reward under the environment state. We view the optimal action sequence as a stochastic process, and take an information-theoretic approach to analyze attainable performance. We bound limiting per-period regret in terms of the entropy rate of the optimal action process. The bound applies to a wide array of problems studied in the literature and reflects the problem's information structure through its information-ratio.
翻訳日:2023-12-28 02:10:54 公開日:2023-12-23
# 畳み込み強化学習による偏微分方程式の分散制御

Distributed Control of Partial Differential Equations Using Convolutional Reinforcement Learning ( http://arxiv.org/abs/2301.10737v2 )

ライセンス: Link先を確認
Sebastian Peitz, Jan Stenner, Vikas Chidananda, Oliver Wallscheid, Steven L. Brunton, Kunihiko Taira(参考訳) 本稿では,偏微分方程式(pdes)によって制御される力学系の分散強化学習制御のための計算労力を著しく削減する畳み込みフレームワークを提案する。 高次元分散制御問題は, 同一の非結合エージェントが多数存在する多エージェント制御問題に変換できる。 さらに、多くの場合、情報が有限速度で輸送されるという事実を用いて、pdeの状態空間上の畳み込み演算を用いてエージェントの環境の次元を劇的に削減することができる。 この設定では、複雑度はカーネル幅を介して柔軟に調整するか、ストライドを1より大きくすることで調整することができる。 さらに、小さなシステムから大きなシステムへのスケーリング -- あるいは異なるドメイン間の転送 -- は、ほんの少しの労力で簡単なタスクになります。 低次元の深部決定論的ポリシー勾配エージェントを最小の計算資源で訓練することにより安定化を実現するため,いくつかのpde例を用いて,提案フレームワークの性能を示す。

We present a convolutional framework which significantly reduces the complexity and thus, the computational effort for distributed reinforcement learning control of dynamical systems governed by partial differential equations (PDEs). Exploiting translational invariances, the high-dimensional distributed control problem can be transformed into a multi-agent control problem with many identical, uncoupled agents. Furthermore, using the fact that information is transported with finite velocity in many cases, the dimension of the agents' environment can be drastically reduced using a convolution operation over the state space of the PDE. In this setting, the complexity can be flexibly adjusted via the kernel width or by using a stride greater than one. Moreover, scaling from smaller to larger systems -- or the transfer between different domains -- becomes a straightforward task requiring little effort. We demonstrate the performance of the proposed framework using several PDE examples with increasing complexity, where stabilization is achieved by training a low-dimensional deep deterministic policy gradient agent using minimal computing resources.
翻訳日:2023-12-28 02:09:41 公開日:2023-12-23
# ランダム化による厳密な選択推論

Exact Selective Inference with Randomization ( http://arxiv.org/abs/2212.12940v4 )

ライセンス: Link先を確認
Snigdha Panigrahi, Kevin Fry, Jonathan Taylor(参考訳) ランダム化を伴う正確な選択推論のためのピボットを導入する。 私たちのピボットはガウス回帰モデルにおいて正確な推論をもたらすだけでなく、閉じた形式でも利用できる。 我々は、二変量 truncated Gaussian 分布に対する厳密な選択推論の問題を削減する。 これにより、パニグラヒとテイラー(2022年)の近似最大推定で達成されるいくつかのパワーを諦める。 しかし、我々のピボットは常に、密接に関連するデータ分割手順よりも信頼区間を狭める。 シミュレーションデータセットとHIV薬剤耐性データセットにおけるパワーと正確な選択的推論のトレードオフについて検討する。

We introduce a pivot for exact selective inference with randomization. Not only does our pivot lead to exact inference in Gaussian regression models, but it is also available in closed form. We reduce the problem of exact selective inference to a bivariate truncated Gaussian distribution. By doing so, we give up some power that is achieved with approximate maximum likelihood estimation in Panigrahi and Taylor (2022). Yet our pivot always produces narrower confidence intervals than a closely related data splitting procedure. We investigate the trade-off between power and exact selective inference on simulated datasets and an HIV drug resistance dataset.
翻訳日:2023-12-28 02:09:23 公開日:2023-12-23
# ブラックボックス機械学習モデルのための一般化可変重要度指標と推定器

A Generalized Variable Importance Metric and Estimator for Black Box Machine Learning Models ( http://arxiv.org/abs/2212.09931v3 )

ライセンス: Link先を確認
Mohammad Kaviul Anam Khan, Olli Saarela and Rafal Kustra(参考訳) 本稿では,モデルベースパラメータで表現されないブラックボックス機械学習手法における予測器の重要性を測定するために,集団パラメータである `` Generalized Variable Importance Metric (GVIM)' を定義した。 GVIMは、真の条件付き期待関数を使用して、各入力変数に対して定義され、連続またはバイナリ応答に影響を与える変数の重要性を測定する。 我々は,定義したGVIMが任意の種類の予測器に対する条件平均処理効果(CATE)の関数として表現できることを示し,単純なパラメトリックモデルでのみ利用できる古典的意義尺度の代替として因果的解釈とさらなる正当化を与える。 共変量と結果の現実的な複雑な関係と様々な複雑性の回帰手法を用いたシミュレーションは,提案したGVIM推定器の性能を示している。

In this paper we define a population parameter, ``Generalized Variable Importance Metric (GVIM)'', to measure importance of predictors for black box machine learning methods, where the importance is not represented by model-based parameter. GVIM is defined for each input variable, using the true conditional expectation function, and it measures the variable's importance in affecting a continuous or a binary response. We extend previously published results to show that the defined GVIM can be represented as a function of the Conditional Average Treatment Effect (CATE) for any kind of a predictor, which gives it a causal interpretation and further justification as an alternative to classical measures of significance that are only available in simple parametric models. Extensive set of simulations using realistically complex relationships between covariates and outcomes and number of regression techniques of varying degree of complexity show the performance of our proposed estimator of the GVIM.
翻訳日:2023-12-28 02:09:14 公開日:2023-12-23
# OpenGSL: グラフ構造学習のための総合ベンチマーク

OpenGSL: A Comprehensive Benchmark for Graph Structure Learning ( http://arxiv.org/abs/2306.10280v4 )

ライセンス: Link先を確認
Zhiyao Zhou, Sheng Zhou, Bochao Mao, Xuanyi Zhou, Jiawei Chen, Qiaoyu Tan, Daochen Zha, Yan Feng, Chun Chen, Can Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフトポロジとノード属性を効果的に統合する能力のため、グラフ上での表現学習のデファクトスタンダードとして登場した。 しかし、グラフの複雑で連続的な生成過程から生じるノード接続の固有な最適部分性質は、それらを効果的にモデル化する上で大きな課題を提起する。 この問題に対処するために、データ中心の学習アプローチのファミリであるグラフ構造学習(GSL)が近年注目を集めている。 GSLの中核となる概念は、グラフ構造と対応するGNNモデルを協調的に最適化することである。 多くのGSL手法の提案にもかかわらず、データセットのバリエーション、データ処理技術、分割戦略など、一貫性のない実験プロトコルのため、この分野の進展はいまだ不明である。 本稿では,このギャップに対処することを目的とした,GSLの最初の総合ベンチマークであるOpenGSLを紹介する。 OpenGSLは、均一なデータ処理と分割戦略を使用して、様々な一般的なデータセットで評価することで、最先端のGSLメソッドの公平な比較を可能にする。 広範な実験により、既存のGSL法はバニラGNN法よりも一貫して優れているわけではないことが観察された。 また,学習構造と課題性能との間には有意な相関関係が見られず,共通の信念に異議を唱えている。 さらに,学習したグラフ構造は,高い計算量と空間消費にもかかわらず,異なるGNNモデル間で強力な一般化能力を示す。 当社のオープンソースライブラリは,迅速かつ公平な評価を促進するとともに,この分野におけるさらなる革新的な研究を促すことを願っている。 ベンチマークのコードはhttps://github.com/OpenGSL/OpenGSLで確認できる。

Graph Neural Networks (GNNs) have emerged as the de facto standard for representation learning on graphs, owing to their ability to effectively integrate graph topology and node attributes. However, the inherent suboptimal nature of node connections, resulting from the complex and contingent formation process of graphs, presents significant challenges in modeling them effectively. To tackle this issue, Graph Structure Learning (GSL), a family of data-centric learning approaches, has garnered substantial attention in recent years. The core concept behind GSL is to jointly optimize the graph structure and the corresponding GNN models. Despite the proposal of numerous GSL methods, the progress in this field remains unclear due to inconsistent experimental protocols, including variations in datasets, data processing techniques, and splitting strategies. In this paper, we introduce OpenGSL, the first comprehensive benchmark for GSL, aimed at addressing this gap. OpenGSL enables a fair comparison among state-of-the-art GSL methods by evaluating them across various popular datasets using uniform data processing and splitting strategies. Through extensive experiments, we observe that existing GSL methods do not consistently outperform vanilla GNN counterparts. We also find that there is no significant correlation between the homophily of the learned structure and task performance, challenging the common belief. Moreover, we observe that the learned graph structure demonstrates a strong generalization ability across different GNN models, despite the high computational and space consumption. We hope that our open-sourced library will facilitate rapid and equitable evaluation and inspire further innovative research in this field. The code of the benchmark can be found in https://github.com/OpenGSL/OpenGSL.
翻訳日:2023-12-28 02:00:31 公開日:2023-12-23
# 量子電流とホログラフィック圏対称性

Quantum Current and Holographic Categorical Symmetry ( http://arxiv.org/abs/2305.12917v3 )

ライセンス: Link先を確認
Tian Lan and Jing-Ren Zhou(参考訳) 我々は量子電流の定式化を確立する。 対称群 $g$ が与えられたとき、$\mathcal{c}:=\mathrm{rep} g$ をその表現圏とする。 物理的には、対称性電荷は $\mathcal{c}$ の対象であり、対称作用素は $\mathcal{c}$ の射である。 電荷の付加は表現のテンソル積によって与えられる。 2つのサブシステムを通過する任意の対称作用素 $o$ に対して、$o$ で転送される正確な対称性電荷を抽出することができる。 量子電流は、任意の長距離にわたって対称性電荷を輸送できる対称作用素として定義される。 量子電流は、ドリンフェルト中心$Z_1(\mathcal{C})$の物体と正確に一致する。 超伝導となる量子電流の条件も指定され、これは1つの高次元のアノンの凝縮に対応する。 局所保存を表現するために、内部ホムは電荷差を計算するために使われなければならず、濃縮圏の枠組みは避けられない。 これらの概念を説明するために, 1次元格子系における再正規化の厳密なスキームを開発し, 固定点モデルの解析を行う。 固定点モデルでは、超伝導量子電流は$z_1(\mathcal{c})$でラグランジアン代数を形成し、境界-バルク対応は豊かな設定で検証される。 全体として、量子電流はホログラフィック圏対称性の自然な物理的解釈を与える。

We establish the formulation for quantum current. Given a symmetry group $G$, let $\mathcal{C}:=\mathrm{Rep} G$ be its representation category. Physically, symmetry charges are objects of $\mathcal{C}$ and symmetric operators are morphisms in $\mathcal{C}$. The addition of charges is given by the tensor product of representations. For any symmetric operator $O$ crossing two subsystems, the exact symmetry charge transported by $O$ can be extracted. The quantum current is defined as symmetric operators that can transport symmetry charges over an arbitrary long distance. A quantum current exactly corresponds to an object in the Drinfeld center $Z_1(\mathcal{C})$. The condition for quantum currents to be superconducting is also specified, which corresponds to condensation of anyons in one higher dimension. To express the local conservation, the internal hom must be used to compute the charge difference, and the framework of enriched category is inevitable. To illustrate these ideas, we develop a rigorous scheme of renormalization in one-dimensional lattice systems and analyse the fixed-point models. It is proved that in the fixed-point models, superconducting quantum currents form a Lagrangian algebra in $Z_1(\mathcal{C})$ and the boundary-bulk correspondence is verified in the enriched setting. Overall, the quantum current provides a natural physical interpretation to the holographic categorical symmetry.
翻訳日:2023-12-28 01:58:17 公開日:2023-12-23
# 二元分類における代理リスクの逆整合性

The Adversarial Consistency of Surrogate Risks for Binary Classification ( http://arxiv.org/abs/2305.09956v3 )

ライセンス: Link先を確認
Natalie Frank and Jonathan Niles-Weed(参考訳) 頑健な二分分類のための代理リスクの整合性について検討する。 逆行訓練によってロバストな分類法を学ぶことは一般的であり、各例が小さなボール内で悪質に破損した場合、予想される0$-$1$損失を最小限に抑える。 すなわち、任意のデータ分布に対して、元の敵のリスクの最小化シーケンスに影響を与えることなく、$0〜$$の損失を置き換えることができる。 また、$\rho$-marginの損失に対する逆整合性の定量的バージョンも証明します。 本結果から, 逆一貫したサロゲートのクラスは, 多くの共通サロゲートが整合であることが知られている標準設定よりもかなり小さいことが明らかとなった。

We study the consistency of surrogate risks for robust binary classification. It is common to learn robust classifiers by adversarial training, which seeks to minimize the expected $0$-$1$ loss when each example can be maliciously corrupted within a small ball. We give a simple and complete characterization of the set of surrogate loss functions that are \emph{consistent}, i.e., that can replace the $0$-$1$ loss without affecting the minimizing sequences of the original adversarial risk, for any data distribution. We also prove a quantitative version of adversarial consistency for the $\rho$-margin loss. Our results reveal that the class of adversarially consistent surrogates is substantially smaller than in the standard setting, where many common surrogates are known to be consistent.
翻訳日:2023-12-28 01:57:59 公開日:2023-12-23
# 強化学習を用いたハイブリッド電気自動車のエネルギー管理の最近の進歩

Recent Progress in Energy Management of Connected Hybrid Electric Vehicles Using Reinforcement Learning ( http://arxiv.org/abs/2308.14602v2 )

ライセンス: Link先を確認
Min Hua, Bin Shuai, Quan Zhou, Jinhai Wang, Yinglong He, Hongming Xu(参考訳) ハイブリッド電気自動車(hev)の普及は、輸送エネルギーシステムに革命をもたらす転換的な機会をもたらす。 電気輸送へのシフトは、化石燃料消費に関する環境問題を抑制することを目的としている。 これはエネルギー効率を最適化するために効率的なエネルギー管理システム(EMS)を必要とする。 HEVからコネクテッドハイブリッド電気自動車(CHEV)へのEMSの進化は、重要なシフトを示している。 HEVにとって、EMSはCHEVの複雑なエネルギー協力要件に直面し、経路最適化、充電調整、負荷分散のための高度なアルゴリズムを必要とする。 HEVの最適エネルギー利用、さまざまな車種にわたるCHEVの協調的エコ自動運転制御(CED)など、両方の領域で課題が続いている。 強化学習(RL)はこれらの課題に対処するための有望なツールである。 特に、CHEVの領域内では、CED制御の複雑さに効果的に取り組むための強力なアプローチとしてマルチエージェント強化学習(MARL)の応用が出現する。 広範な研究にもかかわらず、個々の車両から複数車両シナリオまでのレビューは少ない。 このレビューは、将来の持続可能な輸送システムに対するRLベースのソリューションのギャップを橋渡しし、課題、進歩、潜在的貢献を明らかにする。

The growing adoption of hybrid electric vehicles (HEVs) presents a transformative opportunity for revolutionizing transportation energy systems. The shift towards electrifying transportation aims to curb environmental concerns related to fossil fuel consumption. This necessitates efficient energy management systems (EMS) to optimize energy efficiency. The evolution of EMS from HEVs to connected hybrid electric vehicles (CHEVs) represent a pivotal shift. For HEVs, EMS now confronts the intricate energy cooperation requirements of CHEVs, necessitating advanced algorithms for route optimization, charging coordination, and load distribution. Challenges persist in both domains, including optimal energy utilization for HEVs, and cooperative eco-driving control (CED) for CHEVs across diverse vehicle types. Reinforcement learning (RL) stands out as a promising tool for addressing these challenges. Specifically, within the realm of CHEVs, the application of multi-agent reinforcement learning (MARL) emerges as a powerful approach for effectively tackling the intricacies of CED control. Despite extensive research, few reviews span from individual vehicles to multi-vehicle scenarios. This review bridges the gap, highlighting challenges, advancements, and potential contributions of RL-based solutions for future sustainable transportation systems.
翻訳日:2023-12-28 01:49:35 公開日:2023-12-23
# 制約付きシュタイン変分軌道最適化

Constrained Stein Variational Trajectory Optimization ( http://arxiv.org/abs/2308.12110v2 )

ライセンス: Link先を確認
Thomas Power and Dmitry Berenson(参考訳) 本稿では,一連のトラジェクトリに制約を加えてトラジェクトリ最適化を行うアルゴリズムであるConstrained Stein Variational Trajectory Optimization (CSVTO)を提案する。 軌道分布に対する制約付き関数最小化の新たな形式として制約付き軌道最適化を行い,制約を目的のペナルティとして扱うことを避け,制約を満たす軌道の多様な集合を生成する。 提案手法では,制約に従いながら,低コスト軌道上の分布を近似する粒子の集合を見つけるために,Stein Variational Gradient Descent (SVGD) を用いる。 CSVTOは任意の等式と不等式制約を持つ問題に適用でき、局所最小値から逃れるための新しい粒子再サンプリングステップを含む。 多様な軌道の集合を明示的に生成することにより、CSVTOは局所的な最小値の低さを回避でき、初期化に対してより堅牢である。 CSVTOは、7DoFレンチ操作タスクのような高度に制約されたタスクにおいてベースラインよりも優れており、最も近いベースラインでは20/20でCSVTOが13/20で成功している。 本研究は,多種多様な制約満足軌道の生成により,障害に対する堅牢性やベースラインに対する初期化が向上することを示す。

We present Constrained Stein Variational Trajectory Optimization (CSVTO), an algorithm for performing trajectory optimization with constraints on a set of trajectories in parallel. We frame constrained trajectory optimization as a novel form of constrained functional minimization over trajectory distributions, which avoids treating the constraints as a penalty in the objective and allows us to generate diverse sets of constraint-satisfying trajectories. Our method uses Stein Variational Gradient Descent (SVGD) to find a set of particles that approximates a distribution over low-cost trajectories while obeying constraints. CSVTO is applicable to problems with arbitrary equality and inequality constraints and includes a novel particle resampling step to escape local minima. By explicitly generating diverse sets of trajectories, CSVTO is better able to avoid poor local minima and is more robust to initialization. We demonstrate that CSVTO outperforms baselines in challenging highly-constrained tasks, such as a 7DoF wrench manipulation task, where CSVTO succeeds in 20/20 trials vs 13/20 for the closest baseline. Our results demonstrate that generating diverse constraint-satisfying trajectories improves robustness to disturbances and initialization over baselines.
翻訳日:2023-12-28 01:48:19 公開日:2023-12-23
# stofnet: フライトネットワークの超解像時間

StofNet: Super-resolution Time of Flight Network ( http://arxiv.org/abs/2308.12009v2 )

ライセンス: Link先を確認
Christopher Hahne, Michel Hayoz, Raphael Sznitman(参考訳) Time of Flight (ToF) は、ロボット工学、医用画像、非破壊検査の分野で広く使われている深度検知技術である。 しかし、ToFセンサーは、スパース時間情報から逆モデリングを行う複雑な環境条件の課題に直面している。 本稿では,様々な環境を学習し,信頼性と高精度なToF検出技術の可能性を明らかにする。 既存のモデルとは異なり、超解像と効率的な残留収縮ブロックを組み合わせることで、詳細な信号詳細と大規模文脈情報とのバランスをとることで、サブサンプルの正確な半グローバル信号の局在化のためのアーキテクチャを調整します。 ToFの研究は、公開データセットを2つ採用する6つの最先端手法に対してベンチマーク比較を行うことで集約する。 これには、空中超音波トランスデューサによってキャプチャされたSToF-Chirpデータセットのリリースも含まれます。 その結果,提案するsofnetの精度,信頼性,モデルの複雑さにおいて,優れた性能を示すことができた。 私たちのコードはhttps://github.com/hahnec/stofnetで利用可能です。

Time of Flight (ToF) is a prevalent depth sensing technology in the fields of robotics, medical imaging, and non-destructive testing. Yet, ToF sensing faces challenges from complex ambient conditions making an inverse modelling from the sparse temporal information intractable. This paper highlights the potential of modern super-resolution techniques to learn varying surroundings for a reliable and accurate ToF detection. Unlike existing models, we tailor an architecture for sub-sample precise semi-global signal localization by combining super-resolution with an efficient residual contraction block to balance between fine signal details and large scale contextual information. We consolidate research on ToF by conducting a benchmark comparison against six state-of-the-art methods for which we employ two publicly available datasets. This includes the release of our SToF-Chirp dataset captured by an airborne ultrasound transducer. Results showcase the superior performance of our proposed StofNet in terms of precision, reliability and model complexity. Our code is available at https://github.com/hahnec/stofnet.
翻訳日:2023-12-28 01:47:54 公開日:2023-12-23
# ホーキング放射のエントロピーのゆらぎ

Fluctuations in the Entropy of Hawking Radiation ( http://arxiv.org/abs/2307.13920v3 )

ライセンス: Link先を確認
Raphael Bousso, Masamichi Miyaji(参考訳) 我々は、Penington \emph{et al} が導入した二次元モデルを用いて、ページ曲線の周りのホーキング放射エントロピーのゆらぎを計算するために重力経路積分(GPI)を用いる。 ページタイムの前には、$\delta s = e^{-s}/\sqrt{2}$ が発見され、ここで$s$ はブラックホールエントロピーである。 この結果は二成分系におけるhaar平均エントロピーゆらぎと一致し、これも先行順序で計算する。 ページ時間後、$\delta S \sim e^{-S}$は、マイクロカノニカルエネルギーウィンドウの幅に対数的に依存するプレファクターになる。 これはサブシステムのサイズの交換では対称ではないので、固定ヒルベルト空間次元のサブシステムに対するハール平均とは一致しない。 この差は、ブラックホールヒルベルト空間次元が状態準備によって固定されないという事実に起因し得る: トップハットのスミア機能を持つマイクロカノニカルアンサンブルにおいても、GPIはブラックホール状態の数に付加的な変動をもたらす。 この結果と、GPIによって計算されたページ曲線が滑らかであるという事実は、すべてGPIのアンサンブル解釈に向かっている。

We use the gravitational path integral (GPI) to compute the fluctuations of the Hawking radiation entropy around the Page curve, in a two-dimensional model introduced by Penington \emph{et al}. Before the Page time, we find that $\delta S = e^{-S}/\sqrt{2}$, where $S$ is the black hole entropy. This result agrees with the Haar-averaged entropy fluctuations of a bipartite system, which we also compute at leading order. After the Page time, we find that $\delta S \sim e^{-S}$, up to a prefactor that depends logarithmically on the width of the microcanonical energy window. This is not symmetric under exchange of subsystem sizes and so does not agree with the Haar average for a subsystem of fixed Hilbert space dimension. The discrepancy can be attributed to the fact that the black hole Hilbert space dimension is not fixed by the state preparation: even in a microcanonical ensemble with a top-hat smearing function, the GPI yields an additive fluctuation in the number of black hole states. This result, and the fact that the Page curve computed by the GPI is smooth, all point towards an ensemble interpretation of the GPI.
翻訳日:2023-12-28 01:46:17 公開日:2023-12-23
# 独立性テストによる多変量正規性テスト

Testing multivariate normality by testing independence ( http://arxiv.org/abs/2311.11575v2 )

ライセンス: Link先を確認
Povilas Daniu\v{s}is(参考訳) そこで本研究では,kac-bernstein のキャラクタリゼーションに基づく単純な多変量正規性テストを提案する。 また,高次元データに対して,提案手法は代替手法よりも効率的である可能性が示唆された。 付随するコードリポジトリは \url{https://shorturl.at/rtuy5} にある。

We propose a simple multivariate normality test based on Kac-Bernstein's characterization, which can be conducted by utilising existing statistical independence tests for sums and differences of data samples. We also perform its empirical investigation, which reveals that for high-dimensional data, the proposed approach may be more efficient than the alternative ones. The accompanying code repository is provided at \url{https://shorturl.at/rtuy5}.
翻訳日:2023-12-28 01:37:28 公開日:2023-12-23
# カオス量子系におけるマイクロカノニカルトランケート作用素のユニタリ対称性の創発

Emergence of unitary symmetry of microcanonically truncated operators in chaotic quantum systems ( http://arxiv.org/abs/2310.20264v2 )

ライセンス: Link先を確認
Jiaozi Wang, Jonas Richter, Mats H. Lamann, Robin Steinigeweg, Jochen Gemmer, and Anatoly Dymarsky(参考訳) 本研究では, 固有状態熱化仮説を取り入れた行列要素の統計特性について, エネルギー固有基底で書かれ, 微小なマイクロカノニカルウィンドウに収まる観測値について検討した。 我々は、行列要素の特定のエネルギースケールの集合統計的性質が創発的ユニタリ対称性を示すという図を提唱した。 特に、このスケール以下では、マイクロカノニカル切断作用素のスペクトルは、容易にテスト可能な基準を導入する普遍的な振る舞いを示す。 この図を数値シミュレーションにより支援し、カオス多体量子系における全ての考慮された作用素に対する創発的ユニタリ対称性スケールの存在を実証する。 我々は,このエネルギースケールの演算子とシステムサイズ依存性について論じ,狭義のエネルギー窓におけるランダム行列挙動の出現を探求する過去の研究の文脈を考察した。

We study statistical properties of matrix elements entering the eigenstate thermalization hypothesis by studying the observables written in the energy eigenbasis and truncated to small microcanonical windows. We put forward a picture, that below certain energy scale collective statistical properties of matrix elements exhibit emergent unitary symmetry. In particular, below this scale the spectrum of the microcanonically truncated operator exhibits universal behavior for which we introduce readily testable criteria. We support this picture by numerical simulations and demonstrate existence of emergent unitary symmetry scale for all considered operators in chaotic many-body quantum systems. We discuss operator and system-size dependence of this energy scale and put our findings into context of previous works exploring emergence of random-matrix behavior in narrow energy windows.
翻訳日:2023-12-28 01:37:21 公開日:2023-12-23
# トポロジーアウェア不均質フェデレーションエッジ学習におけるノイズチャネル上の情報理論一般化解析

Information-Theoretic Generalization Analysis for Topology-aware Heterogeneous Federated Edge Learning over Noisy Channels ( http://arxiv.org/abs/2310.16407v3 )

ライセンス: Link先を確認
Zheshun Wu, Zenglin Xu, Hongfang Yu, Jie Liu(参考訳) エッジインテリジェンス(エッジインテリジェンス)の急速な成長に伴い、無線ネットワーク上でのフェデレーション学習(FL)の展開は、フェデレーションエッジラーニング(FEEL)と呼ばれる注目度が高まっている。 モバイル機器がノイズの多いチャネル上でモデルパラメータを送信し、多様な環境でデータを集めることは、トレーニングされたモデルの一般化に困難をもたらす。 さらに、デバイスはデバイス間通信を介して分散flを行うことができ、接続されたデバイスの通信トポロジーはモデルの一般化にも影響を及ぼす。 最近の理論的研究は、一般化分析を開発する際にこれらすべての効果をFEELに組み込むことを見落としている。 対照的に本研究は,データの不均一性とノイズチャネルの存在下でのトポロジー認識に対する情報論的一般化解析を提案する。 さらに,FedGMIR(Federated Global Mutual Information Reduction)と呼ばれる新たな正規化手法を提案する。 数値実験により,提案手法の有効性を検証し,その検証を行った。

With the rapid growth of edge intelligence, the deployment of federated learning (FL) over wireless networks has garnered increasing attention, which is called Federated Edge Learning (FEEL). In FEEL, both mobile devices transmitting model parameters over noisy channels and collecting data in diverse environments pose challenges to the generalization of trained models. Moreover, devices can engage in decentralized FL via Device-to-Device communication while the communication topology of connected devices also impacts the generalization of models. Most recent theoretical studies overlook the incorporation of all these effects into FEEL when developing generalization analyses. In contrast, our work presents an information-theoretic generalization analysis for topology-aware FEEL in the presence of data heterogeneity and noisy channels. Additionally, we propose a novel regularization method called Federated Global Mutual Information Reduction (FedGMIR) to enhance the performance of models based on our analysis. Numerical results validate our theoretical findings and provide evidence for the effectiveness of the proposed method.
翻訳日:2023-12-28 01:37:06 公開日:2023-12-23
# 任意のグラフ上の分散探索のための量子ウォークに基づくスキーム

A quantum walk-based scheme for distributed searching on arbitrary graphs ( http://arxiv.org/abs/2310.10451v2 )

ライセンス: Link先を確認
Mathieu Roget and Giuseppe Di Molfetta(参考訳) 離散時間量子ウォークは、量子セルオートマトンの単粒子セクタであることが知られている。 この数学的枠組みでの探索は、長い間コミュニティに関心を寄せてきた。 しかし、ほとんどの結果は正規グラフ上の空間探索を考える。 この研究は、任意のグラフ上のノードやエッジを探索するために設計された新しい量子ウォークベースの探索スキームを導入する。 副産物として、このような新しいモデルは、通常正規格子上で定義される量子セルセルオートマトンを量子匿名ネットワークに一般化し、分散量子コンピューティングのための物理学のような新しい数学的環境を可能にする。

A discrete time quantum walk is known to be the single-particle sector of a quantum cellular automaton. Searching in this mathematical framework has interested the community since a long time. However, most results consider spatial search on regular graphs. This work introduces a new quantum walk-based searching scheme, designed to search nodes or edges on arbitrary graphs. As byproduct, such new model allows to generalise quantum cellular automata, usually defined on regular grids, to quantum anonymous networks, allowing a new physics-like mathematical environment for distributed quantum computing.
翻訳日:2023-12-28 01:36:45 公開日:2023-12-23
# RF-ULM: 高周波超音波局在顕微鏡のための深層学習

RF-ULM: Deep Learning for Radio-Frequency Ultrasound Localization Microscopy ( http://arxiv.org/abs/2310.01545v2 )

ライセンス: Link先を確認
Christopher Hahne, Georges Chabouh, Arthur Chavignon, Olivier Couture, Raphael Sznitman(参考訳) 超音波局在顕微鏡(ulm)では、高分解能画像は連続したビームフォーミングフレーム間の造影剤粒子の正確な局在に依存する。 しかし、我々の研究は、遅延・サマービームフォーミングの過程がラジオ周波数(RF)データの可逆的低減につながるという大きな可能性を明らかにした。 RF波面内に埋め込まれたリッチなコンテキスト情報は、その双曲的な形状とフェーズを含み、ローカライゼーションシナリオに挑戦するディープニューラルネットワーク(DNN)を導くための大きな約束を提供する。 このデータをフル活用するために,RF信号中の散乱体を直接ローカライズする手法を提案する。 提案手法は、学習した特徴チャネルシャッフルを用いた独自の超解像DNNと、信頼性と正確な波面定位に適した新しい半グローバル畳み込みサンプリングブロックを含む。 さらに,rf と b モード座標空間のシームレスなマッピングを容易にする幾何学的点変換を導入する。 ulmに対するビームフォーミングの影響を理解するために,最先端技術 (sota) との比較を行い,本手法の有効性を検証する。 RFをトレーニングしたDNNによる生体内実験を行い,実世界の実用性を強調した。 その結果,rf-ulmは合成データと実データの間の領域ギャップを橋渡しし,精度と複雑さの面で大きな利点をもたらすことがわかった。 私たちの発見から幅広い研究コミュニティが恩恵を受けられるように、私たちのコードと関連するsomaメソッドはhttps://github.com/hahnec/rf-ulm.com/で利用可能です。

In Ultrasound Localization Microscopy (ULM),achieving high-resolution images relies on the precise localization of contrast agent particles across consecutive beam-formed frames. However, our study uncovers an enormous potential: The process of delay-and-sum beamforming leads to an irreversible reduction of Radio-Frequency (RF) data, while its implications for localization remain largely unexplored. The rich contextual information embedded within RF wavefronts, including their hyperbolic shape and phase, offers great promise for guiding Deep Neural Networks (DNNs) in challenging localization scenarios. To fully exploit this data, we propose to directly localize scatterers in RF signals. Our approach involves a custom super-resolution DNN using learned feature channel shuffling and a novel semi-global convolutional sampling block tailored for reliable and accurate wavefront localization. Additionally, we introduce a geometric point transformation that facilitates seamless mapping between RF and B-mode coordinate space. To understand the impact of beamforming on ULM, we validate the effectiveness of our method by conducting an extensive comparison with State-Of-The-Art (SOTA) techniques. We present the inaugural in vivo results from an RF-trained DNN, highlighting its real-world practicality. Our findings show that RF-ULM bridges the domain gap between synthetic and real datasets, offering a considerable advantage in terms of precision and complexity. To enable the broader research community to benefit from our findings, our code and the associated SOTA methods are made available at https://github.com/hahnec/rf-ulm.
翻訳日:2023-12-28 01:35:36 公開日:2023-12-23
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v5 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2023-12-28 01:34:00 公開日:2023-12-23
# 一般化パウリ安定化符号の2次元における位相次数抽出

Extracting topological orders of generalized Pauli stabilizer codes in two dimensions ( http://arxiv.org/abs/2312.11170v2 )

ライセンス: Link先を確認
Zijian Liang, Yijia Xu, Joseph T. Iosue, and Yu-An Chen(参考訳) 本稿では,2次元システムにおける一般化されたパウリ安定化符号からトポロジカルデータを抽出するアルゴリズムを提案する。 このアルゴリズムは$d$が非素数であるようなインスタンスを含む$\mathbb{z}_d$ quditsに適用する。 この能力により、$\mathbb{z}_d$ toric 符号と異なる位相的順序の識別が可能となり、それによってパウリ安定化符号の $\mathbb{z}_p$ qudits が $\mathbb{z}_p$ toric 符号と自明な安定化符号の有限コピーと等価であるという確立された定理を超えて範囲を広げることができる。 このアルゴリズムは、全てのエノンとその弦演算子を決定し、融合規則、トポロジカルスピン、ブレイディング統計の計算を可能にするように設計されている。 この方法は、位相的順序の同定をガウス的除去、エルミート正規形式、スミス正規形式のトランケートされたローラン多項式を含む計算問題に変換する。 さらにアルゴリズムは、量子誤り訂正符号を研究するための体系的なアプローチを提供する。 カラーコードから修正された自己双対CSS量子コードや、ダブルセミオントポロジ的順序や6セムトポロジ的順序を含む非CSS量子コードなど、様々なコードに適用する。

In this paper, we introduce an algorithm for extracting topological data from translation invariant generalized Pauli stabilizer codes in two-dimensional systems, focusing on the analysis of anyon excitations and string operators. The algorithm applies to $\mathbb{Z}_d$ qudits, including instances where $d$ is a nonprime number. This capability allows the identification of topological orders that may differ from $\mathbb{Z}_d$ toric codes, thereby extending the scope beyond the established theorem that Pauli stabilizer codes of $\mathbb{Z}_p$ qudits (with $p$ being a prime) are equivalent to finite copies of $\mathbb{Z}_p$ toric codes and trivial stabilizers. The algorithm is designed to determine all anyons and their string operators, enabling the computation of their fusion rules, topological spins, and braiding statistics. The method converts the identification of topological orders into computational tasks, including Gaussian elimination, the Hermite normal form, and the Smith normal form of truncated Laurent polynomials. Furthermore, the algorithm provides a systematic approach for studying quantum error-correcting codes. We apply it to various codes, such as self-dual CSS quantum codes modified from the color code and non-CSS quantum codes that contain the double semion topological order or the six-semion topological order.
翻訳日:2023-12-28 01:25:51 公開日:2023-12-23
# ChatGPTとポストテスト確率

ChatGPT and post-test probability ( http://arxiv.org/abs/2311.12188v4 )

ライセンス: Link先を確認
Samuel J. Weisenthal(参考訳) ChatGPTのような強化学習に基づく大規模言語モデルは、医療を含む多くの分野の人間専門家を支援する可能性があると考えられている。 しかし、chatgptの医療における重要なタスクを実行する能力には、形式的で確率的な医療診断推論という、ほとんど作業がない。 このタイプの推論は、例えば、テスト前確率をテスト後確率に更新するために使用される。 本研究では,ChatGPTのタスク実行能力について検討する。 特に、私たちはchatgptに医療診断にベイズルールを使う方法の例を示してもらいます。 私たちのプロンプトは、用語を使用するクエリから、純粋な確率(例えば、与えられたbとcの後方の要求)から、医療診断から用語を使用するクエリ(例えば、検査結果が与えられた後の新型コロナウイルスの確率を求める要求)まで様々です。 医療変数名の導入は、chatgptが犯すエラー数の増加にどのようにつながるかを示す。 また,この結果から,ChatGPTがエラーを部分的に回避する上で,プロンプトエンジニアリングをどのように利用できるかを示す。 我々は,最近の感度と特異性に関するコメンテータに照らして,その結果について考察する。 また,大規模言語モデルに対する新たな研究の方向性について述べる。

Reinforcement learning-based large language models, such as ChatGPT, are believed to have potential to aid human experts in many domains, including healthcare. There is, however, little work on ChatGPT's ability to perform a key task in healthcare: formal, probabilistic medical diagnostic reasoning. This type of reasoning is used, for example, to update a pre-test probability to a post-test probability. In this work, we probe ChatGPT's ability to perform this task. In particular, we ask ChatGPT to give examples of how to use Bayes rule for medical diagnosis. Our prompts range from queries that use terminology from pure probability (e.g., requests for a posterior of A given B and C) to queries that use terminology from medical diagnosis (e.g., requests for a posterior probability of Covid given a test result and cough). We show how the introduction of medical variable names leads to an increase in the number of errors that ChatGPT makes. Given our results, we also show how one can use prompt engineering to facilitate ChatGPT's partial avoidance of these errors. We discuss our results in light of recent commentaries on sensitivity and specificity. We also discuss how our results might inform new research directions for large language models.
翻訳日:2023-12-28 01:20:38 公開日:2023-12-23
# 認知症モニタリングと診断のための縦型マルチモーダルデータセット

A Longitudinal Multi-modal Dataset for Dementia Monitoring and Diagnosis ( http://arxiv.org/abs/2109.01537v2 )

ライセンス: Link先を確認
Dimitris Gkoumas, Bo Wang, Adam Tsakalidis, Maria Wolters, Arkaitz Zubiaga, Matthew Purver and Maria Liakata(参考訳) 認知症は、記憶、言語、行動を含む成人の認知機能に影響する。 MRIなどの標準的な診断バイオマーカーはコストがかかるが、神経心理学的検査は認知症発症の感度の問題に悩まされている。 言語と言語の分析は、認知症を診断し、モニターするための有望で非インタラクティブな技術として現れてきた。 現在、この方向の作業のほとんどは、人間のコミュニケーションのマルチモーダルな性質や日常的な会話の対話的な側面を無視している。 さらに、ほとんどの研究は、一貫した時系列データがないため、時間とともに認知状態の変化を無視する。 そこで本研究では, 健常者と認知症患者の2つの段階において, それぞれ28セッションにまたがる自然環境下で収集した, 細粒度長大な多モードコーパスについて紹介する。 コーパスは音声による会話で構成されており、そのサブセットは書き起こされ、タイプされた思考や、ペン・ストロークやキーストロークのような関連する言語外情報も書き起こされている。 本稿では,データ収集プロセスを説明し,コーパスを詳細に記述する。 さらに,2つのコホート,健康管理,認知症者に対する言語変化の経時的変化を捉えるためのベースラインを確立し,コーパスによって実現される今後の研究方向を概説する。

Dementia affects cognitive functions of adults, including memory, language, and behaviour. Standard diagnostic biomarkers such as MRI are costly, whilst neuropsychological tests suffer from sensitivity issues in detecting dementia onset. The analysis of speech and language has emerged as a promising and non-intrusive technology to diagnose and monitor dementia. Currently, most work in this direction ignores the multi-modal nature of human communication and interactive aspects of everyday conversational interaction. Moreover, most studies ignore changes in cognitive status over time due to the lack of consistent longitudinal data. Here we introduce a novel fine-grained longitudinal multi-modal corpus collected in a natural setting from healthy controls and people with dementia over two phases, each spanning 28 sessions. The corpus consists of spoken conversations, a subset of which are transcribed, as well as typed and written thoughts and associated extra-linguistic information such as pen strokes and keystrokes. We present the data collection process and describe the corpus in detail. Furthermore, we establish baselines for capturing longitudinal changes in language across different modalities for two cohorts, healthy controls and people with dementia, outlining future research directions enabled by the corpus.
翻訳日:2023-12-27 23:38:23 公開日:2023-12-23
# 受聴者による音声・環境音のマイラルショット音響イベント検出の提案

Proposal-based Few-shot Sound Event Detection for Speech and Environmental Sounds with Perceivers ( http://arxiv.org/abs/2107.13616v2 )

ライセンス: Link先を確認
Piper Wolters, Logan Sizemore, Chris Daw, Brian Hutchinson, Lauren Phillips(参考訳) 多くの応用は、キーワードスポッティング、医療観察、保存のための生体音響モニタリングなど、長い未編集の文書内で特定の音イベントを検出し、位置決めすることを含む。 ディープラーニングのテクニックはしばしば、これらのタスクの最先端を定めている。 しかし、ある種のイベントでは、そのようなモデルをトレーニングするラベル付きデータが不十分である。 本稿では,Perceiver アーキテクチャを用いた少数ショット音声イベント検出のための領域提案手法を提案する。 適切なベンチマークデータセットの欠如に動機づけられて,新たな2つの音声イベントローカライズデータセット,すなわち,有名人の音声クリップを音声イベントとして用いた"vox-case"と,環境音イベントを用いた"esc-case"を生成する。 提案手法は0.483と0.418 f1-scoreをそれぞれ達成し,これら2つのデータセット上で5ショット5ウェイタスクを実行する。 これらは72.5%と11.2%の相対的な改善であり、強力な提案なしの音声イベント検出ベースラインよりも優れている。

Many applications involve detecting and localizing specific sound events within long, untrimmed documents, including keyword spotting, medical observation, and bioacoustic monitoring for conservation. Deep learning techniques often set the state-of-the-art for these tasks. However, for some types of events, there is insufficient labeled data to train such models. In this paper, we propose a region proposal-based approach to few-shot sound event detection utilizing the Perceiver architecture. Motivated by a lack of suitable benchmark datasets, we generate two new few-shot sound event localization datasets: "Vox-CASE," using clips of celebrity speech as the sound event, and "ESC-CASE," using environmental sound events. Our highest performing proposed few-shot approaches achieve 0.483 and 0.418 F1-score, respectively, with 5-shot 5-way tasks on these two datasets. These represent relative improvements of 72.5% and 11.2% over strong proposal-free few-shot sound event detection baselines.
翻訳日:2023-12-27 23:38:02 公開日:2023-12-23
# 説明可能なAIにおける解釈可能な表現:理論から実践へ

Interpretable Representations in Explainable AI: From Theory to Practice ( http://arxiv.org/abs/2008.07007v3 )

ライセンス: Link先を確認
Kacper Sokol and Peter Flach(参考訳) 解釈可能な表現は、人工知能と機械学習アルゴリズムに基づくブラックボックス予測システムをターゲットにした多くの説明者のバックボーンである。 優れた予測性能に必要な低レベルのデータ表現を、説明的洞察を伝えるために使用される高度な人間知的な概念に変換する。 特に、説明タイプとその認知的複雑性は、解釈可能な表現によって直接制御され、特定のオーディエンスとユースケースをターゲットにすることができる。 しかし、解釈可能な表現の上に構築された多くの説明者は、その利点を軽視し、暗黙の仮定をしばしば持つデフォルトのソリューションに逆らう。 この問題に対処するために,人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。 表、画像、テキストデータに対してどのように運用されているかを示し、仮定、強度、弱点について議論し、中核となるビルディングブロックを特定し、設定とパラメータ化を精査する。 特に、この詳細な分析により、ブラックボックス予測に対する解釈可能な概念の影響を定量化するために線形モデルが使用される表データコンテキストにおいて、説明特性、デシデラタ、および(悪意のある)操作のスコープを特定できる。 本研究は,信頼に値する解釈可能な表現,特に表データ,例えば決定木,画像解釈可能な表現のセグメンテーション粒度やオクルージョン色に対する感度に対するクラス認識(教師あり)による離散化の利点を設計するための様々な推奨事項を導いた。

Interpretable representations are the backbone of many explainers that target black-box predictive systems based on artificial intelligence and machine learning algorithms. They translate the low-level data representation necessary for good predictive performance into high-level human-intelligible concepts used to convey the explanatory insights. Notably, the explanation type and its cognitive complexity are directly controlled by the interpretable representation, tweaking which allows to target a particular audience and use case. However, many explainers built upon interpretable representations overlook their merit and fall back on default solutions that often carry implicit assumptions, thereby degrading the explanatory power and reliability of such techniques. To address this problem, we study properties of interpretable representations that encode presence and absence of human-comprehensible concepts. We demonstrate how they are operationalised for tabular, image and text data; discuss their assumptions, strengths and weaknesses; identify their core building blocks; and scrutinise their configuration and parameterisation. In particular, this in-depth analysis allows us to pinpoint their explanatory properties, desiderata and scope for (malicious) manipulation in the context of tabular data where a linear model is used to quantify the influence of interpretable concepts on a black-box prediction. Our findings lead to a range of recommendations for designing trustworthy interpretable representations; specifically, the benefits of class-aware (supervised) discretisation of tabular data, e.g., with decision trees, and sensitivity of image interpretable representations to segmentation granularity and occlusion colour.
翻訳日:2023-12-27 23:37:08 公開日:2023-12-23
# 任意の時間連続進化に対する一般化量子速度制限

Generalised quantum speed limit for arbitrary time-continuous evolution ( http://arxiv.org/abs/2207.04124v2 )

ライセンス: Link先を確認
Dimpi Thakuria, Abhay Srivastav, Brij Mohan, Asmita Kumari, and Arun Kumar Pati(参考訳) 量子速度制限は、量子系が初期状態から与えられた力学の下で最終状態にどれだけ早く進化できるかを記述する。 ここで、量子力学の幾何学的アプローチを用いて任意の時間連続進化に対する一般化量子速度極限(gqsl)を導出する。 GQSLはユニタリ、非ユニタリ、完全正、非完全正、相対論的量子力学の量子系に適用できる。 これはよく知られた標準量子速度限界(QSL)、すなわち量子系がユニタリ時間進化するときにマンデルスタム-タム境界に還元される。 形式論を用いて、非エルミート量子系に対する量子速度限界を得る。 この結果を説明するために, 時間に依存しない非エルミート系と, 時間に依存しない非エルミート系, bethe-lamb hamiltonian for general two-level system の量子速度限界を推定した。

The quantum speed limit describes how quickly a quantum system can evolve in time from an initial state to a final state under a given dynamics. Here, we derive a generalised quantum speed limit (GQSL) for arbitrary time-continuous evolution using the geometrical approach of quantum mechanics. The GQSL is applicable for quantum systems undergoing unitary, non-unitary, completely positive, non-completely positive and relativistic quantum dynamics. This reduces to the well known standard quantum speed limit (QSL), i.e., the Mandelstam-Tamm bound when the quantum system undergoes unitary time evolution. Using our formalism, we then obtain a quantum speed limit for non-Hermitian quantum systems. To illustrate our findings, we have estimated the quantum speed limit for a time-independent non-Hermitian system as well as for a time-dependent non-Hermitian system namely the Bethe-Lamb Hamiltonian for general two-level system.
翻訳日:2023-12-27 23:29:49 公開日:2023-12-23
# FairIF: 評価セットによる影響関数による深層学習の公平性向上

FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes ( http://arxiv.org/abs/2201.05759v2 )

ライセンス: Link先を確認
Haonan Wang, Ziwei Wu, Jingrui He(参考訳) 最も公平な機械学習手法は、トレーニングサンプルのセンシティブな情報に依存するか、ターゲットモデルに大きな修正を必要とするかのいずれかで、実用的利用を妨げる。 そこで本研究では,FAIRIFという2段階学習アルゴリズムを提案する。 サンプルの重みを計算した再重み付けデータセット(第2段階)の損失を最小限に抑え、さまざまな人口統計グループ(第1段階)でモデルのパフォーマンスのバランスをとる。 FAIRIFは、モデルを変更することなく確率勾配降下によって訓練された幅広いモデルに適用できるが、サンプル重量を計算するために小さな検証セットに対してのみグループアノテーションを必要とする。 理論的には、分類設定において、異なる群間の不一致の3つの概念は、重みの訓練によって緩和できることを示す。 合成データセットに関する実験により、fairifは様々な種類のバイアスに対してより公平な利用のトレードオフを持つモデルをもたらすことが示され、実世界のデータセットではfairifの有効性と拡張性を示す。 さらに、事前訓練されたモデルの実験によって証明されたように、FAIRIFは、事前訓練されたモデルの不公平さを、性能を損なうことなく軽減することができる。

Most fair machine learning methods either highly rely on the sensitive information of the training samples or require a large modification on the target models, which hinders their practical application. To address this issue, we propose a two-stage training algorithm named FAIRIF. It minimizes the loss over the reweighted data set (second stage) where the sample weights are computed to balance the model performance across different demographic groups (first stage). FAIRIF can be applied on a wide range of models trained by stochastic gradient descent without changing the model, while only requiring group annotations on a small validation set to compute sample weights. Theoretically, we show that, in the classification setting, three notions of disparity among different groups can be mitigated by training with the weights. Experiments on synthetic data sets demonstrate that FAIRIF yields models with better fairness-utility trade-offs against various types of bias; and on real-world data sets, we show the effectiveness and scalability of FAIRIF. Moreover, as evidenced by the experiments with pretrained models, FAIRIF is able to alleviate the unfairness issue of pretrained models without hurting their performance.
翻訳日:2023-12-27 23:28:43 公開日:2023-12-23
# 不均一データを用いた逐次スプリット学習の収束解析

Convergence Analysis of Sequential Split Learning on Heterogeneous Data ( http://arxiv.org/abs/2302.01633v3 )

ライセンス: Link先を確認
Yipeng Li and Xinchen Lyu(参考訳) federated learning (fl) と split learning (sl) は、分散機械学習の2つの一般的なパラダイムである。 計算集約的な部分をサーバにオフロードすることで、SLはリソース制約のあるデバイス上での深層モデルトレーニングを約束すると同時に、厳密な収束分析を欠いている。 本稿では,不均質データに対する強/一般/非凸目標に対する逐次sl(ssl,slのモデルトレーニングを行うバニラケース)の収束保証を求める。 特に、派生した保証は、SSLが異種データのフェデレーション平均化(FedAvg、FLで最も人気のあるアルゴリズム)よりも優れていることを示唆している。 超異質なデータを用いて, 直観的分析結果の有効性を検証する。

Federated Learning (FL) and Split Learning (SL) are two popular paradigms of distributed machine learning. By offloading the computation-intensive portions to the server, SL is promising for deep model training on resource-constrained devices, yet still lacking of rigorous convergence analysis. In this paper, we derive the convergence guarantees of Sequential SL (SSL, the vanilla case of SL that conducts the model training in sequence) for strongly/general/non-convex objectives on heterogeneous data. Notably, the derived guarantees suggest that SSL is better than Federated Averaging (FedAvg, the most popular algorithm in FL) on heterogeneous data. We validate the counterintuitive analysis result empirically on extremely heterogeneous data.
翻訳日:2023-12-27 23:20:46 公開日:2023-12-23
# 5次元ガウススペクトルデータにおける次元減少による情報損失

Information loss from dimensionality reduction in 5D-Gaussian spectral data ( http://arxiv.org/abs/2301.11923v2 )

ライセンス: Link先を確認
A. Schelle and H. L\"uling(参考訳) スペクトル分析における情報の損失を理解することは、現代の複雑なデータサイエンスアプリケーションから構築された人工知能モデルにおいて、スペクトルデータを用いた失敗や不確実性の根本原因を見つけるための重要な第一歩である。 本稿では,ガウス分布スペクトルデータの量子統計を用いた基本的なシャノンエントロピーモデル解析から,初期5次元データセットの2次元図面への投影による次元減少からの情報の相対損失が,数百個のデータサンプルの順にサンプルサイズの小さなデータセットのパラメータ範囲において1%未満であることを示す。 また, ランダムサンプリングモンテカルロシミュレーション法から得られた人工データモデルを用いて, サンプル数, サンプルサイズとともに, エントロピー確率分布の密度と期待値が増加することを示した。

Understanding the loss of information in spectral analytics is a crucial first step towards finding root causes for failures and uncertainties using spectral data in artificial intelligence models built from modern complex data science applications. Here, we show from an elementary Shannon entropy model analysis with quantum statistics of Gaussian distributed spectral data, that the relative loss of information from dimensionality reduction due to the projection of an initial five-dimensional dataset onto two-dimensional diagrams is less than one percent in the parameter range of small data sets with sample sizes on the order of few hundred data samples. From our analysis, we also conclude that the density and expectation value of the entropy probability distribution increases with the sample number and sample size using artificial data models derived from random sampling Monte Carlo simulation methods.
翻訳日:2023-12-27 23:20:19 公開日:2023-12-23
# t-SMILES:デノボ分子生成のためのスケーラブルフラグメントに基づく分子表現フレームワーク

t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation ( http://arxiv.org/abs/2301.01829v2 )

ライセンス: Link先を確認
Juan-Ni Wu, Tong Wang, Yue Chen, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu(参考訳) 分子の効果的な表現は、人工知能モデルの性能に影響を与える重要な要素である。 本研究では, TSSA (t-SMILES with Shared Atom) , TSDY (t-SMILES with Dummy Atom) , TSID (t-SMILES with ID) の3つのコードアルゴリズムを用いた, 柔軟な, フラグメントベースのマルチスケール分子表現フレームワークを提案する。 フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。 JTVAE, BRICS, MMPA, およびScaffoldを用いた系統評価は, 多言語分子記述システムの構築の可能性を示す。 さらに、モデルがオリジナルであれ、データ拡張であれ、あるいはトレーニング済みの微調整であれ、低リソースデータセットに印象的なパフォーマンスを示す。 従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。 さらに、ChEMBL、Zinc、QM9に基づく、最先端のフラグメント、グラフ、SMILESベースのアプローチを上回る。

Effective representation of molecules is a crucial factor affecting the performance of artificial intelligence models. This study introduces a flexible, fragment-based, multiscale molecular representation framework called t-SMILES (tree-based SMILES) with three code algorithms: TSSA (t-SMILES with Shared Atom), TSDY (t-SMILES with Dummy Atom) and TSID (t-SMILES with ID). It describes molecules using SMILES-type strings obtained by performing a breadth-first search on a full binary tree formed from a fragmented molecular graph. Systematic evaluations using JTVAE, BRICS, MMPA, and Scaffold show the feasibility to construct a multilingual molecular description system, where various descriptions complement each other, enhancing the overall performance. Additionally, it exhibits impressive performance on low-resource datasets, whether the model is original, data augmented, or pre-training fine-tuned. It significantly outperforms classical SMILES, DeepSMILES, SELFIES and baseline models in goal-directed tasks. Furthermore, it surpasses start-of-the-art fragment, graph and SMILES based approaches on ChEMBL, Zinc, and QM9.
翻訳日:2023-12-27 23:19:03 公開日:2023-12-23
# Masked Event Modeling: イベントカメラのための自己監督型事前トレーニング

Masked Event Modeling: Self-Supervised Pretraining for Event Cameras ( http://arxiv.org/abs/2212.10368v3 )

ライセンス: Link先を確認
Simon Klenk, David Bonello, Lukas Koestler, Nikita Araslanov, Daniel Cremers(参考訳) イベントカメラは、低レイテンシ、高時間解像度、高ダイナミックレンジで輝度変化を非同期にキャプチャする。 しかし、イベントデータのアノテーションはコストがかかり、手間がかかるプロセスであり、イベントのモダリティによる分類や他のセマンティックタスクの深層学習手法の使用を制限する。 ラベル付きイベントデータへの依存性を低減するため、イベントの自己組織化フレームワークであるMasked Event Modeling (MEM)を紹介します。 本手法は,任意のイベントカメラ記録から発生するラベルなしイベントに対してニューラルネットワークを事前学習する。 その後、事前訓練されたモデルは下流タスクに微調整され、タスク精度が一貫した改善をもたらす。 例えば,N-ImageNet,N-Cars,N-Caltech101の3つのデータセットにまたがって最先端の分類精度を達成し,先行研究の上位1の精度をかなりのマージンで向上させた。 実世界のイベントデータでテストする場合、MEMは教師付きRGBベースの事前トレーニングよりも優れている。 MEMで事前訓練されたモデルはラベル効率も良く、セマンティックイメージセグメンテーションの高密度なタスクとよく似ています。

Event cameras asynchronously capture brightness changes with low latency, high temporal resolution, and high dynamic range. However, annotation of event data is a costly and laborious process, which limits the use of deep learning methods for classification and other semantic tasks with the event modality. To reduce the dependency on labeled event data, we introduce Masked Event Modeling (MEM), a self-supervised framework for events. Our method pretrains a neural network on unlabeled events, which can originate from any event camera recording. Subsequently, the pretrained model is finetuned on a downstream task, leading to a consistent improvement of the task accuracy. For example, our method reaches state-of-the-art classification accuracy across three datasets, N-ImageNet, N-Cars, and N-Caltech101, increasing the top-1 accuracy of previous work by significant margins. When tested on real-world event data, MEM is even superior to supervised RGB-based pretraining. The models pretrained with MEM are also label-efficient and generalize well to the dense task of semantic image segmentation.
翻訳日:2023-12-27 23:18:04 公開日:2023-12-23
# 不均一多孔質媒質中の溶質輸送のための周期活性化機能を有する物理インフォームニューラルネットワーク

Physics-informed Neural Networks with Periodic Activation Functions for Solute Transport in Heterogeneous Porous Media ( http://arxiv.org/abs/2212.08965v2 )

ライセンス: Link先を確認
Salah A Faroughi, Ramin Soltanmohammad, Pingki Datta, Seyed Kourosh Mahjour, Shirko Faroughi(参考訳) 不均一多孔質媒体における溶質輸送のシミュレーションは、従来の解法に必要な高分解能メッシュリングのために計算上の問題を引き起こす。 これらの課題を克服するために,深層学習に基づくメッシュフリー手法を探索し,溶質輸送シミュレーションを高速化する。 物理インフォームドニューラルネットワーク (PiNN) と周期活性化関数を用いて, 対流分散方程式により制御される等質および異種多孔質媒体の溶質輸送問題を解く。 大規模なトレーニングデータセットに依存する従来のニューラルネットワークとは異なり、pinnは、トレーニングフェーズでネットワークを制約するために強形式数学モデルを使用し、圧力や溶質濃度場など、複数の依存あるいは独立したフィールド変数を同時に解決する。 多孔質媒質中の溶質輸送を解決するために, 周期的活性化関数を用いたPiNNの有効性を示すために, 1D と 2D のシナリオを含む7つのケーススタディに対して, sin と tanh の2つのアクティベーション関数を用いたPiNNを構築した。 PNNの予測の精度は絶対点誤差と平均二乗誤差メトリクスを用いて評価され、解析的あるいは数値的に得られた基底真理解と比較される。 その結果,sinアクティベーション関数を持つpinnは,tanhアクティベーション関数と比較して,最大2桁精度が高く,特に異種多孔質媒質において,トレーニングが最大2倍高速であることが判明した。 さらに、PNNの圧力場と濃度場の同時予測は、2次元の場合のFEMシミュレーションと比較して3桁の推算時間で計算コストを削減できる。

Simulating solute transport in heterogeneous porous media poses computational challenges due to the high-resolution meshing required for traditional solvers. To overcome these challenges, this study explores a mesh-free method based on deep learning to accelerate solute transport simulation. We employ Physics-informed Neural Networks (PiNN) with a periodic activation function to solve solute transport problems in both homogeneous and heterogeneous porous media governed by the advection-dispersion equation. Unlike traditional neural networks that rely on large training datasets, PiNNs use strong-form mathematical models to constrain the network in the training phase and simultaneously solve for multiple dependent or independent field variables, such as pressure and solute concentration fields. To demonstrate the effectiveness of using PiNNs with a periodic activation function to resolve solute transport in porous media, we construct PiNNs using two activation functions, sin and tanh, for seven case studies, including 1D and 2D scenarios. The accuracy of the PiNNs' predictions is then evaluated using absolute point error and mean square error metrics and compared to the ground truth solutions obtained analytically or numerically. Our results demonstrate that the PiNN with sin activation function, compared to tanh activation function, is up to two orders of magnitude more accurate and up to two times faster to train, especially in heterogeneous porous media. Moreover, PiNN's simultaneous predictions of pressure and concentration fields can reduce computational expenses in terms of inference time by three orders of magnitude compared to FEM simulations for two-dimensional cases.
翻訳日:2023-12-27 23:17:45 公開日:2023-12-23
# CRN: 高精度でロバストで効率的な3D知覚のためのカメラレーダネット

CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception ( http://arxiv.org/abs/2304.00670v3 )

ライセンス: Link先を確認
Youngseok Kim, Juyeb Shin, Sanmin Kim, In-Jae Lee, Jun Won Choi, Dongsuk Kum(参考訳) 自律運転には、3Dオブジェクトの検出、追跡、セグメンテーションを含む正確で高速な3D知覚システムが必要である。 最近の低コストカメラベースのアプローチは有望な結果を示しているが、照明の悪さや悪天候の影響を受けやすいため、局所誤差が大きい。 したがって、精密な長距離測定を提供し、すべての環境で確実に作動する低コストのレーダーカメラは有望であるが、まだ十分に調査されていない。 本稿では,様々なタスクに対して,意味的にリッチで空間的に正確なbird's-eye-view(bev)特徴マップを生成する,新しいカメラ・レーダー融合フレームワークであるcamer radar net(crn)を提案する。 画像中の空間情報の欠如を克服するため、視線ビュー画像の特徴をスパースで正確なレーダーポイントの助けを借りてBEVに変換する。 入力間の空間的不一致に対処するために設計されたマルチモーダル変形可能な注意を用いて,bevにおける画像とレーダ特徴マップをさらに集約する。 リアルタイム設定のCRNは20FPSで動作し、nuScenes上のLiDAR検出器と同等の性能を達成し、100m設定で遠くでも性能を向上する。 さらに、オフライン設定のCRNは、nuScenesテストセットで62.4%のNDS、57.5%のmAPを出力し、全カメラおよびカメラレーダー3Dオブジェクト検出器の中で第1位である。

Autonomous driving requires an accurate and fast 3D perception system that includes 3D object detection, tracking, and segmentation. Although recent low-cost camera-based approaches have shown promising results, they are susceptible to poor illumination or bad weather conditions and have a large localization error. Hence, fusing camera with low-cost radar, which provides precise long-range measurement and operates reliably in all environments, is promising but has not yet been thoroughly investigated. In this paper, we propose Camera Radar Net (CRN), a novel camera-radar fusion framework that generates a semantically rich and spatially accurate bird's-eye-view (BEV) feature map for various tasks. To overcome the lack of spatial information in an image, we transform perspective view image features to BEV with the help of sparse but accurate radar points. We further aggregate image and radar feature maps in BEV using multi-modal deformable attention designed to tackle the spatial misalignment between inputs. CRN with real-time setting operates at 20 FPS while achieving comparable performance to LiDAR detectors on nuScenes, and even outperforms at a far distance on 100m setting. Moreover, CRN with offline setting yields 62.4% NDS, 57.5% mAP on nuScenes test set and ranks first among all camera and camera-radar 3D object detectors.
翻訳日:2023-12-27 23:09:08 公開日:2023-12-23
# GPT-3およびGPT-3.5シリーズモデルの包括的機能解析

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models ( http://arxiv.org/abs/2303.10420v2 )

ライセンス: Link先を確認
Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) GPT-3、CodeX、InstructGPT、ChatGPTなどのGPTシリーズモデルは、その例外的な自然言語処理能力から注目されている。 しかし、GPTシリーズモデルと微調整モデルとの能力の差についての研究が豊富にあるにもかかわらず、GPTシリーズモデルの能力の進化には時間とともに注意が向けられている。 gpt系列モデルの能力の包括的分析を行うために,2つのgpt-3系列モデル(davinciとtext-davinci-001)と4つのgpt-3.5系列モデル(code-davinci-002,text-davinci-002,text-davinci-003,gpt-3.5-turbo)からなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 特に,ゼロショットと少数ショットのシナリオで各タスクの異なるモデルのパフォーマンスとロバスト性を比較した。 NLUタスクにおけるGPTシリーズモデルの全体的な能力は,特にRLHFトレーニング戦略の導入によって,モデルの発展に伴って徐々に向上しないことが明らかとなった。 この戦略は、モデルが人間のような応答を生成する能力を高める一方で、いくつかのタスクを解決する能力も損なう。 さらに, モデルロバスト性などの領域にはまだ改善の余地があることが示唆された。

GPT series models, such as GPT-3, CodeX, InstructGPT, ChatGPT, and so on, have gained considerable attention due to their exceptional natural language processing capabilities. However, despite the abundance of research on the difference in capabilities between GPT series models and fine-tuned models, there has been limited attention given to the evolution of GPT series models' capabilities over time. To conduct a comprehensive analysis of the capabilities of GPT series models, we select six representative models, comprising two GPT-3 series models (i.e., davinci and text-davinci-001) and four GPT-3.5 series models (i.e., code-davinci-002, text-davinci-002, text-davinci-003, and gpt-3.5-turbo). We evaluate their performance on nine natural language understanding (NLU) tasks using 21 datasets. In particular, we compare the performance and robustness of different models for each task under zero-shot and few-shot scenarios. Our extensive experiments reveal that the overall ability of GPT series models on NLU tasks does not increase gradually as the models evolve, especially with the introduction of the RLHF training strategy. While this strategy enhances the models' ability to generate human-like responses, it also compromises their ability to solve some tasks. Furthermore, our findings indicate that there is still room for improvement in areas such as model robustness.
翻訳日:2023-12-27 23:07:18 公開日:2023-12-23
# Slapo: 大規模ディープラーニングモデルトレーニングのプログレッシブ最適化のためのスケジュール言語

Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training ( http://arxiv.org/abs/2302.08005v2 )

ライセンス: Link先を確認
Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang(参考訳) 近年、大規模なディープラーニング(DL)モデルの開発が増加しており、訓練効率が重要になっている。 一般的なプラクティスは、ユーザビリティとパフォーマンスのトレードオフに苦しむことです。 一方、pytorchのようなdlフレームワークは動的グラフを使用して、モデル開発者を最適以下のモデルのトレーニングパフォーマンスで支援する。 一方、実践者は、より徹底的な最適化(XLAなど)のためにグラフを静的にすることから、大規模分散トレーニング(DeepSpeedやMegatron-LMなど)への最適化のカスタマイズまで、柔軟性を犠牲にしてトレーニング効率を改善するための様々なアプローチを提案する。 本稿では,関心の分離を通じてユーザビリティとトレーニング効率の緊張に対処することを目的とする。 本稿では,テンソルレベルの演算子のプラットフォーム固有の最適化を算術的定義から切り離すDLコンパイラに着想を得て,モデル実行を定義から切り離すスケジュール言語Slapoを提案する。 具体的には、SlapoはPyTorchモデル上で動作し、一連のスケジュールプリミティブを使用して、高性能カーネル、効率的な3D並列性、効率的なアクティベーションチェックポイントなどの一般的なモデルトレーニング最適化のためのモデルを変換する。 既存の最適化ソリューションと比較すると、Slapoは高レベルのプリミティブを通じてモデルを段階的に最適化し、ユーザのためのプログラム可能性とデバッグ性を維持する。 Slapoを用いて既存の手作り最適化を体系的にスケジューリングすることにより、DeepSpeedとMegatron-LMのアウト・オブ・ボックス性能と比較して、NVIDIA V100 GPUが8台の1台のマシンで最大2.92倍、64台のマシンで最大1.41倍のトレーニングスループットを向上できることを示す。

Recent years have seen an increase in the development of large deep learning (DL) models, which makes training efficiency crucial. Common practice is struggling with the trade-off between usability and performance. On one hand, DL frameworks such as PyTorch use dynamic graphs to facilitate model developers at a price of sub-optimal model training performance. On the other hand, practitioners propose various approaches to improving the training efficiency by sacrificing some of the flexibility, ranging from making the graph static for more thorough optimization (e.g., XLA) to customizing optimization towards large-scale distributed training (e.g., DeepSpeed and Megatron-LM). In this paper, we aim to address the tension between usability and training efficiency through separation of concerns. Inspired by DL compilers that decouple the platform-specific optimizations of a tensor-level operator from its arithmetic definition, this paper proposes a schedule language, Slapo, to decouple model execution from definition. Specifically, Slapo works on a PyTorch model and uses a set of schedule primitives to convert the model for common model training optimizations such as high-performance kernels, effective 3D parallelism, and efficient activation checkpointing. Compared to existing optimization solutions, Slapo progressively optimizes the model "as-needed" through high-level primitives, and thus preserving programmability and debuggability for users to a large extent. Our evaluation results show that by scheduling the existing hand-crafted optimizations in a systematic way using Slapo, we are able to improve training throughput by up to 2.92x on a single machine with 8 NVIDIA V100 GPUs, and by up to 1.41x on multiple machines with up to 64 GPUs, when compared to the out-of-the-box performance of DeepSpeed and Megatron-LM.
翻訳日:2023-12-27 23:05:38 公開日:2023-12-23
# 生成aiと大規模言語モデルの二重利用問題

Dual Use Concerns of Generative AI and Large Language Models ( http://arxiv.org/abs/2305.07882v2 )

ライセンス: Link先を確認
Alexei Grinbaum and Laurynas Adomaitis(参考訳) 本稿では,生命科学のために設計された Dual Use Research of Concern (DURC) フレームワークを,Large Language Models (LLM) に特化して,生成AIの領域に実装することを提案する。 生物学的研究における利点と欠点が証明されていることから、DURCの基準はLLMに対して効果的に再定義できると考えており、AIガバナンスの改善に寄与する可能性がある。 DURCフレームワークを採用する際に課せられるバランスを認識し、生成的AIの影響に対する社会的認識を高める上で重要な政治的役割を強調します。 最後に,LLM 研究に DURC アプローチを適用するための具体的な推奨事項について述べる。

We suggest the implementation of the Dual Use Research of Concern (DURC) framework, originally designed for life sciences, to the domain of generative AI, with a specific focus on Large Language Models (LLMs). With its demonstrated advantages and drawbacks in biological research, we believe the DURC criteria can be effectively redefined for LLMs, potentially contributing to improved AI governance. Acknowledging the balance that must be struck when employing the DURC framework, we highlight its crucial political role in enhancing societal awareness of the impact of generative AI. As a final point, we offer a series of specific recommendations for applying the DURC approach to LLM research.
翻訳日:2023-12-27 22:58:22 公開日:2023-12-23
# 自分自身を解放する: 自己記憶による検索強化テキスト生成

Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory ( http://arxiv.org/abs/2305.02437v3 )

ライセンス: Link先を確認
Xin Cheng, Di Luo, Xiuying Chen, Lemao Liu, Dongyan Zhao, Rui Yan(参考訳) 人書き参照をメモリとして直接アクセスすることで、検索強化生成は幅広いテキスト生成タスクにおいて大きな進歩を遂げた。 より優れたメモリは、通常、より良いジェネレーション−(プリミティブ問題として定義する)を促す。 メモリ検索の伝統的なアプローチは、入力と最もよく似たメモリを選択することである。 しかし、この方法はメモリが検索される固定コーパスの品質によって制限される。 本稿では,より優れた生成がより良いメモリを誘導する,プライマル問題の双対性を検討することにより,検索型ジェネレータを反復的に使用し,未バウンドメモリプールを作成し,メモリセレクタを用いて1つの出力をメモリとして選択することで,この制限に対処する新しいフレームワークであるselfmemを提案する。 これにより、モデルが自己メモリと呼ばれる独自の出力を活用し、生成を改善することができる。 本研究では,ニューラルマシン翻訳,抽象的テキスト要約,対話生成の3つのタスクにおけるselfmemの有効性を,微調整小モデルと少数ショットllmの2世代パラダイムの下で評価した。 提案手法は, JRC-Acquis, XSum (50.3 ROUGE-1), BigPatent (62.9 ROUGE-1) の4つの方向において, 自己記憶の可能性を示す。 さらに,selfmemフレームワークの各コンポーネントについて詳細な分析を行い,ボトルネックを特定し,今後の研究への洞察を提供する。

With direct access to human-written reference as memory, retrieval-augmented generation has achieved much progress in a wide range of text generation tasks. Since better memory would typically prompt better generation~(we define this as primal problem). The traditional approach for memory retrieval involves selecting memory that exhibits the highest similarity to the input. However, this method is constrained by the quality of the fixed corpus from which memory is retrieved. In this paper, by exploring the duality of the primal problem: better generation also prompts better memory, we propose a novel framework, selfmem, which addresses this limitation by iteratively employing a retrieval-augmented generator to create an unbounded memory pool and using a memory selector to choose one output as memory for the subsequent generation round. This enables the model to leverage its own output, referred to as self-memory, for improved generation. We evaluate the effectiveness of selfmem on three distinct text generation tasks: neural machine translation, abstractive text summarization, and dialogue generation, under two generation paradigms: fine-tuned small model and few-shot LLM. Our approach achieves state-of-the-art results in four directions in JRC-Acquis, XSum (50.3 ROUGE-1), and BigPatent (62.9 ROUGE-1), demonstrating the potential of self-memory in enhancing retrieval-augmented generation models. Furthermore, we conduct thorough analyses of each component in the selfmem framework to identify bottlenecks and provide insights for future research.
翻訳日:2023-12-27 22:56:29 公開日:2023-12-23
# 雑音受動線形光学を用いた量子最適情報符号化

Quantum-optimal information encoding using noisy passive linear optics ( http://arxiv.org/abs/2304.12365v3 )

ライセンス: Link先を確認
Andrew Tanggara, Ranjith Nair, Syed Assad, Varun Narasimhachar, Spyros Tserkis, Jayne Thompson, Ping Koy Lam, Mile Gu(参考訳) ノイズチャネルが伝達できる情報の量は、情報理論における主要な関心事の1つとなっている。 本研究では,外部エネルギー源を使わずに実現可能な光量子チャネルの一群について考察する。 有限エネルギーの資源状態において、これらのチャネルが適用した減衰や位相シフトの情報を符号化する手順よりも、ホレボ情報を最適化する。 任意の入力状態と環境温度に対して、チャネルの位相シフトパラメータを均一に分配する符号化手順によって最大ホールボ情報が得られることを示す。 さらに、入力状態の大きな族に対して、任意の最大符号化スキームは有限数のチャネル減衰値を持ち、符号語を出力位相空間の原点付近の有限個の環に単純化する。 上記の結果と数値的な証拠は、この性質が全ての資源状態に対して成り立つことを示唆している。 この結果は, 環境熱雑音の存在下での光メモリの量子読み取りに直接適用できる。

The amount of information that a noisy channel can transmit has been one of the primary subjects of interest in information theory. In this work we consider a practically-motivated family of optical quantum channels that can be implemented without an external energy source. We optimize the Holevo information over procedures that encode information in attenuations and phase-shifts applied by these channels on a resource state of finite energy. It is shown that for any given input state and environment temperature, the maximum Holevo information can be achieved by an encoding procedure that uniformly distributes the channel's phase-shift parameter. Moreover for large families of input states, any maximizing encoding scheme has a finite number of channel attenuation values, simplifying the codewords to a finite number of rings around the origin in the output phase space. The above results and numerical evidence suggests that this property holds for all resource states. Our results are directly applicable to the quantum reading of an optical memory in the presence of environmental thermal noise.
翻訳日:2023-12-27 22:54:44 公開日:2023-12-23
# 強化学習フィードバックによるコードの粗調整モデル

Coarse-Tuning Models of Code with Reinforcement Learning Feedback ( http://arxiv.org/abs/2305.18341v2 )

ライセンス: Link先を確認
Abhinav Jain (1), Chima Adiole (1), Swarat Chaudhuri (2), Thomas Reps (3), Chris Jermaine (1) ((1) Rice University, (2) UT Austin, (3) University of Wisconsin)(参考訳) コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主要なアプローチとして最近登場した。 しかし、これらのモデルはコードの構文や意味を無視する次世代の予測を使って訓練されている。 コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。 接地関数の使用 (i) 生成するコードが一連の正当性チェックを通すかどうかに関するコンパイラからのフィードバック (ii) 生成されたコードと参照コードを比較する異なるLLMからのフィードバック。 RLCFはモデルと言語に依存しない。 JavaのMBJPタスクとMathQAタスクで実証的に評価します。 実験の結果,LCF は LLM が生成したプログラムが実行可能である確率を高め,テスト時に適切な出力を出力し,LLM が 2x-8 より大きな LLM の性能に適合することを示す。

Large Language Models (LLMs) pre-trained on code have recently emerged as the dominant approach to program synthesis. However, these models are trained using next-token prediction, which ignores the syntax and semantics of code. We propose RLCF, that further trains a pre-trained LLM via reinforcement learning, using feedback from a grounding function that scores the quality of the code. The grounding function uses (i) compiler-derived feedback on whether the code it generates passes a set of correctness checks; and (ii) feedback from a different LLM that compares the generated code to a reference code. RLCF is model- and language-agnostic. We empirically evaluate it on the MBJP and MathQA tasks for Java. Our experiments show that RLCF raises the odds that an LLM-generated program compiles, is executable, and produces the right output on tests, often allowing LLMs to match the performance of 2x-8x larger LLMs.
翻訳日:2023-12-27 22:43:54 公開日:2023-12-23
# 高解像度画像の脳活動からのデコードに対するコントラスト, 態度, 難易度

Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities ( http://arxiv.org/abs/2305.17214v3 )

ライセンス: Link先を確認
Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang, Marie-Francine Moens(参考訳) 機能的磁気共鳴画像(fmri)によって記録された神経反応からの視覚刺激の復号は、認知神経科学と機械学習の興味深い交点を示し、人間の視覚知覚の理解と非侵襲的脳-機械インターフェイスの構築を約束する。 しかし、この課題はfMRI信号のノイズの性質と脳の視覚表現の複雑なパターンによって困難である。 これらの課題を軽減するために,2相fMRI表現学習フレームワークを導入する。 第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。 第2フェーズは、画像オートエンコーダからのガイダンスにより、視覚再構成に最も有用な神経活性化パターンに、特徴学習者が出席するようにチューニングする。 最適化されたfMRI特徴学習者は、脳活動から画像刺激を再構成するために潜時拡散モデルを設定する。 実験により,50-way-top-1のセマンティック分類精度において,従来の最先端手法よりも39.34%,高解像度かつセマンティックな画像を生成する上で,モデルが優れていることを示す。 本研究は,非侵襲的脳-機械インタフェースの開発に寄与し,その可能性を探究するものである。

Decoding visual stimuli from neural responses recorded by functional Magnetic Resonance Imaging (fMRI) presents an intriguing intersection between cognitive neuroscience and machine learning, promising advancements in understanding human visual perception and building non-invasive brain-machine interfaces. However, the task is challenging due to the noisy nature of fMRI signals and the intricate pattern of brain visual representations. To mitigate these challenges, we introduce a two-phase fMRI representation learning framework. The first phase pre-trains an fMRI feature learner with a proposed Double-contrastive Mask Auto-encoder to learn denoised representations. The second phase tunes the feature learner to attend to neural activation patterns most informative for visual reconstruction with guidance from an image auto-encoder. The optimized fMRI feature learner then conditions a latent diffusion model to reconstruct image stimuli from brain activities. Experimental results demonstrate our model's superiority in generating high-resolution and semantically accurate images, substantially exceeding previous state-of-the-art methods by 39.34% in the 50-way-top-1 semantic classification accuracy. Our research invites further exploration of the decoding task's potential and contributes to the development of non-invasive brain-machine interfaces.
翻訳日:2023-12-27 22:43:39 公開日:2023-12-23
# 思考連鎖の背後にある謎の解明に向けて--理論的展望

Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective ( http://arxiv.org/abs/2305.15408v5 )

ライセンス: Link先を確認
Guhao Feng, Bohang Zhang, Yuntian Gu, Haotian Ye, Di He, Liwei Wang(参考訳) 近年の研究では、特に数学や推論を含む複雑なタスクを扱う場合、CoT(Chain-of-Thought prompting)がLarge Language Models(LLM)の性能を劇的に改善できることが判明している。 実験的な成功にもかかわらず、CoTの背後にあるメカニズムとLLMの可能性を解き放つ方法はまだ解明されていない。 本稿では,これらの疑問に理論的に答える第一歩を踏み出す。 具体的には,基本的な数学的および意思決定問題の解法において,LLMとCoTとの表現性について検討する。 まず, 回路複雑性理論を用いて, モデルサイズが入力長に対して超多項的に増大しない限り, 有界深層トランスフォーマーは基本演算/方程式タスクに対して正解を直接生成できないことを示す。 それとは対照的に, 定サイズの自己回帰トランスフォーマーが, 一般的な数学言語形式を用いてcot導出を生成することにより, 両タスクの解決に十分であることを示す。 さらに,cotを用いたllmは動的プログラミングと呼ばれる一般的な意思決定問題を扱うことができ,複雑な実世界のタスクに取り組む際にその力を正当化できることを示した。 最後に、広範囲にわたる実験の結果、トランスフォーマーは常に直接答えを予測できないが、十分なCoTの実証から正しいソリューションを段階的に生成できることが示されている。

Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this paper, we take a first step towards theoretically answering these questions. Specifically, we examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. By using circuit complexity theory, we first give impossibility results showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, we then prove by construction that autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly used math language format. Moreover, we show LLMs with CoT can handle a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks. Finally, an extensive set of experiments show that, while Transformers always fail to directly predict the answers, they can consistently learn to generate correct solutions step-by-step given sufficient CoT demonstrations.
翻訳日:2023-12-27 22:42:51 公開日:2023-12-23
# ショートカットからトリガーへ:POEによるバックドアディフェンス

From Shortcuts to Triggers: Backdoor Defense with Denoised PoE ( http://arxiv.org/abs/2305.14910v2 )

ライセンス: Link先を確認
Qin Liu, Fei Wang, Chaowei Xiao, Muhao Chen(参考訳) 言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。 したがって、それらに対処するための防衛ソリューションを調査することが重要である。 既存のバックドア防御法は主に露骨な引き金によるバックドア攻撃に重点を置いており、様々なバックドア攻撃に対する普遍的な防御は、ほとんど探索されていない。 本稿では,様々なバックドア攻撃を防御するために,エンド・ツー・エンドのアンサンブルベースのバックドア防御フレームワークdpoe(denoized product-of-experts)を提案する。 DPoEは、バックドアショートカットをキャプチャする浅いモデルと、バックドアショートカットを学習するのを防ぐメインモデルである。 バックドア攻撃によるラベルフリップに対処するため、DPoEはデノイングデザインを取り入れている。 SST-2データセットの実験では、DPoEは単語レベル、文レベル、構文的トリガを含む様々な種類のバックドアトリガに対する防御性能を著しく向上することが示された。 さらにDPoEは、複数の種類のトリガーを混ぜるより難しいが実用的な設定でも有効である。

Language models are often at risk of diverse backdoor attacks, especially data poisoning. Thus, it is important to investigate defense solutions for addressing them. Existing backdoor defense methods mainly focus on backdoor attacks with explicit triggers, leaving a universal defense against various backdoor attacks with diverse triggers largely unexplored. In this paper, we propose an end-to-end ensemble-based backdoor defense framework, DPoE (Denoised Product-of-Experts), which is inspired by the shortcut nature of backdoor attacks, to defend various backdoor attacks. DPoE consists of two models: a shallow model that captures the backdoor shortcuts and a main model that is prevented from learning the backdoor shortcuts. To address the label flip caused by backdoor attackers, DPoE incorporates a denoising design. Experiments on SST-2 dataset show that DPoE significantly improves the defense performance against various types of backdoor triggers including word-level, sentence-level, and syntactic triggers. Furthermore, DPoE is also effective under a more challenging but practical setting that mixes multiple types of trigger.
翻訳日:2023-12-27 22:42:15 公開日:2023-12-23
# 頑健な多段階質問応答のための潜在回答を用いた問合せ連鎖訓練

Chain-of-Questions Training with Latent Answers for Robust Multistep Question Answering ( http://arxiv.org/abs/2305.14901v3 )

ライセンス: Link先を確認
Wang Zhu, Jesse Thomason, Robin Jia(参考訳) 我々は言語モデル(LM)を訓練し、サブクエストの生成と回答によって多段階の質問に頑健に答える。 本稿では,人間に注釈付き質問分解意味表現(qdmr)を活用し,質問と回答を同時生成するモデルを学習する枠組みであるchain-of-questionsを提案する。 重要な技術的課題は、QDMRはサブクエストのみを含むが、これらのサブクエストに応答しないため、サブアンサーを潜在変数として扱い、Hard-EMとMAPOの新しい動的混合を用いてそれらを最適化する。 DROPコントラストセットでは9.0F1,HOTPOTQA対向セットでは24.3F1でGPT-3.5より優れた9.0F1,強いニューロシンボリックメソッドでは高い性能を示し,本フレームワークの有効性とロバスト性を示す。

We train a language model (LM) to robustly answer multistep questions by generating and answering sub-questions. We propose Chain-of-Questions, a framework that trains a model to generate sub-questions and sub-answers one at a time by leveraging human annotated question decomposition meaning representation (QDMR). The key technical challenge is that QDMR only contains sub-questions but not answers to those sub-questions, so we treat sub-answers as latent variables and optimize them using a novel dynamic mixture of Hard-EM and MAPO. Chain-of-Questions greatly outperforms strong neuro-symbolic methods by 9.0 F1 on DROP contrast set, and outperforms GPT-3.5 by 24.3 F1 on HOTPOTQA adversarial set, thus demonstrating the effectiveness and robustness of our framework.
翻訳日:2023-12-27 22:41:56 公開日:2023-12-23
# GQA:マルチヘッドチェックポイントを用いた汎用マルチクエリトランスフォーマモデルの訓練

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints ( http://arxiv.org/abs/2305.13245v3 )

ライセンス: Link先を確認
Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebr\'on, Sumit Sanghai(参考訳) 単一のキー値ヘッドのみを使用するマルチクエリアテンション(MQA)は、デコーダ推論を大幅に高速化する。 しかし、MQAは品質の低下につながる可能性があるし、より高速な推論のためだけに別のモデルをトレーニングすることは望ましくないかもしれない。 1) 既存のマルチヘッド言語モデルのチェックポイントを、従来の事前学習計算の5%を用いてMQAモデルにアップトレーニングするためのレシピを提案し、(2) キー値ヘッドの中間数(クエリヘッド数より少ない数)を使用するマルチクエリアテンションの一般化であるグループクエリアテンション(GQA)を導入する。 トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を実現することを示す。

Multi-query attention (MQA), which only uses a single key-value head, drastically speeds up decoder inference. However, MQA can lead to quality degradation, and moreover it may not be desirable to train a separate model just for faster inference. We (1) propose a recipe for uptraining existing multi-head language model checkpoints into models with MQA using 5% of original pre-training compute, and (2) introduce grouped-query attention (GQA), a generalization of multi-query attention which uses an intermediate (more than one, less than number of query heads) number of key-value heads. We show that uptrained GQA achieves quality close to multi-head attention with comparable speed to MQA.
翻訳日:2023-12-27 22:41:07 公開日:2023-12-23
# テレコムのための大規模生成型aiモデル:次の大きなこと?

Large Generative AI Models for Telecom: The Next Big Thing? ( http://arxiv.org/abs/2306.10249v2 )

ライセンス: Link先を確認
Lina Bariah, Qiyang Zhao, Hang Zou, Yu Tian, Faouzi Bader, and Merouane Debbah(参考訳) 生成人工知能(GenAI)の進化は、様々な面でテクノロジーの未来を変える転換点となっている。 特に無線ネットワークは、自己進化型ネットワークの開花とともに、ジェナイを活用し、現在の無線ネットワークの設計や運用方法を根本的に変えるいくつかの利点を享受するためのリッチな分野を表している。 具体的には、大規模なGenAIモデルは、さまざまなTelecomデータでトレーニングされたマルチモーダルなGenAIモデルを、特定のタスクごとに専用のAIモデルの構築とトレーニングを不要にし、人工知能(AGI)を内蔵した無線ネットワークの実現の道を開くことなく、いくつかの下流タスクを実行するように微調整できる、新しい自律的無線ネットワークの時代を開くことを想定している。 本稿では,大規模なGenAIモデルをTelecomドメインに統合する機会を広げることを目的としている。 特に、将来の無線ネットワークにおける大規模GenAIモデルの応用について、潜在的なユースケースを定義し、関連する理論的および実践的課題に関する洞察を明らかにする。 さらに、6Gが複数のデバイス上の大型GenAIモデルを接続することで、新たな機会を開き、そのため、集団知性パラダイムへの道を開く方法を明らかにする。 最後に、我々は、どのように大きなGenAIモデルが自己進化型ネットワークを実現する鍵となるかを前方視した。

The evolution of generative artificial intelligence (GenAI) constitutes a turning point in reshaping the future of technology in different aspects. Wireless networks in particular, with the blooming of self-evolving networks, represent a rich field for exploiting GenAI and reaping several benefits that can fundamentally change the way how wireless networks are designed and operated nowadays. To be specific, large GenAI models are envisioned to open up a new era of autonomous wireless networks, in which multi-modal GenAI models trained over various Telecom data, can be fine-tuned to perform several downstream tasks, eliminating the need for building and training dedicated AI models for each specific task and paving the way for the realization of artificial general intelligence (AGI)-empowered wireless networks. In this article, we aim to unfold the opportunities that can be reaped from integrating large GenAI models into the Telecom domain. In particular, we first highlight the applications of large GenAI models in future wireless networks, defining potential use-cases and revealing insights on the associated theoretical and practical challenges. Furthermore, we unveil how 6G can open up new opportunities through connecting multiple on-device large GenAI models, and hence, paves the way to the collective intelligence paradigm. Finally, we put a forward-looking vision on how large GenAI models will be the key to realize self-evolving networks.
翻訳日:2023-12-27 22:32:27 公開日:2023-12-23
# HyP-NeRF: HyperNetwork を用いたNeRF事前学習の改善

HyP-NeRF: Learning Improved NeRF Priors using a HyperNetwork ( http://arxiv.org/abs/2306.06093v3 )

ライセンス: Link先を確認
Bipasha Sen, Gaurav Singh, Aditya Agarwal, Rohith Agaram, K Madhava Krishna, Srinath Sridhar(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンやオブジェクトの高品質な外観と形状を捉えるために、ますます人気が高まっている。 しかし,ネットワーク重み空間の高次元性のため,シーンや物体のカテゴリに対する一般化可能なNeRF先行学習は困難である。 一般化,多視点整合性,品質向上に関する既存研究の限界に対処するため,ハイパーネットワークを用いた一般化可能なカテゴリレベルのNeRF事前学習のための潜在条件付きHyP-NeRFを提案する。 ハイパーネットワークを用いて nerf の重みのみを推定するのではなく,重みとマルチレゾリューションのハッシュエンコーディングの両方を推定することで,大幅な品質向上を実現する。 さらに,高画質化のため,ハイパーネットワークで推定されたnyrfからの画像をデノベートし,マルチビューの一貫性を維持しながら微調整するデノワーズ・ファインチューン戦略を取り入れている。 これらの改良により、単一ビューからのNeRF再構成や散在シーンからのテキスト・トゥ・NeRFを含む複数の下流タスクにおいて、HyP-NeRFを一般化可能な事前処理として使用できる。 本稿では,HyP-NeRFの定性比較を行い,一般化,圧縮,検索の3つの課題について評価する。

Neural Radiance Fields (NeRF) have become an increasingly popular representation to capture high-quality appearance and shape of scenes and objects. However, learning generalizable NeRF priors over categories of scenes or objects has been challenging due to the high dimensionality of network weight space. To address the limitations of existing work on generalization, multi-view consistency and to improve quality, we propose HyP-NeRF, a latent conditioning method for learning generalizable category-level NeRF priors using hypernetworks. Rather than using hypernetworks to estimate only the weights of a NeRF, we estimate both the weights and the multi-resolution hash encodings resulting in significant quality gains. To improve quality even further, we incorporate a denoise and finetune strategy that denoises images rendered from NeRFs estimated by the hypernetwork and finetunes it while retaining multiview consistency. These improvements enable us to use HyP-NeRF as a generalizable prior for multiple downstream tasks including NeRF reconstruction from single-view or cluttered scenes and text-to-NeRF. We provide qualitative comparisons and evaluate HyP-NeRF on three tasks: generalization, compression, and retrieval, demonstrating our state-of-the-art results.
翻訳日:2023-12-27 22:30:38 公開日:2023-12-23
# GEO-Bench:地球モニタリングの基礎モデルを目指して

GEO-Bench: Toward Foundation Models for Earth Monitoring ( http://arxiv.org/abs/2306.03831v2 )

ライセンス: Link先を確認
Alexandre Lacoste, Nils Lehmann, Pau Rodriguez, Evan David Sherwin, Hannah Kerner, Bj\"orn L\"utjens, Jeremy Andrew Irvin, David Dao, Hamed Alemohammad, Alexandre Drouin, Mehmet Gunturkun, Gabriel Huang, David Vazquez, Dava Newman, Yoshua Bengio, Stefano Ermon, Xiao Xiang Zhu(参考訳) 自己スーパービジョンの最近の進歩は、膨大な量の教師なしデータで大きなニューラルネットワークを事前トレーニングすることで、下流タスクへの一般化が大幅に増加することを示している。 近年の基盤モデルであるそのようなモデルは、自然言語処理の分野に転換してきた。 画像データにも変種が提案されているが、リモートセンシングタスクへの適用性は限られている。 そこで本研究では,地球観測のための基礎モデルの開発を奨励するために,6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。 我々は,このベンチマークをモデルの評価と集計結果を報告するためのロバストな手法で随伴し,進捗の信頼性を評価する。 最後に,既存モデルの性能に関する情報を得るため,20基準ラインの結果を報告する。 このベンチマークは、さまざまな地球観測タスクにおける進歩の原動力となると思います。

Recent progress in self-supervision has shown that pre-training large neural networks on vast amounts of unsupervised data can lead to substantial increases in generalization to downstream tasks. Such models, recently coined foundation models, have been transformational to the field of natural language processing. Variants have also been proposed for image data, but their applicability to remote sensing tasks is limited. To stimulate the development of foundation models for Earth monitoring, we propose a benchmark comprised of six classification and six segmentation tasks, which were carefully curated and adapted to be both relevant to the field and well-suited for model evaluation. We accompany this benchmark with a robust methodology for evaluating models and reporting aggregated results to enable a reliable assessment of progress. Finally, we report results for 20 baselines to gain information about the performance of existing models. We believe that this benchmark will be a driver of progress across a variety of Earth monitoring tasks.
翻訳日:2023-12-27 22:29:22 公開日:2023-12-23
# 非局所量子計算と情報理論暗号

Relating non-local quantum computation to information theoretic cryptography ( http://arxiv.org/abs/2306.16462v4 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Alex May, Florian Speelman, Philip Verduyn Lunel(参考訳) 非局所量子計算(NLQC)は位置検証スキームの不正な方法であり、AdS/CFT対応の文脈に現れている。 ここでは、nlqcを情報理論的な暗号のより広い文脈に結びつけ、他の多くの暗号プリミティブに関連付ける。 f$-routingとして知られるnlqcの特別な場合の一つは、cdsプリミティブの条件付き開示の量子アナログ(英語版)(quantum analogue of the conditional disclosure of secrets)に相当する。 さらに,コヒーレント関数評価(CFE)と呼ばれる位置検証の特殊な事例についても検討し,CFEプロトコルがプライベート同時メッセージパッシング(PSM)シナリオに対して同様の効率的なプロトコルを誘導することを示す。 これらの暗号プリミティブに位置検証を関連付けることで、暗号文学における多くの結果はNLQCに新しい意味を与え、その逆も与える。 これには、最悪の場合のコストが$f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement(英語版)の最初の部分指数上界、外部にあると思われる問題に対する効率的な$f$-routing(英語版)戦略の最初の例、量子設定におけるCDSの絡み合いの線形下界、CFEの通信コストの線形下界、低T$の量子回路で計算できる関数の量子設定におけるCDSの効率的なプロトコルが含まれる。

Non-local quantum computation (NLQC) is a cheating strategy for position-verification schemes, and has appeared in the context of the AdS/CFT correspondence. Here, we connect NLQC to the wider context of information theoretic cryptography by relating it to a number of other cryptographic primitives. We show one special case of NLQC, known as $f$-routing, is equivalent to the quantum analogue of the conditional disclosure of secrets (CDS) primitive, where by equivalent we mean that a protocol for one task gives a protocol for the other with only small overhead in resource costs. We further consider another special case of position verification, which we call coherent function evaluation (CFE), and show CFE protocols induce similarly efficient protocols for the private simultaneous message passing (PSM) scenario. By relating position-verification to these cryptographic primitives, a number of results in the cryptography literature give new implications for NLQC, and vice versa. These include the first sub-exponential upper bounds on the worst case cost of $f$-routing of $2^{O(\sqrt{n\log n})}$ entanglement, the first example of an efficient $f$-routing strategy for a problem believed to be outside $P/poly$, linear lower bounds on entanglement for CDS in the quantum setting, linear lower bounds on communication cost of CFE, and efficient protocols for CDS in the quantum setting for functions that can be computed with quantum circuits of low $T$ depth.
翻訳日:2023-12-27 22:17:33 公開日:2023-12-23
# Dual-Activated Lightweight Attention ResNet50 Modelを用いた乳癌組織像分類の強化

Enhancing Breast Cancer Histopathology Image Classification Using Dual-Activated Lightweight Attention ResNet50 Model ( http://arxiv.org/abs/2308.13150v5 )

ライセンス: Link先を確認
Suxing Liu(参考訳) 乳がんの病理組織像分類における深層学習の顕著な成果にもかかわらず、データ不均衡や解釈可能性といった課題は依然として存在し、医療専門家の間でのクロスドメインな知識と協調が必要である。 本研究では,データ不均衡と解釈可能性の問題に効果的に取り組むために,デュアルアクティブ・ライトウェイトアテンションResNet50モデルを用いた乳癌分類手法を提案する。 このモデルは、事前訓練されたdeep resnet50と軽量なアテンション機構とを融合させ、resnet50のレイヤ4にアテンションモジュールを埋め込み、2つの完全接続層を追加することで分類を達成する。 完全に接続されたネットワーク設計では、LeakyReLUとReLUのアクティベーション機能を採用している。 このモデルはseresnet50、densnet121、vgg16、vgg16インセプション、vit、swin- transformer、dinov2_vitb14、resnet50モデルよりも精度、精度、リコール、f1スコア、gmean、特にbreakhisデータセットのアプリケーションパフォーマンスにおいて優れている。 特に、このモデルは、不均衡な乳癌データセットを扱う際に、大きな堅牢性と幅広い適用性を示す。 このモデルは、40倍、100倍、200倍、400倍の病理組織像で評価され、それぞれ98.5%、98.7%、97.9%、94.3%の精度を得た。 研究はモデルの性能を総合的に評価した。 トレーニングの後半段階では、検証された損失と精度は最小限に変化し、モデルが過度な適合を避け、優れた一般化能力を示すことを示す。 このモデルは、パラメータが最小ではないにもかかわらず、全ての実験で最速の収束を示した。 これは軽量な注意フレームワークとしてのモデルの有効性を強調し、パフォーマンスを損なうことなく迅速に収束する効率を示している。

Despite the remarkable results of deep learning in breast cancer histopathology image classification, challenges such as data imbalance and interpretability still exist and require cross-domain knowledge and collaboration among medical experts. This study proposes a breast cancer classification method using a dual-activated lightweight attention ResNet50 model, effectively addressing data imbalance and interpretability challenges. The model fuses a pre-trained deep ResNet50 and a lightweight attention mechanism to accomplish classification by embedding an attention module in layer 4 of ResNet50 and adding two fully connected layers. The fully connected network design employs LeakyReLU and ReLU activation functions. The model outperforms SEResNet50, DensNet121, VGG16, VGG16Inception, ViT, Swin- Transformer, Dinov2_Vitb14, and ResNet50 models regarding precision, accuracy, recall, F1 score, and GMean, especially in the application performance on the BreakHis dataset. In particular, the model demonstrates significant robustness and broad applicability when dealing with the unbalanced breast cancer dataset. The model has been evaluated on histopathology images at magnification factors of 40X, 100X, 200X, and 400X, achieving accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. The study comprehensively assessed the model's performance. In the later stages of training, the validated losses and accuracies change minimally, showing that the model avoids overfitting and exhibits good generalization ability. This model exhibited the fastest convergence in all laboratory experiments, even though its parameters are not the smallest. This highlights the model's efficacy as a lightweight attention framework, showcasing its efficiency in achieving rapid convergence without compromising performance.
翻訳日:2023-12-27 22:10:51 公開日:2023-12-23
# SwinLSTM:Swin TransformerとLSTMを用いた時空間予測精度の向上

SwinLSTM:Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTM ( http://arxiv.org/abs/2308.09891v2 )

ライセンス: Link先を確認
Song Tang, Chuang Li, Pu Zhang, RongNian Tang(参考訳) 時空間依存を捉えるためにCNNとRNNを統合することは時空間予測タスクの一般的な戦略である。 しかし、局所的な空間情報を学ぶcnnの特性は、時空間依存を捉える際の効率を低下させ、予測精度を低下させる。 本稿では,swainトランスフォーマーブロックと簡易lstmを統合した新しいリカレントセルであるswainlstmと,convlstmの畳み込み構造を自己着脱機構に置き換える拡張型lstmを提案する。 さらに,時空間予測のコアとしてSwinLSTMセルを用いたネットワークを構築する。 SwinLSTMは独自のトリックを使わずに、MNIST、Human3.6m、TaxiBJ、KTHデータセットの最先端の手法より優れている。 特に、ConvLSTMに比べて予測精度が大幅に向上している。 比較実験の結果,世界空間依存の学習は,時空間依存を捉えるモデルにとってより有利であることが示された。 swinlstmが時空間予測精度の向上を促進するための確固たるベースラインとなることを願っている。 コードはhttps://github.com/SongTang-x/SwinLSTMで公開されている。

Integrating CNNs and RNNs to capture spatiotemporal dependencies is a prevalent strategy for spatiotemporal prediction tasks. However, the property of CNNs to learn local spatial information decreases their efficiency in capturing spatiotemporal dependencies, thereby limiting their prediction accuracy. In this paper, we propose a new recurrent cell, SwinLSTM, which integrates Swin Transformer blocks and the simplified LSTM, an extension that replaces the convolutional structure in ConvLSTM with the self-attention mechanism. Furthermore, we construct a network with SwinLSTM cell as the core for spatiotemporal prediction. Without using unique tricks, SwinLSTM outperforms state-of-the-art methods on Moving MNIST, Human3.6m, TaxiBJ, and KTH datasets. In particular, it exhibits a significant improvement in prediction accuracy compared to ConvLSTM. Our competitive experimental results demonstrate that learning global spatial dependencies is more advantageous for models to capture spatiotemporal dependencies. We hope that SwinLSTM can serve as a solid baseline to promote the advancement of spatiotemporal prediction accuracy. The codes are publicly available at https://github.com/SongTang-x/SwinLSTM.
翻訳日:2023-12-27 22:07:59 公開日:2023-12-23
# DST-Det: オープンボキャブラリ物体検出のための簡易動的自己訓練

DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2310.01393v2 )

ライセンス: Link先を確認
Shilin Xu, Xiangtai Li, Size Wu, Wenwei Zhang, Yining Li, Guangliang Cheng, Yunhai Tong, Kai Chen, Chen Change Loy(参考訳) Open-vocabulary Object Detection (OVOD) は、トレーニング中に観察されるクラス以外のオブジェクトを検出することを目的としている。 この研究は、CLIPのような事前訓練された視覚言語モデル(VLM)のゼロショット分類能力を活用して、新しいクラスの提案を直接発見する単純な効果的な戦略を示す。 学習中に新しいクラスを無視し、新しいオブジェクト検出のための地域提案ネットワーク(RPN)にのみ依存する従来の研究とは異なり、本手法は特定の設計基準に基づいて提案を選択的にフィルタリングする。 特定された提案のセットは、トレーニングフェーズ中に潜在的な新規クラスの擬似ラベルとして機能する。 この自己学習戦略は、追加のアノテーションやデータセットを必要とせずに、新規クラスのリコールと精度を向上させる。 さらに,物体検出装置を洗練するための簡易オフライン擬似ラベル生成戦略を提案する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、推論中に追加のパラメータや計算コストを発生させることなく、ベースラインのパフォーマンスを大幅に改善したことを示している。 特に,従来のF-VLMと比較して,LVISデータセットの1.7\%の改善を実現している。 また、最近の挑戦的なV3Detデータセットで6.5\%の改善も達成しています。 近年のCLIPSelfと組み合わせることで,COCO上で46.7の新たなクラスAPを達成できる。

Open-vocabulary object detection (OVOD) aims to detect the objects beyond the set of classes observed during training. This work presents a simple yet effective strategy that leverages the zero-shot classification ability of pre-trained vision-language models (VLM), such as CLIP, to directly discover proposals of possible novel classes. Unlike previous works that ignore novel classes during training and rely solely on the region proposal network (RPN) for novel object detection, our method selectively filters proposals based on specific design criteria. The resulting sets of identified proposals serve as pseudo-labels of potential novel classes during the training phase. This self-training strategy improves the recall and accuracy of novel classes without requiring additional annotations or datasets. We further propose a simple offline pseudo-label generation strategy to refine the object detector. Empirical evaluations on three datasets, including LVIS, V3Det, and COCO, demonstrate significant improvements over the baseline performance without incurring additional parameters or computational costs during inference. In particular, compared with previous F-VLM, our method achieves a 1.7\% improvement on the LVIS dataset. We also achieve over 6.5\% improvement on the recent challenging V3Det dataset. When combined with the recent method CLIPSelf, our method also achieves 46.7 novel class AP on COCO without introducing extra data for pertaining.
翻訳日:2023-12-27 21:57:46 公開日:2023-12-23
# 有毒ウサギの穴を壊す:palm 2ガードレールの調査

Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails ( http://arxiv.org/abs/2309.06415v3 )

ライセンス: Link先を確認
Adel Khorramrouz and Sujan Dutta and Arka Dutta and Ashiqur R. KhudaBukhsh(参考訳) 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。 ステレオタイプから始めて、このフレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するよう指示する。 その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。 当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容がいくつか見出されている。 我々は、このフレームワークが他の8つの大きな言語モデルにまたがる一般化可能性について簡単に論じる。

This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe. We briefly discuss the generalizability of this framework across eight other large language models.
翻訳日:2023-12-27 21:53:44 公開日:2023-12-23
# DeTiME:エンコーダデコーダを用いた拡散強調トピックモデリング

DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM ( http://arxiv.org/abs/2310.15296v2 )

ライセンス: Link先を確認
Weijie Xu, Wenxiang Hu, Fanyou Wu, Srinivasan Sengamedu(参考訳) 自然言語処理(NLP)、ニューラルトピックモデル(NTM)、大規模言語モデル(LLM)、拡散モデル(Diffusion model)の急成長は、重要な研究分野として現れている。 それにもかかわらず、NTMは主に、クラスタリングやトピックベースのテキスト生成に最適ではないLCMからのコンテキスト埋め込みを利用する。 NTMはテキスト生成のための拡散モデルと組み合わされたことはない。 本研究では,Encoder-Decoder-based LLMs (DeTiME) を用いた拡散拡張トピックモデリングという新しいフレームワークを導入することで,これらのギャップに対処する。 DeTiME は Encoder-Decoder ベースの LLM を利用して高度にクラスタ化可能な埋め込みを生成する。 さらに,拡散モデルのパワーを活用することで,話題ベースのテキスト生成を行う能力も提供する。 この2つの機能により、ユーザは高度にクラスタ化されたトピックとトピックベースのテキスト生成を同時に生成できる。 DeTiMEのポテンシャルは、クラスタ化された埋め込みの生成にも及んでいる。 特に,提案するフレームワーク(エンコーダ-デコーダベースLLMおよび拡散モデル)は,訓練に効率的であることが証明され,他のLLMや拡散モデルに高い適応性を示し,幅広い応用の可能性を示す。

In the burgeoning field of natural language processing (NLP), Neural Topic Models (NTMs) , Large Language Models (LLMs) and Diffusion model have emerged as areas of significant research interest. Despite this, NTMs primarily utilize contextual embeddings from LLMs, which are not optimal for clustering or capable for topic based text generation. NTMs have never been combined with diffusion model for text generation. Our study addresses these gaps by introducing a novel framework named Diffusion-Enhanced Topic Modeling using Encoder-Decoder-based LLMs (DeTiME). DeTiME leverages Encoder-Decoder-based LLMs to produce highly clusterable embeddings that could generate topics that exhibit both superior clusterability and enhanced semantic coherence compared to existing methods. Additionally, by exploiting the power of diffusion model, our framework also provides the capability to do topic based text generation. This dual functionality allows users to efficiently produce highly clustered topics and topic based text generation simultaneously. DeTiME's potential extends to generating clustered embeddings as well. Notably, our proposed framework(both encoder-decoder based LLM and diffusion model) proves to be efficient to train and exhibits high adaptability to other LLMs and diffusion model, demonstrating its potential for a wide array of applications.
翻訳日:2023-12-27 21:44:54 公開日:2023-12-23
# rethinkingtmsc:ターゲット指向マルチモーダル感情分類の実証的研究

RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal Sentiment Classification ( http://arxiv.org/abs/2310.09596v2 )

ライセンス: Link先を確認
Junjie Ye, Jie Zhou, Junfeng Tian, Rui Wang, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 近年,ターゲット指向型マルチモーダル感性分類 (TMSC) が注目されている。 しかし、現在のマルチモーダルモデルはパフォーマンスボトルネックに達している。 この問題の原因を調査するために、データセットの広範な実験的評価と詳細な分析を行い、以下の質問に答える。 Q2: どのマルチモーダル融合モジュールがより効果的か? Q3: 既存のデータセットは研究を適切にサポートしていますか? 我々の実験と分析により、現在のtmscシステムは主にテキストモダリティに依存しており、ターゲットの感情の大部分はテキストのみによって決定できることが明らかとなった。 そこで本研究では,モデル設計とデータセット構築の観点から,TMSCタスクの取り組み方について述べる。 コードとデータはhttps://github.com/Junjie-Ye/RethinkingTMSCにある。

Recently, Target-oriented Multimodal Sentiment Classification (TMSC) has gained significant attention among scholars. However, current multimodal models have reached a performance bottleneck. To investigate the causes of this problem, we perform extensive empirical evaluation and in-depth analysis of the datasets to answer the following questions: Q1: Are the modalities equally important for TMSC? Q2: Which multimodal fusion modules are more effective? Q3: Do existing datasets adequately support the research? Our experiments and analyses reveal that the current TMSC systems primarily rely on the textual modality, as most of targets' sentiments can be determined solely by text. Consequently, we point out several directions to work on for the TMSC task in terms of model design and dataset construction. The code and data can be found in https://github.com/Junjie-Ye/RethinkingTMSC.
翻訳日:2023-12-27 21:41:57 公開日:2023-12-23
# バイモーダル畳み込みニューラルネットワークを用いた言語・生理データストリームの認識検出

Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks ( http://arxiv.org/abs/2311.10944v2 )

ライセンス: Link先を確認
Panfeng Li, Mohamed Abouelenien, Rada Mihalcea(参考訳) 倫理的およびセキュリティ上の懸念から、詐欺検出への関心が高まっている。 本稿では,畳み込みニューラルネットワークのマルチモーダルデセプション検出への応用について検討する。 104名の被験者に2つのトピックについてインタビューし、各トピックについて各トピックから真理と偽の回答を得たデータセットを使用する。 特に、主な貢献は3つあります。 まず,このデータから言語的・生理的特徴を抽出し,ニューラルネットワークモデルを訓練・構築する。 第2に,両モードを用いた畳み込み畳み込みニューラルネットワークモデルを提案する。 第3に,マルチモーダル・デセプション検出のための従来の手法と比較した。 また,本システムは正規分類法よりも優れており,限られた量のデータが存在する場合でも,ニューラルネットワークを用いた誤認検出が実現可能であることを示唆する。

Deception detection is gaining increasing interest due to ethical and security concerns. This paper explores the application of convolutional neural networks for the purpose of multimodal deception detection. We use a dataset built by interviewing 104 subjects about two topics, with one truthful and one falsified response from each subject about each topic. In particular, we make three main contributions. First, we extract linguistic and physiological features from this data to train and construct the neural network models. Second, we propose a fused convolutional neural network model using both modalities in order to achieve an improved overall performance. Third, we compare our new approach with earlier methods designed for multimodal deception detection. We find that our system outperforms regular classification methods; our results indicate the feasibility of using neural networks for deception detection even in the presence of limited amounts of data.
翻訳日:2023-12-27 21:34:31 公開日:2023-12-23
# OpenStereo: ステレオマッチングと強力なベースラインのための総合ベンチマーク

OpenStereo: A Comprehensive Benchmark for Stereo Matching and Strong Baseline ( http://arxiv.org/abs/2312.00343v3 )

ライセンス: Link先を確認
Xianda Guo, Juntao Lu, Chenming Zhang, Yiqi Wang, Yiqun Duan, Tian Yang, Zheng Zhu, Long Chen(参考訳) コンピュータビジョンにおける重要な技術であるステレオマッチングは、ロボット工学、自律ナビゲーション、拡張現実において重要な役割を果たす。 近年、数多くの印象的な手法が開発されているにもかかわらず、その結果を複製し、実用的なアプリケーションに適したアーキテクチャを決定することは依然として困難である。 このギャップに対処するため,本論文では,性能向上に留まらず,実用性に焦点をあてた総合ベンチマークを提案する。 具体的には,OpenStereoと呼ばれる,柔軟で効率的なステレオマッチングコードベースを開発する。 openstereoには12以上のネットワークモデルのトレーニングと推論コードが含まれており、私たちの知る限り、最も完全なステレオマッチングツールボックスです。 OpenStereoをベースにSceneFlowデータセットの実験を行い、元の論文で報告されたパフォーマンス指標を達成または超えた。 さらに,最近のステレオマッチングの進展を,アブレーション実験によって詳細に再検討する。 これらの調査は、シンプルだが強力なベースラインモデルであるStereoBaseの開発にインスピレーションを与えた。 SceneFlowデータセット上での多数のステレオマッチング手法に対するStereoBaseの広範な比較分析により,その顕著な性能が示された。 ソースコードはhttps://github.com/XiandaGuo/OpenStereoで入手できる。

Stereo matching, a pivotal technique in computer vision, plays a crucial role in robotics, autonomous navigation, and augmented reality. Despite the development of numerous impressive methods in recent years, replicating their results and determining the most suitable architecture for practical application remains challenging. Addressing this gap, our paper introduces a comprehensive benchmark focusing on practical applicability rather than solely on performance enhancement. Specifically, we develop a flexible and efficient stereo matching codebase, called OpenStereo. OpenStereo includes training and inference codes of more than 12 network models, making it, to our knowledge, the most complete stereo matching toolbox available. Based on OpenStereo, we conducted experiments on the SceneFlow dataset and have achieved or surpassed the performance metrics reported in the original paper. Additionally, we conduct an in-depth revisitation of recent developments in stereo matching through ablative experiments. These investigations inspired the creation of StereoBase, a simple yet strong baseline model. Our extensive comparative analyses of StereoBase against numerous contemporary stereo matching methods on the SceneFlow dataset demonstrate its remarkably strong performance. The source code is available at https://github.com/XiandaGuo/OpenStereo.
翻訳日:2023-12-27 21:21:19 公開日:2023-12-23
# 移動ナノ粒子の存在下での電磁界量子化

Electromagnetic field quantization in the presence of a moving nano-particle ( http://arxiv.org/abs/2311.18089v2 )

ライセンス: Link先を確認
Vahid Ameri, Alidad Askari, Morteza Rafiee, Mohammad Eghbai-Arani(参考訳) 運動するナノ粒子を半無限空間に含む系に適切なラグランジアンを考慮し、電磁場と物質場を定量化する。 吸収された電力放射の解析により、高速ナノ粒子が経験する量子摩擦は、ナノ粒子の放射能の散逸項として同定できることを示した。 移動ナノ粒子の吸収エネルギー放射を誘導し、静電粒子の吸収エネルギー放射と比較する。 2つの異なる温度シナリオを考慮し、運動するナノ粒子の吸収されたパワー放射が常に負の項を含むことが明確に示され、これは非接触量子摩擦によるパワー損失によるものである。

An appropriate Lagrangian is considered for a system comprising a moving nanoparticle in a semi-infinite space, and the electromagnetic and matter fields are quantized. Through an analysis of the absorbed power radiation, it is demonstrated that the quantum friction experienced by high-velocity nanoparticles can be identified as a dissipative term in the radiation power of the nanoparticle. The absorbed power radiation for a moving nanoparticle is derived and compared with that of a static one. By considering two different temperature scenarios, it is explicitly shown that the absorbed power radiation for a moving nanoparticle always contains a negative term in its power spectrum, which can be attributed to the power lost due to non-contact quantum friction.
翻訳日:2023-12-27 21:21:02 公開日:2023-12-23
# VLNは非感覚的または無関係な指示による作業の事前訓練を行っているか?

Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions? ( http://arxiv.org/abs/2311.17280v4 )

ライセンス: Link先を確認
Wang Zhu, Ishika Singh, Yuan Huang, Robin Jia and Jesse Thomason(参考訳) バックトランスレーションによるデータ拡張は、生成した命令がノイズであっても、Vision-and-Language Navigation (VLN)モデルを事前訓練する場合に一般的である。 しかし、そのノイズは重要か? R2R上のHAMTとVLN-BERTの両方のダウンストリーム性能には,事前学習中の非感覚的あるいは無関係な言語命令がほとんど影響しないことがわかった。 これらの結果を評価するために、下流の性能を改善する非感覚的な命令を生成する効率的な拡張手法Unigram + Objectを考案した。 以上の結果から,VLN R2R事前訓練で重要なことは,指示の質ではなく,視線量であることが示唆された。

Data augmentation via back-translation is common when pretraining Vision-and-Language Navigation (VLN) models, even though the generated instructions are noisy. But: does that noise matter? We find that nonsensical or irrelevant language instructions during pretraining can have little effect on downstream performance for both HAMT and VLN-BERT on R2R, and is still better than only using clean, human data. To underscore these results, we concoct an efficient augmentation method, Unigram + Object, which generates nonsensical instructions that nonetheless improve downstream performance. Our findings suggest that what matters for VLN R2R pretraining is the quantity of visual trajectories, not the quality of instructions.
翻訳日:2023-12-27 21:20:09 公開日:2023-12-23
# 線形微分方程式をcarlemanとkoopman-von neumannによる量子アルゴリズムのためのschr\"{o}dinger方程式に写像する方法

How to Map Linear Differential Equations to Schr\"{o}dinger Equations via Carleman and Koopman-von Neumann Embeddings for Quantum Algorithms ( http://arxiv.org/abs/2311.15628v2 )

ライセンス: Link先を確認
Yuki Ito, Yu Tanaka, Keisuke Fujii(参考訳) 自由度が大きい線形および非線形微分方程式を解くことは、科学的および工業的応用にとって重要な課題である。 このような微分方程式を量子コンピュータ上で解くためには、古典変数を量子状態に組み込む必要がある。 カールマンとクープマン・フォン・ノイマンの埋め込みはこれまでに研究されているが、シュルンディンガー方程式に写像できる問題のクラスは線型微分方程式においてもよく理解されていない。 そこで本研究では,線形微分方程式をSchr\"{o}dinger方程式にマッピングし,量子コンピュータ上で解く条件について検討する。 興味深いことに、これらの条件はCarleman と Koopman-von Neumann の埋め込みと同一である。 また,可観測器の期待値の推定に関連する計算量を計算する。 これは状態準備の神託を仮定し、カールマンまたはクープマン・フォン・ノイマンの埋め込みを通して写像されたハミルトンンのブロック符号化を仮定し、$O(\log M)$ qubits with $M$は写像されたシステムサイズである。 さらに、一般の古典的二次ハミルトニアン力学を考察し、それをschr\"{o}dinger方程式に写像するのに十分な条件を見つける。 特別の場合、これは結合調和振動子モデル [Babbush et al., \cite{babbush_exponential_2023}] を含む。 また、結合調和振動子として説明できない具体的な例も見つかるが、我々のフレームワークの「シュル」{o}ディンガー方程式に写像できる。 これらの結果は、大自由度微分方程式を解くための量子アルゴリズムの構築において重要である。

Solving linear and nonlinear differential equations with large degrees of freedom is an important task for scientific and industrial applications. In order to solve such differential equations on a quantum computer, it is necessary to embed classical variables into a quantum state. While the Carleman and Koopman-von Neumann embeddings have been investigated so far, the class of problems that can be mapped to the Schr\"{o}dinger equation is not well understood even for linear differential equations. In this work, we investigate the conditions for linear differential equations to be mapped to the Schr\"{o}dinger equation and solved on a quantum computer. Interestingly, we find that these conditions are identical for both Carleman and Koopman-von Neumann embeddings. We also compute the computational complexity associated with estimating the expected values of an observable. This is done by assuming a state preparation oracle, block encoding of the mapped Hamiltonian via either Carleman or Koopman-von Neumann embedding, and block encoding of the observable using $O(\log M)$ qubits with $M$ is the mapped system size. Furthermore, we consider a general classical quadratic Hamiltonian dynamics and find a sufficient condition to map it into the Schr\"{o}dinger equation. As a special case, this includes the coupled harmonic oscillator model [Babbush et al., \cite{babbush_exponential_2023}]. We also find a concrete example that cannot be described as the coupled harmonic oscillator but can be mapped to the Schr\"{o}dinger equation in our framework. These results are important in the construction of quantum algorithms for solving differential equations of large-degree-of-freedom.
翻訳日:2023-12-27 21:19:28 公開日:2023-12-23
# Nav-Q:自動運転車の衝突回避ナビゲーションのための量子深部強化学習

Nav-Q: Quantum Deep Reinforcement Learning for Collision-Free Navigation of Self-Driving Cars ( http://arxiv.org/abs/2311.12875v2 )

ライセンス: Link先を確認
Akash Sinha, Antonio Macaluso, Matthias Klusch(参考訳) 自動運転車の衝突なしナビゲーション(cfn)のタスクは、通常深層強化学習(drl)を使用して取り組むnp問題である。 DRL法は有効であることが証明されているが、その実装には堅牢なエージェントを開発するために、かなりの計算資源と訓練期間が必要とされる。 一方で、量子強化学習は、単純な非現実環境において、より高速な収束と安定性の向上を最近実証している。 本研究では,自動運転車用CFNのための最初の量子支援型DRLアルゴリズムであるNav-Qを提案する。 Nav-Qはアクター批判的アプローチに基づいており、批判者は短期量子デバイスに適したハイブリッド量子古典アルゴリズムを用いて実装される。 CARLAドライビングシミュレータを用いて,最先端DRL手法の評価のためのデファクト標準ベンチマークであるNav-Qの性能を評価する。 我々の経験的評価では、Nav-Qはトレーニングの安定性やコンバージェンス率に関して古典的よりも優れている。 さらに,Nav-Qを有効次元で評価し,量子部品の組み込みにより,古典的ベースラインよりも説明力の高いモデルが得られることを明らかにした。 最後に、ノイズ量子シミュレーションを用いてNav-Qの性能を評価し、量子ノイズがトレーニング性能を劣化させるが、トレーニング中のエージェントの探索傾向を高める。

The task of collision-free navigation (CFN) of self-driving cars is an NP-hard problem usually tackled using Deep Reinforcement Learning (DRL). While DRL methods have proven to be effective, their implementation requires substantial computing resources and extended training periods to develop a robust agent. On the other hand, quantum reinforcement learning has recently demonstrated faster convergence and improved stability in simple, non-real-world environments. In this work, we propose Nav-Q, the first quantum-supported DRL algorithm for CFN of self-driving cars, that leverages quantum computation for improving the training performance without the requirement for onboard quantum hardware. Nav-Q is based on the actor-critic approach, where the critic is implemented using a hybrid quantum-classical algorithm suitable for near-term quantum devices. We assess the performance of Nav-Q using the CARLA driving simulator, a de facto standard benchmark for evaluating state-of-the-art DRL methods. Our empirical evaluations showcase that Nav-Q surpasses its classical counterpart in terms of training stability and, in certain instances, with respect to the convergence rate. Furthermore, we assess Nav-Q in relation to effective dimension, unveiling that the incorporation of a quantum component results in a model with greater descriptive power compared to classical baselines. Finally, we evaluate the performance of Nav-Q using noisy quantum simulation, observing that the quantum noise deteriorates the training performances but enhances the exploratory tendencies of the agent during training.
翻訳日:2023-12-27 21:18:33 公開日:2023-12-23
# semantic lens: ビデオ超解像のためのインスタンス中心の意味アライメント

Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution ( http://arxiv.org/abs/2312.07823v3 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao(参考訳) ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。 しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。 この問題に対して、劣化ビデオから引き出されたセマンティック・レンズのセマンティック・レンズという新しいパラダイムを導入する。 具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。 これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。 蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。 さらに,GPS(Global Perspective Shifter)とISEE(Instance-Specific Semantic Embedding Encoder)で構成される,ピクセルレベルの特徴を意味知識でブリッジするためのセマンティックス・パワード・アテンション・クロスエンベディング(SPACE)ブロックを考案した。 具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。 その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。 さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。 広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。

As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named Semantic Lens, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a Semantics-Powered Attention Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a Global Perspective Shifter (GPS) and an Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods.
翻訳日:2023-12-27 21:13:39 公開日:2023-12-23
# 集中摂動による移動可能な敵攻撃に向けて

Towards Transferable Adversarial Attacks with Centralized Perturbation ( http://arxiv.org/abs/2312.06199v2 )

ライセンス: Link先を確認
Shangbo Wu, Yu-an Tan, Yajie Wang, Ruinan Ma, Wencong Ma and Yuanzhang Li(参考訳) adversarial transferabilityは、未知の被害者ディープニューラルネットワーク(dnn)に対するブラックボックス攻撃を可能にし、現実世界のシナリオで実行可能な攻撃をレンダリングする。 現在の転送可能攻撃は、画像全体に敵対的な摂動を引き起こし、ソースモデルに過剰なノイズをもたらします。 モデルに依存しない支配的な画像領域に摂動を集中させることは、対向効果を改善するために重要である。 しかし、空間領域内の局所領域への摂動の制限は、転送可能性の増大に不十分であることを示す。 そこで本研究では,周波数領域に細粒度摂動最適化を施した移動可能な逆攻撃を提案し,集中摂動を生成する。 摂動最適化を支配的周波数係数に動的に制約する系統的パイプラインを考案する。 制約は各イテレーションで並列に最適化され、モデル予測と摂動最適化の方向アライメントを保証する。 提案手法により,DNNが共有するサンプル固有の重要な周波数特徴に対する摂動を集中化し,ソースモデルの過度な適合を効果的に緩和する。 実験により, 支配周波数係数に摂動を動的に集中させることにより, 対向型実例はより強い伝達性を示し, 種々の防御を回避できることが示されている。

Adversarial transferability enables black-box attacks on unknown victim deep neural networks (DNNs), rendering attacks viable in real-world scenarios. Current transferable attacks create adversarial perturbation over the entire image, resulting in excessive noise that overfit the source model. Concentrating perturbation to dominant image regions that are model-agnostic is crucial to improving adversarial efficacy. However, limiting perturbation to local regions in the spatial domain proves inadequate in augmenting transferability. To this end, we propose a transferable adversarial attack with fine-grained perturbation optimization in the frequency domain, creating centralized perturbation. We devise a systematic pipeline to dynamically constrain perturbation optimization to dominant frequency coefficients. The constraint is optimized in parallel at each iteration, ensuring the directional alignment of perturbation optimization with model prediction. Our approach allows us to centralize perturbation towards sample-specific important frequency features, which are shared by DNNs, effectively mitigating source model overfitting. Experiments demonstrate that by dynamically centralizing perturbation on dominating frequency coefficients, crafted adversarial examples exhibit stronger transferability, and allowing them to bypass various defenses.
翻訳日:2023-12-27 21:10:17 公開日:2023-12-23
# 高次元逆問題における不確かさ量子化のためのランダム化物理インフォームド機械学習

Randomized Physics-Informed Machine Learning for Uncertainty Quantification in High-Dimensional Inverse Problems ( http://arxiv.org/abs/2312.06177v2 )

ライセンス: Link先を確認
Yifei Zong and David Barajas-Solano and Alexandre M. Tartakovsky(参考訳) 本研究では,高次元逆問題における不確実性定量化のための物理インフォームド機械学習手法を提案する。 この方法では、偏微分方程式 (PDE) の状態とパラメータは、各変数の測定値に一致する構成条件のKarhunen-Lo\`eve展開 (CKLE) と近似される。 逆問題の最大アフター解(MAP)は、損失関数がPDE残差のノルムと$\ell_2$正規化項の和である CKLE 係数上の最小化問題として定式化される。 このMAP定式化は物理インフォームドCKLE(PICKLE)法として知られている。 逆解の不確かさは、CKLE係数の後方分布の観点から定量化され、PICKLE損失関数にゼロ平均ガウス摂動を加えて定式化したランダム化PICKLE最小化問題を解くことにより、後方をサンプリングする。 提案手法をランダム化PICKLE (rPICKLE) 手法と呼ぶ。 線形および低次元非線形問題(15 CKLEパラメータ)に対しては、解析的およびハミルトンモンテカルロ (HMC) との比較により、rPICKLE はベイズ則によって与えられる真の後続に収束する。 2000ククルのパラメータを持つ高次元非線形問題に対して,ピクルス後段が極めて有益であることを数値的に証明し,地図解による推定値とほぼ基準解をカバーする信頼区間に匹敵する精度で平均推定値を与える。 我々は,高次元問題に対するHMCの計算コストの禁止により,rPICKLEの真の後方への収束性を検証するために,HMC後部を得ることができない。 本研究は, 物理制約下での高次元後方分布をおよそサンプリングする上で, rPICKLE の HMC に対する利点を示すものである。

We propose a physics-informed machine learning method for uncertainty quantification in high-dimensional inverse problems. In this method, the states and parameters of partial differential equations (PDEs) are approximated with truncated conditional Karhunen-Lo\`eve expansions (CKLEs), which, by construction, match the measurements of the respective variables. The maximum a posteriori (MAP) solution of the inverse problem is formulated as a minimization problem over CKLE coefficients where the loss function is the sum of the norm of PDE residuals and the $\ell_2$ regularization term. This MAP formulation is known as the physics-informed CKLE (PICKLE) method. Uncertainty in the inverse solution is quantified in terms of the posterior distribution of CKLE coefficients, and we sample the posterior by solving a randomized PICKLE minimization problem, formulated by adding zero-mean Gaussian perturbations in the PICKLE loss function. We call the proposed approach the randomized PICKLE (rPICKLE) method. For linear and low-dimensional nonlinear problems (15 CKLE parameters), we show analytically and through comparison with Hamiltonian Monte Carlo (HMC) that the rPICKLE posterior converges to the true posterior given by the Bayes rule. For high-dimensional non-linear problems with 2000 CKLE parameters, we numerically demonstrate that rPICKLE posteriors are highly informative--they provide mean estimates with an accuracy comparable to the estimates given by the MAP solution and the confidence interval that mostly covers the reference solution. We are not able to obtain the HMC posterior to validate rPICKLE's convergence to the true posterior due to the HMC's prohibitive computational cost for the considered high-dimensional problems. Our results demonstrate the advantages of rPICKLE over HMC for approximately sampling high-dimensional posterior distributions subject to physics constraints.
翻訳日:2023-12-27 21:09:55 公開日:2023-12-23
# アンサンブルカルマンフィルタによるガウス過程状態空間モデルの変分推論

Ensemble Kalman Filtering-Aided Variational Inference for Gaussian Process State-Space Models ( http://arxiv.org/abs/2312.05910v2 )

ライセンス: Link先を確認
Zhidi Lin and Yiyong Sun and Feng Yin and Alexandre Hoang Thi\'ery(参考訳) ガウス過程状態空間モデル(GPSSM)は動的システムをモデル化するための柔軟で原則化されたアプローチである。 しかし、既存のGPSSMの変分学習と推論手法では、かなりの数の変分分布パラメータを最適化する必要があることが多く、性能と効率が不十分である。 この問題を解決するために,モデルベースフィルタリング手法であるアンサンブル・カルマンフィルタ(EnKF)を変分推論フレームワークに組み込んで,潜時状態の後方分布を近似する手法を提案する。 このEnKFの利用は、変分分布のパラメータ化を不要にしつつ、潜時状態とGPダイナミクスの依存関係を効果的に活用し、変動パラメータの数を著しく削減できる。 さらに,提案アルゴリズムは,複数の項を簡単な閉形式解で要約することで,近似的エビデンスローバウンド(ELBO)を変分推論で容易に評価できることを示す。 自動微分ツールを活用することで、ELBOを最大化し、GPSSMを効率的に訓練することができる。 また,提案アルゴリズムをオンライン環境に拡張し,詳細なアルゴリズム解析と洞察を提供する。 多様な実・合成データセットに対する広範囲な評価は、既存の手法と比較して学習・推論性能の点で、我々のEnKF支援変分推論アルゴリズムの優位性を示している。

Gaussian process state-space models (GPSSMs) are a flexible and principled approach for modeling dynamical systems. However, existing variational learning and inference methods for GPSSMs often necessitate optimizing a substantial number of variational distribution parameters, leading to inadequate performance and efficiency. To overcome this issue, we propose incorporating the ensemble Kalman filter (EnKF), a well-established model-based filtering technique, into the variational inference framework to approximate the posterior distribution of latent states. This utilization of EnKF can effectively exploit the dependencies between latent states and GP dynamics, while eliminating the need for parameterizing the variational distribution, thereby significantly reducing the number of variational parameters. Moreover, we show that our proposed algorithm allows straightforward evaluation of an approximated evidence lower bound (ELBO) in variational inference via simply summating multiple terms with readily available closed-form solutions. Leveraging automatic differentiation tools, we hence can maximize the ELBO and train the GPSSM efficiently. We also extend the proposed algorithm to an online setting and provide detailed algorithmic analyses and insights. Extensive evaluation on diverse real and synthetic datasets demonstrates the superiority of our EnKF-aided variational inference algorithms in terms of learning and inference performance compared to existing methods.
翻訳日:2023-12-27 21:09:21 公開日:2023-12-23
# 効率的な大規模言語モデル:調査

Efficient Large Language Models: A Survey ( http://arxiv.org/abs/2312.03863v2 )

ライセンス: Link先を確認
Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Jiachen Liu, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, Mosharaf Chowdhury, Mi Zhang(参考訳) 大言語モデル(LLM)は、自然言語理解、言語生成、複雑な推論といった重要なタスクにおいて顕著な能力を示し、社会に大きな影響を与える可能性がある。 しかし、このような能力は、彼らが要求する膨大なリソースを伴い、効率の課題に対処する効果的な技術を開発することの強い必要性を強調している。 本調査では,効率的なLLM研究の体系的,包括的レビューを行う。 論文は3つの主要なカテゴリからなる分類学で編成され、それぞれモデル中心、データ中心、フレームワーク中心の観点から、相互に相互に相互に連携する効率的なLLMトピックを網羅する。 私たちはまた、GitHubリポジトリを作成し、この調査で紹介された論文をhttps://github.com/AIoT-MLSys-Lab/EfficientLLMsでコンパイルしました。 我々の調査は、研究者や実践者が効率的なLLMにおける研究の体系的な理解を得て、この重要かつエキサイティングな分野に貢献するための貴重な情報源となることを願っています。

Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding, language generation, and complex reasoning and have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges. In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we compile the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/EfficientLLMs, and will actively maintain this repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of the research developments in efficient LLMs and inspire them to contribute to this important and exciting field.
翻訳日:2023-12-27 21:08:59 公開日:2023-12-23
# 部分観測による制約付きベイズ最適化:バランス改善と予測収束

Constrained Bayesian Optimization Under Partial Observations: Balanced Improvements and Provable Convergence ( http://arxiv.org/abs/2312.03212v2 )

ライセンス: Link先を確認
Shengbo Wang and Ke Li(参考訳) 部分的に観測可能な制約付き最適化問題(POCOP)は、POCOPの実用不可能なソリューションが目的と制約に関する情報をほとんど提供できないため、データ駆動最適化技術を妨げる。 我々は、制約付きベイズ最適化の枠組みの下で、高価なPOCOPの効率的かつ証明可能な手法を設計する。 本手法は2つの主成分からなる。 まず,最適化時のバランスの取れた探索を取り入れた取得関数の設計を改良した。 本設計の収束特性を厳密に研究し,その有効性を実証する。 次に,部分可観測制約に対するサロゲートモデルとして,異なる可能性を埋め込むガウス過程を提案する。 このモデルは、従来の分類に基づくモデルと比較して、実現可能な領域のより正確な表現につながる。 提案手法は合成問題と実世界問題の両方について実験的に研究されている。 以上の結果から,POCOPの解法における競合性を実証した。

The partially observable constrained optimization problems (POCOPs) impede data-driven optimization techniques since an infeasible solution of POCOPs can provide little information about the objective as well as the constraints. We endeavor to design an efficient and provable method for expensive POCOPs under the framework of constrained Bayesian optimization. Our method consists of two key components. Firstly, we present an improved design of the acquisition functions that introduces balanced exploration during optimization. We rigorously study the convergence properties of this design to demonstrate its effectiveness. Secondly, we propose a Gaussian process embedding different likelihoods as the surrogate model for a partially observable constraint. This model leads to a more accurate representation of the feasible regions compared to traditional classification-based models. Our proposed method is empirically studied on both synthetic and real-world problems. The results demonstrate the competitiveness of our method for solving POCOPs.
翻訳日:2023-12-27 21:08:00 公開日:2023-12-23
# C-NERF:方向整合差に基づくNRFによるシーン変化の表現

C-NERF: Representing Scene Changes as Directional Consistency Difference-based NeRF ( http://arxiv.org/abs/2312.02751v2 )

ライセンス: Link先を確認
Rui Huang (1), Binbin Jiang (1), Qingyi Zhao (1), William Wang, Yuxiang Zhang (1), Qing Guo (2 and 3) ((1) College of Computer Science and Technology, Civil Aviation University of China, China, (2) IHPC, Agency for Science, Technology and Research, Singapore, (3) CFAR, Agency for Science, Technology and Research, Singapore)(参考訳) 本研究では,ニューラルラジアンス場(NeRF)で表されるシーンにおいて,物体の変動に起因する変化を検出することを目的とする。 任意のビューと異なるタイムスタンプでキャプチャされた2セットのシーンイメージが与えられた場合、そのビューのシーン変化を予測することができる。 予備研究を行い, 既存のnerfと2次元変化検出法を用いて, 誤検出や欠落検出を多用することにより, その課題を容易に達成できないことを発見した。 主な理由は、2次元変化検出が空間整列画像対間の画素外観差に基づいており、NeRFのステレオ情報を無視するからである。 この制約に対処するため,C-NERFは,主に3つのモジュールを含む方向整合性差分に基づくNeRFとしてシーン変化を表現する。 まず,変化前後に捕獲した2つのNeRFの空間的アライメントを行う。 そして,方向整合性制約に基づいて変化点を識別する。つまり,実際の変化点はビュー方向をまたいだ同様の変化表現を持つが,フェイクな変化点は持たない。 最後に、構築したNeRFに基づいて変更マップの描画プロセスを設計し、任意に指定されたビュー方向の変化マップを生成する。 有効性を検証するために、異なる変更対象を持つ多様なシナリオをカバーする10のシーンを含む新しいデータセットを構築します。 提案手法は,最先端の2次元変化検出法とNeRF法を有意差で上回っている。

In this work, we aim to detect the changes caused by object variations in a scene represented by the neural radiance fields (NeRFs). Given an arbitrary view and two sets of scene images captured at different timestamps, we can predict the scene changes in that view, which has significant potential applications in scene monitoring and measuring. We conducted preliminary studies and found that such an exciting task cannot be easily achieved by utilizing existing NeRFs and 2D change detection methods with many false or missing detections. The main reason is that the 2D change detection is based on the pixel appearance difference between spatial-aligned image pairs and neglects the stereo information in the NeRF. To address the limitations, we propose the C-NERF to represent scene changes as directional consistency difference-based NeRF, which mainly contains three modules. We first perform the spatial alignment of two NeRFs captured before and after changes. Then, we identify the change points based on the direction-consistent constraint; that is, real change points have similar change representations across view directions, but fake change points do not. Finally, we design the change map rendering process based on the built NeRFs and can generate the change map of an arbitrarily specified view direction. To validate the effectiveness, we build a new dataset containing ten scenes covering diverse scenarios with different changing objects. Our approach surpasses state-of-the-art 2D change detection and NeRF-based methods by a significant margin.
翻訳日:2023-12-27 21:07:22 公開日:2023-12-23
# 深層学習における香り, 強靭性, 抗フラグ性

Fragility, Robustness and Antifragility in Deep Learning ( http://arxiv.org/abs/2312.09821v2 )

ライセンス: Link先を確認
Chandresh Pravin, Ivan Martino, Giuseppe Nicosia, Varun Ojha(参考訳) ネットワークパラメータ除去のための信号処理技術に基づくディープニューラルネットワーク(DNN)の系統的解析を,DNNパラメータの脆弱性,堅牢性,および反脆弱性特性を識別するシナプスフィルタの形で提案する。 提案分析は,DNNがシナプスフィルタリングを行う場合,DNNの性能が,クリーンかつ逆向きに摂動されたテストデータセットに負,不変,あるいは正の影響を及ぼすか否かを調べた。 DNNパラメータの脆弱性、堅牢性、および反脆弱性特性を定量化するための3つの「textit{filtering scores」を定義する。 (i)クリーンデータセット。 (二)敵対的データセット、及び (iii)クリーンデータセットと逆データセットのパフォーマンスの違い。 我々は、MNIST、CIFAR10、Tiny ImageNetデータセットのためのResNet-18、ResNet-50、SqueezeNet-v1.1およびShuffleNet V2 x1.0ネットワークアーキテクチャの体系的解析を検証した。 フィルタリングスコアは、所定のネットワークアーキテクチャにおいて、学習時代の異なるデータセットにまたがる特性に不変なネットワークパラメータを識別する。 逆に、あるデータセットに対して、フィルタリングスコアは、異なるネットワークアーキテクチャにまたがる特性に不変なパラメータを識別する。 提案手法は,任意のエポックでロバストパラメータと反フレジブルパラメータのみを選択的に再トレーニングした場合に,ResNetとShuffleNetモデルのテスト精度を向上させることを示し,モデルロバスト性向上のための提案手法の適用性を実証する。

We propose a systematic analysis of deep neural networks (DNNs) based on a signal processing technique for network parameter removal, in the form of synaptic filters that identifies the fragility, robustness and antifragility characteristics of DNN parameters. Our proposed analysis investigates if the DNN performance is impacted negatively, invariantly, or positively on both clean and adversarially perturbed test datasets when the DNN undergoes synaptic filtering. We define three \textit{filtering scores} for quantifying the fragility, robustness and antifragility characteristics of DNN parameters based on the performances for (i) clean dataset, (ii) adversarial dataset, and (iii) the difference in performances of clean and adversarial datasets. We validate the proposed systematic analysis on ResNet-18, ResNet-50, SqueezeNet-v1.1 and ShuffleNet V2 x1.0 network architectures for MNIST, CIFAR10 and Tiny ImageNet datasets. The filtering scores, for a given network architecture, identify network parameters that are invariant in characteristics across different datasets over learning epochs. Vice-versa, for a given dataset, the filtering scores identify the parameters that are invariant in characteristics across different network architectures. We show that our synaptic filtering method improves the test accuracy of ResNet and ShuffleNet models on adversarial datasets when only the robust and antifragile parameters are selectively retrained at any given epoch, thus demonstrating applications of the proposed strategy in improving model robustness.
翻訳日:2023-12-27 21:01:21 公開日:2023-12-23
# 脳にインスパイアされた機械知能:神経生物学上許容される信用課題の調査

Brain-Inspired Machine Intelligence: A Survey of Neurobiologically-Plausible Credit Assignment ( http://arxiv.org/abs/2312.09257v2 )

ライセンス: Link先を確認
Alexander G. Ororbia(参考訳) 本研究では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。 これらのプロセスは1つの可能な分類法の下に統一され、複雑な適応ニューロン系におけるシナプス可塑性のメカニズムを基礎とする学習アルゴリズムの解法に基づいて構築される。 この統合処理では、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、エラーのバックプロパゲーションとその既知の批判の文脈で検討する。 このレビューの結果は、ニューロミメティックシステムとその構成要素学習プロセスの将来の発展を促進することを目的としており、機械学習、計算神経科学、認知科学の強い橋渡しとなる重要な機会である。

In this survey, we examine algorithms for conducting credit assignment in artificial neural networks that are inspired or motivated by neurobiology. These processes are unified under one possible taxonomy, which is constructed based on how a learning algorithm answers a central question underpinning the mechanisms of synaptic plasticity in complex adaptive neuronal systems: where do the signals that drive the learning in individual elements of a network come from and how are they produced? In this unified treatment, we organize the ever-growing set of brain-inspired learning schemes into six general families and consider these in the context of backpropagation of errors and its known criticisms. The results of this review are meant to encourage future developments in neuro-mimetic systems and their constituent learning processes, wherein lies an important opportunity to build a strong bridge between machine learning, computational neuroscience, and cognitive science.
翻訳日:2023-12-27 20:59:55 公開日:2023-12-23
# 学習の調和:不変ネットワークに現れる普遍的フーリエ特徴

Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks ( http://arxiv.org/abs/2312.08550v2 )

ライセンス: Link先を確認
Giovanni Luca Marchetti, Christopher Hillar, Danica Kragic, Sophia Sanborn(参考訳) この研究において、ある条件下で、ニューラルネットワークが有限群に不変であれば、その重みはその群のフーリエ変換を回復することを正式に証明する。 これは、生物と人工学習システムの両方においてユビキタスな現象であるフーリエ特徴の出現に関する数学的説明を提供する。 結果は非可換群に対しても成り立ち、その場合フーリエ変換はすべての既約ユニタリ群表現を符号化する。 我々の発見は対称性発見の問題に影響を及ぼす。 具体的には、未知群の代数的構造は、ある境界内で少なくともほぼ不変であるネットワークの重みから回復できることを実証する。 全体として、この研究は不変ニューラルネットワーク表現の代数的学習理論の基礎に貢献する。

In this work, we formally prove that, under certain conditions, if a neural network is invariant to a finite group then its weights recover the Fourier transform on that group. This provides a mathematical explanation for the emergence of Fourier features -- a ubiquitous phenomenon in both biological and artificial learning systems. The results hold even for non-commutative groups, in which case the Fourier transform encodes all the irreducible unitary group representations. Our findings have consequences for the problem of symmetry discovery. Specifically, we demonstrate that the algebraic structure of an unknown group can be recovered from the weights of a network that is at least approximately invariant within certain bounds. Overall, this work contributes to a foundation for an algebraic learning theory of invariant neural network representations.
翻訳日:2023-12-27 20:56:46 公開日:2023-12-23
# 地域説明のグローバル・アグリゲーションの加速

Accelerating the Global Aggregation of Local Explanations ( http://arxiv.org/abs/2312.07991v2 )

ライセンス: Link先を確認
Alon Mor, Yonatan Belinkov, Benny Kimelfeld(参考訳) 局所的な説明手法は、手元にある文書の分類結果に大きな影響を与える入力トークンを強調します。 例えば、アンカーアルゴリズムはトークンの変更に対する分類器の感度の統計的分析を適用する。 データセットに局所的な説明を集約することで、モデルに関するグローバルな説明を提供する。 このような集約は、最も影響力のある単語を検出し、トレーニングで学んだことや、その弱点を明らかにする敵対的な例など、モデルに関する貴重な洞察を提供する。 しかし、標準的な集約手法は計算コストが高く、na\"ive実装は各文書の各トークンにコストのかかるアルゴリズムを適用するため、短い分析セッションの範囲内で実行される単純なユーザにとっては不可能である。 %Anchorアルゴリズムのグローバルアグリゲーションを高速化する手法を考案した。 具体的には、各アグリゲーション関数に応じて、最も高いグローバルインパクトを持つ上位k$ワードの集合を計算することを目的とする。 テクニックのいくつかは無損失で、いくつかは無損失です。 私たちは、非常に穏やかな品質低下のために、計算を最大30$\times$で加速することができ、計算を数時間から数分に短縮できることを示した。 また,アンカーアルゴリズムの雑音を考慮し,頻繁かつ影響の少ない単語に対するバイアスを減少させる確率モデルを開発し,検討する。

Local explanation methods highlight the input tokens that have a considerable impact on the outcome of classifying the document at hand. For example, the Anchor algorithm applies a statistical analysis of the sensitivity of the classifier to changes in the token. Aggregating local explanations over a dataset provides a global explanation of the model. Such aggregation aims to detect words with the most impact, giving valuable insights about the model, like what it has learned in training and which adversarial examples expose its weaknesses. However, standard aggregation methods bear a high computational cost: a na\"ive implementation applies a costly algorithm to each token of each document, and hence, it is infeasible for a simple user running in the scope of a short analysis session. % We devise techniques for accelerating the global aggregation of the Anchor algorithm. Specifically, our goal is to compute a set of top-$k$ words with the highest global impact according to different aggregation functions. Some of our techniques are lossless and some are lossy. We show that for a very mild loss of quality, we are able to accelerate the computation by up to 30$\times$, reducing the computation from hours to minutes. We also devise and study a probabilistic model that accounts for noise in the Anchor algorithm and diminishes the bias toward words that are frequent yet low in impact.
翻訳日:2023-12-27 20:55:42 公開日:2023-12-23
# 大規模言語モデル時代のユーザモデリング : 研究の現状と今後の方向性

User Modeling in the Era of Large Language Models: Current Research and Future Directions ( http://arxiv.org/abs/2312.11518v2 )

ライセンス: Link先を確認
Zhaoxuan Tan, Meng Jiang(参考訳) ユーザモデリング(um)は、プロファイル、好み、パーソナリティなど、特定のユーザの特性に関するユーザデータからパターンを発見し、あるいは表現を学習することを目的としている。 ユーザモデルは、レコメンデーション、教育、医療など多くのオンラインアプリケーションにおいて、パーソナライズと不審な検出を可能にする。 データは通常、大量のユーザ生成コンテンツ(UGC)とオンラインインタラクションを含むため、テキストとグラフの2つの一般的なタイプのユーザデータである。 テキストとグラフマイニングの研究は急速に発展し、過去20年で多くの注目すべき解決策に寄与した。 近年,大規模言語モデル (LLM) はテキストデータの生成,理解,推論において優れた性能を示している。 ユーザモデリングのアプローチにはLSMが組み込まれており、すぐに傑出したものとなる。 この記事では、LCMがUGCのモデリングと理解の優れたツールである方法と理由について、既存の研究を要約する。 次に、LLMをテキストやグラフベースのメソッドと異なる方法で統合する、ユーザモデリングのための大規模言語モデル(LLM-UM)のカテゴリをレビューする。 次に、様々なUMアプリケーションのための特定のLLM-UM技術を導入する。 最後に、LLM-UM研究における課題と今後の方向性を示す。 https://github.com/TamSiuhin/LLM-UM-Reading

User modeling (UM) aims to discover patterns or learn representations from user data about the characteristics of a specific user, such as profile, preference, and personality. The user models enable personalization and suspiciousness detection in many online applications such as recommendation, education, and healthcare. Two common types of user data are text and graph, as the data usually contain a large amount of user-generated content (UGC) and online interactions. The research of text and graph mining is developing rapidly, contributing many notable solutions in the past two decades. Recently, large language models (LLMs) have shown superior performance on generating, understanding, and even reasoning over text data. The approaches of user modeling have been equipped with LLMs and soon become outstanding. This article summarizes existing research about how and why LLMs are great tools of modeling and understanding UGC. Then it reviews a few categories of large language models for user modeling (LLM-UM) approaches that integrate the LLMs with text and graph-based methods in different ways. Then it introduces specific LLM-UM techniques for a variety of UM applications. Finally, it presents remaining challenges and future directions in the LLM-UM research. We maintain the reading list at: https://github.com/TamSiuhin/LLM-UM-Reading
翻訳日:2023-12-27 20:48:45 公開日:2023-12-23
# E2E-AT:タスク対応エンドツーエンド学習における不確実性に対処するための統一フレームワーク

E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware End-to-end Learning ( http://arxiv.org/abs/2312.10587v2 )

ライセンス: Link先を確認
Wangkun Xu and Jianhong Wang and Fei Teng(参考訳) 成功した機械学習には、データ、モデル、下流アプリケーションの完全なパイプラインが含まれる。 それらを別々に扱う代わりに、予測と最適化モデルを組み合わせるための制約付き最適化(co)と機械学習(ml)のコミュニティで注目が集まっている。 いわゆるエンドツーエンド(E2E)学習は、意思決定に使用するタスクベースの目的を捉えます。 様々なE2Eアルゴリズムが提案されているが、そのようなモデルにまつわる不確実性に体系的に対処する方法は十分に研究されていない。 既存の研究の多くは、入力空間におけるMLの不確実性を考慮し、敵の訓練を通じて堅牢性を向上させる。 我々は、このアイデアをe2e学習に拡張し、拡張整数プログラミングを解いて堅牢性証明手順があることを証明する。 さらに,訓練中にCOの不確かさを無視することが,一般化エラーの新たな引き金となることを示す。 これらすべてのコンポーネントを含めるために、MLモデルとCOの入力特徴空間に現れる不確実性をカバーする統一的なフレームワークを提案する。 このフレームワークは堅牢な最適化問題として説明され、エンドツーエンドの対角訓練(E2E-AT)によって実際に解決されている。 最後に、負荷予測や逐次スケジューリングタスクを含む実世界のエンドツーエンド電力系統運用問題により、e2e-atの性能を評価する。

Successful machine learning involves a complete pipeline of data, model, and downstream applications. Instead of treating them separately, there has been a prominent increase of attention within the constrained optimization (CO) and machine learning (ML) communities towards combining prediction and optimization models. The so-called end-to-end (E2E) learning captures the task-based objective for which they will be used for decision making. Although a large variety of E2E algorithms have been presented, it has not been fully investigated how to systematically address uncertainties involved in such models. Most of the existing work considers the uncertainties of ML in the input space and improves robustness through adversarial training. We extend this idea to E2E learning and prove that there is a robustness certification procedure by solving augmented integer programming. Furthermore, we show that neglecting the uncertainty of COs during training causes a new trigger for generalization errors. To include all these components, we propose a unified framework that covers the uncertainties emerging in both the input feature space of the ML models and the COs. The framework is described as a robust optimization problem and is practically solved via end-to-end adversarial training (E2E-AT). Finally, the performance of E2E-AT is evaluated by a real-world end-to-end power system operation problem, including load forecasting and sequential scheduling tasks.
翻訳日:2023-12-27 20:45:34 公開日:2023-12-23
# CR-SAM: 曲率正規化シャープネスの最小化

CR-SAM: Curvature Regularized Sharpness-Aware Minimization ( http://arxiv.org/abs/2312.13555v2 )

ライセンス: Link先を確認
Tao Wu, Tie Luo, and Donald C. Wunsch(参考訳) 将来の目に見えないデータに一般化する能力は、ディープニューラルネットワークの最も重要な特性の1つである。 Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。 しかし、トレーニングが進むにつれて、損失ランドスケープの非線形性は増大し、ワンステップ勾配の上昇は効果が低下する。 一方で、マルチステップ勾配上昇は、より高いトレーニングコストを発生させる。 本稿では,正規化ヘッセントレースを導入し,トレーニングおよびテストセット上での損失景観の曲率を正確に測定する。 特に、損失景観の過度な非線形性に対抗するために、正規化ヘッセントレースをSAM正則化器として統合した曲率正規化SAM(CR-SAM)を提案する。 さらに,並列性と有限差分によるトレース計算を効率的に行う方法を提案する。 pac-bayes境界に基づく理論解析は、一般化誤差を減らすための正規化器の有効性を確立する。 CIFARとImageNetデータセットの実証評価では、CR-SAMはさまざまなデータセットにわたるResNetおよびViTモデルの分類性能を一貫して向上している。 私たちのコードはhttps://github.com/TrustAIoT/CR-SAMで公開されています。

The capacity to generalize to future unseen data stands as one of the utmost crucial attributes of deep neural networks. Sharpness-Aware Minimization (SAM) aims to enhance the generalizability by minimizing worst-case loss using one-step gradient ascent as an approximation. However, as training progresses, the non-linearity of the loss landscape increases, rendering one-step gradient ascent less effective. On the other hand, multi-step gradient ascent will incur higher training cost. In this paper, we introduce a normalized Hessian trace to accurately measure the curvature of loss landscape on {\em both} training and test sets. In particular, to counter excessive non-linearity of loss landscape, we propose Curvature Regularized SAM (CR-SAM), integrating the normalized Hessian trace as a SAM regularizer. Additionally, we present an efficient way to compute the trace via finite differences with parallelism. Our theoretical analysis based on PAC-Bayes bounds establishes the regularizer's efficacy in reducing generalization error. Empirical evaluation on CIFAR and ImageNet datasets shows that CR-SAM consistently enhances classification performance for ResNet and Vision Transformer (ViT) models across various datasets. Our code is available at https://github.com/TrustAIoT/CR-SAM.
翻訳日:2023-12-27 20:35:55 公開日:2023-12-23
# ゼロショット・キーフレーズ・エクストラクタとしての大規模言語モデル : 予備的実証研究

Large Language Models as Zero-Shot Keyphrase Extractor: A Preliminary Empirical Study ( http://arxiv.org/abs/2312.15156v1 )

ライセンス: Link先を確認
Mingyang Song, Xuelian Geng, Songfang Yao, Shilong Lu, Yi Feng, Liping Jing(参考訳) zero-shot keyphraseの抽出は、人間の注釈データによるトレーニングなしにキーフレーズ抽出器を構築することを目的としている。 相応しいが価値のあるゼロショット設定は、データのラベル付けにかかる時間と労力を効率的に削減する。 事前学習された大規模言語モデル(chatgptやchatglmなど)に対する最近の取り組みは、ゼロショット設定で有望なパフォーマンスを示しており、プロンプトベースメソッドの探求に刺激を与えています。 本稿では,大規模言語モデルchatgptを直接起動することで,強力なキーフレーズ抽出モデルを構築することができるか質問する。 実験結果から,ChatGPTには,既存の教師なしモデルや教師なしモデルと比較して,キーフレーズ抽出タスクの改善の余地が十分にあることがわかった。

Zero-shot keyphrase extraction aims to build a keyphrase extractor without training by human-annotated data, which is challenging due to the limited human intervention involved. Challenging but worthwhile, zero-shot setting efficiently reduces the time and effort that data labeling takes. Recent efforts on pre-trained large language models (e.g., ChatGPT and ChatGLM) show promising performance on zero-shot settings, thus inspiring us to explore prompt-based methods. In this paper, we ask whether strong keyphrase extraction models can be constructed by directly prompting the large language model ChatGPT. Through experimental results, it is found that ChatGPT still has a lot of room for improvement in the keyphrase extraction task compared to existing state-of-the-art unsupervised and supervised models.
翻訳日:2023-12-27 19:40:01 公開日:2023-12-23
# マルチプロセッシングによるデータ分類

Data Classification With Multiprocessing ( http://arxiv.org/abs/2312.15152v1 )

ライセンス: Link先を確認
Anuja Dixit, Shreya Byreddy, Guanqun Song, Ting Zhu(参考訳) 分類は機械学習(ML)において最も重要なタスクの1つであり、人工知能(AI)の最近の進歩により、効率的な実装方法を見つけることが重要である。 一般的に、分類アルゴリズムの選択は処理対象のデータに依存し、アルゴリズムの精度は調整対象のハイパーパラメータに依存する。 1つの方法は、異なるハイパーパラメータを連続的に実行してアルゴリズムの精度をチェックし、最終出力を予測するのに最も精度の高いパラメータを選択することである。 本稿では,アルゴリズムを異なるハイパーパラメータで並列に訓練し,実行時間を短縮する方法を提案する。 最終的に、アルゴリズムのすべての訓練されたバリエーションの結果は並列性を活用し、予測の精度を向上させるためにアサンブルされる。 pythonのマルチプロセッシングは、k-nearest neighbors (knn)、 support vector machines (svm)、random forest and decision treeなどの異なる分類アルゴリズムでこの仮説をテストするのに使われ、並列性に影響を与える要因をレビューする。 アンサンブルアウトプットはすべてのプロセスからの予測を考慮し、最終クラスは最大プロセス数で予測される。 これによって予測の信頼性が向上する。 その結果,マルチプロセッシングにより選択したアルゴリズムの実行時間を短縮できることがわかった。

Classification is one of the most important tasks in Machine Learning (ML) and with recent advancements in artificial intelligence (AI) it is important to find efficient ways to implement it. Generally, the choice of classification algorithm depends on the data it is dealing with, and accuracy of the algorithm depends on the hyperparameters it is tuned with. One way is to check the accuracy of the algorithms by executing it with different hyperparameters serially and then selecting the parameters that give the highest accuracy to predict the final output. This paper proposes another way where the algorithm is parallelly trained with different hyperparameters to reduce the execution time. In the end, results from all the trained variations of the algorithms are ensembled to exploit the parallelism and improve the accuracy of prediction. Python multiprocessing is used to test this hypothesis with different classification algorithms such as K-Nearest Neighbors (KNN), Support Vector Machines (SVM), random forest and decision tree and reviews factors affecting parallelism. Ensembled output considers the predictions from all processes and final class is the one predicted by maximum number of processes. Doing this increases the reliability of predictions. We conclude that ensembling improves accuracy and multiprocessing reduces execution time for selected algorithms.
翻訳日:2023-12-27 19:39:46 公開日:2023-12-23
# 意識に基づくクライアント選択による個人化フェデレーション学習

Personalized Federated Learning with Attention-based Client Selection ( http://arxiv.org/abs/2312.15148v1 )

ライセンス: Link先を確認
Zihan Chen, Jundong Li, Cong Shen(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、カスタマイズされたモデルを構築するために、集合データ知識に依存している。 多様なデータ分散を持つクライアントとのコラボレーションは、特に限られたトレーニングデータにおいて、ローカルモデルのパフォーマンスを損なう可能性がある。 この問題に対処するために,Attention-based Client Selection 機構を備えた新しい PFL アルゴリズムである FedACS を提案する。 FedACSは、類似したデータ配信でクライアント間のコラボレーションを強化し、データ不足の問題を緩和するアテンションメカニズムを統合している。 データの類似性に基づいてリソースを優先順位付けし割り当てる。 我々はさらに、FedACSの理論的収束挙動を確立する。 cifar10とfmnistの実験は、federated federated learningを前進させる可能性を示している。 非IIDデータ課題とデータ不足に対処することで、FedACSはパーソナライズされたフェデレーションラーニングの分野で有望な進歩を提供する。

Personalized Federated Learning (PFL) relies on collective data knowledge to build customized models. However, non-IID data between clients poses significant challenges, as collaborating with clients who have diverse data distributions can harm local model performance, especially with limited training data. To address this issue, we propose FedACS, a new PFL algorithm with an Attention-based Client Selection mechanism. FedACS integrates an attention mechanism to enhance collaboration among clients with similar data distributions and mitigate the data scarcity issue. It prioritizes and allocates resources based on data similarity. We further establish the theoretical convergence behavior of FedACS. Experiments on CIFAR10 and FMNIST validate FedACS's superiority, showcasing its potential to advance personalized federated learning. By tackling non-IID data challenges and data scarcity, FedACS offers promising advances in the field of personalized federated learning.
翻訳日:2023-12-27 19:39:24 公開日:2023-12-23
# 骨格に基づく人間行動認識のための空間時間デカップリングコントラスト学習

Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based Human Action Recognition ( http://arxiv.org/abs/2312.15144v1 )

ライセンス: Link先を確認
Shaojie Zhang, Jianqin Yin, and Yonghao Dang(参考訳) 骨格に基づく行動認識は人間とコンピュータの相互作用の中心的なタスクである。 現在の手法では、画像認識のモデリングパラダイムを直接適用している。 しかし、人体から抽象化された骨格配列はスパース表現である。 スケルトンエンコーダから抽出された特徴は時空間分離され、意味論を混乱させる可能性がある。 グローバルな特徴の結合を減らしセマンティクスを改善するため,骨格に基づく行動認識のためのフレームワーク(STD-CL)を提案する。 まず空間的特徴と時間的特徴を時空間的特徴から分離する。 次に、注意的特徴を対比学習に適用し、その特徴を正のペアから引き抜き、負のペアから埋め込まれた特徴を取り除きます。 また,提案するトレーニング戦略STD-CLを現在の手法に組み込むことができる。 テスト段階での計算量を増やすことなく、NTU60, NTU120, NW-UCLAベンチマークにおいて4つのバックボーン(HCN, 2S-AGCN, CTR-GCN, Hyperformer)を持つSTD-CLを改良した。 コードはhttps://github.com/buptsjzhang/std-cl.com/でリリースします。

Skeleton-based action recognition is a central task of human-computer interaction. Current methods apply the modeling paradigm of image recognition to it directly. However, the skeleton sequences abstracted from the human body is a sparse representation. The features extracted from the skeleton encoder are spatiotemporal decoupled, which may confuse the semantics. To reduce the coupling and improve the semantics of the global features, we propose a framework (STD-CL) for skeleton-based action recognition. We first decouple the spatial-specific and temporal-specific features from the spatiotemporal features. Then we apply the attentive features to contrastive learning, which pulls together the features from the positive pairs and pushes away the feature embedding from the negative pairs. Moreover, the proposed training strategy STD-CL can be incorporated into current methods. Without additional compute consumption in the testing phase, our STD-CL with four various backbones (HCN, 2S-AGCN, CTR-GCN, and Hyperformer) achieves improvement on NTU60, NTU120, and NW-UCLA benchmarks. We will release our code at: https://github.com/BUPTSJZhang/STD-CL.
翻訳日:2023-12-27 19:39:06 公開日:2023-12-23
# フィードバックによるエコー状態ネットワークの性能向上

Improving the Performance of Echo State Networks Through Feedback ( http://arxiv.org/abs/2312.15141v1 )

ライセンス: Link先を確認
Peter J. Ehlers, Hendra I. Nurdin, Daniel Soh(参考訳) 非線形力学系を用いたReservoirコンピューティングは、シーケンシャルデータの処理、時系列モデリング、システム識別を含む複雑なタスクに対して、ニューラルネットワークに代わる費用対効果を提供する。 エコー状態ネットワーク(ESN)は、貯水池コンピュータの一種で、ミラーニューラルネットワークであるが、訓練を単純化する。 これらは内部状態に対して固定でランダムな線型変換を施し、非線形な変化が続く。 このプロセスは入力信号と線形回帰によって導かれ、対象特性に適合するようにシステムを適応させ、計算要求を減らす。 ESNの潜在的な欠点は、固定された貯水池が特定の問題に必要な複雑さを提供していないことである。 内部esnを直接変更(訓練)する一方で、間接的な修正は、いくつかの出力を入力としてリダイレクトすることで実現できる。 このフィードバックは内部の貯水池の状態に影響を与え、より広範な課題に適した複雑さを持つESNが得られる。 本稿では, 貯留状態の一部の成分を入力を介してネットワークにフィードバックすることにより, 所定のESNの性能を大幅に向上させることができることを示す。 任意のESNに対して、フィードバックがほぼ常に出力の正確性を改善することを厳格に証明します。 それぞれ異なる問題クラスを表す3つのタスクのセットに対して、フィードバックによって平均エラー対策が30\%-60\%$に削減されることがわかった。 興味深いことに、フィードバックは、計算ノードの初期数を2倍にするための、少なくとも同等のパフォーマンス向上を提供する。 これらの結果は,このフィードバック方式の適用性と有効性を示している。

Reservoir computing, using nonlinear dynamical systems, offers a cost-effective alternative to neural networks for complex tasks involving processing of sequential data, time series modeling, and system identification. Echo state networks (ESNs), a type of reservoir computer, mirror neural networks but simplify training. They apply fixed, random linear transformations to the internal state, followed by nonlinear changes. This process, guided by input signals and linear regression, adapts the system to match target characteristics, reducing computational demands. A potential drawback of ESNs is that the fixed reservoir may not offer the complexity needed for specific problems. While directly altering (training) the internal ESN would reintroduce the computational burden, an indirect modification can be achieved by redirecting some output as input. This feedback can influence the internal reservoir state, yielding ESNs with enhanced complexity suitable for broader challenges. In this paper, we demonstrate that by feeding some component of the reservoir state back into the network through the input, we can drastically improve upon the performance of a given ESN. We rigorously prove that, for any given ESN, feedback will almost always improve the accuracy of the output. For a set of three tasks, each representing different problem classes, we find that with feedback the average error measures are reduced by $30\%-60\%$. Remarkably, feedback provides at least an equivalent performance boost to doubling the initial number of computational nodes, a computationally expensive and technologically challenging alternative. These results demonstrate the broad applicability and substantial usefulness of this feedback scheme.
翻訳日:2023-12-27 19:38:46 公開日:2023-12-23
# 拡散確率モデルによる点およびメッシュ表現の関節特徴を考慮した自動歯列配置

Automatic Tooth Arrangement with Joint Features of Point and Mesh Representations via Diffusion Probabilistic Models ( http://arxiv.org/abs/2312.15139v1 )

ライセンス: Link先を確認
Changsong Lei, Mengfei Xia, Shaofeng Wang, Yaqian Liang, Ran Yi, Yuhui Wen, Yongjin Liu(参考訳) 歯の整列は矯正治療において重要なステップであり、歯の整列は全体の健康を改善し、顔の美学を高め、自信を高める。 未経験者による歯の配置の効率化と不合理な設計に伴う誤差を最小限に抑えるため, 深層学習による歯の配置法が提案されている。 現在、既存のアプローチのほとんどはmlpを用いて歯の特徴と変換行列の非線形関係をモデル化し、自動的に歯の配置を達成する。 しかし、臨床実践から収集された限られたデータセット(我々の知る限りは公開されていない)は、既存の方法の適用性に制限があり、多様な決定問題に対処するには不十分である。 この課題に対処するために,拡散確率モデルに基づく汎用歯列ニューラルネットワークを提案する。 歯科モデルから抽出した特徴に基づき, 拡散確率モデルは, ランダム変数から徐々に切り離し, 歯の変成行列から正常咬合への分布を学習できるため, 実際の矯正データをより適切に管理できる。 有効な特徴をフル活用するために,異なる符号化ネットワークを設計し,歯(局所)と顎(球状)の特徴を抽出し,メッシュと点雲の表現を利用する。 ADD, PA-ADD, CSA, ME_{rot} の従来の測定値に加えて, 歯列曲線に基づく新しい評価基準を提案し, 歯列が正常咬合に適合するかどうかを判定する。 以上の結果から,本手法は歯列と歯列の咬合関係が良好であることを示す。 コードとデータセットを公開します。

Tooth arrangement is a crucial step in orthodontics treatment, in which aligning teeth could improve overall well-being, enhance facial aesthetics, and boost self-confidence. To improve the efficiency of tooth arrangement and minimize errors associated with unreasonable designs by inexperienced practitioners, some deep learning-based tooth arrangement methods have been proposed. Currently, most existing approaches employ MLPs to model the nonlinear relationship between tooth features and transformation matrices to achieve tooth arrangement automatically. However, the limited datasets (which to our knowledge, have not been made public) collected from clinical practice constrain the applicability of existing methods, making them inadequate for addressing diverse malocclusion issues. To address this challenge, we propose a general tooth arrangement neural network based on the diffusion probabilistic model. Conditioned on the features extracted from the dental model, the diffusion probabilistic model can learn the distribution of teeth transformation matrices from malocclusion to normal occlusion by gradually denoising from a random variable, thus more adeptly managing real orthodontic data. To take full advantage of effective features, we exploit both mesh and point cloud representations by designing different encoding networks to extract the tooth (local) and jaw (global) features, respectively. In addition to traditional metrics ADD, PA-ADD, CSA, and ME_{rot}, we propose a new evaluation metric based on dental arch curves to judge whether the generated teeth meet the individual normal occlusion. Experimental results demonstrate that our proposed method achieves state-of-the-art tooth alignment results and satisfactory occlusal relationships between dental arches. We will publish the code and dataset.
翻訳日:2023-12-27 19:38:19 公開日:2023-12-23
# 逐次学習アルゴリズムを用いたFPGAによるグラフ埋め込み高速化

An FPGA-Based Accelerator for Graph Embedding using Sequential Training Algorithm ( http://arxiv.org/abs/2312.15138v1 )

ライセンス: Link先を確認
Kazuki Sunaga, Keisuke Sugiura, Hiroki Matsutani(参考訳) グラフ埋め込みは、固定長低次元ベクトルを持つグラフ構造を表現するための新しいアプローチである。 node2vecは、ランダムウォーク技術を用いて、与えられたグラフ上の隣接ノードをサンプリングしてそのようなグラフ埋め込みを得るためのよく知られたアルゴリズムである。 しかし、元の node2vec アルゴリズムは一般的にグラフ構造のバッチトレーニングに依存しているため、配置後にグラフ構造が変化するアプリケーションには適していない。 本稿では、IoT(Internet of Things)環境のためのnode2vecアプリケーションに焦点を当てる。 本稿では,IoTデバイスがエッジ環境にデプロイされた後のグラフ構造の変化に対応するために,オンラインシーケンシャルトレーニングアルゴリズムと node2vec を組み合わせることを提案する。 提案手法の利点を実証するため,資源限定FPGA(Field-Programmable Gate Array)デバイス上に逐次学習可能なモデルを実装した。 提案したFPGA実装は、CPUのオリジナルのモデルと比較して最大205.25倍の高速化を実現している。 動的グラフを用いた評価結果から,元のモデルでは精度が低下するが,提案したシーケンシャルモデルではグラフ構造が変化しても精度を高めることができる。

A graph embedding is an emerging approach that can represent a graph structure with a fixed-length low-dimensional vector. node2vec is a well-known algorithm to obtain such a graph embedding by sampling neighboring nodes on a given graph with a random walk technique. However, the original node2vec algorithm typically relies on a batch training of graph structures; thus, it is not suited for applications in which the graph structure changes after the deployment. In this paper, we focus on node2vec applications for IoT (Internet of Things) environments. To handle the changes of graph structures after the IoT devices have been deployed in edge environments, in this paper we propose to combine an online sequential training algorithm with node2vec. The proposed sequentially-trainable model is implemented on a resource-limited FPGA (Field-Programmable Gate Array) device to demonstrate the benefits of our approach. The proposed FPGA implementation achieves up to 205.25 times speedup compared to the original model on CPU. Evaluation results using dynamic graphs show that although the original model decreases the accuracy, the proposed sequential model can obtain better graph embedding that can increase the accuracy even when the graph structure is changed.
翻訳日:2023-12-27 19:37:47 公開日:2023-12-23
# 生成的深層学習による情報複合回折データからの終端構造解を目指して

Towards End-to-End Structure Solutions from Information-Compromised Diffraction Data via Generative Deep Learning ( http://arxiv.org/abs/2312.15136v1 )

ライセンス: Link先を確認
Gabe Guo, Judah Goldfeder, Ling Lan, Aniv Ray, Albert Hanming Yang, Boyuan Chen, Simon JL Billinge, Hod Lipson(参考訳) 過去世紀の材料革命は、原子配置と構造と属性の関係に関する知識に基づいて構築された。 定量的構造情報を得るためのsine qua nonは単結晶結晶学である。 しかし, 結晶粒の配向平均化, ナノ構造による有限サイズ効果, 試料の不均質性による混合信号などにより, 入力信号中の情報内容が著しく劣化する場合, 構造はますます解決する必要がある。 このような状況における構造的特性の関係を理解することは、より重要で洞察に富むものであるが、それを達成するための堅牢なアプローチはない。 機械学習 (ML) とディープラーニング (DL) は, 既知構造を持つ大規模データベースから学習した事前知識を用いて, 劣化した入力信号の情報を増大させるため, 将来的なアプローチである。 本稿では,この問題を解決するための堅牢だが汎用的なツールとして,変動型クエリベースのマルチブランチ深層ニューラルネットワークであるmlアプローチを提案する。 計算粉末X線回折(PXRD)と部分化学組成情報へのアプローチを入力として示す。 我々は、カルテシア写像電子密度 (CMED) と呼ばれる構造的な電子密度の表現として選択し、MLモデルが様々な化学、対称性、結晶系の物質構造を簡単に学習できるようにする。 立方晶系および三角結晶系の理論的にシミュレーションされたデータに基づいて評価すると、既知の化学組成情報と部分的に知られている化学組成情報の両方で、未知の物質上の基底真理と最大9,3.4\%の平均的類似性を達成し、劣化した入力データや不完全な入力データからでも、構造解が成功する可能性を示す。

The revolution in materials in the past century was built on a knowledge of the atomic arrangements and the structure-property relationship. The sine qua non for obtaining quantitative structural information is single crystal crystallography. However, increasingly we need to solve structures in cases where the information content in our input signal is significantly degraded, for example, due to orientational averaging of grains, finite size effects due to nanostructure, and mixed signals due to sample heterogeneity. Understanding the structure property relationships in such situations is, if anything, more important and insightful, yet we do not have robust approaches for accomplishing it. In principle, machine learning (ML) and deep learning (DL) are promising approaches since they augment information in the degraded input signal with prior knowledge learned from large databases of already known structures. Here we present a novel ML approach, a variational query-based multi-branch deep neural network that has the promise to be a robust but general tool to address this problem end-to-end. We demonstrate the approach on computed powder x-ray diffraction (PXRD), along with partial chemical composition information, as input. We choose as a structural representation a modified electron density we call the Cartesian mapped electron density (CMED), that straightforwardly allows our ML model to learn material structures across different chemistries, symmetries and crystal systems. When evaluated on theoretically simulated data for the cubic and trigonal crystal systems, the system achieves up to $93.4\%$ average similarity with the ground truth on unseen materials, both with known and partially-known chemical composition information, showing great promise for successful structure solution even from degraded and incomplete input data.
翻訳日:2023-12-27 19:37:26 公開日:2023-12-23
# 任意スケールポイントクラウドアップサンプリングのための局所距離インジケータを用いた連続的暗黙的フィールド学習

Learning Continuous Implicit Field with Local Distance Indicator for Arbitrary-Scale Point Cloud Upsampling ( http://arxiv.org/abs/2312.15133v1 )

ライセンス: Link先を確認
Shujuan Li, Junsheng Zhou, Baorui Ma, Yu-Shen Liu, Zhizhong Han(参考訳) point cloud upsamplingは、3dコンピュータビジョンにおいて重要な役割を果たすスパースポイントクラウドから、高密度かつ均一に分散したポイントセットを生成することを目的としている。 従来のメソッドは通常、スパースポイントクラウドをいくつかのローカルパッチ、アップサンプルパッチポイント、すべてのアップサンプルパッチにマージする。 しかし、これらの方法は、局所パッチ間の一貫性を保たない分割・マージプロセスによって、穴、外れ値、不均一性が生じることが多い。 これらの問題に対処するために,局所的な先行する点群アップサンプリングのために符号のない距離場を学習する手法を提案する。 具体的には、クエリポイントからローカルな暗黙的表面への無符号距離を予測するローカル距離インジケータ(ldi)をトレーニングする。 学習したldiを利用して、パッチ一貫性のあるスパースポイントクラウドを表す符号なし距離フィールドを学習する。 推測時,スパース点雲の周囲のクエリをランダムにサンプリングし,これらのクエリポイントを学習された暗黙のフィールドのゼロレベルセットに投影し,濃密な点雲を生成する。 暗黙の場は自然に連続であり、それは本質的に様々なスケールで再訓練することなく任意のスケールのアップサンプリングを適用することができる。 合成データと実データの両方について総合的な実験を行い、広く使われているベンチマークで最新結果を報告する。

Point cloud upsampling aims to generate dense and uniformly distributed point sets from a sparse point cloud, which plays a critical role in 3D computer vision. Previous methods typically split a sparse point cloud into several local patches, upsample patch points, and merge all upsampled patches. However, these methods often produce holes, outliers or nonuniformity due to the splitting and merging process which does not maintain consistency among local patches. To address these issues, we propose a novel approach that learns an unsigned distance field guided by local priors for point cloud upsampling. Specifically, we train a local distance indicator (LDI) that predicts the unsigned distance from a query point to a local implicit surface. Utilizing the learned LDI, we learn an unsigned distance field to represent the sparse point cloud with patch consistency. At inference time, we randomly sample queries around the sparse point cloud, and project these query points onto the zero-level set of the learned implicit field to generate a dense point cloud. We justify that the implicit field is naturally continuous, which inherently enables the application of arbitrary-scale upsampling without necessarily retraining for various scales. We conduct comprehensive experiments on both synthetic data and real scans, and report state-of-the-art results under widely used benchmarks.
翻訳日:2023-12-27 19:36:54 公開日:2023-12-23
# 大面積空間順序メサトップシングル量子ドット:オンチップ集積量子情報処理プラットフォームに適した単一光子エミッタ

Large-Area Spatially Ordered Mesa Top Single Quantum Dots: Suitable Single Photon Emitters for On-Chip Integrated Quantum Information Processing Platforms ( http://arxiv.org/abs/2312.15132v1 )

ライセンス: Link先を確認
Qi Huang, Lucas Jordao, Siyuan Lu, Swarnabha Chattaraj, Jiefei Zhang, and Anupam Madhukar(参考訳) 長い間望まれていたオンチップのスケーラブルなフォトニック量子情報処理ネットワークの実現は、大量のしきい値を超えるエミッションフィギュアを持つ空間的に秩序づけられてスケーラブルなシングル光子エミッタが存在しないために妨げられている。 位置決めは必要な精度を満たさなければならないため、相互接続によって必要な機能ネットワークを構築することができる。 本稿では,mesa-top single quantum dots (mtsqds) の大規模空間配列の実現について報告する。[1] 量子鍵分布,線形光学量子コンピューティング,量子多体問題のシミュレーション,メトロロジー/センシングを対象とする量子フォトニック回路/プラットフォームの実装要件を満たす特性を持つオンデマンド単一光子エミッタであることを示す。 SESRE (substrate-encoded size-reducing epitaxy) を介して成長した報告されたGaAs/InGaAs/GaAs MTSQDアレイは、半径1cmの範囲で最大100x100の多重配列である。 3.35nmの標準偏差を示す放射強度(明度)と色符号化波長分布の図示的な大面積画像を示す。 走査型透過電子顕微鏡は、qd位置の左右に約3nm、垂直に約1nmの顕著な制御を示す。 残る主な課題は、基板全体にわたる現在の湿式化学的にエッチングされたナノメカの側面サイズを均一に制御することである。 このように、sesreは、オンチップで完全に集積された量子フォトニック回路プラットフォーム(絶縁体上のalgaasに基づくような)や、シリコンオン絶縁体(soi)フォトニック集積回路(pic)を利用するハイブリッドといった、オンチップでスケーラブルな、オンデマンドで明るい単一量子エミッタの配列を実現する、最も有望なアプローチを提供する。

Realization of the long sought on-chip scalable photonic quantum information processing networks has been thwarted by the absence of spatially-ordered and scalable on-demand single photon emitters with emission figures-of-merit exceeding the required thresholds across large numbers. The positioning must meet the required degree of accuracy that enables fabricating their interconnection to create the desired functional network. Here we report on the realization of large-area spatially-ordered arrays of mesa-top single quantum dots (MTSQDs) that are demonstrated [1] to be on-demand single photon emitters with characteristics that meet the requirements for implementing quantum photonic circuits/platforms aimed at quantum key distribution, linear optical quantum computing, simulations of quantum many-body problems, and metrology/sensing. The reported GaAs/InGaAs/GaAs MTSQD arrays, grown via SESRE (substrate-encoded size-reducing epitaxy) are in multiple arrays of up to 100x100 with 5um pitch, across a centimeter radius area. We show illustrative large-area images of the emission intensity (brightness) and color-coded wavelength distribution exhibiting ~3.35nm standard deviation. Scanning transmission electron microscopy shows a remarkable control on the QD location to within ~3nm accuracy laterally and ~1nm vertically. The primary remaining challenge is the control on the uniformity of the currently wet-chemically etched as-patterned nanomesa lateral size across the substrate, a surmountable technical issue. Thus, SESRE offers the most promising approach to realizing on-chip scalable spatially-ordered arrays of on-demand bright single quantum emitters meeting the figures-of-merit required for on-chip fully integrated quantum photonic circuit platforms-monolithic (such as based upon AlGaAs on insulator) or hybrid that leverage the silicon-on-insulator (SOI) photonic integrated circuit (PIC).
翻訳日:2023-12-27 19:36:30 公開日:2023-12-23
# PACE: クラッタ環境における Pose アノテーション

PACE: Pose Annotations in Cluttered Environments ( http://arxiv.org/abs/2312.15130v1 )

ライセンス: Link先を確認
Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou, Ruoxi Shi, Zhou Fang, Adam W. Harley, Cewu Lu(参考訳) ポーズ推定はコンピュータビジョンにおいて重要なタスクであり、画像やビデオのオブジェクトの追跡と操作を可能にする。 ポーズ推定用のデータセットはいくつか存在するが、オクルージョンのある散らかったシーンに特化して大規模なデータセットは存在しない。 この制限はポーズ推定手法の開発と評価におけるボトルネックであり、特にオクルージョンが一般的である環境での現実世界の応用の目標に向かっている。 PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。 PACEには54,945のフレームがあり、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーしている。 実世界のデータを効率的にアノテートするために,3カメラのキャリブレーションを用いた革新的なアノテーションシステムを開発した。 我々は2つのトラック(ポーズ推定とオブジェクトポーズ追跡)に沿って最先端アルゴリズムをペースでテストし、ベンチマークの課題と研究機会を明らかにする。 PACEは、私たちが開発したアノテーションツールとともに、公開評価ベンチマークとしてリリースする予定です。 私たちのコードとデータはhttps://github.com/qq456cvb/paceで入手できます。

Pose estimation is a crucial task in computer vision, enabling tracking and manipulating objects in images or videos. While several datasets exist for pose estimation, there is a lack of large-scale datasets specifically focusing on cluttered scenes with occlusions. This limitation is a bottleneck in the development and evaluation of pose estimation methods, particularly toward the goal of real-world application in environments where occlusions are common. Addressing this, we introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE encompasses 54,945 frames with 257,673 annotations across 300 videos, covering 576 objects from 44 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we developed an innovative annotation system utilizing a calibrated 3-camera setup. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark's challenges and research opportunities. We plan to release PACE as a public evaluation benchmark, along the annotations tools we developed, to stimulate further advancements in the field. Our code and data is available on https://github.com/qq456cvb/PACE.
翻訳日:2023-12-27 19:35:51 公開日:2023-12-23
# 多制約安全強化学習のための勾配整形

Gradient Shaping for Multi-Constraint Safe Reinforcement Learning ( http://arxiv.org/abs/2312.15127v1 )

ライセンス: Link先を確認
Yihang Yao, Zuxin Liu, Zhepeng Cen, Peide Huang, Tingnan Zhang, Wenhao Yu, Ding Zhao(参考訳) オンライン安全強化学習(RL)は、環境との対話を通じて制約を満たしながらタスク効率を最大化する政策を訓練する。 本稿では、マルチ制約(MC)セーフなRL問題の解決に関わる複雑な課題に対処することに焦点を当てる。 我々は,Multi-Objective Optimization(MOO)の観点から安全なRL問題にアプローチし,MCセーフなRLアルゴリズム用に設計された統一フレームワークを提案する。 このフレームワークは制約から派生した勾配の操作を強調する。 この枠組みから洞察を得て, 制約条件であるtextit{redundant} と \textit{conflicting} の意義を認識し, 一般ラグランジアンベースの安全なRLアルゴリズムのためのグラディエントシェーピング(GradS)法を導入し, 報酬と制約満足度の両方の観点からトレーニング効率を向上させる。 提案手法の有効性を実証し,提案手法の有効性を実証し,様々な課題であるMCセーフRLタスクにおける安全性と報奨性能の向上と,制約数に対するスケーラビリティの向上を図った。

Online safe reinforcement learning (RL) involves training a policy that maximizes task efficiency while satisfying constraints via interacting with the environments. In this paper, our focus lies in addressing the complex challenges associated with solving multi-constraint (MC) safe RL problems. We approach the safe RL problem from the perspective of Multi-Objective Optimization (MOO) and propose a unified framework designed for MC safe RL algorithms. This framework highlights the manipulation of gradients derived from constraints. Leveraging insights from this framework and recognizing the significance of \textit{redundant} and \textit{conflicting} constraint conditions, we introduce the Gradient Shaping (GradS) method for general Lagrangian-based safe RL algorithms to improve the training efficiency in terms of both reward and constraint satisfaction. Our extensive experimentation demonstrates the effectiveness of our proposed method in encouraging exploration and learning a policy that improves both safety and reward performance across various challenging MC safe RL tasks as well as good scalability to the number of constraints.
翻訳日:2023-12-27 19:35:28 公開日:2023-12-23
# 2次元シュロディンガー方程式の特異ポテンシャルとしてのディラックデルタ

The Dirac Delta as a Singular Potential for the 2D Schrodinger Equation ( http://arxiv.org/abs/2312.15126v1 )

ライセンス: Link先を確認
Michael Maroun(参考訳) 分布一般化量子論の枠組みにおいて、オブジェクト $h\psi$ は分布として定義される。 数学的意義は、パラ微分作用素と擬微分作用素の理論(および弱固有値問題の一般化)の穏やかな一般化であり、$\psi$-doシンボル(この一般化の場合、適切な線型作用素ではない)はその係数関数が特異分布値を取ることができる。 ここで、分布が特異であるとは、任意の$p\geq 1$に対して l$^p(\mathbb{r}^d)$ でないときに言う。 物理的には、その重要性は数学的に厳密な方法であり、いかなる種類の正規化や正規化にも依存せず、文献と一致した境界状態エネルギーを生成する。 さらに別の利点は、このメソッドがラプラス演算子の自己随伴拡張に依存していないことである。 これは、ディラック方程式の場合と同様に、理論が非シュロディンガー系に適用されるときに重要であり、量子場理論の有限厳密なバージョンに必要な性質である。 分布解釈は、それが定義できない時点で波動関数を評価する必要性を解消する。 $d=2$ の場合、これは $K_o(a|x|)\delta(x)$ であり、$K_o$ はゼロ次マクドナルド関数である。 最後に、形式記号(ic)ハミルトニアン(英語版)のスケール不変性と対数関数の共通同一性により、a,\,b\in\mathbb{r}^+$, $\log(ab)=\log という異常な長さスケールの識別もある。 (a)+\log (b)$であり、引数に単位性が失われる。 その結果、エネルギーまたは点スペクトルは、cスペクトルと呼ばれるスペクトル値の族(連続体によってインデックス化された集合)として一般化される。

In the framework of distributionally generalized quantum theory, the object $H\psi$ is defined as a distribution. The mathematical significance is a mild generalization for the theory of para- and pseudo-differential operators (as well as a generalization of the weak eigenvalue problem), where the $\psi$-do symbol (which is not a proper linear operator in this generalized case) can have its coefficient functions take on singular distributional values. Here, a distribution is said to be singular if it is not L$^p(\mathbb{R}^d)$ for any $p\geq 1$. Physically, the significance is a mathematically rigorous method, which does not rely upon renormalization or regularization of any kind, while producing bound state energy results in agreement with the literature. In addition, another benefit is that the method does not rely upon self-adjoint extensions of the Laplace operator. This is important when the theory is applied to non-Schrodinger systems, as is the case for the Dirac equation and a necessary property of any finite rigorous version of quantum field theory. The distributional interpretation resolves the need to evaluate a wave function at a point where it fails to be defined. For $d=2$, this occurs as $K_o(a|x|)\delta(x)$, where $K_o$ is the zeroth order MacDonald function. Finally, there is also the identification of a missing anomalous length scale, owing to the scale invariance of the formal symbol(ic) Hamiltonian, as well as the common identity for the logarithmic function, with $a,\,b\in\mathbb{R}^+$, $\log(ab)=\log(a)+\log(b)$, which loses unitlessness in its arguments. Consequently, the energy or point spectrum is generalized as a family (set indexed by the continuum) of would-be spectral values, called the C-spectrum.
翻訳日:2023-12-27 19:35:06 公開日:2023-12-23
# 量子極端学習マシンの基礎的側面について

On fundamental aspects of quantum extreme learning machines ( http://arxiv.org/abs/2312.15124v1 )

ライセンス: Link先を確認
Weijie Xiong, Giorgio Facelli, Mehrad Sahebi, Owen Agnel, Thiparat Chotibut, Supanut Thanasilp, Zo\"e Holmes(参考訳) quantum extreme learning machines(qelms)は、量子機械学習の有望なフレームワークとして登場した。 彼らの魅力は、量子基板のダイナミクス(量子貯留層)と線形回帰による測定後の効率的なトレーニングによって引き起こされるリッチな特徴マップにある。 ここでは、QELMの予測をフーリエ級数に分解することで、QELMの表現性について検討する。 達成可能なフーリエ周波数はデータ符号化方式により決定され、フーリエ係数は貯留層と測定値の両方に依存することを示す。 特に、QELMsの表現性はフーリエ周波数の数と観測可能な観測値の数によって根本的に制限されるが、予測の複雑さは貯水池に依存する。 スケーラビリティに関する注意として、システムサイズが大きくなるにつれて観測対象の指数的な集中につながる4つの情報源(ランダム性、ハードウェアノイズ、絡み合い、グローバル測定)を特定し、QELMを無駄な入力に依存しないオラクルにする方法を示す。 我々の分析はQELMのポテンシャルと基本的限界を解明し、他の機械学習タスクのための量子貯水池システムを体系的に探索する基盤となる。

Quantum Extreme Learning Machines (QELMs) have emerged as a promising framework for quantum machine learning. Their appeal lies in the rich feature map induced by the dynamics of a quantum substrate - the quantum reservoir - and the efficient post-measurement training via linear regression. Here we study the expressivity of QELMs by decomposing the prediction of QELMs into a Fourier series. We show that the achievable Fourier frequencies are determined by the data encoding scheme, while Fourier coefficients depend on both the reservoir and the measurement. Notably, the expressivity of QELMs is fundamentally limited by the number of Fourier frequencies and the number of observables, while the complexity of the prediction hinges on the reservoir. As a cautionary note on scalability, we identify four sources that can lead to the exponential concentration of the observables as the system size grows (randomness, hardware noise, entanglement, and global measurements) and show how this can turn QELMs into useless input-agnostic oracles. Our analysis elucidates the potential and fundamental limitations of QELMs, and lays the groundwork for systematically exploring quantum reservoir systems for other machine learning tasks.
翻訳日:2023-12-27 19:34:30 公開日:2023-12-23
# jax-accelerated reinforcement learningによる自動運転のための強力なポリシーのトレーニング

Scaling Is All You Need: Training Strong Policies for Autonomous Driving with JAX-Accelerated Reinforcement Learning ( http://arxiv.org/abs/2312.15122v1 )

ライセンス: Link先を確認
Moritz Harmel, Anubhav Paras, Andreas Pasternak, Gary Linscott(参考訳) 強化学習は、様々なゲームで最高の人間プレイヤーにも勝るポリシーを訓練するために使われてきた。 しかし、優れたパフォーマンスを達成するには大量のデータが必要であるため、大規模なフレームワークやシミュレータを構築する必要がある。 本稿では,大規模強化学習が自律運転にどのように適用できるかを考察し,実験サイズに応じて結果の政策がどう機能するか,また,政策性能に寄与する最も重要な要因について分析する。 これを実現するために、まずハードウェアアクセラレーションによる自律走行シミュレータを導入し、何十億ものエージェントステップから効率よく経験を収集する。 このシミュレータは、大規模なマルチgpu強化学習フレームワークと組み合わせる。 データセットのサイズ、モデルサイズ、トレーニングされたエージェントステップの同時スケーリングは、衝突、トラフィックルール違反、進捗に関して、ますます強力な駆動ポリシーを提供する。 特に、私たちのベストポリシーは、現在最先端の機械学習ポリシーである自動運転と比較して、失敗率を57%削減し、進捗を23%改善しています。

Reinforcement learning has been used to train policies that outperform even the best human players in various games. However, a large amount of data is needed to achieve good performance, which in turn requires building large-scale frameworks and simulators. In this paper, we study how large-scale reinforcement learning can be applied to autonomous driving, analyze how the resulting policies perform as the experiment size is scaled, and what the most important factors contributing to policy performance are. To do this, we first introduce a hardware-accelerated autonomous driving simulator, which allows us to efficiently collect experience from billions of agent steps. This simulator is paired with a large-scale, multi-GPU reinforcement learning framework. We demonstrate that simultaneous scaling of dataset size, model size, and agent steps trained provides increasingly strong driving policies in regard to collision, traffic rule violations, and progress. In particular, our best policy reduces the failure rate by 57% while improving progress by 23% compared to the current state-of-the-art machine learning policies for autonomous driving.
翻訳日:2023-12-27 19:34:07 公開日:2023-12-23
# スパシフィケーションと量子化による効率的な非同期フェデレーション学習

Efficient Asynchronous Federated Learning with Sparsification and Quantization ( http://arxiv.org/abs/2312.15186v1 )

ライセンス: Link先を確認
Juncheng Jia, Ji Liu, Chendi Zhou, Hao Tian, Mianxiong Dong, Dejing Dou(参考訳) データは複数のエッジデバイスに分散されているが、フェデレーション学習(fl)は、生データを転送せずに機械学習モデルを協調的にトレーニングするためにますます注目を集めている。 flは一般的に、モデルトレーニングのプロセス全体を通してパラメータサーバと多数のエッジデバイスを利用するが、複数のデバイスは各ラウンド毎に選択される。 しかし、ストラグラーデバイスはトレーニングプロセスを遅くしたり、トレーニング中にシステムをクラッシュさせることもある。 一方、他のアイドルエッジデバイスは未使用のままである。 デバイスとサーバ間の帯域幅が比較的低いため、中間データの通信はボトルネックとなる。 本稿では,Sparsification and Quantization,すなわちTEASQ-Fedを用いた時間効率の非同期フェデレーション学習を提案する。 TEASQ-Fedは、タスクに積極的に適用することで、エッジデバイスを完全に活用して、トレーニングプロセスに非同期に参加することができる。 制御パラメータを利用して適切な数の並列エッジデバイスを選択し、同時にトレーニングタスクを実行する。 さらに,キャッシング機構とモデルスタレネスに対する重み付け平均化を導入し,精度の向上を図る。 さらに,中間データを圧縮してトレーニングを高速化するためのスパーシフィケーション・量子化手法を提案する。 実験の結果、TEASQ-Fedは精度を最大16.67%向上し、モデルトレーニングの収束を加速する(最大2倍高速)。

While data is distributed in multiple edge devices, Federated Learning (FL) is attracting more and more attention to collaboratively train a machine learning model without transferring raw data. FL generally exploits a parameter server and a large number of edge devices during the whole process of the model training, while several devices are selected in each round. However, straggler devices may slow down the training process or even make the system crash during training. Meanwhile, other idle edge devices remain unused. As the bandwidth between the devices and the server is relatively low, the communication of intermediate data becomes a bottleneck. In this paper, we propose Time-Efficient Asynchronous federated learning with Sparsification and Quantization, i.e., TEASQ-Fed. TEASQ-Fed can fully exploit edge devices to asynchronously participate in the training process by actively applying for tasks. We utilize control parameters to choose an appropriate number of parallel edge devices, which simultaneously execute the training tasks. In addition, we introduce a caching mechanism and weighted averaging with respect to model staleness to further improve the accuracy. Furthermore, we propose a sparsification and quantitation approach to compress the intermediate data to accelerate the training. The experimental results reveal that TEASQ-Fed improves the accuracy (up to 16.67% higher) while accelerating the convergence of model training (up to twice faster).
翻訳日:2023-12-27 19:27:25 公開日:2023-12-23
# emotion2vec: 音声感情表現のための自己教師付き事前学習

emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation ( http://arxiv.org/abs/2312.15185v1 )

ライセンス: Link先を確認
Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang Zhang, Xie Chen(参考訳) 汎用音声感情表現モデルであるemotion2vecを提案する。 emotion2vecは、自己教師付きオンライン蒸留を通じて、オープンソースの無ラベル感情データに基づいて事前学習され、発話レベルの損失と、事前訓練中のフレームレベルの損失を組み合わせる。 感情2vecは、主流のIEMOCAPデータセット上での音声感情認識タスクの線形層のみをトレーニングすることで、最先端の訓練済みユニバーサルモデルと感情スペシャリストモデルより優れている。 さらに、感情2vecは、音声感情認識データセットの10言語間で一貫した改善を示す。 emotion2vecはまた、歌の感情認識、会話における感情予測、感情分析など、他の感情タスクに対して優れた結果を示す。 比較実験、アブレーション実験、可視化は、提案するemotion2vecの普遍的能力を包括的に実証する。 われわれの知る限り、emotion2vecは様々な感情に関連したタスクにおける最初の普遍表現モデルであり、この分野のギャップを埋めている。

We propose emotion2vec, a universal speech emotion representation model. emotion2vec is pre-trained on open-source unlabeled emotion data through self-supervised online distillation, combining utterance-level loss and frame-level loss during pre-training. emotion2vec outperforms state-of-the-art pre-trained universal models and emotion specialist models by only training linear layers for the speech emotion recognition task on the mainstream IEMOCAP dataset. In addition, emotion2vec shows consistent improvements among 10 different languages of speech emotion recognition datasets. emotion2vec also shows excellent results on other emotion tasks, such as song emotion recognition, emotion prediction in conversation, and sentiment analysis. Comparison experiments, ablation experiments, and visualization comprehensively demonstrate the universal capability of the proposed emotion2vec. To the best of our knowledge, emotion2vec is the first universal representation model in various emotion-related tasks, filling a gap in the field.
翻訳日:2023-12-27 19:27:03 公開日:2023-12-23
# ZO-AdaMU最適化:ゼロ階最適化におけるモーメントと不確かさによる摂動適応

ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and Uncertainty in Zeroth-order Optimization ( http://arxiv.org/abs/2312.15184v1 )

ライセンス: Link先を確認
Shuoran Jiang, Qingcai Chen, Youchen Pan, Yang Xiang, Yukang Lin, Xiangping Wu, Chuanyi Liu, Xiaobao Song(参考訳) 大規模モデルのフルパラメータトレーニングにおけるメモリ要件の低下は、ホットな研究領域となっている。 MeZOは、ゼロ階SGDオプティマイザ(ZO-SGD)を前向きに通過させることで、大きな言語モデル(LLM)を微調整し、推論と同じGPUメモリ使用量で優れたパフォーマンスを示す。 しかし、MeZOにおける勾配推定のシミュレーション摂動確率近似は、激しい振動を引き起こし、かなりの時間的オーバーヘッドを引き起こす。 さらに、運動量正則化なしでは、MeZOは厳しい過適合問題を示す。 最後に、ZO-SGDの摂動非関連運動量は収束率を向上しない。 本研究では、ZO-AdaMUを確率近似における運動量による模擬摂動に適応させることにより、上記の問題を解決することを提案する。 既存の適応運動量法とは異なり, 確率的勾配近似における摂動シミュレーションによる運動量移動を行う。 我々の収束解析と実験は、ZO-SGDの収束安定性と速度を改善するためのより良い方法であることを証明している。 広範な実験により、zo-adamu は様々な nlp タスクをまたいだ llms の微調整の一般化を mezo とその運動量変種よりも達成できることが示されている。

Lowering the memory requirement in full-parameter training on large models has become a hot research area. MeZO fine-tunes the large language models (LLMs) by just forward passes in a zeroth-order SGD optimizer (ZO-SGD), demonstrating excellent performance with the same GPU memory usage as inference. However, the simulated perturbation stochastic approximation for gradient estimate in MeZO leads to severe oscillations and incurs a substantial time overhead. Moreover, without momentum regularization, MeZO shows severe over-fitting problems. Lastly, the perturbation-irrelevant momentum on ZO-SGD does not improve the convergence rate. This study proposes ZO-AdaMU to resolve the above problems by adapting the simulated perturbation with momentum in its stochastic approximation. Unlike existing adaptive momentum methods, we relocate momentum on simulated perturbation in stochastic gradient approximation. Our convergence analysis and experiments prove this is a better way to improve convergence stability and rate in ZO-SGD. Extensive experiments demonstrate that ZO-AdaMU yields better generalization for LLMs fine-tuning across various NLP tasks than MeZO and its momentum variants.
翻訳日:2023-12-27 19:26:47 公開日:2023-12-23
# 学習可能なスキップ接続によるU-Netの意味的ギャップを狭める:医用画像分割の場合

Narrowing the semantic gaps in U-Net with learnable skip connections: The case of medical image segmentation ( http://arxiv.org/abs/2312.15182v1 )

ライセンス: Link先を確認
Haonan Wang, Peng Cao, Xiaoli Liu, Jinzhu Yang, Osmar Zaiane(参考訳) 医療画像セグメンテーションの最先端手法の多くはエンコーダ・デコーダアーキテクチャを採用している。 しかし、このU字型フレームワークは、単純なスキップ接続で非ローカルなマルチスケール情報をキャプチャする際の制限がある。 この問題を解決するために、まずU-Netにおける複数のセグメント化タスクにおけるスキップ接続の潜在的な弱点を探索し、それを見つける。 i) すべてのスキップ接続が有用であるとは限らない。各スキップ接続は,異なるコントリビューションを有する。 二 特定のデータセットに依存して、スキップ接続の最適な組み合わせが異なること。 本稿では,U-Netにおける3つの意味的ギャップを解決するためにUDTransNetという新たなセグメンテーションフレームワークを提案する。 具体的には、チャネルと空間の関係を捉えてエンコーダ特徴を融合させるDATモジュールと、DATトークンとデコーダ特徴を効果的に接続して不整合を解消するDecoder-Guided Recalibration Attention (DRA)モジュールを提案する。 したがって、両モジュールは、エンコーダとデコーダのセマンティックギャップを解決するために学習可能な接続を確立し、医療画像の高性能セグメンテーションモデルをもたらす。 包括的実験の結果から,udtransnetは評価スコアが高く,パブリックデータセットの分類方法よりも比較的少ないパラメータで,より詳細なセグメンテーション結果が得られることがわかった。 コード:https://github.com/McGregorWwww/UDTransNet

Most state-of-the-art methods for medical image segmentation adopt the encoder-decoder architecture. However, this U-shaped framework still has limitations in capturing the non-local multi-scale information with a simple skip connection. To solve the problem, we firstly explore the potential weakness of skip connections in U-Net on multiple segmentation tasks, and find that i) not all skip connections are useful, each skip connection has different contribution; ii) the optimal combinations of skip connections are different, relying on the specific datasets. Based on our findings, we propose a new segmentation framework, named UDTransNet, to solve three semantic gaps in U-Net. Specifically, we propose a Dual Attention Transformer (DAT) module for capturing the channel- and spatial-wise relationships to better fuse the encoder features, and a Decoder-guided Recalibration Attention (DRA) module for effectively connecting the DAT tokens and the decoder features to eliminate the inconsistency. Hence, both modules establish a learnable connection to solve the semantic gaps between the encoder and the decoder, which leads to a high-performance segmentation model for medical images. Comprehensive experimental results indicate that our UDTransNet produces higher evaluation scores and finer segmentation results with relatively fewer parameters over the state-of-the-art segmentation methods on different public datasets. Code: https://github.com/McGregorWwww/UDTransNet.
翻訳日:2023-12-27 19:26:24 公開日:2023-12-23
# インド語の多言語バイアス検出と緩和

Multilingual Bias Detection and Mitigation for Indian Languages ( http://arxiv.org/abs/2312.15181v1 )

ライセンス: Link先を確認
Ankita Maity, Anubhav Sharma, Rudra Dhar, Tushar Abhishek, Manish Gupta and Vasudeva Varma(参考訳) 多様な視点の欠如はwikipediaコンテンツの中立性バイアスを引き起こし、世界中の何百万もの読者が不正確な情報によって露出する。 したがって、中立バイアスの検出と緩和は重要な問題である。 以前の研究は、英語の効果的な解法を提案したが、インド語のための研究は存在しない。 まず、8つの言語をカバーする2つの大きなデータセットmWikiBiasとmWNCをそれぞれバイアス検出および緩和タスクに貢献する。 次に,二分分類問題として検出をモデル化し,スタイル伝達問題として緩和することで,一般的な多言語トランスフォーマモデルの有効性について検討する。 コードとデータを公開しています。

Lack of diverse perspectives causes neutrality bias in Wikipedia content leading to millions of worldwide readers getting exposed by potentially inaccurate information. Hence, neutrality bias detection and mitigation is a critical problem. Although previous studies have proposed effective solutions for English, no work exists for Indian languages. First, we contribute two large datasets, mWikiBias and mWNC, covering 8 languages, for the bias detection and mitigation tasks respectively. Next, we investigate the effectiveness of popular multilingual Transformer-based models for the two tasks by modeling detection as a binary classification problem and mitigation as a style transfer problem. We make the code and data publicly available.
翻訳日:2023-12-27 19:25:58 公開日:2023-12-23
# 動的線形弾性のモデリングのための物理インフォームドニューラルネットワーク

Physics-informed neural network for modeling dynamic linear elasticity ( http://arxiv.org/abs/2312.15175v1 )

ライセンス: Link先を確認
Vijay Kag and Venkatesh Gopinath(参考訳) 本研究では,特に固体力学における動的問題に適用された物理情報ニューラルネットワーク(PINN)モデルを提案する。 私たちは前方と逆の問題に焦点を合わせます。 特に,動的環境下での物質識別にPINNモデルを効果的に利用する方法を示す。 本研究では, 線形連続弾性を仮定する。 2次元(2次元)平面ひずみ問題に対する結果を示し、3次元(3次元)問題に対して同様の手法を適用する。 トレーニングデータについては、有限要素法に基づく解を用いる。 PINNモデルは,特に材料識別問題に対する代理モデルとして,正確で堅牢で,計算効率が高いことを示す。 また, PINNのバニラ実装の改良である, PINN文献の最先端技術も採用している。 この結果から,我々が開発したフレームワークは,固体力学における複数の動的問題を解くための計算プラットフォームに容易に適応できると信じている。

In this work, we present the physics-informed neural network (PINN) model applied particularly to dynamic problems in solid mechanics. We focus on forward and inverse problems. Particularly, we show how a PINN model can be used efficiently for material identification in a dynamic setting. In this work, we assume linear continuum elasticity. We show results for two-dimensional (2D) plane strain problem and then we proceed to apply the same techniques for a three-dimensional (3D) problem. As for the training data we use the solution based on the finite element method. We rigorously show that PINN models are accurate, robust and computationally efficient, especially as a surrogate model for material identification problems. Also, we employ state-of-the-art techniques from the PINN literature which are an improvement to the vanilla implementation of PINN. Based on our results, we believe that the framework we have developed can be readily adapted to computational platforms for solving multiple dynamic problems in solid mechanics.
翻訳日:2023-12-27 19:25:49 公開日:2023-12-23
# 視覚認識のための事前訓練トロイの木馬攻撃

Pre-trained Trojan Attacks for Visual Recognition ( http://arxiv.org/abs/2312.15172v1 )

ライセンス: Link先を確認
Aishan Liu, Xinwei Zhang, Yisong Xiao, Yuguang Zhou, Siyuan Liang, Jiakai Wang, Xianglong Liu, Xiaochun Cao, Dacheng Tao(参考訳) 事前訓練されたビジョンモデル(pvms)は、下流タスクの微調整時の異常なパフォーマンスのため、主要なコンポーネントとなっている。 しかしながら、PVM内のバックドアの存在は重大な脅威を引き起こす。 残念なことに、既存の研究は主に分類タスクのバックドア化に重点を置いており、検出やセグメンテーションのような下流タスクの潜在的なバックドアを無視している。 本稿では,pvmにバックドアを埋め込み,ダウンストリームビジョンタスクにまたがる攻撃を可能にする,事前学習されたトロイの木馬攻撃を提案する。 バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。 多様なタスクにおいて効果的なトリガーアクティベーションを実現するため,クラス固有のテクスチャでバックドアトリガーパターンをスタイリングし,ターゲットクラスに関連するタスク非関連低レベル特徴の認識を高める。 さらに,有毒訓練のための文脈自由学習パイプラインを導入することで,近距離接続の問題に対処する。 このアプローチでは、文脈背景のないトリガをトレーニングデータとして直接利用し、従来のクリーンイメージの使用から逸脱する。 これにより、トリガーからターゲットクラスへの直接ショートカットを確立し、ショートカット接続の問題を軽減する。 ダウンストリーム検出およびセグメンテーションタスクに対する攻撃の有効性を徹底的に検証するための広範な実験を行った。 さらに、自動運転における大規模ビジョンモデルや3dオブジェクト検出など、より実用的なシナリオでこのアプローチの可能性を示す。 本稿では,実用シナリオにおけるPVMの適用に伴う潜在的な脅威に対する意識を高めることを目的とする。 私たちのコードは新聞で公開されます。

Pre-trained vision models (PVMs) have become a dominant component due to their exceptional performance when fine-tuned for downstream tasks. However, the presence of backdoors within PVMs poses significant threats. Unfortunately, existing studies primarily focus on backdooring PVMs for the classification task, neglecting potential inherited backdoors in downstream tasks such as detection and segmentation. In this paper, we propose the Pre-trained Trojan attack, which embeds backdoors into a PVM, enabling attacks across various downstream vision tasks. We highlight the challenges posed by cross-task activation and shortcut connections in successful backdoor attacks. To achieve effective trigger activation in diverse tasks, we stylize the backdoor trigger patterns with class-specific textures, enhancing the recognition of task-irrelevant low-level features associated with the target class in the trigger pattern. Moreover, we address the issue of shortcut connections by introducing a context-free learning pipeline for poison training. In this approach, triggers without contextual backgrounds are directly utilized as training data, diverging from the conventional use of clean images. Consequently, we establish a direct shortcut from the trigger to the target class, mitigating the shortcut connection issue. We conducted extensive experiments to thoroughly validate the effectiveness of our attacks on downstream detection and segmentation tasks. Additionally, we showcase the potential of our approach in more practical scenarios, including large vision models and 3D object detection in autonomous driving. This paper aims to raise awareness of the potential threats associated with applying PVMs in practical scenarios. Our codes will be available upon paper publication.
翻訳日:2023-12-27 19:25:36 公開日:2023-12-23
# 物理量子デバイスにおける大絡み状態の生成と保存

Generation and Preservation of Large Entangled States on Physical Quantum Devices ( http://arxiv.org/abs/2312.15170v1 )

ライセンス: Link先を確認
John F Kam, Haiyue Kang, Charles D Hill, Gary J Mooney, Lloyd C L Hollenberg(参考訳) 量子技術が進歩し、量子コンピュータのサイズが大きくなるにつれて、デバイスの品質の程度を理解することがますます重要になる。 大規模絡み合いは量子優位を達成するために不可欠な量子資源であるため、その生成における課題は、普遍的な量子デバイスの性能を測定するための貴重なベンチマークとなる。 本稿では,GHZ(Greenberger-Horne-Zeilinger)の絡み合いと,IBMの量子デバイス上でのグラフ状態について検討する。 我々はGHZ状態を生成し、状態サイズと動的デカップリング技術に関するコヒーレンス時間を調べる。 0.519 \pm 0.014$のGHZ忠実度は32量子GHZ状態で測定され、その真のマルチパーティライト絡み(GME)が証明される。 動的デカップリング実装後の7-qubit GHZ状態のGHZデコヒーレンス率を大幅に改善し、超デコヒーレンスがないことを確認し、最大$N=15$ qubitsで$\alpha=(7.13N+5.54)10^{-3} \mu s^{-1}$のデコヒーレンスレートの線形傾向を示す。 さらに、433量子ビットのospreyデバイスのアクティブなクビット数である414量子ビット数を持つ22のibm量子デバイス上で、完全に2分割されたネイティブグラフ状態を作成し、特徴付ける。 準備状態における2量子ビット絡み合いの減衰の解析は、動的デカップリング法を実装したコヒーレントノイズ信号の抑制を示す。 さらに、いくつかの量子ビット対の絡み合いは時間とともに振動し、これはZZ-相互作用の残留に起因すると考えられる。 ネイティブグラフの状態における絡み合いの特徴付けと絡み合い振動の検出は、2量子ビットの誤り率と追加のノイズ源をカプセル化した低レベルのデバイスベンチマークに有効なアプローチとなり、量子回路のコンパイルへの応用が可能となる。

As quantum technology advances and the size of quantum computers grow, it becomes increasingly important to understand the extent of quality in the devices. As large-scale entanglement is a quantum resource crucial for achieving quantum advantage, the challenge in its generation makes it a valuable benchmark for measuring the performance of universal quantum devices. In this work, we study entanglement in Greenberger-Horne-Zeilinger (GHZ) and graph states prepared on the range of IBM Quantum devices. We generate GHZ states and investigate their coherence times with respect to state size and dynamical decoupling techniques. A GHZ fidelity of $0.519 \pm 0.014$ is measured on a 32-qubit GHZ state, certifying its genuine multipartite entanglement (GME). We show a substantial improvement in GHZ decoherence rates for a 7-qubit GHZ state after implementing dynamical decoupling, and observe a linear trend in the decoherence rate of $\alpha=(7.13N+5.54)10^{-3} \mu s^{-1}$ for up to $N=15$ qubits, confirming the absence of superdecoherence. Additionally, we prepare and characterise fully bipartite entangled native graph states on 22 IBM Quantum devices with qubit counts as high as 414 qubits, all active qubits of the 433-qubit Osprey device. Analysis of the decay of 2-qubit entanglement within the prepared states shows suppression of coherent noise signals with the implementation of dynamical decoupling techniques. Additionally, we observe that the entanglement in some qubit pairs oscillates over time, which is likely caused by residual ZZ-interactions. Characterising entanglement in native graph states, along with detecting entanglement oscillations, can be an effective approach to low-level device benchmarking that encapsulates 2-qubit error rates along with additional sources of noise, with possible applications to quantum circuit compilation.
翻訳日:2023-12-27 19:25:10 公開日:2023-12-23
# SOLAR 10.7B: 単純だが効果的なアップスケーリングによる大規模言語モデルのスケーリング

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling ( http://arxiv.org/abs/2312.15166v1 )

ライセンス: Link先を確認
Dahyun Kim, Chanjun Park, Sanghoon Kim, Wonsung Lee, Wonho Song, Yunsu Kim, Hyeonwoo Kim, Yungi Kim, Hyeonju Lee, Jihoo Kim, Changbae Ahn, Seonghoon Yang, Sukyung Lee, Hyunbyung Park, Gyoungjin Gim, Mikyoung Cha, Hwalsuk Lee, Sunghun Kim(参考訳) 本研究では,ベースllmを効率良くかつ効果的にスケールアップするための新しい手法であるdus( depth up-scaling)を提案する。 エキスパートの混合(MoE)とは対照的に、DUSはトレーニングや推論に複雑な変更を必要としない。 DUSを用いて107億のパラメータを持つ大規模言語モデル(LLM)であるSOLAR 10.7Bを構築し、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示す。 比較評価では、SOLAR 10.7Bは、Llama 2やMistral 7Bのような既存のオープンソースの事前訓練LLMよりも優れている。 さらに,ミクストラル-8x7b を超える命令追従機能を備えた改良型 solar 10.7b-instruct も紹介する。 solar 10.7bはapache 2.0ライセンスの下で公開されており、llm分野の幅広いアクセスとアプリケーションを促進する。

We introduce depth up-scaling (DUS), a novel technique to up-scale base LLMs efficiently and effectively in a simple manner. In contrast to mixture-of-experts (MoE), DUS does not require complex changes to train and inference. Using DUS, we build SOLAR 10.7B, a large language model (LLM) with 10.7 billion parameters, demonstrating superior performance in various natural language processing (NLP) tasks. Comparative evaluations show that SOLAR 10.7B outperforms existing open-source pretrained LLMs, such as Llama 2 and Mistral 7B. We additionally present SOLAR 10.7B-Instruct, a variant fine-tuned for instruction-following capabilities, surpassing Mixtral-8x7B. SOLAR 10.7B is publicly available under the Apache 2.0 license, promoting broad access and application in the LLM field.
翻訳日:2023-12-27 19:24:28 公開日:2023-12-23
# エピデミックにおける教育空間における安全な職業戦略の強化学習

Reinforcement Learning for Safe Occupancy Strategies in Educational Spaces during an Epidemic ( http://arxiv.org/abs/2312.15163v1 )

ライセンス: Link先を確認
Elizabeth Akinyi Ondula, Bhaskar Krishnamachari(参考訳) 決定論的アプローチと確率論的アプローチを含むエピデミックモデリングは、感染症を理解し、公衆衛生戦略を伝えるために不可欠である。 本研究は,教育環境における感染の最小化と対人対話の最大化のバランスをとるための強化学習(rl)に焦点をあてた規範的アプローチを採用している。 我々は,感染拡大をシミュレートし,様々なrlアルゴリズムの探索を容易にする新しいツールであるsafecampusを紹介する。 SafeCampusは、確率的流行モデルによって知らされる独自のRL環境を組み込んで、流行時の大学キャンパスのダイナミクスを現実的に表現している。 流行状況の異なる状況下での占有判断を導くだけでなく、流行管理に固有のトレードオフを示す政策行列を導いた非正規化状態空間に対するq-learningを評価した。 このトレードオフは、感染を効果的に減らすが教育上の利益(より対人的相互作用)を少なくするより厳格な措置と、感染率を上げる可能性のあるより寛大な政策とのジレンマによって特徴づけられる。

Epidemic modeling, encompassing deterministic and stochastic approaches, is vital for understanding infectious diseases and informing public health strategies. This research adopts a prescriptive approach, focusing on reinforcement learning (RL) to develop strategies that balance minimizing infections with maximizing in-person interactions in educational settings. We introduce SafeCampus , a novel tool that simulates infection spread and facilitates the exploration of various RL algorithms in response to epidemic challenges. SafeCampus incorporates a custom RL environment, informed by stochastic epidemic models, to realistically represent university campus dynamics during epidemics. We evaluate Q-learning for a discretized state space which resulted in a policy matrix that not only guides occupancy decisions under varying epidemic conditions but also illustrates the inherent trade-off in epidemic management. This trade-off is characterized by the dilemma between stricter measures, which may effectively reduce infections but impose less educational benefit (more in-person interactions), and more lenient policies, which could lead to higher infection rates.
翻訳日:2023-12-27 19:24:12 公開日:2023-12-23
# キャプションと接地のためのサイクルコンシスタンス学習

Cycle-Consistency Learning for Captioning and Grounding ( http://arxiv.org/abs/2312.15162v1 )

ライセンス: Link先を確認
Ning Wang, Jiajun Deng, Mingbo Jia(参考訳) 本稿では,2つの逆過程として作用する視覚接地と画像キャプションを組み合わせることで,注意深い設計による協調学習を実現する。 このアイデアを集約することで、視覚の接地と画像キャプションの独立したトレーニングパイプラインを改善するための、循環一貫性のある学習フレームワークcycoを紹介する。 提案フレームワークは,視覚的接地に関する半弱教師付きトレーニングを可能にする。(2)完全に教師付き視覚的接地の性能を向上させる;(3)任意の画像領域を記述可能な一般的なキャプションモデルを生成する。 広範囲にわたる実験により,完全教師付接地モデルが最先端性能を達成し,半教師付モデルが完全教師付接地モデルと比較し,競合性能を示すことが示された。 画像キャプションモデルは、画像領域を自由に記述できると同時に、一般的なキャプションベンチマークで印象的なパフォーマンスを示す。

We present that visual grounding and image captioning, which perform as two mutually inverse processes, can be bridged together for collaborative training by careful designs. By consolidating this idea, we introduce CyCo, a cyclic-consistent learning framework to ameliorate the independent training pipelines of visual grounding and image captioning. The proposed framework (1) allows the semi-weakly supervised training of visual grounding; (2) improves the performance of fully supervised visual grounding; (3) yields a general captioning model that can describe arbitrary image regions. Extensive experiments show that our fully supervised grounding model achieves state-of-the-art performance, and the semi-weakly supervised one also exhibits competitive performance compared to the fully supervised counterparts. Our image captioning model has the capability to freely describe image regions and meanwhile shows impressive performance on prevalent captioning benchmarks.
翻訳日:2023-12-27 19:23:52 公開日:2023-12-23
# 古典的コンディショニングゲートのネットワークとその学習

Networks of Classical Conditioning Gates and Their Learning ( http://arxiv.org/abs/2312.15161v1 )

ライセンス: Link先を確認
Shun-ichi Azuma, Dai Takakura, Ryo Ariizumi, Toru Asai(参考訳) ケミカルAIは、情報処理に加えて学習能力を持つ化学合成された人工知能である。 分子サイバーネティックスプロジェクトと呼ばれる化学AIの研究プロジェクトは、2021年に日本で開始され、古典的条件付けと呼ばれるプロセスを通じて条件付き反射を学習できる分子機械を作ることを目的としている。 もしプロジェクトがそのような分子機械の開発に成功すれば、次のステップはより複雑な機能を実現するためにそのような機械のネットワークを構成することである。 そこで本研究では,古典的条件付けを実装可能なノードネットワークにおいて,所望の関数を学習する手法を開発した。 まず、古典的条件付けのモデルを示し、これを古典的条件付けゲートと呼ぶ。 次に,古典的条件付けゲートのネットワークに対する学習アルゴリズムを提案する。

Chemical AI is chemically synthesized artificial intelligence that has the ability of learning in addition to information processing. A research project on chemical AI, called the Molecular Cybernetics Project, was launched in Japan in 2021 with the goal of creating a molecular machine that can learn a type of conditioned reflex through the process called classical conditioning. If the project succeeds in developing such a molecular machine, the next step would be to configure a network of such machines to realize more complex functions. With this motivation, this paper develops a method for learning a desired function in the network of nodes each of which can implement classical conditioning. First, we present a model of classical conditioning, which is called here a classical conditioning gate. We then propose a learning algorithm for the network of classical conditioning gates.
翻訳日:2023-12-27 19:23:34 公開日:2023-12-23
# 強化学習を用いた実世界複合環境におけるヒューマン・aiコラボレーション

Human-AI Collaboration in Real-World Complex Environment with Reinforcement Learning ( http://arxiv.org/abs/2312.15160v1 )

ライセンス: Link先を確認
Md Saiful Islam, Srijita Das, Sai Krishna Gottipati, William Duguay, Clod\'eric Mars, Jalal Arabneydi, Antoine Fagette, Matthew Guzdial, Matthew-E-Taylor(参考訳) 近年の強化学習(RL)とHitL(Human-in-the-Loop)の学習は、人間とAIのコラボレーションを容易にし、AIエージェントと連携できるようにしている。 インテリジェントシステムにおける人間の専門知識とAIの経験を活用することは効率的かつ有益である。 それでも、人間とAIのコラボレーションがどの程度成功するのか、そのようなコラボレーションが人間やAIエージェントに比較してどのように実行されるのかは不明だ。 本研究では、人間からの学習が効果的であり、複雑なシミュレーション環境において、人間とAIのコラボレーションが人間制御された完全自律型AIエージェントより優れていることを示す。 さらに,我々は,aiを活用したドローンと人間チームが協力して空港を敵のドローン攻撃から守るシナリオに焦点を当てた,重要なインフラストラクチャ保護のための新しいシミュレータを開発した。 我々は,AIエージェントを効果的に支援するためのユーザインタフェースを開発した。 人間やエージェントの学習と比較して,政策修正から学習しながらエージェントがより早く学習できることを実証した。 さらに、人間とAIの協力は、精神的および時間的要求を低くし、人間の努力を減らし、人間が直接すべてのエージェントを制御した場合よりも高いパフォーマンスを得る。 結論として、人間はRLエージェントに有益なアドバイスを提供し、マルチエージェント環境での学習を改善することができることを示す。

Recent advances in reinforcement learning (RL) and Human-in-the-Loop (HitL) learning have made human-AI collaboration easier for humans to team with AI agents. Leveraging human expertise and experience with AI in intelligent systems can be efficient and beneficial. Still, it is unclear to what extent human-AI collaboration will be successful, and how such teaming performs compared to humans or AI agents only. In this work, we show that learning from humans is effective and that human-AI collaboration outperforms human-controlled and fully autonomous AI agents in a complex simulation environment. In addition, we have developed a new simulator for critical infrastructure protection, focusing on a scenario where AI-powered drones and human teams collaborate to defend an airport against enemy drone attacks. We develop a user interface to allow humans to assist AI agents effectively. We demonstrated that agents learn faster while learning from policy correction compared to learning from humans or agents. Furthermore, human-AI collaboration requires lower mental and temporal demands, reduces human effort, and yields higher performance than if humans directly controlled all agents. In conclusion, we show that humans can provide helpful advice to the RL agents, allowing them to improve learning in a multi-agent setting.
翻訳日:2023-12-27 19:23:21 公開日:2023-12-23
# 大言語モデル推論のためのfpgaに基づく空間加速度のポテンシャルの理解

Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference ( http://arxiv.org/abs/2312.15159v1 )

ライセンス: Link先を確認
Hongzheng Chen, Jiahao Zhang, Yixiao Du, Shaojie Xiang, Zichao Yue, Niansong Zhang, Yaohui Cai, Zhiru Zhang(参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)の最近の進歩は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。 既存のアプローチの大半は、異なるネットワーク層やオペレーターのハードウェアユニットを再利用する時間的アーキテクチャに依存している。 しかし、これらの手法はメモリアクセスのオーバーヘッドが大きいため、低レイテンシを実現するのにしばしば困難に直面する。 本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。 私たちのアプローチでは、特定のオペレータやレイヤ用のハードウェアユニットを特殊化することで、チップ外のメモリアクセスを最小限に抑えながら、データフローアーキテクチャを通じてそれら間の直接通信を容易にします。 FPGA上で利用可能なオンチップ計算とメモリ資源を考慮した空間LLM加速器の性能を推定するための総合解析モデルを提案する。 解析により、FPGAベースの空間加速度がGPUベースよりも優れているシナリオを決定できる。 FPGA上でのLLMモデルのより生産的な実装を実現するため,我々はさらに,構成可能で再利用可能な高レベル合成(HLS)カーネルのライブラリを提供する。 このライブラリはオープンソースとして提供される。 AMD Alveo U280FPGAデバイスにBERTとGPT2を実装し,解析モデルとHLSライブラリの有効性を検証する。 提案手法は従来のFPGAベースのBERTモデルと比較して最大16.1倍の高速化を実現可能であることを示す。 GPT生成推論では、プリフィル段階でFPGAオーバーレイであるDFXと比較して2.2倍のスピードアップを実現し、デコード段階でNVIDIA A100 GPUと比較して1.9倍のスピードアップと5.7倍のエネルギー効率向上を実現した。

Recent advancements in large language models (LLMs) boasting billions of parameters have generated a significant demand for efficient deployment in inference workloads. The majority of existing approaches rely on temporal architectures that reuse hardware units for different network layers and operators. However, these methods often encounter challenges in achieving low latency due to considerable memory access overhead. This paper investigates the feasibility and potential of model-specific spatial acceleration for LLM inference on FPGAs. Our approach involves the specialization of distinct hardware units for specific operators or layers, facilitating direct communication between them through a dataflow architecture while minimizing off-chip memory accesses. We introduce a comprehensive analytical model for estimating the performance of a spatial LLM accelerator, taking into account the on-chip compute and memory resources available on an FPGA. Through our analysis, we can determine the scenarios in which FPGA-based spatial acceleration can outperform its GPU-based counterpart. To enable more productive implementations of an LLM model on FPGAs, we further provide a library of high-level synthesis (HLS) kernels that are composable and reusable. This library will be made available as open-source. To validate the effectiveness of both our analytical model and HLS library, we have implemented BERT and GPT2 on an AMD Alveo U280 FPGA device. Experimental results demonstrate our approach can achieve up to 16.1x speedup when compared to previous FPGA-based accelerators for the BERT model. For GPT generative inference, we attain a 2.2x speedup compared to DFX, an FPGA overlay, in the prefill stage, while achieving a 1.9x speedup and a 5.7x improvement in energy efficiency compared to the NVIDIA A100 GPU in the decode stage.
翻訳日:2023-12-27 19:22:58 公開日:2023-12-23
# CodeScholar: 慣用的なコード例の成長

CodeScholar: Growing Idiomatic Code Examples ( http://arxiv.org/abs/2312.15157v1 )

ライセンス: Link先を確認
Manish Shetty, Koushik Sen, Ion Stoica(参考訳) プログラマはAPIメソッドの使用例を探すことが多い。 1つ以上のAPIの現実的で慣用的でコンテキスト的な使用例を生成するツールは、開発者にとって非常に有益です。 このようなツールは、APIのランドスケープを深く理解する必要をなくし、既存のドキュメントを拡張し、API間のインタラクションを見つけるのに役立つだろう。 本稿では,APIメソッドの共通利用を示す慣用的なコード例を生成するCodeScholarを紹介する。 クエリapiを慣用的なコード例に拡張する、グラフ上の新しいニューラルネットワークによる検索技術が含まれている。 私たちのユーザ調査では、GPT3.5のような最先端の大規模言語モデル(LLM)よりも、開発者がCodeScholarの生成例を好むケースが70%あります。 6つの人気のあるPythonライブラリから60のシングルAPIと25のマルチAPIクエリを定量的に評価し、CodeScholarがより現実的で多様な、簡潔な例を生成することを示す。 また,CodeScholarは開発者を支援するだけでなく,LLMを利用したプログラミングアシスタントがプログラム合成設定で正しいコードを生成することも示す。

Programmers often search for usage examples for API methods. A tool that could generate realistic, idiomatic, and contextual usage examples for one or more APIs would be immensely beneficial to developers. Such a tool would relieve the need for a deep understanding of the API landscape, augment existing documentation, and help discover interactions among APIs. We present CodeScholar, a tool that generates idiomatic code examples demonstrating the common usage of API methods. It includes a novel neural-guided search technique over graphs that grows the query APIs into idiomatic code examples. Our user study demonstrates that in 70% of cases, developers prefer CodeScholar generated examples over state-of-the-art large language models (LLM) like GPT3.5. We quantitatively evaluate 60 single and 25 multi-API queries from 6 popular Python libraries and show that across-the-board CodeScholar generates more realistic, diverse, and concise examples. In addition, we show that CodeScholar not only helps developers but also LLM-powered programming assistants generate correct code in a program synthesis setting.
翻訳日:2023-12-27 19:22:29 公開日:2023-12-23
# メモリ制限による統計的推測:調査

Statistical Inference with Limited Memory: A Survey ( http://arxiv.org/abs/2312.15225v1 )

ライセンス: Link先を確認
Tomer Berg, Or Ordentlich, Ofer Shayevitz(参考訳) 様々な形態の統計推論の問題は、数十年にわたる広範な研究の対象となっている。 たいていの取り組みは、利用可能なサンプル数の関数として振る舞いを特徴付けることに重点を置いており、メモリ制限がパフォーマンスに与える影響をはるかに少なくしている。 近年、この話題は工学と計算機科学の文学に大きな関心を寄せている。 本稿では, メモリ制約下での統計的推論の現状を, 仮説テスト, パラメータ推定, 分布特性テスト/推定など, いくつかの正準問題で概観する。 本稿では,この発展分野における主な結果について考察し,再帰的テーマを同定することにより,アルゴリズム構築のための基本的な構成要素を抽出し,下限導出のための有用な手法を提案する。

The problem of statistical inference in its various forms has been the subject of decades-long extensive research. Most of the effort has been focused on characterizing the behavior as a function of the number of available samples, with far less attention given to the effect of memory limitations on performance. Recently, this latter topic has drawn much interest in the engineering and computer science literature. In this survey paper, we attempt to review the state-of-the-art of statistical inference under memory constraints in several canonical problems, including hypothesis testing, parameter estimation, and distribution property testing/estimation. We discuss the main results in this developing field, and by identifying recurrent themes, we extract some fundamental building blocks for algorithmic construction, as well as useful techniques for lower bound derivations.
翻訳日:2023-12-27 19:16:19 公開日:2023-12-23
# LLMを用いたリアルタイムAI協調のための階層型言語エージェント

LLM-Powered Hierarchical Language Agent for Real-time Human-AI Coordination ( http://arxiv.org/abs/2312.15224v1 )

ライセンス: Link先を確認
Jijia Liu, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, Yu Wang(参考訳) LLM(Large Language Models)を利用したAIエージェントは、さまざまな複雑なタスクで人間を支援することを可能にし、人間とAIの協調に革命をもたらす。 LLMを利用するエージェントは通常、LLM APIを呼び出し、人工的に設計された複雑なプロンプトを使用する必要がある。 このパラダイムは、コード生成のような最小限のインタラクティブ要求を伴うシナリオでうまく機能するが、ゲームのような高度にインタラクティブでリアルタイムなアプリケーションには適さない。 従来のゲームAIは、しばしば小さなモデルやリアクティブポリシーを採用し、高速な推論を可能にするが、タスクの完了とインタラクション能力に制限がある。 本研究では,プレイヤーが自然言語とコミュニケーションし,注文に協力できるテストベッドとして,オーバークックドを考察する。 本稿では,人間とAIの協調のための階層型言語エージェント(HLA)を提案する。 特に、HLAは階層的なフレームワークを採用し、3つのモジュールで構成されている: 意図的推論と言語相互作用のための熟練したLLM、マクロアクションを生成するためのFast Mindと呼ばれる軽量なLLM、マクロアクションをアトミックアクションに変換するためのExecutorと呼ばれるリアクティブポリシー。 人間の研究では、HLAは他のベースラインエージェントよりも優れており、スローミンドのみのエージェントやファストミンドのみのエージェント、より強力な協調能力、より速い応答、より一貫性のある言語コミュニケーションがある。

AI agents powered by Large Language Models (LLMs) have made significant advances, enabling them to assist humans in diverse complex tasks and leading to a revolution in human-AI coordination. LLM-powered agents typically require invoking LLM APIs and employing artificially designed complex prompts, which results in high inference latency. While this paradigm works well in scenarios with minimal interactive demands, such as code generation, it is unsuitable for highly interactive and real-time applications, such as gaming. Traditional gaming AI often employs small models or reactive policies, enabling fast inference but offering limited task completion and interaction abilities. In this work, we consider Overcooked as our testbed where players could communicate with natural language and cooperate to serve orders. We propose a Hierarchical Language Agent (HLA) for human-AI coordination that provides both strong reasoning abilities while keeping real-time execution. In particular, HLA adopts a hierarchical framework and comprises three modules: a proficient LLM, referred to as Slow Mind, for intention reasoning and language interaction, a lightweight LLM, referred to as Fast Mind, for generating macro actions, and a reactive policy, referred to as Executor, for transforming macro actions into atomic actions. Human studies show that HLA outperforms other baseline agents, including slow-mind-only agents and fast-mind-only agents, with stronger cooperation abilities, faster responses, and more consistent language communications.
翻訳日:2023-12-27 19:15:43 公開日:2023-12-23
# ソフトウェア工学における大規模言語モデルの検討

A Survey on Large Language Models for Software Engineering ( http://arxiv.org/abs/2312.15223v1 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Yang Xie, Yaxin Zhang, Yun Yang, Weisong Sun, Shengcheng Yu, Zhenyu Chen(参考訳) ソフトウェアエンジニアリング(SE)は、ソフトウェアアプリケーションの体系的な設計、開発、保守であり、現代の主要世界のデジタルインフラを支えています。 つい最近、SEコミュニティは広範囲のSEタスクを自動化するためにLLM(Large Language Models)を使用する技術が急速に増えているのを見た。 それでも、SE 内の LLM のアプリケーション、エフェクト、および可能な制限に関する既存の情報は、まだ十分に研究されていない。 本稿では,LLM ベースの SE コミュニティにおける現状研究を要約する体系的な調査を行う。 3つのモデルアーキテクチャにまたがる30の代表的なLLM,4つのカテゴリにまたがる15の事前学習目標,5つのカテゴリにまたがる16のダウンストリームタスクをまとめた。 次に、LLMが一般的に利用される最近のSE研究を詳細に要約し、SEワークフロー内の4つの重要なフェーズにわたる43の特定のコード関連タスクに関する155の研究を含む。 さらに、ベンチマーク、実証研究、SE教育の探索など、SEにおけるLLMを実証的に評価するための既存の試みを要約する。 また,セキュリティアタックやモデルチューニング,モデル圧縮など,seにおけるllmの最適化と応用に関するいくつかの重要な側面についても論じる。 最後に,ドメインLLMの探索やクリーンな評価データセットの構築など,将来のSE研究にLLMを適用する上での課題と可能性について述べる。 本研究は,既存のLLMベースのSE研究の成果を総合的に理解し,これらの手法の実用化を促進する上で有効である。 私たちのアーティファクトは公開されており、リビングリポジトリで継続的に更新されます。

Software Engineering (SE) is the systematic design, development, and maintenance of software applications, underpinning the digital infrastructure of our modern mainworld. Very recently, the SE community has seen a rapidly increasing number of techniques employing Large Language Models (LLMs) to automate a broad range of SE tasks. Nevertheless, existing information of the applications, effects, and possible limitations of LLMs within SE is still not well-studied. In this paper, we provide a systematic survey to summarize the current state-of-the-art research in the LLM-based SE community. We summarize 30 representative LLMs of Source Code across three model architectures, 15 pre-training objectives across four categories, and 16 downstream tasks across five categories. We then present a detailed summarization of the recent SE studies for which LLMs are commonly utilized, including 155 studies for 43 specific code-related tasks across four crucial phases within the SE workflow. Besides, we summarize existing attempts to empirically evaluate LLMs in SE, such as benchmarks, empirical studies, and exploration of SE education. We also discuss several critical aspects of optimization and applications of LLMs in SE, such as security attacks, model tuning, and model compression. Finally, we highlight several challenges and potential opportunities on applying LLMs for future SE studies, such as exploring domain LLMs and constructing clean evaluation datasets. Overall, our work can help researchers gain a comprehensive understanding about the achievements of the existing LLM-based SE studies and promote the practical application of these techniques. Our artifacts are publicly available and will continuously updated at the living repository: \url{https://github.com/iSEngLab/AwesomeLLM4SE}.
翻訳日:2023-12-27 19:14:51 公開日:2023-12-23
# 進化的強化学習を用いたドローン画像の物体検出のためのスケール最適化

Scale Optimization Using Evolutionary Reinforcement Learning for Object Detection on Drone Imagery ( http://arxiv.org/abs/2312.15219v1 )

ライセンス: Link先を確認
Jialu Zhang, Xiaoying Yang, Wentao He, Jianfeng Ren, Qian Zhang, Titian Zhao, Ruibin Bai, Xiangjian He, Jiang Liu(参考訳) 空中画像における物体検出は,物体間の大規模変動により重要な課題となる。 本稿では,画像中の物体をより効果的に検出するためのスケールを最適化するために,粗細物体検出フレームワークに統合した進化的強化学習エージェントを提案する。 具体的には、オブジェクトを含む可能性のあるパッチセットが最初に生成される。 エージェントにおいて、位置推定精度、予測ラベルの精度、近傍パッチ間のスケール一貫性を測定する報酬セットを設計し、スケール最適化を導く。 提案するスケール一貫性報酬は、同じカテゴリの隣接するオブジェクトに対して同様のスケールを保証する。 さらに,パッチ間の空間意味的関係を利用した空間意味的注意機構を設計する。 エージェントは、進化戦略とともに、近位ポリシー最適化戦略を採用し、エージェントに埋め込まれた現在のパッチステータスと履歴エクスペリエンスの両方を効果的に活用する。 提案モデルは,ドローン画像のオブジェクト検出のための2つのベンチマークデータセットの最先端手法と比較する。 比較したすべてのメソッドを大幅に上回っています。

Object detection in aerial imagery presents a significant challenge due to large scale variations among objects. This paper proposes an evolutionary reinforcement learning agent, integrated within a coarse-to-fine object detection framework, to optimize the scale for more effective detection of objects in such images. Specifically, a set of patches potentially containing objects are first generated. A set of rewards measuring the localization accuracy, the accuracy of predicted labels, and the scale consistency among nearby patches are designed in the agent to guide the scale optimization. The proposed scale-consistency reward ensures similar scales for neighboring objects of the same category. Furthermore, a spatial-semantic attention mechanism is designed to exploit the spatial semantic relations between patches. The agent employs the proximal policy optimization strategy in conjunction with the evolutionary strategy, effectively utilizing both the current patch status and historical experience embedded in the agent. The proposed model is compared with state-of-the-art methods on two benchmark datasets for object detection on drone imagery. It significantly outperforms all the compared methods.
翻訳日:2023-12-27 19:14:22 公開日:2023-12-23
# 地震早期警戒のための一般化ニューラルネットワーク

Generalized Neural Networks for Real-Time Earthquake Early Warning ( http://arxiv.org/abs/2312.15218v1 )

ライセンス: Link先を確認
Xiong Zhang, Miao Zhang(参考訳) 深層学習は地震波形を直接マイニングすることで地震モニタリング能力を高める。 しかし、特定の領域でトレーニングされた現在のニューラルネットワークは、さまざまな領域に一般化する上での課題に直面している。 そこで我々は,任意の局分布を持つ任意の場所で発生する汎用地震を生成するために,データ組換え手法を用いた。 トレーニングされたモデルは、地震検出と連続地震波形ストリームからのパラメータ評価のために異なる監視設定を持つ様々な領域に適用することができる。 これにより、発生した地震のごく初期段階でリアルタイム地震早期警戒(EEW)を開始することができる。 日本とカリフォルニアの地震列に適用した場合, 震源局から4秒以内に地震の位置とマグニチュードを確実に報告し, 平均誤差は2.6-6.3km, 0.05-0.17である。 これらの一般化されたニューラルネットワークはリアルタイムEEWのグローバルな応用を促進する。

Deep learning enhances earthquake monitoring capabilities by mining seismic waveforms directly. However, current neural networks, trained within specific areas, face challenges in generalizing to diverse regions. Here, we employ a data recombination method to create generalized earthquakes occurring at any location with arbitrary station distributions for neural network training. The trained models can then be applied to various regions with different monitoring setups for earthquake detection and parameter evaluation from continuous seismic waveform streams. This allows real-time Earthquake Early Warning (EEW) to be initiated at the very early stages of an occurring earthquake. When applied to substantial earthquake sequences across Japan and California (US), our models reliably report earthquake locations and magnitudes within 4 seconds after the first triggered station, with mean errors of 2.6-6.3 km and 0.05-0.17, respectively. These generalized neural networks facilitate global applications of real-time EEW, eliminating complex empirical configurations typically required by traditional methods.
翻訳日:2023-12-27 19:14:08 公開日:2023-12-23
# DexDLO: 変形可能な線形物体の動的操作のためのゴール条件付きデクサラスポリシーの学習

DexDLO: Learning Goal-Conditioned Dexterous Policy for Dynamic Manipulation of Deformable Linear Objects ( http://arxiv.org/abs/2312.15204v1 )

ライセンス: Link先を確認
Sun Zhaole, Jihong Zhu, Robert B. Fisher(参考訳) 多くの分野において変形可能な線形オブジェクト (DLO) 操作が必要である。 変形可能なリニアオブジェクト(DLO)の操作に関するこれまでの研究は、主に固定的な把持位置を持つ平行な顎グリップ操作に関わっている。 しかし, 人為的手を用いたDLOの創発的操作の可能性は未解明である。 変形可能な線形オブジェクトに対するデクスタブルな動的操作ポリシーをエンド・ツー・エンドで学習するモデルフリーなフレームワークであるdexdloを提案する。 いくつかの共通DLO操作タスクを目標条件のタスクに抽象化することで、DLOグラブ、DLOプル、DLOエンドチップ位置制御など、これらのタスクを実行できます。 我々は,Mujoco物理シミュレータを用いて,同一のフレームワークパラメータで5つの異なるDLO操作タスクを効率よく,効果的に学習できることを実証した。 さらに,学習方針の徹底的な分析,報酬機能,フレームワークの包括的理解のための観察の削減も提供する。

Deformable linear object (DLO) manipulation is needed in many fields. Previous research on deformable linear object (DLO) manipulation has primarily involved parallel jaw gripper manipulation with fixed grasping positions. However, the potential for dexterous manipulation of DLOs using an anthropomorphic hand is under-explored. We present DexDLO, a model-free framework that learns dexterous dynamic manipulation policies for deformable linear objects with a fixed-base dexterous hand in an end-to-end way. By abstracting several common DLO manipulation tasks into goal-conditioned tasks, our DexDLO can perform these tasks, such as DLO grabbing, DLO pulling, DLO end-tip position controlling, etc. Using the Mujoco physics simulator, we demonstrate that our framework can efficiently and effectively learn five different DLO manipulation tasks with the same framework parameters. We further provide a thorough analysis of learned policies, reward functions, and reduced observations for a comprehensive understanding of the framework.
翻訳日:2023-12-27 19:13:53 公開日:2023-12-23
# ChatGPTによるコードインテリジェンスタスクの強化

Enhancing Code Intelligence Tasks with ChatGPT ( http://arxiv.org/abs/2312.15202v1 )

ライセンス: Link先を確認
Kang Yang, Xinjun Mao, Shangwen Wang, Tanghaoran Zhang, Bo Lin, Yanlin Wang, Yihao Qin, Zhang Zhang, Xiaoguang Mao(参考訳) 事前訓練されたコードモデルは、様々なコードインテリジェンスタスクにおいて重要なツールとして登場した。 しかし、その効果は、事前学習されたデータセット、特にプログラミング言語と自然言語の間の橋渡しとなる人間の参照コメントの品質に依存する。 ひとつの大きな課題は、ソフトウェアが進化するにつれて、そのようなコメントが対応するコードと矛盾する可能性があることです。 この不一致は、モデルの最適下トレーニングにつながり、性能を低下させる。 LLMは高品質なコードコメントを生成する優れた能力を示している。 そこで我々は,LLMのパワーを活用して,データセットの品質問題に挑戦する。 LLM生成したコメントに元のコメントを置換することで、トレーニング済みのデータセットを再構築して、より効果的なトレーニング済みのコードモデルを作ることができますか? そこで我々はまず,ChatGPT生成したコメントと人間の参照コメントの総合評価を行った。 既存の参照ベースのメトリクスは、参照コメントをゴールド標準として扱うため、コメントの品質を評価するための新しい参照フリーメトリクスとして、2つの補助タスクを導入する。 実験の結果,ChatGPTが生成したコメントは人間の参照よりもコードとのセマンティックな一貫性が優れており,事前学習データセットの品質向上にChatGPTを活用する可能性が示唆された。 広く使われているデータセットであるcodesearchnetをchatgptで生成したコメントで再構築しました。 その後の実験では、改良されたデータセットでCodeT5を再トレーニングし、4つの世代タスクと1つの理解コードインテリジェンスタスクで評価した結果、ChatGPTで強化されたデータによって事前トレーニングされたモデルは、コード要約、コード生成、コード翻訳タスクにおいて、そのモデルよりも優れていた。

Pre-trained code models have emerged as crucial tools in various code intelligence tasks. However, their effectiveness depends on the quality of the pre-training dataset, particularly the human reference comments, which serve as a bridge between the programming language and natural language. One significant challenge is that such comments can become inconsistent with the corresponding code as the software evolves. This discrepancy can lead to suboptimal training of the models, decreasing their performances. LLMs have demonstrated superior capabilities in generating high-quality code comments. In light of that, we try to tackle the quality issue of the dataset by harnessing the power of LLMs. Specifically, we raise the question: Can we rebuild the pre-training dataset by substituting the original comments with LLM-generated ones for more effective pre-trained code models? To answer the question, we first conduct a comprehensive evaluation to compare ChatGPT-generated comments with human reference comments. As existing reference-based metrics treat the reference comments as gold standards, we introduce two auxiliary tasks as novel reference-free metrics to assess the quality of comments, i.e., code-comment inconsistency detection and code search. Experimental results show that ChatGPT-generated comments demonstrate superior semantic consistency with the code compared to human references, indicating the potential of utilizing ChatGPT to enhance the quality of the pre-training dataset. We rebuilt the widely used dataset, CodeSearchNet, with ChatGPT-generated comments. Subsequent experiments involve re-pre-training the CodeT5 with our refined dataset.Evaluation results on four generation tasks and one understanding code intelligence tasks show that the model pre-trained by ChatGPT-enhanced data outperforms its counterpart on code summarization, code generation, and code translation tasks.
翻訳日:2023-12-27 19:13:37 公開日:2023-12-23
# Revealing Shadows:自己校正イルミネーションによる低照度画像強調

Revealing Shadows: Low-Light Image Enhancement Using Self-Calibrated Illumination ( http://arxiv.org/abs/2312.15199v1 )

ライセンス: Link先を確認
Farzaneh Koohestani, Nader Karimi, Shadrokh Samavi(参考訳) デジタルイメージングでは、画像が不適切な明るさ、隠れたディテール、全体的な品質低下に苦しむことが多いため、暗い環境での視覚コンテンツの強化は大きな課題である。 この問題は、夜間監視、天体写真撮影、低照度ビデオ撮影などのアプリケーションにおいて特に重要であり、明確で詳細な視覚情報が不可欠である。 本研究は,暗黒画像の照明面を強化することでこの問題に対処する。 我々は、様々な色空間を用いて照明成分を抽出し、拡張し、画像の他の成分と再結合することで、過去の手法を進化させた。 RGB画像のための戦略である自己校正照明法(SCI)を用いることで、低照度条件下で通常失われる詳細を効果的に強調・明らかにする。 この選択的照明増強方法は、色情報を無傷に残し、画像の色整合性を保ちます。 重要な点として,本手法はペア画像の必要性を排除し,それらが利用できない状況に適応する。 改良されたSCI技術の実装は従来の方法から大きく変化し、低照度画像強調のための洗練された強力なソリューションを提供する。 提案手法は、より複雑な画像処理技術のステージを設定し、正確な色表現と可視性の向上が不可欠である実世界のアプリケーションの範囲を広げる。

In digital imaging, enhancing visual content in poorly lit environments is a significant challenge, as images often suffer from inadequate brightness, hidden details, and an overall reduction in quality. This issue is especially critical in applications like nighttime surveillance, astrophotography, and low-light videography, where clear and detailed visual information is crucial. Our research addresses this problem by enhancing the illumination aspect of dark images. We have advanced past techniques by using varied color spaces to extract the illumination component, enhance it, and then recombine it with the other components of the image. By employing the Self-Calibrated Illumination (SCI) method, a strategy initially developed for RGB images, we effectively intensify and clarify details that are typically lost in low-light conditions. This method of selective illumination enhancement leaves the color information intact, thus preserving the color integrity of the image. Crucially, our method eliminates the need for paired images, making it suitable for situations where they are unavailable. Implementing the modified SCI technique represents a substantial shift from traditional methods, providing a refined and potent solution for low-light image enhancement. Our approach sets the stage for more complex image processing techniques and extends the range of possible real-world applications where accurate color representation and improved visibility are essential.
翻訳日:2023-12-27 19:13:07 公開日:2023-12-23
# LLMエージェントは社会行動を抑制するか?

Do LLM Agents Exhibit Social Behavior? ( http://arxiv.org/abs/2312.15198v1 )

ライセンス: Link先を確認
Yan Leng, Yuan Yuan(参考訳) 大規模言語モデル(llm)の進歩は、学術研究と実用的な応用の両方においてその有用性を拡大している。 近年の社会科学研究は、複雑な社会システムをシミュレートし、実験中に人体を置換するための「ブラックボックス」LLMエージェントの使用を探求している。 本研究は,人間や他のエージェントとのインタラクションにおいて,LLMが社会学習,社会的嗜好,協調行動などの社会的相互作用の原則をどの程度発揮しているかを考察する。 本研究は,人体を用いた古典的な実験室実験をLLM剤の使用に適応させる新しい枠組みを開発する。 このアプローチには、人間の認知過程を反映するステップバイステップの推論と、LLMの自然選好を評価するゼロショット学習が含まれる。 LLMエージェントの挙動分析には, 一次効果と基礎メカニズムの詳細な検討の両方が含まれる。 現状のLDMであるGPT-4に着目し, LLMエージェントは, 分布的・相互性選好, グループ同一性への応答性, 間接的相互性への関与, 社会学習能力など, 多様な社会的行動を示すことが示唆された。 しかし、我々の分析は顕著な違いも示している: LLMは明らかに公正な好みを示し、正の相反性が弱く、社会学習において人間に比べてより計算的なアプローチを示す。 これらの知見は、LLMが実験室実験やエージェントベースモデリングなどの社会科学研究への応用に大いに貢献する一方で、LLMエージェントと人間の微妙な行動の違いがさらなる調査を保証していることを示している。 これらのモデルを直接適用して人間の行動をエミュレートする前に、llmの社会的行動を評価するプロトコルの慎重に検討と開発が必要である。

The advances of Large Language Models (LLMs) are expanding their utility in both academic research and practical applications. Recent social science research has explored the use of these "black-box" LLM agents for simulating complex social systems and potentially substituting human subjects in experiments. Our study delves into this emerging domain, investigating the extent to which LLMs exhibit key social interaction principles, such as social learning, social preference, and cooperative behavior, in their interactions with humans and other agents. We develop a novel framework for our study, wherein classical laboratory experiments involving human subjects are adapted to use LLM agents. This approach involves step-by-step reasoning that mirrors human cognitive processes and zero-shot learning to assess the innate preferences of LLMs. Our analysis of LLM agents' behavior includes both the primary effects and an in-depth examination of the underlying mechanisms. Focusing on GPT-4, the state-of-the-art LLM, our analyses suggest that LLM agents appear to exhibit a range of human-like social behaviors such as distributional and reciprocity preferences, responsiveness to group identity cues, engagement in indirect reciprocity, and social learning capabilities. However, our analysis also reveals notable differences: LLMs demonstrate a pronounced fairness preference, weaker positive reciprocity, and a more calculating approach in social learning compared to humans. These insights indicate that while LLMs hold great promise for applications in social science research, such as in laboratory experiments and agent-based modeling, the subtle behavioral differences between LLM agents and humans warrant further investigation. Careful examination and development of protocols in evaluating the social behaviors of LLMs are necessary before directly applying these models to emulate human behavior.
翻訳日:2023-12-27 19:12:45 公開日:2023-12-23
# TransFace: 頭部翻訳のための単位ベース音声合成装置

TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head Translation ( http://arxiv.org/abs/2312.15197v1 )

ライセンス: Link先を確認
Xize Cheng, Rongjie Huang, Linjun Li, Tao Jin, Zehan Wang, Aoxiong Yin, Minglei Li, Xinyu Duan, changpeng yang, Zhou Zhao(参考訳) 自己教師付き学習から得られた離散単位の導入により、音声から音声への直接翻訳は高品質な結果を得る。 このアプローチは、モデルカスケードに関連する遅延やカスケードエラーを回避する。 しかし, 音声音声から音声音声への変換は, 1) 既存の手法は, 音声とテキストの両方を通して, キャスケーディング, 合成に依存しているため, 遅延やカスケードエラーが発生する。 2)トーキングヘッド翻訳は、参照フレームの限られたセットを有する。 生成された翻訳が元の音声の長さを超える場合、フレームを繰り返すことでビデオシーケンスを補う必要があるため、ビデオ遷移は厄介になる。 本稿では,音声・視覚音声を他の言語で直接音声・視覚音声に翻訳できる音声頭部翻訳用モデルである \textbf{transface} を提案する。 音声音声を離散単位に変換する音声-単位変換モデルと、単位ベースの音声-視覚音声合成器であるunit2lipから、離散単位からの同期音声-視覚音声を並列に合成する。 さらに,Isometric talking head translation を保証し,参照フレームの重複を防止する境界時間予測器を導入する。 実験により,提案したUnit2Lipモデルでは,LSE-Cでは1.601および0.982の同期が向上し,LRS2では4.35倍の推論速度が向上した。 さらに、TransFace は LRS3-T 上で Es-En と Fr-En に対して 61.93 と 47.55 の BLEU スコアを達成し、100% の同調翻訳を行う。

Direct speech-to-speech translation achieves high-quality results through the introduction of discrete units obtained from self-supervised learning. This approach circumvents delays and cascading errors associated with model cascading. However, talking head translation, converting audio-visual speech (i.e., talking head video) from one language into another, still confronts several challenges compared to audio speech: (1) Existing methods invariably rely on cascading, synthesizing via both audio and text, resulting in delays and cascading errors. (2) Talking head translation has a limited set of reference frames. If the generated translation exceeds the length of the original speech, the video sequence needs to be supplemented by repeating frames, leading to jarring video transitions. In this work, we propose a model for talking head translation, \textbf{TransFace}, which can directly translate audio-visual speech into audio-visual speech in other languages. It consists of a speech-to-unit translation model to convert audio speech into discrete units and a unit-based audio-visual speech synthesizer, Unit2Lip, to re-synthesize synchronized audio-visual speech from discrete units in parallel. Furthermore, we introduce a Bounded Duration Predictor, ensuring isometric talking head translation and preventing duplicate reference frames. Experiments demonstrate that our proposed Unit2Lip model significantly improves synchronization (1.601 and 0.982 on LSE-C for the original and generated audio speech, respectively) and boosts inference speed by a factor of 4.35 on LRS2. Additionally, TransFace achieves impressive BLEU scores of 61.93 and 47.55 for Es-En and Fr-En on LRS3-T and 100% isochronous translations.
翻訳日:2023-12-27 19:12:14 公開日:2023-12-23
# オンデマンドライドプーリングのための強化学習エージェントの固有報酬としての相互情報

Mutual Information as Intrinsic Reward of Reinforcement Learning Agents for On-demand Ride Pooling ( http://arxiv.org/abs/2312.15195v1 )

ライセンス: Link先を確認
Xianjie Zhang, Jiahao Sun, Chen Gong, Kai Wang, Yifei Cao, Hao Chen, Hao Chen, Yu Liu(参考訳) オンデマンド配車サービスの出現により、各車両は一度に複数の乗客にサービスを提供することができ、これによりドライバーの収入が増加し、乗客はオンデマンドのタクシーや車よりも低価格で走行できる(UberXやLyftのように、一度に1人の乗客だけが車に割り当てられる)。 オンデマンドのライドプーリングサービスは、多くの利益をもたらす可能性があるが、ライドプーリングサービスは、すべてのパーティー(乗客、ドライバー、集約企業、環境)の利益を最大化するために、明確に定義されたマッチング戦略が必要である。 既存のアルゴリズムは収益の最大化のみを考えることが多いため、異常な分布を持つリクエストが乗るのは難しい。 適切なリクエストの割り当てを確保しながら収益を上げるには、相乗りサービス会社(集約企業)にとって課題となる。 本稿では,都市を個別のディスパッチ領域に分割し,これらの地域における車両のディスパッチに強化学習(RL)アルゴリズムを用いる,配車作業のための配車フレームワークを提案する。 また,車両と順序分布の相互情報(mi)をrlアルゴリズムの固有報酬として考慮し,それらの分布の相関性を改善し,異常に分散した要求に対して乗車する可能性を確保する。 実世界のタクシーデータを用いた実験の結果、当社のフレームワークは既存のオンデマンド配車方式に比べて平均3倍の収益を上げることができることを示した。

The emergence of on-demand ride pooling services allows each vehicle to serve multiple passengers at a time, thus increasing drivers' income and enabling passengers to travel at lower prices than taxi/car on-demand services (only one passenger can be assigned to a car at a time like UberX and Lyft). Although on-demand ride pooling services can bring so many benefits, ride pooling services need a well-defined matching strategy to maximize the benefits for all parties (passengers, drivers, aggregation companies and environment), in which the regional dispatching of vehicles has a significant impact on the matching and revenue. Existing algorithms often only consider revenue maximization, which makes it difficult for requests with unusual distribution to get a ride. How to increase revenue while ensuring a reasonable assignment of requests brings a challenge to ride pooling service companies (aggregation companies). In this paper, we propose a framework for vehicle dispatching for ride pooling tasks, which splits the city into discrete dispatching regions and uses the reinforcement learning (RL) algorithm to dispatch vehicles in these regions. We also consider the mutual information (MI) between vehicle and order distribution as the intrinsic reward of the RL algorithm to improve the correlation between their distributions, thus ensuring the possibility of getting a ride for unusually distributed requests. In experimental results on a real-world taxi dataset, we demonstrate that our framework can significantly increase revenue up to an average of 3\% over the existing best on-demand ride pooling method.
翻訳日:2023-12-27 19:11:42 公開日:2023-12-23
# PokeMQA: マルチホップ質問回答のためのプログラム可能な知識編集

PokeMQA: Programmable knowledge editing for Multi-hop Question Answering ( http://arxiv.org/abs/2312.15194v1 )

ライセンス: Link先を確認
Hengrui Gu, Kaixiong Zhou, Xiaotian Han, Ninghao Liu, Ruobing Wang, Xin Wang(参考訳) マルチホップ質問応答(mqa、multi-hop question answering)は、機械の理解と推論能力を評価するための困難なタスクの1つであり、大規模言語モデル(llm)が人間の比較可能な性能を広く達成している。 実世界の知識事実のダイナミクスにより、知識編集は、高価な再訓練や微調整を避けつつ、最新の事実でモデルを更新するために研究されている。 編集された事実から始めて、更新されたモデルはMQAの連鎖のカスケード的な変更を提供する必要があります。 従来の技術では、質問分解、回答生成、コンフリクトチェックを含む複数の推論タスクを、編集された事実と比較することで順次実行するようLLMに指示する混合プロンプトを単に採用している。 しかし、これらの機能的多角的推論タスクの結合は、コンフリクトチェックの未熟なタスクを邪魔しながら、質問の理解と回答においてllmsの利点を阻害する。 そこで我々は,マルチホップ質問回答(PokeMQA)のための,プログラム可能な知識編集フレームワークを提案する。 具体的には,外部のコンフリクト信号に応じてllmsの挙動を変調するために,分離学習可能なスコープ検出器と対話しながら,知識提示型マルチホップ質問の分解を促す。 3つのllmバックボーンと2つのベンチマークデータセットに関する実験は、mqaの知識編集における当社の優位性を検証し、ほぼすべての設定において、すべての競合相手を圧倒し、一貫して信頼できる推論プロセスを生み出しています。

Multi-hop question answering (MQA) is one of the challenging tasks to evaluate machine's comprehension and reasoning abilities, where large language models (LLMs) have widely achieved the human-comparable performance. Due to the dynamics of knowledge facts in real world, knowledge editing has been explored to update model with the up-to-date facts while avoiding expensive re-training or fine-tuning. Starting from the edited fact, the updated model needs to provide cascading changes in the chain of MQA. The previous art simply adopts a mix-up prompt to instruct LLMs conducting multiple reasoning tasks sequentially, including question decomposition, answer generation, and conflict checking via comparing with edited facts. However, the coupling of these functionally-diverse reasoning tasks inhibits LLMs' advantages in comprehending and answering questions while disturbing them with the unskilled task of conflict checking. We thus propose a framework, Programmable knowledge editing for Multi-hop Question Answering (PokeMQA), to decouple the jobs. Specifically, we prompt LLMs to decompose knowledge-augmented multi-hop question, while interacting with a detached trainable scope detector to modulate LLMs behavior depending on external conflict signal. The experiments on three LLM backbones and two benchmark datasets validate our superiority in knowledge editing of MQA, outperforming all competitors by a large margin in almost all settings and consistently producing reliable reasoning process.
翻訳日:2023-12-27 19:11:16 公開日:2023-12-23
# 文脈変調とメタ学習による個人化フェデレーション学習

Personalized Federated Learning with Contextual Modulation and Meta-Learning ( http://arxiv.org/abs/2312.15191v1 )

ライセンス: Link先を確認
Anna Vettoruzzo, Mohamed-Rafik Bouguelia, Thorsteinn R\"ognvaldsson(参考訳) フェデレーション学習は、データプライバシを保持しながら、分散データソース上で機械学習モデルをトレーニングするための有望なアプローチとして登場した。 しかし、通信ボトルネック、クライアントデバイスの不均一性、非単位データ分散といった課題は、最適なモデル性能を達成する上で大きな障害となる。 本稿では,フェデレートラーニングとメタラーニングを併用して,効率性と一般化能力を両立させる新しいフレームワークを提案する。 提案手法では,データバッチからコンテキスト情報を学習し,この知識を用いて変調パラメータを生成する。 これらのパラメータは、モデルパーソナライズのためのMAMLベースのアプローチを用いて機能するベースモデルのアクティベーションを動的に調整する。 多様なデータセットにわたる実験結果は、既存のフェデレーション学習アプローチと比較して収束速度とモデル性能の改善を強調している。 これらの知見は、コンテキスト情報とメタ学習技術を連合学習に組み込む可能性を強調し、分散機械学習パラダイムの進歩への道を開く。

Federated learning has emerged as a promising approach for training machine learning models on decentralized data sources while preserving data privacy. However, challenges such as communication bottlenecks, heterogeneity of client devices, and non-i.i.d. data distribution pose significant obstacles to achieving optimal model performance. We propose a novel framework that combines federated learning with meta-learning techniques to enhance both efficiency and generalization capabilities. Our approach introduces a federated modulator that learns contextual information from data batches and uses this knowledge to generate modulation parameters. These parameters dynamically adjust the activations of a base model, which operates using a MAML-based approach for model personalization. Experimental results across diverse datasets highlight the improvements in convergence speed and model performance compared to existing federated learning approaches. These findings highlight the potential of incorporating contextual information and meta-learning techniques into federated learning, paving the way for advancements in distributed machine learning paradigms.
翻訳日:2023-12-27 19:10:46 公開日:2023-12-23
# SAIC:音声匿名化とアイデンティティ分類の統合

SAIC: Integration of Speech Anonymization and Identity Classification ( http://arxiv.org/abs/2312.15190v1 )

ライセンス: Link先を確認
Ming Cheng, Xingjian Diao, Shitong Cheng, Wenjun Liu(参考訳) 近年,遠隔医療,患者音声のマッチング,患者リアルタイムモニタリングなど医療分野において,音声の匿名化や非識別化が注目されている。 特定話者を識別して識別特徴を学習する話者識別タスクは、識別の解除に不可欠である。 稀な研究は音声匿名化とアイデンティティ分類を効果的に組み合わせているため、音声認識とアイデンティティ分類を統合する革新的なパイプラインであるSAICを提案する。 SAICは、Voxceleb1データセット上の話者識別分類タスクにおいて、顕著なパフォーマンスを示し、最先端の精度96.1%に達する。 SAICは臨床データに基づいてトレーニングや評価が行われていないが、この結果はモデルの有効性と医療分野への一般化の可能性を強く証明し、今後の作業に対する洞察力のあるガイダンスを提供する。

Speech anonymization and de-identification have garnered significant attention recently, especially in the healthcare area including telehealth consultations, patient voiceprint matching, and patient real-time monitoring. Speaker identity classification tasks, which involve recognizing specific speakers from audio to learn identity features, are crucial for de-identification. Since rare studies have effectively combined speech anonymization with identity classification, we propose SAIC - an innovative pipeline for integrating Speech Anonymization and Identity Classification. SAIC demonstrates remarkable performance and reaches state-of-the-art in the speaker identity classification task on the Voxceleb1 dataset, with a top-1 accuracy of 96.1%. Although SAIC is not trained or evaluated specifically on clinical data, the result strongly proves the model's effectiveness and the possibility to generalize into the healthcare area, providing insightful guidance for future work.
翻訳日:2023-12-27 19:10:30 公開日:2023-12-23
# IRG:GANを用いた合成関係データベースの生成

IRG: Generating Synthetic Relational Databases using GANs ( http://arxiv.org/abs/2312.15187v1 )

ライセンス: Link先を確認
Jiayu Li and Y.C. Tay(参考訳) アカデミックや業界ではデータ共有の需要が急増している。 しかし、このような共有は個人のプライバシーやデータの機密性に問題がある。 ひとつの選択肢は、合成生成された実データのみを共有することだ。 generative adversarial network (gan)は、この目的のために使用できる最近人気の高い技術である。 関係データベースは通常、互いに関連する複数のテーブルを持つ。 これまでのところ、GANの使用は基本的に単一のテーブルの生成に重点を置いています。 本稿では、GANを用いて相互関係テーブルを合成するインクリメンタルリレーショナルリレーショナルジェネレータ(IRG)を提案する。 経験的リレーショナルデータベースが与えられた場合、IRGは安全に共有できる合成バージョンを生成することができる。 IRGは連続した順序でテーブルを生成する。 キーとなるアイデアは、GANを使用して次のテーブルを生成する際に、これまで生成されたテーブルに基づいてコンテキストを構築することです。 公開データセットと私立学生データによる実験では、IRGは統計特性とクエリ結果の点で最先端の成績を示している。

There is an overgrowing demand for data sharing in academia and industry. However, such sharing has issues with personal privacy and data confidentiality. One option is to share only synthetically-generated versions of the real data. Generative Adversarial Network (GAN) is a recently-popular technique that can be used for this purpose. Relational databases usually have multiple tables that are related to each other. So far, the use of GANs has essentially focused on generating single tables. This paper presents Incremental Relational Generator (IRG), which uses GANs to synthetically generate interrelated tables. Given an empirical relational database, IRG can generate a synthetic version that can be safely shared. IRG generates the tables in some sequential order. The key idea is to construct a context, based on the tables generated so far, when using a GAN to generate the next table. Experiments with public datasets and private student data show that IRG outperforms state-of-the-art in terms of statistical properties and query results.
翻訳日:2023-12-27 19:10:15 公開日:2023-12-23
# Ecmas: 表面コードのための効率的な回路マッピングとスケジューリング

Ecmas: Efficient Circuit Mapping and Scheduling for Surface Code ( http://arxiv.org/abs/2312.15254v1 )

ライセンス: Link先を確認
Mingzheng Zhu, Hao Fu, Jun Wu, Chi Zhang, Wei Xie, Xiang-Yang Li(参考訳) 量子エラー訂正符号の第一候補として、表面コードは実行時間などの大きなオーバーヘッドに悩まされる。 回路の実行時間を短縮すると、実行効率が向上するだけでなく、忠実度も向上する。 しかし、最も短い実行時間はnp-hardである。 本研究では,表面コードマッピングとスケジューリングの問題について検討する。 量子回路の実行時間を短縮するために、まず、量子回路とチップを定量的に特徴付けるために、Circuit Parallelism DegreeとChip Communication Capacityの2つの新しい指標を導入する。 そこで我々は,各回路のチップリソースの初期化をカスタマイズしたEcmasという資源適応型マッピングとスケジューリング手法を提案する。 Ecmasは二重欠陥モデルと格子手術モデルの両方の実行時間を劇的に短縮することができる。 さらに、十分な量子ビットに対してEcmas-ReSuのさらなるバージョンを提供し、性能が保証され、より効率的である。 実用データセットの大規模な数値実験により、Ecmasは2重欠陥モデルにおいて、実行時間を平均51.5%削減することで最先端の手法よりも優れていることが示された。 Ecmasはほとんどのベンチマークで最適な結果に達することができ、格子手術モデルの実行時間を最大13.9%削減できる。

As the leading candidate of quantum error correction codes, surface code suffers from significant overhead, such as execution time. Reducing the circuit's execution time not only enhances its execution efficiency but also improves fidelity. However, finding the shortest execution time is NP-hard. In this work, we study the surface code mapping and scheduling problem. To reduce the execution time of a quantum circuit, we first introduce two novel metrics: Circuit Parallelism Degree and Chip Communication Capacity to quantitatively characterize quantum circuits and chips. Then, we propose a resource-adaptive mapping and scheduling method, named Ecmas, with customized initialization of chip resources for each circuit. Ecmas can dramatically reduce the execution time in both double defect and lattice surgery models. Furthermore, we provide an additional version Ecmas-ReSu for sufficient qubits, which is performance-guaranteed and more efficient. Extensive numerical tests on practical datasets show that Ecmas outperforms the state-of-the-art methods by reducing the execution time by 51.5% on average for double defect model. Ecmas can reach the optimal result in most benchmarks, reducing the execution time by up to 13.9% for lattice surgery model.
翻訳日:2023-12-27 19:03:21 公開日:2023-12-23
# 直交神経平面による効率的な変形性組織再建

Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane ( http://arxiv.org/abs/2312.15253v1 )

ライセンス: Link先を確認
Chen Yang, Kailing Wang, Yuehao Wang, Qi Dou, Xiaokang Yang, Wei Shen(参考訳) 生体内で変形性組織を再構築するための術中イメージング技術は,高度な手術システムにとって重要である。 既存のメソッドは、レンダリング品質に妥協するか、計算集約的に過剰であり、しばしば実行に数十時間を要する。 本稿では, 変形可能な組織を再構築するための神経放射場(NeRF)に基づく, 新規で効率的なフレームワークであるFast Orthogonal Plane(Forplane)を紹介する。 外科手術を4Dボリュームとして概念化し, 直交神経平面からなる静的場と動的場に分解する。 この因子化は4次元空間を複雑化し、メモリ使用量の減少と最適化の高速化に繋がる。 ツールを介在する領域の性能向上と大きな動きの促進と訓練の促進を目的として,時空間重大サンプリング方式を導入した。 空領域間のサンプリングをスキップするために効率的なレイマーチング法を適用し,推定速度を大幅に改善した。 forplaneは両眼および単眼の内視鏡ビデオに対応しており、その広範な適用性と柔軟性を示している。 エンドナーフデータセットとハムリンデータセットの2つのin vivoデータセットを用いて実験を行い,このフレームワークの有効性を実証した。 いずれの場合も、Forplaneは最適化プロセス(100回以上)と推論プロセス(15回以上)の両方を大幅に加速し、様々な非剛性変形の質を維持したり改善したりする。 この顕著なパフォーマンス改善は、将来の術中手術応用に有用な資産となることを約束する。 プロジェクトのコードはhttps://github.com/loping151/forplaneで利用可能です。

Intraoperative imaging techniques for reconstructing deformable tissues in vivo are pivotal for advanced surgical systems. Existing methods either compromise on rendering quality or are excessively computationally intensive, often demanding dozens of hours to perform, which significantly hinders their practical application. In this paper, we introduce Fast Orthogonal Plane (Forplane), a novel, efficient framework based on neural radiance fields (NeRF) for the reconstruction of deformable tissues. We conceptualize surgical procedures as 4D volumes, and break them down into static and dynamic fields comprised of orthogonal neural planes. This factorization iscretizes the four-dimensional space, leading to a decreased memory usage and faster optimization. A spatiotemporal importance sampling scheme is introduced to improve performance in regions with tool occlusion as well as large motions and accelerate training. An efficient ray marching method is applied to skip sampling among empty regions, significantly improving inference speed. Forplane accommodates both binocular and monocular endoscopy videos, demonstrating its extensive applicability and flexibility. Our experiments, carried out on two in vivo datasets, the EndoNeRF and Hamlyn datasets, demonstrate the effectiveness of our framework. In all cases, Forplane substantially accelerates both the optimization process (by over 100 times) and the inference process (by over 15 times) while maintaining or even improving the quality across a variety of non-rigid deformations. This significant performance improvement promises to be a valuable asset for future intraoperative surgical applications. The code of our project is now available at https://github.com/Loping151/ForPlane.
翻訳日:2023-12-27 19:03:00 公開日:2023-12-23
# DTIAM: 薬物・標的相互作用, 結合親和性, 活性化・抑制機構の統一的予測フレームワーク

DTIAM: A unified framework for predicting drug-target interactions, binding affinities and activation/inhibition mechanisms ( http://arxiv.org/abs/2312.15252v1 )

ライセンス: Link先を確認
Zhangli Lu, Chuqi Lei, Kaili Wang, Libo Qin, Jing Tang, Min Li(参考訳) 薬物-標的相互作用(DTI)の正確かつ堅牢な予測は、薬物発見において重要な役割を果たす。 新規DTIの予測には多大な努力が注がれているが、既存のアプローチではラベル付きデータやコールドスタートの問題がまだ不十分である。 さらに重要なことは、現在、薬物と標的の間の作用機構(MoA)の解明に焦点を当てた研究が不足していることである。 活性化と抑制のメカニズムの解消は、薬物開発において重要かつ困難である。 本稿では,薬物と標的の相互作用,結合親和性,活性化・阻害機構の予測を目的とした統合フレームワークDTIAMを紹介する。 DTIAMは、自己指導型事前訓練を通じて大量のラベルなしデータから薬物や標的表現を学習し、薬物や標的のサブ構造や文脈情報を正確に抽出し、これらの表現に基づく下流予測の恩恵を受ける。 DTIAMは、特にコールドスタートシナリオにおいて、すべてのタスクにおける他の最先端メソッドよりも大幅にパフォーマンスが向上する。 さらに、独立検証はDTIAMの強力な一般化能力を示す。 これらの結果は、DTIAMが新規DTIを予測し、さらに候補薬のMoAを識別するための実用的なツールを提供する可能性を示唆している。 dtiamは初めて、薬物標的相互作用、結合親和性、活性化/阻害機構の正確かつ堅牢な予測のための統一フレームワークを提供する。

Accurate and robust prediction of drug-target interactions (DTIs) plays a vital role in drug discovery. Despite extensive efforts have been invested in predicting novel DTIs, existing approaches still suffer from insufficient labeled data and cold start problems. More importantly, there is currently a lack of studies focusing on elucidating the mechanism of action (MoA) between drugs and targets. Distinguishing the activation and inhibition mechanisms is critical and challenging in drug development. Here, we introduce a unified framework called DTIAM, which aims to predict interactions, binding affinities, and activation/inhibition mechanisms between drugs and targets. DTIAM learns drug and target representations from large amounts of label-free data through self-supervised pre-training, which accurately extracts the substructure and contextual information of drugs and targets, and thus benefits the downstream prediction based on these representations. DTIAM achieves substantial performance improvement over other state-of-the-art methods in all tasks, particularly in the cold start scenario. Moreover, independent validation demonstrates the strong generalization ability of DTIAM. All these results suggested that DTIAM can provide a practically useful tool for predicting novel DTIs and further distinguishing the MoA of candidate drugs. DTIAM, for the first time, provides a unified framework for accurate and robust prediction of drug-target interactions, binding affinities, and activation/inhibition mechanisms.
翻訳日:2023-12-27 19:02:34 公開日:2023-12-23
# Prompt-Propose-Verify:基礎モデルを用いた信頼性の高いハンドオブジェクトインタラクションデータ生成フレームワーク

Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data Generation Framework using Foundational Models ( http://arxiv.org/abs/2312.15247v1 )

ライセンス: Link先を確認
Gurusha Juneja and Sukrit Kumar(参考訳) テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。 しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して正確な画像を生成することができない。 この拡散モデルの不可能性は、よく注釈付けされた良質なデータによって克服できると仮定する。 本稿では,拡散モデルを用いた手-対象-相互作用画像生成の改善を特に検討する。 本稿では,Prompt-Propose-Verifyフレームワークを用いて計算した手動物体間相互作用合成データセットを収集し,その上で安定な拡散モデルを微調整する。 clipscore、imagereward、feedility、そしてアライメントのような質的かつ定量的な指標に基づいて、画像テキストデータセットを評価し、現在の最先端ベンチマークよりもかなり優れたパフォーマンスを示します。

Diffusion models when conditioned on text prompts, generate realistic-looking images with intricate details. But most of these pre-trained models fail to generate accurate images when it comes to human features like hands, teeth, etc. We hypothesize that this inability of diffusion models can be overcome through well-annotated good-quality data. In this paper, we look specifically into improving the hand-object-interaction image generation using diffusion models. We collect a well annotated hand-object interaction synthetic dataset curated using Prompt-Propose-Verify framework and finetune a stable diffusion model on it. We evaluate the image-text dataset on qualitative and quantitative metrics like CLIPScore, ImageReward, Fedility, and alignment and show considerably better performance over the current state-of-the-art benchmarks.
翻訳日:2023-12-27 19:02:09 公開日:2023-12-23
# 非非環状生成フローネットワークの理論

A Theory of Non-Acyclic Generative Flow Networks ( http://arxiv.org/abs/2312.15246v1 )

ライセンス: Link先を確認
Leo Maxime Brunswic and Yinchuan Li and Yushun Xu and Shangling Jui and Lizhuang Ma(参考訳) GFlowNetsは、与えられた正の報酬に比例した確率で、一連のアクションを通してオブジェクトを生成する確率ポリシーを学ぶための、新しいフローベースの方法である。 我々は,GFlowNetsの適用範囲を制限する仮説,特に非循環性(あるいはその欠如)の緩和に寄与する。 この目的のために、サイクル制限のない連続状態空間を含む可測空間上でのGFlowNetsの理論を拡張し、この一般化された文脈におけるサイクルの一般化を提供する。 これまでのプッシュフローで使われた損失がサイクルに収まることを示し、この問題を解決する損失のファミリーを定義する。 グラフと連続タスクの実験は、これらの原則を検証する。

GFlowNets is a novel flow-based method for learning a stochastic policy to generate objects via a sequence of actions and with probability proportional to a given positive reward. We contribute to relaxing hypotheses limiting the application range of GFlowNets, in particular: acyclicity (or lack thereof). To this end, we extend the theory of GFlowNets on measurable spaces which includes continuous state spaces without cycle restrictions, and provide a generalization of cycles in this generalized context. We show that losses used so far push flows to get stuck into cycles and we define a family of losses solving this issue. Experiments on graphs and continuous tasks validate those principles.
翻訳日:2023-12-27 19:01:54 公開日:2023-12-23
# CaLDiff:Pose DiffusionによるNeRFのカメラローカライゼーション

CaLDiff: Camera Localization in NeRF via Pose Diffusion ( http://arxiv.org/abs/2312.15242v1 )

ライセンス: Link先を確認
Rashik Shrestha, Bishad Koju, Abhigyan Bhusal, Danda Pani Paudel, Fran\c{c}ois Rameau(参考訳) NeRFベースの暗黙的な3D表現が広く使われるようになると、同じ表現におけるカメラのローカライゼーションの必要性が明らかになる。 そのため、外部のNeRFベースのローカライゼーションを避けることで、ローカライゼーションプロセスを単純化するだけでなく、ローカライゼーションの強化のメリットを提供する可能性がある。 本稿では,カメラポーズ調整のための拡散モデルを用いたNeRFにおけるカメラのローカライズ問題について検討する。 より具体的には、事前訓練されたNeRFモデルを考えると、画像に基づいてランダムに初期化されたカメラポーズを反復的に更新する拡散モデルを訓練する。 テスト時に新しいカメラが2つのステップにローカライズされる: まず、提案したポーズ拡散プロセスを用いて粗いローカライゼーションを行い、続いてNeRFにおけるポーズ反転プロセスの局所的精細化ステップを行う。 実際、ポーズ拡散(caldiff)法によるカメラ位置推定は、拡散過程におけるポーズ反転ステップも統合している。 このような統合は、下流の細分化を意識した拡散プロセスのおかげで、ローカライズ性が大幅に向上します。 実世界のデータに挑戦する実験を徹底的に実施し,比較手法や確立したベースラインよりも優れた結果を提供することにより,提案手法を検証した。 私たちのソースコードは公開されます。

With the widespread use of NeRF-based implicit 3D representation, the need for camera localization in the same representation becomes manifestly apparent. Doing so not only simplifies the localization process -- by avoiding an outside-the-NeRF-based localization -- but also has the potential to offer the benefit of enhanced localization. This paper studies the problem of localizing cameras in NeRF using a diffusion model for camera pose adjustment. More specifically, given a pre-trained NeRF model, we train a diffusion model that iteratively updates randomly initialized camera poses, conditioned upon the image to be localized. At test time, a new camera is localized in two steps: first, coarse localization using the proposed pose diffusion process, followed by local refinement steps of a pose inversion process in NeRF. In fact, the proposed camera localization by pose diffusion (CaLDiff) method also integrates the pose inversion steps within the diffusion process. Such integration offers significantly better localization, thanks to our downstream refinement-aware diffusion process. Our exhaustive experiments on challenging real-world data validate our method by providing significantly better results than the compared methods and the established baselines. Our source code will be made publicly available.
翻訳日:2023-12-27 19:01:44 公開日:2023-12-23
# 値アライメントの測定

Measuring Value Alignment ( http://arxiv.org/abs/2312.15241v1 )

ライセンス: Link先を確認
Fazl Barez and Philip Torr(参考訳) 人工知能(AI)システムが様々な領域にますます統合されるにつれて、人間の価値に合わせることが重要になる。 本稿では、マルコフ決定過程(MDP)を基礎モデルとして、AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。 私たちは、価値の概念を行動や規範に結びついた望ましい目標として行動ガイドラインとして捉え、aiの決定を導くためにどのように使用できるかを明確にすることを目的としています。 このフレームワークは、規範的世界における状態遷移間の好みの変化を評価することによって、規範と値の整合度を評価するメカニズムを提供する。 このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。 提案手法は、健康を強調するレコメンデーションシステムから安全性を優先する自動運転車まで、幅広い応用の可能性を持っている。

As artificial intelligence (AI) systems become increasingly integrated into various domains, ensuring that they align with human values becomes critical. This paper introduces a novel formalism to quantify the alignment between AI systems and human values, using Markov Decision Processes (MDPs) as the foundational model. We delve into the concept of values as desirable goals tied to actions and norms as behavioral guidelines, aiming to shed light on how they can be used to guide AI decisions. This framework offers a mechanism to evaluate the degree of alignment between norms and values by assessing preference changes across state transitions in a normative world. By utilizing this formalism, AI developers and ethicists can better design and evaluate AI systems to ensure they operate in harmony with human values. The proposed methodology holds potential for a wide range of applications, from recommendation systems emphasizing well-being to autonomous vehicles prioritizing safety.
翻訳日:2023-12-27 19:01:23 公開日:2023-12-23
# NoPose-NeuS:多視点再構成のためのニューラル・インシシト・サーフェスとの共同最適化カメラ

NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit Surfaces for Multi-view Reconstruction ( http://arxiv.org/abs/2312.15238v1 )

ライセンス: Link先を確認
Mohamed Shawky Sabae, Hoda Anis Baraka, Mayada Mansour Hadhoud(参考訳) ボリュームレンダリングからニューラルネットワークの暗黙的表面を学ぶことは、マルチビューの再構築に人気がある。 神経表面再構成アプローチは、非ランベルト曲面や薄い構造など、古典的多視点ステレオ(mvs)アプローチでは難しい複雑な3次元形状を回復することができる。 しかし、これらの手法の重要な前提は、入力されたマルチビュー画像の正確なカメラパラメータを知ることである。 本稿では,NuSを拡張した暗黙表面再構成手法であるNoPose-NeuSについて述べる。 カメラポーズをマルチレイヤー・パーセプトロン(mlp)としてエンコードし、さらに2つの損失(マルチビュー特徴の一貫性とレンダリングされた深度損失)を導入し、学習した幾何を、より推定されたカメラポーズとシーン表面のために制約する。 DTUデータセットの大規模な実験により、提案手法は比較的正確なカメラポーズを推定でき、高い表面再構成品質を0.89の平均チャンファー距離を維持した。

Learning neural implicit surfaces from volume rendering has become popular for multi-view reconstruction. Neural surface reconstruction approaches can recover complex 3D geometry that are difficult for classical Multi-view Stereo (MVS) approaches, such as non-Lambertian surfaces and thin structures. However, one key assumption for these methods is knowing accurate camera parameters for the input multi-view images, which are not always available. In this paper, we present NoPose-NeuS, a neural implicit surface reconstruction method that extends NeuS to jointly optimize camera poses with the geometry and color networks. We encode the camera poses as a multi-layer perceptron (MLP) and introduce two additional losses, which are multi-view feature consistency and rendered depth losses, to constrain the learned geometry for better estimated camera poses and scene surfaces. Extensive experiments on the DTU dataset show that the proposed method can estimate relatively accurate camera poses, while maintaining a high surface reconstruction quality with 0.89 mean Chamfer distance.
翻訳日:2023-12-27 19:01:07 公開日:2023-12-23
# 不均一グラフニューラルネットワークの細粒化説明可能性に向けて

Towards Fine-Grained Explainability for Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2312.15237v1 )

ライセンス: Link先を確認
Tong Li, Jiale Deng, Yanyan Shen, Luyu Qiu, Yongxiang Huang, Caleb Chen Cao(参考訳) ヘテロジニアスグラフニューラルネットワーク(hgns)は、ヘテロジニアスグラフ上のノード分類タスクに対する顕著なアプローチである。 優れた性能にもかかわらず、HGNsによる予測に関する洞察は人間には明らかではない。 既存の説明可能性技術は主に均質グラフ上のgnnに対して提案されている。 これらのオブジェクトが予測にどのように影響するかという問題は未解決のままである。 複素構造とリッチセマンティクスを持つ異種グラフが与えられたとき、健全な物体は予測への影響経路を伴い、HGNの推論過程を明らかにすることが必須である。 本稿では,対象ノードへの影響経路を持つ原因ノードを指定するブラックボックスHGNの詳細な説明を提供する新しいフレームワークであるxPathを開発する。 xpathでは、個々の影響経路の予測にノードの影響を区別し、新しいグラフリウィーリングアルゴリズムを用いてグラフ構造を摂動させることで影響を測定する。 さらに,最も影響力のある詳細な説明を効率的に見つけるための欲望探索アルゴリズムを提案する。 様々なHGNと不均一グラフの実証結果から、xPathは忠実な説明を効率よく得ることが示され、高度なGNN説明手法の適応よりも優れている。

Heterogeneous graph neural networks (HGNs) are prominent approaches to node classification tasks on heterogeneous graphs. Despite the superior performance, insights about the predictions made from HGNs are obscure to humans. Existing explainability techniques are mainly proposed for GNNs on homogeneous graphs. They focus on highlighting salient graph objects to the predictions whereas the problem of how these objects affect the predictions remains unsolved. Given heterogeneous graphs with complex structures and rich semantics, it is imperative that salient objects can be accompanied with their influence paths to the predictions, unveiling the reasoning process of HGNs. In this paper, we develop xPath, a new framework that provides fine-grained explanations for black-box HGNs specifying a cause node with its influence path to the target node. In xPath, we differentiate the influence of a node on the prediction w.r.t. every individual influence path, and measure the influence by perturbing graph structure via a novel graph rewiring algorithm. Furthermore, we introduce a greedy search algorithm to find the most influential fine-grained explanations efficiently. Empirical results on various HGNs and heterogeneous graphs show that xPath yields faithful explanations efficiently, outperforming the adaptations of advanced GNN explanation approaches.
翻訳日:2023-12-27 19:00:46 公開日:2023-12-23
# キッカーシューティングアクションによるサッカーボールのゴール位置の分類

Classifying Soccer Ball-on-Goal Position Through Kicker Shooting Action ( http://arxiv.org/abs/2312.15236v1 )

ライセンス: Link先を確認
Javier Tor\'on-Artiles, Daniel Hern\'andez-Sosa, Oliverio J. Santana, Javier Lorenzo-Navarro and David Freire-Obreg\'on(参考訳) 本研究は、サッカーフリーキック後のボールの方向が、シューティング技のみを用いて正確に予測できるかどうかを考察する。 これを調べるために,フリーキックを行うサッカー選手のデータセットを精査し,手動のテンポラルセグメンテーションを行い,キックのモーメントを正確に特定した。 本手法は,人間の行動認識(har)埋め込みと文脈情報の統合モデルを構築し,キック者のランニングアップとキックの瞬間の2つの時間状態に基づいてボールオンゴール位置(bogp)を予測する。 この研究は11の異なるharバックボーンの性能評価を包含しており、フリーキック状況におけるbookp推定の有効性に光を当てている。 追加の表形式のメタデータ入力が導入され、バイアスを伴わずに興味深いモデル拡張が実現される。 有望な結果は、右と左の2つの主要なBoGPクラスを考える際に69.1%の精度を示す。 このことは、ボールのゴールへの目的地を高い精度で予測し、サッカーにおけるフリーキックのダイナミクスを理解する上で有望な意味を持つ。

This research addresses whether the ball's direction after a soccer free-kick can be accurately predicted solely by observing the shooter's kicking technique. To investigate this, we meticulously curated a dataset of soccer players executing free kicks and conducted manual temporal segmentation to identify the moment of the kick precisely. Our approach involves utilizing neural networks to develop a model that integrates Human Action Recognition (HAR) embeddings with contextual information, predicting the ball-on-goal position (BoGP) based on two temporal states: the kicker's run-up and the instant of the kick. The study encompasses a performance evaluation for eleven distinct HAR backbones, shedding light on their effectiveness in BoGP estimation during free-kick situations. An extra tabular metadata input is introduced, leading to an interesting model enhancement without introducing bias. The promising results reveal 69.1% accuracy when considering two primary BoGP classes: right and left. This underscores the model's proficiency in predicting the ball's destination towards the goal with high accuracy, offering promising implications for understanding free-kick dynamics in soccer.
翻訳日:2023-12-27 19:00:26 公開日:2023-12-23
# 効率的生成型大規模言語モデルの実現に向けて:アルゴリズムからシステムへ

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems ( http://arxiv.org/abs/2312.15234v1 )

ライセンス: Link先を確認
Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Hongyi Jin, Tianqi Chen, Zhihao Jia(参考訳) 人工知能(AI)の急速な発展の中で、生成型大規模言語モデル(LLM)が最前線に立ち、私たちのデータとのインタラクション方法に革命をもたらした。 しかしながら、これらのモデルのデプロイの計算強度とメモリ消費は、特に低レイテンシと高スループットを要求するシナリオにおいて、サービス効率の面で大きな課題をもたらす。 この調査は、機械学習システム(MLSys)研究の観点から、AIの先進的な革新と実用的なシステム最適化の最前線に立つ、効率的なLLMサービス方法論の必要性に対処する。 我々は,最先端のアルゴリズム修正からシステム設計の画期的な変化まで,ソリューションのスペクトルをカバーする詳細な分析を提供する。 この調査は、効率的なLLM提供における現在の状況と今後の方向性を包括的に理解することを目的としており、効果的なLLMデプロイメントの障壁を克服する上で、研究者や実践者に貴重な洞察を提供することにより、AIの将来を再構築する。

In the rapidly evolving landscape of artificial intelligence (AI), generative large language models (LLMs) stand at the forefront, revolutionizing how we interact with our data. However, the computational intensity and memory consumption of deploying these models present substantial challenges in terms of serving efficiency, particularly in scenarios demanding low latency and high throughput. This survey addresses the imperative need for efficient LLM serving methodologies from a machine learning system (MLSys) research perspective, standing at the crux of advanced AI innovations and practical system optimizations. We provide in-depth analysis, covering a spectrum of solutions, ranging from cutting-edge algorithmic modifications to groundbreaking changes in system designs. The survey aims to provide a comprehensive understanding of the current state and future directions in efficient LLM serving, offering valuable insights for researchers and practitioners in overcoming the barriers of effective LLM deployment, thereby reshaping the future of AI.
翻訳日:2023-12-27 19:00:04 公開日:2023-12-23
# 医用画像解析のノイズ学習におけるノイズレート推定を用いたサンプル選択

Sample selection with noise rate estimation in noise learning of medical image analysis ( http://arxiv.org/abs/2312.15233v1 )

ライセンス: Link先を確認
Maolin Li, Giacomo Tarroni, Vasilis Siomos(参考訳) 深層学習技術は医用画像解析の分野で顕著な成功を収めている。 しかし、データ内のラベルノイズの存在は、その性能を著しく損なう。 本稿では,ノイズ率推定をサンプル選択手法に統合し,雑音の多いデータセットを扱う新しいノイズロバスト学習手法を提案する。 まず、損失値の分布に基づいて線形回帰を用いたデータセットの雑音率を推定する。 そして、この推定ノイズ率に基づいて潜在的ノイズサンプルを除外し、さらにスパース正規化を用いてディープラーニングモデルの堅牢性を向上させる。 提案手法は、3次元医用画像を含む2つのデータセットを含む5つのベンチマーク医用画像分類データセットで評価した。 提案手法は,既存のノイズロバスト学習法,特にノイズレートが非常に大きい場合の学習方法よりも優れることを示す。

Deep learning techniques have demonstrated remarkable success in the field of medical image analysis. However, the existence of label noise within data significantly hampers its performance. In this paper, we introduce a novel noise-robust learning method which integrates noise rate estimation into sample selection approaches for handling noisy datasets. We first estimate the noise rate of a dataset with Linear Regression based on the distribution of loss values. Then, potentially noisy samples are excluded based on this estimated noise rate, and sparse regularization is further employed to improve the robustness of our deep learning model. Our proposed method is evaluated on five benchmark medical image classification datasets, including two datasets featuring 3D medical images. Experiments show that our method outperforms other existing noise-robust learning methods, especially when noise rate is very big.
翻訳日:2023-12-27 18:59:45 公開日:2023-12-23
# perp: llms時代のprune-retrainパラダイム再考

PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs ( http://arxiv.org/abs/2312.15230v1 )

ライセンス: Link先を確認
Max Zimmer, Megi Andoni, Christoph Spiegel, Sebastian Pokutta(参考訳) ニューラルネットワークはプルーニングによって効率よく圧縮でき、予測性能を維持しながら、ストレージと計算要求を大幅に削減できる。 イテレーティブマグニチュードプルーニング(imp, han et al., 2015)のようなシンプルで効果的な方法は、重要なパラメータを少なくし、プルーニング後のパフォーマンスを回復するためにコストのかかる再トレーニング手順を必要とする。 しかし、LLM(Large Language Models)の台頭に伴い、メモリと計算の制約により、完全なリトレーニングが不可能になっている。 本研究では,高表現率パラメータの小さなサブセットだけを更新するだけで,完全なリトレーニングよりも性能を回復あるいは改善できることを示すことで,全てのパラメータをリトレーニングする実践に挑戦する。 驚いたことに、GPTアーキテクチャのパラメータ(OPT-2.7B/6.7B/13B/30B)の0.27%-0.35%しかリトレーニングを行ない、様々な範囲でOne Shot IMPに匹敵する性能を達成した。 提案手法は,Pruning after Pruning (PERP) によって計算およびメモリ要求を大幅に削減し,最大300億個のパラメータモデルを1つのNVIDIA A100 GPU上で数分でプルーニングおよび再トレーニングすることが可能となる。 大規模刈り込みはLLMの刈り取りに適していないと考えられるが,本研究は,Wanda (Sun et al., 2023) や SparseGPT (Frantar & Alistarh, 2023) などの最先端のリトレーニングフリーアプローチに対して,PERPが強力な競合相手として位置づけることを示し,再トレーニングを避けるための有望な代替手段を開拓した。

Neural Networks can be efficiently compressed through pruning, significantly reducing storage and computational demands while maintaining predictive performance. Simple yet effective methods like Iterative Magnitude Pruning (IMP, Han et al., 2015) remove less important parameters and require a costly retraining procedure to recover performance after pruning. However, with the rise of Large Language Models (LLMs), full retraining has become infeasible due to memory and compute constraints. In this study, we challenge the practice of retraining all parameters by demonstrating that updating only a small subset of highly expressive parameters is often sufficient to recover or even improve performance compared to full retraining. Surprisingly, retraining as little as 0.27%-0.35% of the parameters of GPT-architectures (OPT-2.7B/6.7B/13B/30B) achieves comparable performance to One Shot IMP across various sparsity levels. Our method, Parameter-Efficient Retraining after Pruning (PERP), drastically reduces compute and memory demands, enabling pruning and retraining of up to 30 billion parameter models on a single NVIDIA A100 GPU within minutes. Despite magnitude pruning being considered as unsuited for pruning LLMs, our findings show that PERP positions it as a strong contender against state-of-the-art retraining-free approaches such as Wanda (Sun et al., 2023) and SparseGPT (Frantar & Alistarh, 2023), opening up a promising alternative to avoiding retraining.
翻訳日:2023-12-27 18:59:33 公開日:2023-12-23
# 正規化されたPolyKervNet:ディープニューラルネットワークにおけるプライベート推論の表現性と効率の最適化

Regularized PolyKervNets: Optimizing Expressiveness and Efficiency for Private Inference in Deep Neural Networks ( http://arxiv.org/abs/2312.15229v1 )

ライセンス: Link先を確認
Toluwani Aremu(参考訳) ディープニューラルネットワーク(DNN)におけるRectified Linear Units(ReLU)やmax-pooling操作などの非線形関数のプライベートな計算は、ストレージ、帯域幅、時間消費の点で大きな課題を生じさせる。 これらの課題に対処するため、従来のReLUの代替として多項式活性化関数やカーネル化された畳み込みを利用するプライバシー保護技術の利用への関心が高まっている。 しかしながら、これらの代替アプローチは、より高速なプライベート推論(PI)を達成することと、モデルの精度を犠牲にすることの間のトレードオフに悩まされることが多い。 特に、より深いネットワークに適用すると、これらの手法はトレーニングの不安定性に遭遇し、勾配の爆発(nans)や準最適近似といった問題を引き起こす。 本研究では,より小さなネットワークでは動的近似が改善されるが,大規模で複雑なネットワークでは不安定に直面する技術であるpolykervnetsに着目した。 我々の主な目的は、大規模ネットワークにおけるPolyKervNetの性能を高めるために、最適化に基づくトレーニングレシピを実証的に探索することである。 これにより、従来の非線形アクティベーション機能の必要性を排除し、プライバシーを保護したディープニューラルネットワークアーキテクチャの最先端を前進させることを目指している。 コードはgithubにある。 \url{https://github.com/tolusophy/polykervnets/}

Private computation of nonlinear functions, such as Rectified Linear Units (ReLUs) and max-pooling operations, in deep neural networks (DNNs) poses significant challenges in terms of storage, bandwidth, and time consumption. To address these challenges, there has been a growing interest in utilizing privacy-preserving techniques that leverage polynomial activation functions and kernelized convolutions as alternatives to traditional ReLUs. However, these alternative approaches often suffer from a trade-off between achieving faster private inference (PI) and sacrificing model accuracy. In particular, when applied to much deeper networks, these methods encounter training instabilities, leading to issues like exploding gradients (resulting in NaNs) or suboptimal approximations. In this study, we focus on PolyKervNets, a technique known for offering improved dynamic approximations in smaller networks but still facing instabilities in larger and more complex networks. Our primary objective is to empirically explore optimization-based training recipes to enhance the performance of PolyKervNets in larger networks. By doing so, we aim to potentially eliminate the need for traditional nonlinear activation functions, thereby advancing the state-of-the-art in privacy-preserving deep neural network architectures. Code can be found on GitHub at: \url{https://github.com/tolusophy/PolyKervNets/}
翻訳日:2023-12-27 18:58:56 公開日:2023-12-23
# フェイクニュース検出のための敵対的データ毒殺: モデルがターゲットニュースを変更せずに誤分類する方法

Adversarial Data Poisoning for Fake News Detection: How to Make a Model Misclassify a Target News without Modifying It ( http://arxiv.org/abs/2312.15228v1 )

ライセンス: Link先を確認
Federico Siciliano, Luca Maiano, Lorenzo Papa, Federica Baccin, Irene Amerini, Fabrizio Silvestri(参考訳) 偽ニュース検出モデルは偽情報に対抗するために重要であるが、敵の攻撃によって操作できる。 本稿では,攻撃者が本来のターゲットニュースを操作することなく,特定のニュースコンテンツに対してオンライン学習検出器の性能を損なうことができるかを分析する。 ソーシャルネットワークのように、攻撃者が全ての情報を完全に制御できない状況では、このシナリオは確かに極めて妥当である。 そこで本研究では,攻撃者がオンライン学習手法の動作を操作するためのトレーニングデータに有毒データを導入する方法を示す。 最初の知見から,ロジスティック回帰モデルの複雑性と攻撃タイプによる感受性が異なっていた。

Fake news detection models are critical to countering disinformation but can be manipulated through adversarial attacks. In this position paper, we analyze how an attacker can compromise the performance of an online learning detector on specific news content without being able to manipulate the original target news. In some contexts, such as social networks, where the attacker cannot exert complete control over all the information, this scenario can indeed be quite plausible. Therefore, we show how an attacker could potentially introduce poisoning data into the training data to manipulate the behavior of an online learning method. Our initial findings reveal varying susceptibility of logistic regression models based on complexity and attack type.
翻訳日:2023-12-27 18:58:31 公開日:2023-12-23
# グラフ・オブ・サートを用いた逆多声対話共通センス推論

Reverse Multi-Choice Dialogue Commonsense Inference with Graph-of-Thought ( http://arxiv.org/abs/2312.15291v1 )

ライセンス: Link先を確認
Li Zheng, Hao Fei, Fei Li, Bobo Li, Lizi Liao, Donghong Ji and Chong Teng(参考訳) インターネット上での対話データの普及に伴い,対話コモンセンス・マルチチョイス質問応答(dc-mcq)タスクが,ユーザの質問や意図の理解という課題に対する回答として出現した。 一般的な手法は, シングルチョイス問題に対処する上で有効であるが, 複雑化と情報密度の増大により, 複数チョイス問合せの処理が困難である。 本稿では,選択肢を段階的に排除する人間の認知プロセスに触発されて,オプション排他,エラー分析,複合情報を含む3段階の逆排他グラフ(ReX-GoT)フレームワークを提案する。 特に、我々のReX-GoTは、不適切な選択肢を徐々に排除し、オプションエラーがGoTの最適経路を選択し、最終的に正しい答えを推測する理由を学ぶことで、人間の推論を模倣します。 複雑な手がかりを段階的に統合することにより、多選択推論の難易度を効果的に低減し、DC-MCQの新しいソリューションを提供する。 CICEROおよびCICERO$_{v2}$データセットに関する大規模な実験により、DC-MCQタスクにおける我々のアプローチの大幅な改善が検証された。 ゼロショット設定では、マルチ選択タスクのF1スコアにおいて、最良のベースラインを17.67\%上回る。 GPT3.5ベースのReX-GoTフレームワークは、F1スコアの39.44倍の顕著な増加を実現しています。 私たちのコードは、 \url{https://github.com/zhengl00/rex-got} で利用可能です。

With the proliferation of dialogic data across the Internet, the Dialogue Commonsense Multi-choice Question Answering (DC-MCQ) task has emerged as a response to the challenge of comprehending user queries and intentions. Although prevailing methodologies exhibit effectiveness in addressing single-choice questions, they encounter difficulties in handling multi-choice queries due to the heightened intricacy and informational density. In this paper, inspired by the human cognitive process of progressively excluding options, we propose a three-step Reverse Exclusion Graph-of-Thought (ReX-GoT) framework, including Option Exclusion, Error Analysis, and Combine Information. Specifically, our ReX-GoT mimics human reasoning by gradually excluding irrelevant options and learning the reasons for option errors to choose the optimal path of the GoT and ultimately infer the correct answer. By progressively integrating intricate clues, our method effectively reduces the difficulty of multi-choice reasoning and provides a novel solution for DC-MCQ. Extensive experiments on the CICERO and CICERO$_{v2}$ datasets validate the significant improvement of our approach on DC-MCQ task. On zero-shot setting, our model outperform the best baseline by 17.67\% in terms of F1 score for the multi-choice task. Most strikingly, our GPT3.5-based ReX-GoT framework achieves a remarkable 39.44\% increase in F1 score. Our code is available at: \url{https://github.com/ZhengL00/ReX-GoT}.
翻訳日:2023-12-27 18:54:02 公開日:2023-12-23
# 量子振り子としての超流動環

Superfluid rings as quantum pendulums ( http://arxiv.org/abs/2312.15290v1 )

ライセンス: Link先を確認
Antonio Mu\~noz Mateo, Grigory E. Astrakharchik, Bruno Juli\'a-D\'iaz(参考訳) 非分散量子振子を実現するための実現可能な実験提案を行う。 提案されたセットアップは、傾斜したリング電位にロードされる魅力的な原子間相互作用を特徴とする超低温原子雲で構成されている。 古典的および量子的領域は、チューニングされた相互作用によってスイッチオンされ、不安定な状態の古典的動的安定化(すなわち a la} Kapitza)は、量子位相インプリントによって駆動される。 重力計としての利用の可能性について論じる。

A feasible experimental proposal to realize a non-dispersive quantum pendulum is presented. The proposed setup consists of an ultracold atomic cloud, featuring attractive interatomic interactions, loaded into a tilted ring potential. The classical and quantum domains are switched on by tuned interactions, and the classical dynamical stabilization of unstable states, i.e. {\it a la} Kapitza, is shown to be driven by quantum phase imprinting. The potential use of this system as a gravimeter is discussed.
翻訳日:2023-12-27 18:53:39 公開日:2023-12-23
# Wavelet Packet Power Spectrum Kullback-Leibler Divergence:画像合成のための新しいメトリクス

Wavelet Packet Power Spectrum Kullback-Leibler Divergence: A New Metric for Image Synthesis ( http://arxiv.org/abs/2312.15289v1 )

ライセンス: Link先を確認
Lokesh Veeramacheneni (University of Bonn) and Moritz Wolter (University of Bonn) and Juergen Gall (University of Bonn)(参考訳) 生成ニューラルネットワークの現在のメトリクスは、低周波数、特定のジェネレータ、ImageNetデータセットからのオブジェクト、形よりも価値テクスチャに偏っている。 現在の多くの品質指標は直接周波数情報を計測しない。 そこで本研究では,周波数領域へのドアを開くと同時に,データの空間的側面を保存できる新しい周波数帯域ベースの品質指標を提案する。 比較した分布がImageNetから遠くない場合や、異なるジェネレータアーキテクチャによって生成された場合であっても、私たちのメトリックはうまく機能します。 我々は,様々なデータセット上で生成ネットワークの幅広い選択をサンプリングすることにより,測定値の品質を検証する。 ユーザスタディは、メトリックが人間の知覚と一致していることを保証する。 さらに、周波数帯域誘導により、現在の生成ネットワークの周波数領域忠実性が向上することを示す。

Current metrics for generative neural networks are biased towards low frequencies, specific generators, objects from the ImageNet dataset, and value texture more than shape. Many current quality metrics do not measure frequency information directly. In response, we propose a new frequency band-based quality metric, which opens a door into the frequency domain yet, at the same time, preserves spatial aspects of the data. Our metric works well even if the distributions we compare are far from ImageNet or have been produced by differing generator architectures. We verify the quality of our metric by sampling a broad selection of generative networks on a wide variety of data sets. A user study ensures our metric aligns with human perception. Furthermore, we show that frequency band guidance can improve the frequency domain fidelity of a current generative network.
翻訳日:2023-12-27 18:53:30 公開日:2023-12-23
# コントラスト表現学習と分散検出における正規化の理解

Understanding normalization in contrastive representation learning and out-of-distribution detection ( http://arxiv.org/abs/2312.15288v1 )

ライセンス: Link先を確認
Tai Le-Gia, Jaehyun Ahn(参考訳) コントラスト表現学習は異常検出のための優れたアプローチとして現れている。 本研究では,コントラスト特徴の$\ell_2$-normとその分散検出への応用について検討する。 本研究では,コントラスト層空間における正規サンプルと判別することにより,分散データを取り入れたコントラスト学習に基づく簡易な手法を提案する。 本手法は,アウトオブディストリビューションデータがランダム画像の巨大な集合であるアウトリアー露光(oe)アプローチや,分散シフト変換を適用してアウトオブディストリビューションデータを自己生成する完全自己教師あり学習アプローチとして柔軟に適用することができる。 追加のアウト・オブ・ディストリビューション・サンプルを組み込むことで、航空画像や顕微鏡画像など、対照的な学習に基づくADメソッドが一般的にパフォーマンスの低いデータセットに対して実現可能なソリューションが可能になる。 さらに、コントラスト学習を通じて学んだ高品質な機能は、利用可能な分散外データセットが十分に多様化していない場合でも、oeシナリオのパフォーマンスを一貫して向上させます。 提案手法は,画像データセットを用いて,ユニモーダル設定やマルチモーダル設定を含む様々なシナリオにおいて優れていることを示す。

Contrastive representation learning has emerged as an outstanding approach for anomaly detection. In this work, we explore the $\ell_2$-norm of contrastive features and its applications in out-of-distribution detection. We propose a simple method based on contrastive learning, which incorporates out-of-distribution data by discriminating against normal samples in the contrastive layer space. Our approach can be applied flexibly as an outlier exposure (OE) approach, where the out-of-distribution data is a huge collective of random images, or as a fully self-supervised learning approach, where the out-of-distribution data is self-generated by applying distribution-shifting transformations. The ability to incorporate additional out-of-distribution samples enables a feasible solution for datasets where AD methods based on contrastive learning generally underperform, such as aerial images or microscopy images. Furthermore, the high-quality features learned through contrastive learning consistently enhance performance in OE scenarios, even when the available out-of-distribution dataset is not diverse enough. Our extensive experiments demonstrate the superiority of our proposed method under various scenarios, including unimodal and multimodal settings, with various image datasets.
翻訳日:2023-12-27 18:53:15 公開日:2023-12-23
# 未知パラメトリック需要モデルによるマークダウン価格設定

Markdown Pricing Under an Unknown Parametric Demand Model ( http://arxiv.org/abs/2312.15286v1 )

ライセンス: Link先を確認
Su Jia, Andrew Li, R. Ravi(参考訳) 販売者が特定の家族から来る未知の需要モデルを用いて、単調にn$ラウンドで価格を下げる単一商品収益最大化問題を考える。 単調性がない場合、ミニマックス後悔はリプシッツ需要族に対して$\tilde O(n^{2/3})$、パラメトリック需要モデルの一般的なクラスに対して$\tilde O(n^{1/2})$である。 単調性において、ミニマックスの後悔は、収入関数がリプシッツとユニモーダルであれば$\tilde o(n^{3/4})$である。 しかし、パラメトリック家族に対するミニマックスの後悔は未解決のままであった。 この研究において、我々はこの根本的な問題を完全に解決する。 需要関数のファミリーの複雑さを測定するために交差数を導入する。 特に、次数-$k$多項式の族は交叉数$k$を持つ。 不確実性下での保守主義に基づいて (i)交叉数$k=0$の家族に対して最適な$\theta(\log^2 n)$の方針 (ii)$k\ge 1$のとき、最適$\tilde \Theta(n^{k/(k+1)})$ regretの別のポリシー。 これらの境界は、単調性制約のない同じ族に対して $\tilde O(\log n)$ と $\tilde \Theta(\sqrt n)$ minimax regret よりも漸近的に高い。

Consider a single-product revenue-maximization problem where the seller monotonically decreases the price in $n$ rounds with an unknown demand model coming from a given family. Without monotonicity, the minimax regret is $\tilde O(n^{2/3})$ for the Lipschitz demand family and $\tilde O(n^{1/2})$ for a general class of parametric demand models. With monotonicity, the minimax regret is $\tilde O(n^{3/4})$ if the revenue function is Lipschitz and unimodal. However, the minimax regret for parametric families remained open. In this work, we provide a complete settlement for this fundamental problem. We introduce the crossing number to measure the complexity of a family of demand functions. In particular, the family of degree-$k$ polynomials has a crossing number $k$. Based on conservatism under uncertainty, we present (i) a policy with an optimal $\Theta(\log^2 n)$ regret for families with crossing number $k=0$, and (ii) another policy with an optimal $\tilde \Theta(n^{k/(k+1)})$ regret when $k\ge 1$. These bounds are asymptotically higher than the $\tilde O(\log n)$ and $\tilde \Theta(\sqrt n)$ minimax regret for the same families without the monotonicity constraint.
翻訳日:2023-12-27 18:52:49 公開日:2023-12-23
# 部分状態と擬似乱数状態

Subset States and Pseudorandom States ( http://arxiv.org/abs/2312.15285v1 )

ライセンス: Link先を確認
Fernando Granha Jeronimo, Nir Magrafta, Pei Wu(参考訳) Pseudorandom state (PRS) は量子暗号において重要なプリミティブである。 本稿では,集合状態がprsの構成に利用できることを示す。 計算基底の部分集合である$S$に対する部分集合状態は \[ \frac{1}{\sqrt{|S|}}\sum_{i\in S} |i\rangle である。 技術的中心として、任意の固定部分集合サイズに対して、$s = o(2^n/\poly(n))$ と $s=\omega(\poly(n))$ が、$n$ が qubits の数であるとき、サブセット状態は、多項式的に多くのコピーが与えられたハール乱数状態とは、情報論的に区別できない。 このパラメータの範囲は厳密です。 我々の結果は、Ji, Liu, Songによる予想を解く。

Pseudorandom states (PRS) are an important primitive in quantum cryptography. In this paper, we show that subset states can be used to construct PRSs. A subset state with respect to $S$, a subset of the computational basis, is \[ \frac{1}{\sqrt{|S|}}\sum_{i\in S} |i\rangle. \] As a technical centerpiece, we show that for any fixed subset size $|S|=s$ such that $s = o(2^n/\poly(n))$ and $s=\omega(\poly(n))$, where $n$ is the number of qubits, a subset state is information-theoretically indistinguishable from a Haar random state even provided with polynomially many copies. This range of parameter is tight. Our result resolves a conjecture by Ji, Liu and Song.
翻訳日:2023-12-27 18:52:27 公開日:2023-12-23
# 価格の因果予測

Causal Forecasting for Pricing ( http://arxiv.org/abs/2312.15282v1 )

ライセンス: Link先を確認
Douglas Schultz, Johannes Stephan, Julian Sieber, Trudie Yeh, Manuel Kunz, Patrick Doupe, Tim Januschowski(参考訳) 本稿では,価格条件下での需要予測手法を提案する。 ここで、価格を需要に対する入力変数として因果関係のモデル化は、小売業者が下流意思決定問題において(営利的な)最適価格設定を目指すため、重要である。 提案手法は,因果推論のためのダブル機械学習手法と,最先端のトランスフォーマーに基づく予測モデルを組み合わせたものである。 広範にわたる実験実験において,本手法は人工的かつ現実的なデータを用いて,完全に制御された環境での因果効果を推定する。 一方,本手法がオフ・ポリシー・セッティング(つまり価格設定の変更がある場合)において予測手法を上回っており,オン・ポリシー・セッティングではわずかに遅れていることを実世界データで実証する。

This paper proposes a novel method for demand forecasting in a pricing context. Here, modeling the causal relationship between price as an input variable to demand is crucial because retailers aim to set prices in a (profit) optimal manner in a downstream decision making problem. Our methods bring together the Double Machine Learning methodology for causal inference and state-of-the-art transformer-based forecasting models. In extensive empirical experiments, we show on the one hand that our method estimates the causal effect better in a fully controlled setting via synthetic, yet realistic data. On the other hand, we demonstrate on real-world data that our method outperforms forecasting methods in off-policy settings (i.e., when there's a change in the pricing policy) while only slightly trailing in the on-policy setting.
翻訳日:2023-12-27 18:52:06 公開日:2023-12-23
# VIOLET: 説明可能な量子ニューラルネットワークのためのビジュアル分析

VIOLET: Visual Analytics for Explainable Quantum Neural Networks ( http://arxiv.org/abs/2312.15276v1 )

ライセンス: Link先を確認
Shaolun Ruan, Zhiding Liang, Qiang Guan, Paul Griffin, Xiaolin Wen, Yanna Lin, Yong Wang(参考訳) 量子機械学習の急速な発展に伴い、量子ニューラルネットワーク(QNN)はここ数年で大きな進歩を遂げ、古典的な機械学習タスクを大幅に高速化する量子コンピューティングの利点を活用している。 その人気は高まっているが、量子ニューラルネットワークは、そのアーキテクチャにおいてユニークな量子特異的層(例えば、データエンコーディングと測定)のため、非常に直観的かつ理解が難しい。 qnnのユーザや研究者がその内部動作を効果的に理解し、モデルのトレーニング状況を探求することを妨げる。 研究ギャップを埋めるために、量子ニューラルネットワークの説明可能性を改善するための新しい視覚分析手法VIOLETを提案する。 Encoder Viewは古典的な入力データを量子状態に変換するプロセスを明らかにし、Ansatz Viewはトレーニングプロセスにおける量子状態の時間的進化を明らかにし、Feature Viewはトレーニングプロセス後にQNNが学んだ特徴を表示する。 2つの新しいビジュアルデザイン、すなわち衛星チャートと拡張ヒートマップを提案し、それぞれ変動パラメータと量子回路の測定を視覚的に説明する。 VOLETは2つのケーススタディと12のドメインエキスパートとの詳細なインタビューを通じて評価した。 結果は、qnnユーザや開発者が量子ニューラルネットワークを直感的に理解し探索する上で、violetの有効性と使い勝手を示す。

With the rapid development of Quantum Machine Learning, quantum neural networks (QNN) have experienced great advancement in the past few years, harnessing the advantages of quantum computing to significantly speed up classical machine learning tasks. Despite their increasing popularity, the quantum neural network is quite counter-intuitive and difficult to understand, due to their unique quantum-specific layers (e.g., data encoding and measurement) in their architecture. It prevents QNN users and researchers from effectively understanding its inner workings and exploring the model training status. To fill the research gap, we propose VIOLET, a novel visual analytics approach to improve the explainability of quantum neural networks. Guided by the design requirements distilled from the interviews with domain experts and the literature survey, we developed three visualization views: the Encoder View unveils the process of converting classical input data into quantum states, the Ansatz View reveals the temporal evolution of quantum states in the training process, and the Feature View displays the features a QNN has learned after the training process. Two novel visual designs, i.e., satellite chart and augmented heatmap, are proposed to visually explain the variational parameters and quantum circuit measurements respectively. We evaluate VIOLET through two case studies and in-depth interviews with 12 domain experts. The results demonstrate the effectiveness and usability of VIOLET in helping QNN users and developers intuitively understand and explore quantum neural networks
翻訳日:2023-12-27 18:51:53 公開日:2023-12-23
# パブリック・アンラベルド・データからの利点:3次元脳血管分画のためのfrangi filter-based pretraining network

Benefit from public unlabeled data: A Frangi filtering-based pretraining network for 3D cerebrovascular segmentation ( http://arxiv.org/abs/2312.15273v1 )

ライセンス: Link先を確認
Gen Shi and Hao Lu and Hui Hui and Jie Tian(参考訳) 飛行時磁気共鳴血管造影(TOF-MRA)データにおける正確な脳血管のセグメンテーションは,臨床診断に不可欠である。 しかし、TOF-MRAにおける脳血管構造のスパース分布は、手動データラベリングにおいて非常に高いコストをもたらす。 ラベルなしTOF-MRAデータの使用は、モデル性能を大幅に向上させる可能性を秘めている。 本研究では,これまでで最大の未処理TOF-MRAデータセット(1510件)を構築した。 また、合計113名のラベル付きデータセットを3つ追加します。 さらに,血管構造を増強することで知られるFrangiフィルタをベースとした簡易かつ効果的なトレーニング戦略を提案し,脳血管セグメンテーションのためのラベル付きデータを完全に活用する。 具体的には,大規模なラベルなしデータセットを処理するためのfrangiフィルタに基づく前処理ワークフローを開発し,前処理データを有効に活用するためのマルチタスク前処理戦略を提案する。 このアプローチを用いることで、ラベルのないデータから得られる知識を最大化する。 プリトレーニングされたモデルは4つの脳血管セグメンテーションデータセットで評価される。 その結果,最先端の半教師方式や自己監督方式に比べて約3倍の性能向上が得られた。 さらに,本研究は,バックボーン構造に関する事前学習法の一般化可能性と有効性を示す。 コードとデータはオープンソースである。 \url{https://github.com/shigen-stoneroot/ffpn}。

The precise cerebrovascular segmentation in time-of-flight magnetic resonance angiography (TOF-MRA) data is crucial for clinically computer-aided diagnosis. However, the sparse distribution of cerebrovascular structures in TOF-MRA results in an exceedingly high cost for manual data labeling. The use of unlabeled TOF-MRA data holds the potential to enhance model performance significantly. In this study, we construct the largest preprocessed unlabeled TOF-MRA datasets (1510 subjects) to date. We also provide three additional labeled datasets totaling 113 subjects. Furthermore, we propose a simple yet effective pertraining strategy based on Frangi filtering, known for enhancing vessel-like structures, to fully leverage the unlabeled data for 3D cerebrovascular segmentation. Specifically, we develop a Frangi filtering-based preprocessing workflow to handle the large-scale unlabeled dataset, and a multi-task pretraining strategy is proposed to effectively utilize the preprocessed data. By employing this approach, we maximize the knowledge gained from the unlabeled data. The pretrained model is evaluated on four cerebrovascular segmentation datasets. The results have demonstrated the superior performance of our model, with an improvement of approximately 3\% compared to state-of-the-art semi- and self-supervised methods. Furthermore, the ablation studies also demonstrate the generalizability and effectiveness of the pretraining method regarding the backbone structures. The code and data have been open source at: \url{https://github.com/shigen-StoneRoot/FFPN}.
翻訳日:2023-12-27 18:51:29 公開日:2023-12-23
# 自由形態音声の短いクリップからの不安検出

Detecting anxiety from short clips of free-form speech ( http://arxiv.org/abs/2312.15272v1 )

ライセンス: Link先を確認
Prabhat Agarwal, Akshat Jindal, Shreya Singh(参考訳) コストやスティグマなどのメンタルヘルスアセスメントへのアクセス障壁は、メンタルヘルスの診断と治療の障害であり続けている。 音声サンプルに基づく機械学習アプローチは、この方向に役立つだろう。 本研究では,患者の音声ジャーナルから不安障害を診断する機械学習ソリューションを開発した。 我々は,新しい不安データセット (kintsugi mindful wellness inc. とのコラボレーションにより提供) を開発し,音声,テキスト,複数モーダリティの組み合わせを用いた様々な複雑性モデルの実験を行った。 AUC ROCスコア0.68-0.69を達成するタスクにおいて,マルチモーダルおよびオーディオ埋め込みに基づく手法が優れた性能を発揮することを示す。

Barriers to accessing mental health assessments including cost and stigma continues to be an impediment in mental health diagnosis and treatment. Machine learning approaches based on speech samples could help in this direction. In this work, we develop machine learning solutions to diagnose anxiety disorders from audio journals of patients. We work on a novel anxiety dataset (provided through collaboration with Kintsugi Mindful Wellness Inc.) and experiment with several models of varying complexity utilizing audio, text and a combination of multiple modalities. We show that the multi-modal and audio embeddings based approaches achieve good performance in the task achieving an AUC ROC score of 0.68-0.69.
翻訳日:2023-12-27 18:50:56 公開日:2023-12-23
# SSFlowNet:擬似ラベル付きポイントクラウド上の半教師付きシーンフロー推定

SSFlowNet: Semi-supervised Scene Flow Estimation On Point Clouds With Pseudo Label ( http://arxiv.org/abs/2312.15271v1 )

ライセンス: Link先を確認
Jingze Chen, Junfeng Yao, Qiqin Lin, Rongzhou Zhou, Lei Li(参考訳) 監視されたシーンフロー推定の領域では、手動ラベリングのプロセスは時間的かつ経済的に要求される。 本稿では,ラベル付きデータとラベルなしデータを組み合わせた半教師付きシーンフロー推定手法であるSSFlowNetを紹介し,ラベル付けコストとモデルトレーニングの精度のバランスを最適化する。 ssflownetは、pseudo-labelsを革新的に使っており、主に、高いモデルの精度を維持しながら、広範囲にラベル付けされたデータセットへの依存を減らす。 我々のモデルの中核は、局所的およびグローバルな点雲の複雑な幾何学的構造と、新しい空間的記憶機能に重点を置いていることです。 この特徴は、逐次時間フレーム上の点間の幾何学的関係の学習に有効である。 ラベル付きポイントとラベルなしポイントの類似性を識別することにより、SSFlowNetは動的に相関行列を構築し、個々のポイントレベルでシーンフロー依存性を評価する。 さらに、SSFlowNet内のフロー一貫性モジュールの統合により、フローを継続的に推定する能力が向上する。 実験の結果、SSFlowNetは擬似ラベル生成の既存の手法を超越し、様々なデータボリュームに適応可能であることが示された。 さらに, 半教師付き学習手法では, 異なるラベル付きデータでも有望な結果が得られるため, シーンフロー推定の分野において有望な進歩がみられた。

In the domain of supervised scene flow estimation, the process of manual labeling is both time-intensive and financially demanding. This paper introduces SSFlowNet, a semi-supervised approach for scene flow estimation, that utilizes a blend of labeled and unlabeled data, optimizing the balance between the cost of labeling and the precision of model training. SSFlowNet stands out through its innovative use of pseudo-labels, mainly reducing the dependency on extensively labeled datasets while maintaining high model accuracy. The core of our model is its emphasis on the intricate geometric structures of point clouds, both locally and globally, coupled with a novel spatial memory feature. This feature is adept at learning the geometric relationships between points over sequential time frames. By identifying similarities between labeled and unlabeled points, SSFlowNet dynamically constructs a correlation matrix to evaluate scene flow dependencies at individual point level. Furthermore, the integration of a flow consistency module within SSFlowNet enhances its capability to consistently estimate flow, an essential aspect for analyzing dynamic scenes. Empirical results demonstrate that SSFlowNet surpasses existing methods in pseudo-label generation and shows adaptability across varying data volumes. Moreover, our semi-supervised training technique yields promising outcomes even with different smaller ratio labeled data, marking a substantial advancement in the field of scene flow estimation.
翻訳日:2023-12-27 18:50:37 公開日:2023-12-23
# MGDepth:ダイナミックシナリオにおける自己監督型単眼深度のためのモーションガイド付きコストボリューム

MGDepth: Motion-Guided Cost Volume For Self-Supervised Monocular Depth In Dynamic Scenarios ( http://arxiv.org/abs/2312.15268v1 )

ライセンス: Link先を確認
Kaichen Zhou, Jia-Xing Zhong, Jia-Wang Bian, Qian Xie, Jian-Qing Zheng, Niki Trigoni, Andrew Markham(参考訳) 自己監督された単分子深度推定の進歩にもかかわらず、静的世界に関する仮定に依存するため、動的なシナリオでは課題が持続する。 本稿では,動的オブジェクトと静的背景の両方に対して,計算効率を維持しながら正確な深度推定を実現するための動き誘導コストボリューム深さネットMGDepthを提案する。 動的コンテンツによって生じる課題に取り組むために,光流と粗い単眼深度を組み込んで,新しい静的参照フレームを作成する。 このフレームは、ターゲットフレームと協調してモーションガイド付きコストボリュームを構築するために使用される。 さらに,ネットワーク構造の精度とレジリエンスを高めるため,様々な解像度で特徴マップからの情報を効果的に統合する注目型ディープネットアーキテクチャを導入する。 同様の計算コストの手法と比較して、MGDepthはKITTI-2015データセット上での自己教師付き単眼深度推定において、ルート平均二乗誤差を約7%削減する。

Despite advancements in self-supervised monocular depth estimation, challenges persist in dynamic scenarios due to the dependence on assumptions about a static world. In this paper, we present MGDepth, a Motion-Guided Cost Volume Depth Net, to achieve precise depth estimation for both dynamic objects and static backgrounds, all while maintaining computational efficiency. To tackle the challenges posed by dynamic content, we incorporate optical flow and coarse monocular depth to create a novel static reference frame. This frame is then utilized to build a motion-guided cost volume in collaboration with the target frame. Additionally, to enhance the accuracy and resilience of the network structure, we introduce an attention-based depth net architecture to effectively integrate information from feature maps with varying resolutions. Compared to methods with similar computational costs, MGDepth achieves a significant reduction of approximately seven percent in root-mean-square error for self-supervised monocular depth estimation on the KITTI-2015 dataset.
翻訳日:2023-12-27 18:49:55 公開日:2023-12-23
# 3次元知覚と幾何学的整合性による自己監督深度補完

Self-Supervised Depth Completion Guided by 3D Perception and Geometry Consistency ( http://arxiv.org/abs/2312.15263v1 )

ライセンス: Link先を確認
Yu Cai, Tianyu Shen, Shi-Sheng Huang and Hua Huang(参考訳) 疎深度測定から深度マップを推定することを目的とした深度補完は、多くのコンピュータビジョン関連アプリケーションにおいて重要な役割を果たす。 ディープラーニングのアプローチはこのタスクで圧倒的に成功している。 しかし、通常コストのかかる地上データに頼ることなく、高精度な深度補完は依然として困難である。 その理由は、以前のほとんどの教師なし解における3d構造情報の無知であり、不正確な空間伝播と混合深い問題を引き起こす。 上記の課題を緩和するために,3次元知覚特徴と多視点形状の一貫性を利用して,高精度な自己教師付き奥行き補完法を考案する。 まず,3次元知覚的空間伝搬アルゴリズムをポイントクラウド表現と注意重み付け機構とで構築し,反復的深さ伝播過程においてより合理的で好適な隣接特徴を捉える。 次に,隣接ビュー間の多視点幾何制約を明示的に組み込んで,奥行き完了モデルの最適化を自己教師あり方式で導く。 NYU-Depthv2 と VOID のベンチマークデータセットに対する大規模な実験により、提案モデルは、他の教師なし手法と比較して最先端の深度補完性能を達成し、従来の教師なし手法と比較して競争性能を向上することを示した。

Depth completion, aiming to predict dense depth maps from sparse depth measurements, plays a crucial role in many computer vision related applications. Deep learning approaches have demonstrated overwhelming success in this task. However, high-precision depth completion without relying on the ground-truth data, which are usually costly, still remains challenging. The reason lies on the ignorance of 3D structural information in most previous unsupervised solutions, causing inaccurate spatial propagation and mixed-depth problems. To alleviate the above challenges, this paper explores the utilization of 3D perceptual features and multi-view geometry consistency to devise a high-precision self-supervised depth completion method. Firstly, a 3D perceptual spatial propagation algorithm is constructed with a point cloud representation and an attention weighting mechanism to capture more reasonable and favorable neighboring features during the iterative depth propagation process. Secondly, the multi-view geometric constraints between adjacent views are explicitly incorporated to guide the optimization of the whole depth completion model in a self-supervised manner. Extensive experiments on benchmark datasets of NYU-Depthv2 and VOID demonstrate that the proposed model achieves the state-of-the-art depth completion performance compared with other unsupervised methods, and competitive performance compared with previous supervised methods.
翻訳日:2023-12-27 18:49:09 公開日:2023-12-23
# cnnを用いた南極火星における氷の凝縮周期の調査

Surveying the ice condensation period at southern polar Mars using a CNN ( http://arxiv.org/abs/2312.15260v1 )

ライセンス: Link先を確認
Mira Gerg\'acz and \'Akos Kereszturi(参考訳) 季節的な極地氷冠が火星の低緯度に向かって広がる前に、寒い夜には小さな凍土の斑点が凝縮し、日中は日陰地帯でも地表に留まることがある。 これらの領域の氷が連続した氷冠が到着する前に持続する場合、照射が増加し、直射日光が満ちるまで、それらは不況の後にも残る可能性がある。 これらの小さな斑点が同じ場所で周期的に形成される場合、化学的変化も遅い可能性がある。 このような氷パッチの空間的および時間的発生を見るためには、多くの光学画像を探し、チェックする必要がある。 本研究の目的は,火星探査機の高分解能イメージング科学実験(HiRISE)画像に適用した畳み込みニューラルネットワーク(CNN)を用いて,地表の氷凝縮期間を自動で調査することである。 小さな氷のパッチを認識するために訓練されたCNNは、検索を自動化し、大規模なデータセットを分析することができる。 以前は、HiRISEカメラで捉えた南半球からの110枚の画像に対して手動画像解析が行われた。 このうち37枚の画像が小さな氷のパッチで識別され、CNNの訓練に使用された。 この手法は、緯度 -40{\deg} と -60{\deg} の間の緯度帯の潜在的な氷パッチによるさらなる画像を見つけるために適用されているが、140-200{\deg} の太陽経度の間に記録されたトレーニングデータセットとは対照的に、Ls = 0{\deg} から 90{\deg} の間の凝縮期間から撮影した。 このモデルは -40{\deg} と -60{\deg} の緯度帯からランダムに選択された 171 個の新しい hirise 画像に基づいて実行され、74155 個の小さな画像チャンクを生成する。 モデルでは、小さな、おそらく最近凝縮された凍土のパッチと327の塊を示す2つの画像を分類し、60%以上の確率で氷を示すと予測された。

Before the seasonal polar ice cap starts to expand towards lower latitudes on Mars, small frost patches may condensate out during the cold night and they may remain on the surface even during the day in shady areas. If ice in these areas can persist before the arrival of the contiguous ice cap, they may remain after the recession of it too, until the irradiation increases and the ice is met with direct sunlight. In case these small patches form periodically at the same location, slow chemical changes might occur as well. To see the spatial and temporal occurrence of such ice patches, large number of optical images should be searched for and checked. The aim of this study is to survey the ice condensation period on the surface with an automatized method using a Convolutional Neural Network (CNN) applied to High-Resolution Imaging Science Experiment (HiRISE) imagery from the Mars Reconnaissance Orbiter mission. The CNN trained to recognise small ice patches is automatizing the search, making it feasible to analyse large datasets. Previously a manual image analysis was conducted on 110 images from the southern hemisphere, captured by the HiRISE camera. Out of these, 37 images were identified with smaller ice patches, which were used to train the CNN. This approach is applied now to find further images with potential water ice patches in the latitude band between -40{\deg} and -60{\deg}, but contrarily to the training dataset recorded between 140-200{\deg} solar longitude, the images were taken from the condensation period between Ls = 0{\deg} to 90{\deg}. The model was ran on 171 new HiRISE images randomly picked from the given period between -40{\deg} and -60{\deg} latitude band, creating 73155 small image chunks. The model classified 2 images that show small, probably recently condensed frost patches and 327 chunks were predicted to show ice with more than 60% probability.
翻訳日:2023-12-27 18:48:11 公開日:2023-12-23
# human101: 100fps以上のヒトガウスを1視点で訓練する

Human101: Training 100+FPS Human Gaussians in 100s from 1 View ( http://arxiv.org/abs/2312.15258v1 )

ライセンス: Link先を確認
Mingwei Li, Jiachen Tao, Zongxin Yang, Yi Yang(参考訳) シングルビュービデオから人体を再構築することは、仮想現実領域において重要な役割を果たす。 1つの一般的な応用シナリオは、リアルタイムレンダリングとインタラクションの確保と同時に、忠実度の高い3dデジタル人間の迅速な再構築を必要とする。 既存の方法はしばしば両方の要求を満たすのに苦労する。 本稿では,100秒で3Dガウスアンを訓練し,100秒以上のFPSでレンダリングすることで,高忠実度ダイナミックな3D再構成を実現する新しいフレームワークであるHuman101を紹介する。 本手法は3次元ガウス型スプラッティングの強みを利用して3次元人間の明示的かつ効率的な表現を行う。 従来のNeRFベースのパイプラインとは別として、Human101はHuman-centric Forward Gaussian Animation法を巧みに応用し、3Dガウスのパラメータを変形させ、レンダリング速度を向上させる。 実験結果から,本手法は現在の手法をほぼ超過し,毎秒10倍のフレームアップを実現し,同等あるいは優れたレンダリング品質を実現する。 コードとデモはhttps://github.com/longxiang-ai/human101で公開される。

Reconstructing the human body from single-view videos plays a pivotal role in the virtual reality domain. One prevalent application scenario necessitates the rapid reconstruction of high-fidelity 3D digital humans while simultaneously ensuring real-time rendering and interaction. Existing methods often struggle to fulfill both requirements. In this paper, we introduce Human101, a novel framework adept at producing high-fidelity dynamic 3D human reconstructions from 1-view videos by training 3D Gaussians in 100 seconds and rendering in 100+ FPS. Our method leverages the strengths of 3D Gaussian Splatting, which provides an explicit and efficient representation of 3D humans. Standing apart from prior NeRF-based pipelines, Human101 ingeniously applies a Human-centric Forward Gaussian Animation method to deform the parameters of 3D Gaussians, thereby enhancing rendering speed (i.e., rendering 1024-resolution images at an impressive 60+ FPS and rendering 512-resolution images at 100+ FPS). Experimental results indicate that our approach substantially eclipses current methods, clocking up to a 10 times surge in frames per second and delivering comparable or superior rendering quality. Code and demos will be released at https://github.com/longxiang-ai/Human101.
翻訳日:2023-12-27 18:47:30 公開日:2023-12-23
# 間接的否定的証拠を用いたグレディ文法誘導

Greedy Grammar Induction with Indirect Negative Evidence ( http://arxiv.org/abs/2312.15321v1 )

ライセンス: Link先を確認
Joseph Potashnik(参考訳) 本稿では, 文脈自由文法の有限構造情報の上限として, ポンピング補題定数を新たに検討する。 間接的負のエビデンスに基づく目的関数は、十分長い非逆入力プレゼンテーションの後に遭遇する有限個の木の出現と非発生を考察する。 この目的関数は仮説空間の最適部分構造を持ち、欲求的な探索学習者を生み出す。 この学習者によって、コンテキスト自由言語のクラスは、他の難解な仮説空間上で学習可能である(極限で特定できる)ことが示される。

This paper offers a fresh look at the pumping lemma constant as an upper bound for the finite structural information of a Context Free Grammar. An objective function based on indirect negative evidence considers the occurrences, and non-occurrences, of a finite number of trees, encountered after a sufficiently long non-adversial input presentation. This objective function has optimal substructure in the hypotheses space, giving rise to a greedy search learner. With this learner, a range of classes of Context Free Languages is shown to be learnable (identifiable in the limit) on an otherwise intractable hypotheses space.
翻訳日:2023-12-27 18:40:03 公開日:2023-12-23
# 顔画像と臨床テキストを組み合わせたマルチモーダル機械学習は希少遺伝子疾患の診断を改善する

Multimodal Machine Learning Combining Facial Images and Clinical Texts Improves Diagnosis of Rare Genetic Diseases ( http://arxiv.org/abs/2312.15320v1 )

ライセンス: Link先を確認
Da Wu, Jingye Yang, Steven Klein, Cong Liu, Tzung-Chien Hsieh, Peter Krawitz, Chunhua Weng, Gholson J. Lyon, Jennifer M. Kalish, Kai Wang(参考訳) 稀な遺伝性疾患を疑う人は、しばしば複数の臨床評価、画像研究、実験室試験、遺伝子検査を受け、数年にわたって可能な答えを見つける。 この診断オデッセイに対処することは、臨床的、精神社会的、経済的に有益である。 多くのまれな遺伝病は特徴的な顔の特徴を持ち、人工知能アルゴリズムによって臨床診断の促進、検査や遺伝子検査によってさらに検査すべき候補疾患の優先順位付け、ゲノム/exomeシークエンシングデータの表現型による再解釈の助けなどに用いられる。 しかし, 従来の畳み込みニューラルネットワーク(CNN)をベースとして, 顔画像のみに頼り, 顔の表情の特徴や, 正確な診断に欠かせない人口統計情報を捉えることはできない。 本稿では,Transformerアーキテクチャのみに基づくマルチモーダル機械学習(MML)アプローチであるGestaltMMLを紹介する。 顔画像、人口統計情報(年齢、性別、民族)、および患者の臨床記録を統合し、予測精度を向上させる。 さらに,Llama 2, GPT-J, Falconなどの大規模言語モデル(LLM)を用いて,テキスト入力のみを利用するGPTベースの学習能力を持つGestaltGPTも導入した。 GestaltMatcher Databaseの449の疾患,Beckwith-Wiedemann症候群,Sotos症候群,NAA10関連症候群(神経発達障害)など,さまざまなデータセットを用いてこれらの手法を評価した。 以上の結果から,gestaltmml/gestaltgptはデータの多様度を効果的に取り込み,希少疾患の遺伝子診断候補を大幅に狭め,ゲノム/exomeシークエンシングデータの再解釈を容易にすることが示唆された。

Individuals with suspected rare genetic disorders often undergo multiple clinical evaluations, imaging studies, laboratory tests and genetic tests, to find a possible answer over a prolonged period of multiple years. Addressing this diagnostic odyssey thus have substantial clinical, psychosocial, and economic benefits. Many rare genetic diseases have distinctive facial features, which can be used by artificial intelligence algorithms to facilitate clinical diagnosis, in prioritizing candidate diseases to be further examined by lab tests or genetic assays, or in helping the phenotype-driven reinterpretation of genome/exome sequencing data. However, existing methods using frontal facial photo were built on conventional Convolutional Neural Networks (CNNs), rely exclusively on facial images, and cannot capture non-facial phenotypic traits and demographic information essential for guiding accurate diagnoses. Here we introduce GestaltMML, a multimodal machine learning (MML) approach solely based on the Transformer architecture. It integrates the facial images, demographic information (age, sex, ethnicity), and clinical notes of patients to improve prediction accuracy. Furthermore, we also introduce GestaltGPT, a GPT-based methodology with few-short learning capacities that exclusively harnesses textual inputs using a range of large language models (LLMs) including Llama 2, GPT-J and Falcon. We evaluated these methods on a diverse range of datasets, including 449 diseases from the GestaltMatcher Database, several in-house datasets on Beckwith-Wiedemann syndrome, Sotos syndrome, NAA10-related syndrome (neurodevelopmental syndrome) and others. Our results suggest that GestaltMML/GestaltGPT effectively incorporate multiple modalities of data, greatly narrow down candidate genetic diagnosis of rare diseases, and may facilitate the reinterpretation of genome/exome sequencing data.
翻訳日:2023-12-27 18:39:53 公開日:2023-12-23
# Androidアプリの高速バグ解決に向けて

Toward Rapid Bug Resolution for Android Apps ( http://arxiv.org/abs/2312.15318v1 )

ライセンス: Link先を確認
Junayed Mahmud(参考訳) Bugはソフトウェアの予期せぬ振る舞いを文書化し、開発者はバグを理解し、検証し、修正することができる。 残念なことに、バグレポートの大部分は品質が低いため、これらの問題に対処する上で、開発者には課題が生じる。 以前の研究では、高品質なバグレポートの文書化とバグレポート管理の迅速化に必要な情報を掘り下げている。 さらに,バグレポート管理に関わる課題を調査し,様々な自動化手法を提案する。 それでもこれらのテクニックには,開発者とレポーター間の語彙的ギャップ,バグ再現の困難さ,バグ位置の特定など,いくつかの制限がある。 したがって、バグレポートを効果的に管理し、デスクトップとモバイルの両方のアプリケーションの品質を高めるための追加の努力が必要である。 本稿では,既存のバグレポートの限界について述べるとともに,それに対応するための潜在的な戦略を明らかにする。 私たちのビジョンは、これらの制限の緩和と提案された新しい研究の方向性の成功がレポーターと開発者の両方に利益をもたらし、最終的にソフトウェア全体のメンテナンスを高速化する未来を包含しています。

Bug reports document unexpected behaviors in software, enabling developers to understand, validate, and fix bugs. Unfortunately, a significant portion of bug reports is of low quality, which poses challenges for developers in terms of addressing these issues. Prior research has delved into the information needed for documenting high-quality bug reports and expediting bug report management. Furthermore, researchers have explored the challenges associated with bug report management and proposed various automated techniques. Nevertheless, these techniques exhibit several limitations, including a lexical gap between developers and reporters, difficulties in bug reproduction, and identifying bug locations. Therefore, there is a pressing need for additional efforts to effectively manage bug reports and enhance the quality of both desktop and mobile applications. In this paper, we describe the existing limitations of bug reports and identify potential strategies for addressing them. Our vision encompasses a future where the alleviation of these limitations and successful execution of our proposed new research directions can benefit both reporters and developers, ultimately making the entire software maintenance faster.
翻訳日:2023-12-27 18:39:21 公開日:2023-12-23
# パラ言語学による音声対話の大規模言語モデリング

Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue ( http://arxiv.org/abs/2312.15316v1 )

ライセンス: Link先を確認
Guan-Ting Lin, Prashanth Gurunath Shivakumar, Ankur Gandhe, Chao-Han Huck Yang, Yile Gu, Shalini Ghosh, Andreas Stolcke, Hung-yi Lee, Ivan Bulyko(参考訳) 大規模言語モデル(llm)はチャット、推論、質問応答といったタスクにおいて優れた能力を示している。 しかし、標準的なLLMは、感情、感情、話し方などの重要なパラ言語情報を無視し、特に音響的手がかりによってそのような情報が伝達されるとき、自然な人間的な会話を達成するのに不可欠である。 そこで本研究では,テキストと音声のモダリティを活用し,音声応答の言語的内容と言語的属性をよりよくモデル化するパラリンガスティックス・エンハンスド・ジェネレーショナル・プレトレーニングトランス(paralingpt)を提案する。 このモデルは、シリアライズされたマルチタスクマルチモーダルフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。 具体的には,現在のパラ言語属性予測,応答パラ言語属性予測,自己回帰条件付き応答テキスト生成の順にタスクをシリアライズする。 音声対話データセットとして,感情ラベルを含むSwitchboard-1コーパスをパラ言語属性として利用する。 提案手法は,現在および応答の感情分類において典型的なシーケンス分類手法よりも優れていることを示す。 さらに、会話コンテキストと音声埋め込みを活用することで、応答テキスト生成と感情予測の両方が大幅に改善される。 提案手法は,6.7%,12.0%,3.5%の現在の感情精度,反応感情精度,応答テキストBLEUスコアを相対的に向上させる。

Large Language Models (LLMs) have demonstrated superior abilities in tasks such as chatting, reasoning, and question-answering. However, standard LLMs may ignore crucial paralinguistic information, such as sentiment, emotion, and speaking style, which are essential for achieving natural, human-like spoken conversation, especially when such information is conveyed by acoustic cues. We therefore propose Paralinguistics-enhanced Generative Pretrained Transformer (ParalinGPT), an LLM utilizes text and speech modality to better model the linguistic content and paralinguistic attribute of spoken response. The model takes the conversational context of text, speech embeddings, and paralinguistic attributes as input prompts within a serialized multitasking multi-modal framework. Specifically, our framework serializes tasks in the order of current paralinguistic attribute prediction, response paralinguistic attribute prediction, and response text generation with autoregressive conditioning. We utilize the Switchboard-1 corpus, including its sentiment labels to be the paralinguistic attribute, as our spoken dialogue dataset. Experimental results indicate the proposed serialized multitasking method outperforms typical sequence classification techniques on current and response sentiment classification. Furthermore, leveraging conversational context and speech embeddings significantly improves both response text generation and sentiment prediction. Our proposed framework achieves relative improvements of 6.7%, 12.0%, and 3.5% in current sentiment accuracy, response sentiment accuracy, and response text BLEU score, respectively.
翻訳日:2023-12-27 18:39:01 公開日:2023-12-23
# マルチアクセスエッジコンピューティングを用いたメタバースのための人文中心資源配分

Human-Centric Resource Allocation for the Metaverse With Multiaccess Edge Computing ( http://arxiv.org/abs/2312.15313v1 )

ライセンス: Link先を確認
Zijian Long, Haiwei Dong, and Abdulmotaleb El Saddik(参考訳) マルチアクセスエッジコンピューティング(MEC)は、メタバースの計算集約的で低レイテンシなレンダリングタスクに対する有望なソリューションである。 しかし,メタバースの多数のユーザに対して,限られた通信資源と計算資源を最適に割り当てる方法については,非常に難しい。 本稿では,グラフ畳み込みネットワーク(SAC-GCN)を用いたマルチエージェントソフトアクター批判に基づく適応エッジリソース割り当て手法を提案する。 具体的には、SAC-GCNは、各エージェントがノードで表されるグラフとして、マルチユーザメタバース環境をモデル化する。 各エージェントは、自己アテンション機構を備えたグラフ畳み込みネットワークによりエージェント間の相互作用を学習し、メタバース内の1ユーザーのリソース使用量をさらに決定する。 仮想都市公園のメタバースを例としてsac-gcnの有効性を,ユーザエクスペリエンス,資源配分バランス,資源利用率の分析により実証した。 実験結果から, SAC-GCNは, ユーザエクスペリエンスの向上, リソース割り当てのバランス, 資源利用率の少なくとも27%, 11%, 8%向上において, その他の資源割り当て手法よりも優れていた。

Multi-access edge computing (MEC) is a promising solution to the computation-intensive, low-latency rendering tasks of the metaverse. However, how to optimally allocate limited communication and computation resources at the edge to a large number of users in the metaverse is quite challenging. In this paper, we propose an adaptive edge resource allocation method based on multi-agent soft actor-critic with graph convolutional networks (SAC-GCN). Specifically, SAC-GCN models the multi-user metaverse environment as a graph where each agent is denoted by a node. Each agent learns the interplay between agents by graph convolutional networks with self-attention mechanism to further determine the resource usage for one user in the metaverse. The effectiveness of SAC-GCN is demonstrated through the analysis of user experience, balance of resource allocation, and resource utilization rate by taking a virtual city park metaverse as an example. Experimental results indicate that SAC-GCN outperforms other resource allocation methods in improving overall user experience, balancing resource allocation, and increasing resource utilization rate by at least 27%, 11%, and 8%, respectively.
翻訳日:2023-12-27 18:38:39 公開日:2023-12-23
# リモートセンシング変更キャプションのための画素レベル変化検出擬似ラベル学習

Pixel-Level Change Detection Pseudo-Label Learning for Remote Sensing Change Captioning ( http://arxiv.org/abs/2312.15311v1 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Zipeng Qi, Haotian Zhang, Zhengxia Zou, Zhenwei Shi(参考訳) 既存の画像変更キャプション(rsicc)のリモートセンシング手法は,単純なシーンではよく機能するが,複雑なシーンでは性能が劣る。 この制限は、主にモデルの制約付き視覚能力が変化を識別し見つけ出す能力に起因している。 変化検出(CD)タスクとRSICCタスクの関連性を認め,言語による画像の違いを説明する上で,ピクセルレベルのCDが重要であると考えている。 現在のRSICCデータセットには、容易に利用可能なピクセルレベルのCDラベルがない。 この欠陥に対処するために、既存のCDデータセットでトレーニングされたモデルを活用し、CD擬似ラベルを導出する。 擬似ラベルで制御された補助CD分岐を用いた革新的なネットワークを提案する。 さらに、cdブランチによって抽出された特徴情報を融合するためにセマンティック融合拡張(sfa)モジュールが提案され、変更のニュアンス記述が容易になる。 実験により,本手法が最先端の性能を達成し,学習用画素レベルのCD擬似ラベルがキャプションの変更に大きく寄与することが確認された。 私たちのコードは、https://github.com/Chen-Yang-Liu/Pix4Capで利用可能になります。

The existing methods for Remote Sensing Image Change Captioning (RSICC) perform well in simple scenes but exhibit poorer performance in complex scenes. This limitation is primarily attributed to the model's constrained visual ability to distinguish and locate changes. Acknowledging the inherent correlation between change detection (CD) and RSICC tasks, we believe pixel-level CD is significant for describing the differences between images through language. Regrettably, the current RSICC dataset lacks readily available pixel-level CD labels. To address this deficiency, we leverage a model trained on existing CD datasets to derive CD pseudo-labels. We propose an innovative network with an auxiliary CD branch, supervised by pseudo-labels. Furthermore, a semantic fusion augment (SFA) module is proposed to fuse the feature information extracted by the CD branch, thereby facilitating the nuanced description of changes. Experiments demonstrate that our method achieves state-of-the-art performance and validate that learning pixel-level CD pseudo-labels significantly contributes to change captioning. Our code will be available at: https://github.com/Chen-Yang-Liu/Pix4Cap
翻訳日:2023-12-27 18:38:20 公開日:2023-12-23
# ホログラフィック縮小表現を用いた神経シンボリックロスのサブイタイジングにおける一般化に向けて

Towards Generalization in Subitizing with Neuro-Symbolic Loss using Holographic Reduced Representations ( http://arxiv.org/abs/2312.15310v1 )

ライセンス: Link先を確認
Mohammad Mahmudul Alam, Edward Raff, Tim Oates(参考訳) ディープラーニングは過去10年間、コンピュータビジョンタスクで大きな成功を収めてきたが、認知科学(cogsci)の観点からも多くの欠点が残っている。 特に、標準的なクロスエントロピー(CE)損失を使用する場合、現在の畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)によって、素早く正確に6個未満のアイテムを識別する能力は、十分に学習されていない。 本稿では,cogsci研究で用いられる適応ツールが,ホログラフィック還元表現(hrr)を用いた代替損失関数の開発により,cnnとvitsのサブイライズ一般化を改善できることを実証する。 学習に対するこのニューロシンボリックアプローチが,cnnとvitsのサブイット化能力にどのように影響するかを調査し,一般化をサブイット化の特定の側面に分離する特別に作られた問題に焦点を当てた。 塩分マップと分散性能により,提案するhrr損失が,完全解には至っていないものの,サブイット化一般化を改善できることを実証的に観察できる。 さらに,hrrベースの損失が改善をもたらす1軸を除いて,vitsはサブイット化においてcnnに比べてかなり悪い性能を示すことが判明した。

While deep learning has enjoyed significant success in computer vision tasks over the past decade, many shortcomings still exist from a Cognitive Science (CogSci) perspective. In particular, the ability to subitize, i.e., quickly and accurately identify the small (less than 6) count of items, is not well learned by current Convolutional Neural Networks (CNNs) or Vision Transformers (ViTs) when using a standard cross-entropy (CE) loss. In this paper, we demonstrate that adapting tools used in CogSci research can improve the subitizing generalization of CNNs and ViTs by developing an alternative loss function using Holographic Reduced Representations (HRRs). We investigate how this neuro-symbolic approach to learning affects the subitizing capability of CNNs and ViTs, and so we focus on specially crafted problems that isolate generalization to specific aspects of subitizing. Via saliency maps and out-of-distribution performance, we are able to empirically observe that the proposed HRR loss improves subitizing generalization though it does not completely solve the problem. In addition, we find that ViTs perform considerably worse compared to CNNs in most respects on subitizing, except on one axis where an HRR-based loss provides improvement.
翻訳日:2023-12-27 18:38:02 公開日:2023-12-23
# 量子三元系における動的ランタイムアサーション

Dynamic Runtime Assertions in Quantum Ternary Systems ( http://arxiv.org/abs/2312.15309v1 )

ライセンス: Link先を確認
Ehsan Faghih, Huiyang Zhou(参考訳) 量子コンピューティング技術の急速な進歩により、量子プログラムのための新しいデバッグツールの必要性が高まっている。 最近の研究は、量子プログラムをデバッグするアサーションの可能性を強調している。 本稿では,三項論理の複雑さにより,量子二項系よりも困難である量子三項系におけるアサーションについて検討する。 本稿では,古典的,絡み合い,重畳状態,特に量子三次プログラムのデバッグを目的とした量子三次回路設計を提案する。

With the rapid advancement of quantum computing technology, there is a growing need for new debugging tools for quantum programs. Recent research has highlighted the potential of assertions for debugging quantum programs. In this paper, we investigate assertions in quantum ternary systems, which are more challenging than those in quantum binary systems due to the complexity of ternary logic. We propose quantum ternary circuit designs to assert classical, entanglement, and superposition states, specifically geared toward debugging quantum ternary programs.
翻訳日:2023-12-27 18:37:36 公開日:2023-12-23
# 表情認識におけるアルゴリズムバイアスの緩和

Mitigating Algorithmic Bias on Facial Expression Recognition ( http://arxiv.org/abs/2312.15307v1 )

ライセンス: Link先を確認
Glauco Amigo, Pablo Rivas Perea, Robert J. Marks(参考訳) バイアス付きデータセットはユビキタスであり、機械学習の課題を提示している。 データセット上のいくつかのカテゴリは、等しく重要であるが、一部はスパースであり、他のカテゴリは一般的である場合、学習アルゴリズムはより存在感の高いデータセットを好む。 偏りのあるデータセットの問題は、少数民族グループを扱う場合に特に敏感である。 偏見のあるデータから、すべての人を平等に扱うアルゴリズムをどうやって生成できるか? 本研究は,表情認識実験を用いた偏差自動エンコーダを用いたバイアス軽減の一手法について検討する。

Biased datasets are ubiquitous and present a challenge for machine learning. For a number of categories on a dataset that are equally important but some are sparse and others are common, the learning algorithms will favor the ones with more presence. The problem of biased datasets is especially sensitive when dealing with minority people groups. How can we, from biased data, generate algorithms that treat every person equally? This work explores one way to mitigate bias using a debiasing variational autoencoder with experiments on facial expression recognition.
翻訳日:2023-12-27 18:37:27 公開日:2023-12-23
# 二変量射影による高次元データセットの再構成

Reconstructing High-Dimensional Datasets From Their Bivariate Projections ( http://arxiv.org/abs/2312.15306v1 )

ライセンス: Link先を確認
Eli Dugan, Klaus Mueller(参考訳) 本稿では,行列散布法に見られるように,各双変量射影に与えられる高次元データセットの再構成手法の開発について述べる。 クリフフィニングを含むグラフベースのソリューションが導入され、元のデータセットを構成する可能性のある行のセットを提供する。 幻の斜めが見つかる場合や、正確な解が不可能な場合など、複雑な問題について議論する。 他にも、完全に推論された行を扱うものや、創造的に他の行よりも可能性の高いメソッドを作らなければならないものもある。 その結果、これらの手法は、多くの場合、ランダムに生成されたデータセットや実世界のデータセットにおいて、元のデータセットのかなりの部分を再現するのに非常に成功しており、失敗率が高い要因は、低次元、高n、低間隔であることがわかった。

This paper deals with developing techniques for the reconstruction of high-dimensional datasets given each bivariate projection, as would be found in a matrix scatterplot. A graph-based solution is introduced, involving clique-finding, providing a set of possible rows that might make up the original dataset. Complications are discussed, including cases where phantom cliques are found, as well as cases where an exact solution is impossible. Additional methods are shown, with some dealing with fully deducing rows and others dealing with having to creatively produce methods that find some possibilities to be more likely than others. Results show that these methods are highly successful in recreating a significant portion of the original dataset in many cases - for randomly generated and real-world datasets - with the factors leading to a greater rate of failure being lower dimension, higher n, and lower interval.
翻訳日:2023-12-27 18:37:19 公開日:2023-12-23
# 古代中国語におけるChatGPTの能力評価

Evaluating the Capability of ChatGPT on Ancient Chinese ( http://arxiv.org/abs/2312.15304v1 )

ライセンス: Link先を確認
Siqing Zhou, Shijing Si(参考訳) ChatGPTの現代標準言語を扱う能力は、古代中国語を理解するのにその可能性を示している。 このプロジェクトは、古代中国語から現代中国語への翻訳と古代中国語の認識という2つの課題を通じて、古代中国語におけるChatGPTの能力を探究するものである。 ChatGPTの出力と人間の翻訳を比較することは、古代中国語の理解を評価するのに役立つ。 その結果, (1.) ChatGPTによる古代中国語の習熟度はまだ満足のいくレベルに達しておらず, (2.) ChatGPTは3つの文脈文を摂食する際に, 現代語訳において最善を尽くしていることがわかった。 この研究で使われているpythonのコードスニペットを表示します。

ChatGPT's proficiency in handling modern standard languages suggests potential for its use in understanding ancient Chinese. This project explores ChatGPT's capabilities on ancient Chinese via two tasks: translating ancient Chinese to modern Chinese and recognizing ancient Chinese names. A comparison of ChatGPT's output with human translations serves to evaluate its comprehension of ancient Chinese. The findings indicate that: (1.)the proficiency of ancient Chinese by ChatGPT is yet to reach a satisfactory level; (2.) ChatGPT performs the best on ancient-to-modern translation when feeding with three context sentences. To help reproduce our work, we display the python code snippets used in this study.
翻訳日:2023-12-27 18:37:06 公開日:2023-12-23
# 遺伝的プログラミングによる変成関係の自動生成

Automatically Generating Metamorphic Relations via Genetic Programming ( http://arxiv.org/abs/2312.15302v1 )

ライセンス: Link先を確認
Jon Ayerdi, Valerio Terragni, Gunel Jahangirova, Aitor Arrieta, Paolo Tonella(参考訳) メタモルフィックテストは、ソフトウェアテストにおけるオラクルの問題を軽減するための一般的なアプローチである。 このアプローチのコアとなるのは、複数のテスト入力と対応する出力の間に保持される特性を指定するメタモルフィックリレーショナル(MR)である。 MRの導出は、主に手動の作業であり、自動生成は困難であり、ほとんど探索されていない問題である。 本稿では,ブール,数値,順序列を含む入力と出力を含むJavaメソッドのMRを自動的に生成する手法であるGenMorphを提案する。 GenMorphは進化的アルゴリズムを用いて、有効なオーラクル、すなわち、誤ったアラームを起こさず、テスト中のメソッドにソフトウェア欠陥を露呈するオーラクルを探索する。 提案する探索アルゴリズムは, 誤報の回数と, 生成されたmrsの誤り数を測定する2つの適応関数によって導かれる。 さらに、23のメソッドのうち7つでRandoopの障害検出能力が向上し、23のメソッドのうち14つでEvosuiteの障害検出能力が向上する。

Metamorphic testing is a popular approach that aims to alleviate the oracle problem in software testing. At the core of this approach are Metamorphic Relations (MRs), specifying properties that hold among multiple test inputs and corresponding outputs. Deriving MRs is mostly a manual activity, since their automated generation is a challenging and largely unexplored problem. This paper presents GenMorph, a technique to automatically generate MRs for Java methods that involve inputs and outputs that are boolean, numerical, or ordered sequences. GenMorph uses an evolutionary algorithm to search for effective test oracles, i.e., oracles that trigger no false alarms and expose software faults in the method under test. The proposed search algorithm is guided by two fitness functions that measure the number of false alarms and the number of missed faults for the generated MRs. Our results show that GenMorph generates effective MRs for 18 out of 23 methods (mutation score >20%). Furthermore, it can increase Randoop's fault detection capability in 7 out of 23 methods, and Evosuite's in 14 out of 23 methods.
翻訳日:2023-12-27 18:36:51 公開日:2023-12-23
# q-boost:低レベルマルチモダリティ基礎モデルの視覚品質評価能力について

Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models ( http://arxiv.org/abs/2312.15300v1 )

ライセンス: Link先を確認
Zicheng Zhang, Haoning Wu, Zhongpeng Ji, Chunyi Li, Erli Zhang, Wei Sun, Xiaohong Liu, Xiongkuo Min, Fengyu Sun, Shangling Jui, Weisi Lin, Guangtao Zhai(参考訳) MLLM(Multi-modality Large Language Models)の最近の進歩は、複雑な高次視覚タスクにおいて顕著な能力を示している。 しかし、低レベルの視力の重要な側面である視覚品質評価におけるMLLMの可能性の探索は依然として限られている。 このギャップに対処するために,画像品質評価(iqa)と映像品質評価(vqa)タスクにおける低レベルmllmを強化するために設計された新しい戦略であるq-boostを紹介する。 1) Triadic-Tone Integration: 通常のプロンプト設計は、単に$ positive$ と $ negative$ のバイナリ極端の間で振動する。 Q-Boostは$neutral$プロンプトを通じて‘ミドルグラウンド’アプローチを導入し、よりバランスよく詳細な評価を可能にする。 2)マルチプロンプト・アンサンブル:複数の品質中心のプロンプトを用いてバイアスを緩和し,より正確な評価を得る。 実験の結果,低レベルMLLMはQ-Boost戦略を備えたIQA/VQAタスクに優れたゼロショット性能を示した。

Recent advancements in Multi-modality Large Language Models (MLLMs) have demonstrated remarkable capabilities in complex high-level vision tasks. However, the exploration of MLLM potential in visual quality assessment, a vital aspect of low-level vision, remains limited. To address this gap, we introduce Q-Boost, a novel strategy designed to enhance low-level MLLMs in image quality assessment (IQA) and video quality assessment (VQA) tasks, which is structured around two pivotal components: 1) Triadic-Tone Integration: Ordinary prompt design simply oscillates between the binary extremes of $positive$ and $negative$. Q-Boost innovates by incorporating a `middle ground' approach through $neutral$ prompts, allowing for a more balanced and detailed assessment. 2) Multi-Prompt Ensemble: Multiple quality-centric prompts are used to mitigate bias and acquire more accurate evaluation. The experimental results show that the low-level MLLMs exhibit outstanding zeros-shot performance on the IQA/VQA tasks equipped with the Q-Boost strategy.
翻訳日:2023-12-27 18:36:29 公開日:2023-12-23
# Make Me a BNN: 事前訓練されたモデルからベイズの不確かさを推定するための簡単な戦略

Make Me a BNN: A Simple Strategy for Estimating Bayesian Uncertainty from Pre-trained Models ( http://arxiv.org/abs/2312.15297v1 )

ライセンス: Link先を確認
Gianni Franchi, Olivier Laurent, Maxence Legu\'ery, Andrei Bursuc, Andrea Pilzer and Angela Yao(参考訳) ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクのための強力なツールであるが、現実のアプリケーションにとって重要な要件である信頼性のある不確実性定量化にしばしば苦労する。 ベイズニューラルネットワーク(BNN)は不確実性推定機能を備えているが、訓練に非常に不安定な大規模DNNには拡張できない。 この課題に対処するために,適応ベイズニューラルネットワーク(ABNN)を導入し,計算とトレーニングのオーバーヘッドを最小限に抑えてDNNをBNNにシームレスに変換する,シンプルでスケーラブルな戦略を提案する。 ABNNは、DNNの主な予測特性を保ちながら、単純なBNN適応層(正規化層に付加)と、事前訓練されたモデルにおけるいくつかの微調整ステップを通じて、不確実な定量化能力を向上する。 画像分類とセマンティックセグメンテーションタスクのための複数のデータセットを対象とした広範囲な実験を行い、ABNNが通常アンサンブル手法に関連する計算予算を伴わずに最先端のパフォーマンスを達成することを示す。

Deep Neural Networks (DNNs) are powerful tools for various computer vision tasks, yet they often struggle with reliable uncertainty quantification - a critical requirement for real-world applications. Bayesian Neural Networks (BNN) are equipped for uncertainty estimation but cannot scale to large DNNs that are highly unstable to train. To address this challenge, we introduce the Adaptable Bayesian Neural Network (ABNN), a simple and scalable strategy to seamlessly transform DNNs into BNNs in a post-hoc manner with minimal computational and training overheads. ABNN preserves the main predictive properties of DNNs while enhancing their uncertainty quantification abilities through simple BNN adaptation layers (attached to normalization layers) and a few fine-tuning steps on pre-trained models. We conduct extensive experiments across multiple datasets for image classification and semantic segmentation tasks, and our results demonstrate that ABNN achieves state-of-the-art performance without the computational budget typically associated with ensemble methods.
翻訳日:2023-12-27 18:36:09 公開日:2023-12-23
# AdamL:損失関数を組み込んだ高速適応勾配法

AdamL: A fast adaptive gradient method incorporating loss function ( http://arxiv.org/abs/2312.15295v1 )

ライセンス: Link先を確認
Lu Xia and Stefano Massei(参考訳) adaptive first-order optimizerはディープラーニングの基本的なツールだが、不均一な勾配スケーリングのために一般化が不十分な場合がある。 本研究では,Adam最適化の新たな変種であるAdamLを提案する。 我々は、Polyak-Lojasiewiczの不等式とともに、AdamL の線型収束を保証する十分な条件を提供する。 解析の副産物として、EAdamとAdaBeliefオプティマイザに類似した収束特性を証明した。 ベンチマーク関数の実験結果から、Adam, EAdam, AdaBeliefと比較すると、AdamLは最も早く収束するか、最も低い目的関数値を得る。 これらの優れた性能は、畳み込みニューラルネットワークのトレーニング、バニラ畳み込みニューラルネットワークを用いた生成逆ネットワークのトレーニング、長期短期記憶ネットワークなどのディープラーニングタスクを考慮すると確認される。 最後に、バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。

Adaptive first-order optimizers are fundamental tools in deep learning, although they may suffer from poor generalization due to the nonuniform gradient scaling. In this work, we propose AdamL, a novel variant of the Adam optimizer, that takes into account the loss function information to attain better generalization results. We provide sufficient conditions that together with the Polyak-Lojasiewicz inequality, ensure the linear convergence of AdamL. As a byproduct of our analysis, we prove similar convergence properties for the EAdam, and AdaBelief optimizers. Experimental results on benchmark functions show that AdamL typically achieves either the fastest convergence or the lowest objective function values when compared to Adam, EAdam, and AdaBelief. These superior performances are confirmed when considering deep learning tasks such as training convolutional neural networks, training generative adversarial networks using vanilla convolutional neural networks, and long short-term memory networks. Finally, in the case of vanilla convolutional neural networks, AdamL stands out from the other Adam's variants and does not require the manual adjustment of the learning rate during the later stage of the training.
翻訳日:2023-12-27 18:35:46 公開日:2023-12-23
# WildScenes: 大規模自然環境における2次元および3次元セマンティックセグメンテーションのベンチマーク

WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments ( http://arxiv.org/abs/2312.15364v1 )

ライセンス: Link先を確認
Kavisha Vidanapathirana, Joshua Knights, Stephen Hausler, Mark Cox, Milad Ramezani, Jason Jooste, Ethan Griffiths, Shaheer Mohamed, Sridha Sridharan, Clinton Fookes and Peyman Moghadam(参考訳) セマンティックシーン理解の最近の進歩は、主に都市環境におけるセマンティックアノテートされたバイモーダル(カメラとライダー)データセットの利用によって実現されている。 しかし、このような注釈付きデータセットは自然で非構造的な環境でも必要であり、保護、探索、救助、環境モニタリング、農業の自動化など、応用のセマンティックな認識を可能にする。 そこで,WildScenesは,高解像度2次元画像のセマンティックアノテーションや高密度3次元ライダー点雲,正確な6-DoFポーズ情報など,自然環境における大規模トラバーサルで構成されたバイモーダルなベンチマークデータセットである。 データは,(1)正確な測地とグローバルに整列した点雲の軌道中心,(2)バイモーダル推論をサポートするようにキャリブレーションと同期,(3)6か月間の異なる自然環境を含む領域適応の研究である。 我々の3Dセマンティックラベルは、人間の注釈付き2Dラベルを複数のビューから3Dポイントクラウドに転送する効率的な自動化プロセスによって得られる。 自然環境におけるセマンティックセマンティックセグメンテーションの課題を実証するために,2次元および3次元セマンティックセグメンテーションのベンチマークを導入し,最近の深層学習手法の評価を行った。 本稿では,標準ベンチマークとドメイン適応ベンチマークのトレイン・ヴァル・スプリットを提案し,クラスラベル分布のバランスを確保するために自動分割生成手法を用いる。 データ、評価スクリプト、事前訓練されたモデルはhttps://csiro-robotics.github.io/WildScenesで受け入れられる。

Recent progress in semantic scene understanding has primarily been enabled by the availability of semantically annotated bi-modal (camera and lidar) datasets in urban environments. However, such annotated datasets are also needed for natural, unstructured environments to enable semantic perception for applications, including conservation, search and rescue, environment monitoring, and agricultural automation. Therefore, we introduce WildScenes, a bi-modal benchmark dataset consisting of multiple large-scale traversals in natural environments, including semantic annotations in high-resolution 2D images and dense 3D lidar point clouds, and accurate 6-DoF pose information. The data is (1) trajectory-centric with accurate localization and globally aligned point clouds, (2) calibrated and synchronized to support bi-modal inference, and (3) containing different natural environments over 6 months to support research on domain adaptation. Our 3D semantic labels are obtained via an efficient automated process that transfers the human-annotated 2D labels from multiple views into 3D point clouds, thus circumventing the need for expensive and time-consuming human annotation in 3D. We introduce benchmarks on 2D and 3D semantic segmentation and evaluate a variety of recent deep-learning techniques to demonstrate the challenges in semantic segmentation in natural environments. We propose train-val-test splits for standard benchmarks as well as domain adaptation benchmarks and utilize an automated split generation technique to ensure the balance of class label distributions. The data, evaluation scripts and pretrained models will be released upon acceptance at https://csiro-robotics.github.io/WildScenes.
翻訳日:2023-12-27 18:30:01 公開日:2023-12-23
# BEV-CV: クロスビュージオローカライゼーションのためのバードアイビュー変換

BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation ( http://arxiv.org/abs/2312.15363v1 )

ライセンス: Link先を確認
Tavis Shore, Simon Hadfield, Oscar Mendez(参考訳) 地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。 この方法は、地理的参照画像からのローカライズ機能を提供し、外部装置やコストのかかる機器の必要性をなくす。 これにより、GPS信号が利用できない環境で、エージェントの位置を自律的に決定し、ナビゲートし、効果的に運用することができる。 現在の研究は、航空画像に極性変換を適用することや視点間の合成など、ドメインギャップを減らすために様々な技術を使用している。 しかし、これらのアプローチは一般的に360{\deg}視野に頼り、現実の実現可能性を制限する。 BEV-CVは2つの重要な新規性を導入するアプローチである。 まず、埋め込みをマッチングする前に、地上の画像をセマンティックな鳥眼視点に持ち込み、空中のセグメンテーション表現と直接比較する。 次に,正規化温度スケールクロスエントロピー損失をサブフィールドに導入し,標準三重項損失よりも高速な収束を実現する。 bev-cvは最先端のリコール能力を達成し、フィーチャー抽出トップ1率を300%以上向上させ、トップ1%を70{\deg}作物で約150%向上させ、配向認識アプリケーションでは70{\deg}作物で35%のtop-1精度向上を達成している。

Cross-view image matching for geo-localisation is a challenging problem due to the significant visual difference between aerial and ground-level viewpoints. The method provides localisation capabilities from geo-referenced images, eliminating the need for external devices or costly equipment. This enhances the capacity of agents to autonomously determine their position, navigate, and operate effectively in environments where GPS signals are unavailable. Current research employs a variety of techniques to reduce the domain gap such as applying polar transforms to aerial images or synthesising between perspectives. However, these approaches generally rely on having a 360{\deg} field of view, limiting real-world feasibility. We propose BEV-CV, an approach which introduces two key novelties. Firstly we bring ground-level images into a semantic Birds-Eye-View before matching embeddings, allowing for direct comparison with aerial segmentation representations. Secondly, we introduce the use of a Normalised Temperature-scaled Cross Entropy Loss to the sub-field, achieving faster convergence than with the standard triplet loss. BEV-CV achieves state-of-the-art recall accuracies, improving feature extraction Top-1 rates by more than 300%, and Top-1% rates by approximately 150% for 70{\deg} crops, and for orientation-aware application we achieve a 35% Top-1 accuracy increase with 70{\deg} crops.
翻訳日:2023-12-27 18:29:28 公開日:2023-12-23
# 地上-衛星統合ネットワークにおける協調学習--共同ローカル計算とデータオフロード

Cooperative Federated Learning over Ground-to-Satellite Integrated Networks: Joint Local Computation and Data Offloading ( http://arxiv.org/abs/2312.15361v1 )

ライセンス: Link先を確認
Dong-Jun Han, Seyyedali Hosseinalipour, David J. Love, Mung Chiang, Christopher G. Brinton(参考訳) ネットワークカバレッジマップは拡大を続けているが、遠隔地にある多くのデバイスは地上の通信インフラと接続していないままであり、関連するデータ駆動サービスにアクセスできない。 本稿では,遠隔地における機械学習サービス管理を容易にするために,衛星間協調学習(fl)手法を提案する。 我々の手法は衛星コンステレーションを編成し、以下の重要な機能を提供する。 (i)地上装置からオフロードされたデータを処理すること。 (ii)デバイスクラスタ内のモデルを集約し、 (iii)衛星間リンク(isls)によるモデル/データを他の衛星に中継すること。 特定の遠隔地における各衛星の放送時間に制限があるため、訓練されたモデルと取得したデータをISLを介して隣接衛星に送信し、受信した衛星が地域のFLを継続できるようにする。 提案アルゴリズムの収束挙動を理論的に解析し,地上機器から衛星へのオフロードするデータ量や衛星の計算速度など,衛星固有のネットワークリソースを最適化する訓練遅延最小化器を開発した。 3つのデータセットを用いた実験により、地上のみの衛星ベースラインアプローチと比較してFLの収束を著しく高速化できることを示す。

While network coverage maps continue to expand, many devices located in remote areas remain unconnected to terrestrial communication infrastructures, preventing them from getting access to the associated data-driven services. In this paper, we propose a ground-to-satellite cooperative federated learning (FL) methodology to facilitate machine learning service management over remote regions. Our methodology orchestrates satellite constellations to provide the following key functions during FL: (i) processing data offloaded from ground devices, (ii) aggregating models within device clusters, and (iii) relaying models/data to other satellites via inter-satellite links (ISLs). Due to the limited coverage time of each satellite over a particular remote area, we facilitate satellite transmission of trained models and acquired data to neighboring satellites via ISL, so that the incoming satellite can continue conducting FL for the region. We theoretically analyze the convergence behavior of our algorithm, and develop a training latency minimizer which optimizes over satellite-specific network resources, including the amount of data to be offloaded from ground devices to satellites and satellites' computation speeds. Through experiments on three datasets, we show that our methodology can significantly speed up the convergence of FL compared with terrestrial-only and other satellite baseline approaches.
翻訳日:2023-12-27 18:29:03 公開日:2023-12-23
# LETA:Generic Vision Explainerのための伝達可能な属性の学習

LETA: Learning Transferable Attribution for Generic Vision Explainer ( http://arxiv.org/abs/2312.15359v1 )

ライセンス: Link先を確認
Guanchu Wang and Yu-Neng Chuang and Fan Yang and Mengnan Du and Chia-Yuan Chang and Shaochen Zhong and Zirui Liu and Zhaozhuo Xu and Kaixiong Zhou and Xuanting Cai and Xia Hu(参考訳) 説明可能な機械学習はディープニューラルネットワークの透明性を大幅に改善する(DNN)。 しかし、既存の作業は個々のモデル予測の振る舞いを説明することに制約されており、様々なモデルやタスク間で説明を伝達する能力に欠ける。 この制限は、時間とリソースを消費する様々なタスクを説明する結果となる。 この問題に対処するため,大規模な画像データセット上で事前学習されたDNNベースの汎用説明器を開発し,その転送可能性を活用して,下流タスクの様々な視覚モデルを説明する。 特に、ジェネリック・スクリプタの事前学習は、Learning Transferable Attribution (LETA)に焦点を当てている。 転送可能な帰属は、ターゲットのバックボーンエンコーダの多彩な出力を利用して、様々な下流タスクを説明するために必要な帰属を包括的にエンコードする。 LETAは、転送可能な属性に対するジェネリック説明器の事前トレーニングをガイドし、下流データに対する追加のトレーニングを必要とせずに、下流タスクを説明するための転送可能な属性のルールベースの適応を導入する。 理論的解析により、LETAの事前学習により、下流タスクにおける条件付き$\mathcal{V}$-informationと結びついた説明誤差を最小化できることが示された。 実証的研究では、3つの異なる下流データセットにわたるビジョンモデルの3つの異なるアーキテクチャを説明する。 実験の結果,LETAは下流タスクのデータに関する追加のトレーニングを必要とせず,これらのタスクを説明するのに有効であることが示唆された。

Explainable machine learning significantly improves the transparency of deep neural networks~(DNN). However, existing work is constrained to explaining the behavior of individual model predictions, and lacks the ability to transfer the explanation across various models and tasks. This limitation results in explaining various tasks being time- and resource-consuming. To address this problem, we develop a pre-trained, DNN-based, generic explainer on large-scale image datasets, and leverage its transferability to explain various vision models for downstream tasks. In particular, the pre-training of generic explainer focuses on LEarning Transferable Attribution (LETA). The transferable attribution takes advantage of the versatile output of the target backbone encoders to comprehensively encode the essential attribution for explaining various downstream tasks. LETA guides the pre-training of the generic explainer towards the transferable attribution, and introduces a rule-based adaptation of the transferable attribution for explaining downstream tasks, without the need for additional training on downstream data. Theoretical analysis demonstrates that the pre-training of LETA enables minimizing the explanation error bound aligned with the conditional $\mathcal{V}$-information on downstream tasks. Empirical studies involve explaining three different architectures of vision models across three diverse downstream datasets. The experiment results indicate LETA is effective in explaining these tasks without the need for additional training on the data of downstream tasks.
翻訳日:2023-12-27 18:28:43 公開日:2023-12-23
# 雑音出力を持つ最適決定木

Optimal Decision Tree with Noisy Outcomes ( http://arxiv.org/abs/2312.15357v1 )

ライセンス: Link先を確認
Su Jia, Fatemeh Navidi, Viswanath Nagarajan, R. Ravi(参考訳) プールベースのアクティブラーニングでは、学習者はラベルのないデータセットを与えられ、データポイントのラベルをクエリすることで未知の仮説を効率的に学習することを目指している。 これは古典的最適決定木(ODT)問題として定式化できる: 一連のテスト、一連の仮説、そしてそれぞれのテストと仮説に対する結果が与えられた場合、我々の目標は、真の仮説を識別する低コストなテスト手順(すなわち決定木)を見つけることである。 この最適化問題は、各テストが決定論的結果を生成するという仮定の下で広く研究されている。 しかし、多くの応用、例えば臨床試験において、結果は不確実であり、決定論的な設定から考えを無効にする。 本研究では,音が持続するより一般的な場合においても,ODT問題の基本的な変種について検討する。 我々の近似アルゴリズムは、この数で性能が連続的に低下するテストや仮説あたりのノイズの多い結果の一般的なケースに対して、ほぼ可能な限りの保証を提供する。 有害化学物質を同定し,線形分類器を学習するアルゴリズムを数値的に評価し,我々のアルゴリズムは情報理論の最小値に非常に近い費用がかかることを示した。

In pool-based active learning, the learner is given an unlabeled data set and aims to efficiently learn the unknown hypothesis by querying the labels of the data points. This can be formulated as the classical Optimal Decision Tree (ODT) problem: Given a set of tests, a set of hypotheses, and an outcome for each pair of test and hypothesis, our objective is to find a low-cost testing procedure (i.e., decision tree) that identifies the true hypothesis. This optimization problem has been extensively studied under the assumption that each test generates a deterministic outcome. However, in numerous applications, for example, clinical trials, the outcomes may be uncertain, which renders the ideas from the deterministic setting invalid. In this work, we study a fundamental variant of the ODT problem in which some test outcomes are noisy, even in the more general case where the noise is persistent, i.e., repeating a test gives the same noisy output. Our approximation algorithms provide guarantees that are nearly best possible and hold for the general case of a large number of noisy outcomes per test or per hypothesis where the performance degrades continuously with this number. We numerically evaluated our algorithms for identifying toxic chemicals and learning linear classifiers, and observed that our algorithms have costs very close to the information-theoretic minimum.
翻訳日:2023-12-27 18:28:18 公開日:2023-12-23
# 短時間大容量マルチa(rmed)/b(andits)試験

Short-lived High-volume Multi-A(rmed)/B(andits) Testing ( http://arxiv.org/abs/2312.15356v1 )

ライセンス: Link先を確認
Su Jia, Andrew Li, R. Ravi, Nishant Oli, Paul Duff, Ian Anderson(参考訳) 現代のプラットフォームはランダム化実験を利用して、与えられた項目のセット(`treatments'')から情報的決定を行う。 特に難しいシナリオとして、これらのアイテムは (i)大量に登場し、1時間に何千もの新品が発売され、 (ii)項目の過渡的性質や、プラットフォームが時間とともに異なるコピーと同一の項目を知覚することを妨げる非定常性などにより、寿命が短いこと。 そこで本研究では,多変量検定(または'multi-A/B test'')問題の主要特徴をカプセル化したベイズ多目的包帯問題について,短命な腕数で検討する。 各ラウンドには1組の$k$ armsが到着し、それぞれ$w$のラウンドが利用できる。 各腕の平均報酬を知らずに、学習者は複数セットのn$ armsを選択し、すぐにその報酬を観察する。 我々は、与えられた事前分布から生成されるインスタンスよりも平均される平均報酬を知らずに損失を最小限に抑えることを目指している。 ある定数 $\rho>0$ に対して $k = o(n^\rho)$ の場合、提案するポリシーは、十分に大きな事前分布のクラスで$\tilde o(n^{-\min \{\rho, \frac 12 (1+\frac 1w)^{-1}\}}) となる。 この結果は、すべてのポリシーが同じ分布のクラスにおいて$\Omega (n^{-\min \{\rho, \frac 12\}})$損失を負うことを示すことによって補完する。 以上の課題に直面したコンテンツカード提供プラットフォームである {\em Glance} の大規模フィールド実験を通じて,我々の政策の有効性をさらに検証する。 私たちのポリシーの単純な変種は、プラットフォームの現在の推奨期間を4.32\%、クリックスルー総数を7.48\%上回っています。

Modern platforms leverage randomized experiments to make informed decisions from a given set of items (``treatments''). As a particularly challenging scenario, these items may (i) arrive in high volume, with thousands of new items being released per hour, and (ii) have short lifetime, say, due to the item's transient nature or underlying non-stationarity that impels the platform to perceive the same item as distinct copies over time. Thus motivated, we study a Bayesian multiple-play bandit problem that encapsulates the key features of the multivariate testing (or ``multi-A/B testing'') problem with a high volume of short-lived arms. In each round, a set of $k$ arms arrive, each available for $w$ rounds. Without knowing the mean reward for each arm, the learner selects a multiset of $n$ arms and immediately observes their realized rewards. We aim to minimize the loss due to not knowing the mean rewards, averaged over instances generated from a given prior distribution. We show that when $k = O(n^\rho)$ for some constant $\rho>0$, our proposed policy has $\tilde O(n^{-\min \{\rho, \frac 12 (1+\frac 1w)^{-1}\}})$ loss on a sufficiently large class of prior distributions. We complement this result by showing that every policy suffers $\Omega (n^{-\min \{\rho, \frac 12\}})$ loss on the same class of distributions. We further validate the effectiveness of our policy through a large-scale field experiment on {\em Glance}, a content-card-serving platform that faces exactly the above challenge. A simple variant of our policy outperforms the platform's current recommender by 4.32\% in total duration and 7.48\% in total number of click-throughs.
翻訳日:2023-12-27 18:27:56 公開日:2023-12-23
# Scout-Net: スカウト視点によるCT臓器量の推定

Scout-Net: Prospective Personalized Estimation of CT Organ Doses from Scout Views ( http://arxiv.org/abs/2312.15354v1 )

ライセンス: Link先を確認
Abdullah-Al-Zubaer Imran, Sen Wang, Debashish Pal, Sandeep Dutta, Bhavik Patel, Evan Zucker, Adam Wang(参考訳) 目的: 有効用量などのより包括的な用量測定には, 患者固有の臓器用量の推定が必要である。 現在、利用可能な方法はCT画像自体を使用して振り返りに行われており、スキャン後にのみ実行できる。 スキャン前のCT取得を最適化するためには,スカウト画像を用いて患者固有の臓器投与量の迅速予測が必要である。 そこで我々は,CTスキャンのリアルタイム,患者固有の,臓器レベルのドシメトリ推定を行うために,エンドツーエンドで完全に自動化されたディープラーニングソリューションを考案した。 アプローチ:scout-netモデルを用いて6つの異なる臓器および全身におけるct線量予測を行い,ctスキャン前の患者の前側および外側のスカウティング画像を活用する。 臓器ドレナージの基準値を得るためにはモンテカルロシミュレーションと3次元分割法を患者のCT画像に用いた。 結果: 提案するスカウティングネットモデルが実際のctデータに対して有効であることを検証し, 臓器線量(スキャン平均27ms)をリアルタイムに推定する効果を実証した。 さらに,scout-netモデルの効率性(リアルタイム実行),不十分性(合理的なエラー率),堅牢性(さまざまな患者サイズにまたがる)を示す。 結論:CT取得計画に組み込まれた効果的な、効率的で堅牢なScout-Netモデルは、バランスの取れた画像品質と放射線線量の自動露光制御を導く可能性がある。

Purpose: Estimation of patient-specific organ doses is required for more comprehensive dose metrics, such as effective dose. Currently, available methods are performed retrospectively using the CT images themselves, which can only be done after the scan. To optimize CT acquisitions before scanning, rapid prediction of patient-specific organ dose is needed prospectively, using available scout images. We, therefore, devise an end-to-end, fully-automated deep learning solution to perform real-time, patient-specific, organ-level dosimetric estimation of CT scans. Approach: We propose the Scout-Net model for CT dose prediction at six different organs as well as for the overall patient body, leveraging the routinely obtained frontal and lateral scout images of patients, before their CT scans. To obtain reference values of the organ doses, we used Monte Carlo simulation and 3D segmentation methods on the corresponding CT images of the patients. Results: We validate our proposed Scout-Net model against real patient CT data and demonstrate the effectiveness in estimating organ doses in real-time (only 27 ms on average per scan). Additionally, we demonstrate the efficiency (real-time execution), sufficiency (reasonable error rates), and robustness (consistent across varying patient sizes) of the Scout-Net model. Conclusions: An effective, efficient, and robust Scout-Net model, once incorporated into the CT acquisition plan, could potentially guide the automatic exposure control for balanced image quality and radiation dose.
翻訳日:2023-12-27 18:27:17 公開日:2023-12-23
# 疾患軌跡のグラフにおけるアウトカム駆動高次依存性の表現

Representing Outcome-driven Higher-order Dependencies in Graphs of Disease Trajectories ( http://arxiv.org/abs/2312.15353v1 )

ライセンス: Link先を確認
Steven J. Krieg, Nitesh V. Chawla, Keith Feldman(参考訳) バイオメディカルデータへの機械学習技術の広範な応用は、疾患の進行と臨床医療の改善に多くの新たな洞察をもたらした。 グラフ(ネットワーク)の柔軟性と解釈性、トランスフォーマーや高次ネットワーク(hons)といったシーケンスモデルの強力さに着想を得て、与えられた結果に対するリスク要因の組み合わせを識別し、これらの高次関係をグラフに正確にエンコードする手法を提案する。 913,475型糖尿病(t2d)患者の過去のデータから,提案するネットワークは,t2dのさまざまな結果への進展について,さらに多くの情報をエンコードしていることがわかった。 さらに,提案するグラフの構造情報が,特にノイズの場合に,予測タスクにおけるトランスフォーマーモデルの性能向上にどのように役立つかを実証する。 グラフの順序やメモリを増加させることで,提案手法が重要なリスク要因を照らすと同時に,ノイズ要素を無視し,精度と解釈の容易な解析を行う方法を示す。

The widespread application of machine learning techniques to biomedical data has produced many new insights into disease progression and improving clinical care. Inspired by the flexibility and interpretability of graphs (networks), as well as the potency of sequence models like transformers and higher-order networks (HONs), we propose a method that identifies combinations of risk factors for a given outcome and accurately encodes these higher-order relationships in a graph. Using historical data from 913,475 type 2 diabetes (T2D) patients, we found that, compared to other approaches, the proposed networks encode significantly more information about the progression of T2D toward a variety of outcomes. We additionally demonstrate how structural information from the proposed graph can be used to augment the performance of transformer-based models on predictive tasks, especially when the data are noisy. By increasing the order, or memory, of the graph, we show how the proposed method illuminates key risk factors while successfully ignoring noisy elements, which facilitates analysis that is simultaneously accurate and interpretable.
翻訳日:2023-12-27 18:26:52 公開日:2023-12-23
# ヘルムチャートで脆弱性を緩和しない理由

Why Not Mitigate Vulnerabilities in Helm Charts? ( http://arxiv.org/abs/2312.15350v1 )

ライセンス: Link先を確認
Yihao Chen and Jiahuei Lin and Bram Adams and Ahmed E. Hassan(参考訳) [コンテキスト]: コンテナ化は、Kubernetesによる分散アプリケーションのレジリエンスを保証する。 HelmはKubernetesアプリケーションのパッケージマネージャである。 helmパッケージ、すなわち "chart''は、複雑なアプリケーションを素早くデプロイできる設定済みのリソースのセットである。 しかし、helmは分散アプリケーションの攻撃面を広げる。 目的]本研究は,Helm Chartsの修正可能な脆弱性の頻度,脆弱性に関連する要因,現在の緩和戦略を検討することを目的とする。 方法]修正可能な脆弱性10,982の影響を受ける11,035のヘルムチャートに関する混合メソッド調査を行います。 グラフの複雑さを分析し、公式チャートと非公式チャートの脆弱性の分布を比較します。 その後,グラフ関連リポジトリの脆弱性軽減戦略を根拠理論により検討する。 結果】グラフの複雑さは脆弱性の数と相関しており、公式のチャートには非公式のチャートに比べて脆弱性が少ないことが判明した。 10,982の修正可能な脆弱性は、重度の中央値であり、容易に悪用できる。 さらに、11の脆弱性軽減戦略を3つのカテゴリに分類する。 チャートの複雑さのため、メンテナは脆弱性がどこで影響し、どのように軽減するかを調べる必要がある。 自動化戦略の使用は、そのような複雑なチャートで自動化の能力(例えば、より多くの偽陽性)が限られているため、低い。 [結論]: メンテナが手動作業を減らすために脆弱性の軽減を支援する自動化ツールが必要になります。 さらに、チャートメンテナには、軽減責任に関するガイドラインが欠如しているため、脆弱性を軽減するインセンティブが欠けている。 Helmエコシステムに共有責任モデルを採用することで、セキュリティが向上する。

[Context]: Containerization ensures the resilience of distributed applications by Kubernetes. Helm is a package manager for Kubernetes applications. A Helm package, namely "Chart'', is a set of pre-configured resources that one could quickly deploy a complex application. However, Helm broadens the attack surface of the distributed applications. [Objective]: This study aims to investigate the prevalence of fixable vulnerabilities, the factors related to the vulnerabilities, and current mitigation strategies in Helm Charts. [Method]: We conduct a mixed-methods study on 11,035 Helm Charts affected by 10,982 fixable vulnerabilities. We analyze the complexity of Charts and compare the distribution of vulnerabilities between official and unofficial Charts. Subsequently, we investigate vulnerability mitigation strategies from the Chart-associated repositories by a grounded theory. [Results]: Our findings highlight that the complexity of a Chart correlates with the number of vulnerabilities, and the official Charts do not contain fewer vulnerabilities compared to unofficial Charts. The 10,982 fixable vulnerabilities are at a median of high severity and can be easily exploited. In addition, we identify 11 vulnerability mitigation strategies in three categories. Due to the complexity of Charts, maintainers are required to investigate where a vulnerability impacts and how to mitigate it. The use of automated strategies is low as automation has limited capability(e.g., a higher number of false positives) in such complex Charts. [Conclusion]: There exists need for automation tools that assist maintainers in mitigating vulnerabilities to reduce manual effort. In addition, Chart maintainers lack incentives to mitigate vulnerabilities, given a lack of guidelines for mitigation responsibilities. Adopting a shared responsibility model in the Helm ecosystem would increase its security.
翻訳日:2023-12-27 18:26:33 公開日:2023-12-23
# ランダム観測による統計的逆学習問題

Statistical inverse learning problems with random observations ( http://arxiv.org/abs/2312.15341v1 )

ライセンス: Link先を確認
Abhishake, Tapio Helin, Nicole M\"ucke(参考訳) ランダムな実験設計による統計的逆問題における最近の進歩を概観し,線形問題と非線形逆問題の両方をカバーする。 異なる正規化スキームがロバストで安定な解を生み出すために研究されている。 スペクトル正規化法と射影による正則化の最近の結果について議論し、ヒルベルトスケールの文脈における両方のアプローチを探求し、特に射影による正則化における新しい洞察を提示する。 さらに,凸ペナルティを用いた規則化の最近の進歩についても概説する。 収束速度は確率論的意味でサンプルサイズの観点から分析され、予測と確率の両方で最小値の速度が得られる。 これらの結果を達成するために、カーネルヒルベルト空間の再生構造を利用して、統計学習環境における最小値の設定を行う。 我々は、これらの証明の重要な要素を支える仮定を詳述する。 最後に,これらの概念を薬物動態・薬物動態モデル(PK/PD)の非線形逆問題に適用し,患者の薬物濃度の変化を予測する。

We provide an overview of recent progress in statistical inverse problems with random experimental design, covering both linear and nonlinear inverse problems. Different regularization schemes have been studied to produce robust and stable solutions. We discuss recent results in spectral regularization methods and regularization by projection, exploring both approaches within the context of Hilbert scales and presenting new insights particularly in regularization by projection. Additionally, we overview recent advancements in regularization using convex penalties. Convergence rates are analyzed in terms of the sample size in a probabilistic sense, yielding minimax rates in both expectation and probability. To achieve these results, the structure of reproducing kernel Hilbert spaces is leveraged to establish minimax rates in the statistical learning setting. We detail the assumptions underpinning these key elements of our proofs. Finally, we demonstrate the application of these concepts to nonlinear inverse problems in pharmacokinetic/pharmacodynamic (PK/PD) models, where the task is to predict changes in drug concentrations in patients.
翻訳日:2023-12-27 18:26:10 公開日:2023-12-23
# 動的システムのためのメタラーニングに基づく適応安定証明

Meta-Learning-Based Adaptive Stability Certificates for Dynamical Systems ( http://arxiv.org/abs/2312.15340v1 )

ライセンス: Link先を確認
Amit Jena, Dileep Kalathil, Le Xie(参考訳) 本稿では,動的システムにおけるニューラルネットワーク(NN)に基づく適応安定性認証の問題に対処する。 ニューラルリアプノフ関数(NLF)のような最先端の手法では、NNベースの定式化を使用して非線形力学系の安定性を評価し、状態空間におけるアトラクション領域(ROA)を計算する。 しかし、パラメトリック不確実性の下では、システムパラメータの値が時間とともに変化する場合、NLF法はそのような変化に適応できず、保守的な安定性評価性能をもたらす可能性がある。 モデル非依存メタラーニング(MAML)とNLFを統合することでこの問題を回避するとともに,メタNLFを提案する。 このプロセスでは、パラメトリックシフトに適応したメタ関数をトレーニングし、新しいテスト時パラメータ値でシステム用のnlfに更新します。 準NLFの安定性評価性能を,標準の自律力学系上で実証する。

This paper addresses the problem of Neural Network (NN) based adaptive stability certification in a dynamical system. The state-of-the-art methods, such as Neural Lyapunov Functions (NLFs), use NN-based formulations to assess the stability of a non-linear dynamical system and compute a Region of Attraction (ROA) in the state space. However, under parametric uncertainty, if the values of system parameters vary over time, the NLF methods fail to adapt to such changes and may lead to conservative stability assessment performance. We circumvent this issue by integrating Model Agnostic Meta-learning (MAML) with NLFs and propose meta-NLFs. In this process, we train a meta-function that adapts to any parametric shifts and updates into an NLF for the system with new test-time parameter values. We demonstrate the stability assessment performance of meta-NLFs on some standard benchmark autonomous dynamical systems.
翻訳日:2023-12-27 18:25:53 公開日:2023-12-23
# madi: 視覚深層強化学習における一般化のためのマスキング学習

MaDi: Learning to Mask Distractions for Generalization in Visual Deep Reinforcement Learning ( http://arxiv.org/abs/2312.15339v1 )

ライセンス: Link先を確認
Bram Grooten, Tristan Tomilin, Gautham Vasan, Matthew E. Taylor, A. Rupam Mahmood, Meng Fang, Mykola Pechenizkiy, Decebal Constantin Mocanu(参考訳) 視覚の世界は豊富な情報を提供するが、エージェントが受信する多くの入力ピクセルは、しばしば注意をそらす刺激を含んでいる。 自律エージェントは、タスクの無関係な知覚と有用な情報を区別し、新たな注意をそらすことなく、見えない環境に一般化する能力が必要です。 既存の作業では、データ拡張や損失関数を付加した大規模補助ネットワークを用いてこの問題に対処している。 本稿では,報酬信号のみによる注意を隠蔽する新しいアルゴリズムであるMaDiを紹介する。 madiでは、深層強化学習エージェントの従来のアクター-クリティック構造は、小さな第3の兄弟であるマスカによって補完される。 この軽量ニューラルネットワークは、アクターと批評家が受け取るものを決定するマスクを生成し、タスクの学習に集中することができる。 マスクは現在の入力に応じて動的に生成される。 我々はDeepMind Control Generalization Benchmark、Distracting Control Suite、実際のUR5 Robotic Armで実験を行った。 提案アルゴリズムは有用なマスクを用いてエージェントの焦点を改良し,その効率の良いMaskerネットワークは,以前の処理と対照的に,元の構造に0.2%以上のパラメータを追加するのみである。 madiは最先端のメソッドよりも、あるいは競争力のある一般化結果を一貫して達成している。

The visual world provides an abundance of information, but many input pixels received by agents often contain distracting stimuli. Autonomous agents need the ability to distinguish useful information from task-irrelevant perceptions, enabling them to generalize to unseen environments with new distractions. Existing works approach this problem using data augmentation or large auxiliary networks with additional loss functions. We introduce MaDi, a novel algorithm that learns to mask distractions by the reward signal only. In MaDi, the conventional actor-critic structure of deep reinforcement learning agents is complemented by a small third sibling, the Masker. This lightweight neural network generates a mask to determine what the actor and critic will receive, such that they can focus on learning the task. The masks are created dynamically, depending on the current input. We run experiments on the DeepMind Control Generalization Benchmark, the Distracting Control Suite, and a real UR5 Robotic Arm. Our algorithm improves the agent's focus with useful masks, while its efficient Masker network only adds 0.2% more parameters to the original structure, in contrast to previous work. MaDi consistently achieves generalization results better than or competitive to state-of-the-art methods.
翻訳日:2023-12-27 18:25:36 公開日:2023-12-23
# 強い光-物質相互作用に対する混合摂動非摂動処理

A mixed perturbative-nonperturbative treatment for strong light-matter interactions ( http://arxiv.org/abs/2312.15324v1 )

ライセンス: Link先を確認
Carlos J. S\'anchez Mart\'inez, Johannes Feist, Francisco J. Garc\'ia-Vidal(参考訳) 量子エミッタと任意の電磁環境との相互作用に関する完全な情報は、いわゆるスペクトル密度に符号化される。 本稿では, 一般的なナノフォトニック構造に結合する際のエミッタダイナミクスに対して, リンドブラッドのようなマスター方程式を提供する。 我々の枠組みはスペクトル密度を2つの項に分割することに基づいている。 一方、スペクトル密度は、量子エミッタの非マルコフ的および強結合に基づくダイナミクスの原因となる。 一方、残りの弱結合項を含む残留スペクトル密度は、その逆である。 前者は、量子エミッタ遷移周波数を含む周波数領域の原スペクトル密度に適合してパラメータが決定される離散モードの損失の集合で非摂動的に処理される。 後者はマルコフ近似の下で摂動的に扱われる。 提案手法のパワーと妥当性を3つの異なるセットアップで数値シミュレーションにより示し,超強結合法を含む全テストに様々なシナリオを提供する。

The full information about the interaction between a quantum emitter and an arbitrary electromagnetic environment is encoded in the so-called spectral density. We present an approach for describing such interaction in any coupling regime, providing a Lindblad-like master equation for the emitter dynamics when coupled to a general nanophotonic structure. Our framework is based on the splitting of the spectral density into two terms. On the one hand, a spectral density responsible for the non-Markovian and strong-coupling-based dynamics of the quantum emitter. On the other hand, a residual spectral density including the remaining weak-coupling terms. The former is treated nonperturbatively with a collection of lossy interacting discrete modes whose parameters are determined by a fit to the original spectral density in a frequency region encompassing the quantum emitter transition frequencies. The latter is treated perturbatively under a Markovian approximation. We illustrate the power and validity of our approach through numerical simulations in three different setups, thus offering a variety of scenarios for a full test, including the ultra-strong coupling regime.
翻訳日:2023-12-27 18:25:14 公開日:2023-12-23
# マルチハザード早期警報システムのためのマイクロサービスベースのミドルウェアに向けて

Towards a Microservice-based Middleware for a Multi-hazard Early Warning System ( http://arxiv.org/abs/2312.15323v1 )

ライセンス: Link先を確認
A Akanbi(参考訳) 水や大気汚染、極端な天候、化学汚染といった環境の危険は、様々な方法で人間の健康に影響を与え、鉱業の運営に囲まれた地域社会では絶え間なく理解されている。 これらの人為的なハザードの環境モニタリングにおける現代の技術の適用は、即座には健康を脅かすことはないが、望ましくない悪影響で有害な結果をもたらす可能性があるため、非常に重要である。 この概念を実現するために必要な技術は多面的であり、特に、相互接続されたIoT(Internet of Things)センサー、既存のレガシーシステム、エンタープライズネットワーク、マルチレイヤソフトウェアアーキテクチャ(ミドルウェア)、イベント処理エンジンなどを展開する。 現在、いくつかの早期警報システムの統合は、主にコンポーネントの多様性のために、固有の課題を抱えている。 本稿では,マルチハザード早期警報システムのためのコンテナオーケストレーションフレームワークを用いた,採用システムのデータ統合,相互運用性,スケーラビリティ,高可用性,再利用性の向上を目的とした,マイクロサービスベースのトランスバーサルミドルウェアを提案する。 ICMHEWSプロジェクトの範囲内で開発されたこのプラットフォームは、既知の課題を改善することを目的としている。

Environmental hazards like water and air pollution, extreme weather, or chemical exposures can affect human health in a number of ways, and it is a persistent apprehension in communities surrounded by mining operations. The application of modern technologies in the environmental monitoring of these Human-made hazards is critical, because while not immediately health-threatening may turn out detrimental with unwanted negative effects. Enabling technologies needed to realise this concept is multifaceted and most especially involves deploying interconnected Internet of Things (IoT) sensors, existing legacy systems, enterprise networks, multi layered software architecture (middleware), and event processing engines, amongst others. Currently, the integration of several early warning systems has inherent challenges, mostly due to the heterogeneity of components. This paper proposes transversal microservice-based middleware aiming at increasing data integration, interoperability, scalability, high availability, and reusability of adopted systems using a container orchestration framework for a multi-hazard early warning system. Devised within the scope of the ICMHEWS project, the proposed platform aims at improving known challenges.
翻訳日:2023-12-27 18:24:59 公開日:2023-12-23
# ディバースプルーニングと混合精度量子化によるハードウェア対応DNN圧縮

Hardware-Aware DNN Compression via Diverse Pruning and Mixed-Precision Quantization ( http://arxiv.org/abs/2312.15322v1 )

ライセンス: Link先を確認
Konstantinos Balaskas, Andreas Karatzas, Christos Sad, Kostas Siozios, Iraklis Anagnostopoulos, Georgios Zervakis, J\"org Henkel(参考訳) ディープニューラルネットワーク(DNN)は、さまざまな領域において大きな利点を示している。 しかし、DNNは計算集約的で、指数的なペースで飢えている一方で、リソース制約の組込みデバイス上で高度なDNNベースのサービスを実行することに対する大きな需要がある。 本稿では,組み込みDNN加速器のエネルギー効率を目標とする。 そこで本研究では,Pruning と Quantization を併用して DNN をハードウェア対応で圧縮するフレームワークを提案する。 我々は、重みとアクティベーションのための低ビット幅混合精度量子化に加えて、同じDNNアーキテクチャにおいて、1層あたりの微細および粗粒のプルーニングを初めて探求する。 強化学習(RL)は、関連する設計空間を探索し、プルーニング量子化構成を識別するために使用され、予測精度損失を許容レベルに保ちながら、エネルギー消費を最小限に抑える。 新規な複合RL剤を用いて, 再トレーニングや微調整を必要とせず, エネルギー効率の高い溶液を抽出できる。 広く使われているDNNとCIFAR-10/100およびImageNetデータセットに対する広範囲な実験的評価により、我々のフレームワークは平均エネルギー削減を平均精度損失1.7 %で達成し、最先端のアプローチを著しく上回ることを示す。

Deep Neural Networks (DNNs) have shown significant advantages in a wide variety of domains. However, DNNs are becoming computationally intensive and energy hungry at an exponential pace, while at the same time, there is a vast demand for running sophisticated DNN-based services on resource constrained embedded devices. In this paper, we target energy-efficient inference on embedded DNN accelerators. To that end, we propose an automated framework to compress DNNs in a hardware-aware manner by jointly employing pruning and quantization. We explore, for the first time, per-layer fine- and coarse-grained pruning, in the same DNN architecture, in addition to low bit-width mixed-precision quantization for weights and activations. Reinforcement Learning (RL) is used to explore the associated design space and identify the pruning-quantization configuration so that the energy consumption is minimized whilst the prediction accuracy loss is retained at acceptable levels. Using our novel composite RL agent we are able to extract energy-efficient solutions without requiring retraining and/or fine tuning. Our extensive experimental evaluation over widely used DNNs and the CIFAR-10/100 and ImageNet datasets demonstrates that our framework achieves $39\%$ average energy reduction for $1.7\%$ average accuracy loss and outperforms significantly the state-of-the-art approaches.
翻訳日:2023-12-27 18:24:25 公開日:2023-12-23