このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240201となっている論文です。

PDF登録状況(公開日: 20240201)

TitleAuthorsAbstract論文公表日・翻訳日
# 生成スコアモデリングによる応答理論

Response Theory via Generative Score Modeling ( http://arxiv.org/abs/2402.01029v1 )

ライセンス: Link先を確認
Ludovico Theo Giorgini, Katherine Deck, Tobias Bischoff, Andre Souza, (参考訳) 本稿では,外部摂動に対する動的システムの応答を解析し,スコアベース生成モデルと変動散逸理論(FDT)を組み合わせたアプローチを提案する。 この手法はシステム応答の正確な推定を可能にし、特に非ガウス統計を持つ系では平衡から遠く離れた力学系でしばしば発生する。 このような場合、しばしば従来の近似手法に制限がある。 スコア関数が解析的に利用できる確率偏微分方程式から時系列データを用いて,我々のアプローチを数値的に検証する。 さらに,本手法の従来の手法よりも精度が向上し,複雑な力学系を理解するための汎用ツールとしての可能性を示す。 応用分野は気候科学から金融学、神経科学まで多岐にわたる。

We introduce an approach for analyzing the responses of dynamical systems to external perturbations that combines score-based generative modeling with the Fluctuation-Dissipation Theorem (FDT). The methodology enables accurate estimation of system responses, especially for systems with non-Gaussian statistics, often encountered in dynamical systems far from equilibrium. Such cases often present limitations for conventional approximate methods. We numerically validate our approach using time-series data from a stochastic partial differential equation where the score function is available analytically. Furthermore, we demonstrate the improved accuracy of our methodology over conventional methods and its potential as a versatile tool for understanding complex dynamical systems. Applications span disciplines from climate science and finance to neuroscience.
翻訳日:2024-07-01 12:18:29 公開日:2024-02-01
# 高度なIPSECのためのマルチWAN, VPN, IEEE 802.3adの統合

Integrating Multi -WAN, VPN and IEEE 802.3ad for Advanced IPSEC ( http://arxiv.org/abs/2404.08642v1 )

ライセンス: Link先を確認
Stefan Ćertić, (参考訳) インターネットの出現以来、IPSECは世界中のユーザーのタイプや振舞いの変化により大きな変化を遂げてきた。 IEEE 802.3adはIPSECモデルの重要な側面と考えられているが、予測可能であり、潜在的な設計上の欠陥をもたらす可能性があるため、セキュアなワークステーションへのアクセスは比較的容易である。 したがって、複数のISP(multi-WAN)とリンク集約モデルの利点を活用し、ネットワークにおけるランダム化の側面を統合することが重要である。 ネットワークのこの面は、二重振り子シミュレーションにおける概念実証によって強調される。 POCの分析は、複数のWAN、802.3adリンクアグリゲーション、その他の環境コンポーネントを利用して、ネットワークシステム内で真のランダムさを感じるように設計されたネットワークトポロジーを提供する。 このアプローチの分析では、データストリームのサイズ、送信速度、WANとVPNの位置、その他の環境要因を考慮し、ランダムな感覚を作り出す。 証明概念に基づいて、マルチWAN、VPN、802.3adによるランダム化は、IPSECを改善するための非常に効果的なモデルであると結論付けることができる。

Since the emergence of the internet, IPSEC has undergone significant changes due to changes in the type and behavior of users worldwide. IEEE 802.3ad, while considered a key aspect of the IPSEC model, is predictable and can result in potential design flaws, making it relatively easy to access a secure workstation. Thus, it is critical to leverage the benefits of multiple ISPs (multi-WAN) and a link aggregation model and integrate an aspect of randomisation in the network. This facet of the network is highlighted by the proof of concept in the simulation of a double pendulum. The analysis of POC provided a network topology designed to utilize multiple WAN, 802.3ad link aggregation, and other environmental components to create a sense of true randomness within a network system. An analysis of this approach shows that it accounts for the data stream's size, transmission speed, WANs and VPNs' location, and other environmental factors to create a sense of randomness. Based on the proof concept, it can be concluded that attaining randomisation using multi-WAN, VPN, and 802.3ad is a highly effective model for improving IPSEC.
翻訳日:2024-07-01 11:58:46 公開日:2024-02-01
# ニューラルネットワークを用いたバイオメトリックス

Biometrics Employing Neural Network ( http://arxiv.org/abs/2404.16840v1 )

ライセンス: Link先を確認
Sajjad Bhuiyan, (参考訳) バイオメトリックスは、個人がシステム、デバイス、情報にアクセスするためのデジタル識別のために、身体的および行動的両方のユニークな人間の特性を使用する。 コンピュータ科学の分野では、個人を特定し、検証し、アクセスを制御する方法として機能する。 従来の個人認証方法はパスワードを含むが、この脆弱性はパスワードが侵害されたときに発生し、機密性の高いアクションへの不正アクセスを可能にする。 生体認証はこの問題に対する有効な答えであり、最も安全でユーザフレンドリな認証方法である。 現在、指紋、虹彩、網膜パターン、顔認識、手形、手のひら印刷、音声認識はバイオメトリックスとして頻繁に使われている。 これらの生体認証の多様な性質にもかかわらず、中核となる目的は、セキュリティを確保し、認証されたユーザを認識し、インポスタを拒否することである。 したがって、その特徴が正しい人に属しているかどうかを正確に判断することが重要である。 システムが効果的で広く受け入れられるためには、認識と検証におけるエラー率はゼロに近づかなければならない。 現在の生体計測技術は先進的ではあるが、失敗はせず、継続的な改善が必要であると認識されている。 パターンを正確に分類するには、より洗練された分類器が必要であると考えられる。 人間の脳の動作をシミュレートする人工ニューラルネットワークは、自身を有望なアプローチとして提示する。 ここでは、ニューラルネットワークに基づく様々な生体計測技術について調査し、精度と信頼性を高めるために進行中の課題を強調した。 ニューラルネットワークとバイオメトリック機能の利用は、正確性を高めるだけでなく、全体的なセキュリティ向上にも寄与する、と結論付けている。

Biometrics involves using unique human traits, both physical and behavioral, for the digital identification of individuals to provide access to systems, devices, or information. Within the field of computer science, it acts as a method for identifying and verifying individuals and controlling access. While the conventional method for personal authentication involves passwords, the vulnerability arises when passwords are compromised, allowing unauthorized access to sensitive actions. Biometric authentication presents a viable answer to this problem and is the most secure and user-friendly authentication method. Today, fingerprints, iris and retina patterns, facial recognition, hand shapes, palm prints, and voice recognition are frequently used forms of biometrics. Despite the diverse nature of these biometric identifiers, the core objective remains consistent ensuring security, recognizing authorized users, and rejecting impostors. Hence, it is crucial to determine accurately whether the characteristics belong to the rightful person. For systems to be effective and widely accepted, the error rate in recognition and verification must approach zero. It is acknowledged that current biometric techniques, while advanced, are not infallible and require continuous improvement. A more refined classifier is deemed necessary to classify patterns accurately. Artificial Neural Networks, which simulate the human brain's operations, present themselves as a promising approach. The survey presented herein explores various biometric techniques based on neural networks, emphasizing the ongoing quest for enhanced accuracy and reliability. It concludes that The utilization of neural networks along with biometric features not only enhances accuracy but also contributes to overall better security.
翻訳日:2024-07-01 11:49:01 公開日:2024-02-01
# クラウドベースのモノのインターネットのセキュア化 - 課題と緩和

Securing Cloud-Based Internet of Things: Challenges and Mitigations ( http://arxiv.org/abs/2402.00356v1 )

ライセンス: Link先を確認
Nivedita Singh, Rajkumar Buyya, Hyoungshich Kim, (参考訳) IoT(Internet of Things)は近年顕著な進歩を遂げており、デジタルランドスケープのパラダイムシフトにつながっている。 しかし、これらの技術進歩は、特にサイバーセキュリティに関して、新たな課題をもたらしている。 IoTデバイスは本質的にインターネットに接続されているため、攻撃に対して脆弱である。 さらにIoTサービスは、悪意のあるアクターや不正なサービスプロバイダによって誤用される可能性のある、センシティブなユーザデータを扱うことが多い。 均一な規制なしに、より主流のサービスプロバイダが出現するにつれて、これらのセキュリティリスクは指数関数的に増大すると予想されている。 クラウドサービスと対話しながらIoTデバイスのセキュリティを維持するという課題も難しい。 新しいIoTサービス、特にPaaS(Platform-as-a-Service)モデルとIaaS(Infrastructure-as-a-Service)モデルによって開発およびデプロイされたサービスは、さらなるセキュリティ脅威を引き起こす。 IoTデバイスは、より安価でユビキタスなものになりつつあるが、その複雑化により、セキュリティとプライバシのリスクが高まる可能性がある。 本稿は、IoTデバイスやサービスが広く採用されていることに伴う、セキュリティ上の懸念を浮き彫りにする。 既存のセキュリティギャップを埋める潜在的な解決策を提案し、今後の課題を期待する。 当社のアプローチでは,IoTサービスが現在直面している重要なセキュリティ課題を,網羅的に調査しています。 また、これらのリスクを軽減し、IoTデバイスやサービスの全体的なセキュリティを強化するための積極的な戦略を提案する。

The Internet of Things (IoT) has seen remarkable advancements in recent years, leading to a paradigm shift in the digital landscape. However, these technological strides have also brought new challenges, particularly in terms of cybersecurity. IoT devices are inherently connected to the internet, which makes them more vulnerable to attack. In addition, IoT services often handle sensitive user data, which could be misused by malicious actors or unauthorized service providers. As more mainstream service providers emerge without uniform regulations, these security risks are expected to escalate exponentially. The task of maintaining the security of IoT devices while they interact with cloud services is also challenging. Newer IoT services, especially those developed and deployed via Platform-as-a-Service (PaaS) and Infrastructure-as-a-Service (IaaS) models, pose additional security threats. Although IoT devices are becoming more affordable and ubiquitous, their growing complexity could expose users to heightened security and privacy risks. This paper highlights these pressing security concerns associated with the widespread adoption of IoT devices and services. We propose potential solutions to bridge the existing security gaps and expect future challenges. Our approach entails a comprehensive exploration of the key security challenges that IoT services are currently facing. We also suggest proactive strategies to mitigate these risks, strengthening the overall security of IoT devices and services.
翻訳日:2024-03-25 12:08:11 公開日:2024-02-01
# 将来のマイクロアーキテクチャに対する暗号実装のサイドチャネルセキュリティテスト

Testing side-channel security of cryptographic implementations against future microarchitectures ( http://arxiv.org/abs/2402.00641v1 )

ライセンス: Link先を確認
Gilles Barthe, Marcel Böhme, Sunjay Cauligi, Chitchanok Chuengsatiansup, Daniel Genkin, Marco Guarnieri, David Mateos Romero, Peter Schwabe, David Wu, Yuval Yarom, (参考訳) 将来のマイクロアーキテクチャは、既存の暗号実装のセキュリティにどのように影響しますか? トランジスタのサイズを縮小し続けることができないため、チップベンダーは計算の高速化のために新しいマイクロアーキテクチャー最適化を開発し始めている。 最近の研究 (Sanchez Vicarte et al , ISCA 2021) は、これらの最適化がPandoraのマイクロアーキテクチャ攻撃の箱を開くかもしれないことを示唆している。 しかし、将来の最適化提案のセキュリティへの影響を評価するためのガイダンスはほとんどない。 チップベンダーがマイクロアーキテクチャ最適化が暗号実装に与える影響を探るため、我々は開発を行っている。 i) LmSpecと呼ばれる表現力のあるドメイン固有言語で、与えられた最適化のためのリークモデルを指定することができる。 (ii) LmTestと呼ばれるテストフレームワークは、所定の実装内で指定されたリークモデルの下でリークを自動的に検出する。 このフレームワークを用いて,5つの人気ライブラリの8つのプリミティブの25実装に対して,提案した18のマイクロアーキテクチャ最適化に関する実証的研究を行った。 これらの最適化が実現すれば、すべての実装が秘密に依存したリークを含んでいて、被害者の秘密鍵を回復するのに十分な場合もあることが分かりました。 皮肉なことに、いくつかのリークは、標準的な定時モデルの下でのリークを防ぐために使用される符号化イディオムのためのみ可能である。

How will future microarchitectures impact the security of existing cryptographic implementations? As we cannot keep reducing the size of transistors, chip vendors have started developing new microarchitectural optimizations to speed up computation. A recent study (Sanchez Vicarte et al., ISCA 2021) suggests that these optimizations might open the Pandora's box of microarchitectural attacks. However, there is little guidance on how to evaluate the security impact of future optimization proposals. To help chip vendors explore the impact of microarchitectural optimizations on cryptographic implementations, we develop (i) an expressive domain-specific language, called LmSpec, that allows them to specify the leakage model for the given optimization and (ii) a testing framework, called LmTest, to automatically detect leaks under the specified leakage model within the given implementation. Using this framework, we conduct an empirical study of 18 proposed microarchitectural optimizations on 25 implementations of eight cryptographic primitives in five popular libraries. We find that every implementation would contain secret-dependent leaks, sometimes sufficient to recover a victim's secret key, if these optimizations were realized. Ironically, some leaks are possible only because of coding idioms used to prevent leaks under the standard constant-time model.
翻訳日:2024-03-25 12:08:11 公開日:2024-02-01
# オープンソースプロジェクトにおけるハードウェアセキュリティバグ特性の検討

An Investigation of Hardware Security Bug Characteristics in Open-Source Projects ( http://arxiv.org/abs/2402.00684v1 )

ライセンス: Link先を確認
Joey Ah-kiow, Benjamin Tan, (参考訳) ハードウェアセキュリティは、開発ライフサイクルを通じて導入された設計エラーから脆弱性が発生する可能性があるため、システムセキュリティに対する重要な関心事である。 近年の研究では、静的解析、ファジィング、シンボリック実行など、ハードウェアセキュリティのバグを検出する技術が提案されている。 しかし、ハードウェアセキュリティのバグの基本的な特性は、まだ明らかにされていない。 ハードウェアセキュリティのバグをより深く理解するために、私たちは、バグレポートやバグ修正を含む、人気のあるOpenTitanプロジェクトの詳細調査を行っています。 私たちは手動でバグを機能やセキュリティに関連するものとして分類し、セキュリティバグの影響や位置、バグ修正のサイズなどの特徴を分析します。 また、開発中のセキュリティへの影響とバグ管理との関係についても検討する。 最後に,バグ修正の構文的特徴を特定するための抽象構文木解析を提案する。 その結果、OpenTitanのバグの53%が潜在的なセキュリティ上の影響があり、すべてのバグ修正の55%が1つのファイルだけを変更していることがわかった。 本研究は,セキュリティに配慮した開発プラクティスとツールの重要性を浮き彫りにして,高度に局所化されたハードウェアバグを利用した技術開発を動機づけるものである。

Hardware security is an important concern of system security as vulnerabilities can arise from design errors introduced throughout the development lifecycle. Recent works have proposed techniques to detect hardware security bugs, such as static analysis, fuzzing, and symbolic execution. However, the fundamental properties of hardware security bugs remain relatively unexplored. To gain a better understanding of hardware security bugs, we perform a deep dive into the popular OpenTitan project, including its bug reports and bug fixes. We manually classify the bugs as relevant to functionality or security and analyze characteristics, such as the impact and location of security bugs, and the size of their bug fixes. We also investigate relationships between security impact and bug management during development. Finally, we propose an abstract syntax tree-based analysis to identify the syntactic characteristics of bug fixes. Our results show that 53% of the bugs in OpenTitan have potential security implications and that 55% of all bug fixes modify only one file. Our findings underscore the importance of security-aware development practices and tools and motivate the development of techniques that leverage the highly localized nature of hardware bugs.
翻訳日:2024-03-25 11:58:26 公開日:2024-02-01
# モノのインターネットにおけるブロックチェーンの利用

A Review on the Use of Blockchain for the Internet of Things ( http://arxiv.org/abs/2402.00687v1 )

ライセンス: Link先を確認
Tiago M. Fernandez-Carames, Paula Fraga-Lamas, (参考訳) IoT(Internet of Things)のパラダイムは、私たちの毎日のオブジェクトの多くを相互接続し、情報を収集し、特定のタスクを自動化するために環境と対話する世界への道を歩むことです。 このようなビジョンには、シームレスな認証、データプライバシ、セキュリティ、アタックに対する堅牢性、デプロイの容易性、自己維持などが必要です。 このような機能は、Bitcoinと呼ばれる暗号通貨で誕生したブロックチェーンによってもたらされる。 本稿では、ブロックチェーンベースのIoT(Blockchain-based IoT)アプリケーションを開発するために、ブロックチェーンをIoTの特定のニーズに適合させる方法について、徹底的なレビューを行う。 ブロックチェーンの基本を説明した後、最も関連するBIoTアプリケーションは、ブロックチェーンが従来のクラウド中心のIoTアプリケーションにどのように影響するかを強調して説明される。 そして、現在の課題と可能な最適化は、BIoTアプリケーションの設計、開発、デプロイに影響を与える多くの側面について詳細に述べられている。 最後に、いくつかの推奨事項は、次世代のBIoTアプリケーションをデプロイする前に取り組まなければならない問題について、将来のBIoT研究者と開発者を導くことを目的として列挙されている。

The paradigm of Internet of Things (IoT) is paving the way for a world, where many of our daily objects will be interconnected and will interact with their environment in order to collect information and automate certain tasks. Such a vision requires, among other things, seamless authentication, data privacy, security, robustness against attacks, easy deployment, and self-maintenance. Such features can be brought by blockchain, a technology born with a cryptocurrency called Bitcoin. In this paper, a thorough review on how to adapt blockchain to the specific needs of IoT in order to develop Blockchain-based IoT (BIoT) applications is presented. After describing the basics of blockchain, the most relevant BIoT applications are described with the objective of emphasizing how blockchain can impact traditional cloud-centered IoT applications. Then, the current challenges and possible optimizations are detailed regarding many aspects that affect the design, development, and deployment of a BIoT application. Finally, some recommendations are enumerated with the aim of guiding future BIoT researchers and developers on some of the issues that will have to be tackled before deploying the next generation of BIoT applications.
翻訳日:2024-03-25 11:58:26 公開日:2024-02-01
# アドバンスト・サイバーレジリエンス自動車産業におけるブロックチェーン技術の動向

A Review on Blockchain Technologies for an Advanced and Cyber-Resilient Automotive Industry ( http://arxiv.org/abs/2402.00954v1 )

ライセンス: Link先を確認
Paula Fraga-Lamas, Tiago M. Fernandez-Carames, (参考訳) 自動車産業は、ハイブリッド、電気自動車、自動運転スマートカーからIoT接続車の開発に至るまで、最も複雑で高度で技術的に進んだ産業の1つだ。 その複雑さのため、ロボット工学、先進的な製造システム、サイバー物理システム、拡張現実など、多くの産業用4.0技術が関与する必要がある。 ブロックチェーンは、データセキュリティ、プライバシ、匿名性、トレーサビリティ、説明責任、整合性、堅牢性、透明性、信頼性、認証を強化し、長期的な持続可能性と業界全体の運用効率を高める。 このレビューは、ブロックチェーン技術を自動車業界に適用する大きな可能性を分析し、そのサイバーセキュリティ機能を強調します。 このように、ブロックチェーンの適用性は、最先端の調査と、主要なステークホルダの現在の課題の策定によって評価される。 さらに、この記事では、ブロックチェーンの広範な採用により、新しいビジネスモデルを創造し、私たちが知っているようにカーシェアリング経済を破壊できる、短期および中期的な有望な自動車アプリケーションの範囲が解放されるため、最も関連するユースケースについて説明している。 最後に、強度、弱さ、機会、脅威(SWOT)分析の後、将来のサイバー耐性自動車産業の発展に研究者や企業を導くことを目的として、いくつかの推奨事項が列挙されている。

In the last century the automotive industry has arguably transformed society, being one of the most complex, sophisticated and technologically advanced industries, with innovations ranging from hybrid, electric and self-driving smart cars to the development of IoT-connected cars. Due to its complexity, it requires the involvement of many Industry 4.0 technologies, like robotics, advanced manufacturing systems, cyber-physical systems or augmented reality. One of the latest technologies that can benefit the automotive industry is blockchain, which can enhance its data security, privacy, anonymity, traceability, accountability, integrity, robustness, transparency, trustworthiness and authentication, as well as provide long-term sustainability and a higher operational efficiency to the whole industry. This review analyzes the great potential of applying blockchain technologies to the automotive industry emphasizing its cybersecurity features. Thus, the applicability of blockchain is evaluated after examining the state-of-the-art and devising the main stakeholders' current challenges. Furthermore, the article describes the most relevant use cases, since the broad adoption of blockchain unlocks a wide area of short- and medium-term promising automotive applications that can create new business models and even disrupt the car-sharing economy as we know it. Finally, after a Strengths, Weaknesses, Opportunities, and Threats (SWOT) analysis, some recommendations are enumerated with the aim of guiding researchers and companies in future cyber-resilient automotive industry developments.
翻訳日:2024-03-25 11:58:26 公開日:2024-02-01
# algoXSSF:機械学習アルゴリズムによるクロスサイト要求偽造(XSRF)およびクロスサイトスクリプティング(XSS)攻撃の検出と解析

algoXSSF: Detection and analysis of cross-site request forgery (XSRF) and cross-site scripting (XSS) attacks via Machine learning algorithms ( http://arxiv.org/abs/2402.01012v1 )

ライセンス: Link先を確認
Naresh Kshetri, Dilip Kumar, James Hutson, Navneet Kaur, Omar Faruq Osama, (参考訳) オンラインユーザーとオンライン機器のグローバルな増加は、いくつかのサイバー犯罪やサイバー攻撃とは別に、最終的に世界のインターネット人口の増加をもたらした。 新たなテクノロジと強力なアルゴリズム(人工知能、ディープラーニング、機械学習)の組み合わせは、いくつかの検索エンジンやWebサイトに対する攻撃を含む、防御的なWebセキュリティに対抗するために必要である。 サイバー犯罪やウェブサイト攻撃が前例のない増加率に達したことで、インターネット上のデータや情報を保護する新しい技術が求められた。 GitHubアカウントのハック、Twitterのデータ漏洩、WordPressプラグインのマルウェア、Tomcatサーバの脆弱性などだ。 クロスサイト要求偽造(XSRF)とクロスサイトスクリプティング(XSS)アタック(XSS)の2つの主要なサイバー攻撃の検出と解析とは別に,詳細な調査を行った。 継続的改善を伴うサイバートレンドとパターンの容易な識別は、機械学習とAIアルゴリズムのエッジ内で可能である。 機械学習アルゴリズムの使用は、XSRFとXSS攻撃に対抗する(検出を除く)のに非常に役立つだろう。 我々は,Webサイト上の悪意ある攻撃(マン・イン・ザ・ミドル攻撃を含む)を検知・解析するために,機械学習アルゴリズムを組み込んだアルゴリズムとサイバー防御フレームワークであるAlgoXSSFを開発した。

The global rise of online users and online devices has ultimately given rise to the global internet population apart from several cybercrimes and cyberattacks. The combination of emerging new technology and powerful algorithms (of Artificial Intelligence, Deep Learning, and Machine Learning) is needed to counter defense web security including attacks on several search engines and websites. The unprecedented increase rate of cybercrime and website attacks urged for new technology consideration to protect data and information online. There have been recent and continuous cyberattacks on websites, web domains with ongoing data breaches including - GitHub account hack, data leaks on Twitter, malware in WordPress plugins, vulnerability in Tomcat server to name just a few. We have investigated with an in-depth study apart from the detection and analysis of two major cyberattacks (although there are many more types): cross-site request forgery (XSRF) and cross-site scripting (XSS) attacks. The easy identification of cyber trends and patterns with continuous improvement is possible within the edge of machine learning and AI algorithms. The use of machine learning algorithms would be extremely helpful to counter (apart from detection) the XSRF and XSS attacks. We have developed the algorithm and cyber defense framework - algoXSSF with machine learning algorithms embedded to combat malicious attacks (including Man-in-the-Middle attacks) on websites for detection and analysis.
翻訳日:2024-03-25 11:58:26 公開日:2024-02-01
# ハミルトニアングラフにおけるハミルトニアンサイクル探索アルゴリズム

A Memetic Algorithm To Find a Hamiltonian Cycle in a Hamiltonian Graph ( http://arxiv.org/abs/2403.07886v1 )

ライセンス: Link先を確認
Sarwan Ali, Pablo Moscato, (参考訳) ハミルトングラフのハミルトニアンサイクルを求めるためのメメティックアルゴリズム (\maa) を提案する。 \maは、非対称トラベリングセールスマン問題(\atspp)に対する証明済みのアプローチに基づいている。 提案手法では,ハミルトン性を考慮した入力グラフの分散化や,探索中に動的に拡張する手法も導入している。 このような結合ヒューリスティックなアプローチは、より少ない時間でハミルトンサイクルを見つけることによってハミルトン性を証明するのに役立つ。 さらに,最近導入された多項式時間短縮法を,グラフの推移的閉包を計算したSymmetric \tspに導入した。 我々のアプローチはメタヒューリスティック(メタヒューリスティック)であり、すなわち、ハミルトニアンサイクルを見つけるための理論的保証を与えていないが、大きな木幅を持つグラフでさえも、その方法が、より多くのインスタンスのハミルトニシティーを検証することに成功していることを我々は見てきた。 近年の5つの最先端ベースライン手法との比較実験により,提案手法は,fhcpscのほとんどのインスタンスにおいて,より優れた性能を示すことが示された。

We present a memetic algorithm (\maa) approach for finding a Hamiltonian cycle in a Hamiltonian graph. The \ma is based on a proven approach to the Asymmetric Travelling Salesman Problem (\atspp) that, in this contribution, is boosted by the introduction of more powerful local searches. Our approach also introduces a novel technique that sparsifies the input graph under consideration for Hamiltonicity and dynamically augments it during the search. Such a combined heuristic approach helps to prove Hamiltonicity by finding a Hamiltonian cycle in less time. In addition, we also employ a recently introduced polynomial-time reduction from the \hamcyc to the Symmetric \tsp, which is based on computing the transitive closure of the graph. Although our approach is a metaheuristic, i.e., it does not give a theoretical guarantee for finding a Hamiltonian cycle, we have observed that the method is successful in practice in verifying the Hamiltonicity of a larger number of instances from the \textit{Flinder University Hamiltonian Cycle Problem Challenge Set} (\fhcpsc), even for the graphs that have large treewidth. The experiments on the \fhcpscc instances and a computational comparison with five recent state-of-the-art baseline approaches show that the proposed method outperforms those for the majority of the instances in the \fhcpsc.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-01
# 効率的なエッジベース医用画像分割のための不確実性定量化を用いたアナログインメモリコンピューティング

Analog In-Memory Computing with Uncertainty Quantification for Efficient Edge-based Medical Imaging Segmentation ( http://arxiv.org/abs/2403.08796v1 )

ライセンス: Link先を確認
Imane Hamzaoui, Hadjer Benmeziane, Zayneb Cherif, Kaoutar El Maghraoui, (参考訳) 本研究は,医療AI分析の実現と,これらのモデルのエッジにおける確実性向上における,新たなアナログ・インメモリ・コンピューティング(AIMC)パラダイムの役割について検討する。 これはAIMCの効率と、従来のデジタルコンピューティングのパワー、スピード、スケーラビリティの制限とは対照的である。 包括的評価は、脳腫瘍解析、脾の分節化、核検出に焦点をあてる。 この研究は、アナログ認識トレーニングにおいて最小限の精度低下(0.04)を示す等方性アーキテクチャの優れた強靭さを、ピラミッド構造における顕著な低下(最大0.15)と比較した。 さらに、IDCの効果的なデータパイプライン化、レイテンシの低減、スループットの向上、AIMC内の固有ノイズの活用、モデルの確実性を戦略的に活用することを強調する。

This work investigates the role of the emerging Analog In-memory computing (AIMC) paradigm in enabling Medical AI analysis and improving the certainty of these models at the edge. It contrasts AIMC's efficiency with traditional digital computing's limitations in power, speed, and scalability. Our comprehensive evaluation focuses on brain tumor analysis, spleen segmentation, and nuclei detection. The study highlights the superior robustness of isotropic architectures, which exhibit a minimal accuracy drop (0.04) in analog-aware training, compared to significant drops (up to 0.15) in pyramidal structures. Additionally, the paper emphasizes IMC's effective data pipelining, reducing latency and increasing throughput as well as the exploitation of inherent noise within AIMC, strategically harnessed to augment model certainty.
翻訳日:2024-03-25 08:16:13 公開日:2024-02-01
# 分子進化をシミュレートする進化的アルゴリズム:新しい分野の提案

Evolutionary Algorithms Simulating Molecular Evolution: A New Field Proposal ( http://arxiv.org/abs/2403.08797v1 )

ライセンス: Link先を確認
James S. L. Browning Jr., Daniel R. Tauritz, John Beckmann, (参考訳) 生命の本質的な機能の遺伝的青写真はDNAにコード化され、タンパク質に翻訳される。 近年のゲノムシークエンシングの進歩により、タンパク質ファミリーの多様性が明らかにされているが、全てのアミノ酸配列の膨大な検索空間と比較して、既知の機能ファミリーのセットは最小限である。 自然は限定的なタンパク質「語彙」を持っていると言うことができる。 したがって、計算生物学者にとっての最大の疑問は、この語彙が、昔に絶滅した、あるいはそもそも進化しなかった、有用なタンパク質を含むように拡張できるかどうかである。 この問題を解決するための計算手法を概説する。 進化的アルゴリズム、機械学習(ML)、バイオインフォマティクスを組み合わせることで、これまで存在しなかった全く新しいタンパク質の開発を促進することができる。 我々は、分子進化(EASME)をシミュレートする進化アルゴリズムをダブし、計算進化の新しいサブフィールドを形成することを想定する。

The genetic blueprint for the essential functions of life is encoded in DNA, which is translated into proteins -- the engines driving most of our metabolic processes. Recent advancements in genome sequencing have unveiled a vast diversity of protein families, but compared to the massive search space of all possible amino acid sequences, the set of known functional families is minimal. One could say nature has a limited protein "vocabulary." The major question for computational biologists, therefore, is whether this vocabulary can be expanded to include useful proteins that went extinct long ago, or maybe never evolved in the first place. We outline a computational approach to solving this problem. By merging evolutionary algorithms, machine learning (ML), and bioinformatics, we can facilitate the development of completely novel proteins which have never existed before. We envision this work forming a new sub-field of computational evolution we dub evolutionary algorithms simulating molecular evolution (EASME).
翻訳日:2024-03-25 08:16:13 公開日:2024-02-01
# 量子力学における非分離波動進化方程式

Non-separable wave evolution equations in quantum kinetics ( http://arxiv.org/abs/2403.12974v1 )

ライセンス: Link先を確認
C Dedes, (参考訳) 位相空間におけるウィグナー分布関数の時間発展のための非分離波状積分微分方程式は、対応する分離波動方程式から導かれる。 複雑な群速度を含む非局所分散効果をもたらし、またエントロピー生成として非単位的特徴を示すことが示されている。 量子力学的記述を用いて、非局所進化波動方程式は、ハミルトン・ヤコビ方程式と連続性とを合成することによっても導出され、空間確率密度の伝播における四重極量子効果の発生を予測する。 ボソンスカラー場に対する形式主義の拡張も、可逆性の問題に関する簡単な注釈とともに提示される。

A non-separable wave-like integro-differential equation for the time evolution of the Wigner distribution function in phase space is educed from the corresponding separable kinetic equation. It is shown that it leads to non-local dispersion effects that may involve complex group velocities and also display non-unitary features as entropy production. By employing the quantum hydrodynamical description a non-local evolution wave equation is also derived by synthesizing the Hamilton-Jacobi equation with that of continuity, which predicts the generation of quadrupole quantum effects in the propagation of the spatial probability density. Extension of the formalism for a boson scalar field is also presented along with a brief commentary on the issue of irreversibility.
翻訳日:2024-03-25 07:27:10 公開日:2024-02-01
# 量子力学の観測と完成について

On Observation and The Completion of Quantum Mechanics ( http://arxiv.org/abs/2403.13114v1 )

ライセンス: Link先を確認
Matthew F. Brown, (参考訳) まず、現実の世界をモデル化するための数学の使用についての議論から始め、量子論理の一般的な文脈におけるそのようなモデリングに対するヒルベルト空間形式主義の役割を正当化する。 これに続いて、シュリンガー方程式の不完全性とフォン・ノイマンの測度アプローチ \cite{vN} の不完全性について議論する。 その後、量子力学は観測者の加法によって実際に完備であることが示されるが、観測者はハミルトン形式論では記述されず、量子確率形式論では \cite{HP} で発見される。 したがって、量子力学の完全理論は量子フィルタリング理論 \cite{ND,NLF} である。 最後に、Schr\"odinger's catは量子フィルタとして理解され、直感的に現実的なモデルと量子フィルタリングの仕組みについての洞察を提供する。

We start with a discussion of the use of mathematics to model the real world then justify the role of Hilbert space formalism for such modelling in the general context of quantum logic. Following this, the incompleteness of the Schr\"odinger equation is discussed as well as the incompleteness of von Neumann's measurement approach \cite{vN}. Subsequently, it is shown that quantum mechanics is indeed completed by the addition of an observer, however the observer is not described in the Hamiltonian formalism but \emph{necessarily} by the quantum stochastic formalism discovered in \cite{HP}. Consequently, the complete theory of quantum mechanics appears to be the Quantum Filtering Theory \cite{ND,NLF}. Finally, it is shown how Schr\"odinger's cat may be understood as a quantum filter, providing an intuitively realistic model and an insight into how quantum filtering works.
翻訳日:2024-03-25 07:17:26 公開日:2024-02-01
# 組合わせデータを用いた口腔内X線撮影における深層学習アルゴリズムの統計的検証

Statistical validation of a deep learning algorithm for dental anomaly detection in intraoral radiographs using paired data ( http://arxiv.org/abs/2402.14022v1 )

ライセンス: Link先を確認
Pieter Van Leemput, Johannes Keustermans, Wouter Mollemans(参考訳) 本稿では, 口腔内X線画像における歯の異常, 特にうっ血, 尖端病変, 根管治療障害, クラウン修復の限界欠陥, 歯周骨の喪失, 石灰化などを検出する深層学習アルゴリズムの臨床的検証, 統計的解析, 結果について述べる。 本研究は, 深層学習アルゴリズムを用いた歯科医師の検出性能と, アルゴリズムを介さずに画像を評価する歯科医師の事前評価結果を比較した。 注釈付きペア画像データから限界利益と性能の損失を計算することにより、感度と特異性の仮説変化の定量化が可能になる。 これらの結果の統計的意義はマクネマーの検定と二項仮説検定の両方を用いて広く証明されている。 平均感度は60.7 %$から85.9 %$に上昇し、平均特異度は94.5 %$から92.7 %$にわずかに低下する。 局所化 ROC 曲線 (AUC) の下での面積増加は (平均で 0.60$ から 0.86$ まで) 著しく、平均 AUC は 95\%$ 信頼区間 ${[}0.54, 0.65{]}$ と ${[}0.82, 0.90{]}$ で有界であることを示す。 診断指導にディープラーニングアルゴリズムを使用する場合、歯科医は、平均的な真の人口の感度が79.6\%$から91.9\%$の範囲で制限されていると確信できる。 提案するペアデータ設定と統計解析は,放射線画像に対するディープラーニングに基づく検出および/またはセグメンテーションなどのモダリティ変化の効果を徹底的にテストするための青写真として使用できる。

This article describes the clinical validation study setup, statistical analysis and results for a deep learning algorithm which detects dental anomalies in intraoral radiographic images, more specifically caries, apical lesions, root canal treatment defects, marginal defects at crown restorations, periodontal bone loss and calculus. The study compares the detection performance of dentists using the deep learning algorithm to the prior performance of these dentists evaluating the images without algorithmic assistance. Calculating the marginal profit and loss of performance from the annotated paired image data allows for a quantification of the hypothesized change in sensitivity and specificity. The statistical significance of these results is extensively proven using both McNemar's test and the binomial hypothesis test. The average sensitivity increases from $60.7\%$ to $85.9\%$, while the average specificity slightly decreases from $94.5\%$ to $92.7\%$. We prove that the increase of the area under the localization ROC curve (AUC) is significant (from $0.60$ to $0.86$ on average), while the average AUC is bounded by the $95\%$ confidence intervals ${[}0.54, 0.65{]}$ and ${[}0.82, 0.90{]}$. When using the deep learning algorithm for diagnostic guidance, the dentist can be $95\%$ confident that the average true population sensitivity is bounded by the range $79.6\%$ to $91.9\%$. The proposed paired data setup and statistical analysis can be used as a blueprint to thoroughly test the effect of a modality change, like a deep learning based detection and/or segmentation, on radiographic images.
翻訳日:2024-02-25 16:56:25 公開日:2024-02-01
# 説明可能な人工知能に基づく高齢者のE-ヘルスインタフェースとのインタラクションに関する研究

Research on Older Adults' Interaction with E-Health Interface Based on Explainable Artificial Intelligence ( http://arxiv.org/abs/2402.07915v1 )

ライセンス: Link先を確認
Xueting Huang, Zhibo Zhang, Fusen Guo, Xianghao Wang, Kun Chi, Kexin Wu(参考訳) 本稿では,ユーザエクスペリエンス,ユーザビリティ評価,説明可能な人工知能(XAI)メソッドの統合による詳細なインタビューなど,高齢者のさまざまなサンプルを用いた総合的な混合メソッドフレームワークを提案する。 高齢者のEhealthインターフェースとのインタラクション体験はインタビューを通じて収集され,操作可能なデータベースに変換されるのに対して,XAI手法は,本研究で収集したインタビュー結果を説明するのに使用される。 以上の結果から, 高齢者がe-healthインタフェースと相互作用する際の嗜好を調査した結果, xaiが組み込んだe-healthインタフェースは, 年齢に伴うデジタル格差を橋渡しする上で重要な役割を担っていることが示唆された。 さらに,高齢者の間で効率的なヒューマン・コンピュータ・インタラクション(HCI)ツールを作成する上で重要な,直感的な可視化や簡単な説明などの重要な設計要因を明らかにした。 さらに,高齢者向けe-healthインタフェースにおけるXAIの革新的可能性を強調し,HCI型医療ソリューションにおける透明性と理解可能性の重要性を強調した。 本研究の結果は,高齢者全体の幸福感を高めることを目的として,ユーザ中心のeヘルス技術の設計と開発に広く影響している。

This paper proposed a comprehensive mixed-methods framework with varied samples of older adults, including user experience, usability assessments, and in-depth interviews with the integration of Explainable Artificial Intelligence (XAI) methods. The experience of older adults' interaction with the Ehealth interface is collected through interviews and transformed into operatable databases whereas XAI methods are utilized to explain the collected interview results in this research work. The results show that XAI-infused e-health interfaces could play an important role in bridging the age-related digital divide by investigating elders' preferences when interacting with E-health interfaces. Furthermore, the study identifies important design factors, such as intuitive visualization and straightforward explanations, that are critical for creating efficient Human Computer Interaction (HCI) tools among older users. Furthermore, this study emphasizes the revolutionary potential of XAI in e-health interfaces for older users, emphasizing the importance of transparency and understandability in HCI-driven healthcare solutions. This study's findings have far-reaching implications for the design and development of user-centric e-health technologies, intending to increase the overall well-being of older adults.
翻訳日:2024-02-18 13:42:16 公開日:2024-02-01
# 並列分割学習のためのワークフロー最適化

Workflow Optimization for Parallel Split Learning ( http://arxiv.org/abs/2402.10092v1 )

ライセンス: Link先を確認
Joana Tirana, Dimitra Tsigkari, George Iosifidis, Dimitris Chatzopoulos(参考訳) 資源制約のあるデバイスがマルチパラメータニューラルネットワーク(NN)をトレーニングし、フェデレートラーニング(FL)に参加することを可能にする手段として、スプリットラーニング(SL)が最近提案されている。 簡単に言うと、SLはNNモデルを部品に分割し、クライアント(デバイス)が処理タスクとして最大の部分を計算力のあるヘルパーにオフロードできるようにする。 並列slでは、複数のヘルパーが1つ以上のクライアントのモデル部品を処理できるため、すべてのクライアントの最大トレーニング時間が大幅に短縮される(makespan)。 本稿では,本実験が示すように,非常に異質なシステムにおいて極めて重要であるこの操作のワークフローのオーケストレーションに着目する。 特に,トレーニングメースパンの最小化を目標として,クライアント-ヘルパー代入とスケジューリング決定の連立問題を定式化し,NPハードであることを証明する。 本稿では,その固有対称性を利用して問題を分解する解法と,完全にスケーラブルな第2の解法を提案する。 テストベッドの測定値を用いた数値評価により,これらの手法からなる解法を構築することができる。 さらに,本手法は最適に近い解を求め,ベースライン方式よりも52.3%短いメイスパンを達成できることを示す。

Split learning (SL) has been recently proposed as a way to enable resource-constrained devices to train multi-parameter neural networks (NNs) and participate in federated learning (FL). In a nutshell, SL splits the NN model into parts, and allows clients (devices) to offload the largest part as a processing task to a computationally powerful helper. In parallel SL, multiple helpers can process model parts of one or more clients, thus, considerably reducing the maximum training time over all clients (makespan). In this paper, we focus on orchestrating the workflow of this operation, which is critical in highly heterogeneous systems, as our experiments show. In particular, we formulate the joint problem of client-helper assignments and scheduling decisions with the goal of minimizing the training makespan, and we prove that it is NP-hard. We propose a solution method based on the decomposition of the problem by leveraging its inherent symmetry, and a second one that is fully scalable. A wealth of numerical evaluations using our testbed's measurements allow us to build a solution strategy comprising these methods. Moreover, we show that this strategy finds a near-optimal solution, and achieves a shorter makespan than the baseline scheme by up to 52.3%.
翻訳日:2024-02-18 12:39:58 公開日:2024-02-01
# テキストベースの製品マッチング-半スーパービジョンクラスタリングアプローチ

Text-Based Product Matching -- Semi-Supervised Clustering Approach ( http://arxiv.org/abs/2402.10091v1 )

ライセンス: Link先を確認
Alicja Martinek, Szymon {\L}ukasik, Amir H. Gandomi(参考訳) 複数の製品フィードに存在する同一製品とのマッチングは、製品の比較、動的価格最適化、クライアント向けにパーソナライズされた選択肢の選択など、eコマースにおける多くのタスクの重要な要素である。 これは、エンティティマッチングのよく知られた機械学習タスクに対応しており、非構造化データや不正確で一貫性のない製品記述など、独自の特異性を備えている。 本稿では,半教師付きクラスタリングアプローチを用いた製品マッチングの新しい哲学を提案する。 本稿では,本手法の特性を,主にテキストの特徴とファジィ文字列マッチングを用いて実世界のデータセット上でのIDECアルゴリズムを用いて実験し,基準点としてより標準的なアプローチを用いて検討する。 アントラクタマッチングは,少量のアノテートされた製品リンクに富んだもので,広範囲な手動データラベリングを必要とする支配的な管理戦略の代替となる可能性が示唆された。

Matching identical products present in multiple product feeds constitutes a crucial element of many tasks of e-commerce, such as comparing product offerings, dynamic price optimization, and selecting the assortment personalized for the client. It corresponds to the well-known machine learning task of entity matching, with its own specificity, like omnipresent unstructured data or inaccurate and inconsistent product descriptions. This paper aims to present a new philosophy to product matching utilizing a semi-supervised clustering approach. We study the properties of this method by experimenting with the IDEC algorithm on the real-world dataset using predominantly textual features and fuzzy string matching, with more standard approaches as a point of reference. Encouraging results show that unsupervised matching, enriched with a small annotated sample of product links, could be a possible alternative to the dominant supervised strategy, requiring extensive manual data labeling.
翻訳日:2024-02-18 12:39:35 公開日:2024-02-01
# PICS:イメージキャプションと検索のためのパイプライン

PICS: Pipeline for Image Captioning and Search ( http://arxiv.org/abs/2402.10090v1 )

ライセンス: Link先を確認
Grant Rosario, David Noever(参考訳) デジタル画像の量の増加は、効率的な分類と検索のための高度なシステムを必要とし、データベース管理と情報検索において大きな課題を呈している。 本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。 picsは、大規模な言語モデル(llm)の進歩を利用して、画像キャプションのプロセスを自動化し、従来の手動アノテーションメソッドを超越したソリューションを提供する。 このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。 パイプラインに感情分析を統合することで、PICSはメタデータをさらに強化し、基本的な記述子を超えて広がるニュアンス付き検索を可能にする。 この手法は、膨大な画像コレクションを管理するタスクを単純化するだけでなく、画像検索における精度と効率の新たな先例も設定する。 PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。

The growing volume of digital images necessitates advanced systems for efficient categorization and retrieval, presenting a significant challenge in database management and information retrieval. This paper introduces PICS (Pipeline for Image Captioning and Search), a novel approach designed to address the complexities inherent in organizing large-scale image repositories. PICS leverages the advancements in Large Language Models (LLMs) to automate the process of image captioning, offering a solution that transcends traditional manual annotation methods. The approach is rooted in the understanding that meaningful, AI-generated captions can significantly enhance the searchability and accessibility of images in large databases. By integrating sentiment analysis into the pipeline, PICS further enriches the metadata, enabling nuanced searches that extend beyond basic descriptors. This methodology not only simplifies the task of managing vast image collections but also sets a new precedent for accuracy and efficiency in image retrieval. The significance of PICS lies in its potential to transform image database systems, harnessing the power of machine learning and natural language processing to meet the demands of modern digital asset management.
翻訳日:2024-02-18 12:39:18 公開日:2024-02-01
# フレキシブルツールのための階層型ハイブリッドモデリング

Hierarchical hybrid modeling for flexible tool use ( http://arxiv.org/abs/2402.10088v1 )

ライセンス: Link先を確認
Matteo Priorelli, Ivilin Peev Stoianov(参考訳) アクティブ推論と呼ばれる最近の計算フレームワークでは、離散モデルは連続的なモデルとリンクして、変化する環境における意思決定を行うことができる。 別の観点からは、単純なエージェントを組み合わせることで、世界の因果関係をよりよく捉えることができる。 この2つの機能を組み合わせて、効率的なゴール指向行動を実現するにはどうすればよいのか? 本稿では,エージェントの構成を複製し,動的計画と同期動作を実現する高レベル離散モデルにより制御する,複数のハイブリッドな,連続的かつ離散的なユニットからなるアーキテクチャを提案する。 各レベル内の追加の因子化により、階層的に他のエージェントやオブジェクトを自己と関連づけることができる。 我々はこの階層的ハイブリッドモデルを非自明なタスクで評価し、移動ツールを選択した後、移動物体に到達した。 本研究は,制御に関する過去の研究を推論として拡張し,深層強化学習に代わる方向性を提案する。

In a recent computational framework called active inference, discrete models can be linked to their continuous counterparts to perform decision-making in changing environments. From another perspective, simple agents can be combined to better capture the causal relationships of the world. How can we use these two features together to achieve efficient goal-directed behavior? We present an architecture composed of several hybrid -- continuous and discrete -- units replicating the agent's configuration, controlled by a high-level discrete model that achieves dynamic planning and synchronized behavior. Additional factorizations within each level allow to represent hierarchically other agents and objects in relation to the self. We evaluate this hierarchical hybrid model on a non-trivial task: reaching a moving object after having picked a moving tool. This study extends past work on control as inference and proposes an alternative direction to deep reinforcement learning.
翻訳日:2024-02-18 12:38:57 公開日:2024-02-01
# エンド・ツー・エンド異常検出システムの開発

Develop End-to-End Anomaly Detection System ( http://arxiv.org/abs/2402.10085v1 )

ライセンス: Link先を確認
Emanuele Mengoli, Zhiyuan Yao, Wutao Wei(参考訳) 異常検出はネットワークの堅牢性を確保する上で重要な役割を果たす。 しかし、悪意のあるイベントと非悪意的なイベントの両方によって異常が発生するシナリオを考えると、インテリジェントな警告システムの実装が課題となり、異常パターンを決定するのが困難になる。 コンピュータネットワーク領域にラベル付きデータがないことがこの問題をさらに悪化させ、現実のシナリオを扱うことのできる堅牢なモデルの開発を妨げる。 そこで本研究では,エンドツーエンドの異常検出モデル開発パイプラインを提案する。 このフレームワークは、ユーザのフィードバックを消費し、継続的なユーザ中心モデルのパフォーマンス評価と最適化を可能にする。 本稿では,実世界のネットワーク問題に対する新たな予測モデルである \emph{lachesis} の導入とベンチマークによるフレームワークの有効性を示す。 実験は、文献で提案された他のモデルと比較して、2つの提案されたバージョンのemph{Lachesis}の堅牢性と有効性を示した。 この結果から,ユーザフィードバックと反復的開発を調和させて,データ駆動型製品の性能をライフサイクルを通じて向上させる可能性が示唆された。

Anomaly detection plays a crucial role in ensuring network robustness. However, implementing intelligent alerting systems becomes a challenge when considering scenarios in which anomalies can be caused by both malicious and non-malicious events, leading to the difficulty of determining anomaly patterns. The lack of labeled data in the computer networking domain further exacerbates this issue, impeding the development of robust models capable of handling real-world scenarios. To address this challenge, in this paper, we propose an end-to-end anomaly detection model development pipeline. This framework makes it possible to consume user feedback and enable continuous user-centric model performance evaluation and optimization. We demonstrate the efficacy of the framework by way of introducing and bench-marking a new forecasting model -- named \emph{Lachesis} -- on a real-world networking problem. Experiments have demonstrated the robustness and effectiveness of the two proposed versions of \emph{Lachesis} compared with other models proposed in the literature. Our findings underscore the potential for improving the performance of data-driven products over their life cycles through a harmonized integration of user feedback and iterative development.
翻訳日:2024-02-18 12:38:16 公開日:2024-02-01
# 大規模言語モデル幾何学の情報

The Information of Large Language Model Geometry ( http://arxiv.org/abs/2402.03471v1 )

ライセンス: Link先を確認
Zhiquan Tan, Chenghai Li, Weiran Huang(参考訳) 本稿では,大規模言語モデル (LLM) の埋め込みに符号化された情報について検討する。 表現エントロピーを解析し,モデルサイズとパワー則の関係を見いだすためにシミュレーションを行う。 この観察に基づいて,スケーリング則現象を解明するための(条件付き)エントロピーに基づく理論を提案する。 さらに, LLMの自己回帰構造を掘り下げ, 情報理論と回帰手法を用いて, 最後のトークンと過去のコンテキストトークンの関係について検討する。 具体的には,新しいトークンの情報ゲインとリッジ回帰の理論的関係を確立する。 さらに, 有意義なトークン選択におけるラッソ回帰(lasso regression)の有効性について検討した。 最後に、制御された実験を行い、情報は特定の「意味のある」トークンだけに集中するのではなく、トークンに分散されていることに気付く。

This paper investigates the information encoded in the embeddings of large language models (LLMs). We conduct simulations to analyze the representation entropy and discover a power law relationship with model sizes. Building upon this observation, we propose a theory based on (conditional) entropy to elucidate the scaling law phenomenon. Furthermore, we delve into the auto-regressive structure of LLMs and examine the relationship between the last token and previous context tokens using information theory and regression techniques. Specifically, we establish a theoretical connection between the information gain of new tokens and ridge regression. Additionally, we explore the effectiveness of Lasso regression in selecting meaningful tokens, which sometimes outperforms the closely related attention weights. Finally, we conduct controlled experiments, and find that information is distributed across tokens, rather than being concentrated in specific "meaningful" tokens alone.
翻訳日:2024-02-11 15:27:27 公開日:2024-02-01
# 勧告システムにおけるビッグデータの実証的・実験的展望:包括的調査

Empirical and Experimental Perspectives on Big Data in Recommendation Systems: A Comprehensive Survey ( http://arxiv.org/abs/2402.03368v1 )

ライセンス: Link先を確認
Kamal Taha, Paul D. Yoo, Aya Taha(参考訳) 本稿では,既存の文献における深度と精度の欠如に対処するため,レコメンデーションシステムにおけるビッグデータアルゴリズムの包括的分析を行う。 現在のアルゴリズムを徹底的に分析し、正確な分類のための新しい階層的な分類法を提案する。 分類学は、方法論のカテゴリから始まり、特定のテクニックに絞り込む三段階階層に基づいている。 このようなフレームワークは、アルゴリズムの構造化と包括的分類を可能にし、研究者が様々なアルゴリズムや技術間の相互関係を理解するのを助ける。 幅広いアルゴリズムをカバーするこの分類学は、まずアルゴリズムを4つの主要な分析タイプに分類する: ユーザーとアイテムの類似性に基づく手法、ハイブリッドと組み合わせのアプローチ、ディープラーニングとアルゴリズムの手法、数学的モデリングの手法。 本論文は,実験的評価と実験的評価の両方を取り入れた手法である。 経験的評価は4つの基準に基づいてテクニックをランク付けする。 実験的な評価は、同じカテゴリ、サブカテゴリ、テクニック、サブテクニックに属するアルゴリズムをランク付けする。 また,推薦システムにおけるビッグデータ技術の将来展望を照らし,さらなる研究の機会と可能性を明らかにした。

This survey paper provides a comprehensive analysis of big data algorithms in recommendation systems, addressing the lack of depth and precision in existing literature. It proposes a two-pronged approach: a thorough analysis of current algorithms and a novel, hierarchical taxonomy for precise categorization. The taxonomy is based on a tri-level hierarchy, starting with the methodology category and narrowing down to specific techniques. Such a framework allows for a structured and comprehensive classification of algorithms, assisting researchers in understanding the interrelationships among diverse algorithms and techniques. Covering a wide range of algorithms, this taxonomy first categorizes algorithms into four main analysis types: User and Item Similarity-Based Methods, Hybrid and Combined Approaches, Deep Learning and Algorithmic Methods, and Mathematical Modeling Methods, with further subdivisions into sub-categories and techniques. The paper incorporates both empirical and experimental evaluations to differentiate between the techniques. The empirical evaluation ranks the techniques based on four criteria. The experimental assessments rank the algorithms that belong to the same category, sub-category, technique, and sub-technique. Also, the paper illuminates the future prospects of big data techniques in recommendation systems, underscoring potential advancements and opportunities for further research in this field
翻訳日:2024-02-11 15:27:15 公開日:2024-02-01
# 複素数値ニューラルネットワークと不規則分散マイクロホンを用いた室内伝達関数再構成

Room transfer function reconstruction using complex-valued neural networks and irregularly distributed microphones ( http://arxiv.org/abs/2402.04866v1 )

ライセンス: Link先を確認
Francesca Ronchini, Luca Comanducci, Mirco Pezzoli, Fabio Antonacci, Augusto Sarti(参考訳) 室内の複雑な音場を計算するのに必要な室内伝達関数の再構築には、いくつかの重要な実世界応用がある。 しかし、実用的でないマイクの数がしばしば必要となる。 近年,従来の信号処理手法に加えて,室内の散乱点で測定した室内伝達関数のごく限られた集合から部屋伝達関数を再構築する深層学習手法が適用されている。 本研究では,数個の不規則分散マイクロホンを用いて,第1室共鳴周波数域における室内伝達関数を推定するために,複雑な評価ニューラルネットワークを用いる。 私たちの知る限りでは、複雑な値を持つニューラルネットワークがルーム転送関数の推定に使用されるのはこれが初めてです。 提案手法は,提案手法と最先端の実数値ニューラルネットワーク法と,音場再構成のための最先端のカーネルベース信号処理手法とを比較し,音場の位相精度と音場全体の品質の面で適切な利点を示すことを示す。

Reconstructing the room transfer functions needed to calculate the complex sound field in a room has several important real-world applications. However, an unpractical number of microphones is often required. Recently, in addition to classical signal processing methods, deep learning techniques have been applied to reconstruct the room transfer function starting from a very limited set of room transfer functions measured at scattered points in the room. In this study, we employ complex-valued neural networks to estimate room transfer functions in the frequency range of the first room resonances, using a few irregularly distributed microphones. To the best of our knowledge, this is the first time complex-valued neural networks are used to estimate room transfer functions. To analyze the benefits of applying complex-valued optimization to the considered task, we compare the proposed technique with a state-of-the-art real-valued neural network method and a state-of-the-art kernel-based signal processing approach for sound field reconstruction, showing that the proposed technique exhibits relevant advantages in terms of phase accuracy and overall quality of the reconstructed sound field.
翻訳日:2024-02-11 15:11:59 公開日:2024-02-01
# LLMにおける「幻覚」の再定義 : 誤情報緩和のための心理学的インフォームド・フレームワークを目指して

Redefining "Hallucination" in LLMs: Towards a psychology-informed framework for mitigating misinformation ( http://arxiv.org/abs/2402.01769v1 )

ライセンス: Link先を確認
Elijah Berberette, Jack Hutchins, Amir Sadovnik(参考訳) 近年、大規模な言語モデル(LLM)は非常に人気があり、例えば10億人以上のユーザーがChatGPTを使っている。 これらのモデルは顕著な言語理解と論理的技量を示すが、注目すべき課題は「幻覚」である。 この現象により、LCMは確実な方法で誤情報を出力し、そのような大きなユーザベースで壊滅的な結果をもたらす可能性がある。 しかし、llmにおける「幻覚」という用語の適切性に疑問を呈し、認知バイアスやその他の心理学的現象に基づく心理学的分類法を提案する。 このアプローチは、この現象をよりきめ細かい理解を提供し、ターゲットとするソリューションを可能にします。 同様の課題を人間が内部的に解決する方法の洞察を活用することで,LLM幻覚を緩和する戦略の開発を目指す。 この学際的アプローチは、従来の用語を超えて、LCMの信頼性を向上させるための微妙な理解と実行可能な経路を提供しようとしている。

In recent years, large language models (LLMs) have become incredibly popular, with ChatGPT for example being used by over a billion users. While these models exhibit remarkable language understanding and logical prowess, a notable challenge surfaces in the form of "hallucinations." This phenomenon results in LLMs outputting misinformation in a confident manner, which can lead to devastating consequences with such a large user base. However, we question the appropriateness of the term "hallucination" in LLMs, proposing a psychological taxonomy based on cognitive biases and other psychological phenomena. Our approach offers a more fine-grained understanding of this phenomenon, allowing for targeted solutions. By leveraging insights from how humans internally resolve similar challenges, we aim to develop strategies to mitigate LLM hallucinations. This interdisciplinary approach seeks to move beyond conventional terminology, providing a nuanced understanding and actionable pathways for improvement in LLM reliability.
翻訳日:2024-02-07 02:31:46 公開日:2024-02-01
# DoubleMLDeep:マルチモーダルデータによる因果効果の推定

DoubleMLDeep: Estimation of Causal Effects with Multimodal Data ( http://arxiv.org/abs/2402.01785v1 )

ライセンス: Link先を確認
Sven Klaassen, Jan Teichert-Kluge, Philipp Bach, Victor Chernozhukov, Martin Spindler, Suhas Vijaykumar(参考訳) 本稿では,因果推論と治療効果推定における非構造化マルチモーダルデータ,すなわちテキストと画像の利用について検討する。 本稿では,DML(Double Machine Learning)フレームワーク,特に部分線形モデルに適応したニューラルネットワークアーキテクチャを提案する。 本論文のさらなる貢献は,テキストや画像の存在下での因果効果推定の性能を評価するために,半合成データセットを生成するための新しい手法である。 提案手法とアーキテクチャは,半合成データセットを用いて評価し,標準的なアプローチと比較し,因果研究においてテキストや画像を直接使用する可能性を強調した。 本研究は, 経済, マーケティング, 金融, 医療, データ科学の研究者や実践者が, 非伝統的なデータを用いた因果量の推定に関心を持つ人に対して意味がある。

This paper explores the use of unstructured, multimodal data, namely text and images, in causal inference and treatment effect estimation. We propose a neural network architecture that is adapted to the double machine learning (DML) framework, specifically the partially linear model. An additional contribution of our paper is a new method to generate a semi-synthetic dataset which can be used to evaluate the performance of causal effect estimation in the presence of text and images as confounders. The proposed methods and architectures are evaluated on the semi-synthetic dataset and compared to standard approaches, highlighting the potential benefit of using text and images directly in causal studies. Our findings have implications for researchers and practitioners in economics, marketing, finance, medicine and data science in general who are interested in estimating causal quantities using non-traditional data.
翻訳日:2024-02-07 02:20:23 公開日:2024-02-01
# 多言語機械翻訳におけるターゲット側転送と正規化の役割の解明

Disentangling the Roles of Target-Side Transfer and Regularization in Multilingual Machine Translation ( http://arxiv.org/abs/2402.01772v1 )

ライセンス: Link先を確認
Yan Meng and Christof Monz(参考訳) 多言語機械翻訳(MMT)は、異なる言語ペア間の知識伝達の恩恵を受ける。 しかし、多対多の翻訳に比べて一対多の翻訳の改善は限界に過ぎず、時には無視されることもある。 本稿では,言語的類似度とコーパスサイズという2つの次元に沿って補助的対象言語を変化させ,知識伝達が主言語対に与える影響を動的に示す大規模研究を行う。 言語的に類似した補助対象言語は、肯定的な知識を伝達する強い能力を示す。 類似のターゲット言語のサイズが大きくなると、前向きな変換が強化され、主要な言語ペアにメリットがもたらされる。 一方、遠方の補助的対象言語は、最小限の正の転送能力を持っても、予想外に主言語ペアに利益をもたらす可能性がある。 転送以外にも、一般化とモデル推論のキャリブレーションを強化して翻訳性能を向上させるために、遠隔補助目標言語がレギュレータとして機能することを示す。

Multilingual Machine Translation (MMT) benefits from knowledge transfer across different language pairs. However, improvements in one-to-many translation compared to many-to-one translation are only marginal and sometimes even negligible. This performance discrepancy raises the question of to what extent positive transfer plays a role on the target-side for one-to-many MT. In this paper, we conduct a large-scale study that varies the auxiliary target side languages along two dimensions, i.e., linguistic similarity and corpus size, to show the dynamic impact of knowledge transfer on the main language pairs. We show that linguistically similar auxiliary target languages exhibit strong ability to transfer positive knowledge. With an increasing size of similar target languages, the positive transfer is further enhanced to benefit the main language pairs. Meanwhile, we find distant auxiliary target languages can also unexpectedly benefit main language pairs, even with minimal positive transfer ability. Apart from transfer, we show distant auxiliary target languages can act as a regularizer to benefit translation performance by enhancing the generalization and model inference calibration.
翻訳日:2024-02-07 02:19:15 公開日:2024-02-01
# BlackMamba: ステートスペースモデルの専門家の混在

BlackMamba: Mixture of Experts for State-Space Models ( http://arxiv.org/abs/2402.01771v1 )

ライセンス: Link先を確認
Quentin Anthony, Yury Tokpanov, Paolo Glorioso, Beren Millidge(参考訳) 状態空間モデル(ssms)は最近、大規模な言語モデリングベンチマークでトランスフォーマーの競合性能を実証し、シーケンス長の関数として線形時間とメモリ複雑性を達成している。 最近リリースされたSSMモデルであるMambaは、言語モデリングと長いシーケンス処理の両方で素晴らしいパフォーマンスを示している。 同時に、mixed-of-expert(moe)モデルは、より大きなメモリフットプリントを犠牲にして推論の計算コストとレイテンシコストを大幅に削減しながら、驚くべきパフォーマンスを示している。 本稿では,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaについて述べる。 我々は,BlackMambaがマンバベースラインとトランスフォーマーベースラインの両方に対して競争力を発揮することを示した。 カスタムデータセットの300Bトークン上で,340M/1.5Bと630M/2.8BのBlackMambaモデルを完全にトレーニングし,オープンソースにしています。 我々はBlackMambaがSSMとMoEアーキテクチャの両方の利点を継承し結合し、SSMからの線形複雑度生成とMoEからの安価かつ高速な推論を組み合わせたことを示す。 すべての重み、チェックポイント、推論コードをオープンソースでリリースしています。 推論コード: https://github.com/zyphra/blackmamba

State-space models (SSMs) have recently demonstrated competitive performance to transformers at large-scale language modeling benchmarks while achieving linear time and memory complexity as a function of sequence length. Mamba, a recently released SSM model, shows impressive performance in both language modeling and long sequence processing tasks. Simultaneously, mixture-of-expert (MoE) models have shown remarkable performance while significantly reducing the compute and latency costs of inference at the expense of a larger memory footprint. In this paper, we present BlackMamba, a novel architecture that combines the Mamba SSM with MoE to obtain the benefits of both. We demonstrate that BlackMamba performs competitively against both Mamba and transformer baselines, and outperforms in inference and training FLOPs. We fully train and open-source 340M/1.5B and 630M/2.8B BlackMamba models on 300B tokens of a custom dataset. We show that BlackMamba inherits and combines both of the benefits of SSM and MoE architectures, combining linear-complexity generation from SSM with cheap and fast inference from MoE. We release all weights, checkpoints, and inference code open-source. Inference code at: https://github.com/Zyphra/BlackMamba
翻訳日:2024-02-07 02:18:25 公開日:2024-02-01
# 擬人化チャットボットとブルーム分類を用いた対話型科学展示の教室への展開

Extending Interactive Science Exhibits into the Classroom using Anthropomorphized Chatbots and Bloom's Taxonomy ( http://arxiv.org/abs/2402.01770v1 )

ライセンス: Link先を確認
Yousuf Golding(参考訳) 本研究は,公開科学展示を仮想体験に変換するための生成型aiチャットボットの利用を探求する。 より広い目標は、科学展示のアクセシビリティを高めることであり、特に文化的障壁を含む様々な要因により、STEMで疎外された人々に対してである。 我々は、展示品を人体で人型化したチャットボットに変身させ、小惑星や彗星のような個性を持たせることは、エンゲージメントや学習を促進することができると仮定する。 この論文は、プロンプトエンジニアリングのみでジェネレーティブAI(例えばGPT)を使用することで、このような技術が可能かどうかを主に検討する。 この研究は、ブルームの分類学を用いて、質問世代によるインタラクティブアセスメントを統合する可能性の調査を含む。 初期の結果はこれらの技術を組み合わせることが可能であることを示唆している。 そのため、こうしたチャットボットの将来の教室評価の基礎を築き、科学展示のリーチを広げる全体的な効果を評価する。 本論文は,仮想フィールドトリップの有効性を十分に評価するための研究の拡張について論じる。 また,チャットボットによる学習に対する学生のモチベーションを高めるための追加的な方法の簡単な検討も含んでいる。

This study explores the use of Generative AI chatbots for transforming public science exhibits into virtual experiences that can extend the engagement of exhibits into the classroom. The broader goal is to increase accessibility of science exhibits, especially for those marginalized in STEM due to various factors, including cultural barriers. We hypothesize that turning exhibits into first-person anthropomorphized chatbots with a personality, like quirky-talking asteroids or comets, can increase engagement and learning. The paper mainly explores if such techniques are possible using Generative AI (e.g. GPT) via prompt engineering alone. The research includes an investigation into the possibility of integrating interactive assessment via question-generation using Bloom's Taxonomy. Initial results indicate that it is possible to combine these techniques. As such, it lays a foundation for future classroom evaluations of such chatbots to gauge their overall efficacy in extending the reach of science exhibitions. The paper concludes by discussing extensions of the research to fully evaluate effectiveness in virtual field-trips. We also include a brief examination of additional ways to enhance student motivation towards learning via chatbots.
翻訳日:2024-02-07 02:18:04 公開日:2024-02-01
# 動的Poisson-Nernst-Planckシステムのためのリッチ物理インフォームドニューラルネットワーク

Enriched Physics-informed Neural Networks for Dynamic Poisson-Nernst-Planck Systems ( http://arxiv.org/abs/2402.01768v1 )

ライセンス: Link先を確認
Xujia Huang, Fajie Wang, Benrong Zhang and Hanqing Liu(参考訳) 本稿では,強い結合性と非線形特性を持つ動的Poisson-Nernst-Planck方程式を解くために,メッシュレス深層学習アルゴリズムEPINNを提案する。 EPINNは、従来の物理情報ニューラルネットワークを基盤として、損失関数のバランスをとるために適応的な損失重みを追加し、最大推定値に基づいて各イテレーションのパラメータを更新することで、損失の重みを自動的に割り当てる。 再サンプリング戦略は、損失関数の収束を加速するためにEPINNで使用される。 一方、GPU並列コンピューティング技術は、問題解決プロセスの高速化に採用されている。 提案手法の有効性と有効性を示す4つの例を示す。 数値計算の結果, 結合非線形系の解法において, 従来の数値法よりも適用性が高いことがわかった。 さらに重要なのは、EPINNは従来の物理インフォームドニューラルネットワークよりも正確で、安定しており、高速だ。 この研究は任意の境界形状と境界条件を持つPNPに対処するための単純で高性能な数値ツールを提供する。

This paper proposes a meshless deep learning algorithm, enriched physics-informed neural networks (EPINNs), to solve dynamic Poisson-Nernst-Planck (PNP) equations with strong coupling and nonlinear characteristics. The EPINNs takes the traditional physics-informed neural networks as the foundation framework, and adds the adaptive loss weight to balance the loss functions, which automatically assigns the weights of losses by updating the parameters in each iteration based on the maximum likelihood estimate. The resampling strategy is employed in the EPINNs to accelerate the convergence of loss function. Meanwhile, the GPU parallel computing technique is adopted to accelerate the solving process. Four examples are provided to demonstrate the validity and effectiveness of the proposed method. Numerical results indicate that the new method has better applicability than traditional numerical methods in solving such coupled nonlinear systems. More importantly, the EPINNs is more accurate, stable, and fast than the traditional physics-informed neural networks. This work provides a simple and high-performance numerical tool for addressing PNPs with arbitrary boundary shapes and boundary conditions.
翻訳日:2024-02-07 02:17:45 公開日:2024-02-01
# HiQA: 大規模ドキュメントQAのための階層的コンテキスト拡張RAG

HiQA: A Hierarchical Contextual Augmentation RAG for Massive Documents QA ( http://arxiv.org/abs/2402.01767v1 )

ライセンス: Link先を確認
Xinyue Chen, Pengyu Gao, Jiangjiang Song, Xiaoyang Tan(参考訳) 外部ツールを活用した言語モデルエージェントが急速に進化するにつれて、補足文書を利用した質問応答(QA)手法や検索・拡張生成(RAG)手法において大きな進歩が見られた。 この進歩は言語モデルの応答品質を改善し、幻覚の出現を緩和した。 しかし,これらの手法は,大量の文書に直面する場合の検索精度が限られており,実用上の課題が指摘されている。 これらの課題に対応するため、我々は、多経路検索機構とともに、カスケードメタデータをコンテンツに統合するMDQA(Multi-document Question-Awering)の高度なフレームワークであるHiQAを提案する。 また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。 最後に、HiQAはマルチドキュメント環境における最先端のパフォーマンスを示す。

As language model agents leveraging external tools rapidly evolve, significant progress has been made in question-answering(QA) methodologies utilizing supplementary documents and the Retrieval-Augmented Generation (RAG) approach. This advancement has improved the response quality of language models and alleviates the appearance of hallucination. However, these methods exhibit limited retrieval accuracy when faced with massive indistinguishable documents, presenting notable challenges in their practical application. In response to these emerging challenges, we present HiQA, an advanced framework for multi-document question-answering (MDQA) that integrates cascading metadata into content as well as a multi-route retrieval mechanism. We also release a benchmark called MasQA to evaluate and research in MDQA. Finally, HiQA demonstrates the state-of-the-art performance in multi-document environments.
翻訳日:2024-02-07 02:17:26 公開日:2024-02-01
# テキスト・画像モデルにおけるハーム増幅

Harm Amplification in Text-to-Image Models ( http://arxiv.org/abs/2402.01787v1 )

ライセンス: Link先を確認
Susan Hao, Renee Shelby, Yuchi Liu, Hansa Srinivasan, Mukul Bhutani, Burcu Karagol Ayan, Shivani Poddar, Sarah Laszlo(参考訳) text-to-image(t2i)モデルは、生成aiの大きな進歩として現れているが、ユーザーが一見安全なプロンプトを入力しても、有害な画像出力を生成する可能性に関する安全性の懸念がある。 t2iモデルが入力で明示されていない有害な表現を生成するこの現象は、敵のプロンプトよりも潜在的に大きなリスクをもたらし、ユーザは意図せず危害にさらされる。 本論文は,本現象の形式的定義であるharm amplificationを導入することで,この問題に対処した。 我々は,ユーザ入力の文脈において,モデル出力の有害性を考慮したハーム増幅の定量化手法の開発により,この分野にも貢献する。 次に,これらの異なる手法を実世界の展開シナリオをシミュレートするために応用する方法を実証的に検討した。 我々の研究は、T2Iシステムの安全性問題に包括的に対処し、生成AIモデルの責任ある展開に貢献する研究者ツールを提供することを目的としている。

Text-to-image (T2I) models have emerged as a significant advancement in generative AI; however, there exist safety concerns regarding their potential to produce harmful image outputs even when users input seemingly safe prompts. This phenomenon, where T2I models generate harmful representations that were not explicit in the input, poses a potentially greater risk than adversarial prompts, leaving users unintentionally exposed to harms. Our paper addresses this issue by first introducing a formal definition for this phenomenon, termed harm amplification. We further contribute to the field by developing methodologies to quantify harm amplification in which we consider the harm of the model output in the context of user input. We then empirically examine how to apply these different methodologies to simulate real-world deployment scenarios including a quantification of disparate impacts across genders resulting from harm amplification. Together, our work aims to offer researchers tools to comprehensively address safety challenges in T2I systems and contribute to the responsible deployment of generative AI models.
翻訳日:2024-02-07 02:06:09 公開日:2024-02-01
# coa-gpt:軍事活動における行動展開促進のための生成予訓練トランス

COA-GPT: Generative Pre-trained Transformers for Accelerated Course of Action Development in Military Operations ( http://arxiv.org/abs/2402.01786v1 )

ライセンス: Link先を確認
Vinicius G. Goecks, Nicholas Waytowich(参考訳) 軍事作戦における行動コース(COA)の開発は、伝統的に時間を要する複雑なプロセスである。 この課題に対処するために,大規模言語モデル(LLM)を用いたCOA-GPTを導入し,有効なCOAを迅速かつ効率的に生成する手法を提案する。 COA-GPTはLLMに軍事的教義とドメインの専門知識を取り入れ、指揮官はテキストと画像の両方でミッション情報を入力し、レビューと承認のために戦略的に整合したCOAを受け取ることができる。 COA-GPTはCOA開発を加速し、数秒でCOAを発生させるだけでなく、指揮官のフィードバックに基づいてリアルタイムにCOAを改良する。 この研究は、StarCraft IIの軍用バージョンにおける軍事関連シナリオにおけるCOA-GPTを評価し、その性能を最先端の強化学習アルゴリズムと比較した。 以上の結果から,COA-GPTはより迅速かつ戦略的にCOAを生成でき,適応性の向上と指揮官の意図との整合性がもたらされた。 COA-GPTのミッション中にCOAを迅速に適応・更新する能力は、軍事計画、特に計画上の不一致に対処し、創発的な機会の窓に乗じることにおいて、変革的な可能性を示す。

The development of Courses of Action (COAs) in military operations is traditionally a time-consuming and intricate process. Addressing this challenge, this study introduces COA-GPT, a novel algorithm employing Large Language Models (LLMs) for rapid and efficient generation of valid COAs. COA-GPT incorporates military doctrine and domain expertise to LLMs through in-context learning, allowing commanders to input mission information - in both text and image formats - and receive strategically aligned COAs for review and approval. Uniquely, COA-GPT not only accelerates COA development, producing initial COAs within seconds, but also facilitates real-time refinement based on commander feedback. This work evaluates COA-GPT in a military-relevant scenario within a militarized version of the StarCraft II game, comparing its performance against state-of-the-art reinforcement learning algorithms. Our results demonstrate COA-GPT's superiority in generating strategically sound COAs more swiftly, with added benefits of enhanced adaptability and alignment with commander intentions. COA-GPT's capability to rapidly adapt and update COAs during missions presents a transformative potential for military planning, particularly in addressing planning discrepancies and capitalizing on emergent windows of opportunities.
翻訳日:2024-02-07 02:05:50 公開日:2024-02-01
# オンラインワクチンに関する階層的マルチラベル分類

Hierarchical Multi-Label Classification of Online Vaccine Concerns ( http://arxiv.org/abs/2402.01783v1 )

ライセンス: Link先を確認
Chloe Qinyu Zhu, Rickard Stureborg, Bhuwan Dhingra(参考訳) ワクチンの懸念は絶えず進化する標的であり、新型コロナウイルスのパンデミックの間、急速に変化することができる。 ワクチンの懸念や誤情報の縦断的な傾向を特定することは、公衆衛生の取り組みを戦略的に資源や情報キャンペーンに割り当てることによって医療分野に知らせる可能性がある。 大規模言語モデル(llm)を用いたオンライン談話におけるワクチンの懸念を検出するタスクを,高価なトレーニングデータセットを必要とせずにゼロショット設定で検討する。 オンラインソースのリアルタイムモニタリングには大規模な推論が必要であるため、異なるプロンプト戦略のコスト-精度トレードオフを探索し、現在のアプリケーションにおけるシステム設計の選択を通知する具体的なテイクアウトを提供する。 異なるプロンプト戦略の分析により、複数の関心事の分類がllmを通過し、それぞれがワクチンの懸念に言及するかどうかというブールの質問からなることが判明した。 以上の結果から,GPT-4は,最近導入したVaxConcernsデータセットの専門家が提示した地上の真実アノテーションと比較して,クラウドワーカーの精度を著しく上回り,F1総合スコアは78.7%に達した。

Vaccine concerns are an ever-evolving target, and can shift quickly as seen during the COVID-19 pandemic. Identifying longitudinal trends in vaccine concerns and misinformation might inform the healthcare space by helping public health efforts strategically allocate resources or information campaigns. We explore the task of detecting vaccine concerns in online discourse using large language models (LLMs) in a zero-shot setting without the need for expensive training datasets. Since real-time monitoring of online sources requires large-scale inference, we explore cost-accuracy trade-offs of different prompting strategies and offer concrete takeaways that may inform choices in system designs for current applications. An analysis of different prompting strategies reveals that classifying the concerns over multiple passes through the LLM, each consisting a boolean question whether the text mentions a vaccine concern or not, works the best. Our results indicate that GPT-4 can strongly outperform crowdworker accuracy when compared to ground truth annotations provided by experts on the recently introduced VaxConcerns dataset, achieving an overall F1 score of 78.7%.
翻訳日:2024-02-07 02:05:23 公開日:2024-02-01
# 局所性の異なるニューラルネットワーク学習手法のベンチマーク

Benchmarking Spiking Neural Network Learning Methods with Varying Locality ( http://arxiv.org/abs/2402.01782v1 )

ライセンス: Link先を確認
Jiaqi Lin, Sen Lu, Malyaban Bal, Abhronil Sengupta(参考訳) より現実的な神経力学を提供するスパイキングニューラルネットワーク(SNN)は、いくつかの機械学習タスクにおいて、ニューラルネットワーク(ANN)に匹敵するパフォーマンスを達成することを示した。 情報は、エネルギー消費を大幅に削減するイベントベースのメカニズムで、SNN内のスパイクとして処理される。 しかし,スパイキング機構の非分化性のため,snsの訓練は困難である。 BPTT(Backproagation Through Time)のような従来の手法は、有効性を示しているが、計算とメモリのコストが増大し、生物学的には不可能である。 対照的に,近年の研究では,局所性の程度が異なる代替学習手法を提案し,分類タスクの成功を実証している。 本研究では,これらの手法が学習過程において類似点を共有し,生物学的妥当性と性能のトレードオフを示す。 さらに,SNNの暗黙的反復性について検討し,SNNに対する明示的再発の影響について検討した。 明示的な再帰重み付けがSNNの堅牢性を高めることを実験的に証明した。 また,勾配および非勾配に基づく逆攻撃における局所学習手法の性能について検討した。

Spiking Neural Networks (SNNs), providing more realistic neuronal dynamics, have shown to achieve performance comparable to Artificial Neural Networks (ANNs) in several machine learning tasks. Information is processed as spikes within SNNs in an event-based mechanism that significantly reduces energy consumption. However, training SNNs is challenging due to the non-differentiable nature of the spiking mechanism. Traditional approaches, such as Backpropagation Through Time (BPTT), have shown effectiveness but comes with additional computational and memory costs and are biologically implausible. In contrast, recent works propose alternative learning methods with varying degrees of locality, demonstrating success in classification tasks. In this work, we show that these methods share similarities during the training process, while they present a trade-off between biological plausibility and performance. Further, this research examines the implicitly recurrent nature of SNNs and investigates the influence of addition of explicit recurrence to SNNs. We experimentally prove that the addition of explicit recurrent weights enhances the robustness of SNNs. We also investigate the performance of local learning methods under gradient and non-gradient based adversarial attacks.
翻訳日:2024-02-07 02:05:03 公開日:2024-02-01
# ベンチマークがターゲットになるとき:大規模言語モデルリーダーボードの感度を明らかにする

When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards ( http://arxiv.org/abs/2402.01781v1 )

ライセンス: Link先を確認
Norah Alzahrani, Hisham Abdullah Alyahya, Yazeed Alnumay, Sultan Alrashed, Shaykhah Alsubaie, Yusef Almushaykeh, Faisal Mirza, Nouf Alotaibi, Nora Altwairesh, Areeb Alowisheq, M Saiful Bari, Haidar Khan(参考訳) ベンチマークランキングに基づくLarge Language Model (LLM) のリーダーボードは、モデル選択の実践者をガイドするために定期的に使用される。 多くの場合、公表されたリーダーボードのランキングは、(潜在的にコストがかかる)間違いであることを示している。 既存のリーダボードの下では、LLMの相対的なパフォーマンスは(多くの場合、)詳細に対して非常に敏感です。 提案手法では,選択順序や解答方法の変更など,人気の高い複数選択質問ベンチマーク(MMLUなど)に対して,最大8位までランクが変更されることが示されている。 ベンチマーク摂動の3つの幅広いカテゴリについて系統的な実験を行い,その発生源を同定することで,この現象を説明する。 分析の結果,ハイブリッドスコアリングによる回答選択の利点など,いくつかのベストプラクティスが得られた。 本研究は、単純なベンチマーク評価に依存する危険性を強調し、既存のベンチマークのより堅牢な評価手法の道筋を示す。

Large Language Model (LLM) leaderboards based on benchmark rankings are regularly used to guide practitioners in model selection. Often, the published leaderboard rankings are taken at face value - we show this is a (potentially costly) mistake. Under existing leaderboards, the relative performance of LLMs is highly sensitive to (often minute) details. We show that for popular multiple choice question benchmarks (e.g. MMLU) minor perturbations to the benchmark, such as changing the order of choices or the method of answer selection, result in changes in rankings up to 8 positions. We explain this phenomenon by conducting systematic experiments over three broad categories of benchmark perturbations and identifying the sources of this behavior. Our analysis results in several best-practice recommendations, including the advantage of a hybrid scoring method for answer selection. Our study highlights the dangers of relying on simple benchmark evaluations and charts the path for more robust evaluation schemes on the existing benchmarks.
翻訳日:2024-02-07 02:04:43 公開日:2024-02-01
# 確率的正規化によるプラグアンドプレイ画像復元

Plug-and-Play image restoration with Stochastic deNOising REgularization ( http://arxiv.org/abs/2402.01779v1 )

ライセンス: Link先を確認
Marien Renaud, Jean Prost, Arthur Leclaire, Nicolas Papadakis(参考訳) Plug-and-Playアルゴリズム(PnP)は、物理モデルとディープニューラルネットワークを組み合わせることで画像逆問題に対処する反復アルゴリズムのクラスである。 印象的な画像復元結果が得られたとしても、これらのアルゴリズムは、繰り返しに沿ってノイズが少なく、ノイズが少ない画像に対して、非標準的なデノイザの使用に依存しており、ディフュージョンモデル(DM)に基づく最近のアルゴリズムとは対照的である。 本稿では,ノイズの少ない画像に対してのみデノイザーを適用する確率的デノイジング正則化(snore)と呼ばれる新しいpnpフレームワークを提案する。 これは明示的な確率正則化に基づいており、不測の逆問題を解決する確率勾配降下アルゴリズムが導かれる。 このアルゴリズムとそのアニーリング拡張の収束解析を提供する。 実験により, スノーアは, 定量的にも質的にもデブラリングやインパインティングにおいて, 最先端の手法と競合することを証明した。

Plug-and-Play (PnP) algorithms are a class of iterative algorithms that address image inverse problems by combining a physical model and a deep neural network for regularization. Even if they produce impressive image restoration results, these algorithms rely on a non-standard use of a denoiser on images that are less and less noisy along the iterations, which contrasts with recent algorithms based on Diffusion Models (DM), where the denoiser is applied only on re-noised images. We propose a new PnP framework, called Stochastic deNOising REgularization (SNORE), which applies the denoiser only on images with noise of the adequate level. It is based on an explicit stochastic regularization, which leads to a stochastic gradient descent algorithm to solve ill-posed inverse problems. A convergence analysis of this algorithm and its annealing extension is provided. Experimentally, we prove that SNORE is competitive with respect to state-of-the-art methods on deblurring and inpainting tasks, both quantitatively and qualitatively.
翻訳日:2024-02-07 02:04:26 公開日:2024-02-01
# 音声認識入門

Introduction to speech recognition ( http://arxiv.org/abs/2402.01778v1 )

ライセンス: Link先を確認
Gabriel Dauphin(参考訳) この文書は、Matlabを用いた講義や実践実験を含むもので、非常に小さなデータベースの助けを借りて、実際に3つの単語(1、2、3)を正しく分類するシステムを実装している。 この性能を達成するために、音声モデリングの特異性、強力なコンピュータアルゴリズム(ダイナミックタイムワーピングとダイクトラのアルゴリズム)、機械学習(nearest neighbor)を用いる。 この文書では、いくつかの機械学習評価メトリクスも紹介している。

This document contains lectures and practical experimentations using Matlab and implementing a system which is actually correctly classifying three words (one, two and three) with the help of a very small database. To achieve this performance, it uses speech modeling specificities, powerful computer algorithms (dynamic time warping and Dijktra's algorithm) and machine learning (nearest neighbor). This document introduces also some machine learning evaluation metrics.
翻訳日:2024-02-07 02:04:06 公開日:2024-02-01
# GPT-4の心理学 : 適度に不安で、少し男性的で、正直で、謙虚な

On the Psychology of GPT-4: Moderately anxious, slightly masculine, honest, and humble ( http://arxiv.org/abs/2402.01777v1 )

ライセンス: Link先を確認
Adrita Barua, Gary Brase, Ke Dong, Pascal Hitzler, Eugene Vasserman(参考訳) GPT-4を多数の厳格な心理測定試験に服用し,結果を解析した。 平均的な人間と比較して、GPT-4はより誠実で謙虚で、マカベリアン主義やナルシシズムは少ない傾向にある。 時には両性愛を呈し、男性らしさにわずかに傾き、中程度の不安を呈するが、抑うつ的ではない(必ずしもそうではない)。 人間の平均的な数値リテラシーを示し、人間の平均以上の認知的反射能力を持つ。

We subject GPT-4 to a number of rigorous psychometric tests and analyze the results. We find that, compared to the average human, GPT-4 tends to show more honesty and humility, and less machiavellianism and narcissism. It sometimes exhibits ambivalent sexism, leans slightly toward masculinity, is moderately anxious but mostly not depressive (but not always). It shows human-average numerical literacy and has cognitive reflection abilities that are above human average for verbal tasks.
翻訳日:2024-02-07 02:03:58 公開日:2024-02-01
# 核におけるカシミール効果

The Casimir effect at the nucleus ( http://arxiv.org/abs/2402.01776v1 )

ライセンス: Link先を確認
Frank Kowol(参考訳) 本報告では, 近核環境におけるカシミール効果が電子, 特にK殻に与える影響について検討する。 実験的に測定された内部電子の結合エネルギー、特に重元素に対する結合エネルギーはシュレーディンガー方程式やディラック方程式の理論解と非常に限定的な程度しか一致しないことが長年知られている。 本報告は、カシミール効果が最内側の電子に与える影響を調べることにより、核近傍の電子ポテンシャルの修正を示す。 このアプローチにより、計算された結合エネルギーは、特に重元素の分光から得られる文献値とよく一致することが示される。 さらに、最も内側の電子は、核表面の性質、特に球面形状からの偏差、例えば多極子モーメントや、特に強い相互作用の範囲によって、以前考えられていたよりも強い影響を受けている。 この効果は、核と電子の間のスピン相互作用によって決定される量子力学的四重極エネルギー(Casimir 1936)と混同されないが、この報告で議論される効果はs電子から核への距離支配的な効果である。 これは、期待よりもはるかに正確に結合エネルギーに対する核構造と同位体効果を調査し、例えば分光によって、それぞれの核構造と幾何学に関する新たな洞察を得る可能性を提供する。 同時に、このアプローチは、核に近い電子の確率が、以前の原子モデルで想定されていたよりもかなり高いことを示している。 これにより電子捕獲の遷移確率が増大し、電子捕獲崩壊の理論的半減期を計算するための精度が向上する。

In this report, the impact of the Casimir effect in the near-nuclear environment on electrons, in particular of the K-shell, is investigated. It has long been known that the experimentally measured binding energies of the inner electrons, especially for heavy elements, agree only to a very limited extent with the theoretical solutions of the Schroedinger and Dirac equations. This report presents a modification for the potential of electrons near the nucleus by investigating the impact of the Casimir effect on the innermost electrons. It can be shown that with this approach the calculated binding energies agree much better with the literature values from spectroscopy, especially for heavy elements. In addition, the innermost electrons are apparently influenced much more strongly than previously assumed by the nature of the nuclear surface, in particular the deviation from the spherical geometry, e.g. the multipole moments and not least the range of the strong interaction. This effect is not to be confused with the quantum-mechanical quadrupole energy (Casimir 1936), which is determined by spin interactions between nucleus and electron, but the effect discussed in this report is a distance dominated effect of the s-electrons to the nucleus. It offers the possibility of investigating the nucleus structure and isotope effects on the binding energies much more precisely than expected, e.g. by spectroscopy, and thus gaining new insights into the respective nuclear structure and geometry. At the same time, this approach shows that the probability of the electrons staying close to the nucleus is apparently significantly higher than assumed in previous atomic models. This may also increase the transition probabilities of electron capture, and thus the model enables a higher accuracy for the calculation of the theoretical half lifetimes for electron capture decay.
翻訳日:2024-02-07 02:03:48 公開日:2024-02-01
# b-ラーニング教育用質問票の設計とコンセンサス内容の妥当性:2-Tuple Fuzzy Linguistic Delphi based Decision Support Tool

Design and consensus content validity of the questionnaire for b-learning education: A 2-Tuple Fuzzy Linguistic Delphi based Decision Support Tool ( http://arxiv.org/abs/2402.01775v1 )

ライセンス: Link先を確認
Rosana Montes, Cristina Zuheros, Jeovani M. Morales, Noe Zerme\~no, Jer\'onimo Duran, Francsico Herrera(参考訳) 古典的なdelphiおよびファジィdelphi法は、アンケートなどのデータ収集ツールの内容妥当性をテストするために使用される。 ファジィ・デルフィは、ファジィ数を用いて意見の曖昧さを減らす言語の観点から裁判官が発行した意見を取る。 本研究では,言語用語のファジィ多元的意味論を用いて,異なる専門知識を判断するシナリオに対処するために,2-タプルファジィ言語デルファイ法という拡張法を提案し,2-タプル言語値で表される中間結果と最終結果を得る。 本提案の鍵となる考え方は,各項目の妥当性を意思決定問題として定義し,その部分の評価によって全アンケートを検証することである。 専門家の意見を総合すると,各項目のコンセンサス度,一貫性度,言語スコアを測定し,肯定的あるいは否定的にその楽器の品質に影響する項目を検出する。 本稿では,b-learningの教育経験をコンセンサスアンケートで評価する必要性を考え,それを解決するための意思決定モデルを提案する。 さらに、GPL v3ライセンス下でオンラインツールを開発することで、この合意に達する問題に貢献する。 ソフトウェアは各イテレーションの集合的評価を視覚化し、アンケートのどの部分が合意されたソリューションに到達すべきかを判断する。

Classic Delphi and Fuzzy Delphi methods are used to test content validity of data collection tools such as questionnaires. Fuzzy Delphi takes the opinion issued by judges from a linguistic perspective reducing ambiguity in opinions by using fuzzy numbers. We propose an extension named 2-Tuple Fuzzy Linguistic Delphi method to deal with scenarios in which judges show different expertise degrees by using fuzzy multigranular semantics of the linguistic terms and to obtain intermediate and final results expressed by 2-tuple linguistic values. The key idea of our proposal is to validate the full questionnaire by means of the evaluation of its parts, defining the validity of each item as a Decision Making problem. Taking the opinion of experts, we measure the degree of consensus, the degree of consistency, and the linguistic score of each item, in order to detect those items that affect, positively or negatively, the quality of the instrument. Considering the real need to evaluate a b-learning educational experience with a consensual questionnaire, we present a Decision Making model for questionnaire validation that solves it. Additionally, we contribute to this consensus reaching problem by developing an online tool under GPL v3 license. The software visualizes the collective valuations for each iteration and assists to determine which parts of the questionnaire should be modified to reach a consensual solution.
翻訳日:2024-02-07 02:03:22 公開日:2024-02-01
# V型原子系におけるサブ波長2次元原子局在のための単一ピークに噴出するデュアルピーク

Dual peaks evoluting into single-peak for sub-wavelength 2-D atom localization in a V-type atomic system ( http://arxiv.org/abs/2402.01774v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Xin Li and Ping Yang(参考訳) v型原子系の原子局在は、プローブと2つの直交定在波場に関連するデチューニングと、自発的に生成されたコヒーレンス(sgc)によって議論される。 2次元(2-D)平面の半波長領域内では、プローブ二重吸収ピークで表される原子の局在は、デチューニングをチューニングする際に達成される。 しかし、二重ピークはSGCが発生すると単一ピークに変化する。 単一ピーク2次元局在は, 柔軟な操作パラメータによって得られる原子局在の利点を示した。

The atom localization of a V-type atomic system is discussed by the detunings associated with the probe and the two orthogonal standing-wave fields, and by the spontaneously generated coherence (SGC). Within the half-wavelength domain in the 2-dimensional(2-D) plane, the atom localization depicted by the probe dual absorption peaks is achieved when the detunings are tuned. However, the dual peaks change into single-peak when the SGC arises. The single-peak 2-D localization demonstrated the advantage for atom localization achieved by the flexible manipulating parameters in our scheme.
翻訳日:2024-02-07 02:02:56 公開日:2024-02-01
# Schr\\odinger方程式から合成器を作成する

Creating a Synthesizer from Schr\"odinger's Equation ( http://arxiv.org/abs/2402.01773v1 )

ライセンス: Link先を確認
Arthur Freye, Jannis M\"uller(参考訳) 我々のプロジェクトは、音波として解釈することで、シュリンガー方程式(量子現象の基本モデル)の知覚に対する代替的なアプローチを提供する。 我々は、時間とともに進化する量子力学的状態をシミュレートするシンセサイザープラグインを構築している。 このように、このツールは、動いたり、生きていると感じるユニークな音を生成できる。 これらは、物理学の知識のないプロの音楽制作に使用でき、同時に量子力学の章に関する洞察を与えることができる。 目的は、まず主題の直観を発達させることによって複雑な理論に入るための閾値を下げることであるが、楽器として純粋に使用することもできる。 ユーザは、基礎となる物理学についてもっと学ぶことを奨励されるが、強制はしない。 シミュレーションパラメータはリアルタイムで調整でき、直感的な実験が可能になる。 近似計算にもかかわらず、量子トンネルのような実際の物理的効果は音響的および視覚的に観測することができる。

Our project offers an alternative approach to the sensory perception of the Schr\"odinger equation (an elementary model of quantum phenomena) by interpreting it as a sound wave. We are building a synthesizer plugin that simulates a quantum mechanical state that evolves over time. Thus, our tool allows the creation of unique sounds that are in motion and feel alive. These can be used in professional music production without any knowledge of physics, while at the same time providing insight into a chapter of quantum mechanics. The goal is to lower the threshold for entering complex theory by first developing an intuition for the subject; but the tool can also be used purely as a musical instrument. The user is encouraged, but not forced, to learn more about the underlying physics. Simulation parameters are adjustable in real-time, allowing intuitive experimentation. Despite the approximate calculations, real physical effects such as quantum tunneling can be observed acoustically and visually.
翻訳日:2024-02-07 02:02:46 公開日:2024-02-01
# クラス条件生成のためのデータセット構造を活用した階層分岐拡散モデル

Hierarchically branched diffusion models leverage dataset structure for class-conditional generation ( http://arxiv.org/abs/2212.10777v4 )

ライセンス: Link先を確認
Alex M. Tseng, Max Shen, Tommaso Biancalani, Gabriele Scalia(参考訳) クラスラベル付きデータセット、特に科学領域で一般的なデータセットは内部構造を持つが、現在のクラス条件拡散モデルはこれらの関係を無視し、フラットな方法で全てのクラスに暗黙的に拡散する。 この構造を活用するために,クラス条件生成のための新しいフレームワークとして階層的分岐拡散モデルを提案する。 分岐拡散モデルは従来のモデルと同じ拡散過程に依存するが、階層の各分岐に対して個別に逆拡散を学ぶ。 本稿では,現在最先端のクラス条件拡散法に対する分岐拡散モデルの利点として,連続学習環境における新しいクラスの拡張,アナログベース条件生成のより洗練された形式(変換),生成プロセスへの新しい解釈可能性などを挙げる。 いくつかのベンチマークと大規模実世界の科学データセットで分岐拡散モデルを広範囲に評価した。

Class-labeled datasets, particularly those common in scientific domains, are rife with internal structure, yet current class-conditional diffusion models ignore these relationships and implicitly diffuse on all classes in a flat fashion. To leverage this structure, we propose hierarchically branched diffusion models as a novel framework for class-conditional generation. Branched diffusion models rely on the same diffusion process as traditional models, but learn reverse diffusion separately for each branch of a hierarchy. We highlight several advantages of branched diffusion models over the current state-of-the-art methods for class-conditional diffusion, including extension to novel classes in a continual-learning setting, a more sophisticated form of analogy-based conditional generation (i.e. transmutation), and a novel interpretability into the generation process. We extensively evaluate branched diffusion models on several benchmark and large real-world scientific datasets spanning many data modalities.
翻訳日:2024-02-05 20:53:52 公開日:2024-02-01
# モチーフ誘導型時系列対実説明

Motif-guided Time Series Counterfactual Explanations ( http://arxiv.org/abs/2211.04411v3 )

ライセンス: Link先を確認
Peiyu Li, Soukaina Filali Boubrahimi, Shah Muhammad Hamdi(参考訳) 解釈可能な機械学習手法の必要性が高まる中、モデル決定に影響を及ぼす要因の多様な説明を提供するために、人間の努力が高まる必要がある。 AIベースのシステムの信頼性と透明性を改善するために、説明可能な人工知能(XAI)分野が出現した。 XAIパラダイムは2つの主要なカテゴリに分かれている。 特徴属性法は、モデル決定の背後にある理由を説明することに基づくが、反実的説明法は、異なる決定をもたらす最小の入力変化を発見する。 本稿では,時系列モデルにおける信頼と透明性の構築を目的として,モチーフを用いて反事実的説明を生成する。 本稿では,意思決定プロセスにおける解釈情報の提供に重要なモチーフをフル活用した,直感的な反事実説明を生成する新しいモデルMG-CFを提案する。 我々の知る限りでは、これは反実的な説明生成を導くモチーフを活用する最初の試みである。 UCRリポジトリから5つの実世界の時系列データセットを用いてモデルを検証した。 実験結果から,mg-cfは,すべての望ましい反事実的説明特性と,他の競合する最先端のベースラインとのバランスにおいて優れていることが示された。

With the rising need of interpretable machine learning methods, there is a necessity for a rise in human effort to provide diverse explanations of the influencing factors of the model decisions. To improve the trust and transparency of AI-based systems, the EXplainable Artificial Intelligence (XAI) field has emerged. The XAI paradigm is bifurcated into two main categories: feature attribution and counterfactual explanation methods. While feature attribution methods are based on explaining the reason behind a model decision, counterfactual explanation methods discover the smallest input changes that will result in a different decision. In this paper, we aim at building trust and transparency in time series models by using motifs to generate counterfactual explanations. We propose Motif-Guided Counterfactual Explanation (MG-CF), a novel model that generates intuitive post-hoc counterfactual explanations that make full use of important motifs to provide interpretive information in decision-making processes. To the best of our knowledge, this is the first effort that leverages motifs to guide the counterfactual explanation generation. We validated our model using five real-world time-series datasets from the UCR repository. Our experimental results show the superiority of MG-CF in balancing all the desirable counterfactual explanations properties in comparison with other competing state-of-the-art baselines.
翻訳日:2024-02-05 20:52:56 公開日:2024-02-01
# 記憶パターンを反映する情報尺度

Measures of Information Reflect Memorization Patterns ( http://arxiv.org/abs/2210.09404v4 )

ライセンス: Link先を確認
Rachit Bansal, Danish Pruthi, Yonatan Belinkov(参考訳) ニューラルネットワークは、ターゲットラベルと共存するスプリアスアーティファクト(あるいはショートカット)を活用し、ヒューリスティックな記憶を示すことで知られている。 一方で、トレーニングサンプルを記憶するネットワークが示されており、サンプルレベルの記憶化が行われている。 このような記憶化は、トレーニング分布を超えたネットワークの一般化を妨げる。 このような記憶の検出は困難であり、しばしば研究者が調整されたテストセットをキュレートする必要がある。 この研究では、異なるニューロンの活性化パターンの多様性がモデル一般化と記憶の反映であると仮定し、その後に示す。 我々は、情報理論的な測定によって神経活性化の多様性を定量化し、いくつかの自然言語や視覚タスクにまたがる実験における仮説を支持する。 重要な点として,情報伝達機構が記憶の2つの形態を指し示すことを見出した。 最後に,本研究のモデル選択問題に対する有用性を示す。 この作業に関連するコードやその他のリソースは、https://rachitbansal.github.io/information-measuresで入手できる。

Neural networks are known to exploit spurious artifacts (or shortcuts) that co-occur with a target label, exhibiting heuristic memorization. On the other hand, networks have been shown to memorize training examples, resulting in example-level memorization. These kinds of memorization impede generalization of networks beyond their training distributions. Detecting such memorization could be challenging, often requiring researchers to curate tailored test sets. In this work, we hypothesize -- and subsequently show -- that the diversity in the activation patterns of different neurons is reflective of model generalization and memorization. We quantify the diversity in the neural activations through information-theoretic measures and find support for our hypothesis on experiments spanning several natural language and vision tasks. Importantly, we discover that information organization points to the two forms of memorization, even for neural activations computed on unlabelled in-distribution examples. Lastly, we demonstrate the utility of our findings for the problem of model selection. The associated code and other resources for this work are available at https://rachitbansal.github.io/information-measures.
翻訳日:2024-02-05 20:51:27 公開日:2024-02-01
# 双曲多様体上の gplvm を介して連続領域に動きの分類法をもたらす

Bringing motion taxonomies to continuous domains via GPLVM on hyperbolic manifolds ( http://arxiv.org/abs/2210.01672v3 )

ライセンス: Link先を確認
No\'emie Jaquier, Leonel Rozo, Miguel Gonz\'alez-Duque, Viacheslav Borovitskiy, Tamim Asfour(参考訳) 人間の運動分類は、人間の行動と環境との相互作用を分類するハイレベルな階層的抽象化として機能する。 これらは、把握、操作スキル、全身サポートポーズの分析に有用であることが証明されている。 階層構造や下位カテゴリの設計に多大な努力を払ったにもかかわらず、その使用は限られている。 これは分類学の離散的な階層構造と、そのカテゴリに関連する高次元の不均質なデータの間のギャップを埋める計算モデルがないことに起因しているかもしれない。 この問題を克服するために,双曲組込みによる分類データをモデル化し,関連する階層構造を捉えることを提案する。 我々は, 潜在空間上のグラフに基づく事前化と距離保存バック制約を通じて分類構造を組み込んだ新しいガウス過程双曲的潜在変数モデルを定式化した。 我々は3つの異なるヒトの運動分類学のモデルの有効性を検証し、元のグラフ構造を忠実に保存する双曲埋め込みを学習する。 本モデルでは,既存の分類カテゴリーや新分類カテゴリーの未確認データを適切にエンコードし,埋め込み間の現実的な軌跡を生成できることを示す。

Human motion taxonomies serve as high-level hierarchical abstractions that classify how humans move and interact with their environment. They have proven useful to analyse grasps, manipulation skills, and whole-body support poses. Despite substantial efforts devoted to design their hierarchy and underlying categories, their use remains limited. This may be attributed to the lack of computational models that fill the gap between the discrete hierarchical structure of the taxonomy and the high-dimensional heterogeneous data associated to its categories. To overcome this problem, we propose to model taxonomy data via hyperbolic embeddings that capture the associated hierarchical structure. We achieve this by formulating a novel Gaussian process hyperbolic latent variable model that incorporates the taxonomy structure through graph-based priors on the latent space and distance-preserving back constraints. We validate our model on three different human motion taxonomies to learn hyperbolic embeddings that faithfully preserve the original graph structure. We show that our model properly encodes unseen data from existing or new taxonomy categories, can be used to generate realistic trajectories between the embeddings, and outperforms its Euclidean and VAE-based counterparts.
翻訳日:2024-02-05 20:51:09 公開日:2024-02-01
# 身体的な知性のための人工視覚野を 探している場所は?

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence? ( http://arxiv.org/abs/2303.18240v2 )

ライセンス: Link先を確認
Arjun Majumdar and Karmesh Yadav and Sergio Arnaud and Yecheng Jason Ma and Claire Chen and Sneha Silwal and Aryan Jain and Vincent-Pierre Berges and Pieter Abbeel and Jitendra Malik and Dhruv Batra and Yixin Lin and Oleksandr Maksymets and Aravind Rajeswaran and Franziska Meier(参考訳) Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を示す。 まずcortexbenchをキュレートし、locomotion、navigation、dexterous、mobile manipulationの17のタスクからなる。 次に、既存のpvrを体系的に評価し、誰も普遍的に支配していないことを発見する。 データサイズと多様性の事前学習の効果を調べるために、7つの異なるソース(4.3M画像以上)から4000時間以上のエゴセントリックなビデオとImageNetを組み合わせて、Masked Auto-Encoding (MAE) を用いて異なるサイズの視覚変換器をトレーニングする。 以前の作業からの推測とは対照的に、データセットのサイズと多様性のスケーリングは、パフォーマンスを普遍的に改善しない(平均ではそうする)。 当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。 次に、vc-1のタスクやドメイン固有の適応が実質的な利益をもたらし、vc-1(適応)がcortexbenchのベンチマークで最もよく知られた結果よりも競争力や優れたパフォーマンスを達成していることを示す。 最後に、vc-1とvc-1(適応型)が既存の最強のpvrを上回る実世界のハードウェア実験を行う。 総じて,本論文では,新たな手法として厳密な体系的評価,pvrに関する幅広い知見(場合によっては,前作業で狭義のドメインで作成したものを反論する),研究コミュニティの利益のためにオープンソースコードやモデル(トレーニングに1万時間以上を要する)を提示した。

We present the largest and most comprehensive empirical study of pre-trained visual representations (PVRs) or visual 'foundation models' for Embodied AI. First, we curate CortexBench, consisting of 17 different tasks spanning locomotion, navigation, dexterous, and mobile manipulation. Next, we systematically evaluate existing PVRs and find that none are universally dominant. To study the effect of pre-training data size and diversity, we combine over 4,000 hours of egocentric videos from 7 different sources (over 4.3M images) and ImageNet to train different-sized vision transformers using Masked Auto-Encoding (MAE) on slices of this data. Contrary to inferences from prior work, we find that scaling dataset size and diversity does not improve performance universally (but does so on average). Our largest model, named VC-1, outperforms all prior PVRs on average but does not universally dominate either. Next, we show that task- or domain-specific adaptation of VC-1 leads to substantial gains, with VC-1 (adapted) achieving competitive or superior performance than the best known results on all of the benchmarks in CortexBench. Finally, we present real-world hardware experiments, in which VC-1 and VC-1 (adapted) outperform the strongest pre-existing PVR. Overall, this paper presents no new techniques but a rigorous systematic evaluation, a broad set of findings about PVRs (that in some cases, refute those made in narrow domains in prior work), and open-sourced code and models (that required over 10,000 GPU-hours to train) for the benefit of the research community.
翻訳日:2024-02-05 20:43:44 公開日:2024-02-01
# CurveCloudNet: 1D構造によるポイントクラウドの処理

CurveCloudNet: Processing Point Clouds with 1D Structure ( http://arxiv.org/abs/2303.12050v2 )

ライセンス: Link先を確認
Colton Stearns and Davis Rempe and Jiateng Liu and Alex Fu and Sebastien Mascha and Jeong Joon Park and Despoina Paschalidou and Leonidas J. Guibas(参考訳) 現代のLiDARのような深度センサーは、レーザービームを現場に流し込み、1Dカーブのような構造を持つ点雲を発生させる。 本研究では,これらのセンサに固有の曲線のような構造を生かした,CurveCloudNetという新たなポイントクラウド処理方式とバックボーンを導入する。 既存のバックボーンはリッチな1Dトラバーサルパターンを捨て、ジェネリックな3D操作に依存するが、CurveCloudNetは、ポイントクラウドをポリライン(「カーブクラウド」と呼ばれる)の集合としてパラメータ化し、ポイントに局所的なサーフェスアウェアを配置する。 曲線に沿って推論することで、curvecloudnetは軽量な曲線認識プリエントをキャプチャし、様々な3d環境で効率的に正確に推論する。 異なる3次元サイズと構造を示す複数の合成および実データセット上でCurveCloudNetを評価する。 CurveCloudNetは、様々なセグメンテーション設定において、ポイントベースとスパースボクセルの両方のバックボーンよりも優れており、特に、ポイントベースよりも大きなシーンにスケールし、スパースボクセルよりもシングルオブジェクトのパフォーマンスが向上している。 全体として、curvecloudnetは効率的で正確なバックボーンであり、過去の作品よりも幅広い3d環境を処理できる。

Modern depth sensors such as LiDAR operate by sweeping laser-beams across the scene, resulting in a point cloud with notable 1D curve-like structures. In this work, we introduce a new point cloud processing scheme and backbone, called CurveCloudNet, which takes advantage of the curve-like structure inherent to these sensors. While existing backbones discard the rich 1D traversal patterns and rely on generic 3D operations, CurveCloudNet parameterizes the point cloud as a collection of polylines (dubbed a "curve cloud"), establishing a local surface-aware ordering on the points. By reasoning along curves, CurveCloudNet captures lightweight curve-aware priors to efficiently and accurately reason in several diverse 3D environments. We evaluate CurveCloudNet on multiple synthetic and real datasets that exhibit distinct 3D size and structure. We demonstrate that CurveCloudNet outperforms both point-based and sparse-voxel backbones in various segmentation settings, notably scaling to large scenes better than point-based alternatives while exhibiting improved single-object performance over sparse-voxel alternatives. In all, CurveCloudNet is an efficient and accurate backbone that can handle a larger variety of 3D environments than past works.
翻訳日:2024-02-05 20:42:28 公開日:2024-02-01
# 量子性能ベンチマークとしての最適化応用

Optimization Applications as Quantum Performance Benchmarks ( http://arxiv.org/abs/2302.02278v2 )

ライセンス: Link先を確認
Thomas Lubinski, Carleton Coffrin, Catherine McGeoch, Pratik Sathe, Joshua Apanavicius, David E. Bernal Neira(参考訳) コンビネーション最適化は、今後数年で量子計算の主要なユースケースの1つになると期待されている。 量子近似最適化アルゴリズム(qaoa)と量子アニーリング(qa)は、現在の最先端ソリューションよりも重要な実行時のパフォーマンス上の利点を示す可能性がある。 従来の最適化アルゴリズムの特徴付け手法に着想を得て,ゲートモデル量子デバイスと量子アニーリングデバイスを用いて,Max-Cut問題の解法品質を解析した。 これは、実行時のパフォーマンスと反復的なハイブリッド量子古典的アプリケーションにおける解の品質の間のトレードオフを評価するために設計された量子コンピュータのための高度なベンチマークフレームワークの開発を導くために使用される。 このフレームワークは、様々な問題サイズの時間関数としてパフォーマンスの進行を示す説得力のある視覚化を通じてパフォーマンスプロファイルを生成し、ベンチマークアプローチで明らかになったアルゴリズムの限界を例証する。 本研究では,様々な量子シミュレータと量子ハードウェアシステム上での実行結果を用いて,量子コンピューティングシステムのスループットに影響を与える要因について考察する。

Combinatorial optimization is anticipated to be one of the primary use cases for quantum computation in the coming years. The Quantum Approximate Optimization Algorithm (QAOA) and Quantum Annealing (QA) can potentially demonstrate significant run-time performance benefits over current state-of-the-art solutions. Inspired by existing methods to characterize classical optimization algorithms, we analyze the solution quality obtained by solving Max-Cut problems using gate-model quantum devices and a quantum annealing device. This is used to guide the development of an advanced benchmarking framework for quantum computers designed to evaluate the trade-off between run-time execution performance and the solution quality for iterative hybrid quantum-classical applications. The framework generates performance profiles through compelling visualizations that show performance progression as a function of time for various problem sizes and illustrates algorithm limitations uncovered by the benchmarking approach. As an illustration, we explore the factors that influence quantum computing system throughput, using results obtained through execution on various quantum simulators and quantum hardware systems.
翻訳日:2024-02-05 20:38:36 公開日:2024-02-01
# BertRLFuzzer: BERTと強化学習ベースのファザ

BertRLFuzzer: A BERT and Reinforcement Learning Based Fuzzer ( http://arxiv.org/abs/2305.12534v5 )

ライセンス: Link先を確認
Piyush Jha, Joseph Scott, Jaya Sriram Ganeshna, Mudit Singh, Vijay Ganesh(参考訳) 本稿では,BERT と Reinforcement Learning (RL) ベースのファジィザである BertRLFuzzer を提案する。 bertrlfuzzerは次のように機能する: シード入力のセットが与えられたとき、fuzzerは文法的および攻撃的変異操作を実行し、候補攻撃ベクターを生成する。 BertRLFuzzerの重要な洞察は、ファザーを誘導するエージェントとしてBERTモデルを用いたRLを使用して、文法順守と攻撃誘発突然変異演算子を効率的に学習することである。 BertRLFuzzerの有効性を確立するために、合計で13個のブラックボックスとホワイトボックスのファザを、9つの犠牲者ウェブサイトと16KLOCのベンチマークで比較した。 攻撃開始までの時間(54%未満)、新たに発見された17の新しい脆弱性、攻撃速度(攻撃ベクトルが4.4%増加した)といった点で、最も近い競合ツールと比較して大きな改善が見られた。

We present a novel tool BertRLFuzzer, a BERT and Reinforcement Learning (RL) based fuzzer aimed at finding security vulnerabilities for Web applications. BertRLFuzzer works as follows: given a set of seed inputs, the fuzzer performs grammar-adhering and attack-provoking mutation operations on them to generate candidate attack vectors. The key insight of BertRLFuzzer is the use of RL with a BERT model as an agent to guide the fuzzer to efficiently learn grammar-adhering and attack-provoking mutation operators. In order to establish the efficacy of BertRLFuzzer we compare it against a total of 13 black box and white box fuzzers over a benchmark of 9 victim websites with over 16K LOC. We observed a significant improvement relative to the nearest competing tool in terms of time to first attack (54% less), new vulnerabilities found (17 new vulnerabilities), and attack rate (4.4% more attack vectors generated).
翻訳日:2024-02-05 20:28:55 公開日:2024-02-01
# 検証可能性の探索:AIが修正した意思決定における補足的性能の低い説明

In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making ( http://arxiv.org/abs/2305.07722v4 )

ライセンス: Link先を確認
Raymond Fok, Daniel S. Weld(参考訳) AIが推奨する意思決定に関する現在の文献 - 人間の意思決定を助言する説明可能なAIシステムを含む - は、一連の不決定かつ不確定な結果を提示している。 そこで本研究では,ai説明の失敗頻度を,適切な信頼度と相補的な意思決定性能に反映させる単純な理論を提案する。 説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。 以前の研究では、多くの意思決定コンテキストにおいて、AIの説明はそのような検証を促進するものではない。 さらに、ほとんどのタスクは、説明方法にかかわらず、基本的には簡単な検証を許さず、あらゆる種類の説明の潜在的な利益を制限する。 また、補完性能の目的と適切な依存度を比較し、後者を結果段階と戦略段階の信頼度の概念に分解する。

The current literature on AI-advised decision making -- involving explainable AI systems advising human decision makers -- presents a series of inconclusive and confounding results. To synthesize these findings, we propose a simple theory that elucidates the frequent failure of AI explanations to engender appropriate reliance and complementary decision making performance. We argue explanations are only useful to the extent that they allow a human decision maker to verify the correctness of an AI's prediction, in contrast to other desiderata, e.g., interpretability or spelling out the AI's reasoning process. Prior studies find in many decision making contexts AI explanations do not facilitate such verification. Moreover, most tasks fundamentally do not allow easy verification, regardless of explanation method, limiting the potential benefit of any type of explanation. We also compare the objective of complementary performance with that of appropriate reliance, decomposing the latter into the notions of outcome-graded and strategy-graded reliance.
翻訳日:2024-02-05 20:27:55 公開日:2024-02-01
# ChatGPTの動作記憶能力に関する実証的研究

Working Memory Capacity of ChatGPT: An Empirical Study ( http://arxiv.org/abs/2305.03731v4 )

ライセンス: Link先を確認
Dongyu Gong, Xingchen Wan, Dingmin Wang(参考訳) ワーキングメモリは、人間の知性と人工知能の両方において重要な側面であり、情報の一時記憶と操作のためのワークスペースとして機能する。 本稿では,openai が開発した大規模言語モデル chatgpt の作業記憶能力について,様々な条件下での言語的・空間的 n-back タスクにおける性能を調べることにより体系的に評価する。 実験の結果,ChatGPTの動作メモリ容量は人間と著しく類似していることが判明した。 さらに,chatgptの性能に対する異なる指導戦略の影響を調査し,キャパシティ制限の基本パターンが持続することを確認した。 実験結果から,n-backタスクは,大規模言語モデルのワーキングメモリ容量をベンチマークするツールとして機能し,AIワーキングメモリの強化を目的とした今後の取り組みを示す可能性を示唆する。

Working memory is a critical aspect of both human intelligence and artificial intelligence, serving as a workspace for the temporary storage and manipulation of information. In this paper, we systematically assess the working memory capacity of ChatGPT, a large language model developed by OpenAI, by examining its performance in verbal and spatial n-back tasks under various conditions. Our experiments reveal that ChatGPT has a working memory capacity limit strikingly similar to that of humans. Furthermore, we investigate the impact of different instruction strategies on ChatGPT's performance and observe that the fundamental patterns of a capacity limit persist. From our empirical findings, we propose that n-back tasks may serve as tools for benchmarking the working memory capacity of large language models and hold potential for informing future efforts aimed at enhancing AI working memory.
翻訳日:2024-02-05 20:27:38 公開日:2024-02-01
# ロボットが釣りに行く: 視覚誘導型自律型水中ロボットによるサンゴ礁の高速高分解能生物ホットスポットマッピング

Robot Goes Fishing: Rapid, High-Resolution Biological Hotspot Mapping in Coral Reefs with Vision-Guided Autonomous Underwater Vehicles ( http://arxiv.org/abs/2305.02330v3 )

ライセンス: Link先を確認
Daniel Yang, Levi Cai, Stewart Jamieson, Yogesh Girdhar(参考訳) サンゴ礁は変化の早い複雑な生態系であり、監視や研究に不可欠である。 生物学的ホットスポット検出は、サンゴ礁の管理者が監視および介入タスクのために限られた資源を優先するのに役立つ。 ここでは、自律型水中車両(AUV)とカメラ、および視覚検出器と光度計を組み合わせて、これらのホットスポットをマッピングし識別する。 このアプローチは、速いフィードバックサイクルで高い空間分解能情報を提供できる。 我々の知る限り、私たちはサンゴ礁の地形と協調して、AUVを用いて視覚的に観察され、微細な生体ホットスポットマップを収集する最初の試みの1つを提示する。 我々のホットスポットマップは、サンゴ礁の生物多様性と豊富性の確立されたプロキシ指標である粘性度と相関し、3D再構成の視覚検査と相関する。 また,大規模なデータセット上で事前学習されたこれらの視覚検出器を用いて,新たなサンゴ礁に適用する場合に,このアプローチをスケールアップする問題について検討する。

Coral reefs are fast-changing and complex ecosystems that are crucial to monitor and study. Biological hotspot detection can help coral reef managers prioritize limited resources for monitoring and intervention tasks. Here, we explore the use of autonomous underwater vehicles (AUVs) with cameras, coupled with visual detectors and photogrammetry, to map and identify these hotspots. This approach can provide high spatial resolution information in fast feedback cycles. To the best of our knowledge, we present one of the first attempts at using an AUV to gather visually-observed, fine-grain biological hotspot maps in concert with topography of a coral reefs. Our hotspot maps correlate with rugosity, an established proxy metric for coral reef biodiversity and abundance, as well as with our visual inspections of the 3D reconstruction. We also investigate issues of scaling this approach when applied to new reefs by using these visual detectors pre-trained on large public datasets.
翻訳日:2024-02-05 20:27:09 公開日:2024-02-01
# コントラスト学習によるマルチエージェントコミュニケーションの学習

Learning Multi-Agent Communication with Contrastive Learning ( http://arxiv.org/abs/2307.01403v3 )

ライセンス: Link先を確認
Yat Long Lo, Biswa Sengupta, Jakob Foerster, Michael Noukhovitch(参考訳) コミュニケーションはマルチエージェントRLにおけるコーディネーションの強力なツールである。 しかし、効果的な共通言語の導入は、特に分散環境では難しい課題である。 本稿では,エージェント間で送信されるコミュニケーションメッセージが,環境状態の異なる不完全なビューと見なされる,別の視点を提案する。 受信したメッセージ間の関係を調べることにより,与えられた軌道上のメッセージ間の相互情報を最大化するために,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。 通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。 定性的メトリクスと表現探索を用いて,本手法がより対称な通信を誘導し,環境からグローバルな状態情報を取得することを示す。 全体として、コントラスト学習の力と、効果的なコミュニケーションのためのエンコーディングとしてメッセージを活用することの重要性を示す。

Communication is a powerful tool for coordination in multi-agent RL. But inducing an effective, common language is a difficult challenge, particularly in the decentralized setting. In this work, we introduce an alternative perspective where communicative messages sent between agents are considered as different incomplete views of the environment state. By examining the relationship between messages sent and received, we propose to learn to communicate using contrastive learning to maximize the mutual information between messages of a given trajectory. In communication-essential environments, our method outperforms previous work in both performance and learning speed. Using qualitative metrics and representation probing, we show that our method induces more symmetric communication and captures global state information from the environment. Overall, we show the power of contrastive learning and the importance of leveraging messages as encodings for effective communication.
翻訳日:2024-02-05 20:19:49 公開日:2024-02-01
# 非構造化データに基づく基礎スキル優先による言語条件付き模倣学習

Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data ( http://arxiv.org/abs/2305.19075v4 )

ライセンス: Link先を確認
Hongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alois Knoll(参考訳) 言語条件ロボット操作への関心が高まる中、ロボットが言語コマンドを解釈し、それに従ってオブジェクトを操作することを可能にする目的で、複雑なタスクの理解と実行が可能なロボットの開発が目的である。 言語条件付きアプローチは、慣れ親しんだ環境でタスクに対処するための素晴らしい能力を示しているが、慣れ親しんだ環境設定への適応の限界に遭遇する。 本研究では,非構造化データに基づく基礎的スキル事前学習と模倣学習を組み合わせた汎用的言語条件付き手法を提案し,不慣れな環境に適応するアルゴリズムの一般化を強化する。 ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。 シミュレーション環境において,提案手法は,これまでに報告されたカルビンベンチマーク,特に挑戦的ゼロショットマルチ環境設定のスコアを上回った。 エージェントが連続的に完了できるタスクの平均数を示す平均タスク長は、最先端のHULCに比べて2.5倍以上改善されている。 さらに,具体的な適応を伴わずにシミュレーション環境のみを対象としたトレーニングを行い,実世界におけるポリシーのゼロショット評価を行った。 本評価では,10のタスクを設定し,現状のアプローチと比較して平均30%の改善を実現し,シミュレーション環境と実世界の両方において高い一般化能力を示した。 コードやビデオへのアクセスなど、詳細はhttps://hk-zh.github.io/spil/を参照してください。

The growing interest in language-conditioned robot manipulation aims to develop robots capable of understanding and executing complex tasks, with the objective of enabling robots to interpret language commands and manipulate objects accordingly. While language-conditioned approaches demonstrate impressive capabilities for addressing tasks in familiar environments, they encounter limitations in adapting to unfamiliar environment settings. In this study, we propose a general-purpose, language-conditioned approach that combines base skill priors and imitation learning under unstructured data to enhance the algorithm's generalization in adapting to unfamiliar environments. We assess our model's performance in both simulated and real-world environments using a zero-shot setting. In the simulated environment, the proposed approach surpasses previously reported scores for CALVIN benchmark, especially in the challenging Zero-Shot Multi-Environment setting. The average completed task length, indicating the average number of tasks the agent can continuously complete, improves more than 2.5 times compared to the state-of-the-art method HULC. In addition, we conduct a zero-shot evaluation of our policy in a real-world setting, following training exclusively in simulated environments without additional specific adaptations. In this evaluation, we set up ten tasks and achieved an average 30% improvement in our approach compared to the current state-of-the-art approach, demonstrating a high generalization capability in both simulated environments and the real world. For further details, including access to our code and videos, please refer to https://hk-zh.github.io/spil/
翻訳日:2024-02-05 20:15:47 公開日:2024-02-01
# フロー相関攻撃を用いたオンチップ通信匿名化

Breaking On-Chip Communication Anonymity using Flow Correlation Attacks ( http://arxiv.org/abs/2309.15687v2 )

ライセンス: Link先を確認
Hansika Weerasena, and Prabhat Mishra(参考訳) Network-on-Chip (NoC) は、洗練されたSystem-on-Chip (SoC) 設計におけるコンポーネント間の通信を容易にするために広く使われている。 オンチップ通信のセキュリティは、共有NoCの脆弱性を悪用することは、全コンピューティングインフラストラクチャーを危険にさらす攻撃者にとっての金鉱である。 NoCセキュリティは、匿名攻撃を含む様々な攻撃に対する効果的な対策に依存している。 NoCアーキテクチャにおける既存の匿名ルーティングプロトコルのセキュリティ強度について検討する。 具体的には,二つの重要な貢献を述べる。 既存の匿名ルーティングは、NoCに対する機械学習(ML)ベースのフロー相関攻撃に対して脆弱であることを示す。 本稿では,MLに基づくフロー相関攻撃に対して,トラフィック難読化技術を用いた軽量な匿名ルーティングを提案する。 実トラフィックと合成トラフィックの両方を用いた実験により,NoCアーキテクチャにおける最新の匿名ルーティングに対する攻撃が,多様なトラフィックパターンに対して高い精度(最大99%)で成功し,軽量な対策により,ハードウェアと性能のオーバーヘッドが小さいMLベースの攻撃に対して防御可能であることが明らかになった。

Network-on-Chip (NoC) is widely used to facilitate communication between components in sophisticated System-on-Chip (SoC) designs. Security of the on-chip communication is crucial because exploiting any vulnerability in shared NoC would be a goldmine for an attacker that puts the entire computing infrastructure at risk. NoC security relies on effective countermeasures against diverse attacks, including attacks on anonymity. We investigate the security strength of existing anonymous routing protocols in NoC architectures. Specifically, this paper makes two important contributions. We show that the existing anonymous routing is vulnerable to machine learning (ML) based flow correlation attacks on NoCs. We propose lightweight anonymous routing with traffic obfuscation techniques to defend against ML-based flow correlation attacks. Experimental studies using both real and synthetic traffic reveal that our proposed attack is successful against state-of-the-art anonymous routing in NoC architectures with high accuracy (up to 99%) for diverse traffic patterns, while our lightweight countermeasure can defend against ML-based attacks with minor hardware and performance overhead.
翻訳日:2024-02-05 19:55:50 公開日:2024-02-01
# 再訪したロバスト単回転平均

Robust Single Rotation Averaging Revisited ( http://arxiv.org/abs/2309.05388v2 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) そこで本研究では, 極端に大きなアウトリアーを効率的に処理できるロバストな単回転平均法を提案する。 我々のアプローチは、測地線距離の総最小二乗偏差(TLUD)コストを最小化することである。 提案手法は3つのステップからなる: まず, 各入力回転をポテンシャル初期解として考慮し, 断続したコード偏差の最小和を求める。 次に、初期解を用いて不整集合を取得し、その和を$L_2$-meanで計算する。 最後に、この推定から始めて、$SO(3)$でWeiszfeldアルゴリズムを用いて、イリヤの測地線$L_1$-meanを反復的に計算する。 広範な評価により,本手法は最大99%の外れ値に対して十分な精度の異常値が得られ,現在の技術に匹敵するロバストであることが示された。

In this work, we propose a novel method for robust single rotation averaging that can efficiently handle an extremely large fraction of outliers. Our approach is to minimize the total truncated least unsquared deviations (TLUD) cost of geodesic distances. The proposed algorithm consists of three steps: First, we consider each input rotation as a potential initial solution and choose the one that yields the least sum of truncated chordal deviations. Next, we obtain the inlier set using the initial solution and compute its chordal $L_2$-mean. Finally, starting from this estimate, we iteratively compute the geodesic $L_1$-mean of the inliers using the Weiszfeld algorithm on $SO(3)$. An extensive evaluation shows that our method is robust against up to 99% outliers given a sufficient number of accurate inliers, outperforming the current state of the art.
翻訳日:2024-02-05 19:52:17 公開日:2024-02-01
# tokenmotion: 学習可能なトークン選択によるビデオカモフラージュ物体検出のためのモーションガイド視覚トランスフォーマー

TokenMotion: Motion-Guided Vision Transformer for Video Camouflaged Object Detection Via Learnable Token Selection ( http://arxiv.org/abs/2311.02535v2 )

ライセンス: Link先を確認
Zifan Yu and Erfan Bank Tavakoli and Meida Chen and Suya You and Raghuveer Rao and Sanjeev Agarwal and Fengbo Ren(参考訳) Video Camouflaged Object Detection (VCOD) の領域は、対象物とその周囲のテクスチャの類似性や、物体とカメラの動きの両方によって生じる不規則な動きパターンによって、コンピュータビジョンの分野におけるユニークな課題を呈している。 本稿では,学習可能なトークン選択を用いて動作誘導特徴を抽出することによりVCODを強化するトランスフォーマーモデルを用いたTokenMotion(TMNet)を提案する。 挑戦的なMoCA-Maskデータセットに基づいて、TMNetはVCODの最先端のパフォーマンスを達成する。 12.8%の重み付きF尺度の改善、8.4%のS尺度の強化、平均IoUの10.7%のアップにより、既存の最先端手法よりも優れている。 本研究は,vcodの複雑な課題に取り組むために,トランスフォーマフレームワーク内で学習可能なトークン選択によるモーションガイド機能を活用することの利点を示す。

The area of Video Camouflaged Object Detection (VCOD) presents unique challenges in the field of computer vision due to texture similarities between target objects and their surroundings, as well as irregular motion patterns caused by both objects and camera movement. In this paper, we introduce TokenMotion (TMNet), which employs a transformer-based model to enhance VCOD by extracting motion-guided features using a learnable token selection. Evaluated on the challenging MoCA-Mask dataset, TMNet achieves state-of-the-art performance in VCOD. It outperforms the existing state-of-the-art method by a 12.8% improvement in weighted F-measure, an 8.4% enhancement in S-measure, and a 10.7% boost in mean IoU. The results demonstrate the benefits of utilizing motion-guided features via learnable token selection within a transformer-based framework to tackle the intricate task of VCOD.
翻訳日:2024-02-05 19:43:44 公開日:2024-02-01
# Infinite Horizon MDP のためのオフラインデータセットを用いた効率的なオンライン学習:ベイズ的アプローチ

Efficient Online Learning with Offline Datasets for Infinite Horizon MDPs: A Bayesian Approach ( http://arxiv.org/abs/2310.11531v2 )

ライセンス: Link先を確認
Dengwang Tang, Rahul Jain, Botao Hao, Zheng Wen(参考訳) 本稿では,オフラインデータセットが存在する場合の無限地平線設定における効率的なオンライン強化学習の問題について検討する。 オフラインデータセットは専門家によって生成されるが、未知のレベルの能力、すなわち、完璧ではなく、必ずしも最適なポリシーを使用する必要はないと仮定する。 学習エージェントが、専門家が使用する行動方針(能力パラメータによってモデル化される)をモデル化すると、それができない場合よりも、累積的な後悔を最小限に抑えることができる。 我々は、$\tilde{o}(\sqrt{t})$でスケールする正確なpsrlアルゴリズムの後悔の上限を確立する。 これは無限地平線設定のためのベイジアンオンライン学習アルゴリズムの新たな事前依存的後悔分析を必要とする。 次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。

In this paper, we study the problem of efficient online reinforcement learning in the infinite horizon setting when there is an offline dataset to start with. We assume that the offline dataset is generated by an expert but with unknown level of competence, i.e., it is not perfect and not necessarily using the optimal policy. We show that if the learning agent models the behavioral policy (parameterized by a competence parameter) used by the expert, it can do substantially better in terms of minimizing cumulative regret, than if it doesn't do that. We establish an upper bound on regret of the exact informed PSRL algorithm that scales as $\tilde{O}(\sqrt{T})$. This requires a novel prior-dependent regret analysis of Bayesian online learning algorithms for the infinite horizon setting. We then propose the Informed RLSVI algorithm to efficiently approximate the iPSRL algorithm.
翻訳日:2024-02-05 19:42:25 公開日:2024-02-01
# 大規模言語モデルを用いたエンティティマッチング

Entity Matching using Large Language Models ( http://arxiv.org/abs/2310.11244v2 )

ライセンス: Link先を確認
Ralph Peeters, Christian Bizer(参考訳) エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクである。 これは、ほとんどのデータ統合パイプラインにおける中心的なステップであり、異なるベンダーの製品にマッチする必要がある多くのEコマースアプリケーションのためのイネーブラーである。 最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。 エンティティマッチングのためのこれらのモデルの2つの大きな欠点は 一 相当量のタスク特化訓練データを必要とするモデル (ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。 PLMベースのマーカに代えて,よりタスク依存の訓練データとして,生成的大規模言語モデル(LLM)をエンティティマッチングに使用することを検討する。 本研究は,LLMのホストと,ローカルで実行できるオープンソースのLLMについて報告する。 タスク固有のトレーニングデータが利用可能なシナリオと同様に、ゼロショットシナリオでこれらのモデルを評価する。 異なるプロンプト設計とモデルの迅速な感度を比較し、最良のプロンプトは存在しないが、そのプロンプトはモデル/データセットの組み合わせごとに推定される必要のあるハイパーパラメータに類似していることを示す。 我々はさらに調査する (i)文脈内デモの選択。 (二)一致規則の生成及び一致規則 三 同じトレーニングデータのプールを用いてホストLDMを微調整すること。 実験の結果,最高のLPMは微調整PLMと同じような性能を達成するために,訓練例をほとんど必要としないことがわかった。 さらに、見えないエンティティに対する堅牢性も高く、トレーニングデータが利用できないユースケースに特に適しています。 サードパーティとデータを共有できないユースケースでは、少量のトレーニングデータや知識の一致を前提として、オープンソースのLLMが、ホストされたLLMの代替となる可能性がある。

Entity Matching is the task of deciding whether two entity descriptions refer to the same real-world entity. It is a central step in most data integration pipelines and an enabler for many e-commerce applications which require to match products offers from different vendors. State-of-the-art entity matching methods rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. We investigate using generative large language models (LLMs) for entity matching as a less task-specific training data dependent and more robust alternative to PLM-based matchers. Our study covers hosted LLMs as well as open-source LLMs which can be run locally. We evaluate these models in a zero-shot scenario as well as a scenario where task-specific training data is available. We compare different prompt designs as well as the prompt sensitivity of the models and show that there is no single best prompt but the prompt is akin to a hyperparameter that needs to be estimated for each model/dataset combination. We further investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning a hosted LLM using the same pool of training data. Our experiments show that the best LLMs require no or only a few training examples to reach a similar performance as fine-tuned PLMs. They further exhibit a higher robustness to unseen entities, which makes them especially suited to use cases where no training data is available. We show that for use cases that do not allow data to be shared with third parties, open-source LLMs can be a viable alternative to hosted LLMs given that a small amount of training data or matching knowledge...
翻訳日:2024-02-05 19:42:12 公開日:2024-02-01
# 韻律pomdpsのための後方サンプリング型学習アルゴリズムの後悔解析

Regret Analysis of the Posterior Sampling-based Learning Algorithm for Episodic POMDPs ( http://arxiv.org/abs/2310.10107v2 )

ライセンス: Link先を確認
Dengwang Tang, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo(参考訳) POMDPでの学習は、MDPよりもはるかに難しいことが知られている。 本稿では,未知の遷移モデルと観測モデルを持つエピソードPOMDPに対するオンライン学習問題を考察する。 本研究では,pomdpsに対して,最先端のオプティミズムに基づくオンライン学習アルゴリズムに比べ,はるかにシンプルで実装性が高い後方サンプリング型強化学習アルゴリズムを提案する。 提案したアルゴリズムに対するベイズ的後悔は、各エピソードの平方根としてスケールし、下界と一致し、他のパラメータの多項式であることを示す。 一般的な設定では、その後悔は地平線の長さ$h$で指数関数的にスケールし、下限を提供することで避けられないことを示している。 しかし、POMDPが不完全で弱い(最近の文献に共通する仮定)とき、多項式ベイズ的後悔境界を確立する。 また,マルチエージェントpomdpに対する後方サンプリングアルゴリズムを提案する。

Learning in POMDPs is known to be significantly harder than MDPs. In this paper, we consider online learning problem for episodic POMDPs with unknown transition and observation models. We propose a Posterior Sampling-based reinforcement learning algorithm for POMDPs (PS4POMDPs), which is much simpler and more implementable compared to state-of-the-art optimism-based online learning algorithms for POMDPs. We show that the Bayesian regret of the proposed algorithm scales as the square root of the number of episodes, matching the lower bound, and is polynomial in the other parameters. In a general setting, its regret scales exponentially in the horizon length $H$, and we show that this is inevitable by providing a lower bound. However, when the POMDP is undercomplete and weakly revealing (an assumption common in recent literature), we establish a polynomial Bayesian regret bound. We also propose a posterior sampling algorithm for multi-agent POMDPs, and show it too has sublinear regret.
翻訳日:2024-02-05 19:41:25 公開日:2024-02-01
# l. vaidman氏の"multitime quantum communication: interesting but not counterfactual"に対するコメントへの回答

Reply to Comment on "Multitime Quantum Communication: Interesting But Not Counterfactual" by L. Vaidman ( http://arxiv.org/abs/2310.05968v2 )

ライセンス: Link先を確認
Robert B. Griffiths(参考訳) これは、論文『arXiv:2306.16756』におけるヴァイドマンのコメントに対する回答である: R. B. Griffiths, Phys。 A 107, 062219(2023年)

This is a Reply to the Comment by Vaidman in arXiv:2306.16756 on the paper: R. B. Griffiths, Phys. Rev. A 107, 062219 (2023)
翻訳日:2024-02-05 19:40:26 公開日:2024-02-01
# ブリッジ次元:高次元制御器の信頼性

Bridging Dimensions: Confident Reachability for High-Dimensional Controllers ( http://arxiv.org/abs/2311.04843v2 )

ライセンス: Link先を確認
Yuang Geng, Souradeep Dutta, Ivan Ruchkin(参考訳) 自律システムはエンド・ツー・エンドの学習ベースのコントローラを使ってますます実装されている。 このようなコントローラは、イメージを主要なセンシングモードの1つとして、実システムで実行される決定を行う。 ディープニューラルネットワークは、そのようなコントローラの基本的なビルディングブロックを形成する。 残念ながら、既存のニューラルネットワーク検証ツールは、特に個々の入力(ピクセルなど)が明確な物理的意味を持たない場合、数千次元の入力に対してスケールしない。 本稿では,高次元制御器と全閉ループ検証を接続するための一歩を踏み出した。 我々の重要な洞察は、高次元コントローラの挙動が状態空間の異なる領域におけるいくつかの低次元コントローラと近似できるということである。 低次元コントローラの近似精度と妥当性のバランスをとるために,我々は最新の検証認識知識蒸留を利用する。 そして、低次元到達可能性結果が統計的近似誤差で膨らむと、高次元コントローラに対する高信頼到達可能性保証が得られる。 トラジェクトリとコントロールアクションに基づく2つのインフレーション手法を調査し、どちらもOpenAIのジムベンチマークで説得力のあるパフォーマンスを示している。

Autonomous systems are increasingly implemented using end-to-end learning-based controllers. Such controllers make decisions that are executed on the real system with images as one of the primary sensing modalities. Deep neural networks form a fundamental building block of such controllers. Unfortunately, the existing neural-network verification tools do not scale to inputs with thousands of dimensions -- especially when the individual inputs (such as pixels) are devoid of clear physical meaning. This paper takes a step towards connecting exhaustive closed-loop verification with high-dimensional controllers. Our key insight is that the behavior of a high-dimensional controller can be approximated with several low-dimensional controllers in different regions of the state space. To balance the approximation accuracy and verifiability of our low-dimensional controllers, we leverage the latest verification-aware knowledge distillation. Then, if low-dimensional reachability results are inflated with statistical approximation errors, they yield a high-confidence reachability guarantee for the high-dimensional controller. We investigate two inflation techniques -- based on trajectories and control actions -- both of which show convincing performance in two OpenAI gym benchmarks.
翻訳日:2024-02-05 19:30:48 公開日:2024-02-01
# 非局所量子戦略計算のための変分法

Variational Methods for Computing Non-Local Quantum Strategies ( http://arxiv.org/abs/2311.01363v2 )

ライセンス: Link先を確認
Jim Furches, Nathan Wiebe, Carlos Ortiz Marrero(参考訳) 非ローカルゲームでは、2人の非共用選手が協力し、審判にゲームのルールに違反しない戦略を持っていると納得させる。 量子戦略により、プレイヤーは共有絡み合った状態のジョイント測定を行うことで、最適なゲームを獲得することができるが、これらの戦略の計算は困難である。 我々は,非局所ゲーム戦略の変分アルゴリズムを開発し,凸ゲームと非凸ゲームの両方の小さな例に対して最適戦略が得られることを示す。 提案アルゴリズムは,グラフカラーゲームに最適な量子戦略を実装した近距離回路を生成可能であることを示す。 さらに、この手法を量子コンピュータ上でどのように動作させるかを説明し、2量子ゲートノイズに対する感度と自己検査への応用により、そのような回路はベンチマークに有用であると論じる。 最後に,11個のIBM量子コンピュータ上で実験的にこれらの戦略を実証した。

In a nonlocal game, two noncommunicating players cooperate to convince a referee that they possess a strategy that does not violate the rules of the game. Quantum strategies allow players to optimally win some games by performing joint measurements on a shared entangled state, but computing these strategies can be challenging. We develop a variational algorithm for computing strategies of nonlocal games and show that it can yield optimal strategies for small examples of both convex and non-convex games. We show that our algorithm is capable of generating a short-depth circuit that implements an optimal quantum strategy for a graph coloring game. Moreover, we describe how this technique can be run on quantum computers and argue that such circuits will be useful for benchmarking because of their sensitivity to 2-qubit gate noise and application to self-testing. Finally, we demonstrate the use of these strategies experimentally on 11 IBM quantum computers.
翻訳日:2024-02-05 19:29:36 公開日:2024-02-01
# 誘導コヒーレンスに基づく干渉計におけるコヒーレンスと経路識別性の相補性

Complementarity relationship between coherence and path distinguishability in an interferometer based on induced coherence ( http://arxiv.org/abs/2310.19765v2 )

ライセンス: Link先を確認
Gerard J. Machado, Lluc Sendra, Adam Vall\'es, Juan P. Torres(参考訳) 誘導コヒーレンスの概念に基づく干渉計を考えると、異なる二階非線形結晶に由来する2つの光子が干渉することができる。 2つの干渉光子間の1次コヒーレンスと、それらが原点となる非線形結晶に関する識別情報を定量化するパラメータを関連付ける相補性関係を導出する。 導出関係は単一光子状態を超えており、任意の光子流束率に対して有効であることを示す。 導出相補関係の妥当性を検証した低光子流束レジームの実験結果について報告する。

We consider an interferometer based on the concept of induced coherence, where two photons that originate in different second-order nonlinear crystals can interfere. We derive a complementarity relationship that links the first-order coherence between the two interfering photons with a parameter that quantifies the distinguishing information regarding the nonlinear crystal where they originated. We show that the derived relationship goes beyond the single-photon regime and is valid for any photon-flux rate generated. We report experimental results in the low photon-flux regime that confirm the validity of the derived complementarity relationship.
翻訳日:2024-02-05 19:28:52 公開日:2024-02-01
# 最適化アルゴリズムの自動微分のランダム化フォワードモード

Randomized Forward Mode of Automatic Differentiation For Optimization Algorithms ( http://arxiv.org/abs/2310.14168v3 )

ライセンス: Link先を確認
Khemraj Shukla and Yeonjong Shin(参考訳) バックプロパゲーションの代替としてランダム化フォワードモード勾配(RFG)を提案する。 RFGは、ランダムベクトルに沿った方向微分に基づいて構築される勾配のランダム推定器である。 前モード自動微分(AD)は、RFGの効率的な計算を提供する。 確率ベクトルの確率分布は、rfgの統計的性質を決定する。 第2のモーメント解析により,最小のクルトシスを持つ分布は最小の予測相対二乗誤差を生じさせることがわかった。 勾配をRFGに置き換えることで、RFGに基づく最適化アルゴリズムのクラスが得られる。 勾配降下法(gd)とポリアック重球法(phb)に着目し,二次関数に対するrfgに基づく最適化アルゴリズムの収束解析を行う。 計算実験を行い,提案アルゴリズムの性能を実証し,理論的結果を検証する。

We present a randomized forward mode gradient (RFG) as an alternative to backpropagation. RFG is a random estimator for the gradient that is constructed based on the directional derivative along a random vector. The forward mode automatic differentiation (AD) provides an efficient computation of RFG. The probability distribution of the random vector determines the statistical properties of RFG. Through the second moment analysis, we found that the distribution with the smallest kurtosis yields the smallest expected relative squared error. By replacing gradient with RFG, a class of RFG-based optimization algorithms is obtained. By focusing on gradient descent (GD) and Polyak's heavy ball (PHB) methods, we present a convergence analysis of RFG-based optimization algorithms for quadratic functions. Computational experiments are presented to demonstrate the performance of the proposed algorithms and verify the theoretical findings.
翻訳日:2024-02-05 19:27:49 公開日:2024-02-01
# モデル非依存体部歩行者検出の妥当性評価

Model-agnostic Body Part Relevance Assessment for Pedestrian Detection ( http://arxiv.org/abs/2311.15679v2 )

ライセンス: Link先を確認
Maurice G\"under, Sneha Banerjee, Rafet Sifa, Christian Bauckhage(参考訳) ディープラーニングモデルのモデル非依存な説明方法は、ユーザビリティと可用性に関して柔軟である。 しかしながら、入力を操作してアウトプットの変化を見ることしかできないという事実から、複雑なモデルアーキテクチャで使用すると、パフォーマンスが低下する。 例えばオブジェクト検出のような大きな入力を持つモデルでは、KernelSHAPのようなサンプリングベースの手法は、多くの計算量の多い前方通過のために非効率である。 本稿では,歩行者検出のための身体部適合度評価によるコンピュータビジョンコンテキストにおけるサンプリングに基づく説明モデルを用いた枠組みを提案する。 さらに,より低いサンプリングサイズに対するロバスト性を示すkernelshapと類似した新しいサンプリングベース手法を導入し,大規模データセットにおける説明可能性解析に有効であることを示す。

Model-agnostic explanation methods for deep learning models are flexible regarding usability and availability. However, due to the fact that they can only manipulate input to see changes in output, they suffer from weak performance when used with complex model architectures. For models with large inputs as, for instance, in object detection, sampling-based methods like KernelSHAP are inefficient due to many computation-heavy forward passes through the model. In this work, we present a framework for using sampling-based explanation models in a computer vision context by body part relevance assessment for pedestrian detection. Furthermore, we introduce a novel sampling-based method similar to KernelSHAP that shows more robustness for lower sampling sizes and, thus, is more efficient for explainability analyses on large-scale datasets.
翻訳日:2024-02-05 19:17:39 公開日:2024-02-01
# FIKIT:カーネル同定による優先度に基づくリアルタイムGPUマルチタスクスケジューリング

FIKIT: Priority-Based Real-time GPU Multi-tasking Scheduling with Kernel Identification ( http://arxiv.org/abs/2311.10359v5 )

ライセンス: Link先を確認
Wenqing Wu(参考訳) 機械学習トレーニングや推論、一般的なHPCタスクといった高度な並列処理は、GPUデバイスを使用して大幅に高速化される。 クラウドコンピューティングクラスタでは、マルチタスク共有を通じてgpuの計算能力を提供するには、利用可能なgpuの数よりもタスク要求が常に多いため、非常に要求される。 既存のGPU共有ソリューションでは、単一のGPUで競合する複数のジョブのタスクレベルの待ち時間やタスクレベルの切り替えコストの削減に重点を置いている。 非停止計算要求は、異なる優先順位を持ち、gpuデバイスを共有するためにqosに非対称な影響を与える。 既存の作業はこの設定によってもたらされたカーネルレベルの最適化の機会を逃した。 そこで本研究では, FIKIT: Filling Inter-kernel Idle Timeというカーネルレベルのスケジューリング手法を提案する。 FIKITはタスクレベルの優先度情報、きめ細かいカーネル識別、カーネル計測を組み込んでおり、優先度の高いタスクのカーネル間アイドル時間内での優先度の低いタスクの実行を可能にする。 これにより、GPUのデバイスランタイムを完全に満たし、クラウドサービスに対する全体的なGPU共有の影響を低減することができる。 一連のMLモデル全体で、FIKITベースの推論システムは、GPU共有モードのJCTに比べて優先度の高いタスクを1.32倍から16.41倍に加速し、ケースの半数以上が3.4倍以上加速した。 あるいは、プリエンプティブ共有の下では、低優先度タスクはデフォルトのGPU共有モード JCTと同等で、0.86から1倍である。 さらにカーネル計測と実行時の細粒度カーネルスケジューリングのオーバーヘッドを5%未満に制限した。

Highly parallelized workloads like machine learning training, inferences and general HPC tasks are greatly accelerated using GPU devices. In a cloud computing cluster, serving a GPU's computation power through multi-tasks sharing is highly demanded since there are always more task requests than the number of GPU available. Existing GPU sharing solutions focus on reducing task-level waiting time or task-level switching costs when multiple jobs competing for a single GPU. Non-stopped computation requests come with different priorities, having non-symmetric impact on QoS for sharing a GPU device. Existing work missed the kernel-level optimization opportunity brought by this setting. To address this problem, we present a novel kernel-level scheduling strategy called FIKIT: Filling Inter-kernel Idle Time. FIKIT incorporates task-level priority information, fine-grained kernel identification, and kernel measurement, allowing low priorities task's execution during high priority task's inter-kernel idle time. Thereby, filling the GPU's device runtime fully, and reduce overall GPU sharing impact to cloud services. Across a set of ML models, the FIKIT based inference system accelerated high priority tasks by 1.32 to 16.41 times compared to the JCT in GPU sharing mode, and more than half of the cases are accelerated by more than 3.4 times. Alternatively, under preemptive sharing, the low-priority tasks have a comparable to default GPU sharing mode JCT, with a 0.86 to 1 times ratio. We further limit the kernel measurement and runtime fine-grained kernel scheduling overhead to less than 5%.
翻訳日:2024-02-05 19:16:08 公開日:2024-02-01
# 値不確定観測値に基づく二元量子乱数生成

Binary Quantum Random Number Generator Based on Value Indefinite Observables ( http://arxiv.org/abs/2312.10973v3 )

ライセンス: Link先を確認
Cristian S. Calude and Karl Svozil(参考訳) 値の不定値観測量に基づくすべての量子乱数生成器は、コッヘン・スペックルの定理と配置されたコッヘン・スペックルの定理が次元 2 において偽であるので少なくとも3次元である。 本稿では、三元数と同じランダム性特性を持つ二元量子ランダム出力を生成する3次元値非定義可観測性の測定に基づいて、量子乱数生成器を構成する。

All quantum random number generators based on measuring value indefinite observables are at least three-dimensional because the Kochen-Specker Theorem and the Located Kochen-Specker Theorem are false in dimension two. In this article, we construct quantum random number generators based on measuring a three-dimensional value indefinite observable that generate binary quantum random outputs with the same randomness qualities as the ternary ones: the outputs are maximally unpredictable.
翻訳日:2024-02-05 19:06:44 公開日:2024-02-01
# DIRECT:不均衡とラベルノイズ下での深層能動学習

DIRECT: Deep Active Learning under Imbalance and Label Noise ( http://arxiv.org/abs/2312.09196v2 )

ライセンス: Link先を確認
Shyam Nuggehalli, Jifan Zhang, Lalit Jain, Robert Nowak(参考訳) クラス不均衡は、実世界の機械学習アプリケーションにおいて一般的な問題であり、希少クラスや少数クラスのパフォーマンスが低下する。 ワイルドなラベル付きデータの豊富さによって、アクティブラーニングは、おそらくその根底にある問題を解決する最も効果的なテクニックである。 ラベルノイズは、データアノテーションジョブのもうひとつの一般的な問題であり、アクティブな学習方法では特に難しい。 本研究では,クラス不均衡とラベルノイズの両面において,アクティブラーニングの最初の研究を行う。 本稿では,クラス分離閾値を頑健に同定し,最も近い不確実な例を注釈する新しいアルゴリズムを提案する。 DIRECTは,一次元アクティブラーニングへの新たな削減を通じて,古典的なアクティブラーニング文献を活用し,バッチラベリングやラベルノイズに対する耐性といった問題に対処することができる。 ラベルノイズのない不均衡データセットについて広範な実験を行った。 DIRECTは,最先端のアクティブ学習アルゴリズムと比較して60%以上のアノテーション予算を節約でき,また,ランダムサンプリングに比べて80%以上のアノテーション予算を節約できることを示した。

Class imbalance is a prevalent issue in real world machine learning applications, often leading to poor performance in rare and minority classes. With an abundance of wild unlabeled data, active learning is perhaps the most effective technique in solving the problem at its root -- collecting a more balanced and informative set of labeled examples during annotation. Label noise is another common issue in data annotation jobs, which is especially challenging for active learning methods. In this work, we conduct the first study of active learning under both class imbalance and label noise. We propose a novel algorithm that robustly identifies the class separation threshold and annotates the most uncertain examples that are closest from it. Through a novel reduction to one-dimensional active learning, our algorithm DIRECT is able to leverage the classic active learning literature to address issues such as batch labeling and tolerance towards label noise. We present extensive experiments on imbalanced datasets with and without label noise. Our results demonstrate that DIRECT can save more than 60% of the annotation budget compared to state-of-art active learning algorithms and more than 80% of annotation budget compared to random sampling.
翻訳日:2024-02-05 19:06:09 公開日:2024-02-01
# 表情認識のための主題ベースドメイン適応

Subject-Based Domain Adaptation for Facial Expression Recognition ( http://arxiv.org/abs/2312.05632v2 )

ライセンス: Link先を確認
Muhammad Osama Zeeshan, Muhammad Haseeb Aslam, Soufiane Belharbi, Alessandro L. Koerich, Marco Pedersoli, Simon Bacon, Eric Granger(参考訳) 深層学習(DL)モデルを特定の対象個人に適用することは、教師なしドメイン適応(UDA)手法を用いて達成できる表情認識(FER)において難しい課題である。 ソースおよびターゲットデータセット間での深いFERモデルの適用にはいくつかのUDA手法が提案されているが、複数の主題固有のソースドメインは、主題ベース適応における個人内および個人間の変動を正確に表現するために必要である。 本稿では、データ集合全体ではなく、ドメインが個々人に対応するような設定を考える。 UDAとは異なり、マルチソースドメイン適応(MSDA)メソッドは複数のソースデータセットを利用してターゲットモデルの精度と堅牢性を向上させることができる。 しかし、MSDAの以前の手法はデータセット全体にわたる画像分類モデルに適応しており、より多くのソースドメインにスケールできない。 本稿では、FERにおける主観的ドメイン適応のための新しいMSDA手法を提案する。 複数のソース対象(ラベル付きソースドメインデータ)からの情報を効率的に利用して、ディープFERモデルを単一のターゲット個人(ラベルなしターゲットドメインデータ)に適応させる。 適応中、複数の情報源からのデータ間のドメインシフトを軽減するために、まずソース間の差分損失を計算する。 次に,対象対象者と対象対象者の領域シフトを低減し,目標対象者に対する自信の強化した疑似ラベルを生成するための新たな戦略を提案する。 87名の被験者を対象にしたBioVid熱と痛みのデータセット(PartA)と,25名の被験者によるUNBC-McMaster肩痛のデータセットを用いた実験により,本研究の被験者ベースMSDAは,複数の被験者ベースソースドメインに対して十分に拡張可能であることが示された。

Adapting a deep learning (DL) model to a specific target individual is a challenging task in facial expression recognition (FER) that may be achieved using unsupervised domain adaptation (UDA) methods. Although several UDA methods have been proposed to adapt deep FER models across source and target data sets, multiple subject-specific source domains are needed to accurately represent the intra- and inter-person variability in subject-based adaption. In this paper, we consider the setting where domains correspond to individuals, not entire datasets. Unlike UDA, multi-source domain adaptation (MSDA) methods can leverage multiple source datasets to improve the accuracy and robustness of the target model. However, previous methods for MSDA adapt image classification models across datasets and do not scale well to a larger number of source domains. In this paper, a new MSDA method is introduced for subject-based domain adaptation in FER. It efficiently leverages information from multiple source subjects (labeled source domain data) to adapt a deep FER model to a single target individual (unlabeled target domain data). During adaptation, our Subject-based MSDA first computes a between-source discrepancy loss to mitigate the domain shift among data from several source subjects. Then, a new strategy is employed to generate augmented confident pseudo-labels for the target subject, allowing a reduction in the domain shift between source and target subjects. Experiments on the challenging BioVid heat and pain dataset (PartA) with 87 subjects, and the UNBC-McMaster shoulder pain dataset with 25 subjects show that our Subject-based MSDA can outperform state-of-the-art methods yet scale well to multiple subject-based source domains.
翻訳日:2024-02-05 19:03:41 公開日:2024-02-01
# グラフ上の大規模言語モデル:包括的調査

Large Language Models on Graphs: A Comprehensive Survey ( http://arxiv.org/abs/2312.02783v2 )

ライセンス: Link先を確認
Bowen Jin, Gang Liu, Chi Han, Meng Jiang, Heng Ji, Jiawei Han(参考訳) GPT4やLLaMAのような大規模言語モデル(LLM)は、強力なテキストエンコーディング/復号化能力と新たに発見された創発的能力(推論など)により、自然言語処理の大幅な進歩を生み出している。 LLMは主に純粋なテキストを処理するように設計されているが、テキストデータがリッチな構造情報(例えば、学術的ネットワークやeコマースネットワーク)や、グラフデータがリッチなテキスト情報(例えば、説明付き分子)とペアリングされるシナリオなど、多くの現実シナリオが存在する。 加えて、llmは純粋なテキストベースの推論能力を示しているが、そのような能力がグラフ(グラフベースの推論)に一般化できるかどうかは未検討である。 本稿では,グラフ上の大規模言語モデルに関連するシナリオと手法の体系的なレビューを行う。 まず,LLMをグラフに適用するシナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。 次に, LLM を予測器として, LLM をエンコーダとして, LLM を Aligner として, グラフ上で LLM を利用するための詳細な手法について議論し, 異なるモデル流派の利点と欠点を比較した。 さらに,そのような手法の実世界の応用について論じ,オープンソースコードとベンチマークデータセットを要約する。 最後に、この急速に成長する分野における今後の研究方向性について述べる。 関連するソースはhttps://github.com/PeterGriffinJin/Awesome-Language-on-Graphsにある。

Large language models (LLMs), such as GPT4 and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/decoding ability and newly found emergent capability (e.g., reasoning). While LLMs are mainly designed to process pure texts, there are many real-world scenarios where text data is associated with rich structure information in the form of graphs (e.g., academic networks, and e-commerce networks) or scenarios where graph data is paired with rich textual information (e.g., molecules with descriptions). Besides, although LLMs have shown their pure text-based reasoning ability, it is underexplored whether such ability can be generalized to graphs (i.e., graph-based reasoning). In this paper, we provide a systematic review of scenarios and techniques related to large language models on graphs. We first summarize potential scenarios of adopting LLMs on graphs into three categories, namely pure graphs, text-attributed graphs, and text-paired graphs. We then discuss detailed techniques for utilizing LLMs on graphs, including LLM as Predictor, LLM as Encoder, and LLM as Aligner, and compare the advantages and disadvantages of different schools of models. Furthermore, we discuss the real-world applications of such methods and summarize open-source codes and benchmark datasets. Finally, we conclude with potential future research directions in this fast-growing field. The related source can be found at https://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs.
翻訳日:2024-02-05 19:02:48 公開日:2024-02-01
# 量子テストベッド上の潜時ダイナミクスのデータ駆動評価

Data-Driven Characterization of Latent Dynamics on Quantum Testbeds ( http://arxiv.org/abs/2401.09822v2 )

ライセンス: Link先を確認
Sohail Reddy, Stefanie Guenther, and Yujin Cho(参考訳) 本稿では,超伝導量子コンピューティングハードウェアにおける潜時ダイナミクスを学ぶためのデータ駆動手法を提案する。 この目的のために,lindbladマスター方程式によって記述された量子システムの力学方程式を,実験データから学習し,環境相互作用やシステムノイズなどの未知の系のダイナミクスを捉えるためのパラメータ化されたソース項で補強する。 本稿では,線形演算子に基づいてパラメータ化された発散潜時ダイナミクスと,非線形フィードフォワードニューラルネットワークによって与えられる拡張を学習し,区別する構造を考察する。 数値計算はローレンス・リバモア国立研究所の量子デバイスと統合テストベッドの2つの異なる量子処理ユニット(QPU)のデータを用いて行われる。 我々は,我々の解釈,構造保存,非線形モデルがリンドブラッドマスター方程式の予測精度を改善し,QPUの潜在力学を正確にモデル化できることを実証した。

This paper presents a data-driven approach to learn latent dynamics in superconducting quantum computing hardware. To this end, we augment the dynamical equation of quantum systems described by the Lindblad master equation with a parameterized source term that is trained from experimental data to capture unknown system dynamics, such as environmental interactions and system noise. We consider a structure preserving augmentation that learns and distinguishes unitary from dissipative latent dynamics parameterized by a basis of linear operators, as well as an augmentation given by a nonlinear feed-forward neural network. Numerical results are presented using data from two different quantum processing units (QPU) at Lawrence Livermore National Laboratory's Quantum Device and Integration Testbed. We demonstrate that our interpretable, structure preserving, and nonlinear models are able to improve the prediction accuracy of the Lindblad master equation and accurately model the latent dynamics of the QPUs.
翻訳日:2024-02-05 18:55:19 公開日:2024-02-01
# テキスト認証の解読:人間対機械生成テキスト検出のための大言語セマンティクスのレンズによる一般化戦略

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text ( http://arxiv.org/abs/2401.09407v2 )

ライセンス: Link先を確認
Mazal Bethany, Brandon Wherry, Emet Bethany, Nishant Vishwamitra, Anthony Rios, Peyman Najafirad(参考訳) 近年の大規模言語モデル(llms)の普及に伴い、機械生成テキストを検出するツールの需要が高まっている。 機械生成テキストの効果的な検出は、まず、gpt-4やdollyなど、さまざまなジェネレータによって機械生成テキストが生成され、学術的な原稿からソーシャルメディアのポストまで、さまざまな領域にまたがる現実のシナリオに対して、かなり制限されている。 第二に、既存の検出手法は、LLMが生成するテキストを制限されたバイナリ分類レンズで処理し、異なるLLMが生成するアーティファクトの微妙な多様性を無視している。 本研究では,実世界のシナリオにおける機械生成テキストの検出に関する体系的研究を行う。 まず,最先端手法の有効性について検討し,実世界の多様な生成元やドメインが生成するテキストに対して著しく制限されていることを見出した。 さらに、事前訓練されたLLMエンコーダからの埋め込みのt-SNE可視化は、人間と機械生成したテキストを確実に区別できないことを示す。 そこで本研究では,実世界の多種多様なジェネレータやドメインが生成するテキストに対応するために,LLMと組込みサブクラスタリングを組み合わせた事前学習されたT5エンコーダを用いた機械生成テキスト検出システムT5LLMCipherを提案する。 提案手法は,9つのマシン生成テキストシステムと9つのドメインにまたがるアプローチを評価し,本手法が最先端の一般化機能を提供し,未発見のジェネレータとドメインで19.6\%のマシン生成テキストのf1スコアを平均的に増加させ,既存のアプローチを実行しているトップと比較し,93.6\%の精度でテキスト生成者を正しく識別する。

With the recent proliferation of Large Language Models (LLMs), there has been an increasing demand for tools to detect machine-generated text. The effective detection of machine-generated text face two pertinent problems: First, they are severely limited in generalizing against real-world scenarios, where machine-generated text is produced by a variety of generators, including but not limited to GPT-4 and Dolly, and spans diverse domains, ranging from academic manuscripts to social media posts. Second, existing detection methodologies treat texts produced by LLMs through a restrictive binary classification lens, neglecting the nuanced diversity of artifacts generated by different LLMs. In this work, we undertake a systematic study on the detection of machine-generated text in real-world scenarios. We first study the effectiveness of state-of-the-art approaches and find that they are severely limited against text produced by diverse generators and domains in the real world. Furthermore, t-SNE visualizations of the embeddings from a pretrained LLM's encoder show that they cannot reliably distinguish between human and machine-generated text. Based on our findings, we introduce a novel system, T5LLMCipher, for detecting machine-generated text using a pretrained T5 encoder combined with LLM embedding sub-clustering to address the text produced by diverse generators and domains in the real world. We evaluate our approach across 9 machine-generated text systems and 9 domains and find that our approach provides state-of-the-art generalization ability, with an average increase in F1 score on machine-generated text of 19.6\% on unseen generators and domains compared to the top performing existing approaches and correctly attributes the generator of text with an accuracy of 93.6\%.
翻訳日:2024-02-05 18:55:04 公開日:2024-02-01
# 総合的な合成データ生成の探索:サーベイ

Comprehensive Exploration of Synthetic Data Generation: A Survey ( http://arxiv.org/abs/2401.02524v2 )

ライセンス: Link先を確認
Andr\'e Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster(参考訳) 近年、機械学習(ML)の人気が高まっており、さまざまな領域にまたがって適用されている。 しかし、高価な買収とプライバシー法によって、トレーニングデータの不足が進行を妨げている。 合成データは解決策として現れるが、リリースされたモデルと限られた概要文献が、意思決定に挑戦する。 この研究は、過去10年間に417のSynthetic Data Generation(SDG)モデルを調査し、モデルタイプ、機能、改善に関する包括的な概要を提供する。 一般的な属性は識別され、分類とトレンド分析につながる。 この結果は、プライバシ保存データ生成を除いて、ニューラルネットワークベースのアプローチが普及するにつれて、モデルのパフォーマンスと複雑性が向上することを示している。 コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。 パフォーマンス評価による影響は、一般的なメトリクスとデータセットの不足を強調し、比較を困難にしています。 さらに、文学におけるトレーニングや計算コストの無視は、将来の研究に注意を必要とする。 この研究はSDGモデル選択のガイドとして機能し、将来の探査にとって重要な領域を特定する。

Recent years have witnessed a surge in the popularity of Machine Learning (ML), applied across diverse domains. However, progress is impeded by the scarcity of training data due to expensive acquisition and privacy legislation. Synthetic data emerges as a solution, but the abundance of released models and limited overview literature pose challenges for decision-making. This work surveys 417 Synthetic Data Generation (SDG) models over the last decade, providing a comprehensive overview of model types, functionality, and improvements. Common attributes are identified, leading to a classification and trend analysis. The findings reveal increased model performance and complexity, with neural network-based approaches prevailing, except for privacy-preserving data generation. Computer vision dominates, with GANs as primary generative models, while diffusion models, transformers, and RNNs compete. Implications from our performance evaluation highlight the scarcity of common metrics and datasets, making comparisons challenging. Additionally, the neglect of training and computational costs in literature necessitates attention in future research. This work serves as a guide for SDG model selection and identifies crucial areas for future exploration.
翻訳日:2024-02-05 18:51:53 公開日:2024-02-01
# 量子力学における高性能ベイズ実験設計のためのモデル認識強化学習

Model-aware reinforcement learning for high-performance Bayesian experimental design in quantum metrology ( http://arxiv.org/abs/2312.16985v2 )

ライセンス: Link先を確認
Federico Belliardo, Fabio Zoratti, Florian Marquardt, Vittorio Giovannetti(参考訳) 量子センサーは、様々なパラメータにまたがる実験者による操作を可能にすることで、推定中に制御の柔軟性を提供する。 各センシングプラットフォームでは、センサーの精度を高めるために最適な制御をピンポイントする作業は依然として困難な作業である。 分析的なソリューションは手の届かないかもしれないが、機械学習は多くの興味あるシステム、特に現代のハードウェアの能力を考えると、有望な道のりを提供する。 粒子フィルタリングに基づくモデル認識強化学習(RL)とベイズ推定を組み合わせることで、量子距離論、推定、仮説テストにおいて幅広い問題を最適化できる汎用的な手法を導入している。 これを実現するためには,粒子フィルタの計測や再サンプリングなど,多くの非微分不可能な推定ステップをトレーニングプロセスに組み込むという課題に対処しなければならなかった。 モデル認識RLは勾配に基づく手法であり、実験のシミュレーションにおいて、センサーの精度の微分は自動微分(AD)によって得られる。 我々のアプローチは、ニューラルネットワークや他のエージェントを使用して、適応的でない戦略と適応的戦略の両方を最適化するのに適しています。 我々は,この手法をqsensoroptというPythonライブラリの形式で実装し,NVセンタ,フォトニック回路,光キャビティなど,関連する物理プラットフォーム用の既製のアプリケーションをいくつか提供する。 このライブラリは間もなくpypiでリリースされる。 この手法を活用し,実験設計における現在の最先端技術を超える多くの例で結果を得た。 モデル認識RLを利用したベイズ推定に加えて、フィッシャー情報に基づくクラム・ラオ境界の最小化のための最適制御を求めることもできる。

Quantum sensors offer control flexibility during estimation by allowing manipulation by the experimenter across various parameters. For each sensing platform, pinpointing the optimal controls to enhance the sensor's precision remains a challenging task. While an analytical solution might be out of reach, machine learning offers a promising avenue for many systems of interest, especially given the capabilities of contemporary hardware. We have introduced a versatile procedure capable of optimizing a wide range of problems in quantum metrology, estimation, and hypothesis testing by combining model-aware reinforcement learning (RL) with Bayesian estimation based on particle filtering. To achieve this, we had to address the challenge of incorporating the many non-differentiable steps of the estimation in the training process, such as measurements and the resampling of the particle filter. Model-aware RL is a gradient-based method, where the derivatives of the sensor's precision are obtained through automatic differentiation (AD) in the simulation of the experiment. Our approach is suitable for optimizing both non-adaptive and adaptive strategies, using neural networks or other agents. We provide an implementation of this technique in the form of a Python library called qsensoropt, alongside several pre-made applications for relevant physical platforms, namely NV centers, photonic circuits, and optical cavities. This library will be released soon on PyPI. Leveraging our method, we've achieved results for many examples that surpass the current state-of-the-art in experimental design. In addition to Bayesian estimation, leveraging model-aware RL, it is also possible to find optimal controls for the minimization of the Cram\'er-Rao bound, based on Fisher information.
翻訳日:2024-02-05 18:51:12 公開日:2024-02-01
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v5 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang(参考訳) 本稿では,3次元形状スケルトン化の新規かつ効率的なアプローチであるカバレッジaxis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するために、coverture axis++は、様々な形状表現の計算強度を著しく軽減しながら、内側軸変換(mat)の高精度近似を提供する、骨格点を選択するヒューリスティックなアルゴリズムを提案する。 形状被覆と一様性の両方を考慮し, 単純かつ効果的な方略を導入し, 骨格点を導出する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からはコンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点数の指定、ハイパーパラメータの少ない、再現精度の向上による高効率な計算を可能にした。 幅広い3d形状の広範囲な実験は、カバレッジaxis++の効率と有効性を検証する。 論文が公開されたら、コードは公開される予定だ。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers both shape coverage and uniformity to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-02-05 18:40:13 公開日:2024-02-01
# カルトグラフィー接種によるQAモデルの性能向上

Improving QA Model Performance with Cartographic Inoculation ( http://arxiv.org/abs/2401.17498v2 )

ライセンス: Link先を確認
Allen Chen (UT Austin), Okan Tanrikulu (UT Austin)(参考訳) qaモデルは複雑かつオープンなコンテキスト推論の問題に直面しますが、トレーニングデータにデータセット固有のパターンを使用することで、パフォーマンスの高いソリューションヒューリスティックスを学べることが多いのです。 これらのパターン、あるいは"データセットアーティファクト"は、モデルが現実世界のqa問題に一般化する能力を減らす。 QAのためにトレーニングされたElectraSmallDiscriminatorモデルを用いて、予測のためにアーティファクトに依存したモデルを混乱させるように設計された敵対的課題セットを用いて、データセットアーティファクトの影響と頻度を分析する。 アーティファクトの影響を緩和する手法に関する既存の研究を拡張し,データセットアーティファクトへのモデル依存を軽減するために,課題データの最適化サブセット上でモデルを微調整する新しい手法である地図接種法を提案する。 課題セットからあいまいな逆さまの例でモデルを選択的に微調整することで、他の課題環境やqaデータセットへのモデルの一般化性を最小限に抑えながら、全チャレンジデータセットで大幅なパフォーマンス改善ができることを示す。

QA models are faced with complex and open-ended contextual reasoning problems, but can often learn well-performing solution heuristics by exploiting dataset-specific patterns in their training data. These patterns, or "dataset artifacts", reduce the model's ability to generalize to real-world QA problems. Utilizing an ElectraSmallDiscriminator model trained for QA, we analyze the impacts and incidence of dataset artifacts using an adversarial challenge set designed to confuse models reliant on artifacts for prediction. Extending existing work on methods for mitigating artifact impacts, we propose cartographic inoculation, a novel method that fine-tunes models on an optimized subset of the challenge data to reduce model reliance on dataset artifacts. We show that by selectively fine-tuning a model on ambiguous adversarial examples from a challenge set, significant performance improvements can be made on the full challenge dataset with minimal loss of model generalizability to other challenging environments and QA datasets.
翻訳日:2024-02-05 18:29:06 公開日:2024-02-01
# 大規模言語モデルは経済選択予測ラボを置き換えることができるか?

Can Large Language Models Replace Economic Choice Prediction Labs? ( http://arxiv.org/abs/2401.17435v2 )

ライセンス: Link先を確認
Eilam Shapira, Omer Madmon, Roi Reichart, Moshe Tennenholtz(参考訳) 経済選択予測は重要な課題であり、しばしば人間の選択データを取得することの難しさに制約される。 実際、実験経済学の研究は主に単純な選択設定に焦点を当てていた。 aiコミュニティは、最近この取り組みに2つの方法で貢献している: 前述の単純な選択予測設定でllmが人間に代用できるかどうか、そして、不完全な情報、反復遊び、自然言語コミュニケーション、特に言語ベースの説得ゲームを用いた、より精巧だが厳密な実験経済設定のmlレンズを通しての研究。 llmは、経済環境を完全にシミュレートし、効率的な人間の選択予測のためのデータを生成し、精巧な経済研究所の研究に代えることができるか? 我々はこの研究の先駆者であり、その実現可能性を示している。 特に、LLM生成データのみに基づいてトレーニングされたモデルは、言語ベースの説得ゲームにおいて人間の行動を効果的に予測でき、実際の人間のデータに基づいてトレーニングされたモデルよりも優れていることを示す。

Economic choice prediction is an essential challenging task, often constrained by the difficulties in acquiring human choice data. Indeed, experimental economics studies had focused mostly on simple choice settings. The AI community has recently contributed to that effort in two ways: considering whether LLMs can substitute for humans in the above-mentioned simple choice prediction settings, and the study through ML lens of more elaborated but still rigorous experimental economics settings, employing incomplete information, repetitive play, and natural language communication, notably language-based persuasion games. This leaves us with a major inspiration: can LLMs be used to fully simulate the economic environment and generate data for efficient human choice prediction, substituting for the elaborated economic lab studies? We pioneer the study of this subject, demonstrating its feasibility. In particular, we show that a model trained solely on LLM-generated data can effectively predict human behavior in a language-based persuasion game, and can even outperform models trained on actual human data.
翻訳日:2024-02-05 18:28:17 公開日:2024-02-01
# 大規模言語と視覚モデルにおける空間的スキーマ直観の探索

Exploring Spatial Schema Intuitions in Large Language and Vision Models ( http://arxiv.org/abs/2402.00956v1 )

ライセンス: Link先を確認
Philipp Wicke and Lennart Wachowiak(参考訳) AI研究における大きな言語モデル(LLMs)の多様さにもかかわらず、LLMの具体化に関する問題は未解決のままであり、知覚が直接身体行動に影響を及ぼすロボット工学における具体化システムと区別されている。 我々の調査は、llmが言語の基本で空間的な構成要素についての暗黙の人間の直観を効果的に捉えているかどうか、興味深い地形をナビゲートする。 我々は,3つの心理言語実験の再現を通じて,初期の感覚運動経験を通じて発達した空間認知基盤からの洞察を用いて,探索を導く。 驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性を明らかにする。 注目すべき区別は、偏極言語モデル応答と視覚言語モデルにおける相関の減少である。 本研究では,言語間の相互作用,空間経験,大規模言語モデルによる計算の微妙な理解に寄与する。 詳しくはhttps://cisnlp.github.io/Spatial_Schemas/を参照のこと。

Despite the ubiquity of large language models (LLMs) in AI research, the question of embodiment in LLMs remains underexplored, distinguishing them from embodied systems in robotics where sensory perception directly informs physical action. Our investigation navigates the intriguing terrain of whether LLMs, despite their non-embodied nature, effectively capture implicit human intuitions about fundamental, spatial building blocks of language. We employ insights from spatial cognitive foundations developed through early sensorimotor experiences, guiding our exploration through the reproduction of three psycholinguistic experiments. Surprisingly, correlations between model outputs and human responses emerge, revealing adaptability without a tangible connection to embodied experiences. Notable distinctions include polarized language model responses and reduced correlations in vision language models. This research contributes to a nuanced understanding of the interplay between language, spatial experiences, and the computations made by large language models. More at https://cisnlp.github.io/Spatial_Schemas/
翻訳日:2024-02-05 18:19:12 公開日:2024-02-01
# 量子後ブロックチェーンを目指して - 量子コンピューティング攻撃に耐性のあるブロックチェーン暗号のレビュー

Towards post-quantum blockchain: A review on blockchain cryptography resistant to quantum computing attacks ( http://arxiv.org/abs/2402.00922v1 )

ライセンス: Link先を確認
Tiago M. Fernandez-Carames, Paula Fraga-Lamas(参考訳) Blockchainと他のDistributed Ledger Technologies(DLT)はここ数年で大きく進化し、透明性、冗長性、説明責任を提供する能力によって、多くのアプリケーションにその使用が提案されている。 ブロックチェーンの場合、そのような特性は公開鍵暗号とハッシュ関数を通じて提供される。 しかし、量子コンピューティングの急速な進歩により、近い将来グロバーとショアのアルゴリズムに基づく攻撃を行う可能性が開けている。 このようなアルゴリズムは公開鍵暗号とハッシュ関数の両方を脅かし、量子攻撃に耐える暗号システムを使用するようにブロックチェーンを再設計することを余儀なくされた。 このような目的のために、この記事では、量子後暗号システムに関する技術の現状と、ブロックチェーンやDLTにどのように適用できるかを最初に研究する。 さらに、量子後ブロックチェーンシステムと、その主な課題についても研究されている。 さらに、量子化後の最も有望な公開鍵暗号とブロックチェーンのデジタル署名スキームの特徴と性能について、広範な比較がなされている。 この記事では、将来のブロックチェーン研究者や開発者に対して、量子後ブロックチェーンセキュリティに関する幅広いビューと有用なガイドラインを提供する。

Blockchain and other Distributed Ledger Technologies (DLTs) have evolved significantly in the last years and their use has been suggested for numerous applications due to their ability to provide transparency, redundancy and accountability. In the case of blockchain, such characteristics are provided through public-key cryptography and hash functions. However, the fast progress of quantum computing has opened the possibility of performing attacks based on Grover's and Shor's algorithms in the near future. Such algorithms threaten both public-key cryptography and hash functions, forcing to redesign blockchains to make use of cryptosystems that withstand quantum attacks, thus creating which are known as post-quantum, quantum-proof, quantum-safe or quantum-resistant cryptosystems. For such a purpose, this article first studies current state of the art on post-quantum cryptosystems and how they can be applied to blockchains and DLTs. Moreover, the most relevant post-quantum blockchain systems are studied, as well as their main challenges. Furthermore, extensive comparisons are provided on the characteristics and performance of the most promising post-quantum public-key encryption and digital signature schemes for blockchains. Thus, this article seeks to provide a broad view and useful guidelines on post-quantum blockchain security to future blockchain researchers and developers.
翻訳日:2024-02-05 18:18:56 公開日:2024-02-01
# IoT(Internet of Things)におけるネットワークトラフィック分類のためのディープラーニングアプローチ

Deep Learning Approaches for Network Traffic Classification in the Internet of Things (IoT): A Survey ( http://arxiv.org/abs/2402.00920v1 )

ライセンス: Link先を確認
Jawad Hussain Kalwar, Sania Bhatti(参考訳) IoT(Internet of Things)は前例のない成長を遂げ、相互接続デバイスからの多様なネットワークトラフィックが大量に流入している。 このネットワークトラフィックを効果的に分類することは、リソース割り当ての最適化、セキュリティ対策の強化、IoTシステムにおける効率的なネットワーク管理の確保に不可欠である。 ディープラーニングは、生データから複雑なパターンや表現を自動的に学習する能力から、ネットワークトラフィック分類の強力なテクニックとして登場した。 本研究の目的は,IoT環境に適したネットワークトラフィック分類において,既存のディープラーニングアプローチを概観することである。 この領域における最新の研究成果を体系的に分析し、分類することにより、iotネットワークトラフィックによって生じるユニークな課題に対処する上で、さまざまなディープラーニングモデルの強みと限界を探求する。 この調査を通じて、研究者や実践者が貴重な洞察を提供し、研究ギャップを特定し、iotにおけるディープラーニングベースのネットワークトラフィック分類の有効性と効率をさらに高めるための今後の研究の方向性を提供する。

The Internet of Things (IoT) has witnessed unprecedented growth, resulting in a massive influx of diverse network traffic from interconnected devices. Effectively classifying this network traffic is crucial for optimizing resource allocation, enhancing security measures, and ensuring efficient network management in IoT systems. Deep learning has emerged as a powerful technique for network traffic classification due to its ability to automatically learn complex patterns and representations from raw data. This survey paper aims to provide a comprehensive overview of the existing deep learning approaches employed in network traffic classification specifically tailored for IoT environments. By systematically analyzing and categorizing the latest research contributions in this domain, we explore the strengths and limitations of various deep learning models in handling the unique challenges posed by IoT network traffic. Through this survey, we aim to offer researchers and practitioners valuable insights, identify research gaps, and provide directions for future research to further enhance the effectiveness and efficiency of deep learning-based network traffic classification in IoT.
翻訳日:2024-02-05 18:18:37 公開日:2024-02-01
# MUSTAN:ロバストビデオフォアグラウンドセグメンテーションの注意点としてのマルチスケールテンポラルコンテキスト

MUSTAN: Multi-scale Temporal Context as Attention for Robust Video Foreground Segmentation ( http://arxiv.org/abs/2402.00918v1 )

ライセンス: Link先を確認
Praveen Kumar Pokala, Jaya Sai Kiran Patibandla, Naveen Kumar Pandey, and Balakrishna Reddy Pailla(参考訳) ビデオフォアグラウンドセグメンテーション(VFS)は、背景からの動作下でオブジェクトをセグメンテーションすることを目的とした重要なコンピュータビジョンタスクである。 現在の手法のほとんどは画像ベースで、空間的手がかりのみに依存するが、動きの手がかりは無視されている。 したがって、トレーニングデータに過度に適合し、ドメイン外分布(OOD)にうまく一般化しない傾向があります。 上記の問題を解決するために、先行研究は光学フローや背景減算マスクなどのいくつかの手がかりを利用した。 しかし、光学フローのような注釈付きビデオデータを持つことは難しい課題である。 本稿では,映像データからの時間情報と空間的手がかりを利用してOOD性能を向上させる。 しかし、ビデオデータが解釈可能な方法で与えられると、時間的情報をどのようにモデル化するかが課題となっている。 そこで我々は,vfsの開発において映像の時間的文脈を統合する戦略を考案する。 このアプローチは、深層学習アーキテクチャ、すなわちmustan1とmustan2を生み出し、マルチスケールの時間的文脈を注意として、モデルがvfsに有益であるより良い表現を学ぶのを支援する、という考え方に基づいています。 さらに、VFSのための新しいビデオデータセットであるIndoor Surveillance Dataset (ISD)を導入する。 前景のバイナリマスク、深さマップ、インスタンスのセマンティックアノテーションなど、フレームレベルで複数のアノテーションがある。 そのため、isdは他のコンピュータビジョンのタスクにも役立つ。 アーキテクチャの有効性を検証するとともに,性能をベースラインと比較する。 提案手法はOODのベンチマーク手法よりも有意に優れていることを示す。 さらに, MUSTAN2の性能は, ISDによるOODデータ上の特定のビデオカテゴリで有意に向上した。

Video foreground segmentation (VFS) is an important computer vision task wherein one aims to segment the objects under motion from the background. Most of the current methods are image-based, i.e., rely only on spatial cues while ignoring motion cues. Therefore, they tend to overfit the training data and don't generalize well to out-of-domain (OOD) distribution. To solve the above problem, prior works exploited several cues such as optical flow, background subtraction mask, etc. However, having a video data with annotations like optical flow is a challenging task. In this paper, we utilize the temporal information and the spatial cues from the video data to improve OOD performance. However, the challenge lies in how we model the temporal information given the video data in an interpretable way creates a very noticeable difference. We therefore devise a strategy that integrates the temporal context of the video in the development of VFS. Our approach give rise to deep learning architectures, namely MUSTAN1 and MUSTAN2 and they are based on the idea of multi-scale temporal context as an attention, i.e., aids our models to learn better representations that are beneficial for VFS. Further, we introduce a new video dataset, namely Indoor Surveillance Dataset (ISD) for VFS. It has multiple annotations on a frame level such as foreground binary mask, depth map, and instance semantic annotations. Therefore, ISD can benefit other computer vision tasks. We validate the efficacy of our architectures and compare the performance with baselines. We demonstrate that proposed methods significantly outperform the benchmark methods on OOD. In addition, the performance of MUSTAN2 is significantly improved on certain video categories on OOD data due to ISD.
翻訳日:2024-02-05 18:18:20 公開日:2024-02-01
# セキュアなセルフサービス型大規模言語モデル探索のための機関プラットフォーム

Institutional Platform for Secure Self-Service Large Language Model Exploration ( http://arxiv.org/abs/2402.00913v1 )

ライセンス: Link先を確認
V. K. Cody Bumgardner, Mitchell A. Klusty, W. Vaiden Logan, Samuel E. Armstrong, Caylin Hickey and Jeff Talbert(参考訳) 本稿では,ケンタッキー大学応用AIセンターが開発した,大規模でカスタマイズされた言語モデル(LLM)をより使いやすくするためのユーザフレンドリーなプラットフォームを提案する。 マルチロラ推論の最近の進歩を活かして、システムは様々なユーザやプロジェクト向けにカスタムアダプタを効率的に適合させる。 論文では、データセットキュレーション、モデルトレーニング、セキュア推論、テキストベースの特徴抽出を含む、システムのアーキテクチャと重要な特徴について概説する。 本稿では,エージェントベースの手法を用いて,孤立資源の島々を統一システムとして安全に活用するテナント対応計算ネットワークの構築について述べる。 プラットフォームはセキュアなLLMサービスの提供、プロセスとデータ分離の強調、エンドツーエンドの暗号化、ロールベースのリソース認証を目指している。 このコントリビューションは、科学的な発見を支援するために最先端のAIモデルとテクノロジへの簡易アクセスを可能にするという、包括的な目標と一致している。

This paper introduces a user-friendly platform developed by the University of Kentucky Center for Applied AI, designed to make large, customized language models (LLMs) more accessible. By capitalizing on recent advancements in multi-LoRA inference, the system efficiently accommodates custom adapters for a diverse range of users and projects. The paper outlines the system's architecture and key features, encompassing dataset curation, model training, secure inference, and text-based feature extraction. We illustrate the establishment of a tenant-aware computational network using agent-based methods, securely utilizing islands of isolated resources as a unified system. The platform strives to deliver secure LLM services, emphasizing process and data isolation, end-to-end encryption, and role-based resource authentication. This contribution aligns with the overarching goal of enabling simplified access to cutting-edge AI models and technology in support of scientific discovery.
翻訳日:2024-02-05 18:17:52 公開日:2024-02-01
# 概念ボトルネックモデルは意味的に意味のある入力機能を学ぶために制約できるのか?

Can we Constrain Concept Bottleneck Models to Learn Semantically Meaningful Input Features? ( http://arxiv.org/abs/2402.00912v1 )

ライセンス: Link先を確認
Jack Furby, Daniel Cunnington, Dave Braines, Alun Preece(参考訳) CBM(Concept Bottleneck Models)は、まずこれらの概念を使用して下流タスクの出力を予測する前に、人間の定義した概念のセットを予測するため、本質的に解釈可能であると考えられている。 固有解釈可能性を完全に実現し、モデルの出力に対する信頼を確保するためには、セマンティックマッピングされた入力特徴に基づいて概念が予測されることを保証する必要がある。 例えば、画像中の骨折した骨を表すピクセルが骨折の予測に使用されることを期待するかもしれない。 しかし、現在の文献では、概念予測がしばしば無関係な入力特徴にマッピングされるため、これはそうではないことを示している。 概念アノテーションが不正確であったり、入力機能が概念とどのように関連付けるべきかが不明な場合に発生すると仮定する。 一般に、データセットラベリングがcbmsの概念表現に与える影響は未検討領域である。 そこで本稿では,cbmがデータセットから概念をどのように学習するかを,きめ細かい概念アノテーションで検証する。 我々は,CBMが意味的マッピングによる概念表現を,常に一緒に現れる2つの概念のような問題のある概念相関を除去することで,入力特徴に対する概念表現を学習できることを実証した。 評価を支援するため,カードドメインに基づく新しい合成画像データセットを導入し,今後のCBM研究のベンチマークとして機能することを期待する。 検証のために,実世界の胸部X線のデータセットに実証的な証拠を提供し,実世界のアプリケーションで意味論的に意味のある概念を学習できることを実証する。

Concept Bottleneck Models (CBMs) are considered inherently interpretable because they first predict a set of human-defined concepts before using these concepts to predict the output of a downstream task. For inherent interpretability to be fully realised, and ensure trust in a model's output, we need to guarantee concepts are predicted based on semantically mapped input features. For example, one might expect the pixels representing a broken bone in an image to be used for the prediction of a fracture. However, current literature indicates this is not the case, as concept predictions are often mapped to irrelevant input features. We hypothesise that this occurs when concept annotations are inaccurate or how input features should relate to concepts is unclear. In general, the effect of dataset labelling on concept representations in CBMs remains an understudied area. Therefore, in this paper, we examine how CBMs learn concepts from datasets with fine-grained concept annotations. We demonstrate that CBMs can learn concept representations with semantic mapping to input features by removing problematic concept correlations, such as two concepts always appearing together. To support our evaluation, we introduce a new synthetic image dataset based on a playing cards domain, which we hope will serve as a benchmark for future CBM research. For validation, we provide empirical evidence on a real-world dataset of chest X-rays, to demonstrate semantically meaningful concepts can be learned in real-world applications.
翻訳日:2024-02-05 18:17:36 公開日:2024-02-01
# アンサンブル学習と正規化ファインチューニングによるバイアス対応

Addressing Bias Through Ensemble Learning and Regularized Fine-Tuning ( http://arxiv.org/abs/2402.00910v1 )

ライセンス: Link先を確認
Ahmed Radwan, Layan Zaafarani, Jetana Abudawood, Faisal AlZahrani, Fares Fourat(参考訳) AIモデルのバイアスに対処することは、公正で正確な予測を保証するために不可欠である。 しかし、トレーニングのために大きな偏りのないデータセットを得ることは困難である。 本稿では,AIモデルのバイアスを除去するための複数の手法を用いた包括的アプローチを提案する。 我々は、データ分割、局所訓練、正規化ファインチューニングを通じて、事前訓練されたモデルのカウンターバイアスで複数のモデルを訓練する。 そして、すべてのモデルにアンサンブル学習を用い、バイアスのない予測に達する。 我々は,アンサンブルモデルの推論時間をさらに加速するために,単一の偏りのないニューラルネットワークを生じさせる知識蒸留法を用いて解を結論づける。 CIFAR10とHAM10000データセットの実験を通じて,提案手法の有効性を実証し,有望な結果を示す。 この作業は、データ可用性が制限された場合でも、より曖昧で信頼性の高いAIモデルを作成するための継続的な努力に寄与する。

Addressing biases in AI models is crucial for ensuring fair and accurate predictions. However, obtaining large, unbiased datasets for training can be challenging. This paper proposes a comprehensive approach using multiple methods to remove bias in AI models, with only a small dataset and a potentially biased pretrained model. We train multiple models with the counter-bias of the pre-trained model through data splitting, local training, and regularized fine-tuning, gaining potentially counter-biased models. Then, we employ ensemble learning for all models to reach unbiased predictions. To further accelerate the inference time of our ensemble model, we conclude our solution with knowledge distillation that results in a single unbiased neural network. We demonstrate the effectiveness of our approach through experiments on the CIFAR10 and HAM10000 datasets, showcasing promising results. This work contributes to the ongoing effort to create more unbiased and reliable AI models, even with limited data availability.
翻訳日:2024-02-05 18:17:11 公開日:2024-02-01
# 埋め込みネットワークのためのGradCAMの一般化

Generalizing GradCAM for Embedding Networks ( http://arxiv.org/abs/2402.00909v1 )

ライセンス: Link先を確認
Mudit Bachhawat(参考訳) CNNの可視化は、信頼の構築とモデルの予測を説明する上で重要な部分である。 CAMやGradCAMのような手法は、出力に責任のある画像の領域のローカライズに成功しているが、分類モデルに限られている。 本稿では,組込みネットワークのためのGrad-CAMを一般化した EmbeddingCAM を提案する。 分類ネットワークでは, EmbeddingCAM が GradCAM に還元されることを示す。 本手法は,cub-200-2011データセット上での有効性を示すとともに,定量的・定性的な解析を行う。

Visualizing CNN is an important part in building trust and explaining model's prediction. Methods like CAM and GradCAM have been really successful in localizing area of the image responsible for the output but are only limited to classification models. In this paper, we present a new method EmbeddingCAM, which generalizes the Grad-CAM for embedding networks. We show that for classification networks, EmbeddingCAM reduces to GradCAM. We show the effectiveness of our method on CUB-200-2011 dataset and also present quantitative and qualitative analysis on the dataset.
翻訳日:2024-02-05 18:16:56 公開日:2024-02-01
# AlphaRank: ランク付けと選択の問題に対する人工知能アプローチ

AlphaRank: An Artificial Intelligence Approach for Ranking and Selection Problems ( http://arxiv.org/abs/2402.00907v1 )

ライセンス: Link先を確認
Ruihan Zhou, L. Jeff Hong and Yijie Peng(参考訳) alpharankは,r&s(fixed-budget ranking and selection)問題に対処するための人工知能アプローチである。 マルコフ決定過程として逐次サンプリング決定を定式化し,古典的なR&S手順を基本方針として,確率動的プログラミングの値関数を効率的に学習するモンテカルロシミュレーションに基づくロールアウトポリシーを提案する。 深層強化学習を用いて、所定の事前に基づいてオフラインでニューラルネットワークモデルを事前学習することにより、オンラインサンプルアロケーションを高速化する。 また,大規模問題に対する並列化可能な計算フレームワークを提案し,スケーラビリティと効率を向上させるために「分割と征服」と「再帰」を効果的に組み合わせた。 数値実験により、AlphaRankの性能は基本方針よりも大幅に改善され、これはAlphaRankが多くの既存の政策で見落とされた平均、分散および誘導相関のトレードオフにおける優れた能力に起因していると考えられる。

We introduce AlphaRank, an artificial intelligence approach to address the fixed-budget ranking and selection (R&S) problems. We formulate the sequential sampling decision as a Markov decision process and propose a Monte Carlo simulation-based rollout policy that utilizes classic R&S procedures as base policies for efficiently learning the value function of stochastic dynamic programming. We accelerate online sample-allocation by using deep reinforcement learning to pre-train a neural network model offline based on a given prior. We also propose a parallelizable computing framework for large-scale problems, effectively combining "divide and conquer" and "recursion" for enhanced scalability and efficiency. Numerical experiments demonstrate that the performance of AlphaRank is significantly improved over the base policies, which could be attributed to AlphaRank's superior capability on the trade-off among mean, variance, and induced correlation overlooked by many existing policies.
翻訳日:2024-02-05 18:16:48 公開日:2024-02-01
# BrainLeaks: モデル反転攻撃に対するニューロモルフィックアーキテクチャのプライバシ保護特性について

BrainLeaks: On the Privacy-Preserving Properties of Neuromorphic Architectures against Model Inversion Attacks ( http://arxiv.org/abs/2402.00906v1 )

ライセンス: Link先を確認
Hamed Poursiami, Ihsen Alouani, Maryam Parsa(参考訳) 医療や金融といったセキュリティに敏感なドメインへの機械学習の主流的統合により、データのプライバシに関する懸念が高まっている。 従来のニューラルネットワーク(anns)は、機密データを漏洩する可能性のあるいくつかの攻撃に対して脆弱である。 特にmodel inversion (mi)攻撃は、モデルのトレーニングに使用されたデータサンプルの再構築を可能にする。 ニューロモルフィックアーキテクチャは、ニューラルネットワークのパラダイムシフトとして現れ、非同期およびエネルギー効率の計算を可能にしている。 しかし、モデル反転に対するニューロモルフィックアーキテクチャのプライバシの調査は、ほとんど、あるいは全く行われていない。 我々の研究は、スパイキングニューラルネットワーク(SNN)の非差別的な側面が、特に勾配に基づく攻撃に対して固有のプライバシー保護特性をもたらすという直感に動機づけられている。 そこで本研究では,SNNのプライバシ保護機能について詳細に検討する。 具体的には,snsをターゲットとして包括的に設計された新しい逆攻撃戦略を開発し,従来のannシステムとの比較分析を行った。 各種イベントベースおよび静的なデータセットを用いて実験を行い、提案した攻撃戦略の有効性を実証し、ニューロモルフィックアーキテクチャにおける固有のプライバシー保護の仮定に疑問を呈する。

With the mainstream integration of machine learning into security-sensitive domains such as healthcare and finance, concerns about data privacy have intensified. Conventional artificial neural networks (ANNs) have been found vulnerable to several attacks that can leak sensitive data. Particularly, model inversion (MI) attacks enable the reconstruction of data samples that have been used to train the model. Neuromorphic architectures have emerged as a paradigm shift in neural computing, enabling asynchronous and energy-efficient computation. However, little to no existing work has investigated the privacy of neuromorphic architectures against model inversion. Our study is motivated by the intuition that the non-differentiable aspect of spiking neural networks (SNNs) might result in inherent privacy-preserving properties, especially against gradient-based attacks. To investigate this hypothesis, we propose a thorough exploration of SNNs' privacy-preserving capabilities. Specifically, we develop novel inversion attack strategies that are comprehensively designed to target SNNs, offering a comparative analysis with their conventional ANN counterparts. Our experiments, conducted on diverse event-based and static datasets, demonstrate the effectiveness of the proposed attack strategies and therefore questions the assumption of inherent privacy-preserving in neuromorphic architectures.
翻訳日:2024-02-05 18:16:31 公開日:2024-02-01
# GPT-3.5 for Code Review Automation: Few-Shot Learning, Prompt Design, Model Fine-Tuning はパフォーマンスにどのように影響するか?

GPT-3.5 for Code Review Automation: How Do Few-Shot Learning, Prompt Design, and Model Fine-Tuning Impact Their Performance? ( http://arxiv.org/abs/2402.00905v1 )

ライセンス: Link先を確認
Chanathip Pornprasit and Chakkrit Tantithamthavorn(参考訳) 近年,変圧器アーキテクチャに基づく大規模事前学習モデル (LLM) が提案されている。 自然言語処理分野とソフトウェア工学分野における先行研究は、下流タスクにLLMを活用する様々なアプローチに焦点を当てた実験を行った。 しかし、既存の文献は、コードレビュー自動化タスク(つまり、提出されたコードから改善されたコードを自動的に生成する)にGPT-3.5(即時エンジニアリング、数発の学習、モデル微調整)を活用するための様々なアプローチの研究を欠いている。 したがって、GPT-3.5をどう活用すべきかは分かっていない。 この知識ギャップを埋めるため,コードレビュー自動化タスクの GPT-3.5 上で,少数ショット学習の影響,設計の促進(ペルソナパターンの使用),およびモデル微調整を行った。 Through the experimental study of the three code review automation datasets, we find that (1) when few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74% higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least 11.48% higher Exact Match than the existing code review automation approaches. 本実験結果に基づき,コードレビュー自動化にgpt-3.5を使用する場合,(1)ゼロショット学習ではなく,少数ショット学習を行なわなければならない,(2)プロンプト構築時にペルソナを含めるべきでないこと,(3)小さなトレーニングデータセットを用いて,gpt-3.5を微調整すべきであることを推奨する。

Recently, several large language models (LLMs)-the large pre-trained models based on the transformer architecture-were proposed. Prior studies in the natural language processing field and software engineering field conducted experiments focusing on different approaches to leveraging LLMs for downstream tasks. However, the existing literature still lacks the study of different approaches to leveraging GPT-3.5 (e.g., prompt engineering, few-shot learning and model fine-tuning) for the code review automation task (i.e., automatically generating improved code from submitted code). Thus, little is known about how GPT-3.5 should be leveraged for this task. To fill this knowledge gap, we set out to investigate the impact of few-shot learning, prompt design (i.e., using a persona pattern), and model fine-tuning on GPT-3.5 for the code review automation task. Through the experimental study of the three code review automation datasets, we find that (1) when few-shot learning is performed, GPT-3.5 achieves at least 46.38% higher Exact Match and at least 3.97% higher CodeBLEU than GPT-3.5 that zero-shot learning is performed, (2) when persona is included in input prompts to generate improved code, GPT-3.5 achieves at least 1.02% lower Exact Match and 0.15% lower CodeBLEU than when persona is not included in input prompts, (3) fine-tuned GPT-3.5 achieves at least 9.74% higher Exact Match and 0.12% higher CodeBLEU than GPT-3.5 that zero-shot and few-shot learning is performed, and (4) fine-tuned GPT-3.5 achieves at least 11.48% higher Exact Match than the existing code review automation approaches. Based on our experiment results, we recommend that when using GPT-3.5 for code review automation (1) few-shot learning should be performed rather than zero-shot learning, (2) persona should not be included when constructing prompts, and (3) GPT-3.5 should be fine-tuned by using a small training dataset.
翻訳日:2024-02-05 18:16:09 公開日:2024-02-01
# グラフドメイン適応:挑戦、進歩、展望

Graph Domain Adaptation: Challenges, Progress and Prospects ( http://arxiv.org/abs/2402.00904v1 )

ライセンス: Link先を確認
Boshen Shi, Yongqing Wang, Fangda Guo, Bingbing Xu, Huawei Shen, Xueqi Cheng(参考訳) グラフ表現学習は実世界のアプリケーションにおいてラベル不足に悩まされることが多いため、研究者はグラフ間の効果的な知識伝達パラダイムとしてグラフ領域適応(GDA)を提案してきた。 特に、特定のタスクでターゲットグラフのモデルパフォーマンスを向上させるため、GDAはソースグラフとしてタスク関連グラフを多数導入し、ソースグラフから学習した知識をターゲットグラフに適応させる。 gdaはグラフ表現学習とドメイン適応の利点を併せ持つので、グラフ上の転送学習の有望な方向性となり、近年は研究の関心が高まっている。 本稿では,GDA研究の概要を概観し,最近の進歩に関する詳細な調査を紹介する。 具体的には,研究状況と課題の概要,分類の提案,代表作品の詳細紹介,今後の展望について述べる。 我々の知る限りでは、この論文はグラフ領域適応に関する最初の調査である。 詳細なペーパーリストはhttps://github.com/Skyorca/Awesome-Graph-Domain-Adaptation-Papersにある。

As graph representation learning often suffers from label scarcity problems in real-world applications, researchers have proposed graph domain adaptation (GDA) as an effective knowledge-transfer paradigm across graphs. In particular, to enhance model performance on target graphs with specific tasks, GDA introduces a bunch of task-related graphs as source graphs and adapts the knowledge learnt from source graphs to the target graphs. Since GDA combines the advantages of graph representation learning and domain adaptation, it has become a promising direction of transfer learning on graphs and has attracted an increasing amount of research interest in recent years. In this paper, we comprehensively overview the studies of GDA and present a detailed survey of recent advances. Specifically, we outline the research status and challenges, propose a taxonomy, introduce the details of representative works, and discuss the prospects. To the best of our knowledge, this paper is the first survey for graph domain adaptation. A detailed paper list is available at https://github.com/Skyorca/Awesome-Graph-Domain-Adaptation-Papers.
翻訳日:2024-02-05 18:15:32 公開日:2024-02-01
# 円偏光によるキラル誘起スピン選択性の向上

Enhancement of Chiral-Induced Spin Selectivity via Circularly Polarized Light ( http://arxiv.org/abs/2402.00903v1 )

ライセンス: Link先を確認
Wei Liu, Jingqi Chen and Wenjie Dou(参考訳) カイラル誘発性スピン選択性(CISS)の概念は近年、大きな研究関心を集めている。 しかし、CISS効果の実用的応用は比較的低いスピン偏光のために困難に直面している。 本稿では, 円偏光(CP)光が, 強い光-物質相互作用を通じてCISS効果を高めることを示す非摂動理論を提案する。 外部駆動を受ける分子接合部におけるキラル分子の非断熱力学とスピン輸送を研究するためにフロッケ電子摩擦モデルを導入する。 その結果, 非断熱効果と光-物質相互作用の相互作用は, CP光下での電子スピン偏極を著しく向上させることがわかった。 この予測はcp光を用いたキラル分子接合のスピン電流制御実験において非常に有用である。

The notion of chiral-induced spin selectivity (CISS) has attracted intensive research interest recently. However, the practical applications of the CISS effects face challenges due to relatively low spin polarization. In this Letter, we propose a non-perturbative theory illustrating how circularly polarized (CP) light enhances CISS effects through strong light-matter interactions. We introduce a Floquet electronic friction model to study the nonadiabatic dynamics and spin transport through a chiral molecule in a molecule junction subjected to external driving. Our results show that the interplay of the nonadiabatic effects and light-matter interactions can significantly ($>90\%$) enhance electron spin polarization under CP light. Our predictions can be very useful in experiments for using CP light to control spin current in chiral molecular junctions.
翻訳日:2024-02-05 18:15:14 公開日:2024-02-01
# YOLinO++: Mapless Automated Divingのためのジェネリックポリラインのシングルショット推定

YOLinO++: Single-Shot Estimation of Generic Polylines for Mapless Automated Diving ( http://arxiv.org/abs/2402.00989v1 )

ライセンス: Link先を確認
Annika Meyer and Christoph Stiller(参考訳) 自動走行では、高精度な地図は知覚のサポートと補足のために一般的に用いられる。 これらの地図は、交通の世界が永久に変化しているため、作成にコストがかかり、すぐに時代遅れになる。 自動システムのマップをセンサデータからの検知でサポートまたは置き換えるためには、知覚モジュールが地図の特徴を検出できなければならない。 YOLOのワンショット哲学に従うニューラルネットワークを提案するが,車線境界などの画像中の1次元構造を検出するように設計されている。 従来のアイデアを中間点ベースライン表現とアンカー定義で拡張する。 この表現は、車線境界、マーキング、および車線の中心線のような暗黙的な特徴を記述するために使われる。 このアプローチの広範な適用性は、車線中心線、車線境界、および高速道路と都市部の両方で検出されたマーキングによって示される。 垂直線境界は検出され、本質的に破断線または固形線、縁石、道路境界、暗黙の起伏に分類される。

In automated driving, highly accurate maps are commonly used to support and complement perception. These maps are costly to create and quickly become outdated as the traffic world is permanently changing. In order to support or replace the map of an automated system with detections from sensor data, a perception module must be able to detect the map features. We propose a neural network that follows the one shot philosophy of YOLO but is designed for detection of 1D structures in images, such as lane boundaries. We extend previous ideas by a midpoint based line representation and anchor definitions. This representation can be used to describe lane borders, markings, but also implicit features such as centerlines of lanes. The broad applicability of the approach is shown with the detection performance on lane centerlines, lane borders as well as the markings both on highways and in urban areas. Versatile lane boundaries are detected and can be inherently classified as dashed or solid lines, curb, road boundaries, or implicit delimitation.
翻訳日:2024-02-05 18:08:00 公開日:2024-02-01
# 実験ラットにおける自動発作検出のためのマルチモーダル機械学習フレームワーク

Multi-Modal Machine Learning Framework for Automated Seizure Detection in Laboratory Rats ( http://arxiv.org/abs/2402.00965v1 )

ライセンス: Link先を確認
Aaron Mullen, Samuel E. Armstrong, Jasmine Perdeh, Bjorn Bauer, Jeffrey Talbert, V.K. Cody Bumgardner(参考訳) マルチモーダル機械学習システムは、パフォーマンスを改善するために複数のユニークなデータソースとタイプを使用する。 本稿では,複数のモデルから得られた結果を組み合わせて,異なるデータ信号に基づいて学習するシステムを提案する。 システムの有効性を説明する例として、発作に苦しむラットから複数の種類のデータを収集する実験が述べられている。 このデータには、電界計、圧電センサーデータ、ビデオ記録が含まれる。 それぞれのモデルはそれぞれのデータに基づいてトレーニングされ、各タイムフレームを発作を含むかそうでないかを分類する。 各モデルが分類予測を生成した後、これらの結果を組み合わせる。 各データ信号は、予測目的のために単独で十分に機能するが、クラスラベルの大幅な不均衡は、すべてのデータソースを利用してフィルタして削除できる偽陽性数の増加につながる。 本稿では,ポストプロセッシングと組み合わせ手法の後に,各データソースの性能と比較すると,このマルチモーダルシステムにより分類精度が向上することを示す。

A multi-modal machine learning system uses multiple unique data sources and types to improve its performance. This article proposes a system that combines results from several types of models, all of which are trained on different data signals. As an example to illustrate the efficacy of the system, an experiment is described in which multiple types of data are collected from rats suffering from seizures. This data includes electrocorticography readings, piezoelectric motion sensor data, and video recordings. Separate models are trained on each type of data, with the goal of classifying each time frame as either containing a seizure or not. After each model has generated its classification predictions, these results are combined. While each data signal works adequately on its own for prediction purposes, the significant imbalance in class labels leads to increased numbers of false positives, which can be filtered and removed by utilizing all data sources. This paper will demonstrate that, after postprocessing and combination techniques, classification accuracy is improved with this multi-modal system when compared to the performance of each individual data source.
翻訳日:2024-02-05 18:07:44 公開日:2024-02-01
# 生命学習理論

Credal Learning Theory ( http://arxiv.org/abs/2402.00957v1 )

ライセンス: Link先を確認
Michele Caprio, Maryam Sultana, Eleni Elia, Fabio Cuzzolin(参考訳) 統計的学習理論は機械学習の基礎であり、未知の確率分布から生じると仮定された(シングル)トレーニングセットから学習されるモデルのリスクに対する理論的境界を提供する。 しかし、実際のデプロイメントでは、データの分散は(しばしば)異なるため、ドメイン適応/一般化の問題を引き起こします。 本稿では,確率の凸集合 (credal set) を用いて,データ生成分布の変動性をモデル化する,学習の'credal'理論の基礎を述べる。 このようなクレダル集合は、トレーニング集合の有限なサンプルから推測することができる。 境界は、有限仮説空間(実現可能性を仮定するか否かの両方)と、古典的結果を直接一般化する無限モデル空間の場合に導かれる。

Statistical learning theory is the foundation of machine learning, providing theoretical bounds for the risk of models learnt from a (single) training set, assumed to issue from an unknown probability distribution. In actual deployment, however, the data distribution may (and often does) vary, causing domain adaptation/generalization issues. In this paper we lay the foundations for a `credal' theory of learning, using convex sets of probabilities (credal sets) to model the variability in the data-generating distribution. Such credal sets, we argue, may be inferred from a finite sample of training sets. Bounds are derived for the case of finite hypotheses spaces (both assuming realizability or not) as well as infinite model spaces, which directly generalize classical results.
翻訳日:2024-02-05 18:07:27 公開日:2024-02-01
# FairEHR-CLP:マルチモーダル電子健康記録におけるコントラスト学習による公正な臨床予測に向けて

FairEHR-CLP: Towards Fairness-Aware Clinical Predictions with Contrastive Learning in Multimodal Electronic Health Records ( http://arxiv.org/abs/2402.00955v1 )

ライセンス: Link先を確認
Yuqing Wang, Malvika Pillai, Yun Zhao, Catherine Curtin, Tina Hernandez-Boussard(参考訳) 医療の分野では、予測モデルの公正性の確保が不可欠である。 電子健康記録(EHR)は、医学的意思決定に不可欠なものとなっているが、モデル公正性を高める既存の方法は、不正なデータに制限され、EHRの人口統計学的要因に絡む多面的社会的バイアスに対処できない。 これらのバイアスを緩和するため,EHRにおけるFairness-Aware Clinical Predictions with Contrastive Learningの一般的な枠組みであるFairEHR-CLPを提案する。 FairEHR-CLPは2段階のプロセスで動作し、患者の人口統計、縦断データ、臨床ノートを利用する。 第一に、患者ごとに合成相手が生成され、多様な人口密度が得られながら、必須の健康情報を保持することができる。 第2に, フェアネスアウェア予測では, 臨床分類タスクにソフトマックス層を併用したmlp分類器と共同で最適化した, 患者表現の高度化にコントラスト学習を用いる。 グループサイズやクラス不均衡などの EHR の固有の課題を認識し、サブグループ間の誤差率の差異を効果的に測定する新しい公平度指標を導入する。 3つのタスクに関する3つの多種多様なEHRデータセットに対する大規模な実験は、FairEHR-CLPの有効性を、競合ベースラインと比較して公正性と実用性の観点から示している。 FairEHR-CLPは、予測医療モデルの正確性と公平性を保証するための進歩である。

In the high-stakes realm of healthcare, ensuring fairness in predictive models is crucial. Electronic Health Records (EHRs) have become integral to medical decision-making, yet existing methods for enhancing model fairness restrict themselves to unimodal data and fail to address the multifaceted social biases intertwined with demographic factors in EHRs. To mitigate these biases, we present FairEHR-CLP: a general framework for Fairness-aware Clinical Predictions with Contrastive Learning in EHRs. FairEHR-CLP operates through a two-stage process, utilizing patient demographics, longitudinal data, and clinical notes. First, synthetic counterparts are generated for each patient, allowing for diverse demographic identities while preserving essential health information. Second, fairness-aware predictions employ contrastive learning to align patient representations across sensitive attributes, jointly optimized with an MLP classifier with a softmax layer for clinical classification tasks. Acknowledging the unique challenges in EHRs, such as varying group sizes and class imbalance, we introduce a novel fairness metric to effectively measure error rate disparities across subgroups. Extensive experiments on three diverse EHR datasets on three tasks demonstrate the effectiveness of FairEHR-CLP in terms of fairness and utility compared with competitive baselines. FairEHR-CLP represents an advancement towards ensuring both accuracy and equity in predictive healthcare models.
翻訳日:2024-02-05 18:07:04 公開日:2024-02-01
# 自動Webフォームテストのためのブリッジングセマンティクス

Bridging Semantics for Automated Web Form Testing ( http://arxiv.org/abs/2402.00950v1 )

ライセンス: Link先を確認
Parsa Alian, Noor Nashid, Mobina Shahbandeh, Ali Mesbah(参考訳) Webフォームの自動テスト生成は、フォームの人間中心の設計とその複雑でデバイスに依存しない構造によって、長年にわたる課題である。 テキストコンテンツ,dom木構造,視覚近接性を利用して,個々のフォーム要素とそれらの関係から意味的洞察を導出することを重視した,webフォームの自動テスト生成のための,formnexusという革新的なアプローチを導入する。 収集された洞察は、マシンフレンドリなセマンティック情報抽出を提供する新しい概念グラフであるForm Entity Relation Graph(FERG)に変換される。 LLMを活用して、FormNexusは、リアルタイムのフォーム入力応答に基づいて入力制約の生成と精錬を行うフィードバック駆動メカニズムを採用する。 このアプローチの成果は堅牢なテストケースのセットで、それぞれが制約を体系的に無効にし、Webフォームの包括的なテストシナリオを確実にすることで実現されます。 この研究は、LLMの機能と高度なセマンティック推論手法を連動させることによって、Webフォームの自動テストにおける既存のギャップを埋める。 GPT-4 と FormNexus が組み合わさって 89% のカバレッジを実現していることを示す。 この結果は、最高のベースラインモデルのパフォーマンスを25%のマージンで大幅に上回っている。

Automated test generation for web forms has been a longstanding challenge, exacerbated by the intrinsic human-centric design of forms and their complex, device-agnostic structures. We introduce an innovative approach, called FormNexus, for automated web form test generation, which emphasizes deriving semantic insights from individual form elements and relations among them, utilizing textual content, DOM tree structures, and visual proximity. The insights gathered are transformed into a new conceptual graph, the Form Entity Relation Graph (FERG), which offers machine-friendly semantic information extraction. Leveraging LLMs, FormNexus adopts a feedback-driven mechanism for generating and refining input constraints based on real-time form submission responses. The culmination of this approach is a robust set of test cases, each produced by methodically invalidating constraints, ensuring comprehensive testing scenarios for web forms. This work bridges the existing gap in automated web form testing by intertwining the capabilities of LLMs with advanced semantic inference methods. Our evaluation demonstrates that FormNexus combined with GPT-4 achieves 89% coverage in form submission states. This outcome significantly outstrips the performance of the best baseline model by a margin of 25%.
翻訳日:2024-02-05 18:06:27 公開日:2024-02-01
# 多項式ニューラルネットワークの幾何学

Geometry of Polynomial Neural Networks ( http://arxiv.org/abs/2402.00949v1 )

ライセンス: Link先を確認
Kaie Kubjas, Jiayi Li, Maximilian Wiesmann(参考訳) 単項活性化関数を持つ多項式ニューラルネットワーク(PNN)の表現性と学習過程について検討する。 ネットワークの重みは神経マニフォールドをパラメータ化する。 本稿では, 代数幾何学のツールを用いて, 半代数集合として明示的な記述を与え, それらのザリスキ閉包を特徴付ける神経多様体について検討する。 それらの次元を研究し、代数的程度、学習度を神経変数に関連付ける。 この次元はネットワークの表現率の幾何学的測度として機能し、学習度はネットワークの訓練の複雑さの測度であり、学習可能な関数の数に上限を与える。 これらの理論的結果は実験を伴う。

We study the expressivity and learning process for polynomial neural networks (PNNs) with monomial activation functions. The weights of the network parametrize the neuromanifold. In this paper, we study certain neuromanifolds using tools from algebraic geometry: we give explicit descriptions as semialgebraic sets and characterize their Zariski closures, called neurovarieties. We study their dimension and associate an algebraic degree, the learning degree, to the neurovariety. The dimension serves as a geometric measure for the expressivity of the network, the learning degree is a measure for the complexity of training the network and provides upper bounds on the number of learnable functions. These theoretical results are accompanied with experiments.
翻訳日:2024-02-05 18:05:51 公開日:2024-02-01
# ナノメカニカル誘起透明性

Nanomechanically Induced Transparency ( http://arxiv.org/abs/2402.00948v1 )

ライセンス: Link先を確認
E. C. Diniz and O. P. de S\'a Neto(参考訳) 本稿では,ナノ電気力学系と捕捉イオンのカップリングから生じるナノ機械的に誘起される透明性(nit)効果について検討する。 イオンをメソスコピックトラップに閉じ込め、電極として吊るされたナノエレクトロメカニカルシステムと容量的に結合させることで、この研究はイオンの自由度を含めることの意義に焦点が当てられている。 ラム・ディック近似は、電子量子ビットとのフォノン交換の効果を理解し、この一意なカップリングにおける透過現象を明らかにするのに不可欠である。この結果は、ナノ電気機械システムにおける透過窓の効果をモデル化する上でラム・ディック近似の重要性を基礎としている。

In this paper, we investigate a nanomechanically induced transparency (NIT) effects that arises from the coupling of a nanoelectromechanical system and a trapped ion. By confining the ion in mesoscopic traps and capacitively coupling it with a nanoelectromechanical system suspended as electrodes, the research is intricately focussed on the implications of including the ion's degrees of freedom. The Lamb--Dicke approximation is crucial to understanding the effects of phonon exchange with electronic qubits and revealing transparency phenomena in this unique coupling. The results underline the importance of the Lamb--Dicke approximation in modelling the effects of transparency windows in nanoelectromechanical systems.
翻訳日:2024-02-05 18:05:34 公開日:2024-02-01
# NCoder -- データ符号化のための量子場理論アプローチ

NCoder -- A Quantum Field Theory approach to encoding data ( http://arxiv.org/abs/2402.00944v1 )

ライセンス: Link先を確認
David S. Berman, Marc S. Klinger, Alexander G. Stapleton(参考訳) 本稿では、量子場理論(qft)に触発された解釈可能なaiに対する新しいアプローチについて述べる。 NCoderは、潜伏層が$n$-point相関関数のサブセットとして指定された修正されたオートエンコーダニューラルネットワークである。 格子場理論から引き出された画像について、このアーキテクチャはファインマン図を用いた拡張において、理論の順序の効果的な作用を順序で摂動的に構築するタスクを模倣する。 あるいは、NCoderは、高次元データをいくつかの低次元の要約統計量(以下、$n$-point相関関数)でまず要約し、その後、これらの統計量からデータ生成分布を推測してサンプル外データを生成するような統計的推論の手順をシミュレートできる。 このようにして、NCoderは摂動的再正規化可能性とモデルの十分性の間の魅力的な対応を提案する。 我々は、MNIST画像の生成にNCoderを適用して、NCoderの有効性を実証し、生成した画像は、画像分布の最初の3$n$-point関数の情報のみを用いて正しく分類できることを示した。

In this paper we present a novel approach to interpretable AI inspired by Quantum Field Theory (QFT) which we call the NCoder. The NCoder is a modified autoencoder neural network whose latent layer is prescribed to be a subset of $n$-point correlation functions. Regarding images as draws from a lattice field theory, this architecture mimics the task of perturbatively constructing the effective action of the theory order by order in an expansion using Feynman diagrams. Alternatively, the NCoder may be regarded as simulating the procedure of statistical inference whereby high dimensional data is first summarized in terms of several lower dimensional summary statistics (here the $n$-point correlation functions), and subsequent out-of-sample data is generated by inferring the data generating distribution from these statistics. In this way the NCoder suggests a fascinating correspondence between perturbative renormalizability and the sufficiency of models. We demonstrate the efficacy of the NCoder by applying it to the generation of MNIST images, and find that generated images can be correctly classified using only information from the first three $n$-point functions of the image distribution.
翻訳日:2024-02-05 18:04:46 公開日:2024-02-01
# ウィンドウフィルタを用いた近似近傍探索

Approximate Nearest Neighbor Search with Window Filters ( http://arxiv.org/abs/2402.00943v1 )

ライセンス: Link先を確認
Joshua Engels, Benjamin Landrum, Shangdi Yu, Laxman Dhulipala, Julian Shun(参考訳) 我々は、$\textit{c-approximate window search}$: データセット内の各点が数値ラベルを持ち、任意のラベル範囲内のクエリに最も近い近傍を見つけることを目的としている近似近辺探索の問題を定義・検討する。 タイムスタンプフィルタによる画像検索や文書検索,コストフィルタによる製品検索といったセマンティック検索の問題は,この問題の自然な例である。 本稿では,従来のc-近似近傍問題の解法を,ウィンドウ探索を解いたデータ構造に変換するためのモジュラーツリーベースフレームワークを提案し,理論的に解析する。 ランダムなラベル値、逆向きに構築された埋め込み、およびリアルタイムのタイムスタンプによる画像検索埋め込みを備えた標準的な近接ベンチマークデータセットでは、同じレベルのリコールで既存のソリューションよりも75\times$のスピードアップが得られる。

We define and investigate the problem of $\textit{c-approximate window search}$: approximate nearest neighbor search where each point in the dataset has a numeric label, and the goal is to find nearest neighbors to queries within arbitrary label ranges. Many semantic search problems, such as image and document search with timestamp filters, or product search with cost filters, are natural examples of this problem. We propose and theoretically analyze a modular tree-based framework for transforming an index that solves the traditional c-approximate nearest neighbor problem into a data structure that solves window search. On standard nearest neighbor benchmark datasets equipped with random label values, adversarially constructed embeddings, and image search embeddings with real timestamps, we obtain up to a $75\times$ speedup over existing solutions at the same level of recall.
翻訳日:2024-02-05 18:04:21 公開日:2024-02-01
# エンタングルメントからの一般化ギブズアンサンブルの保存量

Conserved quantities for Generalized Gibbs Ensemble from Entanglement ( http://arxiv.org/abs/2402.00939v1 )

ライセンス: Link先を確認
Hao Chen and Biao Lian(参考訳) 保存則を持つ緩和量子系は、運動積分としての保存量の制約を含む一般化ギブズ・アンサンブル(GGE)によって近似されると考えられている。 還元密度行列とGEの類似を図示することにより、GGEの保存量の集合を決定するための一般エンタングルメントハミルトン超密度行列(EHSM)フレームワークを自由フェルミオンに示す。 この枠組みは、保存された量はより大きな補助系の固有状態エンタングルメントハミルトニアンの線型重ね合わせであり、そこでは固有状態は一般的な固有モードを占めるフォック状態である。 1次元ハードコアボソンに写像する周期的境界条件を持つ1次元均一なフェルミオンの場合、保存された量は非アベリア GGE となり、従来のアベリア GGE よりも正確にフェルミオンとボソンバイリナーの緩和を予測する。 相互作用モデルへのフレームワークの一般化は、量子可積分性に対する新しい数値的洞察を提供するかもしれない。

Relaxed quantum systems with conservation laws are believed to be approximated by the Generalized Gibbs Ensemble (GGE), which incorporates the constraints of certain conserved quantities serving as integrals of motion. By drawing analogy between reduced density matrix and GGE, we demonstrate for free fermions a generic entanglement Hamiltonian superdensity matrix (EHSM) framework for determining the set of conserved quantities in GGE. The framework proposes that such conserved quantities are linear superposition of eigenstate entanglement Hamiltonians of a larger auxiliary system, where the eigenstates are Fock states occupying the common eigenmodes. For 1D homogeneous free fermions with periodic boundary condition, which maps to 1D hardcore bosons, these conserved quantities lead to an non-Abelian GGE, which predicts the relaxation of both fermion and boson bilinears more accurately than the conventional Abelian GGE. Generalization of the framework to interacting models may provide novel numerical insights for quantum integrability.
翻訳日:2024-02-05 18:03:53 公開日:2024-02-01
# ノイズグラフ状態から有用な絡み合いを抽出できる

Useful entanglement can be extracted from noisy graph states ( http://arxiv.org/abs/2402.00937v1 )

ライセンス: Link先を確認
Konrad Szyma\'nski, Lina Vandr\'e, Otfried G\"uhne(参考訳) クラスター状態とグラフ状態は、一般に、安定化形式論の有用なモデルと、測定に基づく量子計算の発展への道を提供する。 それらの定義構造 - 安定化群 - は測定中に観測できる全ての可能な相関を符号化する。 安定化器構造と互換性のある結果は誤り訂正を可能にする。 ここでは、両方の特性を活用して、量子計算の堅牢な構築ブロックとして使用できる、実現可能な状態の族を設計する。 この方法では、より大きなノイズグラフ状態からより小さな絡み合った状態の抽出に対する実験的なノイズモデルの効果が減少する。 特に、線形拡大グラフ状態からのベル対の抽出の研究 -- これは、グラフを横断する状態テレポーテーションの直接の結果である。 物理キュービットの最小のオーバーヘッドしか持たない線形グラフの適切な設計により,ロバストな絡み合いを抽出できることを示した。 このシナリオは、隣接するサイト間で絡み合いが作成できるシステムに関連している。 この研究で示された結果は、測定に基づく量子計算におけるノイズ低減のための数学的枠組みを提供するかもしれない。 適切なコネクティビティ構造により、ノイズの影響は、現実的なノイズ処理の大きなクラスで最小化できる。

Cluster states and graph states in general offer a useful model of the stabilizer formalism and a path toward the development of measurement-based quantum computation. Their defining structure -- the stabilizer group -- encodes all possible correlations which can be observed during measurement. Those outcomes which are compatible with the stabilizer structure make error correction possible. Here, we leverage both properties to design feasible families of states that can be used as robust building blocks of quantum computation. This procedure reduces the effect of experimentally relevant noise models on the extraction of smaller entangled states from the larger noisy graph state. In particular, we study the extraction of Bell pairs from linearly extended graph states -- this has the immediate consequence for state teleportation across the graph. We show that robust entanglement can be extracted by proper design of the linear graph with only a minimal overhead of the physical qubits. This scenario is relevant to systems in which the entanglement can be created between neighboring sites. The results shown in this work may provide a mathematical framework for noise reduction in measurement-based quantum computation. With proper connectivity structures, the effect of noise can be minimized for a large class of realistic noise processes.
翻訳日:2024-02-05 18:03:34 公開日:2024-02-01
# 量子状態移動の強化: 量子カオスの振る舞いを回避

Enhanced quantum state transfer: Circumventing quantum chaotic behavior ( http://arxiv.org/abs/2402.00936v1 )

ライセンス: Link先を確認
Liang Xiang, Jiachen Chen, Zitian Zhu, Zixuan Song, Zehang Bao, Xuhao Zhu, Feitong Jin, Ke Wang, Shibo Xu, Yiren Zou, Hekang Li, Zhen Wang, Chao Song, Alexander Yue, Justine Partridge, Qiujiang Guo, Rubem Mondaini, H. Wang and Richard T. Scalettar(参考訳) 高忠実な量子通信を実現する能力は、汎用量子コンピューティングデバイスを構築するのに必要な多くの面の1つである。 量子処理、センシング、ストレージに加えて、結果の量子状態の転送には、古典的な通信において並列性がないような注意深い設計が必要である。 固体量子系における量子情報伝達の実験的な実証は、ほとんど量子ビットを持たない小さな鎖に限られており、しばしば非ジェネリックなスキームに依存している。 ここでは, 量子カオス的挙動の克服に深く根ざした一般最適化手順を伴って, 30個の可変量子ビットを持つ大規模超伝導量子回路を用いて, 2次元量子ネットワークにおける少数粒子量子状態の転送を行うスケーラブルなプロトコルを実証する。 これには、シングルキュービット励起と2キュービットの絡み合った状態と、多体効果が存在する2つの励起が含まれる。 我々のアプローチは、量子回路の汎用性と相まって、たとえ実際の量子デバイスに固有の不完全さによって妨げられたとしても、分散量子プロセッサやレジスタを接続するための短距離量子通信への道を開く。

The ability to realize high-fidelity quantum communication is one of the many facets required to build generic quantum computing devices. In addition to quantum processing, sensing, and storage, transferring the resulting quantum states demands a careful design that finds no parallel in classical communication. Existing experimental demonstrations of quantum information transfer in solid-state quantum systems are largely confined to small chains with few qubits, often relying upon non-generic schemes. Here, by using a large-scale superconducting quantum circuit featuring thirty-six tunable qubits, accompanied by general optimization procedures deeply rooted in overcoming quantum chaotic behavior, we demonstrate a scalable protocol for transferring few-particle quantum states in a two-dimensional quantum network. These include single-qubit excitation and also two-qubit entangled states, and two excitations for which many-body effects are present. Our approach, combined with the quantum circuit's versatility, paves the way to short-distance quantum communication for connecting distributed quantum processors or registers, even if hampered by inherent imperfections in actual quantum devices.
翻訳日:2024-02-05 18:03:17 公開日:2024-02-01
# 連続的乱れ分布をもつ2次元スピンモデルの数値連結クラスター展開

Numerical linked cluster expansions for two-dimensional spin models with continuous disorder distributions ( http://arxiv.org/abs/2402.00931v1 )

ライセンス: Link先を確認
Mahmoud Abdelshafy, Marcos Rigol(参考訳) 本研究では, 十分に大きなビルディングブロックに基づく数値連成クラスタ展開 (NLCE) を用いて, 連続的な乱れ分布を持つスピン格子モデルの熱力学特性の高精度な低温特性が得られることを示す。 我々の主な発見は、nlceクラスタ上の直接的障害平均を用いて、重みを計算する前にそのような結果が得られることである。 L, 正方形, 矩形構造ブロックに基づく3つの異なるNLCEを用いた概念証明を提供する。 古典的(Ising)と量子的(Heisenberg)のスピン-$\frac{1}{2}$モデルの両方を考慮すると、収束はモデル内の関連するエネルギースケールよりも最大2桁低い温度まで達成可能であることを示す。 さらに、ある次元において、エネルギーのような観測可能なものを基底状態の値まで計算できることを示す。

We show that numerical linked cluster expansions (NLCEs) based on sufficiently large building blocks can be used to obtain accurate low-temperature results for the thermodynamic properties of spin lattice models with continuous disorder distributions. Our main finding is that such results can be obtained using direct disorder averages on the NLCE clusters before computing their weights. We provide a proof of concept using three different NLCEs based on L, square, and rectangle building blocks. We consider both classical (Ising) and quantum (Heisenberg) spin-$\frac{1}{2}$ models and show that convergence can be achieved down to temperatures that are up to two orders of magnitude lower than the relevant energy scale in the model. Additionally, we provide evidence that in one dimension one can compute observables such as the energy down to their ground state values.
翻訳日:2024-02-05 18:02:57 公開日:2024-02-01
# 統計的および機械学習による遺伝子発現プロファイリングの比較分析

A Comparative Analysis of Gene Expression Profiling by Statistical and Machine Learning Approaches ( http://arxiv.org/abs/2402.00926v1 )

ライセンス: Link先を確認
Myriam Bontonou, Ana\"is Haget, Maria Boulougouri, Benjamin Audit, Pierre Borgnat, Jean-Michel Arbona(参考訳) 遺伝子発現データから表現型を分類するために多くの機械学習モデルが提案されている。 優れた性能に加えて、これらのモデルは、決定のための説明を抽出することによって、表現型についてある程度の理解を提供する可能性がある。 これらの説明は、予測の重要性順にランク付けされた遺伝子のリストの形式をとることが多く、最も上位の遺伝子は表現型と関連していると解釈されている。 このような説明の生物学的および方法論的限界について論じる。 TCGA、GTEx、TARGETデータベースからがんおよび健康組織サンプルを収集するいくつかのデータセットで実験が行われた。 ロジスティック回帰、多層パーセプトロン、グラフニューラルネットワークを含む機械学習モデルのコレクションを訓練し、それらのがんタイプに応じてサンプルを分類する。 遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られ、相互情報やDESeq2、EdgeRといった古典的な統計特徴選択法と比較される。 興味深いことに、簡単なタスクでは、ブラックボックスニューラルネットワークによって学習された情報は微分表現の概念と関連している。 いずれの場合も、最良の遺伝子を含む小さな集合は良い分類を達成するのに十分である。 しかし、これらの遺伝子は方法によって大きく異なり、類似した分類性能は多数の下位遺伝子で達成できる。 結論として, これらの手法は, 特定の病理に特徴的なバイオマーカーの同定を可能にするが, 選択された遺伝子セットの完全性や, 基礎となる生物学的プロセスの同定による説明可能性に疑問を呈する。

Many machine learning models have been proposed to classify phenotypes from gene expression data. In addition to their good performance, these models can potentially provide some understanding of phenotypes by extracting explanations for their decisions. These explanations often take the form of a list of genes ranked in order of importance for the predictions, the highest-ranked genes being interpreted as linked to the phenotype. We discuss the biological and the methodological limitations of such explanations. Experiments are performed on several datasets gathering cancer and healthy tissue samples from the TCGA, GTEx and TARGET databases. A collection of machine learning models including logistic regression, multilayer perceptron, and graph neural network are trained to classify samples according to their cancer type. Gene rankings are obtained from explainability methods adapted to these models, and compared to the ones from classical statistical feature selection methods such as mutual information, DESeq2, and EdgeR. Interestingly, on simple tasks, we observe that the information learned by black-box neural networks is related to the notion of differential expression. In all cases, a small set containing the best-ranked genes is sufficient to achieve a good classification. However, these genes differ significantly between the methods and similar classification performance can be achieved with numerous lower ranked genes. In conclusion, although these methods enable the identification of biomarkers characteristic of certain pathologies, our results question the completeness of the selected gene sets and thus of explainability by the identification of the underlying biological processes.
翻訳日:2024-02-05 18:02:40 公開日:2024-02-01
# 時間不均一確率微分方程式に対するフィッシャー情報散逸

Fisher information dissipation for time inhomogeneous stochastic differential equations ( http://arxiv.org/abs/2402.01036v1 )

ライセンス: Link先を確認
Qi Feng, Xinzhe Zuo, Wuchen Li(参考訳) 時間不均一な変数確率微分方程式(SDE)に対するリアプノフ収束解析を行う。 典型的な例としては、過減衰、不可逆ドリフト、過減衰ランジュバンダイナミクスがある。 まず,ランジュバン力学の確率遷移方程式を,時間依存最適輸送量に関する確率空間におけるクルバック・ライバー分岐の修正勾配流として定式化した。 この定式化は、時間依存目標分布のクラスに依存する勾配と非勾配の両方を含む。 次に,ライプノフ関数として時間依存なフィッシャー情報を選択する。 SDEの確率密度関数の収束を保証する時間依存型ヘッセン行列条件を開発する。 いくつかの時間的不均質ランゲヴィン力学に対する提案条件の検証を行う。 過減衰ランジュバンダイナミクスに対しては、強い凸ポテンシャル関数を持つシミュレーションアニーリングダイナミクスに対して、l^1$距離での$o(t^{-1/2})$収束が証明される。 可逆ドリフトランゲヴィン力学では、漸近的状態における目標分布に対する収束性の改善が証明される。 また, 低減衰ランジュバンダイナミクスの収束条件を検証した。 数値例は時間依存ランジュバン力学の収束結果を示している。

We provide a Lyapunov convergence analysis for time-inhomogeneous variable coefficient stochastic differential equations (SDEs). Three typical examples include overdamped, irreversible drift, and underdamped Langevin dynamics. We first formula the probability transition equation of Langevin dynamics as a modified gradient flow of the Kullback-Leibler divergence in the probability space with respect to time-dependent optimal transport metrics. This formulation contains both gradient and non-gradient directions depending on a class of time-dependent target distribution. We then select a time-dependent relative Fisher information functional as a Lyapunov functional. We develop a time-dependent Hessian matrix condition, which guarantees the convergence of the probability density function of the SDE. We verify the proposed conditions for several time-inhomogeneous Langevin dynamics. For the overdamped Langevin dynamics, we prove the $O(t^{-1/2})$ convergence in $L^1$ distance for the simulated annealing dynamics with a strongly convex potential function. For the irreversible drift Langevin dynamics, we prove an improved convergence towards the target distribution in an asymptotic regime. We also verify the convergence condition for the underdamped Langevin dynamics. Numerical examples demonstrate the convergence results for the time-dependent Langevin dynamics.
翻訳日:2024-02-05 17:54:32 公開日:2024-02-01
# 量子多重固有値ガウスフィルタ探索:効率的かつ汎用的な量子位相推定法

Quantum Multiple Eigenvalue Gaussian filtered Search: an efficient and versatile quantum phase estimation method ( http://arxiv.org/abs/2402.01013v1 )

ライセンス: Link先を確認
Zhiyan Ding and Haoya Li and Lin Lin and HongKang Ni and Lexing Ying and Ruizhe Zhang(参考訳) 量子位相推定は最も強力な量子プリミティブの1つである。 本研究は、量子多重固有値ガウスフィルタ(QMEGS)という、多重固有値推定問題に対する新しいアプローチを提案する。 QMEGSはアダマール試験回路構造を利用しており、単純な古典的な後処理を必要とする。 QMEGSは以下の2つの特性を同時に満たす最初のアルゴリズムである。 2) 正のエネルギーギャップと初期状態への追加仮定により,QMEGS は標準量子位相推定アルゴリズムと比較して回路深さを著しく減らし,すべての支配固有値を$\epsilon$精度で推定できる。 最も好都合なシナリオでは、最大ランタイムを$\log(1/\epsilon)$に抑えることができる。 これはQMEGSが効率的で汎用的なアプローチとして機能し、ギャップ付きシステムとギャップレスシステムの両方で最もよく知られた結果を達成することを意味する。 計算結果から,提案アルゴリズムの有効性を検証した。

Quantum phase estimation is one of the most powerful quantum primitives. This work proposes a new approach for the problem of multiple eigenvalue estimation: Quantum Multiple Eigenvalue Gaussian filtered Search (QMEGS). QMEGS leverages the Hadamard test circuit structure and only requires simple classical postprocessing. QMEGS is the first algorithm to simultaneously satisfy the following two properties: (1) It can achieve the Heisenberg-limited scaling without relying on any spectral gap assumption. (2) With a positive energy gap and additional assumptions on the initial state, QMEGS can estimate all dominant eigenvalues to $\epsilon$ accuracy utilizing a significantly reduced circuit depth compared to the standard quantum phase estimation algorithm. In the most favorable scenario, the maximal runtime can be reduced to as low as $\log(1/\epsilon)$. This implies that QMEGS serves as an efficient and versatile approach, achieving the best-known results for both gapped and gapless systems. Numerical results validate the efficiency of our proposed algorithm in various regimes.
翻訳日:2024-02-05 17:54:17 公開日:2024-02-01
# 人種と性別のステレオタイプのないAI生成顔

AI-generated faces free from racial and gender stereotypes ( http://arxiv.org/abs/2402.01002v1 )

ライセンス: Link先を確認
Nouar AlDahoul, Talal Rahwan, Yasir Zaki(参考訳) 安定拡散のようなテキストから画像への生成AIモデルは、世界中の何百万人もの人々が毎日使っている。 しかし、これらのモデルがどのように人種や性別のステレオタイプを増幅するかに関して多くの懸念が持たれている。 この現象を研究するために,任意の顔画像の人種,性別,年齢グループを予測する分類器を開発し,最先端のパフォーマンスを実現することを示す。 この分類器を用いて、6つの人種、2つの性別、5つの年齢グループ、32の専門職、8つの属性にわたる安定拡散のバイアスを定量化する。 そこで我々は,最先端の代替案に勝る新しいデバイアスソリューションを提案する。 さらに,安定拡散が同一人種の個体が互いに類似していることを示す程度について検討する。 この分析により、中東の男性のほとんどは浅黒い肌でひげを生やし、伝統的な頭飾りを身に着けているという高いステレオタイプが明らかになった。 これらの制限に対処するために、ジェンダーや人種グループ間の顔の多様性を高める新しいソリューションを提案する。 私たちのソリューションはオープンソースで公開されています。

Text-to-image generative AI models such as Stable Diffusion are used daily by millions worldwide. However, many have raised concerns regarding how these models amplify racial and gender stereotypes. To study this phenomenon, we develop a classifier to predict the race, gender, and age group of any given face image, and show that it achieves state-of-the-art performance. Using this classifier, we quantify biases in Stable Diffusion across six races, two genders, five age groups, 32 professions, and eight attributes. We then propose novel debiasing solutions that outperform state-of-the-art alternatives. Additionally, we examine the degree to which Stable Diffusion depicts individuals of the same race as being similar to one another. This analysis reveals a high degree of stereotyping, e.g., depicting most middle eastern males as being dark-skinned, bearded, and wearing a traditional headdress. We address these limitations by proposing yet another novel solution that increases facial diversity across genders and racial groups. Our solutions are open-sourced and made publicly available.
翻訳日:2024-02-05 17:54:01 公開日:2024-02-01
# 相関誤差を用いた多変量確率時系列予測

Multivariate Probabilistic Time Series Forecasting with Correlated Errors ( http://arxiv.org/abs/2402.01000v1 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Lijun Sun(参考訳) 誤差間の相関のモデル化は、確率時系列予測における予測の不確かさをいかに正確に定量化できるかに密接に関係している。 近年の多変量モデルでは,誤差間の同時相関を考慮し,統計的単純性のために時間的に独立しているという仮定が一般的である。 しかし、実世界の観測はしばしばこの仮定から逸脱し、エラーは通常、時間的に相関した共変量の排除のような様々な要因により、実質的な自己相関を示す。 本研究では,誤差の自己相関を効果的に特徴付け可能な共分散行列の低ランクプラス対角パラメータ化に基づく効率的な手法を提案する。 提案手法にはいくつかの望ましい性質がある: 複雑性は時系列数とスケールせず、その結果の共分散は予測の校正に利用でき、ガウス分布誤差を持つ任意のモデルとシームレスに統合できる。 GPVarとTransformerという2つの異なる神経予測モデルを用いて、これらの特性を実証的に示す。 実験により,複数の実世界のデータセット上での予測精度の向上と不確実性定量化の質について,本手法の有効性を確認した。

Modeling the correlations among errors is closely associated with how accurately the model can quantify predictive uncertainty in probabilistic time series forecasting. Recent multivariate models have made significant progress in accounting for contemporaneous correlations among errors, while a common assumption on these errors is that they are temporally independent for the sake of statistical simplicity. However, real-world observations often deviate from this assumption, since errors usually exhibit substantial autocorrelation due to various factors such as the exclusion of temporally correlated covariates. In this work, we propose an efficient method, based on a low-rank-plus-diagonal parameterization of the covariance matrix, which can effectively characterize the autocorrelation of errors. The proposed method possesses several desirable properties: the complexity does not scale with the number of time series, the resulting covariance can be used for calibrating predictions, and it can seamlessly integrate with any model with Gaussian-distributed errors. We empirically demonstrate these properties using two distinct neural forecasting models -- GPVar and Transformer. Our experimental results confirm the effectiveness of our method in enhancing predictive accuracy and the quality of uncertainty quantification on multiple real-world datasets.
翻訳日:2024-02-05 17:53:42 公開日:2024-02-01
# mmID:ヒト同定のための高分解能mWaveイメージング

mmID: High-Resolution mmWave Imaging for Human Identification ( http://arxiv.org/abs/2402.00996v1 )

ライセンス: Link先を確認
Sakila S. Jayaweera, Sai Deepika Regani, Yuqian Hu, Beibei Wang, and K. J. Ray Liu(参考訳) RFイメージングによる正確な人間の識別は、主に開口径の制限とそれに伴う画像分解能への影響による、永続的な課題である。 既存のイメージングソリューションは、骨格関節を推定することで、深層ニューラルネットワークに基づくポーズ推定、アクティビティ認識、ヒューマントラッキングなどのタスクを可能にする。 そこで本研究では,条件付き生成対向ネットワーク(cGAN)を用いて人体全体を推定することにより,画像の分解能を向上させることを提案する。 トレーニングの複雑さを軽減するために, MUltiple SIgnal Classification (MUSIC) アルゴリズムを用いて推定空間スペクトルをcGANに入力する。 本システムは,人間の識別に有用な特徴を抽出できる,環境に依存しない高解像度画像を生成する。 単純な畳み込み層に基づく分類網を用いて最終識別結果を得る。 実験結果から,訓練した発電機が生成した画像の解像度は,人間の識別を可能にするのに十分高いことがわかった。 kinectデバイスと平均シルエット差が5%の高分解能の精度を示している。 複数のテスタの異なる環境における広範囲な実験により、静的なターゲット識別のための見えない環境で、我々のシステムが総合的なテスト精度を93%達成できることが実証された。

Achieving accurate human identification through RF imaging has been a persistent challenge, primarily attributed to the limited aperture size and its consequent impact on imaging resolution. The existing imaging solution enables tasks such as pose estimation, activity recognition, and human tracking based on deep neural networks by estimating skeleton joints. In contrast to estimating joints, this paper proposes to improve imaging resolution by estimating the human figure as a whole using conditional generative adversarial networks (cGAN). In order to reduce training complexity, we use an estimated spatial spectrum using the MUltiple SIgnal Classification (MUSIC) algorithm as input to the cGAN. Our system generates environmentally independent, high-resolution images that can extract unique physical features useful for human identification. We use a simple convolution layers-based classification network to obtain the final identification result. From the experimental results, we show that resolution of the image produced by our trained generator is high enough to enable human identification. Our finding indicates high-resolution accuracy with 5% mean silhouette difference to the Kinect device. Extensive experiments in different environments on multiple testers demonstrate that our system can achieve 93% overall test accuracy in unseen environments for static human target identification.
翻訳日:2024-02-05 17:53:21 公開日:2024-02-01
# GAN(Generative Adversarial Networks)を用いた仮想フィットルーム構築のための費用効率の良いアプローチ

A Cost-Efficient Approach for Creating Virtual Fitting Room using Generative Adversarial Networks (GANs) ( http://arxiv.org/abs/2402.00994v1 )

ライセンス: Link先を確認
Kirolos Attallah, Girgis Zaky, Nourhan Abdelrhim, Kyrillos Botros, Amjad Dife, and Nermin Negied(参考訳) 世界中の顧客は、その服が購入前にどのように適合するかを知りたがっている。 そのため、本来はお客はレンガとモルタルの洋服の買い物を好み、購入前に商品を試すことができる。 しかし、新型コロナウイルス(covid-19)のパンデミックの後、多くの売り手はオンラインショッピングに移り住んだり、部屋を閉めたりした。 この服が購入後に購入者に不適当であるという事実は、新しいAI技術を使って、モバイルアプリケーションという形で、オンラインプラットフォームや仮想フィッティングルーム(VFR)を構築することや、Webページを使ってデプロイされたモデルを考えることにつながりました。 さらに、ニーズに対して多くの検索時間を節約できる。 さらに、客がより早く試せるような特殊な鏡を用いて同じ技術を適用することで、物理的な店舗の混雑や頭痛を軽減できる。 一方、事業主の視点では、このプロジェクトはオンライン販売を高度に増加させ、物理的な試行の問題を回避して製品の品質を低下させる。 本研究で使用される主なアプローチは、GAN(Generative Adversarial Networks)と画像処理技術を組み合わせて、人像と布像である2つの入力画像から1つの出力画像を生成することである。 この業績は文学における最先端のアプローチを上回った。

Customers all over the world want to see how the clothes fit them or not before purchasing. Therefore, customers by nature prefer brick-and-mortar clothes shopping so they can try on products before purchasing them. But after the Pandemic of COVID19 many sellers either shifted to online shopping or closed their fitting rooms which made the shopping process hesitant and doubtful. The fact that the clothes may not be suitable for their buyers after purchase led us to think about using new AI technologies to create an online platform or a virtual fitting room (VFR) in the form of a mobile application and a deployed model using a webpage that can be embedded later to any online store where they can try on any number of cloth items without physically trying them. Besides, it will save much searching time for their needs. Furthermore, it will reduce the crowding and headache in the physical shops by applying the same technology using a special type of mirror that will enable customers to try on faster. On the other hand, from business owners' perspective, this project will highly increase their online sales, besides, it will save the quality of the products by avoiding physical trials issues. The main approach used in this work is applying Generative Adversarial Networks (GANs) combined with image processing techniques to generate one output image from two input images which are the person image and the cloth image. This work achieved results that outperformed the state-of-the-art approaches found in literature.
翻訳日:2024-02-05 17:53:03 公開日:2024-02-01
# 積み重ねによる圧縮画像品質評価

Compressed image quality assessment using stacking ( http://arxiv.org/abs/2402.00993v1 )

ライセンス: Link先を確認
S. Farhad Hosseini-Benvidi, Hossein Motamednia, Azadeh Mansouri, Mohammadreza Raei, Ahmad Mahmoudi-Aznaveh(参考訳) 画像品質評価に普遍的な指標がないことはよく知られている。 この場合、歪み特異的なメトリクスはより信頼性が高い。 画像圧縮によって課されるアーティファクトは、様々な歪みの組み合わせと見なすことができる。 画像のコンテキストによって、この組み合わせは異なる可能性がある。 その結果,圧縮画像品質評価において,一般化が大きな課題であると考えられる。 このアプローチでは、信頼性の高い方法を提供するためにスタックが使用される。 表示されたIQAには意味情報と低レベル情報の両方が使われ、人間の視覚システムを予測する。 さらに、圧縮画像品質評価のためのフル参照法を改善するために、フル参照(FR)モデルとNo-Reference(NR)モデルの結果を集約する。 clic2024の知覚イメージチャレンジの品質ベンチマークの精度は79.6\%となり,提案手法の有効性が示された。

It is well-known that there is no universal metric for image quality evaluation. In this case, distortion-specific metrics can be more reliable. The artifact imposed by image compression can be considered as a combination of various distortions. Depending on the image context, this combination can be different. As a result, Generalization can be regarded as the major challenge in compressed image quality assessment. In this approach, stacking is employed to provide a reliable method. Both semantic and low-level information are employed in the presented IQA to predict the human visual system. Moreover, the results of the Full-Reference (FR) and No-Reference (NR) models are aggregated to improve the proposed Full-Reference method for compressed image quality evaluation. The accuracy of the quality benchmark of the clic2024 perceptual image challenge was achieved 79.6\%, which illustrates the effectiveness of the proposed fusion-based approach.
翻訳日:2024-02-05 17:52:35 公開日:2024-02-01
# 多変量点過程に対する自己教師付きコントラスト事前学習

Self-Supervised Contrastive Pre-Training for Multivariate Point Processes ( http://arxiv.org/abs/2402.00987v1 )

ライセンス: Link先を確認
Xiao Shou, Dharmashankar Subramanian, Debarun Bhattacharjya, Tian Gao, Kristin P. Bennet(参考訳) 自己監督は,BERTやGPT-3といった大規模言語モデルを含む,急速に普及している基礎モデルの表現学習の指標の1つであるが,多変量イベントストリームの文脈では,私たちの知る限りでは追求されていない。 変圧器エンコーダを用いた多変量点プロセスのための自己教師型学習のための新しいパラダイムを提案する。 具体的には、ランダムなイベントエポックをマスクするだけでなく、イベントが発生しないランダムにサンプリングされた"ボイド"エポックを挿入するエンコーダのための新しい事前学習戦略を設計する。 下流タスクを改善するために、実イベントと擬似空洞インスタンスを比較するコントラストモジュールを導入する。 事前トレーニングされたモデルは、一般的な事前トレーニングされた言語モデルの典型的な転送と同様、より小さなイベントデータセットで微調整することができる。 本稿では,合成データセットと3つの実応用を用いた次世代予測タスクにおける提案手法の有効性を実証し,最先端モデルと比較して最大20%の性能向上を観測した。

Self-supervision is one of the hallmarks of representation learning in the increasingly popular suite of foundation models including large language models such as BERT and GPT-3, but it has not been pursued in the context of multivariate event streams, to the best of our knowledge. We introduce a new paradigm for self-supervised learning for multivariate point processes using a transformer encoder. Specifically, we design a novel pre-training strategy for the encoder where we not only mask random event epochs but also insert randomly sampled "void" epochs where an event does not occur; this differs from the typical discrete-time pretext tasks such as word-masking in BERT but expands the effectiveness of masking to better capture continuous-time dynamics. To improve downstream tasks, we introduce a contrasting module that compares real events to simulated void instances. The pre-trained model can subsequently be fine-tuned on a potentially much smaller event dataset, similar conceptually to the typical transfer of popular pre-trained language models. We demonstrate the effectiveness of our proposed paradigm on the next-event prediction task using synthetic datasets and 3 real applications, observing a relative performance boost of as high as up to 20% compared to state-of-the-art models.
翻訳日:2024-02-05 17:52:23 公開日:2024-02-01
# 情報理論によるNLP分類タスクの解析

An Information-Theoretic Approach to Analyze NLP Classification Tasks ( http://arxiv.org/abs/2402.00978v1 )

ライセンス: Link先を確認
Luran Wang, Mark Gales, Vatsal Raina(参考訳) 出力に対する入力の重要性を理解することは、多くのタスクで役立ちます。 この研究は、テキスト分類タスクにおける入力の影響を分析するための情報理論フレームワークを提供する。 自然言語処理(nlp)タスクは、要素がテキストブロックである出力変数を予測するために、単一の要素入力または複数の要素入力のいずれかを取る。 各テキスト要素には、関連する意味の意味と言語的実現の2つの要素がある。 フレームワークを紹介するために、マルチ選択読解(MCRC)と感情分類(SC)が選択される。 MCRCでは,質問に対する文脈の影響が,より困難なデータセットに還元されることが判明した。 特に、より困難な文脈では、質問の複雑さがより多様になる。 したがって、テスト担当者は、評価のために複数の選択肢の質問を設計する際のコンテキストの選択を慎重に検討する必要がある。 SCでは、入力されたテキストの意味が、感情を決定する際の言語的実現と比較して、支配的(考慮されるすべてのデータセットの80%以上)であることがわかった。 フレームワークは、https://github.com/WangLuran/nlp-element-influenceで利用可能である。

Understanding the importance of the inputs on the output is useful across many tasks. This work provides an information-theoretic framework to analyse the influence of inputs for text classification tasks. Natural language processing (NLP) tasks take either a single element input or multiple element inputs to predict an output variable, where an element is a block of text. Each text element has two components: an associated semantic meaning and a linguistic realization. Multiple-choice reading comprehension (MCRC) and sentiment classification (SC) are selected to showcase the framework. For MCRC, it is found that the context influence on the output compared to the question influence reduces on more challenging datasets. In particular, more challenging contexts allow a greater variation in complexity of questions. Hence, test creators need to carefully consider the choice of the context when designing multiple-choice questions for assessment. For SC, it is found the semantic meaning of the input text dominates (above 80\% for all datasets considered) compared to its linguistic realisation when determining the sentiment. The framework is made available at: https://github.com/WangLuran/nlp-element-influence
翻訳日:2024-02-05 17:52:00 公開日:2024-02-01
# 深層学習によるフィンセント・ツー・フェイズフレームワークの強化

Enhanced fringe-to-phase framework using deep learning ( http://arxiv.org/abs/2402.00977v1 )

ライセンス: Link先を確認
Won-Hoe Kim, Bongjoong Kim, Hyung-Gun Chi, Jae-Sang Hyun(参考訳) フランジプロジェクションプロファイロメトリー(FPP)では、光3D画像の構造化において、限られた縞パターンで頑健で正確な3D再構成を実現することが課題である。 従来の方法はフリンジ画像のセットを必要とするが、1つまたは2つのパターンのみを使用すると位相回復とアンラッピングが複雑になる。 本研究では、2つのフランジ画像を絶対位相に変換する対称核融合ネットワークであるSFNetを紹介する。 出力信頼性を高めるために,入力として使用するものと異なる周波数のフリンジ画像からの情報を取り込むことにより,洗練された位相を予測する。 これにより、たった2つの画像で高い精度を実現できます。 比較実験とアブレーション実験により,提案手法の有効性が検証された。 データセットとコードは、当社のプロジェクトページ https://wonhoe-kim.github.io/SFNetで公開されています。

In Fringe Projection Profilometry (FPP), achieving robust and accurate 3D reconstruction with a limited number of fringe patterns remains a challenge in structured light 3D imaging. Conventional methods require a set of fringe images, but using only one or two patterns complicates phase recovery and unwrapping. In this study, we introduce SFNet, a symmetric fusion network that transforms two fringe images into an absolute phase. To enhance output reliability, Our framework predicts refined phases by incorporating information from fringe images of a different frequency than those used as input. This allows us to achieve high accuracy with just two images. Comparative experiments and ablation studies validate the effectiveness of our proposed method. The dataset and code are publicly accessible on our project page https://wonhoe-kim.github.io/SFNet.
翻訳日:2024-02-05 17:51:43 公開日:2024-02-01
# 動的停止を伴うリカレント変圧器

Recurrent Transformers with Dynamic Halt ( http://arxiv.org/abs/2402.00976v1 )

ライセンス: Link先を確認
Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) 本稿では,(1)普遍的変圧器に類似した深さ方向の繰り返しを組み込むアプローチ,(2)時間的潜時ボトルネックのようなチャンク方向の時間的反復を組み込むアプローチという2つの主要な変圧器強化手法の帰納的バイアスについて検討する。 さらに,上記手法を拡張・組み合わせた新しい手法を提案し,検討する。例えば,ユニバーサルトランスフォーマのグローバル平均ベース動的停止機構と,ユニバーサルトランスフォーマの要素による時間的潜在ボトルネックの強化を提案する。 モデルを比較し,Long Range Arena(LRA)やフリップフロップ言語モデリング,ListOps,Logical Inferenceなど,いくつかの診断タスクにおける帰納バイアスを探索する。

In this paper, we study the inductive biases of two major approaches to augmenting Transformers with a recurrent mechanism - (1) the approach of incorporating a depth-wise recurrence similar to Universal Transformers; and (2) the approach of incorporating a chunk-wise temporal recurrence like Temporal Latent Bottleneck. Furthermore, we propose and investigate novel ways to extend and combine the above methods - for example, we propose a global mean-based dynamic halting mechanism for Universal Transformer and an augmentation of Temporal Latent Bottleneck with elements from Universal Transformer. We compare the models and probe their inductive biases in several diagnostic tasks such as Long Range Arena (LRA), flip-flop language modeling, ListOps, and Logical Inference.
翻訳日:2024-02-05 17:51:30 公開日:2024-02-01
# 多元強化学習を用いた粗粒部分微分方程式のクロージャ発見

Closure Discovery for Coarse-Grained Partial Differential Equations using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.00972v1 )

ライセンス: Link先を確認
Jan-Philipp von Bassewitz, Sebastian Kaltenbach, Petros Koumoutsakos(参考訳) 天気、山火事、疫病などの臨界現象の信頼できる予測は、偏微分方程式(pdes)によって記述されたモデルに基づいてしばしば確立される。 しかしながら、このようなPDEにおける時空間スケールの全範囲を捉えるシミュレーションは、しばしば違法に高価である。 したがって、ヒューリスティックスと経験的クロージャ項を用いた粗粒度シミュレーションは、しばしば代替として利用される。 本稿では,MARL(Multi-Agent Reinforcement Learning)を用いた未解決PDEにおけるクロージャの同定手法を提案する。 MARLの定式化は帰納バイアスを取り入れ、畳み込みニューラルネットワーク(CNN)で表される中央ポリシーを効果的に展開することで局所性を活用する。 我々は, 対流方程式とバーガース方程式の数値解を用いて, MARLの機能と限界を示す。 以上の結果から, 分配試験および流通試験の精度は, 全スケールの解決と比較して有意に向上した。

Reliable predictions of critical phenomena, such as weather, wildfires and epidemics are often founded on models described by Partial Differential Equations (PDEs). However, simulations that capture the full range of spatio-temporal scales in such PDEs are often prohibitively expensive. Consequently, coarse-grained simulations that employ heuristics and empirical closure terms are frequently utilized as an alternative. We propose a novel and systematic approach for identifying closures in under-resolved PDEs using Multi-Agent Reinforcement Learning (MARL). The MARL formulation incorporates inductive bias and exploits locality by deploying a central policy represented efficiently by Convolutional Neural Networks (CNN). We demonstrate the capabilities and limitations of MARL through numerical solutions of the advection equation and the Burgers' equation. Our results show accurate predictions for in- and out-of-distribution test cases as well as a significant speedup compared to resolving all scales.
翻訳日:2024-02-05 17:51:14 公開日:2024-02-01
# FuseFormer: 画像と熱画像の融合のためのトランスフォーマー

FuseFormer: A Transformer for Visual and Thermal Image Fusion ( http://arxiv.org/abs/2402.00971v1 )

ライセンス: Link先を確認
Aytekin Erdogan, Erdem Akagunduz(参考訳) イメージ融合(image fusion)とは、異なるセンサーからの画像を、関連するすべての情報を組み込んだ単一の画像に合成するプロセスである。 最先端の画像融合技術の大半は、深層学習を用いて意味のある特徴を抽出するが、画像のより広い文脈を考慮せずに主に局所的な特徴を統合する。 この制限を克服するために、トランスフォーマティブベースのモデルが有望なソリューションとして登場し、アテンションメカニズムを通じて一般的なコンテキスト依存性を捉えることを目的としている。 画像融合には基礎的な真理がないため、損失関数は構造類似度指数測定(SSIM)などの評価指標に基づいて構造化される。 これにより、SSIMに対するバイアスが生じ、入力されたビジュアルバンドイメージが生成される。 本研究の目的は,評価指標を損失関数として用いる際の限界を緩和する画像融合の新しい手法を提案することである。 本手法は,ローカルとグローバルの両方のコンテキスト情報を扱うトランスフォーマティブ・マルチスケール・フュージョン・ストラテジーを統合する。 この統合により、画像融合プロセスの個々のコンポーネントが洗練されるだけでなく、全体の有効性も大幅に向上する。 提案手法は,2段階の訓練手法を踏襲し,まず,複数スケールの深部特徴を抽出するオートエンコーダを訓練する。 第2段階では、核融合ブロックを統合し、前述の損失関数を変更する。 マルチスケール機能は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーを組み合わせることで融合される。 CNNはローカル機能をキャプチャするために使用され、Transformerは一般的なコンテキスト機能の統合を処理する。

Image fusion is the process of combining images from different sensors into a single image that incorporates all relevant information. The majority of state-of-the-art image fusion techniques use deep learning methods to extract meaningful features; however, they primarily integrate local features without considering the image's broader context. To overcome this limitation, Transformer-based models have emerged as a promising solution, aiming to capture general context dependencies through attention mechanisms. Since there is no ground truth for image fusion, the loss functions are structured based on evaluation metrics, such as the structural similarity index measure (SSIM). By doing so, we create a bias towards the SSIM and, therefore, the input visual band image. The objective of this study is to propose a novel methodology for image fusion that mitigates the limitations associated with using evaluation metrics as loss functions. Our approach integrates a transformer-based multi-scale fusion strategy, which adeptly addresses both local and global context information. This integration not only refines the individual components of the image fusion process but also significantly enhances the overall efficacy of the method. Our proposed method follows a two-stage training approach, where an auto-encoder is initially trained to extract deep features at multiple scales at the first stage. For the second stage, we integrate our fusion block and change the loss function as mentioned. The multi-scale features are fused using a combination of Convolutional Neural Networks (CNNs) and Transformers. The CNNs are utilized to capture local features, while the Transformer handles the integration of general context features.
翻訳日:2024-02-05 17:50:59 公開日:2024-02-01
# KG質問応答のためのエンティティ事前学習GPTによるSPARQL生成

SPARQL Generation with Entity Pre-trained GPT for KG Question Answering ( http://arxiv.org/abs/2402.00969v1 )

ライセンス: Link先を確認
Diego Bustamante, Hideaki Takeda(参考訳) 知識グラフの人気はここ数年急速に伸びている。 これらの知識はすべて、インターネット上の多くのオンラインデータベースを通じてクエリすることができる。 しかし、プログラマでないユーザーがどんな情報にもアクセスできれば、それは素晴らしい成果だ。 自然言語処理ツールと多くの課題によって創造性を促進することで、この課題を解決するために多くの努力が払われている。 このアプローチでは、自然言語の質問にリンクする正しいエンティティを仮定し、GPTモデルをトレーニングしてSPARQLクエリを生成する。 そこで我々は,タスクのどの特性をほとんどあるいはゼロショットで解くのがもっとも難しいかを分離し,性能向上のためにすべてのエンティティ(CWA)を事前学習することを提案した。 我々は,SPARQLの精度62.703%の精度,エンティティリンクチャレンジの0.809のF1,質問応答チャレンジの0.009のF1を得た。

Knowledge Graphs popularity has been rapidly growing in last years. All that knowledge is available for people to query it through the many online databases on the internet. Though, it would be a great achievement if non-programmer users could access whatever information they want to know. There has been a lot of effort oriented to solve this task using natural language processing tools and creativity encouragement by way of many challenges. Our approach focuses on assuming a correct entity linking on the natural language questions and training a GPT model to create SPARQL queries from them. We managed to isolate which property of the task can be the most difficult to solve at few or zero-shot and we proposed pre-training on all entities (under CWA) to improve the performance. We obtained a 62.703% accuracy of exact SPARQL matches on testing at 3-shots, a F1 of 0.809 on the entity linking challenge and a F1 of 0.009 on the question answering challenge.
翻訳日:2024-02-05 17:50:33 公開日:2024-02-01
# 機械学習と深層学習モデルによるインスピレーション療法の患者適性の評価

Assessing Patient Eligibility for Inspire Therapy through Machine Learning and Deep Learning Models ( http://arxiv.org/abs/2402.01067v1 )

ライセンス: Link先を確認
Mohsena Chowdhury, Tejas Vyas, Rahul Alapati, Andr\'es M Bur, Guanghui Wang(参考訳) inspire therapyは、閉塞性睡眠時無呼吸に対するfdaが承認した内部神経刺激療法である。 しかし、全ての患者がこの治療に反応するわけではないため、経験豊富な耳鼻咽喉科医が候補を決定することは困難である。 本稿では, 薬物誘発睡眠内視鏡(dise)で撮影された医療データとビデオを用いて, 患者応答性を見極めるために, 機械学習と深層学習技術の両方を活用した最初の試みを行う。 これを実現するため,127名の患者から3つのデータセットを収集し,注釈を付けた。 これら2つのデータセットは舌底と鼻咽頭に焦点をあてた内視鏡的ビデオで構成されている。 第3のデータセットは、患者の臨床情報を構成する。 これらのデータセットを利用して、6つのディープラーニングモデルと5つの古典的機械学習アルゴリズムのパフォーマンスをベンチマークして比較した。 以上の結果から,機械学習と深層学習を応用して患者のインスパイア療法の適性を判断し,今後の進歩への道を開く可能性が示唆された。

Inspire therapy is an FDA-approved internal neurostimulation treatment for obstructive sleep apnea. However, not all patients respond to this therapy, posing a challenge even for experienced otolaryngologists to determine candidacy. This paper makes the first attempt to leverage both machine learning and deep learning techniques in discerning patient responsiveness to Inspire therapy using medical data and videos captured through Drug-Induced Sleep Endoscopy (DISE), an essential procedure for Inspire therapy. To achieve this, we gathered and annotated three datasets from 127 patients. Two of these datasets comprise endoscopic videos focused on the Base of the Tongue and Velopharynx. The third dataset composes the patient's clinical information. By utilizing these datasets, we benchmarked and compared the performance of six deep learning models and five classical machine learning algorithms. The results demonstrate the potential of employing machine learning and deep learning techniques to determine a patient's eligibility for Inspire therapy, paving the way for future advancements in this field.
翻訳日:2024-02-05 17:44:03 公開日:2024-02-01
# IMUGPT 2.0: センサに基づくヒューマンアクティビティ認識のための言語に基づくクロスモーダルトランスファー

IMUGPT 2.0: Language-Based Cross Modality Transfer for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2402.01049v1 )

ライセンス: Link先を確認
Zikang Leng, Amitrajit Bhattacharjee, Hrudhai Rajasekhar, Lizhe Zhang, Elizabeth Bruda, Hyeokhyen Kwon, Thomas Pl\"otz(参考訳) 人間活動認識(HAR)の分野における主要な課題の1つは、大きなラベル付きデータセットの欠如である。 これにより、堅牢で一般化可能なモデルの開発が妨げられる。 近年,データ不足の問題を緩和するクロスモダリティ転送手法が検討されている。 これらのアプローチは、既存のデータセットを、ビデオのようなソースモダリティからターゲットモダリティ(IMU)に変換する。 大規模言語モデル(LLM)やテキスト駆動型モーション合成モデルなどの生成AIモデルの出現に伴い、言語はIMUGPTのような概念の証明と同様に、有望なソースデータモダリティとなった。 本研究では,HARの有効性を決定するために,言語に基づく相互モーダリティ伝達の大規模評価を行う。 本研究では,実際のHARアプリケーションシナリオにおけるIMUGPTの拡張として,生成した仮想IMUデータの関連性を確保するために,無関係な動作シーケンスをフィルタリング可能なモーションフィルタと,仮想IMUデータの生成を効果的かつ効率的な処理で停止するタイミングを決定するための,生成データの多様性を計測する指標のセットを導入する。 我々の多様性指標は、仮想IMUデータの生成に必要な労力を少なくとも50%削減できることを示した。

One of the primary challenges in the field of human activity recognition (HAR) is the lack of large labeled datasets. This hinders the development of robust and generalizable models. Recently, cross modality transfer approaches have been explored that can alleviate the problem of data scarcity. These approaches convert existing datasets from a source modality, such as video, to a target modality (IMU). With the emergence of generative AI models such as large language models (LLMs) and text-driven motion synthesis models, language has become a promising source data modality as well as shown in proof of concepts such as IMUGPT. In this work, we conduct a large-scale evaluation of language-based cross modality transfer to determine their effectiveness for HAR. Based on this study, we introduce two new extensions for IMUGPT that enhance its use for practical HAR application scenarios: a motion filter capable of filtering out irrelevant motion sequences to ensure the relevance of the generated virtual IMU data, and a set of metrics that measure the diversity of the generated data facilitating the determination of when to stop generating virtual IMU data for both effective and efficient processing. We demonstrate that our diversity metrics can reduce the effort needed for the generation of virtual IMU data by at least 50%, which open up IMUGPT for practical use cases beyond a mere proof of concept.
翻訳日:2024-02-05 17:43:45 公開日:2024-02-01
# FPGAの超高速変圧器による粒子物理実験

Ultra Fast Transformers on FPGAs for Particle Physics Experiments ( http://arxiv.org/abs/2402.01047v1 )

ライセンス: Link先を確認
Zhixing Jiang, Dennis Yin, Elham E Khoda, Vladimir Loncar, Ekaterina Govorkova, Eric Moreno, Philip Harris, Scott Hauck, Shih-Chieh Hsu(参考訳) 本研究では, FPGA (Field-Programmable Gate Array) 上でのトランスフォーマーアーキテクチャの実装を, \texttt{hls4ml} ツールを用いて高効率に行うことを提案する。 様々な問題に対するトランスフォーマーモデルの有効性が実証されていることから、粒子物理学における実験トリガーへの応用は重要な関心の対象となっている。 本研究では,マルチヘッドアテンションやソフトマックス層といったトランスフォーマーモデルの重要なコンポーネントを実装した。 提案手法の有効性を評価するため,我々は公開データセットを用いて,粒子物理ジェットのフレーバータグング問題に焦点をあてた。 Xilinx UltraScale+ FPGAでは,CERN Large Hadron Collider実験において,ハードウェアトリガ要件と互換性のある2$\mu$sでレイテンシを記録した。

This work introduces a highly efficient implementation of the transformer architecture on a Field-Programmable Gate Array (FPGA) by using the \texttt{hls4ml} tool. Given the demonstrated effectiveness of transformer models in addressing a wide range of problems, their application in experimental triggers within particle physics becomes a subject of significant interest. In this work, we have implemented critical components of a transformer model, such as multi-head attention and softmax layers. To evaluate the effectiveness of our implementation, we have focused on a particle physics jet flavor tagging problem, employing a public dataset. We recorded latency under 2 $\mu$s on the Xilinx UltraScale+ FPGA, which is compatible with hardware trigger requirements at the CERN Large Hadron Collider experiments.
翻訳日:2024-02-05 17:43:20 公開日:2024-02-01
# LatticeGraphNet:格子構造をシミュレーションする2スケールグラフニューラル演算子

LatticeGraphNet: A two-scale graph neural operator for simulating lattice structures ( http://arxiv.org/abs/2402.01045v1 )

ライセンス: Link先を確認
Ayush Jain, Ehsan Haghighat, Sai Nelaturi(参考訳) 本研究では,三次元格子部と構造物の高コスト非線形有限要素シミュレーションのためのサロゲートモデルとして設計された格子グラフネット (lgn) について述べる。 lgn-iは格子の縮小ダイナミクスを学習し、lgn-iiは縮小表現から四面体メッシュへのマッピングを学ぶ。 lgnは任意の格子の変形を予測できるため、名前演算子となる。 提案手法は,格子や構造物の機械的応答を評価する上で,GNOを効率的な代理モデルとして用いることにより,予測時間を大幅に短縮する。

This study introduces a two-scale Graph Neural Operator (GNO), namely, LatticeGraphNet (LGN), designed as a surrogate model for costly nonlinear finite-element simulations of three-dimensional latticed parts and structures. LGN has two networks: LGN-i, learning the reduced dynamics of lattices, and LGN-ii, learning the mapping from the reduced representation onto the tetrahedral mesh. LGN can predict deformation for arbitrary lattices, therefore the name operator. Our approach significantly reduces inference time while maintaining high accuracy for unseen simulations, establishing the use of GNOs as efficient surrogate models for evaluating mechanical responses of lattices and structures.
翻訳日:2024-02-05 17:43:05 公開日:2024-02-01
# 事前トレーニングとドメイン適応のためのトークン化を最大限に活用する

Getting the most out of your tokenizer for pre-training and domain adaptation ( http://arxiv.org/abs/2402.01035v1 )

ライセンス: Link先を確認
Gautier Dagan, Gabriele Synnaeve, Baptiste Rozi\`ere(参考訳) トークン化は、現代のllmの未熟でしばしば無視されるコンポーネントである。 ほとんどの出版物は、トークン化を最適化するためにアブレーションや分析を行うことなく、他のモデルからしばしば借用される全ての実験に単一のトークン化器を使用する。 さらに、ベースモデルを微調整する場合、トークン化器は一般に変更されない。 本稿では,トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータが,モデルの生成速度,有効コンテキストサイズ,メモリ使用量,ダウンストリーム性能に著しく影響を及ぼすことを示す。 我々は、特殊なByte-Pair Encoding code tokenizerを訓練し、HumanEvalやMBPPなどのコード生成タスクにおけるトークン設計がLLMの性能に与える影響を広範囲に改善し、事前訓練されたLLMにおけるトークン設計のハイパーパラメータ選択と切り替えを推奨する。 スクラッチからトレーニングしたモデルと事前トレーニングされたモデルで実験を行い、幅広いユースケースへの適用性を検証する。 我々は,500億以上のトークンを微調整すると,事前学習したLCMのトークン化を専門化して,生成速度と有効コンテキストサイズを大きく向上させることができることを発見した。

Tokenization is an understudied and often neglected component of modern LLMs. Most published works use a single tokenizer for all experiments, often borrowed from another model, without performing ablations or analysis to optimize tokenization. Moreover, the tokenizer is generally kept unchanged when fine-tuning a base model. In this paper, we show that the size, pre-tokenization regular expression, and training data of a tokenizer can significantly impact the model's generation speed, effective context size, memory usage, and downstream performance. We train specialized Byte-Pair Encoding code tokenizers, and conduct extensive ablations on the impact of tokenizer design on the performance of LLMs for code generation tasks such as HumanEval and MBPP, and provide recommendations for tokenizer hyper-parameters selection and switching the tokenizer in a pre-trained LLM. We perform our experiments on models trained from scratch and from pre-trained models, verifying their applicability to a wide range of use-cases. We find that when fine-tuning on more than 50 billion tokens, we can specialize the tokenizer of a pre-trained LLM to obtain large gains in generation speed and effective context size.
翻訳日:2024-02-05 17:42:53 公開日:2024-02-01
# VISION-MAE : 医用画像のセグメンテーションと分類の基礎モデル

VISION-MAE: A Foundation Model for Medical Image Segmentation and Classification ( http://arxiv.org/abs/2402.01034v1 )

ライセンス: Link先を確認
Zelong Liu, Andrew Tieu, Nikhil Patel, Alexander Zhou, George Soultanidis, Zahi A. Fayad, Timothy Deyer, Xueyan Mei(参考訳) 人工知能(AI)は、医療画像の診断とセグメンテーションに革命をもたらす可能性がある。 しかしながら、開発と臨床実装は、データ可用性の制限、汎用性の欠如、マルチモーダルデータを効果的に組み込む必要性など、複数の課題に直面している。 大規模な事前学習されたaiモデルである基盤モデルは、さまざまな特定のタスクやコンテキストに適応可能な汎用的なベースを提供する。 本稿では,医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。 具体的には、自己教師型学習技術を用いて、CT、MR、PET、X線、超音波といった様々なモダリティから2.5万枚の未ラベル画像のデータセットをトレーニングする。 その後、明示的なラベルを使って分類とセグメンテーションタスクに適応する。 VISION-MAEはラベルの効率が高く、ドメイン内およびドメイン外のアプリケーションでいくつかのベンチマークモデルより優れており、ラベル付きデータの可用性が低い場合でも高いパフォーマンスを実現している。 このモデルは、医療画像aiの大きな進歩を表しており、データアノテーションのワークロードを削減しつつ、セグメンテーションと分類タスクを改善するための汎用的でロバストなソリューションを提供する。

Artificial Intelligence (AI) has the potential to revolutionize diagnosis and segmentation in medical imaging. However, development and clinical implementation face multiple challenges including limited data availability, lack of generalizability, and the necessity to incorporate multi-modal data effectively. A foundation model, which is a large-scale pre-trained AI model, offers a versatile base that can be adapted to a variety of specific tasks and contexts. Here, we present a novel foundation model, VISION-MAE, specifically designed for medical imaging. Specifically, VISION-MAE is trained on a dataset of 2.5 million unlabeled images from various modalities (CT, MR, PET, X-rays, and ultrasound), using self-supervised learning techniques. It is then adapted to classification and segmentation tasks using explicit labels. VISION-MAE has high label efficiency, outperforming several benchmark models in both in-domain and out-of-domain applications, and achieves high performance even with reduced availability of labeled data. This model represents a significant advancement in medical imaging AI, offering a generalizable and robust solution for improving segmentation and classification tasks while reducing the data annotation workload.
翻訳日:2024-02-05 17:42:31 公開日:2024-02-01
# トランスフォーマーは、コピー時の状態空間モデルより優れている

Repeat After Me: Transformers are Better than State Space Models at Copying ( http://arxiv.org/abs/2402.01032v1 )

ライセンス: Link先を確認
Samy Jelassi, David Brandfonbrener, Sham M. Kakade, Eran Malach(参考訳) トランスフォーマーはシーケンスモデリングにおいて支配的なアーキテクチャであるが、我々は「一般化状態空間モデル」(GSSM)と呼ばれるシーケンス長に依存しない固定サイズの潜在状態を使用するモデルへの関心が高まっている。 本稿では,GSSMは推論時間効率の面で有望であるが,入力コンテキストからのコピーを必要とするタスクにおいて,トランスフォーマーモデルと比較して限定的であることを示す。 まず,2層変換器が指数関数長の文字列をコピーできるのに対して,GSSMは固定サイズ潜在状態によって根本的に制限されていることを証明する。 実験により, コンテクストの複製を必要とする合成タスクにおいて, GSSMよりも効率と一般化が優れていることがわかった。 最後に,事前学習した大規模言語モデルを評価し,トランスフォーマーモデルがコンテキストからの情報をコピー・検索する上で,状態空間モデルよりも劇的に優れていることを見出す。 これらの結果は,本研究の課題におけるトランスフォーマーとGSSMの根本的なギャップを示唆するものである。

Transformers are the dominant architecture for sequence modeling, but there is growing interest in models that use a fixed-size latent state that does not depend on the sequence length, which we refer to as "generalized state space models" (GSSMs). In this paper we show that while GSSMs are promising in terms of inference-time efficiency, they are limited compared to transformer models on tasks that require copying from the input context. We start with a theoretical analysis of the simple task of string copying and prove that a two layer transformer can copy strings of exponential length while GSSMs are fundamentally limited by their fixed-size latent state. Empirically, we find that transformers outperform GSSMs in terms of efficiency and generalization on synthetic tasks that require copying the context. Finally, we evaluate pretrained large language models and find that transformer models dramatically outperform state space models at copying and retrieving information from context. Taken together, these results suggest a fundamental gap between transformers and GSSMs on tasks of practical interest.
翻訳日:2024-02-05 17:42:10 公開日:2024-02-01
# MR Annotator:MRIセグメンテーションのためのマルチ解剖学的深層学習モデル

MRAnnotator: A Multi-Anatomy Deep Learning Model for MRI Segmentation ( http://arxiv.org/abs/2402.01031v1 )

ライセンス: Link先を確認
Alexander Zhou, Zelong Liu, Andrew Tieu, Nikhil Patel, Sean Sun, Anthony Yang, Peter Choi, Valentin Fauveau, George Soultanidis, Mingqian Huang, Amish Doshi, Zahi A. Fayad, Timothy Deyer, Xueyan Mei(参考訳) 目的〕MRI画像における多系統・多系統の解剖構造の深層学習モデルを構築すること。 このふりかえり研究の資料と手法では,モデルの開発と評価のために2つのデータセットがキュレートされ,注釈が付された。 健康システム内の様々な臨床現場からの1022個のMRIシーケンスの内部データセットと、独立したイメージングセンターからの264個のMRIシーケンスの外部データセットを収集した。 どちらのデータセットでも、49の解剖学的構造が基底真理としてアノテートされた。 内部データセットはトレーニング、検証、テストセットに分割され、nnU-Netモデルのトレーニングと評価に使用された。 外部データセットを用いて、独立画像データに基づくすべてのクラスにおけるnnU-Netモデルの一般化性と性能を評価する。 diceスコアはモデルセグメンテーション性能を評価するために計算された。 その結果,内部テストセットでは平均0.801点,外部データセットでは平均0.814点が49クラスにわたって達成された。 結論 開発したモデルは, 49解剖学的構造のロバストで一般化されたセグメンテーションを実現する。 将来的な方向性は、データセットとモデルに追加の解剖学的領域と構造を組み込むことに集中する。

Purpose To develop a deep learning model for multi-anatomy and many-class segmentation of diverse anatomic structures on MRI imaging. Materials and Methods In this retrospective study, two datasets were curated and annotated for model development and evaluation. An internal dataset of 1022 MRI sequences from various clinical sites within a health system and an external dataset of 264 MRI sequences from an independent imaging center were collected. In both datasets, 49 anatomic structures were annotated as the ground truth. The internal dataset was divided into training, validation, and test sets and used to train and evaluate an nnU-Net model. The external dataset was used to evaluate nnU-Net model generalizability and performance in all classes on independent imaging data. Dice scores were calculated to evaluate model segmentation performance. Results The model achieved an average Dice score of 0.801 on the internal test set, and an average score of 0.814 on the complete external dataset across 49 classes. Conclusion The developed model achieves robust and generalizable segmentation of 49 anatomic structures on MRI imaging. A future direction is focused on the incorporation of additional anatomic regions and structures into the datasets and model.
翻訳日:2024-02-05 17:41:51 公開日:2024-02-01
# 実行可能コードアクションはより優れたllmエージェントを引き出す

Executable Code Actions Elicit Better LLM Agents ( http://arxiv.org/abs/2402.01030v1 )

ライセンス: Link先を確認
Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji(参考訳) 大きな言語モデル(LLM)エージェントは、ツールの呼び出しやロボットの制御など、幅広いアクションを実行することができ、現実世界の課題に取り組む大きな可能性を示している。 LLMエージェントは、通常、制限されたアクション空間(例えば、事前定義されたツールの範囲)と制限された柔軟性(例えば、複数のツールを構成することができない)によって制限される、事前定義されたフォーマットでJSONやテキストを生成することでアクションを生成するように促される。 llmエージェントのアクションを統一アクションスペース(codeact)に統合するために実行可能なpythonコードを使用することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 API-Bank上の17のLLMと、新たにキュレートされたベンチマークの広範な分析は、CodeActが広く使われている代替品(最大20%の成功率)を上回っていることを示している。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。 この目的のために,CodeAct を用いた 7k のマルチターンインタラクションからなる命令チューニングデータセット CodeActInstruct を収集する。 エージェント指向タスクのモデルを改善するために既存のデータと併用できることを,汎用性を損なうことなく示す。 CodeActAgentはLlama2とMistralから微調整され、Pythonインタプリタと統合されており、既存のライブラリを使用して高度なタスク(例えばモデルトレーニング)を実行し、自律的に自己デバッグするように設計されている。

Large Language Model (LLM) agents, capable of performing a broad range of actions, such as invoking tools and controlling robots, show great potential in tackling real-world challenges. LLM agents are typically prompted to produce actions by generating JSON or text in a pre-defined format, which is usually limited by constrained action space (e.g., the scope of pre-defined tools) and restricted flexibility (e.g., inability to compose multiple tools). This work proposes to use executable Python code to consolidate LLM agents' actions into a unified action space (CodeAct). Integrated with a Python interpreter, CodeAct can execute code actions and dynamically revise prior actions or emit new actions upon new observations through multi-turn interactions. Our extensive analysis of 17 LLMs on API-Bank and a newly curated benchmark shows that CodeAct outperforms widely used alternatives (up to 20% higher success rate). The encouraging performance of CodeAct motivates us to build an open-source LLM agent that interacts with environments by executing interpretable code and collaborates with users using natural language. To this end, we collect an instruction-tuning dataset CodeActInstruct that consists of 7k multi-turn interactions using CodeAct. We show that it can be used with existing data to improve models in agent-oriented tasks without compromising their general capability. CodeActAgent, finetuned from Llama2 and Mistral, is integrated with Python interpreter and uniquely tailored to perform sophisticated tasks (e.g., model training) using existing libraries and autonomously self-debug.
翻訳日:2024-02-05 17:41:34 公開日:2024-02-01
# 時間と言語間の意味変化を検出するグラフベースのクラスタリング

Graph-based Clustering for Detecting Semantic Change Across Time and Languages ( http://arxiv.org/abs/2402.01025v1 )

ライセンス: Link先を確認
Xianghe Ma, Michael Strube, Wei Zhao(参考訳) NLPにおける文脈的埋め込みの優位性にもかかわらず、これらの埋め込みとクラスタリング手法に依存する意味的変化を検出するアプローチは、静的な単語の埋め込みに基づいて、より単純な組込みを実現する。 これは、特に低頻度の単語知覚を捉えるのに苦労するセンスクラスタを生成するクラスタリング手法の質が低かったことに由来する。 この問題は、ある言語における単語感覚の変化が他の言語に与える影響を調べるための次のステップを妨げます。 この問題に対処するために,高頻度と低頻度の単語感覚を時間と言語にまたがるニュアンス変化を捉えるためのグラフベースのクラスタリング手法を提案する。 実験の結果,本手法は4言語にわたるsemeval2020バイナリ分類タスクにおける従来のアプローチを大幅に上回ることがわかった。 さらに,言語内設定と言語間設定のセマンティックな変化を検出する汎用可視化ツールとして,我々のアプローチを実証する。 コードとデータを公開しています。

Despite the predominance of contextualized embeddings in NLP, approaches to detect semantic change relying on these embeddings and clustering methods underperform simpler counterparts based on static word embeddings. This stems from the poor quality of the clustering methods to produce sense clusters -- which struggle to capture word senses, especially those with low frequency. This issue hinders the next step in examining how changes in word senses in one language influence another. To address this issue, we propose a graph-based clustering approach to capture nuanced changes in both high- and low-frequency word senses across time and languages, including the acquisition and loss of these senses over time. Our experimental results show that our approach substantially surpasses previous approaches in the SemEval2020 binary classification task across four languages. Moreover, we showcase the ability of our approach as a versatile visualization tool to detect semantic changes in both intra-language and inter-language setups. We make our code and data publicly available.
翻訳日:2024-02-05 17:41:05 公開日:2024-02-01
# 深層学習システムにおけるバグローカライゼーションの課題理解に向けて

Towards Understanding the Challenges of Bug Localization in Deep Learning Systems ( http://arxiv.org/abs/2402.01021v1 )

ライセンス: Link先を確認
Sigma Jahan, Mehil B. Shah, Mohammad Masudur Rahman(参考訳) ソフトウェアバグは世界経済に毎年数十億ドルを費やし、ソフトウェア開発者によるプログラミング時間の約50%を犠牲にしている。 これらのバグの配置は、解決には不可欠だが、難しい。 ディープラーニングシステムでは、ブラックボックスの性質から、さらに難しいのです。 これらのシステムのバグはコードだけでなく、モデルやトレーニングデータにも隠されているため、従来のデバッグメソッドの効率が低下する可能性がある。 本稿では,ディープラーニングシステムにおけるバグのローカライズに関する課題をより深く理解するために,大規模実証研究を行う。 まず,ディープラーニングシステムの2,365バグと,従来のソフトウェアによる2,913バグを用いて,既存の4つのテクニックのバグローカライズ性能を決定する。 ディープラーニングシステムのバグをローカライズする上で,これらのテクニックは極めて劣っていることが分かりました。 第2に,ディープラーニングシステムにおけるバグタイプの違いが,バグのローカライゼーションに与える影響を評価する。 その結果, ローカライズ手法の有効性は, バグの種類によって異なることがわかった。 例えば、テンソルバグは構造的な性質から見つけやすく、すべてのテクニックは外部依存関係のためにGPUバグに悩まされていた。 第3に,深層学習システムにおける虫の極端性が局在に及ぼす影響について検討する。 ディープラーニングのバグは,ソースコード以外のアーティファクト(gpuやトレーニングデータなど)に関連付けられることが多いため,既存のローカライズ手法のパフォーマンスが低下する原因となっていることが分かりました。

Software bugs cost the global economy billions of dollars annually and claim ~50\% of the programming time from software developers. Locating these bugs is crucial for their resolution but challenging. It is even more challenging in deep-learning systems due to their black-box nature. Bugs in these systems are also hidden not only in the code but also in the models and training data, which might make traditional debugging methods less effective. In this article, we conduct a large-scale empirical study to better understand the challenges of localizing bugs in deep-learning systems. First, we determine the bug localization performance of four existing techniques using 2,365 bugs from deep-learning systems and 2,913 from traditional software. We found these techniques significantly underperform in localizing deep-learning system bugs. Second, we evaluate how different bug types in deep learning systems impact bug localization. We found that the effectiveness of localization techniques varies with bug type due to their unique challenges. For example, tensor bugs were more accessible to locate due to their structural nature, while all techniques struggled with GPU bugs due to their external dependencies. Third, we investigate the impact of bugs' extrinsic nature on localization in deep-learning systems. We found that deep learning bugs are often extrinsic and thus connected to artifacts other than source code (e.g., GPU, training data), contributing to the poor performance of existing localization methods.
翻訳日:2024-02-05 17:40:46 公開日:2024-02-01
# ologと配線図による概念のアナロジーの定量化

Quantifying analogy of concepts via ologs and wiring diagrams ( http://arxiv.org/abs/2402.01020v1 )

ライセンス: Link先を確認
Jason Lo(参考訳) Spivak と Kent が生成したオントロジーログ (ologs) の理論に基づいて構築し,配線図の概念を定義する。 本稿では、配線図は有限有界ラベル付きグラフである。 ラベルはologの型に対応しており、自律システムにおけるセンサーの読み取りと解釈することもできる。 このように、配線図は、抽象概念を形成する自律システムのためのフレームワークとして使用できる。 骨格配線図に基づくグラフがカテゴリを形成することを示す。 これにより、スケルトン配線図はグラフ理論と圏論の両方の技法を用いて比較および操作できる。 また、グラフ編集距離の通常の定義を、配線図にのみ使用可能な操作を使用することで、配線図の場合にも拡張し、全てのスケルトン配線図の集合の計量に繋がる。 最後に、配線図で表される2つの概念間の距離を計算するための拡張例を示し、フレームワークをアプリケーションドメインに適用する方法を説明します。

We build on the theory of ontology logs (ologs) created by Spivak and Kent, and define a notion of wiring diagrams. In this article, a wiring diagram is a finite directed labelled graph. The labels correspond to types in an olog; they can also be interpreted as readings of sensors in an autonomous system. As such, wiring diagrams can be used as a framework for an autonomous system to form abstract concepts. We show that the graphs underlying skeleton wiring diagrams form a category. This allows skeleton wiring diagrams to be compared and manipulated using techniques from both graph theory and category theory. We also extend the usual definition of graph edit distance to the case of wiring diagrams by using operations only available to wiring diagrams, leading to a metric on the set of all skeleton wiring diagrams. In the end, we give an extended example on calculating the distance between two concepts represented by wiring diagrams, and explain how to apply our framework to any application domain.
翻訳日:2024-02-05 17:40:11 公開日:2024-02-01
# ドメイン非依存的デセプション:新しい分類法と言語分析

Domain-Independent Deception: A New Taxonomy and Linguistic Analysis ( http://arxiv.org/abs/2402.01019v1 )

ライセンス: Link先を確認
Rakesh M. Verma, Nachum Dershowitz, Victor Zeng, Dainis Boumber, Xuting Liu(参考訳) インターネットベースの経済と社会は詐欺攻撃で溺死している。 これらの攻撃は、フェイクニュース、フィッシング、ジョブ詐欺など、さまざまな形で行われます。 機械学習と自然言語処理の研究者たちは、ドメイン固有の検出器を設計することで、この厄介な状況を改善することを試みている。 ドメインに依存しないデセプションを考える最近の研究はごくわずかである。 我々はこれらの異なる研究のスレッドを収集し、ドメイン非依存のデセプションを調査します。 まず, 詐欺の計算的定義を新たに提供し, 虚偽を新たな分類に分解する。 次に, 言語的手がかりに関する議論を欺き, 体系的評価のためのガイドラインを提示する。 最後に,共通言語的特徴を調査し,様々な形態の誤認に対する知識伝達の証拠を与える。

Internet-based economies and societies are drowning in deceptive attacks. These attacks take many forms, such as fake news, phishing, and job scams, which we call ``domains of deception.'' Machine-learning and natural-language-processing researchers have been attempting to ameliorate this precarious situation by designing domain-specific detectors. Only a few recent works have considered domain-independent deception. We collect these disparate threads of research and investigate domain-independent deception. First, we provide a new computational definition of deception and break down deception into a new taxonomy. Then, we analyze the debate on linguistic cues for deception and supply guidelines for systematic reviews. Finally, we investigate common linguistic features and give evidence for knowledge transfer across different forms of deception.
翻訳日:2024-02-05 17:39:44 公開日:2024-02-01
# HR-MultiWOZ: HR LLMエージェントのためのタスク指向対話(TOD)データセット

HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent ( http://arxiv.org/abs/2402.01018v1 )

ライセンス: Link先を確認
Weijie Xu, Zicheng Huang, Wenxiang Hu, Xi Fang, Rajesh Kumar Cherukuri, Naumaan Nayyar, Lorenzo Malandri, Srinivasan H. Sengamedu(参考訳) 大規模言語モデル(LLM)の最近の進歩は、いくつかの領域で自然言語処理(NLP)タスクを再構築している。 人的資源(HR)分野における彼らの利用は、まだ拡張の余地があり、タスクを長時間消費する可能性がある。 タイムオフの申請、医療クレームの提出、アクセス要求といった例は注目に値するが、必ずしも唯一の事例ではない。 しかし、前述の開発は、高品質なトレーニングデータセットを構築するという重要な課題に対処しなければならない。 一方、ほとんどの会話データセットは、従業員ではなく顧客の問題を解決するものだ。 一方、HRと会話を交わすことでプライバシーの懸念が高まる可能性がある。 HR-Multiwozは10のHRドメインにまたがる550の会話の完全なラベル付きデータセットで,LLMエージェントの評価を行う。 1)NLP研究のためのHRドメインにおける最初のラベル付きオープンソースの会話データセットである。 2)データ分析と人的評価とともに,データ生成手順の詳細なレシピを提供する。 データ生成パイプラインは転送可能であり、他のドメインでのラベル付き会話データ生成に容易に適応できる。 (3) 提案したデータ収集パイプラインは,時間と費用効率のよいアノテーションを最小限に抑えたLCMに基づいている。

Recent advancements in Large Language Models (LLMs) have been reshaping Natural Language Processing (NLP) task in several domains. Their use in the field of Human Resources (HR) has still room for expansions and could be beneficial for several time consuming tasks. Examples such as time-off submissions, medical claims filing, and access requests are noteworthy, but they are by no means the sole instances. However, the aforementioned developments must grapple with the pivotal challenge of constructing a high-quality training dataset. On one hand, most conversation datasets are solving problems for customers not employees. On the other hand, gathering conversations with HR could raise privacy concerns. To solve it, we introduce HR-Multiwoz, a fully-labeled dataset of 550 conversations spanning 10 HR domains to evaluate LLM Agent. Our work has the following contributions: (1) It is the first labeled open-sourced conversation dataset in the HR domain for NLP research. (2) It provides a detailed recipe for the data generation procedure along with data analysis and human evaluations. The data generation pipeline is transferable and can be easily adapted for labeled conversation data generation in other domains. (3) The proposed data-collection pipeline is mostly based on LLMs with minimal human involvement for annotation, which is time and cost-efficient.
翻訳日:2024-02-05 17:39:25 公開日:2024-02-01
# 量子検閲とそれを回避する方法

Quantum censorship -- and how to get around it ( http://arxiv.org/abs/2402.01068v1 )

ライセンス: Link先を確認
Julien Pinske and Jan Sperling(参考訳) 複数のパーティ間での量子情報の分配を規制するプロトコルを転送する。 公開量子ネットワークにおける量子リソース状態の無制限分布を禁止するために、エージェントは各送信者のチャネルにリソース破壊マップを適用することができる。 資源破壊写像はアフィン量子資源理論のためにのみ存在するため、非アフィン資源理論の検閲は自由状態の操作的動機付けられた部分空間上で確立される。 これはリソース検閲マップと呼ぶものを使用することで実現されます。 このプロトコルは、コヒーレンス、参照フレーム、および絡み合いの検閲に適用される。 検閲プロトコルの局所的な性質から、基本的には、協力する当事者が検閲をバイパスすることは可能である。 したがって、検閲プロトコルが破壊不能である必要十分条件を更に導出する。

A protocol for regulating the distribution of quantum information between multiple parties is put forward. In order to prohibit the unrestricted distribution of quantum-resource states in a public quantum network, agents can apply a resource-destroying map to each sender's channel. Since resource-destroying maps only exist for affine quantum resource theories, censorship of a nonaffine resource theory is established on an operationally motivated subspace of free states. This is achieved by using what we name a resource-censoring map. The protocol is applied to censoring coherence, reference frames, and entanglement. Because of the local nature of the censorship protocol, it is, in principle, possible for collaborating parties to bypass censorship. Thus, we additionally derive necessary and sufficient conditions under which the censorship protocol is unbreakable.
翻訳日:2024-02-05 17:29:38 公開日:2024-02-01
# 多言語文書質問と回答のための大規模言語モデルの評価手法

Evaluation Methodology for Large Language Models for Multilingual Document Question and Answer ( http://arxiv.org/abs/2402.01065v1 )

ライセンス: Link先を確認
Adar Kahana, Jaya Susan Mathew, Said Bleik, Jeremy Reynolds, Oren Elisha(参考訳) 本稿では,Large Language Models (LLM) の普及に伴い,これらのモデルの多言語性について検討する。 予備的な結果から,母国語文脈,質問,回答を高資源言語に翻訳することで,最良の結果が得られた。

With the widespread adoption of Large Language Models (LLMs), in this paper we investigate the multilingual capability of these models. Our preliminary results show that, translating the native language context, question and answer into a high resource language produced the best results.
翻訳日:2024-02-05 17:29:26 公開日:2024-02-01
# バイオインスパイアによる羽ばたきロボットプロパルサーの損傷補償戦略

Bio-Inspired Compensatory Strategies for Damage to Flapping Robotic Propulsors ( http://arxiv.org/abs/2402.01062v1 )

ライセンス: Link先を確認
Meredith L. Hooper, Isabel Scherl, and Morteza Gharib(参考訳) 完全な自律性を維持するためには、自律ロボットシステムは自己修復能力を持つ必要がある。 例えば、一部の魚は、ストロークの力学を変えることによって、推力を失うことなく、脈動面の76%も失われることがある。 しかしながら、生物からロボットの羽ばたき推進器へのこれらの変化は、無関係な進化的な圧力のために最適ではないかもしれない。 代わりに私たちは、人工進化によって損傷したロボットシステムに最適な脳卒中メカニックの変更を判断しようとします。 自然と機械学習の最適性の違いを判定するために,共分散行列適応進化戦略を用いたサイバー物理システムを用いて,与えられた力に対して最も効率的な軌道を求める。 ハードウェアインザループによるオンライン最適化を実装し,アクティベートされたフレキシブル平板を用いて実験関数評価を行う。 部分切断後の推力生産を再開するため、最も効率的な学習戦略は、振幅を増大させ、周波数を増大させ、攻撃角度を増大させ、攻撃角度を約110度変化させることであった。 魚類では、文献の多数が振幅の増加のみを報告している。 サイドフォース生産を再構築するために、より困難な最適化の状況に直面する。 攻撃痕跡の最適な角度のネスティングは、結果に基づく基準フレームで見られるが、昆虫の文献で報告される頻度の増加とは対照的に、振幅や周波数の明確な傾向は示されていない。 これらの結果から, 機械的羽ばたき推進機が, 羽ばたき推進機の損傷に最も効果的に適応できることが示唆された。

To maintain full autonomy, autonomous robotic systems must have the ability to self-repair. Self-repairing via compensatory mechanisms appears in nature: for example, some fish can lose even 76% of their propulsive surface without loss of thrust by altering stroke mechanics. However, direct transference of these alterations from an organism to a robotic flapping propulsor may not be optimal due to irrelevant evolutionary pressures. We instead seek to determine what alterations to stroke mechanics are optimal for a damaged robotic system via artificial evolution. To determine whether natural and machine-learned optima differ, we employ a cyber-physical system using a Covariance Matrix Adaptation Evolutionary Strategy to seek the most efficient trajectory for a given force. We implement an online optimization with hardware-in-the-loop, performing experimental function evaluations with an actuated flexible flat plate. To recoup thrust production following partial amputation, the most efficient learned strategy was to increase amplitude, increase frequency, increase the amplitude of angle of attack, and phase shift the angle of attack by approximately 110 degrees. In fish, only an amplitude increase is reported by majority in the literature. To recoup side-force production, a more challenging optimization landscape is encountered. Nesting of optimal angle of attack traces is found in the resultant-based reference frame, but no clear trend in amplitude or frequency are exhibited -- in contrast to the increase in frequency reported in insect literature. These results suggest that how mechanical flapping propulsors most efficiently adjust to damage of a flapping propulsor may not align with natural swimmers and flyers.
翻訳日:2024-02-05 17:29:20 公開日:2024-02-01
# ニューラルネットワーク多項式を用いた近似関数の代数的枠組みに向けて

Towards an Algebraic Framework For Approximating Functions Using Neural Network Polynomials ( http://arxiv.org/abs/2402.01058v1 )

ライセンス: Link先を確認
Shakil Rafi, Joshua Lee Padgett, and Ukash Nakarmi(参考訳) ニューラルネットワークオブジェクトのケースを作成し、すでに存在するニューラルネットワーク計算を拡張して、 \cite{bigbook}の第2章で詳しく説明している。 私たちの目標は、ニューラルネットワークの多項式、ニューラルネットワークの指数関数、sine、cosineについて、特定のパラメータの制限を受ける実数対応式を実際に近似しているという意味で、意味のあることを示すことです。 これにより、パラメータと深さの増大は所望の精度($\mathbb{r}$ に対する 1-ノルム差分として定義される)でのみ多項式であることが示され、この近似化のアプローチは、ある意味でニューラルネットワークが近似する関数の構造的性質をもっている場合、その近似化は必ずしも難解ではないことを示す。

We make the case for neural network objects and extend an already existing neural network calculus explained in detail in Chapter 2 on \cite{bigbook}. Our aim will be to show that, yes, indeed, it makes sense to talk about neural network polynomials, neural network exponentials, sine, and cosines in the sense that they do indeed approximate their real number counterparts subject to limitations on certain of their parameters, $q$, and $\varepsilon$. While doing this, we show that the parameter and depth growth are only polynomial on their desired accuracy (defined as a 1-norm difference over $\mathbb{R}$), thereby showing that this approach to approximating, where a neural network in some sense has the structural properties of the function it is approximating is not entire intractable.
翻訳日:2024-02-05 17:28:53 公開日:2024-02-01
# 単発模倣学習のための代理報酬としてのエキスパート近接

Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning ( http://arxiv.org/abs/2402.01057v1 )

ライセンス: Link先を確認
Chia-Cheng Chiang, Li-Cheng Lan, Wei-Fang Sun, Chien Feng, Cho-Jui Hsieh, Chun-Yi Lee(参考訳) 本稿では,多種多様な専門家によるデモンストレーションがコストがかかる,あるいは実現不可能な実世界のアプリケーションのための実践的アプローチである,単項模擬学習(IL)に焦点を当てる。 複数のデモンストレーションを持つ典型的なIL設定とは対照的に、単一のデモストレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。 本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。 TDILは、環境力学を考慮したより高密度なサロゲート報酬関数を導入することで、報酬空間に対処するIRL手法である。 この代理報酬関数は、エージェントが専門家状態に近い状態に向かうことを促す。 実際には、TDILは、ある環境における有効かつ無効な遷移を区別するために遷移判別器を訓練し、サロゲート報酬を計算する。 実験は、TDILが既存のILアプローチより優れており、広く採用されている5つの MuJoCo ベンチマークと "Adroit Door" 環境のシングルデモ IL設定において、専門家レベルのパフォーマンスを実現していることを示した。

In this paper, we focus on single-demonstration imitation learning (IL), a practical approach for real-world applications where obtaining numerous expert demonstrations is costly or infeasible. In contrast to typical IL settings with multiple demonstrations, single-demonstration IL involves an agent having access to only one expert trajectory. We highlight the issue of sparse reward signals in this setting and propose to mitigate this issue through our proposed Transition Discriminator-based IL (TDIL) method. TDIL is an IRL method designed to address reward sparsity by introducing a denser surrogate reward function that considers environmental dynamics. This surrogate reward function encourages the agent to navigate towards states that are proximal to expert states. In practice, TDIL trains a transition discriminator to differentiate between valid and non-valid transitions in a given environment to compute the surrogate rewards. The experiments demonstrate that TDIL outperforms existing IL approaches and achieves expert-level performance in the single-demonstration IL setting across five widely adopted MuJoCo benchmarks as well as the "Adroit Door" environment.
翻訳日:2024-02-05 17:28:37 公開日:2024-02-01
# 非分解性性能対策のための雑音ラベルからのマルチクラス学習

Multiclass Learning from Noisy Labels for Non-decomposable Performance Measures ( http://arxiv.org/abs/2402.01055v1 )

ライセンス: Link先を確認
Mingyuan Zhang, Shivani Agarwal(参考訳) 近年、ノイズラベルのあるデータから良い分類法を学ぶことに多くの関心が寄せられている。 ノイズラベルから学習するほとんどの作業は、標準の損失ベースのパフォーマンス測定に重点を置いている。 しかし、多くの機械学習問題は、個々の例における損失の期待や総和として表現できない非分解不能なパフォーマンス尺度を使用する必要があり、例えば、クラス不均衡設定におけるH平均、Q平均、G平均、情報検索におけるMicro $F_1$などである。 本稿では,2種類の広帯域非分解性性能尺度,すなわち単調凸と線形比の2種類の雑音ラベルから学習するアルゴリズムを設計する。 本研究は,Narasimhan et al. (2015) のフランク=ウルフ法とバイセクション法に基づく。 どちらの場合も、広範に研究されているクラス条件ノイズモデルに基づいて、アルゴリズムのノイズ補正バージョンを開発する。 アルゴリズムはノイズの多いデータで訓練されているにもかかわらず、その性能がクリーンな(ノイズのない)分布の最適性能に収束するという意味でベイズ一貫したものであることを証明し、後悔する(過剰なリスク)境界を提供する。 本実験はラベルノイズの処理におけるアルゴリズムの有効性を示す。

There has been much interest in recent years in learning good classifiers from data with noisy labels. Most work on learning from noisy labels has focused on standard loss-based performance measures. However, many machine learning problems require using non-decomposable performance measures which cannot be expressed as the expectation or sum of a loss on individual examples; these include for example the H-mean, Q-mean and G-mean in class imbalance settings, and the Micro $F_1$ in information retrieval. In this paper, we design algorithms to learn from noisy labels for two broad classes of multiclass non-decomposable performance measures, namely, monotonic convex and ratio-of-linear, which encompass all the above examples. Our work builds on the Frank-Wolfe and Bisection based methods of Narasimhan et al. (2015). In both cases, we develop noise-corrected versions of the algorithms under the widely studied family of class-conditional noise models. We provide regret (excess risk) bounds for our algorithms, establishing that even though they are trained on noisy data, they are Bayes consistent in the sense that their performance converges to the optimal performance w.r.t. the clean (non-noisy) distribution. Our experiments demonstrate the effectiveness of our algorithms in handling label noise.
翻訳日:2024-02-05 17:28:17 公開日:2024-02-01
# 患者の画像データを記憶する非条件潜時拡散モデル

Unconditional Latent Diffusion Models Memorize Patient Imaging Data ( http://arxiv.org/abs/2402.01054v1 )

ライセンス: Link先を確認
Salman Ul Hassan Dar, Marvin Seyfarth, Jannik Kahmann, Isabelle Ayx, Theano Papavassiliu, Stefan O. Schoenberg, Sandy Engelhardt(参考訳) 生成的潜在拡散モデルは、医療画像領域において幅広い応用を保っている。 注目すべきアプリケーションは、実際の患者データの代理として合成データを提案することによって、プライバシーを保護したオープンデータ共有である。 約束にもかかわらず、これらのモデルは患者データ記憶の影響を受けやすく、モデルは新しい合成サンプルの代わりに患者データコピーを生成する。 これにより、患者のデータを保存するという目的が損なわれ、また、患者の再同定さえももたらされる。 この問題の重要性を考えると、医療画像のコミュニティでは驚くほど注目を集めていない。 そこで我々は,医用画像合成のための潜時拡散モデルの記憶度を評価する。 我々は合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜伏拡散モデルを訓練する。 その後,自己管理モデルを用いて記憶されたトレーニングデータの量を調べ,異なる設定のトレーニングモデルによる記憶につながる要因について検討する。 我々は、CT、MRI、X線データセットでそれぞれ記憶されたトレーニングデータの41.7%、19.6%、32.6%で、すべてのデータセット間で驚くほど大量のデータ記憶が観測されている。 さらに、トレーニングデータサイズの増加とデータ拡張の利用により記憶が減少し、過度なトレーニングによって記憶が強化されることが明らかになった。 総じて,オープンデータ共有に先立って,合成データの暗記による評価を求めることを提案する。

Generative latent diffusion models hold a wide range of applications in the medical imaging domain. A noteworthy application is privacy-preserved open-data sharing by proposing synthetic data as surrogates of real patient data. Despite the promise, these models are susceptible to patient data memorization, where models generate patient data copies instead of novel synthetic samples. This undermines the whole purpose of preserving patient data and may even result in patient re-identification. Considering the importance of the problem, surprisingly it has received relatively little attention in the medical imaging community. To this end, we assess memorization in latent diffusion models for medical image synthesis. We train 2D and 3D latent diffusion models on CT, MR, and X-ray datasets for synthetic data generation. Afterwards, we examine the amount of training data memorized utilizing self-supervised models and further investigate various factors that can possibly lead to memorization by training models in different settings. We observe a surprisingly large amount of data memorization among all datasets, with up to 41.7%, 19.6%, and 32.6% of the training data memorized in CT, MRI, and X-ray datasets respectively. Further analyses reveal that increasing training data size and using data augmentation reduce memorization, while over-training enhances it. Overall, our results suggest a call for memorization-informed evaluation of synthetic data prior to open-data sharing.
翻訳日:2024-02-05 17:27:57 公開日:2024-02-01
# デュアルゴール対話設定のための計画型大言語モデル

Plan-Grounded Large Language Models for Dual Goal Conversational Settings ( http://arxiv.org/abs/2402.01053v1 )

ライセンス: Link先を確認
Diogo Gl\'oria-Silva, Rafael Ferreira, Diogo Tavares, David Semedo, Jo\~ao Magalh\~aes(参考訳) ユーザ指示に従うための大規模言語モデル(llm)のトレーニングは、人間と整列しながら会話するのに十分な能力をllmに提供できることが示されている。 しかし、LLMが会話の両方向、すなわちLLMとユーザが相互に指示する指示を流す混合開始的設定において、どのようにしてLLMが平面会話を導出できるかは明らかになっていない。 本稿では、LLMが任意の計画に基づいて会話を行うだけでなく、手続き計画とユーザ指示の両方を満足させようとする、二重目標混合開始型会話設定に取り組む。 LLMは、計画を通じてユーザーを誘導すると同時に、新しい状況に適応し、質問に答え、必要に応じて安全ガードレールを発動する責任を負う。 本稿では,手続き計画の対話を根拠に,対話イニシアチブを受け取り,システムの動作にガードレールを強制すると同時に,予期しないユーザの行動に対するllmの応答を改善する新しいllmを提案する。 制御された設定と実際のユーザによる実験では、PlanLLMと呼ばれる最高のパフォーマンスモデルは、強いベースラインよりも2.1倍改善されている。 さらに、実験は未発見領域への良い一般化を示す。

Training Large Language Models (LLMs) to follow user instructions has been shown to supply the LLM with ample capacity to converse fluently while being aligned with humans. Yet, it is not completely clear how an LLM can lead a plan-grounded conversation in mixed-initiative settings where instructions flow in both directions of the conversation, i.e. both the LLM and the user provide instructions to one another. In this paper, we tackle a dual goal mixed-initiative conversational setting where the LLM not only grounds the conversation on an arbitrary plan but also seeks to satisfy both a procedural plan and user instructions. The LLM is then responsible for guiding the user through the plan and, at the same time, adapting to new circumstances, answering questions, and activating safety guardrails when needed. We propose a novel LLM that grounds the dialogue on a procedural plan, can take the dialogue initiative, and enforces guardrails on the system's behavior, while also improving the LLM's responses to unexpected user behavior. Experiments in controlled settings and with real users show that the best-performing model, which we call PlanLLM, achieves a 2.1x improvement over a strong baseline. Moreover, experiments also show good generalization to unseen domains.
翻訳日:2024-02-05 17:27:36 公開日:2024-02-01
# 逆問題に対する弱凸正則--臨界点の収束と原始双対最適化

Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation ( http://arxiv.org/abs/2402.01052v1 )

ライセンス: Link先を確認
Zakhar Shumaylov, Jeremy Budd, Subhadip Mukherjee, Carola-Bibiane Sch\"onlieb(参考訳) 変分正則化は逆問題の解法の主要な手法であり、近年はより深く学習された正則化を利用して性能を向上する研究が盛んに行われている。 しかし、そのような正則化の収束、特に大域的ミニマとは対照的に臨界点の文脈における問題に対処する結果はほとんどない。 本稿では、臨界点の観点から収束正規化を一般化した定式化を行い、弱凸正規化のクラスによって達成されることを示す。 関連する変分問題に対する主元-双次ハイブリッド勾配法の収束を証明し、クルディカ-ロジャシェヴィチ条件を与えられた場合、$\mathcal{o}(\log{k}/k)$ エルゴード収束率を示す。 最後に,本理論を学習正規化に適用することにより,入力弱凸ニューラルネットワーク(iwcnn)の普遍的近似を証明し,iwcnnがct再構成のための学習逆正規化器の性能向上に繋がることを示す。

Variational regularisation is the primary method for solving inverse problems, and recently there has been considerable work leveraging deeply learned regularisation for enhanced performance. However, few results exist addressing the convergence of such regularisation, particularly within the context of critical points as opposed to global minima. In this paper, we present a generalised formulation of convergent regularisation in terms of critical points, and show that this is achieved by a class of weakly convex regularisers. We prove convergence of the primal-dual hybrid gradient method for the associated variational problem, and, given a Kurdyka-Lojasiewicz condition, an $\mathcal{O}(\log{k}/k)$ ergodic convergence rate. Finally, applying this theory to learned regularisation, we prove universal approximation for input weakly convex neural networks (IWCNN), and show empirically that IWCNNs can lead to improved performance of learned adversarial regularisers for computed tomography (CT) reconstruction.
翻訳日:2024-02-05 17:27:13 公開日:2024-02-01
# 基礎言語モデルを用いたモチベーション型インタビュースタイル反射の生成, 蒸留, 評価

Generation, Distillation and Evaluation of Motivational Interviewing-Style Reflections with a Foundational Language Model ( http://arxiv.org/abs/2402.01051v1 )

ライセンス: Link先を確認
Andrew Brown, Jiading Zhu, Mohamed Abdelwahab, Alec Dong, Cindy Wang, Jonathan Rose(参考訳) 大規模な基礎言語モデルは高いレベルで多くのタスクを実行することができるが、そのサイズとプロプライエタリなオーナシップのため、多くのアプリケーションにデプロイすることは困難である。 その多くは、基礎モデルの特定の能力を、所有および制御可能なより小さなモデルに蒸留する動機がある。 治療用チャットボットの開発において,セラピストがクライアント音声のリフレクションを生成するリフレクティブ・リスニング(reflective listening)と呼ばれる機能を抽出したい。 これらのリフレクションは、クライアントが言ったことを復活させるか、あるいは関連する観察、アイデア、推測を結び付けて、クライアントが熟考を続けるように促し導く。 本稿では,基礎言語モデル(GPT-4)からより小さなモデルへの反射の発生を蒸留する方法を提案する。 まず,ゼロショットプロンプトを用いたGPT-4は,従来の手法よりも100%近い成功率でリフレクションを生成可能であることを示す。 GPT-4により生成された反射を用いて、GPT-2ファミリーのサイズを微調整する。 GPT-2小モデルはホールドアウトテストセットで83%成功し、GPT-2 XLは90%成功している。 また, GPT-4は, ゼロショット分類器として使用することにより, 蒸留モデルの品質を評価する作業に有効であることを示す。 分類器は、トリプル・ヒューマン・レビューをガイドとして、実質的なレート間信頼性図である0.66のコーエン・カッパを達成する。

Large Foundational Language Models are capable of performing many tasks at a high level but are difficult to deploy in many applications because of their size and proprietary ownership. Many will be motivated to distill specific capabilities of foundational models into smaller models that can be owned and controlled. In the development of a therapeutic chatbot, we wish to distill a capability known as reflective listening, in which a therapist produces reflections of client speech. These reflections either restate what a client has said, or connect what was said to a relevant observation, idea or guess that encourages and guides the client to continue contemplation. In this paper, we present a method for distilling the generation of reflections from a Foundational Language Model (GPT-4) into smaller models. We first show that GPT-4, using zero-shot prompting, can generate reflections at near 100% success rate, superior to all previous methods. Using reflections generated by GPT-4, we fine-tune different sizes of the GPT-2 family. The GPT-2-small model achieves 83% success on a hold-out test set and the GPT-2 XL achieves 90% success. We also show that GPT-4 can help in the labor-intensive task of evaluating the quality of the distilled models, using it as a zero-shot classifier. Using triple-human review as a guide, the classifier achieves a Cohen-Kappa of 0.66, a substantial inter-rater reliability figure.
翻訳日:2024-02-05 17:26:52 公開日:2024-02-01
# ベイズ非パラメトリック潜在ブロックモデルに対する分散MCMC推論

Distributed MCMC inference for Bayesian Non-Parametric Latent Block Model ( http://arxiv.org/abs/2402.01050v1 )

ライセンス: Link先を確認
Reda Khoufache, Anisse Belhadj, Hanene Azzag, Mustapha Lebbah(参考訳) 本稿では,マスタ/ワーカーアーキテクチャを用いたベイズ非パラメトリック潜在ブロックモデル (disnplbm) に対する分散マルコフ連鎖モンテカルロ (mcmc) 推定法を提案する。 我々の非パラメトリックコクラスタリングアルゴリズムは、潜在多変量ガウスブロック分布を用いて観測と特徴を分割する。 列上のワークロードは、マスタとのみ通信する作業者間で均等に分散される。 DisNPLBMは、実験結果を通じてクラスタラベリングの精度と実行時間に与える影響を示す。 さらに,コクラスタ遺伝子発現データに本手法を適用した実例を提案する。 ソースコードはhttps://github.com/redakhoufache/Distributed-NPLBMで公開されている。

In this paper, we introduce a novel Distributed Markov Chain Monte Carlo (MCMC) inference method for the Bayesian Non-Parametric Latent Block Model (DisNPLBM), employing the Master/Worker architecture. Our non-parametric co-clustering algorithm divides observations and features into partitions using latent multivariate Gaussian block distributions. The workload on rows is evenly distributed among workers, who exclusively communicate with the master and not among themselves. DisNPLBM demonstrates its impact on cluster labeling accuracy and execution times through experimental results. Moreover, we present a real-use case applying our approach to co-cluster gene expression data. The code source is publicly available at https://github.com/redakhoufache/Distributed-NPLBM.
翻訳日:2024-02-05 17:26:23 公開日:2024-02-01
# RAGに基づくイスラム教理解のための質問応答システムの提案:MufassirQAS LLM

A RAG-based Question Answering System Proposal for Understanding Islam: MufassirQAS LLM ( http://arxiv.org/abs/2401.15378v4 )

ライセンス: Link先を確認
Ahmet Yusuf Alan, Enis Karaarslan, \"Omer Aydin(参考訳) 教義や教えの複雑さや深さなど、宗教の学習と理解に課題が存在する。 質問応答システムとしてのチャットボットは、これらの課題を解決するのに役立つ。 LLMチャットボットはNLP技術を用いてトピック間の接続を確立し、複雑な質問に正確に応答する。 これらの能力は、質問に答えるチャットボットとしての宗教の啓蒙に最適である。 しかし、LLMは幻覚として知られる偽情報を生成する傾向がある。 また、チャットボットの反応には、個人的な宗教的信念を侮辱する内容、相互信仰の対立、論争やセンシティブなトピックが含まれる。 ヘイトスピーチを宣伝したり、特定のグループやその信念を非難したりすることなく、そのような事件を避ける必要がある。 本研究は,LLMの精度と透明性を高めるために,ベクトルデータベースに基づくRetrieval Augmented Generation(RAG)アプローチを用いる。 質問応答システムは「MufassirQAS」と呼ばれる。 トルコのコンテキストを含むいくつかのオープンアクセス書籍からなるデータベースを作成しました。 これらの本はトルコ語訳とイスラム教の解釈を含んでいる。 このデータベースは宗教に関する質問に答え、我々の答えが信頼できることを保証するために利用されます。 LLMも使用しているデータセットの関連部分は、回答とともに表示される。 我々は、人々の価値観を尊重し、信頼できる結果をもたらす有害、攻撃的、不敬な反応を防ぐための指示を与えるシステムプロンプトの作成に注意を払ってきた。 システムは、各書籍のページ番号や情報を取得するために参照された記事などの追加情報に回答し、共有する。 MufassirQAS と ChatGPT もセンシティブな質問でテストされている。 私たちはシステムの性能が良くなった。 研究と強化はまだ進行中である。 結果と今後の成果が示される。

Challenges exist in learning and understanding religions, such as the complexity and depth of religious doctrines and teachings. Chatbots as question-answering systems can help in solving these challenges. LLM chatbots use NLP techniques to establish connections between topics and accurately respond to complex questions. These capabilities make it perfect for enlightenment on religion as a question-answering chatbot. However, LLMs also tend to generate false information, known as hallucination. Also, the chatbots' responses can include content that insults personal religious beliefs, interfaith conflicts, and controversial or sensitive topics. It must avoid such cases without promoting hate speech or offending certain groups of people or their beliefs. This study uses a vector database-based Retrieval Augmented Generation (RAG) approach to enhance the accuracy and transparency of LLMs. Our question-answering system is called "MufassirQAS". We created a database consisting of several open-access books that include Turkish context. These books contain Turkish translations and interpretations of Islam. This database is utilized to answer religion-related questions and ensure our answers are trustworthy. The relevant part of the dataset, which LLM also uses, is presented along with the answer. We have put careful effort into creating system prompts that give instructions to prevent harmful, offensive, or disrespectful responses to respect people's values and provide reliable results. The system answers and shares additional information, such as the page number from the respective book and the articles referenced for obtaining the information. MufassirQAS and ChatGPT are also tested with sensitive questions. We got better performance with our system. Study and enhancements are still in progress. Results and future works are given.
翻訳日:2024-02-05 12:00:12 公開日:2024-02-01
# 球面データに対する確率生成関数カーネル

Probability-Generating Function Kernels for Spherical Data ( http://arxiv.org/abs/2112.00365v2 )

ライセンス: Link先を確認
Theodore Papamarkou, Alexey Lindo(参考訳) 確率生成関数(pgf)カーネルは、球面データ解析の目的で、単位超球面上でサポートされている一連のカーネルを構成する。 PGFカーネルは、球面データの文脈でRBFカーネルを一般化する。 PGF核の性質について研究する。 半パラメトリック学習アルゴリズムを導入し、球面データによるPGFカーネルの利用を可能にする。

Probability-generating function (PGF) kernels are introduced, which constitute a class of kernels supported on the unit hypersphere, for the purposes of spherical data analysis. PGF kernels generalize RBF kernels in the context of spherical data. The properties of PGF kernels are studied. A semi-parametric learning algorithm is introduced to enable the use of PGF kernels with spherical data.
翻訳日:2024-02-02 20:22:59 公開日:2024-02-01
# 行列値時系列からのオンライングラフトポロジー学習

Online Graph Topology Learning from Matrix-valued Time Series ( http://arxiv.org/abs/2107.08020v3 )

ライセンス: Link先を確認
Yiye Jiang, J\'er\'emie Bigot and Sofian Maabout(参考訳) 本稿では,行列値時系列の統計解析について述べる。 これらは、センサーのネットワーク(通常は空間的な場所のセット)で収集されたデータであり、センサー毎の瞬時に特徴のベクトルが観察される。 これにより、各センサはベクトル時系列により特徴づけられる。 これらのセンサー間の依存性構造を特定し、グラフで表現したいと思います。 センサ毎に1つの特徴しか存在しない場合、ベクトル自己回帰モデルはグランジャー因果構造を推測するために広く適応されている。 結果として得られるグラフは因果グラフと呼ばれる。 最初の貢献は、グラフ学習の目的のためにVARモデルを行列変量モデルに拡張することです。 次に,2つのオンライン手順をそれぞれ低次元と高次元で提案する。 特に高次元状態において,新しいラッソ型を導入し,オンライン学習のためのホモトピーアルゴリズムを開発した。 また、正規化パラメータに対する適応チューニング手順も提供する。 最後に、データへのARモデルの適用は、通常、生データをゆがめる必要があるが、このステップはオンラインコンテキストでは禁じられている。 そこで,提案するarモデルでは,トレンドを余分なパラメータとして取り入れ,オンラインアルゴリズムを拡張データモデルに適用することで,ストリーミングサンプルからグラフとトレンドを同時に学習できる。 本稿では,主に周期的傾向を考察する。 合成データと実データの両方を用いた数値実験を行い,提案手法の有効性を検証した。

This paper is concerned with the statistical analysis of matrix-valued time series. These are data collected over a network of sensors (typically a set of spatial locations) along time, where a vector of features is observed per time instant per sensor. Thus each sensor is characterized by a vectorial time series. We would like to identify the dependency structure among these sensors and represent it by a graph. When there is only one feature per sensor, the vector auto-regressive models have been widely adapted to infer the structure of Granger causality. The resulting graph is referred to as causal graph. Our first contribution is then extending VAR models to matrix-variate models to serve the purpose of graph learning. Secondly, we propose two online procedures respectively in low and high dimensions, which can update quickly the estimates of coefficients when new samples arrive. In particular in high dimensional regime, a novel Lasso-type is introduced and we develop its homotopy algorithms for the online learning. We also provide an adaptive tuning procedure for the regularization parameter. Lastly, we consider that, the application of AR models onto data usually requires detrending the raw data, however, this step is forbidden in online context. Therefore, we augment the proposed AR models by incorporating trend as extra parameter, and then adapt the online algorithms to the augmented data models, which allow us to simultaneously learn the graph and trend from streaming samples. In this work, we consider primarily the periodic trend. Numerical experiments using both synthetic and real data are performed, whose results support the effectiveness of the proposed methods.
翻訳日:2024-02-02 20:22:31 公開日:2024-02-01
# ハイゼンベルク・ワイル作用素を用いた四重項のブロッホ球アナログ

Bloch sphere analog of qudits using Heisenberg-Weyl Operators ( http://arxiv.org/abs/2101.06408v4 )

ライセンス: Link先を確認
Gautam Sharma and Sibasish Ghosh and Sk Sazim(参考訳) ハイゼンベルク・ワイル作用素基底を用いた高レベル量子系のブロッホ球面表現の研究を行った。 任意の密度演算子に対して実値のブロッホベクトルを同定するパラメトリゼーション法を提案する。 任意の$d$-level (d\geq 3$) 量子システム (qudits) に入る前に、3つのレベルシステム (qutrits) で分析を開始します。 任意の3レベル量子システム (qutrits) を記述するためにブロッホベクトルに少なくとも8つの実パラメータが必要であることはよく知られている。 しかし,本手法では,これらのパラメータを4つの重みと4つの角パラメータに分割し,重みパラメータが4次元の単位球面を誘導していることを見いだせる。 そして、4つの角パラメータはブロッホベクトルが物理的かどうかを決定する。 したがって、その立方体と異なり、立方体ブロッホ球面は固体構造を持たない。 重要なことに、この構成によりブロッホベクトル成分の観点から、クトリットの異なる性質を定義できる。 また、球面の2次元および3次元の断面についても検討し、非凸で閉かつ物理的四重項状態の構造を明らかにする。 さらに、我々の表現を適用して、相互に偏りのない基底(MUB)を導出し、クォートリットのユニタリマップを特徴づけ、ヒルベルト・シュミットとビューズの測定値を用いてアンサンブルを評価する。 さらに,この構成をquditsにまで拡張し,qutritのシナリオを超えて適用可能性を示す。

We study an analogous Bloch sphere representation of higher-level quantum systems using the Heisenberg-Weyl operator basis. We introduce a parametrization method that will allow us to identify a real-valued Bloch vector for an arbitrary density operator. Before going into arbitrary $d$-level ($d\geq 3$) quantum systems (qudits), we start our analysis with three-level ones (qutrits). It is well known that we need at least eight real parameters in the Bloch vector to describe arbitrary three-level quantum systems (qutrits). However, using our method we can divide these parameters into four weight, and four angular parameters, and find that the weight parameters are inducing a unit sphere in four-dimension. And, the four angular parameters determine whether a Bloch vector is physical. Therefore, unlike its qubit counterpart, the qutrit Bloch sphere does not exhibit a solid structure. Importantly, this construction allows us to define different properties of qutrits in terms of Bloch vector components. We also examine the two and three-dimensional sections of the sphere, which reveal a non-convex yet closed structure for physical qutrit states. Further, we apply our representation to derive mutually unbiased bases (MUBs), characterize unital maps for qutrits, and assess ensembles using the Hilbert-Schmidt and Bures metrics. Moreover, we extend this construction to qudits, showcasing its potential applicability beyond the qutrit scenario.
翻訳日:2024-02-02 20:22:08 公開日:2024-02-01
# GridMaskデータ拡張

GridMask Data Augmentation ( http://arxiv.org/abs/2001.04086v3 )

ライセンス: Link先を確認
Pengguang Chen, Shu Liu, Hengshuang Zhao, Xingquan Wang, Jiaya Jia(参考訳) 本稿では,新しいデータ拡張手法であるGridMaskを提案する。 情報除去を利用して、様々なコンピュータビジョンタスクで最先端の結果を達成する。 我々は情報落下の要件を分析する。 次に,既存の情報投下アルゴリズムの限界を示し,単純かつ極めて効果的な構造化手法を提案する。 これは入力画像の領域の削除に基づいている。 大規模な実験により,我々の手法は最新のAutoAugmentよりも優れており,最も優れたポリシーを見つけるために強化学習を用いることにより,計算コストがはるかに高いことが判明した。 認識のためのImageNetデータセット、COCO2017オブジェクト検出、セマンティックセグメンテーションのためのCityscapesデータセットでは、ベースラインよりもパフォーマンスが著しく向上する。 実験により,新しい手法の有効性と一般化が示された。

We propose a novel data augmentation method `GridMask' in this paper. It utilizes information removal to achieve state-of-the-art results in a variety of computer vision tasks. We analyze the requirement of information dropping. Then we show limitation of existing information dropping algorithms and propose our structured method, which is simple and yet very effective. It is based on the deletion of regions of the input image. Our extensive experiments show that our method outperforms the latest AutoAugment, which is way more computationally expensive due to the use of reinforcement learning to find the best policies. On the ImageNet dataset for recognition, COCO2017 object detection, and on Cityscapes dataset for semantic segmentation, our method all notably improves performance over baselines. The extensive experiments manifest the effectiveness and generality of the new method.
翻訳日:2024-02-02 20:21:22 公開日:2024-02-01
# 次世代サイバーセキュリティ産業へのブロックチェーンの適用に関する展望 4.0 スマートファクター

A Review on the Application of Blockchain for the Next Generation of Cybersecure Industry 4.0 Smart Factories ( http://arxiv.org/abs/1902.09604v2 )

ライセンス: Link先を確認
Tiago M. Fernandez-Carames, Paula Fraga-Lamas(参考訳) 産業用4.0は、産業用IoT(Industrial Internet of Things, IIoT)やロボティクス、ビッグデータアプリケーションなど、最新の技術を活用して、近代的な工場の運用方法を改善するために考案されたコンセプトである。 このような技術の1つはブロックチェーンで、異なる産業分野に信頼、セキュリティ、分散化を追加することができる。 この記事では、ブロックチェーンとスマートコントラクトを使って業界4.0アプリケーションを開発する際のメリットと課題を分析します。 さらに、業界4.0技術における最も関連するブロックチェーンベースのアプリケーションについて、徹底的なレビューを行う。 したがって、ブロックチェーンが次世代のサイバーセキュリティ産業アプリケーションをどのように強化できるかを判断するための、将来の業界4.0開発者に詳細なガイドを提供することが目的だ。

Industry 4.0 is a concept devised for improving the way modern factories operate through the use of some of the latest technologies, like the ones used for creating Industrial Internet of Things (IIoT), robotics or Big Data applications. One of such technologies is blockchain, which is able to add trust, security and decentralization to different industrial fields. This article focuses on analyzing the benefits and challenges that arise when using blockchain and smart contracts to develop Industry 4.0 applications. In addition, this paper presents a thorough review on the most relevant blockchain-based applications for Industry 4.0 technologies. Thus, its aim is to provide a detailed guide for future Industry 4.0 developers that allows for determining how blockchain can enhance the next generation of cybersecure industrial applications.
翻訳日:2024-02-02 20:21:09 公開日:2024-02-01
# 注意機構を用いた操舵角予測の精度向上とロバスト性

Enhancing Accuracy and Robustness of Steering Angle Prediction with Attention Mechanism ( http://arxiv.org/abs/2211.11133v4 )

ライセンス: Link先を確認
Swetha Nadella, Pramiti Barua, Jeremy C. Hagler, David J. Lamb, Qing Tian(参考訳) 本稿では,自動運転作業における操舵角度予測の強化に焦点をあてる。 我々は,広く採用されている深層ニューラルネットワーク(resnet)とインセプションネット(inceptionnets)の2つの静脈を調査し,探索を開始する。 両家系のモデルサイズを体系的に評価し,その性能への影響を明らかにする。 特に重要な貢献は,ステアリング角度予測精度とロバスト性を高めるための注意機構の導入にある。 注意を導入することで、モデルが入力データ内の重要な領域に選択的に集中できるようになり、予測結果が改善されます。 以上の結果から,我々の注意力向上モデルは操舵角平均角誤差(Mean Squared Error:MSE)の観点だけでなく,対向的堅牢性も向上し,現実の展開において重要な懸念事項に対処できることが示唆された。 例えば、Kaggle SAPと作成した公開データセットの実験では、ステアリング角予測のエラーを6%以上削減し、モデルロバストネスを最大56.09%向上させることができる。

In this paper, our focus is on enhancing steering angle prediction for autonomous driving tasks. We initiate our exploration by investigating two veins of widely adopted deep neural architectures, namely ResNets and InceptionNets. Within both families, we systematically evaluate various model sizes to understand their impact on performance. Notably, our key contribution lies in the incorporation of an attention mechanism to augment steering angle prediction accuracy and robustness. By introducing attention, our models gain the ability to selectively focus on crucial regions within the input data, leading to improved predictive outcomes. Our findings showcase that our attention-enhanced models not only achieve state-of-the-art results in terms of steering angle Mean Squared Error (MSE) but also exhibit enhanced adversarial robustness, addressing critical concerns in real-world deployment. For example, in our experiments on the Kaggle SAP and our created publicly available datasets, attention can lead to over 6% error reduction in steering angle prediction and boost model robustness by up to 56.09%.
翻訳日:2024-02-02 20:17:03 公開日:2024-02-01
# 機械学習時代のMRIデータ調和の有効性 36データセットを対象としたマルチセンター研究

Efficacy of MRI data harmonization in the age of machine learning. A multicenter study across 36 datasets ( http://arxiv.org/abs/2211.04125v4 )

ライセンス: Link先を確認
Chiara Marzi, Marco Giannelli, Andrea Barucci, Carlo Tessa, Mario Mascalchi, Stefano Diciotti(参考訳) 複数のサイトから公開されているmriデータをプールすることで、広範囲の被験者グループを組み立て、統計力を高め、機械学習技術によるデータの再利用を促進することができる。 マルチセンターデータの調和化は、データの非生物学的変動源に付随する相反効果を低減するために必要である。 しかし、機械学習の前にデータセット全体に適用すると、トレーニングセット外の情報がモデル構築に影響し、潜在的に過大評価されたパフォーマンスに影響を及ぼすため、ハーモニゼーションはデータ漏洩につながる。 1)データ調和の有効性の測定について提案する。 2) 調和器トランスフォーマー、すなわち、機械学習パイプラインの前処理ステップ間でカプセル化を可能にする戦闘調和の実装、データ漏洩を回避する。 健常者1740名を対象に,脳T1強調MRIデータを36箇所で取得した。 調和後, サイト効果を除去または低減し, mriデータから個々の年齢を予測する際のデータ漏洩効果を示し, 機械学習パイプラインにハーモナイザトランスフォーマーを導入することでデータ漏洩を回避できることを示した。

Pooling publicly-available MRI data from multiple sites allows to assemble extensive groups of subjects, increase statistical power, and promote data reuse with machine learning techniques. The harmonization of multicenter data is necessary to reduce the confounding effect associated with non-biological sources of variability in the data. However, when applied to the entire dataset before machine learning, the harmonization leads to data leakage, because information outside the training set may affect model building, and potentially falsely overestimate performance. We propose a 1) measurement of the efficacy of data harmonization; 2) harmonizer transformer, i.e., an implementation of the ComBat harmonization allowing its encapsulation among the preprocessing steps of a machine learning pipeline, avoiding data leakage. We tested these tools using brain T1-weighted MRI data from 1740 healthy subjects acquired at 36 sites. After harmonization, the site effect was removed or reduced, and we showed the data leakage effect in predicting individual age from MRI data, highlighting that introducing the harmonizer transformer into a machine learning pipeline allows for avoiding data leakage.
翻訳日:2024-02-02 20:16:20 公開日:2024-02-01
# 多変量アンサンブル後処理のための生成機械学習手法

Generative machine learning methods for multivariate ensemble post-processing ( http://arxiv.org/abs/2211.01345v2 )

ライセンス: Link先を確認
Jieyu Chen, Tim Janke, Florian Steinke, Sebastian Lerch(参考訳) 複数の気象予測モデルに基づくアンサンブル気象予報は、一般に系統的な誤りを示し、信頼できる予報を得るためには後処理を必要とする。 多変量依存の正確なモデリングは多くの実用アプリケーションにおいて重要であり、各マージンでアンサンブル予測を個別に後処理し、多変量依存をコプラで復元する多変量後処理への様々なアプローチが提案されている。 これらの2ステップメソッドは共通の制限を共有しており、特に依存関係のモデリングにおいて追加の予測器を含めることが困難である。 これらの課題に対処するために,生成機械学習に基づく多変量後処理手法を提案する。 この非パラメトリックなデータ駆動分布回帰モデルでは、生成ニューラルネットワークの出力として、多変量予測分布からのサンプルを直接取得する。 生成データと観測データとの差を測定する適切なスコアリングルールを最適化し、外部入力変数を条件として生成モデルを訓練する。 本手法では,一変量分布や多変量依存に関するパラメトリックな仮定は必要とせず,任意の予測器を組み込むことができる。 ドイツ各地の気象観測所における多変量温度と風速予測に関する2つのケーススタディにおいて,この生成モデルは最先端の手法よりも大幅に改善し,特に空間依存性の表現を改善している。

Ensemble weather forecasts based on multiple runs of numerical weather prediction models typically show systematic errors and require post-processing to obtain reliable forecasts. Accurately modeling multivariate dependencies is crucial in many practical applications, and various approaches to multivariate post-processing have been proposed where ensemble predictions are first post-processed separately in each margin and multivariate dependencies are then restored via copulas. These two-step methods share common key limitations, in particular the difficulty to include additional predictors in modeling the dependencies. We propose a novel multivariate post-processing method based on generative machine learning to address these challenges. In this new class of nonparametric data-driven distributional regression models, samples from the multivariate forecast distribution are directly obtained as output of a generative neural network. The generative model is trained by optimizing a proper scoring rule which measures the discrepancy between the generated and observed data, conditional on exogenous input variables. Our method does not require parametric assumptions on univariate distributions or multivariate dependencies and allows for incorporating arbitrary predictors. In two case studies on multivariate temperature and wind speed forecasting at weather stations over Germany, our generative model shows significant improvements over state-of-the-art methods and particularly improves the representation of spatial dependencies.
翻訳日:2024-02-02 20:16:02 公開日:2024-02-01
# 非ブロックPT対称性切断の幾何学的起源

Geometric Origin of Non-Bloch PT Symmetry Breaking ( http://arxiv.org/abs/2210.13491v2 )

ライセンス: Link先を確認
Yu-Min Hu, Hong-Yi Wang, Zhong Wang, Fei Song(参考訳) 非エルミートハミルトニアンのパリティ時(PT)対称性は、非ハーモニティがしきい値以下であるときに実(複素)エネルギースペクトルをもたらす。 近年、非エルミート皮膚効果が非ブローチpt対称性と呼ばれる新しいタイプのpt対称性を生み出し、境界条件に対する高感度などの特異な性質を特徴付けることが示されている。 広い範囲の非エルミート格子系と関係があるにもかかわらず、一般理論は1つの空間次元においてもこのジェネリックな現象を欠いている。 ここでは、非Bloch PT対称性の幾何学的メカニズムとその破壊を明らかにする。 一般化ブリルアンゾーン (GBZ) におけるカスプの形成により, 非ブロッホ PT 対称性の破れが生じることがわかった。 この幾何学的理解に基づいて, 破断閾値を効率的に決定する公式を提案する。 さらに、非ブロッホ・ファン・ホーブ特異点と呼ばれる対称性の破れに関連する新しいスペクトル特異点を予測し、その物理機構はエルミート的特異点と根本的に異なる。 この特異性は線形応答において実験的に観測可能である。

The parity-time (PT) symmetry of a non-Hermitian Hamiltonian leads to real (complex) energy spectrum when the non-Hermiticity is below (above) a threshold. Recently, it has been demonstrated that the non-Hermitian skin effect generates a new type of PT symmetry, dubbed the non-Bloch PT symmetry, featuring unique properties such as high sensitivity to the boundary condition. Despite its relevance to a wide range of non-Hermitian lattice systems, a general theory is still lacking for this generic phenomenon even in one spatial dimension. Here, we uncover the geometric mechanism of non-Bloch PT symmetry and its breaking. We find that non-Bloch PT symmetry breaking occurs by the formation of cusps in the generalized Brillouin zone (GBZ). Based on this geometric understanding, we propose an exact formula that efficiently determines the breaking threshold. Moreover, we predict a new type of spectral singularities associated with the symmetry breaking, dubbed non-Bloch van Hove singularity, whose physical mechanism fundamentally differs from their Hermitian counterparts. This singularity is experimentally observable in linear responses.
翻訳日:2024-02-02 20:15:37 公開日:2024-02-01
# foresee: オンラインポリシー最適化のための拡張圧縮なし変換による予測

FORESEE: Prediction with Expansion-Compression Unscented Transform for Online Policy Optimization ( http://arxiv.org/abs/2209.12644v2 )

ライセンス: Link先を確認
Hardik Parwana and Dimitra Panagou(参考訳) 一般的で不確定な非線形力学モデルによる状態分布の伝播は難解であり、通常は数値的あるいは解析的な近似が得られる。 本稿では, 拡張圧縮非香り変換と呼ばれる状態予測手法を導入し, オンライン政策最適化問題の解法として用いる。 提案アルゴリズムは、状態依存分布を通じて有限個のシグマ点を伝播し、各段階におけるシグマ点数の増加を予測して結果の分布を表現し、これを拡張演算と呼ぶ。 アルゴリズムをスケーラブルに保つために,モーメントマッチングに基づく圧縮操作により拡張操作を増強し,複数の時間ステップにわたる予測に対してシグマ点数を一定に保つ。 その性能はモンテカルロに匹敵するが、計算コストははるかに低いことが実証的に示されている。 状態および制御入力制約の下では、状態予測はその後、後退地平線方式でポリシーパラメータをオンライン更新するための制約付き勾配の変種として提案される。 このフレームワークは、ポリシートレーニングのための微分可能な計算グラフとして実装されている。 本稿では,安全な制御ジャムのベンチマーク比較の一環として,制御バリア関数に基づく制御器のパラメータをリーダ・フォロワー問題で最適化するための四重項安定化タスクの枠組みを紹介する。

Propagating state distributions through a generic, uncertain nonlinear dynamical model is known to be intractable and usually begets numerical or analytical approximations. We introduce a method for state prediction, called the Expansion-Compression Unscented Transform, and use it to solve a class of online policy optimization problems. Our proposed algorithm propagates a finite number of sigma points through a state-dependent distribution, which dictates an increase in the number of sigma points at each time step to represent the resulting distribution; this is what we call the expansion operation. To keep the algorithm scalable, we augment the expansion operation with a compression operation based on moment matching, thereby keeping the number of sigma points constant across predictions over multiple time steps. Its performance is empirically shown to be comparable to Monte Carlo but at a much lower computational cost. Under state and control input constraints, the state prediction is subsequently used in tandem with a proposed variant of constrained gradient-descent for online update of policy parameters in a receding horizon fashion. The framework is implemented as a differentiable computational graph for policy training. We showcase our framework for a quadrotor stabilization task as part of a benchmark comparison in safe-control-gym and for optimizing the parameters of a Control Barrier Function based controller in a leader-follower problem.
翻訳日:2024-02-02 20:15:17 公開日:2024-02-01
# Prog-QAOA:古典的プログラムによる資源効率の高い量子最適化のためのフレームワーク

Prog-QAOA: Framework for resource-efficient quantum optimization through classical programs ( http://arxiv.org/abs/2209.03386v2 )

ライセンス: Link先を確認
Bence Bak\'o and Adam Glos and \"Ozlem Salehi and Zolt\'an Zimbor\'as(参考訳) 現在の最先端量子最適化アルゴリズムは、元の問題を二進最適化問題として表現し、量子デバイスに適した等価イジングモデルに変換する必要がある。 イジングモデルの各項を個別に実装することは、しばしば高い冗長性をもたらし、必要なリソースを著しく増加させる。 代わりに、目的関数を計算し、制約を検証するための古典的なプログラムを設計し、後に量子回路にコンパイルし、バイナリ最適化問題表現に依存しないよう提案する。 この結果、我々がprog-qaoaと呼ぶ量子近似最適化アルゴリズム(qaoa)の新しい変種が生まれました。 このアイデアを,巡回セールスマン問題や最大$k$-cutなどの最適化タスクに活用し,クビット数,ゲート数,回路深度など,関連するすべてのコスト対策に対してほぼ最適な回路を得る。 特定のパラダイム問題に対してのみ,Prog-QAOAのパワーを実証するが,本手法は汎用最適化問題に有効である。

Current state-of-the-art quantum optimization algorithms require representing the original problem as a binary optimization problem, which is then converted into an equivalent Ising model suitable for the quantum device. Implementing each term of the Ising model separately often results in high redundancy, significantly increasing the resources required. Instead, we propose to design classical programs for computing the objective function and certifying the constraints, and later compile them to quantum circuits, eliminating the reliance on the binary optimization problem representation. This results in a new variant of the Quantum Approximate Optimization Algorithm (QAOA), which we name the Prog-QAOA. We exploit this idea for optimization tasks like the Travelling Salesman Problem and Max-$K$-Cut and obtain circuits that are near-optimal with respect to all relevant cost measures, e.g., number of qubits, gates, and circuit depth. While we demonstrate the power of Prog-QAOA only for a particular set of paradigmatic problems, our approach is conveniently applicable to generic optimization problems.
翻訳日:2024-02-02 20:14:54 公開日:2024-02-01
# 弱コロケーション回帰法:高次元集計データから隠れた確率力学を高速に解明する

Weak Collocation Regression method: fast reveal hidden stochastic dynamics from high-dimensional aggregate data ( http://arxiv.org/abs/2209.02628v3 )

ライセンス: Link先を確認
Liwei Lu, Zhijun Zeng, Yan Jiang, Yi Zhu, and Pipi Hu(参考訳) 確率データから隠れたダイナミクスを明らかにすることは、ランダム性がデータの進化に関与するため、難しい問題である。 確率データの軌跡が多くのシナリオで存在しない場合、問題は極めて複雑になる。 本稿では、ブラウン過程における密度関数の進化を規定するFokker-Planck(FP)方程式の弱い形式に基づいて、軌跡のない確率データの力学を効果的にモデル化するアプローチを提案する。 ガウス函数のコロケーションをFP方程式の弱形式のテスト関数として捉え、導関数をガウス函数に転移し、データの期待和で弱形式を近似する。 未知項の辞書表現により、線形系が構築され、回帰によって解決され、データの未知のダイナミクスが明らかにされる。 したがって,弱コロケーション回帰 (weak collocation regression, wcr) 法を用いて,弱形式,ガウス核のコロケーション,レグレッションの3つの主要成分を同定した。 数値実験により, 本手法は柔軟で高速であることを示し, 多次元問題における数秒以内のダイナミクスを明らかにし, 20次元などの高次元データに容易に拡張できることを示した。 WCRはまた、変数依存拡散と結合ドリフトを伴う複雑なタスクの隠れたダイナミクスを正しく識別することができ、ノイズが付加された場合に高い精度を達成する。

Revealing hidden dynamics from the stochastic data is a challenging problem as randomness takes part in the evolution of the data. The problem becomes exceedingly complex when the trajectories of the stochastic data are absent in many scenarios. Here we present an approach to effectively modeling the dynamics of the stochastic data without trajectories based on the weak form of the Fokker-Planck (FP) equation, which governs the evolution of the density function in the Brownian process. Taking the collocations of Gaussian functions as the test functions in the weak form of the FP equation, we transfer the derivatives to the Gaussian functions and thus approximate the weak form by the expectational sum of the data. With a dictionary representation of the unknown terms, a linear system is built and then solved by the regression, revealing the unknown dynamics of the data. Hence, we name the method with the Weak Collocation Regression (WCR) method for its three key components: weak form, collocation of Gaussian kernels, and regression. The numerical experiments show that our method is flexible and fast, which reveals the dynamics within seconds in multi-dimensional problems and can be easily extended to high-dimensional data such as 20 dimensions. WCR can also correctly identify the hidden dynamics of the complex tasks with variable-dependent diffusion and coupled drift, and the performance is robust, achieving high accuracy in the case with noise added.
翻訳日:2024-02-02 20:14:18 公開日:2024-02-01
# ワニエ・スタークポテンシャルにおける運動の局所積分と多体局所化の安定性

Local integrals of motion and the stability of many-body localisation in Wannier-Stark potentials ( http://arxiv.org/abs/2208.14432v5 )

ライセンス: Link先を確認
C. Bertoni, J. Eisert, A. Kshetrimayum, A. Nietner and S. J. Thomson(参考訳) ある空間次元における乱れた系の多体局在は典型的には、距離で指数関数的に崩壊し、互いに弱い相互作用しかしないと考えられる、多数の(準)局所運動積分(LIOM)の存在によって理解される。 対照的に、ローカライゼーションを示す無障害系の運動積分の形式についてはほとんど知られていない。 ここでは,線形に増大するポテンシャルの場合に焦点をあてて,障害のない局所化系のリムムを明示的に計算する。 相互作用が存在しない状態では、LIOMsは指数関数よりも早く崩壊するが、相互作用の付加は短い距離で緩やかに崩壊する台地を形成することにつながる。 本研究では, 線形斜面の局所化特性について検討し, 有意な有限次元依存が存在することを見出し, 弱調和ポテンシャルを付加すると典型的な多体局所化現象は生じないことを示す。 対照的に、障害の付加は質的に異なる効果を持ち、LOOMSの特性を劇的に変化させる。

Many-body localisation in disordered systems in one spatial dimension is typically understood in terms of the existence of an extensive number of (quasi)-local integrals of motion (LIOMs) which are thought to decay exponentially with distance and interact only weakly with one another. By contrast, little is known about the form of the integrals of motion in disorder-free systems which exhibit localisation. Here, we explicitly compute the LIOMs for disorder-free localised systems, focusing on the case of a linearly increasing potential. We show that while in the absence of interactions, the LIOMs decay faster than exponentially, the addition of interactions leads to the formation of a slow-decaying plateau at short distances. We study how the localisation properties of the LIOMs depend on the linear slope, finding that there is a significant finite-size dependence, and present evidence that adding a weak harmonic potential does not result in typical many-body localisation phenomenology. By contrast, the addition of disorder has a qualitatively different effect, dramatically modifying the properties of the LIOMS.
翻訳日:2024-02-02 20:13:48 公開日:2024-02-01
# 医療における公正な機械学習:レビュー

Fair Machine Learning in Healthcare: A Review ( http://arxiv.org/abs/2206.14397v3 )

ライセンス: Link先を確認
Qizhang Feng, Mengnan Du, Na Zou, Xia Hu(参考訳) 医療データのデジタル化と計算能力の進歩は、医療における機械学習(ML)の採用を促している。 しかし、これらの手法は既存の格差を持続または悪化させ、資源の不平等な分布や異なる人口集団間の診断の不正確さなどの公平な懸念を引き起こす。 こうした公正問題に対処することは、社会的不正のさらなる取り締まりを防ぐために最重要である。 本研究では,機械学習と医療格差における公平性の交点を分析する。 公平性の懸念を平等な配分と平等なパフォーマンスの2つのクラスに分類するために、分配的公正の原則に基づく枠組みを採用する。 機械学習の観点から、関連する公正度指標の批判的レビューを行い、機械学習ライフサイクルの段階にわたってバイアスと緩和戦略を調べ、バイアスと対策との関係について論じる。 本論文は、医療MLにおける公正性の確保に相応しい課題について論じ、医療における倫理的かつ公平なMLアプリケーションの開発を約束する新しい研究指針をいくつか提案する。

The digitization of healthcare data coupled with advances in computational capabilities has propelled the adoption of machine learning (ML) in healthcare. However, these methods can perpetuate or even exacerbate existing disparities, leading to fairness concerns such as the unequal distribution of resources and diagnostic inaccuracies among different demographic groups. Addressing these fairness problem is paramount to prevent further entrenchment of social injustices. In this survey, we analyze the intersection of fairness in machine learning and healthcare disparities. We adopt a framework based on the principles of distributive justice to categorize fairness concerns into two distinct classes: equal allocation and equal performance. We provide a critical review of the associated fairness metrics from a machine learning standpoint and examine biases and mitigation strategies across the stages of the ML lifecycle, discussing the relationship between biases and their countermeasures. The paper concludes with a discussion on the pressing challenges that remain unaddressed in ensuring fairness in healthcare ML, and proposes several new research directions that hold promise for developing ethical and equitable ML applications in healthcare.
翻訳日:2024-02-02 20:13:07 公開日:2024-02-01
# CUBES: 例を使ってSQLの並列シンセサイザー

CUBES: A Parallel Synthesizer for SQL Using Examples ( http://arxiv.org/abs/2203.04995v2 )

ライセンス: Link先を確認
Ricardo Brancas, Miguel Terra-Neves, Miguel Ventura, Vasco Manquinho and Ruben Martins(参考訳) 近年、多くの人が自分の仕事がデータ操作のタスクに依存していると見ている。 しかし、これらのユーザの多くは複雑なプログラム、特にSQLクエリを書くのに必要なプログラミングのバックグラウンドを持っていません。 これらのユーザを支援する一つの方法は、少数の例からSQLクエリを自動的に合成することです。 SQL用のプログラムシンセサイザーが最近提案されているが、マルチコアアーキテクチャは利用していない。 本稿では,入力出力例を用いてSQLクエリのドメインを並列に生成するCUBESを提案する。 入力出力の例は所望のsqlクエリの下位仕様であるため、合成されたクエリはユーザの意図と一致しない場合がある。 CUBESは、ユーザと対話し、返されるクエリがユーザの意図と一致するという自信を高めるファジィング技術に基づく、新たな曖昧化手順を取り入れている。 我々は、異なるドメインから約4000のSQLクエリを広範囲に評価する。 実験の結果、シーケンシャルバージョンは他の最先端sqlシンセサイザーよりも多くのインスタンスを解決できることがわかった。 さらに、並列アプローチは16プロセスまでスケールアップでき、多くのハードインスタンスで超線形スピードアップを行うことができる。 我々の曖昧なアプローチは、他のSQLシンセサイザーよりもはるかに大きい約60%の精度を達成するために重要である。

In recent years, more people have seen their work depend on data manipulation tasks. However, many of these users do not have the background in programming required to write complex programs, particularly SQL queries. One way of helping these users is automatically synthesizing the SQL query given a small set of examples. Several program synthesizers for SQL have been recently proposed, but they do not leverage multicore architectures. This paper proposes CUBES, a parallel program synthesizer for the domain of SQL queries using input-output examples. Since input-output examples are an under-specification of the desired SQL query, sometimes, the synthesized query does not match the user's intent. CUBES incorporates a new disambiguation procedure based on fuzzing techniques that interacts with the user and increases the confidence that the returned query matches the user intent. We perform an extensive evaluation on around 4000 SQL queries from different domains. Experimental results show that our sequential version can solve more instances than other state-of-the-art SQL synthesizers. Moreover, the parallel approach can scale up to 16 processes with super-linear speedups for many hard instances. Our disambiguation approach is critical to achieving an accuracy of around 60%, significantly larger than other SQL synthesizers.
翻訳日:2024-02-02 20:12:17 公開日:2024-02-01
# 弱超対称性 $su(N|1)$量子系

Weak supersymmetric $su(N|1)$ quantum systems ( http://arxiv.org/abs/2202.11357v4 )

ライセンス: Link先を確認
A.V. Smilga(参考訳) 弱超代数 $su(N|1)$ を持つ超対称量子力学系のいくつかの例を示す。 一つは弱 $su(N|1)$ 発振器である。 単項基底状態、最初の励起レベルにおける退化状態、等がある。 レベル $k = N+1$ から始めて、システムは各レベルに 2^N$ 退化状態を含む完全超対称多重体を持つ。 スーパーマルチレットが$k \leq N$に対して完備でないという事実から、ウィッテン指数は$\beta$の非自明な関数を表す。 このシステムは代数をそのまま保って変形することができる。 指数はそのような変形の下で不変である。 変形した系は正確には解かれていないが、指数の不変性は、スペクトルの最初の$n$レベルにおける状態のエネルギーがシフトしないことを意味する。 別のシステムは、$N$複素スーパーチャージによる超共形力学の弱い一般化を表す。 また、この場合、あるエネルギーから始めると、スペクトルは完全な超対称な2^N$-プレットのみを含む。 (エネルギーが低い正規化可能な状態も存在するが、正規化可能な超パートナーを持たない。超対称性を維持するためには、これらの状態を排除する必要がある。)

We present several examples of supersymmetric quantum mechanical systems with weak superalgebra $su(N|1)$. One of them is the weak $su(N|1)$ oscillator. It has a singlet ground state, $N +1$ degenerate states at the first excited level, etc. Starting from the level $k = N+1$, the system has complete supersymmetric multiplets at each level involving $2^N$ degenerate states. Due to the fact that the supermultiplets are not complete for $k \leq N$, the Witten index represents a nontrivial function of $\beta$. This system can be deformed with keeping the algebra intact. The index is invariant under such deformation. The deformed system is not exactly solved, but the invariance of the index implies that the energies of the states at the first $N$ levels of the spectrum are not shifted, and we are dealing with a quasi-exactly solvable system. Another system represents a weak generalisation of the superconformal mechanics with $N$ complex supercharges. Also in this case, starting from a certain energy, the spectrum involves only complete supersymmetric $2^N$-plets. (There also exist normalizable states with lower energies, but they do not have normalizable superpartners. To keep supersymmetry, we have to eliminate these states.)
翻訳日:2024-02-02 20:11:57 公開日:2024-02-01
# 対人訓練における過度パラメトリゼーションの呪い:ランダム特徴回帰のためのロバストな一般化の精密解析

The curse of overparametrization in adversarial training: Precise analysis of robust generalization for random features regression ( http://arxiv.org/abs/2201.05149v2 )

ライセンス: Link先を確認
Hamed Hassani and Adel Javanmard(参考訳) 成功したディープラーニングモデルは、トレーニングサンプルの数よりも多くのパラメータを含むニューラルネットワークアーキテクチャをトレーニングすることが多い。 このような過パラメータモデルは近年、広範囲に研究され、二重日射現象と最適化景観の構造的特性による計算的視点の両方を通して、過パラメータ化の利点が確立されている。 過剰パラメータ化システムにおけるディープラーニングアーキテクチャの顕著な成功にもかかわらず、これらのモデルが入力における小さな敵対的摂動に対して非常に脆弱であることはよく知られている。 反対に訓練された場合でも、摂動入力(ロバスト一般化)におけるパフォーマンスは、良性入力(標準一般化)において達成可能な最高のパフォーマンスよりもかなり悪い。 したがって、過度なパラメータ化が堅牢性にどのように影響するかを理解することが不可欠である。 本稿では,ランダムな特徴回帰モデル(ランダムな第1層重み付き2層ニューラルネットワーク)に着目し,強靭性に対する過度パラメータ化の役割を正確に評価する。 サンプルサイズ,入力次元,パラメータ数が互いに比例して増加する状態を考えるとともに,モデルが逆向きに訓練された場合の頑健な一般化誤差に対する漸近的に正確な公式を導出する。 提案理論は,過度パラメータ化が強靭性に与える影響を明らかにし,高過度パラメータ化が強靭性一般化を損なうことを示す。

Successful deep learning models often involve training neural network architectures that contain more parameters than the number of training samples. Such overparametrized models have been extensively studied in recent years, and the virtues of overparametrization have been established from both the statistical perspective, via the double-descent phenomenon, and the computational perspective via the structural properties of the optimization landscape. Despite the remarkable success of deep learning architectures in the overparametrized regime, it is also well known that these models are highly vulnerable to small adversarial perturbations in their inputs. Even when adversarially trained, their performance on perturbed inputs (robust generalization) is considerably worse than their best attainable performance on benign inputs (standard generalization). It is thus imperative to understand how overparametrization fundamentally affects robustness. In this paper, we will provide a precise characterization of the role of overparametrization on robustness by focusing on random features regression models (two-layer neural networks with random first layer weights). We consider a regime where the sample size, the input dimension and the number of parameters grow in proportion to each other, and derive an asymptotically exact formula for the robust generalization error when the model is adversarially trained. Our developed theory reveals the nontrivial effect of overparametrization on robustness and indicates that for adversarially trained random features models, high overparametrization can hurt robust generalization.
翻訳日:2024-02-02 20:11:36 公開日:2024-02-01
# 連続した量子原因

Consistent Quantum Causes ( http://arxiv.org/abs/2303.13617v2 )

ライセンス: Link先を確認
Robert B. Griffiths(参考訳) パール等が有向非巡回グラフを用いて定式化した現代の古典的因果関係の理論の量子アナログを開発するには、ヒルベルト空間プロジェクターの非可換性を無視できない顕微鏡レベルでのランダムまたは確率的時間発展の理論が必要である。 一貫性歴史学のアプローチはそのような理論を提供する。 ビームスプリッターとマッハツェンダー干渉計を含む単純な例に適用することで、どのように機能するかを示す。 正常に検査された装置が、後のマクロな結果の初期の顕微鏡的原因(例えば放射性崩壊)を明らかにするという通常の実験室の直感を正当化する。 一般のアプローチはベルの不等式パラドックスの解法によってさらに説明される。 量子因果モデルとして知られるアプローチで遭遇する困難さは、量子ランダム過程の満足できる理論が欠如していることに遡ることができる。

Developing a quantum analog of the modern classical theory of causation, as formulated by Pearl and others using directed acyclic graphs, requires a theory of random or stochastic time development at the microscopic level, where the noncommutation of Hilbert-space projectors cannot be ignored. The Consistent Histories approach provides such a theory. How it works is shown by applying it to simple examples involving beam splitters and a Mach-Zehnder interferometer. It justifies the usual laboratory intuition that properly tested apparatus can reveal the earlier microscopic cause (e.g., radioactive decay) of a later macroscopic outcome. The general approach is further illustrated by how it resolves the Bell inequalities paradox. The difficulties encountered in an approach known as Quantum Causal Models can be traced to its lack of a satisfactory theory of quantum random processes.
翻訳日:2024-02-02 20:04:47 公開日:2024-02-01
# 知識蒸留におけるプロジェクタの役割を理解する

Understanding the Role of the Projector in Knowledge Distillation ( http://arxiv.org/abs/2303.11098v5 )

ライセンス: Link先を確認
Roy Miles and Krystian Mikolajczyk(参考訳) 本稿では,機能マッチングと計量学習問題としての知識蒸留の有効性を再考する。 そこで我々は,3つの重要な設計決定,すなわち正規化,ソフト最大関数,投影層を重要な要素として検証する。 理論的には、プロジェクタが過去の例に関する情報を暗黙的に符号化し、学生に関係勾配を与える。 次に,表現の正規化とプロジェクタのトレーニングダイナミクスが密結合していることを示し,学生のパフォーマンスに大きな影響を与えることを示した。 最後に,単純なソフト最大関数を用いてキャパシティギャップ問題に対処することができることを示す。 様々なベンチマークデータセットにおける実験の結果は、計算効率がはるかに高いにもかかわらず、これらの洞察を使うことは最先端の知識蒸留技術に匹敵する性能をもたらすことを証明している。 特に、画像分類(CIFAR100とImageNet)、オブジェクト検出(COCO2017)、およびトレーニングデータ効率のよいトランスフォーマーなどのより難しい蒸留目標において、画像Net上でDeiT-Tiを用いて77.2%のトップ-1精度を得る。 コードとモデルは公開されている。

In this paper we revisit the efficacy of knowledge distillation as a function matching and metric learning problem. In doing so we verify three important design decisions, namely the normalisation, soft maximum function, and projection layers as key ingredients. We theoretically show that the projector implicitly encodes information on past examples, enabling relational gradients for the student. We then show that the normalisation of representations is tightly coupled with the training dynamics of this projector, which can have a large impact on the students performance. Finally, we show that a simple soft maximum function can be used to address any significant capacity gap problems. Experimental results on various benchmark datasets demonstrate that using these insights can lead to superior or comparable performance to state-of-the-art knowledge distillation techniques, despite being much more computationally efficient. In particular, we obtain these results across image classification (CIFAR100 and ImageNet), object detection (COCO2017), and on more difficult distillation objectives, such as training data efficient transformers, whereby we attain a 77.2% top-1 accuracy with DeiT-Ti on ImageNet. Code and models are publicly available.
翻訳日:2024-02-02 20:04:32 公開日:2024-02-01
# 医療報告作成のためのクロスモーダル因果介入

Cross-Modal Causal Intervention for Medical Report Generation ( http://arxiv.org/abs/2303.09117v3 )

ライセンス: Link先を確認
Weixing Chen, Yang Liu, Ce Wang, Jiarui Zhu, Shen Zhao, Guanbin Li and Liang Lin(参考訳) 医療報告生成(MRG)は、放射線医の重荷を軽減し、所定の放射線画像に従って対応する医療報告を自動生成するコンピュータ支援診断および医薬指導に不可欠である。 しかし,視覚・言語バイアスによって引き起こされる画像テキストデータのスプリアス相関から,病変領域を正確に記述する正確なレポートの作成が困難である。 さらに、クロスモーダルな共同創設者は通常観察不能であり、明示的に排除することは困難である。 本稿では,MRGのクロスモーダルデータバイアス,すなわちクロスモーダル因果介入を新たな視点から緩和し,視覚的疎結合モジュール(VDM)と言語的疎結合モジュール(LDM)からなるMRGのための新しい視覚言語因果干渉(VLCI)フレームワークを提案する。 具体的には、汎用的な意味抽出器がないため、vdmは高価な細かなアノテーションを使わずにパッチベースのローカルおよびグローバル機能からvisual confoundersを探索し、分離する。 同時に、医学の分野全体を包含する知識の欠如により、ldmは用語データベースを構築することなく、突出した視覚特徴と高周波コンテキストによって引き起こされる言語共起者を排除している。 IU-XrayとMIMIC-CXRデータセットの大規模な実験により、我々のVLCIは最先端のMRG法よりも大幅に優れていることが示された。 コードとモデルはhttps://github.com/WissingChen/VLCIで入手できる。

Medical report generation (MRG) is essential for computer-aided diagnosis and medication guidance, which can relieve the heavy burden of radiologists by automatically generating the corresponding medical reports according to the given radiology image. However, due to the spurious correlations within image-text data induced by visual and linguistic biases, it is challenging to generate accurate reports reliably describing lesion areas. Moreover, the cross-modal confounders are usually unobservable and challenging to be eliminated explicitly. In this paper, we aim to mitigate the cross-modal data bias for MRG from a new perspective, i.e., cross-modal causal intervention, and propose a novel Visual-Linguistic Causal Intervention (VLCI) framework for MRG, which consists of a visual deconfounding module (VDM) and a linguistic deconfounding module (LDM), to implicitly mitigate the visual-linguistic confounders by causal front-door intervention. Specifically, due to the absence of a generalized semantic extractor, the VDM explores and disentangles the visual confounders from the patch-based local and global features without expensive fine-grained annotations. Simultaneously, due to the lack of knowledge encompassing the entire field of medicine, the LDM eliminates the linguistic confounders caused by salient visual features and high-frequency context without constructing a terminology database. Extensive experiments on IU-Xray and MIMIC-CXR datasets show that our VLCI significantly outperforms the state-of-the-art MRG methods. The code and models are available at https://github.com/WissingChen/VLCI.
翻訳日:2024-02-02 20:04:10 公開日:2024-02-01
# スポーツ賭けのための機械学習:モデル選択は正確性や校正に基づくべきか?

Machine learning for sports betting: should model selection be based on accuracy or calibration? ( http://arxiv.org/abs/2303.06021v4 )

ライセンス: Link先を確認
Conor Walsh, Alok Joshi(参考訳) 米国におけるスポーツ・ベッティングの連邦合法化は、機械学習の黄金時代と一致する。 賭け者がデータを活用して結果の確率を確実に予測できれば、本屋の確率が好まれているときに認識することができる。 スポーツの賭けは米国だけでも数十億ドルの産業であり、そのような機会を特定することは極めて有益である。 多くの研究者が機械学習をスポーツ結果予測問題に適用し、一般的には精度を用いて予測モデルの性能を評価する。 スポーツベッティング問題に対して,モデルの校正は精度よりも重要であると仮定する。 この仮説をテストするために、NBAデータ上のモデルを数シーズンにわたってトレーニングし、1シーズンの賭け実験を公開オッズを用いて実施する。 モデル選択のベースとして精度ではなくキャリブレーションを使用することで、平均的なリターン(投資額が-35.17\%$に対して-34.69\%$であるのに対し、最良のケースでは (+36.93\%$と+5.56\%$) となる。 これらの結果から,スポーツベッティング(あるいは確率的意思決定問題)においては,キャリブレーションは精度よりも重要な指標であることが示唆された。 利益を上げようとするスポーツベクターは、精度よりもキャリブレーションに基づいて予測モデルを選択すべきである。

Sports betting's recent federal legalisation in the USA coincides with the golden age of machine learning. If bettors can leverage data to reliably predict the probability of an outcome, they can recognise when the bookmaker's odds are in their favour. As sports betting is a multi-billion dollar industry in the USA alone, identifying such opportunities could be extremely lucrative. Many researchers have applied machine learning to the sports outcome prediction problem, generally using accuracy to evaluate the performance of predictive models. We hypothesise that for the sports betting problem, model calibration is more important than accuracy. To test this hypothesis, we train models on NBA data over several seasons and run betting experiments on a single season, using published odds. We show that using calibration, rather than accuracy, as the basis for model selection leads to greater returns, on average (return on investment of $+34.69\%$ versus $-35.17\%$) and in the best case ($+36.93\%$ versus $+5.56\%$). These findings suggest that for sports betting (or any probabilistic decision-making problem), calibration is a more important metric than accuracy. Sports bettors who wish to increase profits should therefore select their predictive model based on calibration, rather than accuracy.
翻訳日:2024-02-02 20:03:39 公開日:2024-02-01
# 高精度トポロジカルカラーコード復号のためのイジングモデル定式化

Ising model formulation for highly accurate topological color codes decoding ( http://arxiv.org/abs/2303.01348v3 )

ライセンス: Link先を確認
Yugo Takada, Yusaku Takeuchi, Keisuke Fujii(参考訳) 量子誤り訂正は理論的に証明可能な量子スピードアップのための信頼性の高い量子計算に不可欠な要素である。 量子誤り訂正符号の1つであるトポロジカルカラー符号は、すべてのクリフォードゲートを横方向に実装できるという点で、表面符号に対して有利である。 しかし、復号化の難しさにより、カラーコードは量子誤り訂正を実験的に実現可能な実装の最適候補には適さない。 本稿では,カラーコードの高精度復号化を可能にするイジングモデルの定式化を提案する。 この定式化では、安定化作用素を古典的なスピン変数に写像し、シンドロームを満たす誤差を表す。 次に、誤り数を数え、デコード問題をシミュレートされたアニーリングによって解くイジング・ハミルトンのエネルギー最小化問題として定式化するイジング・ハミルトン多様体を構築する。 4.8.8)格子上の数値シミュレーションでは、ビットフリップノイズモデルでは10.36(5)%、非分極ノイズモデルでは18.47(5)%、現象ノイズモデルでは2.90(4)%(ビットフリップエラーは各データおよび測定キュービット上にあり、いずれも既存の効率的な復号アルゴリズムのしきい値よりも高い。 さらに, 復号時間の少ないcplexによる厳密な最適化によって得られるものとほぼ同値であるという意味で, 論理誤差率がほぼ最適であることを検証した。 復号化は性能解析のボトルネックとなっているため,提案手法はトポロジカルカラーコードの可能性のさらなる探究に有用である。

Quantum error correction is an essential ingredient for reliable quantum computation for theoretically provable quantum speedup. Topological color codes, one of the quantum error correction codes, have an advantage against the surface codes in that all Clifford gates can be implemented transversely. However, the hardness of decoding makes the color codes not suitable as the best candidate for experimentally feasible implementation of quantum error correction. Here we propose an Ising model formulation that enables highly accurate decoding of the color codes. In this formulation, we map stabilizer operators to classical spin variables to represent an error satisfying the syndrome. Then we construct an Ising Hamiltonian that counts the number of errors and formulate the decoding problem as an energy minimization problem of an Ising Hamiltonian, which is solved by simulated annealing. In numerical simulations on the (4.8.8) lattice, we find an error threshold of 10.36(5)% for bit-flip noise model, 18.47(5)% for depolarizing noise model, and 2.90(4)% for phenomenological noise model (bit-flip error is located on each of data and measurement qubits), all of which are higher than the thresholds of existing efficient decoding algorithms. Furthermore, we verify that the achieved logical error rates are almost optimal in the sense that they are almost the same as those obtained by exact optimizations by CPLEX with smaller decoding time in many cases. Since the decoding process has been a bottleneck for performance analysis, the proposed decoding method is useful for further exploration of the possibility of the topological color codes.
翻訳日:2024-02-02 20:03:14 公開日:2024-02-01
# 通信-プライバシー-accuracy トレードオフを$f$-differential privacyで破る

Breaking the Communication-Privacy-Accuracy Tradeoff with $f$-Differential Privacy ( http://arxiv.org/abs/2302.09624v3 )

ライセンス: Link先を確認
Richeng Jin, Zhonggen Su, Caijun Zhong, Zhaoyang Zhang, Tony Quek, Huaiyu Dai(参考訳) 本稿では,複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整するフェデレーションデータ分析問題を考える。 一般に採用されている圧縮方式は、通信効率を向上しながら、ローカルデータに情報損失を導入しており、そのような離散的な値付け機構がプライバシー保護を提供するかどうかについては未解決の問題である。 本稿では,f$-differential privacy (dp) のレンズを通して,有限出力空間を持つ離散値機構の局所的微分プライバシー保証について検討する。 具体的には、プライバシ保存のために提案される二項ノイズや二項メカニズム、およびクローズドフォーム表現においてデータ圧縮のために提案される手話に基づく手法など、様々な離散的なメカニズムの厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。 さらに,スペーシングによるプライバシの増幅について検討し,第3次確率圧縮機を提案する。 プライバシ増幅のための圧縮を活用することで、分散平均推定の一般的なユースケースにおいて、通信コストに対する精度(平均二乗誤差)の依存性を取り除き、プライバシ、通信、精度の3方向トレードオフを破ることで、既存の方法を改善する。 最後に,提案機構のビザンチン弾性とそのフェデレート学習への応用について述べる。

We consider a federated data analytics problem in which a server coordinates the collaborative data analysis of multiple users with privacy concerns and limited communication capability. The commonly adopted compression schemes introduce information loss into local data while improving communication efficiency, and it remains an open problem whether such discrete-valued mechanisms provide any privacy protection. In this paper, we study the local differential privacy guarantees of discrete-valued mechanisms with finite output space through the lens of $f$-differential privacy (DP). More specifically, we advance the existing literature by deriving tight $f$-DP guarantees for a variety of discrete-valued mechanisms, including the binomial noise and the binomial mechanisms that are proposed for privacy preservation, and the sign-based methods that are proposed for data compression, in closed-form expressions. We further investigate the amplification in privacy by sparsification and propose a ternary stochastic compressor. By leveraging compression for privacy amplification, we improve the existing methods by removing the dependency of accuracy (in terms of mean square error) on communication cost in the popular use case of distributed mean estimation, therefore breaking the three-way tradeoff between privacy, communication, and accuracy. Finally, we discuss the Byzantine resilience of the proposed mechanism and its application in federated learning.
翻訳日:2024-02-02 20:02:31 公開日:2024-02-01
# 悪意ノードに対する量子鍵配信ネットワークのための分散情報理論セキュアプロトコル

Distributed Information-theoretical Secure Protocols for Quantum Key Distribution Networks against Malicious Nodes ( http://arxiv.org/abs/2302.07688v5 )

ライセンス: Link先を確認
Yi Luo, Qiong Li, Hao-Kun Mao(参考訳) 量子鍵分布(QKD)ネットワークは,大規模ネットワーク上でのITS通信を可能にすることが期待されている。 リレーベースのQKDネットワークに関するほとんどの研究は、すべてのリレーやノードが完全に信頼できると仮定している。 しかし、単一ノードの悪意ある振る舞いは、QKDネットワークのセキュリティを損なう可能性がある。 QKDネットワークに関する現在の研究は、主に盗聴などの悪意あるノードによって実行される受動的攻撃に対処している。 本稿では,QKDネットワークにおける悪意あるノードの協調による攻撃に,分散システムに触発された新たなパラダイムを提案する。 まず、セキュリティに関して、QKDネットワークに2つの重要なセキュリティ特性を提供する分散認証方式であるITSを導入する。 第2に,我々のITSフォールトトレラントコンセンサス法は,メッセージ集約型ビザンチン合意法とは対照的に,ITSとグローバルの整合性を確保する。 シミュレーションにより,本手法は,従来のエンドツーエンド鍵方式に比べて,認証鍵消費の伸び傾向が著しく低いことを示した。

Quantum key distribution (QKD) networks are expected to enable information-theoretical secure (ITS) communication over a large-scale network. Most researches on relay-based QKD network assume that all relays or nodes are completely trustworthy. However, the malicious behavior of any single node can undermine security of QKD networks. Current research on QKD networks primarily addresses passive attacks conducted by malicious nodes such as eavesdropping. We suggest a novel paradigm, inspired by distributed systems, to address the active attack by collaborate malicious nodes in QKD networks. Firstly, regarding security, we introduce the ITS distributed authentication scheme, which additionally offers two crucial security properties to QKD networks: identity unforgeability and non-repudiation. Secondly, concerning correctness, our ITS fault-tolerant consensus method, ensures ITS and global consistency with fixed classical broadcast rounds, contrasting with the exponentially message-intensive Byzantine agreement method. Through our simulation, we have shown that our scheme exhibits a significantly lower growth trend in authentication key consumption compared to the original end-to-end pre-shared keys scheme.
翻訳日:2024-02-02 20:02:06 公開日:2024-02-01
# 一般化ビデオ異常事象検出:系統分類と深部モデルの比較

Generalized Video Anomaly Event Detection: Systematic Taxonomy and Comparison of Deep Models ( http://arxiv.org/abs/2302.05087v3 )

ライセンス: Link先を確認
Yang Liu, Dingkang Yang, Yan Wang, Jing Liu, Jun Liu, Azzedine Boukerche, Peng Sun, Liang Song(参考訳) ビデオ異常検出(VAD)はインテリジェント監視システムにおいて重要な技術であり、ビデオ内の異常事象の時間的または空間的識別を可能にする。 既存のレビューは、主に従来の教師なしの手法に集中しているが、弱い教師付きアプローチと完全に教師なしアプローチの出現を見落としていることが多い。 このギャップに対処するため、この調査は、一般的なビデオ異常検出(gvaed)と呼ばれる幅広いスペクトルを含む、教師なしの方法を超えて、vadの従来のスコープを拡張している。 多様な仮定や学習フレームワークに根ざした最近の進歩を巧みに取り入れることで、この調査では、教師なし、弱教師付き、教師付き、完全に教師なしのVAD方法論をシームレスにナビゲートする直感的な分類法を導入し、これらの研究軌跡の区別と相互接続を解明する。 さらに、この調査は、公開データセット、利用可能なコードベース、プログラミングツール、関連する文学を含む研究リソースのコンパイルを組み立てることによって、先進的な研究者を促進する。 さらに,本調査では,モデルの性能,課題と方向性を定量的に評価し,今後の探索への可能性について概説する。

Video Anomaly Detection (VAD) serves as a pivotal technology in the intelligent surveillance systems, enabling the temporal or spatial identification of anomalous events within videos. While existing reviews predominantly concentrate on conventional unsupervised methods, they often overlook the emergence of weakly-supervised and fully-unsupervised approaches. To address this gap, this survey extends the conventional scope of VAD beyond unsupervised methods, encompassing a broader spectrum termed Generalized Video Anomaly Event Detection (GVAED). By skillfully incorporating recent advancements rooted in diverse assumptions and learning frameworks, this survey introduces an intuitive taxonomy that seamlessly navigates through unsupervised, weakly-supervised, supervised and fully-unsupervised VAD methodologies, elucidating the distinctions and interconnections within these research trajectories. In addition, this survey facilitates prospective researchers by assembling a compilation of research resources, including public datasets, available codebases, programming tools, and pertinent literature. Furthermore, this survey quantitatively assesses model performance, delves into research challenges and directions, and outlines potential avenues for future exploration.
翻訳日:2024-02-02 20:01:47 公開日:2024-02-01
# ハイパーグラフ状態の絡み合い浄化

Entanglement Purification of Hypergraph States ( http://arxiv.org/abs/2301.11341v2 )

ライセンス: Link先を確認
Lina Vandr\'e and Otfried G\"uhne(参考訳) 絡み合いの浄化は、量子情報処理におけるプリミティブであり、いくつかのノイズの多い量子状態のコピーを、局所的な操作や古典的な通信を通じて、ほとんど純度の高い状態のコピーに蒸留する。 特に多粒子の場合、多くの非等価な純粋な状態の絡み合いが存在するため、絡み合いの浄化の作業は複雑であり、異なる標的状態のために浄化プロトコルを調整する必要がある。 本稿では,複数の観点から関係する多ビット状態の族を形成するハイパーグラフ状態の浄化のための最適化プロトコルを提案する。 まず、既存の浄化プロトコルをグラフィカル言語で書き換えることから始める。 これにより、体系的な最適化が可能となり、3方向の改善が図れる。 まず、プロトコルの順序に関して、プロトコルのシーケンスを最適化することができる。 第二に、プロトコル内で得られた測定結果をプロトコルを変更するために使用する適応スキームを用いることができる。 最後に、プロトコルを効率的に改善でき、特定のターゲット状態に到達するためにノイズ状態のコピーを少なくできる。

Entanglement purification describes a primitive in quantum information processing, where several copies of noisy quantum states are distilled into few copies of nearly-pure states of high quality via local operations and classical communication. Especially in the multiparticle case, the task of entanglement purification is complicated, as many inequivalent forms of pure state entanglement exist and purification protocols need to be tailored for different target states. In this paper we present optimized protocols for the purification of hypergraph states, which form a family of multi-qubit states that are relevant from several perspectives. We start by reformulating an existing purification protocol in a graphical language. This allows for systematical optimization and we present improvements in three directions. First, one can optimize the sequences of the protocol with respect to the ordering of the parties. Second, one can use adaptive schemes, where the measurement results obtained within the protocol are used to modify the protocols. Finally, one can improve the protocol with respect to the efficiency, requiring fewer copies of noisy states to reach a certain target state.
翻訳日:2024-02-02 20:01:25 公開日:2024-02-01
# 構造インフォームドシャドウ除去ネットワーク

Structure-Informed Shadow Removal Networks ( http://arxiv.org/abs/2301.03182v2 )

ライセンス: Link先を確認
Yuhao Liu, Qing Guo, Lan Fu, Zhanghan Ke, Ke Xu, Wei Feng, Ivor W. Tsang, and Rynson W.H. Lau(参考訳) 既存のディープラーニングベースのシャドウ除去手法は依然として影の残像を持つ画像を生成する。 これらの影残差は、典型的には低強度値の均質な領域に存在し、既存の画像から画像へのマッピングパラダイムでは追跡できない。 影は画像構造レベル(人間が物体の形や連続した色を知覚する)で画像の劣化を主に観察する。 そこで本稿では,画像構造レベルでの影を除去することを提案する。 この考えに基づいて,影残差問題に対処するために,画像構造情報を活用する構造インフォームド・シャドー除去ネットワーク(StructNet)を提案する。 具体的には、StructNetはまず、シャドウのない入力画像の構造情報を再構成し、画像レベルのシャドウ除去を導く前に復元されたシャドウフリー構造を使用する。 structnetには,(1)非シャドウ対シャドウ方向のイメージ構造特徴を抽出するマスクガイド型シャドウフリー抽出(msfe)モジュール,(2)シャドウフリー構造情報を活用して特徴一貫性を規則化するマルチスケール機能・残留集約(mfra)モジュールの2つの主要な新規モジュールが含まれている。 さらに,マルチレベル構造情報(MStructNet)を活用するためのStructNetの拡張も提案する。 3つのシャドウ除去ベンチマークに関する広範囲な実験により,提案手法が既存のシャドウ除去法を上回っており,既存の手法と統合してさらなる改善が可能となった。

Existing deep learning-based shadow removal methods still produce images with shadow remnants. These shadow remnants typically exist in homogeneous regions with low-intensity values, making them untraceable in the existing image-to-image mapping paradigm. We observe that shadows mainly degrade images at the image-structure level (in which humans perceive object shapes and continuous colors). Hence, in this paper, we propose to remove shadows at the image structure level. Based on this idea, we propose a novel structure-informed shadow removal network (StructNet) to leverage the image-structure information to address the shadow remnant problem. Specifically, StructNet first reconstructs the structure information of the input image without shadows and then uses the restored shadow-free structure prior to guiding the image-level shadow removal. StructNet contains two main novel modules: (1) a mask-guided shadow-free extraction (MSFE) module to extract image structural features in a non-shadow-to-shadow directional manner, and (2) a multi-scale feature & residual aggregation (MFRA) module to leverage the shadow-free structure information to regularize feature consistency. In addition, we also propose to extend StructNet to exploit multi-level structure information (MStructNet), to further boost the shadow removal performance with minimum computational overheads. Extensive experiments on three shadow removal benchmarks demonstrate that our method outperforms existing shadow removal methods, and our StructNet can be integrated with existing methods to improve them further.
翻訳日:2024-02-02 20:01:11 公開日:2024-02-01
# 熱力学的相関不等式

Thermodynamic correlation inequality ( http://arxiv.org/abs/2301.03060v5 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) トレードオフ関係は、物理システムが実行できる操作に基本的な制限を課す。 このレターはマルコフ過程において、システムの現在の状態と将来の状態の関係を測定する相関関数を束縛するトレードオフ関係を示す。 得られた境界は、熱力学的相関不等式と呼ばれ、相関関数の変化は、マルコフ過程の活性の熱力学的測度である力学活性からなる上界を有する。 さらに, 得られた関係を線形応答関数に適用することにより, 摂動の効果を動的活動によって上から境界づけることができることを示した。

Trade-off relations place fundamental limits on the operations that physical systems can perform. This Letter presents a trade-off relation that bounds the correlation function, which measures the relationship between a system's current and future states, in Markov processes. The obtained bound, referred to as the thermodynamic correlation inequality, states that the change in the correlation function has an upper bound comprising the dynamical activity, a thermodynamic measure of the activity of a Markov process. Moreover, by applying the obtained relation to the linear response function, it is demonstrated that the effect of perturbation can be bounded from above by the dynamical activity.
翻訳日:2024-02-02 20:00:42 公開日:2024-02-01
# 非線形偏微分方程式によるガウス過程に基づくパラメータ推定

Parameter Inference based on Gaussian Processes Informed by Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2212.11880v3 )

ライセンス: Link先を確認
Zhaohui Li, Shihao Yang, Jeff Wu(参考訳) 偏微分方程式(PDE)は物理現象や工学現象の記述に広く用いられている。 pdesに関わるいくつかの重要なパラメータは、重要な科学的解釈を持つ特定の物理的性質を表すもので、直接測定することは困難または不可能である。 これらのパラメータをノイズおよびスパース実験データから推定することは重要な課題である。 PDEパラメータ推論のための多くの手法は、有限要素法のようなアルゴリズムによるPDEの数値解に対する多くの評価を含む。 本稿では,PDE-Informed Gaussian Process (PIGP) を用いたパラメータ推論手法を提案する。 PDE の解をガウス過程 (GP) としてモデル化することで、(線型) PDE 構造によって誘導される多様体の制約を導出し、その制約の下では、GP は PDE を満たす。 非線形 pde に対して, 非線形 pde を全ての導関数に線形に等価な pde 系に変換する拡張法を提案する。 提案手法は非線形PDEの幅広いスペクトルに適用可能である。 PIGPに基づく手法は、観測されていないコンポーネントを持つ多次元PDEシステムやPDEシステムに適用することができる。 従来のベイズ的手法と同様に、未知のパラメータとPDE解の両方に対して不確実な定量化を与えることができる。 PIGPに基づく手法は、PDEの数値解法を完全にバイパスする。 提案手法は,様々な分野の応用例を用いて実証した。

Partial differential equations (PDEs) are widely used for the description of physical and engineering phenomena. Some key parameters involved in PDEs, which represent certain physical properties with important scientific interpretations, are difficult or even impossible to measure directly. Estimating these parameters from noisy and sparse experimental data of related physical quantities is an important task. Many methods for PDE parameter inference involve a large number of evaluations for numerical solutions to PDE through algorithms such as the finite element method, which can be time-consuming, especially for nonlinear PDEs. In this paper, we propose a novel method for the inference of unknown parameters in PDEs, called the PDE-Informed Gaussian Process (PIGP) based parameter inference method. Through modeling the PDE solution as a Gaussian process (GP), we derive the manifold constraints induced by the (linear) PDE structure such that, under the constraints, the GP satisfies the PDE. For nonlinear PDEs, we propose an augmentation method that transforms the nonlinear PDE into an equivalent PDE system linear in all derivatives, which our PIGP-based method can handle. The proposed method can be applied to a broad spectrum of nonlinear PDEs. The PIGP-based method can be applied to multi-dimensional PDE systems and PDE systems with unobserved components. Like conventional Bayesian approaches, the method can provide uncertainty quantification for both the unknown parameters and the PDE solution. The PIGP-based method also completely bypasses the numerical solver for PDEs. The proposed method is demonstrated through several application examples from different areas.
翻訳日:2024-02-02 20:00:31 公開日:2024-02-01
# $\ell_{2,\infty}$テンソル摂動束による高次混合メンバシップの推定

Estimating Higher-Order Mixed Memberships via the $\ell_{2,\infty}$ Tensor Perturbation Bound ( http://arxiv.org/abs/2212.08642v3 )

ライセンス: Link先を確認
Joshua Agterberg and Anru Zhang(参考訳) 高次のマルチウェイデータは機械学習や統計学においてユビキタスであり、しばしばコミュニティのような構造を示し、それぞれのコンポーネント(ノード)が関連するコミュニティメンバーシップを持つ。 本稿では,テンソル混合メンバシップブロックモデルを提案する。テンソルブロックモデルの一般化は,メンバシップが離散的ではなく,潜在コミュニティの凸結合であることを示す。 我々は,本モデルの同定可能性を確立し,単純なコーナーフィンディングアルゴリズムを用いたテンソルSVDの高次直交反復アルゴリズム(HOOI)に基づく計算効率の高い推定手法を提案する。 次に、高次構造が推定精度に与える影響を示すノード単位の誤差境界を提供することにより、推定手順の整合性を示す。 一貫性を証明するために、我々は独立に興味を持つような独立でヘテロシュケスティックなサブガウシアンノイズの下でフーイに縛られる$\ell_{2,\infty}$テンソル摂動を開発した。 本解析では,イテレートに対する新しい残余ワンアウト構造を用い,テンソルsvdが計算可能となるような,ほぼ最適信号対雑音比条件下での低ランクテンソルのスペクトル特性のみに依存する。 最後に,本手法を実データおよびシミュレーションデータに適用し,個別のコミュニティメンバーシップを持つモデルから識別できない効果を示す。

Higher-order multiway data is ubiquitous in machine learning and statistics and often exhibits community-like structures, where each component (node) along each different mode has a community membership associated with it. In this paper we propose the tensor mixed-membership blockmodel, a generalization of the tensor blockmodel positing that memberships need not be discrete, but instead are convex combinations of latent communities. We establish the identifiability of our model and propose a computationally efficient estimation procedure based on the higher-order orthogonal iteration algorithm (HOOI) for tensor SVD composed with a simplex corner-finding algorithm. We then demonstrate the consistency of our estimation procedure by providing a per-node error bound, which showcases the effect of higher-order structures on estimation accuracy. To prove our consistency result, we develop the $\ell_{2,\infty}$ tensor perturbation bound for HOOI under independent, heteroskedastic, subgaussian noise that may be of independent interest. Our analysis uses a novel leave-one-out construction for the iterates, and our bounds depend only on spectral properties of the underlying low-rank tensor under nearly optimal signal-to-noise ratio conditions such that tensor SVD is computationally feasible. Finally, we apply our methodology to real and simulated data, demonstrating some effects not identifiable from the model with discrete community memberships.
翻訳日:2024-02-02 20:00:07 公開日:2024-02-01
# フォトメトリックステレオおよびbeyondの校正のための深層学習法

Deep Learning Methods for Calibrated Photometric Stereo and Beyond ( http://arxiv.org/abs/2212.08414v2 )

ライセンス: Link先を確認
Yakun Ju, Kin-Man Lam, Wuyuan Xie, Huiyu Zhou, Junyu Dong, Boxin Shi(参考訳) フォトメトリックステレオは、異なるシェーディングキュー、すなわち各ピクセルの表面配向と強度の関係をモデル化した複数の画像から物体の表面正常を回復する。 フォトメトリックステレオは、ピクセル単位の解像度と細かい再構成の詳細が優れている。 しかし、非ランベルト面反射率による非線形関係のため、複雑な問題である。 近年,様々な深層学習手法が,非ランベルト面に対する測光ステレオの文脈において強力な能力を示している。 本稿では,既存の深層学習に基づくキャリブレーションフォトメトリックステレオ法の包括的レビューを行う。 まず、入力処理、監視、ネットワークアーキテクチャなど、さまざまな観点からこれらの手法を解析する。 最も広く使われているベンチマークデータセット上で、ディープラーニングの測光ステレオモデルの性能を要約する。 これは深層学習に基づく測光ステレオ手法の高度な性能を示す。 最後に,既存のモデルの限界に基づいて,今後の研究動向を提案する。

Photometric stereo recovers the surface normals of an object from multiple images with varying shading cues, i.e., modeling the relationship between surface orientation and intensity at each pixel. Photometric stereo prevails in superior per-pixel resolution and fine reconstruction details. However, it is a complicated problem because of the non-linear relationship caused by non-Lambertian surface reflectance. Recently, various deep learning methods have shown a powerful ability in the context of photometric stereo against non-Lambertian surfaces. This paper provides a comprehensive review of existing deep learning-based calibrated photometric stereo methods. We first analyze these methods from different perspectives, including input processing, supervision, and network architecture. We summarize the performance of deep learning photometric stereo models on the most widely-used benchmark data set. This demonstrates the advanced performance of deep learning-based photometric stereo methods. Finally, we give suggestions and propose future research trends based on the limitations of existing models.
翻訳日:2024-02-02 19:59:39 公開日:2024-02-01
# 量子回路からのベルサンプリング

Bell sampling from quantum circuits ( http://arxiv.org/abs/2306.00083v4 )

ライセンス: Link先を確認
Dominik Hangleiter and Michael J. Gullans(参考訳) 量子コンピュータの検証における中心的な課題は、パフォーマンス全体をベンチマークし、計算能力を示すことである。 本研究は, 量子計算の普遍的モデルであるベルサンプリング(Bell sample)を発見し, 両課題に有効であり, 耐故障性に向けた理想的なステップストーンを提供する。 ベルサンプリングでは,逆ベル基底の量子回路で作成された状態の2つのコピーを測定する。 ベルサンプルは古典的に抽出可能であり、同時に回路シャドーと呼ばれるものを構成することを示し、ベルサンプルから状態を作成する量子回路に関する情報を効率的に抽出し、回路エラーを診断することができる。 ベルサンプルから効率的に抽出できる既知の特性に加えて、回路の深さに対するテストと、回路内のtゲート数に対する下限を推定するアルゴリズムという2つの新しい効率的なプロトコルを与える。 さらに,T数が少ない回路で作成した状態の完全な記述をアルゴリズムで学習する。

A central challenge in the verification of quantum computers is benchmarking their performance as a whole and demonstrating their computational capabilities. In this work, we find a universal model of quantum computation, Bell sampling, that can be used for both of those tasks and thus provides an ideal stepping stone towards fault-tolerance. In Bell sampling, we measure two copies of a state prepared by a quantum circuit in the transversal Bell basis. We show that the Bell samples are classically intractable to produce and at the same time constitute what we call a circuit shadow: from the Bell samples we can efficiently extract information about the quantum circuit preparing the state, as well as diagnose circuit errors. In addition to known properties that can be efficiently extracted from Bell samples, we give two new and efficient protocols, a test for the depth of the circuit and an algorithm to estimate a lower bound to the number of T gates in the circuit. With some additional measurements, our algorithm learns a full description of states prepared by circuits with low T-count.
翻訳日:2024-02-02 19:52:28 公開日:2024-02-01
# 一様普遍近似のための漏洩ReLUニューラルネットワークの最小幅

Minimum Width of Leaky-ReLU Neural Networks for Uniform Universal Approximation ( http://arxiv.org/abs/2305.18460v3 )

ライセンス: Link先を確認
Li'ang Li, Yifei Duan, Guanghua Ji, Yongqiang Cai(参考訳) ニューラルネットワーク(NN)のための普遍近似特性(UAP)の研究には長い歴史がある。 ネットワーク幅が無制限の場合、UAPには単一の隠蔽層のみが十分である。 対照的に、深さが無制限の場合、UAPの幅は臨界幅$w^*_{\min}=\max(d_x,d_y)$より小さく、$d_x$と$d_y$はそれぞれ入力と出力の寸法である。 最近、 \cite{cai2022achieve} は、この臨界幅を持つリークReLU NN が、コンパクト領域 ${K}$, \emph{i.e.} 上の$L^p({K},\mathbb{R}^{d_y})$の UAP に対して $L^p$ の UAP を達成することができることを示した。 本稿では, 関数クラス $C({K},\mathbb{R}^{d_y})$ に対する統一 UAP を検証し, $w_{\min}=\max(d_x,d_y)+\Delta (d_x,d_y)$ とすると, $\Delta (d_x,d_y)$ は埋め込みを通じて連続関数を微分同相で近似する余剰次元である。 この結果を得るために,一様UAPが位相理論と深い関係を持つことを示す,新しいリフトフロー分散手法を提案する。

The study of universal approximation properties (UAP) for neural networks (NN) has a long history. When the network width is unlimited, only a single hidden layer is sufficient for UAP. In contrast, when the depth is unlimited, the width for UAP needs to be not less than the critical width $w^*_{\min}=\max(d_x,d_y)$, where $d_x$ and $d_y$ are the dimensions of the input and output, respectively. Recently, \cite{cai2022achieve} shows that a leaky-ReLU NN with this critical width can achieve UAP for $L^p$ functions on a compact domain ${K}$, \emph{i.e.,} the UAP for $L^p({K},\mathbb{R}^{d_y})$. This paper examines a uniform UAP for the function class $C({K},\mathbb{R}^{d_y})$ and gives the exact minimum width of the leaky-ReLU NN as $w_{\min}=\max(d_x,d_y)+\Delta (d_x, d_y)$, where $\Delta (d_x, d_y)$ is the additional dimensions for approximating continuous functions with diffeomorphisms via embedding. To obtain this result, we propose a novel lift-flow-discretization approach that shows that the uniform UAP has a deep connection with topological theory.
翻訳日:2024-02-02 19:52:12 公開日:2024-02-01
# 平均運動量による確率勾配降下の加速:有限サンプルレートと漸近正規性

Acceleration of stochastic gradient descent with momentum by averaging: finite-sample rates and asymptotic normality ( http://arxiv.org/abs/2305.17665v2 )

ライセンス: Link先を確認
Kejie Tang, Weidong Liu, Yichen Zhang and Xi Chen(参考訳) 運動量による確率勾配降下(SGDM)は多くの機械学習や統計応用で広く用いられている。 従来のSGDに対するSGDMの実証的な利点にもかかわらず、最適化過程における異なる学習率に対する運動量の役割の理論的理解は依然として広く行われている。 我々は,SGDMの有限サンプル収束速度を強い凸条件下で解析し,バッチサイズが大きい場合,ミニバッチSGDMは,ミニバッチSGDよりも高速に最適値の近傍に収束することを示す。 さらに,理論解析や数値実験によって裏付けられた結果から,SGDMは学習率の幅広い選択を可能にすることが示唆された。 さらに,SGDM推定器のPolyak-averagingバージョンを分析し,その漸近正規性を確立し,その漸近等価性を平均SGDに正当化する。 平均SGDMの漸近分布は、アルゴリズム出力の不確実な定量化とモデルパラメータの統計的推測を可能にする。

Stochastic gradient descent with momentum (SGDM) has been widely used in many machine learning and statistical applications. Despite the observed empirical benefits of SGDM over traditional SGD, the theoretical understanding of the role of momentum for different learning rates in the optimization process remains widely open. We analyze the finite-sample convergence rate of SGDM under the strongly convex settings and show that, with a large batch size, the mini-batch SGDM converges faster than the mini-batch SGD to a neighborhood of the optimal value. Additionally, our findings, supported by theoretical analysis and numerical experiments, indicate that SGDM permits broader choices of learning rates. Furthermore, we analyze the Polyak-averaging version of the SGDM estimator, establish its asymptotic normality, and justify its asymptotic equivalence to the averaged SGD. The asymptotic distribution of the averaged SGDM enables uncertainty quantification of the algorithm output and statistical inference of the model parameters.
翻訳日:2024-02-02 19:51:36 公開日:2024-02-01
# 複合超伝導空洞における光子寿命の位相制御による改善

Phase-controlled improvement of photon lifetime in coupled superconducting cavities ( http://arxiv.org/abs/2305.15662v2 )

ライセンス: Link先を確認
Changqing Wang, Oleksandr S Melnychuk, Crispin Contreras-Martinez, Yao Lu, Yuriy M Pischalnikov, Oleg Pronitchev, Bianca Giaccone, Roman Pilipenko, Silvia Zorzetti, Sam Posen, Alexander Romanenko, Anna Grassellino(参考訳) 高品質のキャビティは様々な基礎研究や応用に不可欠である。 ここでは、2つのキャビティを直接あるいは位相可変結合チャネルを介して結合することにより、局所体の光子寿命が素キャビティのそれを超えることが分かる。 空洞光子寿命は、初期状態の位相と、空洞間の干渉に影響を与える結合チャネル上の位相蓄積によって変化される。 実験では, 位相可変ケーブルによる超伝導共振器の結合により, キャビティ光子寿命の2つの改善点を実現する。 その結果、量子情報科学、センシング、高エネルギー物理学に豊富な収入をもたらすことができる。

High-quality cavities are crucial for various fundamental physical studies and applications. Here we find that by coupling two cavities directly or via a phase-tunable coupling channel, the photon lifetime of the local field can exceed that of the bare cavities. The cavity photon lifetime is modified by the phases of the initial states and the phase accumulation on the coupling channel which affect the interference between cavities. In experiments, by coupling superconducting radio-frequency cavities via phase-tunable cables, we realize a factor of two improvement in the cavity photon lifetime. The results can bring rich revenue to quantum information science, sensing, and high-energy physics.
翻訳日:2024-02-02 19:51:19 公開日:2024-02-01
# オープン情報抽出によるイベントトリガ検出のより堅牢なドメイン転送

Leveraging Open Information Extraction for More Robust Domain Transfer of Event Trigger Detection ( http://arxiv.org/abs/2305.14163v2 )

ライセンス: Link先を確認
David Duki\'c, Kiril Gashteovski, Goran Glava\v{s}, Jan \v{S}najder(参考訳) イベント検出は、wikipediaやnewsなど、多くのドメインで重要な情報抽出タスクである。 このタスクは通常、特定のイベントを引き起こすテキスト内のトークンスパンを識別するトリガー検出(td)に依存します。 トリガーの概念はドメインにまたがって理想的には普遍的であるべきであるが、高リソースドメインから低リソースドメインへのtdのドメイン転送は大幅なパフォーマンス低下をもたらす。 本稿では,ルールベースオープン情報抽出(OIE)システムから得られた主観対象関係を用いて,ドメイン間の結合トリガによるTDの負の移動の問題に対処する。 マルチタスクトレーニングによって注入されるoie関係は、異なるドメイン内のトリガ間の仲介役として機能し、ゼロショットおよび少数ショットのtdドメイン転送を促進し、特に高リソースソースドメイン(wikipedia)からロー(er)リソースターゲットドメイン(news)への転送においてパフォーマンス低下を低減できることを実証する。 さらに、この改良された転送とターゲットドメイン上のマスキング言語モデリングを組み合わせることで、さらなるTD転送ゲインを観察する。 最後に、OIEシステムの選択に対して利得が堅牢であることを示します。

Event detection is a crucial information extraction task in many domains, such as Wikipedia or news. The task typically relies on trigger detection (TD) -- identifying token spans in the text that evoke specific events. While the notion of triggers should ideally be universal across domains, domain transfer for TD from high- to low-resource domains results in significant performance drops. We address the problem of negative transfer in TD by coupling triggers between domains using subject-object relations obtained from a rule-based open information extraction (OIE) system. We demonstrate that OIE relations injected through multi-task training can act as mediators between triggers in different domains, enhancing zero- and few-shot TD domain transfer and reducing performance drops, in particular when transferring from a high-resource source domain (Wikipedia) to a low(er)-resource target domain (news). Additionally, we combine this improved transfer with masked language modeling on the target domain, observing further TD transfer gains. Finally, we demonstrate that the gains are robust to the choice of the OIE system.
翻訳日:2024-02-02 19:51:08 公開日:2024-02-01
# 小言語モデルは出力を書き換えることでジャイアンツを改善する

Small Language Models Improve Giants by Rewriting Their Outputs ( http://arxiv.org/abs/2305.13514v2 )

ライセンス: Link先を確認
Giorgos Vernikos, Arthur Bra\v{z}inskas, Jakub Adamek, Jonathan Mallinson, Aliaksei Severyn, Eric Malmi(参考訳) 大きな言語モデル(LLM)の印象的なパフォーマンスにもかかわらず、それらは様々なタスクにおいて特別なモデルに遅れを取っていることが多い。 LLMは、既存のトレーニングデータのごく一部しかコンテキスト内学習に使用せず、タスク固有のモデルは、完全なデータセットを使用して微調整を行う。 本研究では, LLMの性能向上のために, 微調整を伴わずにトレーニングデータを活用するという課題に対処する。 本手法は, LLM予測を直接対象とし, 重み付けを不要とする。 我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成する。 4つの自然言語生成タスクに関する実験により、小さなLMCorモデル(250M)でさえ、LLM(62B)の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れた性能を示す。 さらに,異なるプロンプトに対するlmcorのロバスト性を示すことにより,広範なプロンプトエンジニアリングの必要性を最小化する。 最後に,LMCor を異なる LLM にシームレスに統合し,プラグ・アンド・プレイモジュールとして機能し,性能を向上できることを示す。

Despite the impressive performance of large language models (LLMs), they often lag behind specialized models in various tasks. LLMs only use a fraction of the existing training data for in-context learning, while task-specific models harness the full dataset for fine-tuning. In this work, we tackle the problem of leveraging training data to improve the performance of LLMs without fine-tuning. Our approach directly targets LLM predictions without requiring access to their weights. We create a pool of candidates from the LLM through few-shot prompting and we employ a compact model, the LM-corrector (LMCor), specifically trained to merge these candidates to produce an enhanced output. Our experiments on four natural language generation tasks demonstrate that even a small LMCor model (250M) substantially improves the few-shot performance of LLMs (62B), matching and even outperforming standard fine-tuning. Furthermore, we illustrate the robustness of LMCor against different prompts, thereby minimizing the need for extensive prompt engineering. Finally, we show that LMCor can be seamlessly integrated with different LLMs at inference, serving as a plug-and-play module to improve their performance.
翻訳日:2024-02-02 19:50:48 公開日:2024-02-01
# 自然言語定義からの多関係双曲語埋め込み

Multi-Relational Hyperbolic Word Embeddings from Natural Language Definitions ( http://arxiv.org/abs/2305.07303v2 )

ライセンス: Link先を確認
Marco Valentino, Danilo S. Carvalho, Andr\'e Freitas(参考訳) 自然言語定義は再帰的で自己説明的な意味構造を持ち、潜在空間における明示的な概念的関係と制約を保存できる表現学習法をサポートすることができる。 本稿では,この構造を明示的に活用し,定義から単語埋め込みを導出するマルチリレーショナルモデルを提案する。 辞書から定義項と定義項の相関関係を自動的に抽出することにより,ハイパーボリック空間の翻訳フレームワークを通じて単語埋め込みの問題を定式化し,定義のグローバルな意味構造を捉えるためのプロキシとして利用する方法を示す。 広範な実証分析によって、フレームワークは、制御可能かつ解釈可能なトラバーサルに必要な意味マッピングを維持しながら、望ましい構造的制約を課すのに役立つことが示されている。 さらに,双曲語埋め込みがユークリッド語よりも優れていることを明らかにし,本質的に効率的かつ解釈可能な利点を生かして,最先端のニューラルモデルと比較して,マルチリレーショナルアプローチが競争結果を得ることができることを示す。

Natural language definitions possess a recursive, self-explanatory semantic structure that can support representation learning methods able to preserve explicit conceptual relations and constraints in the latent space. This paper presents a multi-relational model that explicitly leverages such a structure to derive word embeddings from definitions. By automatically extracting the relations linking defined and defining terms from dictionaries, we demonstrate how the problem of learning word embeddings can be formalised via a translational framework in Hyperbolic space and used as a proxy to capture the global semantic structure of definitions. An extensive empirical analysis demonstrates that the framework can help imposing the desired structural constraints while preserving the semantic mapping required for controllable and interpretable traversal. Moreover, the experiments reveal the superiority of the Hyperbolic word embeddings over the Euclidean counterparts and demonstrate that the multi-relational approach can obtain competitive results when compared to state-of-the-art neural models, with the advantage of being intrinsically more efficient and interpretable.
翻訳日:2024-02-02 19:50:26 公開日:2024-02-01
# 機械学習の景観を探る : 総合的な調査と分類学

Exploring the Landscape of Machine Unlearning: A Comprehensive Survey and Taxonomy ( http://arxiv.org/abs/2305.06360v6 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Xiaofeng Zhu, and Qing Li(参考訳) 機械学習(ML)モデルによる予測の削除や修正の必要性から、機械学習(MU)が注目を集めている。 トレーニングモデルはより効率的で正確になっていますが、未学習の情報の重要性は、プライバシやセキュリティ、公正といった分野でますます重要になっています。 本稿では,データ削除,摂動,モデル更新など,現在の最先端技術とアプローチを包括的に調査する。 また、一般的なメトリクスやデータセットも提示される。 また、攻撃の高度化、標準化、転送可能性、解釈可能性、トレーニングデータ、リソース制約など、対処すべき課題を強調している。 本稿では,muの潜在的メリットとその今後の方向性について考察する。 さらに、機械学習モデルがユーザの信頼を維持しながら変化する状況に適応できるように、研究者や実践者が未学習の技術を探求し、改善し続ける必要性を強調した。 アンラーニングの重要性はさらに強調され、人工知能(AI)をより信頼性が高く透明なものにすること、特に大量の個人データを含むさまざまな領域におけるAIの重要性が増している。

Machine unlearning (MU) is gaining increasing attention due to the need to remove or modify predictions made by machine learning (ML) models. While training models have become more efficient and accurate, the importance of unlearning previously learned information has become increasingly significant in fields such as privacy, security, and fairness. This paper presents a comprehensive survey of MU, covering current state-of-the-art techniques and approaches, including data deletion, perturbation, and model updates. In addition, commonly used metrics and datasets are also presented. The paper also highlights the challenges that need to be addressed, including attack sophistication, standardization, transferability, interpretability, training data, and resource constraints. The contributions of this paper include discussions about the potential benefits of MU and its future directions. Additionally, the paper emphasizes the need for researchers and practitioners to continue exploring and refining unlearning techniques to ensure that ML models can adapt to changing circumstances while maintaining user trust. The importance of unlearning is further highlighted in making Artificial Intelligence (AI) more trustworthy and transparent, especially with the increasing importance of AI in various domains that involve large amounts of personal user data.
翻訳日:2024-02-02 19:50:06 公開日:2024-02-01
# 制御状態再構成と量子秘密共有

Controlled State Reconstruction and Quantum Secret Sharing ( http://arxiv.org/abs/2305.06062v4 )

ライセンス: Link先を確認
Pahulpreet Singh and Indranil Chakrabarty(参考訳) 本稿では,一般の3量子ビット状態に対する制御量子状態再構成とシークレット共有の過程における資源特性評価のベンチマークを提案する。 これは、真の三部関係とディーラーと各相関パラメータによって特徴付けられる再構築者との間の二部チャネルに依存する再構成忠実度を閉じた表現を提供することによって達成される。 2/3の古典極限集合を超える近似状態再構成において量子優位の概念を定式化する。 本稿では,テレポーテーションと国家再建の新たな相互運用性について述べる。 これは関連する相関行列のケース・バイ・ケース分析を通じて詳述される。 我々は、個別に株主が秘密を再構築できないことを保証し、ディーラーと株主の間の二部会チャネルの電信容量にさらなる制約を設けて、量子秘密共有の考え方を改革している。 これは量子シークレット共有がどうあるべきかの理想的な図になると思います。

In this article, we present a benchmark for resource characterization in the process of controlled quantum state reconstruction and secret sharing for general three-qubit states. This is achieved by providing a closed expression for the reconstruction fidelity, which relies on the genuine tripartite correlation and the bipartite channel between the dealer and the reconstructor characterized by the respective correlation parameters. We formulate the idea of quantum advantage in approximate state reconstruction as surpassing the classical limit set at 2/3. This article brings out new interoperability between teleportation and state reconstruction. This is detailed through a case-by-case analysis of relevant correlation matrices. We are reformulating the idea of quantum secret sharing by setting up additional constraints on the teleportation capacity of the bipartite channels between the dealer and shareholders by ensuring that, individually, the shareholders cannot reconstruct the secret. We believe that this will give us the ideal picture of how quantum secret sharing should be.
翻訳日:2024-02-02 19:49:47 公開日:2024-02-01
# ピースワイド正規化フロー

Piecewise Normalizing Flows ( http://arxiv.org/abs/2305.02930v2 )

ライセンス: Link先を確認
Harry Bevins, Will Handley, Thomas Gessey-Jones(参考訳) 正規化フローは、基底分布からの可逆変換を通じて複素確率密度をモデル化するための確立されたアプローチである。 しかし, 正規化流によってターゲット分布を捕捉できる精度は, ベース分布のトポロジーの影響を強く受けている。 ターゲットのトポロジーとベースとのミスマッチは、通常マルチモーダル問題の場合と同様に、パフォーマンスが低下する可能性がある。 いくつかの異なる研究が、ガウス混合モデル(Izmailov et al., 2020; Ardizzone et al., 2020; Hagemann & Neumayer, 2021)や学習されたアセプション/リジェクションサンプリング(Stimper et al., 2022)を用いて、目標に合うようにベース分布のトポロジを変更しようと試みている。 対象の分布をクラスタに分割する分節正規化フローを導入し、標準の正規分布によく適合するトポロジーを導入し、複雑なマルチモーダルターゲットをモデル化するために一連のフローを訓練する。 Stimper et al. (2022) で行ったマルチモーダル分布のモデル化手法と比較し,いくつかの標準ベンチマークを用いて断片フローの性能を実証する。 我々は,Stimper et al. (2022) のアプローチを標準ベンチマークよりも高いエミュレーション精度で一貫して上回っていることを発見した。

Normalizing flows are an established approach for modelling complex probability densities through invertible transformations from a base distribution. However, the accuracy with which the target distribution can be captured by the normalizing flow is strongly influenced by the topology of the base distribution. A mismatch between the topology of the target and the base can result in a poor performance, as is typically the case for multi-modal problems. A number of different works have attempted to modify the topology of the base distribution to better match the target, either through the use of Gaussian Mixture Models (Izmailov et al., 2020; Ardizzone et al., 2020; Hagemann & Neumayer, 2021) or learned accept/reject sampling (Stimper et al., 2022). We introduce piecewise normalizing flows which divide the target distribution into clusters, with topologies that better match the standard normal base distribution, and train a series of flows to model complex multi-modal targets. We demonstrate the performance of the piecewise flows using some standard benchmarks and compare the accuracy of the flows to the approach taken in Stimper et al. (2022) for modelling multi-modal distributions. We find that our approach consistently outperforms the approach in Stimper et al. (2022) with a higher emulation accuracy on the standard benchmarks.
翻訳日:2024-02-02 19:49:08 公開日:2024-02-01
# 星がすべて必要なもの:統合されたセンチメント分析のための遠隔監視ピラミッドネットワーク

Stars Are All You Need: A Distantly Supervised Pyramid Network for Unified Sentiment Analysis ( http://arxiv.org/abs/2305.01710v2 )

ライセンス: Link先を確認
Wenchang Li, Yixing Chen, Shuang Zheng, Lei Wang, John P. Lalor(参考訳) 星のレビューなど,レーティング予測(RP)の感情分析タスクのデータも手軽に入手できる。 しかし, アスペクトカテゴリ検出(ACD)とアスペクトカテゴリ感情分析(ACSA)のデータは, 微細な性質のためしばしば望まれるが, 収集に費用がかかる。 本稿では,アスペクトを理解し,感情を統一的にレビューするために,統一感情分析(uni-sa)を提案する。 具体的には, rpラベルのみを用いてacd, acsa, rpを効率的に行うための, 遠隔教師付きピラミッドネットワーク (dspn) を提案する。 dspnを英語と中国語のマルチアスペクトレビューデータセットで評価した結果,サンプルサイズの内部効率に加えて,様々なベンチマークモデルとの互換性も高いことがわかった。 また,DSPNのアウトプットの解釈可能性を示すとともに,統合された感情分析に固有のピラミッド構造を示す。

Data for the Rating Prediction (RP) sentiment analysis task such as star reviews are readily available. However, data for aspect-category detection (ACD) and aspect-category sentiment analysis (ACSA) is often desired because of the fine-grained nature but are expensive to collect. In this work, we propose Unified Sentiment Analysis (Uni-SA) to understand aspect and review sentiment in a unified manner. Specifically, we propose a Distantly Supervised Pyramid Network (DSPN) to efficiently perform ACD, ACSA, and RP using only RP labels for training. We evaluate DSPN on multi-aspect review datasets in English and Chinese and find that in addition to the internal efficiency of sample size, DSPN also performs comparably well to a variety of benchmark models. We also demonstrate the interpretability of DSPN's outputs on reviews to show the pyramid structure inherent in unified sentiment analysis.
翻訳日:2024-02-02 19:48:40 公開日:2024-02-01
# 形状, 材料, 照明のニューラルPBIR再構成

Neural-PBIR Reconstruction of Shape, Material, and Illumination ( http://arxiv.org/abs/2304.13445v5 )

ライセンス: Link先を確認
Cheng Sun, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl Marshall, Jia-Bin Huang, Shuang Zhao, Zhao Dong(参考訳) 物体の2d画像(例えば写真)に基づく物理世界の物体の形状と空間的に変化する表面の外観の再構築は、コンピュータビジョンやグラフィックスにおいて長年の課題となっている。 本稿では,ニューラルネットワークを用いた物体再構成と物理ベースの逆レンダリング(PBIR)を組み合わせた高精度かつ高効率な物体再構成パイプラインを提案する。 当社のパイプラインではまず,ニューラルsdfベースの形状再構成を活用して,高品質だが潜在的に不完全なオブジェクト形状を生成する。 次に, 神経材料と照明蒸留ステージを導入し, 材料と照明の高品質な予測を実現する。 最終段階では、神経予測によって初期化され、PBIRを用いて初期結果を洗練し、オブジェクト形状、材料、照明の最終的な高品質な再構成を得る。 実験の結果、パイプラインは既存のメソッドよりも品質や性能に優れています。

Reconstructing the shape and spatially varying surface appearances of a physical-world object as well as its surrounding illumination based on 2D images (e.g., photographs) of the object has been a long-standing problem in computer vision and graphics. In this paper, we introduce an accurate and highly efficient object reconstruction pipeline combining neural based object reconstruction and physics-based inverse rendering (PBIR). Our pipeline firstly leverages a neural SDF based shape reconstruction to produce high-quality but potentially imperfect object shape. Then, we introduce a neural material and lighting distillation stage to achieve high-quality predictions for material and illumination. In the last stage, initialized by the neural predictions, we perform PBIR to refine the initial results and obtain the final high-quality reconstruction of object shape, material, and illumination. Experimental results demonstrate our pipeline significantly outperforms existing methods quality-wise and performance-wise.
翻訳日:2024-02-02 19:48:22 公開日:2024-02-01
# オープンドメイン質問応答における抽象性克服のための顕在性認識検索

Evidentiality-aware Retrieval for Overcoming Abstractiveness in Open-Domain Question Answering ( http://arxiv.org/abs/2304.03031v6 )

ライセンス: Link先を確認
Yongho Song, Dahyun Lee, Myungha Jang, Seung-won Hwang, Kyungjae Lee, Dongha Lee, Jinyeong Yeo(参考訳) 難解なopen-domain question answering (odqa)タスクにおける高密度検索者の長年の目標は、任意のクエリに対して関連する文中の証拠文をキャプチャすることであり、読み手が証拠文から事実的に正しい出力を生成することである。 鍵となる課題の1つは、文章の回答可能性の監督を伴う訓練データの不足である。 最近の研究では、読み手からの信号を使って応答性に注釈をつけるために反復的なパイプラインに依存しているが、高い計算コストは実用的な応用を妨げている。 そこで本稿では,データ中心のアプローチに焦点をあてて,合成イントラクタサンプルを活用して,イントラクタからのエビデンスパスを識別するEvidentiality-Aware Dense Passage Retrieval (EADPR)を提案する。 提案手法が複数の抽象型ODQAタスクにおいて有効であることを示すため,広範な実験を行った。

The long-standing goal of dense retrievers in abtractive open-domain question answering (ODQA) tasks is to learn to capture evidence passages among relevant passages for any given query, such that the reader produce factually correct outputs from evidence passages. One of the key challenge is the insufficient amount of training data with the supervision of the answerability of the passages. Recent studies rely on iterative pipelines to annotate answerability using signals from the reader, but their high computational costs hamper practical applications. In this paper, we instead focus on a data-centric approach and propose Evidentiality-Aware Dense Passage Retrieval (EADPR), which leverages synthetic distractor samples to learn to discriminate evidence passages from distractors. We conduct extensive experiments to validate the effectiveness of our proposed method on multiple abstractive ODQA tasks.
翻訳日:2024-02-02 19:48:07 公開日:2024-02-01
# FedIN: モデル不均一性のためのフェデレーション中間層学習

FedIN: Federated Intermediate Layers Learning for Model Heterogeneity ( http://arxiv.org/abs/2304.00759v3 )

ライセンス: Link先を確認
Yun-Hin Chan, Zhihan Jiang, Jing Deng, Edith C.-H. Ngai(参考訳) フェデレートラーニング(FL)は、エッジデバイスがローカルおよびプライベートにトレーニングデータを維持しながら、グローバルな共有モデルを協調的にトレーニングすることを促進する。 しかし、FLの一般的な前提は、参加するエッジデバイスが同様の計算資源を持ち、同じグローバルモデルアーキテクチャでトレーニングすることである。 本研究では,FedIN(Federated Intermediate Layers Learning)と呼ばれるFL手法を提案する。 代わりにFedINは、知識交換を容易にするために、クライアントモデル機能に埋め込まれた固有の知識を活用する。 FedINのトレーニングモデルは、抽出器、中間層、分類器の3つの異なるコンポーネントに分けられる。 抽出器の出力と分類器の入力を抽出することでクライアントの特徴を捉える。 クライアント機能からの知識を活用するために,他のクライアントから得られた特徴に基づいて中間層を整列するトレーニングを提案する。 トレーニングでは、単一のクライアント機能を利用すれば、最小限のメモリと通信オーバーヘッドしか必要ありません。 さらに,INトレーニングとローカルトレーニングの相違による勾配分散の課題を軽減するため,凸最適化問題を定式化し,対処する。 実験結果から, 異種モデル環境におけるFedINの性能は, 最先端のアルゴリズムと比較して優れていた。 さらに,本研究は,INトレーニングの有効性を実証し,勾配分散を緩和する手法を提案する。

Federated learning (FL) facilitates edge devices to cooperatively train a global shared model while maintaining the training data locally and privately. However, a common assumption in FL requires the participating edge devices to have similar computation resources and train on an identical global model architecture. In this study, we propose an FL method called Federated Intermediate Layers Learning (FedIN), supporting heterogeneous models without relying on any public dataset. Instead, FedIN leverages the inherent knowledge embedded in client model features to facilitate knowledge exchange. The training models in FedIN are partitioned into three distinct components: an extractor, intermediate layers, and a classifier. We capture client features by extracting the outputs of the extractor and the inputs of the classifier. To harness the knowledge from client features, we propose IN training for aligning the intermediate layers based on features obtained from other clients. IN training only needs minimal memory and communication overhead by utilizing a single batch of client features. Additionally, we formulate and address a convex optimization problem to mitigate the challenge of gradient divergence caused by conflicts between IN training and local training. The experiment results demonstrate the superior performance of FedIN in heterogeneous model environments compared to state-of-the-art algorithms. Furthermore, our ablation study demonstrates the effectiveness of IN training and the proposed solution for alleviating gradient divergence.
翻訳日:2024-02-02 19:47:49 公開日:2024-02-01
# cartier: ロボットの命令実行を目的とした地図言語推論

CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots ( http://arxiv.org/abs/2307.11865v3 )

ライセンス: Link先を確認
Dmitriy Rivkin, Nikhil Kakodkar, Francois Hogan, Bobak H. Baghi, Gregory Dudek(参考訳) 本研究では,大規模言語モデル(LLM)の空間計画とナビゲーションのための自然言語インタフェースの交点における問題に対処する能力について検討する。 ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに注力する。 ナビゲーションディレクティブを単純な命令コマンド(例えば "go to the fridge" など)として提供する従来の作業とは違って、3Dシミュレータである AI2Thor を利用して大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。 我々は,我々の手法であるCARTIER(Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots)を用いて,シナリオ内のオブジェクトのコンテキストでユーザインタラクションを解釈するLLMの能力を利用して,既存のLCM対応手法よりも最大42%信頼性の高い記述言語クエリを解析できることを実証した。

This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation. We focus on following complex instructions that are more akin to natural conversation than traditional explicit procedural directives typically seen in robotics. Unlike most prior work where navigation directives are provided as simple imperative commands (e.g., "go to the fridge"), we examine implicit directives obtained through conversational interactions.We leverage the 3D simulator AI2Thor to create household query scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot using our method CARTIER (Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots) can parse descriptive language queries up to 42% more reliably than existing LLM-enabled methods by exploiting the ability of LLMs to interpret the user interaction in the context of the objects in the scenario.
翻訳日:2024-02-02 19:41:06 公開日:2024-02-01
# 人工知能はアルゴリズムの模倣だ:なぜ「エージェント」が適切なエージェントではない(そしてそうでない)のか

Artificial intelligence is algorithmic mimicry: why artificial "agents" are not (and won't be) proper agents ( http://arxiv.org/abs/2307.07515v3 )

ライセンス: Link先を確認
Johannes Jaeger(参考訳) agi(artificial general intelligence)の開発はどうなるのか? 生活システムとアルゴリズムシステムとを体系的に比較し,特に「アジェンシー」の概念に焦点をあてて考察する。 1) 生活システムは自己表現型,すなわち自己生産型であり,それゆえ自発的な目標を設定することが可能であり,一方,外部エージェントによって提供される対象関数を持つ計算環境にはアルゴリズムが存在する。 2) リビングシステムは, ハードウェアからソフトウェアを最大限に分離する計算アーキテクチャ上でアルゴリズムが動作するのに対して, シンボル的側面と物理的側面の分離がないという意味で具体化されている。 3) 生活システムには大きな世界があり、ほとんどの問題は不定義であり(すべて定義可能ではない)、アルゴリズムは小さな世界に存在し、すべての問題が明確に定義されている。 これら3つの違いは、生活システムとアルゴリズムシステムは、非常に異なる能力と限界を持っていることを意味する。 特に、AI研究の現在のアルゴリズムフレームワークにおいて、真のAGI(単なる模倣)が開発される可能性は極めて低い。 したがって、アルゴリズムツールの適切な開発と展開に関する議論は、現在の狭義のAIの危険性と機会を中心に形成されるべきであり、人工システムにおける真のエージェンシーが出現する可能性は極めて低い。

What is the prospect of developing artificial general intelligence (AGI)? I investigate this question by systematically comparing living and algorithmic systems, with a special focus on the notion of "agency." There are three fundamental differences to consider: (1) Living systems are autopoietic, that is, self-manufacturing, and therefore able to set their own intrinsic goals, while algorithms exist in a computational environment with target functions that are both provided by an external agent. (2) Living systems are embodied in the sense that there is no separation between their symbolic and physical aspects, while algorithms run on computational architectures that maximally isolate software from hardware. (3) Living systems experience a large world, in which most problems are ill-defined (and not all definable), while algorithms exist in a small world, in which all problems are well-defined. These three differences imply that living and algorithmic systems have very different capabilities and limitations. In particular, it is extremely unlikely that true AGI (beyond mere mimicry) can be developed in the current algorithmic framework of AI research. Consequently, discussions about the proper development and deployment of algorithmic tools should be shaped around the dangers and opportunities of current narrow AI, not the extremely unlikely prospect of the emergence of true agency in artificial systems.
翻訳日:2024-02-02 19:40:35 公開日:2024-02-01
# Webデータマイニングのためのクロスプラットフォームマスクプリトレーニングに向けて

Towards Cross-Table Masked Pretraining for Web Data Mining ( http://arxiv.org/abs/2307.04308v2 )

ライセンス: Link先を確認
Chao Ye, Guoshan Lu, Haobo Wang, Liyao Li, Sai Wu, Gang Chen, Junbo Zhao(参考訳) タブラルデータはWorld Wide Webの景観に浸透し、オンライン情報を支えるデジタルアーキテクチャにおいて基礎的な役割を果たす。 様々な領域にわたるChatGPTやSAMのような大規模事前学習モデルの影響を踏まえ、ウェブ上の表層データマイニングのための事前学習技術の応用を探究する研究の方向性が高まっている。 実際、このトピックに関する最近の研究では、ほとんど(すべてではないとしても)固定スキーマ/シングルテーブルの範囲で制限されている。 データセットのスケールと先行モデルのパラメータサイズのため、ユビキタスな表データの'BERTモーメント'には達していないと考えています。 このラインの開発は、自然言語処理のような他の研究領域に大きく遅れている。 本稿ではまず,表型データ事前学習の背景にある重要な課題,特にクロステーブルなハードルを克服することを明らかにする。 先駆的な努力として この作品は主に (i)-高品質な実世界の表型データセットを配布する。 (ii)-革新的で汎用的で効率の良いクロステーブルプリトレーニングフレームワークcm2を提唱し、そのコアは、多くの制約なしに不均一なテーブルを均一にエンコードするセマンティックアウェアな表型ニューラルネットワークで構成されている。 (iii)-NLPにインスパイアされたものの、テーブル上でのスケーラブルな事前トレーニングに高度に調整された、新しい事前学習目標(pMTM)を導入する。 広範な実験により,cm2の最先端の性能を実証し,クロステーブルプリトレーニングが様々な下流タスクを向上できることを検証した。

Tabular data pervades the landscape of the World Wide Web, playing a foundational role in the digital architecture that underpins online information. Given the recent influence of large-scale pretrained models like ChatGPT and SAM across various domains, exploring the application of pretraining techniques for mining tabular data on the web has emerged as a highly promising research direction. Indeed, there have been some recent works around this topic where most (if not all) of them are limited in the scope of a fixed-schema/single table. Due to the scale of the dataset and the parameter size of the prior models, we believe that we have not reached the ''BERT moment'' for the ubiquitous tabular data. The development on this line significantly lags behind the counterpart research domains such as natural language processing. In this work, we first identify the crucial challenges behind tabular data pretraining, particularly overcoming the cross-table hurdle. As a pioneering endeavor, this work mainly (i)-contributes a high-quality real-world tabular dataset, (ii)-proposes an innovative, generic, and efficient cross-table pretraining framework, dubbed as CM2, where the core to it comprises a semantic-aware tabular neural network that uniformly encodes heterogeneous tables without much restriction and (iii)-introduces a novel pretraining objective -- prompt Masked Table Modeling (pMTM) -- inspired by NLP but intricately tailored to scalable pretraining on tables. Our extensive experiments demonstrate CM2's state-of-the-art performance and validate that cross-table pretraining can enhance various downstream tasks.
翻訳日:2024-02-02 19:40:12 公開日:2024-02-01
# オープン量子系のシミュレーション支援学習

Simulation-assisted learning of open quantum systems ( http://arxiv.org/abs/2307.03858v2 )

ライセンス: Link先を確認
Ke Wang and Xiantao Li(参考訳) 電子輸送問題や量子コンピューティングにおいて重要な役割を果たすオープン量子系のモデルは、量子系の周囲環境との相互作用を考慮する必要がある。 このようなモデルは特別な場合でも導出できるが、ほとんどの場合、正確なモデルは未知であり、校正する必要がある。 本稿では,マルコフ開量子システムのパラメータを計測データから推定する学習法を提案する。 この方法の重要な要素の1つは量子マスター方程式の直接シミュレーション技術であり、完全正の性質を精度で保存するように設計されている。 この方法は測定間の時間間隔が大きい状況において特に有用である。 このアプローチは誤差推定と数値実験で検証される。

Models for open quantum systems, which play important roles in electron transport problems and quantum computing, must take into account the interaction of the quantum system with the surrounding environment. Although such models can be derived in some special cases, in most practical situations, the exact models are unknown and have to be calibrated. This paper presents a learning method to infer parameters in Markovian open quantum systems from measurement data. One important ingredient in the method is a direct simulation technique of the quantum master equation, which is designed to preserve the completely-positive property with guaranteed accuracy. The method is particularly helpful in the situation where the time intervals between measurements are large. The approach is validated with error estimates and numerical experiments.
翻訳日:2024-02-02 19:39:43 公開日:2024-02-01
# 概要因果グラフからの直接効果の同定可能性

Identifiability of Direct Effects from Summary Causal Graphs ( http://arxiv.org/abs/2306.16958v3 )

ライセンス: Link先を確認
Simon Ferreira and Charles K. Assaad(参考訳) 動的構造因果モデル(scms)は、ある変数の変更が他の変数にどのように影響するかを計測し、他の変数を定数に保ちながら直接効果について、動的システムにおいて推論するための強力なフレームワークである。 動的構造因果モデルにおける因果関係は、非巡回フルタイム因果グラフで定性的に表すことができる。 線形性と隠れた共起性を仮定し、フルタイム因果グラフを与えると、直接因果効果は常に識別可能である。 しかし、多くのアプリケーションではそのようなグラフは様々な理由で利用できないが、専門家は時系列間の因果関係を表すフルタイム因果グラフの要約因果グラフにアクセスでき、時間的情報を省略し、サイクルを可能にする。 本稿では,その直接効果が要約因果グラフからグラフィカルに識別可能なすべての事例を特徴付ける完全識別可能性結果と,その直接効果が識別可能であれば,その直接効果を推定するために使用できる2つの健全な有限調整セットを与える。

Dynamic structural causal models (SCMs) are a powerful framework for reasoning in dynamic systems about direct effects which measure how a change in one variable affects another variable while holding all other variables constant. The causal relations in a dynamic structural causal model can be qualitatively represented with an acyclic full-time causal graph. Assuming linearity and no hidden confounding and given the full-time causal graph, the direct causal effect is always identifiable. However, in many application such a graph is not available for various reasons but nevertheless experts have access to the summary causal graph of the full-time causal graph which represents causal relations between time series while omitting temporal information and allowing cycles. This paper presents a complete identifiability result which characterizes all cases for which the direct effect is graphically identifiable from a summary causal graph and gives two sound finite adjustment sets that can be used to estimate the direct effect whenever it is identifiable.
翻訳日:2024-02-02 19:39:33 公開日:2024-02-01
# 情報的非平衡の動的資源理論

The Dynamical Resource Theory of Informational Non-Equilibrium ( http://arxiv.org/abs/2306.16848v3 )

ライセンス: Link先を確認
Benjamin Stratton, Chung-Yun Hsieh, Paul Skrzypczyk(参考訳) 情報は熱力学の理解に欠かせない。 彼らの相互作用は、熱力学変換への情報的貢献を分離できる完全に縮退したハミルトニアンを通じて研究されている。 この設定では、最大混合状態以外の全ての状態は情報非平衡状態であると考えられる。 情報的非平衡を維持するために量子力学の能力をどのように特徴付けるか? ここでは, 情報的非平衡可観測性に関する動的資源理論を導入し, この問いへの答えを述べる。 許容される演算のキャラクタリゼーションは、キュービットチャネルとn次元ワイル共変チャネル(一般チャネルの物理的関連部分集合)に対して与えられる。 ベル状態測定を伴う状態識別ゲームの操作解釈が与えられる。 最後に、チャネルの古典的容量と情報非平衡を維持する能力との明示的なリンクを作る。

Information is instrumental in our understanding of thermodynamics. Their interplay has been studied through completely degenerate Hamiltonians whereby the informational contributions to thermodynamic transformations can be isolated. In this setting, all states other then the maximally mixed state are considered to be in informational non-equilibrium. An important yet still open question is: how to characterise the ability of quantum dynamics to maintain informational non-equilibrium? Here, the dynamical resource theory of informational non-equilibrium preservability is introduced to begin providing an answer to this question. A characterisation of the allowed operations is given for qubit channels and the n dimensional Weyl-covariant channels - a physically relevant subset of the general channels. An operational interpretation of a state discrimination game with Bell state measurements is given. Finally, an explicit link between a channels classical capacity and its ability to maintain informational non-equilibrium is made.
翻訳日:2024-02-02 19:39:14 公開日:2024-02-01
# オープンボキャブラリ学習に向けて:調査

Towards Open Vocabulary Learning: A Survey ( http://arxiv.org/abs/2306.15880v4 )

ライセンス: Link先を確認
Jianzong Wu, Xiangtai Li, Shilin Xu, Haobo Yuan, Henghui Ding, Yibo Yang, Xia Li, Jiangning Zhang, Yunhai Tong, Xudong Jiang, Bernard Ghanem, Dacheng Tao(参考訳) 視覚シーン理解の分野では、ディープニューラルネットワークはセグメンテーション、トラッキング、検出など、さまざまなコアタスクにおいて驚くべき進歩を遂げている。 しかし、ほとんどのアプローチはクローズセットの仮定に基づいており、トレーニングセットに存在する事前定義されたカテゴリのみを識別できる。 近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。 これらの新しいアプローチは、注釈付きラベル空間を超えてカテゴリを見つけ、認識することを目指している。 オープン語彙のアプローチは、弱教師付きおよびゼロショット設定に比べて、より一般的で実用的で効果的である。 本稿では,その分野における最近の発展を要約し,分析し,オープンな語彙学習の徹底的なレビューを行う。 特に,ゼロショット学習,オープンセット認識,分散検出といった関連する概念と比較することから始める。 次に, セグメンテーションと検出に関して, ロングテール問題, 少数ショット設定, ゼロショット設定など, 密接に関連するタスクをいくつか検討する。 本研究は,まず,事前知識としてクローズセットにおける検出とセグメンテーションの基本的な知識を提示する。 次に,オープン語彙学習を用いた様々なシナリオについて検討し,共通設計要素とコアアイデアを同定する。 次に、一般的なデータセットとベンチマークにおける最近の検出とセグメンテーションのアプローチを比較した。 最後に,今後の研究方向性に関する洞察,課題,議論をまとめる。 私たちの知る限り、オープンな語彙学習に関する総合的な文献レビューはこれが初めてである。 関連する作業をhttps://github.com/jianzongwu/Awesome-Open-Vocabulary.comで追跡しています。

In the field of visual scene understanding, deep neural networks have made impressive advancements in various core tasks like segmentation, tracking, and detection. However, most approaches operate on the close-set assumption, meaning that the model can only identify pre-defined categories that are present in the training set. Recently, open vocabulary settings were proposed due to the rapid progress of vision language pre-training. These new approaches seek to locate and recognize categories beyond the annotated label space. The open vocabulary approach is more general, practical, and effective compared to weakly supervised and zero-shot settings. This paper provides a thorough review of open vocabulary learning, summarizing and analyzing recent developments in the field. In particular, we begin by comparing it to related concepts such as zero-shot learning, open-set recognition, and out-of-distribution detection. Then, we review several closely related tasks in the case of segmentation and detection, including long-tail problems, few-shot, and zero-shot settings. For the method survey, we first present the basic knowledge of detection and segmentation in close-set as the preliminary knowledge. Next, we examine various scenarios in which open vocabulary learning is used, identifying common design elements and core ideas. Then, we compare the recent detection and segmentation approaches in commonly used datasets and benchmarks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To our knowledge, this is the first comprehensive literature review of open vocabulary learning. We keep tracing related works at https://github.com/jianzongwu/Awesome-Open-Vocabulary.
翻訳日:2024-02-02 19:39:02 公開日:2024-02-01
# epic fields: 3dジオメトリとビデオ理解の結婚

EPIC Fields: Marrying 3D Geometry and Video Understanding ( http://arxiv.org/abs/2306.08731v2 )

ライセンス: Link先を確認
Vadim Tschernezki, Ahmad Darkhalil, Zhifan Zhu, David Fouhey, Iro Laina, Diane Larlus, Dima Damen, Andrea Vedaldi(参考訳) ニューラルレンダリングは、20年以上待ち続けている学習と3D幾何学、そしてビデオ理解の統一を加速させている。 しかし、プログレスはまだ適切なデータセットとベンチマークの欠如によって妨げられている。 このギャップに対処するために,EPIC-KITCHENSを3次元カメラ情報で拡張したEPIC Fieldsを導入する。 ニューラルレンダリングのための他のデータセットと同様に、EPIC Fieldsは、フォトグラムを使ってカメラを再構成する複雑で高価なステップを取り除き、研究者が問題モデリングに集中できるようにする。 本稿では,ダイナミックアクションのエゴセントリックビデオにおけるフォトグラメトリーの課題を説明し,それに対処するためのイノベーションを提案する。 他のニューラルレンダリングデータセットと比較して、EPIC Fieldsはラベル付きアクションセグメントと最近のVISORセグメントアノテーションとの組み合わせであるため、ビデオ理解に適している。 さらにコミュニティのモチベーションを高めるために、ニューラルネットワークと動的オブジェクトのセグメンテーションにおける2つのベンチマークタスクを評価します。 また,バイザアノテーション上の半教師付き映像オブジェクトセグメンテーションにおける幾何の利点を強調する。 EPIC FieldsはEPICKITCHENSの動画の96%を再構築し、45のキッチンで99時間に19Mフレームを登録している。

Neural rendering is fuelling a unification of learning, 3D geometry and video understanding that has been waiting for more than two decades. Progress, however, is still hampered by a lack of suitable datasets and benchmarks. To address this gap, we introduce EPIC Fields, an augmentation of EPIC-KITCHENS with 3D camera information. Like other datasets for neural rendering, EPIC Fields removes the complex and expensive step of reconstructing cameras using photogrammetry, and allows researchers to focus on modelling problems. We illustrate the challenge of photogrammetry in egocentric videos of dynamic actions and propose innovations to address them. Compared to other neural rendering datasets, EPIC Fields is better tailored to video understanding because it is paired with labelled action segments and the recent VISOR segment annotations. To further motivate the community, we also evaluate two benchmark tasks in neural rendering and segmenting dynamic objects, with strong baselines that showcase what is not possible today. We also highlight the advantage of geometry in semi-supervised video object segmentations on the VISOR annotations. EPIC Fields reconstructs 96% of videos in EPICKITCHENS, registering 19M frames in 99 hours recorded in 45 kitchens.
翻訳日:2024-02-02 19:38:40 公開日:2024-02-01
# 分散バンディットにおける人口の力

The Power of Populations in Decentralized Bandits ( http://arxiv.org/abs/2306.08670v3 )

ライセンス: Link先を確認
John Lazarsfeld, Dan Alistarh(参考訳) 分散GOSSIPモデルにおける協調的マルチエージェントバンディット設定について検討し、各ラウンドにおいて、$n$エージェントが共通の集合からアクションを選択し、対応する報酬を観察し、次にランダムに選択された隣人と情報を交換し、次のラウンドでそのポリシーを通知する。 この設定では,各エージェントが一定メモリしか持たないという制約の下で,完全分散ローカルアルゴリズムのいくつかのファミリを導入・解析する。 我々は,このような分散アルゴリズムのグローバル進化と「ゼロサム」乗算重み更新手法の新たなクラスとの関係に注目し,これらの自然プロトコルの集団レベルの後悔を分析するための汎用フレームワークを開発した。 この枠組みを用いて、定常的および対向的な報酬設定のサブ線形後悔境界を導出する。 さらに,これらの単純局所アルゴリズムは,確率的勾配 oracle から報奨分布が生成されることを仮定して,simplex 上の凸関数を近似的に最適化できることを示した。

We study a cooperative multi-agent bandit setting in the distributed GOSSIP model: in every round, each of $n$ agents chooses an action from a common set, observes the action's corresponding reward, and subsequently exchanges information with a single randomly chosen neighbor, which informs its policy in the next round. We introduce and analyze several families of fully-decentralized local algorithms in this setting under the constraint that each agent has only constant memory. We highlight a connection between the global evolution of such decentralized algorithms and a new class of "zero-sum" multiplicative weights update methods, and we develop a general framework for analyzing the population-level regret of these natural protocols. Using this framework, we derive sublinear regret bounds for both stationary and adversarial reward settings. Moreover, we show that these simple local algorithms can approximately optimize convex functions over the simplex, assuming that the reward distributions are generated from a stochastic gradient oracle.
翻訳日:2024-02-02 19:38:20 公開日:2024-02-01
# 非単位フローケット横場イジングモデルのダイナミクスと位相

Dynamics and Phases of Nonunitary Floquet Transverse-Field Ising Model ( http://arxiv.org/abs/2306.07428v3 )

ライセンス: Link先を確認
Lei Su, Aashish Clerk, Ivar Martin(参考訳) 計測誘起量子相転移に関する最近の研究に触発されて,複素最寄り-neighbor結合と複素横磁場を持つ非ユニタリフロッケ横場イジングモデルの解析を行った。 ユニタリモデルとは異なり、モデルは様々な定常位相を示し、不安定な摂動に安定である。 いくつかの位相は、強靭なエッジモードと/または時空間の長距離順序を持つ。 相間の遷移は広い絡み合いエントロピーを持ち、系の大きさのスケーリングは遷移のスペクトルにおける実際の準粒子モードの数に依存する。 特に、ボリューム法のスケーリングは、疑似ハーミティリティによって保護されたいくつかのクリティカルラインに現れる。 定常状態における絡み合いエントロピーのスケーリングとクエンチ後の進化は、少なくとも定性的にはカラブレスとカーディの準粒子像の非エルミート一般化と両立する。

Inspired by current research on measurement-induced quantum phase transitions, we analyze the nonunitary Floquet transverse-field Ising model with complex nearest-neighbor couplings and complex transverse fields. Unlike its unitary counterpart, the model shows a number of steady phases, stable to integrability breaking perturbations. Some phases have robust edge modes and/or spatiotemporal long-range orders in the bulk. The transitions between the phases have extensive entanglement entropy, whose scaling with the system size depends on the number of the real quasiparticle modes in the spectrum at the transition. In particular, the volume law scaling appears on some critical lines, protected by pseudo-Hermiticity. Both the scaling of entanglement entropy in steady states and the evolution after a quench are compatible with the non-Hermitian generalization of the quasiparticle picture of Calabrese and Cardy at least qualitatively.
翻訳日:2024-02-02 19:38:02 公開日:2024-02-01
# L2正規化による簡易・高品質分布検出の探索

Exploring Simple, High Quality Out-of-Distribution Detection with L2 Normalization ( http://arxiv.org/abs/2306.04072v4 )

ライセンス: Link先を確認
Jarrod Haas, William Yolland, Bernhard Rabus(参考訳) 特徴空間上のL2正規化は、いくつかのモデルやデータセットのアウト・オブ・ディストリビューション(OoD)検出に有効な性能をもたらすことを示す。 最先端のパフォーマンスを示すものではないが、極端に単純であり、2行のコード追加が必要であり、特別な損失関数、画像拡張、異常露光、余分なパラメータチューニングを必要としない。 また、トレーニングがいくつかのデータセットやアーキテクチャでより効率的になる可能性があることも観察しています。 注目すべきは、CIFAR10上のResNet18(またはResNet50の100エポック)の60エポックのみが、近距離および遠距離のOoDデータセットのいくつかの最先端メソッドの2ポイント(AUROC)で性能を発揮できることだ。 本手法の理論的かつ実証的なサポートを提供し、5つのアーキテクチャと3つのIn-Distribution(ID)データセットの生存可能性を示す。

We demonstrate that L2 normalization over feature space can produce capable performance for Out-of-Distribution (OoD) detection for some models and datasets. Although it does not demonstrate outright state-of-the-art performance, this method is notable for its extreme simplicity: it requires only two addition lines of code, and does not need specialized loss functions, image augmentations, outlier exposure or extra parameter tuning. We also observe that training may be more efficient for some datasets and architectures. Notably, only 60 epochs with ResNet18 on CIFAR10 (or 100 epochs with ResNet50) can produce performance within two percentage points (AUROC) of several state-of-the-art methods for some near and far OoD datasets. We provide theoretical and empirical support for this method, and demonstrate viability across five architectures and three In-Distribution (ID) datasets.
翻訳日:2024-02-02 19:37:03 公開日:2024-02-01
# 視覚言語モデルにおける言語優先の役割の再考

Revisiting the Role of Language Priors in Vision-Language Models ( http://arxiv.org/abs/2306.01879v3 )

ライセンス: Link先を確認
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan(参考訳) 視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用できるため、影響を受けやすい。 画像から次の単語を生成するために訓練された$\textit{generative VLMs}$について検討する。 画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。 最初の観察は、画像に与えられた特定の文字列を生成するマッチスコアを単純に計算することで、識別的タスク(画像テキスト検索など)に再利用できることである。 この確率スコアを $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore) と呼ぶ。 VisualGPTScoreは、いくつかの検索ベンチマークでほぼ完璧な精度を生成するが、他のベンチマークでは精度が低い。 この動作を確率的レンズで解析し,不自然な言語分布を不注意に捉えたベンチマークが,逆行的だがありそうにないテキストキャプションを生成できる点を指摘した。 実際、画像証拠を無視した「盲語」言語モデルでさえ、長年の視覚的要求応答(VQA)コミュニティが直面してきた同様の課題を思い起こさせるような、すべての先行技術を上回ることがある。 モデルの再訓練や微調整を必要とせず、テスト時に生成vlmの言語バイアス量を制御する確率的後処理スキームを導出する。 visualgptscoreは、適切に偏りがなければ、視覚言語理解のための強力なゼロショットベースラインであり、しばしば最先端の精度を生み出す。

Vision-language models (VLMs) are impactful in part because they can be applied to a variety of visual understanding tasks in a zero-shot fashion, without any fine-tuning. We study $\textit{generative VLMs}$ that are trained for next-word generation given an image. We explore their zero-shot performance on the illustrative task of image-text retrieval across 8 popular vision-language benchmarks. Our first observation is that they can be repurposed for discriminative tasks (such as image-text retrieval) by simply computing the match score of generating a particular text string given an image. We call this probabilistic score the $\textit{Visual Generative Pre-Training Score}$ (VisualGPTScore). While the VisualGPTScore produces near-perfect accuracy on some retrieval benchmarks, it yields poor accuracy on others. We analyze this behavior through a probabilistic lens, pointing out that some benchmarks inadvertently capture unnatural language distributions by creating adversarial but unlikely text captions. In fact, we demonstrate that even a "blind" language model that ignores any image evidence can sometimes outperform all prior art, reminiscent of similar challenges faced by the visual-question answering (VQA) community many years ago. We derive a probabilistic post-processing scheme that controls for the amount of linguistic bias in generative VLMs at test time without having to retrain or fine-tune the model. We show that the VisualGPTScore, when appropriately debiased, is a strong zero-shot baseline for vision-language understanding, oftentimes producing state-of-the-art accuracy.
翻訳日:2024-02-02 19:36:48 公開日:2024-02-01
# 量子場論における超光的局所演算:ピンポン球試験

Superluminal local operations in quantum field theory: A ping-pong ball test ( http://arxiv.org/abs/2308.16673v2 )

ライセンス: Link先を確認
Albert Much and Rainer Verch(参考訳) 場の量子論において、局所可観測代数におけるユニタリ作用素によって与えられる局所化作用素は、その局所化領域内での非因果的あるいは超光的状態変化をもたらすことが知られている。 本稿では、量子場論と古典相対論的場論の両方において、「即時」空間回転に対応する局所化演算(局所化領域を不変に残す)が存在し、局所化領域内で超光効果をもたらすことを示す。 このことは、文献で研究され、その局所化領域内で超光効果を特徴とする局所化演算の存在に依存する「不可能な測定シナリオ」が、場の量子論だけでなく古典場理論においても起こることを示している。 この記事は、A. Alonso-Serrano、S. Schuster、J. Santiago、M. Visserが編集した雑誌『ユニバース』の「時間旅行の物理学」の特集号の一部である。

It is known that in quantum field theory, localized operations, e.g.\ given by unitary operators in local observable algebras, may lead to non-causal, or superluminal, state changes within their localization region. In this article, it is shown that both in quantum field theory as well as in classical relativistic field theory, there are localized operations which correspond to ``instantaneous'' spatial rotations (leaving the localization region invariant) leading to superluminal effects within the localization region. This shows that ``impossible measurement scenarios'' which have been investigated in the literature, and which rely on the presence of localized operations that feature superluminal effects within their localization region, do not only occur in quantum field theory, but also in classical field theory. This article is part of a Special Issue on the 'Physics of Time Travel' in the journal Universe, edited by A. Alonso-Serrano, S. Schuster, J. Santiago and M. Visser.
翻訳日:2024-02-02 19:29:41 公開日:2024-02-01
# 微粒エネルギー計測による深層学習におけるエネルギー認識の強化

Enhancing Energy-Awareness in Deep Learning through Fine-Grained Energy Measurement ( http://arxiv.org/abs/2308.12264v2 )

ライセンス: Link先を確認
Saurabhsingh Rajput, Tim Widmayer, Ziyuan Shang, Maria Kechagia, Federica Sarro, Tushar Sharma(参考訳) ディープラーニング(DL)モデルの使用量、規模、複雑さの増大に伴い、その急速なエネルギー消費は重要な関心事となっている。 異なる粒度でのグリーン開発とエネルギー意識の促進は、dlシステムの二酸化炭素排出量を制限する時間の必要性である。 しかし、エネルギー消費を正確に測定し、最適化するための標準的かつ繰り返し可能なツールがない(例えば、メソッドレベルで)ため、この分野の進歩は妨げられる。 本稿では,微細なDLエネルギー消費測定のためのフレームワークであるFECoM(Fine-fine Energy Consumption Meter)を紹介する。 FECoMは研究者と開発者がエネルギーの観点からDL APIをプロファイルすることを可能にする。 FECoMは、静的計測を用いて、計算負荷や温度安定性など様々な要因を考慮し、エネルギー消費をきめ細かいレベルで測定するという課題に対処する。 我々は、最も人気のあるオープンソースDLフレームワークの1つであるTensorFlowに対して、FECoMの詳細なエネルギー消費を測定する能力を評価する。 また、FECoMを用いて、パラメータサイズと実行時間がエネルギー消費に与える影響を調査し、TensorFlow APIのエネルギープロファイルの理解を深める。 さらに,細粒度エネルギー消費測定ツールの設計と実装において考慮すべき考慮事項,課題,課題について詳述する。 本研究は, DLエネルギー測定のさらなる進歩と, DLシステムのエネルギ・アウェア・プラクティスの開発を促進する。

With the increasing usage, scale, and complexity of Deep Learning (DL) models, their rapidly growing energy consumption has become a critical concern. Promoting green development and energy awareness at different granularities is the need of the hour to limit carbon emissions of DL systems. However, the lack of standard and repeatable tools to accurately measure and optimize energy consumption at a fine granularity (e.g., at method level) hinders progress in this area. This paper introduces FECoM (Fine-grained Energy Consumption Meter), a framework for fine-grained DL energy consumption measurement. FECoM enables researchers and developers to profile DL APIs from energy perspective. FECoM addresses the challenges of measuring energy consumption at fine-grained level by using static instrumentation and considering various factors, including computational load and temperature stability. We assess FECoM's capability to measure fine-grained energy consumption for one of the most popular open-source DL frameworks, namely TensorFlow. Using FECoM, we also investigate the impact of parameter size and execution time on energy consumption, enriching our understanding of TensorFlow APIs' energy profiles. Furthermore, we elaborate on the considerations, issues, and challenges that one needs to consider while designing and implementing a fine-grained energy consumption measurement tool. This work will facilitate further advances in DL energy measurement and the development of energy-aware practices for DL systems.
翻訳日:2024-02-02 19:28:00 公開日:2024-02-01
# プラスチックを学ぶ: スパイクニューラルネットワークにおける塑性駆動学習フレームワーク

Learning the Plasticity: Plasticity-Driven Learning Framework in Spiking Neural Networks ( http://arxiv.org/abs/2308.12063v2 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yiting Dong, Yang Li, Feifei Zhao and Yi Zeng(参考訳) 人間の脳の進化は複雑なシナプス塑性を発展させ、絶えず進化する世界への動的適応を可能にした。 この進歩は、spyking neural networks(snns)の新たなパラダイムである可塑性学習フレームワーク(pdlf)の探求を刺激します。 このパラダイムは、主にシナプス重みの直接トレーニングに焦点を当てた従来のニューラルネットワークモデルと異なるため、動的環境での適応性を制限する静的接続に繋がる。 代わりに、私たちのアプローチはシナプス的行動の心臓に分解し、可塑性規則自体の学習を優先します。 重みの調整からシナプスの変化の複雑さの習得への焦点のシフトは、ニューラルネットワークの進化と適応をより柔軟でダイナミックな経路を提供する。 我々のPDLFは、機能的・シナプス的依存的塑性という既存の概念に適応するだけでなく、それらを再定義し、生物学的学習の動的で適応的な性質と密接に一致させる。 この方向転換は、ワーキングメモリやマルチタスク機能など、人工知能システムにおける重要な認知能力を強化し、複雑な現実のシナリオにおいて優れた適応性を示す。 さらに, この枠組みは, 様々な形態の可塑性と認知機能との複雑な関係に光を当て, 脳の学習機構のより深い理解に寄与する。 SNNにこの画期的な塑性中心のアプローチを統合することは、神経科学と人工知能の融合における大きな進歩である。 それは、学習するだけでなく、人間の脳のように変化し続ける世界に適応するAIシステムを開発するための道を開く。

The evolution of the human brain has led to the development of complex synaptic plasticity, enabling dynamic adaptation to a constantly evolving world. This progress inspires our exploration into a new paradigm for Spiking Neural Networks (SNNs): a Plasticity-Driven Learning Framework (PDLF). This paradigm diverges from traditional neural network models that primarily focus on direct training of synaptic weights, leading to static connections that limit adaptability in dynamic environments. Instead, our approach delves into the heart of synaptic behavior, prioritizing the learning of plasticity rules themselves. This shift in focus from weight adjustment to mastering the intricacies of synaptic change offers a more flexible and dynamic pathway for neural networks to evolve and adapt. Our PDLF does not merely adapt existing concepts of functional and Presynaptic-Dependent Plasticity but redefines them, aligning closely with the dynamic and adaptive nature of biological learning. This reorientation enhances key cognitive abilities in artificial intelligence systems, such as working memory and multitasking capabilities, and demonstrates superior adaptability in complex, real-world scenarios. Moreover, our framework sheds light on the intricate relationships between various forms of plasticity and cognitive functions, thereby contributing to a deeper understanding of the brain's learning mechanisms. Integrating this groundbreaking plasticity-centric approach in SNNs marks a significant advancement in the fusion of neuroscience and artificial intelligence. It paves the way for developing AI systems that not only learn but also adapt in an ever-changing world, much like the human brain.
翻訳日:2024-02-02 19:27:35 公開日:2024-02-01
# 深部NLPモデルにおける潜在概念の発見のスケールアップ

Scaling up Discovery of Latent Concepts in Deep NLP Models ( http://arxiv.org/abs/2308.10263v2 )

ライセンス: Link先を確認
Majd Hawasly, Fahim Dalvi and Nadir Durrani(参考訳) 深いNLPモデルによる革命にもかかわらず、彼らはブラックボックスのままであり、意思決定プロセスを理解するために研究を必要としている。 dalvi et al. (2022) による最近の研究では、事前学習されたモデル (plms) 内の潜在空間のクラスタリングのレンズを通して表現解析を行ったが、凝集的階層クラスタリングの実行コストが高いため、このアプローチは小規模に制限されている。 本稿では,plm表現における符号化概念の発見を大規模データセットやモデルに拡大するために,クラスタリングアルゴリズムについて検討する。 本稿では,探索された潜在概念の質を評価する指標を提案し,それを用いてクラスタリングアルゴリズムを比較した。 K平均に基づく概念発見は,得られた概念の質を維持しながら効率を著しく向上させることがわかった。 さらに, 潜在概念発見を LLM や phrasal の概念に拡張することにより, この新手法の有効性を示す。

Despite the revolution caused by deep NLP models, they remain black boxes, necessitating research to understand their decision-making processes. A recent work by Dalvi et al. (2022) carried out representation analysis through the lens of clustering latent spaces within pre-trained models (PLMs), but that approach is limited to small scale due to the high cost of running Agglomerative hierarchical clustering. This paper studies clustering algorithms in order to scale the discovery of encoded concepts in PLM representations to larger datasets and models. We propose metrics for assessing the quality of discovered latent concepts and use them to compare the studied clustering algorithms. We found that K-Means-based concept discovery significantly enhances efficiency while maintaining the quality of the obtained concepts. Furthermore, we demonstrate the practicality of this newfound efficiency by scaling latent concept discovery to LLMs and phrasal concepts.
翻訳日:2024-02-02 19:26:41 公開日:2024-02-01
# マルチモーダル微分方程式解法としての微動言語モデル

Fine-Tune Language Models as Multi-Modal Differential Equation Solvers ( http://arxiv.org/abs/2308.05061v4 )

ライセンス: Link先を確認
Liu Yang, Siting Liu, Stanley J. Osher(参考訳) 科学機械学習の分野では、文脈内演算子学習は基礎モデル構築において顕著な可能性を示しており、このフレームワークでは、重み更新のない推論段階において、演算子を学習し、誘導データを用いて微分方程式を解くよう訓練されている。 しかし、現在のモデルの関数データへの過度な依存は、オペレーターに対する貴重な人間の洞察を見落としている。 そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。 特に,近年の大規模言語モデルの成功から着想を得て,自然言語記述と方程式を用いて表現された操作者に関する人間知識を統合するための"captions"の利用を提案する。 また,言語モデルライクなアーキテクチャをトレーニングするための新しいアプローチや,コンテキスト内演算子学習のための言語モデルを直接微調整する手法も導入する。 我々は単一モーダル学習タスクのベースラインを破り、性能の向上と機能データ要求の低減にマルチモーダル学習の有効性を実証した。 提案手法は,文脈内演算子学習パラダイムの開発を著しく促進するだけでなく,言語モデルに適用するための新たな経路を創りだした。

In the growing domain of scientific machine learning, in-context operator learning has shown notable potential in building foundation models, as in this framework the model is trained to learn operators and solve differential equations using prompted data, during the inference stage without weight updates. However, the current model's overdependence on function data overlooks the invaluable human insight into the operator. To address this, we present a transformation of in-context operator learning into a multi-modal paradigm. In particular, we take inspiration from the recent success of large language models, and propose using "captions" to integrate human knowledge about the operator, expressed through natural language descriptions and equations. Also, we introduce a novel approach to train a language-model-like architecture, or directly fine-tune existing language models, for in-context operator learning. We beat the baseline on single-modal learning tasks, and also demonstrated the effectiveness of multi-modal learning in enhancing performance and reducing function data requirements. The proposed method not only significantly enhanced the development of the in-context operator learning paradigm, but also created a new path for the application of language models.
翻訳日:2024-02-02 19:25:32 公開日:2024-02-01
# 医用経頭蓋超音波の深部学習モデルトレーニングのための生成逆ネットワークを用いた合成スカルCT生成

Synthetic Skull CT Generation with Generative Adversarial Networks to Train Deep Learning Models for Clinical Transcranial Ultrasound ( http://arxiv.org/abs/2308.00206v3 )

ライセンス: Link先を確認
Kasra Naftchi-Ardebili, Karanpartap Singh, Reza Pourabolghasem, Pejman Ghanouni, Gerald R. Popelka, Kim Butts Pauly(参考訳) ディープラーニングは、さまざまなヘルスケアアプリケーションに潜在的な可能性を提供するが、データプライバシ、コスト、およびさまざまな買収センター間の分散ミスマッチが大きな問題となるような、キュレートされた医療画像の広範なデータセットを必要とする。 これらの課題を克服するために, 人工頭蓋骨のCTスライスを大規模にデータセット化し, 経頭蓋骨超音波の訓練モデルを構築するために, SkullGAN (Generative Adversarial Network) を提案する。 本態性振動、パーキンソン病、アルツハイマー病の治療における幅広い応用により、経頭蓋超音波臨床パイプラインは深層学習の統合により大幅に最適化できる。 主な障害は、訓練のために十分な頭蓋骨のCTスライスがないことだ。 健常者38名のCTスライスをトレーニングに使用した。 得られた合成頭蓋骨画像は, 頭蓋密度比, 平均厚さ, 平均強度に基づいて評価した。 t-sne(t-distributed stochastic neighbor embedded)、fid(fr\'echet inception distance)スコア(fr\'echet inception distance)、vtt(visual turing test)の4人のスタッフによる分析を行った。 SkullGANにより生成された画像は、実際の頭蓋骨と同様の定量的な放射線学的特徴を示した。 t-sneは実試料と合成試料の分離に失敗し,fidスコアは49。 専門医はVTTの平均精度を60倍に向上した。 skullganは、人間の頭蓋骨に焦点をあてた超音波のような医療応用のためのニューラルネットワークのトレーニング、アクセス、プライバシー、資本、時間、ドメイン専門知識の必要性の軽減などに必要な、大量の合成頭蓋骨ctセグメントを研究者が生成可能にする。

Deep learning offers potential for various healthcare applications, yet requires extensive datasets of curated medical images where data privacy, cost, and distribution mismatch across various acquisition centers could become major problems. To overcome these challenges, we propose a generative adversarial network (SkullGAN) to create large datasets of synthetic skull CT slices, geared towards training models for transcranial ultrasound. With wide ranging applications in treatment of essential tremor, Parkinson's, and Alzheimer's disease, transcranial ultrasound clinical pipelines can be significantly optimized via integration of deep learning. The main roadblock is the lack of sufficient skull CT slices for the purposes of training, which SkullGAN aims to address. Actual CT slices of 38 healthy subjects were used for training. The generated synthetic skull images were then evaluated based on skull density ratio, mean thickness, and mean intensity. Their fidelity was further analyzed using t-distributed stochastic neighbor embedding (t-SNE), Fr\'echet inception distance (FID) score, and visual Turing test (VTT) taken by four staff clinical radiologists. SkullGAN-generated images demonstrated similar quantitative radiological features to real skulls. t-SNE failed to separate real and synthetic samples from one another, and the FID score was 49. Expert radiologists achieved a 60\% mean accuracy on the VTT. SkullGAN makes it possible for researchers to generate large numbers of synthetic skull CT segments, necessary for training neural networks for medical applications involving the human skull, such as transcranial focused ultrasound, mitigating challenges with access, privacy, capital, time, and the need for domain expertise.
翻訳日:2024-02-02 19:24:55 公開日:2024-02-01
# 対話におけるデプロイメントデータからのインシシトフィードバックの活用

Leveraging Implicit Feedback from Deployment Data in Dialogue ( http://arxiv.org/abs/2307.14117v2 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Stephen Roller, Kyunghyun Cho, He He, Jason Weston(参考訳) 我々は,ユーザとデプロイモデルとの自然な対話から学習することで,追加のアノテーションを使わずに社会的会話エージェントを改善することを研究する。 機械が生成した発話の質を暗黙的に測定するために,収集した対話エピソードにおけるユーザ応答長,感情,将来の人間の発話の反応などの信号を利用する。 我々の実験では、BlenderBot(Xu et al., 2023)から公開されたデプロイメントデータを使用しました。 人的評価は, ベースライン応答よりも新しいモデルの改良を示唆するが, プロキシ信号によっては, 望ましくない特性を持つ世代が増える可能性がある。 例えば、会話長の最適化は、ベースラインよりも議論の的あるいは不フレンドリーな世代につながるが、ポジティブな感情や反応の最適化はこれらの行動を減少させる。

We study improving social conversational agents by learning from natural dialogue between users and a deployed model, without extra annotations. To implicitly measure the quality of a machine-generated utterance, we leverage signals like user response length, sentiment and reaction of the future human utterances in the collected dialogue episodes. Our experiments use the publicly released deployment data from BlenderBot (Xu et al., 2023). Human evaluation indicates improvements in our new models over baseline responses; however, we find that some proxy signals can lead to more generations with undesirable properties as well. For example, optimizing for conversation length can lead to more controversial or unfriendly generations compared to the baseline, whereas optimizing for positive sentiment or reaction can decrease these behaviors.
翻訳日:2024-02-02 19:24:21 公開日:2024-02-01
# 破壊破壊リプシッツの文脈探索

Corruption-Robust Lipschitz Contextual Search ( http://arxiv.org/abs/2307.13903v4 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) リプシッツ関数を劣化したバイナリ信号で学習する問題について研究する。 学習者は、相手が選択した$L$-Lipschitz関数 $f: [0,1]^d \rightarrow [0,L]$を学習しようとする。 合計で$T$のラウンドがある。 各ラウンド$t$において、相手は入力空間内のコンテキストベクトル$x_t$を選択し、学習者は真関数値$f(x_t)$に推測を行い、推測値が高いか低いかを示すバイナリ信号を受け取る。 合計$C$ラウンドでは、信号は破損する可能性があるが、学習者には$C$の値は \emph{unknown} である。 学習者の目標は、小さな累積損失を負うことである。 本研究は,新しいアルゴリズム手法であるemph{agnostic check}と新しい解析手法を紹介する。 対称損失に対して、学習者は、$d = 1$ で、$l\cdot o_d(c\log t + t^{(d-1)/d})$ で、$d > 1$ で、 学習者は、$l\cdot \widetilde{o} (t^{d/(d+1)} + c\cdot t^{1/(d+1)})$ で後悔する。

I study the problem of learning a Lipschitz function with corrupted binary signals. The learner tries to learn a $L$-Lipschitz function $f: [0,1]^d \rightarrow [0, L]$ that the adversary chooses. There is a total of $T$ rounds. In each round $t$, the adversary selects a context vector $x_t$ in the input space, and the learner makes a guess to the true function value $f(x_t)$ and receives a binary signal indicating whether the guess is high or low. In a total of $C$ rounds, the signal may be corrupted, though the value of $C$ is \emph{unknown} to the learner. The learner's goal is to incur a small cumulative loss. This work introduces the new algorithmic technique \emph{agnostic checking} as well as new analysis techniques. I design algorithms which: for the symmetric loss, the learner achieves regret $L\cdot O(C\log T)$ with $d = 1$ and $L\cdot O_d(C\log T + T^{(d-1)/d})$ with $d > 1$; for the pricing loss, the learner achieves regret $L\cdot \widetilde{O} (T^{d/(d+1)} + C\cdot T^{1/(d+1)})$.
翻訳日:2024-02-02 19:24:09 公開日:2024-02-01
# アルミジョ線探索による確率勾配降下の非凸最適化に必要なバッチサイズとステップ数の関係

Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search ( http://arxiv.org/abs/2307.13831v4 )

ライセンス: Link先を確認
Yuki Tsukada, Hideaki Iiduka(参考訳) 確率勾配降下 (SGD) は, 定数や減少率などの様々な学習率を利用することができるが, 前回の数値計算の結果, SGDは線探索法で得られる学習率を使用する場合, 他のディープラーニングオプティマイザよりも優れた性能を示した。 本稿では,ステップ数とバッチサイズが大きい場合に,全勾配の2乗ノルムの期待値の上限値が小さくなることを示す非凸最適化のArmijo線探索による学習率を用いて,SGDの収束解析を行う。 次に、Armijo-line-search 学習率を持つSGDの場合、非凸最適化に必要なステップの数は、バッチサイズの単調減少凸関数であり、非凸最適化に必要なステップの数は、バッチサイズが大きくなるにつれて減少することを示す。 さらに、確率的勾配計算コストである確率的一階オラクル(SFO)の複雑性は、バッチサイズの凸関数であり、すなわち、SFOの複雑性を最小限に抑える重要なバッチサイズが存在することを示す。 最後に、理論的結果を支持する数値結果を提供する。 計算結果から,ディープニューラルネットワークの訓練に必要なステップ数は,バッチサイズの増加に伴って減少し,理論結果から推定可能なクリティカルバッチサイズが存在することが示された。

While stochastic gradient descent (SGD) can use various learning rates, such as constant or diminishing rates, the previous numerical results showed that SGD performs better than other deep learning optimizers using when it uses learning rates given by line search methods. In this paper, we perform a convergence analysis on SGD with a learning rate given by an Armijo line search for nonconvex optimization indicating that the upper bound of the expectation of the squared norm of the full gradient becomes small when the number of steps and the batch size are large. Next, we show that, for SGD with the Armijo-line-search learning rate, the number of steps needed for nonconvex optimization is a monotone decreasing convex function of the batch size; that is, the number of steps needed for nonconvex optimization decreases as the batch size increases. Furthermore, we show that the stochastic first-order oracle (SFO) complexity, which is the stochastic gradient computation cost, is a convex function of the batch size; that is, there exists a critical batch size that minimizes the SFO complexity. Finally, we provide numerical results that support our theoretical results. The numerical results indicate that the number of steps needed for training deep neural networks decreases as the batch size increases and that there exist the critical batch sizes that can be estimated from the theoretical results.
翻訳日:2024-02-02 19:23:35 公開日:2024-02-01
# ニューラル多項式法による解釈可能な弾塑性モデルの発見と記号回帰

Discovering interpretable elastoplasticity models via the neural polynomial method enabled symbolic regressions ( http://arxiv.org/abs/2307.13149v4 )

ライセンス: Link先を確認
Bahador Bahmani, Hyoung Suk Suh and WaiChing Sun(参考訳) 従来のニューラルネットワークの弾塑性モデルは解釈性に欠けると見なされることが多い。 本稿では,人間の専門家が解釈可能な数学モデルを返す2段階機械学習手法を提案する。 特に,教師付き学習から得られる一変量特徴写像の集合を用いて,収率曲面を表現した代理モデルを提案する。 後処理ステップを使用して、単一変数のニューラルネットワークマッピング関数の集合を、記号回帰によって数学的形式に再解釈する。 この分割と分割のアプローチは、いくつかの重要な利点を提供する。 まず、シンボリック回帰アルゴリズムのスケーリング問題を克服できます。 実用の観点からは、異なるプログラミング言語で記述された偏微分方程式解法に対する学習モデルの可搬性を高める。 最後に, モデルの凸性や対称性などの材料特性を, 自動導出や推論によって具体的に把握することを可能にする。 サードパーティによる検証を可能にするオープンソースコードとともに,数値的な例が提供されている。

Conventional neural network elastoplasticity models are often perceived as lacking interpretability. This paper introduces a two-step machine learning approach that returns mathematical models interpretable by human experts. In particular, we introduce a surrogate model where yield surfaces are expressed in terms of a set of single-variable feature mappings obtained from supervised learning. A post-processing step is then used to re-interpret the set of single-variable neural network mapping functions into mathematical form through symbolic regression. This divide-and-conquer approach provides several important advantages. First, it enables us to overcome the scaling issue of symbolic regression algorithms. From a practical perspective, it enhances the portability of learned models for partial differential equation solvers written in different programming languages. Finally, it enables us to have a concrete understanding of the attributes of the materials, such as convexity and symmetries of models, through automated derivations and reasoning. Numerical examples have been provided, along with an open-source code to enable third-party validation.
翻訳日:2024-02-02 19:23:10 公開日:2024-02-01
# LILAC: 適応型パーシングキャッシュを用いたLLMを用いたログパーシング

LILAC: Log Parsing using LLMs with Adaptive Parsing Cache ( http://arxiv.org/abs/2310.01796v2 )

ライセンス: Link先を確認
Zhihan Jiang, Jinyang Liu, Zhuangbin Chen, Yichen Li, Junjie Huang, Yintong Huo, Pinjia He, Jiazhen Gu and Michael R. Lyu(参考訳) ログ解析はログメッセージを構造化フォーマットに変換し、さまざまなログ分析タスクの前提ステップとして機能する。 様々なログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータを用いた学習モデルを用いることで、複雑なログデータのパフォーマンスが損なわれている。 最近の強力な大規模言語モデル(LLM)の出現は、コードとロギングに関する膨大な事前訓練された知識を示し、ログ解析にLLMを適用することを約束している。 しかし、特別なログ解析機能がないため、構文解析の精度が損なわれる。 さらに、固有の一貫性のない回答とかなりのオーバーヘッドは、LLMベースのログ解析の実践的採用を妨げる。 これらの課題に対処するため,適応型パーシングキャッシュを用いた LLM を用いた最初の実用的なログ解析フレームワーク LILAC を提案する。 高精度でロバストなログ解析を容易にするため、LILACは階層的候補サンプリングアルゴリズムを実行し、高品質なデモを選択することで、LLMのコンテキスト内学習(ICL)能力を活用する。 さらに、LILACは、LCMによって生成されたテンプレートを保存および洗練するために、新しいコンポーネントである適応解析キャッシュを組み込んでいる。 これは、以前処理されたログテンプレートの迅速な検索を可能にすることで、LLMの不効率問題を緩和するのに役立つ。 このプロセスでは、LILACは解析された結果の一貫性を確保するために、解析キャッシュ内のテンプレートを適応的に更新する。 公開大規模データセットの広範な評価は、テンプレート精度の平均f1スコアでlilacが最先端の手法を69.5%上回っていることを示している。 加えて、LILACはクエリ時間を数桁のLLMに短縮し、最速のベースラインに匹敵する効率を達成する。

Log parsing transforms log messages into structured formats, serving as the prerequisite step for various log analysis tasks. Although a variety of log parsing approaches have been proposed, their performance on complicated log data remains compromised due to the use of human-crafted rules or learning-based models with limited training data. The recent emergence of powerful large language models (LLMs) demonstrates their vast pre-trained knowledge related to code and logging, making it promising to apply LLMs for log parsing. However, their lack of specialized log parsing capabilities currently hinders their accuracy in parsing. Moreover, the inherent inconsistent answers, as well as the substantial overhead, prevent the practical adoption of LLM-based log parsing. To address these challenges, we propose LILAC, the first practical log parsing framework using LLMs with adaptive parsing cache. To facilitate accurate and robust log parsing, LILAC leverages the in-context learning (ICL) capability of the LLM by performing a hierarchical candidate sampling algorithm and selecting high-quality demonstrations. Furthermore, LILAC incorporates a novel component, an adaptive parsing cache, to store and refine the templates generated by the LLM. It helps mitigate LLM's inefficiency issue by enabling rapid retrieval of previously processed log templates. In this process, LILAC adaptively updates the templates within the parsing cache to ensure the consistency of parsed results. The extensive evaluation on public large-scale datasets shows that LILAC outperforms state-of-the-art methods by 69.5% in terms of the average F1 score of template accuracy. In addition, LILAC reduces the query times to LLMs by several orders of magnitude, achieving a comparable efficiency to the fastest baseline.
翻訳日:2024-02-02 19:16:57 公開日:2024-02-01
# 確率勾配Descenceにおける騒音形状の理論解析

A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent ( http://arxiv.org/abs/2310.00692v3 )

ライセンス: Link先を確認
Mingze Wang, Lei Wu(参考訳) 本稿では,局所景観の形状と騒音が良好に一致するSGD(Minibatch Stochastic gradient descent)のノイズ幾何学に関する理論的研究を行う。 ノイズが損失および部分空間射影力学に与える影響を解析し、アライメント強度を定量化する2つの指標を提案する。 過パラメータ化線形モデルと2層非線形ネットワークの場合、これらの測定値によって測定すると、過パラメータ化の度合いに依存しない条件下でアライメントが確実に保証されることを示す。 ノイズ幾何学的特徴付けの有用性を示すために,SGDがシャープ・ミニマから逃れるメカニズムを精巧に分析した。 我々は,最も鋭い方向から脱出する勾配降下 (gd) とは異なり, sgdは平坦な方向から逃げる傾向にあり, 周期的学習速度はこのsgd特性を利用してより平坦な領域へ移動できることを明らかにした。 最後に,我々の理論的な知見を裏付ける広範な実験を行った。

In this paper, we provide a theoretical study of noise geometry for minibatch stochastic gradient descent (SGD), a phenomenon where noise aligns favorably with the geometry of local landscape. We propose two metrics, derived from analyzing how noise influences the loss and subspace projection dynamics, to quantify the alignment strength. We show that for (over-parameterized) linear models and two-layer nonlinear networks, when measured by these metrics, the alignment can be provably guaranteed under conditions independent of the degree of over-parameterization. To showcase the utility of our noise geometry characterizations, we present a refined analysis of the mechanism by which SGD escapes from sharp minima. We reveal that unlike gradient descent (GD), which escapes along the sharpest directions, SGD tends to escape from flatter directions and cyclical learning rates can exploit this SGD characteristic to navigate more effectively towards flatter regions. Lastly, extensive experiments are provided to support our theoretical findings.
翻訳日:2024-02-02 19:16:28 公開日:2024-02-01
# SELF: 言語フィードバックによる自己進化

SELF: Self-Evolution with Language Feedback ( http://arxiv.org/abs/2310.00533v4 )

ライセンス: Link先を確認
Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Qi Zhu, Fei Mi, Baojun Wang, Weichao Wang, Xingshan Zeng, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル (llm) は様々な領域において顕著な汎用性を示している。 llmをさらに前進させるために,人間の学習プロセスに類似した自己回帰による自己改善を可能にする新しいアプローチである「自己」を提案する。 SELFはメタスキルの学習プロセスで開始され、LSMに自己フィードバックと自己修正の能力を持たせる。 その後、モデルが自己進化の反復過程を行う。 各イテレーションでは、ラベルのない命令データセットを使用して初期レスポンスを生成する。 これらの反応は自己フィードバックと自己抑制によって強化される。 この拡張データを使ってモデルを微調整する。 このモデルは、反復的な自己進化プロセスを通じて、進歩的な改善を行う。 さらに、selfフレームワークにより、推論中にモデルが自己定義を適用できるようになり、応答品質がさらに向上する。 数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。 SELFフレームワークは、LSMの自律的な進化のための有望な方向を示し、それらを受動的情報受信機から開発におけるアクティブな参加者へ移行する。

Large Language Models (LLMs) have demonstrated remarkable versatility across various domains. To further advance LLMs, we propose 'SELF' (Self-Evolution with Language Feedback), a novel approach that enables LLMs to self-improve through self-reflection, akin to human learning processes. SELF initiates with a meta-skill learning process that equips the LLMs with capabilities for self-feedback and self-refinement. Subsequently, the model undergoes an iterative process of self-evolution. In each iteration, it utilizes an unlabeled dataset of instructions to generate initial responses. These responses are enhanced through self-feedback and self-refinement. The model is then fine-tuned using this enhanced data. The model undergoes progressive improvement through this iterative self-evolution process. Moreover, the SELF framework enables the model to apply self-refinement during inference, which further improves response quality. Our experiments in mathematics and general tasks demonstrate that SELF can enhance the capabilities of LLMs without human intervention. The SELF framework indicates a promising direction for the autonomous evolution of LLMs, transitioning them from passive information receivers to active participants in their development.
翻訳日:2024-02-02 19:16:10 公開日:2024-02-01
# hypermask: 継続的学習のための適応型ハイパーネットワークベースのマスク

HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning ( http://arxiv.org/abs/2310.00113v3 )

ライセンス: Link先を確認
Kamil Ksi\k{a}\.zek, Przemys{\l}aw Spurek(参考訳) ニューラルネットワークは、複数のタスクで順次トレーニングされたとき、壊滅的な忘れに苦しむ。 多くのCL(Continuous Learning)戦略がこの問題を克服しようとしている。 最も効果的なのはハイパーネットワークベースのアプローチです。 ハイパーネットワークは、タスクのアイデンティティに基づいて、ターゲットモデルの重みを生成する。 モデルの主な制限は、実際にはハイパーネットワークがその後のタスクに対して全く異なるアーキテクチャを生成できることである。 このような問題を解決するために,ネットワーク全体の性能を保ちながら,当選チケットと命名されたスパースサブネットワークの存在を仮定した抽選券仮説を用いる。 本稿では,すべてのclタスクに対して単一のネットワークを訓練するhypermaskという手法を提案する。 ハイパーネットワークは、連続タスク専用のターゲットサブネットを得るために半バイナリマスクを生成する。 さらに、抽選券仮説により、重み付きサブネットを持つ1つのネットワークを使用できる。 タスクによっては、いくつかの重みの重要性が動的に強化され、他の重みが弱まることもある。 HyperMaskは、いくつかのCLデータセットで競合的な結果を達成し、いくつかのシナリオでは、派生型と未知のタスクIDの両方で、最先端のスコアを超えている。

Artificial neural networks suffer from catastrophic forgetting when they are sequentially trained on multiple tasks. Many continual learning (CL) strategies are trying to overcome this problem. One of the most effective is the hypernetwork-based approach. The hypernetwork generates the weights of a target model based on the task's identity. The model's main limitation is that, in practice, the hypernetwork can produce completely different architectures for subsequent tasks. To solve such a problem, we use the lottery ticket hypothesis, which postulates the existence of sparse subnetworks, named winning tickets, that preserve the performance of a whole network. In the paper, we propose a method called HyperMask, which trains a single network for all CL tasks. The hypernetwork produces semi-binary masks to obtain target subnetworks dedicated to consecutive tasks. Moreover, due to the lottery ticket hypothesis, we can use a single network with weighted subnets. Depending on the task, the importance of some weights may be dynamically enhanced while others may be weakened. HyperMask achieves competitive results in several CL datasets and, in some scenarios, goes beyond the state-of-the-art scores, both with derived and unknown task identities.
翻訳日:2024-02-02 19:15:53 公開日:2024-02-01
# MoCaE: 校正専門家の混在がオブジェクト検出を大幅に改善

MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection ( http://arxiv.org/abs/2309.14976v4 )

ライセンス: Link先を確認
Kemal Oksuz and Selim Kuzucu and Tom Joy and Puneet K. Dokania(参考訳) 個々のコンポーネントよりも優れたMixture of Expertsを得るための、多くの既存の予測者の強みを組み合わせることは、新しいアーキテクチャを開発したり、スクラッチからモデルを訓練したりすることなく、パフォーマンスを改善する効果的な方法である。 しかし、驚くべきことに、Deep Ensemblesと同様の方法で専門の物体検出器を「高度に組み合わせる」ことで、しばしば性能が劣化する可能性がある。 この問題の主な原因は、専門家の予測が彼らの業績に合っていないこと、すなわち誤解(miscalibration)である。 その結果、最も確実な検出器が最終予測を支配し、混合物が専門家の全ての予測を適切に活用することを防ぐ。 そこで本稿では,エキスパートの混合構築において,専門家の個々のパフォーマンスを反映した予測を組み合わせることを提案する。 このアプローチを校正専門家の混合と呼び、様々な検出器を用いて5つの異なる検出タスクを広範囲に実験し、その効果を実証する。 i) 最大$\sim 2.5$ APによるCOCOのオブジェクト検出器およびLVISのインスタンスセグメンテーション法の改善 (ii) COCO test-dev で 65.1$ AP で DOTA で 82.62$$\mathrm{AP_{50}}$; (iii)Open Vocabulary Object Detectionのような最近の検出タスクにおいて、単一モデルを一貫して上回る。

Combining the strengths of many existing predictors to obtain a Mixture of Experts which is superior to its individual components is an effective way to improve the performance without having to develop new architectures or train a model from scratch. However, surprisingly, we find that na\"ively combining expert object detectors in a similar way to Deep Ensembles, can often lead to degraded performance. We identify that the primary cause of this issue is that the predictions of the experts do not match their performance, a term referred to as miscalibration. Consequently, the most confident detector dominates the final predictions, preventing the mixture from leveraging all the predictions from the experts appropriately. To address this, when constructing the Mixture of Experts, we propose to combine their predictions in a manner which reflects the individual performance of the experts; an objective we achieve by first calibrating the predictions before filtering and refining them. We term this approach the Mixture of Calibrated Experts and demonstrate its effectiveness through extensive experiments on 5 different detection tasks using a variety of detectors, showing that it: (i) improves object detectors on COCO and instance segmentation methods on LVIS by up to $\sim 2.5$ AP; (ii) reaches state-of-the-art on COCO test-dev with $65.1$ AP and on DOTA with $82.62$ $\mathrm{AP_{50}}$; (iii) outperforms single models consistently on recent detection tasks such as Open Vocabulary Object Detection.
翻訳日:2024-02-02 19:15:37 公開日:2024-02-01
# 因果推論:次世代AI-Native Wireless Networkの革命的コースをグラフ化する

Causal Reasoning: Charting a Revolutionary Course for Next-Generation AI-Native Wireless Networks ( http://arxiv.org/abs/2309.13223v3 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas, Christina Chaccour, Walid Saad, Merouane Debbah and Choong Seon Hong(参考訳) 次世代無線ネットワーク(例えば6G)が人工知能(AI)ネイティブであるという基本的な前提にもかかわらず、既存の「無線用AI」パラダイムへの定性的または漸進的な拡張は依然として残っている。 実際、AIネイティブな無線ネットワークを作ることは、データ駆動のトレーニング集約型AIの限界のために、重要な技術的課題に直面している。 これらの制限には、aiモデルのブラックボックスの性質、推論と適応の能力を制限する曲線適合性、大量のトレーニングデータへの依存、大規模ニューラルネットワークのエネルギー効率の非効率などが含まれる。 これらの制限に対応するために、この記事では、AIネイティブな無線ネットワークを構築するための新しいフレームワークを導入することで、これらの欠点に対処する包括的で先進的なビジョンを提示します。 因果的発見、因果的表現学習、因果的推論に基づく因果的推論は、説明可能で合理的で持続可能なワイヤレスネットワークを構築するのに役立つ。 このビジョンの実現に向けて、我々はまず、テラヘルツ(THz)システムのための超信頼性ビームフォーミング、ディジタル双生児のためのほぼ正確な物理双対モデリング、トレーニングデータ拡張、セマンティックコミュニケーションなど、因果発見と表現によって対処できるいくつかの無線ネットワーク課題を強調した。 これらの課題に対処する上で,因果的発見が動的適応性,レジリエンス,認知を達成する上でどのように役立つかを紹介する。 さらに,意図管理や動的適応性,人間レベルの認識,推論,時間感受性の重要な要素など,次世代ネットワークの包括的な目標を達成するために因果推論を利用する潜在的なフレームワークについて概説する。

Despite the basic premise that next-generation wireless networks (e.g., 6G) will be artificial intelligence (AI)-native, to date, most existing efforts remain either qualitative or incremental extensions to existing "AI for wireless" paradigms. Indeed, creating AI-native wireless networks faces significant technical challenges due to the limitations of data-driven, training-intensive AI. These limitations include the black-box nature of the AI models, their curve-fitting nature, which can limit their ability to reason and adapt, their reliance on large amounts of training data, and the energy inefficiency of large neural networks. In response to these limitations, this article presents a comprehensive, forward-looking vision that addresses these shortcomings by introducing a novel framework for building AI-native wireless networks; grounded in the emerging field of causal reasoning. Causal reasoning, founded on causal discovery, causal representation learning, and causal inference, can help build explainable, reasoning-aware, and sustainable wireless networks. Towards fulfilling this vision, we first highlight several wireless networking challenges that can be addressed by causal discovery and representation, including ultra-reliable beamforming for terahertz (THz) systems, near-accurate physical twin modeling for digital twins, training data augmentation, and semantic communication. We showcase how incorporating causal discovery can assist in achieving dynamic adaptability, resilience, and cognition in addressing these challenges. Furthermore, we outline potential frameworks that leverage causal inference to achieve the overarching objectives of future-generation networks, including intent management, dynamic adaptability, human-level cognition, reasoning, and the critical element of time sensitivity.
翻訳日:2024-02-02 19:15:03 公開日:2024-02-01
# 大きな言語モデルを使ってユーザー意図の分類を生成、検証、適用する

Using Large Language Models to Generate, Validate, and Apply User Intent Taxonomies ( http://arxiv.org/abs/2309.13063v2 )

ライセンス: Link先を確認
Chirag Shah, Ryen W. White, Reid Andersen, Georg Buscher, Scott Counts, Sarkar Snigdha Sarathi Das, Ali Montazer, Sathish Manivannan, Jennifer Neville, Xiaochuan Ni, Nagu Rangan, Tara Safavi, Siddharth Suri, Mengting Wan, Leijie Wang, Longqi Yang(参考訳) ログデータは、ユーザーがWeb検索サービスとどのようにやりとりするか、何を望んでいるか、そしてどれだけ満足しているかに関する貴重な情報を明らかにすることができる。 しかし、特にAI駆動チャットのような新しい形式のWeb検索では、ログデータにおけるユーザの意図を分析することは容易ではない。 ログデータからユーザの意図を理解するには、多様性とダイナミクスを捉えた有意義なカテゴリをラベル付けする方法が必要です。 既存の手法は手動または機械学習によるラベル付けに依存しており、大規模でダイナミックなデータセットには高価か柔軟性がない。 本稿では,ユーザ意図に対するリッチで関連する概念や記述,例を生成可能な,大規模言語モデル(LLM)を用いた新しいソリューションを提案する。 しかし,LSMを用いてユーザ意図の分類を作成し,ログ解析に適用することは,(1)分類が外部に検証されていないこと,(2)望ましくないフィードバックループが存在すること,の2つの主な理由から問題となる。 そこで本研究では,LLMによる分類の質を検証するため,人間の専門家と評価者による新たな方法論を提案する。 また,ログデータ中のユーザインテント分析にラベルを生成,精製,適用するために,ループ内のllmを使用するエンドツーエンドパイプラインも提示する。 Microsoft Bingの商用検索エンジンからの検索とチャットログから,ユーザ意図に対する新たな洞察を明らかにすることで,その効果を実証する。 提案手法の新規性は、目的駆動型ユーザ意図分類を強力な検証で生成する方法に起因している。 この方法は、意図的な研究から方法論的および実用的なボトルネックを取り除くのに役立つだけでなく、他の種類の分類法を最小の人間の努力でスケーラブルで適応可能な方法で生成、検証、適用するための新しいフレームワークを提供する。

Log data can reveal valuable information about how users interact with Web search services, what they want, and how satisfied they are. However, analyzing user intents in log data is not easy, especially for emerging forms of Web search such as AI-driven chat. To understand user intents from log data, we need a way to label them with meaningful categories that capture their diversity and dynamics. Existing methods rely on manual or machine-learned labeling, which are either expensive or inflexible for large and dynamic datasets. We propose a novel solution using large language models (LLMs), which can generate rich and relevant concepts, descriptions, and examples for user intents. However, using LLMs to generate a user intent taxonomy and apply it for log analysis can be problematic for two main reasons: (1) such a taxonomy is not externally validated; and (2) there may be an undesirable feedback loop. To address this, we propose a new methodology with human experts and assessors to verify the quality of the LLM-generated taxonomy. We also present an end-to-end pipeline that uses an LLM with human-in-the-loop to produce, refine, and apply labels for user intent analysis in log data. We demonstrate its effectiveness by uncovering new insights into user intents from search and chat logs from the Microsoft Bing commercial search engine. The proposed work's novelty stems from the method for generating purpose-driven user intent taxonomies with strong validation. This method not only helps remove methodological and practical bottlenecks from intent-focused research, but also provides a new framework for generating, validating, and applying other kinds of taxonomies in a scalable and adaptable way with minimal human effort.
翻訳日:2024-02-02 19:14:32 公開日:2024-02-01
# StructChart: 視覚チャート理解のための知覚、構造化、推論

StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding ( http://arxiv.org/abs/2309.11268v3 )

ライセンス: Link先を確認
Renqiu Xia, Bo Zhang, Haoyang Peng, Ning Liao, Peng Ye, Botian Shi, Junchi Yan, Yu Qiao(参考訳) チャートは様々な科学分野の文献で一般的であり、読者に簡単にアクセス可能なリッチな情報を伝える。 現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識、あるいはグラフ形式で抽出されたデータに対して推論を実行することに焦点を当てている。 本稿では,ピアワークに特有な質問応答タスクを超えて,異なる下流タスクに広く適用可能な,統合的かつラベル効率の高い共同知覚と推論タスクの学習パラダイムを確立することを目的とする。 具体的には、structchartはまず、チャート情報を人気のある管状形式(特に線形化されたcsv)から提案されている構造化三重項表現(str)に再構成する。 次に、チャート認識タスクの性能を定量的に評価する構造化チャート指向表現尺度(SCRM)を提案する。 学習用データセットを充実させるためには,Large Language Model (LLM)を活用する可能性をさらに検討し,チャートの視覚的スタイルと統計情報の両方の観点からチャートの多様性を高める。 様々なチャート関連タスクに関する広範囲な実験が行われ、チャート理解のフロンティアを推進するために統一されたチャート知覚-合理化パラダイムの有効性と可能性を示している。

Charts are common in literature across different scientific fields, conveying rich information easily accessible to readers. Current chart-related tasks focus on either chart perception which refers to extracting information from the visual charts, or performing reasoning given the extracted data, e.g. in a tabular form. In this paper, we aim to establish a unified and label-efficient learning paradigm for joint perception and reasoning tasks, which can be generally applicable to different downstream tasks, beyond the question-answering task as specifically studied in peer works. Specifically, StructChart first reformulates the chart information from the popular tubular form (specifically linearized CSV) to the proposed Structured Triplet Representations (STR), which is more friendly for reducing the task gap between chart perception and reasoning due to the employed structured information extraction for charts. We then propose a Structuring Chart-oriented Representation Metric (SCRM) to quantitatively evaluate the performance for the chart perception task. To enrich the dataset for training, we further explore the possibility of leveraging the Large Language Model (LLM), enhancing the chart diversity in terms of both chart visual style and its statistical information. Extensive experiments are conducted on various chart-related tasks, demonstrating the effectiveness and promising potential for a unified chart perception-reasoning paradigm to push the frontier of chart understanding.
翻訳日:2024-02-02 19:13:58 公開日:2024-02-01
# 単一相対論的粒子の量子力学的ガウス波束

Quantum mechanical Gaussian wavepackets of single relativistic particles ( http://arxiv.org/abs/2309.09429v2 )

ライセンス: Link先を確認
Yu-Che Huang, Fong-Ming He, and Shih-Yuin Lin(参考訳) ミンコフスキー空間における一様運動あるいは一様電場により加速される相対論的荷電粒子に対するクライン・ゴルドン方程式に対する選択された準(1+1)次元波束解の進化について検討する。 クライン・ゴルドン波束の電荷密度が、単一粒子解釈を持つガウス状態によってどのように近似できるかを考察する。 位置空間におけるガウス近似のためのウェーブパケットの最小初期幅は、初期モーメントにおいてローレンツ因子によって分割された粒子のコンプトン波長であることがわかった。 相対論的長さの収縮は、ウェーブパケットの電荷密度の拡散にも現れる。

We study the evolutions of selected quasi-(1+1) dimensional wavepacket solutions to the Klein-Gordon equation for a relativistic charged particle in uniform motion or accelerated by a uniform electric field in Minkowski space. We explore how good the charge density of a Klein-Gordon wavepacket can be approximated by a Gaussian state with the single-particle interpretation. We find that the minimal initial width of a wavepacket for a good Gaussian approximation in position space is about the Compton wavelength of the particle divided by its Lorentz factor at the initial moment. Relativistic length contraction also manifests in the spreading of the wavepacket's charge density.
翻訳日:2024-02-02 19:13:33 公開日:2024-02-01
# M3Dsynth:AIによる局所的な操作による医療用3D画像のデータセット

M3Dsynth: A dataset of medical 3D images with AI-generated local manipulations ( http://arxiv.org/abs/2309.07973v2 )

ライセンス: Link先を確認
Giada Zingarini and Davide Cozzolino and Riccardo Corvi and Giovanni Poggi and Luisa Verdoliva(参考訳) 画像合成手法の急速な進歩を考えると、操作された視覚コンテンツを検出する能力は、多くのアプリケーション分野でますます重要になっている。 特に懸念されるのは、医療画像の内容を変更する可能性であり、診断結果を変更することである。 その関連性にもかかわらず、この問題は研究コミュニティから限られた注目を集めている。 理由のひとつは、大規模でキュレートされたデータセットが開発やベンチマークのために使われていないことだ。 本稿では,CT(Computed Tomography)肺画像の大規模データセットであるM3Dsynthを提案する。 実際のctスキャンで肺がんの結節を注入または除去し,gan(generative adversarial network)またはdm(distribution model)に基づく3つの異なる方法を用いて8,577個の操作標本を作製した。 実験によると、これらの画像は簡単に自動診断ツールを騙すことができる。 また,いくつかの最先端の法医学的検出器をテストし,提案するデータセット上でトレーニングすると,訓練やテストセットが整っていない場合でも,操作された合成コンテンツを正確に検出し,局所化することができ,優れた一般化能力を示すことを示した。 データセットとコードはhttps://grip-unina.github.io/M3Dsynth/で公開されている。

The ability to detect manipulated visual content is becoming increasingly important in many application fields, given the rapid advances in image synthesis methods. Of particular concern is the possibility of modifying the content of medical images, altering the resulting diagnoses. Despite its relevance, this issue has received limited attention from the research community. One reason is the lack of large and curated datasets to use for development and benchmarking purposes. Here, we investigate this issue and propose M3Dsynth, a large dataset of manipulated Computed Tomography (CT) lung images. We create manipulated images by injecting or removing lung cancer nodules in real CT scans, using three different methods based on Generative Adversarial Networks (GAN) or Diffusion Models (DM), for a total of 8,577 manipulated samples. Experiments show that these images easily fool automated diagnostic tools. We also tested several state-of-the-art forensic detectors and demonstrated that, once trained on the proposed dataset, they are able to accurately detect and localize manipulated synthetic content, even when training and test sets are not aligned, showing good generalization ability. Dataset and code are publicly available at https://grip-unina.github.io/M3Dsynth/.
翻訳日:2024-02-02 19:13:22 公開日:2024-02-01
# OpenIllumination: 実物体の逆レンダリング評価のためのマルチイルミネーションデータセット

OpenIllumination: A Multi-Illumination Dataset for Inverse Rendering Evaluation on Real Objects ( http://arxiv.org/abs/2309.07921v2 )

ライセンス: Link先を確認
Isabella Liu, Linghao Chen, Ziyang Fu, Liwen Wu, Haian Jin, Zhong Li, Chin Ming Ryan Wong, Yi Xu, Ravi Ramamoorthi, Zexiang Xu, Hao Su(参考訳) OpenIlluminationは、64個のオブジェクトの108K以上のイメージを多種多様な素材で格納し、72個のカメラビューと多数の異なるイルミネーションをキャプチャする現実世界のデータセットである。 データセットの各画像に対して、正確なカメラパラメータ、照明グランド真理、前景セグメンテーションマスクを提供する。 このデータセットは, 実物体に対する逆レンダリングおよび材料分解法を定量的に評価できる。 我々は,我々のデータセット上で最先端の逆レンダリング手法をいくつか検討し,その性能を比較した。 データセットとコードはプロジェクトページにある。 https://oppo-us-research.github.io/openillumination。

We introduce OpenIllumination, a real-world dataset containing over 108K images of 64 objects with diverse materials, captured under 72 camera views and a large number of different illuminations. For each image in the dataset, we provide accurate camera parameters, illumination ground truth, and foreground segmentation masks. Our dataset enables the quantitative evaluation of most inverse rendering and material decomposition methods for real objects. We examine several state-of-the-art inverse rendering methods on our dataset and compare their performances. The dataset and code can be found on the project page: https://oppo-us-research.github.io/OpenIllumination.
翻訳日:2024-02-02 19:12:59 公開日:2024-02-01
# ACT: アドバンテージ・コンディショニングによる動的プログラミングによる決定変換器の強化

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning ( http://arxiv.org/abs/2309.05915v2 )

ライセンス: Link先を確認
Chen-Xiao Gao, Chenyang Wu, Mingjun Cao, Rui Kong, Zongzhang Zhang, Yang Yu(参考訳) 動作生成に表現的シーケンスモデリング技術を用いる決定変換器 (DT) は, オフラインポリシー最適化への有望なアプローチとして登場した。 しかし、DTは、望まれる将来のリターンに条件づけられたアクションを生成し、環境確率性への感受性などの弱点を負うことが知られている。 DTの弱点を克服するために、動的プログラミングによるDTの強化を提案する。 この方法は3つのステップからなる。 まず,mdp構造上の動的プログラミングを含む近似値関数を得るために,サンプル値反復を用いる。 第2に,行動の質を推定的な利点で評価する。 我々は,異なるタスクに適した2種類の利点推定器,IAEとGAEを導入する。 第3に,推定したアドバンテージに基づくアクションを生成するために,アドバンテージコンディショルドトランスフォーマ(act)をトレーニングする。 最後に、テスト中にACTは、望ましい優位性で条件付けられたアクションを生成する。 本評価の結果から,actは動的プログラミングのパワーを活用し,環境的確率性にも拘わらず,効果的な軌道ステッチングとロバストなアクション生成を実証し,様々なベンチマークでベースライン法を上回った。 さらに,ACTの様々な設計選択をアブレーション研究を通じて詳細に分析する。 私たちのコードはhttps://github.com/lamda-rl/actで利用可能です。

Decision Transformer (DT), which employs expressive sequence modeling techniques to perform action generation, has emerged as a promising approach to offline policy optimization. However, DT generates actions conditioned on a desired future return, which is known to bear some weaknesses such as the susceptibility to environmental stochasticity. To overcome DT's weaknesses, we propose to empower DT with dynamic programming. Our method comprises three steps. First, we employ in-sample value iteration to obtain approximated value functions, which involves dynamic programming over the MDP structure. Second, we evaluate action quality in context with estimated advantages. We introduce two types of advantage estimators, IAE and GAE, which are suitable for different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to generate actions conditioned on the estimated advantages. Finally, during testing, ACT generates actions conditioned on a desired advantage. Our evaluation results validate that, by leveraging the power of dynamic programming, ACT demonstrates effective trajectory stitching and robust action generation in spite of the environmental stochasticity, outperforming baseline methods across various benchmarks. Additionally, we conduct an in-depth analysis of ACT's various design choices through ablation studies. Our code is available at https://github.com/LAMDA-RL/ACT.
翻訳日:2024-02-02 19:12:50 公開日:2024-02-01
# 個人化学習者モデリングにおける識別可能性と説明可能性:帰納的パラダイム

Towards the Identifiability and Explainability for Personalized Learner Modeling: An Inductive Paradigm ( http://arxiv.org/abs/2309.00300v2 )

ライセンス: Link先を確認
Jiatong Li, Qi Liu, Fei Wang, Jiayu Liu, Zhenya Huang, Fangzhou Yao, Linbo Zhu, Yu Su(参考訳) 認知診断(CD)を用いたパーソナライズドラーナーモデリングは,学習者の特徴を行動データから診断することで学習者の認知状態をモデル化することを目的としている。 既存の認知診断モデル(CDM)は、学習者特性と質問パラメータをトレーニング可能な埋め込みと見なし、学習者のパフォーマンス予測を通じて学習する能力応答パラダイムに従う。 しかし,このパラダイムは,学習者の認知状態の定量化やWeb学習サービスの質に有害な,避けられない非識別性や説明可能性の過剰適合問題につながることに気付く。 これらの問題を解決するために,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく識別可能な認知診断フレームワーク(ID-CDF)を提案する。 具体的には,id-cdfの診断モジュールを考案し,帰納的学習を活用し,最適化におけるランダム性を排除し,識別性を保証するとともに,全体応答データ分布と認知状態とのモノトニック性を取得し,説明可能性の過剰化を防止する。 次に,診断精度を確保するために,ID-CDFのためのフレキシブルな予測モジュールを提案する。 さらに,そのユーザビリティを示すために,ID-CDF,すなわちID-CDMの実装を提案する。 異なる特徴を持つ4つの実世界のデータセットに対する大規模な実験は、ID-CDFが診断精度を損なうことなくこの問題に効果的に対処できることを示した。

Personalized learner modeling using cognitive diagnosis (CD), which aims to model learners' cognitive states by diagnosing learner traits from behavioral data, is a fundamental yet significant task in many web learning services. Existing cognitive diagnosis models (CDMs) follow the proficiency-response paradigm that views learner traits and question parameters as trainable embeddings and learns them through learner performance prediction. However, we notice that this paradigm leads to the inevitable non-identifiability and explainability overfitting problem, which is harmful to the quantification of learners' cognitive states and the quality of web learning services. To address these problems, we propose an identifiable cognitive diagnosis framework (ID-CDF) based on a novel response-proficiency-response paradigm inspired by encoder-decoder models. Specifically, we first devise the diagnostic module of ID-CDF, which leverages inductive learning to eliminate randomness in optimization to guarantee identifiability and captures the monotonicity between overall response data distribution and cognitive states to prevent explainability overfitting. Next, we propose a flexible predictive module for ID-CDF to ensure diagnosis preciseness. We further present an implementation of ID-CDF, i.e., ID-CDM, to illustrate its usability. Extensive experiments on four real-world datasets with different characteristics demonstrate that ID-CDF can effectively address the problems without loss of diagnosis preciseness.
翻訳日:2024-02-02 19:11:45 公開日:2024-02-01
# 1DFormer: 顔のランドマーク追跡のための1Dランドマーク表現を学習するトランスフォーマーアーキテクチャ

1DFormer: a Transformer Architecture Learning 1D Landmark Representations for Facial Landmark Tracking ( http://arxiv.org/abs/2311.00241v2 )

ライセンス: Link先を確認
Shi Yin, Shijie Huan, Shangfei Wang, Jinshui Hu, Tao Guo, Bing Yin, Baocai Yin, Cong Liu(参考訳) 近年,1次元ランドマーク表現に基づくヒートマップ回帰手法が顔ランドマークの同定において顕著な性能を示している。 しかし、従来の手法では、顔のランドマークを追跡するために複数のランドマークを逐次かつ構造的にモデル化するための1Dランドマーク表現の優れた可能性について深い調査を行うことは無視されていた。 この制限に対処するために,顔のランドマーク追跡のための時間的および空間的次元のトークン通信によるランドマークの動的および幾何学的パターンをキャプチャし,情報的な1dランドマーク表現を学習するトランスフォーマを提案する。 For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. 300vwおよびtfデータベースにおける実験結果から、1dformerは、ランドマークシーケンスの1d表現を学習するために、長距離シーケンシャルパターンと固有の顔構造をモデル化し、顔ランドマーク追跡における最先端のパフォーマンスを達成した。

Recently, heatmap regression methods based on 1D landmark representations have shown prominent performance on locating facial landmarks. However, previous methods ignored to make deep explorations on the good potentials of 1D landmark representations for sequential and structural modeling of multiple landmarks to track facial landmarks. To address this limitation, we propose a Transformer architecture, namely 1DFormer, which learns informative 1D landmark representations by capturing the dynamic and the geometric patterns of landmarks via token communications in both temporal and spatial dimensions for facial landmark tracking. For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. Experimental results on the 300VW and the TF databases show that 1DFormer successfully models the long-range sequential patterns as well as the inherent facial structures to learn informative 1D representations of landmark sequences, and achieves state-of-the-art performance on facial landmark tracking.
翻訳日:2024-02-02 19:04:20 公開日:2024-02-01
# 進化的テーブルトップゲームデザイン:リスクゲームにおけるケーススタディ

Evolutionary Tabletop Game Design: A Case Study in the Risk Game ( http://arxiv.org/abs/2310.20008v2 )

ライセンス: Link先を確認
Lana Bertoldo Rossato, Leonardo Boaventura Bombardelli, and Anderson Rocha Tavares(参考訳) 手動でゲームを作成して評価するのは大変な作業です。 手続き的コンテンツ生成はゲームアーチファクトを作成するのに役立つが、通常はゲーム全体ではない。 進化的アルゴリズムと自動プレイテストを組み合わせた進化的ゲームデザインは、単純な機器で新しいボードゲームを作成するために用いられてきたが、元々のアプローチにはサイコロ、カード、地図を備えた複雑なテーブルトップゲームは含まれていない。 本研究は, テーブルトップゲームに対するアプローチの拡張を提案し, プレイヤーがマップテリトリーを征服して勝利しなければならない軍事戦略ゲームである, リスクの変種を生成することにより, プロセスを評価する。 遺伝的アルゴリズムを用いて選択したパラメータを進化させ、ゲームをテストするためのルールベースのエージェントと、生成された新しいバリエーションを評価するための様々な品質基準を用いてこれを達成した。 その結果,より小さなマップでオリジナルゲームの新たなバリエーションが作成され,より短いマッチが得られた。 また、よりバランスの取れたマッチが作られ、通常のドラマが維持される。 また、目的関数が正しく追求される場合が多いが、生成されたゲームはほとんど自明であった。 この研究は、古典的なボードゲームを超えた進化的ゲームデザインの使用に関する有望な研究への道を開いた。

Creating and evaluating games manually is an arduous and laborious task. Procedural content generation can aid by creating game artifacts, but usually not an entire game. Evolutionary game design, which combines evolutionary algorithms with automated playtesting, has been used to create novel board games with simple equipment; however, the original approach does not include complex tabletop games with dice, cards, and maps. This work proposes an extension of the approach for tabletop games, evaluating the process by generating variants of Risk, a military strategy game where players must conquer map territories to win. We achieved this using a genetic algorithm to evolve the chosen parameters, as well as a rules-based agent to test the games and a variety of quality criteria to evaluate the new variations generated. Our results show the creation of new variations of the original game with smaller maps, resulting in shorter matches. Also, the variants produce more balanced matches, maintaining the usual drama. We also identified limitations in the process, where, in many cases, where the objective function was correctly pursued, but the generated games were nearly trivial. This work paves the way towards promising research regarding the use of evolutionary game design beyond classic board games.
翻訳日:2024-02-02 19:03:22 公開日:2024-02-01
# 暗黙多様体ガウス過程回帰

Implicit Manifold Gaussian Process Regression ( http://arxiv.org/abs/2310.19390v2 )

ライセンス: Link先を確認
Bernardo Fichera, Viacheslav Borovitskiy, Andreas Krause, Aude Billard(参考訳) ガウス過程の回帰は、よく校正された不確実性推定を提供し、小さなデータセットやスパースデータセットを扱う能力によって広く利用されている。 しかし、それは高次元データに苦しむ。 このテクニックを高次元にスケールする方法の1つは、データが実際に存在する暗黙の低次元多様体を、多様体仮説によって仮定されるように活用することである。 以前の作業では、通常、多様体構造は明示的に与えられること、すなわちメッシュによって与えられるか、球面のようなよく知られた多様体の1つであることが知られていることを要求する。 対照的に,本論文では,データ(ラベル付き,ラベルなし)から直接暗黙の構造を完全に微分可能な方法で推定できるガウス過程回帰手法を提案する。 得られたモデルについて、仮定多様体上の mat\'ern gauss 過程への収束について論じる。 提案手法は,数十万個のデータポイントをスケールアップし,高次元環境下での標準ガウス過程回帰の予測性能とキャリブレーションを向上させる。

Gaussian process regression is widely used because of its ability to provide well-calibrated uncertainty estimates and handle small or sparse datasets. However, it struggles with high-dimensional data. One possible way to scale this technique to higher dimensions is to leverage the implicit low-dimensional manifold upon which the data actually lies, as postulated by the manifold hypothesis. Prior work ordinarily requires the manifold structure to be explicitly provided though, i.e. given by a mesh or be known to be one of the well-known manifolds like the sphere. In contrast, in this paper we propose a Gaussian process regression technique capable of inferring implicit structure directly from data (labeled and unlabeled) in a fully differentiable way. For the resulting model, we discuss its convergence to the Mat\'ern Gaussian process on the assumed manifold. Our technique scales up to hundreds of thousands of data points, and may improve the predictive performance and calibration of the standard Gaussian process regression in high-dimensional settings.
翻訳日:2024-02-02 19:03:00 公開日:2024-02-01
# キャビティマグノメカニクス:古典から量子へ

Cavity magnomechanics: from classical to quantum ( http://arxiv.org/abs/2310.19237v2 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Ming-Song Ding, Huatang Tan, Hao Xiong, Jie Li(参考訳) 磁気材料中のマグノンに基づくハイブリッド量子システムは、過去10年間で大きな進歩を遂げた。 これらは、マイクロ波光子、光子、振動フォノン、超伝導量子ビットとマグノンの結合に基づいている。 特に、マグノン、マイクロ波キャビティ光子、振動フォノン間の相互作用は、キャビティ量子力学(cmm)の系を形成し、キャビティ量子力学、マグノニクス、量子光学、量子情報の学際的な分野にある。 本稿では,この新興分野の実験的・理論的進展について概観する。 まず, マグノメカニカルカップリングの基礎理論を紹介するとともに, マグノメカニカルな透過性, マグノメカニカルな動的バックアクション, マグノン-フォノンのクロスカー非線形性など, 実験的に観測された古典現象について述べる。 また、マグノン、フォノン、光子の異なる種類の量子状態を作成するためのCMMシステムの可能性を示す理論的な提案や、それに基づくマグノメカニクス、光力学、関連する量子プロトコルを組み合わせたハイブリッドシステムについても論じる。 最後に、このレビューを要約し、この分野での今後の研究の方向性を概観する。

Hybrid quantum systems based on magnons in magnetic materials have made significant progress in the past decade. They are built based on the couplings of magnons with microwave photons, optical photons, vibration phonons, and superconducting qubits. In particular, the interactions among magnons, microwave cavity photons, and vibration phonons form the system of cavity magnomechanics (CMM), which lies in the interdisciplinary field of cavity QED, magnonics, quantum optics, and quantum information. Here, we review the experimental and theoretical progress of this emerging field. We first introduce the underlying theories of the magnomechanical coupling, and then some representative classical phenomena that have been experimentally observed, including magnomechanically induced transparency, magnomechanical dynamical backaction, magnon-phonon cross-Kerr nonlinearity, etc. We also discuss a number of theoretical proposals, which show the potential of the CMM system for preparing different kinds of quantum states of magnons, phonons, and photons, and hybrid systems combining magnomechanics and optomechanics and relevant quantum protocols based on them. Finally, we summarize this review and provide an outlook for the future research directions in this field.
翻訳日:2024-02-02 19:02:43 公開日:2024-02-01
# 重み切りによるDP-SGD

DP-SGD with weight clipping ( http://arxiv.org/abs/2310.18001v2 )

ライセンス: Link先を確認
Antoine Barczewski and Jan Ramon(参考訳) 近年、深層ニューラルネットワークやトレーニングが目的関数の最適化に依存している他の手法が普及し、データプライバシに関する懸念から、微分プライベート勾配降下法に多くの関心が寄せられている。 最小ノイズ量で差分プライバシー保証を実現するためには,参加者が観察する情報の感度を正確に限定することが重要である。 本研究では,従来の勾配クリッピングから生じるバイアスを緩和する新しい手法を提案する。 現在のモデルのリプシッツ値とその検索領域内の現在の位置のパブリック上限を利用することで、洗練されたノイズレベル調整を実現することができる。 我々は,差分プライバシーの保証と体系的実証的評価を改良した新しいアルゴリズムを提案する。

Recently, due to the popularity of deep neural networks and other methods whose training typically relies on the optimization of an objective function, and due to concerns for data privacy, there is a lot of interest in differentially private gradient descent methods. To achieve differential privacy guarantees with a minimum amount of noise, it is important to be able to bound precisely the sensitivity of the information which the participants will observe. In this study, we present a novel approach that mitigates the bias arising from traditional gradient clipping. By leveraging a public upper bound of the Lipschitz value of the current model and its current location within the search domain, we can achieve refined noise level adjustments. We present a new algorithm with improved differential privacy guarantees and a systematic empirical evaluation, showing that our new approach outperforms existing approaches also in practice.
翻訳日:2024-02-02 19:02:18 公開日:2024-02-01
# A/Bテストにおけるデータトレーニングループによる干渉の軽減:重み付きトレーニングアプローチ

Tackling Interference Induced by Data Training Loops in A/B Tests: A Weighted Training Approach ( http://arxiv.org/abs/2310.17496v3 )

ライセンス: Link先を確認
Nian Si(参考訳) 現代のレコメンデーションシステムでは、標準的なパイプラインは、履歴データの機械学習モデルをトレーニングし、ユーザの振る舞いを予測し、リコメンデーションを継続的に改善する。 しかし、これらのデータトレーニングループは、制御と処理アルゴリズムによって生成されたデータが異なる分布で結合されるa/bテストに干渉をもたらす可能性がある。 これらの課題に対処するために,重み付きトレーニングという新しいアプローチを導入する。 このアプローチでは、処理データまたは制御データのいずれかに現れる各データポイントの確率を予測するモデルをトレーニングし、モデルトレーニング中に重み付き損失を適用する。 本手法は, トレーニング分布の変化を生じさせることなく, 全推定器間の最小分散を達成できることを実証する。 シミュレーション研究を通じて,提案手法のバイアスとばらつきを他の手法と比較した。

In modern recommendation systems, the standard pipeline involves training machine learning models on historical data to predict user behaviors and improve recommendations continuously. However, these data training loops can introduce interference in A/B tests, where data generated by control and treatment algorithms, potentially with different distributions, are combined. To address these challenges, we introduce a novel approach called weighted training. This approach entails training a model to predict the probability of each data point appearing in either the treatment or control data and subsequently applying weighted losses during model training. We demonstrate that this approach achieves the least variance among all estimators without causing shifts in the training distributions. Through simulation studies, we demonstrate the lower bias and variance of our approach compared to other methods.
翻訳日:2024-02-02 19:02:05 公開日:2024-02-01
# サブネットによるインダクティブビアーゼの注入

Instilling Inductive Biases with Subnetworks ( http://arxiv.org/abs/2310.10899v2 )

ライセンス: Link先を確認
Enyan Zhang, Michael A. Lepori, Ellie Pavlick(参考訳) 最近はさまざまなタスクでニューラルネットワークが成功していますが、モデルが実装する正確なソリューションに関する知識やコントロールはほとんどありません。 インダクティブバイアス -- 他のソリューションよりもいくつかのソリューションを好む -- をこれらのモデルに注入することは、彼らの行動を理解し、制御するための有望な道の1つだ。 モデル固有の帰納バイアスを研究し、手作業で設計したアーキテクチャや慎重にキュレートされたトレーニングレギュラーを通じて異なる帰納バイアスを注入するために多くの研究がなされている。 本研究では,より機械的なアプローチであるサブタスク誘導について検討する。 本手法は、訓練モデル内で特定のサブタスクを実装する機能サブネットワークを発見し、そのサブタスクを利用したソリューションに対する帰納的バイアスを注入する。 サブタスク誘導は柔軟かつ効率的であり、2つの実験でその効果を示す。 まず,Subtaskインダクションは,モジュール型算術課題に対して,特定の一般化可能な解を採用するために必要なトレーニングデータの量を大幅に削減することを示す。 次に,畳み込み型およびトランスフォーマー型画像分類モデルのデータ効率を高めつつ,サブタスク誘導が人間の形状バイアスをうまく誘導することを示す。

Despite the recent success of artificial neural networks on a variety of tasks, we have little knowledge or control over the exact solutions these models implement. Instilling inductive biases -- preferences for some solutions over others -- into these models is one promising path toward understanding and controlling their behavior. Much work has been done to study the inherent inductive biases of models and instill different inductive biases through hand-designed architectures or carefully curated training regimens. In this work, we explore a more mechanistic approach: Subtask Induction. Our method discovers a functional subnetwork that implements a particular subtask within a trained model and uses it to instill inductive biases towards solutions utilizing that subtask. Subtask Induction is flexible and efficient, and we demonstrate its effectiveness with two experiments. First, we show that Subtask Induction significantly reduces the amount of training data required for a model to adopt a specific, generalizable solution to a modular arithmetic task. Second, we demonstrate that Subtask Induction successfully induces a human-like shape bias while increasing data efficiency for convolutional and transformer-based image classification models.
翻訳日:2024-02-02 19:01:29 公開日:2024-02-01
# AMAGO: 適応エージェントのためのスケーラブルなインコンテキスト強化学習

AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents ( http://arxiv.org/abs/2310.09971v4 )

ライセンス: Link先を確認
Jake Grigsby, Linxi Fan, Yuke Zhu(参考訳) 汎用化,長期記憶,メタラーニングといった課題に取り組むために,シーケンスモデルを用いたインコンテキスト強化学習(rl)エージェントであるamagoを紹介する。 近年の研究では、非政治的な学習によって、反復的なポリシーでコンテキスト内RLが実現可能であることが示されている。 それでもこれらのアプローチは、エージェントのメモリ容量、計画的地平線、モデルサイズに重要なボトルネックを生じさせることによって、広範なチューニングとスケーラビリティの制限を必要とする。 AMAGOは、エンド・ツー・エンドのRLと並行して、ロングシーケンス・トランスフォーマーをロールアウト全体にわたってトレーニングする、オフ・ポリシー・イン・コンテクストのアプローチを再検討し、再設計する。 エージェントは拡張性があり、幅広い問題に適用可能であり、メタrlおよび長期記憶領域において経験則的に強力な性能を示す。 AMAGOはスパース報酬や政治外のデータに重点を置いているため、コンテキスト内学習は探索に挑戦しながらゴール条件付き問題にまで拡張することができる。 AMAGOは、マルチゴールのヒンドsight relabelingスキームと組み合わせることで、エージェントが手続き的に生成された環境で多くの可能な命令を完了するような、これまで難しかったオープンワールドドメインのカテゴリを解くことができる。

We introduce AMAGO, an in-context Reinforcement Learning (RL) agent that uses sequence models to tackle the challenges of generalization, long-term memory, and meta-learning. Recent works have shown that off-policy learning can make in-context RL with recurrent policies viable. Nonetheless, these approaches require extensive tuning and limit scalability by creating key bottlenecks in agents' memory capacity, planning horizon, and model size. AMAGO revisits and redesigns the off-policy in-context approach to successfully train long-sequence Transformers over entire rollouts in parallel with end-to-end RL. Our agent is scalable and applicable to a wide range of problems, and we demonstrate its strong performance empirically in meta-RL and long-term memory domains. AMAGO's focus on sparse rewards and off-policy data also allows in-context learning to extend to goal-conditioned problems with challenging exploration. When combined with a multi-goal hindsight relabeling scheme, AMAGO can solve a previously difficult category of open-world domains, where agents complete many possible instructions in procedurally generated environments.
翻訳日:2024-02-02 19:00:56 公開日:2024-02-01
# denoising diffusion probabilistic modelによる生成量子機械学習

Generative quantum machine learning via denoising diffusion probabilistic models ( http://arxiv.org/abs/2310.05866v3 )

ライセンス: Link先を確認
Bingzhi Zhang, Peng Xu, Xiaohui Chen and Quntao Zhuang(参考訳) 深層生成モデルはコンピュータビジョン、テキスト生成、および大規模言語モデルにとって重要な技術である。 denoising diffusion probabilistic models (ddpms) は、多くのコンピュータビジョンタスクで多様で高品質なサンプルを生成する能力と、柔軟なモデルアーキテクチャと比較的単純なトレーニングスキームを組み込むことによって、最近注目を集めている。 量子生成モデルは、絡み合いと重ね合わせによって強化され、古典的および量子データの学習に新たな洞察をもたらした。 古典的手法に着想を得て,量子データの効率的な学習を可能にするために,拡散確率モデルQuDDPM(emph{quantum denoising diffusion probabilistic model)を提案する。 quddpmは、表現性を保証するのに十分な回路層を採用する一方で、ターゲット分布とノイズの補間として複数の中間トレーニングタスクを導入し、不毛高原を避け、効率的なトレーニングを保証する。 学習誤差の境界を提供し,量子ノイズモデル,量子多体位相,量子データのトポロジカル構造を学習する上でのquddpmの能力を示す。 この結果は、汎用的で効率的な量子生成学習のパラダイムを提供する。

Deep generative models are key-enabling technology to computer vision, text generation and large language models. Denoising diffusion probabilistic models (DDPMs) have recently gained much attention due to their ability to generate diverse and high-quality samples in many computer vision tasks, as well as to incorporate flexible model architectures and relatively simple training scheme. Quantum generative models, empowered by entanglement and superposition, have brought new insight to learning classical and quantum data. Inspired by the classical counterpart, we propose the \emph{quantum denoising diffusion probabilistic model} (QuDDPM) to enable efficiently trainable generative learning of quantum data. QuDDPM adopts sufficient layers of circuits to guarantee expressivity, while introduces multiple intermediate training tasks as interpolation between the target distribution and noise to avoid barren plateau and guarantee efficient training. We provide bounds on the learning error and demonstrate QuDDPM's capability in learning correlated quantum noise model, quantum many-body phases and topological structure of quantum data. The results provide a paradigm for versatile and efficient quantum generative learning.
翻訳日:2024-02-02 18:59:36 公開日:2024-02-01
# se(3)不変空間における拡散促進型分子配座生成について

On Accelerating Diffusion-based Molecular Conformation Generation in SE(3)-invariant Space ( http://arxiv.org/abs/2310.04915v2 )

ライセンス: Link先を確認
Zihan Zhou, Ruiying Liu and Tianshu Yu(参考訳) SE(3)不変空間における拡散に基づく生成モデルは、分子配座生成において有望な性能を示すが、通常は数千の更新ステップで確率微分方程式(SDE)を解く必要がある。 いまだに、この手順をSE(3)不変空間においていかに効果的に加速するかは定かではない。 本稿では,SE(3)不変空間における拡散機構を,既存手法による近似誤差のレンズを用いて系統的に研究する。 これにより、射影微分方程式の文脈において、より精密なse(3)近似を開発することができる。 理論解析はまた、超パラメータとそのような誤りに関する経験的証明も提供される。 また,SE(3)不変空間における分子配座生成のための新しい加速法を提案する。 実験により,既存の手法と比較して50x-100xの高速化で高品質なコンフォメーションを生成することができる。

Diffusion-based generative models in SE(3)-invariant space have demonstrated promising performance in molecular conformation generation, but typically require solving stochastic differential equations (SDEs) with thousands of update steps. Till now, it remains unclear how to effectively accelerate this procedure explicitly in SE(3)-invariant space, which greatly hinders its wide application in the real world. In this paper, we systematically study the diffusion mechanism in SE(3)-invariant space via the lens of approximate errors induced by existing methods. Thereby, we develop more precise approximate in SE(3) in the context of projected differential equations. Theoretical analysis is further provided as well as empirical proof relating hyper-parameters with such errors. Altogether, we propose a novel acceleration scheme for generating molecular conformations in SE(3)-invariant space. Experimentally, our scheme can generate high-quality conformations with 50x--100x speedup compared to existing methods.
翻訳日:2024-02-02 18:59:15 公開日:2024-02-01
# LLMは最貧の学校で有効か? シエラレオネのtheteacher.ai

Are LLMs Useful in the Poorest Schools? TheTeacher.AI in Sierra Leone ( http://arxiv.org/abs/2310.02982v2 )

ライセンス: Link先を確認
Jun Ho Choi, Oliver Garrod, Paul Atherton, Andrew Joyce-Gibbons, Miriam Mason-Sesay, Daniel Bj\"orkegren(参考訳) 発展途上国の教育システムは、大きく貧しい人口に奉仕する資源がほとんどない。 生成AIはどのように教室に統合されるのか? 本稿では,シエラレオネの教師が専門的な開発を行い,指導を改善するためのAIチャットボットを提案する。 122の学校と193の教師を対象に,初期実施から得られた知見を質的観察と質問分析により分析した。 教師はこのシステムを授業計画、教室の管理、主題に使っている。 学年を通じて使用が継続され、一部の教師はより定期的にこのシステムを使用している。 低所得国の学校システムに生成AIシステムを組み込む方法について,これらの知見から結論を導いた。

Education systems in developing countries have few resources to serve large, poor populations. How might generative AI integrate into classrooms? This paper introduces an AI chatbot designed to assist teachers in Sierra Leone with professional development to improve their instruction. We describe initial findings from early implementation across 122 schools and 193 teachers, and analyze its use with qualitative observations and by analyzing queries. Teachers use the system for lesson planning, classroom management, and subject matter. Usage is sustained over the school year, and a subset of teachers use the system more regularly. We draw conclusions from these findings about how generative AI systems can be integrated into school systems in low income countries.
翻訳日:2024-02-02 18:59:03 公開日:2024-02-01
# ゼロショット自然言語ビデオローカライズのためのコモンセンス

Commonsense for Zero-Shot Natural Language Video Localization ( http://arxiv.org/abs/2312.17429v2 )

ライセンス: Link先を確認
Meghana Holla, Ismini Lourentzou(参考訳) Zero-shot Natural Language-Video Localization (NLVL)法は,ビデオセグメントと擬似クエリアノテーションを動的に生成することにより,生のビデオデータのみを用いたNLVLモデルのトレーニングにおいて有望な結果を示した。 しかし、既存の擬似クエリーはソースビデオの基盤を欠くことが多く、構造化されていないコンテンツと解離したコンテンツをもたらす。 本稿では,ゼロショットNLVLにおけるコモンセンス推論の有効性について検討する。 具体的には、コモンセンスを利用したゼロショットNLVLフレームワークであるCORONETを紹介し、コモンセンス拡張モジュールを介してビデオと生成された擬似クエリ間のギャップを埋める。 CORONETは、知識グラフから抽出されたコモンセンス情報を符号化するグラフ畳み込みネットワーク(GCN)と、ローカライゼーションの前にエンコードされたビデオと擬似クエリ表現を強化するクロスアテンション機構を利用する。 2つのベンチマークデータセットに対する実証的な評価を通じて、CORONETがゼロショットと弱教師付きベースラインを越え、様々なリコールしきい値で最大32.13%、mIoUで最大6.33%の改善を達成したことを示す。 これらの結果は, ゼロショットNLVLにおけるコモンセンス推論の活用の重要性を裏付けるものである。

Zero-shot Natural Language-Video Localization (NLVL) methods have exhibited promising results in training NLVL models exclusively with raw video data by dynamically generating video segments and pseudo-query annotations. However, existing pseudo-queries often lack grounding in the source video, resulting in unstructured and disjointed content. In this paper, we investigate the effectiveness of commonsense reasoning in zero-shot NLVL. Specifically, we present CORONET, a zero-shot NLVL framework that leverages commonsense to bridge the gap between videos and generated pseudo-queries via a commonsense enhancement module. CORONET employs Graph Convolution Networks (GCN) to encode commonsense information extracted from a knowledge graph, conditioned on the video, and cross-attention mechanisms to enhance the encoded video and pseudo-query representations prior to localization. Through empirical evaluations on two benchmark datasets, we demonstrate that CORONET surpasses both zero-shot and weakly supervised baselines, achieving improvements up to 32.13% across various recall thresholds and up to 6.33% in mIoU. These results underscore the significance of leveraging commonsense reasoning for zero-shot NLVL.
翻訳日:2024-02-02 18:53:32 公開日:2024-02-01
# EE-LLM:3次元並列処理を用いた大規模言語モデルの大規模学習と推定

EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism ( http://arxiv.org/abs/2312.04916v2 )

ライセンス: Link先を確認
Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 本稿では,大規模学習のためのフレームワークであるEE-LLMについて述べる。 近年の研究では,LEM推論の早期終了の有効性を示す予備的な証拠が示されているが,EE-LLMは,大規模な3次元並列性によるトレーニングと推論を支援することにより,早期終了LSMのスケールアップに向けた基礎的な一歩である。 Megatron-LMをベースとして、EE-LLMは早期終了に適したアルゴリズムの革新とパフォーマンスの最適化を実装しており、パイプライン並列化による早期終了トレーニング目標のバックプロパゲーションを容易にする軽量な方法、初期の外部レイヤに関連する計算にアイドルリソースを活用する技術、自動回帰生成のためのKVキャッシュと互換性のある早期終了推論の2つのアプローチを含んでいる。 解析的および実証的研究により,EE-LLM は通常の LLM トレーニングに比べ,計算オーバーヘッドの無視によるトレーニング効率の向上と,出力品質を損なうことなく優れた推論高速化を実現していることが示された。 さらなる研究と採用を容易にするため、EE-LLMはhttps://github.com/pan-x-c/EE-LLM.comでリリースします。

We present EE-LLM, a framework for large-scale training and inference of early-exit large language models (LLMs). While recent works have shown preliminary evidence for the efficacy of early exiting in accelerating LLM inference, EE-LLM makes a foundational step towards scaling up early-exit LLMs by supporting their training and inference with massive 3D parallelism. Built upon Megatron-LM, EE-LLM implements a variety of algorithmic innovations and performance optimizations tailored to early exiting, including a lightweight method that facilitates backpropagation for the early-exit training objective with pipeline parallelism, techniques of leveraging idle resources in the original pipeline schedule for computation related to early-exit layers, and two approaches of early-exit inference that are compatible with KV caching for autoregressive generation. Our analytical and empirical study shows that EE-LLM achieves great training efficiency with negligible computational overhead compared to standard LLM training, as well as outstanding inference speedup without compromising output quality. To facilitate further research and adoption, we release EE-LLM at https://github.com/pan-x-c/EE-LLM.
翻訳日:2024-02-02 18:53:09 公開日:2024-02-01
# rlhf と iia: 逆インセンティブ

RLHF and IIA: Perverse Incentives ( http://arxiv.org/abs/2312.01057v3 )

ライセンス: Link先を確認
Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen, Benjamin Van Roy(参考訳) 人間からのフィードバック(RLHF)からの強化学習のための既存のアルゴリズムは、無関係な選択肢(IIA)の独立を前提としたモデルであるため、好ましくない反応をインセンティブにすることができる。 IIAによる逆インセンティブは、クエリフォーマットや学習アルゴリズムの革新を妨げる。

Existing algorithms for reinforcement learning from human feedback (RLHF) can incentivize responses at odds with preferences because they are based on models that assume independence of irrelevant alternatives (IIA). The perverse incentives induced by IIA hinder innovations on query formats and learning algorithms.
翻訳日:2024-02-02 18:52:11 公開日:2024-02-01
# 非マルコフ量子系のマルコフ埋め込み:非マルコフ量子系に対する結合確率および量子マスター方程式

Markovian Embeddings of Non-Markovian Quantum Systems: Coupled Stochastic and Quantum Master Equations for Non-Markovian Quantum Systems ( http://arxiv.org/abs/2312.00134v2 )

ライセンス: Link先を確認
Hendra I. Nurdin(参考訳) 量子マルコフモデルは、量子物理学や量子情報理論において、相対的な単純さと解析的トラクタビリティのためにユビキタスに使われている。 特に、これらのモデルは幅広い量子光学系とメソスコピック系の正確な近似を与えることが知られている。 しかし、一般に、マルコフ近似の妥当性は、任意の物理系では満足できない、あるいは正確でない、興味のあるシステムとその環境の性質に関する仮定を伴っている。 したがって、マルコフ近似が不適切あるいは不足している一般の非マルコフ量子系のための有用なモデリングツールの開発は重要な課題である。 この研究は、補助量子系と量子ホワイトノイズ場からなる1つ以上の化合物浴を持つより大きなマルコフ量子系に埋め込まれる非マルコフ主量子系を考察し、埋め込み非マルコフ量子系に対する確率的および量子マスター方程式の集合を導出する。 ホワイトノイズに結合しない閉系としての主系と補助系の間の純粋にハミルトン結合の場合も特別の場合に含まれる。 その結果、連続時間非マルコフ系の(オープンループとフィードバック)制御と、そのようなシステムの数値シミュレーションのための縮小モデルの研究が期待できる。 また、連続時間非マルコフ量子系の一般構造にさらに光を当てることもできる。

Quantum Markov models are employed ubiquitously in quantum physics and in quantum information theory due to their relative simplicity and analytical tractability. In particular, these models are known to give accurate approximations for a wide range of quantum optical and mesoscopic systems. However, in general, the validity of the Markov approximation entails assumptions regarding properties of the system of interest and its environment, which may not be satisfied or accurate in arbitrary physical systems. Therefore, developing useful modelling tools for general non-Markovian quantum systems for which the Markov approximation is inappropriate or deficient is an undertaking of significant importance. This work considers non-Markovian principal quantum systems that can be embedded in a larger Markovian quantum system with one or more compound baths consisting of an auxiliary quantum system and a quantum white noise field, and derives a set of coupled stochastic and quantum master equations for embedded non-Markovian quantum systems. The case of a purely Hamiltonian coupling between the principal and auxiliary systems as a closed system without coupling to white noises is included as a special case. The results are expected to be of interest for (open-loop and feedback) control of continuous-time non-Markovian systems and studying reduced models for numerical simulation of such systems. They may also shed more light on the general structure of continuous-time non-Markovian quantum systems.
翻訳日:2024-02-02 18:52:04 公開日:2024-02-01
# 最適因果推論のためのWasserstein流れの幾何学的正規化

Geometry-Aware Normalizing Wasserstein Flows for Optimal Causal Inference ( http://arxiv.org/abs/2311.18826v4 )

ライセンス: Link先を確認
Kaiwen Hou(参考訳) 本稿では,連続正規化フロー(cnfs)とパラメトリックサブモデルを統合し,その幾何学的感度を高め,従来の目標最大推定法(tmle)による因果推論法を提案する。 本手法では,CNFを用いてTMLEを改良し,Cram\'er-Rao境界を最適化し,事前定義された分布$p_0$からデータ駆動分布$p_1$に遷移する。 さらに、Fokker-Planck方程式内にワッサーシュタイン勾配流を埋め込み、特に最適輸送理論においてCNFのロバスト性を高める幾何学的構造を与える。 提案手法は,パラメータ推定バイアスの重要な要因である標本分布と集団分布の相違に対処する。 最適移動流とワッサースタイン勾配流を利用して,有限サンプル設定における最小分散の因果推論手法を開発し,tmle や aipw のような従来の手法を上回っている。 この新しい枠組みは、ワッサースタイン勾配流を中心に、分散$p_t$ 下での効率的な影響関数の分散を最小化する。 予備実験では, 標準流に比べて平均二乗誤差が低く, 統計的モデリングと推論の進歩において, 幾何学的アウェアなwaserstein流の正規化の可能性を示すことができた。

This paper presents a groundbreaking approach to causal inference by integrating continuous normalizing flows (CNFs) with parametric submodels, enhancing their geometric sensitivity and improving upon traditional Targeted Maximum Likelihood Estimation (TMLE). Our method employs CNFs to refine TMLE, optimizing the Cram\'er-Rao bound and transitioning from a predefined distribution $p_0$ to a data-driven distribution $p_1$. We innovate further by embedding Wasserstein gradient flows within Fokker-Planck equations, thus imposing geometric structures that boost the robustness of CNFs, particularly in optimal transport theory. Our approach addresses the disparity between sample and population distributions, a critical factor in parameter estimation bias. We leverage optimal transport and Wasserstein gradient flows to develop causal inference methodologies with minimal variance in finite-sample settings, outperforming traditional methods like TMLE and AIPW. This novel framework, centered on Wasserstein gradient flows, minimizes variance in efficient influence functions under distribution $p_t$. Preliminary experiments showcase our method's superiority, yielding lower mean-squared errors compared to standard flows, thereby demonstrating the potential of geometry-aware normalizing Wasserstein flows in advancing statistical modeling and inference.
翻訳日:2024-02-02 18:51:42 公開日:2024-02-01
# ERASER: 推論Serving-AwareアプローチによるMLaaSの機械学習

ERASER: Machine Unlearning in MLaaS via an Inference Serving-Aware Approach ( http://arxiv.org/abs/2311.16136v2 )

ライセンス: Link先を確認
Yuke Hu, Jian Lou, Jiaqi Liu, Wangze Ni, Feng Lin, Zhan Qin, Kui Ren(参考訳) 過去数年間、MLaaS(Machine Learning-as-a-Service)は、さまざまなアプリケーション領域にわたる革新的なユーザエクスペリエンスを提供するマシンラーニング駆動サービスのサポートに対する需要が急増している。 MLaaSは、多数のデータ所有者から収集されたデータセットを使用してトレーニングされたMLモデルに基づいて、推論レイテンシの低い推論サービスを提供する。 近年,データ所有者のプライバシのため,データ保護法によって制定された「忘れられる権利(RTBF)」に準拠するため,データ所有者の未学習要求に基づいてトレーニングされたモデルからデータを削除するための機械学習手法が多数提案されている。 残念ながら、推論サービスobsolescenceの新たなセキュリティ問題と、mlaasの機械学習アンラーニングにおける望ましくない露出のプライバシ脆弱性が導入されている。 本稿では,MLaASにおけるmachinE unleaRningのためのERASERフレームワークについて,InferencE seRving-awareアプローチを用いて提案する。 ERASERは、推論サービスの陳腐化問題に対処する適切な未学習実行タイミングを戦略的に選択する。 未学習実行の延期によるRTBF原則違反を回避し、望ましくない露光の脆弱性を軽減するため、新しい推論整合性認証機構を提案する。 ERASERは、さまざまなMLaaSシステムの特定の環境や好みに最も適した、テーラーメイドのバリエーションを可能にするために、3つのグループの設計選択を提供する。 さまざまな設定にわたる大規模な実験的な評価により、ERASERの有効性が確認されている。例えば、推論待ち時間の99%と、推論オフブリビオンベースラインに対する計算オーバーヘッドの31%を効果的に節約できる。

Over the past years, Machine Learning-as-a-Service (MLaaS) has received a surging demand for supporting Machine Learning-driven services to offer revolutionized user experience across diverse application areas. MLaaS provides inference service with low inference latency based on an ML model trained using a dataset collected from numerous individual data owners. Recently, for the sake of data owners' privacy and to comply with the "right to be forgotten (RTBF)" as enacted by data protection legislation, many machine unlearning methods have been proposed to remove data owners' data from trained models upon their unlearning requests. However, despite their promising efficiency, almost all existing machine unlearning methods handle unlearning requests independently from inference requests, which unfortunately introduces a new security issue of inference service obsolescence and a privacy vulnerability of undesirable exposure for machine unlearning in MLaaS. In this paper, we propose the ERASER framework for machinE unleaRning in MLaAS via an inferencE seRving-aware approach. ERASER strategically choose appropriate unlearning execution timing to address the inference service obsolescence issue. A novel inference consistency certification mechanism is proposed to avoid the violation of RTBF principle caused by postponed unlearning executions, thereby mitigating the undesirable exposure vulnerability. ERASER offers three groups of design choices to allow for tailor-made variants that best suit the specific environments and preferences of various MLaaS systems. Extensive empirical evaluations across various settings confirm ERASER's effectiveness, e.g., it can effectively save up to 99% of inference latency and 31% of computation overhead over the inference-oblivion baseline.
翻訳日:2024-02-02 18:50:13 公開日:2024-02-01
# テスト時間適応視覚・言語ナビゲーション

Test-time Adaptive Vision-and-Language Navigation ( http://arxiv.org/abs/2311.13209v2 )

ライセンス: Link先を確認
Junyu Gao, Xuan Yao, Changsheng Xu(参考訳) VLN(Vision-and-Language Navigation)は近年大きな進歩を遂げている。 それでも、さまざまな環境でテストされた場合、トレーニングされたモデルは必然的にデータ分散の大幅な変化に遭遇し、事前訓練された固定されたナビゲーションモデルのみに依存することが不十分であることを強調する。 モデルの一般化能力を高めるため、テスト時間適応(TTA)は、未ラベルのテストサンプルをモデル更新に活用することにより、コンピュータビジョン分野において大きなポテンシャルを示す。 しかし、既存のTTAメソッドをVLNタスクに適用するだけでは、VLNモデルの適応性と安定性のジレンマをうまく扱えない。 そこで本研究では,統合フレームワークにおいて,勾配とパラメータの分解・蓄積解析を行うことにより,vlnの高速テストタイム適応(fstta)手法を提案する。 具体的には、高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、様々なレベルの一貫性を持つコンポーネントに分解する。 そして、これらの成分を適応的に蓄積して、高速モデル適応のための一致方向をピンポイントする。 遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。 実験結果から,本手法は4つのベンチマークにおいて優れた性能向上を示す。

Vision-and-Language Navigation (VLN) has witnessed significant advancements in recent years, largely attributed to meticulously curated datasets and proficiently trained models. Nevertheless, when tested in diverse environments, the trained models inevitably encounter significant shifts in data distribution, highlighting that relying solely on pre-trained and fixed navigation models is insufficient. To enhance models' generalization ability, test-time adaptation (TTA) demonstrates significant potential in the computer vision field by leveraging unlabeled test samples for model updates. However, simply applying existing TTA methods to the VLN task cannot well handle the adaptability-stability dilemma of VLN models, i.e., frequent updates can result in drastic changes in model parameters, while occasional updates can make the models ill-equipped to handle dynamically changing environments. Therefore, we propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for VLN by performing decomposition-accumulation analysis for both gradients and parameters in a unified framework. Specifically, in the fast update phase, gradients generated during the recent multi-step navigation process are decomposed into components with varying levels of consistency. Then, these components are adaptively accumulated to pinpoint a concordant direction for fast model adaptation. In the slow update phase, historically recorded parameters are gathered, and a similar decomposition-accumulation analysis is conducted to revert the model to a stable state. Extensive experiments show that our method obtains impressive performance gains on four popular benchmarks.
翻訳日:2024-02-02 18:49:44 公開日:2024-02-01
# ケミカルx : 化学合成における反応条件推薦のための大型言語モデルエンパワー剤

Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis ( http://arxiv.org/abs/2311.10776v4 )

ライセンス: Link先を確認
Kexin Chen, Junyou Li, Kunyi Wang, Yuyang Du, Jiahui Yu, Jiamin Lu, Lanqing Li, Jiezhong Qiu, Jianzhang Pan, Yi Huang, Qun Fang, Pheng Ann Heng, Guangyong Chen(参考訳) 最近のAI研究は、化学社会における自動化学反応の将来をプロットしている。 本研究では, 化学合成における反応条件レコメンデーション(RCR)タスクを, 検索増強生成(RAG)技術で自動化する変換型AIエージェントであるChemist-Xを提案する。 rcrの課題を解決する際、専門家の化学者の戦略をエミュレートするために、ケミカルxは高度なragスキームを利用してオンライン分子データベースを尋問し、最新の文献データベースから臨界データを蒸留する。 さらに、このエージェントは、大規模言語モデル(llm)によるプログラミングインタフェースを備えた最先端のcad(computer-aided design)ツールを活用する。 化学知識の更新とcadツールの活用により,従来の合成aisをトレーニングデータ内の一定の知識に限定した精度で評価した。 Chemist-Xは化学者の作業量を著しく減らし、より根本的で創造的な問題に集中できるようにし、より高度な計算技術と化学研究をもたらし、科学的な発見においてAIの全能力を活用するための驚くべき飛躍を成し遂げる。

Recent AI research plots a promising future of automatic chemical reactions within the chemistry society. This study proposes Chemist-X, a transformative AI agent that automates the reaction condition recommendation (RCR) task in chemical synthesis with retrieval-augmented generation (RAG) technology. To emulate expert chemists' strategies when solving RCR tasks, Chemist-X utilizes advanced RAG schemes to interrogate online molecular databases and distill critical data from the latest literature database. Further, the agent leverages state-of-the-art computer-aided design (CAD) tools with a large language model (LLM) supervised programming interface. With the ability to utilize updated chemical knowledge and CAD tools, our agent significantly outperforms conventional synthesis AIs confined to the fixed knowledge within its training data. Chemist-X considerably reduces chemists' workload and allows them to focus on more fundamental and creative problems, thereby bringing closer computational techniques and chemical research and making a remarkable leap toward harnessing AI's full capabilities in scientific discovery.
翻訳日:2024-02-02 18:49:18 公開日:2024-02-01
# 信頼できる大規模ビジョンモデル:サーベイ

Trustworthy Large Models in Vision: A Survey ( http://arxiv.org/abs/2311.09680v5 )

ライセンス: Link先を確認
Ziyan Guo and Li Xu and Jun Liu(参考訳) 大規模モデル(LM)の急速な進歩は、最近、自然言語処理(NLP)からコンピュータビジョン(CV)まで、様々な分野の深層学習に革命をもたらした。 しかし、LMは強力な性能を持つが信頼できない行動のため、学界や業界によってますます批判され、信頼性の高い方法によって緊急に緩和される必要がある。 NLPにおける信頼できるLMに関する文献が豊富にあるにもかかわらず、CVにおけるLMの信頼性を特に調査する体系的な調査はいまだに残っていない。 このギャップを緩和するために,本調査におけるlmsの視点における信頼に値する利用を妨げる4つの懸念を要約する。 1)人間の誤用。 2)脆弱性。 3)本質的な問題 4) 解釈可能。 それぞれの課題、対策、議論を強調することにより、この調査が読者のこの分野に対する理解を促進し、LMと人間の期待との整合を促進し、人類社会の災害というよりは、信頼できるLMを福祉として機能させることを期待する。

The rapid progress of Large Models (LMs) has recently revolutionized various fields of deep learning with remarkable grades, ranging from Natural Language Processing (NLP) to Computer Vision (CV). However, LMs are increasingly challenged and criticized by academia and industry due to their powerful performance but untrustworthy behavior, which urgently needs to be alleviated by reliable methods. Despite the abundance of literature on trustworthy LMs in NLP, a systematic survey specifically delving into the trustworthiness of LMs in CV remains absent. In order to mitigate this gap, we summarize four relevant concerns that obstruct the trustworthy usage in vision of LMs in this survey, including 1) human misuse, 2) vulnerability, 3) inherent issue and 4) interpretability. By highlighting corresponding challenge, countermeasures, and discussion in each topic, we hope this survey will facilitate readers' understanding of this field, promote alignment of LMs with human expectations and enable trustworthy LMs to serve as welfare rather than disaster for human society.
翻訳日:2024-02-02 18:48:59 公開日:2024-02-01
# 適応圧縮型スプリット学習とネットワーク効率向上のための推論

Adaptive Compression-Aware Split Learning and Inference for Enhanced Network Efficiency ( http://arxiv.org/abs/2311.05739v4 )

ライセンス: Link先を確認
Akrit Mudvari, Antero Vainio, Iason Ofeidis, Sasu Tarkoma, Leandros Tassiulas(参考訳) モバイルデバイスにおけるAI駆動アプリケーションの増加により、ディープラーニングモデルと利用可能なエッジクラウドリソースを統合するソリューションが生まれました。 デバイス上のエネルギー消費量の削減、レイテンシの改善、ネットワーク利用の改善、プライバシの改善など、複数のメリットがあるため、ディープラーニングモデルをモバイルデバイスから分割して分散的に計算する、分割学習は、広く検討されているトピックとなっている。 圧縮認識手法(学習が通信データの圧縮レベルに適応する)の導入により、スプリット学習はさらに有利になった。 この手法は、フェデレーション学習のような従来の方法の代替手段を提供することもできる。 本研究では,よりネットワーク効率のよい深層学習モデルを改良し,訓練するための適応型圧縮対応分割学習法('deprune')を開発し,エッジクラウドリソースの助けを借りて,より弱いデバイスに展開することが理想である。 この方法は、転送学習アプローチによって、よりネットワーク効率のよい推論能力のために、ほとんど精度を落とさずに、非常に迅速にディープラーニングモデルを訓練するために拡張('prune')される。 提案手法は, 精度を損なうことなく, 分割学習手法と比較してネットワーク使用率を4倍に削減できると同時に, 圧縮認識分割学習よりも精度を4%向上できることを示す。 最後に,'prune'法は,圧縮認識による分割学習手法と比較して,精度に影響を与えずに,特定のモデルのトレーニング時間を最大6倍削減できることを示す。

The growing number of AI-driven applications in mobile devices has led to solutions that integrate deep learning models with the available edge-cloud resources. Due to multiple benefits such as reduction in on-device energy consumption, improved latency, improved network usage, and certain privacy improvements, split learning, where deep learning models are split away from the mobile device and computed in a distributed manner, has become an extensively explored topic. Incorporating compression-aware methods (where learning adapts to compression level of the communicated data) has made split learning even more advantageous. This method could even offer a viable alternative to traditional methods, such as federated learning techniques. In this work, we develop an adaptive compression-aware split learning method ('deprune') to improve and train deep learning models so that they are much more network-efficient, which would make them ideal to deploy in weaker devices with the help of edge-cloud resources. This method is also extended ('prune') to very quickly train deep learning models through a transfer learning approach, which trades off little accuracy for much more network-efficient inference abilities. We show that the 'deprune' method can reduce network usage by 4x when compared with a split-learning approach (that does not use our method) without loss of accuracy, while also improving accuracy over compression-aware split-learning by 4 percent. Lastly, we show that the 'prune' method can reduce the training time for certain models by up to 6x without affecting the accuracy when compared against a compression-aware split-learning approach.
翻訳日:2024-02-02 18:48:42 公開日:2024-02-01
# SugarViT -- 糖蜜の重症度予測に基づく視覚変換器とディープラベル分布学習によるUAV画像の多目的回帰

SugarViT -- Multi-objective Regression of UAV Images with Vision Transformers and Deep Label Distribution Learning Demonstrated on Disease Severity Prediction in Sugar Beet ( http://arxiv.org/abs/2311.03076v3 )

ライセンス: Link先を確認
Maurice G\"under, Facundo Ram\'on Ispizua Yamati, Abel Andree Barreto Alc\'antara, Anne-Katrin Mahlein, Rafet Sifa, Christian Bauckhage(参考訳) リモートセンシングと人工知能は、現代の精密農業の重要な技術である。 機械学習技術と組み合わせた大規模フィールド画像の効率的な検索は、表現型、雑草、収穫、疾病管理といった様々なタスクで成功している。 本研究は,サトウキビにおけるCercospora Leaf Spot (CLS)の症例重症度評価のための,大規模植物特異的形質アノテーションの自動化のための機械学習フレームワークを導入する。 深層ラベル分布学習 (dldl) の概念, 特殊損失関数, 適応型モデルアーキテクチャを用いて,sugarvitと呼ばれる病害度スコアリングのための効率的な視覚トランスフォーマモデルを開発した。 この研究の新たな点は、リモートセンシングデータと、病気の重症度予測のための実験場の環境パラメータを組み合わせることである。 この特殊なユースケースでモデルは評価されるが、様々な画像に基づく分類や回帰タスクにも可能な限り汎用的に適用可能である。 本フレームワークでは,環境メタデータの事前学習により,多目的問題に関するモデルを学習することも可能である。

Remote sensing and artificial intelligence are pivotal technologies of precision agriculture nowadays. The efficient retrieval of large-scale field imagery combined with machine learning techniques shows success in various tasks like phenotyping, weeding, cropping, and disease control. This work will introduce a machine learning framework for automatized large-scale plant-specific trait annotation for the use case disease severity scoring for Cercospora Leaf Spot (CLS) in sugar beet. With concepts of Deep Label Distribution Learning (DLDL), special loss functions, and a tailored model architecture, we develop an efficient Vision Transformer based model for disease severity scoring called SugarViT. One novelty in this work is the combination of remote sensing data with environmental parameters of the experimental sites for disease severity prediction. Although the model is evaluated on this special use case, it is held as generic as possible to also be applicable to various image-based classification and regression tasks. With our framework, it is even possible to learn models on multi-objective problems as we show by a pretraining on environmental metadata.
翻訳日:2024-02-02 18:47:54 公開日:2024-02-01
# Biased Policy Gradient Algorithmの2次収束について

On the Second-Order Convergence of Biased Policy Gradient Algorithms ( http://arxiv.org/abs/2311.02546v3 )

ライセンス: Link先を確認
Siqiao Mu and Diego Klabjan(参考訳) 強化学習問題の目的関数は典型的には非凸であるため、最も一般的なアルゴリズムであるポリシー勾配はサドル点から逃れ、二階定常点に到達することが望ましい。 既存の結果は、偏りのない勾配推定器を用いたバニラポリシー勾配アルゴリズムのみを考慮するが、無限水平割引報酬設定に基づく実践的な実装は、有限水平サンプリングによりバイアスを受ける。 さらに,2次収束が確立されていないアクター批判法も,値関数の批判的近似によりバイアスを受ける。 本稿では,モンテカルロの軌道のサンプリングから算出したバニラ勾配推定器や,2ループアクター・クリティックアルゴリズムを含む,バイアス付き政策勾配法の新しい2次解析を行い,その内部ループでは,TD(0)学習による値関数の近似を改善する。 また、初期状態分布に関係なく、マルコフ連鎖上のTD(0)の収束も確立する。

Since the objective functions of reinforcement learning problems are typically highly nonconvex, it is desirable that policy gradient, the most popular algorithm, escapes saddle points and arrives at second-order stationary points. Existing results only consider vanilla policy gradient algorithms with unbiased gradient estimators, but practical implementations under the infinite-horizon discounted reward setting are biased due to finite-horizon sampling. Moreover, actor-critic methods, whose second-order convergence has not yet been established, are also biased due to the critic approximation of the value function. We provide a novel second-order analysis of biased policy gradient methods, including the vanilla gradient estimator computed from Monte-Carlo sampling of trajectories as well as the double-loop actor-critic algorithm, where in the inner loop the critic improves the approximation of the value function via TD(0) learning. Separately, we also establish the convergence of TD(0) on Markov chains irrespective of initial state distribution.
翻訳日:2024-02-02 18:47:36 公開日:2024-02-01
# 適応型強化学習エージェントに対する解釈可能な概念ボトルネック

Interpretable Concept Bottlenecks to Align Reinforcement Learning Agents ( http://arxiv.org/abs/2401.05821v2 )

ライセンス: Link先を確認
Quentin Delfosse, Sebastian Sztwiertnia, Mark Rothermel, Wolfgang Stammer, Kristian Kersting(参考訳) ゴールミスアライメント、報酬の相違、困難なクレジット割り当ては、深層強化学習(RL)エージェントが最適な政策を学ぶのを難しくする多くの問題のごく一部にすぎない。 残念なことに、ディープニューラルネットワークのブラックボックスの性質は、モデルを検査し、準最適ポリシーを改訂するためのドメインエキスパートの関与を妨げる。 この目的のために、連続的な概念ボトルネック(CB)層を統合する*Successive Concept Bottleneck Agents*(SCoBots)を紹介します。 現在のCBモデルとは対照的に、SCoBotは概念を個々のオブジェクトの特性として表現するだけでなく、多くのRLタスクに不可欠なオブジェクト間の関係として表現する。 我々の実験結果は、SCoBotsの競争性能を示すだけでなく、ドメインの専門家が彼らの行動を理解し、規則化する可能性を示す。 とりわけ、SCoBotsは、象徴的なビデオゲームPongでこれまで知られていなかった誤認識の問題を識別し、解決できるようにしました。 全体として、SCoBotsはより人間らしいRLエージェントをもたらす。 私たちのコードはhttps://github.com/k4ntz/SCoBotsで利用可能です。

Goal misalignment, reward sparsity and difficult credit assignment are only a few of the many issues that make it difficult for deep reinforcement learning (RL) agents to learn optimal policies. Unfortunately, the black-box nature of deep neural networks impedes the inclusion of domain experts for inspecting the model and revising suboptimal policies. To this end, we introduce *Successive Concept Bottleneck Agents* (SCoBots), that integrate consecutive concept bottleneck (CB) layers. In contrast to current CB models, SCoBots do not just represent concepts as properties of individual objects, but also as relations between objects which is crucial for many RL tasks. Our experimental results provide evidence of SCoBots' competitive performances, but also of their potential for domain experts to understand and regularize their behavior. Among other things, SCoBots enabled us to identify a previously unknown misalignment problem in the iconic video game, Pong, and resolve it. Overall, SCoBots thus result in more human-aligned RL agents. Our code is available at https://github.com/k4ntz/SCoBots .
翻訳日:2024-02-02 18:40:21 公開日:2024-02-01
# 高速・低速思考による言語条件付きロボットマニピュレーション

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking ( http://arxiv.org/abs/2401.04181v2 )

ライセンス: Link先を確認
Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang(参考訳) 言語条件のロボット操作は、自然言語命令を単純なピック・アンド・プレイスから意図認識と視覚的推論を必要とするタスクへ、実行可能なアクションに転送することを目的としている。 認知科学における双対プロセス理論に触発されて,人間の意思決定における高速かつ遅い思考の2つの並列システムを提案する。我々は,人間の認知アーキテクチャを模倣してタスクを分類し,命令型に基づく2つのシステム上で意思決定を行うフレームワークであるfast and slow thinking (rfst) を用いたロボティクスを導入する。 私たちのRFSTは2つのキーコンポーネントから構成されています。 1) 現在のユーザ命令に基づいて、どのシステムが起動されるべきかを判断する命令判別器 2) 政策ネットワークと連携した微調整された視覚言語モデルからなるスロー思考システムにより,ロボットはユーザの意図を認識したり,推論タスクを実行したりすることができる。 私たちの方法論を評価するために、私たちは現実世界の軌跡を特徴とするデータセットを構築しました。 シミュレーションと実世界のシナリオの両方において,本手法が意図認識と推論を必要とする複雑なタスクを十分に管理していることを確認した。 このプロジェクトはhttps://jlm-z.github.io/RSFT/で入手できる。

The language-conditioned robotic manipulation aims to transfer natural language instructions into executable actions, from simple pick-and-place to tasks requiring intent recognition and visual reasoning. Inspired by the dual process theory in cognitive science, which suggests two parallel systems of fast and slow thinking in human decision-making, we introduce Robotics with Fast and Slow Thinking (RFST), a framework that mimics human cognitive architecture to classify tasks and makes decisions on two systems based on instruction types. Our RFST consists of two key components: 1) an instruction discriminator to determine which system should be activated based on the current user instruction, and 2) a slow-thinking system that is comprised of a fine-tuned vision language model aligned with the policy networks, which allows the robot to recognize user intention or perform reasoning tasks. To assess our methodology, we built a dataset featuring real-world trajectories, capturing actions ranging from spontaneous impulses to tasks requiring deliberate contemplation. Our results, both in simulation and real-world scenarios, confirm that our approach adeptly manages intricate tasks that demand intent recognition and reasoning. The project is available at https://jlm-z.github.io/RSFT/
翻訳日:2024-02-02 18:39:39 公開日:2024-02-01
# スイッチング機構による拡散モデルの公正サンプリング

Fair Sampling in Diffusion Models through Switching Mechanism ( http://arxiv.org/abs/2401.03140v3 )

ライセンス: Link先を確認
Yujin Choi, Jinseong Park, Hoki Kim, Jaewook Lee, Saeroom Park(参考訳) 拡散モデルは、基礎となる確率分布をよく近似することにより、生成タスクにおいてその効果を示す。 しかしながら、拡散モデルでは、公平性の観点からトレーニングデータから固有のバイアスが増幅されることが知られている。 拡散モデルのサンプリング過程は条件付きガイダンスで制御できるが、従来の研究は定量的公正性を達成するための経験的ガイダンスを見つけようと試みてきた。 この制限に対処するために,拡散モデルのためのfairness-aware sampling methodである \textit{attribute switching} 機構を提案する。 追加のトレーニングなしでは、提案したサンプリングは、分類器に頼ることなく、生成されたデータ中のセンシティブな属性を難読化することができる。 提案手法の有効性を数学的に証明し,実験的に実証する。 (i)公平なデータの生成及び (ii) 生成されたデータの有効性を保存すること。

Diffusion models have shown their effectiveness in generation tasks by well-approximating the underlying probability distribution. However, diffusion models are known to suffer from an amplified inherent bias from the training data in terms of fairness. While the sampling process of diffusion models can be controlled by conditional guidance, previous works have attempted to find empirical guidance to achieve quantitative fairness. To address this limitation, we propose a fairness-aware sampling method called \textit{attribute switching} mechanism for diffusion models. Without additional training, the proposed sampling can obfuscate sensitive attributes in generated data without relying on classifiers. We mathematically prove and experimentally demonstrate the effectiveness of the proposed method on two key aspects: (i) the generation of fair data and (ii) the preservation of the utility of the generated data.
翻訳日:2024-02-02 18:39:13 公開日:2024-02-01
# ロボット操作のためのオブジェクト中心命令拡張

Object-Centric Instruction Augmentation for Robotic Manipulation ( http://arxiv.org/abs/2401.02814v2 )

ライセンス: Link先を確認
Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, and Jian Tang(参考訳) 人間は観察における物体のアイデンティティと位置の両方を認識することによって、シーンを解釈する。 ロボットが<enquote{pick and place}のようなタスクを実行するためには、対象と場所の両方を理解することが重要です。 前者は大きな言語モデルを用いて文章の記述を豊かにする文献で広く議論されてきたが、後者は未解明のままである。 本稿では,高度に意味的かつ情報に富む言語インストラクションを位置手がかりで拡張する, \textit{object-centric instruction augmentedation (oci)} フレームワークを提案する。 我々はMLLM(Multi-modal Large Language Model)を用いて、オブジェクト位置の知識を自然言語指導に織り込むことにより、多目的操作のためのアクションをマスターするポリシーネットワークを支援する。 さらに、市販のMLLMからポリシーネットワークに視覚言語機能を統合するための機能再利用機構を提案する。 シミュレーションされた実世界のロボットタスクを通じて、強化された指示で訓練されたロボットマニピュレータの模倣ポリシーが、従来の言語命令にのみ依存する人よりも優れていることを示す。

Humans interpret scenes by recognizing both the identities and positions of objects in their observations. For a robot to perform tasks such as \enquote{pick and place}, understanding both what the objects are and where they are located is crucial. While the former has been extensively discussed in the literature that uses the large language model to enrich the text descriptions, the latter remains underexplored. In this work, we introduce the \textit{Object-Centric Instruction Augmentation (OCI)} framework to augment highly semantic and information-dense language instruction with position cues. We utilize a Multi-modal Large Language Model (MLLM) to weave knowledge of object locations into natural language instruction, thus aiding the policy network in mastering actions for versatile manipulation. Additionally, we present a feature reuse mechanism to integrate the vision-language features from off-the-shelf pre-trained MLLM into policy networks. Through a series of simulated and real-world robotic tasks, we demonstrate that robotic manipulator imitation policies trained with our enhanced instructions outperform those relying solely on traditional language instructions.
翻訳日:2024-02-02 18:38:50 公開日:2024-02-01
# 育種プロトコルは有限長エンタングルメント蒸留に有利である

Breeding protocols are advantageous for finite-length entanglement distillation ( http://arxiv.org/abs/2401.02265v2 )

ライセンス: Link先を確認
Ryutaroh Matsumoto(参考訳) Bennettらは、絡み合った蒸留のための一連のプロトコル、すなわちハッシュ、反復および繁殖プロトコルを提案した。 最後のものは漸近的な方法でのハッシュプロトコルよりも劣っており、ほとんど調査されていない。 本稿では,Luo-DevetakとWildeによる従来の変換手法を一般化した,安定化器の量子誤り訂正符号を育種プロトコルに変換する枠組みを提案する。 次に、ハッシングプロトコルよりも優れた育種プロトコルを与える安定化器の例として、有限個の最大絡み合ったペアを、部分絡み合ったペアの有限個から蒸留する例を示す。

Bennett et al. proposed a family of protocols for entanglement distillation, namely, hashing, recurrence and breeding protocols. The last one is inferior to the hashing protocol in the asymptotic regime and has been investigated little. In this paper, we propose a framework of converting a stabilizer quantum error-correcting code to a breeding protocol, which is a generalization of the previous conversion methods by Luo-Devetak and Wilde. Then, show an example of a stabilizer that gives a breeding protocol better than hashing protocols, in which the finite number of maximally entangled pairs are distilled from the finite number of partially entangled pairs.
翻訳日:2024-02-02 18:38:27 公開日:2024-02-01
# Stack Overflow Answersにおける情報ハイライトの紹介

A First Look at Information Highlighting in Stack Overflow Answers ( http://arxiv.org/abs/2401.01472v2 )

ライセンス: Link先を確認
Shahla Shaan Ahmed, Shaowei Wang, Yuan Tian, Tse-Hsun (Peter) Chen, Haoxiang Zhang(参考訳) コンテキスト: Stack Overflow(SO)の知識をナビゲートすることはまだ難しい。 ユーザーが投稿を鮮明にするために、ユーザーがMarkdownやHTMLで投稿を書いたり編集したりできるので、ユーザーは様々なフォーマットスタイル(大胆、イタリック、コードなど)を利用して重要な情報をハイライトすることができる。 にもかかわらず、強調された情報に関する研究は限られている。 目的: 最近の研究では, so回答で強調された情報について, 初めて大規模探索研究を行った。 従来の研究を拡張すべく、まず名前付きエンティティ認識タスク用に設計されたニューラルネットワークアーキテクチャを用いて、フォーマットスタイルのハイライトコンテンツを自動的に推奨する手法を開発した。 方法:本稿では,stack overflowの31,169,429の回答を調査した。 推奨モデルのトレーニングには、SOの回答から収集した情報ハイライトデータセットを使用して、フォーマットの種類ごとにCNNとBERTモデル(Bold、Iteric、Code、Heading)を選択します。 結果: CNNアーキテクチャに基づくモデルでは0.71から0.82の精度が得られた。 自動コードコンテンツハイライトのためのトレーニングされたモデルは、0.73のリコールとF1スコアの0.71を達成し、他のフォーマットスタイルのトレーニングされたモデルよりも優れている。 BERTモデルはCNNモデルよりもリコールが低く、F1スコアも低い。 失敗事例の分析から,失敗事例の大部分は識別の欠如(つまり,強調すべき内容が欠落している)であり,モデルでは強調される単語を学習する傾向があり,頻繁な単語の学習に苦しむ傾向がみられた。 結論: stack overflow 上で異なるフォーマットスタイルで回答の情報を強調表示するためのレコメンデーションモデルの開発が可能であることを示唆する。

Context: Navigating the knowledge of Stack Overflow (SO) remains challenging. To make the posts vivid to users, SO allows users to write and edit posts with Markdown or HTML so that users can leverage various formatting styles (e.g., bold, italic, and code) to highlight the important information. Nonetheless, there have been limited studies on the highlighted information. Objective: We carried out the first large-scale exploratory study on the information highlighted in SO answers in our recent study. To extend our previous study, we develop approaches to automatically recommend highlighted content with formatting styles using neural network architectures initially designed for the Named Entity Recognition task. Method: In this paper, we studied 31,169,429 answers of Stack Overflow. For training recommendation models, we choose CNN and BERT models for each type of formatting (i.e., Bold, Italic, Code, and Heading) using the information highlighting dataset we collected from SO answers. Results: Our models based on CNN architecture achieve precision ranging from 0.71 to 0.82. The trained model for automatic code content highlighting achieves a recall of 0.73 and an F1 score of 0.71, outperforming the trained models for other formatting styles. The BERT models have even lower recalls and F1 scores than the CNN models. Our analysis of failure cases indicates that the majority of the failure cases are missing identification (i.e., the model misses the content that is supposed to be highlighted) due to the models tend to learn the frequently highlighted words while struggling to learn less frequent words. Conclusion: Our findings suggest that it is possible to develop recommendation models for highlighting information for answers with different formatting styles on Stack Overflow.
翻訳日:2024-02-02 18:38:14 公開日:2024-02-01
# 複雑系における発生と因果関係--因果発生と関連する定量的研究

Emergence and Causality in Complex Systems: A Survey on Causal Emergence and Related Quantitative Studies ( http://arxiv.org/abs/2312.16815v2 )

ライセンス: Link先を確認
Bing Yuan, Zhang Jiang, Aobo Lyu, Jiayun Wu, Zhipeng Wang, Mingzhe Yang, Kaiwei Liu, Muyun Mou, Peng Cui(参考訳) 出現と因果性は、複雑なシステムを理解するための2つの基本的な概念である。 相互接続されている。 一方の出現は、マクロ的な性質が個々の性質の原因にのみ帰属できない現象を指す。 一方で因果性は出現する可能性があり、抽象のレベルを上げると新たな因果法則が発生する可能性がある。 因果発生理論はこれらの2つの概念を橋渡しすることを目的としており、出現を定量化するために因果関係の尺度を用いる。 本稿では,最近の定量的理論の進歩と因果発生の応用について概観する。 因果発生の定量化とデータ内の同定だ。 後者に対処するには、機械学習技術を使用する必要があるため、因果発生と人工知能の関連性が確立される。 因果表現学習,因果モデル抽象化,世界モデルに基づく強化学習によって,因果表現の出現を識別するアーキテクチャが共有されることを強調した。 その結果、これらの領域の進展は他の領域の恩恵を受けることができる。 潜在的なアプリケーションと今後の展望も、レビューの最終セクションで議論されている。

Emergence and causality are two fundamental concepts for understanding complex systems. They are interconnected. On one hand, emergence refers to the phenomenon where macroscopic properties cannot be solely attributed to the cause of individual properties. On the other hand, causality can exhibit emergence, meaning that new causal laws may arise as we increase the level of abstraction. Causal emergence theory aims to bridge these two concepts and even employs measures of causality to quantify emergence. This paper provides a comprehensive review of recent advancements in quantitative theories and applications of causal emergence. Two key problems are addressed: quantifying causal emergence and identifying it in data. Addressing the latter requires the use of machine learning techniques, thus establishing a connection between causal emergence and artificial intelligence. We highlighted that the architectures used for identifying causal emergence are shared by causal representation learning, causal model abstraction, and world model-based reinforcement learning. Consequently, progress in any of these areas can benefit the others. Potential applications and future perspectives are also discussed in the final section of the review.
翻訳日:2024-02-02 18:37:45 公開日:2024-02-01
# テキストにCLIPを教えるParrot Caption

Parrot Captions Teach CLIP to Spot Text ( http://arxiv.org/abs/2312.14232v3 )

ライセンス: Link先を確認
Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou(参考訳) CLIPは多くのビジョン言語アプリケーションの基礎モデルであるにもかかわらず、CLIPは厳しいテキストスポッティングバイアスに悩まされている。 このようなバイアスは、CLIPモデルにイメージ内に埋め込まれたビジュアルテキストを‘Parrot’させ、真のビジュアルセマンティクスを無視します。 我々は、最も人気のある画像テキストデータセットLAION-2Bで、キャプションが画像に埋め込まれたテキストを密にパロット(スペル)することを発見した。 分析の結果,画像の約50%がビジュアルテキストコンテンツに埋め込まれており,約30%の字幕語が埋め込みビジュアルコンテンツに含まれていることがわかった。 このような観察に基づいて、CLIPモデルの異なるバージョンを徹底的に検証し、これらのモデルに対するLAIONスタイルの画像テキスト類似度を測定する上で、視覚テキストが重要な要素であることを検証した。 これらのキャプションがテキストスポッティングバイアスを形成するかどうかを調べるため、異なるparrot-caption指向の基準でキュレートされたlaionサブセットを持つ一連のクリップモデルをトレーニングする。 パロットキャプションによる訓練は、このようなバイアスを生じやすいが、クリップモデルで期待される視覚言語表現学習を損なう。 これは、CLIPライクなモデルの設計か、CLIPスコアフィルタリング上に構築された既存のイメージテキストデータセットキュレーションパイプラインを再検討することが緊急であることを示している。

Despite CLIP being the foundation model in numerous vision-language applications, the CLIP suffers from a severe text spotting bias. Such bias causes CLIP models to `Parrot' the visual text embedded within images while disregarding the authentic visual semantics. We uncover that in the most popular image-text dataset LAION-2B, the captions also densely parrot (spell) the text embedded in images. Our analysis shows that around 50% of images are embedded with visual text content, and around 30% of captions words are in these embedded visual content. Based on such observation, we thoroughly inspect the different released versions of CLIP models and verify that the visual text is the dominant factor in measuring the LAION-style image-text similarity for these models. To examine whether these parrot captions shape the text spotting bias, we train a series of CLIP models with LAION subsets curated by different parrot-caption-oriented criteria. We show that training with parrot captions easily shapes such bias but harms the expected visual-language representation learning in CLIP models. This suggests that it is urgent to revisit either the design of CLIP-like models or the existing image-text dataset curation pipeline built on CLIP score filtering.
翻訳日:2024-02-02 18:37:28 公開日:2024-02-01
# 同質な2次元ボースガスにおける普遍的粗大化

Universal Coarsening in a Homogeneous Two-Dimensional Bose Gas ( http://arxiv.org/abs/2312.09248v2 )

ライセンス: Link先を確認
Martin Gazo, Andrey Karailiev, Tanish Satoor, Christoph Eigen, Maciej Ga{\l}ka, Zoran Hadzibabic(参考訳) 孤立した非平衡量子系の粗大化は、準核から宇宙論的な長さスケールに関係し、普遍的な動的スケーリングを特徴とするパラダイム的な多体現象である。 ここでは、同質な2次元ボース気体の粗大化における普遍的なスケーリングを、解析的予測に一致する指数で観測する。 異なる初期状態に対して、初期状態に依存した事前スケーリング効果の解明と説明により、実験的にアクセス可能な有限時間力学における普遍的なスケーリングを明らかにする。 提案手法は, コールド原子実験と非平衡場理論の直接比較を確立し, 平衡から離れた普遍性の研究にも適用可能である。

Coarsening of an isolated far-from-equilibrium quantum system is a paradigmatic many-body phenomenon, relevant from subnuclear to cosmological lengthscales, and predicted to feature universal dynamic scaling. Here, we observe universal scaling in the coarsening of a homogeneous two-dimensional Bose gas, with exponents that match analytical predictions. For different initial states, we reveal universal scaling in the experimentally accessible finite-time dynamics by elucidating and accounting for the initial-state-dependent prescaling effects. The methods we introduce establish direct comparison between cold-atom experiments and non-equilibrium field theory, and are applicable to any study of universality far from equilibrium.
翻訳日:2024-02-02 18:36:54 公開日:2024-02-01
# cl2cm: 言語間知識伝達による言語間クロスモーダル検索の改善

CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer ( http://arxiv.org/abs/2312.08984v2 )

ライセンス: Link先を確認
Yabing Wang and Fan Wang and Jianfeng Dong and Hao Luo(参考訳) 近年,注釈付きV-Tデータペアを使わずに,視覚と対象言語(V-T)のアライメントの実現を目指す言語間クロスモーダル検索が注目されている。 現在の手法では、機械翻訳(MT)を用いて擬似並列データペアを構築し、視覚的および対象言語表現を整列する多言語および多モーダルな埋め込み空間を学習するために使用される。 しかし、視覚とテキストの間の大きな不均一なギャップと、対象言語翻訳に存在する雑音は、それらの表現を効果的に整列させる上で大きな課題となる。 これらの課題に対処するために,言語間移動を用いた視覚と対象言語との整合性を改善する汎用フレームワークCL2CMを提案する。 このアプローチにより、マルチ言語で事前訓練されたモデル(mBERTなど)の利点と、同じモダリティ構造、すなわち小さなギャップの利点を十分に活用し、クロスモーダルネットワークに対する信頼性と包括的なセマンティック対応(知識)を提供することができる。 提案手法はMulti30KとMSCOCOの2つの多言語画像テキストデータセットとビデオテキストデータセットVATEXである。 その結果,提案手法の有効性と大規模検索の可能性を明らかにした。

Cross-lingual cross-modal retrieval has garnered increasing attention recently, which aims to achieve the alignment between vision and target language (V-T) without using any annotated V-T data pairs. Current methods employ machine translation (MT) to construct pseudo-parallel data pairs, which are then used to learn a multi-lingual and multi-modal embedding space that aligns visual and target-language representations. However, the large heterogeneous gap between vision and text, along with the noise present in target language translations, poses significant challenges in effectively aligning their representations. To address these challenges, we propose a general framework, Cross-Lingual to Cross-Modal (CL2CM), which improves the alignment between vision and target language using cross-lingual transfer. This approach allows us to fully leverage the merits of multi-lingual pre-trained models (e.g., mBERT) and the benefits of the same modality structure, i.e., smaller gap, to provide reliable and comprehensive semantic correspondence (knowledge) for the cross-modal network. We evaluate our proposed approach on two multilingual image-text datasets, Multi30K and MSCOCO, and one video-text dataset, VATEX. The results clearly demonstrate the effectiveness of our proposed method and its high potential for large-scale retrieval.
翻訳日:2024-02-02 18:36:40 公開日:2024-02-01
# Rydberg-atom による整数分解問題の解法

A Rydberg-atom approach to the integer factorization problem ( http://arxiv.org/abs/2312.08703v2 )

ライセンス: Link先を確認
Juyoung Park, Seokho Jeong, Minhyuk Kim, Kangheun Kim, Andrew Byun, Louis Vignoli, Louis-Paul Henry, Lo\"ic Henriet, and Jaewook Ahn(参考訳) 整数を分解するタスクは現代の暗号学において大きな課題となり、量子コンピューティングはこの問題を古典的アルゴリズムと比較して効率的に扱う可能性を秘めている。 したがって、この問題に対処する量子コンピューティングアルゴリズムを開発することが重要である。 本研究では,rydberg原子を用いた因子分解問題に対する量子アプローチを提案する。 6 = 2 \times 3$、15 = 3 \times 5$、35 = 5 \times 7$ のような小さな合成数の分解について実験的なデモが行われた。 このアプローチでは、Rydberg-atom graph を用いてバイナリ乗法テーブルをアルゴリズムでプログラムし、ファクタリング解の重ね合わせを表す多くの基底状態を生成する。 その後、これらの状態は量子断熱計算を用いて探究される。 この手法の限界について論じ、特に複雑な計算問題に対する現在のRydberg量子コンピューティングのスケーラビリティに対処する。

The task of factoring integers poses a significant challenge in modern cryptography, and quantum computing holds the potential to efficiently address this problem compared to classical algorithms. Thus, it is crucial to develop quantum computing algorithms to address this problem. This study introduces a quantum approach that utilizes Rydberg atoms to tackle the factorization problem. Experimental demonstrations are conducted for the factorization of small composite numbers such as $6 = 2 \times 3$, $15 = 3 \times 5$, and $35 = 5 \times 7$. This approach involves employing Rydberg-atom graphs to algorithmically program binary multiplication tables, yielding many-body ground states that represent superpositions of factoring solutions. Subsequently, these states are probed using quantum adiabatic computing. Limitations of this method are discussed, specifically addressing the scalability of current Rydberg quantum computing for the intricate computational problem.
翻訳日:2024-02-02 18:36:15 公開日:2024-02-01
# 量子場のリサイクリングと単一量子ビット回転に対する最適状態

Recycling of a quantum field and optimal states for single-qubit rotations ( http://arxiv.org/abs/2312.08242v2 )

ライセンス: Link先を確認
Shanon Vuglar and Julio Gea-Banacloche(参考訳) ブロッホ球面上の特定の状態から2段階の原子の正確な回転(エンタングルメントおよびエラーフリー)を行うことのできる量子化場状態の族を導入する。 これらの状態と最近導入された「トランスコヒーレントな状態」の類似性と相違について論じる。 我々の場状態は、それらが回転の後に不変に残される性質を持ち、それらは磁場が同一に合成された環状原子の置換と相互作用するときに得られる漸近状態である。 このようなスキームは、[npj量子情報3:17 (2017)]2レベル原子との相互作用後にフィールド状態を「記憶」し、その後に再利用することで、連続する量子論理演算のエネルギー要件を減少させる方法として最近提案された。 このスキームを一般化し、任意の回転に最適なパルスを求めるとともに、純粋な状態ではなく混合状態のアシラがどうなるかを解析的に研究する。 原案の数値的な結果と一致して、アンシラ準備誤差が小さい限り(1/\bar n$、ここで$\bar n$は検討されたパルス中の原子の平均数)、復元されたパルスの性能に高次誤差のみをもたらす。

We introduce a family of quantized field states that can perform exact (entanglement- and error-free) rotations of a two-level atom starting from a specific state on the Bloch sphere. We discuss the similarities and differences between these states and the recently-introduced "transcoherent states." Our field states have the property that they are left unchanged after the rotation, and we find they are the asymptotic states obtained when a field interacts with a succession of identically prepared ancillary atoms. Such a scheme was recently proposed [npj Quantum Information 3:17 (2017)] as a way to "restore" a field state after its interaction with a two-level atom, so as to reuse it afterwards, thus reducing the energy requirements for successive quantum logical operations. We generalize this scheme to find optimal pulses for arbitrary rotations, and also study analytically what happens if the ancillas are in a mixed, rather than a pure state. Consistent with the numerical results in the original proposal, we find that as long as the ancilla preparation error is small (of the order of $1/\bar n$, where $\bar n$ is the average number of atoms in the pulses considered) it will introduce only higher-order errors in the performance of the restored pulse.
翻訳日:2024-02-02 18:36:00 公開日:2024-02-01
# 産業用ロボット協調作業における共同活動開始時の視線検出と分析

Gaze Detection and Analysis for Initiating Joint Activity in Industrial Human-Robot Collaboration ( http://arxiv.org/abs/2312.06643v3 )

ライセンス: Link先を確認
Pooja Prajod, Matteo Lavit Nicora, Marta Mondellini, Giovanni Tauro, Rocco Vertechy, Matteo Malosio, Elisabeth Andr\'e(参考訳) コラボレーティブなロボット(コボット)は産業用途で広く使われているが、人間とロボットのコラボレーションやオペレーターの体験を高めるためにはまだ広範な研究が必要である。 コラボレーション体験を改善するための潜在的なアプローチは、オペレータからの自然なヒントに基づいてcobotの動作を適応させることである。 ヒトとヒトの相互作用に関する文献に触発され,コボットの視線が協調活動開始の引き金となるかどうかを検討するために,ウィザード・オブ・オズ研究を行った。 本研究では,37人の参加者が視線行動解析中に組み立て作業に従事した。 視線に基づく注意認識モデルを用いて,参加者がコボットを見るタイミングを識別する。 その結果,ほとんどの場合 (84.88\%) において, 関節活動はコボットの視線に先行することが明らかとなった。 さらに, 組立サイクル全体において, 参加者は共同作業の前後でコボットを見る傾向にある。 本研究は,ロボットとの共同作業を行う参加者の自然な視線行動を分析するための最初の研究である。

Collaborative robots (cobots) are widely used in industrial applications, yet extensive research is still needed to enhance human-robot collaborations and operator experience. A potential approach to improve the collaboration experience involves adapting cobot behavior based on natural cues from the operator. Inspired by the literature on human-human interactions, we conducted a wizard-of-oz study to examine whether a gaze towards the cobot can serve as a trigger for initiating joint activities in collaborative sessions. In this study, 37 participants engaged in an assembly task while their gaze behavior was analyzed. We employ a gaze-based attention recognition model to identify when the participants look at the cobot. Our results indicate that in most cases (84.88\%), the joint activity is preceded by a gaze towards the cobot. Furthermore, during the entire assembly cycle, the participants tend to look at the cobot around the time of the joint activity. To the best of our knowledge, this is the first study to analyze the natural gaze behavior of participants working on a joint activity with a robot during a collaborative assembly task.
翻訳日:2024-02-02 18:35:38 公開日:2024-02-01
# 大規模言語モデルによる階層型連続強化学習

Hierarchical Continual Reinforcement Learning via Large Language Model ( http://arxiv.org/abs/2401.15098v2 )

ライセンス: Link先を確認
Chaofan Pan, Xin Yang, Hao Wang, Wei Wei, Tianrui Li(参考訳) 動的環境で継続的に学習する能力は、現実世界に適用する強化学習(rl)エージェントにとって重要な要件である。 継続強化学習(CRL)の進歩にもかかわらず、既存の手法では知識伝達が不十分な場合が多い。 そこで本研究では,ハイレベル知識の伝達を容易にするために,大規模言語モデル(hi-core)による階層型連続的強化学習という新しい枠組みを提案する。 hi-coreは2層構造を編成する: 大きな言語モデル(llm)によるハイレベルなポリシー定式化、目標のシーケンスを熟成する低レベルポリシー学習、目標指向のrlプラクティスと密接に整合する低レベルポリシー学習。 このフレームワークはフィードバックを使って、高いレベルのポリシーを反復的に調整し、検証し、スキルライブラリ内の低レベルのポリシーと共に保存する。 新しいタスクに遭遇すると、hi-coreはこのライブラリから関連する経験を取得して学習する。 Minigridの実験を通じて、Hi-CoreはさまざまなCRLタスクの処理の有効性を実証した。

The ability to learn continuously in dynamic environments is a crucial requirement for reinforcement learning (RL) agents applying in the real world. Despite the progress in continual reinforcement learning (CRL), existing methods often suffer from insufficient knowledge transfer, particularly when the tasks are diverse. To address this challenge, we propose a new framework, Hierarchical Continual reinforcement learning via large language model (Hi-Core), designed to facilitate the transfer of high-level knowledge. Hi-Core orchestrates a twolayer structure: high-level policy formulation by a large language model (LLM), which represents agenerates a sequence of goals, and low-level policy learning that closely aligns with goal-oriented RL practices, producing the agent's actions in response to the goals set forth. The framework employs feedback to iteratively adjust and verify highlevel policies, storing them along with low-level policies within a skill library. When encountering a new task, Hi-Core retrieves relevant experience from this library to help to learning. Through experiments on Minigrid, Hi-Core has demonstrated its effectiveness in handling diverse CRL tasks, which outperforms popular baselines.
翻訳日:2024-02-02 18:28:53 公開日:2024-02-01
# ガウス混合モデルと負ガウス混合勾配の拡散モデル条件付け

Diffusion Model Conditioning on Gaussian Mixture Model and Negative Gaussian Mixture Gradient ( http://arxiv.org/abs/2401.11261v2 )

ライセンス: Link先を確認
Weiguo Lu, Xuan Wu, Deng Ding, Jinqiao Duan, Jirong Zhuang, Gangnan Yuan(参考訳) 拡散モデル(DM)は、画像合成などに大きな影響を与える生成モデルの一種である。 彼らは様々な生成タスクで最先端の成果を達成する。 テキストやバウンディングボックスなどの条件入力の多様性は、生成を制御するために利用することができる。 本研究では,ガウス混合モデル(GMM)を特徴条件として用いた条件付け機構を提案する。 集合論に基づいて,特徴量とクラスに基づく条件付き潜伏分布が著しく異なることを示す包括的な理論的解析を行い,特徴量に対する条件付き潜伏分布は,クラス上での条件付けよりも欠陥発生が少ないことを示す。 ガウス混合モデルに条件付き2つの拡散モデルの比較を行った。 実験は我々の発見を裏付ける。 負ガウス混合勾配 (NGMG) と呼ばれる新しい勾配関数を提案し, 追加分類器を用いた拡散モデルトレーニングに応用した。 訓練の安定性が向上した。 また,低次元多様体が支持する学習分布を学習する場合,ngmgは地球移動距離 (wasserstein) と同じ利点を,より賢明なコスト関数として持つことを理論的に証明した。

Diffusion models (DMs) are a type of generative model that has a huge impact on image synthesis and beyond. They achieve state-of-the-art generation results in various generative tasks. A great diversity of conditioning inputs, such as text or bounding boxes, are accessible to control the generation. In this work, we propose a conditioning mechanism utilizing Gaussian mixture models (GMMs) as feature conditioning to guide the denoising process. Based on set theory, we provide a comprehensive theoretical analysis that shows that conditional latent distribution based on features and classes is significantly different, so that conditional latent distribution on features produces fewer defect generations than conditioning on classes. Two diffusion models conditioned on the Gaussian mixture model are trained separately for comparison. Experiments support our findings. A novel gradient function called the negative Gaussian mixture gradient (NGMG) is proposed and applied in diffusion model training with an additional classifier. Training stability has improved. We also theoretically prove that NGMG shares the same benefit as the Earth Mover distance (Wasserstein) as a more sensible cost function when learning distributions supported by low-dimensional manifolds.
翻訳日:2024-02-02 18:28:29 公開日:2024-02-01
# Langevin Unlearning: 機械学習のためのノイズの多い勾配の新たな視点

Langevin Unlearning: A New Perspective of Noisy Gradient Descent for Machine Unlearning ( http://arxiv.org/abs/2401.10371v3 )

ライセンス: Link先を確認
Eli Chien, Haoyu Wang, Ziang Chen, Pan Li(参考訳) 機械学習は「忘れられる権利」を保障する法律の採用で大きな関心を集めている。 研究者は、差分プライバシー(DP)という同様の定義の下で、近似的アンラーニングという確率論的概念を提供し、プライバシーはスクラッチから再トレーニングするための統計的不明瞭さとして定義される。 我々は,無学習問題に対するプライバシ保証を伴う騒音勾配降下に基づく無学習フレームワークlangevin unlearningを提案する。 Langevin unlearningは、DP学習プロセスとプライバシ認定未学習プロセスを、多くのアルゴリズム上の利点で統合する。 これには、非凸問題に対する近似認定アンラーニング、再トレーニングに対する複雑さの節約、複数のアンラーニング要求に対するシーケンシャルおよびバッチアンラーニングが含まれる。 ベンチマークデータセットを用いた実験により,Langevin Unlearningのプライバシ・ユーティリティ・複雑さトレードオフを検証し,その実用性を検証した。

Machine unlearning has raised significant interest with the adoption of laws ensuring the ``right to be forgotten''. Researchers have provided a probabilistic notion of approximate unlearning under a similar definition of Differential Privacy (DP), where privacy is defined as statistical indistinguishability to retraining from scratch. We propose Langevin unlearning, an unlearning framework based on noisy gradient descent with privacy guarantees for approximate unlearning problems. Langevin unlearning unifies the DP learning process and the privacy-certified unlearning process with many algorithmic benefits. These include approximate certified unlearning for non-convex problems, complexity saving compared to retraining, sequential and batch unlearning for multiple unlearning requests. We verify the practicality of Langevin unlearning by studying its privacy-utility-complexity trade-off via experiments on benchmark datasets, and also demonstrate its superiority against gradient-decent-plus-output-perturbation based approximate unlearning.
翻訳日:2024-02-02 18:28:09 公開日:2024-02-01
# 時空間偏微分方程式の逆問題に対する物理制約畳み込みニューラルネットワーク

Physics-constrained convolutional neural networks for inverse problems in spatiotemporal partial differential equations ( http://arxiv.org/abs/2401.10306v2 )

ライセンス: Link先を確認
Daniel Kelshaw, Luca Magri(参考訳) 物理制約付き畳み込みニューラルネットワーク(PC-CNN)を用いて,空間と時間の両方で非線形かつ異なる偏微分方程式(PDE)の2種類の逆問題の解法を提案する。 第1の逆問題では、空間的に変化する系統的誤り(すなわち、認識的不確実性として知られるバイアス)によって相殺されるデータが得られる。 タスクは、偏りのあるデータから真の状態を明らかにすることであり、これはPDEの解である。 第2の逆問題では、PDEの解についてスパース情報を与えられる。 課題は高解像度で解を宇宙空間で再構築することである。 まず,PC-CNNを提案する。PC-CNNは,シーケンシャルデータを扱うための単純な時間ウィンドウ方式でPDEを制約する。 第2に,pc-cnnの性能をバイアスデータから解き出すために分析する。 乱流の時空間的カオス力学を支配する線形および非線形対流拡散方程式とナビエ・ストークス方程式を解析した。 pc-cnnは、非凸関数としてパラメータ化される様々なバイアスの真の解を正しく回復する。 第3に, 乱流のバイアスデータから解を再構成するためのPC-CNNの性能解析を行った。 高分解能グリッド上の時空間カオス解を,その情報のうち2\%のみから再構成する。 どちらのタスクでも、navier-stokesソリューションをさらに分析します。 推定された解は物理的スペクトルエネルギーを持つが、補間のような従来の方法ではそうではない。 この研究は偏微分方程式による逆問題を解く機会を開く。

We propose a physics-constrained convolutional neural network (PC-CNN) to solve two types of inverse problems in partial differential equations (PDEs), which are nonlinear and vary both in space and time. In the first inverse problem, we are given data that is offset by spatially varying systematic error (i.e., the bias, also known as the epistemic uncertainty). The task is to uncover from the biased data the true state, which is the solution of the PDE. In the second inverse problem, we are given sparse information on the solution of a PDE. The task is to reconstruct the solution in space with high-resolution. First, we present the PC-CNN, which constrains the PDE with a simple time-windowing scheme to handle sequential data. Second, we analyse the performance of the PC-CNN for uncovering solutions from biased data. We analyse both linear and nonlinear convection-diffusion equations, and the Navier-Stokes equations, which govern the spatiotemporally chaotic dynamics of turbulent flows. We find that the PC-CNN correctly recovers the true solution for a variety of biases, which are parameterised as non-convex functions. Third, we analyse the performance of the PC-CNN for reconstructing solutions from biased data for the turbulent flow. We reconstruct the spatiotemporal chaotic solution on a high-resolution grid from only 2\% of the information contained in it. For both tasks, we further analyse the Navier-Stokes solutions. We find that the inferred solutions have a physical spectral energy content, whereas traditional methods, such as interpolation, do not. This work opens opportunities for solving inverse problems with partial differential equations.
翻訳日:2024-02-02 18:27:51 公開日:2024-02-01
# MAMBA:ビデオオブジェクト検出のためのメモリバンクによる多レベルアグリゲーション

MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection ( http://arxiv.org/abs/2401.09923v2 )

ライセンス: Link先を確認
Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson(参考訳) 最先端のビデオオブジェクト検出手法は、スライディングウィンドウまたはメモリキューのメモリ構造を保持し、注意機構を用いて現在のフレームを強化する。 しかし、これらのメモリ構造は、(1)メモリの全ての特徴を集約して拡張し、計算コストを増大させ、(2)フレームワイドメモリの更新を行い、メモリがより時間的情報を取得するのを防ぐという2つの命令によって効率的あるいは十分ではない。 本稿では,MAMBAと呼ばれるメモリバンクを用いたマルチレベルアグリゲーションアーキテクチャを提案する。 具体的には,(1)計算コストを大幅に削減できる軽量キーセットの構築,(2)映像全体から知識を活用可能な細粒度機能更新戦略という,既存の手法の欠点を解消するために,2つの新手法を採用している。 特徴マップや提案といった相補的なレベルから機能を強化するために,多段階特徴を統一的に集約する汎用拡張演算(GEO)を提案する。 課題であるImageNetVIDデータセットについて広範な評価を行う。 従来の最先端手法と比較して,本手法は速度と精度の両面で優れた性能を実現する。 さらに驚くべきことに、MAMBAはResNet-101で83.7/84.6%のmAPを12.6/9.1 FPSで達成している。 コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。

State-of-the-art video object detection methods maintain a memory structure, either a sliding window or a memory queue, to enhance the current frame using attention mechanisms. However, we argue that these memory structures are not efficient or sufficient because of two implied operations: (1) concatenating all features in memory for enhancement, leading to a heavy computational cost; (2) frame-wise memory updating, preventing the memory from capturing more temporal information. In this paper, we propose a multi-level aggregation architecture via memory bank called MAMBA. Specifically, our memory bank employs two novel operations to eliminate the disadvantages of existing methods: (1) light-weight key-set construction which can significantly reduce the computational cost; (2) fine-grained feature-wise updating strategy which enables our method to utilize knowledge from the whole video. To better enhance features from complementary levels, i.e., feature maps and proposals, we further propose a generalized enhancement operation (GEO) to aggregate multi-level features in a unified manner. We conduct extensive evaluations on the challenging ImageNetVID dataset. Compared with existing state-of-the-art methods, our method achieves superior performance in terms of both speed and accuracy. More remarkably, MAMBA achieves mAP of 83.7/84.6% at 12.6/9.1 FPS with ResNet-101. Code is available at https://github.com/guanxiongsun/vfe.pytorch.
翻訳日:2024-02-02 18:27:25 公開日:2024-02-01
# Heterophilyでグラフから学ぶ - 進歩と未来

Learning from Graphs with Heterophily: Progress and Future ( http://arxiv.org/abs/2401.09769v2 )

ライセンス: Link先を確認
Chenghua Gong, Yao Cheng, Xiang Li, Caihua Shan, Siqiang Luo(参考訳) グラフは、現実世界のエンティティ間の複雑な関係をモデル化する構造化データである。 連結ノードが異なるラベルや異種な特徴を持つ傾向にあるヘテロフィルスグラフは、最近大きな注目を集め、多くのアプリケーションを発見した。 一方、異種グラフからの学習を促進する努力が増加している。 関連するトピックに関する調査は存在するが、ヘテロ親和性グラフ学習のサブトピックであるヘテロ親和性GNNに焦点を当てている。 本調査では、ヘテロフィリーグラフによる学習に関する既存の研究を概観し、まず180以上の出版物を収集し、その分野の発展を紹介する。 そこで我々は,学習戦略,モデルアーキテクチャ,実践的応用を含む階層的分類に基づく既存手法を体系的に分類する。 最後に、既存の研究の主な課題を議論し、今後の研究に有望な道筋を強調する。出版の詳細と対応するオープンソースコードにアクセスして、リポジトリで継続的に更新します。

Graphs are structured data that models complex relations between real-world entities. Heterophilous graphs, where linked nodes are prone to be with different labels or dissimilar features, have recently attracted significant attention and found many applications. Meanwhile, increasing efforts have been made to advance learning from heterophilous graphs. Although there exist surveys on the relevant topic, they focus on heterophilous GNNs, which are only sub-topics of heterophilous graph learning. In this survey, we comprehensively overview existing works on learning from graphs with heterophily.First, we collect over 180 publications and introduce the development of this field. Then, we systematically categorize existing methods based on a hierarchical taxonomy including learning strategies, model architectures and practical applications. Finally, we discuss the primary challenges of existing studies and highlight promising avenues for future research.More publication details and corresponding open-source codes can be accessed and will be continuously updated at our repositories:https://github.com/gongchenghua/Awesome-Survey-Graphs-with-Heterophily.
翻訳日:2024-02-02 18:27:00 公開日:2024-02-01
# GDはカットしない:非微分可能性がニューラルネットワークトレーニングに影響を及ぼす3つの方法

GD doesn't make the cut: Three ways that non-differentiability affects neural network training ( http://arxiv.org/abs/2401.08426v2 )

ライセンス: Link先を確認
Siddharth Krishna Kumar(参考訳) 本稿では,非微分可能関数(NGDM)に適用される勾配法と,微分可能関数用に設計された古典的勾配勾配(GD)とを区別する。 まず,gdsと比較してngdmの収束特性に有意差があることを示し,l-smoothness$を非smoothニューラルネットワークに適用した広範なニューラルネットワーク収束文献の適用性に挑戦した。 次に、l_{1}$-正規化問題に対するngdm解のパラドックス的性質を示し、正規化ペナルティの増加はngdmにおける最適解の$l_{1}$ノルムの増加をもたらすことを示した。 その結果,ネットワークプルーニングにおいて広く採用されている$l_{1}$ペナリゼーションに基づく手法では,期待値が得られないことが判明した。 最後に、リプシッツ連続凸微分関数にも適用不可能であることを示し、非凸微分可能ニューラルネットワークとの関連性について検討する。 本分析では, 強い滑らか性仮定への過度な依存から, 広く引用されている論文やテキストにおいて, NGDMの誤った解釈を提示し, 基礎的仮定の微妙な理解の必要性を強調した。

This paper investigates the distinctions between gradient methods applied to non-differentiable functions (NGDMs) and classical gradient descents (GDs) designed for differentiable functions. First, we demonstrate significant differences in the convergence properties of NGDMs compared to GDs, challenging the applicability of the extensive neural network convergence literature based on $L-smoothness$ to non-smooth neural networks. Next, we demonstrate the paradoxical nature of NGDM solutions for $L_{1}$-regularized problems, showing that increasing the regularization penalty leads to an increase in the $L_{1}$ norm of optimal solutions in NGDMs. Consequently, we show that widely adopted $L_{1}$ penalization-based techniques for network pruning do not yield expected results. Finally, we explore the Edge of Stability phenomenon, indicating its inapplicability even to Lipschitz continuous convex differentiable functions, leaving its relevance to non-convex non-differentiable neural networks inconclusive. Our analysis exposes misguided interpretations of NGDMs in widely referenced papers and texts due to an overreliance on strong smoothness assumptions, emphasizing the necessity for a nuanced understanding of foundational assumptions in the analysis of these systems.
翻訳日:2024-02-02 18:26:42 公開日:2024-02-01
# プライバシー保護型適応実験設計

Privacy Preserving Adaptive Experiment Design ( http://arxiv.org/abs/2401.08224v3 )

ライセンス: Link先を確認
Jiachun Li, Kaining Shi and David Simchi-Levi(参考訳) 適応実験は、臨床試験やその他の多くのシナリオで条件付き平均治療効果(cate)を推定するために広く採用されている。 実験の主目的は,社会的福祉の必須性から,推定精度を最大化することであるが,文脈的バンディットフレームワークにおける後悔によって測定される患者に優れた結果をもたらす治療を行うことも重要である。 これらの2つの目的はしばしばコントラスト最適割当機構に繋がる。 さらに、患者の健康記録のような機密データを含む臨床シナリオにプライバシー上の懸念が生じる。 したがって, 堅牢なプライバシー保護対策を組み込むためには, 治療割当機構が不可欠である。 本稿では,社会福祉の喪失と統計力とのトレードオフを文脈的バンディット実験で検討する。 多目的最適化問題に対して一致した上界と下界を提案し、次いでパレート最適性の概念を採用して最適条件を数学的に特徴づける。 さらに,プライバシが「ほぼ自由」であることを示す,下限にまだ一致する微分プライベートアルゴリズムを提案する。 さらに,統計的推論や仮説検定に必須な推定器の漸近正規性も導出する。

Adaptive experiment is widely adopted to estimate conditional average treatment effect (CATE) in clinical trials and many other scenarios. While the primary goal in experiment is to maximize estimation accuracy, due to the imperative of social welfare, it's also crucial to provide treatment with superior outcomes to patients, which is measured by regret in contextual bandit framework. These two objectives often lead to contrast optimal allocation mechanism. Furthermore, privacy concerns arise in clinical scenarios containing sensitive data like patients health records. Therefore, it's essential for the treatment allocation mechanism to incorporate robust privacy protection measures. In this paper, we investigate the tradeoff between loss of social welfare and statistical power in contextual bandit experiment. We propose a matched upper and lower bound for the multi-objective optimization problem, and then adopt the concept of Pareto optimality to mathematically characterize the optimality condition. Furthermore, we propose differentially private algorithms which still matches the lower bound, showing that privacy is "almost free". Additionally, we derive the asymptotic normality of the estimator, which is essential in statistical inference and hypothesis testing.
翻訳日:2024-02-02 18:26:19 公開日:2024-02-01
# UV-SAM: 都市識別のためのセグメントモデル

UV-SAM: Adapting Segment Anything Model for Urban Village Identification ( http://arxiv.org/abs/2401.08083v2 )

ライセンス: Link先を確認
Xin Zhang, Yu Liu, Yuming Lin, Qingmin Liao, Yong Li(参考訳) 都市中心部や周辺の非公式住宅地として定義される都市村は、貧困、適切な住宅、持続可能な都市に関する持続可能な開発目標(sdgs)と密接に関連した、不十分なインフラと貧弱な生活条件によって特徴づけられる。 伝統的に、政府は都市村を監視するための現地調査手法に大きく依存しており、それは時間がかかり、労働集約的であり、おそらく遅れている。 衛星画像の広範かつタイムリーな更新により、近年の研究では、都市村を効率的に検出するためのコンピュータビジョン技術が開発されている。 しかし、既存の研究は単純な都市村のイメージ分類にフォーカスするか、正確な境界情報の提供に失敗している。 衛星画像から都市境界を正確に同定するために,視覚基盤モデルのパワーを活用し,Segment Anything Model(SAM)をUV-SAMという都市分割に適用する。 具体的には、UV-SAMは、まず小さなセマンティックセグメンテーションモデルを利用して、マスク、バウンディングボックス、画像表現を含む都市村の混合プロンプトを生成し、それをSAMに供給し、きめ細かい境界識別を行う。 中国における2つのデータセットに関する広範な実験の結果は、uv-samが既存のベースラインよりも優れており、何年にもわたっての識別結果から、都市村の数と面積は時間とともに減少しており、都市村の発展トレンドに関する深い洞察を与え、持続可能な都市のビジョン基盤モデルに光を当てている。 この研究のデータセットとコードはhttps://github.com/tsinghua-fib-lab/UV-SAMで公開されている。

Urban villages, defined as informal residential areas in or around urban centers, are characterized by inadequate infrastructures and poor living conditions, closely related to the Sustainable Development Goals (SDGs) on poverty, adequate housing, and sustainable cities. Traditionally, governments heavily depend on field survey methods to monitor the urban villages, which however are time-consuming, labor-intensive, and possibly delayed. Thanks to widely available and timely updated satellite images, recent studies develop computer vision techniques to detect urban villages efficiently. However, existing studies either focus on simple urban village image classification or fail to provide accurate boundary information. To accurately identify urban village boundaries from satellite images, we harness the power of the vision foundation model and adapt the Segment Anything Model (SAM) to urban village segmentation, named UV-SAM. Specifically, UV-SAM first leverages a small-sized semantic segmentation model to produce mixed prompts for urban villages, including mask, bounding box, and image representations, which are then fed into SAM for fine-grained boundary identification. Extensive experimental results on two datasets in China demonstrate that UV-SAM outperforms existing baselines, and identification results over multiple years show that both the number and area of urban villages are decreasing over time, providing deeper insights into the development trends of urban villages and sheds light on the vision foundation models for sustainable cities. The dataset and codes of this study are available at https://github.com/tsinghua-fib-lab/UV-SAM.
翻訳日:2024-02-02 18:26:02 公開日:2024-02-01
# 固有次元を用いた量子多体傷の教師なし学習

Unsupervised learning of quantum many-body scars using intrinsic dimension ( http://arxiv.org/abs/2401.07795v2 )

ライセンス: Link先を確認
Harvey Cao, Dimitris G. Angelakis, Daniel Leykam(参考訳) 量子多体散乱系は熱的および非熱的散乱固有状態の両方をスペクトルに含んでいる。 これらの系が、希少な固有状態と高い重なり合いを持つ特別な初期状態から切り離された場合、システムは非典型的には緩やかな緩和と周期的回復を伴うダイナミクスを実行する。 このスカーリング現象は、様々な量子工学の応用においてデコヒーレンスを回避するための潜在的な道のりとなる。 未知のスカーシステムにアクセスすると、非熱力学につながる特別な状態を特定するための現在のアプローチは、絡み合いエントロピーのようなコストのかかる尺度に依存する。 本研究では,多次元スケーリングと固有次元推定という2つの次元削減手法を用いて,PXPモデルにおける力学の構造特性を学習し,熱的および傷跡の初期状態の区別を行う方法について述べる。 後者の手法は, 限られた試料径と実験測定誤差に対して頑健であることを示す。

Quantum many-body scarred systems contain both thermal and non-thermal scar eigenstates in their spectra. When these systems are quenched from special initial states which share high overlap with scar eigenstates, the system undergoes dynamics with atypically slow relaxation and periodic revival. This scarring phenomenon poses a potential avenue for circumventing decoherence in various quantum engineering applications. Given access to an unknown scar system, current approaches for identification of special states leading to non-thermal dynamics rely on costly measures such as entanglement entropy. In this work, we show how two dimensionality reduction techniques, multidimensional scaling and intrinsic dimension estimation, can be used to learn structural properties of dynamics in the PXP model and distinguish between thermal and scar initial states. The latter method is shown to be robust against limited sample sizes and experimental measurement errors.
翻訳日:2024-02-02 18:25:29 公開日:2024-02-01
# 小さなLLMは弱いツール学習者:マルチLLMエージェント

Small LLMs Are Weak Tool Learners: A Multi-LLM Agent ( http://arxiv.org/abs/2401.07324v2 )

ライセンス: Link先を確認
Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang(参考訳) 大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張し、外部ツール(API、関数など)と対話し、自己指向的な複雑なタスクを完了させる。 ツール利用の課題は、LCMがユーザクエリを理解し、回答を生成するだけでなく、タスク計画、メモリ管理、ツールの実行、結果の要約にも長けていることである。 従来のアプローチでは、これらすべての機能で単一のLLMをトレーニングすることに重点を置いているが、特に小さなモデルでは、パフォーマンス上の制限が明らかになっている。 さらに、LDM全体がツールの更新時に再トレーニングを必要とする場合がある。 これらの課題を克服するため,我々は,上記の機能をプランナー,呼び出し元,要約元に分解する新しい戦略を提案する。 各コンポーネントは、特定の機能に焦点を当てた単一のLCMによって実装され、タスクを達成するために他のコンポーネントと協調する。 このモジュール化フレームワークは、個々の更新と、各機能を構築するためのより小さなllmの使用を促進する。 このフレームワークを効果的にトレーニングするために,2段階のトレーニングパラダイムを導入する。 まず、サブタスクを識別することなく、データセット全体のバックボーンLDMを微調整し、タスクを包括的に理解するモデルを提供する。 次に、微調整LDMを用いて、各サブタスク上で連続的に微調整されるプランナー、呼び出し元、および要約器をインスタンス化する。 ツール使用ベンチマークによる評価は,提案したマルチLLMフレームワークが従来の単一LLMアプローチを超越していることを示し,ツール学習の有効性とメリットを強調している。

Large Language Model (LLM) agents significantly extend the capabilities of standalone LLMs, empowering them to interact with external tools (e.g., APIs, functions) and complete complex tasks in a self-directed fashion. The challenge of tool use demands that LLMs not only understand user queries and generate answers but also excel in task planning, memory management, tool invocation, and result summarization. While traditional approaches focus on training a single LLM with all these capabilities, performance limitations become apparent, particularly with smaller models. Moreover, the entire LLM may require retraining when tools are updated. To overcome these challenges, we propose a novel strategy that decomposes the aforementioned capabilities into a planner, caller, and summarizer. Each component is implemented by a single LLM that focuses on a specific capability and collaborates with other components to accomplish the task. This modular framework facilitates individual updates and the potential use of smaller LLMs for building each capability. To effectively train this framework, we introduce a two-stage training paradigm. First, we fine-tune a backbone LLM on the entire dataset without discriminating sub-tasks, providing the model with a comprehensive understanding of the task. Second, the fine-tuned LLM is used to instantiate the planner, caller, and summarizer respectively, which are continually fine-tuned on respective sub-tasks. Evaluation across various tool-use benchmarks illustrates that our proposed multi-LLM framework surpasses the traditional single-LLM approach, highlighting its efficacy and advantages in tool learning.
翻訳日:2024-02-02 18:24:48 公開日:2024-02-01
# レビュー自動化のためのゼロショット大言語モデル

Zero-shot Generative Large Language Models for Systematic Review Screening Automation ( http://arxiv.org/abs/2401.06320v2 )

ライセンス: Link先を確認
Shuai Wang, Harrisen Scells, Shengyao Zhuang, Martin Potthast, Bevan Koopman, Guido Zuccon(参考訳) 体系的レビューは、特定の質問に関する研究成果を包括的に分析する上で、エビデンスベースの医療にとって不可欠である。 このようなレビューの実施は、特にレビューに含めるために出版物の要約を評価するスクリーニングフェーズにおいて、リソースと時間に重きを置くことが多い。 本研究では,ゼロショット大言語モデル~(LLM)を用いた自動スクリーニングの有効性を検討した。 我々は,8種類のLCMの有効性を評価し,事前定義されたリコール閾値を用いて,出版物を体系的なレビューに含めるべきかどうかを判定する校正手法を検討した。 5つの標準テストコレクションを用いた包括的評価により,指示の微調整がスクリーニングにおいて重要な役割を担っていること,キャリブレーションが目標リコールを達成するためにllmを実用的なものにすること,ゼロショットモデルのアンサンブルと組み合わせることで,最先端のアプローチに比べて大きなスクリーニング時間を節約できることが確認された。

Systematic reviews are crucial for evidence-based medicine as they comprehensively analyse published research findings on specific questions. Conducting such reviews is often resource- and time-intensive, especially in the screening phase, where abstracts of publications are assessed for inclusion in a review. This study investigates the effectiveness of using zero-shot large language models~(LLMs) for automatic screening. We evaluate the effectiveness of eight different LLMs and investigate a calibration technique that uses a predefined recall threshold to determine whether a publication should be included in a systematic review. Our comprehensive evaluation using five standard test collections shows that instruction fine-tuning plays an important role in screening, that calibration renders LLMs practical for achieving a targeted recall, and that combining both with an ensemble of zero-shot models saves significant screening time compared to state-of-the-art approaches.
翻訳日:2024-02-02 18:24:21 公開日:2024-02-01
# 微調整音源分離器のアンサンブルを用いた補聴器用リミックス音楽

Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators ( http://arxiv.org/abs/2401.06203v2 )

ライセンス: Link先を確認
Matthew Daly(参考訳) 本稿では, 補聴器利用者を対象としたリミックス・エンハンスメントの課題を提示する Cadenza ICASSP 2024 Grand Challenge のシステム提案について紹介する。 本システムでは, 評価データセットにおいて, 平均聴力支援音質指標(HAAQI)の得点を達成し, 課題に先んじた。 本稿では,チャレンジデータに基づいて微調整された深層学習音源分離器を用いたシステムについて述べる。 課題の結果からシステムの有効性を実証し,アブレーション研究によって異なるシステム側面の重要性を分析する。

This paper introduces our system submission for the Cadenza ICASSP 2024 Grand Challenge, which presents the problem of remixing and enhancing music for hearing aid users. Our system placed first in the challenge, achieving the best average Hearing-Aid Audio Quality Index (HAAQI) score on the evaluation data set. We describe the system, which uses an ensemble of deep learning music source separators that are fine tuned on the challenge data. We demonstrate the effectiveness of our system through the challenge results and analyze the importance of different system aspects through ablation studies.
翻訳日:2024-02-02 18:24:03 公開日:2024-02-01
# lingualchemy:unseen言語一般化のための類型的および地理的要素の使用

LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization ( http://arxiv.org/abs/2401.06034v2 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Alham Fikri Aji, Genta Indra Winata, Ayu Purwarianti(参考訳) 事前訓練言語モデル(PLM)は、複数のタスクや言語に対する顕著な一般化を示している。 それでも、PLMの未確認言語への一般化は貧弱であり、言語性能は著しく悪化し、ランダムなベースラインに匹敵する非感覚的な応答も生成する。 この制限はplmの長年の問題であり、多様性と言語モデリング技術への平等なアクセスの問題を提起している。 そこで本研究では,plmの表現を定型的,地理的,系統的に制約し,対応する言語的制約をよりよく特徴付けるための多面的言語を包含する正規化手法であるlingualchemyを導入することで,この制限を解消する。 LinguAlchemyは、完全に微調整されたモデルと比較して、mBERT と XLM-R の未確認言語での精度を ~18% と ~2% に向上させる。 さらに,言語規則化の重み付けを自動的に調整するLinguAlchemyの拡張であるAlchemyScaleとAlchemyTuneを導入し,ハイパーパラメータ検索の必要性を軽減する。 LinguAlchemyは、PLMのより優れたアクセシビリティとアクセシビリティのために欠かせない言語に対して、より優れた言語間一般化を可能にする。

Pretrained language models (PLMs) have shown remarkable generalization toward multiple tasks and languages. Nonetheless, the generalization of PLMs towards unseen languages is poor, resulting in significantly worse language performance, or even generating nonsensical responses that are comparable to a random baseline. This limitation has been a longstanding problem of PLMs raising the problem of diversity and equal access to language modeling technology. In this work, we solve this limitation by introducing LinguAlchemy, a regularization technique that incorporates various aspects of languages covering typological, geographical, and phylogenetic constraining the resulting representation of PLMs to better characterize the corresponding linguistics constraints. LinguAlchemy significantly improves the accuracy performance of mBERT and XLM-R on unseen languages by ~18% and ~2%, respectively compared to fully finetuned models and displaying a high degree of unseen language generalization. We further introduce AlchemyScale and AlchemyTune, extension of LinguAlchemy which adjusts the linguistic regularization weights automatically, alleviating the need for hyperparameter search. LinguAlchemy enables better cross-lingual generalization to unseen languages which is vital for better inclusivity and accessibility of PLMs.
翻訳日:2024-02-02 18:23:50 公開日:2024-02-01
# UNSEE: 教師なしの非コントラスト文の埋め込み

UNSEE: Unsupervised Non-contrastive Sentence Embeddings ( http://arxiv.org/abs/2401.15316v2 )

ライセンス: Link先を確認
\"Omer Veysel \c{C}a\u{g}atan(参考訳) UNSEE: Unsupervised Non-Contrastive Sentence Embeddingsは、Massive Text EmbeddingベンチマークにおいてSimCSEを上回った新しいアプローチである。 我々の探索は、SimCSEのコントラスト目的を非コントラスト目的に置き換えたときに観察される現象である表現崩壊の課題に対処することから始まる。 この問題に対処するために,ターゲットネットワークと呼ばれる簡単な解を提案し,表現の崩壊を効果的に緩和する。 目標ネットワークの導入により,非一貫性目標の活用,トレーニング安定性の維持,コントラスト目標に匹敵するパフォーマンス向上が実現できます。 本手法は,微調整と最適化により,非コントラスト文の埋め込みにおいてピーク性能を達成した。 この包括的努力により,提案手法の有効性を示す優れた文表現モデルが得られた。

We present UNSEE: Unsupervised Non-Contrastive Sentence Embeddings, a novel approach that outperforms SimCSE in the Massive Text Embedding benchmark. Our exploration begins by addressing the challenge of representation collapse, a phenomenon observed when contrastive objectives in SimCSE are replaced with non-contrastive objectives. To counter this issue, we propose a straightforward solution known as the target network, effectively mitigating representation collapse. The introduction of the target network allows us to leverage non-contrastive objectives, maintaining training stability while achieving performance improvements comparable to contrastive objectives. Our method has achieved peak performance in non-contrastive sentence embeddings through meticulous fine-tuning and optimization. This comprehensive effort has yielded superior sentence representation models, showcasing the effectiveness of our approach.
翻訳日:2024-02-02 18:17:15 公開日:2024-02-01
# タンパク質-リガンド結合ダイナミクス学習のための多点対称微分方程式モデル

A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics ( http://arxiv.org/abs/2401.15122v2 )

ライセンス: Link先を確認
Shengchao Liu, Weitao Du, Yanjing Li, Zhuoxinran Li, Vignesh Bhethanabotla, Nakul Rampal, Omar Yaghi, Christian Borgs, Anima Anandkumar, Hongyu Guo, Jennifer Chayes(参考訳) 薬物発見において、タンパク質リガンド結合の分子動力学(MD)シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケット部位を探索する強力なツールを提供する。 MDシミュレーションの効率向上には,より優れた数値手法による長い歴史があり,最近では機械学習(ML)手法を用いている。 しかし、拡張時間スケールシミュレーションの正確なモデリングのような課題は残っている。 この問題に対処するために,数値MDを容易にし,タンパク質リガンド結合の正確なシミュレーションを提供する最初のMLサロゲートであるNeuralMDを提案する。 本稿では,新しい物理インフォームド多粒性群対称フレームワークを取り入れた原理的アプローチを提案する。 具体的には,(1)ベクトルフレームを用いて群対称性を満足し,多レベルタンパク質-リガンド相互作用を捉えるBindingNetモデル,(2)ニュートン力学の下で軌道を学習する拡張神経微分方程式解法を提案する。 実験では,シングルトラジェクタ10タスクとマルチトラジェクタ結合シミュレーション3タスクを設計する。 我々は、標準的な数値MDシミュレーションよりも2000$\times$のスピードアップを達成し、安定性の指標の下で、他のMLアプローチよりも最大80%高い効率で、NeuralMDの有効性と有効性を示す。 さらに、他の機械学習手法と比較して、NeuralMDがより安定したバインディング予測に達することを示す。

In drug discovery, molecular dynamics (MD) simulation for protein-ligand binding provides a powerful tool for predicting binding affinities, estimating transport properties, and exploring pocket sites. There has been a long history of improving the efficiency of MD simulations through better numerical methods and, more recently, by utilizing machine learning (ML) methods. Yet, challenges remain, such as accurate modeling of extended-timescale simulations. To address this issue, we propose NeuralMD, the first ML surrogate that can facilitate numerical MD and provide accurate simulations in protein-ligand binding. We propose a principled approach that incorporates a novel physics-informed multi-grained group symmetric framework. Specifically, we propose (1) a BindingNet model that satisfies group symmetry using vector frames and captures the multi-level protein-ligand interactions, and (2) an augmented neural differential equation solver that learns the trajectory under Newtonian mechanics. For the experiment, we design ten single-trajectory and three multi-trajectory binding simulation tasks. We show the efficiency and effectiveness of NeuralMD, with a 2000$\times$ speedup over standard numerical MD simulation and outperforming all other ML approaches by up to 80% under the stability metric. We further qualitatively show that NeuralMD reaches more stable binding predictions compared to other machine learning methods.
翻訳日:2024-02-02 18:17:01 公開日:2024-02-01
# mptq-vit : 視覚トランスフォーマーのための混合精度後トレーニング量子化

MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer ( http://arxiv.org/abs/2401.14895v2 )

ライセンス: Link先を確認
Yu-Shan Tai, An-Yeu (Andy) Wu(参考訳) 視覚変換器(ViT)はコンピュータビジョンタスクにおいて大きな可能性を示しているが、その強力な計算とメモリ要求は実用的な応用に挑戦する。 既存のトレーニング後の量子化法は、ViTの非正規分布に対処するために、値の再分配または特殊量化器を利用する。 しかし、アクティベーションの非対称性や手作りの設定を考慮せずに、これらの手法は低ビット量子化下での性能を維持するのに苦労することが多い。 これらの課題を克服するため,非対称性問題を軽減するため,バイアス項(SQ-b)を持つSmoothQuantを導入する。 また,データ依存機構による量子化パラメータの自動決定のための最適スケーリング係数比探索(OPT-m)を導入する。 圧縮性をさらに高めるため,上述の手法を取り入れ,視覚トランスフォーマー(mptq-vit)のための混合精度後量子化フレームワークを提案する。 モデル性能と圧縮性の両方を考慮して層状ビット幅を割り当てるgreedy mixed-precision quantization (greedy mp) を開発した。 我々のViT、DeiT、Swinに関する実験は、ImageNetデータセットのSOTAと比較して大幅に精度が向上した。 具体的には, 4ビットのvitsでは0.90%から23.35%, 5ビットの完全量子化vitsでは3.82%から78.14%まで精度が向上した。

While vision transformers (ViTs) have shown great potential in computer vision tasks, their intense computation and memory requirements pose challenges for practical applications. Existing post-training quantization methods leverage value redistribution or specialized quantizers to address the non-normal distribution in ViTs. However, without considering the asymmetry in activations and relying on hand-crafted settings, these methods often struggle to maintain performance under low-bit quantization. To overcome these challenges, we introduce SmoothQuant with bias term (SQ-b) to alleviate the asymmetry issue and reduce the clamping loss. We also introduce optimal scaling factor ratio search (OPT-m) to determine quantization parameters by a data-dependent mechanism automatically. To further enhance the compressibility, we incorporate the above-mentioned techniques and propose a mixed-precision post-training quantization framework for vision transformers (MPTQ-ViT). We develop greedy mixed-precision quantization (Greedy MP) to allocate layer-wise bit-width considering both model performance and compressibility. Our experiments on ViT, DeiT, and Swin demonstrate significant accuracy improvements compared with SOTA on the ImageNet dataset. Specifically, our proposed methods achieve accuracy improvements ranging from 0.90% to 23.35% on 4-bit ViTs with single-precision and from 3.82% to 78.14% on 5-bit fully quantized ViTs with mixed-precision.
翻訳日:2024-02-02 18:16:37 公開日:2024-02-01
# 光学格子中のボース・アインシュタイン凝縮体の干渉により形成されるソリトンシート

Soliton sheets formed by interference of Bose-Einstein condensates in optical lattices ( http://arxiv.org/abs/2401.14796v2 )

ライセンス: Link先を確認
Shusong Wang and Suying Zhang(参考訳) 単粒子状態の異なるボース・アインシュタイン凝縮体の干渉によって形成されるソリトンシートは、光学格子電位で観察される。 この構造は、光格子(y方向)のピークに沿って周期的に配置された1次元静止ソリトンで構成され、ソリトンシートの両側の位相差は各周期におけるyの線形関数であるので、ソリトンシートと呼ぶ。 ソリトンシートの両面間にはy成分速度差が存在する。 同様の速度分布は、光学格子のピークに沿った無限個の等方性渦のアライメントによって生成される。 彼らの違いは、ソリトンシート構造は位相特異点の数に制限されず、位相特異点がなくても生成可能であることである。

Soliton sheets which are formed by interference of Bose Einstein condensates occupying different single-particle states are observed in optical lattice potential. This structure consists of one-dimensional stationary solitons arranged periodically along the peaks of optical lattice (y direction) with the phase difference between the two sides of the soliton sheets is a linear function of y in each period, so we call it soliton sheet. A y component velocity difference exists between the two sides of the soliton sheet. Similar velocity distributions can be produced by the alignment of an infinite number of isotropic vortices along the peaks of the optical lattice. Their difference is that the soliton sheet structure is not limited by the number of phase singularities and can be generated even without phase singularities.
翻訳日:2024-02-02 18:16:11 公開日:2024-02-01
# 階層的トピックモデリングの親和性, 合理性, 多様性について

On the Affinity, Rationality, and Diversity of Hierarchical Topic Modeling ( http://arxiv.org/abs/2401.14113v2 )

ライセンス: Link先を確認
Xiaobao Wu, Fengjun Pan, Thong Nguyen, Yichao Feng, Chaoqun Liu, Cong-Duy Nguyen, Anh Tuan Luu(参考訳) 階層的トピックモデリングは、コーパスから潜在トピックを発見し、それらを階層構造に整理し、望ましい意味的粒度を持つドキュメントを理解することを目的としている。 しかしながら、既存の作業は、低親和性、合理性、多様性のトピック階層を生み出すことに苦労しており、ドキュメント理解を妨げている。 本稿では,これらの課題を克服するために,交通計画と文脈対応階層的トピックモデル(TraCo)を提案する。 初期の単純なトピック依存ではなく、トランスポートプラン依存手法を提案する。 依存関係を制約し、スパーシティとバランスを確保すると同時に、トピック階層の構築も規則化する。 これにより階層の親和性と多様性が向上する。 さらに,コンテキスト認識型アンタングルデコーダを提案する。 以前は絡み合ったデコードではなく、異なるレベルのトピックに異なるセマンティクスの粒度を分散する。 これは階層の合理性を促進する。 ベンチマークデータセットを用いた実験により,提案手法は最先端のベースラインを超越し,下流タスクの性能向上による階層型トピックモデリングの親和性,合理性,多様性を効果的に向上することが示された。

Hierarchical topic modeling aims to discover latent topics from a corpus and organize them into a hierarchy to understand documents with desirable semantic granularity. However, existing work struggles with producing topic hierarchies of low affinity, rationality, and diversity, which hampers document understanding. To overcome these challenges, we in this paper propose Transport Plan and Context-aware Hierarchical Topic Model (TraCo). Instead of early simple topic dependencies, we propose a transport plan dependency method. It constrains dependencies to ensure their sparsity and balance, and also regularizes topic hierarchy building with them. This improves affinity and diversity of hierarchies. We further propose a context-aware disentangled decoder. Rather than previously entangled decoding, it distributes different semantic granularity to topics at different levels by disentangled decoding. This facilitates the rationality of hierarchies. Experiments on benchmark datasets demonstrate that our method surpasses state-of-the-art baselines, effectively improving the affinity, rationality, and diversity of hierarchical topic modeling with better performance on downstream tasks.
翻訳日:2024-02-02 18:15:57 公開日:2024-02-01
# 人間の意思決定を改善するコンフォーマル予測セット

Conformal Prediction Sets Improve Human Decision Making ( http://arxiv.org/abs/2401.13744v2 )

ライセンス: Link先を確認
Jesse C. Cresswell, Yi Sui, Bhargava Kumar, No\"el Vouitsis(参考訳) 日常的なクエリに応答して、人間は明確に不確実性を信号し、不確実であるときに代替の回答を提供する。 共形予測を通じて校正された予測セットを出力する機械学習モデルは、この人間の行動を模倣している。 本研究では,共形予測セットを用いた事前登録ランダム化制御試験を行うことにより,人間による意思決定を支援するために,共形予測セットの有用性について検討する。 統計的に有意な点から、人間に共形予測を与えると、その精度は、同じカバレッジを保証する固定サイズ予測セットよりも向上する。 その結果,共形予測によるモデル不確かさの定量化は,ループ内意思決定やヒューマンaiチームにとって有用であることがわかった。

In response to everyday queries, humans explicitly signal uncertainty and offer alternative answers when they are unsure. Machine learning models that output calibrated prediction sets through conformal prediction mimic this human behaviour; larger sets signal greater uncertainty while providing alternatives. In this work, we study the usefulness of conformal prediction sets as an aid for human decision making by conducting a pre-registered randomized controlled trial with conformal prediction sets provided to human subjects. With statistical significance, we find that when humans are given conformal prediction sets their accuracy on tasks improves compared to fixed-size prediction sets with the same coverage guarantee. The results show that quantifying model uncertainty with conformal prediction is helpful for human-in-the-loop decision making and human-AI teams.
翻訳日:2024-02-02 18:15:38 公開日:2024-02-01
# 分離依存コヒーレンスを利用した光学分解能の向上

Exploiting separation-dependent coherence to boost optical resolution ( http://arxiv.org/abs/2401.13562v2 )

ライセンス: Link先を確認
Ilya Karuseichyk, Giacomo Sorelli, Vyacheslav Shatokhin, Mattia Walschaers, and Nicolas Treps(参考訳) 点状の光源を分解する問題は光学分解能のベンチマークとして機能するだけでなく、顕微鏡から天文学まで様々な応用がある。 本研究では,空間モード分割手法を用いて任意の相互整合性を共有する2つの熱源を解くことを目的とする。 我々の分析研究は、コヒーレンスと排出率がソース間の分離に依存し、かすかなソース制限に制限されないシナリオを含む。 我々は2つの相互作用する双極子の蛍光を考慮し, 放射特性のパラメータ依存性が推定の感度を増加させ, 情報減衰の持続期間を著しく延長することを示す。

The problem of resolving point-like light sources not only serves as a benchmark for optical resolution but also holds various practical applications ranging from microscopy to astronomy. In this research, we aim to resolve two thermal sources sharing arbitrary mutual coherence using the spatial mode demultiplexing technique. Our analytical study includes scenarios where the coherence and the emission rate depend on the separation between the sources, and is not limited to the faint sources limit. We consider the fluorescence of two interacting dipoles to demonstrate that the dependence of emission characteristics on the parameter of interest can boost the sensitivity of the estimation and noticeably prolong the duration of information decay.
翻訳日:2024-02-02 18:15:27 公開日:2024-02-01
# 資源制約付き非同期フェデレーション学習システムにおけるシステムバイアスの緩和

Mitigating System Bias in Resource Constrained Asynchronous Federated Learning Systems ( http://arxiv.org/abs/2401.13366v2 )

ライセンス: Link先を確認
Jikun Gao, Ioannis Mavromatis, Peizheng Li, Pietro Carnelli, Aftab Khan(参考訳) フェデレーション学習(fl)システムは、異種デバイスや非識別的に分散したデータをクライアント間で扱う際のパフォーマンス上の課題に直面している。 本稿では,AFL(Asynchronous Federated Learning)デプロイメントにおける動的グローバルモデル集約手法を提案する。 本手法は,アップロード頻度に基づいてクライアントモデル更新の重み付けをスコアし,調整し,デバイス機能の違いに対応する。 さらに、ローカルモデルをアップロードしてアイドル時間を短縮し、トレーニング効率を向上させることで、クライアントに更新されたグローバルモデルも即座に提供します。 我々は,不均質な計算制約と非iidデータを持つ10個のシミュレーションクライアントからなる afl デプロイメントにおけるアプローチを評価した。 fashionmnistデータセットを用いたシミュレーションの結果, パパヤ法とフェダシンク法と比較して,グローバルモデルの精度が10%以上,19%向上していることが示された。 動的アグリゲーション手法は, クライアント資源と統計データの不均一性に制約があるにもかかわらず, 信頼性の高いグローバルモデルトレーニングを可能にする。 これにより、現実世界のFLデプロイメントの堅牢性とスケーラビリティが向上する。

Federated learning (FL) systems face performance challenges in dealing with heterogeneous devices and non-identically distributed data across clients. We propose a dynamic global model aggregation method within Asynchronous Federated Learning (AFL) deployments to address these issues. Our aggregation method scores and adjusts the weighting of client model updates based on their upload frequency to accommodate differences in device capabilities. Additionally, we also immediately provide an updated global model to clients after they upload their local models to reduce idle time and improve training efficiency. We evaluate our approach within an AFL deployment consisting of 10 simulated clients with heterogeneous compute constraints and non-IID data. The simulation results, using the FashionMNIST dataset, demonstrate over 10% and 19% improvement in global model accuracy compared to state-of-the-art methods PAPAYA and FedAsync, respectively. Our dynamic aggregation method allows reliable global model training despite limiting client resources and statistical data heterogeneity. This improves robustness and scalability for real-world FL deployments.
翻訳日:2024-02-02 18:15:13 公開日:2024-02-01
# UMBRELLA IoTテストベッドにおけるAIユースケースの総合的な探索

Past, Present, Future: A Comprehensive Exploration of AI Use Cases in the UMBRELLA IoT Testbed ( http://arxiv.org/abs/2401.13346v2 )

ライセンス: Link先を確認
Peizheng Li, Ioannis Mavromatis, Aftab Khan(参考訳) UMBRELLAは、200以上のマルチセンサマルチワイヤレスノード、20のコラボレーティブロボット、エッジインテリジェンス対応デバイスを備えた、大規模でオープンアクセス可能なIoT(Internet of Things)エコシステムである。 本稿では,現実のIoTシステムにおけるUMBRELLAの実装と将来的な人工知能(AI)機能に関するガイドを提供する。 既存のUMBRELLAアプリケーションは4つあります。 1)問題の検出及びメンテナンス警告のトリガーのための自動街灯監視 2 低コストで空気の質感を高める建築環境のデジタル双生児。 3)コミュニケーションのオーバーヘッドを減らすための大規模フェデレーション学習フレームワーク 4)悪意のあるアクティビティを識別するコンテナ化されたアプリケーションに対する侵入検知。 さらに、UMBRELLAのポテンシャルは将来のスマートシティと、セマンティックコミュニケーションとマルチエージェント計画によって強化されたマルチロボットクラウドセンシングアプリケーションのために概説されている。 最後に、上記のユースケースを実現するために、UMBRELLAモデルパイプラインを自動化し、信頼を確立するための、カスタマイズされたMLOpsプラットフォームの必要性について論じる。

UMBRELLA is a large-scale, open-access Internet of Things (IoT) ecosystem incorporating over 200 multi-sensor multi-wireless nodes, 20 collaborative robots, and edge-intelligence-enabled devices. This paper provides a guide to the implemented and prospective artificial intelligence (AI) capabilities of UMBRELLA in real-world IoT systems. Four existing UMBRELLA applications are presented in detail: 1) An automated streetlight monitoring for detecting issues and triggering maintenance alerts; 2) A Digital twin of building environments providing enhanced air quality sensing with reduced cost; 3) A large-scale Federated Learning framework for reducing communication overhead; and 4) An intrusion detection for containerised applications identifying malicious activities. Additionally, the potential of UMBRELLA is outlined for future smart city and multi-robot crowdsensing applications enhanced by semantic communications and multi-agent planning. Finally, to realise the above use-cases we discuss the need for a tailored MLOps platform to automate UMBRELLA model pipelines and establish trust.
翻訳日:2024-02-02 18:14:43 公開日:2024-02-01
# 一般化カテゴリー探索のためのメモリ一貫性誘導二分学習

Memory Consistency Guided Divide-and-Conquer Learning for Generalized Category Discovery ( http://arxiv.org/abs/2401.13325v2 )

ライセンス: Link先を確認
Yuanpeng Tu, Zhun Zhong, Yuxi Li, Hengshuang Zhao(参考訳) 一般カテゴリー発見(GCD)は、特定のトレーニングサンプルにカテゴリラベルの一部だけが割り当てられる半教師付き学習の現実的で挑戦的な設定に対処することを目的としている。 従来の手法では、すべてのサンプルに対して、ナイーブなコントラスト学習または教師なしクラスタリングスキームを用いるのが一般的である。 それでも、訓練中のモデルの歴史的予測における固有の臨界情報を無視しているのが普通である。 具体的には、かなりの数の有意な未ラベル標本が、それらの基礎的真理カテゴリに対応する一貫性のある歴史的予測をもたらすことを実証的に明らかにする。 そこで本研究では,メモリ一貫性をガイドするDivide-and-Conquer Learning framework (MCDL)を提案する。 本フレームワークでは,2つのメモリバンクを用いてラベルなしデータの履歴予測を行い,その予測整合性の観点から各サンプルの信頼性を計測する。 信頼性の指導により、ノイズラベルの悪影響を緩和しつつ、ラベルなしデータの識別情報を十分に活用するための分割学習戦略を設計できる。 複数のベンチマークにおける広範囲な実験結果から,本手法は,一般的な画像認識と意味的シフト(cubでは+8.4%,スタンドフォード車では+8.1%)のクラスにおいて,最先端モデルよりも大きなマージンで性能が向上することを示した。

Generalized category discovery (GCD) aims at addressing a more realistic and challenging setting of semi-supervised learning, where only part of the category labels are assigned to certain training samples. Previous methods generally employ naive contrastive learning or unsupervised clustering scheme for all the samples. Nevertheless, they usually ignore the inherent critical information within the historical predictions of the model being trained. Specifically, we empirically reveal that a significant number of salient unlabeled samples yield consistent historical predictions corresponding to their ground truth category. From this observation, we propose a Memory Consistency guided Divide-and-conquer Learning framework (MCDL). In this framework, we introduce two memory banks to record historical prediction of unlabeled data, which are exploited to measure the credibility of each sample in terms of its prediction consistency. With the guidance of credibility, we can design a divide-and-conquer learning strategy to fully utilize the discriminative information of unlabeled data while alleviating the negative influence of noisy labels. Extensive experimental results on multiple benchmarks demonstrate the generality and superiority of our method, where our method outperforms state-of-the-art models by a large margin on both seen and unseen classes of the generic image recognition and challenging semantic shift settings (i.e.,with +8.4% gain on CUB and +8.1% on Standford Cars).
翻訳日:2024-02-02 18:14:15 公開日:2024-02-01
# レギュレットマッチングを用いたセルフプレイトレーニングにおけるAI力のバランス

Balancing the AI Strength of Roles in Self-Play Training with Regret Matching+ ( http://arxiv.org/abs/2401.12557v2 )

ライセンス: Link先を確認
Xiaoxi Wang(参考訳) 複数の役割を含むゲームの人工知能を訓練する場合、ゲーム内の任意のキャラクタを制御できる一般化モデルの開発は実行可能な選択肢となる。 この戦略は、トレーニングフェーズ中の計算リソースと時間を保存するだけでなく、デプロイメント時のリソース要求も低減します。 このような一般化されたモデルのトレーニングは、異なる役割を制御する場合、しばしば不均一な能力に関連する課題に直面する。 Regret Matching+をベースとした簡易な手法が提案され、様々な役割を制御する際のモデルによる強度のバランスのとれたパフォーマンスが促進される。

When training artificial intelligence for games encompassing multiple roles, the development of a generalized model capable of controlling any character within the game presents a viable option. This strategy not only conserves computational resources and time during the training phase but also reduces resource requirements during deployment. training such a generalized model often encounters challenges related to uneven capabilities when controlling different roles. A simple method is introduced based on Regret Matching+, which facilitates a more balanced performance of strength by the model when controlling various roles.
翻訳日:2024-02-02 18:13:36 公開日:2024-02-01
# 強化学習エージェントにおける創発的支配階層

Emergent Dominance Hierarchies in Reinforcement Learning Agents ( http://arxiv.org/abs/2401.12258v2 )

ライセンス: Link先を確認
Ram Rachum, Yonatan Nakar, Bill Tomlinson, Nitay Alon, Reuth Mirsky(参考訳) 現代の強化学習(RL)アルゴリズムは、様々なタスクにおいて人間より優れている。 マルチエージェント強化学習(MARL)の設定には新たな課題があり、エージェントの混合モチベーションにおける協調の成功は、個人とグループ間の微妙なバランスをとる行為に依存する。 社会的慣習や規範は、しばしば人間の制度に触発され、このバランスを取るための道具として用いられる。 本稿では,動物社会と人間社会の連携の基盤となる,基礎的でよく研究された社会慣行について考察する。 我々は、支配階層の倫理理論を人工エージェントに適用し、確立された用語と定義を可能な限り少ない修正で借用する。 明示的なプログラミングや本質的な報酬なしに活動するRLエージェントの集団は、新しい集団に支配階層を発明し、学習し、強制し、伝達することができることを示す。 支配的な階層構造は、鶏、マウス、魚、その他の種で研究されるものと類似した構造を持つ。

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.
翻訳日:2024-02-02 18:12:41 公開日:2024-02-01
# 量子コンピュータのqcdに向けて: orbifold lattice approach

Toward QCD on Quantum Computer: Orbifold Lattice Approach ( http://arxiv.org/abs/2401.12045v2 )

ライセンス: Link先を確認
Georg Bergner, Masanori Hanada, Enrico Rinaldi, Andreas Schafer(参考訳) 量子シミュレーションに適したQCDのオービフォールド格子定式化を提案する。 その利点は、量子化と切断されたハミルトニアンを非常に単純にする非コンパクト変数を使用することにある。 SU(3)ゲージ群と基本表現のクォークが直接的に実装できることが示されている。

We propose an orbifold lattice formulation of QCD suitable for quantum simulations. The advantages come from the use of noncompact variables that makes qubitization and truncated Hamiltonian very simple. It is shown that SU(3) gauge group and quarks in fundamental representation can be implemented straightforwardly.
翻訳日:2024-02-02 18:11:56 公開日:2024-02-01
# 量子系におけるカオスとランダム性の研究

A study of chaos and randomness in quantum systems ( http://arxiv.org/abs/2402.00287v1 )

ライセンス: Link先を確認
Sreeram PG(参考訳) 量子世界からどのように古典的なカオスが生まれるかは物理学の基本的な問題である。 この問題の起源は対応原理にある。 古典的なカオスは非線形力学によって生じるが、量子力学はユニタリ進化によって引き起こされる。 量子世界における古典的カオスの足跡はどのようなものか? 古典的なアナログがカオスである量子系を研究することで、古典的なカオスの量子シグネチャを理解することができる。 この論文では、量子状態における数量子ビットの量子キックトップモデルを用いて、古典的極限におけるカオスの前駆者と見なされるシグネチャを調査する。 特に,カオスの2つの動的診断法であるOTOCとLoschmidtエコーについて検討した。 このような深い量子状態においても、古典的なカオスの証拠が見つかる。 カオスとランダム性の影響を研究することができる別のアリーナは量子状態トモグラフィである。 初期観測器のユニタリ進化によって生成されたエルミート作用素の集合の期待値を測定した連続測定記録から量子トモグラフィーについて検討する。 情報獲得率と再建忠実度は混乱の兆しを示している。 この論文のもう1つの貢献として、最大混合状態に固有のランダム性の力を利用して、OTOCを測定する効率的な量子アルゴリズムを提供した。 このプロトコルは、OTOC演算子を効率的にゲート分解できると仮定して、既知の古典的アルゴリズムよりも指数関数的に高速化する。 このプロトコルはまた、量子計算と制御の観点から重要なユニタリゲートのベンチマークを支援する。

How classical chaos emerges from the underlying quantum world is a fundamental problem in physics. The origin of this question is in the correspondence principle. Classical chaos arises due to non-linear dynamics, whereas quantum mechanics, driven by unitary evolution, is linear. The question that still remains is - what are the footprints of classical chaos in the quantum world? One can understand the quantum signatures of classical chaos by studying a quantum system whose classical analogue is chaotic. In this thesis, we use the quantum kicked top model of few qubits in the deep quantum regime to investigate signatures that can be considered as a precursor to chaos in the classical limit. In particular, we study out-of-time-ordered correlators (OTOCs) and Loschmidt echo, the two well-known dynamical diagnostics of chaos. We find vestiges of classical chaos even in such a deep quantum regime. Another arena where one can study the effects of chaos and randomness is quantum state tomography. We study quantum tomography from a continuous measurement record obtained by measuring expectation values of a set of Hermitian operators generated by a unitary evolution of an initial observable. The rate of information gain and reconstruction fidelity shows vestiges of chaos. As another contribution of this thesis, we have harnessed the power of randomness inherent in the maximally mixed state to give an efficient quantum algorithm to measure OTOCs. The protocol achieves an exponential speedup over the best known classical algorithm, provided the OTOC operator to be estimated admits an efficient gate decomposition. This protocol also helps benchmark unitary gates, which is important from the quantum computation and control perspective.
翻訳日:2024-02-02 17:04:03 公開日:2024-02-01
# すべての学習可能な配布クラスがプライベートに学習できるわけではない

Not All Learnable Distribution Classes are Privately Learnable ( http://arxiv.org/abs/2402.00267v1 )

ライセンス: Link先を確認
Mark Bun, Gautam Kamath, Argyris Mouzakis, Vikrant Singhal(参考訳) 有限個のサンプルで全変動距離で学習できる分布のクラスを例に挙げるが、$(\varepsilon, \delta)$-differential privacyでは学習できない。 これはアシュティアーニの予想を否定する。

We give an example of a class of distributions that is learnable in total variation distance with a finite number of samples, but not learnable under $(\varepsilon, \delta)$-differential privacy. This refutes a conjecture of Ashtiani.
翻訳日:2024-02-02 17:03:37 公開日:2024-02-01
# \textsc{DetectGPT} は摂動をフル活用するか? モデルベースコントラスト学習検出器の選択的摂動が良い

Does \textsc{DetectGPT} Fully Utilize Perturbation? Selective Perturbation on Model-Based Contrastive Learning Detector would be Better ( http://arxiv.org/abs/2402.00263v1 )

ライセンス: Link先を確認
Shengchao Liu, Xiaoming Liu, Yichen Wang, Zehua Cheng, Chengzhengxu Li, Zhaohan Zhang, Yu Lan, Chao Shen(参考訳) 大きな言語モデル(LLM)の急成長する能力は、乱用に対する懸念を高めている。 ゼロショットのメートル法に基づく教師なし機械生成テキスト検出器である DetectGPT は、まず摂動を導入し、優れた性能向上を示した。 しかし、T DetectGPTのランダムな摂動戦略はノイズを導入し、識別性やさらなる性能向上を抑える。 さらに、ロジット回帰モジュールは閾値の設定に依存しており、個別または小バッチ入力の一般化性と適用性に悪影響を及ぼす。 そこで本研究では,ランダムマスキングによる重要な情報損失を軽減するための選択的戦略摂動法と,摂動中に暗黙のパターン情報をキャプチャするマルチペアコントラスト学習を用いた新しい検出器である \modelname{} を提案する。 実験の結果, モデルname{} は4つの公開データセットの平均精度において SOTA 法より 1.20 % 優れていた。 さらに、摂動法の有効性、堅牢性、一般化について分析する。

The burgeoning capabilities of large language models (LLMs) have raised growing concerns about abuse. DetectGPT, a zero-shot metric-based unsupervised machine-generated text detector, first introduces perturbation and shows great performance improvement. However, DetectGPT's random perturbation strategy might introduce noise, limiting the distinguishability and further performance improvements. Moreover, its logit regression module relies on setting the threshold, which harms the generalizability and applicability of individual or small-batch inputs. Hence, we propose a novel detector, \modelname{}, which uses selective strategy perturbation to relieve the important information loss caused by random masking, and multi-pair contrastive learning to capture the implicit pattern information during perturbation, facilitating few-shot performance. The experiments show that \modelname{} outperforms the SOTA method by 1.20\% in accuracy on average on four public datasets. We further analyze the effectiveness, robustness, and generalization of our perturbation method.
翻訳日:2024-02-02 17:03:31 公開日:2024-02-01
# 大規模言語モデルに基づくエージェントを満たした計算実験:調査と展望

Computational Experiments Meet Large Language Model Based Agents: A Survey and Perspective ( http://arxiv.org/abs/2402.00262v1 )

ライセンス: Link先を確認
Qun Ma, Xiao Xue, Deyu Zhou, Xiangning Yu, Donghua Liu, Xuwen Zhang, Zihan Zhao, Yifan Shen, Peilin Ji, Juanjuan Li, Gang Wang, Wanpeng Ma(参考訳) 計算実験は、反事実のアルゴリズム化を含む複雑なシステムを研究する貴重な方法として登場した。 しかし,エージェント・ベース・モデリング(abm)における実社会システムを正確に表現することは,有界合理性や不均一性など,多様で複雑な特徴から困難である。 この制限に対処するために、エージェントが複雑な推論や自律学習などの人為的能力を持つことを可能にするLarge Language Models(LLMs)の統合が提案されている。 LLMを基盤とするエージェントとして知られるこれらのエージェントは、ABMに欠けているヒト型を増強する可能性がある。 にもかかわらず、LSMの明示的な説明可能性の欠如は、社会科学への応用を著しく妨げている。 逆に、計算実験は個々の行動や複雑な現象の因果分析に優れている。 したがって、計算実験をLLMベースのエージェントと組み合わせることで、かなりの研究の可能性を秘めている。 本稿では,この融合の包括的探索について述べる。 主に、エージェント構造の歴史的発展とその人工社会への進化を概説し、計算実験におけるその重要性を強調している。 そして,計算実験におけるllmベースのエージェントの視点やその逆を考慮し,計算実験とllmベースのエージェントが相互に提供する利点を明らかにする。 最後に,本研究領域における課題と今後の動向について考察し,今後の研究の指針を提供する。

Computational experiments have emerged as a valuable method for studying complex systems, involving the algorithmization of counterfactuals. However, accurately representing real social systems in Agent-based Modeling (ABM) is challenging due to the diverse and intricate characteristics of humans, including bounded rationality and heterogeneity. To address this limitation, the integration of Large Language Models (LLMs) has been proposed, enabling agents to possess anthropomorphic abilities such as complex reasoning and autonomous learning. These agents, known as LLM-based Agent, offer the potential to enhance the anthropomorphism lacking in ABM. Nonetheless, the absence of explicit explainability in LLMs significantly hinders their application in the social sciences. Conversely, computational experiments excel in providing causal analysis of individual behaviors and complex phenomena. Thus, combining computational experiments with LLM-based Agent holds substantial research potential. This paper aims to present a comprehensive exploration of this fusion. Primarily, it outlines the historical development of agent structures and their evolution into artificial societies, emphasizing their importance in computational experiments. Then it elucidates the advantages that computational experiments and LLM-based Agents offer each other, considering the perspectives of LLM-based Agent for computational experiments and vice versa. Finally, this paper addresses the challenges and future trends in this research domain, offering guidance for subsequent related studies.
翻訳日:2024-02-02 17:03:11 公開日:2024-02-01
# ベクトル空間と逆写像を用いた画像解析のためのニューラルネットワークシステム理解

Understanding Neural Network Systems for Image Analysis using Vector Spaces and Inverse Maps ( http://arxiv.org/abs/2402.00261v1 )

ライセンス: Link先を確認
Rebecca Pattichis and Marios S. Pattichis(参考訳) 画像解析に使用される複雑なニューラルネットワークを理解するために使用できる数学的手法の開発には強い関心がある。 本稿では,信号空間間のマップとしてニューラルネットワーク層をモデル化するためのLinear Algebraの手法を紹介する。 まず,信号空間を用いて重み空間や畳み込み層カーネルを可視化する方法を示す。 また,各層で失われた情報をさらに可視化するために,残差ベクトル空間をどのように利用できるかを示す。 次に、インバータブルネットワークの概念と、特定の出力を出力する入力画像の計算アルゴリズムを紹介する。 本稿では,2つの非可逆ネットワークとResNet18について述べる。

There is strong interest in developing mathematical methods that can be used to understand complex neural networks used in image analysis. In this paper, we introduce techniques from Linear Algebra to model neural network layers as maps between signal spaces. First, we demonstrate how signal spaces can be used to visualize weight spaces and convolutional layer kernels. We also demonstrate how residual vector spaces can be used to further visualize information lost at each layer. Second, we introduce the concept of invertible networks and an algorithm for computing input images that yield specific outputs. We demonstrate our approach on two invertible networks and ResNet18.
翻訳日:2024-02-02 17:02:50 公開日:2024-02-01
# LLMを用いた自閉症スペクトラム障害児のスケーラブルなロボット介入に向けて

Towards scalable robotic intervention of children with Autism Spectrum Disorder using LLMs ( http://arxiv.org/abs/2402.00260v1 )

ライセンス: Link先を確認
Ruchik Mishra and Karla Conn Welch(参考訳) 本稿では,自閉症スペクトラム障害児(ASD)と音声対話可能な社会ロボットを提案する。 このコミュニケーションは、Large Language Model (LLM)パイプラインを使って生成されたテキストを使って視点を取ることを教える。 ソーシャルロボットNAOは、刺激者(社会状況を垂直に記述し、質問する)、プロンサ(選択する3つの選択肢を示す)、強化者(回答が正しければ評価する)として機能する。 刺激器の役割については, LLMパイプラインを用いて社会的状況, 質問, 選択肢を生成する。 GPT-2+BARTとGPT-2+GPT-2の2つのアプローチを比較した。 私たちは、SOCIALIQAデータセットを使用して、LLMパイプラインをすべて微調整しています。 GPT-2+BARTパイプラインは、個々の損失関数を組み合わせることで、質問やオプションを生成するのに優れたBERTスコアを持つことがわかった。 この観察は人間の評価とも一致した。 最後に,t-sneプロットを用いて社会状況の教師なし生成を可視化し,人間の専門家によるasd児の適応性評価を行った。

In this paper, we propose a social robot capable of verbally interacting with children with Autism Spectrum Disorder (ASD). This communication is meant to teach perspective-taking using text generated using a Large Language Model (LLM) pipeline. The social robot NAO acts as a stimulator (verbally describes a social situation and asks a question), prompter (presents three options to choose from), and reinforcer (praises when the answer is correct). For the role of the stimulator, the social situation, questions, and options are generated using our LLM pipeline. We compare two approaches: GPT-2 + BART and GPT-2 + GPT-2, where the first GPT-2 common between the pipelines is used for unsupervised social situation generation. We use the SOCIALIQA dataset to fine-tune all of our LLM pipelines. We found that the GPT-2 + BART pipeline had a better BERTscore for generating the questions and the options by combining their individual loss functions. This observation was also consistent with the human evaluations. Lastly, the unsupervised generation of social situations was visualized using T-SNE plots, and the entire pipeline was evaluated for appropriateness for children with ASD by human experts.
翻訳日:2024-02-02 17:02:40 公開日:2024-02-01
# 階層群に対するマルチグループ学習

Multi-group Learning for Hierarchical Groups ( http://arxiv.org/abs/2402.00258v1 )

ライセンス: Link先を確認
Samuel Deng and Daniel Hsu(参考訳) マルチグループ学習モデルは、単一の予測者が複数の、おそらく重複するサブグループ上でうまく一般化しなければならない学習シナリオを形式化する。 我々は、多群学習の研究を、群が階層的に構造化される自然の場合にまで拡張する。 我々は,ほぼ最適なサンプル複雑性を持つ解釈可能かつ決定論的決定木予測器を出力するアルゴリズムを設計する。 次に,アルゴリズムの実証的な評価を行い,階層的なグループ構造を持つ実データセット上で,魅力的な一般化特性を実現する。

The multi-group learning model formalizes the learning scenario in which a single predictor must generalize well on multiple, possibly overlapping subgroups of interest. We extend the study of multi-group learning to the natural case where the groups are hierarchically structured. We design an algorithm for this setting that outputs an interpretable and deterministic decision tree predictor with near-optimal sample complexity. We then conduct an empirical evaluation of our algorithm and find that it achieves attractive generalization properties on real datasets with hierarchical group structure.
翻訳日:2024-02-02 17:02:19 公開日:2024-02-01
# Deep Policy Gradientによる垂直記号回帰

Vertical Symbolic Regression via Deep Policy Gradient ( http://arxiv.org/abs/2402.00254v1 )

ライセンス: Link先を確認
Nan Jiang, Md Nasim, Yexiang Xue(参考訳) 垂直記号回帰(VSR)は、最近実験データから多くの独立変数を持つ記号方程式の発見を早めるために提案されている。 VSRは、独立変数のサブセットを含む縮小形式方程式から本格的な方程式へと構築することで、垂直発見経路に続く探索空間を縮小する。 多くのシンボリック回帰器が成功し、深層ニューラルネットワークはVSRをさらにスケールアップすることが期待されている。 それでも、vsrとディープニューラルネットワークを直接組み合わせると、勾配や他のエンジニアリング上の問題を渡すのが難しくなる。 本稿では,VSR-DPGを用いた垂直記号回帰法を提案し,VSR-DPGが複数の入力変数を含む基底構造方程式を復元可能であることを示す。 我々のVSR-DPGは、文法規則の繰り返し適用から方程式を構築する逐次決定過程としてシンボリック回帰をモデル化する。 統合深層モデルは、政策勾配目標を最大化するために訓練される。 実験の結果、VSR-DPGは、一連のベンチマーク上で代数方程式と常微分方程式の両方を識別する上で、人気ベースラインを著しく上回ることが示された。

Vertical Symbolic Regression (VSR) recently has been proposed to expedite the discovery of symbolic equations with many independent variables from experimental data. VSR reduces the search spaces following the vertical discovery path by building from reduced-form equations involving a subset of independent variables to full-fledged ones. Proved successful by many symbolic regressors, deep neural networks are expected to further scale up VSR. Nevertheless, directly combining VSR with deep neural networks will result in difficulty in passing gradients and other engineering issues. We propose Vertical Symbolic Regression using Deep Policy Gradient (VSR-DPG) and demonstrate that VSR-DPG can recover ground-truth equations involving multiple input variables, significantly beyond both deep reinforcement learning-based approaches and previous VSR variants. Our VSR-DPG models symbolic regression as a sequential decision-making process, in which equations are built from repeated applications of grammar rules. The integrated deep model is trained to maximize a policy gradient objective. Experimental results demonstrate that our VSR-DPG significantly outperforms popular baselines in identifying both algebraic equations and ordinary differential equations on a series of benchmarks.
翻訳日:2024-02-02 17:02:10 公開日:2024-02-01
# 視覚・言語モデルにおける幻覚に関する調査

A Survey on Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2402.00253v1 )

ライセンス: Link先を確認
Hanchao Liu and Wenyuan Xue and Yifei Chen and Dapeng Chen and Xiutian Zhao and Ke Wang and Liping Hou and Rongjun Li and Wei Peng(参考訳) 最近の大型視覚言語モデル(lvlms)の開発は、その実用的な実装可能性について、aiの世界において注目を集めている。 しかし、"hallucination"、またはより具体的には、実際の視覚内容と対応するテキスト生成との間の不一致は、lvlmsを利用するという大きな課題をもたらす。 本研究は,LVLM関連幻覚を解明し,今後の緩和を促進するための総合的な調査である。 我々の調査は、LVLMにおける幻覚の概念の解明から始まり、様々な幻覚症状を示し、LVLMの幻覚に固有のユニークな課題を強調します。 次に,LVLM特有の幻覚評価のためのベンチマークと方法論について概説する。 さらに、これらの幻覚の根本原因について、トレーニングデータとモデルコンポーネントからの洞察を包含して調査する。 また,幻覚の緩和方法についても批判的に検討した。 LVLM内の幻覚に関するオープンな質問と今後の方向性について論じ,本調査を結論づける。

Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.
翻訳日:2024-02-02 17:01:50 公開日:2024-02-01
# ブラックボックス大言語モデルの効率的な非パラメトリック不確実性定量化と決定計画

Efficient Non-Parametric Uncertainty Quantification for Black-Box Large Language Models and Decision Planning ( http://arxiv.org/abs/2402.00251v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Walter Talbott, Jian Zhang(参考訳) 大規模言語モデル(LLM)によるステップバイステップの決定計画がAIエージェント開発で注目を集めている。 本稿では,言語モデルにおける幻覚問題に対処するため,不確実性推定を伴う意思決定に焦点をあてる。 既存のアプローチはホワイトボックスまたは計算要求であり、予算内でブラックボックスのプロプライエタリなllmの使用を制限している。 本論文の最初のコントリビューションは, LLMの非パラメトリック不確実性定量化手法であり, トークンロジットにアクセスすることなく, 単一推論でフライ時の入力-決定間のポイントワイド依存性を効率的に推定する。 この推定器は、決定の信頼性の統計的解釈を知らせる。 第2の貢献は、意思決定エージェントの体系的な設計を概説し、ユーザのプロンプトである「風呂に入る」に基づいて「浴室の光に向ける」などのアクションを生成する。 複数のアクションが高い見積もりのポイントサイド依存性を持つ場合、ユーザは好みを尋ねられる。 結論として,不確実性推定と意思決定エージェント設計は,aiエージェント開発にコスト効率の高いアプローチを提供する。

Step-by-step decision planning with large language models (LLMs) is gaining attention in AI agent development. This paper focuses on decision planning with uncertainty estimation to address the hallucination problem in language models. Existing approaches are either white-box or computationally demanding, limiting use of black-box proprietary LLMs within budgets. The paper's first contribution is a non-parametric uncertainty quantification method for LLMs, efficiently estimating point-wise dependencies between input-decision on the fly with a single inference, without access to token logits. This estimator informs the statistical interpretation of decision trustworthiness. The second contribution outlines a systematic design for a decision-making agent, generating actions like ``turn on the bathroom light'' based on user prompts such as ``take a bath''. Users will be asked to provide preferences when more than one action has high estimated point-wise dependencies. In conclusion, our uncertainty estimation and decision-making agent design offer a cost-efficient approach for AI agent development.
翻訳日:2024-02-02 17:01:34 公開日:2024-02-01
# LRDif:Under-Display Camera Emotion Recognitionのための拡散モデル

LRDif: Diffusion Models for Under-Display Camera Emotion Recognition ( http://arxiv.org/abs/2402.00250v1 )

ライセンス: Link先を確認
Zhifeng Wang and Kaihao Zhang and Ramesh Sankaranarayana(参考訳) 本研究では,下ディスプレイカメラ(UDC)のコンテキスト内での表情認識(FER)に特化した拡散型フレームワークであるLRDifを紹介する。 シャープネスの低減やノイズの増加といった、UDCのイメージ劣化による固有の課題に対処するため、LRDifでは、凝縮予備抽出ネットワーク(FPEN)とアジャイルトランスフォーマーネットワーク(UDCformer)を統合して、UDCイメージから感情ラベルを効果的に識別する2段階のトレーニング戦略を採用している。 拡散モデル(dms)のロバストな分布マッピング能力と変圧器の空間依存モデリング強度を利用することで、lddifはudc環境に固有のノイズや歪みの障害を効果的に克服する。 RAF-DB、KDEF、FERPlusといった標準FERデータセットに関する包括的な実験では、LRDifは最先端のパフォーマンスを示し、FERアプリケーションを前進させる可能性を示している。 この研究は、FERにおけるUDCの課題に取り組むことで文学における大きなギャップに対処するだけでなく、この分野における今後の研究のための新しいベンチマークも設定する。

This study introduces LRDif, a novel diffusion-based framework designed specifically for facial expression recognition (FER) within the context of under-display cameras (UDC). To address the inherent challenges posed by UDC's image degradation, such as reduced sharpness and increased noise, LRDif employs a two-stage training strategy that integrates a condensed preliminary extraction network (FPEN) and an agile transformer network (UDCformer) to effectively identify emotion labels from UDC images. By harnessing the robust distribution mapping capabilities of Diffusion Models (DMs) and the spatial dependency modeling strength of transformers, LRDif effectively overcomes the obstacles of noise and distortion inherent in UDC environments. Comprehensive experiments on standard FER datasets including RAF-DB, KDEF, and FERPlus, LRDif demonstrate state-of-the-art performance, underscoring its potential in advancing FER applications. This work not only addresses a significant gap in the literature by tackling the UDC challenge in FER but also sets a new benchmark for future research in the field.
翻訳日:2024-02-02 17:01:13 公開日:2024-02-01
# AIによる検証ダニー法の合成に向けて

Towards AI-Assisted Synthesis of Verified Dafny Methods ( http://arxiv.org/abs/2402.00247v1 )

ライセンス: Link先を確認
Md Rakib Hossain Misu, Cristina V. Lopes, Iris Ma, James Noble(参考訳) 大きな確率言語モデルは、プログラミングを含む多くの領域で大きな期待を示します。 約束は簡単にできるが、維持は困難であり、言語モデルはしばしば、プログラミングに適用して誤ったコードを生成するときに約束を守らない。 モデルを正直に保つための有望な方法の1つは、形式的な検証をサポートする言語でコードを生成することである。 残念なことに、既存の大規模言語モデルは、検証済みプログラミング言語の熟練度が極めて低いことを示している。 本稿では,dafny検証プログラム言語における2つの事前学習モデルの習熟度を改善する方法について述べる。 MBPPデータセットから178のプログラミング問題を用いて、2つの現代モデル(GPT-4とPaLM-2)をダフニーで生成する。 直接コンテキストレスプロンプト、メソッドとテストケースのシグネチャを含む第2のプロンプト、問題をステップに分解し動的に選択された同様の例を含む第3のプロンプトの3つの異なるタイプのプロンプトを使用します。 その結果, GPT-4 は PaLM-2 よりも優れていることがわかったが, どちらのモデルにおいても, 3番目のプロンプトは直接プロンプト生成タスクの成功を大幅に改善する。 第3のプロンプトにより、gpt-4は58%のケースで検証済み(かつ評価済み)dafny法を生成でき、第1のプロンプトは19%のケースで検証済み(かつ評価済み)なdafny法を生成できた。 驚いたことに、第2のプロンプトはパフォーマンスが悪く、10%しかなかった。 本研究の顕著な貢献の一つは,Dafnyで実装および正式に検証された153MBPP問題の集合であり,そのうち50は私たちによって書かれ,103は自動的にGPT-4によって合成された。 さらに,形式的プログラム検証(正しさの証明)の利点が限界に達していることを実証した。

Large stochastic language models show great promise in many domains, including programming. A promise is easy to make but hard to keep, and language models often fail to keep their promises when applied to programming, generating erroneous code. One promising avenue to keep models honest is to have them generate code in a language that supports formal verification: if and when that is adopted, the model would provide proof along with the code, and that proof would be automatically verified. Unfortunately, existing large language models show a severe lack of proficiency in verified programming languages. In this paper we demonstrate how to improve two pretrained models' proficiency in the Dafny verified programming language. Using 178 programming problems from the MBPP dataset, we prompt two contemporary models (GPT-4 and PaLM-2) to generate methods in Dafny. We use three different types of prompts: a direct contextless prompt, a second one that includes a signature of the method and test cases, and a third one that decomposes the problem into steps and includes dynamically chosen similar examples. Our results show that GPT-4 is better than PaLM-2, but that, in both models, the third prompt greatly improves the success of the generation task for the direct prompt. With the third prompt, GPT-4 was able to generate verified (and human-evaluated) Dafny methods in 58% of the cases, while the first prompt generated verified (and human-evaluated) methods in only 19% of the cases. Surprisingly, the second prompt had the worst performance, with only 10%. One tangible contribution of our work is a collection of 153 MBPP problems that are implemented and formally verified in Dafny, 50 of which were written by us and 103 were automatically synthesized by GPT-4. Additionally, our results demonstrate that the benefits of formal program verification (proof of correctness) are now within reach...
翻訳日:2024-02-02 17:00:51 公開日:2024-02-01
# 子どもの視点から見た映像表現の自己指導型学習

Self-supervised learning of video representations from a child's perspective ( http://arxiv.org/abs/2402.00300v1 )

ライセンス: Link先を確認
A. Emin Orhan, Wentao Wang, Alex N. Wang, Mengye Ren, Brenden M. Lake(参考訳) 子どもたちは、エゴセントリックな視覚体験から周りの世界の強力な内部モデルを学びます。 そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納バイアスを必要とするのか? 近年,大規模で縦断的,発展的なビデオデータセットの収集や,汎用的な自己教師付き学習(SSL)アルゴリズムの進歩により,この自然に対処し始めることができるようになっている。 しかし、既存の研究は通常、静的画像(オブジェクト認識など)から学習できる画像ベースのSSLアルゴリズムと視覚能力に焦点を当てており、世界の時間的側面を無視している。 このギャップを埋めるために、私たちは、幼児の初期(6~31ヶ月)の2年間に収集した縦型、自家中心型ヘッドカム記録の自己教師型ビデオモデルを訓練する。 その結果得られたモデルは、少数のラベル付き例からアクション概念の学習を促進するのに非常に効果的であり、データサイズスケーリング特性が良好であり、創発的なビデオ補間機能を表示する。 ビデオモデルは、全く同じデータで訓練された画像ベースモデルよりも、より堅牢なオブジェクト表現も学習する。 これらの結果は、子どもの内部モデルにおける重要な時間的側面が、高度に汎用的な学習アルゴリズムを用いて視覚経験から学習可能であり、強い帰納的バイアスがないことを示唆している。

Children learn powerful internal models of the world around them from a few years of egocentric visual experience. Can such internal models be learned from a child's visual experience with highly generic learning algorithms or do they require strong inductive biases? Recent advances in collecting large-scale, longitudinal, developmentally realistic video datasets and generic self-supervised learning (SSL) algorithms are allowing us to begin to tackle this nature vs. nurture question. However, existing work typically focuses on image-based SSL algorithms and visual capabilities that can be learned from static images (e.g. object recognition), thus ignoring temporal aspects of the world. To close this gap, here we train self-supervised video models on longitudinal, egocentric headcam recordings collected from a child over a two year period in their early development (6-31 months). The resulting models are highly effective at facilitating the learning of action concepts from a small number of labeled examples; they have favorable data size scaling properties; and they display emergent video interpolation capabilities. Video models also learn more robust object representations than image-based models trained with the exact same data. These results suggest that important temporal aspects of a child's internal model of the world may be learnable from their visual experience using highly generic learning algorithms and without strong inductive biases.
翻訳日:2024-02-02 16:51:45 公開日:2024-02-01
# ローンデフォルト予測のための注意に基づく動的多層グラフニューラルネットワーク

Attention-based Dynamic Multilayer Graph Neural Networks for Loan Default Prediction ( http://arxiv.org/abs/2402.00299v1 )

ライセンス: Link先を確認
Sahab Zandi, Kamesh Korangi, Mar\'ia \'Oskarsd\'ottir, Christophe Mues, Cristi\'an Bravo(参考訳) 従来のクレジットスコアリングでは、個々の借り手ローンレベルの予測器のみを採用する傾向にあるが、借り手同士のつながりは、ネットワーク上でデフォルトのリスク伝播をもたらす可能性があると認識されている。 本稿では,グラフニューラルネットワークとリカレントニューラルネットワークから構築された動的多層ネットワークを利用した信用リスク評価モデルを提案する。 我々は、米国住宅ローン金融業者のFreddie Macが提供したデータセットを用いて、我々の方法論を行動信用評価コンテキストで検証し、借り手の地理的位置と住宅ローン業者の選択から様々な種類の接続が生じることを示した。 提案モデルでは,接続の種類と時間経過に伴う接続の進化を考慮した。 我々は,その重要度に応じて異なるタイムスナップショットを重み付けするカスタムアテンション機構を用いて,モデルを強化する。 複数の構成をテストした後、GAT、LSTM、アテンションメカニズムを備えたモデルが最も良い結果をもたらす。 経験的な結果から,借主のデフォルトの確率を予測する場合,提案手法は従来の手法と比較して,コネクションやタイムスタンプの重要性を分析する上で,よりよい結果と新たな洞察をもたらすことが示されている。

Whereas traditional credit scoring tends to employ only individual borrower- or loan-level predictors, it has been acknowledged for some time that connections between borrowers may result in default risk propagating over a network. In this paper, we present a model for credit risk assessment leveraging a dynamic multilayer network built from a Graph Neural Network and a Recurrent Neural Network, each layer reflecting a different source of network connection. We test our methodology in a behavioural credit scoring context using a dataset provided by U.S. mortgage financier Freddie Mac, in which different types of connections arise from the geographical location of the borrower and their choice of mortgage provider. The proposed model considers both types of connections and the evolution of these connections over time. We enhance the model by using a custom attention mechanism that weights the different time snapshots according to their importance. After testing multiple configurations, a model with GAT, LSTM, and the attention mechanism provides the best results. Empirical results demonstrate that, when it comes to predicting probability of default for the borrowers, our proposed model brings both better results and novel insights for the analysis of the importance of connections and timestamps, compared to traditional methods.
翻訳日:2024-02-02 16:50:38 公開日:2024-02-01
# 有界適応性を持つQMAとQCMAのOracle分離

Oracle separation of QMA and QCMA with bounded adaptivity ( http://arxiv.org/abs/2402.00298v1 )

ライセンス: Link先を確認
Shalev Ben-David and Srijita Kundu(参考訳) 量子アルゴリズムにおけるQMAとQCMAの分離を、その量子アルゴリズムにおいて有界適応性を持つ場合、すなわち、各ラウンドは多項式的に多くのクエリを並列に含むが、オラクル呼び出しのラウンド数は小さくなる。 我々のオラクル構築は、最近Li, Liu, Pelecanos, Yamakawa (2023) が用いた、量子アルゴリズムが古典的にのみ、QMAとQCMAのオラクル分離を示した簡易版である。 この結果を証明するために,QMAとQCMAの完全古典的オラクル分離に有用な「emph{slipperiness}」という関係性を導入する。

We give an oracle separation between QMA and QCMA for quantum algorithms that have bounded adaptivity in their oracle queries; that is, the number of rounds of oracle calls is small, though each round may involve polynomially many queries in parallel. Our oracle construction is a simplified version of the construction used recently by Li, Liu, Pelecanos, and Yamakawa (2023), who showed an oracle separation between QMA and QCMA when the quantum algorithms are only allowed to access the oracle classically. To prove our results, we introduce a property of relations called \emph{slipperiness}, which may be useful for getting a fully general classical oracle separation between QMA and QCMA.
翻訳日:2024-02-02 16:50:14 公開日:2024-02-01
# uav画像を用いたスポイトパイルデライン化における従来型および深層学習型セグメンテーション法の比較評価

Comparative Evaluation of Traditional and Deep Learning-Based Segmentation Methods for Spoil Pile Delineation Using UAV Images ( http://arxiv.org/abs/2402.00295v1 )

ライセンス: Link先を確認
Sureka Thiruchittampalam, Bikram P. Banerjee, Nancy F. Glenn, Simit Raval(参考訳) 埋立処分場の安定性は、地質学的・地質学的特性を考慮し、スポイト杭の正確な配置に依存している。 しかし、個々の杭の現場での性格化は恐ろしい挑戦となる。 リモートで取得したデータを無人航空機システムを通して利用する画像ベース技術は、将来有望な補完的ソリューションである。 オブジェクトベースの分類や特徴抽出といった画像処理は、効果的なセグメンテーションに依存する。 本研究は,様々なセグメンテーション手法,特に色ベースおよび形態ベース手法を洗練し,検討する。 目的は、鉱業環境の文脈における特徴化を損なうオブジェクトベース分析の道筋を強化し、評価することである。 さらに,従来のセグメンテーション手法と深層学習法に根ざした手法との比較分析を行った。 評価された多様なセグメンテーション手法のうち,形態素に基づく深層学習セグメンテーション手法であるセグメンション・アシング・モデル(SAM)は,他の手法と比較して優れた性能を示した。 この結果から, 先端形態学および深層学習技術の導入が, 精度, 効率のよいパイルキャラクタリゼーションに有効であることが示唆された。 本研究の成果は,セグメンテーション戦略の最適化に有用な知見を与え,鉱業環境におけるスポイトパイルのキャラクタリゼーションへのイメージベース技術の適用を促進する。

The stability of mine dumps is contingent upon the precise arrangement of spoil piles, taking into account their geological and geotechnical attributes. Yet, on-site characterisation of individual piles poses a formidable challenge. The utilisation of image-based techniques for spoil pile characterisation, employing remotely acquired data through unmanned aerial systems, is a promising complementary solution. Image processing, such as object-based classification and feature extraction, are dependent upon effective segmentation. This study refines and juxtaposes various segmentation approaches, specifically colour-based and morphology-based techniques. The objective is to enhance and evaluate avenues for object-based analysis for spoil characterisation within the context of mining environments. Furthermore, a comparative analysis is conducted between conventional segmentation approaches and those rooted in deep learning methodologies. Among the diverse segmentation approaches evaluated, the morphology-based deep learning segmentation approach, Segment Anything Model (SAM), exhibited superior performance in comparison to other approaches. This outcome underscores the efficacy of incorporating advanced morphological and deep learning techniques for accurate and efficient spoil pile characterisation. The findings of this study contribute valuable insights to the optimisation of segmentation strategies, thereby advancing the application of image-based techniques for the characterisation of spoil piles in mining environments.
翻訳日:2024-02-02 16:49:40 公開日:2024-02-01
# FineBio:階層的アノテーションを用いた生物実験のビデオデータセット

FineBio: A Fine-Grained Video Dataset of Biological Experiments with Hierarchical Annotation ( http://arxiv.org/abs/2402.00293v1 )

ライセンス: Link先を確認
Takuma Yagi, Misaki Ohashi, Yifei Huang, Ryosuke Furuta, Shungo Adachi, Toutai Mitsuyama, Yoichi Sato(参考訳) 科学の発展において、実験過程の正確かつ再現可能な文書が不可欠である。 ビデオから実験中の動作の自動認識は、実験の記録を補完することで実験者に役立つ。 この目的に向けて,生物実験を行う人々の新しい細粒度ビデオデータセットである finebio を提案する。 データセットは、32人の参加者による、合計14.5時間の模擬生物実験を行うマルチビュービデオで構成されている。 ある実験は階層構造を形成し、プロトコルはいくつかのステップで構成され、それぞれが原子操作の集合に分解される。 生物学的実験の独特な点は、それぞれのプロトコルで記述されたステップに厳格に固執する必要があるが、原子操作の順序に自由が存在することである。 プロトコル、ステップ、アトミック操作、オブジェクト位置、およびそれらの操作状態に関する階層的なアノテーションを提供し、構造化されたアクティビティ理解と手動インタラクション認識のための新しい課題を提供する。 生物実験における活動理解の課題を明らかにするために,4つのタスクのベースラインモデルと結果を紹介する。 (i)ステップセグメンテーション (ii)原子の動作検出 (iii)物体検出、及び (iv)対象物の検出操作 データセットとコードはhttps://github.com/aistairc/finebioから入手できる。

In the development of science, accurate and reproducible documentation of the experimental process is crucial. Automatic recognition of the actions in experiments from videos would help experimenters by complementing the recording of experiments. Towards this goal, we propose FineBio, a new fine-grained video dataset of people performing biological experiments. The dataset consists of multi-view videos of 32 participants performing mock biological experiments with a total duration of 14.5 hours. One experiment forms a hierarchical structure, where a protocol consists of several steps, each further decomposed into a set of atomic operations. The uniqueness of biological experiments is that while they require strict adherence to steps described in each protocol, there is freedom in the order of atomic operations. We provide hierarchical annotation on protocols, steps, atomic operations, object locations, and their manipulation states, providing new challenges for structured activity understanding and hand-object interaction recognition. To find out challenges on activity understanding in biological experiments, we introduce baseline models and results on four different tasks, including (i) step segmentation, (ii) atomic operation detection (iii) object detection, and (iv) manipulated/affected object detection. Dataset and code are available from https://github.com/aistairc/FineBio.
翻訳日:2024-02-02 16:49:15 公開日:2024-02-01
# カフェシーンにおけるマルチモーダルエンボディ型インタラクティブエージェント

Multimodal Embodied Interactive Agent for Cafe Scene ( http://arxiv.org/abs/2402.00290v1 )

ライセンス: Link先を確認
Yang Liu, Xinshuai Song, Kaixuan Jiang, Weixing Chen, Jingzhou Luo, Guanbin Li, Liang Lin(参考訳) 大規模言語モデルの開発が急増し、具体化された知性が注目を集めている。 それにもかかわらず、エンボディドインテリジェンスに関する先行研究は、通常、視覚的または言語的に、シーンまたは歴史的記憶を一様の方法で符号化する。 この制限を克服するために、自然言語で表現された高レベルタスクを実行可能なアクションのシーケンスに変換することができるMultimodal Embodied Interactive Agent (MEIA)を導入する。 具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。 この能力により、MEIAは多様な要件とロボットの能力に基づいて実行可能なアクションプランを生成することができる。 動的仮想カフェ環境で実験を行い,ゼロショット学習を通じて複数の大規模モデルを活用し,様々な状況に対してシナリオを慎重に設計する。 実験の結果,様々な対話型タスクにおけるMEIAの有望な性能が示された。

With the surge in the development of large language models, embodied intelligence has attracted increasing attention. Nevertheless, prior works on embodied intelligence typically encode scene or historical memory in an unimodal manner, either visual or linguistic, which complicates the alignment of the model's action planning with embodied control. To overcome this limitation, we introduce the Multimodal Embodied Interactive Agent (MEIA), capable of translating high-level tasks expressed in natural language into a sequence of executable actions. Specifically, we propose a novel Multimodal Environment Memory (MEM) module, facilitating the integration of embodied control with large models through the visual-language memory of scenes. This capability enables MEIA to generate executable action plans based on diverse requirements and the robot's capabilities. We conduct experiments in a dynamic virtual cafe environment, utilizing multiple large models through zero-shot learning, and carefully design scenarios for various situations. The experimental results showcase the promising performance of our MEIA in various embodied interactive tasks.
翻訳日:2024-02-02 16:48:58 公開日:2024-02-01
# PAP-REC:レコメンデーション言語モデルのためのパーソナライズされた自動プロンプト

PAP-REC: Personalized Automatic Prompt for Recommendation Language Model ( http://arxiv.org/abs/2402.00284v1 )

ライセンス: Link先を確認
Zelong Li, Jianchao Ji, Yingqiang Ge, Wenyue Hua, Yongfeng Zhang(参考訳) 最近登場したプロンプトベースのレコメンデーション言語モデル(RLM)は、複数のレコメンデーションタスクを均一に解決できる。 rlmは、豊富な事前学習データから学んだ継承知識をフル活用し、追加のパラメータやネットワークトレーニングを導入することなく、プロンプトによって下流のレコメンデーションタスクを解決する。 しかし、手作りのプロンプトは、わずかな書き直しが大きなパフォーマンス変化を引き起こす可能性があるため、かなりの専門知識と人的努力を必要とする。 本稿では,手作業で設計したプロンプトから生じる非効率・非効率問題を軽減するため,推奨言語モデルのパーソナライズされた自動プロンプトを生成するフレームワークpap-recを提案する。 具体的には、パーソナライズされた自動プロンプトにより、異なるユーザが同じタスクに対して異なるプロンプトトークンを持つことができる。 レコメンデーション言語モデルのためのパーソナライズされた自動プロンプト生成の課題の一つは、非常に大きな検索空間であり、長い収束時間をもたらす。 この問題を効果的かつ効率的に解決するために,サロゲートメトリクスを開発し,レコメンデーション言語モデルを促すための代替更新スケジュールを活用する。 実験の結果,PAP-RECフレームワークはパーソナライズされたプロンプトを生成し,自動生成されたプロンプトは手作業によるプロンプトよりも優れ,ベースラインレコメンデーションモデルよりも優れていた。 ソースコードはhttps://github.com/rutgerswiselab/pap-recで入手できる。

Recently emerged prompt-based Recommendation Language Models (RLM) can solve multiple recommendation tasks uniformly. The RLMs make full use of the inherited knowledge learned from the abundant pre-training data to solve the downstream recommendation tasks by prompts, without introducing additional parameters or network training. However, handcrafted prompts require significant expertise and human effort since slightly rewriting prompts may cause massive performance changes. In this paper, we propose PAP-REC, a framework to generate the Personalized Automatic Prompt for RECommendation language models to mitigate the inefficiency and ineffectiveness problems derived from manually designed prompts. Specifically, personalized automatic prompts allow different users to have different prompt tokens for the same task, automatically generated using a gradient-based method. One challenge for personalized automatic prompt generation for recommendation language models is the extremely large search space, leading to a long convergence time. To effectively and efficiently address the problem, we develop surrogate metrics and leverage an alternative updating schedule for prompting recommendation language models. Experimental results show that our PAP-REC framework manages to generate personalized prompts, and the automatically generated prompts outperform manually constructed prompts and also outperform various baseline recommendation models. The source code of the work is available at https://github.com/rutgerswiselab/PAP-REC.
翻訳日:2024-02-02 16:48:40 公開日:2024-02-01
# 空間行動単位cuesによる表情認識の誘導

Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues ( http://arxiv.org/abs/2402.00281v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger(参考訳) 最先端の表情認識(FER)分類器は高い精度を達成するが、エンドユーザーにとって重要な側面である解釈性は欠如している。 基本的表情を認識するために、専門家は一連の空間行動単位を表情に関連付けるコードブックを利用する。 本稿では,同じ専門家の足跡を踏襲し,空間行動単位(aus)を分類器の訓練に明示的に組み込んで深い解釈可能なモデルを構築するための学習戦略を提案する。 特に、このausコードブック、入力画像表現ラベル、および顔ランドマークを用いて、単一のアクションユニットヒートマップを構築し、顔表情画像w.r.tに対する最も識別的な領域を示す。 我々はこの価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、分類器の空間層の特徴を \aus マップと相関させることによって達成される。 複合損失を用いて、分類器は、オースマップに関連付けられた解釈可能な視覚層毎の注意を与え、専門家の決定過程をシミュレートしながら、画像を正しく分類するように訓練される。 これは、イメージクラス式のみを監督として、追加のマニュアルアノテーションなしで実現できる。 さらに、このメソッドはジェネリックです。 どんなCNNやトランスフォーマーベースのディープ分類器にも、アーキテクチャの変更やトレーニング時間の追加なしに適用することができる。 RAFDB と AFFECTNET データセットの2つの公開ベンチマークに対する広範な評価は、提案手法が分類性能を劣化させることなく階層的解釈性を向上させることができることを示している。 さらに,クラスアクティベーションマッピング手法(CAM)に依存した共通タイプの解釈可能な分類器について検討し,学習手法がCAMの解釈可能性を向上させることを示す。

While state-of-the-art facial expression recognition (FER) classifiers achieve a high level of accuracy, they lack interpretability, an important aspect for end-users. To recognize basic facial expressions, experts resort to a codebook associating a set of spatial action units to a facial expression. In this paper, we follow the same expert footsteps, and propose a learning strategy that allows us to explicitly incorporate spatial action units (aus) cues into the classifier's training to build a deep interpretable model. In particular, using this aus codebook, input image expression label, and facial landmarks, a single action units heatmap is built to indicate the most discriminative regions of interest in the image w.r.t the facial expression. We leverage this valuable spatial cue to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with \aus map. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with aus maps, simulating the experts' decision process. This is achieved using only the image class expression as supervision and without any extra manual annotations. Moreover, our method is generic. It can be applied to any CNN- or transformer-based deep classifier without the need for architectural change or adding significant training time. Our extensive evaluation on two public benchmarks RAFDB, and AFFECTNET datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on Class-Activation Mapping methods (CAMs), and we show that our training technique improves the CAM interpretability.
翻訳日:2024-02-02 16:48:10 公開日:2024-02-01
# 相互作用する粒子系の量子化

A quantization of interacting particle systems ( http://arxiv.org/abs/2402.00280v1 )

ライセンス: Link先を確認
Jir\^o Akahori, Norio Konno, Rikuki Okamoto, Iwao Sato(参考訳) 本稿では,ドマニ・キンゼルモデルを含む近接相互作用を持つ確率的セルオートマトンについて検討した。 ドマニ・キンツェル模型の特別ケースは直交パーコレーションである。 相互作用する粒子系をグラフ上のマルコフ連鎖と考える。 次に、相互作用する粒子系の新しい量子化を示す。 その後、量子化モデルのゼータ関数を導入し、その決定式を与える。 さらに,domany-kinzelモデルの量子化モデルの絶対ゼータ関数を計算する。

Interacting particle systems studied in this paper are probabilistic cellular automata with nearest-neighbor interaction including the Domany-Kinzel model. A special case of the Domany-Kinzel model is directed percolation. We regard the interacting particle system as a Markov chain on a graph. Then we present a new quantization of the interacting particle system. After that, we introduce a zeta function of the quantized model and give its determinant expression. Moreover, we calculate the absolute zeta function of the quantized model for the Domany-Kinzel model.
翻訳日:2024-02-02 16:47:40 公開日:2024-02-01
# Biased Quadrature 検出による非スイッチング連続可変量子鍵分布の実現

Practical No-Switching Continuous-Variable Quantum Key Distribution with Biased Quadrature Detection ( http://arxiv.org/abs/2402.00277v1 )

ライセンス: Link先を確認
Jiale Mi, Yiming Bian, Lu Fan, Song Yu, Yichen Zhang(参考訳) コヒーレント状態とヘテロダイン検出を用いた連続可変量子鍵分散プロトコル(no-switching protocol)は,基本スイッチのない簡単な実験的な設定と位相情報への簡易な評価により,実用システムで広く利用されている。 理想的なNo-Switchingプロトコルのセキュリティは、有限サイズシステムおよび構成可能なセキュリティフレームワークにおける一般的な攻撃に対して証明され、ヘテロダイン検出器は50 %の透過率を持つビームスプリッタと2つの理想的なホモダイン検出器からなる。 しかし、ビームスプリッタの透過率は不正確であり、2つの検出器は常に異なる量子効率と電子ノイズを持ち、ヘテロダイン検出に非対称性を導入し、さらに理想的なプロトコルと実用システム間のミスマッチを引き起こし、シークレットキーレートを過大評価し、実用的なセキュリティホールをもたらす。 本稿では,異方性検出の非対称性を実用システムと一致させるようにモデル化し,漸近的および有限サイズでプロトコルのセキュリティを解析する,バイアスド二次検出による修正非スイッチプロトコルを提案することで,この抜け穴を閉じる。 さらに、ビームスプリッタの透過率を調整して最適な秘密鍵レートを達成する最適化戦略を提案する。 シミュレーションの結果、ヘテロダイン検出における非対称性と最適化の有効性を考慮する必要があることが示され、実用的な安全かつ高性能なNo-Switchingシステムを実現するための有望な方法である。

Continuous-variable quantum key distribution protocol using coherent states and heterodyne detection, called No-Switching protocol, is widely used in practical systems due to the simple experimental setup without basis switching and easy assessment to phase information. The security of an ideal No-Switching protocol has been proved against general attacks in finite-size regime and composable security framework, whose heterodyne detector consists of a beam splitter with transmittance of $50\%$ and two ideal homodyne detectors. However, the transmittance of a beam splitter is inaccurate and the two detectors always have different quantum efficiency and electronic noise, which introduce asymmetry into the heterodyne detection, and further lead to the mismatch between the ideal protocol and practical systems, thereby overestimating the secret key rate and resulting in a practical security loophole. In this paper, we close this loophole by proposing a modified No-Switching protocol with biased quadrature detection, where the asymmetry of the heterodyne detection is modeled to match the practical systems, and the security of the protocol is analyzed in asymptotic and finite-size regimes. Further, an optimization strategy is proposed to achieve the optimal secret key rate by adjusting the transmittance of the beam splitter. Simulation results show the necessity of considering the asymmetry in heterodyne detection and the effectiveness of the optimization, which provides a promising way to realize a practical secure and high-performance No-Switching system.
翻訳日:2024-02-02 16:47:33 公開日:2024-02-01
# 1-duチェーン最小化によるプログラムデブロッティングの改善

Improving Program Debloating with 1-DU Chain Minimality ( http://arxiv.org/abs/2402.00276v1 )

ライセンス: Link先を確認
Myeongsoo Kim, Santosh Pande, and Alessandro Orso(参考訳) 現代のソフトウェアは、しばしば肥大化に苦しむため、メモリ消費と未使用のコードからのセキュリティ脆弱性が増大する。 それに応じて、ユーザーが保持したい機能を表すテストケースを利用する様々なプログラムデブロ手法が開発されている。 これらの手法は、最大限のコード削減を優先する攻撃的なアプローチから、テストケースに過剰に適合し、過去のセキュリティ問題に再導入する可能性のあるものから、影響のあるすべてのコードを保存することを目的とした保守的な戦略まで、より効果的な肥大化とセキュリティ改善を犠牲にしているものまで様々である。 本研究では,抽象構文木内の1-DU鎖の最小性を利用した革新的なデブロティング手法であるRLDebloatDUを提案する。 当社のアプローチでは,プログラムデータ依存性を重要視しており,攻撃的なコード削減とプログラムセマンティクスの保持のバランスを取っています。 我々は10個のlinuxカーネルプログラムについてrldebloatduを評価し、その性能を2つの主要なデブローティング技術、すなわち攻撃的なデブローティングアプローチで知られているchiselと、その保守的戦略で認識されたrazorと比較した。 RLDebloatDUは、CVE(Common Vulnerabilities and Exposures)の発生率を著しく低下させ、両者と比較して音質を向上させるとともに、解決されたセキュリティ問題を再導入することなく、セキュリティ問題を減らす効果を強調している。

Modern software often struggles with bloat, leading to increased memory consumption and security vulnerabilities from unused code. In response, various program debloating techniques have been developed, typically utilizing test cases that represent functionalities users want to retain. These methods range from aggressive approaches, which prioritize maximal code reduction but may overfit to test cases and potentially reintroduce past security issues, to conservative strategies that aim to preserve all influenced code, often at the expense of less effective bloat reduction and security improvement. In this research, we present RLDebloatDU, an innovative debloating technique that employs 1-DU chain minimality within abstract syntax trees. Our approach maintains essential program data dependencies, striking a balance between aggressive code reduction and the preservation of program semantics. We evaluated RLDebloatDU on ten Linux kernel programs, comparing its performance with two leading debloating techniques: Chisel, known for its aggressive debloating approach, and Razor, recognized for its conservative strategy. RLDebloatDU significantly lowers the incidence of Common Vulnerabilities and Exposures (CVEs) and improves soundness compared to both, highlighting its efficacy in reducing security issues without reintroducing resolved security issues.
翻訳日:2024-02-02 16:47:04 公開日:2024-02-01
# ファイバ遅延ラインバッファの非マルコフダイナミクス

Non-Markovian Dynamics in Fiber Delay-line Buffers ( http://arxiv.org/abs/2402.00274v1 )

ライセンス: Link先を確認
Kim Fook Lee and Prem Kumar(参考訳) ペアから1光子をファイバ遅延ラインバッファに格納した2光子偏光エンタングル状態に対する非マルコフ効果について検討した。 光ファイバ複屈折に結合したフォトニックキュービットのモデルと,その環境を表す繊維貯留層を提案する。 バッファリング光子とそのペア光子の非マルコフ確率関数を解析的に導出する。 確率関数を検証するために、光子対の完全な量子状態トモグラフィーを行う。 さらに、バッファリング光子とそのペア光子の量子性を研究するために、量子相互情報の尺度も活用する。 werner のよく知られた分離可能性基準は、約0.9$\,$ms のバッファ時間に生じる。 さらに、この結果から、ゼロでない量子不協和はヴェルナーの基準を超え、従って量子二部相関は0.9$\,$ms以上のバッファ時間で存在することが示唆される。

We study the non-Markovian effect on a two-photon polarization entangled state in which one photon from the pair is stored in a fiber delay-line buffer. We propose a model of a photonic qubit coupled to fiber birefringence and a fiber reservoir representing the environment. We analytically derive a non-Markovian probability function for the buffered photon and its paired photon. To verify the probability function, we perform the full quantum state tomography of the photon pairs. We further exploit the measures of quantum mutual information for studying the quantumness of the buffered photon and its paired photon. We find that Werner's well-known separability criterion occurs at the buffer time of about 0.9$\,$ms. Furthermore, our result implies that the non-zero quantum discord can surpass Werner's criterion, and hence the quantum bi-partite correlation can exist for a buffer time greater than 0.9$\,$ms.
翻訳日:2024-02-02 16:46:38 公開日:2024-02-01
# 自然言語におけるランク周波数関係の時間的パラメータ

A Crucial Parameter for Rank-Frequency Relation in Natural Languages ( http://arxiv.org/abs/2402.00271v1 )

ライセンス: Link先を確認
Chenchen Ding(参考訳) $f \propto r^{-\alpha} \cdot (r+\gamma)^{-\beta}$は、自然言語における単語のランク-周波数(r$-$f$)関係をモデル化するために、na\\\ive power law $f\propto r^{-\alpha}$より実験的に示されている。 この研究は、定式化における唯一の重要なパラメータが$\gamma$であり、コーパス上の語彙成長に対する抵抗を描いていることを示している。 最適な$\gamma$ を探索するパラメータ推定法を提案し、計算のために ``zeroth word''' を技術的に導入する。 定式化とパラメータはいくつかのケーススタディでさらに議論されている。

$f \propto r^{-\alpha} \cdot (r+\gamma)^{-\beta}$ has been empirically shown more precise than a na\"ive power law $f\propto r^{-\alpha}$ to model the rank-frequency ($r$-$f$) relation of words in natural languages. This work shows that the only crucial parameter in the formulation is $\gamma$, which depicts the resistance to vocabulary growth on a corpus. A method of parameter estimation by searching an optimal $\gamma$ is proposed, where a ``zeroth word'' is introduced technically for the calculation. The formulation and parameters are further discussed with several case studies.
翻訳日:2024-02-02 16:46:23 公開日:2024-02-01
# 時相と空間的絡み合いエントロピーの関係

Relation between timelike and spacelike entanglement entropy ( http://arxiv.org/abs/2402.00268v1 )

ライセンス: Link先を確認
Wu-zhong Guo, Song He, Yu-Xuan Zhang(参考訳) 本研究では,時間的エンタングルメントエントロピーと空間的エントロピーの関連性を確立する。 具体的には、様々な状態において、時間的な絡み合いエントロピーは、空間的な絡み合いエントロピーとその一階の時間微分の線形結合によって一意に決定される。 この枠組みは、時間的な絡み合いエントロピーの虚成分が、主にツイスト作用素とその一階時間微分の間の非可換性に由来することを明らかにしている。 さらに、この関係の制約を分析し、より複雑な状態設定に対応する拡張の可能性を強調した。

In this study, we establish a connection between timelike and spacelike entanglement entropy. Specifically, for a diverse range of states, the timelike entanglement entropy is uniquely determined by a linear combination of the spacelike entanglement entropy and its first-order temporal derivative. This framework reveals that the imaginary component of the timelike entanglement entropy primarily originates from the non-commutativity between the twist operator and its first-order temporal derivative. Furthermore, we analyze the constraints of this relation and highlight the possible extension to accommodate more complex state configurations.
翻訳日:2024-02-02 16:46:05 公開日:2024-02-01
# 大規模言語モデルに基づくファジィ技術:調査

Large Language Models Based Fuzzing Techniques: A Survey ( http://arxiv.org/abs/2402.00350v1 )

ライセンス: Link先を確認
Linghan Huang, Peizhou Zhao, Huaming Chen, Lei Ma(参考訳) ソフトウェアが重要な役割を果たす現代では、ソフトウェアセキュリティと脆弱性分析がソフトウェア開発に不可欠になっている。 効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。 さらに、LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進され、目覚ましい性能を示している。 既存のファジングテスト技術は完全に自動化されておらず、ソフトウェア脆弱性が進化し続けることを考えると、大規模な言語モデルに基づいたファジングテストを採用する傾向が強まっている。 この調査は、LLMとソフトウェアテストのファジングテストを融合させるアプローチの体系的な概要を提供する。 本稿では, LLM, ファジリング試験, ファジリング試験の3分野における文献の統計的解析と議論を行い, 2024年までの最先端手法を要約した。 また,今後,llmsが生成するファジングテスト技術が広く普及し,応用される可能性についても調査した。

In the modern era where software plays a pivotal role, software security and vulnerability analysis have become essential for software development. Fuzzing test, as an efficient software testing method, are widely used in various domains. Moreover, the rapid development of Large Language Models (LLMs) has facilitated their application in the field of software testing, demonstrating remarkable performance. Considering that existing fuzzing test techniques are not entirely automated and software vulnerabilities continue to evolve, there is a growing trend towards employing fuzzing test generated based on large language models. This survey provides a systematic overview of the approaches that fuse LLMs and fuzzing tests for software testing. In this paper, a statistical analysis and discussion of the literature in three areas, namely LLMs, fuzzing test, and fuzzing test generated based on LLMs, are conducted by summarising the state-of-the-art methods up until 2024. Our survey also investigates the potential for widespread deployment and application of fuzzing test techniques generated by LLMs in the future.
翻訳日:2024-02-02 16:39:32 公開日:2024-02-01
# PirateNets: 残差適応ネットワークを用いた物理インフォームドディープラーニング

PirateNets: Physics-informed Deep Learning with Residual Adaptive Networks ( http://arxiv.org/abs/2402.00326v1 )

ライセンス: Link先を確認
Sifan Wang, Bowen Li, Yuhan Chen, Paris Perdikaris(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される前方および逆問題に対処するための一般的なディープラーニングフレームワークとなっているが、より大規模で深いニューラルネットワークアーキテクチャを採用すると、その性能は劣化することが知られている。 この反直観的行動の根源は、不適な初期化スキームを持つ多層パーセプトロン(MLP)アーキテクチャを使うことであり、結果としてネットワークデリバティブの練習性が低下し、最終的にはPDE残留損失の不安定な最小化につながる。 これを解決するために,我々は,深いPINNモデルの安定かつ効率的なトレーニングを容易にする新しいアーキテクチャであるPicical-informed Residual Adaptive Networks (PirateNets)を導入する。 PirateNetsは、新しい適応的残留接続を活用し、トレーニング中に徐々に深くなっていく浅層ネットワークとしてネットワークを初期化することができる。 また,提案手法により,与えられたPDEシステムに対応する適切な帰納バイアスをネットワークアーキテクチャに符号化できることを示す。 我々は、パイレーツネットの最適化が容易であり、精度が大幅に向上し、最終的には様々なベンチマークで最先端の結果が得られることを示す包括的な実証的証拠を提供する。 この原稿に付随するすべてのコードとデータは、 \url{https://github.com/PredictiveIntelligenceLab/jaxpi}で公開される。

While physics-informed neural networks (PINNs) have become a popular deep learning framework for tackling forward and inverse problems governed by partial differential equations (PDEs), their performance is known to degrade when larger and deeper neural network architectures are employed. Our study identifies that the root of this counter-intuitive behavior lies in the use of multi-layer perceptron (MLP) architectures with non-suitable initialization schemes, which result in poor trainablity for the network derivatives, and ultimately lead to an unstable minimization of the PDE residual loss. To address this, we introduce Physics-informed Residual Adaptive Networks (PirateNets), a novel architecture that is designed to facilitate stable and efficient training of deep PINN models. PirateNets leverage a novel adaptive residual connection, which allows the networks to be initialized as shallow networks that progressively deepen during training. We also show that the proposed initialization scheme allows us to encode appropriate inductive biases corresponding to a given PDE system into the network architecture. We provide comprehensive empirical evidence showing that PirateNets are easier to optimize and can gain accuracy from considerably increased depth, ultimately achieving state-of-the-art results across various benchmarks. All code and data accompanying this manuscript will be made publicly available at \url{https://github.com/PredictiveIntelligenceLab/jaxpi}.
翻訳日:2024-02-02 16:39:17 公開日:2024-02-01
# 複数ラベル学習のための一貫したルベーグ尺度

A Consistent Lebesgue Measure for Multi-label Learning ( http://arxiv.org/abs/2402.00324v1 )

ライセンス: Link先を確認
Kaan Demir, Bach Nguyen, Bing Xue, Mengjie Zhang(参考訳) マルチラベル損失関数は通常微分不能であり、勾配に基づく最適化にはサーロゲート損失関数を必要とする。 代理損失関数の整合性は証明されず、多ラベル損失関数の矛盾する性質により悪化する。 本稿では,複数の関連性を持つ多ラベル損失関数から直接学習するために,一貫したLebesgue Measure-based Multi-label Learner (CLML)を提案し,ベイズリスクフレームワークの下でCLMLが理論的整合性を実現することを証明した。 1) clmlは最先端の成果を一貫して達成できること,(2)clmlはラベルグラフや摂動条件付け,意味埋め込みを伴わない単純なフィードフォワードモデルに最適化すること,(3)clmlの有効性を区別するだけでなく,サロゲートと所望の損失関数との矛盾を強調すること,の2つの主な性能要因はルベーグ測度設計である。

Multi-label loss functions are usually non-differentiable, requiring surrogate loss functions for gradient-based optimisation. The consistency of surrogate loss functions is not proven and is exacerbated by the conflicting nature of multi-label loss functions. To directly learn from multiple related, yet potentially conflicting multi-label loss functions, we propose a Consistent Lebesgue Measure-based Multi-label Learner (CLML) and prove that CLML can achieve theoretical consistency under a Bayes risk framework. Empirical evidence supports our theory by demonstrating that: (1) CLML can consistently achieve state-of-the-art results; (2) the primary performance factor is the Lebesgue measure design, as CLML optimises a simpler feedforward model without additional label graph, perturbation-based conditioning, or semantic embeddings; and (3) an analysis of the results not only distinguishes CLML's effectiveness but also highlights inconsistencies between the surrogate and the desired loss functions.
翻訳日:2024-02-02 16:38:50 公開日:2024-02-01
# 事前学習から適応までの意見要約におけるバイアス--政治バイアスを事例として

Bias in Opinion Summarisation from Pre-training to Adaptation: A Case Study in Political Bias ( http://arxiv.org/abs/2402.00322v1 )

ライセンス: Link先を確認
Nannan Huang, Haytham Fayek, Xiuzhen Zhang(参考訳) 意見要約は、製品レビュー、議論フォーラム、ソーシャルメディアのテキストなどの文書で提示される敬遠した情報と意見を、ユーザが意見を効果的に理解できる短い要約にまとめることを目的としている。 偏見のある要約を生成することは、世論を揺さぶるリスクがある。 これまでの研究は、抽出モデルを用いた意見要約におけるバイアスの研究に焦点を当ててきたが、限定的な研究は抽象要約モデルに注意を払ってきた。 本研究では,政治バイアスを事例研究として,まず抽象モデルにおけるバイアスの定量化手法を確立し,それを事前学習モデルから,異なるモデルと適応手法を用いてソーシャルメディアの意見を要約するタスクまで追跡する。 ほとんどのモデルは本質的な偏見を示す。 ソーシャルメディアのテキスト要約データセットと様々な適応方法の対比を用いて,パラメータのチューニングは,標準の微調整に比べてバイアスが少ないことを見出したが,微調整に使用されるトレーニングデータにおけるトピックの多様性は極めて重要である。

Opinion summarisation aims to summarise the salient information and opinions presented in documents such as product reviews, discussion forums, and social media texts into short summaries that enable users to effectively understand the opinions therein. Generating biased summaries has the risk of potentially swaying public opinion. Previous studies focused on studying bias in opinion summarisation using extractive models, but limited research has paid attention to abstractive summarisation models. In this study, using political bias as a case study, we first establish a methodology to quantify bias in abstractive models, then trace it from the pre-trained models to the task of summarising social media opinions using different models and adaptation methods. We find that most models exhibit intrinsic bias. Using a social media text summarisation dataset and contrasting various adaptation methods, we find that tuning a smaller number of parameters is less biased compared to standard fine-tuning; however, the diversity of topics in training data used for fine-tuning is critical.
翻訳日:2024-02-02 16:38:31 公開日:2024-02-01
# SmartCooper: アダプティブフュージョンと判断機構を備えた垂直協調知覚

SmartCooper: Vehicular Collaborative Perception with Adaptive Fusion and Judger Mechanism ( http://arxiv.org/abs/2402.00321v1 )

ライセンス: Link先を確認
Yuang Zhang, Haonan An, Zhengru Fang, Guowen Xu, Yuan Zhou, Xianhao Chen and Yuguang Fang(参考訳) 近年,コネクテッド・アンド・コネクテッド・オートモーティブ・ビークル(cav)の協調認識による道路安全性向上の可能性から,自動運転が注目されている。 しかしながら、車両の伝送環境における時間変動は、通信資源の動的割り当てを要求する。 さらに、協調知覚の文脈では、すべてのCAVが価値あるデータに貢献しているわけではなく、一部のCAVデータが協調知覚に有害な影響を与えることを認識することが重要である。 本稿では,CAVデータ融合を促進するための通信最適化と判断機構を組み込んだ適応型協調認識フレームワークであるSmartCooperを紹介する。 我々のアプローチは、通信制約を考慮しながら車両の接続を最適化することから始まる。 次に、学習可能なエンコーダを訓練し、チャネル状態情報(CSI)に基づいて圧縮率を動的に調整する。 その後、適応デコーダによって再構成された有害画像データをフィルタリングする判定機構を考案する。 提案アルゴリズムの有効性をOpenCOODプラットフォーム上で評価する。 その結果,非ジュッジャー方式に比べて通信コストが23.10倍に大幅に削減された。 さらに、最先端のスキームと比較して、結合(ap@iou)上の交点の平均精度が7.15\%向上した。

In recent years, autonomous driving has garnered significant attention due to its potential for improving road safety through collaborative perception among connected and autonomous vehicles (CAVs). However, time-varying channel variations in vehicular transmission environments demand dynamic allocation of communication resources. Moreover, in the context of collaborative perception, it is important to recognize that not all CAVs contribute valuable data, and some CAV data even have detrimental effects on collaborative perception. In this paper, we introduce SmartCooper, an adaptive collaborative perception framework that incorporates communication optimization and a judger mechanism to facilitate CAV data fusion. Our approach begins with optimizing the connectivity of vehicles while considering communication constraints. We then train a learnable encoder to dynamically adjust the compression ratio based on the channel state information (CSI). Subsequently, we devise a judger mechanism to filter the detrimental image data reconstructed by adaptive decoders. We evaluate the effectiveness of our proposed algorithm on the OpenCOOD platform. Our results demonstrate a substantial reduction in communication costs by 23.10\% compared to the non-judger scheme. Additionally, we achieve a significant improvement on the average precision of Intersection over Union (AP@IoU) by 7.15\% compared with state-of-the-art schemes.
翻訳日:2024-02-02 16:38:13 公開日:2024-02-01
# SCO-VIST:ソーシャルインタラクションコモンセンス知識に基づくビジュアルストーリーテリング

SCO-VIST: Social Interaction Commonsense Knowledge-based Visual Storytelling ( http://arxiv.org/abs/2402.00319v1 )

ライセンス: Link先を確認
Eileen Wang, Soyeon Caren Han, Josiah Poon(参考訳) ビジュアルストーリーテリングは、与えられた画像シーケンスに基づいてコヒーレントストーリーを自動的に生成することを目的としている。 画像キャプションのようなタスクと異なり、ビジュアルストーリーには事実記述、世界観、人間社会の常識が含まれ、無関係な要素を組み合わせることで、コヒーレントで魅力的なヒューマン・ライティング可能なストーリーを形成する。 しかし、ほとんどのモデルは、ストーリーを作ろうとするときに、事実情報の適用と、分類学/語彙学的な外部知識の使用に重点を置いている。 本稿では,人間の行動モチベーションと社会的相互作用のコモンセンス知識を含む対象と関係のグラフとして,画像シーケンスを表現するフレームワークSCO-VISTを紹介する。 SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。 この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。 提案手法は,視覚的グラウンドニング,コヒーレンス,多様性,人間性の観点から,自動評価と人的評価の両方において,複数の指標で優れたストーリーを生成する。

Visual storytelling aims to automatically generate a coherent story based on a given image sequence. Unlike tasks like image captioning, visual stories should contain factual descriptions, worldviews, and human social commonsense to put disjointed elements together to form a coherent and engaging human-writeable story. However, most models mainly focus on applying factual information and using taxonomic/lexical external knowledge when attempting to create stories. This paper introduces SCO-VIST, a framework representing the image sequence as a graph with objects and relations that includes human action motivation and its social interaction commonsense knowledge. SCO-VIST then takes this graph representing plot points and creates bridges between plot points with semantic and occurrence-based edge weights. This weighted story graph produces the storyline in a sequence of events using Floyd-Warshall's algorithm. Our proposed framework produces stories superior across multiple metrics in terms of visual grounding, coherence, diversity, and humanness, per both automatic and human evaluations.
翻訳日:2024-02-02 16:37:56 公開日:2024-02-01
# フェデレーション学習のためのアナログデジタルスケジューリング:コミュニケーション効率のよいアプローチ

Analog-digital Scheduling for Federated Learning: A Communication-Efficient Approach ( http://arxiv.org/abs/2402.00318v1 )

ライセンス: Link先を確認
Muhammad Faraz Ul Abrar and Nicol\`o Michelusi(参考訳) ota(over-the-air)計算は、ワイヤレスネットワーク上で機械学習モデルをトレーニングするための通信効率の高い連合学習(fl)パラダイムとして最近登場した。 しかし、その性能は、最悪のSNRを持つデバイスによって制限され、高速でノイズの多い更新をもたらす。 一方、直交リソースブロック(RB)をデジタルチャネルを介して個々のデバイスに割り当てることにより、通信遅延の増加によるノイズ問題を軽減できる。 本稿では,新しいアナログデジタルfl方式であるadflについて述べる。各ラウンドにおいて,パラメータサーバ(ps)は,各デバイスに,その勾配をアナログota方式でアップロードするか,あるいは ‘`digital'方式を用いて直交rb上に量子化勾配を送信するようにスケジュールする。 単一flラウンドに着目し,psにおける推定大域的勾配に対する平均二乗誤差 (mse) の最小化,遅延制約の影響,ディジタルデバイスの最適スケジューリング構成と量子化ビットの生み出す最適スケジューリング問題を提案した。 シミュレーションの結果、ADFLは、OTA方式のほとんどのデバイスをスケジューリングすると同時に、OTA方式とデジタル方式の両方において、OTA方式とデジタルのみ方式を一貫して上回っていることがわかった。

Over-the-air (OTA) computation has recently emerged as a communication-efficient Federated Learning (FL) paradigm to train machine learning models over wireless networks. However, its performance is limited by the device with the worst SNR, resulting in fast yet noisy updates. On the other hand, allocating orthogonal resource blocks (RB) to individual devices via digital channels mitigates the noise problem, at the cost of increased communication latency. In this paper, we address this discrepancy and present ADFL, a novel Analog-Digital FL scheme: in each round, the parameter server (PS) schedules each device to either upload its gradient via the analog OTA scheme or transmit its quantized gradient over an orthogonal RB using the ``digital" scheme. Focusing on a single FL round, we cast the optimal scheduling problem as the minimization of the mean squared error (MSE) on the estimated global gradient at the PS, subject to a delay constraint, yielding the optimal device scheduling configuration and quantization bits for the digital devices. Our simulation results show that ADFL, by scheduling most of the devices in the OTA scheme while also occasionally employing the digital scheme for a few devices, consistently outperforms OTA-only and digital-only schemes, in both i.i.d. and non-i.i.d. settings.
翻訳日:2024-02-02 16:37:38 公開日:2024-02-01
# ローカルプライベート制約によるオンライン配信学習

Online Distribution Learning with Local Private Constraints ( http://arxiv.org/abs/2402.00315v1 )

ライセンス: Link先を確認
Jin Sima and Changlong Wu and Olgica Milenkovic and Wojciech Szpankowski(参考訳) 本稿では,ローカルな差分プライバシーの下で,emph{unbounded}ラベルセットを用いたオンライン条件分布推定の問題について検討する。 $\mathcal{F}$ を非有界ラベル集合を持つ分布値関数クラスとする。 オンライン形式で \emph{unknown} 関数 $f\in \mathcal{f}$ を推定することで、コンテキスト $\boldsymbol{x}_t$ が与えられたとき、$f(\boldsymbol{x}_t)$ からサンプリングされた真のラベルの民営化バージョンのみを知っている kl-divergence の下で$f(\boldsymbol{x}_t)$ の見積もりを生成することができる。 最終的な目的は、有限地平線$T$の累積KLリスクを最小化することである。 KL-risk は $(\epsilon,0)$-local differential privacy of the privatized labels の下で $\tilde{\Theta}(\frac{1}{\epsilon}\sqrt{KT})$ up to poly-logarithmic factors where $K=|\mathcal{F}|$ として成長することを示す。 これは、wu et al. (2023a) が有界ラベル集合に対して示した $\tilde{\theta}(\sqrt{t\log k})$ bound とは対照的である。 副産物として, バッチ設定のみに確立されたgopi et al. (2020) の仮説選択問題に対して, ほぼ厳密な上限を回復した。

We study the problem of online conditional distribution estimation with \emph{unbounded} label sets under local differential privacy. Let $\mathcal{F}$ be a distribution-valued function class with unbounded label set. We aim at estimating an \emph{unknown} function $f\in \mathcal{F}$ in an online fashion so that at time $t$ when the context $\boldsymbol{x}_t$ is provided we can generate an estimate of $f(\boldsymbol{x}_t)$ under KL-divergence knowing only a privatized version of the true labels sampling from $f(\boldsymbol{x}_t)$. The ultimate objective is to minimize the cumulative KL-risk of a finite horizon $T$. We show that under $(\epsilon,0)$-local differential privacy of the privatized labels, the KL-risk grows as $\tilde{\Theta}(\frac{1}{\epsilon}\sqrt{KT})$ upto poly-logarithmic factors where $K=|\mathcal{F}|$. This is in stark contrast to the $\tilde{\Theta}(\sqrt{T\log K})$ bound demonstrated by Wu et al. (2023a) for bounded label sets. As a byproduct, our results recover a nearly tight upper bound for the hypothesis selection problem of gopi et al. (2020) established only for the batch setting.
翻訳日:2024-02-02 16:37:11 公開日:2024-02-01
# 遅延を伴う確率環境における制御:モデルに基づく強化学習アプローチ

Control in Stochastic Environment with Delays: A Model-based Reinforcement Learning Approach ( http://arxiv.org/abs/2402.00313v1 )

ライセンス: Link先を確認
Zhiyuan Yao, Ionut Florescu, Chihoon Lee(参考訳) 本稿では,遅延フィードバックを伴う環境における制御問題に対する新しい強化学習手法を提案する。 具体的には, 決定論的計画を用いた従来の手法と比較して, 確率的計画を用いる。 これにより、政策最適化問題にリスク選択を組み込むことができます。 この定式化は決定論的遷移問題に対する最適ポリシーを回復できることを示す。 我々はこの政策を文学の2つの方法と対比する。 簡単なタスクに方法論を適用し,その特徴を理解する。 次に,複数のアタリゲームを制御する手法の性能を比較した。

In this paper we are introducing a new reinforcement learning method for control problems in environments with delayed feedback. Specifically, our method employs stochastic planning, versus previous methods that used deterministic planning. This allows us to embed risk preference in the policy optimization problem. We show that this formulation can recover the optimal policy for problems with deterministic transitions. We contrast our policy with two prior methods from literature. We apply the methodology to simple tasks to understand its features. Then, we compare the performance of the methods in controlling multiple Atari games.
翻訳日:2024-02-02 16:36:38 公開日:2024-02-01
# AIを利用した合成生物学の実践的ガバナンス課題:文献レビューと新たなフレームワーク

The whack-a-mole governance challenge for AI-enabled synthetic biology: literature review and emerging frameworks ( http://arxiv.org/abs/2402.00312v1 )

ライセンス: Link先を確認
Trond Arne Undheim(参考訳) AIを利用する合成生物学は、大きな可能性を秘めているが、バイオリスクを著しく増加させ、新しい二重利用の懸念をもたらす。 AIを利用する合成生物学は、バイオエンジニアリングを工業的バイオ製造にスケールアップする可能性がある。 しかし、文献レビューでは、イノベーションのための合理的なスコープを維持することや、大規模なバイオエコノミーを育むという目標が、必ずしもバイオセーフティとは対照的ではなく、手を取り合う必要があることを示している。 本稿では,この問題に関する文献レビューを行い,指揮統制,スチュワードシップ,ボトムアップ,laissez-faireガバナンスの選択肢を横断する,新たな政策・実践の枠組みについて述べる。 今後のAIによるバイオハザード(生物ハザード)の予防と緩和を可能にする早期警戒システムを実現するには、故意の誤用や公的な領域から、常に進化し、適応的で対話的なアプローチが現れる必要がある。 バイオリスクは確立された統治体制の対象となるが、科学者は一般的にバイオセーフティプロトコルに固執するが、実験的でも正当な使用は科学者が予期せぬ発展を導く可能性がある。 生成AIによって実現されたチャットボットの最近の進歩は、高度な生物学的洞察が悪性個人や組織の手に入りやすいという懸念を復活させた。 これらの問題の集合を考えると、社会はAIによる合成生物学をどのように管理するかを再考する必要がある。 課題を視覚化する方法として提案されているのは、ムダなガバナンスだが、新興のソリューションもおそらくそれほど変わらないだろう。

AI-enabled synthetic biology has tremendous potential but also significantly increases biorisks and brings about a new set of dual use concerns. The picture is complicated given the vast innovations envisioned to emerge by combining emerging technologies, as AI-enabled synthetic biology potentially scales up bioengineering into industrial biomanufacturing. However, the literature review indicates that goals such as maintaining a reasonable scope for innovation, or more ambitiously to foster a huge bioeconomy don't necessarily contrast with biosafety, but need to go hand in hand. This paper presents a literature review of the issues and describes emerging frameworks for policy and practice that transverse the options of command-and control, stewardship, bottom-up, and laissez-faire governance. How to achieve early warning systems that enable prevention and mitigation of future AI-enabled biohazards from the lab, from deliberate misuse, or from the public realm, will constantly need to evolve, and adaptive, interactive approaches should emerge. Although biorisk is subject to an established governance regime, and scientists generally adhere to biosafety protocols, even experimental, but legitimate use by scientists could lead to unexpected developments. Recent advances in chatbots enabled by generative AI have revived fears that advanced biological insight can more easily get into the hands of malignant individuals or organizations. Given these sets of issues, society needs to rethink how AI-enabled synthetic biology should be governed. The suggested way to visualize the challenge at hand is whack-a-mole governance, although the emerging solutions are perhaps not so different either.
翻訳日:2024-02-02 16:36:32 公開日:2024-02-01
# ラベルフリー学習による地震時トモグラフィ

Seismic Traveltime Tomography with Label-free Learning ( http://arxiv.org/abs/2402.00310v1 )

ライセンス: Link先を確認
Feng Wang, Bo Yang, Renfang Wang and Hong Qiu(参考訳) 深層学習技術は地震時トモグラフィーのための速度モデル(VM)の構築に使われており、近年は高い性能を示している。 しかし、彼らはディープニューラルネットワーク(NN)をエンドツーエンドの学習で訓練するためにラベル付きサンプル(例えば入力とラベルのペア)を生成する必要があり、フィールドデータ反転のための本当のラベルは通常欠落または非常に高価である。 いくつかの伝統的なトモグラフィー手法は迅速に実装できるが、その効果はしばしば事前の仮定によって制限される。 ラベル付きサンプルの生成を避けるため,従来のトモグラフィー-最小二乗法(LSQR)を用いて,深層学習と辞書学習を統合し,低解像度でVMを強化する手法を提案する。 まず,計算コストを削減し,低解像度でvmを拡張可能な2段階の戦略を提案するため,浅くシンプルなnnを設計した。 初期辞書はLSQRによる推定から辞書学習法により訓練される; (2)辞書最適化 ウォーミングアップステップで得られた最初の辞書はNNによって最適化され、次にLSQRによる参照のスローネスと推定で高解像度のVMを再構築する。 さらに,nnトレーニングがラベルフリーであることを保証するために,旅行時間の不適合を最小限に抑えるためのロス関数を設計し,nnトレーニングの各時代後に最適化辞書を得ることができる。 数値実験により提案手法の有効性を実証する。

Deep learning techniques have been used to build velocity models (VMs) for seismic traveltime tomography and have shown encouraging performance in recent years. However, they need to generate labeled samples (i.e., pairs of input and label) to train the deep neural network (NN) with end-to-end learning, and the real labels for field data inversion are usually missing or very expensive. Some traditional tomographic methods can be implemented quickly, but their effectiveness is often limited by prior assumptions. To avoid generating labeled samples, we propose a novel method by integrating deep learning and dictionary learning to enhance the VMs with low resolution by using the traditional tomography-least square method (LSQR). We first design a type of shallow and simple NN to reduce computational cost followed by proposing a two-step strategy to enhance the VMs with low resolution: (1) Warming up. An initial dictionary is trained from the estimation by LSQR through dictionary learning method; (2) Dictionary optimization. The initial dictionary obtained in the warming-up step will be optimized by the NN, and then it will be used to reconstruct high-resolution VMs with the reference slowness and the estimation by LSQR. Furthermore, we design a loss function to minimize traveltime misfit to ensure that NN training is label-free, and the optimized dictionary can be obtained after each epoch of NN training. We demonstrate the effectiveness of the proposed method through numerical tests.
翻訳日:2024-02-02 16:36:02 公開日:2024-02-01
# 次位置予測のための高精度かつ低パラメータ機械学習アーキテクチャ

An Accurate and Low-Parameter Machine Learning Architecture for Next Location Prediction ( http://arxiv.org/abs/2402.00306v1 )

ライセンス: Link先を確認
Calvin Jary and Nafiseh Kahani(参考訳) 次のロケーション予測は、ユーザの次のロケーションを予測するための分野だ。 そのアプリケーションには、リソース割り当て、サービス品質、エネルギー効率、交通管理が含まれる。 本稿では,エネルギー効率,小型化,低パラメータ機械学習(ML)アーキテクチャを提案する。 これを実現するために、都市全体の完全な人体移動パターンに関する100のハイパーパラメータ実験を行い、最小限のモデルパラメータで精度の高いMLアーキテクチャを正確に決定しました。 公開されたMLアーキテクチャ内のモデルパラメータの数を20200万から200万に削減することに成功しました。 これによりモデルパラメータの合計サイズが791mbから8mbに縮小された。 さらに、トレーニング時間を4倍に短縮し、トレーニングに必要なグラフィック処理ユニット(gpu)メモリを20倍に削減し、全体的な精度を80.16%から82.54%に向上させた。 この改良により、メモリやストレージを多く持たない控えめなベースステーションやエッジデバイスが、提案されたMLアーキテクチャをデプロイして、次のロケーション予測に利用できるようになる。

Next location prediction is a discipline that involves predicting a users next location. Its applications include resource allocation, quality of service, energy efficiency, and traffic management. This paper proposes an energy-efficient, small, and low parameter machine learning (ML) architecture for accurate next location prediction, deployable on modest base stations and edge devices. To accomplish this we ran a hundred hyperparameter experiments on the full human mobility patterns of an entire city, to determine an exact ML architecture that reached a plateau of accuracy with the least amount of model parameters. We successfully achieved a reduction in the number of model parameters within published ML architectures from 202 million down to 2 million. This reduced the total size of the model parameters from 791 MB down to 8 MB. Additionally, this decreased the training time by a factor of four, the amount of graphics processing unit (GPU) memory needed for training by a factor of twenty, and the overall accuracy was increased from 80.16% to 82.54%. This improvement allows for modest base stations and edge devices which do not have a large amount of memory or storage, to deploy and utilize the proposed ML architecture for next location prediction.
翻訳日:2024-02-02 16:35:37 公開日:2024-02-01
# 植物密集サイクルの情報理論しきい値

Information-Theoretic Thresholds for Planted Dense Cycles ( http://arxiv.org/abs/2402.00305v1 )

ライセンス: Link先を確認
Cheng Mao, Alexander S. Wein, Shenduo Zhang(参考訳) 社会・生物科学においてユビキタスな小世界ネットワークのためのランダムグラフモデルについて検討する。 このモデルでは、期待される帯域幅$n \tau$の密度サイクルは、頂点の隠れた一次元幾何学を表し、n$頂点上の周囲ランダムグラフに植え付けられる。 植え込み高密度サイクルの検出と回復の両面において、情報理論の閾値を$n$, $\tau$、エッジワイド信号対雑音比$\lambda$で特徴づける。 特に、情報理論閾値は、最近の低次多項式アルゴリズムの研究で確立された計算しきい値とは異なるため、この問題に対する統計的-計算的ギャップの存在を正当化する。

We study a random graph model for small-world networks which are ubiquitous in social and biological sciences. In this model, a dense cycle of expected bandwidth $n \tau$, representing the hidden one-dimensional geometry of vertices, is planted in an ambient random graph on $n$ vertices. For both detection and recovery of the planted dense cycle, we characterize the information-theoretic thresholds in terms of $n$, $\tau$, and an edge-wise signal-to-noise ratio $\lambda$. In particular, the information-theoretic thresholds differ from the computational thresholds established in a recent work for low-degree polynomial algorithms, thereby justifying the existence of statistical-to-computational gaps for this problem.
翻訳日:2024-02-02 16:35:19 公開日:2024-02-01
# invariance-powered trustworthy defense via remove then restore

Invariance-powered Trustworthy Defense via Remove Then Restore ( http://arxiv.org/abs/2402.00304v1 )

ライセンス: Link先を確認
Xiaowei Fu, Yuhang Zhou, Lina Ma, and Lei Zhang(参考訳) 敵攻撃はディープニューラルネットワーク(DNN)の展開に挑戦する一方で、以前の防衛モデルは様々な攻撃の一般化を見落としている。 がんに対する標的療法に着想を得て, 対人検体を自然良性サンプルの局所病変とみなす。主な発見は, 対人検体におけるサルエントアタックが攻撃過程を支配しているのに対して, 自明なアタックは, 全般的な堅牢性を得るための信頼できる証拠となる。 この知見に基づき、標的治療機構に追従したピクセル手術と意味再生(pssr)モデルを開発し、3つのメリットがある。 1) サルエント攻撃を除去するために, 自明な攻撃を分散情報の一種として保持するスコアベースの画素手術モジュールが提案されている。 2) 判別コンテンツの復元のために,条件付きアライメント外挿子に基づく意味的再生モジュールを提案し,画素と意味的一貫性を実現する。 3) 頑健さと精度をさらに調和させるため, 難解な問題として, 対角Rドロップ付自己拡張正規化器を設計する。 多数のベンチマーク実験はPSSRの優位性を示している。

Adversarial attacks pose a challenge to the deployment of deep neural networks (DNNs), while previous defense models overlook the generalization to various attacks. Inspired by targeted therapies for cancer, we view adversarial samples as local lesions of natural benign samples, because a key finding is that salient attack in an adversarial sample dominates the attacking process, while trivial attack unexpectedly provides trustworthy evidence for obtaining generalizable robustness. Based on this finding, a Pixel Surgery and Semantic Regeneration (PSSR) model following the targeted therapy mechanism is developed, which has three merits: 1) To remove the salient attack, a score-based Pixel Surgery module is proposed, which retains the trivial attack as a kind of invariance information. 2) To restore the discriminative content, a Semantic Regeneration module based on a conditional alignment extrapolator is proposed, which achieves pixel and semantic consistency. 3) To further harmonize robustness and accuracy, an intractable problem, a self-augmentation regularizer with adversarial R-drop is designed. Experiments on numerous benchmarks show the superiority of PSSR.
翻訳日:2024-02-02 16:35:00 公開日:2024-02-01
# 2DEG-圧電ヘテロ構造における非線形感受性とマルチフォノン混合過程の非初期計算

Ab-Initio Calculations of Nonlinear Susceptibility and Multi-Phonon Mixing Processes in a 2DEG-Piezoelectric Heterostructure ( http://arxiv.org/abs/2402.00303v1 )

ライセンス: Link先を確認
Eric Chatterjee, Alexander Wendt, Daniel Soh, and Matt Eichenfield(参考訳) 固体弾性波フォノンは、幅広い量子情報応用のための有望なプラットフォームである。 量子情報処理にフォノンを利用する際、優れた挑戦と実現能力は、それらの間の強い非線形相互作用を実現することである。 本研究では,二次元電子ガス (2deg) に近接してフォノンモードをホストする圧電型音響材料からなる圧電半導体ヘテロ構造を用いた一般アーキテクチャを提案する。 圧電材料中の各フォノンは電場を持ち、2DEGに延びる。 電場は2DEG電子の偏光を誘導し、他の圧電体電場と相互作用する。 正味の結果は様々なフォノンモード間のカップリングである。 第一原理から、システムの非線形音素感受性を導出する。 多くの非線形過程が高電子移動度で強く支持され、2DEGを用いて非線形性を媒介する。 GaAs-AlGaAsヘテロ構造2DEGと相互作用するニオブ酸リチウム表面の音響波の場合、第1、第2、第3の感受性を詳細に算出する。 このシステムでは、3階の強い非線形性により、現実的なキャビティ線幅を超える音響キャビティでのシングルフォノンカーシフトが可能となり、新しい音響量子ビットのクラスが生まれる可能性がある。 さらに, 強2次非線形性を用いて高利得進行波パラメトリック増幅器を作製し, 音響共振器量子ビットの出力を最終的に検出できることを示した。 このようなシステムにおいて良好な損失を仮定すると、これらの能力は伝送線路内のマイクロ波電磁場からフォノンを効率よく伝送する能力と相まって、全音響量子情報プロセッサを作成することを約束する。

Solid-state elastic-wave phonons are a promising platform for a wide range of quantum information applications. An outstanding challenge and enabling capability in harnessing phonons for quantum information processing is achieving strong nonlinear interactions between them. To this end, we propose a general architecture using piezoelectric-semiconductor heterostructures consisting of a piezoelectric acoustic material hosting phonon modes in direct proximity to a two-dimensional electron gas (2DEG). Each phonon in the piezoelectric material carries an electric field, which extends into the 2DEG. The fields induce polarization of 2DEG electrons, which in turn interact with other piezoelectric phononic electric fields. The net result is coupling between the various phonon modes. We derive, from first principles, the nonlinear phononic susceptibility of the system. We show that many nonlinear processes are strongly favored at high electron mobility, motivating the use of the 2DEG to mediate the nonlinearities. We derive in detail the first, second, and third-order susceptibilities and calculate them for the case of a lithium niobate surface acoustic wave interacting with a GaAs-AlGaAs heterostructure 2DEG. We show that, for this system, the strong third-order nonlinearity could enable single-phonon Kerr shift in an acoustic cavity that exceeds realistic cavity linewidths, potentially leading to a new class of acoustic qubit. We further show that the strong second-order nonlinearity could be used to produce a high-gain, traveling-wave parametric amplifier to amplify--and ultimately detect--the outputs of the acoustic cavity qubits. Assuming favorable losses in such a system, these capabilities, combined with the ability to efficiently transduce phonons from microwave electromagnetic fields in transmission lines, thus hold promise for creating all-acoustic quantum information processors.
翻訳日:2024-02-02 16:34:37 公開日:2024-02-01
# 超強結合量子ラビモデルの誤差耐性増幅とシミュレーション

Error-Tolerant Amplification and Simulation of the Ultrastrong-Coupling Quantum Rabi Model ( http://arxiv.org/abs/2402.00379v1 )

ライセンス: Link先を確認
Ye-Hong Chen, Zhi-Cheng Shi, Franco Nori, and Yan Xia(参考訳) フォトニックキャット状態によって形成される立方体量子ビットは、ハードウェア効率の良い普遍量子コンピューティングに大いに期待できる。 キャット状態量子ビットは、量子ラビモデル(およびその多様体)の誤差耐性シミュレーションにより、キャット状態量子ビットとキャビティとの結合強度を高め、超強結合状態に達することを実証する。 これにより、反回転相互作用に依存するいくつかの興味深い量子現象を探索することができる。 バイアスノイズ猫量子ビットの利点は、2つの主誤差チャネル(周波数と振幅のミスマッチ)が指数関数的に抑制されることである。 したがって、シミュレーションプロトコルは、投影部分空間を決定するパラメトリックドライブのパラメータエラーに対して堅牢である。 3つの例を分析しました (i) 量子状態の崩壊と復活 (ii)隠れ対称性及びトンネル動力学 (iii)ペアキャットコード計算。

Cat-state qubits formed by photonic cat states show great promise for hardware-efficient universal quantum computing. We demonstrate that cat-state qubits are also promising for error-tolerant simulations of the quantum Rabi model (and its varieties) to enhance the coupling strength between the cat-state qubit and a cavity, to reach the ultrastrong-coupling regime. This allows us to explore several fascinating quantum phenomena relying on the counter-rotating interaction. A benefit from biased-noise cat qubits is that the two main error channels (frequency and amplitude mismatches) are both exponentially suppressed. Therefore, the simulation protocols are robust against parameter errors of the parametric drive which determines the projection subspace. We analyze three examples: (i) collapse and revivals of quantum states; (ii) hidden symmetry and tunneling dynamics; and (iii) pair-cat-code computation.
翻訳日:2024-02-02 16:28:14 公開日:2024-02-01
# 向き付け可能な曲面に埋め込まれたグラフ上の量子ウォーク

Quantum walks on graphs embedded in orientable surfaces ( http://arxiv.org/abs/2402.00360v1 )

ライセンス: Link先を確認
Yusuke Higuchi, Etsuo Segawa(参考訳) 力学におけるグラフの向き付け可能な閉曲面に2ドルのセル埋め込みを反映する量子ウォークモデルを導入する。 境界に重なる底面上の面を見つけ、底面に二重グラフの根付きスパンング部分グラフの2つのクラスをカウントして定常状態を求めることにより散乱行列を得る。

A quantum walk model which reflects the $2$-cell embedding on the orientable closed surface of a graph in the dynamics is introduced. We show that the scattering matrix is obtained by finding the faces on the underlying surface which have the overlap to the boundary and the stationary state is obtained by counting two classes of the rooted spanning subgraphs of the dual graph on the underlying embedding.
翻訳日:2024-02-02 16:28:00 公開日:2024-02-01
# 画像とテキストによるマルチモーダル大言語モデルの安全性

Safety of Multimodal Large Language Models on Images and Text ( http://arxiv.org/abs/2402.00357v1 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao(参考訳) MLLM(Multimodal Large Language Models)の印象的なパワーに魅了され、日々の作業の効率を改善するために、その活用がますます進んでいる。 それでも、安全でない命令に対するmllmの脆弱性は、これらのモデルが現実世界のシナリオにデプロイされると、大きな安全性リスクをもたらす。 本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。 まず、画像とテキストに関するMLLMの概要と安全性の理解から始め、研究者が調査の詳細な範囲を知るのに役立ちます。 次に,MLLMの安全性を評価するための評価データセットと指標について検討する。 次に,MLLMの安全性に関する攻撃・防御技術について概説する。 最後に,未解決問題を分析し,今後の研究方針について考察する。

Attracted by the impressive power of Multimodal Large Language Models (MLLMs), the public is increasingly utilizing them to improve the efficiency of daily work. Nonetheless, the vulnerabilities of MLLMs to unsafe instructions bring huge safety risks when these models are deployed in real-world scenarios. In this paper, we systematically survey current efforts on the evaluation, attack, and defense of MLLMs' safety on images and text. We begin with introducing the overview of MLLMs on images and text and understanding of safety, which helps researchers know the detailed scope of our survey. Then, we review the evaluation datasets and metrics for measuring the safety of MLLMs. Next, we comprehensively present attack and defense techniques related to MLLMs' safety. Finally, we analyze several unsolved issues and discuss promising research directions.
翻訳日:2024-02-02 16:27:52 公開日:2024-02-01
# 安全強化学習のための適応的原始双対法

Adaptive Primal-Dual Method for Safe Reinforcement Learning ( http://arxiv.org/abs/2402.00355v1 )

ライセンス: Link先を確認
Weiqin Chen, James Onyejizu, Long Vu, Lan Hoang, Dharmashankar Subramanian, Koushik Kar, Sandipan Mishra and Santiago Paternain(参考訳) 厳密な政策最適化問題として提案される安全強化学習(SRL)において,本手法は自然な応用である。 しかし,学習率 (LR) とラグランジアン乗算器 (デュアル変数) の相互依存性により, SRL に原始双対法を適用することは困難である。 本稿では,2つの適応LRをラグランジアン乗算器に調整し,各イテレーションのポリシーを最適化する,SRLの適応原始双対法(APD)を提案,解析,評価する。 我々は理論的に, apdアルゴリズムの収束, 最適性, 実現可能性を確立する。 最後に,PPO-LagrangianとDDPG-Lagrangianの2つの最先端SRLアルゴリズムを用いて,Bullet-Safey-Gymの4つのよく知られた環境を用いた実用的なAPDアルゴリズムの数値評価を行った。 全ての実験により、実用的なAPDアルゴリズムは、一定のLRの場合よりも、より安定したトレーニングを達成する(または同等の性能を達成する)ことが示されている。 さらに,2つの適応LRを選択する頑健さを実証的証拠によって裏付ける。

Primal-dual methods have a natural application in Safe Reinforcement Learning (SRL), posed as a constrained policy optimization problem. In practice however, applying primal-dual methods to SRL is challenging, due to the inter-dependency of the learning rate (LR) and Lagrangian multipliers (dual variables) each time an embedded unconstrained RL problem is solved. In this paper, we propose, analyze and evaluate adaptive primal-dual (APD) methods for SRL, where two adaptive LRs are adjusted to the Lagrangian multipliers so as to optimize the policy in each iteration. We theoretically establish the convergence, optimality and feasibility of the APD algorithm. Finally, we conduct numerical evaluation of the practical APD algorithm with four well-known environments in Bullet-Safey-Gym employing two state-of-the-art SRL algorithms: PPO-Lagrangian and DDPG-Lagrangian. All experiments show that the practical APD algorithm outperforms (or achieves comparable performance) and attains more stable training than the constant LR cases. Additionally, we substantiate the robustness of selecting the two adaptive LRs by empirical evidence.
翻訳日:2024-02-02 16:27:39 公開日:2024-02-01
# フリーハンドスケッチによる高品質医用画像生成

High-Quality Medical Image Generation from Free-hand Sketch ( http://arxiv.org/abs/2402.00353v1 )

ライセンス: Link先を確認
Quan Huu Cap, Atsushi Fukuda(参考訳) 人間を描いたフリーハンドスケッチから医療画像を生成することは、様々な重要な医療画像の応用を約束する。 医療領域におけるフリーハンドスケッチデータの収集が困難であるため、合成スケッチから医用画像を生成するための深層学習に基づく手法が提案されている(例えば、実画像からエッジマップやセグメンテーションマスクの輪郭)。 しかし、これらのモデルはしばしばフリーハンドスケッチの一般化に失敗し、不十分な結果に繋がる。 本論文では,StyleGANの潜在空間におけるスケッチを表現し,そこから医用画像を生成するSketch2MedIという,実用的なフリーハンドスケッチ・ツー・イメージ生成モデルを提案する。 スケッチをこの意味のある表現空間にエンコードする機能のおかげで、Sketch2MedIはトレーニングのためにのみ合成スケッチを必要とする。 われわれのsketch2mediは、フリーハンドスケッチへの堅牢な一般化を示し、高品質で現実的な医療画像を生成する。 Sketch2MedI の pix2pix, CycleGAN, UNIT, U-GAT-IT モデルとの比較評価により, 種々の指標における定量的および定性的な咽頭画像の生成において, 優れた性能を示した。

Generating medical images from human-drawn free-hand sketches holds promise for various important medical imaging applications. Due to the extreme difficulty in collecting free-hand sketch data in the medical domain, most deep learning-based methods have been proposed to generate medical images from the synthesized sketches (e.g., edge maps or contours of segmentation masks from real images). However, these models often fail to generalize on the free-hand sketches, leading to unsatisfactory results. In this paper, we propose a practical free-hand sketch-to-image generation model called Sketch2MedI that learns to represent sketches in StyleGAN's latent space and generate medical images from it. Thanks to the ability to encode sketches into this meaningful representation space, Sketch2MedI only requires synthesized sketches for training, enabling a cost-effective learning process. Our Sketch2MedI demonstrates a robust generalization to free-hand sketches, resulting in high-quality and realistic medical image generations. Comparative evaluations of Sketch2MedI against the pix2pix, CycleGAN, UNIT, and U-GAT-IT models show superior performance in generating pharyngeal images, both quantitative and qualitative across various metrics.
翻訳日:2024-02-02 16:27:19 公開日:2024-02-01
# 画像から画像への生成モデルのための機械学習

Machine Unlearning for Image-to-Image Generative Models ( http://arxiv.org/abs/2402.00351v1 )

ライセンス: Link先を確認
Guihong Li, Hsiang Hsu, Chun-Fu (Richard) Chen, Radu Marculescu(参考訳) マシンアンラーニングは、厳格な規則に従うために、与えられたモデルからデータサンプルを意図的に忘れる新しいパラダイムとして登場した。 しかし、既存の機械学習手法は主に分類モデルに焦点を合わせており、生成モデルに対する未学習の展望は比較的未開拓である。 本論文は,画像から画像への生成モデルのための機械学習の統一フレームワークを提供することにより,このギャップを解消するブリッジとして機能する。 そこで本研究では,厳密な理論解析を基盤とした計算効率の高いアルゴリズムを提案する。 ImageNet-1KとPlaces-365の2つの大規模データセットに関する実証研究は、我々のアルゴリズムが保持サンプルの可用性に依存していないことを示す。 私たちの知る限りでは、この研究は、画像から画像への生成モデルに特化した機械学習の体系的、理論的、経験的探索を表す最初のものである。 私たちのコードはhttps://github.com/jpmorganchase/l2l-generator-unlearningで利用可能です。

Machine unlearning has emerged as a new paradigm to deliberately forget data samples from a given model in order to adhere to stringent regulations. However, existing machine unlearning methods have been primarily focused on classification models, leaving the landscape of unlearning for generative models relatively unexplored. This paper serves as a bridge, addressing the gap by providing a unifying framework of machine unlearning for image-to-image generative models. Within this framework, we propose a computationally-efficient algorithm, underpinned by rigorous theoretical analysis, that demonstrates negligible performance degradation on the retain samples, while effectively removing the information from the forget samples. Empirical studies on two large-scale datasets, ImageNet-1K and Places-365, further show that our algorithm does not rely on the availability of the retain samples, which further complies with data retention policy. To our best knowledge, this work is the first that represents systemic, theoretical, empirical explorations of machine unlearning specifically tailored for image-to-image generative models. Our code is available at https://github.com/jpmorganchase/l2l-generator-unlearning.
翻訳日:2024-02-02 16:26:52 公開日:2024-02-01
# 有効平均場アプローチによる強相互作用量子多体状態の制御

Control of strongly interacting quantum many-body states with an effective mean-field approach ( http://arxiv.org/abs/2402.00349v1 )

ライセンス: Link先を確認
Muhammad S. Hasan, Thomas Fogarty, Jing Li, Andreas Ruschhaupt, Thomas Busch(参考訳) STA(Shortcut to adiabaticity)は、高忠実度で量子システムを制御できる強力なツールである。 それらは正確に記述でき、不変あるいは自己相似力学を持つ単一粒子系や非相互作用系に対して特にうまく機能する。 しかし、特に大規模システムでは複雑な力学を簡単に記述できないため、強く相関した多体系に対する正確なSTAを見つけることは困難である。 本稿では,4次非線形項による強い相互作用効果を簡潔に捉えた平均場法を用いて,これらのシステムのためのstaの設計手法について概説する。 時間依存トラップ周波数を持つ高調波発振器の場合、平均場アプローチは正確に動作し、文献からよく知られたSTAを復元する。 提案手法のロバスト性を強調するために,非調和ポテンシャルに対して効果的に作用し,他の一般的な制御手法よりも高い忠実性を達成することを示す。

Shortcuts to adiabaticity (STA) are powerful tools that can be used to control quantum systems with high fidelity. They work particularly well for single particle and non-interacting systems which can be described exactly and which possess invariant or self-similar dynamics. However, finding an exact STA for strongly correlated many-body systems is difficult, as their complex dynamics cannot be easily described, especially for larger systems. Here, we outline a method to design STAs for these systems using a mean-field approach that succinctly captures the strong interaction effects through a quartic nonlinear term. We show that for the case of the harmonic oscillator with a time-dependent trap frequency the mean-field approach works exactly and recovers the well-known STA from literature. To highlight the robustness of our approach we also show that it works effectively for anharmonic potentials, achieving higher fidelities than other typical control techniques.
翻訳日:2024-02-02 16:26:35 公開日:2024-02-01
# ODICE: 直交勾配更新による分布補正推定の謎を解明する

ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update ( http://arxiv.org/abs/2402.00348v1 )

ライセンス: Link先を確認
Liyuan Mao, Haoran Xu, Weinan Zhang, Xianyuan Zhan(参考訳) 本研究では,オフライン強化学習 (rl) と模倣学習 (il) における重要な作業系列である分布補正推定法 (dice) について検討した。 DICEベースの手法は、オフライン学習に最適な状態レベルの動作制約を課す。 しかし、それらは通常、アクションレベルの振る舞い制約のみを使用する現在の最先端(SOTA)メソッドよりもはるかにパフォーマンスが悪い。 diceに基づく方法を再検討した結果、真勾配更新を用いて値関数を学ぶとき、2つの勾配項が存在することがわかった:前方勾配(現在の状態)と後方勾配(次の状態)である。 フォワード勾配を用いることは、多くのオフラインRL法と大きな類似性を持ち、従ってアクションレベルの制約を適用することができる。 しかし、逆勾配を直接加えると、これらの2つの勾配が矛盾する方向を持つ場合、その効果は退化またはキャンセルされる。 この問題を解決するために,直交勾配の通常の平面に後方勾配を投影し,直交勾配の更新を行い,DICEに基づく新しい学習規則を提案する。 DICEをベースとした手法のミステリーを明らかにするため,提案手法は状態レベルの制約を課そうとしているが,修正された方法で使用する必要がある。 おもちゃの例と複雑なオフラインRLおよびILタスクに関する広範な実験を通して、直交次更新(O-DICE)を用いたDICEベースの手法がSOTA性能と強靭性を実現することを示した。

In this study, we investigate the DIstribution Correction Estimation (DICE) methods, an important line of work in offline reinforcement learning (RL) and imitation learning (IL). DICE-based methods impose state-action-level behavior constraint, which is an ideal choice for offline learning. However, they typically perform much worse than current state-of-the-art (SOTA) methods that solely use action-level behavior constraint. After revisiting DICE-based methods, we find there exist two gradient terms when learning the value function using true-gradient update: forward gradient (taken on the current state) and backward gradient (taken on the next state). Using forward gradient bears a large similarity to many offline RL methods, and thus can be regarded as applying action-level constraint. However, directly adding the backward gradient may degenerate or cancel out its effect if these two gradients have conflicting directions. To resolve this issue, we propose a simple yet effective modification that projects the backward gradient onto the normal plane of the forward gradient, resulting in an orthogonal-gradient update, a new learning rule for DICE-based methods. We conduct thorough theoretical analyses and find that the projected backward gradient brings state-level behavior regularization, which reveals the mystery of DICE-based methods: the value learning objective does try to impose state-action-level constraint, but needs to be used in a corrected way. Through toy examples and extensive experiments on complex offline RL and IL tasks, we demonstrate that DICE-based methods using orthogonal-gradient updates (O-DICE) achieve SOTA performance and great robustness.
翻訳日:2024-02-02 16:26:19 公開日:2024-02-01
# 機械学習モデルのためのデータ駆動およびドメイン駆動の観点からの多様な説明

Diverse Explanations from Data-driven and Domain-driven Perspectives for Machine Learning Models ( http://arxiv.org/abs/2402.00347v1 )

ライセンス: Link先を確認
Sichao Li and Amanda Barnard(参考訳) 機械学習モデルの解説は特に化学、生物学、物理学などの科学分野において重要であり、将来の実験実験と資源要求を導く。 これらの説明は、よく訓練された機械学習モデル(データ駆動の視点)や特定のドメイン知識(ドメイン駆動の視点)から導き出すことができる。 しかし、正確だが誤解を招く機械学習モデルと、特定のニーズ、願望、目的を持つ様々な利害関係者によって、これらの視点には矛盾がある。 本稿では、これらの矛盾に注意を向け、物理法則を補強し、利害関係者の要求を等質なラーショモン集合(rashomon set)から満たした正確なモデルを見つける方法を提案する。 我々の目標は、これらの矛盾を包括的に理解し、最終的に科学領域へのeXplainable Artificial Intelligence(XAI)の統合に寄与することです。

Explanations of machine learning models are important, especially in scientific areas such as chemistry, biology, and physics, where they guide future laboratory experiments and resource requirements. These explanations can be derived from well-trained machine learning models (data-driven perspective) or specific domain knowledge (domain-driven perspective). However, there exist inconsistencies between these perspectives due to accurate yet misleading machine learning models and various stakeholders with specific needs, wants, or aims. This paper calls attention to these inconsistencies and suggests a way to find an accurate model with expected explanations that reinforce physical laws and meet stakeholders' requirements from a set of equally-good models, also known as Rashomon sets. Our goal is to foster a comprehensive understanding of these inconsistencies and ultimately contribute to the integration of eXplainable Artificial Intelligence (XAI) into scientific domains.
翻訳日:2024-02-02 16:25:33 公開日:2024-02-01
# IndiVec:細粒度バイアス指標を用いたメディアバイアス検出のための大規模言語モデルの探索

IndiVec: An Exploration of Leveraging Large Language Models for Media Bias Detection with Fine-Grained Bias Indicators ( http://arxiv.org/abs/2402.00345v1 )

ライセンス: Link先を確認
Luyang Lin, Lingzhi Wang, Xiaoyan Zhao, Jing Li, Kam-Fai Wong(参考訳) 本研究は、ソーシャルメディアプラットフォームが個人の態度や意見を形作る時代において重要なメディアバイアス検出に焦点を当てている。 特定のデータセットに適合する特定のモデルをトレーニングし、ドメイン外データに対する適応性とサブパリティを制限した先行研究とは対照的に、大規模言語モデルに基づいた一般的なバイアス検出フレームワークであるindivecを導入する。 IndiVecは、大規模言語モデルとベクトルデータベース技術の堅牢な命令フォロー機能を利用して、きめ細かいメディアバイアスデータベースを構築することから始まる。 バイアス検出のための新しい入力に直面すると、このフレームワークはベクタデータベースから最も関連する指標を自動的に選択し、多数決で入力のバイアスラベルを決定する。 IndiVecは、適応性(さまざまなソースからのさまざまなデータセット間で一貫したパフォーマンスを実証する)と説明性(バイアス予測を解釈するための明示的なトップkインジケータを提供する)のため、従来の方法と比較して優れている。 4つの政治的バイアスデータセットの実験結果は、ベースラインよりもIndiVecの顕著な優位性を強調している。 さらに、追加の実験と分析により、フレームワークの有効性に関する深い洞察が得られる。

This study focuses on media bias detection, crucial in today's era of influential social media platforms shaping individual attitudes and opinions. In contrast to prior work that primarily relies on training specific models tailored to particular datasets, resulting in limited adaptability and subpar performance on out-of-domain data, we introduce a general bias detection framework, IndiVec, built upon large language models. IndiVec begins by constructing a fine-grained media bias database, leveraging the robust instruction-following capabilities of large language models and vector database techniques. When confronted with new input for bias detection, our framework automatically selects the most relevant indicator from the vector database and employs majority voting to determine the input's bias label. IndiVec excels compared to previous methods due to its adaptability (demonstrating consistent performance across diverse datasets from various sources) and explainability (providing explicit top-k indicators to interpret bias predictions). Experimental results on four political bias datasets highlight IndiVec's significant superiority over baselines. Furthermore, additional experiments and analysis provide profound insights into the framework's effectiveness.
翻訳日:2024-02-02 16:25:05 公開日:2024-02-01
# フェデレーション学習におけるプライバシの脅威と対策に関する調査

Survey of Privacy Threats and Countermeasures in Federated Learning ( http://arxiv.org/abs/2402.00342v1 )

ライセンス: Link先を確認
Masahiro Hayashitani, Junki Mori, and Isamu Teranishi(参考訳) 連合学習は、クライアント間で直接トレーニングデータが交換されないため、プライバシーを意識した学習方法として広く考えられている。 それでも、連合学習にはプライバシーに対する脅威があり、プライバシー対策が研究されている。 しかしながら、典型的な連合学習における共通および独特なプライバシの脅威は、包括的かつ特定の方法で分類され、記述されていないことに注意する。 本稿では, 水平的連合学習, 垂直的連合学習, 移動的連合学習など, 典型的なフェデレーション学習に対するプライバシーの脅威と対策について述べる。

Federated learning is widely considered to be as a privacy-aware learning method because no training data is exchanged directly between clients. Nevertheless, there are threats to privacy in federated learning, and privacy countermeasures have been studied. However, we note that common and unique privacy threats among typical types of federated learning have not been categorized and described in a comprehensive and specific way. In this paper, we describe privacy threats and countermeasures for the typical types of federated learning; horizontal federated learning, vertical federated learning, and transfer federated learning.
翻訳日:2024-02-02 16:24:31 公開日:2024-02-01
# 影除去のための地域照明のリキャスト

Recasting Regional Lighting for Shadow Removal ( http://arxiv.org/abs/2402.00341v1 )

ライセンス: Link先を確認
Yuhao Liu, Zhanghan Ke, Ke Xu, Fang Liu, Zhenwei Wang, Rynson W.H. Lau(参考訳) シャドウを取り除くには、シーンの照明条件と物体のテクスチャの両方を理解する必要がある。 既存の方法では、影と非陰影画像の間のピクセルレベルのカラーマッピングを学習し、光と物体のテクスチャの合同モデリングは暗黙的かつ不十分である。 影領域では, 局所的な照明の劣化度は局所的な照明に依存するが, 局所的な照明の強化は減衰したテクスチャを完全に回復できない。 この観測に基づいて,影領域の修正局所照明に減衰したテクスチャの復元を条件付けることを提案する。 具体的には,まずシャドウ領域の照明層と反射層を明示的に推定するシャドウアウェア分解ネットワークを設計する。 次に,新しい局所照明補正モジュールを用いて照明層内の影領域の照明を再鋳造し,新しい照明誘導テクスチャ復元モジュールを用いて補正した照明層で条件付けられたテクスチャを復元する新しいバイラテラル補正ネットワークを提案する。 さらに,画像ペアのみを含む公開srdデータセットに対して,ピクセル単位のシャドーマスクをアノテートする。 3つのベンチマーク実験により,本手法は既存のシャドウ除去方法よりも優れていることが示された。

Removing shadows requires an understanding of both lighting conditions and object textures in a scene. Existing methods typically learn pixel-level color mappings between shadow and non-shadow images, in which the joint modeling of lighting and object textures is implicit and inadequate. We observe that in a shadow region, the degradation degree of object textures depends on the local illumination, while simply enhancing the local illumination cannot fully recover the attenuated textures. Based on this observation, we propose to condition the restoration of attenuated textures on the corrected local lighting in the shadow region. Specifically, We first design a shadow-aware decomposition network to estimate the illumination and reflectance layers of shadow regions explicitly. We then propose a novel bilateral correction network to recast the lighting of shadow regions in the illumination layer via a novel local lighting correction module, and to restore the textures conditioned on the corrected illumination layer via a novel illumination-guided texture restoration module. We further annotate pixel-wise shadow masks for the public SRD dataset, which originally contains only image pairs. Experiments on three benchmarks show that our method outperforms existing state-of-the-art shadow removal methods.
翻訳日:2024-02-02 16:23:41 公開日:2024-02-01
# 協調運転のためのマルチエージェントパス探索

Multi-agent Path Finding for Cooperative Autonomous Driving ( http://arxiv.org/abs/2402.00334v1 )

ライセンス: Link先を確認
Zhongxia Yan, Han Zheng, Cathy Wu(参考訳) 将来的なコネクテッド・アンド・オートマチック・ビークル(CAV)の展開を予想し、交差点での協調自動運転は数十年にわたって制御理論とインテリジェント・トランスポートに関する多くの研究によって研究されてきた。 同時に、ロボット工学における最近の並列研究はマルチエージェントパス探索(MAPF)のための効率的なアルゴリズムを考案した。 本研究では,mapfからの洞察とアルゴリズムと,信号のない交差点におけるキャビブの交差順序を最適化する構造とヒューリスティックをハイブリッド化する。 我々は, 既存のアルゴリズム, 固定ヒューリスティックス, および KATS による計画の優先順位を著しく上回る最適かつ完全なアルゴリズムである Order-based Search with Kinematics Arrival Time Scheduling (OBS-KATS) を考案した。 性能は異なる車両の到着率、車線長、横断速度、制御地平線の下で維持される。 本稿では,AblationsとDissectionsを通じてOBS-KATSのパフォーマンスに寄与する要因について考察する。 当社の作業は,同じようにスケールされたトラフィックや,有向レーンを備えたマルチロボットシナリオにも直接適用可能です。

Anticipating possible future deployment of connected and automated vehicles (CAVs), cooperative autonomous driving at intersections has been studied by many works in control theory and intelligent transportation across decades. Simultaneously, recent parallel works in robotics have devised efficient algorithms for multi-agent path finding (MAPF), though often in environments with simplified kinematics. In this work, we hybridize insights and algorithms from MAPF with the structure and heuristics of optimizing the crossing order of CAVs at signal-free intersections. We devise an optimal and complete algorithm, Order-based Search with Kinematics Arrival Time Scheduling (OBS-KATS), which significantly outperforms existing algorithms, fixed heuristics, and prioritized planning with KATS. The performance is maintained under different vehicle arrival rates, lane lengths, crossing speeds, and control horizon. Through ablations and dissections, we offer insight on the contributing factors to OBS-KATS's performance. Our work is directly applicable to many similarly scaled traffic and multi-robot scenarios with directed lanes.
翻訳日:2024-02-02 16:22:54 公開日:2024-02-01
# 2層ニューラルネットワークのスペクトルバイアスとロバスト性の比較:sgdと適応的ランダムフーリエ

Comparing Spectral Bias and Robustness For Two-Layer Neural Networks: SGD vs Adaptive Random Fourier Features ( http://arxiv.org/abs/2402.00332v1 )

ライセンス: Link先を確認
Aku Kammonen and Lisi Liang and Anamika Pandey and Ra\'ul Tempone(参考訳) 本稿では,2層ニューラルネットワークのトレーニングアルゴリズムの選択による2つの重要な違いを明らかにする実験結果を示す。 ニューラルネットワークのスペクトルバイアスはよく知られており、トレーニングアルゴリズムの選択に対するスペクトルバイアスは研究されていない。 実験により,適応ランダムフーリエ特徴量アルゴリズム(ARFF)は確率勾配勾配最適化器(SGD)と比較して,0に近いスペクトルバイアスが得られることを示した。 さらに,SGDとARFFを併用した2つの同一構成型分類器を同一精度で訓練し,対向雑音攻撃に対するロバスト性を実証的に評価した。

We present experimental results highlighting two key differences resulting from the choice of training algorithm for two-layer neural networks. The spectral bias of neural networks is well known, while the spectral bias dependence on the choice of training algorithm is less studied. Our experiments demonstrate that an adaptive random Fourier features algorithm (ARFF) can yield a spectral bias closer to zero compared to the stochastic gradient descent optimizer (SGD). Additionally, we train two identically structured classifiers, employing SGD and ARFF, to the same accuracy levels and empirically assess their robustness against adversarial noise attacks.
翻訳日:2024-02-02 16:22:33 公開日:2024-02-01
# 超電導量子ビットにおける分散読み出しのシステム評価

System Characterization of Dispersive Readout in Superconducting Qubits ( http://arxiv.org/abs/2402.00413v1 )

ライセンス: Link先を確認
Daniel Sank, Alex Opremcak, Andreas Bengtsson, Mostafa Khezri, Zijun Chen, Ofer Naaman, Alexander Korotkov(参考訳) 超伝導量子ビットを用いた量子誤差補正に必要な測定速度と精度を備えた量子システムの設計には、正確なモデルとキャラクタリゼーションツールによる反復設計とテストが必要である。 我々は, 超電導量子ビットの分散再生に使用される分散シフト, 共振器線幅, 駆動電力を測定するための, 必要なキャリブレーションをほとんど持たない単一プロトコルを提案する。 共振器のリニア幅は最大値と最小値の間に2の係数で制御されず、将来の量子誤差補正実験において集中的な注意が必要であることが判明した。 また、典型的なqubitの読み出しと同じパワーレベルを用いて、qubitのコヒーレンスを測定することなく、読み出しシステムの効率を測定するプロトコルも導入する。 私たちは、人間のインタラクションがほとんどない自動化ソフトウェアによって駆動される、数十量子ビットのチップ上で、これらのプロトコルを定期的に実行します。 抽出したシステムパラメータを用いて、これらのパラメータに基づくモデルが54キュービットのデバイス上で可読信号からノイズ比を10%以内に予測する。

Designing quantum systems with the measurement speed and accuracy needed for quantum error correction using superconducting qubits requires iterative design and test informed by accurate models and characterization tools. We introduce a single protocol, with few prerequisite calibrations, which measures the dispersive shift, resonator linewidth, and drive power used in the dispersive readout of superconducting qubits. We find that the resonator linewidth is poorly controlled with a factor of 2 between the maximum and minimum measured values, and is likely to require focused attention in future quantum error correction experiments. We also introduce a protocol for measuring the readout system efficiency using the same power levels as are used in typical qubit readout, and without the need to measure the qubit coherence. We routinely run these protocols on chips with tens of qubits, driven by automation software with little human interaction. Using the extracted system parameters, we find that a model based on those parameters predicts the readout signal to noise ratio to within 10% over a device with 54 qubits.
翻訳日:2024-02-02 16:15:54 公開日:2024-02-01
# EASRec: 効率的な長期シーケンスレコメンダシステムのための弾性アーキテクチャ探索

EASRec: Elastic Architecture Search for Efficient Long-term Sequential Recommender Systems ( http://arxiv.org/abs/2402.00390v1 )

ライセンス: Link先を確認
Sheng Zhang, Maolin Wang, Yao Zhao, Chenyi Zhuang, Jinjie Gu, Ruocheng Guo, Xiangyu Zhao, Zijian Zhang, Hongzhi Yin(参考訳) データが豊富であるこの時代には、情報海から意味のある洞察を抽出する能力が不可欠である。 本研究は,現在SRS(Sequential Recommender Systems)が抱える計算と資源の非効率性について考察する。 これらのシステムは、eコマースからソーシャルネットワークまで、さまざまなアプリケーションにおける次のイテムレコメンデーションのために設計されています。 しかし、これらのシステムは、推論段階での計算コストと資源消費に悩まされている。 そこで本研究では,自動刈り取り技術と高度なモデルアーキテクチャを組み合わせた新しい手法を提案する。 また,レコメンデーションシステムの分野で広く普及する手法であるnas(resource-constrained neural architecture search)の可能性を探究し,フロップ,レイテンシ,エネルギー使用量を減らすためのモデルを精度を維持しつつ微調整する。 私たちの研究の主な貢献は、効率的な長期シーケンスレコメンダシステム(EASRec)のためのElastic Architecture Searchの開発です。 このアプローチは注意に基づくsrssのための最適なコンパクトアーキテクチャを見つけ、正確性を確保することを目的としている。 EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。 さらに、動的リソース制約アプローチを利用して、検索プロセスを標準化し、より適切なアーキテクチャを実現する。 SRSにおけるEASRecの優位性を示す3つのベンチマークデータセットの徹底的な実験により,本手法の有効性を検証した。 私たちの研究は、効率的で正確なレコメンダシステムへの将来の調査のための新しい標準を設定しました。

In this age where data is abundant, the ability to distill meaningful insights from the sea of information is essential. Our research addresses the computational and resource inefficiencies that current Sequential Recommender Systems (SRSs) suffer from. especially those employing attention-based models like SASRec, These systems are designed for next-item recommendations in various applications, from e-commerce to social networks. However, such systems suffer from substantial computational costs and resource consumption during the inference stage. To tackle these issues, our research proposes a novel method that combines automatic pruning techniques with advanced model architectures. We also explore the potential of resource-constrained Neural Architecture Search (NAS), a technique prevalent in the realm of recommendation systems, to fine-tune models for reduced FLOPs, latency, and energy usage while retaining or even enhancing accuracy. The main contribution of our work is developing the Elastic Architecture Search for Efficient Long-term Sequential Recommender Systems (EASRec). This approach aims to find optimal compact architectures for attention-based SRSs, ensuring accuracy retention. EASRec introduces data-aware gates that leverage historical information from input data batch to improve the performance of the recommendation network. Additionally, it utilizes a dynamic resource constraint approach, which standardizes the search process and results in more appropriate architectures. The effectiveness of our methodology is validated through exhaustive experiments on three benchmark datasets, which demonstrates EASRec's superiority in SRSs. Our research set a new standard for future exploration into efficient and accurate recommender systems, signifying a substantial advancement within this swiftly advancing field.
翻訳日:2024-02-02 16:15:36 公開日:2024-02-01
# O(\frac{\sqrt{d}}{T^{1/4}})$RMSPropの収束率とそのモメンタム拡張について : $\ell_1$ Norm: Better Dependence on the Dimension

On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm: Better Dependence on the Dimension ( http://arxiv.org/abs/2402.00389v1 )

ライセンス: Link先を確認
Huan Li and Zhouchen Lin(参考訳) 適応勾配法は深層学習において広く用いられているが、その収束速度は特にその次元への依存に関して完全には研究されていない。 本稿では、古典的 RMSProp とその運動量拡大を考察し、$\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}}{T^{1/4}})$を有界勾配仮定なしで$\ell_1$ノルムで測定し、$d$ は最適化変数の次元であり、$T$ は反復数である。 $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ が極端に大きい$d$の問題については、我々の収束率は$\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{1}{T^{1/4}})$ $\ell_1$ノルムで測定されたSGDの1つに類似していると考えられる。

Although adaptive gradient methods have been extensively used in deep learning, their convergence rates have not been thoroughly studied, particularly with respect to their dependence on the dimension. This paper considers the classical RMSProp and its momentum extension and establishes the convergence rate of $\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}}{T^{1/4}})$ measured by $\ell_1$ norm without the bounded gradient assumption, where $d$ is the dimension of the optimization variable and $T$ is the iteration number. Since $\|x\|_2\ll\|x\|_1\leq\sqrt{d}\|x\|_2$ for problems with extremely large $d$, our convergence rate can be considered to be analogous to the $\frac{1}{T}\sum_{k=1}^TE\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{1}{T^{1/4}})$ one of SGD measured by $\ell_1$ norm.
翻訳日:2024-02-02 16:15:05 公開日:2024-02-01
# 累積分布関数に基づく一般時空間過程

Cumulative Distribution Function based General Temporal Point Processes ( http://arxiv.org/abs/2402.00388v1 )

ライセンス: Link先を確認
Maolin Wang, Yu Pan, Zenglin Xu, Ruocheng Guo, Xiangyu Zhao, Wanyu Wang, Yiqi Wang, Zitao Liu, Langming Liu(参考訳) テンポラルポイントプロセス(TPP)は、ソーシャルネットワーキングやeコマースなど、さまざまな領域にわたるイベントシーケンスのモデリングにおいて重要な役割を担い、レコメンデーションシステムや情報検索戦略の発展に大きく貢献している。 ユーザインタラクションやトランザクションなどのイベントの分析を通じて、TPPは行動パターンに関する貴重な洞察を提供し、将来のトレンドを予測する。 しかしながら、これらのパターンの複雑な性質から、将来の事象を正確に予測することは大きな課題である。 ニューラルネットワークとTPPの統合は、高度な深部TPPモデルの開発を支えている。 これらのモデルは複雑な時間的データや非線形の時間的データの処理に優れていますが、モデリング強度関数の制限、積分計算の計算複雑性に対処し、長期の時間的依存を効果的に捉えるのに苦労しています。 本研究では,累積分布関数 (CDF) を中心に展開する TPP に対する新しいアプローチを示すCuFun モデルを提案する。 CuFunはCDF表現にモノトニックニューラルネットワークを独自に採用し、過去のイベントをスケーリング要因として活用している。 この革新は、幅広いデータシナリオにおけるモデルの適応性と精度を大幅に向上させる。 従来のtppモデリングに内在するいくつかの重要な問題に対処し,ログライクな計算を単純化し,事前定義された密度関数形式を超えて適用性を拡大し,長期的時間パターンを適切にキャプチャする。 先駆的なcdfベースのtppモデルの導入,過去のイベント情報を将来のイベント予測に組み込む手法の開発,合成および実世界のデータセットに関する広範な実験を通じてcufunの有効性を実証的に検証する。

Temporal Point Processes (TPPs) hold a pivotal role in modeling event sequences across diverse domains, including social networking and e-commerce, and have significantly contributed to the advancement of recommendation systems and information retrieval strategies. Through the analysis of events such as user interactions and transactions, TPPs offer valuable insights into behavioral patterns, facilitating the prediction of future trends. However, accurately forecasting future events remains a formidable challenge due to the intricate nature of these patterns. The integration of Neural Networks with TPPs has ushered in the development of advanced deep TPP models. While these models excel at processing complex and nonlinear temporal data, they encounter limitations in modeling intensity functions, grapple with computational complexities in integral computations, and struggle to capture long-range temporal dependencies effectively. In this study, we introduce the CuFun model, representing a novel approach to TPPs that revolves around the Cumulative Distribution Function (CDF). CuFun stands out by uniquely employing a monotonic neural network for CDF representation, utilizing past events as a scaling factor. This innovation significantly bolsters the model's adaptability and precision across a wide range of data scenarios. Our approach addresses several critical issues inherent in traditional TPP modeling: it simplifies log-likelihood calculations, extends applicability beyond predefined density function forms, and adeptly captures long-range temporal patterns. Our contributions encompass the introduction of a pioneering CDF-based TPP model, the development of a methodology for incorporating past event information into future event prediction, and empirical validation of CuFun's effectiveness through extensive experimentation on synthetic and real-world datasets.
翻訳日:2024-02-02 16:14:18 公開日:2024-02-01
# 現代標準アラビア語名詞の計算形態と語彙モデル

Computational Morphology and Lexicography Modeling of Modern Standard Arabic Nominals ( http://arxiv.org/abs/2402.00385v1 )

ライセンス: Link先を確認
Christian Khairallah, Reham Marzouk, Salam Khalifa, Mayar Nassar, and Nizar Habash(参考訳) 現代標準アラビア語(msa)の名義は、これまで一貫して取り組まなかった多くの形態的および語彙的モデリングの課題を呈している。 本稿では,このような課題の空間を定義し,最近提案された形態的枠組みを用いて,msa名義の包括的で拡張可能なモデルを構築することを試みる。 我々のモデル設計は、命名者の複雑な形態的特徴と、そのパラダイム的不規則性に対処する。 MSA形態解析器とジェネレータと比較して精度と整合性が向上した。 モデルを公開しています。

Modern Standard Arabic (MSA) nominals present many morphological and lexical modeling challenges that have not been consistently addressed previously. This paper attempts to define the space of such challenges, and leverage a recently proposed morphological framework to build a comprehensive and extensible model for MSA nominals. Our model design addresses the nominals' intricate morphotactics, as well as their paradigmatic irregularities. Our implementation showcases enhanced accuracy and consistency compared to a commonly used MSA morphological analyzer and generator. We make our models publicly available.
翻訳日:2024-02-02 16:13:47 公開日:2024-02-01
# ラッソの設計依存部分最適性について

On the design-dependent suboptimality of the Lasso ( http://arxiv.org/abs/2402.00382v1 )

ライセンス: Link先を確認
Reese Pathak, Cong Ma(参考訳) 本稿では,設計行列が線形回帰におけるスパースパラメータを推定する能力(あるいは不容易性)に与える影響について検討する。 より具体的には、設計行列の最小特異値がゼロから離れたときの最適推定率を特徴づける。 この情報理論的な結果に加えて, 平均最小二乗推定器のソフトしきい値に基づいて, 統計的に最適かつ計算効率の良い手順を提示し, 解析する。 最も驚くべきことに、ラッソ推定器は -- スパース線形回帰(sparse linear regression)に広く採用されているにもかかわらず -- 最小特異値が小さい場合の最小レート-最適である。 我々は,データ依存かつランダム化されたパラメータを含む任意の正規化パラメータの選択を持つlassoが,その推定率がサンプルサイズの多項式係数によって最適でないという意味で失敗することを保証できる,設計行列とスパースパラメータの族を提案する。 我々の下限はラッソのあらゆる形態の統計的最適性を妨げるのに十分な強度であり、その高い人気を持つペナルティ化、規範制約付き、およびクロスバリアードを含む。

This paper investigates the effect of the design matrix on the ability (or inability) to estimate a sparse parameter in linear regression. More specifically, we characterize the optimal rate of estimation when the smallest singular value of the design matrix is bounded away from zero. In addition to this information-theoretic result, we provide and analyze a procedure which is simultaneously statistically optimal and computationally efficient, based on soft thresholding the ordinary least squares estimator. Most surprisingly, we show that the Lasso estimator -- despite its widespread adoption for sparse linear regression -- is provably minimax rate-suboptimal when the minimum singular value is small. We present a family of design matrices and sparse parameters for which we can guarantee that the Lasso with any choice of regularization parameter -- including those which are data-dependent and randomized -- would fail in the sense that its estimation rate is suboptimal by polynomial factors in the sample size. Our lower bound is strong enough to preclude the statistical optimality of all forms of the Lasso, including its highly popular penalized, norm-constrained, and cross-validated variants.
翻訳日:2024-02-02 16:13:40 公開日:2024-02-01
# Image2Points:高画質PET画像再構成のための3次元ポイントベースコンテキストクラスタGAN

Image2Points:A 3D Point-based Context Clusters GAN for High-Quality PET Image Reconstruction ( http://arxiv.org/abs/2402.00376v1 )

ライセンス: Link先を確認
Jiaqi Cui, Yan Wang, Lu Wen, Pinxian Zeng, Xi Wu, Jiliu Zhou, Dinggang Shen(参考訳) 放射線照射を最小限に抑えつつ,高画質のポジトロンエミッショントモグラフィ(PET)画像を得るために,対応する低線量PET(LPET)画像から標準線量PET(SPET)画像を再構成する方法が多数提案されている。 しかし、これらの手法はボクセルに基づく表現に大きく依存しており、正確な構造ときめ細かなコンテキストを適切に説明できないため、復元が難しかった。 本稿では,LCPから高品質なSPET画像を再構成するための3DポイントベースのコンテキストクラスタGAN,すなわちPCC-GANを提案する。 具体的には、点の幾何学的表現力に着想を得て、画像構造の明示的な表現を強化する点に基づく表現を用いて、より詳細な再構成を容易にする。 さらに,再構成画像における小構造物の曖昧さを緩和する点間の文脈関係を探索するためにコンテキストクラスタリング戦略を適用した。 臨床データとファントムデータの両方における実験により,pcc-ganは定性的かつ定量的に,最先端の再構築手法よりも優れていることが示された。 コードはhttps://github.com/gluucose/pccganで入手できる。

To obtain high-quality Positron emission tomography (PET) images while minimizing radiation exposure, numerous methods have been proposed to reconstruct standard-dose PET (SPET) images from the corresponding low-dose PET (LPET) images. However, these methods heavily rely on voxel-based representations, which fall short of adequately accounting for the precise structure and fine-grained context, leading to compromised reconstruction. In this paper, we propose a 3D point-based context clusters GAN, namely PCC-GAN, to reconstruct high-quality SPET images from LPET. Specifically, inspired by the geometric representation power of points, we resort to a point-based representation to enhance the explicit expression of the image structure, thus facilitating the reconstruction with finer details. Moreover, a context clustering strategy is applied to explore the contextual relationships among points, which mitigates the ambiguities of small structures in the reconstructed images. Experiments on both clinical and phantom datasets demonstrate that our PCC-GAN outperforms the state-of-the-art reconstruction methods qualitatively and quantitatively. Code is available at https://github.com/gluucose/PCCGAN.
翻訳日:2024-02-02 16:13:19 公開日:2024-02-01
# Transformer-based Modality Infuser を用いた遠絡型マルチモーダル脳MR画像変換

Disentangled Multimodal Brain MR Image Translation via Transformer-based Modality Infuser ( http://arxiv.org/abs/2402.00375v1 )

ライセンス: Link先を確認
Jihoon Cho, Xiaofeng Liu, Fangxu Xing, Jinsong Ouyang, Georges El Fakhri, Jinah Park, Jonghye Woo(参考訳) マルチモーダルmri (multimodal magnetic resonance, mr) は,同一被験者のマルチモーダル画像間の関係を解析することにより補完的情報を提供できるため,疾患診断において重要な役割を担っている。 しかし、すべてのMRモダリティの取得は高価であり、スキャンセッションの間は、特定のMR画像が研究プロトコルによって見逃される可能性がある。 典型的な解決策は、生成逆数ネットワーク(GAN)のような取得した画像から欠落したモダリティを合成することである。 しかし、畳み込みニューラルネットワーク(CNN)で構築されたGANは、望ましいモダリティを条件付けるグローバルな関係やメカニズムの欠如に悩まされる可能性が高い。 そこで本研究では,マルチモーダル脳MR画像の合成を目的としたトランスフォーマーを用いたモダリティインジェクタを提案する。 本手法では,エンコーダからモダリティに依存しない特徴を抽出し,モダリティ注入器を用いてモダリティ固有の特徴に変換する。 さらに、modality infuserはすべての脳構造間の長距離関係をキャプチャし、より現実的な画像を生成する。 我々は,BraTS 2018データセットを用いて,4つのMRモード間の変換実験を行い,提案手法が合成品質において優れていることを示す実験結果を得た。 また,脳腫瘍の分節課題と異なる条件付け法について実験を行った。

Multimodal Magnetic Resonance (MR) Imaging plays a crucial role in disease diagnosis due to its ability to provide complementary information by analyzing a relationship between multimodal images on the same subject. Acquiring all MR modalities, however, can be expensive, and, during a scanning session, certain MR images may be missed depending on the study protocol. The typical solution would be to synthesize the missing modalities from the acquired images such as using generative adversarial networks (GANs). Yet, GANs constructed with convolutional neural networks (CNNs) are likely to suffer from a lack of global relationships and mechanisms to condition the desired modality. To address this, in this work, we propose a transformer-based modality infuser designed to synthesize multimodal brain MR images. In our method, we extract modality-agnostic features from the encoder and then transform them into modality-specific features using the modality infuser. Furthermore, the modality infuser captures long-range relationships among all brain structures, leading to the generation of more realistic images. We carried out experiments on the BraTS 2018 dataset, translating between four MR modalities, and our experimental results demonstrate the superiority of our proposed method in terms of synthesis quality. In addition, we conducted experiments on a brain tumor segmentation task and different conditioning methods.
翻訳日:2024-02-02 16:12:57 公開日:2024-02-01
# 非エルミート系を持つ量子情報幾何

Quantum Information Geometry with Non-Hermitian Systems ( http://arxiv.org/abs/2402.00374v1 )

ライセンス: Link先を確認
Wangjun Lu, and Zhao-Hui Peng, and HongTao(参考訳) 情報幾何は統計学における微分幾何学の応用であり、フィッシャー・ラオ計量は統計多様体上のリーマン計量として機能し、パラメータの感度に固有の性質を与える。 本稿では,非エルミート系を用いてフィッシャー・ラオ計量を考察する。 非エルミートハミルトニアンにおけるリンドブラッドマスター方程式を近似することにより、量子幾何計量の時間発展を計算する。 最後に、虚数体磁場の量子スピンイジングモデルの例を示し、$\mathcal{PT}$-symmetric Hamiltonianのエネルギースペクトルと幾何計量の進化を探索し、制御ハミルトニアンを加える条件下で、虚数体磁場の散逸効果を排除し、パラメータ推定の精度を向上させることについて議論する。

Information geometry is the application of differential geometry in statistics, where the Fisher-Rao metric serves as the Riemannian metric on the statistical manifold, providing an intrinsic property for parameter sensitivity. In this paper, we explore the Fisher-Rao metric with the non-Hermitian systems. By approximating the Lindblad master equation in the non-Hermitian Hamiltonian, we calculate the time evolution of the quantum geometric metric. Finally, we give an example of the quantum spin Ising model of the imaginary magnetic field, explore the energy spectrum of $\mathcal{PT}$-symmetric Hamiltonian and the evolution of geometric metric, and discuss that the dissipative effect of the imaginary magnetic field can be eliminated under the condition of adding the control Hamiltonian, so as to improve the accuracy of parameter estimation.
翻訳日:2024-02-02 16:12:32 公開日:2024-02-01
# ボットは何て言うの? ソーシャルメディアボット検出における大規模言語モデルの機会とリスク

What Does the Bot Say? Opportunities and Risks of Large Language Models in Social Media Bot Detection ( http://arxiv.org/abs/2402.00371v1 )

ライセンス: Link先を確認
Shangbin Feng, Herun Wan, Ningnan Wang, Zhaoxuan Tan, Minnan Luo, Yulia Tsvetkov(参考訳) ソーシャルメディアのボット検出は、機械学習ボット検出器の進歩と、検出を避けるための敵対的なボット戦略との武器競争だった。 本研究は,ソーシャルボット検出における最先端の大規模言語モデル(llm)の機会とリスクを調査することにより,次のレベルへ武器競争をもたらす。 そこで本研究では,多種多様なユーザ情報モダリティを分割し,克服するための混成不均質なフレームワークを提案する。 リスクを照らすため,LLM誘導によるユーザテキストと構造化情報の操作による検出回避の可能性を探る。 2つのデータセット上での3つのLLMによる大規模な実験では、1000個の注釈付きサンプルの命令チューニングによって、両方のデータセットで最先端のベースラインを最大9.1%上回る特殊なLLMが生成される一方、LLM誘導の操作戦略は既存のボット検出器の性能を最大29.6%低下させ、ボット検出システムの校正と信頼性を損なう可能性がある。

Social media bot detection has always been an arms race between advancements in machine learning bot detectors and adversarial bot strategies to evade detection. In this work, we bring the arms race to the next level by investigating the opportunities and risks of state-of-the-art large language models (LLMs) in social bot detection. To investigate the opportunities, we design novel LLM-based bot detectors by proposing a mixture-of-heterogeneous-experts framework to divide and conquer diverse user information modalities. To illuminate the risks, we explore the possibility of LLM-guided manipulation of user textual and structured information to evade detection. Extensive experiments with three LLMs on two datasets demonstrate that instruction tuning on merely 1,000 annotated examples produces specialized LLMs that outperform state-of-the-art baselines by up to 9.1% on both datasets, while LLM-guided manipulation strategies could significantly bring down the performance of existing bot detectors by up to 29.6% and harm the calibration and reliability of bot detection systems.
翻訳日:2024-02-02 16:12:16 公開日:2024-02-01
# don't hallucinate, abstain:マルチllmコラボレーションによるllm知識ギャップの特定

Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration ( http://arxiv.org/abs/2402.00367v1 )

ライセンス: Link先を確認
Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov(参考訳) 大きな言語モデル(LLM)の知識を拡大する努力にもかかわらず、LLMの欠落や時代遅れの情報といった知識ギャップは、知識の進化の性質から常に続く可能性がある。 本研究では,llmの知識ギャップを識別する手法について検討し,知識ギャップが存在する場合の回答を控える。 まず,モデルキャリブレーションや適応への既存のアプローチを微調整/プロンプティングにより適用し,低信頼出力の発生を阻止する能力を解析する。 保留集合上での自己回帰と過度信頼の失敗により、モデル協調に基づく2つの新しいアプローチ、すなわち、協調的にも競争的にも他のLLMを探索するLLMを提案する。 多様な知識領域を特徴とする4つのQAタスクに関する3つのLLMによる大規模な実験は、LLM知識ギャップを公開するための協調的および競争的なアプローチが、最強のベースラインに対する絶対精度を最大19.3%向上させることを示した。 さらに分析した結果,提案手法は,検索拡張における障害事例の同定や,マルチホップ推論における知識ギャップの特定に有用であることがわかった。

Despite efforts to expand the knowledge of large language models (LLMs), knowledge gaps -- missing or outdated information in LLMs -- might always persist given the evolving nature of knowledge. In this work, we study approaches to identify LLM knowledge gaps and abstain from answering questions when knowledge gaps are present. We first adapt existing approaches to model calibration or adaptation through fine-tuning/prompting and analyze their ability to abstain from generating low-confidence outputs. Motivated by their failures in self-reflection and over-reliance on held-out sets, we propose two novel approaches that are based on model collaboration, i.e., LLMs probing other LLMs for knowledge gaps, either cooperatively or competitively. Extensive experiments with three LLMs on four QA tasks featuring diverse knowledge domains demonstrate that both cooperative and competitive approaches to unveiling LLM knowledge gaps achieve up to 19.3% improvements on abstain accuracy against the strongest baseline. Further analysis reveals that our proposed mechanisms could help identify failure cases in retrieval augmentation and pinpoint knowledge gaps in multi-hop reasoning.
翻訳日:2024-02-02 16:11:54 公開日:2024-02-01
# ニューラルネットワークを用いた可変拡張カルマンフィルタによる脚状ロボット状態推定

Legged Robot State Estimation With Invariant Extended Kalman Filter Using Neural Measurement Network ( http://arxiv.org/abs/2402.00366v1 )

ライセンス: Link先を確認
Donghoon Youm, Hyunsik Oh, Suyoung Choi, Hyeongjun Kim, Jemin Hwangbo(参考訳) 本稿では,モデルベースフィルタとディープニューラルネットワークを組み合わせた脚型ロボットのための新しい受容状態推定器を提案する。 近年の研究では、多層パーセプトロンやリカレントニューラルネットワークのようなニューラルネットワークが、接触確率や線形速度を含むロボット状態を推定できることが示されている。 そこで我々は,ニューラルネットワーク(NMN)と不変拡張カルマンフィルタを統合する状態推定フレームワークを開発した。 提案手法は,様々な地形における推定性能を向上させる。 モデルベースのフィルタと学習ベースのアプローチを組み合わせた既存の研究は、一般的に現実世界のデータを使用する。 しかし,本手法はシミュレーションデータにのみ依存しているため,広範なデータを容易に取得できる。 この違いは、学習と推論領域(一般にsim-to-realギャップと呼ばれる)の間にギャップをもたらす。 既存の学習手法と正規化を適用することで、この問題に対処する。 提案手法を検証するために,四足歩行ロボットを用いて4種類の地形について実験を行った: \textit{flat}, \textit{debris}, \textit{soft}, \textit{slippery}。 提案手法は既存のモデルベース状態推定器と比較して位置ドリフトを著しく低減する。

This paper introduces a novel proprioceptive state estimator for legged robots that combines model-based filters and deep neural networks. Recent studies have shown that neural networks such as multi-layer perceptron or recurrent neural networks can estimate the robot states, including contact probability and linear velocity. Inspired by this, we develop a state estimation framework that integrates a neural measurement network (NMN) with an invariant extended Kalman filter. We show that our framework improves estimation performance in various terrains. Existing studies that combine model-based filters and learning-based approaches typically use real-world data. However, our approach relies solely on simulation data, as it allows us to easily obtain extensive data. This difference leads to a gap between the learning and the inference domain, commonly referred to as a sim-to-real gap. We address this challenge by adapting existing learning techniques and regularization. To validate our proposed method, we conduct experiments using a quadruped robot on four types of terrain: \textit{flat}, \textit{debris}, \textit{soft}, and \textit{slippery}. We observe that our approach significantly reduces position drift compared to the existing model-based state estimator.
翻訳日:2024-02-02 16:11:32 公開日:2024-02-01
# 超小型モード容積フォトニック結晶の設計と応用の限界

Limitations in design and applications of ultra-small mode volume photonic crystals ( http://arxiv.org/abs/2402.00363v1 )

ライセンス: Link先を確認
Rubaiya Emran, Michelle Chalupnik, Erik N. Knall, Ralf Riedinger, Cleaven Chia, and Marko Loncar(参考訳) 超小モード体積ナノフォトニック結晶キャビティは、空洞量子力学系におけるカップリング率を高める強力なツールとして提案されている。 しかし、量子情報応用におけるそれらの採用はいまだ解明されていない。 本研究では,低モードボリューム共振器の設計選択が量子光学実験における有用性に与える影響について検討し,解析する。 ダイヤモンド中の低モード体積ボウティキャビティのバンド構造と損失率を分析し,キャビティ・エミッタ結合強度と損失率の独立設計制御を実証した。 さらに, ダイヤモンド中のシリコン空孔中心を模擬エミッタとし, 配置精度の影響について検討した。 従来のフォトニック結晶に比べて超小型キャビティ設計の複雑さは大幅に増大するが,光子収集効率と識別性は限られていることがわかった。 超小型モードボリュームの設計は、将来の量子ネットワークに大きな関心を持つ分散スピン-光子相互作用に主に関心を寄せていると結論づける。

Ultra-small mode volume nanophotonic crystal cavities have been proposed as powerful tools for increasing coupling rates in cavity quantum electrodynamics systems. However, their adoption in quantum information applications remains elusive. In this work, we investigate possible reasons why, and analyze the impact of different low mode volume resonator design choices on their utility in quantum optics experiments. We analyze band structure features and loss rates of low mode volume bowtie cavities in diamond and demonstrate independent design control over cavity-emitter coupling strength and loss rates. Further, using silicon vacancy centers in diamond as exemplary emitters, we investigate the influence of placement imprecision. We find that the benefit on photon collection efficiency and indistinguishability is limited, while the fabrication complexity of ultra-small cavity designs increases substantially compared to conventional photonic crystals. We conclude that ultra-small mode volume designs are primarily of interest for dispersive spin-photon interactions, which are of great interest for future quantum networks.
翻訳日:2024-02-02 16:11:12 公開日:2024-02-01
# 深層学習による熱帯サイクロン強度とエネルギー極端の気候動向

Climate Trends of Tropical Cyclone Intensity and Energy Extremes Revealed by Deep Learning ( http://arxiv.org/abs/2402.00362v1 )

ライセンス: Link先を確認
Buo-Fu Chen, Boyo Chen, Chun-Min Hsiao, Hsu-Feng Teng, Cheng-Shang Lee, Hung-Chi Kuo(参考訳) 人為的影響は熱帯性サイクロン(TC)極性移動,TC極性降水,および主要ハリケーン[1, 2, 3, 4]の増加と関連している。 過去TCの動向と変動性を理解することは、気候の変化を考慮した将来のTCが人間社会に与える影響を予測する上で重要である[5]。 しかし, 過去のTC構造・エネルギーの傾向は, 観測が限られているため不確実であり, 主観的分析と時空間ヘテロジニアスな「ベストトラック」データセットは, 評価されたTCの気候変動への信頼度を低下させる[6, 7]。 そこで我々は,過去の「観測」を再構築し,1981年から2020年にかけて,客観的なTC風速分布データセットを作成した。 2004年から2018年のTCのベストトラック統合と数値モデル解析を併用したトレーニングにより,マルチチャネル衛星画像から軸対称表面風の0-750km風速分布に変換する。 モデル性能は, 独立衛星レーダ面風との比較により, 気候研究に十分であることを確認した。 新しい均質化データセットに基づいて、過去40年で主要なTCの割合が約13%増加した。 さらに、超高エネルギーTCの比率は、高エネルギーTCの平均総エネルギーの上昇傾向(>40-y変数の標準偏差)とともに約25%増加した。 温暖な海洋はTCの強化を好んでいるが、TCトラックは高緯度への移動と環境の変化がTCの構造・エネルギーにさらに影響を及ぼす。 この新しい深層学習手法/データセットは,tc構造極端に関する新たなトレンドを明らかにし,気候変動におけるtcsに関するシミュレーション/スタディの検証に役立つ。

Anthropogenic influences have been linked to tropical cyclone (TC) poleward migration, TC extreme precipitation, and an increased proportion of major hurricanes [1, 2, 3, 4]. Understanding past TC trends and variability is critical for projecting future TC impacts on human society considering the changing climate [5]. However, past trends of TC structure/energy remain uncertain due to limited observations; subjective-analyzed and spatiotemporal-heterogeneous "best-track" datasets lead to reduced confidence in the assessed TC repose to climate change [6, 7]. Here, we use deep learning to reconstruct past "observations" and yield an objective global TC wind profile dataset during 1981 to 2020, facilitating a comprehensive examination of TC structure/energy. By training with uniquely labeled data integrating best tracks and numerical model analysis of 2004 to 2018 TCs, our model converts multichannel satellite imagery to a 0-750-km wind profile of axisymmetric surface winds. The model performance is verified to be sufficient for climate studies by comparing it to independent satellite-radar surface winds. Based on the new homogenized dataset, the major TC proportion has increased by ~13% in the past four decades. Moreover, the proportion of extremely high-energy TCs has increased by ~25%, along with an increasing trend (> one standard deviation of the 40-y variability) of the mean total energy of high-energy TCs. Although the warming ocean favors TC intensification, the TC track migration to higher latitudes and altered environments further affect TC structure/energy. This new deep learning method/dataset reveals novel trends regarding TC structure extremes and may help verify simulations/studies regarding TCs in the changing climate.
翻訳日:2024-02-02 16:10:57 公開日:2024-02-01
# 教師なし異常検出のための二段階知識蒸留ネットワーク

Dual-Student Knowledge Distillation Networks for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2402.00448v1 )

ライセンス: Link先を確認
Liyi Yao, Shaobing Gao(参考訳) データ不均衡と欠陥の多様性のため、教師なしの異常検出にはS-Tが好まれており、知識蒸留プロセスから派生した特徴表現の相違を調べて異常を認識する。 しかし、バニラS-Tネットワークは安定していない。 S-Tネットワークを構築するために同じ構造を用いると、異常に対する代表的な差が弱まる可能性がある。 しかし、異なる構造を用いることで、通常のデータ上での発散性能が向上する可能性がある。 この問題に対処するため、我々は新しい二段階知識蒸留(DSKD)アーキテクチャを提案する。 他のS-Tネットワークとは違って、2つの学生ネットワークを1つの事前訓練された教師ネットワークで使用します。 このフレームワークは蒸留効果を高め、正常データ認識の一貫性を改善し、同時に異常表現の多様性も導入できる。 異常な手がかりを捉えるための高次元意味情報の探索には2つの戦略を用いる。 まず,ネットワークの中間層におけるマルチスケール特徴写像の知識蒸留を行うために,ピラミッドマッチングモードを用いる。 第2に,実際のグループディスカッションに触発された,深い機能埋め込みモジュールを通じて,2つの学生ネットワーク間のインタラクションが促進される。 分類の面では,教師の出力特徴マップと学生ネットワークの出力特徴マップとの差を計測し,サンプルワイズ判定のために異常スコアを算出し,画素毎の異常分割マップを得る。 dskdを3つのベンチマークデータセットで評価し,内部モジュールの効果をアブレーション実験により検証した。 その結果、DSKDはResNet18のような小型モデルでは例外的な性能を発揮し、バニラS-Tネットワークを効果的に改善できることを示した。

Due to the data imbalance and the diversity of defects, student-teacher networks (S-T) are favored in unsupervised anomaly detection, which explores the discrepancy in feature representation derived from the knowledge distillation process to recognize anomalies. However, vanilla S-T network is not stable. Employing identical structures to construct the S-T network may weaken the representative discrepancy on anomalies. But using different structures can increase the likelihood of divergent performance on normal data. To address this problem, we propose a novel dual-student knowledge distillation (DSKD) architecture. Different from other S-T networks, we use two student networks a single pre-trained teacher network, where the students have the same scale but inverted structures. This framework can enhance the distillation effect to improve the consistency in recognition of normal data, and simultaneously introduce diversity for anomaly representation. To explore high-dimensional semantic information to capture anomaly clues, we employ two strategies. First, a pyramid matching mode is used to perform knowledge distillation on multi-scale feature maps in the intermediate layers of networks. Second, an interaction is facilitated between the two student networks through a deep feature embedding module, which is inspired by real-world group discussions. In terms of classification, we obtain pixel-wise anomaly segmentation maps by measuring the discrepancy between the output feature maps of the teacher and student networks, from which an anomaly score is computed for sample-wise determination. We evaluate DSKD on three benchmark datasets and probe the effects of internal modules through ablation experiments. The results demonstrate that DSKD can achieve exceptional performance on small models like ResNet18 and effectively improve vanilla S-T networks.
翻訳日:2024-02-02 16:03:52 公開日:2024-02-01
# 効率的な視覚表現学習のための軽量画素差ネットワーク

Lightweight Pixel Difference Networks for Efficient Visual Representation Learning ( http://arxiv.org/abs/2402.00422v1 )

ライセンス: Link先を確認
Zhuo Su, Jiehua Zhang, Longguang Wang, Hua Zhang, Zhen Liu, Matti Pietik\"ainen, Li Liu(参考訳) 近年、エッジデバイスにDNNをユビキタスに展開できる、十分な精度で軽量なDeep Neural Networks(DNN)の開発に多大な努力が払われている。 コンパクトで効率的なDNNを開発する上での課題は、高い精度と高い効率を達成するという競合する目標のバランスをとる方法にある。 本稿では,高次局所微分情報の取得,計算効率の向上,既存のDNNと統合可能な2種類の新しい畳み込み(PDC)と2次PDC(PDC)を提案する。 さらに, PDC と Bi-PDC では, エッジ検出や物体認識などの視覚的タスクに対して, 高効率かつ高精度な表現を学習するために, それぞれ \emph{Pixel Difference Networks (PiDiNet) と \emph{Binary PiDiNet (Bi-PiDiNet) という2つの軽量ディープネットワークを提案する。 一般的なデータセット(BSDS500, ImageNet, LFW, YTF, \emph{etc)に関する大規模な実験。 これは、PiDiNetとBi-PiDiNetが最良の精度と効率のトレードオフを達成することを示している。 エッジ検出のために、PiDiNetはImageNetなしでトレーニングできる最初のネットワークであり、BSDS500の人間レベルの性能を100 FPSと$<1Mパラメータで達成できる。 オブジェクト認識では、既存のバイナリDNNの中で、Bi-PiDiNetはResNet18の計算コストを2ドル近く削減する。 コードは \href{https://github.com/hellozhuo/pidinet}{https://github.com/hellozhuo/pidinet}。

Recently, there have been tremendous efforts in developing lightweight Deep Neural Networks (DNNs) with satisfactory accuracy, which can enable the ubiquitous deployment of DNNs in edge devices. The core challenge of developing compact and efficient DNNs lies in how to balance the competing goals of achieving high accuracy and high efficiency. In this paper we propose two novel types of convolutions, dubbed \emph{Pixel Difference Convolution (PDC) and Binary PDC (Bi-PDC)} which enjoy the following benefits: capturing higher-order local differential information, computationally efficient, and able to be integrated with existing DNNs. With PDC and Bi-PDC, we further present two lightweight deep networks named \emph{Pixel Difference Networks (PiDiNet)} and \emph{Binary PiDiNet (Bi-PiDiNet)} respectively to learn highly efficient yet more accurate representations for visual tasks including edge detection and object recognition. Extensive experiments on popular datasets (BSDS500, ImageNet, LFW, YTF, \emph{etc.}) show that PiDiNet and Bi-PiDiNet achieve the best accuracy-efficiency trade-off. For edge detection, PiDiNet is the first network that can be trained without ImageNet, and can achieve the human-level performance on BSDS500 at 100 FPS and with $<$1M parameters. For object recognition, among existing Binary DNNs, Bi-PiDiNet achieves the best accuracy and a nearly $2\times$ reduction of computational cost on ResNet18. Code available at \href{https://github.com/hellozhuo/pidinet}{https://github.com/hellozhuo/pidinet}.
翻訳日:2024-02-02 16:03:22 公開日:2024-02-01
# PARISからLE-PARISへ:レコメンダシステムと協調型大規模言語モデルによる特許応答自動化に向けて

From PARIS to LE-PARIS: Toward Patent Response Automation with Recommender Systems and Collaborative Large Language Models ( http://arxiv.org/abs/2402.00421v1 )

ライセンス: Link先を確認
Jung-Mei Chu, Hao-Cheng Lo, Jieh Hsiang, and Chun-Chieh Cho(参考訳) 特許の訴追において、Office Actions(OAs)に対するタイムリーかつ効果的な対応は特許取得に不可欠だが、過去の自動化とAI研究はこの側面にほとんど対処していない。 このギャップに対処するために,特許庁行動応答情報システム(PARIS)とその先進版であるLarge Language Model Enhanced PARIS(LE-PARIS)を紹介した。 これらのシステムは、OA応答の協調処理において特許弁護士の効率を向上するように設計されている。 システムの主な特徴は、OAトピックデータベースの構築、レスポンステンプレートの開発、Recommender SystemsとLLMベースのレスポンス生成の実装である。 検証には,USPTO Office Actionデータベースを用いたマルチパラダイム分析と,6年間にわたる我々のシステムとの弁護士関係の経時的データが含まれる。 5つの研究を通して,トピックモデリングと提案したDelphiプロセスを用いたOAトピックの構築性,OA(LLMベースと非LLMベースの両方)に適したハイブリッドレコメンデータシステムの有効性(研究3),応答生成の質(研究4),ユーザスタディによる実環境シナリオにおけるシステムの有用性(研究5)について検討した。 その結果,PARISとLE-PARISはともに重要な指標を満たし,弁護士のパフォーマンスに肯定的な影響を及ぼすことが示された。

In patent prosecution, timely and effective responses to Office Actions (OAs) are crucial for acquiring patents, yet past automation and AI research have scarcely addressed this aspect. To address this gap, our study introduces the Patent Office Action Response Intelligence System (PARIS) and its advanced version, the Large Language Model Enhanced PARIS (LE-PARIS). These systems are designed to expedite the efficiency of patent attorneys in collaboratively handling OA responses. The systems' key features include the construction of an OA Topics Database, development of Response Templates, and implementation of Recommender Systems and LLM-based Response Generation. Our validation involves a multi-paradigmatic analysis using the USPTO Office Action database and longitudinal data of attorney interactions with our systems over six years. Through five studies, we examine the constructiveness of OA topics (studies 1 and 2) using topic modeling and the proposed Delphi process, the efficacy of our proposed hybrid recommender system tailored for OA (both LLM-based and non-LLM-based) (study 3), the quality of response generation (study 4), and the practical value of the systems in real-world scenarios via user studies (study 5). Results demonstrate that both PARIS and LE-PARIS significantly meet key metrics and positively impact attorney performance.
翻訳日:2024-02-02 16:02:45 公開日:2024-02-01
# short: 転送可能な攻撃のベンチマーク

Short: Benchmarking transferable adversarial attacks ( http://arxiv.org/abs/2402.00418v1 )

ライセンス: Link先を確認
Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Huaming Chen(参考訳) 敵対的攻撃に対するディープラーニングモデルの堅牢性は、依然として重要な関心事である。 本研究は, 敵の攻撃の伝達可能性について, 初めて徹底的に検討した。 攻撃の伝達性を高めるために開発された様々な手法を体系的に分類し、批判的に評価する。 本研究は, 生成構造, 意味的類似性, グラディエント編集, ターゲット修正, アンサンブルアプローチなど, 様々な手法を包含する。 同時に,このベンチマークフレームワークである \textit{taa-bench} を導入し,敵の攻撃伝達性のための10つの主要な方法論を統合し,多様なモデルアーキテクチャの比較分析のための標準化された体系的プラットフォームを提供する。 総合的な精査を通じて,各手法の有効性と制約を明確にし,その基礎となる運用原理と実用性に光を当てる。 このレビューは、この分野の学者と実践者の両方にとって重要な資源であり、敵の移動可能性の複雑な地形を図解し、この重要な分野における将来の探検の基礎を築いた。 関連するコードベースは、https://github.com/KxPlaug/TAA-Benchでアクセスできます。

The robustness of deep learning models against adversarial attacks remains a pivotal concern. This study presents, for the first time, an exhaustive review of the transferability aspect of adversarial attacks. It systematically categorizes and critically evaluates various methodologies developed to augment the transferability of adversarial attacks. This study encompasses a spectrum of techniques, including Generative Structure, Semantic Similarity, Gradient Editing, Target Modification, and Ensemble Approach. Concurrently, this paper introduces a benchmark framework \textit{TAA-Bench}, integrating ten leading methodologies for adversarial attack transferability, thereby providing a standardized and systematic platform for comparative analysis across diverse model architectures. Through comprehensive scrutiny, we delineate the efficacy and constraints of each method, shedding light on their underlying operational principles and practical utility. This review endeavors to be a quintessential resource for both scholars and practitioners in the field, charting the complex terrain of adversarial transferability and setting a foundation for future explorations in this vital sector. The associated codebase is accessible at: https://github.com/KxPlaug/TAA-Bench
翻訳日:2024-02-02 16:02:16 公開日:2024-02-01
# 大規模言語モデルを用いた素早い時間記号的知識獲得

Prompt-Time Symbolic Knowledge Capture with Large Language Models ( http://arxiv.org/abs/2402.00414v1 )

ライセンス: Link先を確認
Tolga \c{C}\"opl\"u, Arto Bendiken, Andrii Skomorokhov, Eduard Bateiko, Stephen Cobb, Joshua J. Bouw (Haltia, Inc.)(参考訳) ユーザ固有の知識で大きな言語モデル(LLM)を拡張することは、パーソナルAIアシスタントのような現実世界のアプリケーションにとって不可欠である。 しかし、LSMは本質的に、プロンプト駆動による知識獲得のメカニズムを欠いている。 本稿では,既存のllm機能を活用して,知識グラフを重視した知識獲得を実現する。 本稿では,P2T生成に着目してこの問題に対処する。 ゼロショットプロンプト、少数ショットプロンプト、微調整の3つの手法を探索し、特殊合成データセットを用いてその性能を評価する。 コードとデータセットはhttps://github.com/HaltiaAI/paper-PTSKC.comで公開されています。

Augmenting large language models (LLMs) with user-specific knowledge is crucial for real-world applications, such as personal AI assistants. However, LLMs inherently lack mechanisms for prompt-driven knowledge capture. This paper investigates utilizing the existing LLM capabilities to enable prompt-driven knowledge capture, with a particular emphasis on knowledge graphs. We address this challenge by focusing on prompt-to-triple (P2T) generation. We explore three methods: zero-shot prompting, few-shot prompting, and fine-tuning, and then assess their performance via a specialized synthetic dataset. Our code and datasets are publicly available at https://github.com/HaltiaAI/paper-PTSKC.
翻訳日:2024-02-02 16:01:58 公開日:2024-02-01
# hidding the ghostwriters:ai生成学生エッセイ検出の敵対的評価

Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated Student Essay Detection ( http://arxiv.org/abs/2402.00412v1 )

ライセンス: Link先を確認
Xinlin Peng, Ying Zhou, Ben He, Le Sun, Yingfei Sun(参考訳) 大規模言語モデル(llm)はテキスト生成タスクにおいて顕著な能力を示している。 しかし、これらのモデルの利用には、盗作行為、偽ニュースの普及、教育演習における問題など、固有のリスクが伴う。 これらの懸念に対処するためにいくつかの検出器が提案されているが、特に学生エッセイ執筆の文脈において、敵対的な摂動に対する効果はほとんど解明されていない。 本稿では,aiが生成する学生エッセイデータセットであるaiig-asapを用いて,高品質エッセイを生成しつつ検出を回避し,そのギャップを埋めることを目的とする。 実験によりAIGC検出器の性能をAIG-ASAPデータセット上で評価した。 その結果、既存の検出器は簡単な自動逆襲で容易に回避できることが判明した。 具体的には,生成したエッセイの品質を維持しつつ,検出を効果的に回避する単語置換法と文置換摂動法について検討する。 これは、教育分野におけるAI生成の学生エッセイを検出する、より正確で堅牢な方法に対する緊急の必要性を強調している。

Large language models (LLMs) have exhibited remarkable capabilities in text generation tasks. However, the utilization of these models carries inherent risks, including but not limited to plagiarism, the dissemination of fake news, and issues in educational exercises. Although several detectors have been proposed to address these concerns, their effectiveness against adversarial perturbations, specifically in the context of student essay writing, remains largely unexplored. This paper aims to bridge this gap by constructing AIG-ASAP, an AI-generated student essay dataset, employing a range of text perturbation methods that are expected to generate high-quality essays while evading detection. Through empirical experiments, we assess the performance of current AIGC detectors on the AIG-ASAP dataset. The results reveal that the existing detectors can be easily circumvented using straightforward automatic adversarial attacks. Specifically, we explore word substitution and sentence substitution perturbation methods that effectively evade detection while maintaining the quality of the generated essays. This highlights the urgent need for more accurate and robust methods to detect AI-generated student essays in the education domain.
翻訳日:2024-02-02 16:01:47 公開日:2024-02-01
# LM-HT SNN:学習可能な多階層閾値モデルによるSNN対ANNカウンタの性能向上

LM-HT SNN: Enhancing the Performance of SNN to ANN Counterpart through Learnable Multi-hierarchical Threshold Model ( http://arxiv.org/abs/2402.00411v1 )

ライセンス: Link先を確認
Zecheng Hao, Xinyu Shi, Zhiyu Pan, Yujia Liu, Zhaofei Yu, Tiejun Huang(参考訳) 従来のニューラルネットワーク(ANN)と比較して、スパイキングニューラルネットワーク(SNN)は、より生物学的に着想を得たエネルギー効率の高い方法で情報を伝達する本質的な能力に対して、広く学術的な関心を集めている。 しかし、SNNの学習勾配とモデル構造を様々な手法で最適化する以前の試みにもかかわらず、SNNはある程度の性能面でもANNに遅れを取っている。 最近提案されたマルチthresholdモデルにより、snsの学習能力をさらに高めることができる。 本稿では,マルチスレッショルドモデル,バニラスパイクモデル,および量子化ANNの関係を数学的観点から厳密に解析し,時間次元のグローバル入力電流と膜電位リークを動的に制御可能な,等価な多階層モデルであるLM-HTモデルを提案する。 さらに,LM-HTモデルに基づく直接学習アルゴリズムは,従来のANN-SNN Conversionフレームワークとシームレスに統合可能であることに留意する。 この新しいハイブリッド学習フレームワークは、低レイテンシで変換されたsnsのパフォーマンスを効果的に改善することができる。 我々のLM-HTモデルは,SNNが量子化ANNに匹敵する真に新しいレベルの性能を達成するために,様々な種類のデータセットにおける従来の最先端の成果を大幅に上回ることを示した。

Compared to traditional Artificial Neural Network (ANN), Spiking Neural Network (SNN) has garnered widespread academic interest for its intrinsic ability to transmit information in a more biological-inspired and energy-efficient manner. However, despite previous efforts to optimize the learning gradients and model structure of SNNs through various methods, SNNs still lag behind ANNs in terms of performance to some extent. The recently proposed multi-threshold model provides more possibilities for further enhancing the learning capability of SNNs. In this paper, we rigorously analyze the relationship among the multi-threshold model, vanilla spiking model and quantized ANNs from a mathematical perspective, then propose a novel LM-HT model, which is an equidistant multi-hierarchical model that can dynamically regulate the global input current and membrane potential leakage on the time dimension. In addition, we note that the direct training algorithm based on the LM-HT model can seamlessly integrate with the traditional ANN-SNN Conversion framework. This novel hybrid learning framework can effectively improve the relatively poor performance of converted SNNs under low time latency. Extensive experimental results have demonstrated that our LM-HT model can significantly outperform previous state-of-the-art works on various types of datasets, which promote SNNs to achieve a brand-new level of performance comparable to quantized ANNs.
翻訳日:2024-02-02 16:01:28 公開日:2024-02-01
# 振動多重場における対生成の促進

The enhancement of pair production in oscillated overlapped fields ( http://arxiv.org/abs/2402.00410v1 )

ライセンス: Link先を確認
Adiljan Sawut, Ying-Jun Li, Miao Jiang and Bai-Song Xie(参考訳) 電子-陽電子対生成におけるポテンシャル井戸幅の影響を量子場理論を用いて理論的および数値的に検討した。 対生成における量子干渉効果は,2つの重なり合うポテンシャル井戸の幅と周波数で検討した。 整数数の光子の吸収を含むいくつかの支配的な過程は、ペア生成に大きな影響を及ぼす。 特に、特定の多光子吸収過程は、ポテンシャル井戸幅が拡大するにつれて異なる変化を示し、4つの光子の吸収は注目すべき効果を示す。 さらに、より小さい周波数がペア生産の収量に与える影響は無視できず、重なり合うフィールドにおいて最も最適化された周波数が研究され、展示されている。

The influence of potential well width on electron-positron pair production has been examined through theoretical and numerical approaches by employing the computational quantum field theory. Quantum interference effects in pair production is investigated in the two overlapped potential wells with varied widths and frequencies. Several dominant processes, involving the absorption of an integer number of photons, significantly impact on pair production. Notably, specific multiphoton absorption processes exhibit distinct changes as the potential well width expands, with the absorption of four photons process displaying noteworthy effects. Additionally, the influence of the smaller frequency to the yield of the pair production can not be ignored and the most optimized frequencies in our overlapped fields has been studied and exhibited.
翻訳日:2024-02-02 16:01:02 公開日:2024-02-01
# InfMAE:赤外線モダリティの基礎モデル

InfMAE: A Foundation Model in Infrared Modality ( http://arxiv.org/abs/2402.00407v1 )

ライセンス: Link先を確認
Fangcen Liu, Chenqiang Gao, Yaming Zhang, Junjie Guo, Jinhao Wang, Deyu Meng(参考訳) 近年、基盤モデルがコンピュータビジョン分野を席巻し、様々な形態の様々なタスクの開発が進められている。 しかし、赤外線基礎モデルの設計方法については、まだ疑問が残されている。 本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。 inf30と呼ばれる赤外線データセットをリリースし、赤外線ビジョンコミュニティにおける自己教師付き学習のための大規模データ不足問題に対処する。 また,赤外線画像に適した情報認識マスキング戦略も設計する。 このマスキング戦略により、一般化された表現の学習に寄与する自己教師付き学習過程において、赤外線画像にリッチな情報を持つ領域をより強調することができる。 さらに,マルチスケールエンコーダを採用し,ダウンストリームタスクにおけるプリトレーニングエンコーダの性能を向上させる。 最後に,赤外線画像が詳細情報やテクスチャ情報を持っていないことを踏まえ,赤外線デコーダモジュールの設計を行い,下流タスクの性能をさらに向上させる。 実験の結果,提案手法は3つの下流タスクにおいて,他の教師付き手法や自己教師付き学習方法よりも優れていた。 私たちのコードはhttps://github.com/liufangcen/InfMAE.comで公開されます。

In recent years, the foundation models have swept the computer vision field and facilitated the development of various tasks within different modalities. However, it remains an open question on how to design an infrared foundation model. In this paper, we propose InfMAE, a foundation model in infrared modality. We release an infrared dataset, called Inf30 to address the problem of lacking large-scale data for self-supervised learning in the infrared vision community. Besides, we design an information-aware masking strategy, which is suitable for infrared images. This masking strategy allows for a greater emphasis on the regions with richer information in infrared images during the self-supervised learning process, which is conducive to learning the generalized representation. In addition, we adopt a multi-scale encoder to enhance the performance of the pre-trained encoders in downstream tasks. Finally, based on the fact that infrared images do not have a lot of details and texture information, we design an infrared decoder module, which further improves the performance of downstream tasks. Extensive experiments show that our proposed method InfMAE outperforms other supervised methods and self-supervised learning methods in three downstream tasks. Our code will be made public at https://github.com/liufangcen/InfMAE.
翻訳日:2024-02-02 16:00:52 公開日:2024-02-01
# 遺伝的アルゴリズムを用いたニューラルネットワーク初期化による臨界ノード検出の改善

Improving Critical Node Detection Using Neural Network-based Initialization in a Genetic Algorithm ( http://arxiv.org/abs/2402.00404v1 )

ライセンス: Link先を確認
Chanjuan Liu, Shike Ge, Zhihan Chen, Wenbin Pei, Enqiang Zhu, Yi Mei, Hisao Ishibuchi(参考訳) 臨界ノード問題(cnp)は、複雑なネットワーク内の臨界ノードの同定に関する問題である。 これらのノードはネットワークの接続性を維持する上で重要な役割を担い、ネットワーク性能に悪影響を及ぼす可能性がある。 CNPは多くの実世界の応用のために広く研究されている。 CNPの様々なバージョンの中で、CNP-1aが最も人気がある。 CNP-1aの主な目的は、ネットワークから限られた数のノードを削除した後、残りのネットワークにおけるペアワイズ接続を最小限にすることである。 CNP-1aのNPハード性のため、この問題を解決するために多くのヒューリスティック・メタヒューリスティックアルゴリズムが提案されている。 しかし、既存のアルゴリズムのほとんどはランダムな初期化から始まり、最適な解を得るのに高いコストがかかる。 CNP-1aを解く効率を改善するために、K2GAという知識誘導型遺伝的アルゴリズムが提案されている。 標準的な遺伝的アルゴリズムフレームワークとは異なり、k2gaには2つの主要な構成要素がある: 可能な臨界ノードに関する事前知識を得るための事前訓練されたニューラルネットワークと、訓練されたニューラルネットワークによって与えられた知識に基づいて、最適な臨界ノードのセットを見つけるための局所探索を備えたハイブリッド遺伝的アルゴリズムである。 局所探索プロセスはカットノードベースの欲求戦略を利用する。 提案する知識誘導遺伝的アルゴリズムの有効性は,26実世界の複雑なネットワークにおける実験によって検証された。 実験結果から,K2GAは,8つの実世界のインスタンスにおいて,最適,中央値,平均目標値に関する最先端のアルゴリズムよりも優れ,最高の目標値の上限が向上していることがわかった。

The Critical Node Problem (CNP) is concerned with identifying the critical nodes in a complex network. These nodes play a significant role in maintaining the connectivity of the network, and removing them can negatively impact network performance. CNP has been studied extensively due to its numerous real-world applications. Among the different versions of CNP, CNP-1a has gained the most popularity. The primary objective of CNP-1a is to minimize the pair-wise connectivity in the remaining network after deleting a limited number of nodes from a network. Due to the NP-hard nature of CNP-1a, many heuristic/metaheuristic algorithms have been proposed to solve this problem. However, most existing algorithms start with a random initialization, leading to a high cost of obtaining an optimal solution. To improve the efficiency of solving CNP-1a, a knowledge-guided genetic algorithm named K2GA has been proposed. Unlike the standard genetic algorithm framework, K2GA has two main components: a pretrained neural network to obtain prior knowledge on possible critical nodes, and a hybrid genetic algorithm with local search for finding an optimal set of critical nodes based on the knowledge given by the trained neural network. The local search process utilizes a cut node-based greedy strategy. The effectiveness of the proposed knowledgeguided genetic algorithm is verified by experiments on 26 realworld instances of complex networks. Experimental results show that K2GA outperforms the state-of-the-art algorithms regarding the best, median, and average objective values, and improves the best upper bounds on the best objective values for eight realworld instances.
翻訳日:2024-02-02 16:00:32 公開日:2024-02-01
# 活性化ステアリングによるLlama 2 Chatのバイアス表現の検討

Investigating Bias Representations in Llama 2 Chat via Activation Steering ( http://arxiv.org/abs/2402.00402v1 )

ライセンス: Link先を確認
Dawn Lu, Nina Rimsky(参考訳) 我々はLlama 2 7B Chatモデルに着目し,Large Language Models (LLMs)における社会的バイアスの課題に対処する。 LLMは、社会的影響が大きい意思決定プロセスに統合されつつあるため、これらのモデルが既存のバイアスを補強しないことを保証することが不可欠になっている。 当社のアプローチでは、アクティベーションステアリングを使用して、性別、人種、宗教に関するバイアスを調査し、緩和する。 この方法は、StereoSetデータセットから派生したステアリングベクターと、独自のGPT4生成したジェンダーバイアスプロンプトを利用して、モデルアクティベーションを操作し、バイアス付き出力の方向または方向への応答を誘導する。 本研究は,人間フィードバック(rlhf)からの強化学習後も持続するllama 2 7bチャットにおける性バイアスを明らかにした。 また、バイアスとモデルが応答を拒否する傾向との予測可能な負の相関を観察する。 以上より,rlhfは社会バイアスの異なる形態のモデル表現の類似性を高める傾向にあり,モデルが異なる形態のバイアスに対するニュアンス的理解に疑問を呈することが明らかとなった。 この研究は、アクティベーションステアリングを用いたLCMの効果的なリピート戦略に関する貴重な洞察も提供し、特にリフレクションベクトルの統合の重要性を強調した。

We address the challenge of societal bias in Large Language Models (LLMs), focusing on the Llama 2 7B Chat model. As LLMs are increasingly integrated into decision-making processes with substantial societal impact, it becomes imperative to ensure these models do not reinforce existing biases. Our approach employs activation steering to probe for and mitigate biases related to gender, race, and religion. This method manipulates model activations to direct responses towards or away from biased outputs, utilizing steering vectors derived from the StereoSet dataset and custom GPT4 generated gender bias prompts. Our findings reveal inherent gender bias in Llama 2 7B Chat, persisting even after Reinforcement Learning from Human Feedback (RLHF). We also observe a predictable negative correlation between bias and the model's tendency to refuse responses. Significantly, our study uncovers that RLHF tends to increase the similarity in the model's representation of different forms of societal biases, which raises questions about the model's nuanced understanding of different forms of bias. This work also provides valuable insights into effective red-teaming strategies for LLMs using activation steering, particularly emphasizing the importance of integrating a refusal vector.
翻訳日:2024-02-02 16:00:06 公開日:2024-02-01
# 都市間交通予測のためのマルチスケール交通パターンバンク

Multi-scale Traffic Pattern Bank for Cross-city Few-shot Traffic Forecasting ( http://arxiv.org/abs/2402.00397v1 )

ライセンス: Link先を確認
Zhanyu Liu, Guanjie Zheng, Yanwei Yu(参考訳) 交通予測は知的交通システム(ITS)にとって重要であり、効率的な資源配分と効率的な交通制御を支援する。 しかし、その有効性はしばしば豊富なトラフィックデータに大きく依存するが、多くの都市ではデバイスサポートが限られているため十分なデータがないため、交通予測には大きな課題がある。 この課題を認識して、我々は注目に値する観察を行った。交通パターンは様々な都市で類似点を示す。 この重要な知見に基づいて,MTPB(Multi-scale Traffic Pattern Bank)と呼ばれる都市間交通予測問題に対する解決策を提案する。 主にMTPBは、データ豊富なソース都市を活用して学習プロセスを開始し、空間的時間的事前学習プロセスを通じて、包括的な交通知識を効果的に獲得する。 その後、このフレームワークは高度なクラスタリング技術を用いて、学習知識から派生したマルチスケールトラフィックパターンバンクを体系的に生成する。 次に、データ収集対象都市の交通データは、トラフィックパターンバンクに問い合わせることができ、メタ知識の集約が容易になる。 このメタ知識は、グラフの再構築と予測を含むその後のプロセスにおいて、ロバストなガイドとして重要な役割を果たす。 実世界の交通データセット上で実施された実証評価は,MTPBの優れた性能を裏付けるものであり,様々なカテゴリーにまたがる既存手法を超越し,都市間数ショット予測手法の進歩にともなう多くの属性を示す。 コードはhttps://github.com/zhyliu00/mtpbで入手できる。

Traffic forecasting is crucial for intelligent transportation systems (ITS), aiding in efficient resource allocation and effective traffic control. However, its effectiveness often relies heavily on abundant traffic data, while many cities lack sufficient data due to limited device support, posing a significant challenge for traffic forecasting. Recognizing this challenge, we have made a noteworthy observation: traffic patterns exhibit similarities across diverse cities. Building on this key insight, we propose a solution for the cross-city few-shot traffic forecasting problem called Multi-scale Traffic Pattern Bank (MTPB). Primarily, MTPB initiates its learning process by leveraging data-rich source cities, effectively acquiring comprehensive traffic knowledge through a spatial-temporal-aware pre-training process. Subsequently, the framework employs advanced clustering techniques to systematically generate a multi-scale traffic pattern bank derived from the learned knowledge. Next, the traffic data of the data-scarce target city could query the traffic pattern bank, facilitating the aggregation of meta-knowledge. This meta-knowledge, in turn, assumes a pivotal role as a robust guide in subsequent processes involving graph reconstruction and forecasting. Empirical assessments conducted on real-world traffic datasets affirm the superior performance of MTPB, surpassing existing methods across various categories and exhibiting numerous attributes conducive to the advancement of cross-city few-shot forecasting methodologies. The code is available in https://github.com/zhyliu00/MTPB.
翻訳日:2024-02-02 15:59:40 公開日:2024-02-01
# LLMの効率的な探索

Efficient Exploration for LLMs ( http://arxiv.org/abs/2402.00396v1 )

ライセンス: Link先を確認
Vikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy(参考訳) 我々は,大規模な言語モデルを改善するために,人間のフィードバックを収集する際の効率的な探索の実質的なメリットを示す。 実験では,受信したフィードバックに報酬モデルを適用しながら,エージェントが逐次クエリを生成する。 当社のベストパフォーマンスエージェントは,認識論的ニューラルネットワークで表現された不確実性を持つダブルトンプソンサンプリングを用いてクエリを生成する。 その結果,より少ないクエリで効率的な探索が可能となった。 さらに,不確実性の推定と探索計画の選択が重要な役割を担っている。

We present evidence of substantial benefit from efficient exploration in gathering human feedback to improve large language models. In our experiments, an agent sequentially generates queries while fitting a reward model to the feedback received. Our best-performing agent generates queries using double Thompson sampling, with uncertainty represented by an epistemic neural network. Our results demonstrate that efficient exploration enables high levels of performance with far fewer queries. Further, both uncertainty estimation and the choice of exploration scheme play critical roles.
翻訳日:2024-02-02 15:58:57 公開日:2024-02-01
# ニューラルネットワークのデッドゾーンを考慮した損失関数

Loss Function Considering Dead Zone for Neural Networks ( http://arxiv.org/abs/2402.00393v1 )

ライセンス: Link先を確認
Koki Inami, Koki Yamane, Sho Sakaino(参考訳) モデルベース制御の制御性能を向上させるためにマニピュレータの逆ダイナミクスを明らかにすることが重要である。 ニューラルネットワーク(nns)は、大量の動きデータを必要とする一方で、複雑な逆ダイナミクスを表現する技術として有望である。 しかし、アクチュエータのデッドゾーンの動作データは、有用なトレーニングデータ数を減らすトレーニングモデルには適していない。 本研究では, デッドゾーンの入力トルクによらず, マニピュレータ継手が動作しないという事実を踏まえ, デッドゾーンにないジョイントの誤差のみを考慮した新たな損失関数を提案する。 提案手法は,トレーニングで利用可能な運動データ量の増加と,逆ダイナミクス計算の精度の向上を可能にする。 3自由度マニピュレータ(DOF)を用いた実機実験では,従来の方法よりも精度が高かった。 また, デッドゾーンにおける提案手法のモデルの挙動を検証し, 検討した。

It is important to reveal the inverse dynamics of manipulators to improve control performance of model-based control. Neural networks (NNs) are promising techniques to represent complicated inverse dynamics while they require a large amount of motion data. However, motion data in dead zones of actuators is not suitable for training models decreasing the number of useful training data. In this study, based on the fact that the manipulator joint does not work irrespective of input torque in dead zones, we propose a new loss function that considers only errors of joints not in dead zones. The proposed method enables to increase in the amount of motion data available for training and the accuracy of the inverse dynamics computation. Experiments on actual equipment using a three-degree-of-freedom (DOF) manipulator showed higher accuracy than conventional methods. We also confirmed and discussed the behavior of the model of the proposed method in dead zones.
翻訳日:2024-02-02 15:58:45 公開日:2024-02-01
# アジャイルソフトウェアプロジェクトにおけるデータ管理の課題: 体系的な文献レビュー

Data Management Challenges in Agile Software Projects: A Systematic Literature Review ( http://arxiv.org/abs/2402.00462v1 )

ライセンス: Link先を確認
Ahmed Fawzy, Amjed Tahir, Matthias Galster, Peng Liang(参考訳) アジャイルソフトウェア開発は適応的で反復的なアプローチに従う。 しかしながら、データ管理(開発データや製品データなど)は、プロジェクトやアジャイルチームにとって大きな課題となる可能性がある。 私たちは、アジャイルプロジェクトにおけるデータ管理において直面する重要な課題を特定し、特徴付けし、文献で提案される潜在的な解決策を検討することを目的としています。 関連研究の収集と分析には,SLR(Systematic Literature Review)を用いた。 アジャイルソフトウェア開発におけるデータ管理に関する45の研究を明らかにした。 次に、これらの研究から得られたデータを手動で分析、マッピングし、異なるデータ管理の側面を分類し、これらの研究で特定された課題と解決策を特定する。 その結果,データ統合や品質保証といった大きな課題が明らかになった。 チームメンバーと製品提供プロセスに課題があることが分かりました。 チームは異種データソースの統合にしばしば苦労し、データの信頼性とリアルタイム分析を保証しています。 さらに、断片化されたデータ収集と標準化されたプラクティスの欠如は、チームのコラボレーションとプロジェクトの透明性を妨げる可能性がある。 また、オントロジーの使用、多様なデータ管理戦略、自動化ツール、品質を重視した開発手法の採用など、これらの課題に対処するための様々なソリューションも提案されている。 データ品質と分析を強化するトレーニングも含まれる。 このSLRは実践者に対して深い洞察とレコメンデーションを提供し、堅牢なデータ管理戦略の重要性を強調します。 意思決定を強化し、ソフトウェアプロジェクトの成果を改善するために、高度なデータ管理技術をアジャイルフレームワークに統合することを提案する。 この研究は、アジャイル環境でのデータ管理にもっと焦点を絞ったアプローチの必要性を強調しており、アジャイルソフトウェア開発のユニークな要求を満たすために調整されたソリューションを提唱している。

Agile software development follows an adaptive and iterative approach. However, the management of data (e.g., development data or product data) can pose significant challenges for projects and agile teams. We aim to identify and characterize key challenges faced in data management within agile projects and to examine potential solutions proposed in the literature. We used a Systematic Literature Review (SLR) to collect and analyse relevant studies. We identified 45 studies related to data management in agile software development. We then manually analysed and mapped data from these studies to categorise different data management aspects and identify challenges and solutions as identified in those studies. Our findings reveal major challenges such as data integration and quality assurance. We found implications of challenges on team members and the product delivery process. We found that teams frequently struggle to integrate heterogeneous data sources, ensuring data reliability and real-time analytics. Additionally, fragmented data collection and a lack of standardized practices can impede team collaboration and project transparency. The studies have also proposed various solutions to address those challenges, including the use of ontologies, diverse data management strategies, automated tools, and the adoption of quality-focused development methods. Solutions also include training to enhance data quality and analysis. This SLR provides in-depth insights and recommendations for practitioners, emphasizing the importance of robust data management strategies. It suggests integrating advanced data management techniques into agile frameworks to enhance decision-making and improve software project outcomes. The study highlights the need for a more focused approach to data management in agile environments, advocating tailored solutions to meet the unique demands of agile software development.
翻訳日:2024-02-02 15:51:11 公開日:2024-02-01
# 資源制約付きジョブスケジューリングのための遺伝的制約プログラミング

Genetic-based Constraint Programming for Resource Constrained Job Scheduling ( http://arxiv.org/abs/2402.00459v1 )

ライセンス: Link先を確認
Su Nguyen and Dhananjay Thiruvady and Yuan Sun and Mengjie Zhang(参考訳) 資源制約付きジョブスケジューリングは、鉱業を起源とするハードコンビネート最適化問題である。 既製の解法はこの問題を合理的な時間枠では十分解決できないが、多くの進化的計算法や数理学のような他の解法は最適性を保証することができず、低レベルのカスタマイズと特殊なヒューリスティックが有効である。 本稿では、資源制約のあるジョブスケジューリングのための制約プログラミングの効率的な探索戦略を見つけるために、遺伝的プログラミングアルゴリズムを提案する。 提案アルゴリズムでは,制約プログラミングの探索プロセスで使用する可変セレクタを進化プログラムで表現し,それらの適合性は,トレーニングインスタンスで得られるソリューションの品質によって決定される。 本アルゴリズムの新規性は, (1) 可変セレクタの新しい表現, (2) 適合性評価スキーム, (3) 事前選択機構である。 多数のランダムおよびベンチマークインスタンスを持つテストでは、進化した変数セレクタは、制約プログラミングの効率を大幅に改善することができる。 高度にカスタマイズされたメタヒューリスティックとハイブリッドアルゴリズムと比較して、進化した変数セレクタは、制約プログラミングによって品質ソリューションをより早く識別し、十分な大きな実行時間が可能であれば最適性を証明することができる。 進化した変数セレクタは、多数のマシンでインスタンスを解決するのに特に役立ちます。

Resource constrained job scheduling is a hard combinatorial optimisation problem that originates in the mining industry. Off-the-shelf solvers cannot solve this problem satisfactorily in reasonable timeframes, while other solution methods such as many evolutionary computation methods and matheuristics cannot guarantee optimality and require low-level customisation and specialised heuristics to be effective. This paper addresses this gap by proposing a genetic programming algorithm to discover efficient search strategies of constraint programming for resource-constrained job scheduling. In the proposed algorithm, evolved programs represent variable selectors to be used in the search process of constraint programming, and their fitness is determined by the quality of solutions obtained for training instances. The novelties of this algorithm are (1) a new representation of variable selectors, (2) a new fitness evaluation scheme, and (3) a pre-selection mechanism. Tests with a large set of random and benchmark instances, the evolved variable selectors can significantly improve the efficiency of constraining programming. Compared to highly customised metaheuristics and hybrid algorithms, evolved variable selectors can help constraint programming identify quality solutions faster and proving optimality is possible if sufficiently large run-times are allowed. The evolved variable selectors are especially helpful when solving instances with large numbers of machines.
翻訳日:2024-02-02 15:50:49 公開日:2024-02-01
# 非凸エンタングル対策LCRENとLCRENOAにおけるマルチビットエンタングルの厳密な制約

Tighter Constraints of Multi-Qubit Entanglement in Terms of Nonconvex Entanglement Measures LCREN and LCRENoA ( http://arxiv.org/abs/2402.00457v1 )

ライセンス: Link先を確認
Zhong-Xi Shen, Dong-Ping Xuan, Wen Zhou, Zhi-Xi Wang, Shao-Ming Fei(参考訳) 絡み合いのモノガミー性は、多部量子絡み合いの興味深い特徴である。 モノガミーの不等式を満たすほとんどの絡み合いは凸であることがわかった。 非凸エンタングルメント測度がモノガミーの不等式に従うかどうかは、現時点では分かっていない。 絡み合いのよく知られた尺度として、対数否定性は凸ではない。 対数凸ルーフ拡張ネガティビティ (lcren) と対数凸ルーフ拡張ネガティビティ (lcrenoa) に基づくマルチキュービット絡み合いの制約を明らかにする。 サブシステムの分布に付随する二項ベクトルから導かれるハミング重みを用いて、LCRENの$\alpha$th-power(\alpha\geq 4\ln2$)とLCRENOAの$\alpha$th-power(0 \leq \alpha \leq 2$)のポリガミー不等式を用いて、多重量子絡みのモノガミー不等式を確立する。 これらの不等式が既存のものよりも厳密な制約をもたらすことを示す。 さらに、CKWモノガミー不等式に反する高次元状態においても、我々のモノガミー不等式は有効であることが示されている。 多成分の絡み合い分布を特徴付ける結果の有効性を示すために, 詳細な例を示す。

The monogamy property of entanglement is an intriguing feature of multipartite quantum entanglement. Most entanglement measures satisfying the monogamy inequality are turned out to be convex. Whether nonconvex entanglement measures obeys the monogamy inequalities remains less known at present. As a well known measure of entanglement, the logarithmic negativity is not convex. We elucidate the constraints of multi-qubit entanglement based on the logarithmic convex-roof extended negativity (LCREN) and the logarithmic convex-roof extended negativity of assistance (LCRENoA). Using the Hamming weight derived from the binary vector associated with the distribution of subsystems, we establish monogamy inequalities for multi-qubit entanglement in terms of the $\alpha$th-power ($\alpha\geq 4\ln2$) of LCREN, and polygamy inequalities utilizing the $\alpha$th-power ($0 \leq \alpha \leq 2$) of LCRENoA. We demonstrate that these inequalities give rise to tighter constraints than the existing ones. Furthermore, our monogamy inequalities are shown to remain valid for the high dimensional states that violate the CKW monogamy inequality. Detailed examples are presented to illustrate the effectiveness of our results in characterizing the multipartite entanglement distributions.
翻訳日:2024-02-02 15:50:26 公開日:2024-02-01
# インストラクションは違いをもたらす

Instruction Makes a Difference ( http://arxiv.org/abs/2402.00453v1 )

ライセンス: Link先を確認
Tosin Adewumi, Nudrat Habib, Lama Alkhaled, and Elisa Barney(参考訳) 本稿では,文書解析のための言語ビジョン(lv)モデルと文書画像の予測を訓練するために,命令文書視覚的質問応答(idocvqa)データセットと大言語文書(lladoc)モデルを導入する。 通常、DocVQAタスクのためのディープニューラルネットワークは、命令を欠いたデータセットでトレーニングされる。 命令追従データセットを用いることで性能が向上することを示す。 我々は、最近の最先端(SotA)Large Language and Vision Assistant(LLaVA)1.5をベースモデルとして、文書関連データセットのパフォーマンスを比較した。 また,Polling-based Object Probing Evaluation (POPE) データセットを用いて,対象幻覚の導出モデルの性能評価を行った。 その結果、命令調整性能はゼロショット性能の11Xから32X、非命令(従来のタスク)の微調整よりも0.1%から4.2%の範囲であることがわかった。 向上にもかかわらず、これはまだ人間のパフォーマンスに不足(94.36%)しており、改善の余地があることを示唆している。

We introduce Instruction Document Visual Question Answering (iDocVQA) dataset and Large Language Document (LLaDoc) model, for training Language-Vision (LV) models for document analysis and predictions on document images, respectively. Usually, deep neural networks for the DocVQA task are trained on datasets lacking instructions. We show that using instruction-following datasets improves performance. We compare performance across document-related datasets using the recent state-of-the-art (SotA) Large Language and Vision Assistant (LLaVA)1.5 as the base model. We also evaluate the performance of the derived models for object hallucination using the Polling-based Object Probing Evaluation (POPE) dataset. The results show that instruction-tuning performance ranges from 11X to 32X of zero-shot performance and from 0.1% to 4.2% over non-instruction (traditional task) finetuning. Despite the gains, these still fall short of human performance (94.36%), implying there's much room for improvement.
翻訳日:2024-02-02 15:49:44 公開日:2024-02-01
# CPT:Few-shot Node分類のためのコンピテンス・プログレッシブトレーニング戦略

CPT: Competence-progressive Training Strategy for Few-shot Node Classification ( http://arxiv.org/abs/2402.00450v1 )

ライセンス: Link先を確認
Qilong Yan, Yufeng Zhang, Jinghao Zhang, Jingpu Duan, Jian Yin(参考訳) グラフニューラルネットワーク(GNN)はノード分類に大きな進歩を遂げているが、その成功はトレーニングデータ内のクラス毎の十分なラベル付きノードに依存している。 実世界のグラフデータはしばしばスパースラベルを持つ長いテール分布を示し、限られたデータで分類するノードの分類においてGNNの能力の重要性を強調している。 伝統的なエピソディックなメタラーニングアプローチは、この領域における有望性を示しているが、それらは固有の制限に直面している。 これはメタ学習者が複雑なタスクに直面するのを早め、適切な学習を妨げる可能性がある。 理想的には、メタ学習は単純な概念から始まり、人間の学習のようなより複雑な概念へと進むべきです。 そこで我々は,メタラーナーのプログレッシブ・コンピテンスにタスクの難易度を合わせる2段階のカリキュラム学習手法であるCPTを導入する。 特に、CPTの初期段階では、より単純なタスクに焦点が当てられ、後に複雑なタスクに取り組むための基礎的なスキルが育まれている。 重要なことに、第2段階はメタラーナーの能力向上に基づいてタスクの難易度を動的に調整し、最適な知識獲得を目指す。 一般的なノード分類データセットに対する大規模な実験は、既存の手法に対する我々の戦略を大幅に改善したことを示している。

Graph Neural Networks (GNNs) have made significant advancements in node classification, but their success relies on sufficient labeled nodes per class in the training data. Real-world graph data often exhibits a long-tail distribution with sparse labels, emphasizing the importance of GNNs' ability in few-shot node classification, which entails categorizing nodes with limited data. Traditional episodic meta-learning approaches have shown promise in this domain, but they face an inherent limitation: it might lead the model to converge to suboptimal solutions because of random and uniform task assignment, ignoring task difficulty levels. This could lead the meta-learner to face complex tasks too soon, hindering proper learning. Ideally, the meta-learner should start with simple concepts and advance to more complex ones, like human learning. So, we introduce CPT, a novel two-stage curriculum learning method that aligns task difficulty with the meta-learner's progressive competence, enhancing overall performance. Specifically, in CPT's initial stage, the focus is on simpler tasks, fostering foundational skills for engaging with complex tasks later. Importantly, the second stage dynamically adjusts task difficulty based on the meta-learner's growing competence, aiming for optimal knowledge acquisition. Extensive experiments on popular node classification datasets demonstrate significant improvements of our strategy over existing methods.
翻訳日:2024-02-02 15:49:25 公開日:2024-02-01
# 並列スパイクユニットを用いたニューラルネットワークの学習

Efficient Training Spiking Neural Networks with Parallel Spiking Unit ( http://arxiv.org/abs/2402.00449v1 )

ライセンス: Link先を確認
Yang Li, Yinqian Sun, Xiang He, Yiting Dong, Dongcheng Zhao, Yi Zeng(参考訳) 効率的な並列コンピューティングは、人工知能の進歩において重要な要素となっている。 しかし、この領域におけるスパイキングニューラルネットワーク(SNN)の展開は、本質的に逐次的な計算依存によって妨げられている。 この制約は、前ステップの結果に依存する各ステップの処理の必要性から生じ、SNNモデルの大規模並列コンピューティング環境への適応性を著しく阻害する。 この課題に対処するために,本論文では,革新的なParallel Spiking Unit(PSU)とその2つの派生であるIPSU(IPSU)とRPSU(Reset-aware PSU)を紹介する。 これらの変種は、リセットプロセスを確率的に管理しながら、スパイキングニューロンの漏れた積分と発火機構を巧みに分離する。 スパイキングニューロンモデルの基本計算特性を保存することにより,SNN内の膜電位の同時計算が可能となり,並列スパイク出力の生成が容易になり,計算効率が大幅に向上する。 静的およびシーケンシャルな画像、ダイナミックビジョンセンサー(DVS)データ、および音声データセットを含む、さまざまなデータセットにわたる包括的なテストは、PSUとその変種がパフォーマンスとシミュレーション速度を著しく向上するだけでなく、神経活動の空間性を高めてSNNのエネルギー効率を向上することを示した。 これらの進歩は,高性能並列コンピューティングアプリケーションのSNN展開に革命をもたらす可能性を示している。

Efficient parallel computing has become a pivotal element in advancing artificial intelligence. Yet, the deployment of Spiking Neural Networks (SNNs) in this domain is hampered by their inherent sequential computational dependency. This constraint arises from the need for each time step's processing to rely on the preceding step's outcomes, significantly impeding the adaptability of SNN models to massively parallel computing environments. Addressing this challenge, our paper introduces the innovative Parallel Spiking Unit (PSU) and its two derivatives, the Input-aware PSU (IPSU) and Reset-aware PSU (RPSU). These variants skillfully decouple the leaky integration and firing mechanisms in spiking neurons while probabilistically managing the reset process. By preserving the fundamental computational attributes of the spiking neuron model, our approach enables the concurrent computation of all membrane potential instances within the SNN, facilitating parallel spike output generation and substantially enhancing computational efficiency. Comprehensive testing across various datasets, including static and sequential images, Dynamic Vision Sensor (DVS) data, and speech datasets, demonstrates that the PSU and its variants not only significantly boost performance and simulation speed but also augment the energy efficiency of SNNs through enhanced sparsity in neural activity. These advancements underscore the potential of our method in revolutionizing SNN deployment for high-performance parallel computing applications.
翻訳日:2024-02-02 15:48:59 公開日:2024-02-01
# データ効率の高いグラフ学習に関する調査

A Survey of Data-Efficient Graph Learning ( http://arxiv.org/abs/2402.00447v1 )

ライセンス: Link先を確認
Wei Ju, Siyu Yi, Yifan Wang, Qingqing Long, Junyu Luo, Zhiping Xiao, Ming Zhang(参考訳) グラフ構造化データは、ソーシャルネットワークから生化学分析まで、様々な現実世界のシステムの基盤となっている。 グラフニューラルネットワークはこの種のデータモデリングの習熟度を示しているが、その成功はしばしば大量のラベル付きデータに依存しており、アノテーションリソースが限られている現実的なシナリオでは課題となっている。 この問題に対処するため,低リソース環境下でのグラフ機械学習の性能向上に多大な努力が注がれている。 本稿では,研究フロンティアとしてData-Efficient Graph Learning(DEGL)という新しい概念を紹介し,DEGLの現在の進歩をまとめた最初の調査を紹介する。 私たちは、大きなラベル付きデータでトレーニングモデルに固有の課題を強調し、DEGLへの探索の道を開くことで開始します。 次に,このトピックの最近の進歩を,自己教師ありグラフ学習,半教師なしグラフ学習,少数ショットグラフ学習など,いくつかの重要な側面から体系的にレビューする。 また,今後の研究の方向性を述べるとともに,グラフ機械学習の発展に寄与する。

Graph-structured data, prevalent in domains ranging from social networks to biochemical analysis, serve as the foundation for diverse real-world systems. While graph neural networks demonstrate proficiency in modeling this type of data, their success is often reliant on significant amounts of labeled data, posing a challenge in practical scenarios with limited annotation resources. To tackle this problem, tremendous efforts have been devoted to enhancing graph machine learning performance under low-resource settings by exploring various approaches to minimal supervision. In this paper, we introduce a novel concept of Data-Efficient Graph Learning (DEGL) as a research frontier, and present the first survey that summarizes the current progress of DEGL. We initiate by highlighting the challenges inherent in training models with large labeled data, paving the way for our exploration into DEGL. Next, we systematically review recent advances on this topic from several key aspects, including self-supervised graph learning, semi-supervised graph learning, and few-shot graph learning. Also, we state promising directions for future research, contributing to the evolution of graph machine learning.
翻訳日:2024-02-02 15:48:36 公開日:2024-02-01
# ソーシャル・アウェア・コントラスト学習による対話の安全性向上

Improving Dialog Safety using Socially Aware Contrastive Learning ( http://arxiv.org/abs/2402.00446v1 )

ライセンス: Link先を確認
Souvik Das, Rohini K. Srihari(参考訳) 最先端の会話型AIシステムは、安全でない、有害な、非倫理的、あるいは危険なコンテンツを発生させる可能性のあるリスクを懸念している。 従来の研究は、特定のデザインされた有害コンテンツに効果的に対応する適切な社会的パラダイムを会話エージェントに教えるデータセットを開発した。 しかし、これらの敵対的データセットでトレーニングされたモデルは、それでも会話に自然に現れる微妙な不安全な状況を認識したり、カジュアルな文脈で不適切な応答を導入するのに苦労している。 この問題の範囲を理解するために,対人関係とカジュアルな対話の文脈における非社会性を調査し,汎用言語モデルの応答品質を,安全でないコンテンツを生成する傾向の観点から監査する。 社会的に認識されたn対の相対的損失を用いて、これらの問題に対処するための2段階の微調整プロセスを提案する。 その後、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用して、社会行動を統合するベースモデルをトレーニングする。 いくつかのダイアログデータセットにおける実験結果は、社会的に適切な応答を生成するためのアプローチの有効性を示している。

State-of-the-art conversational AI systems raise concerns due to their potential risks of generating unsafe, toxic, unethical, or dangerous content. Previous works have developed datasets to teach conversational agents the appropriate social paradigms to respond effectively to specifically designed hazardous content. However, models trained on these adversarial datasets still struggle to recognize subtle unsafe situations that appear naturally in conversations or introduce an inappropriate response in a casual context. To understand the extent of this problem, we study prosociality in both adversarial and casual dialog contexts and audit the response quality of general-purpose language models in terms of propensity to produce unsafe content. We propose a dual-step fine-tuning process to address these issues using a socially aware n-pair contrastive loss. Subsequently, we train a base model that integrates prosocial behavior by leveraging datasets like Moral Integrity Corpus (MIC) and ProsocialDialog. Experimental results on several dialog datasets demonstrate the effectiveness of our approach in generating socially appropriate responses.
翻訳日:2024-02-02 15:48:17 公開日:2024-02-01
# 近似可能性階層による遺伝的アルゴリズムの評価

Evaluating Genetic Algorithms through the Approximability Hierarchy ( http://arxiv.org/abs/2402.00444v1 )

ライセンス: Link先を確認
Alba Mu\~noz, Fernando Rubio(参考訳) 最適化問題はしばしば科学領域に現れる。 多くの場合、対応する決定問題はnpハードであることが判明し、これらの場合、遺伝的アルゴリズムは近似解を得るためにしばしば用いられる。 しかし、異なるnp-ハード問題の近似の困難さは多岐にわたる。 本稿では,この問題が属する近似クラスに応じた遺伝的アルゴリズムの利用の有用性について検討する。 特に、標準的な近似可能性階層を用いて、遺伝的アルゴリズムが階層の最も悲観的なクラスに特に有用であることを示す。

Optimization problems frequently appear in any scientific domain. Most of the times, the corresponding decision problem turns out to be NP-hard, and in these cases genetic algorithms are often used to obtain approximated solutions. However, the difficulty to approximate different NP-hard problems can vary a lot. In this paper, we analyze the usefulness of using genetic algorithms depending on the approximation class the problem belongs to. In particular, we use the standard approximability hierarchy, showing that genetic algorithms are especially useful for the most pessimistic classes of the hierarchy
翻訳日:2024-02-02 15:47:39 公開日:2024-02-01
# 責任ある開発とネットワーク研究: 論文の倫理的記述を超えた考察

Responsible developments and networking research: a reflection beyond a paper ethical statement ( http://arxiv.org/abs/2402.00442v1 )

ライセンス: Link先を確認
Daphne Tuncer and Marc Bruyere(参考訳) 最近のいくつかのイニシアチブでは、ai支援ツールの使用を明確にした行動規範の更新や、デジタル化の環境フットプリントに関するワーキンググループの組織など、コンピュータサイエンスコミュニティにおける研究実践とその運用のための新しい方向性を提案している。 本稿では,ネットワーク研究の具体的な事例に焦点を当てる。 我々は,コミュニティの技術的実現と,テクノ中心のコントリビューションを超えてその出現を反映する。 特に、最近異なる文脈で開発された2つのフレームワークに関する議論を構造化し、コンピューティング関連の分野の実践者が直面するであろうエンゲージメントと責任の感覚を記述する。

Several recent initiatives have proposed new directions for research practices and their operations in the computer science community, from updated codes of conduct that clarify the use of AI-assisted tools to the inclusion of ethical statements and the organization of working groups on the environmental footprint of digitalization. In this position paper, we focus on the specific case of networking research. We reflect on the technical realization of the community and its incidence beyond techno-centric contributions. In particular, we structure the discussion around two frameworks that were recently developed in different contexts to describe the sense of engagement and responsibilities to which the practitioner of a computing-related area may be confronted.
翻訳日:2024-02-02 15:47:32 公開日:2024-02-01
# 畳み込み自己エンコーダに基づく縮小順序モデルの実用的存在定理

A practical existence theorem for reduced order models based on convolutional autoencoders ( http://arxiv.org/abs/2402.00435v1 )

ライセンス: Link先を確認
Nicola Rares Franco and Simone Brugiapaglia(参考訳) 近年,PDE(Partial Differential Equations)やROM(Reduced Order Modeling)の分野でディープラーニングが普及し,物理情報ニューラルネットワーク(PINN)やニューラルネットワーク,Deep Operator Networks(DeepONets),Deep-Learning based ROMs(DL-ROM)といった,新たな強力なデータ駆動技術が提供されるようになった。 この文脈では、複雑な非線形問題を扱う際、畳み込みニューラルネットワーク(CNN)に基づくディープオートエンコーダは、基底法などの確立された手法よりも極めて効果的であることが証明されている。 しかし、CNNベースのオートエンコーダの実証的な成功にもかかわらず、これらのアーキテクチャを支持する理論的な結果は、通常は普遍近似定理の形で記述されている。 特に、既存の文献は畳み込みオートエンコーダを設計するためのガイドラインを提供しているが、潜在的な特徴を学ぶというその後の課題はほとんど調査されていない。 さらに、収束に必要なスナップショットの数やニューラルネットワークトレーニング戦略など、多くの実践的な疑問が未解決のままである。 本研究では,高次元関数近似を用いた最近の手法を用いて,パラメータ対解写像が正則である場合,cnnに基づくオートエンコーダに対する新たな実用的存在定理を提供することにより,これらのギャップを埋める。 この正則性仮定は、パラメトリック拡散方程式のようなパラメトリックPDEの多くの関連クラスで生じ、一般理論の明示的な応用について議論する。

In recent years, deep learning has gained increasing popularity in the fields of Partial Differential Equations (PDEs) and Reduced Order Modeling (ROM), providing domain practitioners with new powerful data-driven techniques such as Physics-Informed Neural Networks (PINNs), Neural Operators, Deep Operator Networks (DeepONets) and Deep-Learning based ROMs (DL-ROMs). In this context, deep autoencoders based on Convolutional Neural Networks (CNNs) have proven extremely effective, outperforming established techniques, such as the reduced basis method, when dealing with complex nonlinear problems. However, despite the empirical success of CNN-based autoencoders, there are only a few theoretical results supporting these architectures, usually stated in the form of universal approximation theorems. In particular, although the existing literature provides users with guidelines for designing convolutional autoencoders, the subsequent challenge of learning the latent features has been barely investigated. Furthermore, many practical questions remain unanswered, e.g., the number of snapshots needed for convergence or the neural network training strategy. In this work, using recent techniques from sparse high-dimensional function approximation, we fill some of these gaps by providing a new practical existence theorem for CNN-based autoencoders when the parameter-to-solution map is holomorphic. This regularity assumption arises in many relevant classes of parametric PDEs, such as the parametric diffusion equation, for which we discuss an explicit application of our general theory.
翻訳日:2024-02-02 15:47:20 公開日:2024-02-01
# 重みを混合した専門家によるマルチタスクモデルの統合

Merging Multi-Task Models via Weight-Ensembling Mixture of Experts ( http://arxiv.org/abs/2402.00433v1 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Nan Yin, Lefei Zhang, Dacheng Tao(参考訳) 異なるタスクでトレーニングされた様々なタスク固有のトランスフォーマティブベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時実行することができる。 タスク演算によって例示される以前の手法は、効果的かつスケーラブルであることが証明されている。 既存の手法は主に、元のモデルパラメータ空間内で静的最適解を求めることに重点を置いている。 注目すべき課題は、異なるモデルのパラメータ間の干渉を軽減することである。 本稿では、トランスフォーマー層のmlpを、入力に基づいて共有およびタスク固有の知識を動的に統合し、各インスタンスの特定のニーズに適応可能なより柔軟なソリューションを提供する、専門家(moe)モジュールの重みセンブラリング混合物にスケールアップしながら、ほとんどのパラメータをマージすることを提案する。 私たちの重要な洞察は、共有知識とタスク固有の知識を識別し分離し、それらを動的に統合することで、パラメータ干渉問題をかなり緩和できるということです。 従来のマルチタスクモデルマージ実験を行い,本手法の一般化とロバスト性を評価する。 提案手法の有効性を実証し,本手法の総合的な理解を提供する。 コードはhttps://anonymous.4open.science/r/weight-ensembling_moe-67c9/で入手できる。

Merging various task-specific Transformer-based models trained on different tasks into a single unified model can execute all the tasks concurrently. Previous methods, exemplified by task arithmetic, have been proven to be both effective and scalable. Existing methods have primarily focused on seeking a static optimal solution within the original model parameter space. A notable challenge is mitigating the interference between parameters of different models, which can substantially deteriorate performance. In this paper, we propose to merge most of the parameters while upscaling the MLP of the Transformer layers to a weight-ensembling mixture of experts (MoE) module, which can dynamically integrate shared and task-specific knowledge based on the input, thereby providing a more flexible solution that can adapt to the specific needs of each instance. Our key insight is that by identifying and separating shared knowledge and task-specific knowledge, and then dynamically integrating them, we can mitigate the parameter interference problem to a great extent. We conduct the conventional multi-task model merging experiments and evaluate the generalization and robustness of our method. The results demonstrate the effectiveness of our method and provide a comprehensive understanding of our method. The code is available at https://anonymous.4open.science/r/weight-ensembling_MoE-67C9/
翻訳日:2024-02-02 15:46:50 公開日:2024-02-01
# 遺伝的プログラミング理論と実践 : 15年間の軌跡

Genetic Programming Theory and Practice: A Fifteen-Year Trajectory ( http://arxiv.org/abs/2402.00425v1 )

ライセンス: Link先を確認
Moshe Sipper and Jason H. Moore(参考訳) 2003年に始まったGPTPワークショップシリーズは、遺伝子プログラミング(GP)研究者の焦点会議として長年にわたって使われてきた。 このようにして,過去15年間のGP開発研究に優れた情報源を提供すると考えられる。 したがって、ここではGPの分野におけるテーマ展開の軌跡を示す。

The GPTP workshop series, which began in 2003, has served over the years as a focal meeting for genetic programming (GP) researchers. As such, we think it provides an excellent source for studying the development of GP over the past fifteen years. We thus present herein a trajectory of the thematic developments in the field of GP.
翻訳日:2024-02-02 15:46:27 公開日:2024-02-01
# 空間と時間による建築環境の再現性

Reproducibility of Build Environments through Space and Time ( http://arxiv.org/abs/2402.00424v1 )

ライセンス: Link先を確認
Julien Malka (IP Paris, LTCI, ACES), Stefano Zacchiroli (IP Paris, LTCI, ACES), Th\'eo Zimmermann (ACES, INFRES, IP Paris)(参考訳) 現代のソフトウェアエンジニアリングは、機能を構築するためにより直接的で推移的な依存関係に依存するソフトウェアコンポーネントの構成可能性に基づいている。 しかしながら、再利用性というこの原則は、ビルド環境の再現性がコラボレーション、メンテナンス、コンポーネント寿命に不可欠であるにもかかわらず、プロジェクトのビルド環境の再現を困難にします。 本研究では,機能パッケージマネージャが空間と時間で再現可能なビルド環境を実現するためのツールを提供し,この主張を正当化するための予備的評価を行う。 過去のデータから,約700万のNixパッケージのビルド環境を再現し,6年前のNixpkgsリビジョンから1万1千パッケージの99.94%を再構築できることが分かる。

Modern software engineering builds up on the composability of software components, that rely on more and more direct and transitive dependencies to build their functionalities. This principle of reusability however makes it harder to reproduce projects' build environments, even though reproducibility of build environments is essential for collaboration, maintenance and component lifetime. In this work, we argue that functional package managers provide the tooling to make build environments reproducible in space and time, and we produce a preliminary evaluation to justify this claim. Using historical data, we show that we are able to reproduce build environments of about 7 million Nix packages, and to rebuild 99.94% of the 14 thousand packages from a 6-year-old Nixpkgs revision.
翻訳日:2024-02-02 15:46:22 公開日:2024-02-01
# 事前学習トランスフォーマーを用いたコードスニペットの要約に向けて

Towards Summarizing Code Snippets Using Pre-Trained Transformers ( http://arxiv.org/abs/2402.00519v1 )

ライセンス: Link先を確認
Antonio Mastropaolo, Matteo Ciniselli, Luca Pascarella, Rosalia Tufano, Emad Aghajani, Gabriele Bavota(参考訳) コードを解釈する際には、自然言語のコメントから手伝うことがあり、残念ながら、いつもそこにあるとは限らない。 このようなシナリオで開発者をサポートするために、与えられたコードに対して自然言語サマリーを自動的に生成するテクニックがいくつか提案されている。 最近のアプローチでは、クラスや関数を自動的にドキュメント化するためにディープラーニング(DL)を利用しているが、よりきめ細かいドキュメント(コードスニペットの文書化や単一のステートメントなど)にはほとんど注力していない。 例えば、javaの場合、<method, javadoc>ペアで構成されたデータセットを簡単に作成できます。 このようなコメントからコードへのリンクは、いくつかのステートメントを文書化する内部コメントに関しては自明ではない。 この作業では、DLモデルをトレーニングしてコードスニペットを文書化するために必要なすべてのステップを取ります。 まず、手動で6.6kのコメントを含むデータセットを構築しました。 (i)その種類(例えば、コード概要、todo)に基づいて分類し、 (ii) それらが文書化するコードステートメントにリンクする。 第二に、このようなデータセットを使ってマルチタスクのDLモデルをトレーニングし、コメントを入力して実行できるようにしました。 (i)「コード概要」を表すか否かを分類し、 (ii)それを文書化したコード文にリンクする。 我々のモデルは84%の精度でコード要約を識別し、80%以上の精度で文書化されたコード行にリンクすることができる。 第3に、このモデルを10kプロジェクト上で実行し、コード要約をドキュメントコードに識別し、リンクします。 これにより、ドキュメント化されたコードスニペットの大規模なデータセットを構築して、コードスニペットをドキュメント化可能な新しいDLモデルをトレーニングすることが可能になる。 最先端のベースラインと比較すると,提案手法の優位性を示している。

When comprehending code, a helping hand may come from the natural language comments documenting it that, unfortunately, are not always there. To support developers in such a scenario, several techniques have been presented to automatically generate natural language summaries for a given code. Most recent approaches exploit deep learning (DL) to automatically document classes or functions, while little effort has been devoted to more fine-grained documentation (e.g., documenting code snippets or even a single statement). Such a design choice is dictated by the availability of training data: For example, in the case of Java, it is easy to create datasets composed of pairs <Method, Javadoc> that can be fed to DL models to teach them how to summarize a method. Such a comment-to-code linking is instead non-trivial when it comes to inner comments documenting a few statements. In this work, we take all the steps needed to train a DL model to document code snippets. First, we manually built a dataset featuring 6.6k comments that have been (i) classified based on their type (e.g., code summary, TODO), and (ii) linked to the code statements they document. Second, we used such a dataset to train a multi-task DL model, taking as input a comment and being able to (i) classify whether it represents a "code summary" or not and (ii) link it to the code statements it documents. Our model identifies code summaries with 84% accuracy and is able to link them to the documented lines of code with recall and precision higher than 80%. Third, we run this model on 10k projects, identifying and linking code summaries to the documented code. This unlocked the possibility of building a large-scale dataset of documented code snippets that have then been used to train a new DL model able to document code snippets. A comparison with state-of-the-art baselines shows the superiority of the proposed approach.
翻訳日:2024-02-02 15:39:39 公開日:2024-02-01
# EE-Tuning: 初期段階の大規模言語モデルをチューニングするための経済的だがスケーラブルなソリューション

EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models ( http://arxiv.org/abs/2402.00518v1 )

ライセンス: Link先を確認
Xuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) この研究は、初期の大規模言語モデル(LLM)をトレーニング/チューニングするための軽量で経済的ソリューションであるEE-Tuningを導入している。 フルパラメータ事前トレーニングの一般的なアプローチとは対照的に、EE-Tuningは事前訓練された(おそらくは微調整された)標準LCMをパラメータ効率のよい方法で調整し、計算資源やトレーニングデータを大幅に削減する。 EE-Tuningの実装は、広範囲なパフォーマンス最適化と、3D並列処理との完全な互換性によるスケーラビリティによって、優れたトレーニング効率を実現する。 系統的な実験の結果,脳チューニングの有効性を検証し,限られたトレーニング予算で実効の早期推定が可能であることを確認した。 コミュニティが早期にLLMを利用できるようにしたいので、私たちは https://github.com/pan-x-c/EE-LLMでEE-Tuningの実装のソースコードをリリースします。

This work introduces EE-Tuning, a lightweight and economical solution to training/tuning early-exit large language models (LLMs). In contrast to the common approach of full-parameter pre-training, EE-Tuning augments any pre-trained (and possibly fine-tuned) standard LLM with additional early-exit layers that are tuned in a parameter-efficient manner, which requires significantly less computational resources and training data. Our implementation of EE-Tuning achieves outstanding training efficiency via extensive performance optimizations, as well as scalability due to its full compatibility with 3D parallelism. Results of systematic experiments validate the efficacy of EE-Tuning, confirming that effective early-exit LLM inference can be achieved with a limited training budget. In hope of making early-exit LLMs accessible to the community, we release the source code of our implementation of EE-Tuning at https://github.com/pan-x-c/EE-LLM.
翻訳日:2024-02-02 15:39:10 公開日:2024-02-01
# 動的ポートフォリオリスク管理のための深層強化学習によるマルチエージェント・自己適応型フレームワークの開発

Developing A Multi-Agent and Self-Adaptive Framework with Deep Reinforcement Learning for Dynamic Portfolio Risk Management ( http://arxiv.org/abs/2402.00515v1 )

ライセンス: Link先を確認
Zhenglong Li, Vincent Tam, Kwan L. Yeung(参考訳) deep or reinforcement learning(rl)アプローチは、近年の非常に乱暴な金融市場環境下でポートフォリオ管理の新しい投資戦略をすばやく学び、対応するためのリアクティブエージェントとして採用されている。 金融セクター間の非常に複雑な相関関係や、異なる金融市場の変動傾向により、グローバルまたは地域セクターの様々な市場条件の混乱の下で潜在的なリスクを無視しつつ、新たに構成された投資ポートフォリオの総リターンを最大化する際に、深層学習又は強化学習に基づくエージェントに偏りが生じることが多い。 したがって、マルチエージェントで自己適応的なフレームワークであるMASAは、2つの協調および反応性エージェントを通じて洗練されたマルチエージェント強化学習(RL)アプローチを採用し、ポートフォリオ全体のリターンと潜在的なリスクの間のトレードオフを慎重に動的にバランスさせる。 さらに、市場オブザーバとしての非常にフレキシブルで積極的なエージェントがMASAフレームワークに統合され、市場状況の変化に迅速に適応するために、マルチエージェントRLアプローチの貴重なフィードバックとして、市場動向に関する追加情報を提供する。 その結果,過去10年間のCSI 300, Dow Jones Industrial Average, S&P 500 インデックスの挑戦的データセットに対する多くの有名な RL アプローチに対するマルチエージェント RL アプローチに基づいて,提案した MASA フレームワークの潜在的強みを明らかにした。 さらに重要なことは、我々の提案したMASAフレームワークが将来の調査のために多くの可能性の方向を明かしたことです。

Deep or reinforcement learning (RL) approaches have been adapted as reactive agents to quickly learn and respond with new investment strategies for portfolio management under the highly turbulent financial market environments in recent years. In many cases, due to the very complex correlations among various financial sectors, and the fluctuating trends in different financial markets, a deep or reinforcement learning based agent can be biased in maximising the total returns of the newly formulated investment portfolio while neglecting its potential risks under the turmoil of various market conditions in the global or regional sectors. Accordingly, a multi-agent and self-adaptive framework namely the MASA is proposed in which a sophisticated multi-agent reinforcement learning (RL) approach is adopted through two cooperating and reactive agents to carefully and dynamically balance the trade-off between the overall portfolio returns and their potential risks. Besides, a very flexible and proactive agent as the market observer is integrated into the MASA framework to provide some additional information on the estimated market trends as valuable feedbacks for multi-agent RL approach to quickly adapt to the ever-changing market conditions. The obtained empirical results clearly reveal the potential strengths of our proposed MASA framework based on the multi-agent RL approach against many well-known RL-based approaches on the challenging data sets of the CSI 300, Dow Jones Industrial Average and S&P 500 indexes over the past 10 years. More importantly, our proposed MASA framework shed lights on many possible directions for future investigation.
翻訳日:2024-02-02 15:38:52 公開日:2024-02-01
# 量子スピードアップを用いた相関光畳み込みニューラルネットワーク

Correlated Optical Convolutional Neural Network with Quantum Speedup ( http://arxiv.org/abs/2402.00504v1 )

ライセンス: Link先を確認
Yifan Sun, Qian Li, Ling-Jun Kong, and Xiangdong Zhang(参考訳) 電気ニューラルネットワークと比較すると、光学ニューラルネットワーク(ONN)は帯域幅の限界を破り、エネルギー消費を減らし、近年多くの注目を集めている。 これまでにいくつかの種類のONNが実装されている。 しかし、現在のONNは量子ニューラルネットワークのようなモデルで示されるような加速を実現することはできない。 量子スピードアップによるonnの構築と実現には,大きな課題があります。 本稿では,光相関を導入した新しいタイプの光畳み込みニューラルネットワークを理論的・実験的に提案する。 これは相関光学畳み込みニューラルネットワーク(COCNN)と呼ばれる。 我々は,COCNNがトレーニングプロセスにおいて量子スピードアップを示すことを示す。 キャラクターは2つの側面から検証される。 1つは、COCNNの損失関数曲線と従来の畳み込みニューラルネットワーク(CNN)の損失関数曲線を比較することにより、より高速な収束の直接図示である。 このような結果は、最近提案された量子畳み込みニューラルネットワーク(QCNN)のトレーニング性能と互換性がある。 もう1つは、COCNNとQCNNの接続を検証するQCNN位相認識回路を実行するCOCNN機能の実証である。 さらに,3ビットQCNN位相認識回路のCOCNNアナログを例として,その音質と実現可能性を示す実験を行った。 結果は理論計算と完全に一致する。 今回の提案は,ビッグデータ時代の情報処理のメリットを享受する量子スピードアップによって,onnを実現するための新たな道を開くものだ。

Compared with electrical neural networks, optical neural networks (ONNs) have the potentials to break the limit of the bandwidth and reduce the consumption of energy, and therefore draw much attention in recent years. By far, several types of ONNs have been implemented. However, the current ONNs cannot realize the acceleration as powerful as that indicated by the models like quantum neural networks. How to construct and realize an ONN with the quantum speedup is a huge challenge. Here, we propose theoretically and demonstrate experimentally a new type of optical convolutional neural network by introducing the optical correlation. It is called the correlated optical convolutional neural network (COCNN). We show that the COCNN can exhibit quantum speedup in the training process. The character is verified from the two aspects. One is the direct illustration of the faster convergence by comparing the loss function curves of the COCNN with that of the traditional convolutional neural network (CNN). Such a result is compatible with the training performance of the recently proposed quantum convolutional neural network (QCNN). The other is the demonstration of the COCNNs capability to perform the QCNN phase recognition circuit, validating the connection between the COCNN and the QCNN. Furthermore, we take the COCNN analog to the 3-qubit QCNN phase recognition circuit as an example and perform an experiment to show the soundness and the feasibility of it. The results perfectly match the theoretical calculations. Our proposal opens up a new avenue for realizing the ONNs with the quantum speedup, which will benefit the information processing in the era of big data.
翻訳日:2024-02-02 15:38:24 公開日:2024-02-01
# f-divergencesファミリーにおける経験的リスク最小化と正規化の等価性

Equivalence of the Empirical Risk Minimization to Regularization on the Family of f-Divergences ( http://arxiv.org/abs/2402.00501v1 )

ライセンス: Link先を確認
Francisco Daunas, I\~naki Esnaola, Samir M. Perlaza, H. Vincent Poor(参考訳) f$-divergence regularization (erm-$f$dr) による経験的リスク最小化の解は、f$の穏やかな条件下で提示される。 このような条件下では、最適測度は一意であることが示される。 関数の特定の選択に対する解の例は、$f$である。 以前は、共通正規化の選択に対する解は、$f$-divergences の族の柔軟性を利用して得られる。 これらは、相対エントロピー正則化 (Type-I と Type-II) による経験的リスク最小化のユニークな解を含む。 The analysis of the solution unveils the following properties of $f$-divergences when used in the ERM-$f$DR problem: $i\bigl)$ $f$-divergence regularization forces the support of the solution to coincide with the support of the reference measure, which introduces a strong inductive bias that dominates the evidence provided by the training data; and $ii\bigl)$ any $f$-divergence regularization is equivalent to a different $f$-divergence regularization with an appropriate transformation of the empirical risk function.

The solution to empirical risk minimization with $f$-divergence regularization (ERM-$f$DR) is presented under mild conditions on $f$. Under such conditions, the optimal measure is shown to be unique. Examples of the solution for particular choices of the function $f$ are presented. Previously known solutions to common regularization choices are obtained by leveraging the flexibility of the family of $f$-divergences. These include the unique solutions to empirical risk minimization with relative entropy regularization (Type-I and Type-II). The analysis of the solution unveils the following properties of $f$-divergences when used in the ERM-$f$DR problem: $i\bigl)$ $f$-divergence regularization forces the support of the solution to coincide with the support of the reference measure, which introduces a strong inductive bias that dominates the evidence provided by the training data; and $ii\bigl)$ any $f$-divergence regularization is equivalent to a different $f$-divergence regularization with an appropriate transformation of the empirical risk function.
翻訳日:2024-02-02 15:38:02 公開日:2024-02-01
# EXMOS:多面的説明とデータ構成による説明モデルステアリング

EXMOS: Explanatory Model Steering Through Multifaceted Explanations and Data Configurations ( http://arxiv.org/abs/2402.00491v1 )

ライセンス: Link先を確認
Aditya Bhattacharya, Simone Stumpf, Lucija Gosak, Gregor Stiglic, Katrien Verbert(参考訳) インタラクティブな機械学習システムの説明は、予測モデルのデバッグと改善を容易にする。 しかし、様々なグローバルモデル中心およびデータ中心の説明が、モデル改善のための潜在的なデータ問題の検出と解決をドメインの専門家に支援する効果は、まだ未定である。 本研究では,自動および手動データ設定によるモデル最適化を支援するシステムにおける,データ中心およびモデル中心のグローバル説明の影響について検討する。 定量的(n=70)および質的(n=30)調査を行い,信頼性,理解可能性,モデル改善に対する異なる説明の影響について検討した。 その結果,データ構成中にユーザを誘導するグローバルモデル中心の説明が不十分であることが明らかになった。 データ中心の説明は、構成後システムの変化の理解を深めたが、両方の説明タイプのハイブリッド融合が最も有効であった。 また,本研究の結果から,効果的な説明駆動型対話型機械学習システムの設計について述べる。

Explanations in interactive machine-learning systems facilitate debugging and improving prediction models. However, the effectiveness of various global model-centric and data-centric explanations in aiding domain experts to detect and resolve potential data issues for model improvement remains unexplored. This research investigates the influence of data-centric and model-centric global explanations in systems that support healthcare experts in optimising models through automated and manual data configurations. We conducted quantitative (n=70) and qualitative (n=30) studies with healthcare experts to explore the impact of different explanations on trust, understandability and model improvement. Our results reveal the insufficiency of global model-centric explanations for guiding users during data configuration. Although data-centric explanations enhanced understanding of post-configuration system changes, a hybrid fusion of both explanation types demonstrated the highest effectiveness. Based on our study results, we also present design implications for effective explanation-driven interactive machine-learning systems.
翻訳日:2024-02-02 15:37:44 公開日:2024-02-01
# レコメンダシステムにおける消費者・生産者グループフェアネス最適化のためのパーソナライズドフレームワーク

A Personalized Framework for Consumer and Producer Group Fairness Optimization in Recommender Systems ( http://arxiv.org/abs/2402.00485v1 )

ライセンス: Link先を確認
Hossein A. Rahmani, Mohammadmehdi Naghiaei, Yashar Deldjoo(参考訳) 近年、機械学習(ML)アルゴリズムが意思決定を自動化する際には、法的、倫理的、経済的な影響で個人やグループを誤った扱いをする可能性があるという認識が高まっている。 リコメンダシステムは、ユーザが意思決定を行うのを助ける機械学習(ML)システムの顕著な例である。 RSフェアネスに関する過去の文献研究の大部分は、ユーザとアイテムのフェアネスに関する懸念を個別に扱うものであり、リコメンダシステムが両側のマーケットプレースで機能するという事実を無視している。 本稿では,消費者側と生産側の両方からフェアネス制約をシームレスに統合した最適化に基づく再ランキングアルゴリズムcp-fairrankを提案する。 このフレームワークは一般化可能であり、グループセグメンテーション、レコメンデーションモデルの選択、ドメインに基づいて、さまざまな公平性設定を考慮に入れることができる。 例えば、(アン)保護された消費者グループが活動レベルとメインストリーム度に基づいて定義され、一方、プロデューサグループが人気度に応じて定義されている場合に、システムが消費者とプロデューサの公平性を高めることを実証する。 8つのデータセットと4つのメインストリームのコラボレーティブフィルタリング(cf)レコメンデーションモデルで大規模に検証することで,提案手法が消費者と生産者の両方の公平性を,妥協や全体的なレコメンデーション品質を損なうことなく改善できることを実証し,データバイアスを回避する上でアルゴリズムが果たす役割を実証した。

In recent years, there has been an increasing recognition that when machine learning (ML) algorithms are used to automate decisions, they may mistreat individuals or groups, with legal, ethical, or economic implications. Recommender systems are prominent examples of these machine learning (ML) systems that aid users in making decisions. The majority of past literature research on RS fairness treats user and item fairness concerns independently, ignoring the fact that recommender systems function in a two-sided marketplace. In this paper, we propose CP-FairRank, an optimization-based re-ranking algorithm that seamlessly integrates fairness constraints from both the consumer and producer side in a joint objective framework. The framework is generalizable and may take into account varied fairness settings based on group segmentation, recommendation model selection, and domain, which is one of its key characteristics. For instance, we demonstrate that the system may jointly increase consumer and producer fairness when (un)protected consumer groups are defined on the basis of their activity level and main-streamness, while producer groups are defined according to their popularity level. For empirical validation, through large-scale on eight datasets and four mainstream collaborative filtering (CF) recommendation models, we demonstrate that our proposed strategy is able to improve both consumer and producer fairness without compromising or very little overall recommendation quality, demonstrating the role algorithms may play in avoiding data biases.
翻訳日:2024-02-02 15:37:28 公開日:2024-02-01
# クラスインクリメンタル学習におけるバイアス緩和

Bias Mitigating Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2402.00481v1 )

ライセンス: Link先を確認
Li-Jun Zhao, Zhen-Duo Chen, Zi-Chao Zhang, Xin Luo, Xin-Shun Xu(参考訳) FSCIL (Few-shot class-incremental Learning) は,新規クラスを限定された新規クラスサンプルで継続的に認識することを目的としている。 FSCILのメインストリームのベースラインは、まずベースセッションでモデル全体をトレーニングし、次にインクリメンタルセッションで機能抽出器を凍結する。 全体的な精度は高いものの、ほとんどのメソッドはインクリメンタルクラスの精度が著しく低い。 最近のいくつかの手法は、インクリメンタルセッションで特徴抽出器を微調整することで、ベースクラスとインクリメンタルクラスの精度の不均衡を幾分緩和するが、それらはさらに過去のインクリメンタルクラスと現在のインクリメンタルクラスの精度不均衡を引き起こす。 本稿では,FSCILの分類精度の不均衡の原因について検討し,それらを統一モデルバイアス問題に抽象化する。 そこで本研究では,fscil問題の学習過程および推論過程におけるモデルバイアスを軽減する新しい手法を提案する。 広範に使用されている3つのFSCILベンチマークデータセットに対する大規模な実験により,本手法はモデルバイアス問題を著しく軽減し,最先端の性能を実現する。

Few-shot class-incremental learning (FSCIL) aims at recognizing novel classes continually with limited novel class samples. A mainstream baseline for FSCIL is first to train the whole model in the base session, then freeze the feature extractor in the incremental sessions. Despite achieving high overall accuracy, most methods exhibit notably low accuracy for incremental classes. Some recent methods somewhat alleviate the accuracy imbalance between base and incremental classes by fine-tuning the feature extractor in the incremental sessions, but they further cause the accuracy imbalance between past and current incremental classes. In this paper, we study the causes of such classification accuracy imbalance for FSCIL, and abstract them into a unified model bias problem. Based on the analyses, we propose a novel method to mitigate model bias of the FSCIL problem during training and inference processes, which includes mapping ability stimulation, separately dual-feature classification, and self-optimizing classifiers. Extensive experiments on three widely-used FSCIL benchmark datasets show that our method significantly mitigates the model bias problem and achieves state-of-the-art performance.
翻訳日:2024-02-02 15:36:58 公開日:2024-02-01
# 量子エネルギーテレポーテーションにおける量子相関のロバスト性

Robustness of quantum correlation in quantum energy teleportation ( http://arxiv.org/abs/2402.00479v1 )

ライセンス: Link先を確認
Kazuki Ikeda and Adam Lowe(参考訳) 本稿では、従来のエンタングルメントエントロピーではなく、量子不協和を用いた量子エネルギーテレポーテーション(QET)プロトコルにおける量子相関の進化について述べる。 局所的な観測と条件付き操作を繰り返し行うQETプロトコルでは、混合状態の統計的生成のために量子相関は非自明になる。 本稿では,混合状態における量子相関の尺度として量子ディスコードを用い,そのテレポーティングエネルギーと相転移との関係について検討する。 QETを実行するアリスとボブの過程において、アリスとボブの間の絡み合いはアリスの量子状態の測定によって完全に崩壊し、量子相関が消えると予想される。 しかし、この予想に反して、量子不協和を用いて量子相関がQETの全過程中に消失しないことが示されている。 種々の相構造におけるQETの量子相関のロバスト性を示すために, キラル化学ポテンシャルと化学ポテンシャルの両方を持つナムブ・ジョナ・ラシーノ(NJL)モデルを含むいくつかのベンチマークモデルを用いて数値解析を行い, キラル密度演算子に結合した左クォークと右クォークのキラル不均衡を模した相構造の研究に有用である。 研究した全てのケースにおいて、量子不協和は相転移の秩序パラメータとして振る舞う。

We present the evolution of quantum correlation in the quantum energy teleportation (QET) protocol using quantum discord, instead of the traditionally used entanglement entropy. In the QET protocol, where local observations and conditional operations are repeated, quantum correlations become nontrivial because of the statistical creation of mixed states. In this paper, we use quantum discord as a measure of quantum correlation in mixed states and investigate its relationship to teleported energy and phase transitions. During the process of Alice and Bob performing QET, one would expect that the entanglement between Alice and Bob is completely broken by Alice's measurement of the quantum state, and thus the quantum correlation disappears. However, contrary to this expectation, it is shown using quantum discord that the quantum correlation does not disappear during the entire process of QET. To demonstrate the robustness of the quantum correlation in QET at various phase structures, we perform the numerical analysis using several benchmark models including the Nambu-Jona-Lasino (NJL) model with both the chiral chemical potential and the chemical potential, which are useful to study the phase structures mimicking the chiral imbalance between left- and right- quarks coupled to the chirality density operator. In all cases we studied, the quantum discord behaved as an order parameter of the phase transition.
翻訳日:2024-02-02 15:36:37 公開日:2024-02-01
# 量子回路複雑度を用いた量子回路マッピングのためのリソース境界

Resource Bounds for Quantum Circuit Mapping via Quantum Circuit Complexity ( http://arxiv.org/abs/2402.00478v1 )

ライセンス: Link先を確認
Matthew Steinberg, Medina Bandic, Sacha Szkudlarek, Carmen G. Almudever, Aritra Sarkar, Sebastian Feld(参考訳) 量子回路をハードウェアに効率的にマッピングすることは、量子コンパイルプロセスの不可欠な部分であり、量子回路は量子プロセッサの厳密なアーキテクチャ要求に応じて修正される。 量子回路マッピング問題の解決には多くの技術があり、その多くは量子回路マッピングと古典的なコンピュータ科学に関するものである。 この研究は、単純化された回路のルーティング過程を量子回路とプロセッサを表す密度行列に作用する量子演算の合成と見なす量子回路マッピングに関する新しい視点を考察する。 量子情報理論と情報幾何の最近の進歩から得られた知見に基づき、量子jensen-shannonダイバージェンスを用いた量子状態間の距離の最小化により、デバイス上で量子回路を実行するための最小スワップゲートカウントが出現することを示す。 さらに,対話グラフと結合グラフの間のグラフ同型に最も近い分割を選択するグラフ類似性探索に基づく新しい初期配置アルゴリズムを開発した。 これら2つの指標から, SWAPゲート下界を計算する多項式時間アルゴリズムを構築し, IBM Qiskitコンパイラと直接比較し,600以上の現実的なベンチマーク実験を行い, より小さなベンチマークに対するブルートフォース法と比較した。 シミュレーションでは、ブルートフォース法もカイスキットコンパイラも、制約付き量子ハードウェア上で量子アルゴリズムを実現する際の最小オーバーヘッドの正確な推定法として有効であることを示す。 この研究は、量子回路を実際に関連する量子コンピューティングに非複雑に初めて使用することを構成する。 本手法は,量子情報科学の範囲外において多種多様な応用が期待でき,いくつかの可能性について論じる。

Efficiently mapping quantum circuits onto hardware is an integral part of the quantum compilation process, wherein a quantum circuit is modified in accordance with the stringent architectural demands of a quantum processor. Many techniques exist for solving the quantum circuit mapping problem, many of which relate quantum circuit mapping to classical computer science. This work considers a novel perspective on quantum circuit mapping, in which the routing process of a simplified circuit is viewed as a composition of quantum operations acting on density matrices representing the quantum circuit and processor. Drawing on insight from recent advances in quantum information theory and information geometry, we show that a minimal SWAP gate count for executing a quantum circuit on a device emerges via the minimization of the distance between quantum states using the quantum Jensen-Shannon divergence. Additionally, we develop a novel initial placement algorithm based on a graph similarity search that selects the partition nearest to a graph isomorphism between interaction and coupling graphs. From these two ingredients, we then construct a polynomial-time algorithm for calculating the SWAP gate lower bound, which is directly compared alongside the IBM Qiskit compiler for over 600 realistic benchmark experiments, as well as against a brute-force method for smaller benchmarks. In our simulations, we unambiguously find that neither the brute-force method nor the Qiskit compiler surpass our bound, implying utility as a precise estimation of minimal overhead when realizing quantum algorithms on constrained quantum hardware. This work constitutes the first use of quantum circuit uncomplexity to practically-relevant quantum computing. We anticipate that this method may have diverse applicability outside of the scope of quantum information science, and we discuss several of these possibilities.
翻訳日:2024-02-02 15:36:11 公開日:2024-02-01
# SA-MDKIF:大規模言語モデルのためのスケーラブルで適応可能な医療ドメイン知識注入フレームワーク

SA-MDKIF: A Scalable and Adaptable Medical Domain Knowledge Injection Framework for Large Language Models ( http://arxiv.org/abs/2402.00474v1 )

ライセンス: Link先を確認
Tianhan Xu, Zhe Hu, Ling Chen, Bin Li(参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。 しかし、医学領域における効果的な応用は、医学領域知識の欠如によって妨げられている。 本研究では,SA-MDKIFを提案する。SA-MDKIFは,医療知識を汎用LSMに注入し,様々な下流タスクへの適応性を実現するための,スケーラブルで適応可能なフレームワークである。 sa-mdkifはスキルトレーニングとスキル適応の2段階からなる。 最初の段階では、12の基本的な医療スキルを定義し、AdaLoRAを使用して、構築した一様フォーマットの教育データセットに基づいてこれらのスキルをトレーニングします。 次の段階では、タスク固有の下流データを用いてスキルルータをトレーニングし、このルータを使用して、推論中に獲得したスキルをLLMと統合する。 9つの異なる医療課題に対する実験結果から,SA-MDKIFは従来のLSMと比較して10~20%改善した。 特に、この改善は目に見えない医療タスクで特に顕著であり、最大30%の改善を示している。

Recent advances in large language models (LLMs) have demonstrated exceptional performance in various natural language processing (NLP) tasks. However, their effective application in the medical domain is hampered by a lack of medical domain knowledge. In this study, we present SA-MDKIF, a scalable and adaptable framework that aims to inject medical knowledge into general-purpose LLMs through instruction tuning, thereby enabling adaptability for various downstream tasks. SA-MDKIF consists of two stages: skill training and skill adaptation. In the first stage, we define 12 basic medical skills and use AdaLoRA to train these skills based on uniformly formatted instructional datasets that we have constructed. In the next stage, we train the skill router using task-specific downstream data and use this router to integrate the acquired skills with LLMs during inference. Experimental results on 9 different medical tasks show that SA-MDKIF improves performance by 10-20% compared to the original LLMs. Notably, this improvement is particularly pronounced for unseen medical tasks, showing an improvement of up to 30%.
翻訳日:2024-02-02 15:35:43 公開日:2024-02-01
# 接続性制約量子プロセッサにおけるビットルーティングの時空間特性

Spatio-Temporal Characterization of Qubit Routing in Connectivity-Constrained Quantum Processors ( http://arxiv.org/abs/2402.00469v1 )

ライセンス: Link先を確認
Sahar Ben Rached, Carmen G. Almudever, Eduard Alarcon, Sergi Abadal(参考訳) 効率的な量子プロセッサトポロジを設計することは、スケーラブルな量子コンピューティングアーキテクチャを進化させる上で重要である。 通信オーバーヘッドは、量子回路の実行忠実性に影響を与える重要な要因であり、相互作用する量子ビットをシリアルSWAPゲートによって物理的に近接させ、2量子ゲートの直接適用を可能にする必然的量子ビットルーティングから生じる。 プロセッサ間のキュービット移動を特徴付けることは、SWAPゲートを最小化するためのテクニックの調整に不可欠である。 本研究は,3つのプロセッサトポロジー(star, heavy-hexagon lattice, square lattice topologies)間の通信オーバーヘッドの比較分析を行い,通信対計算比,平均量子ビットホットスポットネス,時間的バーストネスの性能指標から,正方格子レイアウトが量子コンピュータアーキテクチャに好適であることを示す。

Designing efficient quantum processor topologies is pivotal for advancing scalable quantum computing architectures. The communication overhead, a critical factor affecting the execution fidelity of quantum circuits, arises from inevitable qubit routing that brings interacting qubits into physical proximity by the means of serial SWAP gates to enable the direct two-qubit gate application. Characterizing the qubit movement across the processor is crucial for tailoring techniques for minimizing the SWAP gates. This work presents a comparative analysis of the resulting communication overhead among three processor topologies: star, heavy-hexagon lattice, and square lattice topologies, according to performance metrics of communication-to-computation ratio, mean qubit hotspotness, and temporal burstiness, showcasing that the square lattice layout is favourable for quantum computer architectures at a scale.
翻訳日:2024-02-02 15:35:24 公開日:2024-02-01
# RadDQN: 時間効率の最小放射露光経路を見つけるための深層Q学習型アーキテクチャ

RadDQN: a Deep Q Learning-based Architecture for Finding Time-efficient Minimum Radiation Exposure Pathway ( http://arxiv.org/abs/2402.00468v1 )

ライセンス: Link先を確認
Biswajit Sadhu, Trijit Sadhu, S. Anand(参考訳) 近年の深部強化学習(DRL)技術の進歩は、自動化分野における多面的応用の火花となった。 DRLによる複雑な意思決定問題を管理することは、通常の運用条件下での放射線被曝の最適化や潜在的な事故シナリオといったタスクに原子力産業での利用を促進する。 しかし、効率的な報酬関数の欠如と効果的な探査戦略は、最大放射線防護を達成するための放射線対応無人航空機(UAV)の開発を妨げた。 本稿では,これらの興味深い問題に対処し,放射線帯における時間効率の最小限の放射線露光経路を提供する放射線検知報奨機能を備えた深層q-learning based architecture (raddqn)を提案する。 本研究では,訓練中の放射線被曝の状態的変動に基づいて,探索と搾取の程度を微調整するユニークな探索戦略を提案する。 さらに,予測経路をグリッドベース決定論的手法でベンチマークする。 適切な探索戦略を伴う共役における報酬関数は,放射場分布が著しく異なる複数のシナリオを扱うのに有効であることを実証する。 バニラdqnと比較すると,本モデルは高い収束率と高いトレーニング安定性を実現する。

Recent advancements in deep reinforcement learning (DRL) techniques have sparked its multifaceted applications in the automation sector. Managing complex decision-making problems with DRL encourages its use in the nuclear industry for tasks such as optimizing radiation exposure to the personnel during normal operating conditions and potential accidental scenarios. However, the lack of efficient reward function and effective exploration strategy thwarted its implementation in the development of radiation-aware autonomous unmanned aerial vehicle (UAV) for achieving maximum radiation protection. Here, in this article, we address these intriguing issues and introduce a deep Q-learning based architecture (RadDQN) that operates on a radiation-aware reward function to provide time-efficient minimum radiation-exposure pathway in a radiation zone. We propose a set of unique exploration strategies that fine-tune the extent of exploration and exploitation based on the state-wise variation in radiation exposure during training. Further, we benchmark the predicted path with grid-based deterministic method. We demonstrate that the formulated reward function in conjugation with adequate exploration strategy is effective in handling several scenarios with drastically different radiation field distributions. When compared to vanilla DQN, our model achieves a superior convergence rate and higher training stability.
翻訳日:2024-02-02 15:35:04 公開日:2024-02-01
# 今私に会えますか。 ランダム基準センサを用いたシナリオベースシミュレーションによる自動運転車の盲点推定

Can you see me now? Blind spot estimation for autonomous vehicles using scenario-based simulation with random reference sensors ( http://arxiv.org/abs/2402.00467v1 )

ライセンス: Link先を確認
Marc Uecker and J.Marius Z\"ollner(参考訳) 本稿では,自律走行車や自動走行車やロボットのセンサ・セットアップにおける盲点推定手法を提案する。 幾何学的近似に依存する従来の手法と比較して,本手法は高精度かつ詳細な3次元シミュレーション環境を用いて,より現実的なカバレッジ推定を行う。 目的シナリオの高忠実度シミュレーションからLiDARセンサやカメラ深度画像からの点雲を利用して,正確な可視性推定を行う。 モンテカルロを基準とした基準センサシミュレーションにより,ブラインドスポットサイズをカバレッジの指標として正確に推定し,任意の位置における物体の検出確率を推定できる。

In this paper, we introduce a method for estimating blind spots for sensor setups of autonomous or automated vehicles and/or robotics applications. In comparison to previous methods that rely on geometric approximations, our presented approach provides more realistic coverage estimates by utilizing accurate and detailed 3D simulation environments. Our method leverages point clouds from LiDAR sensors or camera depth images from high-fidelity simulations of target scenarios to provide accurate and actionable visibility estimates. A Monte Carlo-based reference sensor simulation enables us to accurately estimate blind spot size as a metric of coverage, as well as detection probabilities of objects at arbitrary positions.
翻訳日:2024-02-02 15:34:46 公開日:2024-02-01
# オンライン被害を取り巻く経験と関心事における性差の理解:英国成人の全国代表的調査

Understanding gender differences in experiences and concerns surrounding online harms: A short report on a nationally representative survey of UK adults ( http://arxiv.org/abs/2402.00463v1 )

ライセンス: Link先を確認
Florence E. Enock, Francesca Stevens, Jonathan Bright, Miranda Cross, Pica Johansson, Judy Wajcman, Helen Z. Margetts(参考訳) ヘイトスピーチ、誤報、ハラスメント、セルフハームプロモーションなどのオンライン被害は、今も広く続いている。 ある研究は、女性はそのような害に不当に影響されていることを示唆しているが、他の研究では、全体的な露出における性別差の証拠はほとんど見つからない。 ここでは、英国成人の全国代表者を対象にした大規模な調査(N=2000)の予備結果を示す。 15の特定の被害への曝露と、特定のオンライン行動に関わる暴露や快適性に関わる恐怖について質問した。 男性と女性の報告では、オンラインの被害は全体的にほぼ同じ程度だが、女性は、私たちが質問したあらゆる種類の害を経験することに対して、はるかに恐れており、いくつかのオンラインの行動において、はるかに快適ではない。 驚くべきことに、女性のわずか24%がオンライン上の政治的意見を快適に表現していると報告している。 我々の研究は、有害なオンラインコンテンツの拡散に反応して女性がさらに心理的負担を被り、自分を守るためにより多くの「安全労働」を行う可能性を示唆している。 オンライン上での多くの公的な談話では、女性の参加が恐れすぎると感じると、公的な声の男女不平等が持続する可能性が高い。 社会の平等性を高めるためには、すべてのメンバーが安心してオンラインスペースに参加できるように対策を講じなければならない。

Online harms, such as hate speech, misinformation, harassment and self-harm promotion, continue to be widespread. While some work suggests that women are disproportionately affected by such harms, other studies find little evidence for gender differences in overall exposure. Here, we present preliminary results from a large, nationally representative survey of UK adults (N = 2000). We asked about exposure to 15 specific harms, along with fears surrounding exposure and comfort engaging in certain online behaviours. While men and women report seeing online harms to a roughly equal extent overall, we find that women are significantly more fearful of experiencing every type of harm that we asked about, and are significantly less comfortable partaking in several online behaviours. Strikingly, just 24% of women report being comfortable expressing political opinions online compared with almost 40% of men, with similar overall proportions for challenging certain content. Our work suggests that women may suffer an additional psychological burden in response to the proliferation of harmful online content, doing more 'safety work' to protect themselves. With much public discourse happening online, gender inequality in public voice is likely to be perpetuated if women feel too fearful to participate. Our results are important because to establish greater equality in society, we must take measures to ensure all members feel safe and able to participate in the online space.
翻訳日:2024-02-02 15:34:35 公開日:2024-02-01
# 拡散に基づく光電界合成

Diffusion-based Light Field Synthesis ( http://arxiv.org/abs/2402.00575v1 )

ライセンス: Link先を確認
Ruisheng Gao, Yutong Liu, Zeyu Xiao, Zhiwei Xiong(参考訳) Light fields (LFs), conducive to comprehensive scene radiance recorded across angular dimensions, find wide applications in 3D reconstruction, virtual reality, and computational photography.However, the LF acquisition is inevitably time-consuming and resource-intensive due to the mainstream acquisition strategy involving manual capture or laborious software synthesis.Given such a challenge, we introduce LFdiff, a straightforward yet effective diffusion-based generative framework tailored for LF synthesis, which adopts only a single RGB image as input.LFdiff leverages disparity estimated by a monocular depth estimation network and incorporates two distinctive components: a novel condition scheme and a noise estimation network tailored for LF data.Specifically, we design a position-aware warping condition scheme, enhancing inter-view geometry learning via a robust conditional signal.We then propose DistgUnet, a disentanglement-based noise estimation network, to harness comprehensive LF representations.Extensive experiments demonstrate that LFdiff excels in synthesizing visually pleasing and disparity-controllable light fields with enhanced generalization capability.Additionally, comprehensive results affirm the broad applicability of the generated LF data, spanning applications like LF super-resolution and refocusing.

Light fields (LFs), conducive to comprehensive scene radiance recorded across angular dimensions, find wide applications in 3D reconstruction, virtual reality, and computational photography.However, the LF acquisition is inevitably time-consuming and resource-intensive due to the mainstream acquisition strategy involving manual capture or laborious software synthesis.Given such a challenge, we introduce LFdiff, a straightforward yet effective diffusion-based generative framework tailored for LF synthesis, which adopts only a single RGB image as input.LFdiff leverages disparity estimated by a monocular depth estimation network and incorporates two distinctive components: a novel condition scheme and a noise estimation network tailored for LF data.Specifically, we design a position-aware warping condition scheme, enhancing inter-view geometry learning via a robust conditional signal.We then propose DistgUnet, a disentanglement-based noise estimation network, to harness comprehensive LF representations.Extensive experiments demonstrate that LFdiff excels in synthesizing visually pleasing and disparity-controllable light fields with enhanced generalization capability.Additionally, comprehensive results affirm the broad applicability of the generated LF data, spanning applications like LF super-resolution and refocusing.
翻訳日:2024-02-02 15:27:45 公開日:2024-02-01
# CADICA : 侵襲的冠動脈造影法による冠動脈病変検出のための新しいデータセット

CADICA: a new dataset for coronary artery disease detection by using invasive coronary angiography ( http://arxiv.org/abs/2402.00570v1 )

ライセンス: Link先を確認
Ariadna Jim\'enez-Partinen, Miguel A. Molina-Cabello, Karl Thurnhofer-Hemsi, Esteban J. Palomo, Jorge Rodr\'iguez-Capit\'an, Ana I. Molina-Ramos, Manuel Jim\'enez-Navarro(参考訳) 冠状動脈疾患 (CAD) は世界的死因であり, CADを疑う場合, 侵襲的冠動脈造影 (ICA) は解剖学的画像評価の金の基準とされている。 しかし、ICAに基づくリスク評価には、狭窄の重症度を視覚的に評価するなど、いくつかの制限がある。 これにより、臨床治療の専門医を支援する病巣分類システムの開発が促進される。 医学画像の他の分野ではディープラーニングの分類法がよく開発されているが、ICA画像分類はまだ初期段階である。 最も重要な理由の1つは、可用性と高品質なオープンアクセスデータセットの欠如である。 本稿では,新たにアノテーション付きICA画像データセットCADICAを報告し,取得した患者ビデオと関連疾患関連メタデータからなる冠状血管造影の包括的かつ厳密なデータセットを研究コミュニティに提供する。 このデータセットは、臨床医がCADの重症度を血管造影で評価するスキルを訓練するために、コンピュータ科学者がコンピュータ支援診断システムを作成するために使用することができる。 さらに,基準分類法を提案し分析し,cadicaの機能を検証し,cad検出の出発点を科学コミュニティに与える。

Coronary artery disease (CAD) remains the leading cause of death globally and invasive coronary angiography (ICA) is considered the gold standard of anatomical imaging evaluation when CAD is suspected. However, risk evaluation based on ICA has several limitations, such as visual assessment of stenosis severity, which has significant interobserver variability. This motivates to development of a lesion classification system that can support specialists in their clinical procedures. Although deep learning classification methods are well-developed in other areas of medical imaging, ICA image classification is still at an early stage. One of the most important reasons is the lack of available and high-quality open-access datasets. In this paper, we reported a new annotated ICA images dataset, CADICA, to provide the research community with a comprehensive and rigorous dataset of coronary angiography consisting of a set of acquired patient videos and associated disease-related metadata. This dataset can be used by clinicians to train their skills in angiographic assessment of CAD severity and by computer scientists to create computer-aided diagnostic systems to help in such assessment. In addition, baseline classification methods are proposed and analyzed, validating the functionality of CADICA and giving the scientific community a starting point to improve CAD detection.
翻訳日:2024-02-02 15:26:45 公開日:2024-02-01
# セキュアな教師付き学習ベースのスマートホーム認証フレームワーク

Secure Supervised Learning-Based Smart Home Authentication Framework ( http://arxiv.org/abs/2402.00568v1 )

ライセンス: Link先を確認
K. Swapna Sudha, N. Jeyanthi, and Celestine Iwendi(参考訳) Smart Homeは、最近の数十年間、IoT(Internet of Things)と情報通信技術(ICT)の体系的な進歩によって、ユーザにホームサービスを促進する能力を持っている。 スマートデバイスが提供するホームサービスは、ユーザーが快適さを最大限活用し、生活の質を向上させるのに役立つ。 ユーザとスマートデバイスがセキュアでないチャネルを介して通信するにつれて、スマートホーム環境はセキュリティとプライバシの問題を引き起こす。 スマートホーム環境において、デバイス認証の状況が実現できるように、スマートデバイスとユーザの間でセキュアな認証プロトコルを確立する必要がある。 既存のスマートホーム認証プロトコルの多くは、セキュアな相互認証を容易にすることに失敗し、セッションキーの開示、偽造、盗難スマートデバイスの攻撃に対処する可能性を高めている。 本稿では,Secure Supervised Learning-based Smart Home Authentication Framework (SSL-SHAF)を提案する。 提案されたSSL-SHAFの正式な分析により、セッションキーの開示、偽造、盗まれたスマートデバイス攻撃に対する抵抗性が向上した。 SSL-SHAFの結果は、調査対象とされたベースラインプロトコルと比較して、計算コストとセキュリティを最小化することを確認した。

The Smart home possesses the capability of facilitating home services to their users with the systematic advance in The Internet of Things (IoT) and information and communication technologies (ICT) in recent decades. The home service offered by the smart devices helps the users in utilize maximized level of comfort for the objective of improving life quality. As the user and smart devices communicate through an insecure channel, the smart home environment is prone to security and privacy problems. A secure authentication protocol needs to be established between the smart devices and the user, such that a situation for device authentication can be made feasible in smart home environments. Most of the existing smart home authentication protocols were identified to fail in facilitating a secure mutual authentication and increases the possibility of lunching the attacks of session key disclosure, impersonation and stolen smart device. In this paper, Secure Supervised Learning-based Smart Home Authentication Framework (SSL-SHAF) is proposed as are liable mutual authentication that can be contextually imposed for better security. The formal analysis of the proposed SSL-SHAF confirmed better resistance against session key disclosure, impersonation and stolen smart device attacks. The results of SSL-SHAF confirmed minimized computational costs and security compared to the baseline protocols considered for investigation.
翻訳日:2024-02-02 15:25:54 公開日:2024-02-01
# グラフの1つの畳み込み:効率的なグレイスケール画像分類

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v1 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna(参考訳) 画像分類器は、そのタスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、これは本質的にマルチ層パーセプトロン(MLP)よりも重く、リアルタイムアプリケーションでは問題となる。 さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。 グレースケールの画像のみを扱う分類器は、あまり一般的ではない。 グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。 そこで本稿では,ベクトル化画像を用いた新しいグレースケール(単一チャネル)画像分類手法を提案する。 我々は、画像をベクトルとして見ることで、MLPの軽量性を活用し、グレースケール画像分類設定に問題設定を還元する。 単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。 さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。 ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合性や先行性を実現した。

Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which are inherently more heavyweight than multilayer perceptrons (MLPs), which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale (single channel) image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as a vector and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets.
翻訳日:2024-02-02 15:25:33 公開日:2024-02-01
# 思考の連鎖は最も弱いリンクと同じくらい強い:推論連鎖の検証者のためのベンチマーク

A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains ( http://arxiv.org/abs/2402.00559v1 )

ライセンス: Link先を確認
Alon Jacovi, Yonatan Bitton, Bernd Bohnet, Jonathan Herzig, Or Honovich, Michael Tseng, Michael Collins, Roee Aharoni, Mor Geva(参考訳) ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチであり、より正確な推論チェーンがダウンストリームタスクのパフォーマンスを改善するのが一般的である。 最近の論文では、正当性を評価し改善するための推論ステップを検証する自動手法について論じている。 しかし、このような検証方法を徹底的に評価するための詳細なステップレベルのデータセットは使用できず、この方向の進展を妨げている。 Reveal: Reasoning Verification Evaluation(Reveal: Reasoning Verification Evaluation)は、オープンドメイン質問応答設定における複雑な連鎖推論の自動検証をベンチマークする新しいデータセットである。 revealには、関連性の包括的ラベル、エビデンスパスへの帰属、言語モデルの回答における各推論ステップの論理的正当性、幅広いデータセットと最先端言語モデルが含まれる。

Prompting language models to provide step-by-step answers (e.g., "Chain-of-Thought") is the prominent approach for complex reasoning tasks, where more accurate reasoning chains typically improve downstream task performance. Recent literature discusses automatic methods to verify reasoning steps to evaluate and improve their correctness. However, no fine-grained step-level datasets are available to enable thorough evaluation of such verification methods, hindering progress in this direction. We introduce Reveal: Reasoning Verification Evaluation, a new dataset to benchmark automatic verifiers of complex Chain-of-Thought reasoning in open-domain question answering settings. Reveal includes comprehensive labels for the relevance, attribution to evidence passages, and logical correctness of each reasoning step in a language model's answer, across a wide variety of datasets and state-of-the-art language models.
翻訳日:2024-02-02 15:25:09 公開日:2024-02-01
# 超伝導多軌道モデルにおける高次トポロジーとノードレスフラットバンド位相相の混合

Mixed higher-order topology and nodal and nodeless flat band topological phases in a superconducting multiorbital model ( http://arxiv.org/abs/2402.00556v1 )

ライセンス: Link先を確認
Rodrigo Arouca, Tanay Nag, Annica M. Black-Schaffer(参考訳) 本研究では,従来のスピンシングレット$s$-wave超伝導の存在下でのBenalcazar-Bernevig-Hughesモデル(BBH)の軌道バージョンに現れる位相位相と,平面内磁場のチューニングの可能性について検討する。 境界条件の違いを考慮して位相図を作成し,各位相のトポロジーを,ワニエスペクトルと絡み合いスペクトルとマヨラナ偏光の両方を考慮し,さらに検討した。 磁場と超伝導ペアリング振幅の弱い値に対して、8つのゼロエネルギーコーナーモードを持つ2階のトポロジカル超伝導相を求める。 さらに拡大する場やペアリングにより、コーナー状態の半分はゼロエネルギーのエッジ局所化モードに変換され、それによってハイブリッド秩序相が形成される。 すると、2つの異なる一階位相位相位相、ノルダール位相とノードレス位相が、ミラー対称開辺に沿って局在するゼロエネルギーフラットバンドを持つ。 正弦波の位相では、フラットバンドは相反空間のノード間で局所化され、ノードレスの位相では完全なバルクギャップを持つゼロエネルギー境界フラットバンドはブリルアンゾーン全体にまたがる。

We investigate the topological phases that appear in an orbital version of the Benalcazar-Bernevig-Hughes (BBH) model in the presence of conventional spin-singlet $s$-wave superconductivity and with the possibility of tuning an in-plane magnetic field. We chart out the phase diagram by considering different boundary conditions, with the topology of the individual phases further examined by considering both the Wannier and entanglement spectra, as well as the Majorana polarization. For weak to moderate values of magnetic field and superconducting pairing amplitude, we find a second-order topological superconductor phase with eight zero-energy corner modes. Further increasing field or pairing, half of the corner states can be turned into zero-energy edge-localized modes, thus forming a type of hybrid-order phase. Then, we find two different putative first-order topological phases, a nodal and a nodeless phase, both with zero-energy flat bands localized along mirror-symmetric open edges. For the nodal phase, the flat bands are localized between the nodes in reciprocal space, while in the nodeless phase, with its a full bulk gap, the zero-energy boundary flat band spans the whole Brillouin zone.
翻訳日:2024-02-02 15:24:50 公開日:2024-02-01
# 量子支援ヒルベルト空間ガウス過程回帰

Quantum-Assisted Hilbert-Space Gaussian Process Regression ( http://arxiv.org/abs/2402.00544v1 )

ライセンス: Link先を確認
Ahmad Farooq, Cristian A. Galvis-Florez, and Simo S\"arkk\"a(参考訳) ガウス過程(gaussian process)は、機械学習で一般的に使われる確率モデルである。 その確率的性質から、ノイズの統計、関数の滑らかさ、データの不確かさのトレーニングに関する事前情報を取得するのに使うことができる。 しかし、データセットのサイズが大きくなると、計算の複雑さはすぐに失われる。 この制限を克服するために,ガウス過程回帰のためのヒルベルト空間近似に基づく量子アルゴリズムを提案する。 本手法は,古典的基底関数展開と量子主成分分析,条件回転,アダマール・アンド・スワップ試験の量子計算技術を組み合わせたものである。 量子主成分分析は固有値を推定するために用いられ、条件回転とアダマール・アンド・スワップ試験はガウス過程の後方平均と分散を評価するために用いられる。 本手法は従来の手法よりも多項式計算の複雑性を低減できる。

Gaussian processes are probabilistic models that are commonly used as functional priors in machine learning. Due to their probabilistic nature, they can be used to capture the prior information on the statistics of noise, smoothness of the functions, and training data uncertainty. However, their computational complexity quickly becomes intractable as the size of the data set grows. We propose a Hilbert space approximation-based quantum algorithm for Gaussian process regression to overcome this limitation. Our method consists of a combination of classical basis function expansion with quantum computing techniques of quantum principal component analysis, conditional rotations, and Hadamard and Swap tests. The quantum principal component analysis is used to estimate the eigenvalues while the conditional rotations and the Hadamard and Swap tests are employed to evaluate the posterior mean and variance of the Gaussian process. Our method provides polynomial computational complexity reduction over the classical method.
翻訳日:2024-02-02 15:24:25 公開日:2024-02-01
# ディープフェイク検出強化のためのマスキング条件拡散モデル

Masked Conditional Diffusion Model for Enhancing Deepfake Detection ( http://arxiv.org/abs/2402.00541v1 )

ライセンス: Link先を確認
Tiewen Chen, Shanmin Yang, Shu Hu, Zhenghan Fang, Ying Fu, Xi Wu, Xin Wang(参考訳) ディープフェイク検出に関する最近の研究は、同じデータセットからトレーニングとテストを行う際に有望な結果を得た。 しかし、モデルがまだトレーニング中に見ていない鍛造サンプルと向き合うと、結果は著しく劣化する。 本稿では,ディープフェイクを検出するディープフェイクデータについて述べる。 本稿では,拡散モデルに基づくデータ拡張に関する新たな知見を提示し,深度検出のためのMasked Conditional Diffusion Model (MCDM)を提案する。 マスク付きプリスティーヌから様々な偽造顔を生成し、ディープフェイク検出モデルに特別なアーティファクトにオーバーフィットすることなく、汎用的で堅牢な表現を学ぶように促す。 提案手法で生成した偽画像は高品質で, 深度検出モデルの性能向上に有効であることを示す。

Recent studies on deepfake detection have achieved promising results when training and testing faces are from the same dataset. However, their results severely degrade when confronted with forged samples that the model has not yet seen during training. In this paper, deepfake data to help detect deepfakes. this paper present we put a new insight into diffusion model-based data augmentation, and propose a Masked Conditional Diffusion Model (MCDM) for enhancing deepfake detection. It generates a variety of forged faces from a masked pristine one, encouraging the deepfake detection model to learn generic and robust representations without overfitting to special artifacts. Extensive experiments demonstrate that forgery images generated with our method are of high quality and helpful to improve the performance of deepfake detection models.
翻訳日:2024-02-02 15:24:10 公開日:2024-02-01
# 機械学習と定常スピンスクイーズによる連続場追跡

Continuous field tracking with machine learning and steady state spin squeezing ( http://arxiv.org/abs/2402.00536v1 )

ライセンス: Link先を確認
Junlei Duan, Zhiwei Hu, Xingda Lu, Liantuan Xiao, Suotang Jia, Klaus M{\o}lmer, Yanhong Xiao(参考訳) 量子メトロロジーの提案において絡み合いは重要な役割を担っているが、連続スピン絡み合いを持つセンシングにおける量子強化の証明は依然として挑戦的な試みである。 ここで、光ポンピングと連続量子非脱離測定を組み合わせることで、$\bm{4 \times 10^{10}}$ホット原子の持続的なスピン圧縮状態を達成する。 予測と回帰を用いた$\bm{-3.23 \pm 0.24}$ dBのメロジカルな定常スキューズはおよそ1日間維持される。 このシステムを用いて連続時間変動磁場を追跡し,光信号から測定記録を復号するディープラーニングモデルを構築した。 定常スピンのスクイージングによる量子強化は原子磁気センサによって検証される。 これらの結果は、長期の量子絡み合い資源を現実的な環境で適用するための重要な進歩を示している。

Entanglement plays a crucial role in proposals for quantum metrology, yet demonstrating quantum enhancement in sensing with sustained spin entanglement remains a challenging endeavor. Here, we combine optical pumping and continuous quantum nondemolition measurements to achieve a sustained spin squeezed state with $\bm{4 \times 10^{10}}$ hot atoms. A metrologically relevant steady state squeezing of $\bm{-3.23 \pm 0.24}$ dB using prediction and retrodiction is maintained for about one day. We employ the system to track different types of continuous time-fluctuating magnetic fields, where we construct deep learning models to decode the measurement records from the optical signals. Quantum enhancement due to the steady spin squeezing is verified in our atomic magnetometer. These results represent important progress towards applying long-lived quantum entanglement resources in realistic settings.
翻訳日:2024-02-02 15:23:54 公開日:2024-02-01
# 視覚変換器における鍵のマニフォールド表現

A Manifold Representation of the Key in Vision Transformers ( http://arxiv.org/abs/2402.00534v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) 視覚トランスフォーマーはマルチヘッドセルフアテンション(msa)を実装し、複数のアテンションブロックを積み重ねる。 クエリ、キー、値はしばしば相互に結合され、単一の共有線形変換によってそれらのブロック内で生成される。 本稿では,クエリと値からキーを分離し,キーに多様体表現を適用するという概念について検討する。 実験の結果,鍵を多様体構造で切り離して付与することで,モデル性能が向上することがわかった。 具体的には、ViT-Bはトップ1の精度が0.87%上昇し、Swin-TはImageNet-1Kデータセットでトップ1の精度が0.52%アップし、多様体キーには8つのチャートがある。 このアプローチは、cocoデータセット上のオブジェクト検出とインスタンスセグメンテーションタスクにポジティブな結果をもたらします。 詳細なアブレーション研究により、これらの性能向上は単にパラメータや計算量を増やす単純さによるものではないことが判明した。 今後の研究は、これらの表現の予算削減戦略について検討し、その結果に基づいてさらなる性能向上を目指す。

Vision Transformers implement multi-head self-attention (MSA) via stacking multiple attention blocks. The query, key, and value are often intertwined and generated within those blocks via a single, shared linear transformation. This paper explores the concept of disentangling the key from the query and value, and adopting a manifold representation for the key. Our experiments reveal that decoupling and endowing the key with a manifold structure can enhance the model performance. Specifically, ViT-B exhibits a 0.87% increase in top-1 accuracy, while Swin-T sees a boost of 0.52% in top-1 accuracy on the ImageNet-1K dataset, with eight charts in the manifold key. Our approach also yields positive results in object detection and instance segmentation tasks on the COCO dataset. Through detailed ablation studies, we establish that these performance gains are not merely due to the simplicity of adding more parameters and computations. Future research may investigate strategies for cutting the budget of such representations and aim for further performance improvements based on our findings.
翻訳日:2024-02-02 15:23:40 公開日:2024-02-01
# 物理インフォームドニューラルネットワークのプレコンディショニング

Preconditioning for Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.00531v1 )

ライセンス: Link先を確認
Songming Liu, Chang Su, Jiachen Yao, Zhongkai Hao, Hang Su, Youjia Wu, Jun Zhu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々な偏微分方程式(PDE)の解法において有望であることを示す。 しかし、トレーニング病理はPINNの収束と予測精度に悪影響を及ぼし、実用性はさらに制限されている。 本稿では,pinnの病態を診断し緩和するための指標として条件番号を用いることを提案する。 条件数が感度と安定性を測定する古典的な数値解析に触発され,ピンのトレーニングダイナミクスにおいて重要な役割を担っている。 我々は,条件数とPINNの誤差制御と収束の関係を明らかにするための定理を証明した。 次に,プレコンディショニングを利用して条件数を改善するアルゴリズムを提案する。 18PDE問題の評価は,本手法の優れた性能を示す。 これらの問題の7つにおいて,本手法は誤差を桁違いに低減する。 これらの経験的知見は, PINN訓練における条件数の重要性を検証した。

Physics-informed neural networks (PINNs) have shown promise in solving various partial differential equations (PDEs). However, training pathologies have negatively affected the convergence and prediction accuracy of PINNs, which further limits their practical applications. In this paper, we propose to use condition number as a metric to diagnose and mitigate the pathologies in PINNs. Inspired by classical numerical analysis, where the condition number measures sensitivity and stability, we highlight its pivotal role in the training dynamics of PINNs. We prove theorems to reveal how condition number is related to both the error control and convergence of PINNs. Subsequently, we present an algorithm that leverages preconditioning to improve the condition number. Evaluations of 18 PDE problems showcase the superior performance of our method. Significantly, in 7 of these problems, our method reduces errors by an order of magnitude. These empirical findings verify the critical role of the condition number in PINNs' training.
翻訳日:2024-02-02 15:23:15 公開日:2024-02-01
# Superfiltering: 高速インストラクションチューニングのための弱ストロングデータフィルタリング

Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning ( http://arxiv.org/abs/2402.00530v1 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Shwai He, Zhitao Li, Hongyu Zhao, Jianzong Wang, Ning Cheng, Tianyi Zhou(参考訳) llmの改善には命令チューニングが不可欠だが、通常は低品質で冗長なデータに苦しむ。 インストラクションチューニングのためのデータフィルタリングは、チューニングプロセスの効率と性能を改善する上で重要であることが証明された。 しかし、このプロセスにはLCMが関与しているため、コストや計算のコストも高くなる。 より小さく弱いモデルを使って、より大きく、より強力なモデルを微調整するためのデータを選択することはできますか? 弱い言語モデルと強い言語モデルのパフォーマンスの差にもかかわらず、命令の難易度とデータ選択結果を認識する能力は極めて一貫性がある。 これにより、より小さな、より効率的なモデルを使用して、より大きな言語モデルのトレーニングに使用される命令データをフィルタリングすることができます。 主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。 広範な実験は、我々のアプローチの有効性と効率を検証する。

Instruction tuning is critical to improve LLMs but usually suffers from low-quality and redundant data. Data filtering for instruction tuning has proved important in improving both the efficiency and performance of the tuning process. But it also leads to extra cost and computation due to the involvement of LLMs in this process. To reduce the filtering cost, we study Superfiltering: Can we use a smaller and weaker model to select data for finetuning a larger and stronger model? Despite the performance gap between weak and strong language models, we find their highly consistent capability to perceive instruction difficulty and data selection results. This enables us to use a much smaller and more efficient model to filter the instruction data used to train a larger language model. Not only does it largely speed up the data filtering, but the filtered-data-finetuned LLM achieves even better performance on standard benchmarks. Extensive experiments validate the efficacy and efficiency of our approach.
翻訳日:2024-02-02 15:23:02 公開日:2024-02-01
# stopthepop: ビュー一貫性のあるリアルタイムレンダリングのためのソートされたgaussian splatting

StopThePop: Sorted Gaussian Splatting for View-Consistent Real-time Rendering ( http://arxiv.org/abs/2402.00525v1 )

ライセンス: Link先を確認
Lukas Radl, Michael Steiner, Mathias Parger, Alexander Weinrauch, Bernhard Kerbl, Markus Steinberger(参考訳) ガウススプラッティングは、様々な領域にわたる画像から3D表現を構築するための顕著なモデルとして登場した。 しかし、3Dガウススティングレンダリングパイプラインの効率は、いくつかの単純化に依存している。 特に、単一のビュー空間深さでガウスを2次元スプラットに減らすことで、ビュー回転中のアーティファクトのポップとブレンディングが導入される。 この問題に対処するには、ピクセルごとの深度計算を正確に行う必要があるが、全画素毎のソートは、グローバルソート操作に比べて過大なコストがかかる。 本稿では,処理オーバーヘッドを最小限に抑えたスプラッツを体系的に活用し,カールする新しい階層的ラスタライズ手法を提案する。 我々のソフトウェアラスタライザは,定量測定と定性測定の両方で示されるように,ポップアップアーティファクトや不整合を効果的に排除する。 同時に、本手法は、ポッピングによるビュー依存効果の不正化の可能性を軽減する。 不正行為の排除にも拘わらず,本手法は,動作中の新しいビュー合成の整合性を高めつつ,テスト画像の定量的結果に匹敵する結果が得られる。 その設計のため、私たちの階層的アプローチは、元のガウスのスプラッティングよりも平均で4%しか遅くありません。 特に、一貫性を強制することで、ほぼ同じ品質とビュー一貫性を持つガウスの数を約半分減らすことができる。 その結果、レンダリング性能は2倍近く向上し、我々のアプローチはガウス版よりも1.6倍高速となり、メモリ要求は50%削減された。

Gaussian Splatting has emerged as a prominent model for constructing 3D representations from images across diverse domains. However, the efficiency of the 3D Gaussian Splatting rendering pipeline relies on several simplifications. Notably, reducing Gaussian to 2D splats with a single view-space depth introduces popping and blending artifacts during view rotation. Addressing this issue requires accurate per-pixel depth computation, yet a full per-pixel sort proves excessively costly compared to a global sort operation. In this paper, we present a novel hierarchical rasterization approach that systematically resorts and culls splats with minimal processing overhead. Our software rasterizer effectively eliminates popping artifacts and view inconsistencies, as demonstrated through both quantitative and qualitative measurements. Simultaneously, our method mitigates the potential for cheating view-dependent effects with popping, ensuring a more authentic representation. Despite the elimination of cheating, our approach achieves comparable quantitative results for test images, while increasing the consistency for novel view synthesis in motion. Due to its design, our hierarchical approach is only 4% slower on average than the original Gaussian Splatting. Notably, enforcing consistency enables a reduction in the number of Gaussians by approximately half with nearly identical quality and view-consistency. Consequently, rendering performance is nearly doubled, making our approach 1.6x faster than the original Gaussian Splatting, with a 50% reduction in memory requirements.
翻訳日:2024-02-02 15:22:47 公開日:2024-02-01
# 衝突モデルにおけるガウス量子ステアリングの非マルコフ性

Witnessing non-Markovianity with Gaussian quantum steering in collision model ( http://arxiv.org/abs/2402.00524v1 )

ライセンス: Link先を確認
Yan Li, Xingli Li, and Jiasen Jin(参考訳) 完全正のトレース保存(CPTP)写像の下での時間量子ステアリングの非増加特性は、ChenらによってPhysで提案された。 Rev. Lett. 116, 020503 (2016) は非マルコビアン性の実践的な尺度と考えられている。 本稿では,非マルコフ衝突モデルをシミュレートするために全光学スキームを用い,構造付き連続変数(cv)ガウスチャネルの非マルコフ性を測定するツールとしてガウスステアリングをどのように利用できるかを検討する。 ビームスプリッター(BSs)の反射率を変更することで、チャネルの非マルコビアン性の度合いを調整できる。 2つのステアリングシナリオで散逸チャネルの非マルコフ度を解析した結果、ガウスステアリングに基づく非マルコフ測度はガウスステアリングの非対称性のために特定のシナリオに依存することがわかった。 また,cptpマップの可分性に違反したガウスのステアリングに基づく非マルコフ性と比較した。

The nonincreasing feature of temporal quantum steering under a completely positive trace-preserving (CPTP) map, as proposed by Chen, et al. in Phys. Rev. Lett. 116, 020503 (2016), has been considered as a practical measure of non-Markovianity. In this paper, we utilize an all-optical scheme to simulate a non-Markovian collision model and to examine how Gaussian steering can be used as a tool for quantifying the non-Markovianity of a structured continuous variable (CV) Gaussian channel. By modifying the reflectivity of the beam splitters (BSs), we are able to tune the degree of non-Markovianity of the channel. After analyzing the non-Markovian degree of the dissipative channel within two steering scenarios, we discovered that the Gaussian steering-based non-Markovian measure depends the specific scenario because of the asymmetry of Gaussian steering. We also compared the Gaussian steering based non-Markovianity to the one based on the violation of the divisibility of CPTP map.
翻訳日:2024-02-02 15:22:21 公開日:2024-02-01
# シーケンスモデリングのためのトランスの表現力と機構の理解

Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling ( http://arxiv.org/abs/2402.00522v1 )

ライセンス: Link先を確認
Mingze Wang, Weinan E(参考訳) 長大,スパース,複雑なメモリを有するシーケンスモデリングのための変圧器の近似特性を体系的に研究する。 点生成自己着脱,位置符号化,フィードフォワード層などのトランスフォーマーの異なる成分が,その表現力にどのような影響を及ぼすかを調査し,それらの組み合わせ効果を明示的な近似率の確立を通じて検討する。 本研究は,トランスフォーマーにおけるクリティカルパラメータの役割を明らかにする。レイヤ数やアテンションヘッド数などである。

We conduct a systematic study of the approximation properties of Transformer for sequence modeling with long, sparse and complicated memory. We investigate the mechanisms through which different components of Transformer, such as the dot-product self-attention, positional encoding and feed-forward layer, affect its expressive power, and we study their combined effects through establishing explicit approximation rates. Our study reveals the roles of critical parameters in the Transformer, such as the number of layers and the number of attention heads, and these insights also provide natural suggestions for alternative architectures.
翻訳日:2024-02-02 15:21:59 公開日:2024-02-01
# caphuman: 平行宇宙であなたの瞬間を捉える

CapHuman: Capture Your Moments in Parallel Universes ( http://arxiv.org/abs/2402.00627v1 )

ライセンス: Link先を確認
Chao Liang, Fan Ma, Linchao Zhu, Yingying Deng, Yi Yang(参考訳) 我々は,人間中心の新たな画像合成タスク,すなわち1枚の参照顔写真のみを想定し,異なる文脈における頭部位置,ポーズ,表情の異なる個々の画像を生成することに集中する。 この目的を達成するためには,(1)基本的対象と人間のイメージ生成のための世界と人間社会の視覚的かつセマンティックな理解の強化,という望ましい特性を,当社のジェネレーティブモデルが得るべきである,と論じる。 2) 汎用的なアイデンティティ保存能力。 (3) 柔軟できめ細かい頭部制御。 近年,テキストから画像への大規模拡散モデルが注目され,強力な生成基盤となっている。 基礎として、事前学習モデルの上記の2つの能力を解き放つことを目的としている。 本稿では,CapHumanという新しいフレームワークを提案する。 推論における面倒なチューニングを伴わずに、新しい個人に対する汎用的なアイデンティティ保存を可能にする、‘エンコードで学習する’パラダイムを採用しています。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。 さらに,モデルに人間の頭部を柔軟かつ3D一貫性のある方法で制御させる前に3D顔を導入する。 広汎な質的および定量的分析により、CapHumanは、確立されたベースラインよりも優れた、コンテンツに富んだ表現と様々なヘッドリディングを備えた、保存された、フォトリアリスティック、高忠実な肖像画を作成できることを示した。 コードとチェックポイントはhttps://github.com/vamosc/caphumanでリリースされる。

We concentrate on a novel human-centric image synthesis task, that is, given only one reference facial photograph, it is expected to generate specific individual images with diverse head positions, poses, and facial expressions in different contexts. To accomplish this goal, we argue that our generative model should be capable of the following favorable characteristics: (1) a strong visual and semantic understanding of our world and human society for basic object and human image generation. (2) generalizable identity preservation ability. (3) flexible and fine-grained head control. Recently, large pre-trained text-to-image diffusion models have shown remarkable results, serving as a powerful generative foundation. As a basis, we aim to unleash the above two capabilities of the pre-trained model. In this work, we present a new framework named CapHuman. We embrace the ``encode then learn to align" paradigm, which enables generalizable identity preservation for new individuals without cumbersome tuning at inference. CapHuman encodes identity features and then learns to align them into the latent space. Moreover, we introduce the 3D facial prior to equip our model with control over the human head in a flexible and 3D-consistent manner. Extensive qualitative and quantitative analyses demonstrate our CapHuman can produce well-identity-preserved, photo-realistic, and high-fidelity portraits with content-rich representations and various head renditions, superior to established baselines. Code and checkpoint will be released at https://github.com/VamosC/CapHuman.
翻訳日:2024-02-02 15:14:24 公開日:2024-02-01
# vision-llmは自己生成型タイポグラフィー攻撃で自分を騙すことができる

Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks ( http://arxiv.org/abs/2402.00626v1 )

ライセンス: Link先を確認
Maan Qraitem, Nazia Tasnim, Kate Saenko, Bryan A. Plummer(参考訳) 近年、大きな事前学習された言語モデルを利用する新しいvlモデルのクラスである large vision-language models (lvlms) が大きな進歩を遂げている。 しかし、Typographic攻撃に対する彼らの脆弱性は、誤解を招くテキストを画像にスーパーインポジションする。 さらに、事前の作業タイポグラフィー攻撃は、事前に定義されたクラスのセットからランダムな誤解を招くクラスをサンプリングすることに依存する。 しかし、ランダムに選ばれたクラスは最も効果的な攻撃ではないかもしれない。 これらの問題に対処するために,我々はまず,lvlms脆弱性をタイポグラフィー攻撃に対してテストするための新しいベンチマークを導入する。 さらに,新しい効果的なタイポグラフィー攻撃である自己生成タイポグラフィー攻撃について紹介する。 実際,本手法では,GPT-4Vのようなモデルに対して,タイポグラフィー攻撃を推奨するように促すことで,強力な言語機能を利用する。 新たなベンチマークを用いて,LVLM(s)に対するタイポグラフィー攻撃が重大な脅威であることを明らかにした。 さらに,本手法を用いてGPT-4Vが推奨するタイポグラフィー攻撃は,従来の作業攻撃に比べてGPT-4V自体に対して有効であるだけでなく,LLaVA,InstructBLIP,MiniGPT4といった,あまり有能でないオープンソースモデルに対しても有効であることがわかった。

Recently, significant progress has been made on Large Vision-Language Models (LVLMs); a new class of VL models that make use of large pre-trained language models. Yet, their vulnerability to Typographic attacks, which involve superimposing misleading text onto an image remain unstudied. Furthermore, prior work typographic attacks rely on sampling a random misleading class from a predefined set of classes. However, the random chosen class might not be the most effective attack. To address these issues, we first introduce a novel benchmark uniquely designed to test LVLMs vulnerability to typographic attacks. Furthermore, we introduce a new and more effective typographic attack: Self-Generated typographic attacks. Indeed, our method, given an image, make use of the strong language capabilities of models like GPT-4V by simply prompting them to recommend a typographic attack. Using our novel benchmark, we uncover that typographic attacks represent a significant threat against LVLM(s). Furthermore, we uncover that typographic attacks recommended by GPT-4V using our new method are not only more effective against GPT-4V itself compared to prior work attacks, but also against a host of less capable yet popular open source models like LLaVA, InstructBLIP, and MiniGPT4.
翻訳日:2024-02-02 15:13:58 公開日:2024-02-01
# ガウス過程ネットワークを用いたベイズ因果推論

Bayesian Causal Inference with Gaussian Process Networks ( http://arxiv.org/abs/2402.00623v1 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers and Giusi Moffa(参考訳) 観測データからの因果発見と推論は、モデリングと計算の両方の課題を呈する統計学において重要な問題である。 これらは典型的には、線型性のような関節分布に関する厳密な仮定によって解決される。 因果関係を非パラメトリックに記述できる柔軟な因果関係の枠組みであるガウス過程ネットワーク(GPN)モデルにおける仮説的介入の効果をベイズ推定の問題点を考察する。 本稿では,ネットワーク全体の介入の効果をシミュレーションし,下流変数に対する介入の効果を伝播することにより,GPNに対する因果推論を行う方法について述べる。 さらに,局所変数のみの関数として介入分布を推定し,加法ガウス過程による条件分布をモデル化することで,より単純な計算近似を導出する。 両フレームワークを既知の因果グラフのケースを超えて拡張し,マルコフ連鎖モンテカルロ法による因果構造の不確実性を取り入れた。 シミュレーション研究では,非ガウシアン・非線形観測データを用いた仮説的介入の効果を同定し,因果推定の後方不確実性を正確に反映できることを示した。 最後に、gpnベースの因果推論アプローチの結果を、aのデータセット上の既存のメソッドと比較します。 thaliana$ 遺伝子発現。

Causal discovery and inference from observational data is an essential problem in statistics posing both modeling and computational challenges. These are typically addressed by imposing strict assumptions on the joint distribution such as linearity. We consider the problem of the Bayesian estimation of the effects of hypothetical interventions in the Gaussian Process Network (GPN) model, a flexible causal framework which allows describing the causal relationships nonparametrically. We detail how to perform causal inference on GPNs by simulating the effect of an intervention across the whole network and propagating the effect of the intervention on downstream variables. We further derive a simpler computational approximation by estimating the intervention distribution as a function of local variables only, modeling the conditional distributions via additive Gaussian processes. We extend both frameworks beyond the case of a known causal graph, incorporating uncertainty about the causal structure via Markov chain Monte Carlo methods. Simulation studies show that our approach is able to identify the effects of hypothetical interventions with non-Gaussian, non-linear observational data and accurately reflect the posterior uncertainty of the causal estimates. Finally we compare the results of our GPN-based causal inference approach to existing methods on a dataset of $A.~thaliana$ gene expressions.
翻訳日:2024-02-02 15:13:33 公開日:2024-02-01
# 会話におけるアクター識別: llmsへの挑戦?

Actor Identification in Discourse: A Challenge for LLMs? ( http://arxiv.org/abs/2402.00620v1 )

ライセンス: Link先を確認
Ana Bari\'c and Sean Papay and Sebastian Pad\'o(参考訳) 公的な議論で主張を提出した政治的アクターの特定は、社会的な議論を分析するのに役立つ談話ネットワークの構築における重要なステップである。 多くの場合、局所的に言及されるクレームの話者は代名詞のみである("he proposed that [claim]")。 我々は、従来のNLPコンポーネントのパイプライン(関連するコア参照タスクに適用されるものに似ている)とLLMを比較し、この生成タスクによくマッチしているように思われる。 新聞の報道でドイツの俳優のコーパスを評価すると、LDMがさらに悪化していることが驚く。 さらなる分析によると、LLMは正しい参照を識別するのに非常に優れているが、正しい標準形式を生成するのに苦労している。 これは、出力を制御した LLM の根底にある問題を示している。 実際、llmと分類器を組み合わせて出力を正規化するハイブリッドモデルは、両方の初期モデルを大きく上回っている。

The identification of political actors who put forward claims in public debate is a crucial step in the construction of discourse networks, which are helpful to analyze societal debates. Actor identification is, however, rather challenging: Often, the locally mentioned speaker of a claim is only a pronoun ("He proposed that [claim]"), so recovering the canonical actor name requires discourse understanding. We compare a traditional pipeline of dedicated NLP components (similar to those applied to the related task of coreference) with a LLM, which appears a good match for this generation task. Evaluating on a corpus of German actors in newspaper reports, we find surprisingly that the LLM performs worse. Further analysis reveals that the LLM is very good at identifying the right reference, but struggles to generate the correct canonical form. This points to an underlying issue in LLMs with controlling generated output. Indeed, a hybrid model combining the LLM with a classifier to normalize its output substantially outperforms both initial models.
翻訳日:2024-02-02 15:13:11 公開日:2024-02-01
# 単一ファイバ内のco既存量子および古典信号を用いた大域的絡み合い分布

Metropolitan-scale Entanglement Distribution with Co existing Quantum and Classical Signals in a single fiber ( http://arxiv.org/abs/2402.00617v1 )

ライセンス: Link先を確認
A. Rahmouni, P. S. Kuo, Y.S. Li-Baboud, I. A. Burenkov, Y. Shi, M. V. Jabir, N. Lal, D. Reddy, M. Merzouki, L. Ma, A. Battou, S. V. Polyakov, O. Slattery, T. Gerrits(参考訳) プロトタイプのメトロポリタンスケール量子ネットワークの開発は進行中であり、数十kmに及ぶ展開された光ファイバを通して単一光子を介して量子情報を送信することを含む。 大都市圏の量子ネットワークを構築する上での大きな課題は、分極モード分散の補償、高精度クロック同期、累積伝送時間変動の補償である。 これらの課題に対処する1つのアプローチは、古典的なプローブ信号を量子信号と同じファイバーに共役させることである。 したがって、両方の信号は同じ条件を経験し、繊維の変化をモニターして補償することができる。 そこで本研究では,白ウサギ精密時間プロトコル (wr-ptp) と共伝播する偏光絡み量子信号の分布を,同一単一コア繊維線において大域距離で示す。 以上の結果から,100kmの光ファイバで分離したノード間の高忠実度絡み合い分布を実現することで,この量子古典的共存の実現可能性を示す。 この進歩は、堅牢で効率的なメトロポリタンスケール量子ネットワークの実現に向けた重要な一歩である。

The development of prototype metropolitan-scale quantum networks is underway and entails transmitting quantum information via single photons through deployed optical fibers spanning several tens of kilometers. The major challenges in building metropolitan-scale quantum networks are compensation of polarization mode dispersion, high-precision clock synchronization, and compensation for cumulative transmission time fluctuations. One approach addressing these challenges is to co-propagate classical probe signals in the same fiber as the quantum signal. Thus, both signals experience the same conditions, and the changes of the fiber can therefore be monitored and compensated. Here, we demonstrate the distribution of polarization entangled quantum signals co-propagating with the White Rabbit Precision Time Protocol (WR-PTP) classical signals in the same single-core fiber strand at metropolitan-scale distances. Our results demonstrate the feasibility of this quantum-classical coexistence by achieving high-fidelity entanglement distribution between nodes separated by 100 km of optical fiber. This advancement is a significant step towards the practical implementation of robust and efficient metropolitan-scale quantum networks.
翻訳日:2024-02-02 15:12:54 公開日:2024-02-01
# ソフトシルエットスコアを用いた深層クラスタリング : コンパクト化と分別化を目指して

Deep Clustering Using the Soft Silhouette Score: Towards Compact and Well-Separated Clusters ( http://arxiv.org/abs/2402.00608v1 )

ライセンス: Link先を確認
Georgios Vardakas, Ioannis Papakostas, Aristidis Likas(参考訳) 教師なし学習は、ラベルのないデータセットから貴重な洞察を抽出する手段を提供する、ビッグデータ時代において注目されている。 ディープクラスタリングは重要な教師なしのカテゴリとして登場し、クラスタリング性能を向上させるためにニューラルネットワークの非線形マッピング機能を活用することを目的としている。 深層クラスタリングの文献の大部分は、学習された表現を元の高次元データセットと一致させながら、組込み空間内のクラスタ内変動を最小化することに焦点を当てている。 本研究では,シルエット係数の確率的定式化であるソフトシルエットを提案する。 ソフトシルエットは、従来のシルエット係数のようなコンパクトで分離されたクラスタリングソリューションに報いる。 深層クラスタリングフレームワーク内で最適化されると、ソフトシルエットは学習した表現を、コンパクトで分離されたクラスタの形成へと導く。 さらに,ソフトなシルエット目的関数の最適化に適した,オートエンコーダに基づくディープラーニングアーキテクチャを提案する。 提案手法は,様々なベンチマークデータセットを用いた深層クラスタリング手法と比較し,非常に良好なクラスタリング結果を得た。

Unsupervised learning has gained prominence in the big data era, offering a means to extract valuable insights from unlabeled datasets. Deep clustering has emerged as an important unsupervised category, aiming to exploit the non-linear mapping capabilities of neural networks in order to enhance clustering performance. The majority of deep clustering literature focuses on minimizing the inner-cluster variability in some embedded space while keeping the learned representation consistent with the original high-dimensional dataset. In this work, we propose soft silhoutte, a probabilistic formulation of the silhouette coefficient. Soft silhouette rewards compact and distinctly separated clustering solutions like the conventional silhouette coefficient. When optimized within a deep clustering framework, soft silhouette guides the learned representations towards forming compact and well-separated clusters. In addition, we introduce an autoencoder-based deep learning architecture that is suitable for optimizing the soft silhouette objective function. The proposed deep clustering method has been tested and compared with several well-studied deep clustering methods on various benchmark datasets, yielding very satisfactory clustering results.
翻訳日:2024-02-02 15:12:37 公開日:2024-02-01
# 合成時系列データは実際のデータほど良くないのか?

Are Synthetic Time-series Data Really not as Good as Real Data? ( http://arxiv.org/abs/2402.00607v1 )

ライセンス: Link先を確認
Fanzhe Fu, Junru Chen, Jing Zhang, Carl Yang, Lvbin Ma, Yang Yang(参考訳) 時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。 普遍的データ合成手法の統合は、一般化の改善に期待を抱かせる。 しかし、現在のメソッドは、ジェネレータの出力が見えない実データすべてをカバーすることを保証できません。 本稿では,時系列表現学習機能を備えた多機能なクロスドメインデータ合成フレームワークInfoBoostを紹介する。 本研究では,実データで学習したモデルの性能を上回って,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。 さらに,全時系列データに適用可能な合成データに基づいて,普遍的特徴抽出器を訓練した。 本手法は,複数の音源からの干渉,ノイズ干渉,サンプリングウィンドウ機能を超える長周期特徴を克服する。 実験により,非深層学習合成データを用いて,実データを必要としない再現性能と普遍的表現抽出を実現することができる。

Time-series data presents limitations stemming from data quality issues, bias and vulnerabilities, and generalization problem. Integrating universal data synthesis methods holds promise in improving generalization. However, current methods cannot guarantee that the generator's output covers all unseen real data. In this paper, we introduce InfoBoost -- a highly versatile cross-domain data synthesizing framework with time series representation learning capability. We have developed a method based on synthetic data that enables model training without the need for real data, surpassing the performance of models trained with real data. Additionally, we have trained a universal feature extractor based on our synthetic data that is applicable to all time-series data. Our approach overcomes interference from multiple sources rhythmic signal, noise interference, and long-period features that exceed sampling window capabilities. Through experiments, our non-deep-learning synthetic data enables models to achieve superior reconstruction performance and universal explicit representation extraction without the need for real data.
翻訳日:2024-02-02 15:12:20 公開日:2024-02-01
# PatchMatchとTransformerを用いた動的テクスチャ転送

Dynamic Texture Transfer using PatchMatch and Transformers ( http://arxiv.org/abs/2402.00606v1 )

ライセンス: Link先を確認
Guo Pu, Shiyao Xu, Xixin Cao, Zhouhui Lian(参考訳) ビデオのダイナミックなテクスチャをターゲットの静止画像に自動的に転送する方法は、難しい問題であり、進行中の課題である。 本稿では,PatchMatch と Transformer を併用した,シンプルながら効果的なモデルによる処理を提案する。 鍵となるアイデアは、動的テクスチャ転送のタスクを2つのステージに分解することであり、そこでは、PatchMatchアルゴリズムに基づく距離マップ誘導テクスチャ転送モジュールを介して、所望のダイナミックテクスチャによるターゲットビデオの開始フレームを第1ステージで合成する。 そして、第2段階では、合成画像を構造に依存しないパッチに分解し、それに対応するパッチを、長い離散シーケンスを処理するためにVQ-VAEを備えたトランスフォーマーの強力な能力を利用して予測する。 これらのパッチを全て取得した後、ターゲットのスタイリングされたビデオの各フレームに、ガウス平均マージ戦略をスムーズに組み込む。 動的テクスチャ伝達における提案手法の有効性と優位性を示す実験結果を得た。

How to automatically transfer the dynamic texture of a given video to the target still image is a challenging and ongoing problem. In this paper, we propose to handle this task via a simple yet effective model that utilizes both PatchMatch and Transformers. The key idea is to decompose the task of dynamic texture transfer into two stages, where the start frame of the target video with the desired dynamic texture is synthesized in the first stage via a distance map guided texture transfer module based on the PatchMatch algorithm. Then, in the second stage, the synthesized image is decomposed into structure-agnostic patches, according to which their corresponding subsequent patches can be predicted by exploiting the powerful capability of Transformers equipped with VQ-VAE for processing long discrete sequences. After getting all those patches, we apply a Gaussian weighted average merging strategy to smoothly assemble them into each frame of the target stylized video. Experimental results demonstrate the effectiveness and superiority of the proposed method in dynamic texture transfer compared to the state of the art.
翻訳日:2024-02-02 15:12:06 公開日:2024-02-01
# 要求品質の関連要因の特定:工業事例研究

Identifying relevant Factors of Requirements Quality: an industrial Case Study ( http://arxiv.org/abs/2402.00594v1 )

ライセンス: Link先を確認
Julian Frattini(参考訳) [コンテキストとモチベーション]: 要件仕様の品質は、その後のソフトウェアエンジニアリング活動に影響を与えます。 不明瞭なステートメントのような品質上の欠陥は不完全な機能や間違った機能をもたらし、予算オーバーランやプロジェクトの失敗につながる可能性がある。 [problem]: 要求品質の影響を測定する試みは、大量の相互作用要因によって抑制されています。 要求品質研究は、実際にどの要因が関係しているかの理解を欠いている。 原則と結果]: 要求品質の関連要因を特定するために, インタビュー記録と発行報告書の両方のデータを考慮したケーススタディを行う。 結果は、ケース会社に関連する17の要因と11の相互作用効果を含む。 結論〕(1)既存の要件工学理論の強化,(2)産業関連要件品質研究の進展,という実証的証拠が得られた。

[Context and Motivation]: The quality of requirements specifications impacts subsequent, dependent software engineering activities. Requirements quality defects like ambiguous statements can result in incomplete or wrong features and even lead to budget overrun or project failure. [Problem]: Attempts at measuring the impact of requirements quality have been held back by the vast amount of interacting factors. Requirements quality research lacks an understanding of which factors are relevant in practice. [Principal Ideas and Results]: We conduct a case study considering data from both interview transcripts and issue reports to identify relevant factors of requirements quality. The results include 17 factors and 11 interaction effects relevant to the case company. [Contribution]: The results contribute empirical evidence that (1) strengthens existing requirements engineering theories and (2) advances industry-relevant requirements quality research.
翻訳日:2024-02-02 15:11:45 公開日:2024-02-01
# 深層学習に基づく冠動脈病変範囲の異なる冠動脈疾患分類

Coronary Artery Disease Classification with Different Lesion Degree Ranges based on Deep Learning ( http://arxiv.org/abs/2402.00593v1 )

ライセンス: Link先を確認
Ariadna Jim\'enez-Partinen, Karl Thurnhofer-Hemsi, Esteban J. Palomo, Jorge Rodr\'iguez-Capit\'an, Ana I. Molina-Ramos(参考訳) 侵襲的冠動脈造影(ICA)画像は冠動脈の状態を評価するための金の基準と考えられている。 深層学習分類法は, 医師が臨床手順を支援できるコンピュータ支援診断システムの開発により, 医用画像評価が必須となる様々な分野において広く用いられ, 開発されている。 本稿では,病変の程度が異なる2値ica分類のための深層学習法の性能解析について報告する。 この目標を達成するため、ICA画像の注釈付きデータセットに、真理、病変の位置、および、0%から100%の範囲の7つの重度度が採用された。 ICA画像は「レシオン」または「ノンレシオン」のパッチに分割された。 本研究の目的は,2値分類の性能が,正のクラスで考慮された異なる病変度にどのように影響するかを検討することである。 そこで,5つの既知の畳み込みニューラルネットワークアーキテクチャを,7つの病変度を考慮し,病変度範囲の異なる入力画像を用いて訓練した。 さらにデータ拡張のない4種類の実験が設計され、そのF測定とAUC(Area Under Curve)が計算された。 f-measureとaucはそれぞれ92.7%,98.1%であった。 しかし, 病変の分類は, 病変の分類を意図した程度に大きく影響し, 99%の病変が認められると, 15%の精度が低下する。

Invasive Coronary Angiography (ICA) images are considered the gold standard for assessing the state of the coronary arteries. Deep learning classification methods are widely used and well-developed in different areas where medical imaging evaluation has an essential impact due to the development of computer-aided diagnosis systems that can support physicians in their clinical procedures. In this paper, a new performance analysis of deep learning methods for binary ICA classification with different lesion degrees is reported. To reach this goal, an annotated dataset of ICA images that contains the ground truth, the location of lesions and seven possible severity degrees ranging between 0% and 100% was employed. The ICA images were divided into 'lesion' or 'non-lesion' patches. We aim to study how binary classification performance is affected by the different lesion degrees considered in the positive class. Therefore, five known convolutional neural network architectures were trained with different input images where different lesion degree ranges were gradually incorporated until considering the seven lesion degrees. Besides, four types of experiments with and without data augmentation were designed, whose F-measure and Area Under Curve (AUC) were computed. Reported results achieved an F-measure and AUC of 92.7% and 98.1%, respectively. However, lesion classification is highly affected by the degree of the lesion intended to classify, with 15% less accuracy when <99% lesion patches are present.
翻訳日:2024-02-02 15:11:32 公開日:2024-02-01
# 不確実性を考慮した部分ラベル学習

Uncertainty-Aware Partial-Label Learning ( http://arxiv.org/abs/2402.00592v1 )

ライセンス: Link先を確認
Tobias Fuchs, Florian Kalinke, Klemens B\"ohm(参考訳) 現実世界のアプリケーションでは、曖昧にラベル付けされたデータに遭遇することが多い。 部分ラベル学習は、この弱い教師付き設定で分類器の訓練を可能にする。 最先端の手法はすでに優れた予測性能を特徴としているが、しばしば誤った不確実性推定に悩まされる。 しかし、特に医療や自律運転のような安全クリティカルな領域では、よく校正された不確実性の推定が重要である。 本稿では, Dempster-Shafer 理論を応用した, 近接する部分ラベル学習アルゴリズムを提案する。 人工および実世界のデータセットに関する広範囲な実験により,提案手法が十分な不確実性推定を提供し,競合予測性能を実現することが示された。 さらに、アルゴリズムがリスク一貫性があることを証明します。

In real-world applications, one often encounters ambiguously labeled data, where different annotators assign conflicting class labels. Partial-label learning allows training classifiers in this weakly supervised setting. While state-of-the-art methods already feature good predictive performance, they often suffer from miscalibrated uncertainty estimates. However, having well-calibrated uncertainty estimates is important, especially in safety-critical domains like medicine and autonomous driving. In this article, we propose a novel nearest-neighbor-based partial-label-learning algorithm that leverages Dempster-Shafer theory. Extensive experiments on artificial and real-world datasets show that the proposed method provides a well-calibrated uncertainty estimate and achieves competitive prediction performance. Additionally, we prove that our algorithm is risk-consistent.
翻訳日:2024-02-02 15:11:10 公開日:2024-02-01
# Sandra - 説明と状況に基づくニューロシンボリックな共振器

Sandra -- A Neuro-Symbolic Reasoner Based On Descriptions And Situations ( http://arxiv.org/abs/2402.00591v1 )

ライセンス: Link先を確認
Nicolas Lazzari, Stefano De Giorgis, Aldo Gangemi, Valentina Presutti(参考訳) 本稿では,ベクトル表現と帰納的推論を組み合わせたニューロシンボリック推論であるsandraについて述べる。 サンドラはオントロジーによって制約されたベクトル空間を構築し、その上で推論を行う。 推論器の幾何学的性質は、ニューラルネットワークとの結合を可能にし、そのギャップと記号的知識表現を橋渡しする。 sandraは、フレームセマンティクスの形式化である、説明と状況(dns)オントロジーデザインパターンに基づいている。 一連の事実(状況)が与えられた場合、不完全な情報が存在する場合でも、可能なすべての視点(記述)を推測することができる。 DnSモデルに関して,本手法が正しいことを証明した。 2つの異なるタスクと標準ベンチマークを実験し、複雑さを増すことなく、sandraを実証した。 (i)すべてのベースラインを上回る (ii)分類過程において解釈可能性を提供し、 (iii) 事前設計したベクトル空間の制御を可能にする。

This paper presents sandra, a neuro-symbolic reasoner combining vectorial representations with deductive reasoning. Sandra builds a vector space constrained by an ontology and performs reasoning over it. The geometric nature of the reasoner allows its combination with neural networks, bridging the gap with symbolic knowledge representations. Sandra is based on the Description and Situation (DnS) ontology design pattern, a formalization of frame semantics. Given a set of facts (a situation) it allows to infer all possible perspectives (descriptions) that can provide a plausible interpretation for it, even in presence of incomplete information. We prove that our method is correct with respect to the DnS model. We experiment with two different tasks and their standard benchmarks, demonstrating that, without increasing complexity, sandra (i) outperforms all the baselines (ii) provides interpretability in the classification process, and (iii) allows control over the vector space, which is designed a priori.
翻訳日:2024-02-02 15:10:57 公開日:2024-02-01
# BrainSLAM: 神経集団活動データに基づくSLAM

BrainSLAM: SLAM on Neural Population Activity Data ( http://arxiv.org/abs/2402.00588v1 )

ライセンス: Link先を確認
Kipp Freud, Nathan Lepora, Matt W. Jones, Cian O'Donnell(参考訳) 同時ローカライゼーションとマッピング(SLAM)アルゴリズムは、新しい環境の地図を学習するためのロボットシステムで一般的に用いられている。 脳も地図を学習しているように見えるが、そのメカニズムは分かっておらず、これらの地図を神経活動データからどのように推測するかは不明だ。 脳SLAMは,ラットの海馬,前頭前皮質,頭頂皮質の3つの脳領域から同時に記録された集団活動(局所野電位,LFP)データのみを用いてSLAMを実行する方法である。 このシステムは畳み込みニューラルネットワーク(cnn)を使用して、2次元迷路を移動するときにラットから記録された神経局所電位データのウェーブレットスカルグラムから速度と親密度情報を復号する。 CNNの出力は、RatSLAMにインスパイアされたアーキテクチャを駆動し、パス統合を行うアトラクターネットワークと‘ループクロージャ’を実行する別システム(以前に訪れた場所を検出し、マップエイリアスエラーを修正する)を駆動する。 これら3つの構成要素は、動物の位置を同時に追跡しながら、環境の忠実な表現を構築することができる。 これは脳の記録から空間地図が推測された最初の例である。 本研究はSLAMを新たなモダリティへと拡張し,ナビゲーションや意思決定における認知地図の役割の理解を深める,新たな環境マッピング手法を実現する。

Simultaneous localisation and mapping (SLAM) algorithms are commonly used in robotic systems for learning maps of novel environments. Brains also appear to learn maps, but the mechanisms are not known and it is unclear how to infer these maps from neural activity data. We present BrainSLAM; a method for performing SLAM using only population activity (local field potential, LFP) data simultaneously recorded from three brain regions in rats: hippocampus, prefrontal cortex, and parietal cortex. This system uses a convolutional neural network (CNN) to decode velocity and familiarity information from wavelet scalograms of neural local field potential data recorded from rats as they navigate a 2D maze. The CNN's output drives a RatSLAM-inspired architecture, powering an attractor network which performs path integration plus a separate system which performs `loop closure' (detecting previously visited locations and correcting map aliasing errors). Together, these three components can construct faithful representations of the environment while simultaneously tracking the animal's location. This is the first demonstration of inference of a spatial map from brain recordings. Our findings expand SLAM to a new modality, enabling a new method of mapping environments and facilitating a better understanding of the role of cognitive maps in navigation and decision making.
翻訳日:2024-02-02 15:10:43 公開日:2024-02-01
# ニューラルネットワークの熱帯決定境界は敵攻撃に対してロバストである

Tropical Decision Boundaries for Neural Networks Are Robust Against Adversarial Attacks ( http://arxiv.org/abs/2402.00576v1 )

ライセンス: Link先を確認
Kurt Pasque and Christopher Teska and Ruriko Yoshida and Keiji Miura and Jefferson Huang(参考訳) 敵攻撃に対して堅牢な、単純で実装が容易で、計算効率のよい熱帯畳み込みニューラルネットワークアーキテクチャを導入する。 我々は、任意のモデルに付加可能な単一の隠蔽層にデータをトロピカル射影トーラスに埋め込むことにより、ピースワイズ線形ニューラルネットワークの熱帯性を利用する。 本研究では,その決定境界の形状を理論的に検討し,画像データセットの逆攻撃に対するロバスト性を示す。

We introduce a simple, easy to implement, and computationally efficient tropical convolutional neural network architecture that is robust against adversarial attacks. We exploit the tropical nature of piece-wise linear neural networks by embedding the data in the tropical projective torus in a single hidden layer which can be added to any model. We study the geometry of its decision boundary theoretically and show its robustness against adversarial attacks on image datasets using computational experiments.
翻訳日:2024-02-02 15:10:01 公開日:2024-02-01
# In-Bed Poseの推定: レビュー

In-Bed Pose Estimation: A Review ( http://arxiv.org/abs/2402.00700v1 )

ライセンス: Link先を確認
Ziya Ata Yaz{\i}c{\i}, Sara Colantonio, Haz{\i}m Kemal Ekenel(参考訳) 人間のポーズ推定は、画像やビデオから身体の関節の位置を識別するプロセスであり、医療を含む様々な分野で広く利用されている技術を表している。 このようなヘルスケアアプリケーションのひとつとして、ベッド内ポーズ推定があり、毛布の下に横たわる個人の体格を分析します。 このタスクは、例えば、人の睡眠行動を監視し、早期に症状を検出し、家庭や病院で疾患の診断を行うために使用することができる。 ユニモーダル法とマルチモーダル法を用いてベッド内での人間のポーズを推定する研究がいくつか行われている。 ユニモーダル研究は一般にrgb画像を用いるが、マルチモーダル研究はrgb、長波長赤外線、圧力マップ、深度マップなどのモダリティを用いる。 マルチモーダル研究は、咬合に対処するのに有用な情報を取得することができるRGBに加えて、モダリティを使用する利点がある。 さらに、いくつかのマルチモーダル研究はrgbを除外し、プライバシー保護に適している。 この領域の進歩を早めるために、既存のデータセットとアプローチのレビューを行います。 本研究の目的は,従来の研究の限界,現状の課題,そしてベッド内人間のポーズ推定分野における今後の研究に対する洞察を提供することである。

Human pose estimation, the process of identifying joint positions in a person's body from images or videos, represents a widely utilized technology across diverse fields, including healthcare. One such healthcare application involves in-bed pose estimation, where the body pose of an individual lying under a blanket is analyzed. This task, for instance, can be used to monitor a person's sleep behavior and detect symptoms early for potential disease diagnosis in homes and hospitals. Several studies have utilized unimodal and multimodal methods to estimate in-bed human poses. The unimodal studies generally employ RGB images, whereas the multimodal studies use modalities including RGB, long-wavelength infrared, pressure map, and depth map. Multimodal studies have the advantage of using modalities in addition to RGB that might capture information useful to cope with occlusions. Moreover, some multimodal studies exclude RGB and, this way, better suit privacy preservation. To expedite advancements in this domain, we conduct a review of existing datasets and approaches. Our objectives are to show the limitations of the previous studies, current challenges, and provide insights for future works on the in-bed human pose estimation field.
翻訳日:2024-02-02 15:06:00 公開日:2024-02-01
# Deep Robot Sketching:Deep Q-Learning Networksの人間的スケッチへの応用

Deep Robot Sketching: An application of Deep Q-Learning Networks for human-like sketching ( http://arxiv.org/abs/2402.00676v1 )

ライセンス: Link先を確認
Raul Fernandez-Fernandez, Juan G. Victores, Carlos Balaguer(参考訳) 複雑な環境における強化学習アルゴリズムの成功は、近年の認知科学に対する多くの理論的アプローチに影響を与えている。 芸術的な環境は認知科学コミュニティの中で、豊かで、自然で、多感覚で、多文化的な環境として研究されている。 本研究では,芸術的ロボットアプリケーションの制御を改善するための強化学習の導入を提案する。 Deep Q-learning Neural Networks (DQN)は、ロボット工学における強化学習の実装において最も成功したアルゴリズムの1つである。 DQN法は複雑なロボットアプリケーションを実行するための複雑な制御ポリシーを生成する。 現在のアートペインティングロボットアプリケーションは、フレームワークの適応性を一連の単純な環境に制限するシンプルな制御法則を使用する。 本研究では,絵画ロボットアプリケーションにおけるDQNの導入を提案する。 本研究の目的は,複雑な制御ポリシの導入が,絵画ロボットアプリケーションの性能にどのように影響するかを検討することである。 この研究の主な貢献は、複雑なアートペインティングロボットフレームワークにdqnメソッドを導入する将来の作品の最初のベースラインとして機能することである。 実験は、DQN生成ポリシーとヒューマノイドロボットTEOを用いた人間のスケッチの現実的な実行から成っている。 結果は類似性の観点から比較され、基準入力に対する報酬が得られる

The current success of Reinforcement Learning algorithms for its performance in complex environments has inspired many recent theoretical approaches to cognitive science. Artistic environments are studied within the cognitive science community as rich, natural, multi-sensory, multi-cultural environments. In this work, we propose the introduction of Reinforcement Learning for improving the control of artistic robot applications. Deep Q-learning Neural Networks (DQN) is one of the most successful algorithms for the implementation of Reinforcement Learning in robotics. DQN methods generate complex control policies for the execution of complex robot applications in a wide set of environments. Current art painting robot applications use simple control laws that limits the adaptability of the frameworks to a set of simple environments. In this work, the introduction of DQN within an art painting robot application is proposed. The goal is to study how the introduction of a complex control policy impacts the performance of a basic art painting robot application. The main expected contribution of this work is to serve as a first baseline for future works introducing DQN methods for complex art painting robot frameworks. Experiments consist of real world executions of human drawn sketches using the DQN generated policy and TEO, the humanoid robot. Results are compared in terms of similarity and obtained reward with respect to the reference inputs
翻訳日:2024-02-02 15:05:41 公開日:2024-02-01
# 非観血的可視性赤外線ReIDのための均一・不均一なラベルアソシエーションの探索

Exploring Homogeneous and Heterogeneous Consistent Label Associations for Unsupervised Visible-Infrared Person ReID ( http://arxiv.org/abs/2402.00672v1 )

ライセンス: Link先を確認
Lingfeng He, De Cheng, Nannan Wang, Xinbo Gao(参考訳) unsupervised visible-infrared person re-id(usl-vi-reid)は、アノテーションなしで同じアイデンティティの歩行者画像を検索することを目的としている。 以前の作業では、モダリティ-gapを橋渡しするために、クロスモダリティな擬似ラベルアソシエーションを確立することに重点を置いているが、インスタンスレベルの均質性と不均一な一貫性を疑似ラベル空間に維持することを無視し、結果として粗いアソシエーションをもたらす。 これに対して,同種および不均一なインスタンスレベル構造の両方を同時に考慮し,高品質なクロスモダリティラベルアソシエーションを実現するModality-Unified Label Transfer (MULT) モジュールを導入する。 等質なアフィニティと異質なアフィニティの両方をモデル化し、それらを利用して擬似ラベルの不整合を定義し、最小化する。 さらに、異なるモダリティを同時に調整しながら、ノイズの多い擬似ラベルの影響を軽減し、Modality-Invariant Representation Learning (MIRL)フレームワークと組み合わせた、簡単なプラグアンドプレイのオンラインメモリラベルリファインメント(OCLR)モジュールを提案する。 実験により,提案手法は既存のUSL-VI-ReID法よりも優れており,他の相互モダリティアソシエーション法と比較してMULTの優位性が高いことが示された。 コードは利用可能だ。

Unsupervised visible-infrared person re-identification (USL-VI-ReID) aims to retrieve pedestrian images of the same identity from different modalities without annotations. While prior work focuses on establishing cross-modality pseudo-label associations to bridge the modality-gap, they ignore maintaining the instance-level homogeneous and heterogeneous consistency in pseudo-label space, resulting in coarse associations. In response, we introduce a Modality-Unified Label Transfer (MULT) module that simultaneously accounts for both homogeneous and heterogeneous fine-grained instance-level structures, yielding high-quality cross-modality label associations. It models both homogeneous and heterogeneous affinities, leveraging them to define the inconsistency for the pseudo-labels and then minimize it, leading to pseudo-labels that maintain alignment across modalities and consistency within intra-modality structures. Additionally, a straightforward plug-and-play Online Cross-memory Label Refinement (OCLR) module is proposed to further mitigate the impact of noisy pseudo-labels while simultaneously aligning different modalities, coupled with a Modality-Invariant Representation Learning (MIRL) framework. Experiments demonstrate that our proposed method outperforms existing USL-VI-ReID methods, highlighting the superiority of our MULT in comparison to other cross-modality association methods. The code will be available.
翻訳日:2024-02-02 15:05:23 公開日:2024-02-01
# スケーラブルな監視とアンサンブル学習による弱相関一般化の改善

Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning ( http://arxiv.org/abs/2402.00667v1 )

ライセンス: Link先を確認
Jitao Sang, Yuhang Wang, Jing Zhang, Yanxu Zhu, Chao Kong, Junhong Ye, Shuyu Wei and Jinlin Xiao(参考訳) 本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。 superalignmentは、複雑なハイリスクなタスクを扱う場合、ハイレベルなaiシステムが人間の価値や意図と一貫性を保つことに注力する。 W2SGフレームワークは、この進化分野における実証研究の新しい可能性を開いた。 本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。 第1フェーズでは、人間の監督に基づき、スケーラブルな監視とアンサンブル学習の組み合わせにより、弱い監督の質が向上し、弱い教師と強い生徒の能力格差が軽減される。 第2段階では、弱スーパーバイザとして自動アライメント評価器を用いる。 この自動整合器を再帰的に更新することにより、弱教師モデルの能力は同期的に向上し、より強力な学生モデルに対して弱い監督を達成し、第1フェーズにおける提案手法の早期検証も提供する。 例えば、sciqタスクを使用して、袋詰めとブースティングを通じて、弱い教師モデルのアンサンブル学習を探求する。 スケーラブルな監視は、人間とAIのインタラクションとAIとAIの議論という2つの補助的な設定を通じて行われる。 さらに、テキスト内学習に基づく弱体化の強化に弱体化が及ぼす影響についても論じる。 実験コードとデータセットはhttps://github.com/adam-bjtu/w2sgでリリースされる。

This paper presents a follow-up study to OpenAI's recent superalignment work on Weak-to-Strong Generalization (W2SG). Superalignment focuses on ensuring that high-level AI systems remain consistent with human values and intentions when dealing with complex, high-risk tasks. The W2SG framework has opened new possibilities for empirical research in this evolving field. Our study simulates two phases of superalignment under the W2SG framework: the development of general superhuman models and the progression towards superintelligence. In the first phase, based on human supervision, the quality of weak supervision is enhanced through a combination of scalable oversight and ensemble learning, reducing the capability gap between weak teachers and strong students. In the second phase, an automatic alignment evaluator is employed as the weak supervisor. By recursively updating this auto aligner, the capabilities of the weak teacher models are synchronously enhanced, achieving weak-to-strong supervision over stronger student models.We also provide an initial validation of the proposed approach for the first phase. Using the SciQ task as example, we explore ensemble learning for weak teacher models through bagging and boosting. Scalable oversight is explored through two auxiliary settings: human-AI interaction and AI-AI debate. Additionally, the paper discusses the impact of improved weak supervision on enhancing weak-to-strong generalization based on in-context learning. Experiment code and dataset will be released at https://github.com/ADaM-BJTU/W2SG.
翻訳日:2024-02-02 15:04:51 公開日:2024-02-01
# 非対称単純排他過程(ASEP)のスペクトル境界 --自由フェルミオン、ベーテアンサッツおよびランダム行列理論

The spectral boundary of the Asymmetric Simple Exclusion Process (ASEP) -- free fermions, Bethe ansatz and random matrix theory ( http://arxiv.org/abs/2402.00662v1 )

ライセンス: Link先を確認
Goran Nakerst, Toma\v{z} Prosen, Masudul Haque(参考訳) 非平衡統計力学において、非対称単純排他過程(ASEP)はパラダイム的な例である。 我々は,asepのスペクトル特性を調べ,その生成行列のスペクトル境界に着目した。 周期 (pbc) および開境界条件 (obc) の下で長さ$L$の有限ASEP鎖について検討する。 特にスペクトル境界はpbcの$L$スパイクとobcの$L+1$スパイクを示す。 相互作用する非エルミタンフェルミオンモデルとしてASEPジェネレータを扱い、モデルを調整可能な相互作用に拡張する。 非相互作用の場合、解析的に計算された多体スペクトルは、顕著なスパイクを持つスペクトル境界を示す。 pbc の場合、座標 Bethe ansatz を用いて、相互作用しないケースと ASEP の極限を補間し、これらのスパイクが Bethe 根のクラスタリングに由来することを示す。 スペクトル境界におけるスパイクのロバスト性は、asep生成器とトレース相関を持つランダム行列を結合するか、または、同一の異なるサイクル構造を持つランダムグラフを結合することによって証明される。

In non-equilibrium statistical mechanics, the Asymmetric Simple Exclusion Process (ASEP) serves as a paradigmatic example. We investigate the spectral characteristics of the ASEP, focusing on the spectral boundary of its generator matrix. We examine finite ASEP chains of length $L$, under periodic (pbc) and open boundary conditions (obc). Notably, the spectral boundary exhibits $L$ spikes for pbc and $L+1$ spikes for obc. Treating the ASEP generator as an interacting non-Hermitian fermionic model, we extend the model to have tunable interaction. In the non-interacting case, the analytically computed many-body spectrum shows a spectral boundary with prominent spikes. For pbc, we use the coordinate Bethe ansatz to interpolate between the noninteracting case to the ASEP limit, and show that these spikes stem from clustering of Bethe roots. The robustness of the spikes in the spectral boundary is demonstrated by linking the ASEP generator to random matrices with trace correlations or, equivalently, random graphs with distinct cycle structures, both displaying similar spiked spectral boundaries.
翻訳日:2024-02-02 15:04:29 公開日:2024-02-01
# 機械学習分類器を用いた重みモード選択のモデル化:コモディティフローサーベイ(CFS)データを用いた比較検討

Modeling Freight Mode Choice Using Machine Learning Classifiers: A Comparative Study Using the Commodity Flow Survey (CFS) Data ( http://arxiv.org/abs/2402.00659v1 )

ライセンス: Link先を確認
Majbah Uddin, Sabreena Anowar, and Naveen Eluru(参考訳) 本研究では,貨物モード選択のモデル化における機械学習分類器の有用性について検討する。 本研究では,従来のマルチノードロジットモデルとともに,Naive Bayes, Support Vector Machine, Artificial Neural Network, K-Nearest Neighbors, Classification and Regression Tree, Random Forest, Boosting and Baggingの8つの機械学習分類器について検討した。 米国2012年のコモディティフローサーベイデータは、一次データソースとして使われ、二次データソースからの空間属性で補強します。 予測精度結果に基づいて分類器の性能を比較する。 本研究は,様々なアプローチの予測能力に及ぼすサンプルサイズとトレーニングテストデータ分割率の役割についても検討する。 さらに、変数の重要性を推定し、変数が貨物モードの選択にどのように影響するかを決定する。 その結果,木に基づくアンサンブル分類器が最良であることがわかった。 特にランダムフォレストは最も正確な予測を行い、その後にブースティングとバギングが続いた。 ばらつきの重要性については、出荷距離、出荷者の産業分類、出荷規模といった出荷特性が、貨物モードの選択決定において最も重要な要因である。

This study explores the usefulness of machine learning classifiers for modeling freight mode choice. We investigate eight commonly used machine learning classifiers, namely Naive Bayes, Support Vector Machine, Artificial Neural Network, K-Nearest Neighbors, Classification and Regression Tree, Random Forest, Boosting and Bagging, along with the classical Multinomial Logit model. US 2012 Commodity Flow Survey data are used as the primary data source; we augment it with spatial attributes from secondary data sources. The performance of the classifiers is compared based on prediction accuracy results. The current research also examines the role of sample size and training-testing data split ratios on the predictive ability of the various approaches. In addition, the importance of variables is estimated to determine how the variables influence freight mode choice. The results show that the tree-based ensemble classifiers perform the best. Specifically, Random Forest produces the most accurate predictions, closely followed by Boosting and Bagging. With regard to variable importance, shipment characteristics, such as shipment distance, industry classification of the shipper and shipment size, are the most significant factors for freight mode choice decisions.
翻訳日:2024-02-02 15:04:09 公開日:2024-02-01
# トラジェクタ収集とプロセス報酬合成による学習計画に基づく推論

Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing ( http://arxiv.org/abs/2402.00658v1 )

ライセンス: Link先を確認
Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty(参考訳) 大規模言語モデル(llm)は、ステップバイステップの合理化によって複雑な推論タスクを処理する上で大きな可能性を示している。 しかし、近年の研究は、その推論過程の幻覚と欠陥に関する懸念を提起している。 生成された合理性の信頼性と忠実性を改善するため、実質的な努力がなされている。 計画としての推論をモデル化するアプローチもあるが、プロセス監督のための注釈にフォーカスするアプローチもある。 それにもかかわらず、計画に基づく探索プロセスは、しばしば中間的推論状態と広範囲な探索空間の頻繁な評価のために高いレイテンシーをもたらす。 加えて、人間のアノテーションによる推論プロセスの監視は、LLMトレーニングのために費用がかかり、スケールが難しい。 これらの課題に対処するため,本論文では,プロセス報酬に応じてランク付けされた収集トラジェクトリの直接選好最適化(DPO)を通じて,計画に基づく推論を学習するフレームワークを提案する。 論理的推論ベンチマークに挑戦した結果から,学習フレームワークの有効性が示され,gpt-3.5-turboのような強固なフレームワークを7bモデルで越えることができた。

Large Language Models (LLMs) have demonstrated significant potential in handling complex reasoning tasks through step-by-step rationale generation. However, recent studies have raised concerns regarding the hallucination and flaws in their reasoning process. Substantial efforts are being made to improve the reliability and faithfulness of the generated rationales. Some approaches model reasoning as planning, while others focus on annotating for process supervision. Nevertheless, the planning-based search process often results in high latency due to the frequent assessment of intermediate reasoning states and the extensive exploration space. Additionally, supervising the reasoning process with human annotation is costly and challenging to scale for LLM training. To address these issues, in this paper, we propose a framework to learn planning-based reasoning through direct preference optimization (DPO) on collected trajectories, which are ranked according to synthesized process rewards. Our results on challenging logical reasoning benchmarks demonstrate the effectiveness of our learning framework, showing that our 7B model can surpass the strong counterparts like GPT-3.5-Turbo.
翻訳日:2024-02-02 15:03:50 公開日:2024-02-01
# 脆弱性解析タスクのプログラム依存性予測による事前学習

Pre-training by Predicting Program Dependencies for Vulnerability Analysis Tasks ( http://arxiv.org/abs/2402.00657v1 )

ライセンス: Link先を確認
Zhongxin Liu, Zhijie Tang, Junwei Zhang, Xin Xia, and Xiaohu Yang(参考訳) 脆弱性分析はソフトウェアセキュリティにとって不可欠である。 この研究は、脆弱性コードの理解を強化し、脆弱性分析を促進するために、事前トレーニング技術を使うことに焦点を当てている。 事前学習モデルのコード理解能力は,その事前学習目標と強く関連している。 コードの制御やデータ依存といったセマンティック構造は、脆弱性分析において重要である。 しかし、既存の事前学習の目的は、そのような構造を無視したり、それを使うための学習に集中する。 意味構造分析の知識を習得する可能性とメリットは検討されていない。 この目的のために本研究では,ソースコードのみに基づくコードスニペットにおいて,文レベルの制御依存性とトークンレベルのデータ依存性をそれぞれ予測することを目的とした,制御依存性予測(CDP)とデータ依存性予測(DDP)という,2つの新たな事前学習目標を提案する。 事前トレーニングの間、CDPとDDPは、コード内のきめ細かい依存関係を分析するのに必要な知識を学ぶためにモデルをガイドすることができる。 事前トレーニング後、事前トレーニングされたモデルは、微調整中の脆弱なコードの理解を高めることができ、部分関数と完全関数の両方の依存分析を直接行うことができる。 事前学習対象の利点を示すために,PDBERT という名前の Transformer モデルを CDP と DDP で事前学習し,脆弱性検出,脆弱性分類,脆弱性評価という3つの脆弱性解析タスクで微調整し,プログラム依存解析で評価する。 実験の結果,PDBERT は CDP と DDP の恩恵を受け,3 つの下流タスクにおける最先端のパフォーマンスが得られた。 またPDBERTは、部分関数と完全関数でそれぞれ制御とデータ依存を予測するために、99%以上と94%以上のF1スコアを達成する。

Vulnerability analysis is crucial for software security. This work focuses on using pre-training techniques to enhance the understanding of vulnerable code and boost vulnerability analysis. The code understanding ability of a pre-trained model is highly related to its pre-training objectives. The semantic structure, e.g., control and data dependencies, of code is important for vulnerability analysis. However, existing pre-training objectives either ignore such structure or focus on learning to use it. The feasibility and benefits of learning the knowledge of analyzing semantic structure have not been investigated. To this end, this work proposes two novel pre-training objectives, namely Control Dependency Prediction (CDP) and Data Dependency Prediction (DDP), which aim to predict the statement-level control dependencies and token-level data dependencies, respectively, in a code snippet only based on its source code. During pre-training, CDP and DDP can guide the model to learn the knowledge required for analyzing fine-grained dependencies in code. After pre-training, the pre-trained model can boost the understanding of vulnerable code during fine-tuning and can directly be used to perform dependence analysis for both partial and complete functions. To demonstrate the benefits of our pre-training objectives, we pre-train a Transformer model named PDBERT with CDP and DDP, fine-tune it on three vulnerability analysis tasks, i.e., vulnerability detection, vulnerability classification, and vulnerability assessment, and also evaluate it on program dependence analysis. Experimental results show that PDBERT benefits from CDP and DDP, leading to state-of-the-art performance on the three downstream tasks. Also, PDBERT achieves F1-scores of over 99% and 94% for predicting control and data dependencies, respectively, in partial and complete functions.
翻訳日:2024-02-02 15:03:29 公開日:2024-02-01
# 貨物モード選択モデルの精度向上:2017 CFS PUFデータセットとアンサンブル学習技術を用いた事例研究

Improving the accuracy of freight mode choice models: A case study using the 2017 CFS PUF data set and ensemble learning techniques ( http://arxiv.org/abs/2402.00654v1 )

ライセンス: Link先を確認
Diyi Liu, Hyeonsup Lim, Majbah Uddin, Yuandong Liu, Lee D. Han, Ho-ling Hwang, Shih-Miao Chin(参考訳) 米国国勢調査局は、2012年(公用マイクロデータ)と2017年(公用ファイル)に発行された全国的な商品運動の出荷レベルの特性を提供する、コモディティフロー調査から2つの実験データを収集した。 この情報によって,貨物物流の詳細なパターンを理解する上で,データ駆動型手法の価値がますます高まっている。 In this study, we used the 2017 Commodity Flow Survey Public Use File data set to explore building a high-performance freight mode choice model, considering three main improvements: (1) constructing local models for each separate commodity/industry category; (2) extracting useful geographical features, particularly the derived distance of each freight mode between origin/destination zones; and (3) applying additional ensemble learning methods such as stacking or voting to combine results from local and unified models for improved performance. 提案手法は外部情報を組み込まずに92%以上の精度を達成し、ランダムフォレストモデルに1万以上のサンプルを適用した場合に比べて19%以上向上した。 さらに、SHAP(Shapely Additive Explanations)値を計算して、提案モデルから得られた出力と主要なパターンを説明した。 モデルフレームワークは既存の貨物モード選択モデルの性能と解釈可能性を高めることができる。

The US Census Bureau has collected two rounds of experimental data from the Commodity Flow Survey, providing shipment-level characteristics of nationwide commodity movements, published in 2012 (i.e., Public Use Microdata) and in 2017 (i.e., Public Use File). With this information, data-driven methods have become increasingly valuable for understanding detailed patterns in freight logistics. In this study, we used the 2017 Commodity Flow Survey Public Use File data set to explore building a high-performance freight mode choice model, considering three main improvements: (1) constructing local models for each separate commodity/industry category; (2) extracting useful geographical features, particularly the derived distance of each freight mode between origin/destination zones; and (3) applying additional ensemble learning methods such as stacking or voting to combine results from local and unified models for improved performance. The proposed method achieved over 92% accuracy without incorporating external information, an over 19% increase compared to directly fitting Random Forests models over 10,000 samples. Furthermore, SHAP (Shapely Additive Explanations) values were computed to explain the outputs and major patterns obtained from the proposed model. The model framework could enhance the performance and interpretability of existing freight mode choice models.
翻訳日:2024-02-02 15:02:57 公開日:2024-02-01
# コヒーレントフィードフォワード量子ニューラルネットワーク

Coherent Feed Forward Quantum Neural Network ( http://arxiv.org/abs/2402.00653v1 )

ライセンス: Link先を確認
Utkarsh Singh, Aaron Z. Goldberg, Khabat Heshami(参考訳) 量子ニューラルネットワーク(QNN)に焦点をあてた量子機械学習は、いまだに膨大な研究分野である。 現在のQNNモデルは、主にアンサッツまたは量子特徴写像上の変動回路を使用し、しばしば複数の絡み合う層を必要とする。 この手法は、短期量子デバイスで実用化されている以上の回路の計算コストを増加させるだけでなく、典型的なフィードフォワードニューラルネットワーク(FFNN)の構造から分岐していることから、これらのモデルをニューラルネットワークとして誤ってラベル付けする。 さらに、これらのモデルの回路深度とキュービットのニーズは、データ機能の数で十分にスケールできないため、現実の機械学習タスクでは効率が問題となる。 我々は従来のFFNNの汎用性を適応可能な中間層とノードの観点からシームレスに整合させるボナフェイドQNNモデルを提案する。 このモデルは、回路深度を低減し、QNNモデルを上回るために必要となるC-NOTゲートの数で際立っている。 さらに、我々のモデルにおけるqubitカウントは、データの特徴量の影響を受けないままである。 本研究では,診断乳がん(Wisconsin)やクレジットカード不正検出データセットなど,さまざまなベンチマークデータセットを用いて提案モデルを検証した。 我々は,従来のQNN手法とモデルの結果を比較し,量子資源の要求を減らしたとしても,我々のアプローチの有利な有効性を示す。 我々のモデルは、量子ニューラルネットワークを実際の関連する機械学習問題に応用する方法を舗装する。

Quantum machine learning, focusing on quantum neural networks (QNNs), remains a vastly uncharted field of study. Current QNN models primarily employ variational circuits on an ansatz or a quantum feature map, often requiring multiple entanglement layers. This methodology not only increases the computational cost of the circuit beyond what is practical on near-term quantum devices but also misleadingly labels these models as neural networks, given their divergence from the structure of a typical feed-forward neural network (FFNN). Moreover, the circuit depth and qubit needs of these models scale poorly with the number of data features, resulting in an efficiency challenge for real-world machine-learning tasks. We introduce a bona fide QNN model, which seamlessly aligns with the versatility of a traditional FFNN in terms of its adaptable intermediate layers and nodes, absent from intermediate measurements such that our entire model is coherent. This model stands out with its reduced circuit depth and number of requisite C-NOT gates to outperform prevailing QNN models. Furthermore, the qubit count in our model remains unaffected by the data's feature quantity. We test our proposed model on various benchmarking datasets such as the diagnostic breast cancer (Wisconsin) and credit card fraud detection datasets. We compare the outcomes of our model with the existing QNN methods to showcase the advantageous efficacy of our approach, even with a reduced requirement on quantum resources. Our model paves the way for application of quantum neural networks to real relevant machine learning problems.
翻訳日:2024-02-02 15:02:22 公開日:2024-02-01
# スペクトル変換されたカーネル回帰

Spectrally Transformed Kernel Regression ( http://arxiv.org/abs/2402.00645v1 )

ライセンス: Link先を確認
Runtian Zhai, Rattana Pukdee, Roger Jin, Maria-Florina Balcan, Pradeep Ravikumar(参考訳) ラベルなしデータは、現代の機械学習の重要なコンポーネントである。 一般に、ラベルのないデータの役割は、通常、$\epsilon$-neighborカーネルやグラフの隣接行列のようなベースカーネルで符号化された類似性情報から、滑らかさの形式を課すことである。 この研究は、スペクトル変換型カーネル回帰(stkr)の古典的な考え方を再検討し、ラベルのないデータを活用することができる汎用的でスケーラブルなstkr推定器の新たなクラスを提供する。 直感的には、スペクトル変換によって、stkrはラベルのないデータが追加情報を提供できるデータ分布を利用する。 まず、STKRは「ターゲットの滑らかさ」の普遍型を特徴づけ、十分滑らかな関数をSTKRで学べることによって、原則的で一般的なアプローチであることが示される。 第2に,インダクティブ設定と一般変換関数のためのスケーラブルなstkr実装を提供する一方で,先行作業はトランスダクティブ設定に限られる。 第三に、既知の多項式変換を持つSTKRと、変換が未知のカーネルPCAを持つSTKRの2つのシナリオに対する統計的保証を導出する。 全体として、この研究はラベルのないデータを扱う方法の理解を深め、その一般化によって新しいメソッドのインスピレーションが容易になると考えている。

Unlabeled data is a key component of modern machine learning. In general, the role of unlabeled data is to impose a form of smoothness, usually from the similarity information encoded in a base kernel, such as the $\epsilon$-neighbor kernel or the adjacency matrix of a graph. This work revisits the classical idea of spectrally transformed kernel regression (STKR), and provides a new class of general and scalable STKR estimators able to leverage unlabeled data. Intuitively, via spectral transformation, STKR exploits the data distribution for which unlabeled data can provide additional information. First, we show that STKR is a principled and general approach, by characterizing a universal type of "target smoothness", and proving that any sufficiently smooth function can be learned by STKR. Second, we provide scalable STKR implementations for the inductive setting and a general transformation function, while prior work is mostly limited to the transductive setting. Third, we derive statistical guarantees for two scenarios: STKR with a known polynomial transformation, and STKR with kernel PCA when the transformation is unknown. Overall, we believe that this work helps deepen our understanding of how to work with unlabeled data, and its generality makes it easier to inspire new methods.
翻訳日:2024-02-02 15:01:37 公開日:2024-02-01
# ランダム森林によるストロークアウトの予測

Random Forest-Based Prediction of Stroke Outcome ( http://arxiv.org/abs/2402.00638v1 )

ライセンス: Link先を確認
Carlos Fernandez-Lozano, Pablo Hervella, Virginia Mato-Abad, Manuel Rodriguez-Yanez, Sonia Suarez-Garaboa, Iria Lopez-Dequidt, Ana Estany-Gestal, Tomas Sobrino, Francisco Campos, Jose Castillo, Santiago Rodriguez-Yanez and Ramon Iglesias-Rey(参考訳) 脳卒中患者の予後に関連する臨床・生化学的・神経画像化因子について検討し, 入院3カ月後の死亡率と死亡率の予測に機械学習を用いた予測モデルを構築した。 本データセットは虚血性脳梗塞 (IS) と非外傷性脳内出血 (ICH) をともなう欧州第三次病院の脳卒中単位 (Stroke Unit) を前向きに登録した。 我々は,患者の死亡・死亡を推定できる予測モデルを生成する機械学習ランダムフォレスト(RF)の主な変数を特定した。 結論として、機械学習アルゴリズムRFは脳卒中患者の死亡率と死亡率の長期予後予測に有効である。

We research into the clinical, biochemical and neuroimaging factors associated with the outcome of stroke patients to generate a predictive model using machine learning techniques for prediction of mortality and morbidity 3 months after admission. The dataset consisted of patients with ischemic stroke (IS) and non-traumatic intracerebral hemorrhage (ICH) admitted to Stroke Unit of a European Tertiary Hospital prospectively registered. We identified the main variables for machine learning Random Forest (RF), generating a predictive model that can estimate patient mortality/morbidity. In conclusion, machine learning algorithms RF can be effectively used in stroke patients for long-term outcome prediction of mortality and morbidity.
翻訳日:2024-02-02 15:00:58 公開日:2024-02-01
# 魚眼カメラと超音波センサーによる鳥の視界近傍の障害物認識

Fisheye Camera and Ultrasonic Sensor Fusion For Near-Field Obstacle Perception in Bird's-Eye-View ( http://arxiv.org/abs/2402.00637v1 )

ライセンス: Link先を確認
Arindam Das, Sudarshan Paul, Niko Scholz, Akhilesh Kumar Malviya, Ganesh Sistu, Ujjwal Bhattacharya, and Ciar\'an Eising(参考訳) 正確な障害物識別は、自動運転における近接場認識の領域における根本的な課題である。 従来、魚眼カメラは、後部障害物の定位を含む包括的サラウンドビューの知覚によく使用される。 しかし、このようなカメラの性能は、夜間の低照度、強烈な日光にさらされた場合、著しく劣化する可能性がある。 逆に、超音波センサーのようなコスト効率のよいセンサーは、これらの条件下ではほとんど影響を受けない。 そこで本研究では,魚眼カメラと超音波センサを用いて,鳥眼ビュー(BEV)の観点からの効率的な障害物認識に適した,最初のエンドツーエンドのマルチモーダル融合モデルを提案する。 当初、resnext-50はユニモーダルエンコーダの集合として用いられ、各モダリティ特有の特徴を抽出する。 その後、可視スペクトルに関連する特徴空間がBEVに変換される。 これら2つのモダリティの融合は連結によって促進される。 同時に、超音波スペクトルに基づく一方向特徴写像は、コンテントを意識した拡張畳み込みを通し、融合特徴空間内の2つのセンサ間のセンサの不整合を緩和する。 最後に、融合した特徴を2段階のセマンティック占有デコーダで利用し、正確な障害物知覚のためのグリッドワイズ予測を生成する。 両センサのマルチモーダル融合の最適戦略を決定するための体系的調査を行う。 データセット作成手順やガイドラインに関する洞察を提供し、すべてのシナリオの適切なカバレッジを確保するために、詳細なデータ分析を行います。 このデータセットに適用した場合,提案手法の堅牢性と有効性を示す実験結果が得られた。

Accurate obstacle identification represents a fundamental challenge within the scope of near-field perception for autonomous driving. Conventionally, fisheye cameras are frequently employed for comprehensive surround-view perception, including rear-view obstacle localization. However, the performance of such cameras can significantly deteriorate in low-light conditions, during nighttime, or when subjected to intense sun glare. Conversely, cost-effective sensors like ultrasonic sensors remain largely unaffected under these conditions. Therefore, we present, to our knowledge, the first end-to-end multimodal fusion model tailored for efficient obstacle perception in a bird's-eye-view (BEV) perspective, utilizing fisheye cameras and ultrasonic sensors. Initially, ResNeXt-50 is employed as a set of unimodal encoders to extract features specific to each modality. Subsequently, the feature space associated with the visible spectrum undergoes transformation into BEV. The fusion of these two modalities is facilitated via concatenation. At the same time, the ultrasonic spectrum-based unimodal feature maps pass through content-aware dilated convolution, applied to mitigate the sensor misalignment between two sensors in the fused feature space. Finally, the fused features are utilized by a two-stage semantic occupancy decoder to generate grid-wise predictions for precise obstacle perception. We conduct a systematic investigation to determine the optimal strategy for multimodal fusion of both sensors. We provide insights into our dataset creation procedures, annotation guidelines, and perform a thorough data analysis to ensure adequate coverage of all scenarios. When applied to our dataset, the experimental results underscore the robustness and effectiveness of our proposed multimodal fusion approach.
翻訳日:2024-02-02 15:00:10 公開日:2024-02-01
# カスケードと直接音声翻訳における韻律--韓国語wh-phrasesを事例として

Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases ( http://arxiv.org/abs/2402.00632v1 )

ライセンス: Link先を確認
Giulio Zhou, Tsz Kin Lam, Alexandra Birch, Barry Haddow(参考訳) speech-to-text translation (s2tt) は通常カスケードシステムで処理され、音声認識システムは後に翻訳モデルに渡される書き起こしを生成する。 誤りの伝播や非言語的内容の喪失を避けるための直接音声翻訳システム開発への関心が高まっているが、直接S2TTにおける先行研究は、音響信号を直接翻訳プロセスに統合する利点を決定的に確立することに苦慮している。 本研究は,プロソディが重要な役割を担う発話の曖昧さを解消する直接s2ttシステムの能力を定量的に測定するための対比的評価法を提案する。 具体的には, 文言・問答・問答・問答など, 正しい意図で翻訳を行うためには, 韻律的特徴が不可欠である, 単語を含むテストセットを用いて, 韓国英語翻訳システムの評価を行った。 その結果, 逐次翻訳モデルに対する直接翻訳システムの価値が明らかになり, あいまいなケースでは全体の精度が12.9%向上し, 主要な意図カテゴリーの1つでは最大15.6%向上した。 我々の知る限りでは、この研究は、直接S2TTモデルが韻律を効果的に活用できるという定量的証拠を初めて提示するものである。 評価のためのコードは公開されており、レビューや利用には自由に利用できます。

Speech-to-Text Translation (S2TT) has typically been addressed with cascade systems, where speech recognition systems generate a transcription that is subsequently passed to a translation model. While there has been a growing interest in developing direct speech translation systems to avoid propagating errors and losing non-verbal content, prior work in direct S2TT has struggled to conclusively establish the advantages of integrating the acoustic signal directly into the translation process. This work proposes using contrastive evaluation to quantitatively measure the ability of direct S2TT systems to disambiguate utterances where prosody plays a crucial role. Specifically, we evaluated Korean-English translation systems on a test set containing wh-phrases, for which prosodic features are necessary to produce translations with the correct intent, whether it's a statement, a yes/no question, a wh-question, and more. Our results clearly demonstrate the value of direct translation systems over cascade translation models, with a notable 12.9% improvement in overall accuracy in ambiguous cases, along with up to a 15.6% increase in F1 scores for one of the major intent categories. To the best of our knowledge, this work stands as the first to provide quantitative evidence that direct S2TT models can effectively leverage prosody. The code for our evaluation is openly accessible and freely available for review and utilisation.
翻訳日:2024-02-02 14:59:12 公開日:2024-02-01
# chaosbench: 季節-季節間気候予測のためのマルチチャネル物理ベースのベンチマーク

ChaosBench: A Multi-Channel, Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction ( http://arxiv.org/abs/2402.00712v1 )

ライセンス: Link先を確認
Juan Nathaniel, Yongquan Qu, Tung Nguyen, Sungduk Yu, Julius Busecke, Aditya Grover, Pierre Gentine(参考訳) 季節-季節スケールの正確な気候予測は、災害の準備、経済リスクの低減、気候変動に伴う政策決定の改善に不可欠である。 しかし、s2sの予測はシステムのカオス性のために難しいままである。 現在、気象・気候に関する既存のベンチマークでは、(1)予測範囲が最大14日、(2)運用ベースライン予測が広範囲に含まれておらず、(3)説明可能性に関する物理ベースの制約が欠如している傾向にある。 そこで我々は,S2S予測のための大規模マルチチャネル物理ベースのベンチマークChaosBenchを提案する。 chaosbenchには460万フレーム以上の実世界の観測とシミュレーションがあり、それぞれ60の可変チャネルと最大45年のスパンがある。 また、より物理的に一貫性のあるモデルを可能にするビジョンベースのメトリクスに加えて、物理に基づくいくつかのメトリクスを提案する。 さらに,4つの気象庁の物理ベースの予測を,データ駆動型気象庁のベースラインとして多種多様に含む。 複雑性の異なる2つのタスク、フルとスパースダイナミクスの予測を確立します。 私たちのベンチマークは、panguweather、fourcastnetv2、graphcast、climaxなど既存のモデルで大規模評価を行い、当初s2sタスクでフェールしたウェザースケールアプリケーション向けに開発された手法を見つけ出した最初の例です。 私たちはベンチマークコードとデータセットをhttps://leap-stc.github.io/chaosbenchでリリースします。

Accurate prediction of climate in the subseasonal-to-seasonal scale is crucial for disaster readiness, reduced economic risk, and improved policy-making amidst climate change. Yet, S2S prediction remains challenging due to the chaotic nature of the system. At present, existing benchmarks for weather and climate applications, tend to (1) have shorter forecasting range of up-to 14 days, (2) do not include a wide range of operational baseline forecasts, and (3) lack physics-based constraints for explainability. Thus, we propose ChaosBench, a large-scale, multi-channel, physics-based benchmark for S2S prediction. ChaosBench has over 460K frames of real-world observations and simulations, each with 60 variable-channels and spanning for up-to 45 years. We also propose several physics-based, in addition to vision-based metrics, that enables for a more physically-consistent model. Furthermore, we include a diverse set of physics-based forecasts from 4 national weather agencies as baselines to our data-driven counterpart. We establish two tasks that vary in complexity: full and sparse dynamics prediction. Our benchmark is one of the first to perform large-scale evaluation on existing models including PanguWeather, FourCastNetV2, GraphCast, and ClimaX, and finds methods originally developed for weather-scale applications fails on S2S task. We release our benchmark code and datasets at https://leap-stc.github.io/ChaosBench.
翻訳日:2024-02-02 14:52:01 公開日:2024-02-01
# 事実表現を用いたテキスト分類器の解説

Explaining Text Classifiers with Counterfactual Representations ( http://arxiv.org/abs/2402.00711v1 )

ライセンス: Link先を確認
Pirmin Lemberger, Antoine Saillenfest(参考訳) 分類器のよく動機付けられた1つの説明法は、一つの分類的特徴を除いて全ての面における実観測と同一の仮説的事象である反事実を利用する。 しかし、そのような偽造は、ある属性値が必ずしも有望な現実世界の出来事と一致するとは限らないため、テキストに特定の課題をもたらす。 本稿では,この制限を回避したテキスト表現空間に介入することで,対物生成の簡易な手法を提案する。 我々は、我々の介入は最小限の破壊的であり、パールの因果推論フレームワークで定義された反事実と一致して理論的に健全であると主張する。 提案手法を検証するために,まず,提案手法の合成データセットを用いて実験を行い,(明示的なテキスト介入によって得られた)真偽事実に基づく分類器の予測と,表現空間の介入によって導出される偽事実との直接比較を行った。 第二に、分類器の説明とバイアス緩和の両方に反事実を活用できる現実世界のシナリオについて検討する。

One well motivated explanation method for classifiers leverages counterfactuals which are hypothetical events identical to real observations in all aspects except for one categorical feature. Constructing such counterfactual poses specific challenges for texts, however, as some attribute values may not necessarily align with plausible real-world events. In this paper we propose a simple method for generating counterfactuals by intervening in the space of text representations which bypasses this limitation. We argue that our interventions are minimally disruptive and that they are theoretically sound as they align with counterfactuals as defined in Pearl's causal inference framework. To validate our method, we first conduct experiments on a synthetic dataset of counterfactuals, allowing for a direct comparison between classifier predictions based on ground truth counterfactuals (obtained through explicit text interventions) and our counterfactuals, derived through interventions in the representation space. Second, we study a real world scenario where our counterfactuals can be leveraged both for explaining a classifier and for bias mitigation.
翻訳日:2024-02-02 14:51:36 公開日:2024-02-01
# 自律型4.0倉庫を目指して - ビッグデータ駆動サプライチェーン管理における在庫およびトレーサビリティアプリケーションのためのUAVおよびブロックチェーンベースのシステム

Towards an autonomous industry 4.0 warehouse: A UAV and blockchain-based system for inventory and traceability applications in big data-driven supply chain management ( http://arxiv.org/abs/2402.00709v1 )

ライセンス: Link先を確認
Tiago M. Fernandez-Carames, Oscar Blanco-Novoa, Ivan Froiz-Miguez, Paula Fraga-Lamas(参考訳) 本稿では,無線周波数識別(RFID)タグに付随する産業品のトレーサビリティを維持しつつ,在庫処理の自動化を目的としたUAVシステムの設計と評価を行う。 現在の欠点に対処するため、このようなシステムは、外部監査とビッグデータ分析を育成しながら、サイバーセキュリティと分散化の強化を目的とした、多彩でモジュール化されたスケーラブルなアーキテクチャの下で開発されている。 そのため、ブロックチェーンと分散台帳を使用して、UAVが収集した特定の在庫データを保存し、検証し、信頼性を確保し、関係者に利用できるようにする。 提案システムの性能を示すために,実工業倉庫で異なる検査を行い,従来の手動作業に比べて在庫データを非常に高速に取得できると同時に,タグの信号強度によって商品の位置を推定できることを示した。 さらに,提案するブロックチェーンベースのアーキテクチャの性能を,異なるシナリオで評価した。

In this paper we present the design and evaluation of a UAV-based system aimed at automating inventory tasks and keeping the traceability of industrial items attached to Radio-Frequency IDentification (RFID) tags. To confront current shortcomings, such a system is developed under a versatile, modular and scalable architecture aimed to reinforce cyber security and decentralization while fostering external audits and big data analytics. Therefore, the system uses a blockchain and a distributed ledger to store certain inventory data collected by UAVs, validate them, ensure their trustworthiness and make them available to the interested parties. In order to show the performance of the proposed system, different tests were performed in a real industrial warehouse, concluding that the system is able to obtain the inventory data really fast in comparison to traditional manual tasks, while being also able to estimate the position of the items when hovering over them thanks to their tag's signal strength. In addition, the performance of the proposed blockchain-based architecture was evaluated in different scenarios.
翻訳日:2024-02-02 14:51:17 公開日:2024-02-01
# 隣り合う非交換型コンフォーマル言語生成

Non-Exchangeable Conformal Language Generation with Nearest Neighbors ( http://arxiv.org/abs/2402.00707v1 )

ライセンス: Link先を確認
Dennis Ulmer, Chrysoula Zerva, Andr\'e F.T. Martins(参考訳) 自動生成テキストの不確かさを定量化することは、人間が潜在的な幻覚をチェックし、システムをより信頼できるものにするために重要である。 コンフォーマル予測は統計的保証を付与した予測を提供する魅力的なフレームワークであるが、任意のi.d.仮定が現実的ではないため、テキスト生成への応用は困難である。 本稿では,非交換性共形予測の最近の結果を活用することで,このギャップを解消する。 その結果、非交換性共形核サンプリングは、近接近傍に基づく共形予測フレームワークから生成への新しい拡張である。 本手法は,任意のモデルに対して,余分なトレーニングを伴わずにポストホックで使用することができ,統計的保証を備えたトークンレベルの校正予測セットを提供する。 機械翻訳と言語モデリングの実験は、生成品質の促進効果を示している。 適切なカバレッジを持つより厳密な予測セットを作成することにより、より理論的に原理的な方法で、共形保証でサンプリングを行うことができる。

Quantifying uncertainty in automatically generated text is important for letting humans check potential hallucinations and making systems more reliable. Conformal prediction is an attractive framework to provide predictions imbued with statistical guarantees, however, its application to text generation is challenging since any i.i.d. assumptions are not realistic. In this paper, we bridge this gap by leveraging recent results on non-exchangeable conformal prediction, which still ensures bounds on coverage. The result, non-exchangeable conformal nucleus sampling, is a novel extension of the conformal prediction framework to generation based on nearest neighbors. Our method can be used post-hoc for an arbitrary model without extra training and supplies token-level, calibrated prediction sets equipped with statistical guarantees. Experiments in machine translation and language modeling show encouraging results in generation quality. By also producing tighter prediction sets with good coverage, we thus give a more theoretically principled way to perform sampling with conformal guarantees.
翻訳日:2024-02-02 14:50:58 公開日:2024-02-01
# 出生率予測のためのデータチャレンジにおけるオランダ調査の強さと登録データの組み合わせ(PreFer)

Combining the Strengths of Dutch Survey and Register Data in a Data Challenge to Predict Fertility (PreFer) ( http://arxiv.org/abs/2402.00705v1 )

ライセンス: Link先を確認
Elizaveta Sivak, Paulina Pankowska, Adrienne Mendrik, Tom Emery, Javier Garcia-Bernardo, Seyit Hocuk, Kasia Karpinska, Angelica Maineri, Joris Mulder, Malvina Nissim, Gert Stulp(参考訳) 社会科学は、出生率の結果を決定する要因、または子供がいるかどうかについて、印象的な研究を行っている。 しかし、これらの行列式と基礎理論の強さは、新しいデータに対する予測能力についてはほとんど評価されない。 これにより、研究を体系的に比較し、知識の評価と蓄積を妨げることを防ぐことができる。 本稿では,オランダにおける出生率の予測可能性を研究するために使用できる2つのデータセットについて述べる。 1つのデータセットは、個別の好みや値を含む幅広いトピックに関する数千の変数を含む縦断調査であるISSパネルに基づいている。 もう一つはオランダの登録データに基づいており、位置データに欠けるが、オランダ住民数百万人の生活コースに関する詳細な情報を含んでいる。 データセットとサンプルに関する情報を提供し、興味のある結果について説明する。 また、これらのデータセットに基づいており、2024年春に開始予定のfertility prediction data challengeも紹介する。 これらのデータセットを用いて出生率の予測可能性を測定し、データチャレンジにおけるその強みを組み合わせることで、出生率行動と計算社会科学の理解を深める方法について概説する。 私たちはさらに、データチャレンジに参加する方法の詳細を参加者に提供します。

The social sciences have produced an impressive body of research on determinants of fertility outcomes, or whether and when people have children. However, the strength of these determinants and underlying theories are rarely evaluated on their predictive ability on new data. This prevents us from systematically comparing studies, hindering the evaluation and accumulation of knowledge. In this paper, we present two datasets which can be used to study the predictability of fertility outcomes in the Netherlands. One dataset is based on the LISS panel, a longitudinal survey which includes thousands of variables on a wide range of topics, including individual preferences and values. The other is based on the Dutch register data which lacks attitudinal data but includes detailed information about the life courses of millions of Dutch residents. We provide information about the datasets and the samples, and describe the fertility outcome of interest. We also introduce the fertility prediction data challenge PreFer which is based on these datasets and will start in Spring 2024. We outline the ways in which measuring the predictability of fertility outcomes using these datasets and combining their strengths in the data challenge can advance our understanding of fertility behaviour and computational social science. We further provide details for participants on how to take part in the data challenge.
翻訳日:2024-02-02 14:50:43 公開日:2024-02-01
# 自己構成光学と部分的コヒーレント光の測定、処理、生成

Measuring, processing, and generating partially coherent light with self-configuring optics ( http://arxiv.org/abs/2402.00704v1 )

ライセンス: Link先を確認
Charles Roques-Carmes, Shanhui Fan, and David Miller(参考訳) 光学現象は、常にそれぞれの自由度の間の部分的コヒーレンスを示す。 部分的コヒーレンスは、空間、偏光、スペクトルの自由度の間の古典的および量子的な相関が興味深い現象(例えば、絡み合い)につながり、高度なイメージングとセンシングのモダリティ(例えば、超スペクトル、偏光、ゴーストイメージング)に利用されるマルチモーダルシステムにおいて特に興味を持つ。 本稿では,自己設定型光ネットワークを用いたマルチモードシステムにおける空間的部分コヒーレント光の解析,処理,生成のための普遍的手法を提案する。 本手法は,平均出力が逐次最適化された自己構成層に依存する。 一度最適化されると、ネットワークは入力光を相互に不整合成分に分離し、これは入力密度行列の対角化と同値である。 我々は,マッハ・ツェンダー干渉計のアレイを用いて,この手法を部分的にコヒーレントな環境光センシング,任意のコヒーレント行列を持つ多重モード部分コヒーレント光の生成,量子光学混合物の非スクランブルにどのように使用できるかを示す。 この手法を実験的に実現するためのガイドラインを提供し,部分的コヒーレント光場の最適モード表現を自動学習するフォトニックデバイスの構成方法を提案する。

Optical phenomena always display some degree of partial coherence between their respective degrees of freedom. Partial coherence is of particular interest in multimodal systems, where classical and quantum correlations between spatial, polarization, and spectral degrees of freedom can lead to fascinating phenomena (e.g., entanglement) and be leveraged for advanced imaging and sensing modalities (e.g., in hyperspectral, polarization, and ghost imaging). Here, we present a universal method to analyze, process, and generate spatially partially coherent light in multimode systems by using self-configuring optical networks. Our method relies on cascaded self-configuring layers whose average power outputs are sequentially optimized. Once optimized, the network separates the input light into its mutually incoherent components, which is formally equivalent to a diagonalization of the input density matrix. We illustrate our method with arrays of Mach-Zehnder interferometers and show how this method can be used to perform partially coherent environmental light sensing, generation of multimode partially coherent light with arbitrary coherency matrices, and unscrambling of quantum optical mixtures. We provide guidelines for the experimental realization of this method, paving the way for self-configuring photonic devices that can automatically learn optimal modal representations of partially coherent light fields.
翻訳日:2024-02-02 14:50:24 公開日:2024-02-01
# 衛星からの車両知覚

Vehicle Perception from Satellite ( http://arxiv.org/abs/2402.00703v1 )

ライセンス: Link先を確認
Bin Zhao, Pengfei Han, and Xuelong Li(参考訳) 衛星は高解像度のビデオを撮影することができる。 衛星からの車両認識を可能にする。 ストリート監視やドライブレコーダー、その他の機器と比較して、衛星ビデオはより広い都市スケールのビューを提供し、トラフィックのグローバルなダイナミックなシーンをキャプチャして表示する。 衛星からのトラフィック監視は、交通渋滞の予測、経路計画、車両派遣、 \emph{etc。 }. 実際には、解像度とビューによって制限され、撮影された車両は非常に小さく(数ピクセル)、ゆっくりと動く。 さらに悪いことに、これらの衛星は高解像度のビデオを撮影するために低軌道(LEO)にあるため、背景も動いている。 この状況下では、衛星からの交通監視は非常に難しい課題である。 この分野により多くの研究者を惹きつけるため、衛星からの交通監視のための大規模なベンチマークを構築した。 小さな物体検出、計数、密度推定など、いくつかのタスクをサポートする。 データセットは、gta-vから記録された12の衛星ビデオと14の合成ビデオに基づいている。 ビデオクリップは408本、実際の衛星画像は7,336枚、合成画像は1,960枚である。 128,801台の車両に注釈を付け、各画像の車両数は0から101に変化する。 従来のコンピュータビジョンにおけるいくつかの古典的かつ最先端のアプローチをデータセット上で評価し、異なるアプローチのパフォーマンスを比較し、このタスクの課題を分析し、今後の展望について議論する。 データセットは以下の通りである。 https://github.com/Chenxi1510/Vehicle-Perception-from-Satellite-Videos。

Satellites are capable of capturing high-resolution videos. It makes vehicle perception from satellite become possible. Compared to street surveillance, drive recorder or other equipments, satellite videos provide a much broader city-scale view, so that the global dynamic scene of the traffic are captured and displayed. Traffic monitoring from satellite is a new task with great potential applications, including traffic jams prediction, path planning, vehicle dispatching, \emph{etc.}. Practically, limited by the resolution and view, the captured vehicles are very tiny (a few pixels) and move slowly. Worse still, these satellites are in Low Earth Orbit (LEO) to capture such high-resolution videos, so the background is also moving. Under this circumstance, traffic monitoring from the satellite view is an extremely challenging task. To attract more researchers into this field, we build a large-scale benchmark for traffic monitoring from satellite. It supports several tasks, including tiny object detection, counting and density estimation. The dataset is constructed based on 12 satellite videos and 14 synthetic videos recorded from GTA-V. They are separated into 408 video clips, which contain 7,336 real satellite images and 1,960 synthetic images. 128,801 vehicles are annotated totally, and the number of vehicles in each image varies from 0 to 101. Several classic and state-of-the-art approaches in traditional computer vision are evaluated on the datasets, so as to compare the performance of different approaches, analyze the challenges in this task, and discuss the future prospects. The dataset is available at: https://github.com/Chenxi1510/Vehicle-Perception-from-Satellite-Videos.
翻訳日:2024-02-02 14:49:53 公開日:2024-02-01
# PeaTMOSS: オープンソースソフトウェアにおける事前学習モデルのデータセットと初期分析

PeaTMOSS: A Dataset and Initial Analysis of Pre-Trained Models in Open-Source Software ( http://arxiv.org/abs/2402.00699v1 )

ライセンス: Link先を確認
Wenxin Jiang, Jerin Yasmin, Jason Jones, Nicholas Synovic, Jiashen Kuo, Nathaniel Bielanski, Yuan Tian, George K. Thiruvathukal, James C. Davis(参考訳) ディープラーニングモデルの開発とトレーニングはますます高価で複雑になっています。 その結果、ソフトウェアエンジニアは、下流アプリケーションに事前訓練されたモデル(PTM)を採用しています。 ptmサプライチェーンのダイナミクスはほとんど未調査のままであり、メタデータだけでなく、それに続くモデルの応用を文書化する構造化データセットの必要性を明確に示している。 このようなデータがないと、MSRコミュニティはPMMの採用と再利用の影響を包括的に理解できない。 本稿では,281,638 PTMのメタデータと50以上の月間ダウンロード(14,296 PTM)を含む全PTMの詳細なスナップショットを含むPeaTMOSSデータセットと,これらのモデルを利用するGitHubの28,575のオープンソースソフトウェアリポジトリについて述べる。 さらに、データセットには15,129のダウンストリームGitHubリポジトリから使用する2,530のPTMへの44,337のマッピングが含まれている。 データセットの包括性を高めるため、モデルのトレーニングデータセット、パラメータ、評価指標を含むモデルメタデータを自動的に抽出する大規模言語モデルのプロンプトを開発した。 本データセットの分析は, PTM のサプライチェーンに関する最初の要約統計を提供し, PTM 開発の動向と PTM パッケージドキュメンテーションの共通欠点を示している。 サンプルアプリケーションは、ptmとその依存するプロジェクト間のソフトウェアライセンスの不整合を明らかにします。 PeaTMOSSは将来の研究の基礎を築き、PTMサプライチェーンを調査する豊富な機会を提供する。 PTM, 下流利用, 横断的な質問に対するマイニングの機会について概説する。

The development and training of deep learning models have become increasingly costly and complex. Consequently, software engineers are adopting pre-trained models (PTMs) for their downstream applications. The dynamics of the PTM supply chain remain largely unexplored, signaling a clear need for structured datasets that document not only the metadata but also the subsequent applications of these models. Without such data, the MSR community cannot comprehensively understand the impact of PTM adoption and reuse. This paper presents the PeaTMOSS dataset, which comprises metadata for 281,638 PTMs and detailed snapshots for all PTMs with over 50 monthly downloads (14,296 PTMs), along with 28,575 open-source software repositories from GitHub that utilize these models. Additionally, the dataset includes 44,337 mappings from 15,129 downstream GitHub repositories to the 2,530 PTMs they use. To enhance the dataset's comprehensiveness, we developed prompts for a large language model to automatically extract model metadata, including the model's training datasets, parameters, and evaluation metrics. Our analysis of this dataset provides the first summary statistics for the PTM supply chain, showing the trend of PTM development and common shortcomings of PTM package documentation. Our example application reveals inconsistencies in software licenses across PTMs and their dependent projects. PeaTMOSS lays the foundation for future research, offering rich opportunities to investigate the PTM supply chain. We outline mining opportunities on PTMs, their downstream usage, and cross-cutting questions.
翻訳日:2024-02-02 14:49:26 公開日:2024-02-01
# テンプレートインバージョンを用いた最適モーフィング攻撃の近似

Approximating Optimal Morphing Attacks using Template Inversion ( http://arxiv.org/abs/2402.00695v1 )

ライセンス: Link先を確認
Laurent Colbois, Hatef Otroshi Shahreza, S\'ebastien Marcel(参考訳) 近年の研究では, 顔認識システムの実現可能性を示し, 埋め込みのみを用いて, 説得力のある顔画像の復元が可能となった。 このようなテンプレート・インバージョン・モデルを用いて,ソース画像の顔埋め込みの平均値として得られた理論的最適モルフォロジー埋め込みを反転させた新しいタイプの深層モーフィング・アタックを開発した。 1つは完全自己完結型埋め込みから画像への反転モデル、もう1つは事前学習されたスタイルガンネットワークの合成ネットワークを利用してモルフィズムを増大させる。 複数のソースデータセットからモーフィング攻撃を生成し,それらの攻撃の有効性について検討する。 提案手法は, ホワイトボックスとブラックボックスの攻撃シナリオにおいて, 深層学習に基づくモーメント生成において, 従来の技術と競合し, 定期的に打ち勝つことが可能であり, 実行もはるかに高速であることを示す。 これにより、トレーニング検出モデルのための大規模深層モーフデータセットの開発が容易になることを願っている。

Recent works have demonstrated the feasibility of inverting face recognition systems, enabling to recover convincing face images using only their embeddings. We leverage such template inversion models to develop a novel type ofdeep morphing attack based on inverting a theoretical optimal morph embedding, which is obtained as an average of the face embeddings of source images. We experiment with two variants of this approach: the first one exploits a fully self-contained embedding-to-image inversion model, while the second leverages the synthesis network of a pretrained StyleGAN network for increased morph realism. We generate morphing attacks from several source datasets and study the effectiveness of those attacks against several face recognition networks. We showcase that our method can compete with and regularly beat the previous state of the art for deep-learning based morph generation in terms of effectiveness, both in white-box and black-box attack scenarios, and is additionally much faster to run. We hope this might facilitate the development of large scale deep morph datasets for training detection models.
翻訳日:2024-02-02 14:49:02 公開日:2024-02-01
# 点雲清掃, 平面検出, 意味セグメンテーション構築のためのフレームワーク

A Framework for Building Point Cloud Cleaning, Plane Detection and Semantic Segmentation ( http://arxiv.org/abs/2402.00692v1 )

ライセンス: Link先を確認
Ilyass Abouelaziz, Youssef Mourchid(参考訳) 本稿では,ビルディング・モデリングの究極の目標として,ポイント・クラウド・クリーニング,平面検出,セマンティクスセグメンテーションの課題に対処するためのフレームワークを提案する。 我々は,zスコア測度に基づく適応しきい値手法を用いて,取得した点雲データから外れ値を取り除くことに焦点を当てた。 洗浄処理に続いて,ロバストなransacパラダイムを用いて平面検出を行う。 目標は、複数の平面分割を実行し、セグメントを床、天井、壁といった異なるカテゴリに分類することである。 得られたセグメントは、建物のアーキテクチャ要素を表す正確で詳細なポイントクラウドを生成することができる。 さらに,壁,窓,ドア,屋根,オブジェクトなど,建物内の異なる構成要素の識別・分類において重要な役割を担うセマンティックセグメンテーション(セマンティックセグメンテーション)の問題にも対処する。 PointNetアーキテクチャに触発されて,建物内の効率的なセマンティックセグメンテーションのためのディープラーニングアーキテクチャを提案する。 提案手法は,建築モデリングの分野における精度と効率の向上を図り,建築モデリングタスクの処理におけるフレームワークの有効性を実証する。

This paper presents a framework to address the challenges involved in building point cloud cleaning, plane detection, and semantic segmentation, with the ultimate goal of enhancing building modeling. We focus in the cleaning stage on removing outliers from the acquired point cloud data by employing an adaptive threshold technique based on z-score measure. Following the cleaning process, we perform plane detection using the robust RANSAC paradigm. The goal is to carry out multiple plane segmentations, and to classify segments into distinct categories, such as floors, ceilings, and walls. The resulting segments can generate accurate and detailed point clouds representing the building's architectural elements. Moreover, we address the problem of semantic segmentation, which plays a vital role in the identification and classification of different components within the building, such as walls, windows, doors, roofs, and objects. Inspired by the PointNet architecture, we propose a deep learning architecture for efficient semantic segmentation in buildings. The results demonstrate the effectiveness of the proposed framework in handling building modeling tasks, paving the way for improved accuracy and efficiency in the field of building modelization.
翻訳日:2024-02-02 14:48:44 公開日:2024-02-01
# Ocassionally Secure: コード生成アシスタントの比較分析

Ocassionally Secure: A Comparative Analysis of Code Generation Assistants ( http://arxiv.org/abs/2402.00689v1 )

ライセンス: Link先を確認
Ran Elgedawy, John Sadik, Senjuti Dutta, Anuj Gautam, Konstantinos Georgiou, Farzin Gholamrezae, Fujiao Ji, Kyungchan Lim, Qian Liu, and Scott Ruoti(参考訳) $$Large Language Models (LLMs) は、様々なアプリケーションでますます利用されており、コード世代が顕著な例である。 以前の研究では、LLMはセキュアで非セキュアなコードを生成する能力を持っていることが示されているが、どの要因がセキュアで効果的なコードを生成するかは考慮されていない。 そこで本稿では,LLMを実世界のシナリオに効果的かつ安全に展開し,高品質なコードを生成する状況と状況を特定し,理解することに焦点を当てる。 Google の ChatGPT と Bard と Gemini を用いた 4 つの高度な LLM--GPT-3.5 と GPT-4 の比較分析を行い,各モデルのコード生成能力を評価した。 日常業務にllmを活用した実生活の開発者の典型的なユースケースを表現するために,研究をコンテキスト化した。 さらに,開発者ペルソナの2つの異なるバージョンを使用することによって表現されるセキュリティ意識にも重点を置いています。 合計61のコードアウトプットを収集し、機能、セキュリティ、パフォーマンス、複雑さ、信頼性など、さまざまな側面で分析しました。 これらの洞察は、モデルの能力と限界を理解し、自動コード生成の分野で将来の開発と実践的なアプリケーションを導くのに不可欠です。

$ $Large Language Models (LLMs) are being increasingly utilized in various applications, with code generations being a notable example. While previous research has shown that LLMs have the capability to generate both secure and insecure code, the literature does not take into account what factors help generate secure and effective code. Therefore in this paper we focus on identifying and understanding the conditions and contexts in which LLMs can be effectively and safely deployed in real-world scenarios to generate quality code. We conducted a comparative analysis of four advanced LLMs--GPT-3.5 and GPT-4 using ChatGPT and Bard and Gemini from Google--using 9 separate tasks to assess each model's code generation capabilities. We contextualized our study to represent the typical use cases of a real-life developer employing LLMs for everyday tasks as work. Additionally, we place an emphasis on security awareness which is represented through the use of two distinct versions of our developer persona. In total, we collected 61 code outputs and analyzed them across several aspects: functionality, security, performance, complexity, and reliability. These insights are crucial for understanding the models' capabilities and limitations, guiding future development and practical applications in the field of automated code generation.
翻訳日:2024-02-02 14:48:24 公開日:2024-02-01
# LVC-LGMC:学習ビデオ圧縮のための局所・グローバル運動補償

LVC-LGMC: Joint Local and Global Motion Compensation for Learned Video Compression ( http://arxiv.org/abs/2402.00680v1 )

ライセンス: Link先を確認
Wei Jiang, Junru Li, Kai Zhang, Li Zhang(参考訳) 既存の学習ビデオ圧縮モデルは、フローネットまたは変形可能な畳み込みネットワーク(dcn)を使用して動作情報を推定する。 しかし、フローネットとdcnの限られた受容場は本質的に局所的な文脈に注意を向ける。 大規模な動きやフレーム間のグローバル相関といったグローバルコンテキストは無視され、正確な動きを捉える上で重要なボトルネックとなる。 この問題に対処するため,リーンビデオ符号化のための共同ローカル・グローバル・モーション補償モジュール(LGMC)を提案する。 具体的には,局所運動補償にflow netを採用する。 グローバルなコンテキストを捉えるために,機能領域におけるクロスアテンションを用いて動き補償を行う。 さらに,バニラクロス注意の二次的複雑性を避けるために,ソフトマックス操作を2つの独立したソフトマックス演算に分割し,線形複雑性を生じさせる。 提案したLGMCの有効性を検証するため,DCVC-TCMと統合し,LVC-LGMCを併用して学習ビデオ圧縮を実現する。 LVC-LGMCは, ベースラインDCVC-TCMよりも高い速度歪み性能を示した。

Existing learned video compression models employ flow net or deformable convolutional networks (DCN) to estimate motion information. However, the limited receptive fields of flow net and DCN inherently direct their attentiveness towards the local contexts. Global contexts, such as large-scale motions and global correlations among frames are ignored, presenting a significant bottleneck for capturing accurate motions. To address this issue, we propose a joint local and global motion compensation module (LGMC) for leaned video coding. More specifically, we adopt flow net for local motion compensation. To capture global context, we employ the cross attention in feature domain for motion compensation. In addition, to avoid the quadratic complexity of vanilla cross attention, we divide the softmax operations in attention into two independent softmax operations, leading to linear complexity. To validate the effectiveness of our proposed LGMC, we integrate it with DCVC-TCM and obtain learned video compression with joint local and global motion compensation (LVC-LGMC). Extensive experiments demonstrate that our LVC-LGMC has significant rate-distortion performance improvements over baseline DCVC-TCM.
翻訳日:2024-02-02 14:48:00 公開日:2024-02-01
# スマートシティ・アプリケーションにおける連続目標指向型行動を用いた実態評価

Real Evaluations Tractability using Continuous Goal-Directed Actions in Smart City Applications ( http://arxiv.org/abs/2402.00678v1 )

ライセンス: Link先を確認
Raul Fernandez-Fernandez, Juan G. Victores, David Estevez, and Carlos Balaguer(参考訳) Smart City Applicationsの最も重要な課題の1つは、エキスパートでないユーザとの対話にシステムを適応させることである。 ロボット模倣フレームワークは、ユーザがデモを通じて直接プログラムできるようにすることで、ロボットプログラミングの時間を簡素化し、削減することを目的としている。 古典的なフレームワークでは、アクションはジョイントあるいはデカルト空間の軌跡を使ってモデル化される。 視覚的特徴など他の特徴は、必ずしもこれらの純粋な幾何学的アプローチでよく表されるわけではない。 continuous goal-directed actions(cgda)は、環境から抽出可能な任意の機能の変更としてアクションをエンコードするため、これらのメソッドの代替手段である。 この結果、ロボットの関節軌道は、この特徴に依存しない符号化に従うために完全に計算されなければならない。 これは、通常、実際のロボットでこの進化ステップを実行するために、あまりにも多くの評価を必要とする進化的アルゴリズム(ea)を使用して達成される。 現在の戦略はシミュレーションで評価を行い、最終ジョイント軌道を実際のロボットに転送することである。 スマートシティアプリケーションは、必ずしも正確なモデルが達成可能であるとは限らない、非常にダイナミックで複雑な環境で作業する。 我々のゴールは、現実世界のシナリオでこれらの評価を直接実行する際のトラクタビリティの研究である。 eaを用いた評価を減らすための2つの異なるアプローチを提案し比較した。 第1のアプローチでは、粒子群最適化(pso)に基づく手法がcgda内で研究され、比較されている:naive pso、fitness inheritance pso(fi-pso)、adaptive fuzzy fitness granulation with pso(affg-pso)である。 第2のアプローチはcgdaにおける幾何学的および速度的制約の導入を考察した。 両アプローチの効果を解析し,ワックス法と塗料法で比較した。 本報告では,評価回数の大幅な削減について述べる。

One of the most important challenges of Smart City Applications is to adapt the system to interact with non-expert users. Robot imitation frameworks aim to simplify and reduce times of robot programming by allowing users to program directly through demonstrations. In classical frameworks, actions are modeled using joint or Cartesian space trajectories. Other features, such as visual ones, are not always well represented with these pure geometrical approaches. Continuous Goal-Directed Actions (CGDA) is an alternative to these methods, as it encodes actions as changes of any feature that can be extracted from the environment. As a consequence of this, the robot joint trajectories for execution must be fully computed to comply with this feature-agnostic encoding. This is achieved using Evolutionary Algorithms (EA), which usually requires too many evaluations to perform this evolution step in the actual robot. Current strategies involve performing evaluations in a simulation, transferring the final joint trajectory to the actual robot. Smart City applications involve working in highly dynamic and complex environments, where having a precise model is not always achievable. Our goal is to study the tractability of performing these evaluations directly in a real-world scenario. Two different approaches to reduce the number of evaluations using EA, are proposed and compared. In the first approach, Particle Swarm Optimization (PSO)-based methods have been studied and compared within CGDA: naive PSO, Fitness Inheritance PSO (FI-PSO), and Adaptive Fuzzy Fitness Granulation with PSO (AFFG-PSO). The second approach studied the introduction of geometrical and velocity constraints within CGDA. The effects of both approaches were analyzed and compared in the wax and paint actions, two CGDA commonly studied use cases. Results from this paper depict an important reduction in the number of evaluations.
翻訳日:2024-02-02 14:47:39 公開日:2024-02-01
# ニューラル・ポリシー・スタイル・トランスファー

Neural Policy Style Transfer ( http://arxiv.org/abs/2402.00677v1 )

ライセンス: Link先を確認
Raul Fernandez-Fernandez, Juan G. Victores, Jennifer J. Gago, David Estevez, Carlos Balaguer(参考訳) スタイル転送は、ファインアート、自然言語処理、固定トラジェクタなど、様々な分野で提案されている。 私たちはこの概念を、深い強化学習基盤内でポリシーを制御するためにスケールアップします。 各ネットワークは、通常、アクションのゴールをエンコードし、コンテンツとして記述できる、期待される報酬を最大化するために訓練される。 ディープニューラルネットワークの表現力は、スタイルとして記述できる二次タスクのエンコーディングを可能にする。 ニューラル・ポリシー・スタイル・トランスファー(npst)アルゴリズムは、あるポリシーのスタイルを別のポリシーに転送するために提案されている。 異なるポリシーはディープqネットワークアーキテクチャによって定義されます。 これらのモデルは、逆強化学習によるデモンストレーションを使って訓練される。 2つの異なるユーザーデモが行われ、1つはコンテンツ用、もう1つはスタイル用である。 異なるスタイルは、ユーザデモで定義されたようにエンコードされる。 生成されたポリシーは、NPSTアルゴリズムにコンテンツポリシーとスタイルポリシーを供給した結果である。 実験は、Deep Reinforcement Learning Classic Atariゲームにインスパイアされたキャッチボールゲーム、および著者の以前の作品に基づいたフルサイズのヒューマノイドロボットによる実世界の絵画シナリオで実施される。 NPSTフレームワーク内のポリシーを符号化する3つの異なるQ-Networkアーキテクチャ(Shallow, Deep, Deep Recurrent Q-Network)の実装を提案し, それぞれのアーキテクチャを用いた実験の結果を比較した。

Style Transfer has been proposed in a number of fields: fine arts, natural language processing, and fixed trajectories. We scale this concept up to control policies within a Deep Reinforcement Learning infrastructure. Each network is trained to maximize the expected reward, which typically encodes the goal of an action, and can be described as the content. The expressive power of deep neural networks enables encoding a secondary task, which can be described as the style. The Neural Policy Style Transfer (NPST) algorithm is proposed to transfer the style of one policy to another, while maintaining the content of the latter. Different policies are defined via Deep Q-Network architectures. These models are trained using demonstrations through Inverse Reinforcement Learning. Two different sets of user demonstrations are performed, one for content and other for style. Different styles are encoded as defined by user demonstrations. The generated policy is the result of feeding a content policy and a style policy to the NPST algorithm. Experiments are performed in a catch-ball game inspired by the Deep Reinforcement Learning classical Atari games; and a real-world painting scenario with a full-sized humanoid robot, based on previous works of the authors. The implementation of three different Q-Network architectures (Shallow, Deep and Deep Recurrent Q-Network) to encode the policies within the NPST framework is proposed and the results obtained in the experiments with each of these architectures compared.
翻訳日:2024-02-02 14:47:07 公開日:2024-02-01
# グラフ状態を用いたマルチパーティ・エンタングルメント生成のベンチマーク

Benchmarking Multipartite Entanglement Generation with Graph States ( http://arxiv.org/abs/2402.00766v1 )

ライセンス: Link先を確認
Ren\'e Zander, Colin Kai-Uwe Becker(参考訳) 量子コンピューティング技術が徐々に成熟し、qpu上の利用可能な量子ビット数が徐々に増加するにつれ、量子コンピューティングハードウェアの能力をスケーラブルに評価する関心が高まっている。 量子コンピューティングの鍵となる性質の1つは、多部分交絡状態を生成する能力である。 本稿では、グラフ状態の作成と、準備された状態における絡みの検証に基づいて、ノイズの多い中規模量子デバイス(NISQ)のベンチマークエンタングル生成能力について論じる。 したがって,スケーラブルな実験設計に特に適している絡み合い証人を用いる。 この絡み合いの証人の選択は、A)二部交絡とB)二部交絡を、準備されたグラフ状態が2色グラフ(例えば平方格子グラフまたはそのサブグラフ)に基づいている場合、一定の2つの測定設定でグラフ状態の真の多部交絡を検出することができる。 これにより、127量子ビットのibm量子超伝導qpu上で完全二部絡み状態が作成できることを実験的に検証し、最大23量子ビットの量子読み出し誤差軽減状態に対して真の多部絡みを検出できる。

As quantum computing technology slowly matures and the number of available qubits on a QPU gradually increases, interest in assessing the capabilities of quantum computing hardware in a scalable manner is growing. One of the key properties for quantum computing is the ability to generate multipartite entangled states. In this paper, aspects of benchmarking entanglement generation capabilities of noisy intermediate-scale quantum (NISQ) devices are discussed based on the preparation of graph states and the verification of entanglement in the prepared states. Thereby, we use entanglement witnesses that are specifically suited for a scalable experiment design. This choice of entanglement witnesses can detect A) bipartite entanglement and B) genuine multipartite entanglement for graph states with constant two measurement settings if the prepared graph state is based on a 2-colorable graph, e.g., a square grid graph or one of its subgraphs. With this, we experimentally verify that a fully bipartite entangled state can be prepared on a 127-qubit IBM Quantum superconducting QPU, and genuine multipartite entanglement can be detected for states of up to 23 qubits with quantum readout error mitigation.
翻訳日:2024-02-02 14:40:39 公開日:2024-02-01
# 変圧器の利点:非構造化データを用いた線形回帰課題における文脈学習

Benefits of Transformer: In-Context Learning in Linear Regression Tasks with Unstructured Data ( http://arxiv.org/abs/2402.00743v1 )

ライセンス: Link先を確認
Yue Xing, Xiaofeng Lin, Namjoon Suh, Qifan Song, Guang Cheng(参考訳) 実際、トランスフォーマーベースのモデルは推論の段階で文脈で概念を学習できることが観察されている。 既存の文献、例えば \citet{zhang2023trained,huang2023context} は、この文脈内学習能力に関する理論的説明を提供するが、各サンプルに対する入力$x_i$と出力$y_i$は、同じトークン(すなわち構造化データ)に埋め込まれていると仮定する。 しかし実際には、2つのトークン(非構造化データ \cite{wibisono2023role} )で示される。 本稿では, 変圧器のアーキテクチャの利点を研究するために線形回帰タスクの実験を行い, 変圧器が非構造データから学べる理由を説明するための理論的直観について述べる。 コンテクスト内学習を容易にする変圧器の正確なコンポーネントについて検討する。 特に,(1)2層のソフトマックス(自己)アテンションとルックアヘッドアテンションマスクを有するトランスフォーマは,各例に対して$y_i$が$x_i$ 以下のトークンにある場合,プロンプトから学習できること,(2)ポジショナルエンコーディングによりさらに性能が向上すること,(3)高い入力埋め込み次元を持つマルチヘッドアテンションはシングルヘッドアテンションよりも優れた予測性能を有することが観察される。

In practice, it is observed that transformer-based models can learn concepts in context in the inference stage. While existing literature, e.g., \citet{zhang2023trained,huang2023context}, provide theoretical explanations on this in-context learning ability, they assume the input $x_i$ and the output $y_i$ for each sample are embedded in the same token (i.e., structured data). However, in reality, they are presented in two tokens (i.e., unstructured data \cite{wibisono2023role}). In this case, this paper conducts experiments in linear regression tasks to study the benefits of the architecture of transformers and provides some corresponding theoretical intuitions to explain why the transformer can learn from unstructured data. We study the exact components in a transformer that facilitate the in-context learning. In particular, we observe that (1) a transformer with two layers of softmax (self-)attentions with look-ahead attention mask can learn from the prompt if $y_i$ is in the token next to $x_i$ for each example; (2) positional encoding can further improve the performance; and (3) multi-head attention with a high input embedding dimension has a better prediction performance than single-head attention.
翻訳日:2024-02-02 14:40:17 公開日:2024-02-01
# 大規模言語モデル協調のための報酬の変換と組み合わせ

Transforming and Combining Rewards for Aligning Large Language Models ( http://arxiv.org/abs/2402.00742v1 )

ライセンス: Link先を確認
Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch(参考訳) 言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。 このアプローチで生じる2つの密接に関連する問題について検討する。 まず、報酬モデルの任意の単調変換は選好ランキングを保持します。 第二に、私たちはしばしば言語モデルを複数のプロパティに合わせることを望んでいます。 アライメント手順の確率論的解釈を用いて、Bradley-Terry選好モデルから得られた(一般的な場合)報酬に対する変換の自然な選択を同定する。 この変換は2つの重要な性質を持つ。 第一に、すでに成績の良いアウトプットではなく、パフォーマンスの悪いアウトプットを改善することを強調している。 これにより、不適合(いくつかのプロンプトが改善されない)と報酬ハッキング(モデルが報酬モデルの誤特定を悪用することを学ぶ)の両方が軽減される。 第二に、和を論理接続にリンクすることで、報酬の原理的な集約を可能にし、変換された報酬の和は、すべての測定された性質において出力が「良い」である確率に対応する。 RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.
翻訳日:2024-02-02 14:39:44 公開日:2024-02-01
# drsm : 静止単眼カメラの動的再構成のための効率的なニューラル4次元分解

DRSM: efficient neural 4d decomposition for dynamic reconstruction in stationary monocular cameras ( http://arxiv.org/abs/2402.00740v1 )

ライセンス: Link先を確認
Weixing Xie, Xiao Dong, Yong Yang, Qiqin Lin, Jingze Chen, Junfeng Yao, Xiaohu Guo(参考訳) ビデオ共有やライブブロードキャストアプリケーションによって生成される単眼ビデオの人気により、静止単眼カメラでの動的シーンの再構築と編集は特別だが期待できる技術となった。 多視点観測を利用するシーン再構成とは対照的に、単一の視点から動的シーンをモデル化する問題は、より過度に制約され、不適切である。 ニューラルレンダリングの最近の進歩に触発されて,モノクロカメラにおける動的シーンの4次元分解問題に取り組むための新しい枠組みを提案する。 本フレームワークは,分解された静的および動的特徴平面を用いて4次元シーンを表現し,高密度レイキャスティングによる動的領域の学習を強調する。 単一視点からの3Dの手がかりの不足や隠蔽も、シーン再構築における特別な課題である。 これらの課題を克服するため,我々は深い教師付き最適化とレイキャスティング戦略を提案する。 各種ビデオの実験により,従来のシングルビュー動的シーン表現法よりも高忠実度な結果が得られる。

With the popularity of monocular videos generated by video sharing and live broadcasting applications, reconstructing and editing dynamic scenes in stationary monocular cameras has become a special but anticipated technology. In contrast to scene reconstructions that exploit multi-view observations, the problem of modeling a dynamic scene from a single view is significantly more under-constrained and ill-posed. Inspired by recent progress in neural rendering, we present a novel framework to tackle 4D decomposition problem for dynamic scenes in monocular cameras. Our framework utilizes decomposed static and dynamic feature planes to represent 4D scenes and emphasizes the learning of dynamic regions through dense ray casting. Inadequate 3D clues from a single-view and occlusion are also particular challenges in scene reconstruction. To overcome these difficulties, we propose deep supervised optimization and ray casting strategies. With experiments on various videos, our method generates higher-fidelity results than existing methods for single-view dynamic scene representation.
翻訳日:2024-02-02 14:39:23 公開日:2024-02-01
# FM3Q: 2チームゼロサムマルコフゲームのための分解型マルチエージェントミニマックスQラーニング

FM3Q: Factorized Multi-Agent MiniMax Q-Learning for Two-Team Zero-Sum Markov Game ( http://arxiv.org/abs/2402.00738v1 )

ライセンス: Link先を確認
Guangzheng Hu, Yuanheng Zhu, Haoran Li, Dongbin Zhao(参考訳) 多くの現実世界のアプリケーションには、2つのチームに分かれたエージェントが含まれており、同じチーム内では同等だが、反対のチーム間では反対のサインを持つ。 いわゆる2チームゼロサムマルコフゲーム (2t0sMGs) は近年強化学習によって解決されている。 しかし、既存の手法は、チーム内クレジット割り当て、データ利用、計算の難易度などの考慮が不十分なため、非効率である。 本稿では,2t0sMGにおけるQ関数による2チームミニマックス動作と個別グリージー動作のコヒーレンスを確保するために,IGMM原理を提案する。 そこで本研究では, 統合ミニマックスq関数を個別関数に分解し, 2t0smgsのigmm対応ミニマックスq関数を反復的に解くマルチエージェント強化学習フレームワーク, factorized multi-agent minimax q-learning (fm3q)を提案する。 さらに、ニューラルネットワークを用いたオンライン学習アルゴリズムを提案し、FM3Qを実装し、2チームプレーヤに対して決定論的かつ分散化されたミニマックスポリシーを得る。 FM3Qの収束を証明する理論的解析が提供される。 実験では,FM3Qの学習効率と最終性能を3つの環境を用いて評価し,その優位性を2t0sMGで示す。

Many real-world applications involve some agents that fall into two teams, with payoffs that are equal within the same team but of opposite sign across the opponent team. The so-called two-team zero-sum Markov games (2t0sMGs) can be resolved with reinforcement learning in recent years. However, existing methods are thus inefficient in light of insufficient consideration of intra-team credit assignment, data utilization and computational intractability. In this paper, we propose the individual-global-minimax (IGMM) principle to ensure the coherence between two-team minimax behaviors and the individual greedy behaviors through Q functions in 2t0sMGs. Based on it, we present a novel multi-agent reinforcement learning framework, Factorized Multi-Agent MiniMax Q-Learning (FM3Q), which can factorize the joint minimax Q function into individual ones and iteratively solve for the IGMM-satisfied minimax Q functions for 2t0sMGs. Moreover, an online learning algorithm with neural networks is proposed to implement FM3Q and obtain the deterministic and decentralized minimax policies for two-team players. A theoretical analysis is provided to prove the convergence of FM3Q. Empirically, we use three environments to evaluate the learning efficiency and final performance of FM3Q and show its superiority on 2t0sMGs.
翻訳日:2024-02-02 14:39:07 公開日:2024-02-01
# バイオメロ : バイオ画像解析

BIOMERO: BioImage analysis in OMERO ( http://arxiv.org/abs/2402.00734v1 )

ライセンス: Link先を確認
Torec T. Luik, Rodrigo Rosas-Bertolini, Eric A.J. Reits, Ron A. Hoebe, Przemek M. Krawczyk(参考訳) バイオイメージングの急速に発展する分野では、Finderable、Accessible、Interoperable、Reusable(FAIR)イメージ分析ワークフローの統合とオーケストレーションは依然として課題である。 本稿では、バイオイメージングデータ管理プラットフォームであるOMEROと、FAIRワークフローと高性能コンピューティング(HPC)環境を接続するブリッジであるBIOMEROを紹介する。 オープンソースのPythonライブラリであるOMERO Slurm Clientを特徴とするBIOMEROは、特にHigh ContentやHigh Throughput Screeningの大規模なデータセットに対して、FAIRワークフローのシームレスな実行を容易にする。 BIOMEROは特殊な知識を不要にすることで研究者に力を与え、OMEROから直接スケーラブルな画像処理を可能にする。 BIOMEROは特に、OMERO、Cytomine/BIAFLOWSおよび他のバイオイメージングコミュニティ間のFAIRワークフローの共有と利用をサポートしている。 BIOMEROは、バイオイメージング研究の領域において、再利用性を強調し、FAIRワークフローの普及を促進する。 ユーザーフレンドリーなインターフェースにより、技術的専門知識のないユーザを含むユーザは、これらのワークフローをデータセットにシームレスに適用し、より広範な研究コミュニティによるAIの利用を民主化することができる。

In the rapidly evolving field of bioimaging, the integration and orchestration of Findable, Accessible, Interoperable, and Reusable (FAIR) image analysis workflows remains a challenge. We introduce BIOMERO, a bridge connecting OMERO, a renowned bioimaging data management platform, FAIR workflows and high-performance computing (HPC) environments. BIOMERO, featuring our opensource Python library "OMERO Slurm Client", facilitates seamless execution of FAIR workflows, particularly for large datasets from High Content or High Throughput Screening. BIOMERO empowers researchers by eliminating the need for specialized knowledge, enabling scalable image processing directly from OMERO. BIOMERO notably supports the sharing and utilization of FAIR workflows between OMERO, Cytomine/BIAFLOWS, and other bioimaging communities. BIOMERO will promote the widespread adoption of FAIR workflows, emphasizing reusability, across the realm of bioimaging research. Its user-friendly interface will empower users, including those without technical expertise, to seamlessly apply these workflows to their datasets, democratizing the utilization of AI by the broader research community.
翻訳日:2024-02-02 14:38:44 公開日:2024-02-01
# MobilityDL: 軌道データによるディープラーニングのレビュー

MobilityDL: A Review of Deep Learning From Trajectory Data ( http://arxiv.org/abs/2402.00732v1 )

ライセンス: Link先を確認
Anita Graser, Anahid Jalali, Jasmin Lampert, Axel Wei{\ss}enfeld, Krzysztof Janowicz(参考訳) 軌道データは時系列、空間データ、(時には不合理な)動きの複雑さを組み合わせる。 データ可用性と計算能力が向上するにつれて、軌跡データからのディープラーニングの人気も高まっている。 本稿では,軌道データに対する深層学習のアプローチについて概観する。 我々は、ディープラーニングモデルと使用するトレーニングデータに関して分析した8つの特定のモビリティユースケースを特定した。 本研究の主な貢献は,2018年以降の文献を包括的に定量的に検証することに加えて,この分野での最近の研究をデータ中心で分析し,個々の移動体の詳細な密度の高い軌跡(準連続追跡データ)から,スパース軌跡(チェックインデータなど),集約された軌跡(集積情報)まで,移動性データ連続体に沿って配置することである。

Trajectory data combines the complexities of time series, spatial data, and (sometimes irrational) movement behavior. As data availability and computing power have increased, so has the popularity of deep learning from trajectory data. This review paper provides the first comprehensive overview of deep learning approaches for trajectory data. We have identified eight specific mobility use cases which we analyze with regards to the deep learning models and the training data used. Besides a comprehensive quantitative review of the literature since 2018, the main contribution of our work is the data-centric analysis of recent work in this field, placing it along the mobility data continuum which ranges from detailed dense trajectories of individual movers (quasi-continuous tracking data), to sparse trajectories (such as check-in data), and aggregated trajectories (crowd information).
翻訳日:2024-02-02 14:38:21 公開日:2024-02-01
# 量子エミッタアレイを用いた資源効率と損失対応フォトニックグラフ状態の作成と全フォトニック量子リピータへの応用

Resource-efficient and loss-aware photonic graph state preparation using an array of quantum emitters, and application to all-photonic quantum repeaters ( http://arxiv.org/abs/2402.00731v1 )

ライセンス: Link先を確認
Eneet Kaur, Ashlesha Patil, Saikat Guha(参考訳) 量子通信と計算にはマルチキュービットフォトニックグラフ状態が必要である。 線形光学を用いた単一光子の確率的縫合によるフォトニックグラフ状態の調製は、多重化の必要性により、強いリソース要求をもたらす。 量子エミッタは、エミッタ量子ビットと絡み合った光子の生成と、エミッタ間の決定論的2量子ビット相互作用を可能にするため、フォトニックグラフ状態を作成するための有効なソリューションを提供する。 一握りのエミッターは、線形光学法を用いて何百万もの光子源を必要とする有用なフォトニックグラフを生成するのに十分であることが多い。 しかし、光子損失はグラフ状態の深さが大きいこと、すなわち、エミッターに必要な遅くてノイズの多い2量子ビットのcnotゲートの数が多いことから、この方法に障害をもたらす。 本研究では,エミッタ数CNOTを最小化しつつ,エミッタ数をグラフ状態深さと交換できるアルゴリズムを提案する。 我々は,全フォトニックリピータに対するリピータグラフ状態(RGS)の生成にアルゴリズムを適用した。 我々の計画ははるかに優れた速度vを実現する。 -rgs生成に必要最小限のエミッタを使用するよりも距離性能が高い。 しかし,本手法では,各エミッタを単一光子源として使用するRGSを生成する線形光学法と同じ性能が得られるが,エミッタのオーダーは桁違いである。

Multi-qubit photonic graph states are necessary for quantum communication and computation. Preparing photonic graph states using probabilistic stitching of single photons using linear optics results in a formidable resource requirement due to the need of multiplexing. Quantum emitters present a viable solution to prepare photonic graph states, as they enable controlled production of photons entangled with the emitter qubit, and deterministic two-qubit interactions among emitters. A handful of emitters often suffice to generate useful photonic graph states that would otherwise require millions of single photon sources using the linear-optics method. But, photon loss poses an impediment to this method due to the large depth, i.e., age of the oldest photon, of the graph state, given the typically large number of slow and noisy two-qubit CNOT gates required on emitters. We propose an algorithm that can trade the number of emitters with the graph-state depth, while minimizing the number of emitter CNOTs. We apply our algorithm to generating a repeater graph state (RGS) for all-photonic repeaters. We find that our scheme achieves a far superior rate-vs.-distance performance than using the least number of emitters needed to generate the RGS. Yet, our scheme is able to get the same performance as the linear-optics method of generating the RGS where each emitter is used as a single-photon source, but with orders of magnitude fewer emitters.
翻訳日:2024-02-02 14:38:04 公開日:2024-02-01
# ドロップアウトに基づく効率的な予測多重度推定のためのラショーモン集合探索

Dropout-Based Rashomon Set Exploration for Efficient Predictive Multiplicity Estimation ( http://arxiv.org/abs/2402.00728v1 )

ライセンス: Link先を確認
Hsiang Hsu, Guihong Li, Shaohan Hu, Chun-Fu (Richard) Chen(参考訳) 予測多重性(predictive multiplicity)とは、分類タスクが、ほぼ同等の最適性能を達成するが、個々のサンプルに対して相反する出力を生成する複数の競合モデルを認める現象を指す。 これは、システム的な排除、不可解な差別、実用上の不公平をもたらす可能性があるため、重大な懸念をもたらす。 しかし、予測的多重度の測定と緩和は、潜在的に巨大な仮説空間において、ラショーモン集合として知られるようなほぼ等しい最適モデルをすべて探索する必要があるため、計算的に困難である。 そこで本研究では,rashomon セットにおけるモデル探索にdropout 手法を応用した新しいフレームワークを提案する。 レイショモン集合の性質とドロップアウトパラメータを結びつけるための厳密な理論的導出を提供し、広範囲な実験を通じて我々の枠組みを実証的に評価する。 数値的な結果から,本手法は予測多重度メトリック推定の有効性でベースラインを一貫して上回っており,実行時速度は最大20\times \sim 5000\times$。 効率的なラショモン集合探索とメトリック推定により、予測多重性の緩和はドロップアウトアンサンブルとモデル選択によって達成される。

Predictive multiplicity refers to the phenomenon in which classification tasks may admit multiple competing models that achieve almost-equally-optimal performance, yet generate conflicting outputs for individual samples. This presents significant concerns, as it can potentially result in systemic exclusion, inexplicable discrimination, and unfairness in practical applications. Measuring and mitigating predictive multiplicity, however, is computationally challenging due to the need to explore all such almost-equally-optimal models, known as the Rashomon set, in potentially huge hypothesis spaces. To address this challenge, we propose a novel framework that utilizes dropout techniques for exploring models in the Rashomon set. We provide rigorous theoretical derivations to connect the dropout parameters to properties of the Rashomon set, and empirically evaluate our framework through extensive experimentation. Numerical results show that our technique consistently outperforms baselines in terms of the effectiveness of predictive multiplicity metric estimation, with runtime speedup up to $20\times \sim 5000\times$. With efficient Rashomon set exploration and metric estimation, mitigation of predictive multiplicity is then achieved through dropout ensemble and model selection.
翻訳日:2024-02-02 14:37:39 公開日:2024-02-01
# 量子非局所性:自然はどのように行うのか?

Quantum Nonlocality: how does Nature do it? ( http://arxiv.org/abs/2402.00725v1 )

ライセンス: Link先を確認
Marian Kupczynski(参考訳) nicolas gisin氏から数年前のscienceの記事に寄せられた質問に我々は答える。 彼は、量子相関は宇宙時間外から来ていると主張した。 ベル検定は局所的な隠れ変数モデルによって与えられる確率的結合のみを拒絶できるが、量子非局所性や互いに知っている物体について、たとえ大きな距離で分離されたとしても、メタフィジカルな推測を正当化しない。 物理や認知科学におけるベルの不等式違反はボーア文脈性の概念を用いて説明できると主張する。 異なる実験的な文脈を記述する文脈変数が確率モデルに正しく組み込まれている場合、不等式を証明できず、非局所相関を直感的に説明することができる。 我々は、自由選択、測定独立、陰謀ではないという統計的独立の仮定の意味を誤って解明する。 相関は因果関係を意味するものではないので、統計的独立性の違反はむしろ文脈性と呼ばれ、実験者の選択の自由を制限するものではない。 したがって、信じるものとは対照的に、選択の抜け穴の閉じた自由は統計的独立性を証明するものではない。 我々は、量子相関は外部の時空から来るのではなく、大域的な時空対称性によるものであると主張する。

We answer the question asked by Nicolas Gisin in his article in Science few years ago. He claimed that quantum correlations are coming from outside space time. We explain that Bell Tests allow only rejecting probabilistic coupling provided by a local hidden variable model, but they do not justify metaphysical speculations about quantum nonlocality and objects which know about each other state, even when separated by large distances. We claim that the violation of Bell inequalities in physics and in cognitive science can be explained using the notion of Bohr contextuality. If contextual variables, describing varying experimental contexts, are correctly incorporated into a probabilistic model, then the inequalities cannot be proven and nonlocal correlations may be explained in an intuitive way. We elucidate the meaning of statistical independence assumption called incorrectly: free choice, measurement independence or no conspiracy. Since the correlation does not mean causation the violation of statistical independence should be rather called contextuality and it does not restrict experimenter freedom of choice. Therefore, contrary to what is believed, closing freedom of choice loophole does not prove statistical independence. We claim that quantum correlations are not coming from outside space time, but instead they are due to global space time symmetries.
翻訳日:2024-02-02 14:37:17 公開日:2024-02-01
# 脊髄神経根部の自動分節化

Automatic Segmentation of the Spinal Cord Nerve Rootlets ( http://arxiv.org/abs/2402.00724v1 )

ライセンス: Link先を確認
Jan Valosek, Theo Mathieu, Raphaelle Schlienger, Olivia S. Kowalczyk, Julien Cohen-Adad(参考訳) 脊髄神経根の正確な同定は、脊髄の機能的活動を研究するために脊髄レベルを決定することに関係している。 本研究の目的は,t2-weighted magnetic resonance imaging (mri) スキャンによる脊髄神経根のセグメンテーションの自動解析法を開発することである。 c2-c8背側神経根へのアクティブラーニングアプローチを用いた3d多層畳み込みニューラルネットワークのトレーニングには、2つのオープンアクセスmriデータセットからのイメージが使用された。 各出力クラスは、脊髄レベルに対応する。 この方法は,サイト間,セッション間,解像度間変動を評価するためのトレーニング中,データセットから得られた3t t2重み付き画像でテストされた。 テストサイススコアは 0.67 +- 0.16 (平均+-標準偏差) であり、良好な性能を示している。 この方法はまた、低ベンダー間およびサイト間変動(変動係数<=1.41 %)、低セッション間変動(変動係数<=1.30 %)がMRIベンダー、サイト、セッション間で安定した予測を示すことを示した。 提案手法はオープンソースであり、Spinal Cord Toolbox (SCT) v6.2以上で容易に利用可能である。

Precise identification of spinal nerve rootlets is relevant to delineate spinal levels for the study of functional activity in the spinal cord. The goal of this study was to develop an automatic method for the semantic segmentation of spinal nerve rootlets from T2-weighted magnetic resonance imaging (MRI) scans. Images from two open-access MRI datasets were used to train a 3D multi-class convolutional neural network using an active learning approach to segment C2-C8 dorsal nerve rootlets. Each output class corresponds to a spinal level. The method was tested on 3T T2-weighted images from datasets unseen during training to assess inter-site, inter-session, and inter-resolution variability. The test Dice score was 0.67 +- 0.16 (mean +- standard deviation across rootlets levels), suggesting a good performance. The method also demonstrated low inter-vendor and inter-site variability (coefficient of variation <= 1.41 %), as well as low inter-session variability (coefficient of variation <= 1.30 %) indicating stable predictions across different MRI vendors, sites, and sessions. The proposed methodology is open-source and readily available in the Spinal Cord Toolbox (SCT) v6.2 and higher.
翻訳日:2024-02-02 14:36:55 公開日:2024-02-01
# 変圧器量子化変分オートエンコーダを用いた離散遅延空間における意味制御の改善

Improving Semantic Control in Discrete Latent Spaces with Transformer Quantized Variational Autoencoders ( http://arxiv.org/abs/2402.00723v1 )

ライセンス: Link先を確認
Yingji Zhang, Danilo S. Carvalho, Marco Valentino, Ian Pratt-Hartmann, Andre Freitas(参考訳) 変分オートエンコーダ(VAEs)の潜伏空間における正確な意味制御は、基礎となる生成機構がより局所化され、説明され、改善されるため、NLPの下流タスクにとって重要な価値を持つ。 しかし、最近の研究は、主に変動ボトルネックにおける意味情報の避けられない損失と復号機構の限定的な制御のために、一貫した結果を達成するのに苦労している。 これらの課題を克服するために,ベクトル量子化変分オートエンコーダ(VQVAE)の離散潜在空間を調査し,トランスフォーマーベースのVAEのセマンティック制御と生成を改善する。 特に, vqvaes の制御性を活用してトークンレベルで t5 の自己アテンション機構を導く新しいモデルである t5vqvae を提案する。 実験結果から,T5VQVAEは,テキストの自動エンコーディングや数式,テキスト転送,推論など,さまざまなタスクにおけるセマンティック情報の制御性や保存性の観点から,Optimusを含む既存のVAEモデルよりも優れていた。 さらに、T5VQVAEは推論能力の向上を示し、下流自然言語やシンボリック推論タスクの潜在的な応用を示唆している。

Achieving precise semantic control over the latent spaces of Variational AutoEncoders (VAEs) holds significant value for downstream tasks in NLP as the underlying generative mechanisms could be better localised, explained and improved upon. Recent research, however, has struggled to achieve consistent results, primarily due to the inevitable loss of semantic information in the variational bottleneck and limited control over the decoding mechanism. To overcome these challenges, we investigate discrete latent spaces in Vector Quantized Variational AutoEncoders (VQVAEs) to improve semantic control and generation in Transformer-based VAEs. In particular, We propose T5VQVAE, a novel model that leverages the controllability of VQVAEs to guide the self-attention mechanism in T5 at the token-level, exploiting its full generalization capabilities. Experimental results indicate that T5VQVAE outperforms existing state-of-the-art VAE models, including Optimus, in terms of controllability and preservation of semantic information across different tasks such as auto-encoding of sentences and mathematical expressions, text transfer, and inference. Moreover, T5VQVAE exhibits improved inference capabilities, suggesting potential applications for downstream natural language and symbolic reasoning tasks.
翻訳日:2024-02-02 14:36:34 公開日:2024-02-01
# ロボットマニピュレータの共有制御のための2遅延DDPGを用いたニューラルスタイル転送

Neural Style Transfer with Twin-Delayed DDPG for Shared Control of Robotic Manipulators ( http://arxiv.org/abs/2402.00722v1 )

ライセンス: Link先を確認
Raul Fernandez-Fernandez, Marco Aggravi, Paolo Robuffo Giordano, Juan G. Victores and Claudio Pacchierotti(参考訳) ニューラル・スタイル・トランスファー(Neural Style Transfer、NST)は、ある要素(多くの場合画像)を操作でき、別の要素の外観やスタイルを適用できるアルゴリズムである。 各要素は、内容とスタイルの組み合わせとして定義され、その内容は、その要素のハウとして、whatとstyleとして概念的に定義することができる。 本研究では,ロボットマニピュレータの動作に一組のスタイルを伝達する独自のNSTフレームワークを提案する。 オートエンコーダアーキテクチャは、対象ロボットの動きの内容とスタイルを抽出し、定義する。 双遅延Deep Deterministic Policy Gradient (TD3)ネットワークは、オートエンコーダによって定義された損失を用いてロボット制御ポリシーを生成する。 提案したニューラルポリシースタイルトランスファーTD3(NPST3)は、トレーニングされたスタイルを導入することでロボットの動きを変化させる。 このようなアプローチは、オフラインでも、動的環境で自律ロボットの動きを実行するために、あるいは、遠隔操作ロボットのスタイルを実行時に適応するために、オンラインでも実装することができる。 考えられたスタイルは、人間のデモからオンラインで学べる。 73名の被験者を対象に評価を行い,代表的ロボット動作の背景にあるスタイルの認識を依頼した。 その結果,ロボットの認識速度は良好であり,このアプローチで異なるスタイルをロボットに伝達できることが証明された。

Neural Style Transfer (NST) refers to a class of algorithms able to manipulate an element, most often images, to adopt the appearance or style of another one. Each element is defined as a combination of Content and Style: the Content can be conceptually defined as the what and the Style as the how of said element. In this context, we propose a custom NST framework for transferring a set of styles to the motion of a robotic manipulator, e.g., the same robotic task can be carried out in an angry, happy, calm, or sad way. An autoencoder architecture extracts and defines the Content and the Style of the target robot motions. A Twin Delayed Deep Deterministic Policy Gradient (TD3) network generates the robot control policy using the loss defined by the autoencoder. The proposed Neural Policy Style Transfer TD3 (NPST3) alters the robot motion by introducing the trained style. Such an approach can be implemented either offline, for carrying out autonomous robot motions in dynamic environments, or online, for adapting at runtime the style of a teleoperated robot. The considered styles can be learned online from human demonstrations. We carried out an evaluation with human subjects enrolling 73 volunteers, asking them to recognize the style behind some representative robotic motions. Results show a good recognition rate, proving that it is possible to convey different styles to a robot using this approach.
翻訳日:2024-02-02 14:36:10 公開日:2024-02-01
# エレクトロメトリーにおける3光子ライドバーグ励起の蛍光と透過読み出しの検討

Investigation of fluorescence versus transmission readout for three-photon Rydberg excitation used in electrometry ( http://arxiv.org/abs/2402.00718v1 )

ライセンス: Link先を確認
Nikunjkumar Prajapati, Samuel Berweger, Andrew P. Rotunno, Alexandra B. Artusio-Glimpse, Noah Schlossberger, Dangka Shylla, William J. Watterson, Matthew T. Simons, David LaMantia, Eric B. Norrgard, Stephen P. Eckel, and Christopher L. Holloway(参考訳) 本稿では, 蛍光体強度を高周波(RF)フィールドの強度で測定し, 蛍光体強度を3光子ベースで測定する手法を提案する。 本手法を従来の3光子電磁誘導透過(EIT)と電磁誘導吸収(EIA)と比較した。 また,コリニア3光子セシウム系におけるEIA/EIT感度は,約30uVm^{-1}Hz^{-1/2}と報告されている。 蛍光は、IA/EITの読み出しよりも感度が4倍近い。

We present a three-photon based fluorescence readout method where the strength of the fluorescence scales with the strength of the radio-frequency (RF) field being applied. We compare this method to conventional three-photon electromagnetically-induced transparency (EIT) and electromagnetically-induced absorption (EIA). Our demonstrated EIA/EIT sensitivity in the collinear three-photon Cesium system is the best reported to date at roughly 30 uVm^{-1}Hz^{-1/2}. The fluorescence is nearly 4 fold better in sensitivity compared to EIA/EIT readout.
翻訳日:2024-02-02 14:35:28 公開日:2024-02-01
# 意図ドリフト誘導llmを用いた意図保証

Intent Assurance using LLMs guided by Intent Drift ( http://arxiv.org/abs/2402.00715v1 )

ライセンス: Link先を確認
Kristina Dzeparoska, Ali Tizghadam, Alberto Leon-Garcia(参考訳) Intent-Based Networking (IBN) は、意図やビジネス目標をネットワーク操作と自動的に整合させることを約束することで、ネットワーク管理のパラダイムシフトを示す。 しかし、実際的な実現は困難です。 1)処理意図,すなわち,意図を満たすための論理を翻訳し,分解し,識別する 2) インテント適合性,すなわち動的ネットワークを考えると,論理はインテントの確保に適切に適応すべきである。 後者に対処するため、インテント保証は、運用状態とターゲット状態を調整するために必要なアクションを含め、継続的な検証と検証を行う。 本稿では,意図的ドリフトの発生を検知し,行動することができる保証フレームワークを定義する。 そのために、Large Language Models(LLMs)が生成するAI駆動のポリシーを活用して、必要なインコンテキスト要件を迅速に学習し、インテントの実現と保証を支援する。

Intent-Based Networking (IBN) presents a paradigm shift for network management, by promising to align intents and business objectives with network operations--in an automated manner. However, its practical realization is challenging: 1) processing intents, i.e., translate, decompose and identify the logic to fulfill the intent, and 2) intent conformance, that is, considering dynamic networks, the logic should be adequately adapted to assure intents. To address the latter, intent assurance is tasked with continuous verification and validation, including taking the necessary actions to align the operational and target states. In this paper, we define an assurance framework that allows us to detect and act when intent drift occurs. To do so, we leverage AI-driven policies, generated by Large Language Models (LLMs) which can quickly learn the necessary in-context requirements, and assist with the fulfillment and assurance of intents.
翻訳日:2024-02-02 14:35:16 公開日:2024-02-01
# ベル非局所性の物理的意義の検討

Test of the physical significance of Bell nonlocality ( http://arxiv.org/abs/2402.00801v1 )

ライセンス: Link先を確認
Carlos Vieira, Ravishankar Ramanathan, Ad\'an Cabello(参考訳) ベルの不等式の実験的な違反は、仮定の少なくとも1つが本質的に失敗することを意味する。 しかし、既存のテストは、どの仮定が失敗するかは決定的ではない。 ここで、最もわずかな自由意志(あるいは、その制限が最小限でも、レトロコーサルの影響)を許容する、あるいは、ほんの少しでも距離での動作を制限する隠れた変数でシミュレートできない量子相関が存在することを示す。 この結果はベルの定理を超越して、測度依存や距離での作用を伴う隠れ変数理論を考える最も魅力的な動機、すなわち、量子相関をシミュレートするためには、これらのリソースを少量必要とする。 任意の小さな自由意志を許容し、遠方での行動に任意に制限のある隠れ変数理論を破棄できる、実現可能な実験が存在することを示す。 実験には2人のオブザーバーが参加し、それぞれ2つの測定値から2^n$の結果を選択する。 ベル的不等式が破られるような大きな n$ は、除外された隠れ変数理論の集合よりも大きい。 無限性の傾向にある$N$の極限において、隠れた変数が存在しない唯一の選択肢は、完全な超決定論または完全なパラメータ依存である。 また、この結果が量子情報に与える影響についても検討する。

The experimental violation of a Bell inequality implies that at least one of a set of assumptions fails in nature. However, existing tests are inconclusive about which of the assumptions is the one that fails. Here, we show that there are quantum correlations that cannot be simulated with hidden variables that allow the slightest free will (or, equivalently, that limit, even minimally, retrocausal influences) or restrict, even minimally, actions at a distance. This result goes beyond Bell's theorem and demolishes the arguably most attractive motivation for considering hidden-variable theories with measurement dependence or actions at distance, namely, that simulating quantum correlations typically requires a small amount of these resources. We show that there is a feasible experiment that can discard any hidden-variable theory allowing for arbitrarily small free will and having arbitrarily small limitations to actions at a distance. The experiment involves two observers, each of them choosing between two measurements with $2^N$ outcomes. The larger $N$ for which a specific Bell-like inequality is violated, the larger the set of excluded hidden-variable theories. In the limit of $N$ tending to infinity, the only alternatives to the absence of hidden variables are complete superdeterminism or complete parameter dependence. We also explore the implications of this result for quantum information.
翻訳日:2024-02-02 14:27:36 公開日:2024-02-01
# 人からのフィードバックから自由強化学習のための高密度報酬

Dense Reward for Free in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2402.00782v1 )

ライセンス: Link先を確認
Alex J. Chan, Hao Sun, Samuel Holt, Mihaela van der Schaar(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が効果的に指示に従うことを許し、有用な補助を提供するための重要な進歩として評価されている。 古典的には、これはクエリに応答してLLMから完了を生成し、別の報酬モデルを使用して完全な完了にスコアを割り当てる。 自己回帰のプロセスとして、LSMは多くの「アクション」(個々のトークンを選択する)を取らなければならず、エピソードの最後には1つのまばらな報酬しか受け取らない。 本研究では,報酬モデルが単にスカラー出力よりも多くの情報を含むという事実を活用し,特にトランスフォーマーアーキテクチャの一部としてトークン上の注意マップを算出する。 我々は、これらの注意重みを使って、完了全体に沿って報酬を再分配し、シグナルを効果的に密度化し、最も重要なトークンを強調します。 理論的には、このアプローチはポテンシャルに基づく報酬形成と等価であり、最適なポリシーが不変であることを保証する。 経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。

Reinforcement Learning from Human Feedback (RLHF) has been credited as the key advance that has allowed Large Language Models (LLMs) to effectively follow instructions and produce useful assistance. Classically, this involves generating completions from the LLM in response to a query before using a separate reward model to assign a score to the full completion. As an auto-regressive process, the LLM has to take many "actions" (selecting individual tokens) and only receives a single, sparse reward at the end of an episode, a setup that is known to be difficult to optimise in traditional reinforcement learning. In this work we leverage the fact that the reward model contains more information than just its scalar output, in particular, it calculates an attention map over tokens as part of the transformer architecture. We use these attention weights to redistribute the reward along the whole completion, effectively densifying the signal and highlighting the most important tokens, all without incurring extra computational cost or requiring any additional modelling. We demonstrate that, theoretically, this approach is equivalent to potential-based reward shaping, ensuring that the optimal policy remains unchanged. Empirically, we show that it stabilises training, accelerates the rate of learning, and, in practical cases, may lead to better local optima.
翻訳日:2024-02-02 14:27:13 公開日:2024-02-01
# 高エネルギー物理学における事象分類のためのハイブリッド量子ビジョントランスフォーマー

Hybrid Quantum Vision Transformers for Event Classification in High Energy Physics ( http://arxiv.org/abs/2402.00776v1 )

ライセンス: Link先を確認
Eyup B. Unlu, Mar\c{c}al Comajoan Cara, Gopal Ramesh Dahale, Zhongtian Dong, Roy T. Forestano, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva(参考訳) 視覚変換器アーキテクチャに基づくモデルは、画像分類タスクに関しては最先端と見なされる。 しかし、トレーニングとデプロイメントの両方に広範な計算資源が必要である。 データの量と複雑さが増すにつれて、問題は悪化する。 量子ベースのビジョントランスフォーマーモデルは、同じ予測パワーを維持しながらトレーニングと運用時間を短縮することで、この問題を軽減する可能性がある。 現在の量子コンピュータはまだ高次元のタスクを実行できないが、彼らは将来最も効率的なソリューションの1つを提供している。 本研究では,高エネルギー物理学における分類問題(電磁熱量計における光子と電子の分離)のために量子ハイブリッド視覚変換器のバリエーションをいくつか構築する。 古典的なビジョントランスフォーマーアーキテクチャに対してテストします。 以上の結果から,ハイブリッドモデルは,類似するパラメータ数を持つ古典的アナログと同等の性能を達成できることが示唆された。

Models based on vision transformer architectures are considered state-of-the-art when it comes to image classification tasks. However, they require extensive computational resources both for training and deployment. The problem is exacerbated as the amount and complexity of the data increases. Quantum-based vision transformer models could potentially alleviate this issue by reducing the training and operating time while maintaining the same predictive power. Although current quantum computers are not yet able to perform high-dimensional tasks yet, they do offer one of the most efficient solutions for the future. In this work, we construct several variations of a quantum hybrid vision transformer for a classification problem in high energy physics (distinguishing photons and electrons in the electromagnetic calorimeter). We test them against classical vision transformer architectures. Our findings indicate that the hybrid models can achieve comparable performance to their classical analogues with a similar number of parameters.
翻訳日:2024-02-02 14:26:51 公開日:2024-02-01
# 深部演算子ネットワークとの流体-構造相互作用におけるメッシュ運動

Mesh motion in fluid-structure interaction with deep operator networks ( http://arxiv.org/abs/2402.00774v1 )

ライセンス: Link先を確認
Ottar Hellan(参考訳) 深層演算子ネットワークに基づくメッシュ動作モデルを示す。 本モデルは,流体-構造相互作用ベンチマーク問題において,バイハーモニックメッシュの運動モデルを用いてトレーニングし,評価し,バイハーモニックメッシュの運動が失敗する環境でさらに評価する。 提案するメッシュ運動モデルの性能は,試験問題における二調和メッシュ運動に匹敵する。

A mesh motion model based on deep operator networks is presented. The model is trained on and evaluated against a biharmonic mesh motion model on a fluid-structure interaction benchmark problem and further evaluated in a setting where biharmonic mesh motion fails. The performance of the proposed mesh motion model is comparable to the biharmonic mesh motion on the test problems.
翻訳日:2024-02-02 14:26:37 公開日:2024-02-01
# animatelcm: 分散学習によるパーソナライズされた拡散モデルとアダプタのアニメーション化を加速する

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning ( http://arxiv.org/abs/2402.00769v1 )

ライセンス: Link先を確認
Fu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li(参考訳) ビデオ拡散モデルは、コヒーレントで高い忠実度を持つビデオを生成する能力で注目を集めている。 しかし、反復デノゲーションプロセスは計算集約的で時間を要するため、その応用は制限される。 最小ステップでサンプリングを高速化するために訓練済み画像拡散モデルを蒸留するConsistency Model (CM) と条件付き画像生成のためのLatent Consistency Model (LCM) に着想を得て,AnimateLCMを提案する。 生のビデオデータセットで一貫性学習を直接行うのではなく、画像生成優先と動き生成優先の蒸留を分離する分離一貫性学習戦略を提案し、学習効率の向上と視覚品質の向上を図る。 さらに、安定拡散コミュニティにおけるプラグアンドプレイアダプタの組み合わせにより、様々な機能を達成することができる(例えば、制御可能な生成のためのコントロールネット)。 既存のアダプタを蒸留したテキストコンディショニングビデオ一貫性モデルや,サンプリング速度を損なうことなくスクラッチからアダプタをトレーニングする効率的な戦略を提案する。 画像条件付き映像生成とレイアウト条件付き映像生成における提案手法の有効性を検証し,性能評価の結果を得た。 提案手法の有効性を実験的に検証した。 コードと重み付けは公開されます。 詳細はhttps://github.com/G-U-N/AnimateLCM.comで確認できる。

Video diffusion models has been gaining increasing attention for its ability to produce videos that are both coherent and of high fidelity. However, the iterative denoising process makes it computationally intensive and time-consuming, thus limiting its applications. Inspired by the Consistency Model (CM) that distills pretrained image diffusion models to accelerate the sampling with minimal steps and its successful extension Latent Consistency Model (LCM) on conditional image generation, we propose AnimateLCM, allowing for high-fidelity video generation within minimal steps. Instead of directly conducting consistency learning on the raw video dataset, we propose a decoupled consistency learning strategy that decouples the distillation of image generation priors and motion generation priors, which improves the training efficiency and enhance the generation visual quality. Additionally, to enable the combination of plug-and-play adapters in stable diffusion community to achieve various functions (e.g., ControlNet for controllable generation). we propose an efficient strategy to adapt existing adapters to our distilled text-conditioned video consistency model or train adapters from scratch without harming the sampling speed. We validate the proposed strategy in image-conditioned video generation and layout-conditioned video generation, all achieving top-performing results. Experimental results validate the effectiveness of our proposed method. Code and weights will be made public. More details are available at https://github.com/G-U-N/AnimateLCM.
翻訳日:2024-02-02 14:26:31 公開日:2024-02-01
# 360-gs: 屋内ローミングのためのレイアウト誘導パノラマガウスプレート

360-GS: Layout-guided Panoramic Gaussian Splatting For Indoor Roaming ( http://arxiv.org/abs/2402.00763v1 )

ライセンス: Link先を確認
Jiayang Bai, Letian Huang, Jie Guo, Wen Gong, Yuanqi Li, Yanwen Guo(参考訳) 3D Gaussian Splatting (3D-GS)は、最近リアルタイムおよびフォトリアリスティックレンダリングで大きな注目を集めている。 この技術は通常、視点像を入力として取り、画像平面上に配置することで3次元楕円ガウスの集合を最適化する。 しかし、パノラマ入力に3d-gsを適用すると、2次元ガウス系を用いて{360^\circ}$画像の球面への投影を効果的にモデル化することが困難となる。 実用的な応用では、入力パノラマは希薄であり、3Dガウスの信頼できない初期化とその後の3D-GSの品質低下につながる。 さらに、テクスチャのない平面(例えば壁や床)の非拘束な形状のため、3D-GSは楕円ガウスでこれらの平坦な領域をモデル化するのに苦労している。 この問題を解決するために、360-gsという、限られたパノラマ入力に対して360^{\circ}$ gaussian splattingを提案する。 3dガウスを球面に直接配置する代わりに、360-gsはそれらを単位球面の接面に投影し、それらを球面に投影する。 この適応はガウスを用いた射影の表現を可能にする。 室内シーンに関する強固な構造情報を得ることで,パノラマ内のレイアウトプリエントを活用し,360-gsの最適化を指導する。 実験結果から,360-gsではパノラマレンダリングが可能であり,新しい映像合成のアーチファクトの少ない最先端手法よりも優れており,屋内での没入ローミングが可能となった。

3D Gaussian Splatting (3D-GS) has recently attracted great attention with real-time and photo-realistic renderings. This technique typically takes perspective images as input and optimizes a set of 3D elliptical Gaussians by splatting them onto the image planes, resulting in 2D Gaussians. However, applying 3D-GS to panoramic inputs presents challenges in effectively modeling the projection onto the spherical surface of ${360^\circ}$ images using 2D Gaussians. In practical applications, input panoramas are often sparse, leading to unreliable initialization of 3D Gaussians and subsequent degradation of 3D-GS quality. In addition, due to the under-constrained geometry of texture-less planes (e.g., walls and floors), 3D-GS struggles to model these flat regions with elliptical Gaussians, resulting in significant floaters in novel views. To address these issues, we propose 360-GS, a novel $360^{\circ}$ Gaussian splatting for a limited set of panoramic inputs. Instead of splatting 3D Gaussians directly onto the spherical surface, 360-GS projects them onto the tangent plane of the unit sphere and then maps them to the spherical projections. This adaptation enables the representation of the projection using Gaussians. We guide the optimization of 360-GS by exploiting layout priors within panoramas, which are simple to obtain and contain strong structural information about the indoor scene. Our experimental results demonstrate that 360-GS allows panoramic rendering and outperforms state-of-the-art methods with fewer artifacts in novel view synthesis, thus providing immersive roaming in indoor scenarios.
翻訳日:2024-02-02 14:26:04 公開日:2024-02-01
# 動的システムにおける深部ニューラルネットワークのオンライン適応制御理論

Control-Theoretic Techniques for Online Adaptation of Deep Neural Networks in Dynamical Systems ( http://arxiv.org/abs/2402.00761v1 )

ライセンス: Link先を確認
Jacob G. Elkins and Farbod Fahimi(参考訳) 勾配に基づく最適化とバックプロパゲーションをトレーニングしたディープニューラルネットワーク(DNN)は現在、現代の人工知能、機械学習、データサイエンスの主要なツールである。 多くのアプリケーションでは、DNNは教師付き学習や強化学習を通じてオフラインでトレーニングされ、推論のためにオンラインにデプロイされる。 しかし、標準のバックプロパゲーションと勾配に基づく最適化によるDNNのトレーニングでは、DNNの固有の性能保証やバウンダリは提供されない。 さらに、強化学習ポリシーのsim2real転送のようなオフライントレーニングやオンライン推論の多くの問題は、トレーニング分布から実世界の分布へのドメインシフトを経験する。 そこで本研究では,dnnパラメータのオンライン更新に制御理論を用いた手法を提案する。 我々は,完全連結フィードフォワードDNNを連続時間力学系として定式化し,DNN入力ベクトルの時間微分に基づいて,様々な条件下で許容誤差収束を保証する新しい最終層更新法を提案する。 さらに、スペクトル正規化下でのDNNのトレーニングは、DNNに数値的に微分された量やノイズのある状態の測定が入力された場合に望ましいオンラインDNN予測の誤差軌跡の上限を制御することを示す。 提案したオンラインDNN適応法則は、トレーニングデータセットからの推論でパラメータが変化する領域シフトの下で、Van der Polシステムのダイナミクスを学ぶためにシミュレーションで検証される。 シミュレーションにより,DNNに基づく学習システムの性能向上と保証を導出するための制御理論手法の有効性が示された。

Deep neural networks (DNNs), trained with gradient-based optimization and backpropagation, are currently the primary tool in modern artificial intelligence, machine learning, and data science. In many applications, DNNs are trained offline, through supervised learning or reinforcement learning, and deployed online for inference. However, training DNNs with standard backpropagation and gradient-based optimization gives no intrinsic performance guarantees or bounds on the DNN, which is essential for applications such as controls. Additionally, many offline-training and online-inference problems, such as sim2real transfer of reinforcement learning policies, experience domain shift from the training distribution to the real-world distribution. To address these stability and transfer learning issues, we propose using techniques from control theory to update DNN parameters online. We formulate the fully-connected feedforward DNN as a continuous-time dynamical system, and we propose novel last-layer update laws that guarantee desirable error convergence under various conditions on the time derivative of the DNN input vector. We further show that training the DNN under spectral normalization controls the upper bound of the error trajectories of the online DNN predictions, which is desirable when numerically differentiated quantities or noisy state measurements are input to the DNN. The proposed online DNN adaptation laws are validated in simulation to learn the dynamics of the Van der Pol system under domain shift, where parameters are varied in inference from the training dataset. The simulations demonstrate the effectiveness of using control-theoretic techniques to derive performance improvements and guarantees in DNN-based learning systems.
翻訳日:2024-02-02 14:25:10 公開日:2024-02-01
# EuroPED-NN: 疑わしいサロゲートモデル

EuroPED-NN: Uncertainty aware surrogate model ( http://arxiv.org/abs/2402.00760v1 )

ライセンス: Link先を確認
A. Panera Alvarez, A. Ho, A. Jarvinen, S. Saarelma, S. Wiesen and JET Contributors(参考訳) 本研究は,jet-ilwペデスタルデータベースのデータとそれに続くモデル評価を用いたヨーロッパプラズマペデスタルモデルのノイズコントラスト前処理(bnn-ncp)技術を用いたベイズニューラルネットワークによる不確実性認識サロゲートモデルの生成に成功している。 これらはすべてEuroPED-NNに準拠している。 BNN-NCP技術は、不確実なサロゲートモデルに適合し、出力結果を通常のニューラルネットワークと一致させ、予測の信頼性を不確実性として提供し、サロゲートモデルの不確実性を使用して分布外領域(OOD)を強調する。 これはモデルロバスト性と信頼性に関する重要な洞察を提供する。 europed-nnは物理的に検証され、まず電子密度$n_e\! プラズマ電流の増加に対して \left(\psi_{\text{pol}}=0.94\right)$, $I_p$, 第2に、EuroPEDモデルに関連する$\Delta-\beta_{p,ped}$関係を検証する。 サーロゲートモデルによって学習された基礎物理学の強固さを肯定する。

This work successfully generates uncertainty aware surrogate models, via the Bayesian neural network with noise contrastive prior (BNN-NCP) technique, of the EuroPED plasma pedestal model using data from the JET-ILW pedestal database and subsequent model evaluations. All this conform EuroPED-NN. The BNN-NCP technique is proven to be a good fit for uncertainty aware surrogate models, matching the output results as a regular neural network, providing prediction's confidence as uncertainties, and highlighting the out of distribution (OOD) regions using surrogate model uncertainties. This provides critical insights into model robustness and reliability. EuroPED-NN has been physically validated, first, analyzing electron density $n_e\!\left(\psi_{\text{pol}}=0.94\right)$ with respect to increasing plasma current, $I_p$, and second, validating the $\Delta-\beta_{p,ped}$ relation associated with the EuroPED model. Affirming the robustness of the underlying physics learned by the surrogate model.
翻訳日:2024-02-02 14:24:39 公開日:2024-02-01
# 表現的かつ扱いやすい確率的生成モデルの構築 : レビュー

Building Expressive and Tractable Probabilistic Generative Models: A Review ( http://arxiv.org/abs/2402.00759v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Sriraam Natarajan(参考訳) 本稿では,主に確率的回路(pcs)に着目した,可搬性確率的生成モデリングの分野における進歩と技術に関する包括的調査を行う。 我々は,表現性とトラクタビリティの固有のトレードオフについて統一的な視点を提供し,表現的で効率的なPCの構築を可能にする設計原則とアルゴリズム拡張を強調し,その分野の分類学を提供する。 また、ディープ・ニューラル・モデルの概念を融合して、深層およびハイブリッド型pcを構築する最近の取り組みについて論じ、この進化分野における今後の研究の指針となる課題と疑問を概説する。

We present a comprehensive survey of the advancements and techniques in the field of tractable probabilistic generative modeling, primarily focusing on Probabilistic Circuits (PCs). We provide a unified perspective on the inherent trade-offs between expressivity and the tractability, highlighting the design principles and algorithmic extensions that have enabled building expressive and efficient PCs, and provide a taxonomy of the field. We also discuss recent efforts to build deep and hybrid PCs by fusing notions from deep neural models, and outline the challenges and open questions that can guide future research in this evolving field.
翻訳日:2024-02-02 14:24:19 公開日:2024-02-01
# GS++: エラー解析と最適ガウス分割

GS++: Error Analyzing and Optimal Gaussian Splatting ( http://arxiv.org/abs/2402.00752v1 )

ライセンス: Link先を確認
Letian Huang, Jiayang Bai, Jie Guo, Yanwen Guo(参考訳) 3D Gaussian Splattingは、リアルタイムなニューラルレンダリングに広く注目され、応用されている。 同時に、ポイントクラウドストレージ、パフォーマンス、スパースビューの堅牢性といった面で、この技術の制限に関する懸念が提起され、様々な改善につながった。 しかし、局所的なアフィン近似がスプレーティング自体に内在する投影誤差や、これらの誤差がフォトリアリスティックレンダリングの品質に与える影響には注目すべき注意が払われていない。 本稿では,投影関数$\phi$の1階テイラー展開の残差誤差を考慮し,3次元ガウス散乱の射影誤差関数に対処する。 この解析は、誤差とガウス平均位置の相関性を確立する。 その後,関数最適化理論を応用し,関数のミニマを解析し,最適ガウススプラッティングと呼ばれるガウススプラッティングに対する最適投影戦略を提供する。 実験的検証により、この投影法はアーティファクトを減少させ、より説得力に富んだレンダリングを実現する。

3D Gaussian Splatting has garnered extensive attention and application in real-time neural rendering. Concurrently, concerns have been raised about the limitations of this technology in aspects such as point cloud storage, performance , and robustness in sparse viewpoints , leading to various improvements. However, there has been a notable lack of attention to the projection errors introduced by the local affine approximation inherent in the splatting itself, and the consequential impact of these errors on the quality of photo-realistic rendering. This paper addresses the projection error function of 3D Gaussian Splatting, commencing with the residual error from the first-order Taylor expansion of the projection function $\phi$. The analysis establishes a correlation between the error and the Gaussian mean position. Subsequently, leveraging function optimization theory, this paper analyzes the function's minima to provide an optimal projection strategy for Gaussian Splatting referred to Optimal Gaussian Splatting. Experimental validation further confirms that this projection methodology reduces artifacts, resulting in a more convincingly realistic rendering.
翻訳日:2024-02-02 14:24:05 公開日:2024-02-01
# 文脈内学習のための学習不能アルゴリズム

Unlearnable Algorithms for In-context Learning ( http://arxiv.org/abs/2402.00751v1 )

ライセンス: Link先を確認
Andrei Muresanu, Anvith Thudi, Michael R. Zhang, Nicolas Papernot(参考訳) 機械学習は、モデルが未知のデータにますますデプロイされるにつれて、望ましい操作である。 しかし、正確に非学習を達成する -- 忘れられるデータが使われなかったときにモデル分布にマッチするモデルを得る -- は、困難または非効率的であり、しばしば重大な再トレーニングを必要とします。 本稿では,事前学習された大規模言語モデル(llm)のタスク適応段階における効率的なアンラーニング手法に着目した。 タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。 LLM(タスク適応用)に与えられたプロンプトに順応する数ショットのトレーニング例を選択するアルゴリズムであるERASEは、未学習の作業コストがモデルやデータセットのサイズに依存しないため、大規模なモデルやデータセットにスケールする。 さらに、我々のアプローチを微調整アプローチと比較し、2つのアプローチ間のトレードオフについて議論する。 これにより、さまざまな推論コストを考慮に入れたアンラーニングコストの新しい包括的尺度を提案し、アンラーニング要求を含むデプロイメントの微調整よりもコンテキスト内学習の方が望ましいと結論付ける。

Machine unlearning is a desirable operation as models get increasingly deployed on data with unknown provenance. However, achieving exact unlearning -- obtaining a model that matches the model distribution when the data to be forgotten was never used -- is challenging or inefficient, often requiring significant retraining. In this paper, we focus on efficient unlearning methods for the task adaptation phase of a pretrained large language model (LLM). We observe that an LLM's ability to do in-context learning for task adaptation allows for efficient exact unlearning of task adaptation training data. We provide an algorithm for selecting few-shot training examples to prepend to the prompt given to an LLM (for task adaptation), ERASE, whose unlearning operation cost is independent of model and dataset size, meaning it scales to large models and datasets. We additionally compare our approach to fine-tuning approaches and discuss the trade-offs between the two approaches. This leads us to propose a new holistic measure of unlearning cost which accounts for varying inference costs, and conclude that in-context learning can often be more favourable than fine-tuning for deployments involving unlearning requests.
翻訳日:2024-02-02 14:23:45 公開日:2024-02-01
# health-llm:パーソナライズされた検索型疾病予測モデル

Health-LLM: Personalized Retrieval-Augmented Disease Prediction Model ( http://arxiv.org/abs/2402.00746v1 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Chong Zhang, Dong Shu, Suiyuan Zhu, Mengnan Du, Yongfeng Zhang, Yanda Meng(参考訳) 医療における人工知能(AI)は、非常に高度なインテリジェント医療治療を持っている。 しかし、従来のインテリジェントヘルスケアは、静的データと統一された標準によって制限されており、個々の状況や他の課題との完全な統合を妨げている。 したがって、開発にはより専門的で詳細なインテリジェントヘルスケア手法が必要である。 そこで我々は,大規模特徴抽出と医療知識トレードオフスコアリングを組み合わせたHeath-LLMという革新的なフレームワークを提案する。 従来の健康管理手法と比較して,本手法には3つの利点がある。 まず,健康報告を大規模モデルに統合し,詳細なタスク情報を提供する。 第2に、専門的な医療専門知識は、健康特性の重み付けスコアを調整するために使用される。 第3に,半自動特徴抽出フレームワークを用いて言語モデルの分析能力を高め,専門家の洞察を取り入れ,疾患予測の精度を向上させる。 本研究は,Health-LLMの有効性を評価するために,多数の健康報告で疾患予測実験を行った。 実験の結果,提案手法は従来の方法を超え,疾患予測とパーソナライズされた健康管理に革命をもたらす可能性が示唆された。 コードはhttps://github.com/jmyissb/HealthLLMで入手できる。

Artificial intelligence (AI) in healthcare has significantly advanced intelligent medical treatment. However, traditional intelligent healthcare is limited by static data and unified standards, preventing full integration with individual situations and other challenges. Hence, a more professional and detailed intelligent healthcare method is needed for development. To this end, we propose an innovative framework named Heath-LLM, which combines large-scale feature extraction and medical knowledge trade-off scoring. Compared to traditional health management methods, our approach has three main advantages. First, our method integrates health reports into a large model to provide detailed task information. Second, professional medical expertise is used to adjust the weighted scores of health characteristics. Third, we use a semi-automated feature extraction framework to enhance the analytical power of language models and incorporate expert insights to improve the accuracy of disease prediction. We have conducted disease prediction experiments on a large number of health reports to assess the effectiveness of Health-LLM. The results of the experiments indicate that the proposed method surpasses traditional methods and has the potential to revolutionize disease prediction and personalized health management. The code is available at https://github.com/jmyissb/HealthLLM.
翻訳日:2024-02-02 14:23:23 公開日:2024-02-01
# 反復的記号的改良による大規模言語モデルの倫理的説明

Enhancing Ethical Explanations of Large Language Models through Iterative Symbolic Refinement ( http://arxiv.org/abs/2402.00745v1 )

ライセンス: Link先を確認
Xin Quan, Marco Valentino, Louise A. Dennis, Andr\'e Freitas(参考訳) 自然言語推論(nli)の研究の増大は、大規模言語モデル(llm)とその推論能力の応用と評価に焦点を当てている。 しかし、それらの成功にもかかわらず、LLMは、複雑な領域における推論に対する限定的な制御と解釈性を提供しながら、その説明において事実上の誤りや矛盾を生じやすい。 本稿では,LLMが生み出す倫理的説明の論理的妥当性とアライメントを高めるために,ハイブリッド・ニューロシンボリック・テクニックがいかに有効かを検討する。 具体的には,段階的な自然言語説明を洗練し,その正確性,不完全性,冗長性を最小限に抑えるために,llmと外部の後方連鎖型解法を統合した帰納的推論フレームワークであるlogic-explainerを提案する。 大規模な実証分析により、Logic-Explainerは、倫理的NLIの課題に挑戦する上で、文脈内学習法やCoT(Chain-of-Thought)を通じて生成された説明を改善すると同時に、モデルの推論を記述し支援する公式な証明を生成することができることを示した。 倫理的NLIは、モラル違反を特定するためにコモンセンス推論を必要とするため、我々は多段階NLIに対する神経象徴的手法の有効性をより広く示唆し、LLMの論理的整合性、信頼性、整合性を高める新たな機会を開く。

An increasing amount of research in Natural Language Inference (NLI) focuses on the application and evaluation of Large Language Models (LLMs) and their reasoning capabilities. Despite their success, however, LLMs are still prone to factual errors and inconsistencies in their explanations, offering limited control and interpretability for inference in complex domains. In this paper, we focus on ethical NLI, investigating how hybrid neuro-symbolic techniques can enhance the logical validity and alignment of ethical explanations produced by LLMs. Specifically, we present an abductive-deductive framework named Logic-Explainer, which integrates LLMs with an external backward-chaining solver to refine step-wise natural language explanations and jointly verify their correctness, reduce incompleteness and minimise redundancy. An extensive empirical analysis demonstrates that Logic-Explainer can improve explanations generated via in-context learning methods and Chain-of-Thought (CoT) on challenging ethical NLI tasks, while, at the same time, producing formal proofs describing and supporting models' reasoning. As ethical NLI requires commonsense reasoning to identify underlying moral violations, our results suggest the effectiveness of neuro-symbolic methods for multi-step NLI more broadly, opening new opportunities to enhance the logical consistency, reliability, and alignment of LLMs.
翻訳日:2024-02-02 14:23:04 公開日:2024-02-01
# baton: テキストからオーディオへのモデルと人間の好みフィードバックの整合

BATON: Aligning Text-to-Audio Model with Human Preference Feedback ( http://arxiv.org/abs/2402.00744v1 )

ライセンス: Link先を確認
Huan Liao, Haonan Han, Kai Yang, Tianjiao Du, Rui Yang, Zunnan Xu, Qinmei Xu, Jingquan Liu, Jiasheng Lu, Xiu Li(参考訳) AIGC(AI-Generated Content)の開発に伴い、テキストからオーディオまでのモデルが広く注目を集めている。 しかし、自然言語固有の情報密度と限定的なモデル理解能力により、人間の好みに合わせた音声を生成することは困難である。 この問題を軽減するために,人間の好みフィードバックを用いて生成音声とテキストプロンプトのアライメントを強化するために設計されたフレームワークbatonを定式化した。 私たちのBATONは3つの重要なステージで構成されています。まず、プロンプトとそれに対応するオーディオを含むデータセットをキュレートし、それから人間のフィードバックに基づいて注釈を付けました。 第2に,入力テキストと音声のペアに報酬を割り当てることで人間の好みを模倣できる,構築されたデータセットを用いた報酬モデルを導入した。 最後に,既定の音声合成モデルに報酬モデルを適用した。 実験の結果,我々のbatonは,音声の完全性,時間的関係,人間の嗜好との整合について,原文音声モデルの生成品質を著しく向上できることがわかった。

With the development of AI-Generated Content (AIGC), text-to-audio models are gaining widespread attention. However, it is challenging for these models to generate audio aligned with human preference due to the inherent information density of natural language and limited model understanding ability. To alleviate this issue, we formulate the BATON, a framework designed to enhance the alignment between generated audio and text prompt using human preference feedback. Our BATON comprises three key stages: Firstly, we curated a dataset containing both prompts and the corresponding generated audio, which was then annotated based on human feedback. Secondly, we introduced a reward model using the constructed dataset, which can mimic human preference by assigning rewards to input text-audio pairs. Finally, we employed the reward model to fine-tune an off-the-shelf text-to-audio model. The experiment results demonstrate that our BATON can significantly improve the generation quality of the original text-to-audio models, concerning audio integrity, temporal relationship, and alignment with human preference.
翻訳日:2024-02-02 14:22:36 公開日:2024-02-01
# 拡散に基づく音声強調のばらつきの分析

An Analysis of the Variance of Diffusion-based Speech Enhancement ( http://arxiv.org/abs/2402.00811v1 )

ライセンス: Link先を確認
Bunlong Lay, Timo Gerkmann(参考訳) 拡散モデルは生成音声強調のための強力なモデルであることが証明された。 最近のSGMSE+アプローチでは、学習は拡散過程の確率微分方程式を伴い、ガウスノイズと環境ノイズの両方をクリーン音声信号に追加する。 音声強調性能は, 環境騒音とガウス雑音を付加する際の平均変化と拡散過程に沿った分散を制御する確率微分方程式の選択によって異なる。 本研究では, 分散の尺度が音声強調性能の主要なパラメータであることを示すとともに, 雑音減衰と音声歪みのトレードオフを制御していることを示す。 より具体的には、より大きなばらつきがノイズ減衰を増加させ、推定を生成するための関数評価がより少ないため、計算フットプリントを低減できることを示す。

Diffusion models proved to be powerful models for generative speech enhancement. In recent SGMSE+ approaches, training involves a stochastic differential equation for the diffusion process, adding both Gaussian and environmental noise to the clean speech signal gradually. The speech enhancement performance varies depending on the choice of the stochastic differential equation that controls the evolution of the mean and the variance along the diffusion processes when adding environmental and Gaussian noise. In this work, we highlight that the scale of the variance is a dominant parameter for speech enhancement performance and show that it controls the tradeoff between noise attenuation and speech distortions. More concretely, we show that a larger variance increases the noise attenuation and allows for reducing the computational footprint, as fewer function evaluations for generating the estimate are required.
翻訳日:2024-02-02 14:15:27 公開日:2024-02-01
# ポジションペーパー:大規模AIの時代におけるベイズ的深層学習

Position Paper: Bayesian Deep Learning in the Age of Large-Scale AI ( http://arxiv.org/abs/2402.00809v1 )

ライセンス: Link先を確認
Theodore Papamarkou, Maria Skoularidou, Konstantina Palla, Laurence Aitchison, Julyan Arbel, David Dunson, Maurizio Filippone, Vincent Fortuin, Philipp Hennig, Aliaksandr Hubin, Alexander Immer, Theofanis Karaletsos, Mohammad Emtiyaz Khan, Agustinus Kristiadi, Yingzhen Li, Jose Miguel Hernandez Lobato, Stephan Mandt, Christopher Nemeth, Michael A. Osborne, Tim G. J. Rudner, David R\"ugamer, Yee Whye Teh, Max Welling, Andrew Gordon Wilson, Ruqi Zhang(参考訳) ディープラーニング研究の現在の状況では、大規模な画像と言語データセットを含む教師付きタスクにおいて、高い予測精度を達成することに重点が置かれている。 しかし、より広い視点から見れば、不確実性、活動的かつ継続的な学習、科学的なデータなど、見落とされがちなメトリクス、タスク、データタイプが、注意を喚起する。 Bayesian Deep Learning(BDL)は,これらのさまざまな設定にまたがってメリットを提供する,有望な道の1つである。 本稿では,BDLが深層学習の能力を高めることができることを示唆する。 BDLの強みを再考し、既存の課題を認識し、これらの障害に対処するためのエキサイティングな研究方法を強調します。 今後の議論は、大規模ファンデーションモデルをBDLと組み合わせて、その潜在能力を最大限に活用する方法に焦点を当てている。

In the current landscape of deep learning research, there is a predominant emphasis on achieving high predictive accuracy in supervised tasks involving large image and language datasets. However, a broader perspective reveals a multitude of overlooked metrics, tasks, and data types, such as uncertainty, active and continual learning, and scientific data, that demand attention. Bayesian deep learning (BDL) constitutes a promising avenue, offering advantages across these diverse settings. This paper posits that BDL can elevate the capabilities of deep learning. It revisits the strengths of BDL, acknowledges existing challenges, and highlights some exciting research avenues aimed at addressing these obstacles. Looking ahead, the discussion focuses on possible ways to combine large-scale foundation models with BDL to unlock their full potential.
翻訳日:2024-02-02 14:15:14 公開日:2024-02-01
# コラボレーティブ・アセンブリ・シナリオにおけるcobot生産リズム,制御軌跡,感情状態のダイナミクスの検討

Exploring the Dynamics between Cobot's Production Rhythm, Locus of Control and Emotional State in a Collaborative Assembly Scenario ( http://arxiv.org/abs/2402.00808v1 )

ライセンス: Link先を確認
Marta Mondellini, Matteo Lavit Nicora, Pooja Prajod, Elisabeth Andr\'e, Rocco Vertechy, Alessandro Antonietti, Matteo Malosio(参考訳) 産業シナリオでは、コラボロボット(コボット)が広く使われており、コボットの特徴が人的要因に与える影響を評価・測定することに関心が高まっている。 本研究では,コボットの生産リズム(C1 - Slow, C2 - Fast, C3 Adapted to the participants's pace)が実験軌跡(ELoC)に及ぼす影響について検討し,31人の被験者の感情状態について検討した。 操作者のパフォーマンス、基本的な内部位置制御の程度、ロボットに対する姿勢も考慮された。 3つの条件で情動状態とELoCに差はみられなかったが、他の心理的変数を考慮すると、より複雑な状況が現れる。 全体として、結果は個人の心理的特徴を考慮し、差別化され、最適な相互作用体験を提供する必要があることを示している。

In industrial scenarios, there is widespread use of collaborative robots (cobots), and growing interest is directed at evaluating and measuring the impact of some characteristics of the cobot on the human factor. In the present pilot study, the effect that the production rhythm (C1 - Slow, C2 - Fast, C3 - Adapted to the participant's pace) of a cobot has on the Experiential Locus of Control (ELoC) and the emotional state of 31 participants has been examined. The operators' performance, the degree of basic internal Locus of Control, and the attitude towards the robots were also considered. No difference was found regarding the emotional state and the ELoC in the three conditions, but considering the other psychological variables, a more complex situation emerges. Overall, results seem to indicate a need to consider the person's psychological characteristics to offer a differentiated and optimal interaction experience.
翻訳日:2024-02-02 14:14:59 公開日:2024-02-01
# 軌道縫合によるオフライン強化学習のための蒸留条件拡散モデル

Distilling Conditional Diffusion Models for Offline Reinforcement Learning through Trajectory Stitching ( http://arxiv.org/abs/2402.00807v1 )

ライセンス: Link先を確認
Shangzhe Li and Xinhua Zhang(参考訳) オフライン強化学習の効果的なアプローチとして、深層生成モデルが最近登場している。 しかし、その大きなモデルサイズは計算に困難をもたらす。 データ拡張に基づく知識蒸留法を提案することでこの問題に対処する。 特に, 条件付き拡散モデルからハイリターン軌道が生成され, 新たな報酬発生器を利用した新しい縫合アルゴリズムにより, 元の軌道とブレンドされる。 結果として得られたデータセットを行動的クローニングに適用することにより、D4RLベンチマークの詳細な生成プランナに匹敵するサイズがはるかに小さい、あるいははるかに小さい、学習の浅いポリシが実現される。

Deep generative models have recently emerged as an effective approach to offline reinforcement learning. However, their large model size poses challenges in computation. We address this issue by proposing a knowledge distillation method based on data augmentation. In particular, high-return trajectories are generated from a conditional diffusion model, and they are blended with the original trajectories through a novel stitching algorithm that leverages a new reward generator. Applying the resulting dataset to behavioral cloning, the learned shallow policy whose size is much smaller outperforms or nearly matches deep generative planners on several D4RL benchmarks.
翻訳日:2024-02-02 14:14:40 公開日:2024-02-01
# 線形結合型量子調和振動子とその量子絡み合い

Linearly coupled quantum harmonic oscillators and their quantum entanglement ( http://arxiv.org/abs/2402.00806v1 )

ライセンス: Link先を確認
D.N. Makarov and K.A. Makarova(参考訳) ハミルトニアン $ {\hat H}=\sum^2_{i=1}\left( \frac{ {\hat p}^{2}_i}{2 m_i } + \frac{m_i \omega^2_i}{2} x^2_i\right) +{\hat H}_{int} $ ここでは、2つの振動子の相互作用である${\hat H}_{int} = i k_1 x_1 { \hat p }_2+ i k_2 x_2 {\hat p}_1 + k_3 x_1 x_2-k_4 {\hat p}_1 {\hat p}_2$が量子光学、物理、物理、物理物理学の多くの応用で見られる。 それにもかかわらず、現在そのような系に対するシュル・"{o} ディンガー方程式に対する一般解は存在しない。 これは量子光学応用におけるそのような系の量子絡み合いに特に関係している。 ここでこの問題は解決され、量子絡み合いは、考慮中のシステムの全てのパラメータを含む1つの係数$R \in (0,1)$にのみ依存することを示した。 この係数の特定の値において量子絡み合いが非常に大きいことが示されている。 得られた結果は比較的単純な分析形式であり、解析が容易である。

Quantum harmonic oscillators linearly coupled through coordinates and momenta, represented by the Hamiltonian $ {\hat H}=\sum^2_{i=1}\left( \frac{ {\hat p}^{2}_i}{2 m_i } + \frac{m_i \omega^2_i}{2} x^2_i\right) +{\hat H}_{int} $, where the interaction of two oscillators ${\hat H}_{int} = i k_1 x_1 { \hat p }_2+ i k_2 x_2 {\hat p}_1 + k_3 x_1 x_2-k_4 {\hat p}_1 {\hat p}_2$, found in many applications of quantum optics, nonlinear physics, molecular chemistry and biophysics. Despite this, there is currently no general solution to the Schr\"{o}dinger equation for such a system. This is especially relevant for quantum entanglement of such a system in quantum optics applications. Here this problem is solved and it is shown that quantum entanglement depends on only one coefficient $R \in (0,1)$, which includes all the parameters of the system under consideration. It has been shown that quantum entanglement can be very large at certain values of this coefficient. The results obtained have a fairly simple analytical form, which facilitates analysis.
翻訳日:2024-02-02 14:14:30 公開日:2024-02-01
# 時系列データの信号品質監査

Signal Quality Auditing for Time-series Data ( http://arxiv.org/abs/2402.00803v1 )

ライセンス: Link先を確認
Chufan Gao, Nicholas Gisolfi, Artur Dubrawski(参考訳) 信号品質評価(SQA)は、特にAI駆動の予測保守(PMx)アプリケーションコンテキストにおいて、データ取得システムの信頼性を監視するために必要である。 SQAは、データ取得ハードウェアとソフトウェアの“サイレント障害”に対処するために不可欠である。 我々は,時系列データ解析のための信号品質指標(SQI)のオープンソースソフトウェア実装を開発した。 我々は,SQI の範囲を定式化し,確立したベンチマークデータを用いてそれらを実証し,信号品質評価に有効であることを示す。 また、既に劣化している信号の品質を向上させるために、時系列データをデノベーションするための代替手法を研究し、関連する実世界データに基づいて経験的に評価する。 私たちの知る限り,当社のソフトウェアツールキットは,公開ベンチマークデータ上で検証可能な幅広い信号品質評価と改善技術のオープンソース実装を,再現性のために初めて提供するものです。 複雑系における任意の時系列測定の信頼性,特に波形形状と信号周期性の形態的パターンが下流解析において重要な関心事である場合,このフレームワークの汎用性は容易に評価できる。

Signal quality assessment (SQA) is required for monitoring the reliability of data acquisition systems, especially in AI-driven Predictive Maintenance (PMx) application contexts. SQA is vital for addressing "silent failures" of data acquisition hardware and software, which when unnoticed, misinform the users of data, creating the risk for incorrect decisions with unintended or even catastrophic consequences. We have developed an open-source software implementation of signal quality indices (SQIs) for the analysis of time-series data. We codify a range of SQIs, demonstrate them using established benchmark data, and show that they can be effective for signal quality assessment. We also study alternative approaches to denoising time-series data in an attempt to improve the quality of the already degraded signal, and evaluate them empirically on relevant real-world data. To our knowledge, our software toolkit is the first to provide an open source implementation of a broad range of signal quality assessment and improvement techniques validated on publicly available benchmark data for ease of reproducibility. The generality of our framework can be easily extended to assessing reliability of arbitrary time-series measurements in complex systems, especially when morphological patterns of the waveform shapes and signal periodicity are of key interest in downstream analyses.
翻訳日:2024-02-02 14:13:51 公開日:2024-02-01
# Formal-LLM:制御可能なLLMエージェントのための形式言語と自然言語の統合

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents ( http://arxiv.org/abs/2402.00798v1 )

ライセンス: Link先を確認
Zelong Li, Wenyue Hua, Hao Wang, He Zhu, Yongfeng Zhang(参考訳) 近年のLarge Language Models(LLM)の進歩により、AI Agentsは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行できるようになる。 しかし、LCMのコンテンツ生成プロセスはほとんど制御できないため、現在のLCMベースのエージェントは、しばしば無効または非実行可能なプランを生成し、生成されたプランの性能を損なうとともに、LCMベースのエージェントに対するユーザの信頼を損なう。 そこで本稿では,自然言語の表現力と形式言語の正確性を統合し,llmに基づくエージェントのための新しいフレームワークである`formal-llm'を提案する。 具体的には、このフレームワークによって、人間ユーザは、計画プロセスに対する要求や制約をオートマトンとして表現できる。 スタックベースのLCM計画生成プロセスは、自動制御の監督の下で実行され、生成した計画が制約を満たすことを保証し、計画プロセスの制御が可能である。 ベンチマークタスクと実運用タスクの両方で実験を行い、我々のフレームワークは50%以上の全体的なパフォーマンス向上を実現し、フォーマルLLMを用いてエージェントの計画生成を誘導し、エージェントが無効で失敗するのを防ぐことの実現可能性と有効性を検証する。 さらに、より制御可能なLCMベースのエージェントは、高い計画の有効性が不可欠であるアプリケーションシナリオにおいて、LCMのより広範な利用を促進することができる。 作品はhttps://github.com/agiresearch/formal-llmでオープンソース公開されている。

Recent advancements on Large Language Models (LLMs) enable AI Agents to automatically generate and execute multi-step plans to solve complex tasks. However, since LLM's content generation process is hardly controllable, current LLM-based agents frequently generate invalid or non-executable plans, which jeopardizes the performance of the generated plans and corrupts users' trust in LLM-based agents. In response, this paper proposes a novel ``Formal-LLM'' framework for LLM-based agents by integrating the expressiveness of natural language and the precision of formal language. Specifically, the framework allows human users to express their requirements or constraints for the planning process as an automaton. A stack-based LLM plan generation process is then conducted under the supervision of the automaton to ensure that the generated plan satisfies the constraints, making the planning process controllable. We conduct experiments on both benchmark tasks and practical real-life tasks, and our framework achieves over 50% overall performance increase, which validates the feasibility and effectiveness of employing Formal-LLM to guide the plan generation of agents, preventing the agents from generating invalid and unsuccessful plans. Further, more controllable LLM-based agents can facilitate the broader utilization of LLM in application scenarios where high validity of planning is essential. The work is open-sourced at https://github.com/agiresearch/Formal-LLM.
翻訳日:2024-02-02 14:13:30 公開日:2024-02-01
# LLMは動的システムの統治原理を学び、文脈内ニューラルスケーリング則を明らかにする

LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law ( http://arxiv.org/abs/2402.00795v1 )

ライセンス: Link先を確認
Toni J.B. Liu, Nicolas Boull\'e, Rapha\"el Sarfati, Christopher J. Earls(参考訳) 事前訓練された大規模言語モデル(LLM)は、時系列予測を含むゼロショットタスクの実行に驚くほど効果的である。 しかしながら、そのような能力の背後にあるメカニズムを理解することは、モデルの複雑さのために非常に困難である。 本稿では,身体的関心の原則により進化が支配される力学系の挙動を外挿するLLMの能力について考察する。 その結果,テキストを中心に学習した言語モデルであるllama 2は,微調整やプロンプトエンジニアリングを行わずに,動的システムの時系列を正確に予測できることがわかった。 さらに、学習した物理規則の精度は、入力コンテキストウィンドウの長さによって増大し、ニューラルネットワークのスケーリング法則の文脈内バージョンが明らかになる。 その過程で,LLMから直接多桁数の確率密度関数を抽出するフレキシブルで効率的なアルゴリズムを提案する。

Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. In this paper, we study LLMs' ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs.
翻訳日:2024-02-02 14:13:05 公開日:2024-02-01
# ReAGent: 生成言語モデルのためのモデルに依存しない特徴属性法

ReAGent: Towards A Model-agnostic Feature Attribution Method for Generative Language Models ( http://arxiv.org/abs/2402.00794v1 )

ライセンス: Link先を確認
Zhixue Zhao, Boxuan Shan(参考訳) グラデーションやアテンションなどの特徴帰属法(FA)は、モデル予測に対する全ての入力特徴の重要性を導き出すために広く採用されている。 自然言語処理における既存の仕事は、主に分類タスクにおけるエンコーダのみの言語モデル(lms)のためのfasの開発とテストに焦点を当てている。 しかし、モデルアーキテクチャとタスク設定に固有の違いがあるため、これらのFAをテキスト生成でデコーダのみのモデルに使用することが忠実かどうかは不明である。 さらに、以前の研究では、モデルとタスク間で'one-wins-all' faが存在しないことが示されている。 これにより、入力の重要度を導出するには、大きな計算にアクセスしても禁止となる勾配計算を含む、複数の前方および後方通過が必要となるため、大規模な LM に対して計算的にコストがかかる。 これらの問題に対処するために,再帰的帰属生成(Recursive Attribution Generator, ReAGent)と呼ばれる LM 生成のためのモデルに依存しない FA を提案する。 本手法では,トークン重要度分布を再帰的に更新する。 各更新では,入力の一部をRoBERTa予測に置き換えた修正版を用いて,元の入力を用いて次のトークンを予測するための語彙上の確率分布の差を計算する。 直観としては、コンテキスト内の重要なトークンを置き換えることは、重要でないトークンを置き換えるよりも、モデルがトークンを予測することに対する信頼度を大きく変化させるべきだということです。 本手法は, 内部モデルウェイトや追加トレーニング, 微調整を必要とせず, 任意の生成型LMに普遍的に適用することができる。 我々はReAGentの忠実さを、様々な大きさの6個のデコーダのみのLMの7つの人気FAと比較した。 その結果,本手法はより忠実なトークン重要度分布を提供することがわかった。

Feature attribution methods (FAs), such as gradients and attention, are widely employed approaches to derive the importance of all input features to the model predictions. Existing work in natural language processing has mostly focused on developing and testing FAs for encoder-only language models (LMs) in classification tasks. However, it is unknown if it is faithful to use these FAs for decoder-only models on text generation, due to the inherent differences between model architectures and task settings respectively. Moreover, previous work has demonstrated that there is no `one-wins-all' FA across models and tasks. This makes the selection of a FA computationally expensive for large LMs since input importance derivation often requires multiple forward and backward passes including gradient computations that might be prohibitive even with access to large compute. To address these issues, we present a model-agnostic FA for generative LMs called Recursive Attribution Generator (ReAGent). Our method updates the token importance distribution in a recursive manner. For each update, we compute the difference in the probability distribution over the vocabulary for predicting the next token between using the original input and using a modified version where a part of the input is replaced with RoBERTa predictions. Our intuition is that replacing an important token in the context should have resulted in a larger change in the model's confidence in predicting the token than replacing an unimportant token. Our method can be universally applied to any generative LM without accessing internal model weights or additional training and fine-tuning, as most other FAs require. We extensively compare the faithfulness of ReAGent with seven popular FAs across six decoder-only LMs of various sizes. The results show that our method consistently provides more faithful token importance distributions.
翻訳日:2024-02-02 14:12:51 公開日:2024-02-01
# アルゴリズム予測における人間的専門知識の識別

Distinguishing the Indistinguishable: Human Expertise in Algorithmic Prediction ( http://arxiv.org/abs/2402.00793v1 )

ライセンス: Link先を確認
Rohan Alur, Manish Raghavan, Devavrat Shah(参考訳) アルゴリズム予測に人間の専門知識を組み込む新しい枠組みを導入する。 我々のアプローチは、どんな予測アルゴリズムにも「同じように見える」入力を区別するための人間の判断の利用に焦点を当てている。 専門家はアルゴリズムのトレーニングデータにエンコードされていない情報(特に主観的な情報)にアクセスすることが多いため、このフレーミングは予測タスクにおけるヒューマン/aiコラボレーションの問題を明確化する。 この知見を用いて、任意の実行可能な予測器の性能を改善する場合にのみ、人間のフィードバックを選択的に組み込むための一連の原則付きアルゴリズムを開発する。 アルゴリズムは人間よりも平均的に優れていることが多いが、人間の判断は特定のインスタンス(元アンティー)のアルゴリズム予測を大幅に改善できる。 x線分類では、この部分集合が患者の30%近くを占めることが判明した。 このアプローチは、この異質性を明らかにする自然な方法を提供し、効果的な人間とaiのコラボレーションを可能にする。

We introduce a novel framework for incorporating human expertise into algorithmic predictions. Our approach focuses on the use of human judgment to distinguish inputs which `look the same' to any feasible predictive algorithm. We argue that this framing clarifies the problem of human/AI collaboration in prediction tasks, as experts often have access to information -- particularly subjective information -- which is not encoded in the algorithm's training data. We use this insight to develop a set of principled algorithms for selectively incorporating human feedback only when it improves the performance of any feasible predictor. We find empirically that although algorithms often outperform their human counterparts on average, human judgment can significantly improve algorithmic predictions on specific instances (which can be identified ex-ante). In an X-ray classification task, we find that this subset constitutes nearly 30% of the patient population. Our approach provides a natural way of uncovering this heterogeneity and thus enabling effective human-AI collaboration.
翻訳日:2024-02-02 14:12:20 公開日:2024-02-01
# 演算子値を持つ開量子系の量子ゆらぎダイナミクスとホップフィールド様ネットワークへの応用

Quantum fluctuation dynamics of open quantum systems with collective operator-valued rates, and applications to Hopfield-like networks ( http://arxiv.org/abs/2402.00792v1 )

ライセンス: Link先を確認
Eliana Fiorelli(参考訳) 我々は、GKS-Lindblad形式の動的生成器であるマルコフ方式で進化するオープン量子多体系のクラスを考える。 ここで、ハミルトンの寄与は全対全結合によって特徴づけられ、散逸は系の平均的性質を符号化する集合的、作用素値のレートに依存する局所遷移を特徴付ける。 これらのタイプの生成子は、状態依存の遷移を伴う古典的(平均場)確率マルコフ力学を一般化することで形式的に得ることができる。 無限大系の極限に現れる力学に焦点を当て、平均作用素の力学に対する平均場方程式の厳密性に着目する。 本稿では, 量子ゆらぎ演算子の力学を導出し, 系の量子相関の運命を理解するために利用することができる。 我々は、量子一般化ホップフィールド連想記憶に適用し、漸近的に、メソスコピックスケールで、量子不協和の形で非常に弱い量の量子相関が古典的相関を越えて現れることを示した。

We consider a class of open quantum many-body systems that evolves in a Markovian fashion, the dynamical generator being in GKS-Lindblad form. Here, the Hamiltonian contribution is characterized by an all-to-all coupling, and the dissipation features local transitions that depend on collective, operator-valued rates, encoding average properties of the system. These types of generators can be formally obtained by generalizing, to the quantum realm, classical (mean-field) stochastic Markov dynamics, with state-dependent transitions. Focusing on the dynamics emerging in the limit of infinitely large systems, we build on the exactness of the mean-field equations for the dynamics of average operators. In this framework, we derive the dynamics of quantum fluctuation operators, that can be used in turn to understand the fate of quantum correlations in the system. We apply our results to quantum generalized Hopfield associative memories, showing that, asymptotically and at the mesoscopic scale only a very weak amount of quantum correlations, in the form of quantum discord, emerges beyond classical correlations.
翻訳日:2024-02-02 14:12:03 公開日:2024-02-01
# Graph-Mamba: 選択状態空間を用いた長距離グラフシーケンスモデリングを目指して

Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces ( http://arxiv.org/abs/2402.00789v1 )

ライセンス: Link先を確認
Chloe Wang, Oleksii Tsepa, Jun Ma, Bo Wang(参考訳) グラフトランスフォーマーのノード間の長距離依存性を捉えるために、アテンション機構が広く使われている。 二次計算コストに悩まされ、注意機構は大きなグラフでスケールできない。 近年の計算効率の向上は、主に、データ依存のコンテキスト推論において不足するランダムまたはヒューリスティックなグラフサブサンプリングによる注意分散によって達成されている。 Mambaのような状態空間モデル(SSM)は、シーケンシャルデータにおける長距離依存をモデル化する上での有効性と効率性で有名である。 しかし、SSMを非逐次グラフデータに適用することは顕著な課題である。 本研究では,入力依存ノード選択機構とMambaブロックを統合することにより,グラフネットワークにおける長距離コンテキストモデリングを強化する最初の試みであるGraph-Mambaを紹介する。 具体的には、グラフ中心のノード優先順位付けと置換戦略を定式化し、文脈認識推論を強化し、予測性能を大幅に改善する。 10のベンチマークデータセットに対する大規模な実験により、Graph-Mambaは長期グラフ予測タスクにおいて最先端の手法よりも優れており、FLOPとGPUメモリの両方で計算コストのごく一部を占めている。 コードとモデルはhttps://github.com/bowang-lab/graph-mambaで公開されている。

Attention mechanisms have been widely used to capture long-range dependencies among nodes in Graph Transformers. Bottlenecked by the quadratic computational cost, attention mechanisms fail to scale in large graphs. Recent improvements in computational efficiency are mainly achieved by attention sparsification with random or heuristic-based graph subsampling, which falls short in data-dependent context reasoning. State space models (SSMs), such as Mamba, have gained prominence for their effectiveness and efficiency in modeling long-range dependencies in sequential data. However, adapting SSMs to non-sequential graph data presents a notable challenge. In this work, we introduce Graph-Mamba, the first attempt to enhance long-range context modeling in graph networks by integrating a Mamba block with the input-dependent node selection mechanism. Specifically, we formulate graph-centric node prioritization and permutation strategies to enhance context-aware reasoning, leading to a substantial improvement in predictive performance. Extensive experiments on ten benchmark datasets demonstrate that Graph-Mamba outperforms state-of-the-art methods in long-range graph prediction tasks, with a fraction of the computational cost in both FLOPs and GPU memory consumption. The code and models are publicly available at https://github.com/bowang-lab/Graph-Mamba.
翻訳日:2024-02-02 14:11:42 公開日:2024-02-01
# マルチエージェント強化学習による不均質有理市場行動の学習と校正

Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2402.00787v1 )

ライセンス: Link先を確認
Benjamin Patrick Evans, Sumitra Ganesh(参考訳) エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。 しかし、重要な懸念事項は、ABMにおける行動規則のマニュアル定義である。 マルチエージェント強化学習(MARL)の最近の進歩は、エージェントが手動によるルール仕様の必要性をなくし、有効性を最大化しようとする最適化の観点からこの問題に対処する方法を提供する。 この学習に焦点を当てたアプローチは、合理的な効用最大化エージェントを使用することで、確立された経済モデルや金融モデルと整合する。 しかし、この表現はabmsの基本的な動機から逸脱しており、有界合理性とエージェントの不均一性から生まれる現実的なダイナミクスをモデル化することができる。 この2つのアプローチ間の明らかな相違を解決するために,我々はmarlフレームワーク内で異種処理制約されたエージェントを表現する新しい手法を提案する。 提案手法では,エージェントを様々な戦略スキルを持つ制約付きオプティマイザとして扱うことにより,厳密なユーティリティ最大化から離脱することができる。 行動は、行動可能性を調整するための政策勾配を伴う繰り返しシミュレーションを通じて学習される。 効率的な計算を可能にするために,エージェントスキルレベルの分布をパラメータ化した共有ポリシ学習を用いる。 共有ポリシー学習は、エージェントが個々のポリシーを学ぶ必要性を回避しつつも、境界のある合理的な振る舞いのスペクトルを許容する。 我々は,標準的な$n$-agent設定で実世界のデータを用いて,モデルの有効性を検証し,予測能力を大幅に改善した。

Agent-based models (ABMs) have shown promise for modelling various real world phenomena incompatible with traditional equilibrium analysis. However, a critical concern is the manual definition of behavioural rules in ABMs. Recent developments in multi-agent reinforcement learning (MARL) offer a way to address this issue from an optimisation perspective, where agents strive to maximise their utility, eliminating the need for manual rule specification. This learning-focused approach aligns with established economic and financial models through the use of rational utility-maximising agents. However, this representation departs from the fundamental motivation for ABMs: that realistic dynamics emerging from bounded rationality and agent heterogeneity can be modelled. To resolve this apparent disparity between the two approaches, we propose a novel technique for representing heterogeneous processing-constrained agents within a MARL framework. The proposed approach treats agents as constrained optimisers with varying degrees of strategic skills, permitting departure from strict utility maximisation. Behaviour is learnt through repeated simulations with policy gradients to adjust action likelihoods. To allow efficient computation, we use parameterised shared policy learning with distributions of agent skill levels. Shared policy learning avoids the need for agents to learn individual policies yet still enables a spectrum of bounded rational behaviours. We validate our model's effectiveness using real-world data on a range of canonical $n$-agent settings, demonstrating significantly improved predictive capability.
翻訳日:2024-02-02 14:11:20 公開日:2024-02-01
# CroissantLLM: 真にバイリンガルなフランス語と英語の言語モデル

CroissantLLM: A Truly Bilingual French-English Language Model ( http://arxiv.org/abs/2402.00786v1 )

ライセンス: Link先を確認
Manuel Faysse, Patrick Fernandes, Nuno Guerreiro, Ant\'onio Loison, Duarte Alves, Caio Corro, Nicolas Boizard, Jo\~ao Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, Fran\c{c}ois Yvon, Andr\'e Martins, Gautier Viaud, C\'eline Hudelot, Pierre Colombo(参考訳) 3Tの英語とフランス語のトークンセットで事前訓練された1.3B言語モデルであるCroissantLLMを導入し、研究と産業コミュニティに、コンシューマグレードのローカルハードウェア上で迅速に動作する高性能で完全にオープンソースなバイリンガルモデルをもたらす。 そこで我々は,英語とフランス語の事前学習データ比率1:1,カスタムトークンエーザ,バイリンガル微調整データセットを用いて,本質的なバイリンガルモデルを訓練するアプローチを開拓した。 特に、手動でキュレートされ、高品質で、さまざまなデータソースを備えたフランスの分割を含むトレーニングデータセットをリリースします。 英語以外でのパフォーマンスを評価するために,分類タスクと生成タスクからなる新しいベンチマークである FrenchBench を構築し,フランス語におけるモデルパフォーマンスの直交的な側面を網羅した。 さらに、透明性に根ざし、さらに大規模な言語モデル研究を促進するために、コードベースと、さまざまなモデルサイズ、トレーニングデータ分散、トレーニングステップ、微調整されたチャットモデル、強力な翻訳モデルにまたがる数十のチェックポイントをリリースします。 私たちはfmtiフレームワークを通じてモデルを評価し、透明性基準の81パーセントを検証することで、ほとんどのオープンイニシアティブのスコアをはるかに超えました。 この研究は、言語モデルにおける多言語性の理解を強化するために、従来の英語中心の作業から切り離されたNLPの景観を豊かにする。

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
翻訳日:2024-02-02 14:10:55 公開日:2024-02-01
# Tiny Titans: 大規模な言語モデルでは,要約を現実の世界で達成できるのか?

Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization? ( http://arxiv.org/abs/2402.00841v1 )

ライセンス: Link先を確認
Xue-Yong Fu, Md Tahmid Rahman Laskar, Elena Khasanova, Cheng Chen, Shashi Bhushan TN(参考訳) 大規模言語モデル(llm)は、タスク固有のデータセットに明示的に微調整されることなく、幅広いタスクを解決できる素晴らしい能力を示している。 しかし、LLMを現実世界に展開するのは、かなりの計算資源を必要とするため、簡単ではない。 本稿では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。 本研究では, 実世界の産業環境における会議要約タスクについて検討し, 微調整小型LCM(FLAN-T5, TinyLLaMA, LiteLLaMA)とゼロショット大型LCM(LLaMA-2, GPT-3.5, PaLM-2)の性能を比較し, 広範な実験を行った。 微調整後であっても、ほとんどの小さなLLMは、要約データセットを満たす際に、より大きなゼロショットLLMを上回りません。 しかし、注目すべき例外はFLAN-T5 (780Mパラメータ) であり、これは多くのゼロショットLLM (7Bから70Bパラメータ以上) よりも同等かそれ以上に動作する。 これにより、FLAN-T5のようなコンパクトなLCMが、現実の産業展開に適したコスト効率のソリューションとなる。

Large Language Models (LLMs) have demonstrated impressive capabilities to solve a wide range of tasks without being explicitly fine-tuned on task-specific datasets. However, deploying LLMs in the real world is not trivial, as it requires substantial computing resources. In this paper, we investigate whether smaller, compact LLMs are a good alternative to the comparatively Larger LLMs2 to address significant costs associated with utilizing LLMs in the real world. In this regard, we study the meeting summarization task in a real-world industrial environment and conduct extensive experiments by comparing the performance of fine-tuned compact LLMs (e.g., FLAN-T5, TinyLLaMA, LiteLLaMA) with zero-shot larger LLMs (e.g., LLaMA-2, GPT-3.5, PaLM-2). We observe that most smaller LLMs, even after fine-tuning, fail to outperform larger zero-shot LLMs in meeting summarization datasets. However, a notable exception is FLAN-T5 (780M parameters), which performs on par or even better than many zero-shot Larger LLMs (from 7B to above 70B parameters), while being significantly smaller. This makes compact LLMs like FLAN-T5 a suitable cost-efficient solution for real-world industrial deployment.
翻訳日:2024-02-02 14:03:19 公開日:2024-02-01
# ゲージ理論におけるハドロンの散乱波パケット:量子コンピュータへの準備

Scattering wave packets of hadrons in gauge theories: Preparation on a quantum computer ( http://arxiv.org/abs/2402.00840v1 )

ライセンス: Link先を確認
Zohreh Davoudi, Chung-Chun Hsieh, Saurabh V. Kadam(参考訳) 量子シミュレーションは標準模型のゲージ理論に根ざした高エネルギー散乱過程の完全な記述を可能にすることを約束している。 このようなシミュレーションの最初のステップは相互作用するハドロン波パケットの作成である。 波のパケットを作成するには、自由理論の波のパケットと相互作用理論の波の間の橋渡しを断熱的に進化させ、シミュレーションの資源を集中させるのが一般的である。 本研究では, 変動量子固有解法などの地中準備のための資源効率の高いスキームを利用して, 相互作用理論を直接構築し, 断熱進化を回避する。 次に古典的あるいは量子的な手法で最適化されたゲージ理論における境界メソニック励起に対するアンサッツを用いて、我々が開発するデジタル量子アルゴリズムを用いて、相互作用メソニック波パケットを効率的に正確に作成できることを示す。 具体的には、1+1次元のフェルミオン物質に結合したZ_2$およびU(1)$の格子ゲージ理論において、高忠実メソニック波パケットを得る。 本手法は摂動法と非摂動法の両方に適用できる。 z_2$格子ゲージ理論のウェーブパック生成回路は、13量子ビットと最大308エンタングリングゲートを用いた量子量子コンピュータ h1-1 上に構築、実装されている。 これらの忠実度は、単純な対称性に基づくノイズ緩和技術を用いて古典的なベンチマーク計算とよく一致する。 この研究は量子色力学における量子コンピューティング散乱プロセスへのステップとして機能する。

Quantum simulation holds promise of enabling a complete description of high-energy scattering processes rooted in gauge theories of the Standard Model. A first step in such simulations is preparation of interacting hadronic wave packets. To create the wave packets, one typically resorts to adiabatic evolution to bridge between wave packets in the free theory and those in the interacting theory, rendering the simulation resource intensive. In this work, we construct a wave-packet creation operator directly in the interacting theory to circumvent adiabatic evolution, taking advantage of resource-efficient schemes for ground-state preparation, such as variational quantum eigensolvers. By means of an ansatz for bound mesonic excitations in confining gauge theories, which is subsequently optimized using classical or quantum methods, we show that interacting mesonic wave packets can be created efficiently and accurately using digital quantum algorithms that we develop. Specifically, we obtain high-fidelity mesonic wave packets in the $Z_2$ and $U(1)$ lattice gauge theories coupled to fermionic matter in 1+1 dimensions. Our method is applicable to both perturbative and non-perturbative regimes of couplings. The wave-packet creation circuit for the case of the $Z_2$ lattice gauge theory is built and implemented on the Quantinuum H1-1 trapped-ion quantum computer using 13 qubits and up to 308 entangling gates. The fidelities agree well with classical benchmark calculations after employing a simple symmetry-based noise-mitigation technique. This work serves as a step toward quantum computing scattering processes in quantum chromodynamics.
翻訳日:2024-02-02 14:02:52 公開日:2024-02-01
# x-cba: 侵入検知システムのためのキャットブースト異常e支援

X-CBA: Explainability Aided CatBoosted Anomal-E for Intrusion Detection System ( http://arxiv.org/abs/2402.00839v1 )

ライセンス: Link先を確認
Kiymet Kaya, Elif Ak, Sumeyye Bas, Berk Canberk, Sule Gunduz Oguducu(参考訳) サイバー脅威がますます複雑になりつつある時代には、侵入検知システム(IDS)の有効性が重要である。 機械学習(ML)とディープラーニング(DL)モデルは、コンピュータネットワークにおける攻撃や異常を識別するための効率的で正確なソリューションを提供する。 しかし、IDSにおけるMLモデルとDLモデルの使用は、不透明な意思決定による信頼の低下につながっている。 IDS研究におけるこの透明性のギャップは、信頼性と説明責任に影響を及ぼす。 本稿では,グラフニューラルネットワーク(gnns)の構造的利点を活用してネットワークトラフィックデータを効果的に処理するとともに,新たな説明可能なai(xai)手法を適用した,新たな説明可能なidsアプローチであるx-cbaを提案する。 ラベル付きネットワークトラフィックとノード機能に依存するほとんどのgnnベースのidとは異なり、このアプローチでは、エッジ属性を含むネットワークフローを通じた幅広いトラフィックデータを活用し、検出能力を改善し、新たな脅威に対応しています。 実証実験により,我々のアプローチは,99.47%の脅威検出で高い精度を達成できるだけでなく,その分析結果の明確かつ実行可能な説明を提供することによって,この分野を前進させる。 この研究はまた、現在のギャップを埋め、正確かつ解釈可能なローカルかつグローバルな説明可能性ソリューションを提供することにより、ML/DL技術のサイバーセキュリティ防衛への広範な統合を促進することを目的とする。

The effectiveness of Intrusion Detection Systems (IDS) is critical in an era where cyber threats are becoming increasingly complex. Machine learning (ML) and deep learning (DL) models provide an efficient and accurate solution for identifying attacks and anomalies in computer networks. However, using ML and DL models in IDS has led to a trust deficit due to their non-transparent decision-making. This transparency gap in IDS research is significant, affecting confidence and accountability. To address, this paper introduces a novel Explainable IDS approach, called X-CBA, that leverages the structural advantages of Graph Neural Networks (GNNs) to effectively process network traffic data, while also adapting a new Explainable AI (XAI) methodology. Unlike most GNN-based IDS that depend on labeled network traffic and node features, thereby overlooking critical packet-level information, our approach leverages a broader range of traffic data through network flows, including edge attributes, to improve detection capabilities and adapt to novel threats. Through empirical testing, we establish that our approach not only achieves high accuracy with 99.47% in threat detection but also advances the field by providing clear, actionable explanations of its analytical outcomes. This research also aims to bridge the current gap and facilitate the broader integration of ML/DL technologies in cybersecurity defenses by offering a local and global explainability solution that is both precise and interpretable.
翻訳日:2024-02-02 14:02:23 公開日:2024-02-01
# OLMo: 言語モデルの科学を加速する

OLMo: Accelerating the Science of Language Models ( http://arxiv.org/abs/2402.00838v1 )

ライセンス: Link先を確認
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi(参考訳) 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発の詳細は公開されていない。 これらの詳細が、バイアスや潜在的なリスクを含むこれらのモデルを科学的に研究する上で重要であることから、研究コミュニティが強力で真にオープンなlmsにアクセスすることが不可欠であると考えています。 この技術的レポートはolmoの最初のリリースについて詳述している。olmoは最先端の真にオープンな言語モデルであり、言語モデリングの科学を構築し、研究するためのフレームワークである。 モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、トレーニングデータやトレーニング、評価コードを含むOLMoとフレームワーク全体をリリースしています。 このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.
翻訳日:2024-02-02 14:01:59 公開日:2024-02-01
# ALISON: 高速かつ効果的なスティロメトリオーサシップの難読化

ALISON: Fast and Effective Stylometric Authorship Obfuscation ( http://arxiv.org/abs/2402.00835v1 )

ライセンス: Link先を確認
Eric Xing, Saranya Venkatraman, Thai Le, Dongwon Lee(参考訳) authorship attribution (aa) と authorship obfuscation (ao) は、プライバシー研究における重要性を高める2つの競合するタスクである。 Modern AAは著者の一貫性のある書き込みスタイルを利用して、AA分類器を使用して著者にテキストをマッチさせる。 AOは、テキストのセマンティクスが保存されるように修正することを目的としているが、AAモデルは、その著者を正しく推測することはできない。 state-of-the-art (sota) aaメソッドによって引き起こされるプライバシーの懸念に対処するために、新しいaoメソッドが提案されているが、そのトレーニングの遅さと難読化のスピードがしばしば数時間かかるため、ほとんど使用できないままである。 To this challenge, we propose a practical AO method, ALISON, that (1) dramatically reduces training/obfuscation time, demonstrating more than 10x faster obfuscation than SOTA AO methods, (2) achieves better obfuscation success through attacking three transformer-based AA methods on two benchmark datasets, typically performing 15% better than competing methods, (3) does not require direct signals from a target AA classifier during obfuscation, and (4) utilizes unique stylometric features, allowing sound model interpretation for explainable obfuscation. また、ALISONは、4つのSOTA AAメソッドがChatGPT生成したテキストの著者名を決定するのを効果的に防止できることを示した。 我々の発見の再現性を確保するため、コードとデータは以下の通りである。

Authorship Attribution (AA) and Authorship Obfuscation (AO) are two competing tasks of increasing importance in privacy research. Modern AA leverages an author's consistent writing style to match a text to its author using an AA classifier. AO is the corresponding adversarial task, aiming to modify a text in such a way that its semantics are preserved, yet an AA model cannot correctly infer its authorship. To address privacy concerns raised by state-of-the-art (SOTA) AA methods, new AO methods have been proposed but remain largely impractical to use due to their prohibitively slow training and obfuscation speed, often taking hours. To this challenge, we propose a practical AO method, ALISON, that (1) dramatically reduces training/obfuscation time, demonstrating more than 10x faster obfuscation than SOTA AO methods, (2) achieves better obfuscation success through attacking three transformer-based AA methods on two benchmark datasets, typically performing 15% better than competing methods, (3) does not require direct signals from a target AA classifier during obfuscation, and (4) utilizes unique stylometric features, allowing sound model interpretation for explainable obfuscation. We also demonstrate that ALISON can effectively prevent four SOTA AA methods from accurately determining the authorship of ChatGPT-generated texts, all while minimally changing the original text semantics. To ensure the reproducibility of our findings, our code and data are available at: https://github.com/EricX003/ALISON.
翻訳日:2024-02-02 14:01:44 公開日:2024-02-01
# 線形光学とベル様状態判別の問題

Linear optics and the problem of Bell-like state discrimination ( http://arxiv.org/abs/2402.00832v1 )

ライセンス: Link先を確認
Jatin Ghai and Sibasish Ghosh(参考訳) 様々な量子情報処理タスクを実装するための線形光学ベースのスキームは、実装の容易さと低ノイズのために最重要となる。 多くの情報理論的なタスクはベル状態の識別の成功に依存している。 測定装置を線形光学素子に制限することにより4つのベル状態の完全な判別が不可能であることを示す文献において、no-go定理が証明されている。 成功確率はわずか50 %$である。 超エンタングルメント、漸近エンタングルメント、さらには最小の非線形完全ベル状態識別といった余分な資源を利用することで達成できる。 ベルのような状態差別の成功確率は、わずか$25\%である。 偏光、運動量、oam自由度における超エンタングルメントを用いることで、これを最大$50\%$に増やせることがわかり、これは100\%$が達成できるベル州の識別シナリオとは対照的である。 さらに,光子時間における相関を用いることで,4つのベル状態は成功確率が100-%$であるのに対して,ベル様状態判別では3つのベル様状態のみを区別可能な状態パラメータによって,25-%$と50-%$という厳密な関係にあることが判明した。 また、アンシラリーエンタングル光子を用いても同様のコントラストを観測する。 4つのベル状態の判別の成功確率は、1-\frac{1}{2^N}$のように増加するが、ベル状態のアシラリー光子の数は再び状態パラメータに依存し、場合によっては25\%以下である。 また、さらなる補助光子を加えると成功確率が低下する。 次に,sfg 100\%$成功確率という非線形ガジェットを用いることで,ベル様状態判別においても実現可能であることを示す。

A linear optics-based scheme to implement various quantum information processing tasks is of paramount importance due to ease of implementation and low noise. Many information-theoretic tasks depend on the successful discrimination of Bell states. A no-go theorem has been proved in literature which tells that it is not possible to perfectly discriminate among the four Bell states by restricting measurement apparatus to linear optical elements. The success probability is only $50\%$. Through using extra resources such as hyper entanglement, ancillary entanglement, and even a minimum amount of non-linearity complete Bell-state discrimination can be achieved. The success probability for Bell-like state discrimination is only $25\%$. We find that this can be boosted up to $50\%$ using hyperentanglement in polarization, momentum, or OAM degrees of freedom of the photons which is in contrast to the Bell-state discrimination scenario where $100\%$ can be achieved. Furthermore, we find that by using correlation in time of the photons all four Bell states can be distinguished with $100\%$ success probability while for the Bell-like state discrimination, it strictly lies between $25\%$ and $50\%$ depending on the state parameter with only three Bell-like states being distinguishable. We also observe a similar contrast when we use ancillary entangled photons. While the success probability for all four Bell-state discrimination increases as $1-\frac{1}{2^N}$ where N is the number of ancillary photons for Bell-like states it depends again on the state parameters and can be less than $25\%$ in some cases. Also adding further ancillary photons decreases the success probability. We then show that using non-linear gadgets namely SFG $100\%$ success probability can be achieved even for Bell-like state discrimination.
翻訳日:2024-02-02 14:01:17 公開日:2024-02-01
# 背骨ネットワークの黒穴検出のためのYANG支援統一戦略

A YANG-aided Unified Strategy for Black Hole Detection for Backbone Networks ( http://arxiv.org/abs/2402.00831v1 )

ライセンス: Link先を確認
Elif Ak, Kiymet Kaya, Eren Ozaltun, Sule Gunduz Oguducu, Berk Canberk(参考訳) インターネットバックボーンネットワークにおけるブラックホールの障害に対処する重要な重要性にもかかわらず、バックボーンネットワークにおける効果的な検出戦略は欠如している。 これは、以前の研究が完全に異なる動的、プロトコル、トポロジの下で機能するモバイルアドホックネットワーク(MANET)に重点を置いており、バックボーンネットワークに直接転送できないためである。 さらに、バックボーンネットワークにおけるブラックホールの障害検出は特に難しい。 さまざまな条件を考慮する必要があるため、ネットワークデータの包括的な範囲が必要であり、データ収集と分析は単純ではない。 本研究は, バックボーンネットワークにおけるブラックホール検出の新たなアプローチとして, ブラックホール感応性メトリックマトリックス (BHMM) 解析を応用したYANGデータモデルを提案する。 本稿では,ispネットワークにおけるブラックホール検出に関連する4つのyangモデルを選択・解析する方法について,ルーティングプロトコルとisp固有の構成に着目した。 これらのモデルから得られたBHMMアプローチは,検出精度が10%向上し,パケット配信速度が13%向上したことを示す。 さらに,BHMM解析を利用した機械学習手法を,商用ISPネットワークと科学研究専用のネットワークトポロジという2つの異なるネットワーク環境で評価した。 また,本手法の有効性を実証し,両環境における予測結果を大幅に改善した。

Despite the crucial importance of addressing Black Hole failures in Internet backbone networks, effective detection strategies in backbone networks are lacking. This is largely because previous research has been centered on Mobile Ad-hoc Networks (MANETs), which operate under entirely different dynamics, protocols, and topologies, making their findings not directly transferable to backbone networks. Furthermore, detecting Black Hole failures in backbone networks is particularly challenging. It requires a comprehensive range of network data due to the wide variety of conditions that need to be considered, making data collection and analysis far from straightforward. Addressing this gap, our study introduces a novel approach for Black Hole detection in backbone networks using specialized Yet Another Next Generation (YANG) data models with Black Hole-sensitive Metric Matrix (BHMM) analysis. This paper details our method of selecting and analyzing four YANG models relevant to Black Hole detection in ISP networks, focusing on routing protocols and ISP-specific configurations. Our BHMM approach derived from these models demonstrates a 10% improvement in detection accuracy and a 13% increase in packet delivery rate, highlighting the efficiency of our approach. Additionally, we evaluate the Machine Learning approach leveraged with BHMM analysis in two different network settings, a commercial ISP network, and a scientific research-only network topology. This evaluation also demonstrates the practical applicability of our method, yielding significantly improved prediction outcomes in both environments.
翻訳日:2024-02-02 14:00:46 公開日:2024-02-01
# 気候行動領域における知識抽出に使用される生成AIシステムにおける共通誤り

Common errors in Generative AI systems used for knowledge extraction in the climate action domain ( http://arxiv.org/abs/2402.00830v1 )

ライセンス: Link先を確認
Denis Havlik, Marcelo Pias(参考訳) 大規模言語モデル(LLM)およびより具体的には、生成事前訓練変換器(GPT)は、気候行動のステークホルダーがデジタル知識ベースを探索し、持続可能な方法で気候行動知識を抽出し活用するのに役立つ。 しかし、LLMは「知識基盤の確率論的モデル」であり、説得力のあるテキストを生成するのに優れるが、生成した情報の確率的性質により完全に信頼できない。 本報告では, LLM 応答の例として, 気候活動との関連性に関するいくつかの質問について述べる。

Large Language Models (LLMs) and, more specifically, the Generative Pre-Trained Transformers (GPT) can help stakeholders in climate action explore digital knowledge bases and extract and utilize climate action knowledge in a sustainable manner. However, LLMs are "probabilistic models of knowledge bases" that excel at generating convincing texts but cannot be entirely relied upon due to the probabilistic nature of the information produced. This brief report illustrates the problem space with examples of LLM responses to some of the questions of relevance to climate action.
翻訳日:2024-02-02 14:00:20 公開日:2024-02-01
# ソフトミキシングアダプタによる音響スペクトログラム変換器の高効率微調整

Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters ( http://arxiv.org/abs/2402.00828v1 )

ライセンス: Link先を確認
Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti(参考訳) 最近、Mixture of Experts (MoE)アーキテクチャは、計算コストを安価に保ちながらモデルの容量を拡大する能力のために、急成長を始めた。 さらに、多くの分野における現在の最先端モデルであるトランスフォーマーとステートスペースモデルの両方に適用することができる。 moeは事前学習段階において主に研究されているが、パラメーター効率の良い転送学習設定での使用は未検討である。 このギャップを狭めるために,本論文では,音響スペクトル変換器のパラメータ効率向上のためのMoEを用いた音声および音声のダウンストリームタスクのデミスティフィケートを試みる。 具体的には,アダプタ(ソフトmoa)のソフトミキシングを提案する。 アダプタをエキスパートとして利用し、最近のSoft MoEメソッドを利用して、入力トークンとエキスパートの間のソフトな割り当てに依存して計算時間を制限している。 4つのベンチマークにわたる大規模な実験により、Soft-MoAは単一アダプタ法より優れ、密度の高いMoAと同等に動作することが示された。 最終的に、Soft-MoAの重要な要素についてアブレーション研究を行い、例えば、Soft-MoAはより多くの専門家とより良いスケーリングを実現し、すべての専門家が出力トークンの計算に寄与することを保証するとともに、専門家の不均衡問題を解消することを示した。

Mixture of Experts (MoE) architectures have recently started burgeoning due to their ability to scale model's capacity while maintaining the computational cost affordable. Furthermore, they can be applied to both Transformers and State Space Models, the current state-of-the-art models in numerous fields. While MoE has been mostly investigated for the pre-training stage, its use in parameter-efficient transfer learning settings is under-explored. To narrow this gap, this paper attempts to demystify the use of MoE for parameter-efficient fine-tuning of Audio Spectrogram Transformers to audio and speech downstream tasks. Specifically, we propose Soft Mixture of Adapters (Soft-MoA). It exploits adapters as the experts and, leveraging the recent Soft MoE method, it relies on a soft assignment between the input tokens and experts to keep the computational time limited. Extensive experiments across 4 benchmarks demonstrate that Soft-MoA outperforms the single adapter method and performs on par with the dense MoA counterpart. We finally present ablation studies on key elements of Soft-MoA, showing for example that Soft-MoA achieves better scaling with more experts, as well as ensuring that all experts contribute to the computation of the output tokens, thus dispensing with the expert imbalance issue.
翻訳日:2024-02-02 14:00:08 公開日:2024-02-01
# emo-avatar:テクスチャレンダリングによる効率的な単眼ビデオスタイルのアバター

Emo-Avatar: Efficient Monocular Video Style Avatar through Texture Rendering ( http://arxiv.org/abs/2402.00827v1 )

ライセンス: Link先を確認
Pinxin Liu, Luchuan Song, Daoan Zhang, Hang Hua, Yunlong Tang, Huaijin Tu, Jiebo Luo, Chenliang Xu(参考訳) アートビデオのポートレート生成は、コンピュータグラフィックスとビジョンの分野で重要かつ追求された課題である。 NeRFやStyleGANを統合する様々な手法が開発されているが、これらの手法はいくつかの課題に直面している。 それらは多くの場合、大きなデータセットに大きく依存し、広範なカスタマイズプロセスを必要とし、しばしば画像品質が低下する。 上記の問題に対処するため,我々は,スタイルガンのダイナミックでドリブルなポートレートビデオ生成能力を高める遅延ニューラルネットワークレンダリングにより,効率的なモノトニックビデオスタイルアバター(emo-avatar)を提案する。 我々は2段階の遅延ニューラルレンダリングパイプラインを提案した。 第1段階では、数発のPTI初期化を利用して、ビデオからサンプリングされたいくつかの極端なポーズを通してStyleGANジェネレータを初期化する。 第2段階では,動作認識型テクスチャの動的流れによって変形したUVマップから高頻度テクスチャサンプリングを行うためのラプラシアンピラミッドを提案する。 Emo-Avatarは、スタイルのカスタマイズ時間を、既存の方法と比較して数時間からわずか5分に短縮する。 さらに、Emo-Avatarは、編集に単一の参照イメージしか必要とせず、セマンティック不変CLIPガイダンスによる地域対応のコントラスト学習を採用し、一貫性のある高解像度出力とアイデンティティ保護を実現している。 Emo-Avatarは定量評価と定性評価の両方を通じて、訓練効率、レンダリング品質、自己および横断的再現性の観点から、既存の手法よりも優れたパフォーマンスを示している。

Artistic video portrait generation is a significant and sought-after task in the fields of computer graphics and vision. While various methods have been developed that integrate NeRFs or StyleGANs with instructional editing models for creating and editing drivable portraits, these approaches face several challenges. They often rely heavily on large datasets, require extensive customization processes, and frequently result in reduced image quality. To address the above problems, we propose the Efficient Monotonic Video Style Avatar (Emo-Avatar) through deferred neural rendering that enhances StyleGAN's capacity for producing dynamic, drivable portrait videos. We proposed a two-stage deferred neural rendering pipeline. In the first stage, we utilize few-shot PTI initialization to initialize the StyleGAN generator through several extreme poses sampled from the video to capture the consistent representation of aligned faces from the target portrait. In the second stage, we propose a Laplacian pyramid for high-frequency texture sampling from UV maps deformed by dynamic flow of expression for motion-aware texture prior integration to provide torso features to enhance StyleGAN's ability to generate complete and upper body for portrait video rendering. Emo-Avatar reduces style customization time from hours to merely 5 minutes compared with existing methods. In addition, Emo-Avatar requires only a single reference image for editing and employs region-aware contrastive learning with semantic invariant CLIP guidance, ensuring consistent high-resolution output and identity preservation. Through both quantitative and qualitative assessments, Emo-Avatar demonstrates superior performance over existing methods in terms of training efficiency, rendering quality and editability in self- and cross-reenactment.
翻訳日:2024-02-02 13:59:41 公開日:2024-02-01
# 複素ジオメトリを持つPDEのための分解能不変深部演算子ネットワーク

Resolution invariant deep operator network for PDEs with complex geometries ( http://arxiv.org/abs/2402.00825v1 )

ライセンス: Link先を確認
Jianguo Huang and Yue Qiu(参考訳) ニューラル演算子(NO)は関数出力を持つ離散化不変深層学習法であり、任意の連続演算子を近似することができる。 NOは、他の深層学習法よりも偏微分方程式(PDE)を解く方が優れていることを示した。 しかし、入力関数の空間領域は、その出力と同一である必要があり、適用性が制限される。 例えば、広く使われているフーリエニューラル作用素(FNO)は、境界条件をPDE解にマッピングする作用素を近似しない。 この問題に対処するために,入出力の空間領域を分離する分解能不変深度演算子(RDO)という新しいフレームワークを提案する。 RDOはDeepオペレータネットワーク(DeepONet)によって動機付けられ、DeepONetと比較して入出力が変更されるときにネットワークを再トレーニングする必要はない。 RDOは機能的入力を受け取り、その出力も関数的であり、NOの分解不変性を維持する。 複雑な測地でPDEを解くこともできるが、NOは失敗する。 様々な数値実験により,DeepONet と FNO に対する手法の利点が示された。

Neural operators (NO) are discretization invariant deep learning methods with functional output and can approximate any continuous operator. NO have demonstrated the superiority of solving partial differential equations (PDEs) over other deep learning methods. However, the spatial domain of its input function needs to be identical to its output, which limits its applicability. For instance, the widely used Fourier neural operator (FNO) fails to approximate the operator that maps the boundary condition to the PDE solution. To address this issue, we propose a novel framework called resolution-invariant deep operator (RDO) that decouples the spatial domain of the input and output. RDO is motivated by the Deep operator network (DeepONet) and it does not require retraining the network when the input/output is changed compared with DeepONet. RDO takes functional input and its output is also functional so that it keeps the resolution invariant property of NO. It can also resolve PDEs with complex geometries whereas NO fail. Various numerical experiments demonstrate the advantage of our method over DeepONet and FNO.
翻訳日:2024-02-02 13:59:08 公開日:2024-02-01
# SLIM: 複数批判によるスキル学習

SLIM: Skill Learning with Multiple Critics ( http://arxiv.org/abs/2402.00823v1 )

ライセンス: Link先を確認
David Emukpere, Bingbing Wu, Julien Perez(参考訳) 自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。 相互情報最大化に基づく潜在変数モデルは、このタスクで特に成功したが、ロボット操作の文脈では依然として苦戦している。 環境を構成する大きな自由度に影響を及ぼす必要があるため、相互情報の最大化は有用な操作行動を生み出すのに単独で失敗する。 この制限に対処するために,ロボット操作を重視したスキル発見のためのマルチクリティック学習手法slimを紹介する。 我々の主な洞察は、複数の報酬機能を優雅に組み合わせるためにアクター-批判フレームワークで複数の批評家を利用すると、ロボット操作のための潜在変数のスキル発見が大幅に改善され、有益なスキルへの収束を妨げる報奨の間に起こりうる干渉を克服できるということです。 さらに, テーブルトップ操作の文脈において, 階層的強化学習方式において, 安全かつ効率的なモータプリミティブを取得し, それらを計画的に活用するための新しいスキル発見手法の適用性を示す。

Self-supervised skill learning aims to acquire useful behaviors that leverage the underlying dynamics of the environment. Latent variable models, based on mutual information maximization, have been particularly successful in this task but still struggle in the context of robotic manipulation. As it requires impacting a possibly large set of degrees of freedom composing the environment, mutual information maximization fails alone in producing useful manipulation behaviors. To address this limitation, we introduce SLIM, a multi-critic learning approach for skill discovery with a particular focus on robotic manipulation. Our main insight is that utilizing multiple critics in an actor-critic framework to gracefully combine multiple reward functions leads to a significant improvement in latent-variable skill discovery for robotic manipulation while overcoming possible interference occurring among rewards which hinders convergence to useful skills. Furthermore, in the context of tabletop manipulation, we demonstrate the applicability of our novel skill discovery approach to acquire safe and efficient motor primitives in a hierarchical reinforcement learning fashion and leverage them through planning, surpassing the state-of-the-art approaches for skill discovery by a large margin.
翻訳日:2024-02-02 13:58:49 公開日:2024-02-01
# WiOpen:ロバストなWi-Fiベースのオープンセットジェスチャー認識フレームワーク

WiOpen: A Robust Wi-Fi-based Open-set Gesture Recognition Framework ( http://arxiv.org/abs/2402.00822v1 )

ライセンス: Link先を確認
Xiang Zhang and Jingyang Huang and Huan Yan and Peng Zhao and Guohang Zhuang and Zhi Liu and Bin Liu(参考訳) 近年、Wi-Fiベースのジェスチャー認識への関心が高まっている。 しかし、既存の作品は、トレーニング中にすべてのテストジェスチャを事前に定義するクローズドセットパラダイムに重点を置いている。 これは現実世界のアプリケーションにおいて、未認識のジェスチャがテスト中に既知のクラスとして誤分類される可能性があるため、大きな課題となる。 この問題に対処するため,Wi-Fiベースのオープンセットジェスチャー認識(OSGR)フレームワークであるWiOpenを提案する。 OSGRの実装には、Wi-Fiセンシングのユニークな不確実性に起因する問題に対処する必要がある。 この不確実性はノイズと領域から生じ、収集されたwi-fiセンシングデータにおいて広く散在し、不規則なデータ分布をもたらす。 その結果、クラス間のデータのあいまいさと未知を識別するための適切な決定境界を定義する際の課題が発生する。 これらの課題に対処するため、WiOpenは不確実性を排除し、正確な決定境界を定義するための2つのアプローチを採用している。 まず、csi比を利用して、データ前処理中にノイズによって引き起こされる不確実性に対処する。 次に、不確実性定量化法に基づいてOSGRネットワークを設計する。 学習過程を通じて、このネットワークはドメインから生じる不確実性を効果的に軽減する。 最終的に、ネットワークはサンプルの隣人間の関係を利用してオープンセット決定境界を動的に定義し、osgrを実現している。 一般公開データセットに関する総合的な実験により、WiOpenの有効性が確認された。 wiopenは最先端のアプローチと比較して、クロスドメインタスクの優位性も示している。

Recent years have witnessed a growing interest in Wi-Fi-based gesture recognition. However, existing works have predominantly focused on closed-set paradigms, where all testing gestures are predefined during training. This poses a significant challenge in real-world applications, as unseen gestures might be misclassified as known classes during testing. To address this issue, we propose WiOpen, a robust Wi-Fi-based Open-Set Gesture Recognition (OSGR) framework. Implementing OSGR requires addressing challenges caused by the unique uncertainty in Wi-Fi sensing. This uncertainty, resulting from noise and domains, leads to widely scattered and irregular data distributions in collected Wi-Fi sensing data. Consequently, data ambiguity between classes and challenges in defining appropriate decision boundaries to identify unknowns arise. To tackle these challenges, WiOpen adopts a two-fold approach to eliminate uncertainty and define precise decision boundaries. Initially, it addresses uncertainty induced by noise during data preprocessing by utilizing the CSI ratio. Next, it designs the OSGR network based on an uncertainty quantification method. Throughout the learning process, this network effectively mitigates uncertainty stemming from domains. Ultimately, the network leverages relationships among samples' neighbors to dynamically define open-set decision boundaries, successfully realizing OSGR. Comprehensive experiments on publicly accessible datasets confirm WiOpen's effectiveness. Notably, WiOpen also demonstrates superiority in cross-domain tasks when compared to state-of-the-art approaches.
翻訳日:2024-02-02 13:58:28 公開日:2024-02-01
# femtometre感度を持つマクロ量子力学用高精細懸濁干渉センサ

A High-Finesse Suspended Interferometric Sensor for Macroscopic Quantum Mechanics with Femtometre Sensitivity ( http://arxiv.org/abs/2402.00821v1 )

ライセンス: Link先を確認
Jiri Smetana, Tianliang Yan, Vincent Boyer, Denis Martynov(参考訳) テーブルトップスケールのマクロ量子力学を解析するための干渉計センサを提案する。 センサーは、1対の懸濁光キャビティからなり、10万枚以上の精細品が10gのフュースドシリカミラーで構成されている。 現在の室温動作では、読み出し雑音に制限された音響周波数帯におけるSI{0.5}{\fmasd}のピーク感度を実現する。 読み出しノイズのさらなる抑制により、量子放射圧ノイズに到達できるようになり、量子バックアクション効果の新しい測定となる。 このようなセンサは最終的に、マクロな絡み合いの証明や、半古典的および量子重力模型のテストに利用できる。

We present an interferometric sensor for investigating macroscopic quantum mechanics on a table-top scale. The sensor consists of pair of suspended optical cavities with a finesse in excess of 100,000 comprising 10 g fused-silica mirrors. In the current room-temperature operation, we achieve a peak sensitivity of \SI{0.5}{\fmasd} in the acoustic frequency band, limited by the readout noise. With additional suppression of the readout noise, we will be able to reach the quantum radiation pressure noise, which would represent a novel measurement of the quantum back-action effect. Such a sensor can eventually be utilised for demonstrating macroscopic entanglement and testing semi-classical and quantum gravity models.
翻訳日:2024-02-02 13:58:08 公開日:2024-02-01
# 連続環境における確率論的安全保証のための近似モデルベースシールドの活用

Leveraging Approximate Model-based Shielding for Probabilistic Safety Guarantees in Continuous Environments ( http://arxiv.org/abs/2402.00816v1 )

ライセンス: Link先を確認
Alexander W. Goodall, Francesco Belardinelli(参考訳) シールドは安全な強化学習(RL)を実現するための一般的な技術である。 しかしながら、古典的な遮蔽アプローチでは、複雑な環境、特に連続状態やアクション空間でのデプロイを非常に制限的な仮定で困難にしている。 本稿では,より汎用性の高い近似モデルベースシールド(AMBS)フレームワークを連続的な設定に拡張する。 特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。 また、持続的な設定に対する強力な確率的安全性保証も提供します。 さらに, 実験において, より安定な収束を実現するために, ポリシー勾配を直接修正する2つの新しいペナルティ手法を提案する。

Shielding is a popular technique for achieving safe reinforcement learning (RL). However, classical shielding approaches come with quite restrictive assumptions making them difficult to deploy in complex environments, particularly those with continuous state or action spaces. In this paper we extend the more versatile approximate model-based shielding (AMBS) framework to the continuous setting. In particular we use Safety Gym as our test-bed, allowing for a more direct comparison of AMBS with popular constrained RL algorithms. We also provide strong probabilistic safety guarantees for the continuous setting. In addition, we propose two novel penalty techniques that directly modify the policy gradient, which empirically provide more stable convergence in our experiments.
翻訳日:2024-02-02 13:57:58 公開日:2024-02-01
# ビデオは効果的に使っていない: 更新されたドメイン適応ビデオセグメンテーションベースライン

We're Not Using Videos Effectively: An Updated Domain Adaptive Video Segmentation Baseline ( http://arxiv.org/abs/2402.00868v1 )

ライセンス: Link先を確認
Simar Kareer, Vivek Vijaykumar, Harsh Maheshwari, Prithvijit Chattopadhyay, Judy Hoffman, Viraj Prabhu(参考訳) セマンティックセグメンテーション(DAS)のための教師なしドメイン適応には、ラベル付きソースドメインからラベル付きターゲットドメインへのイメージに基づいてトレーニングされたモデルを適応させようとする多くの作業がある。 以前の研究の大半はフレームレベルの画像DAS問題としてこれを研究してきたが、ビデオDASでは隣接するフレームに存在する時間信号をさらに活用しようと試みている。 しかし、Video-DASの研究は歴史的にImage-DASとは異なるベンチマークのセットを最小のベンチマークで研究してきた。 この作業では、このギャップに対処します。 驚いたことに、(1)データとモデルアーキテクチャを慎重に制御した後でも、(HRDAとHRDA+MIC)は、確立されたビデオDASベンチマーク(+14.5 mIoU on Viper$\rightarrow$CityscapesSeq, +19.0 mIoU on Synthia$\rightarrow$CityscapesSeq)において、ビデオDASメソッドよりも優れた性能を示し、(2)Image-DASとVideo-DASの単純な組み合わせはデータセット間の限界改善にしか至らない。 Image-DAS と Video-DAS のサイロ化の進展を避けるため、我々は、共通のベンチマークで Video-DAS と Image-DAS メソッドの包括的なセットをサポートするコードベースをオープンソース化した。 コードはhttps://github.com/simarkareer/unifiedvideodaで利用可能

There has been abundant work in unsupervised domain adaptation for semantic segmentation (DAS) seeking to adapt a model trained on images from a labeled source domain to an unlabeled target domain. While the vast majority of prior work has studied this as a frame-level Image-DAS problem, a few Video-DAS works have sought to additionally leverage the temporal signal present in adjacent frames. However, Video-DAS works have historically studied a distinct set of benchmarks from Image-DAS, with minimal cross-benchmarking. In this work, we address this gap. Surprisingly, we find that (1) even after carefully controlling for data and model architecture, state-of-the-art Image-DAS methods (HRDA and HRDA+MIC)} outperform Video-DAS methods on established Video-DAS benchmarks (+14.5 mIoU on Viper$\rightarrow$CityscapesSeq, +19.0 mIoU on Synthia$\rightarrow$CityscapesSeq), and (2) naive combinations of Image-DAS and Video-DAS techniques only lead to marginal improvements across datasets. To avoid siloed progress between Image-DAS and Video-DAS, we open-source our codebase with support for a comprehensive set of Video-DAS and Image-DAS methods on a common benchmark. Code available at https://github.com/SimarKareer/UnifiedVideoDA
翻訳日:2024-02-02 13:52:13 公開日:2024-02-01
# AToM:2次元拡散を用いたテキスト・ツー・メシュ

AToM: Amortized Text-to-Mesh using 2D Diffusion ( http://arxiv.org/abs/2402.00867v1 )

ライセンス: Link先を確認
Guocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov(参考訳) Amortized Text-to-Mesh (AToM) は複数のテキストプロンプトに対して同時に最適化されたフィードフォワードテキスト-to-Meshフレームワークである。 多角形メッシュ以外の一般的な出力表現に時間を要する既存のテキストから3D手法とは対照的に、AToMはトレーニングコストの約10倍の削減で1秒未満で高品質なテクスチャメッシュを直接生成し、目に見えないプロンプトに一般化する。 私たちのキーとなるアイデアは、安定的なトレーニングとスケーラビリティを実現するための2段階のアモータイズされた最適化戦略を備えた、トリプレーンベースの新しいテキスト・ツー・メッシュアーキテクチャです。 様々なプロンプトベンチマークに関する広範な実験を通じて、AToMは最先端のアモルト化アプローチを4倍以上の精度(DF415データセット)で大幅に上回り、より識別可能で高品質な3D出力を生成する。 AToMは強い一般化性を示し、プロンプト毎のソリューションとは異なり、推論中にさらなる最適化をすることなく、未確認の補間プロンプトに対してきめ細かい3Dアセットを提供する。

We introduce Amortized Text-to-Mesh (AToM), a feed-forward text-to-mesh framework optimized across multiple text prompts simultaneously. In contrast to existing text-to-3D methods that often entail time-consuming per-prompt optimization and commonly output representations other than polygonal meshes, AToM directly generates high-quality textured meshes in less than 1 second with around 10 times reduction in the training cost, and generalizes to unseen prompts. Our key idea is a novel triplane-based text-to-mesh architecture with a two-stage amortized optimization strategy that ensures stable training and enables scalability. Through extensive experiments on various prompt benchmarks, AToM significantly outperforms state-of-the-art amortized approaches with over 4 times higher accuracy (in DF415 dataset) and produces more distinguishable and higher-quality 3D outputs. AToM demonstrates strong generalizability, offering finegrained 3D assets for unseen interpolated prompts without further optimization during inference, unlike per-prompt solutions.
翻訳日:2024-02-02 13:51:33 公開日:2024-02-01
# 分布外検出のための最適特徴整形法に向けて

Towards Optimal Feature-Shaping Methods for Out-of-Distribution Detection ( http://arxiv.org/abs/2402.00865v1 )

ライセンス: Link先を確認
Qinyu Zhao, Ming Xu, Kartik Gupta, Akshay Asthana, Liang Zheng, Stephen Gould(参考訳) 特徴整形とは、オフ・オブ・ディストリビューション(OOD)検出の最先端性能を示す一連の手法を指す。 これらのアプローチは、通常、トレーニング済みのディープラーニングモデルの最後層から特徴表現を操作し、分散内(ID)とOODサンプルをよりよく区別する。 しかしながら、既存の機能形成手法では、通常、特定のモデルアーキテクチャやOODデータセット用に手動で設計されたルールを使用し、その結果、一般化能力が制限される。 このギャップに対処するために,まず特徴形成法を研究するための抽象最適化フレームワークを定式化した。 そこで本研究では,簡易な定形化関数によるフレームワークの具体的削減を提案し,既存の特徴形化手法が具体的最適化問題に対する最適解を近似することを示す。 さらに、OODデータがアクセス不能であると仮定し、IDデータのみを利用して、一括定形化関数の閉形式解を生成する定式化を提案する。 提案手法により最適化された特徴整形関数は,多様なデータセットやモデルアーキテクチャをまたいだOOD検出の一般化能力を向上することを示す。

Feature shaping refers to a family of methods that exhibit state-of-the-art performance for out-of-distribution (OOD) detection. These approaches manipulate the feature representation, typically from the penultimate layer of a pre-trained deep learning model, so as to better differentiate between in-distribution (ID) and OOD samples. However, existing feature-shaping methods usually employ rules manually designed for specific model architectures and OOD datasets, which consequently limit their generalization ability. To address this gap, we first formulate an abstract optimization framework for studying feature-shaping methods. We then propose a concrete reduction of the framework with a simple piecewise constant shaping function and show that existing feature-shaping methods approximate the optimal solution to the concrete optimization problem. Further, assuming that OOD data is inaccessible, we propose a formulation that yields a closed-form solution for the piecewise constant shaping function, utilizing solely the ID data. Through extensive experiments, we show that the feature-shaping function optimized by our method improves the generalization ability of OOD detection across a large variety of datasets and model architectures.
翻訳日:2024-02-02 13:51:09 公開日:2024-02-01
# ViCA-NeRF:ニューラルラジアンスフィールドの3次元編集

ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields ( http://arxiv.org/abs/2402.00864v1 )

ライセンス: Link先を確認
Jiahua Dong and Yu-Xiong Wang(参考訳) vica-nerfはテキスト命令による3d編集のための最初のビューコンシスタンス認識手法である。 暗黙的ニューラルラディアンス場(NeRF)のモデリングに加えて、我々の重要な洞察は2つの正規化源を利用して異なるビュー間で編集情報を明示的に伝播させ、マルチビューの一貫性を確保することである。 幾何正規化には、NeRFから得られる深度情報を活用し、異なるビュー間の画像対応を確立する。 学習正規化のために、編集済み画像と未編集画像の間の2d拡散モデルの潜在コードを調整することで、キービューを編集し、シーン全体にわたってアップデートを広めることができる。 これら2つの戦略を組み込んだViCA-NeRFは2段階で動作する。 最初の段階では、異なるビューから編集をブレンドし、予備的な3d編集を作成します。 続いて、シーンの外観をさらに磨き上げるため、NeRFトレーニングの第2ステージが予定されている。 実験の結果,ViCA-NeRFは高い一貫性と細部でより柔軟で効率的(3倍高速)な編集を可能にすることが示された。 私たちのコードは公開されています。

We introduce ViCA-NeRF, the first view-consistency-aware method for 3D editing with text instructions. In addition to the implicit neural radiance field (NeRF) modeling, our key insight is to exploit two sources of regularization that explicitly propagate the editing information across different views, thus ensuring multi-view consistency. For geometric regularization, we leverage the depth information derived from NeRF to establish image correspondences between different views. For learned regularization, we align the latent codes in the 2D diffusion model between edited and unedited images, enabling us to edit key views and propagate the update throughout the entire scene. Incorporating these two strategies, our ViCA-NeRF operates in two stages. In the initial stage, we blend edits from different views to create a preliminary 3D edit. This is followed by a second stage of NeRF training, dedicated to further refining the scene's appearance. Experimental results demonstrate that ViCA-NeRF provides more flexible, efficient (3 times faster) editing with higher levels of consistency and details, compared with the state of the art. Our code is publicly available.
翻訳日:2024-02-02 13:50:49 公開日:2024-02-01
# 放射場スタイライゼーションのための幾何移動

Geometry Transfer for Stylizing Radiance Fields ( http://arxiv.org/abs/2402.00863v1 )

ライセンス: Link先を確認
Hyunyoung Jung, Seonghyeon Nam, Nikolaos SarafianosSungjoo Yoo, Alexander Sorkine-Hornung, Rakesh Ranjan(参考訳) 形状と幾何学的パターンは、様式的アイデンティティを定義する上で不可欠である。 しかし、現在の3Dスタイルの転送方式は主に色やテクスチャの転送に重点を置いており、しばしば幾何学的側面を見下ろしている。 本稿では,幾何学的変形を利用した3次元トランスファー手法であるGeometry Transferを紹介する。 この手法は深度マップを用いてスタイルガイドを抽出し、その後、放射場の幾何学をスタイリングする。 さらに,3次元シーンからの幾何学的手がかりを活用し,美的表現力を高め,意図したスタイルをより正確に反映する新しい手法を提案する。 我々の広範な実験により、幾何変換はより広範かつより表現力のあるスタイル化を可能にし、3Dスタイル転送の範囲を大きく広げることを示す。

Shape and geometric patterns are essential in defining stylistic identity. However, current 3D style transfer methods predominantly focus on transferring colors and textures, often overlooking geometric aspects. In this paper, we introduce Geometry Transfer, a novel method that leverages geometric deformation for 3D style transfer. This technique employs depth maps to extract a style guide, subsequently applied to stylize the geometry of radiance fields. Moreover, we propose new techniques that utilize geometric cues from the 3D scene, thereby enhancing aesthetic expressiveness and more accurately reflecting intended styles. Our extensive experiments show that Geometry Transfer enables a broader and more expressive range of stylizations, thereby significantly expanding the scope of 3D style transfer.
翻訳日:2024-02-02 13:50:28 公開日:2024-02-01
# データ圧縮による一般化とロバスト性のための大規模言語モデルの評価

Evaluating Large Language Models for Generalization and Robustness via Data Compression ( http://arxiv.org/abs/2402.00861v1 )

ライセンス: Link先を確認
Yucheng Li, Yunhao Guo, Frank Guerin, Chenghua Lin(参考訳) 既存の大規模言語モデルの評価方法は、データの汚染、プロンプトに対する感度、ベンチマーク作成のコストなどの課題に直面している。 そこで本研究では,学習停止後のモデルの予測能力の一般化を検証し,損失のないデータ圧縮に基づく評価手法を提案する。 具体的には、2017年から2023年までの83ヶ月にわたる包括的なテストデータを収集し、モデルのトレーニングデータ遮断に従って、データをトレーニングとテスト期間に分割します。 測定します 1) 目に見えないデータの一般化の手段としての試験期間における圧縮性能 2) 頑健性の尺度として, 訓練期間と試験期間の成績差が認められた。 我々の実験では、ウィキペディア、ニュース記事、コード、arxiv論文、マルチモーダルデータなど、さまざまな大きさの大規模言語モデル14をテストした。 しかし,mistralやllama-2などのモデルでは,性能とロバスト性のバランスが良好であることが判明した。 結果は、モデルがニュースやコードデータの一般化に苦しむが、特にarxivの論文でうまく機能することを示唆している。 また、コンテキストサイズとトークン化の実装が、全体的な圧縮パフォーマンスに大きな影響を与えることも分かりました。

Existing methods for evaluating large language models face challenges such as data contamination, sensitivity to prompts, and the high cost of benchmark creation. To address this, we propose a lossless data compression based evaluation approach that tests how models' predictive abilities generalize after their training cutoff. Specifically, we collect comprehensive test data spanning 83 months from 2017 to 2023 and split the data into training and testing periods according to models' training data cutoff. We measure: 1) the compression performance on the testing period as a measure of generalization on unseen data; and 2) the performance gap between the training and testing period as a measure of robustness. Our experiments test 14 representative large language models with various sizes on sources including Wikipedia, news articles, code, arXiv papers, and multi-modal data. We find that the compression rate of many models reduces significantly after their cutoff date, but models such as Mistral and Llama-2 demonstrate a good balance between performance and robustness. Results also suggest that models struggle to generalize on news and code data, but work especially well on arXiv papers. We also find the context size and tokenization implementation have a big impact of on the overall compression performance.
翻訳日:2024-02-02 13:50:15 公開日:2024-02-01
# 大規模言語モデルは文脈を理解できるか?

Can Large Language Models Understand Context? ( http://arxiv.org/abs/2402.00858v1 )

ライセンス: Link先を確認
Yilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng(参考訳) 文脈を理解することは、人間の言語を理解するための鍵であり、大きな言語モデル(LLM)が目覚ましいほどに実証されている能力である。 しかし,LLMの評価は自然言語処理の領域内において様々な領域を包含しているが,文脈的特徴を理解する言語能力の検証には注意が払われている。 本稿では,既存のデータセットを生成モデルに適合させたコンテキスト理解ベンチマークを提案する。 このベンチマークは、4つの異なるタスクと9つのデータセットで構成されており、いずれもモデルがコンテキストを理解する能力を評価するように設計されたプロンプトを特徴としている。 まず,文脈内学習事前学習シナリオにおいて,llmの性能を評価する。 実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが示された。 第二に、LLM圧縮は研究と実世界のアプリケーションの両方において重要性が増しているため、文脈学習環境下での量子化モデルの文脈理解を評価する。 トレーニング後の3ビットの量子化は,ベンチマークのパフォーマンス低下につながることが分かりました。 実験結果を実証するために,これらのシナリオを広範囲に分析する。

Understanding context is key to understanding human language, an ability which Large Language Models (LLMs) have been increasingly seen to demonstrate to an impressive extent. However, though the evaluation of LLMs encompasses various domains within the realm of Natural Language Processing, limited attention has been paid to probing their linguistic capability of understanding contextual features. This paper introduces a context understanding benchmark by adapting existing datasets to suit the evaluation of generative models. This benchmark comprises of four distinct tasks and nine datasets, all featuring prompts designed to assess the models' ability to understand context. First, we evaluate the performance of LLMs under the in-context learning pretraining scenario. Experimental results indicate that pre-trained dense models struggle with understanding more nuanced contextual features when compared to state-of-the-art fine-tuned models. Second, as LLM compression holds growing significance in both research and real-world applications, we assess the context understanding of quantized models under in-context-learning settings. We find that 3-bit post-training quantization leads to varying degrees of performance reduction on our benchmark. We conduct an extensive analysis of these scenarios to substantiate our experimental results.
翻訳日:2024-02-02 13:49:55 公開日:2024-02-01
# 累積精度ギャップ制御による初期時間分類

Early Time Classification with Accumulated Accuracy Gap Control ( http://arxiv.org/abs/2402.00857v1 )

ライセンス: Link先を確認
Liran Ringel, Regev Cohen, Daniel Freedman, Michael Elad, Yaniv Romano(参考訳) 早期の分類アルゴリズムは、全入力ストリームを処理せずに機能のストリームをラベル付けすることを目的としており、入力全体に分類器を適用することで達成されたものと同等の精度を維持している。 本稿では,任意のシーケンシャル分類器に適用可能な統計的枠組みを導入し,校正停止規則を定式化する。 このデータ駆動型ルールは、フルタイム分類と早期分類の精度ギャップを有限サンプル、分散フリーで制御する。 まず,learn-then-test キャリブレーションフレームワークに基づく新しい手法を示し,そのギャップを平均的に i.i.d. インスタンスで制御する。 このアルゴリズムは、初期停止時間において過度に高い精度ギャップを生じる傾向があるため、本手法の主な貢献は、蓄積停止時間に基づいて精度ギャップを条件付きで制御するより強いエラー概念を制御するフレームワークの提案である。 数値実験により,本手法の有効性,適用性,有用性を示す。 提案する早期停止機構は,厳密な精度のギャップ制御を実現しつつ,分類に使用する時間ステップの最大94%を削減できることを示す。

Early time classification algorithms aim to label a stream of features without processing the full input stream, while maintaining accuracy comparable to that achieved by applying the classifier to the entire input. In this paper, we introduce a statistical framework that can be applied to any sequential classifier, formulating a calibrated stopping rule. This data-driven rule attains finite-sample, distribution-free control of the accuracy gap between full and early-time classification. We start by presenting a novel method that builds on the Learn-then-Test calibration framework to control this gap marginally, on average over i.i.d. instances. As this algorithm tends to yield an excessively high accuracy gap for early halt times, our main contribution is the proposal of a framework that controls a stronger notion of error, where the accuracy gap is controlled conditionally on the accumulated halt times. Numerical experiments demonstrate the effectiveness, applicability, and usefulness of our method. We show that our proposed early stopping mechanism reduces up to 94% of timesteps used for classification while achieving rigorous accuracy gap control.
翻訳日:2024-02-02 13:49:36 公開日:2024-02-01
# 言語モデルアライメントの効率的かつ厳密な最適化に向けて

Towards Efficient and Exact Optimization of Language Model Alignment ( http://arxiv.org/abs/2402.00856v1 )

ライセンス: Link先を確認
Haozhe Ji, Cheng Lu, Yilin Niu, Pei Ke, Hongning Wang, Jun Zhu, Jie Tang, Minlie Huang(参考訳) 言語モデルと人間の好みのアライメントは、現実世界のタスクでの使用には不可欠である。 この問題は、初期方針からの逸脱を最小限に抑えた人間の嗜好を反映した期待される報酬を最大化するために、モデルのポリシーを最適化するものとして定式化される。 素直な解決と見なされているが、強化学習(RL)は、効率的な政策改善を妨げる政策更新のばらつきに悩まされている。 近年、嗜好データからポリシーを直接最適化するために、直接選好最適化(DPO)が提案されている。 実装は簡単だが、DPOは、実際に達成されることが保証されていない最適ポリシーに基づいて導出され、意図された解への収束を損なう。 本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。 我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを保証し,RLアルゴリズムに関連する複雑さを回避し,効率的な最適化を可能にすることを証明した。 本手法をdpoと比較し,理論解析と実証分析の両方と比較し,現実的人間嗜好データに対する既存のアプローチよりも,この手法の利点を実証する。

The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model's policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. Though simple to implement, DPO is derived based on the optimal policy that is not assured to be achieved in practice, which undermines its convergence to the intended solution. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. We prove that EXO is guaranteed to optimize in the same direction as the RL algorithms asymptotically for arbitary parametrization of the policy, while enables efficient optimization by circumventing the complexities associated with RL algorithms. We compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data.
翻訳日:2024-02-02 13:49:18 公開日:2024-02-01
# SymbolicAI: 生成モデルとソルバを組み合わせた論理的アプローチのためのフレームワーク

SymbolicAI: A framework for logic-based approaches combining generative models and solvers ( http://arxiv.org/abs/2402.00854v1 )

ライセンス: Link先を確認
Marius-Constantin Dinu and Claudiu Leoveanu-Condrei and Markus Holzleitner and Werner Zellinger and Sepp Hochreiter(参考訳) 生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。 SymbolicAIは、自然言語とフォーマルな言語命令の両方に基づいてタスクを実行するセマンティックパーザとして、大きな言語モデル(LLM)を扱い、シンボリック推論と生成AIのギャップを埋めることによって、さまざまな問題解決者と生成モデルのシームレスな統合を可能にする。 我々は確率的プログラミングの原理を利用して複雑なタスクに取り組み、それぞれの強みで微分可能および古典的なプログラミングパラダイムを利用する。 このフレームワークは、データストリーム操作のための多型、構成、自己参照操作のセットを導入し、LCM出力をユーザ目標と整合させる。 その結果、ゼロショット学習能力を持つ様々な基礎モデルの能力と、特定の問題に熟達した特殊で微調整されたモデルやソルバーを切り替えることができる。 このフレームワークは、説明可能な計算グラフの作成と評価を容易にする。 本稿では、これらの計算グラフを評価するための品質指標とその経験的スコアを導入し、複雑なワークフローの集合にまたがる様々な最先端のLCMを比較するベンチマークを提案する。 我々は経験的スコアを「相互相似性による関係軌道評価のためのベクトル埋め込み」または「頂点スコア」と呼ぶ。 フレームワークのコードベースとベンチマークを以下にリンクする。

We introduce SymbolicAI, a versatile and modular framework employing a logic-based approach to concept learning and flow management in generative processes. SymbolicAI enables the seamless integration of generative models with a diverse range of solvers by treating large language models (LLMs) as semantic parsers that execute tasks based on both natural and formal language instructions, thus bridging the gap between symbolic reasoning and generative AI. We leverage probabilistic programming principles to tackle complex tasks, and utilize differentiable and classical programming paradigms with their respective strengths. The framework introduces a set of polymorphic, compositional, and self-referential operations for data stream manipulation, aligning LLM outputs with user objectives. As a result, we can transition between the capabilities of various foundation models endowed with zero- and few-shot learning capabilities and specialized, fine-tuned models or solvers proficient in addressing specific problems. In turn, the framework facilitates the creation and evaluation of explainable computational graphs. We conclude by introducing a quality measure and its empirical score for evaluating these computational graphs, and propose a benchmark that compares various state-of-the-art LLMs across a set of complex workflows. We refer to the empirical score as the "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", or VERTEX score for short. The framework codebase and benchmark are linked below.
翻訳日:2024-02-02 13:48:59 公開日:2024-02-01
# LTAU-FF:原子間力場の不確かさの損失軌道解析

LTAU-FF: Loss Trajectory Analysis for Uncertainty in Atomistic Force Fields ( http://arxiv.org/abs/2402.00853v1 )

ライセンス: Link先を確認
Joshua A. Vita, Amit Samanta, Fei Zhou, Vincenzo Lordi(参考訳) モデルアンサンブルは、深層学習原子間力場の予測不確実性を推定するためのシンプルで効果的なツールである。 これにもかかわらず、アンサンブルベースの不確実性定量化(UQ)技術の普及は、トレーニングと推論の両方においてアンサンブルによって引き起こされる高い計算コストによって制限される。 本研究では,学習過程で得られたサンプル単位誤差の累積分布関数(cdfs)を利用して,モデルのアンサンブルを効率的に表現し,モデルの潜在空間における距離に基づく類似性探索と結合する。 これらのツールを用いることで、トレーニングや推論において複数のモデルの評価を必要とせず、アンサンブルベースの技法の強みを活用するシンプルなUQメトリック(LTAUと呼ぶ)を開発する。 初期実験として, 本手法を用いて原子間力場(ltau-ff)における認識的不確かさを推定し, 文献から複数のデータセットにおけるテスト誤差を正確に予測できることを示す。 次に、LTAU-FFの実用性について説明する。 1)サンプルデータセットのトレーニング検証ギャップを調整し、 2) OC20 IS2RSタスクにおける緩和軌道誤差の予測 本研究は,LTAUを深層学習原子力場に応用することに焦点を当てるが,どの回帰タスクやアンサンブル生成技術にも容易に適用でき,信頼性と実装が容易なUQ指標を提供できることを強調する。

Model ensembles are simple and effective tools for estimating the prediction uncertainty of deep learning atomistic force fields. Despite this, widespread adoption of ensemble-based uncertainty quantification (UQ) techniques is limited by the high computational costs incurred by ensembles during both training and inference. In this work we leverage the cumulative distribution functions (CDFs) of per-sample errors obtained over the course of training to efficiently represent the model ensemble, and couple them with a distance-based similarity search in the model latent space. Using these tools, we develop a simple UQ metric (which we call LTAU) that leverages the strengths of ensemble-based techniques without requiring the evaluation of multiple models during either training or inference. As an initial test, we apply our method towards estimating the epistemic uncertainty in atomistic force fields (LTAU-FF) and demonstrate that it can be easily calibrated to accurately predict test errors on multiple datasets from the literature. We then illustrate the utility of LTAU-FF in two practical applications: 1) tuning the training-validation gap for an example dataset, and 2) predicting errors in relaxation trajectories on the OC20 IS2RS task. Though in this work we focus on the use of LTAU with deep learning atomistic force fields, we emphasize that it can be readily applied to any regression task, or any ensemble-generation technique, to provide a reliable and easy-to-implement UQ metric.
翻訳日:2024-02-02 13:48:33 公開日:2024-02-01
# スピンスクイーズ操作による2ストローク熱機

Two-stroke thermal machine using spin squeezing operation ( http://arxiv.org/abs/2402.00852v1 )

ライセンス: Link先を確認
Carlos H. S. Vieira, Jonas F. G. Santos(参考訳) 量子熱機械は、異なるシステム間のエネルギーの流れに量子効果がどのように影響するかを調べる強力なプラットフォームである。 本稿では,全操作中にスピンスクイーズ効果が本質的にスイッチオンされる2ストロークサイクルについて検討する。 北川と上田のパラメータとl1-ノルムを用いて、スピンのスクイーズと量子コヒーレンスの程度を計算することにより、まず、スピンスクイーズ効果がエネルギー基底のコヒーレンス量を多くすることを示す。 次に,システム内へのスピンスクイーズ量の観点から,特性関数法を用いてエンジン性能について検討する。 この結果から, サイクル中のエントロピー生成量と直接的に関連している常オンスピンスクイーズを仮定しても, エンジンの効率性や抽出電力が向上し, 操作時間やスクイーズ強度など, 関連するパラメータを高い制御力で制御できることが示唆された。

Quantum thermal machines are powerful platforms to investigate how quantum effects impact the energy flow between different systems. We here investigate a two-stroke cycle in which spin squeezing effects are intrinsically switched on during all the operation time. By using the Kitagawa and Ueda's parameter and the l1-norm to compute the degree of spin squeezing and the quantum coherence, we firstly show that the more the spin squeezing effect the more the amount of coherence in the energy basis. Then we employ the characteristic function approach to investigate the engine performance in view of the amount of spin squeezing into the system. Our results show that even assuming an always-on spin squeezing, which is directly associated with the amount of entropy production in the cycle, it is possible to find a better set of efficiency and extracted power for the engine provided a high control over the relevant parameters, i.e., the operation time and the squeezing intensity.
翻訳日:2024-02-02 13:48:08 公開日:2024-02-01
# 高関連アノテーションを用いたラマンスペクトルのデータ拡張方式

Data Augmentation Scheme for Raman Spectra with Highly Correlated Annotations ( http://arxiv.org/abs/2402.00851v1 )

ライセンス: Link先を確認
Christoph Lange, Isabel Thiele, Lara Santolin, Sebastian L. Riedel, Maxim Borisyak, Peter Neubauer and M. Nicolas Cruz Bournazou(参考訳) バイオテクノロジーにおけるラマン分光法は、細胞密度、基質および生成物濃度を測定するプロセス分析技術(PAT)として急速に普及している。 分子の振動モードを記録し、その情報を単一のスペクトルで非侵襲的に提供する。 通常、部分最小二乗 (PLS) はスペクトルから興味のある変数に関する情報を推測する選択のモデルである。 しかし、生物学的プロセスは、畳み込みニューラルネットワーク(CNN)が強力な代替となる複雑さで知られている。 非ガウスノイズを処理し、ビームの誤認、画素の誤動作、または追加物質の存在を考慮できる。 しかし、それらはモデルトレーニング中に多くのデータを必要とし、プロセス変数の非線形依存を拾います。 本研究では,統計的に独立なラベルを持つデータセットから新たなデータポイントを生成するために,スペクトルの付加的な性質を利用して,そのようなデータに基づいてトレーニングされたネットワークがモデル予測の間に低い相関関係を示す。 これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。 このデータ拡張手法により、異なる相関関係を示す新しいコンテキストのトレーニングデータとしてスペクトルを再利用することができる。 さらなるデータにより、より良く、より堅牢なモデルを構築することができる。 これは、大量の履歴データが利用できるが、モデルトレーニングには現在使用されていないシナリオに関心がある。 本研究では, 実験中の基質, バイオマス, ポリヒドロキシアルカノ酸 (pha) バイオポリマー濃度をモニターするために, ラルストニア・エストロファバッチ培養の合成スペクトルを用いて, 提案手法の有用性を実証する。

In biotechnology Raman Spectroscopy is rapidly gaining popularity as a process analytical technology (PAT) that measures cell densities, substrate- and product concentrations. As it records vibrational modes of molecules it provides that information non-invasively in a single spectrum. Typically, partial least squares (PLS) is the model of choice to infer information about variables of interest from the spectra. However, biological processes are known for their complexity where convolutional neural networks (CNN) present a powerful alternative. They can handle non-Gaussian noise and account for beam misalignment, pixel malfunctions or the presence of additional substances. However, they require a lot of data during model training, and they pick up non-linear dependencies in the process variables. In this work, we exploit the additive nature of spectra in order to generate additional data points from a given dataset that have statistically independent labels so that a network trained on such data exhibits low correlations between the model predictions. We show that training a CNN on these generated data points improves the performance on datasets where the annotations do not bear the same correlation as the dataset that was used for model training. This data augmentation technique enables us to reuse spectra as training data for new contexts that exhibit different correlations. The additional data allows for building a better and more robust model. This is of interest in scenarios where large amounts of historical data are available but are currently not used for model training. We demonstrate the capabilities of the proposed method using synthetic spectra of Ralstonia eutropha batch cultivations to monitor substrate, biomass and polyhydroxyalkanoate (PHA) biopolymer concentrations during of the experiments.
翻訳日:2024-02-02 13:47:48 公開日:2024-02-01
# スコアに基づく因果表現学習:線形および一般変換

Score-based Causal Representation Learning: Linear and General Transformations ( http://arxiv.org/abs/2402.00849v1 )

ライセンス: Link先を確認
Burak Var{\i}c{\i}, Emre Acart\"urk, Karthikeyan Shanmugam, Ali Tajer(参考訳) 本稿では、一般的な非パラメトリック潜時因果モデルに基づく介入に基づく因果表現学習(CRL)と、潜時変数を観測変数にマッピングする未知の変換について述べる。 線形および一般変換について検討した。 この論文は \emph{identifiability} と \emph{achievability} の両方の側面を扱う。 識別可能性(identifiability)とは、真の潜在因果変数とそれらの背後にある潜在因果グラフの回復を保証するアルゴリズム非依存な条件を決定することを指す。 achievabilityはアルゴリズムの側面を指し、識別可能性保証を達成するアルゴリズムの設計に取り組んでいる。 密度関数の対数の勾配) と crl の間の新たな接続を導出することにより, 同定性と実現可能性の両方を保証する \emph{score-based class of algorithms} を設計した。 まず,本論文では,ノード毎の確率的ハード介入によって識別性が保証されることを示す。 また、一般的な因果モデルに対する祖先への識別可能性や十分な非線形因果モデルに対する完全な潜在グラフ回復など、ソフト介入に対する部分的な識別可能性を保証する。 第2に, \emph{general} 変換に着目し,ノード毎の確率的ハード介入が2つあることを示す。 特に、emph{not} はどの介入環境がどのノードが介在しているかを知る必要がある。

This paper addresses intervention-based causal representation learning (CRL) under a general nonparametric latent causal model and an unknown transformation that maps the latent variables to the observed variables. Linear and general transformations are investigated. The paper addresses both the \emph{identifiability} and \emph{achievability} aspects. Identifiability refers to determining algorithm-agnostic conditions that ensure recovering the true latent causal variables and the latent causal graph underlying them. Achievability refers to the algorithmic aspects and addresses designing algorithms that achieve identifiability guarantees. By drawing novel connections between \emph{score functions} (i.e., the gradients of the logarithm of density functions) and CRL, this paper designs a \emph{score-based class of algorithms} that ensures both identifiability and achievability. First, the paper focuses on \emph{linear} transformations and shows that one stochastic hard intervention per node suffices to guarantee identifiability. It also provides partial identifiability guarantees for soft interventions, including identifiability up to ancestors for general causal models and perfect latent graph recovery for sufficiently non-linear causal models. Secondly, it focuses on \emph{general} transformations and shows that two stochastic hard interventions per node suffice for identifiability. Notably, one does \emph{not} need to know which pair of interventional environments have the same node intervened.
翻訳日:2024-02-02 13:47:00 公開日:2024-02-01
# bootstap: トラッキングのためのブートストラップトレーニング

BootsTAP: Bootstrapped Training for Tracking-Any-Point ( http://arxiv.org/abs/2402.00847v1 )

ライセンス: Link先を確認
Carl Doersch, Yi Yang, Dilara Gokay, Pauline Luc, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ross Goroshin, Jo\~ao Carreira, and Andrew Zisserman(参考訳) モデルに物理と運動をより深く理解させるには、実場面で固体表面がどのように動き、変形するかを理解するのに有用である。 これはトラック・アニー・ポイント(TAP)として定式化することができ、このアルゴリズムはビデオ内の固体表面に対応する任意の点を、空間と時間で密に追跡することができる。 tapの大規模地上訓練データはシミュレーションでのみ利用可能であり、現在はさまざまな物体や動きがある。 本研究では,大規模でラベルなし,未計算な実世界のデータが,自己教師型学生教師設定を用いて,最小限のアーキテクチャ変更でTAPモデルを改善する方法を示す。 例えば、TAP-Vid-DAVISのパフォーマンスは61.3%から66.4%に向上し、TAP-Vid-Kineticsは57.2%から61.5%に向上した。

To endow models with greater understanding of physics and motion, it is useful to enable them to perceive how solid surfaces move and deform in real scenes. This can be formalized as Tracking-Any-Point (TAP), which requires the algorithm to be able to track any point corresponding to a solid surface in a video, potentially densely in space and time. Large-scale ground-truth training data for TAP is only available in simulation, which currently has limited variety of objects and motion. In this work, we demonstrate how large-scale, unlabeled, uncurated real-world data can improve a TAP model with minimal architectural changes, using a self-supervised student-teacher setup. We demonstrate state-of-the-art performance on the TAP-Vid benchmark surpassing previous results by a wide margin: for example, TAP-Vid-DAVIS performance improves from 61.3% to 66.4%, and TAP-Vid-Kinetics from 57.2% to 61.5%.
翻訳日:2024-02-02 13:46:35 公開日:2024-02-01
# 数学推論能力を小言語モデルに拡張する

Distilling Mathematical Reasoning Capabilities into Small Language Models ( http://arxiv.org/abs/2401.11864v4 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 本研究は,高度な大規模言語モデル (LLM) の民主化という課題に対処し,それらの数学的推論能力を,性能を損なうことなくサブビリオンパラメータ (SLM) に圧縮する。 EoTD(Equation-of-Thought Distillation, EoTD)は, 理論過程を方程式ベース表現にカプセル化し, 微調整SLMのためのEoTDデータセットを構築する手法である。 さらに,SLMの推論性能を高めるために,ETD(Ensemble Thoughts Distillation)フレームワークを提案する。 これには、Chain-of-Thought(CoT)、Program-of-Thought(PoT)、Equation-of-Thought(EoT)など、複数の思考プロセスによる推論データセットの作成と、それを微調整に使用することが含まれる。 実験により,EoTDはSLMの推理能力を大幅に向上し,ETDはこれらのモデルが最先端の推理性能を達成できることを示した。

This work addresses the challenge of democratizing advanced Large Language Models (LLMs) by compressing their mathematical reasoning capabilities into sub-billion parameter Small Language Models (SLMs) without compromising performance. We introduce Equation-of-Thought Distillation (EoTD), a novel technique that encapsulates the reasoning process into equation-based representations to construct an EoTD dataset for fine-tuning SLMs. Additionally, we propose the Ensemble Thoughts Distillation (ETD) framework to enhance the reasoning performance of SLMs. This involves creating a reasoning dataset with multiple thought processes, including Chain-of-Thought (CoT), Program-of-Thought (PoT), and Equation-of-Thought (EoT), and using it for fine-tuning. Our experimental findings demonstrate that EoTD significantly boosts the reasoning abilities of SLMs, while ETD enables these models to achieve state-of-the-art reasoning performance.
翻訳日:2024-02-02 11:59:00 公開日:2024-02-01
# 拡散相関分光法における血流評価の強化:ノイズロバスト性分析を用いた伝達学習アプローチ

Enhancing Blood Flow Assessment in Diffuse Correlation Spectroscopy: A Transfer Learning Approach with Noise Robustness Analysis ( http://arxiv.org/abs/2401.05580v3 )

ライセンス: Link先を確認
Xi Chen, Xingda Li(参考訳) 拡散相関分光法(Diffuse correlation spectroscopy, DCS)は、近赤外コヒーレント点源照明を用いて組織血流を測定する非侵襲的手法である。 機械学習は、血流指数(BFi)を測定する大きな可能性を示しているが、このアプローチの成功に関するオープンな疑問は、様々な臨床応用と様々な設定から派生したSNR(Signal-to-Noise Ratios)を持つデータセット間のずれを含むシナリオにおける堅牢性に関するものである。 本研究では,伝達学習手法を提案し,SNRが学習特徴の一般化能力に与える影響を評価し,伝達学習の堅牢性を示す。 付加雑音のレベルが異なる合成データセットを用いて、異なるSNRをシミュレートする。 提案するネットワークは1x64自己相関曲線を入力とし,BFiと相関パラメータベータを生成する。 提案モデルは異なるsnrに対して優れた性能を示し,他のフィッティング法と比較して,特に低snrデータセットに対して高いフィッティング精度を示す。 これは様々な臨床シナリオにおける臨床診断と治療の可能性を強調している。

Diffuse correlation spectroscopy (DCS) is an emerging noninvasive technique that measures the tissue blood flow, by using near-infrared coherent point-source illumination to detect spectral changes. While machine learning has demonstrated significant potential for measuring blood flow index (BFi), an open question concerning the success of this approach pertains to its robustness in scenarios involving deviations between datasets with varying Signal-to-Noise Ratios (SNRs) originating from diverse clinical applications and various setups. This study proposes a transfer learning approach, aims to assess the influence of SNRs on the generalization ability of learned features, and demonstrate the robustness for transfer learning. A synthetic dataset with varying levels of added noise is utilized to simulate different SNRs. The proposed network takes a 1x64 autocorrelation curve as input and generates BFi and the correlation parameter beta. The proposed model demonstrates excellent performance across different SNRs, exhibiting enhanced fitting accuracy, particularly for low SNR datasets when compared with other fitting methods. This highlights its potential for clinical diagnosis and treatment across various scenarios under different clinical setups.
翻訳日:2024-02-02 11:58:38 公開日:2024-02-01
# エクストリームラーニングマシンを用いた高速脳血流解析

Fast Cerebral Blood Flow Analysis via Extreme Learning Machine ( http://arxiv.org/abs/2401.05578v3 )

ライセンス: Link先を確認
Xi Chen, Zhenya Zang, Xingda Li(参考訳) 本研究では,extreme learning machine (elm) を用いた拡散相関分光法 (dcs) を用いた脳血流解析のための迅速かつ精密な解析手法を提案する。 ELMと既存のアルゴリズムの評価には、総合的なメトリクスセットが伴う。 半無限および多層モデルのための合成データセットを用いて,これらのアルゴリズムを評価する。 その結果、ELMは様々なノイズレベルと光学パラメータの高忠実度を一貫して達成し、頑健な一般化能力を示し、反復整合アルゴリズムよりも優れていた。 計算効率のよいニューラルネットワークと比較することにより、EMMはトレーニング時間と推論時間を短縮して同等の精度が得られる。 特に、トレーニング中のEMMのバックプロパゲーションプロセスの欠如により、既存のニューラルネットワークアプローチに比べてトレーニング速度が大幅に向上する。 提案した戦略は、オンライントレーニング機能を備えたエッジコンピューティングアプリケーションに対する約束である。

We introduce a rapid and precise analytical approach for analyzing cerebral blood flow (CBF) using Diffuse Correlation Spectroscopy (DCS) with the application of the Extreme Learning Machine (ELM). Our evaluation of ELM and existing algorithms involves a comprehensive set of metrics. We assess these algorithms using synthetic datasets for both semi-infinite and multi-layer models. The results demonstrate that ELM consistently achieves higher fidelity across various noise levels and optical parameters, showcasing robust generalization ability and outperforming iterative fitting algorithms. Through a comparison with a computationally efficient neural network, ELM attains comparable accuracy with reduced training and inference times. Notably, the absence of a back-propagation process in ELM during training results in significantly faster training speeds compared to existing neural network approaches. This proposed strategy holds promise for edge computing applications with online training capabilities.
翻訳日:2024-02-02 11:58:16 公開日:2024-02-01
# メモリを用いたオープン量子ダイナミクスのための統一フレームワーク

Unified Framework for Open Quantum Dynamics with Memory ( http://arxiv.org/abs/2312.13233v3 )

ライセンス: Link先を確認
Felix Ivander, Lachlan P. Lindoy, and Joonho Lee(参考訳) 浴場に結合した量子系のダイナミクスの研究は、一般に中島-ツワンジグメモリカーネル({\mathcal{k}}$)や影響関数(\mathbf{{i}}$)を利用して行われる。 その重要性にもかかわらず、メモリカーネルと影響関数の正式な接続は明確にされていない。 これらの関係をシステムプロパゲータの基礎となるダイアグラム構造、$\mathbf{{i}}$、${\mathcal{k}}$の観察を通して明らかにする。 これに基づいて,標準手法で要求される投影自由ダイナミクス入力を使わずに高調波浴と相互作用する(駆動)システムに対して,$\mathbf{{i}}$ から${\mathcal{k}}$ を構築するための非摂動的,図式的手法を提案する。 この構成により、近似パス積分法は、近似メモリカーネルを用いてどのように理解できるかを示す。 さらに, 実験または数値的精密な手法により得られた一連の還元系軌道から浴のスペクトル密度を抽出し, 量子センシングと工学の新たな道を開くためのハミルトン学習手法を示す。 この研究で提供される洞察は、非マルコフ力学の理解を著しく前進させ、この領域における理論的および実験的発展にとって重要な足掛かりとなる。

Studies of the dynamics of a quantum system coupled to a bath are typically performed by utilizing the Nakajima-Zwanzig memory kernel (${\mathcal{K}}$) or the influence functions ($\mathbf{{I}}$), especially when the dynamics exhibit memory effects (i.e., non-Markovian). Despite their significance, the formal connection between the memory kernel and the influence functions has not been explicitly made. We reveal their relation through the observation of a diagrammatic structure underlying the system propagator, $\mathbf{{I}}$, and ${\mathcal{K}}$. Based on this, we propose a non-perturbative, diagrammatic approach to construct ${\mathcal{K}}$ from $\mathbf{{I}}$ for (driven) systems interacting with harmonic baths without the use of any projection-free dynamics inputs required by standard approaches. With this construction, we also show how approximate path integral methods can be understood in terms of approximate memory kernels. Furthermore, we demonstrate a Hamiltonian learning procedure to extract the bath spectral density from a set of reduced system trajectories obtained experimentally or by numerically exact methods, opening new avenues in quantum sensing and engineering. The insights we provide in this work will significantly advance the understanding of non-Markovian dynamics, and they will be an important stepping stone for theoretical and experimental developments in this area.
翻訳日:2024-02-02 11:58:06 公開日:2024-02-01
# AGIシステムのためのメタプロンプティング

Meta Prompting for AGI Systems ( http://arxiv.org/abs/2311.11482v4 )

ライセンス: Link先を確認
Yifan Zhang, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 本稿では,大規模言語モデル (LLM) , マルチモーダル基盤モデル, 問題解決とデータインタラクションにおけるAIシステムの利用を再構築する革新的手法であるMeta Promptingについて包括的な研究を行う。 型理論とカテゴリ理論に基礎を置き、メタプロンピングは従来のコンテンツ中心の手法よりも情報の構造と構文を強調している。 本稿では,メタプロンプティング(MP)の形式的定義を探求し,Few-Shot Promptingとは分離し,さまざまなAIアプリケーションにおけるその有効性を明らかにする。 重要な焦点は、複雑な推論(MP-CR)タスクにMeta Promptingを適用することであり、複雑な問題をより単純なサブプロブレムに効果的に分解し、トークン効率を向上し、より公平な問題解決比較を可能にする。 さらに,LLMが再帰的,メタプログラミング的な方法で新たなプロンプトを自己生成できるメタプロンプトを提案する。 このアプローチは、AIの自律性と適応性において大きな飛躍となる。 本稿では,Meta Promptingのマルチモーダル基盤モデル設定への統合についても紹介し,構造化Meta Promptingフレームワークに画像,オーディオ,ビデオなどのさまざまなデータ型を組み込む上での課題と機会について述べる。 24タスクのゲームを100%成功率で解くことを含む実証実験では、mp-crエージェントの推論能力の強化、高い精度と効率の達成、メタプロンプトのai問題解決への変換的影響を示す。 (コードはhttps://github.com/meta-prompting/meta-promptingで利用可能)。

This paper presents a comprehensive study of Meta Prompting, an innovative technique reshaping the utilization of large language models (LLMs), multi-modal foundation models, and AI systems in problem-solving and data interaction. Grounded in type theory and category theory, Meta Prompting emphasizes the structure and syntax of information over traditional content-centric methods. The paper explores the formal definitions of Meta Prompting (MP), sets it apart from Few-Shot Prompting, and underlines its effectiveness in various AI applications. A key focus is applying Meta Prompting for complex reasoning (MP-CR) tasks, showing how it effectively deconstructs intricate problems into simpler sub-problems, enhancing token efficiency, and enabling more equitable problem-solving comparisons, especially against few-shot prompting methods. Additionally, the paper introduces Meta Prompting for prompting tasks, allowing LLMs to self-generate new prompts in a recursive, metaprogramming-like manner. This approach marks a significant leap in AI's autonomous and adaptive capabilities. The paper also introduces the integration of Meta Prompting into multi-modal foundation model settings, tackling the challenges and opportunities of incorporating varied data types such as images, audio, and video within the structured Meta Prompting framework. Empirical experiments, including solving the Game of 24 tasks with 100% success rate, demonstrate the MP-CR Agent's enhanced reasoning capabilities, achieving high accuracy and efficiency, and showcasing Meta Prompting's transformative impact on AI problem-solving. (The code is available at https://github.com/meta-prompting/meta-prompting)
翻訳日:2024-02-02 11:57:41 公開日:2024-02-01
# マルチモーダル埋め込みブリジングを用いた制御可能なデンスキャピタ

Controllable Dense Captioner with Multimodal Embedding Bridging ( http://arxiv.org/abs/2401.17910v2 )

ライセンス: Link先を確認
Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye(参考訳) 本稿では,言語指導の導入により,利用者の字幕表現に対する意図を満足させる制御可能な字幕生成装置(controlcap)を提案する。 controlcapは、マルチモーダル組込み生成(meg)モジュールと双方向組込みブリッジング(beb)モジュールからなるマルチモーダル組込みブリッジングアーキテクチャとして定義される。 megモジュールは、詳細情報の埋め込みと文脈認識の埋め込みを組み合わせることでオブジェクト/領域を表現するが、言語指導として利用することで、特殊制御への適応性を制御できる。 BEBモジュールは、視覚領域から/または視覚領域へ機能を借用し、そのような機能を収集してテキスト記述を予測することで、言語指導と視覚埋め込みを一致させる。 Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。 最後に重要なのは、リージョンカテゴリペアをリージョンテキストペアに変換する機能によって、ControlCapは、高密度キャプションのための強力なデータエンジンとして機能することができることだ。 コードはhttps://github.com/callsys/ControlCapで入手できる。

In this paper, we propose a controllable dense captioner (ControlCap), which accommodates user's intention to dense captioning by introducing linguistic guidance. ControlCap is defined as a multimodal embedding bridging architecture, which comprises multimodal embedding generation (MEG) module and bi-directional embedding bridging (BEB) module. While MEG module represents objects/regions by combining embeddings of detailed information with context-aware ones, it also endows ControlCap the adaptability to specialized controls by utilizing them as linguistic guidance. BEB module aligns the linguistic guidance with visual embeddings through borrowing/returning features from/to the visual domain and gathering such features to predict text descriptions. Experiments on Visual Genome and VG-COCO datasets show that ControlCap respectively outperforms the state-of-the-art methods by 1.5% and 3.7% (mAP). Last but not least, with the capability of converting region-category pairs to region-text pairs, ControlCap is able to act as a powerful data engine for dense captioning. Code is available at https://github.com/callsys/ControlCap.
翻訳日:2024-02-02 11:54:33 公開日:2024-02-01
# 3Dガウスのセグメンテーション

Segment Anything in 3D Gaussians ( http://arxiv.org/abs/2401.17857v2 )

ライセンス: Link先を確認
Xu Hu, Yuxi Wang, Lue Fan, Junsong Fan, Junran Peng, Zhen Lei, Qing Li, Zhaoxiang Zhang(参考訳) 3d gaussian splattingはneural radiance field(nerfs)の代替3d表現として登場し、高品質なレンダリング結果とリアルタイムレンダリング速度の恩恵を受けている。 3Dガウス表現は未解析であるため、まずこの領域内でオブジェクトセグメンテーションを実行する必要がある。 その後、シーン編集や衝突検出を行うことができ、仮想現実(vr)、拡張現実(ar)、ゲーム/映画制作など、多数のアプリケーションにとって不可欠であることが証明される。 本稿では,学習過程や学習パラメータを必要とせず,インタラクティブな手続きにより3次元ガウス型オブジェクトセグメンテーションを実現するための新しい手法を提案する。 提案手法は, 3次元ガウス群におけるセグメンテーションのSA-GSと呼ぶ。 単一入力ビューにおける一組のクリックポイントが与えられた場合、SA-GSはSAMを一般化し、提案したマルチビューマスク生成とビューワイズラベル割り当て手法により3次元一貫したセグメンテーションを実現する。 また,異なるビューからのラベルを割り当てるクロスビューラベル投票手法を提案する。 さらに、境界に位置する3次元ガウスの非無視空間サイズから生じる分割対象の境界粗さ問題に対処するために、SA-GSは単純だが効果的なガウス分解スキームを取り入れている。 大規模な実験により,SA-GSは高品質な3次元セグメンテーションを達成でき,シーン編集や衝突検出にも容易に適用できることがわかった。 コードはまもなくリリースされる予定だ。

3D Gaussian Splatting has emerged as an alternative 3D representation of Neural Radiance Fields (NeRFs), benefiting from its high-quality rendering results and real-time rendering speed. Considering the 3D Gaussian representation remains unparsed, it is necessary first to execute object segmentation within this domain. Subsequently, scene editing and collision detection can be performed, proving vital to a multitude of applications, such as virtual reality (VR), augmented reality (AR), game/movie production, etc. In this paper, we propose a novel approach to achieve object segmentation in 3D Gaussian via an interactive procedure without any training process and learned parameters. We refer to the proposed method as SA-GS, for Segment Anything in 3D Gaussians. Given a set of clicked points in a single input view, SA-GS can generalize SAM to achieve 3D consistent segmentation via the proposed multi-view mask generation and view-wise label assignment methods. We also propose a cross-view label-voting approach to assign labels from different views. In addition, in order to address the boundary roughness issue of segmented objects resulting from the non-negligible spatial sizes of 3D Gaussian located at the boundary, SA-GS incorporates the simple but effective Gaussian Decomposition scheme. Extensive experiments demonstrate that SA-GS achieves high-quality 3D segmentation results, which can also be easily applied for scene editing and collision detection tasks. Codes will be released soon.
翻訳日:2024-02-02 11:54:14 公開日:2024-02-01
# 再生可能エネルギー生産時系列における臨界事象の検出

Detection of Critical Events in Renewable Energy Production Time Series ( http://arxiv.org/abs/2401.17814v2 )

ライセンス: Link先を確認
Laurens P. Stoop, Erik Duijm, Ad J. Feelders, Machteld van den Broek(参考訳) エネルギーシステムへのより再生可能エネルギー源の導入により、発電の変動性と天候依存性が増大する。 電力系統シミュレーションは、何十年にもわたって電力網の精度と信頼性を評価するのに使われてきたが、高い技術的詳細を持つ長いシミュレーション期間において計算が困難になることが多い。 この計算負担を軽減するため,これらの状況下での電力系統の性能を詳細にモデル化できる極端再生可能エネルギー発生の期間を見つけるために,異常検出アルゴリズムを用いて検討する。 具体的には,1950年から2019年までの歴史気候再分析である era5 から派生した発電時系列に最大発散間隔 (mdi) アルゴリズムを適用する。 これらの時系列にMDIアルゴリズムを適用し, 極低エネルギー・高エネルギー生産間隔を同定した。 間隔の異なるばらつき対策の外れ度を判定する。 交差エントロピー測度がより短く、強くピークとなる場合、不偏のクルバック・リーバーの発散はより長く持続的な間隔を検出する傾向がある。 これらの間隔は、ドメインの専門家によって電力網の潜在的なリスクと見なされ、MDIアルゴリズムがこれらの時系列における臨界事象を検出する能力を示している。 分析された時代については,気候変動に起因する可能性のある異常値の変動や延長傾向は見られなかった。 気候モデル出力にMDIを適用することで、電力系統モデリング者は、より広い範囲のシナリオで、現在の電力網と将来の電力網の精度とリスクの変化を調査できる。

The introduction of more renewable energy sources into the energy system increases the variability and weather dependence of electricity generation. Power system simulations are used to assess the adequacy and reliability of the electricity grid over decades, but often become computational intractable for such long simulation periods with high technical detail. To alleviate this computational burden, we investigate the use of outlier detection algorithms to find periods of extreme renewable energy generation which enables detailed modelling of the performance of power systems under these circumstances. Specifically, we apply the Maximum Divergent Intervals (MDI) algorithm to power generation time series that have been derived from ERA5 historical climate reanalysis covering the period from 1950 through 2019. By applying the MDI algorithm on these time series, we identified intervals of extreme low and high energy production. To determine the outlierness of an interval different divergence measures can be used. Where the cross-entropy measure results in shorter and strongly peaking outliers, the unbiased Kullback-Leibler divergence tends to detect longer and more persistent intervals. These intervals are regarded as potential risks for the electricity grid by domain experts, showcasing the capability of the MDI algorithm to detect critical events in these time series. For the historical period analysed, we found no trend in outlier intensity, or shift and lengthening of the outliers that could be attributed to climate change. By applying MDI on climate model output, power system modellers can investigate the adequacy and possible changes of risk for the current and future electricity grid under a wider range of scenarios.
翻訳日:2024-02-02 11:53:37 公開日:2024-02-01
# リモートセンシングとディープラーニングによるインフラストラクチャの迅速な損傷特性化のための階層化アプローチ

Tiered approach for rapid damage characterisation of infrastructure enabled by remote sensing and deep learning technologies ( http://arxiv.org/abs/2401.17759v2 )

ライセンス: Link先を確認
Nadiia Kopiika, Andreas Karavias, Pavlos Krassakis, Zehao Ye, Jelena Ninic, Nataliya Shakhovska, Nikolaos Koukouzas, Sotirios Argyroudis, Stergios-Aristoteles Mitoulis(参考訳) 橋などの重要なインフラは戦争や紛争の間、体系的に標的にされている。 これは、人や商品の接続と輸送を可能にするために重要なインフラが不可欠であり、したがって国家や国際防衛計画や経済成長の基盤となっているためである。 橋の大量破壊は、自然災害や人為的な災害の際にこれらの資産へのアクセシビリティが最小限または全くなく、急速な回復をもたらすのを防いでいる。 その結果、システムのレジリエンスは劇的に低下する。 この課題の解決策は、待機観察に技術を使用することである。 しかし、地域、資産、構造(構成要素)など、異なるスケールでの損傷を特徴づける方法が存在しないため、スケールでのアセスメントの間には体系的な相関がほとんどあるいは全くない。 我々は,この能力ギャップを埋めるための3レベル階層化手法を提案し,汎用ディジタル技術によって実現される損傷特性化手法を実証する。 次に、この手法を17本の橋を含むウクライナのケーススタディに適用し、検証する。 マクロからマイクロまで、Sentinel-1 SAR画像、クラウドソース情報、高解像度画像から、損傷したインフラストラクチャのディープラーニングまで、大規模に展開する。 評価精度の向上が要求される場合, 画像の干渉コヒーレンス差と意味セグメンテーションを初めて配置し, 損傷特性の信頼性を地域レベルからインフラコンポーネントレベルに向上させた。 この統合手法により意思決定のスピードが向上し、レジリエンスが向上する。 キーワード: 重要なインフラストラクチャ、ダメージ特性化、標的攻撃、修復

Critical infrastructure such as bridges are systematically targeted during wars and conflicts. This is because critical infrastructure is vital for enabling connectivity and transportation of people and goods, and hence, underpinning the national and international defence planning and economic growth. Mass destruction of bridges, along with minimal or no accessibility to these assets during natural and anthropogenic disasters, prevents us from delivering rapid recovery. As a result, systemic resilience is drastically reduced. A solution to this challenge is to use technology for stand-off observations. Yet, no method exists to characterise damage at different scales, i.e. regional, asset, and structural (component), and more so there is little or no systematic correlation between assessments at scale. We propose an integrated three-level tiered approach to fill this capability gap, and we demonstrate the methods for damage characterisation enabled by fit-for-purpose digital technologies. Next, this method is applied and validated to a case study in Ukraine that includes 17 bridges. From macro to micro, we deploy technology at scale, from Sentinel-1 SAR images, crowdsourced information, and high-resolution images to deep learning for damaged infrastructure. For the first time, the interferometric coherence difference and semantic segmentation of images were deployed to improve the reliability of damage characterisations from regional to infrastructure component level, when enhanced assessment accuracy is required. This integrated method improves the speed of decision-making, and thus, enhances resilience. Keywords: critical infrastructure, damage characterisation, targeted attacks, restoration
翻訳日:2024-02-02 11:53:12 公開日:2024-02-01
# ハッカソンにおける生成AIの統合:機会、課題、教育的意味

Integrating Generative AI in Hackathons: Opportunities, Challenges, and Educational Implications ( http://arxiv.org/abs/2401.17434v2 )

ライセンス: Link先を確認
Ramteja Sajja, Carlos Erazo Ramirez, Zhouyayan Li, Bekir Z. Demiray, Yusuf Sermet and Ibrahim Demir(参考訳) ハッカソンやソフトウェアコンペティションは、ソフトウェア産業においてますます重要になってきており、組織と学生の両方にとってイノベーションとスキル開発にとって重要な触媒となっている。 これらのプラットフォームは、企業がアイデアを素早くプロトタイプし、学生は豊かな学習経験を得て、実践的なスキルを高めることができる。 長年にわたり、ハッカソンは単なる競争イベントから重要な教育ツールへと移行し、理論的な知識と現実世界の問題解決を融合させてきた。 ハッカソンをコンピュータサイエンスとソフトウェアエンジニアリングのカリキュラムに統合することで、教育の習熟度をコラボレーティブなコンテキストで調整し、相互接続を促進し、産学連携を通じて強化された学習を促進することを目指している。 しかし、人工知能(AI)や機械学習といった先進技術がハッカソンに注入されることは、その構造と成果に革命をもたらしている。 この進化は、学習経験の向上のような機会と、倫理的関心事のような課題をもたらす。 本研究は,アイオワ大学2023年イベントにおける事例研究に基づいて,生成型aiが生徒の技術的選択に与える影響を検討したものである。 この調査は、ハッカソンにおけるAIの役割とその教育的意味についての洞察を提供し、将来の出来事におけるこれらの技術の統合のロードマップを提供し、イノベーションが倫理的および教育的考察とバランスしていることを保証する。

Hackathons and software competitions, increasingly pivotal in the software industry, serve as vital catalysts for innovation and skill development for both organizations and students. These platforms enable companies to prototype ideas swiftly, while students gain enriched learning experiences, enhancing their practical skills. Over the years, hackathons have transitioned from mere competitive events to significant educational tools, fusing theoretical knowledge with real-world problem-solving. The integration of hackathons into computer science and software engineering curricula aims to align educational proficiencies within a collaborative context, promoting peer connectivity and enriched learning via industry-academia collaborations. However, the infusion of advanced technologies, notably artificial intelligence (AI), and machine learning, into hackathons is revolutionizing their structure and outcomes. This evolution brings forth both opportunities, like enhanced learning experiences, and challenges, such as ethical concerns. This study delves into the impact of generative AI, examining its influence on student's technological choices based on a case study on the University of Iowa 2023 event. The exploration provides insights into AI's role in hackathons, and its educational implications, and offers a roadmap for the integration of such technologies in future events, ensuring innovation is balanced with ethical and educational considerations.
翻訳日:2024-02-02 11:52:45 公開日:2024-02-01
# 不確かさ低減制御器の形式的合成

Formal Synthesis of Uncertainty Reduction Controllers ( http://arxiv.org/abs/2401.17187v2 )

ライセンス: Link先を確認
Marc Carwehl, Calum Imrie, Thomas Vogel, Gena\'ina Rodrigues, Radu Calinescu, Lars Grunske(参考訳) 自己適応システム(SAS)における不確実性に対処するアプローチを模索する中で、研究コミュニティは、不確実性に対応するSASアーキテクチャや行動に適応するソリューションを主に重視してきた。 対照的に、SASに影響を及ぼす不確実性(コンポーネントや環境のブランケットモニタリングを経由すること以外)を低減するソリューションは、まだ未調査のままである。 本稿では,よりニュアンスで適応的なSAS不確実性低減手法を提案する。 そこで本研究では,SAS適応ループ内での新たな情報の適応的取得を駆動する不確実性低減コントローラと,確率論的モデルチェックを用いてそのようなコントローラを合成するツール支援手法とを備えるSASアーキテクチャを提案する。 本手法により生成された制御器は,SASの不確実性低減効果と新たな情報取得コストとの間に最適なトレードオフをもたらす。 本稿では,移動ロボットナビゲーションとサーバインフラ管理SASにおけるアプローチの有効性について述べる。

In its quest for approaches to taming uncertainty in self-adaptive systems (SAS), the research community has largely focused on solutions that adapt the SAS architecture or behaviour in response to uncertainty. By comparison, solutions that reduce the uncertainty affecting SAS (other than through the blanket monitoring of their components and environment) remain underexplored. Our paper proposes a more nuanced, adaptive approach to SAS uncertainty reduction. To that end, we introduce a SAS architecture comprising an uncertainty reduction controller that drives the adaptive acquisition of new information within the SAS adaptation loop, and a tool-supported method that uses probabilistic model checking to synthesise such controllers. The controllers generated by our method deliver optimal trade-offs between SAS uncertainty reduction benefits and new information acquisition costs. We illustrate the use and evaluate the effectiveness of our approach for mobile robot navigation and server infrastructure management SAS.
翻訳日:2024-02-02 11:52:22 公開日:2024-02-01
# 大規模言語モデルによるコンパイラ変換の翻訳検証の強化

Enhancing Translation Validation of Compiler Transformations with Large Language Models ( http://arxiv.org/abs/2401.16797v2 )

ライセンス: Link先を確認
Yanzhao Wang, Fei Xie(参考訳) 本稿では,形式的検証ツールが不足するLLVMコンパイラ変換を対象とし,Large Language Models(LLM)を翻訳バリデーションに統合するフレームワークを提案する。 まず,既存の形式的検証ツールを用いて翻訳検証を行う。 この作業では、llvmコンパイラ検証で有名なツールであるalive2を例として使用しています。 形式的検証ツールでは,変換の健全性が確認できない場合,予測には微調整されたllmを用いる。 次に、リターン値やメモリの不整合によってLLMによって予測される変換にファジィングを適用し、反例を見つけることを目的としている。 他の理由や音のために変換が不正確である場合、あるいは反例が出現しない場合、フレームワークはさらなるファジィを伴わずにこれらの結果を直接報告する。 この方法論は、従来の形式的検証ツールが苦労するディープラーニングアクセラレータ設計のような複雑なアプリケーションで有効性を示している。

This paper presents a framework that integrates Large Language Models (LLMs) into translation validation, targeting LLVM compiler transformations where formal verification tools fall short. Our framework first utilizes existing formal verification tools for translation validation. In this work, we use Alive2, a well-known tool in LLVM compiler verification, as an example. When formal verification tools are unable to confirm a transformation's soundness, our framework employs fine-tuned LLMs for prediction. It then applies fuzzing to transformations predicted as potentially unsound by the LLMs due to return values or memory inconsistencies, aiming to find counterexamples. In cases where transformations are unsound for other reasons or sound, or if no counterexamples emerge, the framework directly reports these outcomes without further fuzzing. This methodology has shown effectiveness in complex application such as deep-learning accelerator designs, where traditional formal verification tools struggle.
翻訳日:2024-02-02 11:52:06 公開日:2024-02-01
# 大きな言語モデルをスクラッチから設計する

Engineering A Large Language Model From Scratch ( http://arxiv.org/abs/2401.16736v2 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji(参考訳) 自然言語処理(NLP)における深層学習の普及は、卓越した熟練度で人間の言語を理解し、生成できる革新的な技術の開発とリリースにつながった。 トランスフォーマーベースのニューラルネットワークであるatinukeは、ユニークな構成を使用することで、さまざまな言語タスクのパフォーマンスを最適化する。 アーキテクチャは、入力と出力の間の有意義な親和性を引き出すために、注意メカニズムでシーケンシャルなデータを処理するための層を織り込む。 トポロジの設定とハイパーパラメータチューニングのため、特徴抽出と複雑なマッピングの学習によって、人間のような言語をエミュレートすることができる。 atinukeはモジュール化され、拡張性があり、既存の機械学習パイプラインとシームレスに統合できる。 ソフトマックス、埋め込み、マルチヘッドアテンションなどの高度なマトリックス操作は、テキスト、音響、視覚信号のニュアンス処理を可能にする。 ソフトウェア設計原則と数理理論と近代的なディープラーニング技術を統合することで、システムは解釈可能で堅牢なまま、自然言語タスクの最先端の結果を達成する。

The proliferation of deep learning in natural language processing (NLP) has led to the development and release of innovative technologies capable of understanding and generating human language with remarkable proficiency. Atinuke, a Transformer-based neural network, optimises performance across various language tasks by utilising a unique configuration. The architecture interweaves layers for processing sequential data with attention mechanisms to draw meaningful affinities between inputs and outputs. Due to the configuration of its topology and hyperparameter tuning, it can emulate human-like language by extracting features and learning complex mappings. Atinuke is modular, extensible, and integrates seamlessly with existing machine learning pipelines. Advanced matrix operations like softmax, embeddings, and multi-head attention enable nuanced handling of textual, acoustic, and visual signals. By unifying modern deep learning techniques with software design principles and mathematical theory, the system achieves state-of-the-art results on natural language tasks whilst remaining interpretable and robust.
翻訳日:2024-02-02 11:51:48 公開日:2024-02-01
# コンバウンディングを可能にするLiNGAMの一般化

Generalization of LiNGAM that allows confounding ( http://arxiv.org/abs/2401.16661v2 )

ライセンス: Link先を確認
Joe Suzuki and Tian-Le Yang(参考訳) lingamは加算ノイズモデルを用いて変数の順序を原因から効果まで決定するが、コンファウンディングの課題に直面している。 従来はLiNGAMの基本的な構造を維持していたが、コンバウンディングによって影響を受ける変数を特定し、対処しようとした。 その結果、これらの手法は、コンファウンディングの有無に関わらず、重要な計算資源を必要とし、全てのコンファウンド型の検出を確実にしなかった。 これとは対照的に,本論文では,KL分散を用いたコンバウンディングの大きさを定量化し,その影響を最小限に抑える方法であるLiNGAM-MMIを導入することでLiNGAMを強化する。 最短経路問題定式化を通じて、グローバル最適変数次数を効率良く達成する。 LiNGAM-MMIは、相反する状況に効果的に対応しつつも、相反しないシナリオで、従来のLiNGAMと同じくらい効率的にデータを処理します。 実験の結果,lingam-mmiはコンファウンディングの有無に関わらず,より正確に正しい変数順序を決定できることが示唆された。

LiNGAM determines the variable order from cause to effect using additive noise models, but it faces challenges with confounding. Previous methods maintained LiNGAM's fundamental structure while trying to identify and address variables affected by confounding. As a result, these methods required significant computational resources regardless of the presence of confounding, and they did not ensure the detection of all confounding types. In contrast, this paper enhances LiNGAM by introducing LiNGAM-MMI, a method that quantifies the magnitude of confounding using KL divergence and arranges the variables to minimize its impact. This method efficiently achieves a globally optimal variable order through the shortest path problem formulation. LiNGAM-MMI processes data as efficiently as traditional LiNGAM in scenarios without confounding while effectively addressing confounding situations. Our experimental results suggest that LiNGAM-MMI more accurately determines the correct variable order, both in the presence and absence of confounding.
翻訳日:2024-02-02 11:50:50 公開日:2024-02-01
# IRCoCo: コード補完のための即時リワードガイドによる深層強化学習

IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion ( http://arxiv.org/abs/2401.16637v2 )

ライセンス: Link先を確認
Bolun Li, Zhihong Sun, Tao Huang, Hongyu Zhang, Yao Wan, Ge Li, Zhi Jin, Chen Lyu(参考訳) コード補完は、現在のプログラミングコンテキストに基づいて潜在的なコードを予測することによって、プログラミング生産性を向上させることを目的としている。 近年,この分野では,事前学習型言語モデル (LM) が注目されている。 コード補完のためにsupervised fine-tuning (sft) 技術を用いてlmsを微調整する様々なアプローチが提案されている。 しかし、これらのモデルの固有の露出バイアスは、シーケンス完了の早い段階でエラーが蓄積し、その後の完了でさらにエラーが発生する可能性がある。 この問題に対処するために、深層強化学習(DRL)は、コード補完のための微調整LMの代替手法であり、一般化能力と全体的な性能を改善することができる。 それでも、DRLベースの戦略をコード補完に統合することは、2つの大きな課題に直面している。 1) コードコンテキストの動的な性質は、変更に迅速に適応するために完了モデルを必要とします。 2) 部分的コードの正確性を評価することは困難であり, 報酬再分配に基づく戦略はコード補完には適用できない。 これらの課題に対処するために、コード補完固有のDRLベースの微調整フレームワークIRCoCoを提案する。 このフレームワークは、コード補完中の継続的な編集に起因する動的コンテキスト変化を検出するフィードバックとして、即時報酬を提供するように設計されている。 即時フィードバックによって、微調整されたLMは現在の状況をより正確に理解し、LMを効果的に調整し、コード補完をより洗練された方法で最適化することができる。 実験により、IRCoCoを用いた微調整済みLMは、コード補完タスクを大幅に改善し、SFTベースおよび他のDRLベースラインを上回った。

Code completion aims to enhance programming productivity by predicting potential code based on the current programming context. Recently, pretrained language models (LMs) have become prominent in this field. Various approaches have been proposed to fine-tune LMs using supervised fine-tuning (SFT) techniques for code completion. However, the inherent exposure bias of these models can cause errors to accumulate early in the sequence completion, leading to even more errors in subsequent completions. To address this problem, deep reinforcement learning (DRL) is an alternative technique for fine-tuning LMs for code completion, which can improve the generalization capabilities and overall performance. Nevertheless, integrating DRL-based strategies into code completion faces two major challenges: 1) The dynamic nature of the code context requires the completion model to quickly adapt to changes, which poses difficulties for conventional DRL strategies that focus on delayed rewarding of the final code state. 2) It is difficult to evaluate the correctness of partial code, thus the reward redistribution-based strategies cannot be adapted to code completion. To tackle these challenges, we propose IRCoCo, a code completion-specific DRL-based fine-tuning framework. This framework is designed to provide immediate rewards as feedback for detecting dynamic context changes arising from continuous edits during code completion. With the aid of immediate feedback, the fine-tuned LM can gain a more precise understanding of the current context, thereby enabling effective adjustment of the LM and optimizing code completion in a more refined manner. Experimental results demonstrate that fine-tuning pretrained LMs with IRCoCo leads to significant improvements in the code completion task, outperforming both SFT-based and other DRL-based baselines.
翻訳日:2024-02-02 11:50:32 公開日:2024-02-01
# 共有ニューロンを用いたRBF-netを用いた個別マルチトラック応答曲線推定

Individualized Multi-Treatment Response Curves Estimation using RBF-net with Shared Neurons ( http://arxiv.org/abs/2401.16571v2 )

ライセンス: Link先を確認
Peter Chang, Arkaprava Roy(参考訳) 不均一な治療効果の推定は、精密医療において重要な問題である。 特定の関心は、いくつかの外部共変量に基づいて異なる治療の差分効果を特定することである。 マルチ処理環境における新しい非パラメトリック処理効果推定法を提案する。 反応曲線の非パラメトリックモデリングは、共有された隠れニューロンを持つ放射基底関数(RBF)-ネットに依存する。 これにより,治療結果間の共通性をモデル化する。 推定と推測スキームはベイズ的枠組みの下で開発され、効率的なマルコフ連鎖モンテカルロアルゴリズムを用いて実装され、解析のあらゆる面で不確実性を適切に調整する。 シミュレーション実験により,本手法の数値性能を実証した。 本手法をMIMICデータに適用し, 在宅中絶患者に対するICU滞在時間と12時間SOFAスコアに対する異なる治療方法の効果に関する興味深い知見を得た。

Heterogeneous treatment effect estimation is an important problem in precision medicine. Specific interests lie in identifying the differential effect of different treatments based on some external covariates. We propose a novel non-parametric treatment effect estimation method in a multi-treatment setting. Our non-parametric modeling of the response curves relies on radial basis function (RBF)-nets with shared hidden neurons. Our model thus facilitates modeling commonality among the treatment outcomes. The estimation and inference schemes are developed under a Bayesian framework and implemented via an efficient Markov chain Monte Carlo algorithm, appropriately accommodating uncertainty in all aspects of the analysis. The numerical performance of the method is demonstrated through simulation experiments. Applying our proposed method to MIMIC data, we obtain several interesting findings related to the impact of different treatment strategies on the length of ICU stay and 12-hour SOFA score for sepsis patients who are home-discharged.
翻訳日:2024-02-02 11:50:04 公開日:2024-02-01
# SERL: サンプル効率の良いロボット強化学習用ソフトウェアスイート

SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning ( http://arxiv.org/abs/2401.16013v2 )

ライセンス: Link先を確認
Jianlan Luo, Zheyuan Hu, Charles Xu, You Liang Tan, Jacob Berg, Archit Sharma, Stefan Schaal, Chelsea Finn, Abhishek Gupta, Sergey Levine(参考訳) 近年、ロボット強化学習(RL)の分野で大きな進歩を遂げており、複雑な画像観察、現実世界での訓練、デモや先行経験などの補助的なデータの導入を可能にしている。 しかし、これらの進歩にもかかわらず、ロボットRLの使用は困難である。 実践者の間では、これらのアルゴリズムの特定の実装の詳細は、しばしばアルゴリズムの選択と同じくらいのパフォーマンスにおいて重要である(そうでないとしても)。 我々は,ロボットRLの普及と,ロボットRL法のさらなる発展に対する重要な課題が,そのような手法の比較不能性であると考えている。 この課題に対処するため,我々は,効率のよいオフポリシー深層rl法と,報奨計算と環境再設定の手法,広く採用されているロボットのための高品質なコントローラ,課題の多い例タスクを含む,注意深く実装されたライブラリを開発した。 このライブラリをコミュニティのリソースとして提供し,その設計選択を説明し,実験結果を示す。 意外なことに、我々の実装は、非常に効率的な学習を実現し、PCBボードアセンブリ、ケーブルルーティング、オブジェクト移動のポリシーを平均25分から50分の間に取得し、文献に類似したタスクに対して報告された最先端の結果よりも改善できる。 これらの政策は完璧またはほぼ完全な成功率を達成し、摂動下でも極端な堅牢性を実現し、創発的な回復と修正行動を示す。 これらの有望な成果と私たちの高品質なオープンソース実装が、ロボティクスコミュニティにとってロボットRLのさらなる発展を促進するツールになることを期待しています。 私たちのコード、ドキュメンテーション、ビデオはhttps://serl-robot.github.io/で確認できます。

In recent years, significant progress has been made in the field of robotic reinforcement learning (RL), enabling methods that handle complex image observations, train in the real world, and incorporate auxiliary data, such as demonstrations and prior experience. However, despite these advances, robotic RL remains hard to use. It is acknowledged among practitioners that the particular implementation details of these algorithms are often just as important (if not more so) for performance as the choice of algorithm. We posit that a significant challenge to widespread adoption of robotic RL, as well as further development of robotic RL methods, is the comparative inaccessibility of such methods. To address this challenge, we developed a carefully implemented library containing a sample efficient off-policy deep RL method, together with methods for computing rewards and resetting the environment, a high-quality controller for a widely-adopted robot, and a number of challenging example tasks. We provide this library as a resource for the community, describe its design choices, and present experimental results. Perhaps surprisingly, we find that our implementation can achieve very efficient learning, acquiring policies for PCB board assembly, cable routing, and object relocation between 25 to 50 minutes of training per policy on average, improving over state-of-the-art results reported for similar tasks in the literature. These policies achieve perfect or near-perfect success rates, extreme robustness even under perturbations, and exhibit emergent recovery and correction behaviors. We hope that these promising results and our high-quality open-source implementation will provide a tool for the robotics community to facilitate further developments in robotic RL. Our code, documentation, and videos can be found at https://serl-robot.github.io/
翻訳日:2024-02-02 11:49:49 公開日:2024-02-01
# 大規模言語モデルを用いた知識認識コード生成

Knowledge-Aware Code Generation with Large Language Models ( http://arxiv.org/abs/2401.15940v3 )

ライセンス: Link先を確認
Tao Huang, Zhihong Sun, Zhi Jin, Ge Li, Chen Lyu(参考訳) 大規模言語モデル(llm)は、基本的なプログラミング問題でうまく機能する。 しかし、多種多様なアルゴリズムとデータ構造スキル、特に競合レベルの問題を使用する複雑なタスクを扱う際には、問題が発生する。 特にChatGPTは、トレーニング前の段階で遭遇した問題に対して熟練した性能を示すが、この性能は、新しい問題に直面したときに低下する。 その結果,不慣れな問題に対するllmの能力向上が重要な研究課題となっている。 LLMの問題解決プロセスは、人間のプログラマのアプローチをある程度反映している。 新しいプログラミングタスクに直面すると、人間のプログラマは、以前取得したアルゴリズムやデータ構造に関する知識とタスク計画とコード記述に従事します。 このような知識を習得したにもかかわらず、LSMは特定の新しい問題に直面したときに効果的にそれを適用するのに苦労している。 この問題に対処するため、我々はChatGPTがこれまで遭遇していなかったプログラミング問題の一部を含む新しいデータセット、CodeFを構築した。 さらに,Pythonプログラミングコンテスト問題に適した知識ライブラリを開発し,Knowledge-Aware Code Generation(KareCoder)の概念を導入した。 KareCoderは、ライブラリからのプロンプトと知識をLLMのコード生成推論プロセス、特にPass@1メトリクスに統合することで、モデルの理解と問題解決能力を強化する。 CodeF と APPS のデータセットをテストすると、KareCoder は LLM によって説明されていない新しい問題に対処する際、優れた性能を示した。 ChatGPTが直接生成したコードとは対照的に、KareCoderはCodeF post2021-9データセットのPass@1メトリックで23.3%の相対的な改善を達成した。 加えて、LLMがこれまで遭遇した問題に対処する場合、他の手法と比較してよく機能する。

Large Language Models (LLMs) perform well on basic programming problems. However, they encounter challenges when dealing with complex tasks involving the use of diverse algorithmic and data structure skills, particularly programming competition-level problems. Notably, ChatGPT exhibits proficient performance on problems it has encountered during its pre-training phase, but this performance deteriorates when faced with novel problems. Consequently, enhancing the ability of LLMs to address unfamiliar problems has emerged as a pivotal research focus. The problem-solving process of LLMs mirrors human programmers' approach to a certain extent. When confronted with new programming tasks, human programmers engage in task planning and code writing with the previously acquired knowledge about algorithms and data structures. Despite having learned such knowledge, LLMs struggle to effectively apply it when faced with specific new problems. To address this issue, we constructed a novel dataset, CodeF, which contains a portion of programming problems that ChatGPT has not previously encountered. Furthermore, we developed a Knowledge Library tailored for Python programming contest problems and introduced the concept of Knowledge-Aware Code Generation (KareCoder). KareCoder bolsters the models' understanding and problem-solving capabilities by integrating prompt and knowledge from the library into the LLMs' code generation reasoning process, especially on Pass@1 metrics. Upon testing on the CodeF and APPS datasets, KareCoder demonstrated outstanding performance in handling novel problems previously unencountered by LLMs. In contrast with the code directly generated by ChatGPT, KareCoder achieved a relative improvement of 23.3% on the Pass@1 metric on the CodeF post2021-9 dataset. Additionally, it performs well compared to other methods when dealing with problems that LLMs have previously encountered.
翻訳日:2024-02-02 11:49:18 公開日:2024-02-01
# SCTransNet:赤外小ターゲット検出のための空間チャネルクロストランスネットワーク

SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection ( http://arxiv.org/abs/2401.15583v2 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed AKhtar, Ajmal Mian(参考訳) 赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。 しかしながら、効果的なグローバル情報モデリングは見過ごされ、ターゲットが背景と高い類似度を持つ場合、既存の技術は苦戦する。 本稿では,この課題に対処するために,長距離スキップ接続上の空間チャネルクロストランスブロック(SCTB)を利用する空間チャネルクロストランスネットワーク(SCTransNet)を提案する。 提案するsctbでは、すべてのエンコーダの出力がクロストランスと相互作用して混合特徴を生成し、全てのデコーダに再分配することで、ターゲットとクラッタ間の意味的差異を効果的に強化する。 具体的には、SCTBは以下の2つのキー要素を含む。 (a)局所的空間特徴とフルレベルグローバルチャネル情報を交換し、エンコーダ間のあいまいさをなくし、画像の高レベルなセマンティックアソシエーションを促進するための空間埋め込みシングルヘッドチャネルクロスアテンション(SSCA) b)マルチスケール戦略と空間間情報通信により特徴識別性を向上し,有益な情報伝達を促進するための補完的フィードフォワードネットワーク(CFN)を提案する。 sctransnetはターゲットと背景のセマンティックな違いを効果的にエンコードし、赤外線の小さなターゲットを正確に検出するための内部表現を高めます。 3つの公開データセット(NUDT-SIRST、NUAA-SIRST、IRSTD-1k)に対する大規模な実験は、提案されたSCTransNetが既存のIRSTD法より優れていることを示した。 私たちのコードはhttps://github.com/xdFai.comで公開されます。

Infrared small target detection (IRSTD) has recently benefitted greatly from U-shaped neural models. However, largely overlooking effective global information modeling, existing techniques struggle when the target has high similarities with the background. We present a Spatial-channel Cross Transformer Network (SCTransNet) that leverages spatial-channel cross transformer blocks (SCTBs) on top of long-range skip connections to address the aforementioned challenge. In the proposed SCTBs, the outputs of all encoders are interacted with cross transformer to generate mixed features, which are redistributed to all decoders to effectively reinforce semantic differences between the target and clutter at full scales. Specifically, SCTB contains the following two key elements: (a) spatial-embedded single-head channel-cross attention (SSCA) for exchanging local spatial features and full-level global channel information to eliminate ambiguity among the encoders and facilitate high-level semantic associations of the images, and (b) a complementary feed-forward network (CFN) for enhancing the feature discriminability via a multi-scale strategy and cross-spatial-channel information interaction to promote beneficial information transfer. Our SCTransNet effectively encodes the semantic differences between targets and backgrounds to boost its internal representation for detecting small infrared targets accurately. Extensive experiments on three public datasets, NUDT-SIRST, NUAA-SIRST, and IRSTD-1k, demonstrate that the proposed SCTransNet outperforms existing IRSTD methods. Our code will be made public at https://github.com/xdFai.
翻訳日:2024-02-02 11:48:53 公開日:2024-02-01