このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230907となっている論文です。

PDF登録状況(公開日: 20230907)

TitleAuthorsAbstract論文公表日・翻訳日
# 仮定と検証:並行アプリケーションにおける漏洩情報の帰納的検証(拡張版)

Assume but Verify: Deductive Verification of Leaked Information in Concurrent Applications (Extended Version) ( http://arxiv.org/abs/2309.03442v1 )

ライセンス: Link先を確認
Toby Murray, Mukesh Tiwari, Gidon Ernst, David A. Naumann, (参考訳) 情報を意図的に漏洩する非自明な並行プログラムのセキュリティを特定・証明する問題を考察する。 問題を分解する手法を提案する。 (a)演能的プログラム検証に既に広く使用されている前提アノテーションにより、プログラムが非分類化された情報のみを漏洩することを証明すること。 (b)宣言的安全保障政策に対する非分類の監査 私たちはどのようにして状態を示すか (a) は、既存のプログラムロジック SecCSL の拡張によって強制することができる。 (b) 簡単な内容のセットを証明して確認することができる。 課題の1つは、それぞれの意味音性基準を定義し、これらを論理規則とポリシー監査に正式に接続することである。 本手法を自動能動型プログラム検証器でサポートし,様々なケーススタディプログラムの実装を多種多様な非分類ポリシーに対して検証する。

We consider the problem of specifying and proving the security of non-trivial, concurrent programs that intentionally leak information. We present a method that decomposes the problem into (a) proving that the program only leaks information it has declassified via assume annotations already widely used in deductive program verification; and (b) auditing the declassifications against a declarative security policy. We show how condition (a) can be enforced by an extension of the existing program logic SecCSL, and how (b) can be checked by proving a set of simple entailments. Part of the challenge is to define respective semantic soundness criteria and to formally connect these to the logic rules and policy audit. We support our methodology in an auto-active program verifier, which we apply to verify the implementations of various case study programs against a range of declassification policies.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# アカウント抽象化を用いた匿名かつアカウンタブルな契約ワレットシステム

An Anonymous yet Accountable Contract Wallet System using Account Abstraction ( http://arxiv.org/abs/2309.03480v1 )

ライセンス: Link先を確認
Kota Chin, Keita Emura, Kazumasa Omote, (参考訳) アカウントの抽象化により、コントラクトウォレットがトランザクションの実行を開始することができる。 このように、口座抽象化は、契約ウォレットにEOAから発行された取引を削除し、リングシグネチャなどの匿名認証手順を付加することにより、誰がその取引を発行したかを隠すことができるので、外部所有アカウント(EOA)のプライバシを保存するのに有用である。 しかし、無条件の匿名性は実際には望ましくない。 したがって、匿名性と説明責任のバランスを維持することが重要である。 本稿では,匿名だが説明責任のある契約ウォレットシステムを提案する。 また,説明可能なリングシグネチャ(Bootle et al , ESORICS 2015)も利用している。 提案システムは,(1)契約ウォレットの運営に同意した者を隠す取引発行者の匿名性,(2)契約ウォレットの運営に同意したことを証明できる発行者の説明責任を提供する。 さらに、説明可能なリングシグネチャのセキュリティ要件のため、トランザクション発行者は、他の誰かがトランザクションを発行したと主張することはできない。 この機能により、トランザクションの発行に関わる説明責任を明確にすることができます。 さらに,提案システムでは,リングシグネチャスキームとともに,典型的なシグネチャスキーム,例えばECDSAを使用することができる。 この機能は、契約ウォレットを実行するために一定の数のECDSAシグネチャを必要とする、一般的なマルチシグネチャの拡張と見なすことができる。 提案方式はzkSync (Solidity) を用いて実装した。 本稿では,提案システムの可能性,すなわち医療情報共有と資産管理について論じる。

Account abstraction allows a contract wallet to initiate transaction execution. Thus, account abstraction is useful for preserving the privacy of externally owned accounts (EOAs) because it can remove a transaction issued from an EOA to the contract wallet and hides who issued the transaction by additionally employing anonymous authentication procedures such as ring signatures. However, unconditional anonymity is undesirable in practice because it prevents to reveal who is accountable for a problem when it arises. Thus, maintaining a balancing between anonymity and accountability is important. In this paper, we propose an anonymous yet accountable contract wallet system. In addition to account abstraction, the proposed system also utilizes accountable ring signatures (Bootle et al., ESORICS 2015). The proposed system provides (1) anonymity of a transaction issuer that hides who agreed with running the contract wallet, and (2) accountability of the issuer, which allows the issuer to prove they agreed with running the contract wallet. Moreover, due to a security requirement of accountable ring signatures, the transaction issuer cannot claim that someone else issued the transaction. This functionality allows us to clarify the accountability involved in issuing a transaction. In addition, the proposed system allows an issuer to employ a typical signature scheme, e.g., ECDSA, together with the ring signature scheme. This functionality can be considered an extension of the common multi-signatures that require a certain number of ECDSA signatures to run a contract wallet. The proposed system was implemented using zkSync (Solidity). We discuss several potential applications of the proposed system, i.e., medical information sharing and asset management.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# Wi-Fiでキーストローク盗聴が可能に

Password-Stealing without Hacking: Wi-Fi Enabled Practical Keystroke Eavesdropping ( http://arxiv.org/abs/2309.03492v1 )

ライセンス: Link先を確認
Jingyang Hu, Hongbo Wang, Tianyue Zheng, Jingzhi Hu, Zhe Chen, Hongbo Jiang, Jun Luo, (参考訳) Wi-Fiの非接触検知特性は、プライバシー侵害を実現するために利用されてきたが、既存の攻撃はWi-Fi CSI(チャネル状態情報)に頼って、Wi-Fiハードウェアをハッキングして所望のCSIを得る。 このようなハッキングは、コンパクトなハードウェアのために明らかに困難であることから、高速で開発するWi-Fi技術に追随する可能性は非常に疑わしい。 この目的のために,スマートフォン上でキーストロークを盗聴するWiKI-Eveを提案する。 WiKI-Eveは、最新のWi-Fiハードウェアが提供する新機能であるBFI(beamforming feedback information)を活用している。 既存のキーストローク推論手法は非常に限定的な一般化性を提供するため、WiKI-Eveは、その推論を目に見えないシナリオに対して一般化できるように、逆学習方式をさらに革新する。 結果は、WiKI-Eveが個々のキーストロークに対して88.9%の推論精度、モバイルアプリケーション(WeChatなど)のパスワードを盗むための65.8%のトップ10精度を達成したことを示す。

The contact-free sensing nature of Wi-Fi has been leveraged to achieve privacy breaches, yet existing attacks relying on Wi-Fi CSI (channel state information) demand hacking Wi-Fi hardware to obtain desired CSIs. Since such hacking has proven prohibitively hard due to compact hardware, its feasibility in keeping up with fast-developing Wi-Fi technology becomes very questionable. To this end, we propose WiKI-Eve to eavesdrop keystrokes on smartphones without the need for hacking. WiKI-Eve exploits a new feature, BFI (beamforming feedback information), offered by latest Wi-Fi hardware: since BFI is transmitted from a smartphone to an AP in clear-text, it can be overheard (hence eavesdropped) by any other Wi-Fi devices switching to monitor mode. As existing keystroke inference methods offer very limited generalizability, WiKI-Eve further innovates in an adversarial learning scheme to enable its inference generalizable towards unseen scenarios. We implement WiKI-Eve and conduct extensive evaluation on it; the results demonstrate that WiKI-Eve achieves 88.9% inference accuracy for individual keystrokes and up to 65.8% top-10 accuracy for stealing passwords of mobile applications (e.g., WeChat).
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# HOPPER: ライブラリの解釈ファズリング

HOPPER: Interpretative Fuzzing for Libraries ( http://arxiv.org/abs/2309.03496v1 )

ライセンス: Link先を確認
Peng Chen, Yuxuan Xie, Yunlong Lyu, Yuxiao Wang, Hao Chen, (参考訳) 最先端のファジィドライバは入力を効率的に生成できるにもかかわらず、既存のファジィドライバはライブラリのエントリを適切にカバーすることはできない。 これらのファズドライバのほとんどは開発者によって手作業で作成されており、その品質は開発者のコード理解に依存します。 既存の作業は、コードと実行トレースからAPIの使用法を学ぶことによって、ファズドライバの自動生成を試みている。 しかし、生成されたファズドライバは、学習されるコードによって、いくつかの特定の呼び出しシーケンスに制限される。 これらの課題に対処するために,ファズドライバを構築するためにドメイン知識を必要とせずにライブラリをファズできるHOPPERを提案する。 ライブラリファジィングの問題をインタプリタファジィングの問題に変換する。 テスト中のライブラリにリンクされたインタプリタは、任意のAPI使用法を記述するインプットを解釈することができる。 インタプリタに対して意味論的に正しい入力を生成するため、HOPPERはライブラリ内のAPI内およびAPI間の制約を学習し、プログラムを文法的認識で変更する。 我々は,HOPPERを実装し,手作業によるファズーやその他の自動解法に対する実世界の11のライブラリの有効性を評価した。 我々の結果は、HOPPERがコードカバレッジとバグ発見の両方で他のファッザよりも大幅に優れており、他のファッザができなかった25の既知のバグが明らかになったことを示している。 さらに,提案手法は,ライブラリが入力する制約を正しく学習し,ファジリング効率を大幅に向上することを示した。 実験結果から,HOPPERは,ライブラリファジィを最初から回避するために,幅広いAPI使用法を探索可能であることが示唆された。

Despite the fact that the state-of-the-art fuzzers can generate inputs efficiently, existing fuzz drivers still cannot adequately cover entries in libraries. Most of these fuzz drivers are crafted manually by developers, and their quality depends on the developers' understanding of the code. Existing works have attempted to automate the generation of fuzz drivers by learning API usage from code and execution traces. However, the generated fuzz drivers are limited to a few specific call sequences by the code being learned. To address these challenges, we present HOPPER, which can fuzz libraries without requiring any domain knowledge to craft fuzz drivers. It transforms the problem of library fuzzing into the problem of interpreter fuzzing. The interpreters linked against libraries under test can interpret the inputs that describe arbitrary API usage. To generate semantically correct inputs for the interpreter, HOPPER learns the intra- and inter-API constraints in the libraries and mutates the program with grammar awareness. We implemented HOPPER and evaluated its effectiveness on 11 real-world libraries against manually crafted fuzzers and other automatic solutions. Our results show that HOPPER greatly outperformed the other fuzzers in both code coverage and bug finding, having uncovered 25 previously unknown bugs that other fuzzers couldn't. Moreover, we have demonstrated that the proposed intra- and inter-API constraint learning methods can correctly learn constraints implied by the library and, therefore, significantly improve the fuzzing efficiency. The experiment results indicate that HOPPER is able to explore a vast range of API usages for library fuzzing out of the box.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# 分散メタバースのための適応型およびモジュール型ブロックチェーンアーキテクチャ

An Adaptive and Modular Blockchain Enabled Architecture for a Decentralized Metaverse ( http://arxiv.org/abs/2309.03502v1 )

ライセンス: Link先を確認
Ye Cheng, Yihao Guo, Minghui Xu, Qin Hu, Dongxiao Yu, Xiuzhen Cheng, (参考訳) メタバースは人間の時間と空間の境界を破り、より現実的な仮想体験を実現し、作業効率を改善し、新しいビジネスモデルを作ります。 ブロックチェーンはメタバース設計のキーとなる技術のひとつであり、信頼できるインタラクティブな環境を提供する。 しかし、メタバースの豊かで多様な場面は、オンチェーンリソースの過剰な消費をもたらし、一般ユーザーが参加するしきい値が上昇し、人間中心の設計が失われている。 そこで我々は,これらの問題に対処するために,分散メタバースのための適応的かつモジュール化されたブロックチェーン対応アーキテクチャを提案する。 このソリューションには、モジュール型ブロックチェーンに基づくアダプティブコンセンサス/リーダプロトコルが含まれており、メタバースの変わらず変化するシナリオに効果的に適応し、リソース消費を低減し、セキュアで信頼性の高いインタラクティブな環境を提供する。 さらに、アイドルリソースを仮想化するためのNF(Non-Fungible Resource)の概念を提案する。 ユーザは、一時的な信頼できる環境を確立し、コンピューティングのニーズを満たすために他人のNFRを借りることができる。 最後に、XuperChainに基づいてソリューションをシミュレートし、テストし、実験結果により、設計の有効性を実証した。

A metaverse breaks the boundaries of time and space between people, realizing a more realistic virtual experience, improving work efficiency, and creating a new business model. Blockchain, as one of the key supporting technologies for a metaverse design, provides a trusted interactive environment. However, the rich and varied scenes of a metaverse have led to excessive consumption of on-chain resources, raising the threshold for ordinary users to join, thereby losing the human-centered design. Therefore, we propose an adaptive and modular blockchain-enabled architecture for a decentralized metaverse to address these issues. The solution includes an adaptive consensus/ledger protocol based on a modular blockchain, which can effectively adapt to the ever-changing scenarios of the metaverse, reduce resource consumption, and provide a secure and reliable interactive environment. In addition, we propose the concept of Non-Fungible Resource (NFR) to virtualize idle resources. Users can establish a temporary trusted environment and rent others' NFR to meet their computing needs. Finally, we simulate and test our solution based on XuperChain, and the experimental results prove the feasibility of our design.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# 共通オープンソースMQTTブローカとクライアントのセキュリティ評価

Security assessment of common open source MQTT brokers and clients ( http://arxiv.org/abs/2309.03547v1 )

ライセンス: Link先を確認
Edoardo Di Paolo, Enrico Bassetti, Angelo Spognardi, (参考訳) デバイスのセキュリティと信頼性は、IoTエコシステムにとって最重要である。 メッセージキューング テレメトリ トランスポートプロトコル(MQTT)はデファクトスタンダードであり、HTTPを利用できない限られたデバイスに対して最も一般的な選択肢です。 しかしMQTTプロトコルは、当初、石油・ガス産業のプライベートネットワーク向けに設計されて以来、セキュリティ上の問題なく設計されている。 MQTTは実際のアプリケーションで広く使用されているため、IoTデバイスを対象とした広範な攻撃も考慮しながら、セキュリティコミュニティのレンズ下にある。 本稿では,MQTTシステムコンポーネントの広範な実装,すなわちブローカライブラリ5つとクライアントライブラリ3つについて,実証的なセキュリティ評価を行う。 私たちの研究結果は、非常に重大な欠陥を捉えていないが、いくつかのライブラリが標準に完全に準拠せず、悪意ある悪用やシステム不整合の原因となる可能性のあるマージンを残している、いくつかのシナリオがある。

Security and dependability of devices are paramount for the IoT ecosystem. Message Queuing Telemetry Transport protocol (MQTT) is the de facto standard and the most common alternative for those limited devices that cannot leverage HTTP. However, the MQTT protocol was designed with no security concern since initially designed for private networks of the oil and gas industry. Since MQTT is widely used for real applications, it is under the lens of the security community, also considering the widespread attacks targeting IoT devices. Following this direction research, in this paper we present an empirical security evaluation of several widespread implementations of MQTT system components, namely five broker libraries and three client libraries. While the results of our research do not capture very critical flaws, there are several scenarios where some libraries do not fully adhere to the standard and leave some margins that could be maliciously exploited and potentially cause system inconsistencies.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# Zero Trust: アプリケーション,課題,機会

Zero Trust: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2309.03582v1 )

ライセンス: Link先を確認
Saeid Ghasemshirazi, Ghazaleh Shirvani, Mohammad Ali Alipour, (参考訳) サイバーセキュリティの脅威のエスカレートする複雑さは、デジタル資産と機密情報を保護するための革新的なアプローチを必要とする。 Zero Trustパラダイムは、従来のセキュリティモデルに挑戦し、継続的な検証と最小特権アクセスを強調することによって、変革的なソリューションを提供する。 この調査は、ゼロトラストの理論的基礎、実践的実装、応用、課題、今後のトレンドを包括的に調査する。 厳密な分析を通じて、クラウド環境の保護、リモートワークの促進、IoT(Internet of Things)エコシステムの保護におけるZero Trustの関連性を強調します。 文化的障壁と技術的な複雑さは困難を呈するが、その緩和はゼロトラストの可能性を解き放つ。 Zero TrustをAIや機械学習といった新興技術と統合することは、その有効性を高め、動的で応答性のあるセキュリティの展望を約束する。 Zero Trustを導入することで、組織はレジリエンスと適応性によって進化を続けるサイバーセキュリティ領域をナビゲートし、デジタル時代の信頼を再定義することが可能になる。

The escalating complexity of cybersecurity threats necessitates innovative approaches to safeguard digital assets and sensitive information. The Zero Trust paradigm offers a transformative solution by challenging conventional security models and emphasizing continuous verification and least privilege access. This survey comprehensively explores the theoretical foundations, practical implementations, applications, challenges, and future trends of Zero Trust. Through meticulous analysis, we highlight the relevance of Zero Trust in securing cloud environments, facilitating remote work, and protecting the Internet of Things (IoT) ecosystem. While cultural barriers and technical complexities present challenges, their mitigation unlocks Zero Trust's potential. Integrating Zero Trust with emerging technologies like AI and machine learning augments its efficacy, promising a dynamic and responsive security landscape. Embracing Zero Trust empowers organizations to navigate the ever-evolving cybersecurity realm with resilience and adaptability, redefining trust in the digital age.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# 限られた不均一な学習データから学ぶ:ウェブドメインを横断するゼロデイWeb攻撃検出のためのメタラーニング

Learning from Limited Heterogeneous Training Data: Meta-Learning for Unsupervised Zero-Day Web Attack Detection across Web Domains ( http://arxiv.org/abs/2309.03660v1 )

ライセンス: Link先を確認
Peiyang Li, Ye Wang, Qi Li, Zhuotao Liu, Ke Xu, Ju Ren, Zhiying Liu, Ruilin Lin, (参考訳) 近年、ゼロデイWeb攻撃を検出するために、教師なしの機械学習ベースのシステムが開発され、既存のWebアプリケーションファイアウォール(WAF)を効果的に強化することができる。 しかし、先行技術は特定のドメインに対する特定の検出モデルを訓練することで、特定のドメインに対する攻撃を検知することのみを考慮する。 これらのシステムは大量のトレーニングデータを必要とするため、モデルトレーニングとデプロイメントに長時間を要する。 本稿では、学習データに制限のある組織において、異なるドメイン間でのゼロデイWeb攻撃検出を可能にする新しいメタラーニングベースのフレームワークであるRETSINAを提案する。 具体的には、メタラーニングを利用してこれらのドメイン間の知識を共有する。例えば、異種ドメインにおけるHTTPリクエスト間の関係を利用して、検出モデルを効率的にトレーニングする。 さらに,異なるドメイン間でのWeb要求のセマンティック分析を容易にする適応型事前処理モジュールを開発し,ドメイン間のセマンティックな相関を捉えるマルチドメイン表現法を設計する。 我々は4つの実世界のデータセットを、合計293万のWebリクエストで異なるドメインで実験する。 実験結果から、RETSINAは既存の教師なしWeb攻撃検出手法よりも、訓練データが少ない場合、例えば、RETSINAは1日間のトレーニングデータを用いて、異なるドメインのモデルを訓練する既存の方法と同等な検出性能を達成するために、たった5分間のトレーニングデータしか必要としないことがわかった。 また、インターネット企業における実世界の展開も行っています。 RETSINAは2つのドメインで1日平均126と218のゼロデイ攻撃要求を1ヶ月でキャプチャする。

Recently unsupervised machine learning based systems have been developed to detect zero-day Web attacks, which can effectively enhance existing Web Application Firewalls (WAFs). However, prior arts only consider detecting attacks on specific domains by training particular detection models for the domains. These systems require a large amount of training data, which causes a long period of time for model training and deployment. In this paper, we propose RETSINA, a novel meta-learning based framework that enables zero-day Web attack detection across different domains in an organization with limited training data. Specifically, it utilizes meta-learning to share knowledge across these domains, e.g., the relationship between HTTP requests in heterogeneous domains, to efficiently train detection models. Moreover, we develop an adaptive preprocessing module to facilitate semantic analysis of Web requests across different domains and design a multi-domain representation method to capture semantic correlations between different domains for cross-domain model training. We conduct experiments using four real-world datasets on different domains with a total of 293M Web requests. The experimental results demonstrate that RETSINA outperforms the existing unsupervised Web attack detection methods with limited training data, e.g., RETSINA needs only 5-minute training data to achieve comparable detection performance to the existing methods that train separate models for different domains using 1-day training data. We also conduct real-world deployment in an Internet company. RETSINA captures on average 126 and 218 zero-day attack requests per day in two domains, respectively, in one month.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# 逆境環境における隣接スケッチ

Adjacency Sketches in Adversarial Environments ( http://arxiv.org/abs/2309.03728v1 )

ライセンス: Link先を確認
Moni Naor, Eugene Pekel, (参考訳) グラフの任意の$n$ vertex $G \in \cal F$を、各頂点に対するラベルの代入として$G$で定義する手法である。 目標は、ラベルを表現するために可能な限り数ビットを使用するラベリングスキームを考案することである。 ラベルを割り当てるときにランダム性を使用することで、ラベルサイズがはるかに小さい隣接スケッチを作成できる場合もあるが、これはエラーの確率を導入するコストがかかる。 決定論的およびランダムなラベリングスキームは、分散データ構造や普遍グラフへの深い接続、通信複雑性など、広く研究されている。 主な関心事は、グラフ族がどのスキームをショートラベル(通常は$O(\log n)$)を使うか、あるいはランダム化されたスケッチに対して定数を持つかである。 本研究では,ラベルに対して適応的なクエリを行う敵に対する確率的隣接スケッチのレジリエンスを検討する。 これは以前分析された ``one shot' の確率的設定とは異なる。 適応逆数の場合、ラベルのサイズは、$\cal F$のグラフの最大次数と密接に関連していることを示す。 この結果、非敵対的な設定で知られているものと比較して、より強力な特徴付けがもたらされる。 より詳しくは、最大次数$d$のグラフに対して、確率$\varepsilon$で失敗するスケッチを2d\log (1/\varepsilon)$ bit labelsを用いて構築し、これは、最大次数$d$, e g \ a $d$-ary tree の任意のグラフに対してできる、ほぼ最高のグラフであることを示す。

An adjacency sketching or implicit labeling scheme for a family $\cal F$ of graphs is a method that defines for any $n$ vertex $G \in \cal F$ an assignment of labels to each vertex in $G$, so that the labels of two vertices tell you whether or not they are adjacent. The goal is to come up with labeling schemes that use as few bits as possible to represent the labels. By using randomness when assigning labels, it is sometimes possible to produce adjacency sketches with much smaller label sizes, but this comes at the cost of introducing some probability of error. Both deterministic and randomized labeling schemes have been extensively studied, as they have applications for distributed data structures and deeper connections to universal graphs and communication complexity. The main question of interest is which graph families have schemes using short labels, usually $O(\log n)$ in the deterministic case or constant for randomized sketches. In this work we consider the resilience of probabilistic adjacency sketches against an adversary making adaptive queries to the labels. This differs from the previously analyzed probabilistic setting which is ``one shot". We show that in the adaptive adversarial case the size of the labels is tightly related to the maximal degree of the graphs in $\cal F$. This results in a stronger characterization compared to what is known in the non-adversarial setting. In more detail, we construct sketches that fail with probability $\varepsilon$ for graphs with maximal degree $d$ using $2d\log (1/\varepsilon)$ bit labels and show that this is roughly the best that can be done for any specific graph of maximal degree $d$, e.g.\ a $d$-ary tree.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-07
# 生成した逆流と階層的トラフィック特徴による未知のHTTPベースの悪意ある通信行動の検出

Detecting unknown HTTP-based malicious communication behavior via generated adversarial flows and hierarchical traffic features ( http://arxiv.org/abs/2309.03739v1 )

ライセンス: Link先を確認
Xiaochun Yun, Jiang Xie, Shuhao Li, Yongzheng Zhang, Peishuai Sun, (参考訳) 悪意ある通信行動は、被害者デバイスが感染した後にマルウェア(ボットネット、スパイウェアなど)によって生成されたネットワーク通信行動である。 経験豊富な敵はしばしば、悪意のある情報をHTTPトラフィックに隠して検出を回避する。 しかしながら、関連する検出方法は、通常、人工的特徴工学と非修正データセットに基づくため、不適切な一般化能力を有する。 本稿では,生成した逆流と階層的トラフィック特徴に基づくHTTPベースのMalicious Communication Traffic Detection Model (HMCD-Model)を提案する。 HMCD-Modelは2つの部分から構成される。 1つ目は、WGAN-GPに基づく生成アルゴリズムで、データ拡張のためにHTTPベースの悪意のある通信トラフィックを生成する。 2つ目は、CNNとLSTMに基づくハイブリッドニューラルネットワークで、トラフィックの階層的な時空間的特徴を抽出する。 さらに,HMCT-2020というデータセットを3年間(2018-2020)に収集し,公開する。 HMCT-2020(18)のデータをトレーニングセットとし、他のデータセットのデータをテストセットとして、実験結果から、HMCD-Modelが未知のHTTPベースの悪意のある通信トラフィックを効果的に検出できることが示されている。 データセットHMCT-2020(19-20)ではF1 = 98.66%、公開データセットCIC-IDS-2017ではF1 = 90.69%、実際のトラフィックではF1 = 83.66%に達する。 これは、HMCD-Modelが未知のHTTPベースの悪意のある通信行動を発見する能力があることを検証する。

Malicious communication behavior is the network communication behavior generated by malware (bot-net, spyware, etc.) after victim devices are infected. Experienced adversaries often hide malicious information in HTTP traffic to evade detection. However, related detection methods have inadequate generalization ability because they are usually based on artificial feature engineering and outmoded datasets. In this paper, we propose an HTTP-based Malicious Communication traffic Detection Model (HMCD-Model) based on generated adversarial flows and hierarchical traffic features. HMCD-Model consists of two parts. The first is a generation algorithm based on WGAN-GP to generate HTTP-based malicious communication traffic for data enhancement. The second is a hybrid neural network based on CNN and LSTM to extract hierarchical spatial-temporal features of traffic. In addition, we collect and publish a dataset, HMCT-2020, which consists of large-scale malicious and benign traffic during three years (2018-2020). Taking the data in HMCT-2020(18) as the training set and the data in other datasets as the test set, the experimental results show that the HMCD-Model can effectively detect unknown HTTP-based malicious communication traffic. It can reach F1 = 98.66% in the dataset HMCT-2020(19-20), F1 = 90.69% in the public dataset CIC-IDS-2017, and F1 = 83.66% in the real traffic, which is 20+% higher than other representative methods on average. This validates that HMCD-Model has the ability to discover unknown HTTP-based malicious communication behavior.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-07
# ランダム多項式系を解く複雑さ

The complexity of solving a random polynomial system ( http://arxiv.org/abs/2309.03855v1 )

ライセンス: Link先を確認
Giulia Gaggero, Elisa Gorla, (参考訳) 実際には、多変量暗号グラフのインスタンスは多変量多項式系である。 したがって、プロトコルのセキュリティは多変量多項式系を解く複雑さに依存している。 本稿では,多変量系を解くのに使用される一般アルゴリズムの概要と,このアルゴリズムの複雑性が依存する量,すなわち解度について概説する。 残念ながら、計算は困難です。 そのため、正則性の次数という不変量が導入される。 この不変量は、ある条件下では、解度の上限を与える。 そして、ランダム多項式系、特に「ランダム」が我々にどんな意味を持つかについて話す。 最後に、そのようなランダムシステムの正則度と解度の両方に上限を与える。

A multivariate cryptograpic instance in practice is a multivariate polynomial system. So the security of a protocol rely on the complexity of solving a multivariate polynomial system. In this paper there is an overview on a general algorithm used to solve a multivariate system and the quantity to which the complexity of this algorithm depends on: the solving degree. Unfortunately, it is hard to compute. For this reason, it is introduced an invariant: the degree of regularity. This invariant, under certain condition, give us an upper bound on the solving degree. Then we speak about random polynomial systems and in particular what "random" means to us. Finally, we give an upper bound on both the degree of regularity and the solving degree of such random systems.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-07
# 個人会員の集まり

Private Membership Aggregation ( http://arxiv.org/abs/2309.03872v1 )

ライセンス: Link先を確認
Mohamed Nomeir, Sajani Vithana, Sennur Ulukus, (参考訳) 任意の要素集合をユニバーサルアルファベットから格納する独立系に、ある要素の回数をユーザが数えるという、プライベートメンバシップアグリゲーション(PMA)の問題を考える。 当事者は、どの要素がユーザによってカウントされているかを知ることができない。 さらに、そのプロセスに関わる各当事者の記憶された要素をユーザも他の当事者も学習することは許されない。 PMAは、最近導入されたK$private set intersection(K$-PSI)の一般化である。 K$-PSI問題では、任意の要素の集合を格納する$M$パーティのセットと、特定の要素が少なくとも$M$パーティから$K$パーティーを繰り返すかどうかを、どのパーティが要求要素を持ち、どのパーティがそうでないかを学習せずに判断したいユーザについて検討している。 PMAの一般的な問題を解決するために,プライバシ要件とデータベース・パーティ間の共謀に基づいて,これらを4つのカテゴリに分類する。 我々はこれらの問題を等価プライベート情報検索(PIR)問題にマップする。 そこで本稿では,CSA(クロス・サブスペースアライメント)の概念に基づいて,問題の4つの変種毎に達成可能なスキームを提案する。 提案手法は,セキュリティやプライバシの制約がより大きいにもかかわらず,その複雑性を必要とする最先端の$K$-PSI方式とは対照的に,通信複雑性を実現する。

We consider the problem of private membership aggregation (PMA), in which a user counts the number of times a certain element is stored in a system of independent parties that store arbitrary sets of elements from a universal alphabet. The parties are not allowed to learn which element is being counted by the user. Further, neither the user nor the other parties are allowed to learn the stored elements of each party involved in the process. PMA is a generalization of the recently introduced problem of $K$ private set intersection ($K$-PSI). The $K$-PSI problem considers a set of $M$ parties storing arbitrary sets of elements, and a user who wants to determine if a certain element is repeated at least at $K$ parties out of the $M$ parties without learning which party has the required element and which party does not. To solve the general problem of PMA, we dissect it into four categories based on the privacy requirement and the collusions among databases/parties. We map these problems into equivalent private information retrieval (PIR) problems. We propose achievable schemes for each of the four variants of the problem based on the concept of cross-subspace alignment (CSA). The proposed schemes achieve \emph{linear} communication complexity as opposed to the state-of-the-art $K$-PSI scheme that requires \emph{exponential} complexity even though our PMA problems contain more security and privacy constraints.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-07
# 実践的かつスケーラブルなトラフィック推論を用いたネットワークIoTアセットの管理

Managing Networked IoT Assets Using Practical and Scalable Traffic Inference ( http://arxiv.org/abs/2310.10657v1 )

ライセンス: Link先を確認
Arman Pashamokhtari, (参考訳) インターネットは最近、IoT(Internet of Things)と呼ばれるコネクテッドアセットのクラスが前例のない成長を遂げているのを目撃している。 比較的未成熟な製造プロセスと限られたコンピューティングリソースのため、IoTはデバイスレベルのセキュリティ対策が不十分であり、インターネットを様々なサイバーリスクに晒している。 これまでの研究では、IoTネットワークトラフィックの予測可能なパターンを活用して、推論モデルを開発した。 しかしながら、実用上の課題に対処する上での期待に届かず、運用環境にデプロイされることを防ぎます。 この論文は4つの実践的な課題を特定し、ビジネスの安全とユーザプライバシの保護に役立てるテクニックを開発しています。 私の最初のコントリビューションは、IoTトラフィックの分類と監視のためのトラフィック機能のコンピューティングコストに対して、予測のバランスを取ることです。 2つ目のコントリビューションは、測定コストとデータ品質の課題に対処しています。 不透明で粗いIPFIXフローデータからホームネットワーク内のIoTデバイスを予測するために,確率的・決定論的モデリングを用いた推論手法を開発した。 評価の結果, 偽陽性率は関連する作業に比べて75%減少し, 真陽性に有意な影響を及ぼさないことが明らかとなった。 第3のコントリビューションは、12の実家ネットワークから収集された600万以上のフローレコードを分析して、コンセプトドリフトの課題に焦点を当てています。 最後に、私の4番目のコントリビューションは、決定木ベースのモデルに特化して、敵対的攻撃に対する機械学習モデルのレジリエンスについて研究しています。

The Internet has recently witnessed unprecedented growth of a class of connected assets called the Internet of Things (IoT). Due to relatively immature manufacturing processes and limited computing resources, IoTs have inadequate device-level security measures, exposing the Internet to various cyber risks. Prior research leveraged predictable patterns in IoT network traffic to develop inference models. However, they fall short of expectations in addressing practical challenges, preventing them from being deployed in production settings. This thesis identifies four practical challenges and develops techniques to address them which can help secure businesses and protect user privacy against growing cyber threats. My first contribution balances prediction gains against computing costs of traffic features for IoT traffic classification and monitoring. My second contribution addresses the challenges of measurement costs and data quality. I develop an inference method that uses stochastic and deterministic modeling to predict IoT devices in home networks from opaque and coarse-grained IPFIX flow data. Evaluations show that false positive rates can be reduced by 75% compared to related work without significantly affecting true positives. My third contribution focuses on the challenge of concept drifts by analyzing over six million flow records collected from 12 real home networks. Finally, my fourth contribution studies the resilience of machine learning models against adversarial attacks with a specific focus on decision tree-based models.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-07
# Isabelle/UTPにおける信頼度理論の検証と自動化

Checking and Automating Confidentiality Theory in Isabelle/UTP ( http://arxiv.org/abs/2310.10658v1 )

ライセンス: Link先を確認
Lex Bailey, Jim Woodcock, Simon Foster, Roberto Metere, (参考訳) 最近のCPUで発見された脆弱性の深刻さ、例えばSpectre [1]は、情報漏洩がコンピュータシステムのセキュリティに悪影響を及ぼす可能性があることを強調している。 同時に、機密性はプログラム検証の通常の部分として促進され、開発の初期段階においてそのようなヴァルネラビリ関係を発見し緩和するべきであることを示唆している。 我々が提案する理論は、主に、Unified Theories of Programming (UTP) [3] で定式化された機密性に関する推論の枠組みであるバンクの理論[2]に基づいています。 我々は、イザベル定理証明器イザベル/UTP[4]における現在の UTP 実装における符号化を機械化した。 我々はバンクの当初の枠組みにいくつかの理論的問題を特定した。 最後に、我々の機械化が銀行の業績の例のいくつかを前もって検証するためにどのように使えるかを実証する。

The severity of recent vulnerabilities discovered on modern CPUs, e.g., Spectre [1], highlights how information leakage can have devas-tating effects to the security of computer systems. At the same time, it suggests that confidentiality should be promoted as a normal part of program verification, to discover and mitigate such vulnerabili-ties early in development. The theory we propose is primarily based on Bank's theory [2], a framework for reasoning about confidentiali-ty properties formalised in the Unifying Theories of Programming (UTP) [3]. We mechanised our encoding in the current implementa-tion of UTP in the Isabelle theorem prover, Isabelle/UTP [4]. We have identified some theoretical issues in Bank's original framework. Finally, we demonstrate how our mechanisation can be used to for-mally verify of some of the examples from Bank's work.
翻訳日:2024-03-25 14:05:29 公開日:2023-09-07
# スパイクニューラルネットワークにおける代理勾配降下によるエネルギー効率の高い物体検出

Enabling energy-Efficient object detection with surrogate gradient descent in spiking neural networks ( http://arxiv.org/abs/2310.12985v1 )

ライセンス: Link先を確認
Jilong Luo, Shanlin Xiao, Yinsheng Chen, Zhiyi Yu(参考訳) Spiking Neural Networks (SNN) は、イベント駆動処理と時空間情報処理の両方において、生物学的にもっとも有効なニューラルネットワークモデルである。 しかし, 生体神経力学モデルの非分化性は, SNNの訓練において課題となる。 さらに、SNNにおけるオブジェクト検出に適したデコード戦略が現在不足している。 本研究では,オブジェクト検出タスクにおける深部SNNのトレーニングを容易にするために,回帰問題を解くCurrent Mean Decoding(CMD)手法を提案する。 勾配サロゲートとCMDに基づいて,物体検出のためのSNN-YOLOv3モデルを提案する。 実験の結果,SNN-YOLOv3 は PASCAL VOC データセット上で 61.87% のmAP で顕著な性能を達成できた。 SpikingYOLOと比較して、エネルギー消費を2桁程度削減しながら、mAPを10%近く増加させました。

Spiking Neural Networks (SNNs) are a biologically plausible neural network model with significant advantages in both event-driven processing and spatio-temporal information processing, rendering SNNs an appealing choice for energyefficient object detection. However, the non-differentiability of the biological neuronal dynamics model presents a challenge during the training of SNNs. Furthermore, a suitable decoding strategy for object detection in SNNs is currently lacking. In this study, we introduce the Current Mean Decoding (CMD) method, which solves the regression problem to facilitate the training of deep SNNs for object detection tasks. Based on the gradient surrogate and CMD, we propose the SNN-YOLOv3 model for object detection. Our experiments demonstrate that SNN-YOLOv3 achieves a remarkable performance with an mAP of 61.87% on the PASCAL VOC dataset, requiring only 6 time steps. Compared to SpikingYOLO, we have managed to increase mAP by nearly 10% while reducing energy consumption by two orders of magnitude.
翻訳日:2024-01-15 16:42:34 公開日:2023-09-07
# AIモデルの時代における挑発的なソフトウェアエンジニアリング

Prompted Software Engineering in the Era of AI Models ( http://arxiv.org/abs/2311.03359v1 )

ライセンス: Link先を確認
Dae-Kyoo Kim(参考訳) 本稿では、プロンプトエンジニアリングを統合し、言語ベースのaiモデルの効果的なプロンプトを構築し、ソフトウェア開発プロセスを強化するpse(prompted software engineering)を紹介する。 PSEは、ソフトウェア開発にAIモデルを使用することで、少ないリソースで高品質なソフトウェアを生産し、面倒なタスクを自動化し、開発者がより革新的な側面に集中できるようにする。 しかし、効果的なプロンプトは、正確な、適切で有用な応答を生成しながら、誤ったアウトプットのリスクを軽減し、ソフトウェア開発を導くために必要である。 本稿では,ソフトウェア開発サイクルを通じて生産的なプロンプトを構築する方法を説明する。

This paper introduces prompted software engineering (PSE), which integrates prompt engineering to build effective prompts for language-based AI models, to enhance the software development process. PSE enables the use of AI models in software development to produce high-quality software with fewer resources, automating tedious tasks and allowing developers to focus on more innovative aspects. However, effective prompts are necessary to guide software development in generating accurate, relevant, and useful responses, while mitigating risks of misleading outputs. This paper describes how productive prompts should be built throughout the software development cycle.
翻訳日:2024-01-15 16:30:18 公開日:2023-09-07
# ロバストネスの観点からのデータ拡張を理解する

Understanding Data Augmentation from a Robustness Perspective ( http://arxiv.org/abs/2311.12800v1 )

ライセンス: Link先を確認
Zhendong Liu, Jie Zhang, Qiangqiang He, Chongjun Wang(参考訳) 視覚認識の分野では、データ拡張はモデルの堅牢性を増幅する重要な技術である。 しかし、既存の方法論の多くはヒューリスティックな基礎に大きく依存しており、本質的なメカニズムは曖昧である。 この写本は、この現象を理解するための理論的および実証的なアプローチを取っている。 理論的には、ゲーム理論の構成におけるデータ拡張に関する談話の枠組みとなる。 より深く掘り下げると、我々の経験的評価は、エンブレマ的なデータ拡張戦略の複雑なメカニズムを識別し、これらの技術が主に中高次のゲームの相互作用を刺激することを示した。 基礎的な探索を超えて、実験は複数のデータセットと様々な拡張技術にまたがり、我々の発見の普遍的適用可能性を強調した。 複雑な相関関係を持つ多数のロバスト性メトリクスを認識して、合理化されたプロキシを公開する。 このプロキシはロバスト性評価を単純化するだけでなく、モデルゲームインタラクションの固有のダイナミクスとシステムロバスト性との関係に光を当てながら、貴重な洞察を提供する。 これらの洞察は、視覚認識タスクにおけるモデルの安全性と堅牢性を再評価する新しいレンズを提供する。

In the realm of visual recognition, data augmentation stands out as a pivotal technique to amplify model robustness. Yet, a considerable number of existing methodologies lean heavily on heuristic foundations, rendering their intrinsic mechanisms ambiguous. This manuscript takes both a theoretical and empirical approach to understanding the phenomenon. Theoretically, we frame the discourse around data augmentation within game theory's constructs. Venturing deeper, our empirical evaluations dissect the intricate mechanisms of emblematic data augmentation strategies, illuminating that these techniques primarily stimulate mid- and high-order game interactions. Beyond the foundational exploration, our experiments span multiple datasets and diverse augmentation techniques, underscoring the universal applicability of our findings. Recognizing the vast array of robustness metrics with intricate correlations, we unveil a streamlined proxy. This proxy not only simplifies robustness assessment but also offers invaluable insights, shedding light on the inherent dynamics of model game interactions and their relation to overarching system robustness. These insights provide a novel lens through which we can re-evaluate model safety and robustness in visual recognition tasks.
翻訳日:2024-01-15 15:44:19 公開日:2023-09-07
# 自動生成と手動定義による検索ベースソフトウェアテスト

Search-based Software Testing Driven by Automatically Generated and Manually Defined Fitness Functions ( http://arxiv.org/abs/2207.11016v2 )

ライセンス: Link先を確認
Federico Formica, Tony Fan, Claudio Menghi(参考訳) 検索ベースのソフトウェアテスト(SBST)は通常、ソフトウェア障害への探索を誘導するフィットネス機能に依存している。 フィットネス関数を定義する主要なテクニックは2つある。 (a)システム要件仕様による自動適合関数計算、及び (b)手動フィットネス機能設計。 どちらの技法にも利点がある。 前者は、システム要件からの情報を入力ドメインの一部への検索を導くために使用します。 後者はエンジニアのドメイン知識を使用する。 本稿では,要求仕様から自動生成されるフィットネス機能と,エンジニアが手動で定義する機能を組み合わせた新しいSBSTフレームワークであるATheNAを提案する。 我々は、SimulinkモデルをターゲットにしたATheNAのインスタンスであるATheNA-Sを設計、実装する。 ATheNA-S は、異なる領域のモデルの集合を考慮し評価する。 以上の結果から,ATheNA-Sは既存のベースラインツールよりもフェールリベリングテストケースを多く生成し,ATheNA-Sのランタイム性能とベースラインツールとの差は統計的に有意ではないことがわかった。 また,AtheNA-Sが自動車ドメインと医療ドメインの2つのケーススタディに適用した場合,障害発見テストケースを生成できるかどうかも検討した。 以上の結果から,AtheNA-Sは本症例では要件違反であった。

Search-based software testing (SBST) typically relies on fitness functions to guide the search exploration toward software failures. There are two main techniques to define fitness functions: (a) automated fitness function computation from the specification of the system requirements, and (b) manual fitness function design. Both techniques have advantages. The former uses information from the system requirements to guide the search toward portions of the input domain more likely to contain failures. The latter uses the engineers' domain knowledge. We propose ATheNA, a novel SBST framework that combines fitness functions automatically generated from requirements specifications and those manually defined by engineers. We design and implement ATheNA-S, an instance of ATheNA that targets Simulink models. We evaluate ATheNA-S by considering a large set of models from different domains. Our results show that ATheNA-S generates more failure-revealing test cases than existing baseline tools and that the difference between the runtime performance of ATheNA-S and the baseline tools is not statistically significant. We also assess whether ATheNA-S could generate failure-revealing test cases when applied to two representative case studies: one from the automotive domain and one from the medical domain. Our results show that ATheNA-S successfully revealed a requirement violation in our case studies.
翻訳日:2023-10-24 15:29:24 公開日:2023-09-07
# skcoder:自動コード生成のためのスケッチベースアプローチ

SkCoder: A Sketch-based Approach for Automatic Code Generation ( http://arxiv.org/abs/2302.06144v4 )

ライセンス: Link先を確認
Jia Li, Yongmin Li, Ge Li, Zhi Jin, Yiyang Hao, Xing Hu(参考訳) 近年、ディープラーニング技術は自動コード生成で大きな成功を収めている。 コードの再利用に触発された一部の研究者は、同様のコードスニペットからコンテンツをコピーしてパフォーマンスを向上させるコピーベースアプローチを提案している。 実際、人間開発者は、コードスケッチと見なすことができる、自身のニーズに関連する類似したコードのコンテンツを認識します。 スケッチはさらに、所望のコードに編集される。 しかし、既存のコピーベースのアプローチはコードのスケッチを無視し、必要な修正なしに類似のコードを繰り返す傾向があるため、間違った結果が発生する。 本論文では,SkCoderというスケッチベースのコード生成手法を提案する。 自然言語の要件が与えられたら、SkCoderは同様のコードスニペットを取得し、コードスケッチとして関連する部分を抽出し、スケッチを所望のコードに編集する。 私たちのモチベーションは、抽出されたスケッチがモデルに"書き方"を伝えるためのよくできたパターンを提供するということです。 ポストエディタはスケッチに要求固有の詳細を追加し、完全なコードを出力する。 本研究で収集した2つの公開データセットと1つの新しいデータセットについて実験を行った。 5つの広く使用されているメトリクスを使って、私たちのアプローチを20のベースラインと比較します。 実験の結果、(1)skcoderはより正確なプログラムを生成でき、3つのデータセットで最先端のcodet5ベースを30.30%、35.39%、29.62%上回る。 2) このアプローチは、複数のコード生成モデルに有効であり、pass@1で最大120.1%改善します。 3) 3つの妥当なコードスケッチを調査し,スケッチの重要性について考察する。 (4) 生成したコードを手作業で評価し,skcoderの優位性を3つの面から証明する。

Recently, deep learning techniques have shown great success in automatic code generation. Inspired by the code reuse, some researchers propose copy-based approaches that can copy the content from similar code snippets to obtain better performance. Practically, human developers recognize the content in the similar code that is relevant to their needs, which can be viewed as a code sketch. The sketch is further edited to the desired code. However, existing copy-based approaches ignore the code sketches and tend to repeat the similar code without necessary modifications, which leads to generating wrong results. In this paper, we propose a sketch-based code generation approach named SkCoder to mimic developers' code reuse behavior. Given a natural language requirement, SkCoder retrieves a similar code snippet, extracts relevant parts as a code sketch, and edits the sketch into the desired code. Our motivations are that the extracted sketch provides a well-formed pattern for telling models "how to write". The post-editing further adds requirement-specific details to the sketch and outputs the complete code. We conduct experiments on two public datasets and a new dataset collected by this work. We compare our approach to 20 baselines using 5 widely used metrics. Experimental results show that (1) SkCoder can generate more correct programs, and outperforms the state-of-the-art - CodeT5-base by 30.30%, 35.39%, and 29.62% on three datasets. (2) Our approach is effective to multiple code generation models and improves them by up to 120.1% in Pass@1. (3) We investigate three plausible code sketches and discuss the importance of sketches. (4) We manually evaluate the generated code and prove the superiority of our SkCoder in three aspects.
翻訳日:2023-10-24 13:14:38 公開日:2023-09-07
# モデルレビュー: 約束の機会

Model Review: A PROMISEing Opportunity ( http://arxiv.org/abs/2309.01314v2 )

ライセンス: Link先を確認
Tim Menzies(参考訳) モデルをより理解しやすく、修正できるようにするため、PROMISEコミュニティがモデルレビューの問題に転換することを提案する。 長年にわたり、非常に単純なモデルが非常によく機能する、という多くの報告があった。 しかし、研究者たちは「例えば、ソフトウェア分析をシンプルに、より理解しやすいものにすることはできるのだろうか? これは重要な問題であり、人間は複雑なモデル(信頼できない、時には危険な結果につながる)を正確に評価することが難しい。 ProMISEの以前の結果は、データマイニングが大規模モデルやデータセットをよりシンプルで小さなものに効果的に要約できることを示している。 したがって、ProMISEコミュニティは人間とAIの関係を再定義し、単純化し、改善するために必要なスキルと経験を持っている。

To make models more understandable and correctable, I propose that the PROMISE community pivots to the problem of model review. Over the years, there have been many reports that very simple models can perform exceptionally well. Yet, where are the researchers asking "say, does that mean that we could make software analytics simpler and more comprehensible?" This is an important question, since humans often have difficulty accurately assessing complex models (leading to unreliable and sometimes dangerous results). Prior PROMISE results have shown that data mining can effectively summarizing large models/ data sets into simpler and smaller ones. Therefore, the PROMISE community has the skills and experience needed to redefine, simplify, and improve the relationship between humans and AI.
翻訳日:2023-10-23 09:15:50 公開日:2023-09-07
# 視覚コードの変化を誘発する欠陥の特定

Identifying Defect-Inducing Changes in Visual Code ( http://arxiv.org/abs/2309.03411v1 )

ライセンス: Link先を確認
Kalvin Eng, Abram Hindle, Alexander Senchenko(参考訳) 欠陥やバグは、ソフトウェア開発中に発生することが多い。 欠陥の根本原因を特定することは、コード品質の改善、テストメソッドの評価、欠陥予測のサポートに不可欠です。 SZZアルゴリズムを使用して、欠陥修正変更のテキスト履歴を行ベースのコードで修正した欠陥修正変更に遡ることができる。 SZZ法の行ベースのアプローチは、テキストではなく、ソースコードをグラフィカルに表現する視覚的コードには効果がない。 本稿では,szzをビジュアルコードに適用し,szzビジュアルコード(szz visual code, szz-vc)アルゴリズムを提案する。 業界製のaaaビデオゲームと12のオープンソースプロジェクトにまたがる20の音楽ビジュアルプログラミングの欠陥のアルゴリズムを検証した。 その結果、szz-vcは3つの異なるビジュアルプログラミング言語の視覚コードの欠陥を検出することができることがわかった。

Defects, or bugs, often form during software development. Identifying the root cause of defects is essential to improve code quality, evaluate testing methods, and support defect prediction. Examples of defect-inducing changes can be found using the SZZ algorithm to trace the textual history of defect-fixing changes back to the defect-inducing changes that they fix in line-based code. The line-based approach of the SZZ method is ineffective for visual code that represents source code graphically rather than textually. In this paper we adapt SZZ for visual code and present the "SZZ Visual Code" (SZZ-VC) algorithm, that finds changes in visual code based on the differences of graphical elements rather than differences of lines to detect defect-inducing changes. We validated the algorithm for an industry-made AAA video game and 20 music visual programming defects across 12 open source projects. Our results show that SZZ-VC is feasible for detecting defects in visual code for 3 different visual programming languages.
翻訳日:2023-10-23 08:55:37 公開日:2023-09-07
# モノリシックアプリケーションからマイクロサービスアーキテクチャへのシステマティックマッピング

Systematic Mapping of Monolithic Applications to Microservices Architecture ( http://arxiv.org/abs/2309.03796v1 )

ライセンス: Link先を確認
Momil Seedat, Qaisar Abbas, Nadeem Ahmad(参考訳) この論文の目的は、モノリシックアーキテクチャの代替として、ソリューションマイクロサービスアーキテクチャを提供することである。 マイクロサービスのメリットと,モノリシックシステムから移行する上で企業が直面する課題について論じる。 金融アプリケーションのケーススタディと,ドメイン駆動開発の概念を用いたモノリシックシステム上のマイクロサービス識別手法を提案する。 近年、マイクロサービスアーキテクチャはソフトウェア開発業界で新しいアーキテクチャスタイルとして登場している。 レガシーなモノリシックソフトウェアが管理するには大きすぎるため、多くの大企業は、従来のモノリシックシステムを小規模で自己完結型のマイクロサービスに変換することを検討している。 しかしながら、モノリシックからマイクロサービスアーキテクチャへの移行は難しく、難しい作業です。 2つのアーキテクチャスタイルを比較して、企業がマイクロサービスに切り替えた困難について論じている。 研究結果は,提案手法が作業性能を改善し,明確なモデルを確立することができることを示唆するが,複雑性の低いシステムでは有用ではないと考えられる。 本研究は,モノリシックアーキテクチャからマイクロサービスアーキテクチャへの移行を検討中のソフトウェアアーキテクトと開発者にとって実践的な意味を持つ。

The aim of this paper to provide the solution microservices architecture as a popular alternative to monolithic architecture. It discusses the advantages of microservices and the challenges that organizations face when transitioning from a monolithic system. It presents a case study of a financial application and proposed techniques for identifying microservices on monolithic systems using domain-driven development concepts. In recent years, microservices architecture has emerged as a new architectural style in the software development industry. As legacy monolithic software becomes too large to manage, many large corporations are considering converting their traditional monolithic systems into small-scale, self-contained microservices. However, migrating from monolithic to microservices architecture is a difficult and challenging task. It presents a comparison of the two architectural styles and discusses the difficulties that led companies to switch to microservices. The study's findings suggest that the proposed technique can improve work performance and establish clear models, but it may not be useful for systems with lower levels of complexity. This research paper has practical implications for software architects and developers who are considering migrating from monolithic to microservices architecture.
翻訳日:2023-10-23 08:42:55 公開日:2023-09-07
# The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models

The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models ( http://arxiv.org/abs/2309.03567v1 )

ライセンス: Link先を確認
Xin Zhou, Kisub Kim, Bowen Xu, Jiakun Liu, DongGyun Han, David Lo(参考訳) 学習ベースのテクニック、特にコードのための高度な言語モデル(LLM)は、様々なソフトウェア工学(SE)タスクでかなりの人気を得ている。 しかし、既存の作品の多くはより優れた学習ベースのモデルの設計に焦点を当てており、データセットの特性にはあまり注意を払っていない。 コードのための人気のあるLLMを含む学習ベースのモデルはデータに大きく依存しており、データの特性(例えばデータ分散)はそれらの振る舞いに大きく影響する可能性がある。 本研究は,SEデータの分布に関する探索的研究を行い,これらのデータは通常,少数のクラスにサンプルのコレクションが多数存在し,多数のクラスにサンプルがほとんどないスキュード分布(ロングテール分布)に従っていることを確認した。 3つの異なるSEタスクについて検討し,LLMの性能に及ぼす長期分布の影響を解析した。 実験の結果,長鎖分布がLLMの有効性に大きく影響していることが判明した。 特に、コード用のLLMは、頻繁なラベルのデータサンプルと比較して、頻度の低いラベルに関連するデータサンプルでは30.0\%から254.0\%より悪い。 本研究は,SE自動化の今後の発展に向けた知見とコードに対するLLMに対する長期分布の影響をよりよく理解するものである。

Learning-based techniques, especially advanced Large Language Models (LLMs) for code, have gained considerable popularity in various software engineering (SE) tasks. However, most existing works focus on designing better learning-based models and pay less attention to the properties of datasets. Learning-based models, including popular LLMs for code, heavily rely on data, and the data's properties (e.g., data distribution) could significantly affect their behavior. We conducted an exploratory study on the distribution of SE data and found that such data usually follows a skewed distribution (i.e., long-tailed distribution) where a small number of classes have an extensive collection of samples, while a large number of classes have very few samples. We investigate three distinct SE tasks and analyze the impacts of long-tailed distribution on the performance of LLMs for code. Our experimental results reveal that the long-tailed distribution has a substantial impact on the effectiveness of LLMs for code. Specifically, LLMs for code perform between 30.0\% and 254.0\% worse on data samples associated with infrequent labels compared to data samples of frequent labels. Our study provides a better understanding of the effects of long-tailed distributions on popular LLMs for code and insights for the future development of SE automation.
翻訳日:2023-10-23 08:42:40 公開日:2023-09-07
# クロスサービス貢献に基づくマイクロサービス組織結合の評価

Evaluating Microservice Organizational Coupling based on Cross-service Contribution ( http://arxiv.org/abs/2309.03552v1 )

ライセンス: Link先を確認
Xiaozhou Li, Dario Amoroso dAragona, Davide Taibi(参考訳) 従来のモジュラーソフトウェアシステムでは、"高凝集性、低結合"が推奨されるが、マイクロサービスアーキテクチャではそうである。 しかしながら、サービス間コールと依存関係によって引き起こされる結合現象が一般的である。 さらに、マイクロサービスプロジェクトのチームは、サービス間のコントリビューションの観点からも高い結合性の問題に悩まされる可能性があるため、技術的負債や管理コストが必然的に高くなる可能性があることも注目に値する。 このような組織的な結合は、将来の損失を防ぐために、検出と緩和が必要です。 そこで本稿では,マイクロサービスのオーナシップとクロスサービスコントリビュートを調査し,組織結合を評価するための自動化可能なアプローチを提案する。

For traditional modular software systems, "high cohesion, low coupling" is a recommended setting while it remains so for microservice architectures. However, coupling phenomena commonly exist therein which are caused by cross-service calls and dependencies. In addition, it is noticeable that teams for microservice projects can also suffer from high coupling issues in terms of their cross-service contribution, which can inevitably result in technical debt and high managerial costs. Such organizational coupling needs to be detected and mitigated in time to prevent future losses. Therefore, this paper proposes an automatable approach to evaluate the organizational couple by investigating the microservice ownership and cross-service contribution.
翻訳日:2023-10-23 08:42:07 公開日:2023-09-07
# ReuNify: ReactネイティブAndroidアプリの全プログラム分析に向けたステップ

ReuNify: A Step Towards Whole Program Analysis for React Native Android Apps ( http://arxiv.org/abs/2309.03524v1 )

ライセンス: Link先を確認
Yonghui Liu, Xiao Chen, Pei Liu, John Grundy, Chunyang Chen, and Li Li(参考訳) react nativeはクロスプラットフォームモバイルアプリの開発を容易にする、広く使用されているオープンソースフレームワークである。 このフレームワークは、React Nativeが提供する通信メカニズムを通じて、iOS用のObjective-C/SwiftやAndroid用のJava/Kotlinといった、JavaScriptコードとネイティブコードとのインタラクションを可能にする。 しかし、これまでの研究とツールは、このメカニズムを見落としており、react nativeアプリコードの不完全な解析につながった。 この制限に対処するために、react nativeアプリのjavascriptとネイティブサイドコードを、soo静的解析フレームワークによって処理可能な中間言語に統合するプロトタイプツールであるreunifyを開発した。 これにより、REUNIFYはアプリの振る舞いの包括的なモデルを生成することができる。 我々の評価では、REUNIFYを利用することで、Sootベースのフレームワークは、最も人気のあるReact Native Androidアプリ1,007の静的解析カバレッジを改善し、Jimpleコードの行数を70%増やすことが示されています。 さらに、reunifyの統合後、これらのアプリのコールグラフに到達した新規ノードの平均84%の増加も観察した。 テントフロー解析にREUNIFYを使用すると、平均2つの追加のプライバシーリークが特定される。 全体としては、REUNIFYはReact Native Androidアプリを解析するSootベースのフレームワークの機能を大幅に強化することを示している。

React Native is a widely-used open-source framework that facilitates the development of cross-platform mobile apps. The framework enables JavaScript code to interact with native-side code, such as Objective-C/Swift for iOS and Java/Kotlin for Android, via a communication mechanism provided by React Native. However, previous research and tools have overlooked this mechanism, resulting in incomplete analysis of React Native app code. To address this limitation, we have developed REUNIFY, a prototype tool that integrates the JavaScript and native-side code of React Native apps into an intermediate language that can be processed by the Soot static analysis framework. By doing so, REUNIFY enables the generation of a comprehensive model of the app's behavior. Our evaluation indicates that, by leveraging REUNIFY, the Soot-based framework can improve its coverage of static analysis for the 1,007 most popular React Native Android apps, augmenting the number of lines of Jimple code by 70%. Additionally, we observed an average increase of 84% in new nodes reached in the callgraph for these apps, after integrating REUNIFY. When REUNIFY is used for taint flow analysis, an average of two additional privacy leaks were identified. Overall, our results demonstrate that REUNIFY significantly enhances the Soot-based framework's capability to analyze React Native Android apps.
翻訳日:2023-10-23 08:41:57 公開日:2023-09-07
# インタラクティブで反復的なツールによるMicrosoft AccessのWebテクノロジへの移行

Interactive, Iterative, Tooled, Rule-Based Migration of Microsoft Access to Web Technologies ( http://arxiv.org/abs/2309.03511v1 )

ライセンス: Link先を確認
Santiago Bragagnolo (RMOD), Nicolas Anquetil (RMOD, CRIStAL), St\'ephane Ducasse (CRIStAL), Abdelhak-Djamel Seriai (LIRMM/HE), Mustapha Derras(参考訳) 情報システムを開発するIT企業であるBerger-Levrault氏とのコラボレーションの中で、私たちは、Microsoft AccessモノリシックアプリケーションをWebフロントエンドとマイクロサービスバックエンドに移行する作業に取り組んでいます。 ほとんどのソフトウェア移行と同様、開発者はターゲット技術を学ぶ必要があり、将来的には移行したシステムの進化を担当することになる。 この問題に対応するため、開発者は移行プロジェクトを引き継ぐことを提案します。 開発者がターゲットシステムへのマイグレーションを可能にするために,インタラクティブで反復的,ツーリング,ルールベースのマイグレーションアプローチを提案する。 この記事の寄稿はこちら。 (i)言語、ライブラリ、gui及びアーキテクチャ移行への反復的でインタラクティブなプロセス 二 当該アプローチを支持するために必要な工芸品のセットの提案 (iii)アプローチの3つの異なる検証 (a) ライブラリとパラダイムの使用法 Java と Pharo への移行。 (b)javaとtypescriptへのテーブルとクエリのマイグレーション。 (c) Java SpringbootとTypescript Angularへのフォームマイグレーション。

In the context of a collaboration with Berger-Levrault, an IT company producing information systems, we are working on migrating Microsoft Access monolithic applications to the web front-end and microservices back-end. Like in most software migrations, developers must learn the target technology, and they will be in charge of the evolution of the migrated system in the future. To respond to this problem, we propose the developers take over the migration project. To enable the developers to drive the migration to the target systems, we propose an Interactive, Iterative, Tooled, Rule-Based Migration approach. The contributions of this article are (i) an iterative, interactive process to language, library, GUI and architectural migration; (ii) proposal of a set of artefacts required to support such an approach; (iii) three different validations of the approach: (a) library and paradigm usage migration to Java and Pharo, (b) tables and queries migration to Java and Typescript, (c) form migration to Java Springboot and Typescript Angular.
翻訳日:2023-10-23 08:41:32 公開日:2023-09-07
# マルチランゲージAAAビデオゲームプロジェクトにおける視覚的欠陥の予測

Predicting Defective Visual Code Changes in a Multi-Language AAA Video Game Project ( http://arxiv.org/abs/2309.03414v1 )

ライセンス: Link先を確認
Kalvin Eng, Abram Hindle, Alexander Senchenko(参考訳) ビデオゲームの開発は、ビデオゲームの機能を構築する主要な方法として視覚プログラミング言語を使うことにますます依存している。 ビジュアルプログラミングを使う目的は、ゲームロジックを、テキストコーディングに精通していないかもしれないゲームデザイナーの手に移すことである。 本稿では,aaaゲームプロジェクトコードベースのテキストコードよりも,視覚コードを含む欠陥誘発コミットの方が多いことを実証的に観察する。 これは、電子芸術(EA)による評価に基づく既存のテキストコード Just-in-Time (JIT) 欠陥予測モデルは、視覚的コードの変更を考慮しないため、効果がないことを示している。 そこで本研究では,視覚コードメトリクスを包含する視覚コード欠陥予測モデルの構築と,言語に依存しない機能やテキストコードメトリクスを用いた欠陥予測モデルに対するモデル評価に注目する。 我々は、AAAビデオゲームプロジェクトの歴史的コードベースから抽出された機能と、テキストおよびビジュアルコードを使用する70のオープンソースプロジェクトの歴史的コードベースを用いて、モデルをテストする。 ROC曲線(AUC)とMathews correlation Coefficient(MCC)の下の領域において、欠陥予測モデルは、テキストコードよりも多くのコミットを含むプロジェクトに対して視覚的コード機能を導入する際に、全体的なパフォーマンスが向上することがわかった。

Video game development increasingly relies on using visual programming languages as the primary way to build video game features. The aim of using visual programming is to move game logic into the hands of game designers, who may not be as well versed in textual coding. In this paper, we empirically observe that there are more defect-inducing commits containing visual code than textual code in a AAA video game project codebase. This indicates that the existing textual code Just-in-Time (JIT) defect prediction models under evaluation by Electronic Arts (EA) may be ineffective as they do not account for changes in visual code. Thus, we focus our research on constructing visual code defect prediction models that encompass visual code metrics and evaluate the models against defect prediction models that use language agnostic features, and textual code metrics. We test our models using features extracted from the historical codebase of a AAA video game project, as well as the historical codebases of 70 open source projects that use textual and visual code. We find that defect prediction models have better performance overall in terms of the area under the ROC curve (AUC), and Mathews Correlation Coefficient (MCC) when incorporating visual code features for projects that contain more commits with visual code than textual code.
翻訳日:2023-10-23 08:41:19 公開日:2023-09-07
# DeepCrysTet: 結晶材料の特性予測のためのテトラドラルメッシュを用いた深層学習手法

DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials ( http://arxiv.org/abs/2310.06852v1 )

ライセンス: Link先を確認
Hirofumi Tsuruta, Yukari Katsura, Masaya Kumagai(参考訳) 機械学習(ML)は、材料発見を加速するために材料特性を予測するために人気が高まっている。 材料特性はその結晶構造に強く影響されるため、重要な問題は結晶構造をMLモデルに入力するための特徴に変換することである。 現在最も一般的な方法は、結晶構造をグラフに変換し、グラフニューラルネットワーク(GNN)を用いてその特性を予測することである。 cgcnn(crystal graph convolutional neural network)やalignn(atomistic line graph neural network)などいくつかのgnnモデルは、材料特性の高精度な予測を達成している。 これらの成功にもかかわらず、結晶構造を表すグラフを使用すると、結晶構造の3次元情報を失うという顕著な制限がある。 本研究では,dlaunay tetrahedralizationによって生成された3次元四面体メッシュとして表される結晶構造を用いて,材料特性を予測する新しい深層学習手法であるdeepcrystetを提案する。 DeepCrysTetは、3Dメッシュ生成方法、メッシュベースの機能設計、ニューラルネットワーク設計を含む有用なフレームワークを提供する。 材料プロジェクトデータセットを用いた実験の結果,deepcrystetは,結晶構造の分類において既存のgnnモデルを大きく上回り,弾性特性の予測において最先端の性能を達成した。

Machine learning (ML) is becoming increasingly popular for predicting material properties to accelerate materials discovery. Because material properties are strongly affected by its crystal structure, a key issue is converting the crystal structure into the features for input to the ML model. Currently, the most common method is to convert the crystal structure into a graph and predicting its properties using a graph neural network (GNN). Some GNN models, such as crystal graph convolutional neural network (CGCNN) and atomistic line graph neural network (ALIGNN), have achieved highly accurate predictions of material properties. Despite these successes, using a graph to represent a crystal structure has the notable limitation of losing the crystal structure's three-dimensional (3D) information. In this work, we propose DeepCrysTet, a novel deep learning approach for predicting material properties, which uses crystal structures represented as a 3D tetrahedral mesh generated by Delaunay tetrahedralization. DeepCrysTet provides a useful framework that includes a 3D mesh generation method, mesh-based feature design, and neural network design. The experimental results using the Materials Project dataset show that DeepCrysTet significantly outperforms existing GNN models in classifying crystal structures and achieves state-of-the-art performance in predicting elastic properties.
翻訳日:2023-10-23 03:21:10 公開日:2023-09-07
# VeriDIP:プライバシー漏洩指紋によるディープニューラルネットワークのオーナシップ検証

VeriDIP: Verifying Ownership of Deep Neural Networks through Privacy Leakage Fingerprints ( http://arxiv.org/abs/2310.10656v1 )

ライセンス: Link先を確認
Aoting Hu, Zhigang Lu, Renjie Xie, Minhui Xue(参考訳) 機械学習をサービスとして展開することは、モデルの盗作をもたらし、著作権侵害につながる。 オーナーシップテスト技術は、盗作を検証するためのモデル指紋を特定するために設計されている。 しかし、以前の作品では、しばしば過剰なフィッティングや頑健さを指紋として依存し、理論的保証を欠き、一般化されたモデルに性能不足を示す。 本稿では,DNNモデルの知的特性を検証する VeriDIP という新しいオーナシップテスト手法を提案する。 VeriDIPは2つの大きな貢献をしている。 1) あるモデルの指紋を反映したプライバシー漏洩の少ない範囲を推定するために,会員推測攻撃を利用する。 プライバシー漏洩指紋は、モデルがセンシティブなトレーニングデータセットを記憶するユニークなパターンを強調します。 2) オーナーシップテストの性能を高めるために, より少ないプライベートサンプルを用いた新しいアプローチを導入する。 広範な実験結果から,veridipは画像と表データの両方でトレーニングされたディープラーニングモデルのオーナシップを効果的かつ効率的に検証できることが確認された。 VeriDIPは、画像データセットの最先端手法に匹敵する性能を実現し、計算と通信のコストを大幅に削減する。 強化されたVeriDIPは、一般化されたディープラーニングモデル、特にテーブル学習モデルにおいて、優れた検証性能を示す。 さらに、VeriDIPは、非微分プライベートベースラインと比較して、ユーティリティ保存の差分プライベートモデルに対して同様の効果を示す。

Deploying Machine Learning as a Service gives rise to model plagiarism, leading to copyright infringement. Ownership testing techniques are designed to identify model fingerprints for verifying plagiarism. However, previous works often rely on overfitting or robustness features as fingerprints, lacking theoretical guarantees and exhibiting under-performance on generalized models. In this paper, we propose a novel ownership testing method called VeriDIP, which verifies a DNN model's intellectual property. VeriDIP makes two major contributions. (1) It utilizes membership inference attacks to estimate the lower bound of privacy leakage, which reflects the fingerprint of a given model. The privacy leakage fingerprints highlight the unique patterns through which the models memorize sensitive training datasets. (2) We introduce a novel approach using less private samples to enhance the performance of ownership testing. Extensive experimental results confirm that VeriDIP is effective and efficient in validating the ownership of deep learning models trained on both image and tabular datasets. VeriDIP achieves comparable performance to state-of-the-art methods on image datasets while significantly reducing computation and communication costs. Enhanced VeriDIP demonstrates superior verification performance on generalized deep learning models, particularly on table-trained models. Additionally, VeriDIP exhibits similar effectiveness on utility-preserving differentially private models compared to non-differentially private baselines.
翻訳日:2023-10-23 02:32:28 公開日:2023-09-07
# カオスアトラクタのオペレーターによる不安定周期軌道の検出、学習、安定化

Operator-Based Detecting, Learning, and Stabilizing Unstable Periodic Orbits of Chaotic Attractors ( http://arxiv.org/abs/2310.12156v1 )

ライセンス: Link先を確認
Ali Tavasoli and Heman Shakeri(参考訳) 本稿では,不安定周期軌道 (upos) のレンズによるカオス系の解析における作用素論的手法の利用について検討する。 我々のアプローチは、UPOを検出し、識別し、安定化するための3つのデータ駆動ステップを含む。 UPO検出の革新的な方法として,遅延座標におけるカーネル積分演算子の利用を実証する。 個々のupoに関連する動的挙動を同定するために、koopman演算子を用いて、koopman固有関数の空間における線形方程式としてダイナミクスを提示する。 これにより、様々な UPO にまたがる主要な動的モードを調べることで、カオス的な誘引子を特徴づけることができる。 我々は,この手法を,UPO上の奇妙なアトラクタの安定化を目的とした,解釈可能な機械学習フレームワークに拡張する。 本手法の有効性を説明するため,本手法をロレンツ・アトラクターに適用した。

This paper examines the use of operator-theoretic approaches to the analysis of chaotic systems through the lens of their unstable periodic orbits (UPOs). Our approach involves three data-driven steps for detecting, identifying, and stabilizing UPOs. We demonstrate the use of kernel integral operators within delay coordinates as an innovative method for UPO detection. For identifying the dynamic behavior associated with each individual UPO, we utilize the Koopman operator to present the dynamics as linear equations in the space of Koopman eigenfunctions. This allows for characterizing the chaotic attractor by investigating its principal dynamical modes across varying UPOs. We extend this methodology into an interpretable machine learning framework aimed at stabilizing strange attractors on their UPOs. To illustrate the efficacy of our approach, we apply it to the Lorenz attractor as a case study.
翻訳日:2023-10-23 02:10:38 公開日:2023-09-07
# 非地上ネットワーク6Gビジョンにおける分散学習によるインテリジェント車両ネットワークの実現

Enabling Intelligent Vehicular Networks Through Distributed Learning in the Non-Terrestrial Networks 6G Vision ( http://arxiv.org/abs/2310.05899v1 )

ライセンス: Link先を確認
David Naseh, Swapnil Sadashiv Shinde, and Daniele Tarchi(参考訳) 6G対応のインテリジェントトランスポーテーションシステム(ITS)は、先進的なインテリジェントサービスとアプリケーションで従来の交通ネットワークを再定義する。 エッジコンピューティング、機械学習(ML)、ネットワークのソフトウォーゼーションを含むこれらの技術は、レイテンシ、エネルギー効率、ユーザデータセキュリティに対する厳しい要件を課している。 ネットワークエッジで学習プロセスを分散することにより,これらのニーズを満たすためには,フェデレーション学習(fl)などの分散学習(dl)が不可欠である。 しかしながら、従来のflアプローチでは、十分な学習性能を得るために十分なリソースを必要とすることが多い。 対照的に、Transfer Learning (TL) と Split Learning (SL) は、ITSのようなリソース制約のある無線シナリオにおける学習効率を向上させる効果を示した。 NTN(Non-terrestrial Networks)は最近、6Gビジョンの中心的地位を獲得し、特に従来の地上施設のカバー、容量、レジリエンスを高めた。 High Altitude Platforms (HAPs)のような空気ベースのNTNレイヤは、送信距離の削減と柔軟なデプロイメントという面でのアドバンテージを追加できるため、レイテンシクリティカルな車両シナリオに対するインテリジェントなソリューションを実現するために利用することができる。 このモチベーションにより,本研究では,資源制約型車両シナリオのための統合空中ネットワークにおけるfederated split transfer learning (fstl)の概念を導入する。 車両シナリオで実施されたシミュレーションでは、NTNのHAP上でFSTLの有効性が検証され、ITSアプリケーションの要求に対処する上で大きな改善が見られた。

The forthcoming 6G-enabled Intelligent Transportation System (ITS) is set to redefine conventional transportation networks with advanced intelligent services and applications. These technologies, including edge computing, Machine Learning (ML), and network softwarization, pose stringent requirements for latency, energy efficiency, and user data security. Distributed Learning (DL), such as Federated Learning (FL), is essential to meet these demands by distributing the learning process at the network edge. However, traditional FL approaches often require substantial resources for satisfactory learning performance. In contrast, Transfer Learning (TL) and Split Learning (SL) have shown effectiveness in enhancing learning efficiency in resource-constrained wireless scenarios like ITS. Non-terrestrial Networks (NTNs) have recently acquired a central place in the 6G vision, especially for boosting the coverage, capacity, and resilience of traditional terrestrial facilities. Air-based NTN layers, such as High Altitude Platforms (HAPs), can have added advantages in terms of reduced transmission distances and flexible deployments and thus can be exploited to enable intelligent solutions for latency-critical vehicular scenarios. With this motivation, in this work, we introduce the concept of Federated Split Transfer Learning (FSTL) in joint air-ground networks for resource-constrained vehicular scenarios. Simulations carried out in vehicular scenarios validate the efficacy of FSTL on HAPs in NTN, demonstrating significant improvements in addressing the demands of ITS applications.
翻訳日:2023-10-15 14:25:04 公開日:2023-09-07
# BodyFormer:Semantics-Guided 3D Body Gesture Synthesis with Transformer

BodyFormer: Semantics-guided 3D Body Gesture Synthesis with Transformer ( http://arxiv.org/abs/2310.06851v1 )

ライセンス: Link先を確認
Kunkun Pang, Dafei Qin, Yingruo Fan, Julian Habekost, Takaaki Shiratori, Junichi Yamagishi, Taku Komura(参考訳) 音声からの自動ジェスチャー合成は、遠隔コミュニケーション、ビデオゲーム、メタバースの応用に研究者を惹きつけるトピックである。 言語と3次元の身振りのマッピングを学習することは、問題の確率的な性質と訓練に必要なリッチなクロスモーダルデータセットが欠如しているため困難である。 本稿では,音声からの3次元身体ジェスチャー自動合成のためのトランスフォーマーベースのフレームワークを提案する。 音声中の身体的ジェスチャーの確率的性質を学習するために,ジェスチャ上の確率的分布を効果的にモデル化する変動トランスフォーマを提案する。 さらに,異なる発話モードにおける異なる動き速度をキャプチャするモード位置埋め込み層を提案する。 データの不足に対処するために,限られたデータ量から音声と3次元ジェスチャーの複雑なマッピングを学習できるモード内事前学習スキームを設計する。 本システムは,trinity speech-gesture dataset または talking with hands 16.2m dataset を用いて学習する。 その結果,本システムは既存の最先端手法と比較して,より現実的で適切で多様な身体ジェスチャーを実現できることが示された。

Automatic gesture synthesis from speech is a topic that has attracted researchers for applications in remote communication, video games and Metaverse. Learning the mapping between speech and 3D full-body gestures is difficult due to the stochastic nature of the problem and the lack of a rich cross-modal dataset that is needed for training. In this paper, we propose a novel transformer-based framework for automatic 3D body gesture synthesis from speech. To learn the stochastic nature of the body gesture during speech, we propose a variational transformer to effectively model a probabilistic distribution over gestures, which can produce diverse gestures during inference. Furthermore, we introduce a mode positional embedding layer to capture the different motion speeds in different speaking modes. To cope with the scarcity of data, we design an intra-modal pre-training scheme that can learn the complex mapping between the speech and the 3D gesture from a limited amount of data. Our system is trained with either the Trinity speech-gesture dataset or the Talking With Hands 16.2M dataset. The results show that our system can produce more realistic, appropriate, and diverse body gestures compared to existing state-of-the-art approaches.
翻訳日:2023-10-15 14:15:56 公開日:2023-09-07
# 動的物体に対する共同自己監督深度と光学的流れの推定

Joint Self-supervised Depth and Optical Flow Estimation towards Dynamic Objects ( http://arxiv.org/abs/2310.00011v1 )

ライセンス: Link先を確認
Zhengyang Lu and Ying Chen(参考訳) 深層学習に基づく深度推定に注目が集まっている。 動的物体は、隣接するフレームの不確実性のため、フレーム間監督深度推定において最も難しい問題となる。 したがって、光フロー情報と深度推定を統合することは、光フローが必須運動表現であるため、実現可能な解である。 本研究では,両光量再投影および光ベクトルにおける画素ラップ誤差を最小限に抑え,様々な動きの深度を予測する,フレーム間監督深度・光フロー推定フレームワークを構築する。 動きのセグメンテーションには,事前推定された光フローマップを大面積の接続領域に適応的に分割する。 自己監督深度推定では、異なる動き領域が独立に予測され、その後完全に深度に合成される。 さらに、ポーズと深さの推定は光学フローマップを再合成し、予備予測で再構成誤差を計算するのに役立つ。 提案手法は,KITTI深度データセットにおける既存深度推定値よりも,都市景観事前学習の有無で優れる。 さらに,KITTI Flow 2015データセット上での競合性能についても検討した。

Significant attention has been attracted to deep learning-based depth estimates. Dynamic objects become the most hard problems in inter-frame-supervised depth estimates due to the uncertainty in adjacent frames. Thus, integrating optical flow information with depth estimation is a feasible solution, as the optical flow is an essential motion representation. In this work, we construct a joint inter-frame-supervised depth and optical flow estimation framework, which predicts depths in various motions by minimizing pixel wrap errors in bilateral photometric re-projections and optical vectors. For motion segmentation, we adaptively segment the preliminary estimated optical flow map with large areas of connectivity. In self-supervised depth estimation, different motion regions are predicted independently and then composite into a complete depth. Further, the pose and depth estimations re-synthesize the optical flow maps, serving to compute reconstruction errors with the preliminary predictions. Our proposed joint depth and optical flow estimation outperforms existing depth estimators on the KITTI Depth dataset, both with and without Cityscapes pretraining. Additionally, our optical flow results demonstrate competitive performance on the KITTI Flow 2015 dataset.
翻訳日:2023-10-08 11:15:00 公開日:2023-09-07
# コード翻訳モデルの機能的特性の自動テスト

Automatically Testing Functional Properties of Code Translation Models ( http://arxiv.org/abs/2309.12813v1 )

ライセンス: Link先を確認
Hasan Ferit Eniser, Valentin W\"ustholz, Maria Christakis(参考訳) 大規模な言語モデルは、$transpiling$として知られるプログラム言語間のコード翻訳において、ますます実用的になりつつある。 自動トランスパイルは開発者の生産性を大幅に向上させるが、重要な懸念は生成されたコードが正しいかどうかである。 既存の作業は、最初は手作業によるテストスイートを使用して小さなプログラムの翻訳をテストしたが、これらのテストスイートは後に自動化された。 対照的に、コード翻訳モデルの自動化、機能、プロパティベースのテストのための最初のアプローチを考案する。 トランスパイルされたコードに関する一般的なユーザ提供の仕様は、純粋に構文から純粋に意味的なものまで、さまざまなプロパティをキャプチャします。 実験により示すように、この手法は、一般的なコード翻訳モデルにおけるプロパティ違反の検出に非常に有効であり、従って、与えられた特性に対するモデル品質の評価にも有効である。 さらに私たちは、ユーザがモデル全体の品質を気にせずに、特定のプロパティに関して、あるコードの正しい翻訳を得ることを単に目的とする、使用シナリオについても検討しています。 この目的のために, コード翻訳モデルに対して, モデルにわずかに異なるパラメータを繰り返し問い合わせて, 代替的かつより正確な翻訳を生成する, 特性誘導型探索法を開発した。 以上の結果から,この検索手法はコード翻訳の精度が著しく向上することが示唆された。

Large language models are becoming increasingly practical for translating code across programming languages, a process known as $transpiling$. Even though automated transpilation significantly boosts developer productivity, a key concern is whether the generated code is correct. Existing work initially used manually crafted test suites to test the translations of a small corpus of programs; these test suites were later automated. In contrast, we devise the first approach for automated, functional, property-based testing of code translation models. Our general, user-provided specifications about the transpiled code capture a range of properties, from purely syntactic to purely semantic ones. As shown by our experiments, this approach is very effective in detecting property violations in popular code translation models, and therefore, in evaluating model quality with respect to given properties. We also go a step further and explore the usage scenario where a user simply aims to obtain a correct translation of some code with respect to certain properties without necessarily being concerned about the overall quality of the model. To this purpose, we develop the first property-guided search procedure for code translation models, where a model is repeatedly queried with slightly different parameters to produce alternative and potentially more correct translations. Our results show that this search procedure helps to obtain significantly better code translations.
翻訳日:2023-10-01 12:33:21 公開日:2023-09-07
# カリキュラム理論を用いた学校における生成aiへのアプローチ

Using Curriculum Theory to Inform Approaches to Generative AI in Schools ( http://arxiv.org/abs/2309.13053v1 )

ライセンス: Link先を確認
Myke Healy(参考訳) このエッセイは、大規模言語モデルの急速な普及によって劇的に変化する教育の状況において、このエッセイは、中等教育に必要となる急激な教育的修正を疑問視する。 madeline grumet氏のカリキュラム調査のトライアディックな枠組みに根ざしたこの研究は、生成aiとelliot eisner氏の明示的、暗黙的、そしてヌルなカリキュラム概念の間の多面的な関係を記述している。 それは、AI検出器の信頼性のような論理的および倫理的課題を精査し、教育者がこの生まれたばかりの技術を長年のカリキュラム構造に同化しようとするときに直面する。 このエッセイはテッド・青木(ted aoki)の「中間の領域」の理論に関わり、教育者のディレンマを教室生活の流動的現実と調和させ、すべて、生成的aiによる教育的ミリューの中で常にフラックスを保っている。 この論文は、Grumetのカリキュラム理論の構成的ストランドのそれぞれにおいて、さらなる学術的な研究の道筋を同定し、ジェネレーティブAIの教育実践への変革的影響に関する今後の研究のロードマップを提供する。

In an educational landscape dramatically altered by the swift proliferation of Large Language Models, this essay interrogates the urgent this essay interrogates the urgent pedagogical modifications required in secondary schooling. Anchored in Madeline Grumet's triadic framework of curriculum inquiry, the study delineates the multifaceted relationship between Generative AI and Elliot Eisner's explicit, implicit, and null curriculum concepts. It scrutinizes the logistical and ethical challenges, such as the reliability of AI detectors, that educators confront when attempting to assimilate this nascent technology into long-standing curricular structures. Engaging with Ted Aoki's theory of the "zone of between", the essay illuminates educators' dilemmas in reconciling prescriptive curricular aims with the fluid realities of classroom life, all within an educational milieu in constant flux due to Generative AI. The paper culminates in a reflective analysis by the researcher, identifying avenues for further scholarly investigation within each of Grumet's constitutive strands of curriculum theory, thereby providing a roadmap for future research on Generative AI's transformative impact on educational practice.
翻訳日:2023-10-01 12:23:41 公開日:2023-09-07
# ベイジアン動的dag学習--脳の動的効果的なコネクトームの発見への応用

Bayesian Dynamic DAG Learning: Application in Discovering Dynamic Effective Connectome of Brain ( http://arxiv.org/abs/2309.07080v1 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mohammad Pasande, Kevin Bello, Alireza Akhondi-Asl, Babak Nadjar Araabi(参考訳) DEC(Dynamic Effective Connectome)を抽出することで、脳の複雑なメカニズムを理解することができる。 近年,楽譜に基づくDAG (Directed Acyclic Graph) 探索法は,因果構造を抽出し,有効接続性を推定する上で,大幅な改善がなされている。 しかし,これらの手法によるDECの学習には,高次元動的DAG発見法の基本原理と,fMRIデータの品質の低さの2つの課題がある。 本稿では,m-行列を用いたベイズ動的dag学習について,decの発見における課題を解決するために,acyclicity characterization \textbf{(bdyma)} 法を提案する。 提案した動的因果モデルにより、双方向のエッジも発見できる。 BDyMA法で制約のないフレームワークを活用すると、高次元ネットワークの検出がより正確になり、スペーサーの結果が得られ、特にDECの抽出に適している。 さらに、BDyMA法のスコア関数により、動的因果発見のプロセスに事前知識を組み込むことで、結果の精度をさらに高めることができる。 合成データとヒトコネクトームプロジェクト(hcp)データに関する実験に関する総合的なシミュレーションにより,本手法が2つの課題を両立できることが証明された。 さらに,DTIデータのDEC発見の先行知識としての信頼性について検討し,DTIデータをプロセスに組み込んだ場合のDEC発見の改善を示す。

Understanding the complex mechanisms of the brain can be unraveled by extracting the Dynamic Effective Connectome (DEC). Recently, score-based Directed Acyclic Graph (DAG) discovery methods have shown significant improvements in extracting the causal structure and inferring effective connectivity. However, learning DEC through these methods still faces two main challenges: one with the fundamental impotence of high-dimensional dynamic DAG discovery methods and the other with the low quality of fMRI data. In this paper, we introduce Bayesian Dynamic DAG learning with M-matrices Acyclicity characterization \textbf{(BDyMA)} method to address the challenges in discovering DEC. The presented dynamic causal model enables us to discover bidirected edges as well. Leveraging an unconstrained framework in the BDyMA method leads to more accurate results in detecting high-dimensional networks, achieving sparser outcomes, making it particularly suitable for extracting DEC. Additionally, the score function of the BDyMA method allows the incorporation of prior knowledge into the process of dynamic causal discovery which further enhances the accuracy of results. Comprehensive simulations on synthetic data and experiments on Human Connectome Project (HCP) data demonstrate that our method can handle both of the two main challenges, yielding more accurate and reliable DEC compared to state-of-the-art and baseline methods. Additionally, we investigate the trustworthiness of DTI data as prior knowledge for DEC discovery and show the improvements in DEC discovery when the DTI data is incorporated into the process.
翻訳日:2023-09-17 13:48:06 公開日:2023-09-07
# 大規模言語モデルは科学的仮説の証拠を識別できるか? 社会科学のケーススタディ

Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences ( http://arxiv.org/abs/2309.06578v1 )

ライセンス: Link先を確認
Sai Koneru, Jian Wu, Sarah Rajtmajer(参考訳) 仮説の定式化とテストは経験的研究の中心である。 強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。 しかしながら、毎年発行される科学論文の数が指数関数的に増加するにつれて、与えられた仮説に関連する証拠の手動集約と合成は困難である。 本研究は, 学術論文のテキストに基づいて, 現在の大規模言語モデル (LLM) が, 特定の仮説を支持したり否定したりする証拠を識別する能力を探るものである。 我々は,社会科学における研究のコミュニティ主導アノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。 llmsの性能を最先端のベンチマークと比較し、この分野における今後の研究の機会を強調する。 データセットはhttps://github.com/Sai90000/ScientificHypothesisEvidencing.gitで公開されている。

Hypothesis formulation and testing are central to empirical research. A strong hypothesis is a best guess based on existing evidence and informed by a comprehensive view of relevant literature. However, with exponential increase in the number of scientific articles published annually, manual aggregation and synthesis of evidence related to a given hypothesis is a challenge. Our work explores the ability of current large language models (LLMs) to discern evidence in support or refute of specific hypotheses based on the text of scientific abstracts. We share a novel dataset for the task of scientific hypothesis evidencing using community-driven annotations of studies in the social sciences. We compare the performance of LLMs to several state-of-the-art benchmarks and highlight opportunities for future research in this area. The dataset is available at https://github.com/Sai90000/ScientificHypothesisEvidencing.git
翻訳日:2023-09-17 13:47:14 公開日:2023-09-07
# dgsd:脳波に基づく聴覚空間注意検出のための動的グラフ自己蒸留

DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial Attention Detection ( http://arxiv.org/abs/2309.07147v1 )

ライセンス: Link先を確認
Cunhang Fan, Hongyu Zhang, Wei Huang, Jun Xue, Jianhua Tao, Jiangyan Yi, Zhao Lv and Xiaopei Wu(参考訳) AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。 eegベースのaad法は近年有望な結果を示しているが、現在のアプローチは主に画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。 これにより、非ユークリッド特性を持つ脳波信号の処理が困難になる。 本稿では, 音声刺激を入力として必要とせず, aadに対する動的グラフ自己蒸留(dgsd)手法を提案する。 特に、脳波信号の非ユークリッド的特性を効果的に表現するために、動的グラフ畳み込みネットワークを用いて脳波信号のグラフ構造を表現し、脳波信号の聴覚空間的注意に関連する重要な特徴を抽出する。 さらにAAD検出性能をさらに向上するため, 各層における特徴蒸留と階層蒸留戦略からなる自己蒸留を統合した。 これらの戦略は、浅層学習を導くために最も深いネットワーク層からの特徴と分類結果を活用する。 実験は、KULとDTUの2つの公開データセットを用いて行われた。 1秒の時間窓の下では、KUL と DTU でそれぞれ 90.0\% と 79.6\% の精度が得られる。 我々はDGSD法を競争基準値と比較し,提案手法の検出性能が最良再現性ベースラインよりも優れているだけでなく,トレーニング可能なパラメータの数を約100倍削減できることを実験的に示した。

Auditory Attention Detection (AAD) aims to detect target speaker from brain signals in a multi-speaker environment. Although EEG-based AAD methods have shown promising results in recent years, current approaches primarily rely on traditional convolutional neural network designed for processing Euclidean data like images. This makes it challenging to handle EEG signals, which possess non-Euclidean characteristics. In order to address this problem, this paper proposes a dynamical graph self-distillation (DGSD) approach for AAD, which does not require speech stimuli as input. Specifically, to effectively represent the non-Euclidean properties of EEG signals, dynamical graph convolutional networks are applied to represent the graph structure of EEG signals, which can also extract crucial features related to auditory spatial attention in EEG signals. In addition, to further improve AAD detection performance, self-distillation, consisting of feature distillation and hierarchical distillation strategies at each layer, is integrated. These strategies leverage features and classification results from the deepest network layers to guide the learning of shallow layers. Our experiments are conducted on two publicly available datasets, KUL and DTU. Under a 1-second time window, we achieve results of 90.0\% and 79.6\% accuracy on KUL and DTU, respectively. We compare our DGSD method with competitive baselines, and the experimental results indicate that the detection performance of our proposed DGSD method is not only superior to the best reproducible baseline but also significantly reduces the number of trainable parameters by approximately 100 times.
翻訳日:2023-09-17 13:39:49 公開日:2023-09-07
# 電子の量子相対論的ダイナミクスの流体力学的表現

The Hydrodynamic Representation of the Quantum Relativistic Dynamics of the Electron ( http://arxiv.org/abs/2309.04495v1 )

ライセンス: Link先を確認
Loris D'Alessi(参考訳) 本研究では、相対論的電子の作用はディラック方程式の流体力学的定式化から導かれる。 特に流体力学のシナリオでは、電子の4つの速度はユーレアン場と見なされ、電子スピンは対応する渦場と相互作用する。 本研究の第2部では,第2次ディラック方程式が最小漁業情報の原理から導出できることを示す。

In this work, the action of the relativistic electron is derived from the hydrodynamic formulation of the Dirac equation. In particular, in the hydrodynamic scenario, the four-velocity of the electron is regarded as an Eulerian field and the electron spin interacts with the corresponding vorticity field. In the second part of the work, it is shown how the second order Dirac equation can be derived from a principle of Minimum Fisher Information.
翻訳日:2023-09-12 18:08:40 公開日:2023-09-07
# より持続可能な企業実践のためのソーシャル・ネットワーク分析と機械学習を用いたシステマティックESG (Environmental Social Governance) Scoring Systemの作成

Creating a Systematic ESG (Environmental Social Governance) Scoring System Using Social Network Analysis and Machine Learning for More Sustainable Company Practices ( http://arxiv.org/abs/2309.05607v1 )

ライセンス: Link先を確認
Aarav Patel, Peter Gloor(参考訳) 環境社会ガバナンス(英語: Environmental Social Governance、ESG)は、企業プラクティスの持続可能性を測定する指標である。 ESGは現在、自己報告された企業文書を使って決定されており、企業は人工的に肯定的な光で自らを表現できる。 その結果、ESG評価はラッカー間で主観的かつ矛盾しており、幹部に改善すべきことに関するさまざまなシグナルを与えている。 本研究の目的は,社会的な感情を取り入れることで,より優れたガイダンスとより体系化されたスコアを提供するデータ駆動型ESG評価システムの構築である。 社会的感情は、よりバランスのとれた視点を可能にし、世論を直接強調し、企業がより集中的で影響力のあるイニシアティブを作るのを助ける。 これを構築するために、Python Webスクレイパーが開発され、S&P 500企業のWikipedia、Twitter、LinkedIn、Google Newsからデータを収集した。 その後、データはクリーニングされ、ESGサブカテゴリの感情スコアを得るためにNLPアルゴリズムを通過した。 これらの特徴を用いて、機械学習アルゴリズムはトレーニングされ、予測能力をテストするためにS&P Global ESG Ratingsに校正された。 ランダムフォレストモデルは平均絶対誤差が13.4%、相関が26.1%(p値0.0372)で最強のモデルであった。 全体として、サブカテゴリ間でESGの社会的感情を測定することは、幹部が人々が最も関心を持つ分野に集中するのに役立ちます。 さらに、このデータ駆動の方法論は、カバー範囲のない企業に対して評価を提供し、より社会的に責任のある企業が成長することを可能にする。

Environmental Social Governance (ESG) is a widely used metric that measures the sustainability of a company practices. Currently, ESG is determined using self-reported corporate filings, which allows companies to portray themselves in an artificially positive light. As a result, ESG evaluation is subjective and inconsistent across raters, giving executives mixed signals on what to improve. This project aims to create a data-driven ESG evaluation system that can provide better guidance and more systemized scores by incorporating social sentiment. Social sentiment allows for more balanced perspectives which directly highlight public opinion, helping companies create more focused and impactful initiatives. To build this, Python web scrapers were developed to collect data from Wikipedia, Twitter, LinkedIn, and Google News for the S&P 500 companies. Data was then cleaned and passed through NLP algorithms to obtain sentiment scores for ESG subcategories. Using these features, machine-learning algorithms were trained and calibrated to S&P Global ESG Ratings to test their predictive capabilities. The Random-Forest model was the strongest model with a mean absolute error of 13.4% and a correlation of 26.1% (p-value 0.0372), showing encouraging results. Overall, measuring ESG social sentiment across sub-categories can help executives focus efforts on areas people care about most. Furthermore, this data-driven methodology can provide ratings for companies without coverage, allowing more socially responsible firms to thrive.
翻訳日:2023-09-12 11:37:37 公開日:2023-09-07
# 半定値最適化のための量子内部点法

Quantum Interior Point Methods for Semidefinite Optimization ( http://arxiv.org/abs/2112.06025v3 )

ライセンス: Link先を確認
Brandon Augustino, Giacomo Nannicini, Tam\'as Terlaky and Luis F. Zuluaga(参考訳) 量子線形系アルゴリズムの最近の進歩に基づいて,半定値最適化問題に対する2つの量子内点法を提案する。 第1のスキームは、より古典的な解法アルゴリズムと似ており、不適合な探索方向を計算し、実現可能な点のみを探索することは保証されていない。 2つ目は古典世界では実用的でないと思われる新しいスキームであるが、ハイブリッド量子古典的設定に適している。 両スキームが標準仮定の下で半定値最適化問題の最適解に収束することを示す。 様々な入力パラメータに対する古典的内部点法と量子的内部点法の理論的性能を比較することにより,第2のスキームは,問題 $n$ の次元で古典的アルゴリズムを高速化するが,他の数値的パラメータに依存しないことを示す。

We present two quantum interior point methods for semidefinite optimization problems, building on recent advances in quantum linear system algorithms. The first scheme, more similar to a classical solution algorithm, computes an inexact search direction and is not guaranteed to explore only feasible points; the second scheme uses a nullspace representation of the Newton linear system to ensure feasibility even with inexact search directions. The second is a novel scheme that might seem impractical in the classical world, but it is well-suited for a hybrid quantum-classical setting. We show that both schemes converge to an optimal solution of the semidefinite optimization problem under standard assumptions. By comparing the theoretical performance of classical and quantum interior point methods with respect to various input parameters, we show that our second scheme obtains a speedup over classical algorithms in terms of the dimension of the problem $n$, but has worse dependence on other numerical parameters.
翻訳日:2023-09-11 19:02:37 公開日:2023-09-07
# テクスチャ・サリエンシー適応型注意を画像の漫画化に組み込む学習

Learning to Incorporate Texture Saliency Adaptive Attention to Image Cartoonization ( http://arxiv.org/abs/2208.01587v3 )

ライセンス: Link先を確認
Xiang Gao, Yuqi Zhang, and Yingjie Tian(参考訳) 画像の漫画化は、近ごろ、教師なしのイメージ・ツー・イメージ翻訳の観点から、特徴ある漫画スタイル(クリアエッジ、スムーズなカラーシェーディング、抽象的な微細構造など)を正確に捉え、十分に伝達することが固有の課題である、生成的敵ネットワーク(GAN)に支配されている。 既存の高度なモデルは、エッジを逆方向に推進する学習、スタイル伝達損失の導入、あるいは複数の表現空間からスタイルを整合させる学習により、漫画化効果を高めようとする。 本稿では,より鮮明かつ鮮明なマンガ化効果が,基本的対向損失のみで容易に達成できることを実証する。 漫画のスタイルが漫画のテクスチャ・サレントなローカル画像領域でより明確であることを示すため,通常の画像レベルと平行して,漫画のテクスチャの特徴をよりよく認識し伝達するために,漫画のテクスチャ・サレントなローカルパッチに対する逆学習を制限する領域レベルの逆学習ブランチを構築した。 そこで, マンガ・テクスチュア・サリエンシ・サンプラー (CTSS) モジュールを提案し, トレーニングデータからマンガ・テクスチュア・サリエントパッチを動的にサンプリングする。 広範な実験により,画像マンガ化における関連する手法の欠如成分として,敵対的学習におけるテクスチャ・サリエンシー適応的注意が,特に高分解能入力画像において,画像マンガのスタイライゼーションの促進と向上に重要であることを実証した。

Image cartoonization is recently dominated by generative adversarial networks (GANs) from the perspective of unsupervised image-to-image translation, in which an inherent challenge is to precisely capture and sufficiently transfer characteristic cartoon styles (e.g., clear edges, smooth color shading, abstract fine structures, etc.). Existing advanced models try to enhance cartoonization effect by learning to promote edges adversarially, introducing style transfer loss, or learning to align style from multiple representation space. This paper demonstrates that more distinct and vivid cartoonization effect could be easily achieved with only basic adversarial loss. Observing that cartoon style is more evident in cartoon-texture-salient local image regions, we build a region-level adversarial learning branch in parallel with the normal image-level one, which constrains adversarial learning on cartoon-texture-salient local patches for better perceiving and transferring cartoon texture features. To this end, a novel cartoon-texture-saliency-sampler (CTSS) module is proposed to dynamically sample cartoon-texture-salient patches from training data. With extensive experiments, we demonstrate that texture saliency adaptive attention in adversarial learning, as a missing ingredient of related methods in image cartoonization, is of significant importance in facilitating and enhancing image cartoon stylization, especially for high-resolution input pictures.
翻訳日:2023-09-11 19:00:20 公開日:2023-09-07
# 音声感情認識におけるトランスフォーマー時代の夜明け--ヴァレンスギャップを閉じる

Dawn of the transformer era in speech emotion recognition: closing the valence gap ( http://arxiv.org/abs/2203.07378v4 )

ライセンス: Link先を確認
Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Felix Burkhardt, Florian Eyben, Bj\"orn W. Schuller(参考訳) 自己教師付き方式で事前訓練されたトランスフォーマーアーキテクチャの最近の進歩は、いくつかの機械学習タスクにおいて大きな可能性を秘めている。 音声領域では、そのようなアーキテクチャは音声感情認識(SER)の分野でもうまく活用されている。 しかし、既存の研究はモデルサイズや事前学習データの影響を下流のパフォーマンスに評価しておらず、一般化、堅牢性、公平性、効率性に限定的な注意を払っている。 本研究は,MSPポッドキャストの興奮,支配,有病率を微調整したwav2vec 2.0およびHuBERTの事前学習版について,また,IEMOCAPおよびMOSIを用いてクロスコーパス一般化の検証を行った。 我々は,msp-podcast における .638 の一致相関係数 (ccc) を用いて,明示的な言語情報を用いずに価数予測の最高性能を得る。 さらに, トランスフォーマーをベースとしたアーキテクチャは, CNNベースのベースラインに比べて小さな摂動に対してより堅牢であり, 生物学的性グループに対しては公正である。 最後に, 変圧器層を微調整する際に学習した暗黙的な言語情報に基づいて, テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等に機能することを示す。 トランスフォーマーベースのアーキテクチャは、serの新たな最先端を構成するが、強固さと個々の話者問題を軽減するために、さらなる進歩が必要である。 研究成果を再現するために,コミュニティに最高のパフォーマンスモデルをリリースする。

Recent advances in transformer-based architectures which are pre-trained in self-supervised manner have shown great promise in several machine learning tasks. In the audio domain, such architectures have also been successfully utilised in the field of speech emotion recognition (SER). However, existing works have not evaluated the influence of model size and pre-training data on downstream performance, and have shown limited attention to generalisation, robustness, fairness, and efficiency. The present contribution conducts a thorough analysis of these aspects on several pre-trained variants of wav2vec 2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test cross-corpus generalisation. To the best of our knowledge, we obtain the top performance for valence prediction without use of explicit linguistic information, with a concordance correlation coefficient (CCC) of .638 on MSP-Podcast. Furthermore, our investigations reveal that transformer-based architectures are more robust to small perturbations compared to a CNN-based baseline and fair with respect to biological sex groups, but not towards individual speakers. Finally, we are the first to show that their extraordinary success on valence is based on implicit linguistic information learnt during fine-tuning of the transformer layers, which explains why they perform on-par with recent multimodal approaches that explicitly utilise textual information. Our findings collectively paint the following picture: transformer-based architectures constitute the new state-of-the-art in SER, but further advances are needed to mitigate remaining robustness and individual speaker issues. To make our findings reproducible, we release the best performing model to the community.
翻訳日:2023-09-11 18:56:49 公開日:2023-09-07
# 共振器ネットワークを用いたニューロモルフィック視覚シーン理解

Neuromorphic Visual Scene Understanding with Resonator Networks ( http://arxiv.org/abs/2208.12880v3 )

ライセンス: Link先を確認
Alpha Renner, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, Bruno A. Olshausen, Yulia Sandamirskaya, Friedrich T. Sommer and E. Paxon Frady(参考訳) 個々のオブジェクトのアイデンティティやポーズを推測することで視覚的なシーンを理解することは、いまだに未解決の問題である。 Here we propose a neuromorphic solution that utilizes an efficient factorization network based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued resonator networks on neuromorphic hardware. VSAフレームワークはベクトルバインディング操作を使用して、幾何学変換の同変演算としてバインドが作用する生成画像モデルを生成する。 したがって、シーンはベクトル積の和として記述でき、それによって共振器ネットワークによって効率的に分解されて物体とそのポーズを推測することができる。 HRNは、ベクトル結合が1つのパーティション内の水平および垂直の変換と、他のパーティション内の回転とスケーリングに等しくなる分割アーキテクチャの定義を可能にする。 スパイキングニューロンモデルは、共振器ネットワークを効率的で低電力のニューロモルフィックハードウェアにマッピングすることができる。 本手法は, 立体形状変換と色変化を行う単純な2次元形状からなる合成シーンで実証される。 機械ビジョンとロボット工学の現実的な応用シナリオにおいて、同様のアプローチを示す。

Understanding a visual scene by inferring identities and poses of its individual objects is still and open problem. Here we propose a neuromorphic solution that utilizes an efficient factorization network based on three key concepts: (1) a computational framework based on Vector Symbolic Architectures (VSA) with complex-valued vectors; (2) the design of Hierarchical Resonator Networks (HRN) to deal with the non-commutative nature of translation and rotation in visual scenes, when both are used in combination; (3) the design of a multi-compartment spiking phasor neuron model for implementing complex-valued resonator networks on neuromorphic hardware. The VSA framework uses vector binding operations to produce generative image models in which binding acts as the equivariant operation for geometric transformations. A scene can therefore be described as a sum of vector products, which in turn can be efficiently factorized by a resonator network to infer objects and their poses. The HRN enables the definition of a partitioned architecture in which vector binding is equivariant for horizontal and vertical translation within one partition and for rotation and scaling within the other partition. The spiking neuron model allows mapping the resonator network onto efficient and low-power neuromorphic hardware. Our approach is demonstrated on synthetic scenes composed of simple 2D shapes undergoing rigid geometric transformations and color changes. A companion paper demonstrates the same approach in real-world application scenarios for machine vision and robotics.
翻訳日:2023-09-11 18:46:06 公開日:2023-09-07
# MQAG:要約における情報整合性評価のための複数選択質問応答と生成

MQAG: Multiple-choice Question Answering and Generation for Assessing Information Consistency in Summarization ( http://arxiv.org/abs/2301.12307v2 )

ライセンス: Link先を確認
Potsawee Manakul, Adian Liusie, Mark J. F. Gales(参考訳) 最先端の要約システムは高度に流動的な要約を生成することができる。 しかし、これらの要約には、ソースに存在しない事実的不一致と/または情報が含まれている可能性がある。 したがって、要約の品質を評価する重要な要素は、ソースと要約の間に情報整合性があるかどうかを決定することである。 既存のアプローチは典型的には語彙マッチングや表現ベースメソッドに基づいている。 本研究では,ソースと要約に存在する情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。 本稿では,自動生成された複数質問に対して,要約とソース応答分布との統計的距離を計算し,情報一貫性を近似する多選択質問応答生成フレームワークMQAGを提案する。 このアプローチは、予測された回答分布を比較できるため、マルチチョース回答確率を利用する。 QAG-CNNDM/XSum, XSum-Hallucination, Podcast Assessment, SummEvalの4つの要約評価データセットについて実験を行った。 実験の結果、MQAGはSQuADやRSEでトレーニングされたモデルを使用して、タスクの大部分で既存の評価方法よりも優れています。

State-of-the-art summarization systems can generate highly fluent summaries. These summaries, however, may contain factual inconsistencies and/or information not present in the source. Hence, an important component of assessing the quality of summaries is to determine whether there is information consistency between the source and the summary. Existing approaches are typically based on lexical matching or representation-based methods. In this work, we introduce an alternative scheme based on standard information-theoretic measures in which the information present in the source and summary is directly compared. We propose a Multiple-choice Question Answering and Generation framework, MQAG, which approximates the information consistency by computing the expected statistical distance between summary and source answer distributions over automatically generated multiple-choice questions. This approach exploits multiple-choice answer probabilities, as predicted answer distributions can be compared. We conduct experiments on four summary evaluation datasets: QAG-CNNDM/XSum, XSum-Hallucination, Podcast Assessment, and SummEval. Experiments show that MQAG, using models trained on SQuAD or RACE, outperforms existing evaluation methods on the majority of tasks.
翻訳日:2023-09-11 18:39:01 公開日:2023-09-07
# クラス特異的ネットワーク中毒のためのノードインジェクション

Node Injection for Class-specific Network Poisoning ( http://arxiv.org/abs/2301.12277v2 )

ライセンス: Link先を確認
Ansh Kumar Sharma and Rahul Kukreja and Mayank Kharbanda and Tanmoy Chakraborty(参考訳) グラフニューラルネットワーク(GNN)は、下流タスクのパフォーマンスを補助するリッチネットワーク表現を学習する上で強力である。 しかし、最近の研究では、GNNはノード注入やネットワーク摂動を含む敵攻撃に弱いことが示されている。 これらのうち、ノードインジェクション攻撃は、既存のネットワークで操作する必要がなく、より現実的に実行できるため、より実用的です。 本稿では,攻撃者がターゲットクラスの特定のノードを,ノードインジェクションを用いて異なるクラスに誤分類することを目的とした,グラフに対するクラス固有の毒物攻撃である,新しい問題文を提案する。 さらに、ノードは良性ノードとしてカモフラージュするように注入される。 本稿では,gnnベースのノード分類器の性能を妨害する最適化に基づく手法を用いた新しい攻撃戦略であるnickiを提案する。 nickiは2つのフェーズで動作します - まずノード表現を学習し、注入されたノードの特徴とエッジを生成します。 4つのベンチマークネットワークに関する大規模な実験とアブレーション研究により、NICKIはターゲットクラスのノードを誤分類するための4つのベースライン攻撃戦略よりも一貫して優れていることが示された。 また、注入されたノードは良性として適切にカモフラージュされることを示し、毒されたグラフはその清浄版 w.r. の様々な位相特性と区別できないことを示す。

Graph Neural Networks (GNNs) are powerful in learning rich network representations that aid the performance of downstream tasks. However, recent studies showed that GNNs are vulnerable to adversarial attacks involving node injection and network perturbation. Among these, node injection attacks are more practical as they don't require manipulation in the existing network and can be performed more realistically. In this paper, we propose a novel problem statement - a class-specific poison attack on graphs in which the attacker aims to misclassify specific nodes in the target class into a different class using node injection. Additionally, nodes are injected in such a way that they camouflage as benign nodes. We propose NICKI, a novel attacking strategy that utilizes an optimization-based approach to sabotage the performance of GNN-based node classifiers. NICKI works in two phases - it first learns the node representation and then generates the features and edges of the injected nodes. Extensive experiments and ablation studies on four benchmark networks show that NICKI is consistently better than four baseline attacking strategies for misclassifying nodes in the target class. We also show that the injected nodes are properly camouflaged as benign, thus making the poisoned graph indistinguishable from its clean version w.r.t various topological properties.
翻訳日:2023-09-11 18:38:46 公開日:2023-09-07
# ディジタルメモリ計算機の自己修復

Self-averaging of digital memcomputing machines ( http://arxiv.org/abs/2301.08787v2 )

ライセンス: Link先を確認
Daniel Primosch, Yuan-Hang Zhang and Massimiliano Di Ventra(参考訳) digital memcomputing machines (dmms) は非量子力学系とメモリを併用して組合せ最適化問題を解決する新しい計算機械である。 本稿では, DMM の解法時間 (TTS) が逆ガウス分布に従うことを示す。 本研究では,この現象の解析的理解と3-SAT問題の解法による数値的証拠を提供する。 問題サイズを持つDMMの自己改善特性は、それらが解決するインスタンスの詳細な特徴に敏感であることを示している。 これは、同じ問題に適用される従来のアルゴリズムとは対照的であり、この物理ベースの計算アプローチの別の利点を示している。

Digital memcomputing machines (DMMs) are a new class of computing machines that employ non-quantum dynamical systems with memory to solve combinatorial optimization problems. Here, we show that the time to solution (TTS) of DMMs follows an inverse Gaussian distribution, with the TTS self-averaging with increasing problem size, irrespective of the problem they solve. We provide both an analytical understanding of this phenomenon and numerical evidence by solving instances of the 3-SAT (satisfiability) problem. The self-averaging property of DMMs with problem size implies that they are increasingly insensitive to the detailed features of the instances they solve. This is in sharp contrast to traditional algorithms applied to the same problems, illustrating another advantage of this physics-based approach to computation.
翻訳日:2023-09-11 18:38:23 公開日:2023-09-07
# 動的イベントベース光識別と通信

Dynamic Event-based Optical Identification and Communication ( http://arxiv.org/abs/2303.07169v3 )

ライセンス: Link先を確認
Axel von Arnim, Jules Lecomte, Naima Elosegui Borras, Stanislaw Wozniak, Angeliki Pantazi(参考訳) 光学的識別はしばしば、空間的または時間的視覚パターン認識と局在化によって行われる。 時間パターン認識は、技術によっては通信周波数、範囲、正確な追跡のトレードオフを伴う。 高速なイベントベースカメラを利用して、このトレードオフを改善する発光ビーコンを用いたソリューションを提案し、スパイクニューロンで計算された疎いニューロモルフィック光の流れを追跡する。 システムはシミュレートされたドローンに埋め込まれ、資産監視ユースケースで評価される。 相対運動に対して堅牢であり、複数の移動ビーコンとの同時通信と追跡を可能にする。 最後に,ハードウェアラボの試作機で,kHz帯における最先端の周波数通信と同時にビーコン追跡を行った。

Optical identification is often done with spatial or temporal visual pattern recognition and localization. Temporal pattern recognition, depending on the technology, involves a trade-off between communication frequency, range and accurate tracking. We propose a solution with light-emitting beacons that improves this trade-off by exploiting fast event-based cameras and, for tracking, sparse neuromorphic optical flow computed with spiking neurons. The system is embedded in a simulated drone and evaluated in an asset monitoring use case. It is robust to relative movements and enables simultaneous communication with, and tracking of, multiple moving beacons. Finally, in a hardware lab prototype, we demonstrate for the first time beacon tracking performed simultaneously with state-of-the-art frequency communication in the kHz range.
翻訳日:2023-09-11 18:27:23 公開日:2023-09-07
# 再構成可能なバイパラメトリック電子プラットフォームを用いた変形ディッケモデルの相転移の実験的観察

Experimental observation of phase transitions of a deformed Dicke model using a reconfigurable, bi-parametric electronic platform ( http://arxiv.org/abs/2303.01553v2 )

ライセンス: Link先を確認
Mario A. Quiroz-Juarez, \'Angel L. Corps, Rafael A. Molina, Armando Rela\~no, Jos\'e L. Arag\'on, Roberto de J. Le\'on-Montiel, Jorge G. Hirsch(参考訳) 量子光学系のディッケモデルの無限大限界を, システムと外部ボソニック貯水池を結合する等速変形強度で実験的に検討した。 このような対称性の破れによる力学結果に焦点をあて、古典位相空間は非等価エネルギー井戸と非対称となる。 本稿では,最先端のバイパラメトリック電子プラットフォームを用いたデフォルメディッケモデルの古典版を実験的に実装する。 本プラットフォームは,電気回路における変形ディッケモデルの代表現象を外部制御パラメータと初期条件を用いて解析する場である。 特に,共振の場合の結合強度$\gamma$と変形強度$\alpha$の関数として,基底状態のダイナミクス,様々な相転移,エネルギー井戸の非対称性について検討する。 さらに, 種々の挙動構造を特徴付けるために, 2次元位相図を2つの固有系パラメータの関数として提示する。 カオスの発生も実験的に解析される。 本研究は,2パラメータ電子装置の有用性を実証し,理論予測と実験観測との明確な関連性を示した。

We experimentally study the infinite-size limit of the Dicke model of quantum optics with a parity-breaking deformation strength that couples the system to an external bosonic reservoir. We focus on the dynamical consequences of such symmetry-breaking, which makes the classical phase space asymmetric with non-equivalent energy wells. We present an experimental implementation of the classical version of the deformed Dicke model using a state-of-the-art bi-parametric electronic platform. Our platform constitutes a playground for studying representative phenomena of the deformed Dicke model in electrical circuits with the possibility of externally controlling parameters and initial conditions. In particular, we investigate the dynamics of the ground state, various phase transitions, and the asymmetry of the energy wells as a function of the coupling strength $\gamma$ and the deformation strength $\alpha$ in the resonant case. Additionally, to characterize the various behavior regimes, we present a two-dimensional phase diagram as a function of the two intrinsic system parameters. The onset of chaos is also analyzed experimentally. Our findings provide a clear connection between theoretical predictions and experimental observations, demonstrating the usefulness of our bi-parametric electronic setup.
翻訳日:2023-09-11 18:26:44 公開日:2023-09-07
# 潜時指紋認識 : 局所およびグローバルな埋め込みの融合

Latent Fingerprint Recognition: Fusion of Local and Global Embeddings ( http://arxiv.org/abs/2304.13800v2 )

ライセンス: Link先を確認
Steven A. Grosz and Anil K. Jain(参考訳) 指紋認証における最も困難な問題の1つは、犯罪現場に残されている部分的およびスムージーな指紋(すなわち潜在指紋や指紋)に関連する被疑者の身元を確立することである。 ローリング指紋認識とスラップ指紋認識のための固定長埋め込みの成功にもかかわらず、潜伏指紋マッチングで得られた特徴は、主に局所栄養素ベースの埋め込みに限られており、マッチングにグローバル表現を直接活用していない。 本稿では,グローバルな埋め込みと局所的な埋め込みを組み合わせることで,マッチング精度と高いスループットを両立させる。 NIST SD 27, NIST SD 302, MSP, MOLF DB1/DB4 と MOLF DB2/DB4 の2つの閉集合 (84.11%, 54.36%, 84.35%, 70.43%, 62.86%) と開集合 (0.50, 0.74, 0.44, 0.60, 0.68 FNIR at FPIR=0.02) の識別シナリオは、それぞれ100Kロール指紋のギャラリーに記録されている。 補完表現を融合させるだけでなく、局所的な特徴を用いてグローバル表現を導くことで、2つの指紋画像の識別領域に焦点を合わせます。 これにより、検索した各プローブ画像の候補リストのサブセットを後続のステージに渡して処理するマルチステージマッチングパラダイムが実現し、レイテンシが大幅に低下する(AMD EPYC 7543 32-Coreプロセッサでロール比較を行うには、レイテンシが0.068ms(毎秒約15K)となる)。 最後に,複数のロール,プレーン,非接触の指紋データセットにおける認証精度を向上させるため,融合表現の汎用性を示す。

One of the most challenging problems in fingerprint recognition continues to be establishing the identity of a suspect associated with partial and smudgy fingerprints left at a crime scene (i.e., latent prints or fingermarks). Despite the success of fixed-length embeddings for rolled and slap fingerprint recognition, the features learned for latent fingerprint matching have mostly been limited to local minutiae-based embeddings and have not directly leveraged global representations for matching. In this paper, we combine global embeddings with local embeddings for state-of-the-art latent to rolled matching accuracy with high throughput. The combination of both local and global representations leads to improved recognition accuracy across NIST SD 27, NIST SD 302, MSP, MOLF DB1/DB4, and MOLF DB2/DB4 latent fingerprint datasets for both closed-set (84.11%, 54.36%, 84.35%, 70.43%, 62.86% rank-1 retrieval rate, respectively) and open-set (0.50, 0.74, 0.44, 0.60, 0.68 FNIR at FPIR=0.02, respectively) identification scenarios on a gallery of 100K rolled fingerprints. Not only do we fuse the complimentary representations, we also use the local features to guide the global representations to focus on discriminatory regions in two fingerprint images to be compared. This leads to a multi-stage matching paradigm in which subsets of the retrieved candidate lists for each probe image are passed to subsequent stages for further processing, resulting in a considerable reduction in latency (requiring just 0.068 ms per latent to rolled comparison on a AMD EPYC 7543 32-Core Processor, roughly 15K comparisons per second). Finally, we show the generalizability of the fused representations for improving authentication accuracy across several rolled, plain, and contactless fingerprint datasets.
翻訳日:2023-09-11 18:18:21 公開日:2023-09-07
# Photo-zSNthesis: Ia型超新星光曲線を深層学習による赤方偏移推定に変換する

Photo-zSNthesis: Converting Type Ia Supernova Lightcurves to Redshift Estimates via Deep Learning ( http://arxiv.org/abs/2305.11869v2 )

ライセンス: Link先を確認
Helen Qu, Masao Sako(参考訳) 今後の光度調査で、数万種類のia型超新星(sne ia)が発見され、我々の分光資源の容量を大きく上回る。 分光情報がない場合、これらの観測の科学的なリターンを最大化するために、sn赤方偏移などのキーパラメータをフォトメトリック情報のみで正確に抽出する必要がある。 我々は,マルチバンド超新星光曲線から完全な赤方偏移確率分布を予測する畳み込みニューラルネットワークに基づくPhoto-zSNthesisを,Sloan Digital Sky Survey (SDSS)とVera C. Rubin Legacy Survey of Space and Time (LSST)のデータおよび観測されたSDSS SNeで検証した。 シミュレーションと実測の両方において既存の手法による予測よりも大きな改善を示し,また,選択効果(例えばマルムキストバイアス)による課題である最小の赤方偏差依存バイアスも示した。 具体的には, プラスティックシミュレーションにおける予測バイアス<delta z>の61倍改善と, 実sdssデータでの5倍改善を示した。 この方法で生成されたPDFは、よく拘束され、光度SNeIaサンプルの宇宙的制約力を最大化する。

Upcoming photometric surveys will discover tens of thousands of Type Ia supernovae (SNe Ia), vastly outpacing the capacity of our spectroscopic resources. In order to maximize the science return of these observations in the absence of spectroscopic information, we must accurately extract key parameters, such as SN redshifts, with photometric information alone. We present Photo-zSNthesis, a convolutional neural network-based method for predicting full redshift probability distributions from multi-band supernova lightcurves, tested on both simulated Sloan Digital Sky Survey (SDSS) and Vera C. Rubin Legacy Survey of Space and Time (LSST) data as well as observed SDSS SNe. We show major improvements over predictions from existing methods on both simulations and real observations as well as minimal redshift-dependent bias, which is a challenge due to selection effects, e.g. Malmquist bias. Specifically, we show a 61x improvement in prediction bias <Delta z> on PLAsTiCC simulations and 5x improvement on real SDSS data compared to results from a widely used photometric redshift estimator, LCFIT+Z. The PDFs produced by this method are well-constrained and will maximize the cosmological constraining power of photometric SNe Ia samples.
翻訳日:2023-09-11 18:06:27 公開日:2023-09-07
# 新しい正準、共変、シンプレクティックハミルトン密度の量子化

Quantization of a New Canonical, Covariant, and Symplectic Hamiltonian Density ( http://arxiv.org/abs/2305.08864v2 )

ライセンス: Link先を確認
David Chester, Xerxes D. Arsiwalla, Louis Kauffman, Michel Planat, and Klee Irwin(参考訳) 我々はkoopman-von neumann古典力学を多補体に一般化し、de donder-weyl理論を回復する。 ディラックのハミルトニアン密度と比較すると、シンプレクティック幾何学とローレンツ共変である標準運動量場を持つ新しいハミルトニアン公式が導かれる。 我々はkoopman-von neumann代数とheisenberg代数を一般化する古典場と量子場の可換関係を提供する。 古典代数学は、時空、エネルギー運動量、周波数波数、エネルギー運動量のフーリエ共役を一般化する4つの場を必要とする。 第1および第2の量子化は、古典的および量子可換代数における作用素間のマッピングによってどのように見出されるかを明らかにする。

We generalize Koopman-von Neumann classical mechanics to poly-symplectic fields and recover De Donder-Weyl theory. Comparing with Dirac's Hamiltonian density inspires a new Hamiltonian formulation with a canonical momentum field that is Lorentz covariant with symplectic geometry. We provide commutation relations for the classical and quantum fields that generalize the Koopman-von Neumann and Heisenberg algebras. The classical algebra requires four fields that generalize space-time, energy-momentum, frequency-wavenumber, and the Fourier conjugate of energy-momentum. We clarify how 1st and 2nd quantization can be found by simply mapping between operators in classical and quantum commutator algebras.
翻訳日:2023-09-11 18:05:37 公開日:2023-09-07
# 複雑な構造を持つ格子磁気光学トラップ

Grating magneto-optical traps with complicated level structures ( http://arxiv.org/abs/2305.07732v2 )

ライセンス: Link先を確認
D. S. Barker, P. K. Elgee, A. Sitaram, E. B. Norrgard, N. N. Klimov, G. K. Campbell, S. Eckel(参考訳) 非自明なレベル構造を持つ遷移で動作する格子状磁気光学トラップ(MOT)内の力と光ポンピングについて検討した。 標準の6ビームmot構成とは対照的に、レート方程式モデリングはグレーティングmotの非対称レーザー形状がスピン偏極原子サンプルを生成すると予測している。 さらに、land\e $g$-factorsとtotal angular momentaのトラップ遷移はトラップの閉じ込めと平衡位置の両方に強い影響を与えている。 速度方程式モデルから得られる直観を用いて、フェルミオン$^{87}$Srの格子MOTを実現し、ボソニック磁場よりもトラップの四重極磁場の中心近くで形成されることを観察する。 また,分子レーザー冷却への格子モットの適用についても検討し,ii型準位構造の安定な閉じ込めには二周波動作が必要であるが不十分であることを示す。 分子レーザー冷却モデルをテストするために、$D_1$の$^7$Liを用いて格子MOTを作製し、4つの6ビーム偏光構成のうち2つのみが格子幾何学で機能することを確認する。 我々の結果は、時間維持、慣性航法、精密測定のための携帯型原子と分子トラップの開発に役立ちます。

We study the forces and optical pumping within grating magneto-optical traps (MOTs) operating on transitions with non-trivial level structure. In contrast to the standard six-beam MOT configuration, rate equation modelling predicts that the asymmetric laser geometry of a grating MOT will produce spin-polarized atomic samples. Furthermore, the Land\'e $g$-factors and total angular momenta of the trapping transition strongly influence both the confinement and equilibrium position of the trap. Using the intuition gained from the rate equation model, we realize a grating MOT of fermionic $^{87}$Sr and observe that it forms closer to the center of the trap's quadrupole magnetic field than its bosonic counterpart. We also explore the application of grating MOTs to molecule laser cooling, where the rate equations suggest that dual-frequency operation is necessary, but not sufficient, for stable confinement for type-II level structures. To test our molecule laser cooling models, we create grating MOTs using the $D_1$ line of $^7$Li and see that only two of the four possible six-beam polarization configurations operate in the grating geometry. Our results will aid the development of portable atom and molecule traps for time keeping, inertial navigation, and precision measurement.
翻訳日:2023-09-11 18:05:25 公開日:2023-09-07
# refusion: 1次元データによる推薦のための二項拡散プロセス

RecFusion: A Binomial Diffusion Process for 1D Data for Recommendation ( http://arxiv.org/abs/2306.08947v3 )

ライセンス: Link先を確認
Gabriel B\'en\'edict, Olivier Jeunen, Samuele Papa, Samarth Bhargav, Daan Odijk, Maarten de Rijke(参考訳) 本稿では,レコメンデーションのための拡散モデルを構成するRecFusionを提案する。 空間相関を含む画像データとは異なり、レコメンデーションで一般的に利用されるユーザ-テーマインタラクションマトリックスは、ユーザとアイテム間の空間的関係を欠いている。 1次元ベクトル上の拡散を定式化し、二項拡散を提案し、ベルヌーイ過程と二項ユーザ・イテム相互作用を明示的にモデル化する。 RecFusionは、コアレコメンデーション設定(バイナリ非シーケンスフィードバックのTop-nレコメンデーション)と最も一般的なデータセット(MovieLensとNetflix)に基づいて、複雑なVAEベースラインのパフォーマンスにアプローチする。 提案する拡散モデルでは,MRIやCTなどの医療領域において,1Dおよび/またはバイナリ設定に特化している。

In this paper we propose RecFusion, which comprise a set of diffusion models for recommendation. Unlike image data which contain spatial correlations, a user-item interaction matrix, commonly utilized in recommendation, lacks spatial relationships between users and items. We formulate diffusion on a 1D vector and propose binomial diffusion, which explicitly models binary user-item interactions with a Bernoulli process. We show that RecFusion approaches the performance of complex VAE baselines on the core recommendation setting (top-n recommendation for binary non-sequential feedback) and the most common datasets (MovieLens and Netflix). Our proposed diffusion models that are specialized for 1D and/or binary setups have implications beyond recommendation systems, such as in the medical domain with MRI and CT scans.
翻訳日:2023-09-11 17:57:20 公開日:2023-09-07
# 2次元単位セルモデルに基づくレドックスフローバッテリの物理インフォーム機械学習

Physics-informed machine learning of redox flow battery based on a two-dimensional unit cell model ( http://arxiv.org/abs/2306.01010v2 )

ライセンス: Link先を確認
Wenqian Chen, Yucheng Fu, Panos Stinis(参考訳) 本稿では,全バナジウムレドックスフロー電池の性能を予測するための物理インフォームドニューラルネットワーク (PINN) を提案する。 2dモデルは6つの制御方程式と24の境界条件を含み、レドックスフローバッテリ内で起こる電気化学反応、物質輸送、流体力学の詳細な表現を提供する。 pinnアプローチによる2次元モデルを解くために、複合ニューラルネットワークを用いて種濃度とポテンシャルを近似し、入力と出力をバッテリシステムの事前知識に従って正規化し、制御式と境界条件をまず1等程度までスケールし、さらに自己重み付け法でバランスをとる。 その結果,pinnはセル電圧を正確に予測できるが,電位の予測は定常的なシフトを示すことがわかった。 シフトを修正するために、PINNは現在のコレクタ境界から派生したさらなる制約によって強化される。 最後に,少数のラベル付きデータが利用可能であれば,拡張PINNをさらに改善できることを示す。

In this paper, we present a physics-informed neural network (PINN) approach for predicting the performance of an all-vanadium redox flow battery, with its physics constraints enforced by a two-dimensional (2D) mathematical model. The 2D model, which includes 6 governing equations and 24 boundary conditions, provides a detailed representation of the electrochemical reactions, mass transport and hydrodynamics occurring inside the redox flow battery. To solve the 2D model with the PINN approach, a composite neural network is employed to approximate species concentration and potentials; the input and output are normalized according to prior knowledge of the battery system; the governing equations and boundary conditions are first scaled to an order of magnitude around 1, and then further balanced with a self-weighting method. Our numerical results show that the PINN is able to predict cell voltage correctly, but the prediction of potentials shows a constant-like shift. To fix the shift, the PINN is enhanced by further constrains derived from the current collector boundary. Finally, we show that the enhanced PINN can be even further improved if a small number of labeled data is available.
翻訳日:2023-09-11 17:55:47 公開日:2023-09-07
# 量子熱力学における非可換保存電荷

Noncommuting conserved charges in quantum thermodynamics and beyond ( http://arxiv.org/abs/2306.00054v2 )

ライセンス: Link先を確認
Shayan Majidy, William F. Braasch Jr., Aleksander Lasek, Twesh Upadhyaya, Amir Kalev, Nicole Yunger Halpern(参考訳) 熱力学系は通常、エネルギーや粒子数などの量(電荷)を保存する。 電荷はしばしば、互いに通勤するために暗黙的に仮定される。 しかし、不確実性関係のような量子現象は、可観測者の通勤失敗に依存している。 非可換電荷は熱力学現象にどのように影響するか? この問題は、量子情報理論と熱力学の交点に現れると、最近多体物理学に広がった。 電荷の非可換性は、熱状態の形態の導出を無効にし、エントロピー生成を減少させ、固有状態の熱化仮説と矛盾させる。 このパースペクティブは、非可換電荷の量子熱力学に隣接する重要な結果、機会、および仕事について調査する。 エビデンス(Evidence)は、非可換電荷が熱化を阻害し、他の方法で熱化を高めることを示唆している。

Thermodynamic systems typically conserve quantities ("charges") such as energy and particle number. The charges are often assumed implicitly to commute with each other. Yet quantum phenomena such as uncertainty relations rely on observables' failure to commute. How do noncommuting charges affect thermodynamic phenomena? This question, upon arising at the intersection of quantum information theory and thermodynamics, spread recently across many-body physics. Charges' noncommutation has been found to invalidate derivations of the thermal state's form, decrease entropy production, conflict with the eigenstate thermalization hypothesis, and more. This Perspective surveys key results in, opportunities for, and work adjacent to the quantum thermodynamics of noncommuting charges. Open problems include a conceptual puzzle: Evidence suggests that noncommuting charges may hinder thermalization in some ways while enhancing thermalization in others.
翻訳日:2023-09-11 17:54:55 公開日:2023-09-07
# 画像表現における解釈可能な部分空間の同定

Identifying Interpretable Subspaces in Image Representations ( http://arxiv.org/abs/2307.10504v2 )

ライセンス: Link先を確認
Neha Kalibhat, Shweta Bhardwaj, Bayan Bruss, Hamed Firooz, Maziar Sanjabi, Soheil Feizi(参考訳) 画像表現の特徴を解釈可能なフレームワークであるコントラスト概念(FALCON)を用いた自動特徴記述を提案する。 ターゲット機能としてFALCONは、大きなキャプションデータセット(LAION-400mなど)とCLIPのような訓練済みの視覚言語モデルを使って、高機能なクロップ画像をキャプションする。 キャプションの中の各単語はランク付けされ、ターゲットの特徴を詳細に記述した少数の共有、人間理解可能な概念へと導かれる。 FALCONはまた、低活性化(偽造)画像を用いた対照的な解釈を適用して、急激な概念を排除した。 既存の多くのアプローチは独立して特徴を解釈するが、最先端の自己監督モデルや教師付きモデルでは、表現空間の20%未満は個々の特徴によって説明できる。 より広い空間における特徴は、グループで研究するとより解釈しやすくなり、FALCONを通して高次スコアリングの概念で説明できることを示す。 下流タスクにおける障害の説明とデバッグに抽出された概念をどのように利用できるかについて議論する。 最後に、簡単な線形変換を学習することにより、ある(説明可能な)表現空間から別の見えない表現空間へ概念を移す手法を提案する。 コードはhttps://github.com/nehakalibhat/falcon-explain。

We propose Automatic Feature Explanation using Contrasting Concepts (FALCON), an interpretability framework to explain features of image representations. For a target feature, FALCON captions its highly activating cropped images using a large captioning dataset (like LAION-400m) and a pre-trained vision-language model like CLIP. Each word among the captions is scored and ranked leading to a small number of shared, human-understandable concepts that closely describe the target feature. FALCON also applies contrastive interpretation using lowly activating (counterfactual) images, to eliminate spurious concepts. Although many existing approaches interpret features independently, we observe in state-of-the-art self-supervised and supervised models, that less than 20% of the representation space can be explained by individual features. We show that features in larger spaces become more interpretable when studied in groups and can be explained with high-order scoring concepts through FALCON. We discuss how extracted concepts can be used to explain and debug failures in downstream tasks. Finally, we present a technique to transfer concepts from one (explainable) representation space to another unseen representation space by learning a simple linear transformation. Code available at https://github.com/NehaKalibhat/falcon-explain.
翻訳日:2023-09-11 17:45:09 公開日:2023-09-07
# $\mathbf{\mathbb{e}^{fwi}}$:地球物性の弾性フル波形インバージョンのためのマルチパラメータベンチマークデータセット

$\mathbf{\mathbb{E}^{FWI}}$: Multi-parameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties ( http://arxiv.org/abs/2306.12386v2 )

ライセンス: Link先を確認
Shihang Feng, Hanchen Wang, Chengyuan Deng, Yinan Feng, Yanhua Liu, Min Zhu, Peng Jin, Yinpeng Chen, Youzuo Lin(参考訳) 弾性的物理特性(p波とs波の速度など)は、co$_2$の隔離やエネルギー探査(例えば水素と地熱)のような様々な地下応用において非常に重要である。 弾性フルウェーブフォームインバージョン(FWI)は貯水池特性のキャラクタリゼーションに広く応用されている。 本稿では,elastic fwi用に特別に設計された総合ベンチマークデータセットである$\mathbf{\mathbb{e}^{fwi}}$を提案する。 $\mathbf{\mathbb{E}^{FWI}}$は、様々な地下地質構造(平坦、曲線、断層など)をカバーする8つの異なるデータセットを含んでいる。 3つの異なるディープラーニング手法によるベンチマーク結果を提供する。 これまでに提示した音響FWI(OpenFWI)の圧力記録とは対照的に,$\mathbf{\mathbb{E}^{FWI}}$の地震データには垂直成分と水平成分の両方がある。 さらに、$\mathbf{\mathbb{E}^{FWI}}$ の速度写像は、P波とS波の両方の速度を包含する。 多成分データと付加S波速度はデータをより現実的にするが、逆転の収束と計算コストに関してさらなる課題が持ち込まれる。 我々は地震データにおけるP波とS波速度の関係を総合的な数値実験により調べる。 P波速度とS波速度の関係は、リソロジー、ポーシティ、流体含量などの地下特性に重要な洞察を与える。 我々は、炭素ゼロと新しいエネルギー探索のいくつかの重要な研究トピックにおいて、$\mathbf{\mathbb{E}^{FWI}}$がマルチパラメータインバージョンの研究を促進することを期待する。 すべてのデータセット、コード、関連する情報は、https://efwi-lanl.github.io/のwebサイトからアクセスできます。

Elastic geophysical properties (such as P- and S-wave velocities) are of great importance to various subsurface applications like CO$_2$ sequestration and energy exploration (e.g., hydrogen and geothermal). Elastic full waveform inversion (FWI) is widely applied for characterizing reservoir properties. In this paper, we introduce $\mathbf{\mathbb{E}^{FWI}}$, a comprehensive benchmark dataset that is specifically designed for elastic FWI. $\mathbf{\mathbb{E}^{FWI}}$ encompasses 8 distinct datasets that cover diverse subsurface geologic structures (flat, curve, faults, etc). The benchmark results produced by three different deep learning methods are provided. In contrast to our previously presented dataset (pressure recordings) for acoustic FWI (referred to as OpenFWI), the seismic dataset in $\mathbf{\mathbb{E}^{FWI}}$ has both vertical and horizontal components. Moreover, the velocity maps in $\mathbf{\mathbb{E}^{FWI}}$ incorporate both P- and S-wave velocities. While the multicomponent data and the added S-wave velocity make the data more realistic, more challenges are introduced regarding the convergence and computational cost of the inversion. We conduct comprehensive numerical experiments to explore the relationship between P-wave and S-wave velocities in seismic data. The relation between P- and S-wave velocities provides crucial insights into the subsurface properties such as lithology, porosity, fluid content, etc. We anticipate that $\mathbf{\mathbb{E}^{FWI}}$ will facilitate future research on multiparameter inversions and stimulate endeavors in several critical research topics of carbon-zero and new energy exploration. All datasets, codes and relevant information can be accessed through our website at https://efwi-lanl.github.io/
翻訳日:2023-09-11 17:42:47 公開日:2023-09-07
# 開発AIのブートストラップ:単純な能力から知能な人間互換AIへ

Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs ( http://arxiv.org/abs/2308.04586v6 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) 一部のAIは、ボードゲームのようなクローズドな人工世界で人間の能力を上回るが、現実では奇妙な間違いを犯し、気づかない。 簡単には指示できないし、常識を使わず、好奇心を欠いている。 AIを作成するための主流のアプローチには、従来の手作業によるシンボリックAIアプローチや、大規模言語モデル(LLM)を含む生成的およびディープラーニングAIアプローチが含まれる。 メインストリームの外部にあるが、開発上のブートストラップアプローチは、より多くの可能性を秘めている。 発達的なブートストラップでは、AIは人間の子供のように能力を生み出す。 彼らは生まれながらの能力から始まる。 彼らは環境と相互作用し、その相互作用から学びます。 彼らは自己発達能力で自然能力を徐々に拡張する。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 彼らは能力のブートストラップによって必要な能力を取得する。 しかし、発達ロボット工学はまだ大人レベルの強力な能力を持つAIを生産していない。 プロジェクトは通常、幼児の障壁に到達する前に停止しています。 これは、乳幼児の発声が流れる前、約2歳での人間の乳児の発達に相当する。 彼らはまた、llmを動力とする社会的に発達したオンライン情報リソースを巧みにかつ懐疑的に描くことができる読み取り障壁の橋渡しもしない。 人間の認知発達における次の能力は、本質的な動機づけ、模倣学習、想像、協調、コミュニケーションである。 このポジションペーパーは、堅牢で信頼性があり、人間と互換性のあるAIを作るために、開発ブートストラップの実践を拡張するための論理、見通し、ギャップ、課題を概説する。

Although some AIs surpass human abilities in closed artificial worlds such as board games, in the real world they make strange mistakes and do not notice them. They cannot be instructed easily, fail to use common sense, and lack curiosity. Mainstream approaches for creating AIs include the traditional manually-constructed symbolic AI approach and the generative and deep learning AI approaches including large language models (LLMs). Although it is outside of the mainstream, the developmental bootstrapping approach may have more potential. In developmental bootstrapping, AIs develop competences like human children do. They start with innate competences. They interact with the environment and learn from their interactions. They incrementally extend their innate competences with self-developed competences. They interact and learn from people and establish perceptual, cognitive, and common grounding. They acquire the competences they need through competence bootstrapping. However, developmental robotics has not yet produced AIs with robust adult-level competences. Projects have typically stopped before reaching the Toddler Barrier. This corresponds to human infant development at about two years of age, before infant speech becomes fluent. They also do not bridge the Reading Barrier, where they could skillfully and skeptically draw on the socially developed online information resources that power LLMs. The next competences in human cognitive development involve intrinsic motivation, imitation learning, imagination, coordination, and communication. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental bootstrapping to create robust, trustworthy, and human-compatible AIs.
翻訳日:2023-09-11 17:36:16 公開日:2023-09-07
# ELIXR:大規模言語モデルと放射線ビジョンエンコーダのアライメントによる汎用X線人工知能システムを目指して

ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders ( http://arxiv.org/abs/2308.01317v2 )

ライセンス: Link先を確認
Shawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Atilla Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren(参考訳) 本研究では,言語/画像対応X線エンコーダを固定LLM, PaLM 2に組み合わせて, 広範囲の胸部X線処理を行うEmbddings for Language/Image-aligned X-rays(ELIXR)を提案する。 我々は、MIMIC-CXRデータセットからの対応する自由テキストラジオグラフィーレポートと組み合わせた画像を用いて、この軽量アダプタアーキテクチャを訓練する。 ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). 教師付きコントラスト学習(supcon:supervised contrastive learning)を含む既存のデータ効率のよい方法と比較して、elixrは同等の性能に達するのに2桁少ないデータを必要とした。 ELIXRはまた、CXRの視覚言語タスクを約束し、視覚的質問応答と報告品質保証タスクでそれぞれ58.7%と62.5%の精度を示した。 これらの結果はelixrがcxr aiに対する堅牢で多用途なアプローチであることを示唆している。

In this work, we present an approach, which we call Embeddings for Language/Image-aligned X-Rays, or ELIXR, that leverages a language-aligned image encoder combined or grafted onto a fixed LLM, PaLM 2, to perform a broad range of chest X-ray tasks. We train this lightweight adapter architecture using images paired with corresponding free-text radiology reports from the MIMIC-CXR dataset. ELIXR achieved state-of-the-art performance on zero-shot chest X-ray (CXR) classification (mean AUC of 0.850 across 13 findings), data-efficient CXR classification (mean AUCs of 0.893 and 0.898 across five findings (atelectasis, cardiomegaly, consolidation, pleural effusion, and pulmonary edema) for 1% (~2,200 images) and 10% (~22,000 images) training data), and semantic search (0.76 normalized discounted cumulative gain (NDCG) across nineteen queries, including perfect retrieval on twelve of them). Compared to existing data-efficient methods including supervised contrastive learning (SupCon), ELIXR required two orders of magnitude less data to reach similar performance. ELIXR also showed promise on CXR vision-language tasks, demonstrating overall accuracies of 58.7% and 62.5% on visual question answering and report quality assurance tasks, respectively. These results suggest that ELIXR is a robust and versatile approach to CXR AI.
翻訳日:2023-09-11 17:34:32 公開日:2023-09-07
# 汚染データを用いた教師なし異常検出のための汎用機械学習フレームワーク

A Generic Machine Learning Framework for Fully-Unsupervised Anomaly Detection with Contaminated Data ( http://arxiv.org/abs/2308.13352v2 )

ライセンス: Link先を確認
Markus Ulmer, Jannik Zgraggen, and Lilach Goren Huber(参考訳) 異常検出(AD)タスクは、さまざまなドメインやアプリケーションで機械学習アルゴリズムを用いて解決されている。 これらのアルゴリズムの大部分は、正規データを使用して残差ベースモデルをトレーニングし、学習された正規状態と相違点に基づいて異常スコアを未確認サンプルに割り当てる。 これらのアプローチの基本的な前提は、異常のないデータがトレーニングに利用できることだ。 しかし、実際の運用環境では、トレーニングデータがある種の異常なサンプルで汚染される場合が多い。 汚染データによるトレーニングは、必然的に残差ベースアルゴリズムのAD性能を低下させる。 本稿では,ADタスクに対する汚染されたトレーニングデータの完全教師なし改善のためのフレームワークを提案する。 フレームワークは汎用的であり、残差ベースの機械学習モデルに適用することができる。 本稿では,異なるアプリケーション分野からの時系列マシンデータの2つの公開データセットへのフレームワークの適用を実演する。 本研究は, 改質を伴わない汚染データを用いた簡易な訓練法よりも明らかに優れていることを示す。 さらに、異常のないデータがトレーニングに利用できる理想的で非現実的な参照と比較する。 このアプローチは異常からの情報を利用しており、通常の状態だけでなく、理想的なベースラインよりも優れていることもしばしばある。

Anomaly detection (AD) tasks have been solved using machine learning algorithms in various domains and applications. The great majority of these algorithms use normal data to train a residual-based model, and assign anomaly scores to unseen samples based on their dissimilarity with the learned normal regime. The underlying assumption of these approaches is that anomaly-free data is available for training. This is, however, often not the case in real-world operational settings, where the training data may be contaminated with a certain fraction of abnormal samples. Training with contaminated data, in turn, inevitably leads to a deteriorated AD performance of the residual-based algorithms. In this paper we introduce a framework for a fully unsupervised refinement of contaminated training data for AD tasks. The framework is generic and can be applied to any residual-based machine learning model. We demonstrate the application of the framework to two public datasets of multivariate time series machine data from different application fields. We show its clear superiority over the naive approach of training with contaminated data without refinement. Moreover, we compare it to the ideal, unrealistic reference in which anomaly-free data would be available for training. Since the approach exploits information from the anomalies, and not only from the normal regime, it is comparable and often outperforms the ideal baseline as well.
翻訳日:2023-09-11 17:24:45 公開日:2023-09-07
# ニューラルマップモデルによる3次元形状知覚へのアプローチ

Approaching human 3D shape perception with neurally mappable models ( http://arxiv.org/abs/2308.11300v2 )

ライセンス: Link先を確認
Thomas P. O'Connell, Tyler Bonnen, Yoni Friedman, Ayush Tewari, Josh B. Tenenbaum, Vincent Sitzmann, Nancy Kanwisher(参考訳) 人間は力ずくで物体の3次元形状を推測する。 この能力を支える計算は何か? 様々な計算モデルが提案されているが、いずれも視点によって物体の形状にマッチする人間の能力を捉えていない。 ここでは、このギャップが閉ざされるかどうかと、その方法について尋ねる。 深層ニューラルネットワーク(dnn)における古典的解析・合成の基本原理をカプセル化した,比較的新しい計算モデルである3次元ニューラルフィールドから始める。 まず、3次元光場ネットワーク(3D-LFN)は、標準DNNモデルの3次元故障事例をアクセントする逆定義比較と、アルゴリズムが生成する形状の逆定義比較を、カテゴリー内比較のために人間に適切に整合した3次元マッチング判断をサポートする。 次に,3D-LFNが人間に適応できる能力の源泉について,一連の計算実験を通して検討する。 トレーニング中のオブジェクトの複数の視点への露出と、マルチビュー学習の目的が、モデルと人間のアライメントの背後にある主要な要因である。 最後に、多視点学習目標で訓練されたモデルは、新しい対象カテゴリに部分的に一般化できるが、人間のアライメントに欠けることがわかった。 この研究は、ニューラルマップ可能な計算アーキテクチャ内の人間の形状推論を理解する基盤を提供する。

Humans effortlessly infer the 3D shape of objects. What computations underlie this ability? Although various computational models have been proposed, none of them capture the human ability to match object shape across viewpoints. Here, we ask whether and how this gap might be closed. We begin with a relatively novel class of computational models, 3D neural fields, which encapsulate the basic principles of classic analysis-by-synthesis in a deep neural network (DNN). First, we find that a 3D Light Field Network (3D-LFN) supports 3D matching judgments well aligned to humans for within-category comparisons, adversarially-defined comparisons that accentuate the 3D failure cases of standard DNN models, and adversarially-defined comparisons for algorithmically generated shapes with no category structure. We then investigate the source of the 3D-LFN's ability to achieve human-aligned performance through a series of computational experiments. Exposure to multiple viewpoints of objects during training and a multi-view learning objective are the primary factors behind model-human alignment; even conventional DNN architectures come much closer to human behavior when trained with multi-view objectives. Finally, we find that while the models trained with multi-view learning objectives are able to partially generalize to new object categories, they fall short of human alignment. This work provides a foundation for understanding human shape inferences within neurally mappable computational architectures.
翻訳日:2023-09-11 17:24:08 公開日:2023-09-07
# tensorbank:tensor lakehouseの基礎モデルトレーニング

TensorBank:Tensor Lakehouse for Foundation Model Training ( http://arxiv.org/abs/2309.02094v2 )

ライセンス: Link先を確認
Romeo Kienzler, Benedikt Blumenstiel, Zoltan Arnold Nagy, S. Karthik Mukkavilli, Johannes Schmude, Marcus Freitag, Michael Behrendt, Daniel Salles Civitarese, Naomi Simumba, Daiki Kimura, Hendrik Hamann(参考訳) 基礎モデルトレーニングのための高次元データのストリングとストリーミングは、自然言語を超えた基礎モデルの台頭によって重要な要件となった。 本稿では,複雑なリレーショナルクエリに基づいて,クラウドオブジェクトストア(COS)からGPUメモリへテンソルを高速にストリーミング可能な,ペタバイト規模のテンソルレイクハウスであるTensorBankを紹介する。 クエリアクセラレーションには階層統計指標(HSI)を用いる。 当社のアーキテクチャでは,HTTPレンジ読み込みを使用して,ブロックレベルのテンソルを直接処理することが可能です。 GPUメモリでは、PyTorch変換を使用してデータを変換することができる。 我々は、リレーショナルクエリと要求された変換をインスタンスとして翻訳する、対応するデータセットファクトリを備えた汎用的なPyTorchデータセットタイプを提供する。 hsiを使用することで、無関係なブロックを読まずにスキップすることができる。これらのインデックスは、異なる階層的な解像度レベルにあるコンテンツの統計情報を含んでいる。 これはオープンスタンダードを基盤としたアーキテクチャであり、オープンソーステクノロジーを多用している。 地理空間時間データを用いた生産用として強化されているが、このアーキテクチャはコンピュータビジョン、計算神経科学、生物学的配列解析など他のユースケースに一般化されている。

Storing and streaming high dimensional data for foundation model training became a critical requirement with the rise of foundation models beyond natural language. In this paper we introduce TensorBank, a petabyte scale tensor lakehouse capable of streaming tensors from Cloud Object Store (COS) to GPU memory at wire speed based on complex relational queries. We use Hierarchical Statistical Indices (HSI) for query acceleration. Our architecture allows to directly address tensors on block level using HTTP range reads. Once in GPU memory, data can be transformed using PyTorch transforms. We provide a generic PyTorch dataset type with a corresponding dataset factory translating relational queries and requested transformations as an instance. By making use of the HSI, irrelevant blocks can be skipped without reading them as those indices contain statistics on their content at different hierarchical resolution levels. This is an opinionated architecture powered by open standards and making heavy use of open-source technology. Although, hardened for production use using geospatial-temporal data, this architecture generalizes to other use case like computer vision, computational neuroscience, biological sequence analysis and more.
翻訳日:2023-09-11 17:16:44 公開日:2023-09-07
# 量子力学の疑問と疑問

Questionable and Unquestionable in Quantum Mechanics ( http://arxiv.org/abs/2309.01928v2 )

ライセンス: Link先を確認
Laszlo E. Szabo, Marton Gomori, Zalan Gyenis(参考訳) 我々は、観測可能な事象(測定操作と測定結果)の相対周波数のみに基づく、非常に単純な操作仮定から量子物理学の基本仮定を導出した。 我々は,システム自身の状態と同一視できる概念を,可能なすべての測定操作に対してシステムの確率的振る舞いを特徴付けるという意味で分離する。 我々は,システムの考えられる状態のいくつかの重要な特徴について検討する。 これらの研究はすべて古典コルモゴロヴィアン確率論の枠組みに残っており、操作項で記述できる任意の物理系(伝統的に古典的あるいは量子的に分類される)は古典コルモゴロヴィアン確率論で記述できる。 論文の第2部では、操作項で記述できる任意のものは、もし私たちが望むならば、ヒルベルト空間の量子力学的形式論で表現できることを示す。 それぞれの測定結果はヒルベルト空間全体にまたがる一対の直交閉部分空間の系で表すことができ、系の状態は純粋状態作用素で表すことができ、その結果の確率は通常のトレース式で再現できる。 各実数値量は適切な自己共役作用素と関連付けることができ、可能な測定結果が固有値であり、結果イベントは問題の作用素のスペクトル分解に従って固有空間によって表現される。 これは、量子論の基本的な仮定は、実際に解析的なステートメントであることを示している:それらは、システムが運用用語で記述できるという事実以外に、物理的なシステムについて何も教えてくれない。 これはほぼ真実です。 論文の最後に、得られた表現が標準量子力学と完全に同一でないいくつかの微妙な点について論じる。

We derive the basic postulates of quantum physics from a few very simple operational assumptions based exclusively on the relative frequencies of observable events (measurement operations and measurement outcomes). We isolate a notion which can be identified with the system's own state, in the sense that it characterizes the system's probabilistic behavior against all possible measurement operations. We investigate some important features of the possible states of the system. All those investigations remain within the framework of classical Kolmogorovian probability theory, meaning that any physical system (traditionally categorized as classical or quantum) that can be described in operational terms can be described within classical Kolmogorovian probability theory. In the second part of the paper we show that anything that can be described in operational terms can, if we wish, be represented in the Hilbert space quantum mechanical formalism. The outcomes of each measurement can be represented by a system of pairwise orthogonal closed subspaces spanning the entire Hilbert space; the states of the system can be represented by pure state operators, and the probabilities of the outcomes can be reproduced by the usual trace formula. Each real valued quantity can be associated with a suitable self-adjoint operator, such that the possible measurement results are the eigenvalues and the outcome events are represented by the eigenspaces, according to the spectral decomposition of the operator in question. This suggests that the basic postulates of quantum theory are in fact analytic statements: they do not tell us anything about a physical system beyond the fact that the system can be described in operational terms. This is almost true. At the end of the paper we discuss a few subtle points where the representation we obtained is not completely identical with standard quantum mechanics.
翻訳日:2023-09-11 17:16:23 公開日:2023-09-07
# SMPLitex: 単一画像からの3次元テクスチャ推定のための生成モデルとデータセット

SMPLitex: A Generative Model and Dataset for 3D Human Texture Estimation from Single Image ( http://arxiv.org/abs/2309.01855v2 )

ライセンス: Link先を確認
Dan Casas, Marc Comino-Trinidad(参考訳) SMPLitexは,1枚の画像から得られた人間の3D外観を推定し,操作する手法である。 SMPLitexは、最近提案された2次元画像の生成モデルの上に構築され、入力画像上で計算されたピクセル間対応によって3次元領域に拡張される。 この目的のために,まず3次元人間の外観を再現するための生成モデルを訓練し,その生成モデルを被写体の可視部位に条件付けして入力画像に適合させる。 さらに,主観的記述や画像に条件付きSMPLitexをサンプリングして構築した高品質な人文テクスチャのデータセットを提案する。 SMPLitex が既存のヒトのテクスチャ推定法よりも優れており,編集,合成,操作など幅広いタスクが可能であることを実証し,これらの手法を3つの公開データセットで定量的に質的に評価した。

We propose SMPLitex, a method for estimating and manipulating the complete 3D appearance of humans captured from a single image. SMPLitex builds upon the recently proposed generative models for 2D images, and extends their use to the 3D domain through pixel-to-surface correspondences computed on the input image. To this end, we first train a generative model for complete 3D human appearance, and then fit it into the input image by conditioning the generative model to the visible parts of the subject. Furthermore, we propose a new dataset of high-quality human textures built by sampling SMPLitex conditioned on subject descriptions and images. We quantitatively and qualitatively evaluate our method in 3 publicly available datasets, demonstrating that SMPLitex significantly outperforms existing methods for human texture estimation while allowing for a wider variety of tasks such as editing, synthesis, and manipulation
翻訳日:2023-09-11 17:15:54 公開日:2023-09-07
# 自己教師付きシーケンスモデルの世界モデルにおける創発的線形表現

Emergent Linear Representations in World Models of Self-Supervised Sequence Models ( http://arxiv.org/abs/2309.00941v2 )

ライセンス: Link先を確認
Neel Nanda, Andrew Lee, Martin Wattenberg(参考訳) シーケンスモデルは意思決定プロセスをどのように表現するか? 以前の研究は、Othello-playing Neural Networkがボード状態の非線形モデルを学んだことを示唆している(Li et al., 2023)。 本研究では,板の線形表現が密接に関連していることを示す。 特に、"my color" と "opponent's color" の検索は、モデルの内部状態をシンプルかつ強力に解釈する方法であることを示している。 この内部表現の正確な理解により、単純なベクトル演算でモデルの振る舞いを制御できる。 線形表現は重要な解釈可能性の進展を可能にし,世界モデルがどのように計算されるかをさらに探究する。

How do sequence models represent their decision-making process? Prior work suggests that Othello-playing neural network learned nonlinear models of the board state (Li et al., 2023). In this work, we provide evidence of a closely related linear representation of the board. In particular, we show that probing for "my colour" vs. "opponent's colour" may be a simple yet powerful way to interpret the model's internal state. This precise understanding of the internal representations allows us to control the model's behaviour with simple vector arithmetic. Linear representations enable significant interpretability progress, which we demonstrate with further exploration of how the world model is computed.
翻訳日:2023-09-11 17:14:36 公開日:2023-09-07
# 非コントラストCTにおける急性虚血性脳卒中深層学習のためのランダムエキスパートサンプリング

Random Expert Sampling for Deep Learning Segmentation of Acute Ischemic Stroke on Non-contrast CT ( http://arxiv.org/abs/2309.03930v1 )

ライセンス: Link先を確認
Sophie Ostmeier, Brian Axelrod, Benjamin Pulli, Benjamin F.J. Verhaaren, Abdelkader Mahammedi, Yongkai Liu, Christian Federau, Greg Zaharchuk, and Jeremy J. Heit(参考訳) 目的:非コントラストct資料と方法を用いて、虚血性脳組織を自動的に定量化するための多専門家深層学習法: defuse 3 試験で採用した急性期脳卒中患者233名の非コントラストct260例から構成した。 平均値のu-netは、3人の経験豊富な神経放射線科医が多数決とランダムな専門家サンプリング訓練を用いて脳虚血組織を分割するための基準アノテーションに基づいて訓練された。 我々は,一辺のウィルコクソン符号ランク試験をセグメンテーションの指標を用いて,トレーニングスキームのブートストラップ点推定値と専門家間合意値と一貫性分析の分散率を比較した。 さらに,患者サブグループの24h-follow-up DWI(final infarct core)を完全再灌流し,30日後および90日後の臨床成績(mRS)とSpearman法との相関を検証した。 結果: ランダム・エキスパート・サンプリングは専門家同士の合意よりも専門家との合意が良好で、専門家間の合意よりも合意が良好であるモデルにつながり、多数投票モデルの性能が向上する(耐性が5mm改善が61%から0.70+-0.003、dice改善が25%から0.50+-0.004)。 モデルベース予測容積も同様に最終梗塞容積を推定し,CT灌流より臨床結果と相関した。 結論: ランダムな専門家サンプリングに基づいて訓練されたモデルは、CT灌流と類似した非コントラストCT上の急性虚血性脳組織の存在と位置を、専門家よりも優れた一貫性で特定することができる。 これにより、より専門性の低い病院において、血管内治療を受ける患者の選定をさらに確保することができる。

Purpose: Multi-expert deep learning training methods to automatically quantify ischemic brain tissue on Non-Contrast CT Materials and Methods: The data set consisted of 260 Non-Contrast CTs from 233 patients of acute ischemic stroke patients recruited in the DEFUSE 3 trial. A benchmark U-Net was trained on the reference annotations of three experienced neuroradiologists to segment ischemic brain tissue using majority vote and random expert sampling training schemes. We used a one-sided Wilcoxon signed-rank test on a set of segmentation metrics to compare bootstrapped point estimates of the training schemes with the inter-expert agreement and ratio of variance for consistency analysis. We further compare volumes with the 24h-follow-up DWI (final infarct core) in the patient subgroup with full reperfusion and we test volumes for correlation to the clinical outcome (mRS after 30 and 90 days) with the Spearman method. Results: Random expert sampling leads to a model that shows better agreement with experts than experts agree among themselves and better agreement than the agreement between experts and a majority-vote model performance (Surface Dice at Tolerance 5mm improvement of 61% to 0.70 +- 0.03 and Dice improvement of 25% to 0.50 +- 0.04). The model-based predicted volume similarly estimated the final infarct volume and correlated better to the clinical outcome than CT perfusion. Conclusion: A model trained on random expert sampling can identify the presence and location of acute ischemic brain tissue on Non-Contrast CT similar to CT perfusion and with better consistency than experts. This may further secure the selection of patients eligible for endovascular treatment in less specialized hospitals.
翻訳日:2023-09-11 17:07:15 公開日:2023-09-07
# 大規模自動オーディオブック作成

Large-Scale Automatic Audiobook Creation ( http://arxiv.org/abs/2309.03926v1 )

ライセンス: Link先を確認
Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer(参考訳) オーディオブックは文学のアクセシビリティを劇的に向上させ、読者エンゲージメントを向上させる。 しかしオーディオブックは、作成、編集、出版に数百時間を要する可能性がある。 本稿では,オンライン電子書籍から高品質オーディオブックを自動生成するシステムを提案する。 特に、ニューラルテキストから音声への最近の進歩を活用して、Project Gutenbergの電子書籍コレクションから、何千もの品質の高いオープンライセンスオーディオブックを作成、リリースしています。 本手法では,電子書籍コンテンツの適切なサブセットを同定し,多種多様な構造化された書籍を並列に処理することができる。 本システムでは,音声ブックの発話速度とスタイル,感情的イントネーションをカスタマイズでき,少量のサンプル音声を用いて所望の音声とマッチングすることもできる。 この研究は、5,000以上のオープンライセンスオーディオブックと、ユーザーがカスタマイズしたオーディオブックを素早く作成できるインタラクティブなデモに寄与した。 オーディオブックコレクションの訪問を聞くには、 \url{https://aka.ms/audiobook}。

An audiobook can dramatically improve a work of literature's accessibility and improve reader engagement. However, audiobooks can take hundreds of hours of human effort to create, edit, and publish. In this work, we present a system that can automatically generate high-quality audiobooks from online e-books. In particular, we leverage recent advances in neural text-to-speech to create and release thousands of human-quality, open-license audiobooks from the Project Gutenberg e-book collection. Our method can identify the proper subset of e-book content to read for a wide collection of diversely structured books and can operate on hundreds of books in parallel. Our system allows users to customize an audiobook's speaking speed and style, emotional intonation, and can even match a desired voice using a small amount of sample audio. This work contributed over five thousand open-license audiobooks and an interactive demo that allows users to quickly create their own customized audiobooks. To listen to the audiobook collection visit \url{https://aka.ms/audiobook}.
翻訳日:2023-09-11 17:06:35 公開日:2023-09-07
# 注意を超えて:弱教師付きマルチインスタンス学習モデルから生物学的解釈可能な洞察を得る

Beyond attention: deriving biologically interpretable insights from weakly-supervised multiple-instance learning models ( http://arxiv.org/abs/2309.03925v1 )

ライセンス: Link先を確認
Willem Bonnaff\'e, CRUK ICGC Prostate Group, Freddie Hamdy, Yang Hu, Ian Mills, Jens Rittscher, Clare Verrill, Dan J. Woodcock(参考訳) 注意に基づく複数インスタンス学習(mil)の最近の進歩は、モデルがデジタル病理学の予測に頼る組織領域に対する洞察を改善しました。 しかし、これらのアプローチの解釈可能性はまだ限られている。 特に、ハイアテンション領域がクラスラベルと正の関連があるか負の関連があるか、あるいはこれらの領域が以前に確立された臨床および生物学的知識とどの程度の対応があるかを報告していない。 MILモデルを分析するためのポストトレーニング手法を導入することで、この問題に対処する。 まず,洗練されたエンコーダによって生成されるタイルレベルの注意点と予測スコアを組み合わせることで,高精度領域の予測寄与度を定量化する。 第2に,PAWマップと核分割マスクの統合による生物学的特徴のインスタンス化手法を導入する。 これにより、組織の細胞組織に関連する生物学的に有意義な特徴を提供することにより、解釈性をさらに向上させ、既知の臨床特徴との比較を容易にする。 前立腺癌診断のためのPAWマップ(悪性組織を含むサンプル381/516の組織サンプル)と予後(手術後の生化学的再発患者からのサンプル98/663の組織サンプル)を、国際がんゲノムコンソーシアム(ICGC UK前立腺グループ)の患者のコホートで比較し、本手法の有用性について述べる。 以上の結果から,予後予測領域は腫瘍領域と共存しない傾向にあり,予後評価には非がん細胞も研究すべきであることが示唆された。

Recent advances in attention-based multiple instance learning (MIL) have improved our insights into the tissue regions that models rely on to make predictions in digital pathology. However, the interpretability of these approaches is still limited. In particular, they do not report whether high-attention regions are positively or negatively associated with the class labels or how well these regions correspond to previously established clinical and biological knowledge. We address this by introducing a post-training methodology to analyse MIL models. Firstly, we introduce prediction-attention-weighted (PAW) maps by combining tile-level attention and prediction scores produced by a refined encoder, allowing us to quantify the predictive contribution of high-attention regions. Secondly, we introduce a biological feature instantiation technique by integrating PAW maps with nuclei segmentation masks. This further improves interpretability by providing biologically meaningful features related to the cellular organisation of the tissue and facilitates comparisons with known clinical features. We illustrate the utility of our approach by comparing PAW maps obtained for prostate cancer diagnosis (i.e. samples containing malignant tissue, 381/516 tissue samples) and prognosis (i.e. samples from patients with biochemical recurrence following surgery, 98/663 tissue samples) in a cohort of patients from the international cancer genome consortium (ICGC UK Prostate Group). Our approach reveals that regions that are predictive of adverse prognosis do not tend to co-locate with the tumour regions, indicating that non-cancer cells should also be studied when evaluating prognosis.
翻訳日:2023-09-11 17:06:17 公開日:2023-09-07
# 計算時間制限付き擬似ブール最適化の自動アルゴリズム選択

Automatic Algorithm Selection for Pseudo-Boolean Optimization with Given Computational Time Limits ( http://arxiv.org/abs/2309.03924v1 )

ライセンス: Link先を確認
Catalina Pezo and Dorit Hochbaum and Julio Godoy and Roberto Asin-Acha(参考訳) 予測性能に基づいて解法ポートフォリオから最適な解法を自動的に選択する機械学習(ml)手法が提案されている。 これらのテクニックは、Boolean Satisfiability、Traveing Salesperson、Graph Coloringなど、さまざまな問題に適用されている。 これらのメソッドはメタソルバと呼ばれ、問題のインスタンスと解決者のポートフォリオを入力として取ります。 そして、最高のパフォーマンスの解決方法を予測し、それを実行してソリューションを提供する。 典型的には、解の質は計算時間を長くすることで向上する。 これはインスタンスとユーザが指定した計算時間制限の両方を考慮し、任意の時間セレクタの開発につながった。 任意のメタ解決器は、指定された時間制限内で最高の性能の解決器を予測する。 anytimeメタソルバの構築は、"anytime"機能なしでメタソルバを構築するよりも、はるかに難しい。 本研究では, Pseudo-Boolean Optimization (PBO) のNPハード最適化問題に対して, 満足度と最大満足度を一般化したメタゾルバを設計する作業に焦点をあてる。 提案手法の有効性は,ポートフォリオにおける最高のシングルソルバであるMixed Integer Programming solver Gurobiのパフォーマンスにおいて,常にメタソルバが劇的に向上する,広範な実証研究によって実証された。 例えば、Gurobiが実現可能なソリューションを見つけられなかったすべてのインスタンスと時間制限の中で、私たちのメタソリューションは、これらの47%で実現可能なソリューションを特定しました。

Machine learning (ML) techniques have been proposed to automatically select the best solver from a portfolio of solvers, based on predicted performance. These techniques have been applied to various problems, such as Boolean Satisfiability, Traveling Salesperson, Graph Coloring, and others. These methods, known as meta-solvers, take an instance of a problem and a portfolio of solvers as input. They then predict the best-performing solver and execute it to deliver a solution. Typically, the quality of the solution improves with a longer computational time. This has led to the development of anytime selectors, which consider both the instance and a user-prescribed computational time limit. Anytime meta-solvers predict the best-performing solver within the specified time limit. Constructing an anytime meta-solver is considerably more challenging than building a meta-solver without the "anytime" feature. In this study, we focus on the task of designing anytime meta-solvers for the NP-hard optimization problem of Pseudo-Boolean Optimization (PBO), which generalizes Satisfiability and Maximum Satisfiability problems. The effectiveness of our approach is demonstrated via extensive empirical study in which our anytime meta-solver improves dramatically on the performance of Mixed Integer Programming solver Gurobi, which is the best-performing single solver in the portfolio. For example, out of all instances and time limits for which Gurobi failed to find feasible solutions, our meta-solver identified feasible solutions for 47% of these.
翻訳日:2023-09-11 17:05:46 公開日:2023-09-07
# A-Eval: 腹部多臓器分節のクロスデータセット評価のためのベンチマーク

A-Eval: A Benchmark for Cross-Dataset Evaluation of Abdominal Multi-Organ Segmentation ( http://arxiv.org/abs/2309.03906v1 )

ライセンス: Link先を確認
Ziyan Huang and Zhongying Deng and Jin Ye and Haoyu Wang and Yanzhou Su and Tianbin Li and Hui Sun and Junlong Cheng and Jianpin Chen and Junjun He and Yun Gu and Shaoting Zhang and Lixu Gu and Yu Qiao(参考訳) 深層学習は腹部の多臓器セグメンテーションに革命をもたらしたが、モデルは小さな特定のデータセットのトレーニングのために一般化に苦慮することが多い。 大規模なデータセットが最近出現すると、いくつかの重要な疑問が生まれている。 yes/noの場合、その一般化性をさらに改善するにはどうすればよいのか? A-EvalはAbdominal(A)マルチ組織セグメンテーションのクロスデータセット評価(Eval)のためのベンチマークである。 flare22, amos, word, totalsegmentatorの4つの大規模データセットから,腹部マルチオルガンセグメンテーションのための広範なラベルを提供するトレーニングセットを採用している。 評価には、これらのデータセットの検証セットとBTCVデータセットのトレーニングセットを併用し、5つの異なるデータセットからなる堅牢なベンチマークを作成する。 本稿では,a-evalベンチマークを用いて,個別データセットを個別にトレーニングすること,擬似ラベルによるラベルなしデータの利用,異なるモダリティの混合,利用可能なデータセット全体の合同トレーニングなど,さまざまなデータ利用シナリオに注目して,さまざまなモデルの一般化可能性を評価する。 さらに,モデルサイズがデータセット間の一般化性に与える影響についても検討する。 これらの分析を通じて、モデルの一般化能力向上における効果的なデータ利用の重要性を強調し、大規模データセットの組み立てとトレーニング戦略の改善に有用な洞察を提供する。 コードと事前訓練されたモデルは、 \href{https://github.com/uni-medical/A-Eval}{https://github.com/uni-medical/A-Eval}で入手できる。

Although deep learning have revolutionized abdominal multi-organ segmentation, models often struggle with generalization due to training on small, specific datasets. With the recent emergence of large-scale datasets, some important questions arise: \textbf{Can models trained on these datasets generalize well on different ones? If yes/no, how to further improve their generalizability?} To address these questions, we introduce A-Eval, a benchmark for the cross-dataset Evaluation ('Eval') of Abdominal ('A') multi-organ segmentation. We employ training sets from four large-scale public datasets: FLARE22, AMOS, WORD, and TotalSegmentator, each providing extensive labels for abdominal multi-organ segmentation. For evaluation, we incorporate the validation sets from these datasets along with the training set from the BTCV dataset, forming a robust benchmark comprising five distinct datasets. We evaluate the generalizability of various models using the A-Eval benchmark, with a focus on diverse data usage scenarios: training on individual datasets independently, utilizing unlabeled data via pseudo-labeling, mixing different modalities, and joint training across all available datasets. Additionally, we explore the impact of model sizes on cross-dataset generalizability. Through these analyses, we underline the importance of effective data usage in enhancing models' generalization capabilities, offering valuable insights for assembling large-scale datasets and improving training strategies. The code and pre-trained models are available at \href{https://github.com/uni-medical/A-Eval}{https://github.com/uni-medical/A-Eval}.
翻訳日:2023-09-11 17:04:10 公開日:2023-09-07
# LanSER:言語モデルによる音声感情認識

LanSER: Language-Model Supported Speech Emotion Recognition ( http://arxiv.org/abs/2309.03978v1 )

ライセンス: Link先を確認
Taesik Gong, Josh Belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou(参考訳) 音声感情認識(ser: speech emotion recognition)モデルは、トレーニングのための高価な人間ラベルデータに依存しているため、大規模な音声データセットやニュアンス感情分類へのスケーリングが難しい。 本稿では,弱教師付き学習を通じて,事前学習された大規模言語モデルを通じて弱感情ラベルを推測することにより,ラベルなしデータの利用を可能にする手法であるlanserを提案する。 分類学に制約された弱いラベルを推測するために、自動音声認識によって抽出された音声写本に対して、最も制限スコアの高い感情ラベルを選択するテクスト的包含アプローチを用いる。 実験の結果,この弱い教師付きデータセットで事前学習したモデルが,標準的なserデータセットのベースラインモデルよりも優れており,ラベル効率が向上していることがわかった。 テキストのみ由来のラベルを予め学習したものの,結果表現が音声の韻律的コンテンツをモデル化しているように見える。

Speech emotion recognition (SER) models typically rely on costly human-labeled data for training, making scaling methods to large speech datasets and nuanced emotion taxonomies difficult. We present LanSER, a method that enables the use of unlabeled data by inferring weak emotion labels via pre-trained large language models through weakly-supervised learning. For inferring weak labels constrained to a taxonomy, we use a textual entailment approach that selects an emotion label with the highest entailment score for a speech transcript extracted via automatic speech recognition. Our experimental results show that models pre-trained on large datasets with this weak supervision outperform other baseline models on standard SER datasets when fine-tuned, and show improved label efficiency. Despite being pre-trained on labels derived only from text, we show that the resulting representations appear to model the prosodic content of speech.
翻訳日:2023-09-11 16:56:45 公開日:2023-09-07
# TaaS(Testing-as-a-Service)フレームワークにおける低ノイズアンプ低温テストベッド検証

Low-noise amplifier cryogenic testbed validation in a TaaS (Testing-as-a-Service) framework ( http://arxiv.org/abs/2309.03976v1 )

ライセンス: Link先を確認
Brandon Boiko, Eric J. Zhang, Doug Jorgesen, Sebastian Engelmann, Curtis Grosskopf, Ryan Paske(参考訳) 超伝導量子ビットプロセッサをベースとした量子コンピュータがスケールするにつれて、量子ビット制御とリードアウトチェーンの低温マイクロ波成分は、一貫した高忠実な量子計算を保証するために適切にテストされ、資格が求められる。 しかし、超伝導低温とマイクロ波エレクトロニクスの交差は新しい領域であり、技術と商業の専門知識は限られている。 本稿では,(1)商業試験場,(2)標準温度部品メーカー,(3)アカデミックパートナー,(4)システムインテグレータからなる組織ワークグループモデルを用いてtaas(testing-as-a-service)フレームワークを検証し,極低温マイクロ波部品の資格に関するスケーラブルなモデルを示す。 このモデルの目標はサプライチェーンを確保し、量子コンピューティング(qc)技術の急速な成長をサポートすることである。 本論文で提示される部品試験車両は低雑音増幅器 (LNA) であり, 低温鎖の重要な成分であり, 量子ビット読み出しの適切な信号対雑音を確保する。 我々は、利得や平坦性、反射と分離、動作帯域幅、ノイズフィギュアといった重要なパラメータを含む、lnaパフォーマンスを測定する標準テストメトリクスとプロトコルを考案する。 本稿では,LNAの資格,テスト方法論の概要,およびデータ照合とレポートの体系化に使用される一連の標準プロセスについて述べる。 プレキャラクタライズされたLNAのパラメータを再生してテストベッドを検証する。 その価値は概念実証型低温LNAプロトタイプを特徴付けることで示される。 最後に、QCで使用される様々なアクティブおよびパッシブ極低温コンポーネントの大規模テストに向けたTaaSフレームワークの拡張について述べる。

As quantum computers based on superconducting qubit processors scale, cryogenic microwave components in the qubit control and readout chain must be appropriately tested and qualified to ensure consistent and high-fidelity quantum computation. However, the intersection of superconducting cryogenics and microwave electronics is a new domain with limited technical and commercial expertise. In this paper we validate a TaaS (testing-as-a-service) framework using an organizational workgroup model that consists of (1) a commercial Test House, (2) standard temperature Component Manufacturer, (3) Academic Partner, and (4) System Integrator to demonstrate a scalable model for the qualification of cryogenic microwave components. The goal of this model is to secure the supply chain and support the rapid growth of Quantum Computing (QC) technologies. The component test vehicle presented in this paper is a low-noise amplifier (LNA) which is a crucial component in the cryogenic chain to ensure adequate signal-to-noise of the qubit readout. We devise standard test metrics and protocols by which LNA performance is measured, including key parameters such as gain and flatness, reflection and isolation, operating bandwidth, and noise figure. We present details of the cryogenic testbed customized for LNA qualification, outline test methodologies, and present a suite of standard processes that are used to systematize data collation and reporting. The testbed is validated by reproducing parameters of a pre-characterized LNA. Its value is demonstrated by characterizing a proof-of-concept cryogenic LNA prototype. Finally, we describe the extension of our TaaS framework toward testing at scale for various active and passive cryogenic components used in QC.
翻訳日:2023-09-11 16:56:29 公開日:2023-09-07
# DBsurf:離散確率勾配推定のための離散性に基づく手法

DBsurf: A Discrepancy Based Method for Discrete Stochastic Gradient Estimation ( http://arxiv.org/abs/2309.03974v1 )

ライセンス: Link先を確認
Pau Mulet Arabi, Alec Flowers, Lukas Mauch, Fabien Cardinaux(参考訳) 離散分布の分布パラメータに関する期待値の勾配の計算は、科学や工学の多くの分野において生じる問題である。 通常、この問題はモンテカルロシミュレーションとして勾配推定の問題をフレーム化したReinforceを用いて取り組まれる。 残念なことに、補強推定器は、真の確率分布と抽出されたサンプルとの差に特に敏感である。 本稿では,サンプルと実際の分布との差を低減するために,新しいサンプリング手法を用いた離散分布の強化に基づく推定器DBsurfを紹介する。 推定器の性能を評価するために、様々なタスクを課します。 既存の推定子のうち、dbsurfはベンチマークの文献でよく使われる最小二乗問題の最小分散を達成する。 さらに、DBsurfは、さまざまなデータセットとサンプリングセットアップをまたいだ変分自動エンコーダ(VAE)のトレーニングに最適な結果を得る。 最後に、DBsurfを用いて、最先端の性能を持つ単純で効率的なニューラルネットワーク探索(NAS)アルゴリズムを構築する。

Computing gradients of an expectation with respect to the distributional parameters of a discrete distribution is a problem arising in many fields of science and engineering. Typically, this problem is tackled using Reinforce, which frames the problem of gradient estimation as a Monte Carlo simulation. Unfortunately, the Reinforce estimator is especially sensitive to discrepancies between the true probability distribution and the drawn samples, a common issue in low sampling regimes that results in inaccurate gradient estimates. In this paper, we introduce DBsurf, a reinforce-based estimator for discrete distributions that uses a novel sampling procedure to reduce the discrepancy between the samples and the actual distribution. To assess the performance of our estimator, we subject it to a diverse set of tasks. Among existing estimators, DBsurf attains the lowest variance in a least squares problem commonly used in the literature for benchmarking. Furthermore, DBsurf achieves the best results for training variational auto-encoders (VAE) across different datasets and sampling setups. Finally, we apply DBsurf to build a simple and efficient Neural Architecture Search (NAS) algorithm with state-of-the-art performance.
翻訳日:2023-09-11 16:56:01 公開日:2023-09-07
# 自動概念埋め込みモデル(ACEM: Automatic Concept Embedding Model): 列車時間の概念はなし、問題なし。

Automatic Concept Embedding Model (ACEM): No train-time concepts, No issue! ( http://arxiv.org/abs/2309.03970v1 )

ライセンス: Link先を確認
Rishabh Jain(参考訳) ニューラルネットワークの解釈性と説明性は、特に安全クリティカルな領域において、継続的に重要性を増し、説明の社会的権利を提供する。 概念に基づく説明は、人間がどう考えるかとよく一致し、モデルを説明する良い方法であることが証明される。 概念埋め込みモデル(Concept Embedding Models, CEM)は、そのような概念に基づく説明アーキテクチャである。 これらは説明可能性とパフォーマンスのトレードオフを克服している。 しかし、これらには重要な制限があり、トレーニングデータすべてに概念アノテーションが必要である。 大きなデータセットの場合、これは高価で実現不可能である。 そこで我々は,概念アノテーションを自動的に学習するACEM(Automatic Concept Embedding Models)を提案する。

Interpretability and explainability of neural networks is continuously increasing in importance, especially within safety-critical domains and to provide the social right to explanation. Concept based explanations align well with how humans reason, proving to be a good way to explain models. Concept Embedding Models (CEMs) are one such concept based explanation architectures. These have shown to overcome the trade-off between explainability and performance. However, they have a key limitation -- they require concept annotations for all their training data. For large datasets, this can be expensive and infeasible. Motivated by this, we propose Automatic Concept Embedding Models (ACEMs), which learn the concept annotations automatically.
翻訳日:2023-09-11 16:55:44 公開日:2023-09-07
# 小さなデータセットでトレーニングされたresnet-9一般化の改善

Improving Resnet-9 Generalization Trained on Small Datasets ( http://arxiv.org/abs/2309.03965v1 )

ライセンス: Link先を確認
Omar Mohamed Awad and Habib Hajimolahoseini and Michael Lim and Gurpreet Gosal and Walid Ahmed and Yang Liu and Gordon Deng(参考訳) 本稿では,ハードウェア・アウェア・エフェクト・トレーニングに関するICLRコンペティションで優勝した提案手法について述べる。 課題は、画像分類タスクにおいて10分以内で可能な限り高い精度を達成することである。 トレーニングは、CIFAR-10データセットからランダムに選択された5000の画像の小さなデータセット上で行われる。 この評価は、同じサイズの1000画像を有する秘密データセット上で、コンペティタ主催者によって行われる。 提案手法には,シャープネス対応最適化,ラベルスムーズ化,勾配集中化,入力パッチの白化,メタラーニングに基づくトレーニングなど,ResNet-9の一般化のための一連の技術の適用が含まれている。 我々の実験によると、ResNet-9は10ミリ秒未満でCIFAR-10データセットの10%サブセットのみをトレーニングしながら88%の精度を達成することができる。

This paper presents our proposed approach that won the first prize at the ICLR competition on Hardware Aware Efficient Training. The challenge is to achieve the highest possible accuracy in an image classification task in less than 10 minutes. The training is done on a small dataset of 5000 images picked randomly from CIFAR-10 dataset. The evaluation is performed by the competition organizers on a secret dataset with 1000 images of the same size. Our approach includes applying a series of technique for improving the generalization of ResNet-9 including: sharpness aware optimization, label smoothing, gradient centralization, input patch whitening as well as metalearning based training. Our experiments show that the ResNet-9 can achieve the accuracy of 88% while trained only on a 10% subset of CIFAR-10 dataset in less than 10 minuets
翻訳日:2023-09-11 16:55:33 公開日:2023-09-07
# REALM: 単サンプルテスト時間適応の改善のためのロバストエントロピー適応損失最小化

REALM: Robust Entropy Adaptive Loss Minimization for Improved Single-Sample Test-Time Adaptation ( http://arxiv.org/abs/2309.03964v1 )

ライセンス: Link先を確認
Skyler Seto, Barry-John Theobald, Federico Danieli, Navdeep Jaitly, Dan Busbridge(参考訳) フルテスト時間適応(F-TTA)は,トレーニングデータにアクセスせずに,(2)モデルトレーニング手順の知識のない,列車とテストデータの分散シフトによる性能損失を軽減することができる。 オンラインF-TTAでは、エントロピーの最小化などの自己監督対象を最小化することにより、事前訓練されたモデルがテストサンプルのストリームを使用して適応される。 しかし、エントロピー最小化を用いてオンラインに適応したモデルは、特に単一サンプル設定では不安定であり、解を退化させ、TTA推論戦略の採用を制限する。 先行研究は、オンラインf-ttaの失敗の原因として、ノイズや信頼性の低いサンプルを特定した。 ひとつの解決策は、これらのサンプルを無視することであり、更新手順のバイアス、適応の遅さ、一般化不足につながる可能性がある。 本稿では,これらの雑音試料に対するf-ttaのロバスト性を改善するための汎用フレームワークを提案する。 提案手法であるRobust Entropy Adaptive Loss Minimization (REALM) は,CIFAR-10とImageNet-1Kの劣化に対する適応過程を通じて,従来の手法よりも適応精度を向上し,その効果を実証する。

Fully-test-time adaptation (F-TTA) can mitigate performance loss due to distribution shifts between train and test data (1) without access to the training data, and (2) without knowledge of the model training procedure. In online F-TTA, a pre-trained model is adapted using a stream of test samples by minimizing a self-supervised objective, such as entropy minimization. However, models adapted with online using entropy minimization, are unstable especially in single sample settings, leading to degenerate solutions, and limiting the adoption of TTA inference strategies. Prior works identify noisy, or unreliable, samples as a cause of failure in online F-TTA. One solution is to ignore these samples, which can lead to bias in the update procedure, slow adaptation, and poor generalization. In this work, we present a general framework for improving robustness of F-TTA to these noisy samples, inspired by self-paced learning and robust loss functions. Our proposed approach, Robust Entropy Adaptive Loss Minimization (REALM), achieves better adaptation accuracy than previous approaches throughout the adaptation process on corruptions of CIFAR-10 and ImageNet-1K, demonstrating its effectiveness.
翻訳日:2023-09-11 16:55:20 公開日:2023-09-07
# 実局所振動子を用いた連続可変量子鍵分布場試験

Continuous-variable quantum key distribution field-test with true local oscillator ( http://arxiv.org/abs/2309.03959v1 )

ライセンス: Link先を確認
Brian P. Williams, Bing Qi, Muneer Alshowkan, Philip G. Evans, and Nicholas A. Peters(参考訳) 共振器(LO)を用いた連続可変量子鍵分布(CV-QKD)は、LOの伝送に伴うサイドチャネル攻撃の可能性を排除するとともに、クロスパルス汚染を低減するために提案されている。 ここでは,オークリッジ国立研究所で「オフザシェルフ」コンポーネントを用いた真のLOCV-QKDの実装を行い,光ファイバーネットワークを用いたQKD実験を行った。 位相基準と量子信号は時間多重化され、波長分割は1つの光ネットワークファイバー上で「共存」する古典的な通信と多重化される。 これはCV-QKDが、実際の状況で適用するための重要なステップである、デプロイされたファイバネットワーク上で、レシーバベースの真のLOを使用した最初のデモである。

Continuous-variable quantum key distribution (CV-QKD) using a true local (located at the receiver) oscillator (LO) has been proposed to remove any possibility of side-channel attacks associated with transmission of the LO as well as reduce the cross-pulse contamination. Here we report an implementation of true LO CV-QKD using "off-the-shelf" components and conduct QKD experiments using the fiber optical network at Oak Ridge National Laboratory. A phase reference and quantum signal are time multiplexed and then wavelength division multiplexed with the classical communications which "coexist" with each other on a single optical network fiber. This is the first demonstration of CV-QKD with a receiver-based true LO over a deployed fiber network, a crucial step for its application in real-world situations.
翻訳日:2023-09-11 16:54:56 公開日:2023-09-07
# SimpleNeRF: 単純解を用いたスパース入力ニューラルラジアンスフィールドの正規化

SimpleNeRF: Regularizing Sparse Input Neural Radiance Fields with Simpler Solutions ( http://arxiv.org/abs/2309.03955v1 )

ライセンス: Link先を確認
Nagabhushan Somraj, Adithyan Karanayil, Rajiv Soundararajan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンのフォトリアリスティックなフリービューレンダリングに優れた性能を示す。 しかし、NeRFはシーン内の画像の濃密なサンプリングを必要とし、その性能はスパースビューのみが利用可能である場合に著しく低下する。 研究者たちは、NeRFによって推定される深度を監督することで、より少ない視野で効果的にトレーニングできることを発見した。 奥行きの監視は、古典的なアプローチか、大規模なデータセットで事前訓練されたニューラルネットワークを使って得られる。 前者はまばらな監督のみを提供するが、後者は一般化の問題に苦しむこともある。 従来のアプローチとは対照的に,我々は,拡張モデルを設計し,NeRFとともに訓練することにより,深度監視の学習を目指す。 我々は,nrfの訓練における位置エンコーディングとビュー依存輝度の役割を探究することにより,より単純な解を奨励する拡張モデルを設計する。 これらの単純なモデルにより推定される深さは、NeRF深度推定を監督するために使用される。 拡張モデルは特定の領域で不正確であるため,信頼性の高い深度推定のみを選択する機構を設計する。 最後に,NeRFの粗い多層パーセプトロンと微細な多層パーセプトロンとの整合性損失を加え,階層的サンプリングの精度向上を図る。 上記の正規化を用いて,2つの人気データセットにおける最先端のビュー合成性能を実現する。 私たちのモデルのソースコードは、プロジェクトのページで確認できます。

Neural Radiance Fields (NeRF) show impressive performance for the photorealistic free-view rendering of scenes. However, NeRFs require dense sampling of images in the given scene, and their performance degrades significantly when only a sparse set of views are available. Researchers have found that supervising the depth estimated by the NeRF helps train it effectively with fewer views. The depth supervision is obtained either using classical approaches or neural networks pre-trained on a large dataset. While the former may provide only sparse supervision, the latter may suffer from generalization issues. As opposed to the earlier approaches, we seek to learn the depth supervision by designing augmented models and training them along with the NeRF. We design augmented models that encourage simpler solutions by exploring the role of positional encoding and view-dependent radiance in training the few-shot NeRF. The depth estimated by these simpler models is used to supervise the NeRF depth estimates. Since the augmented models can be inaccurate in certain regions, we design a mechanism to choose only reliable depth estimates for supervision. Finally, we add a consistency loss between the coarse and fine multi-layer perceptrons of the NeRF to ensure better utilization of hierarchical sampling. We achieve state-of-the-art view-synthesis performance on two popular datasets by employing the above regularizations. The source code for our model can be found on our project page: https://nagabhushansn95.github.io/publications/2023/SimpleNeRF.html
翻訳日:2023-09-11 16:54:43 公開日:2023-09-07
# 高次元における非エルミートスキンモードのエッジ理論

Edge theory of the non-Hermitian skin modes in higher dimensions ( http://arxiv.org/abs/2309.03950v1 )

ライセンス: Link先を確認
Kai Zhang, Zhesen Yang, Kai Sun(参考訳) 本稿では,高次元非エルミートエッジスキンモードに対する普遍エッジ理論を提案する。 十分に理解されているコーナースキン効果とは対照的に、エッジスキン効果は相互性や反転の保護を必要とする。 正確なマッピングを通して、これらのスキンモードはフェルミ-アルク状態と同じバルクエッジ対応をエルミート・ディラック半金属で共有していることが分かる。 このマッピングに基づいて,スキンエッジを識別するためのバルク投影基準を導入し,特定のシリンダ幾何学の下での非ブロッホハミルトニアンを用いてエッジスキモードの局在特徴を特徴付ける。 エッジスキンモードは、エッジに沿って実数値モータを持つ成分で構成されており、興味深いことに、崩壊方向は通常、エッジの通常の方向から逸脱している。 さらに, 脆弱な相反性に反する障害に対するシリンダー幾何学スペクトルの顕著な感度を明らかにする。 この対称性が破壊されるとき、シリンダー幾何学スペクトルは、近辺の開境界スペクトルへの急激な遷移を行い、コーナースキン効果とエッジスキン効果の鍵となる違いを暗示する。

In this Letter, we propose a universal edge theory for the higher-dimensional non-Hermitian edge-skin modes. In contrast to the well-understood corner-skin effect, we demonstrate that the edge-skin effect requires the protection of reciprocity or inversion. Through an exact mapping, we show that these skin modes share the same bulk-edge correspondence as the Fermi-arc states in a Hermitian Dirac semimetal. Based on this mapping, we introduce a bulk projection criterion to identify the skin edge, and utilize the non-Bloch Hamiltonian under specific cylinder geometry to characterize the localization features of edge-skin modes. We find that the edge-skin modes are made of components with real-valued momenta along the edge, and interestingly the decay direction typically deviates from the normal direction of the edge, a phenomenon we term skewness. Furthermore, we reveal the remarkable sensitivity of the cylinder-geometry spectrum to disturbances that violate fragile reciprocity. When this symmetry is disrupted, the cylinder-geometry spectrum undergoes an abrupt transition towards the near open-boundary spectrum, underscoring a key difference between corner-skin and edge-skin effects.
翻訳日:2023-09-11 16:54:19 公開日:2023-09-07
# BluNF: ブループリントニューラルフィールド

BluNF: Blueprint Neural Field ( http://arxiv.org/abs/2309.03933v1 )

ライセンス: Link先を確認
Robin Courant, Xi Wang, Marc Christie and Vicky Kalogeiton(参考訳) neural radiance fields (nerfs) はシーンの新しいビュー合成に革命をもたらし、視覚的にリアルで正確で堅牢な暗黙の再構成を提供する。 最近のアプローチでは、オブジェクトの削除や3d形状の修正、マテリアルプロパティの操作など、nerf編集を可能にする一方で、編集前の手動アノテーションによってプロセスが退屈になる。 さらに、従来の2Dインタラクションツールは正確な3D空間の感覚がなく、シーンの正確な操作や編集を妨げている。 本稿では,これらの編集問題に対処するため,Blueprint Neural Field (BluNF) と呼ばれる新しい手法を提案する。 BluNFは、堅牢でユーザフレンドリな2Dブループリントを提供し、直感的なシーン編集を可能にする。 暗黙的なニューラルネットワーク表現を活用することで、blunfは、事前の意味と深さの情報を使用してシーンの青写真を構築する。 生成された青写真は、NeRF表現の絶え間ない編集と操作を可能にする。 直感的なクリック・アンド・チェンジ機構によってBluNFの編集性を実証し,マスキング,外観修正,オブジェクト除去などの3D操作を可能にする。 われわれのアプローチは、ビジュアルコンテンツ作成に大きく貢献し、この分野におけるさらなる研究の道を開いた。

Neural Radiance Fields (NeRFs) have revolutionized scene novel view synthesis, offering visually realistic, precise, and robust implicit reconstructions. While recent approaches enable NeRF editing, such as object removal, 3D shape modification, or material property manipulation, the manual annotation prior to such edits makes the process tedious. Additionally, traditional 2D interaction tools lack an accurate sense of 3D space, preventing precise manipulation and editing of scenes. In this paper, we introduce a novel approach, called Blueprint Neural Field (BluNF), to address these editing issues. BluNF provides a robust and user-friendly 2D blueprint, enabling intuitive scene editing. By leveraging implicit neural representation, BluNF constructs a blueprint of a scene using prior semantic and depth information. The generated blueprint allows effortless editing and manipulation of NeRF representations. We demonstrate BluNF's editability through an intuitive click-and-change mechanism, enabling 3D manipulations, such as masking, appearance modification, and object removal. Our approach significantly contributes to visual content creation, paving the way for further research in this area.
翻訳日:2023-09-11 16:53:59 公開日:2023-09-07
# 非拘束最適化問題に対する要素方向rsavアルゴリズム

An Element-wise RSAV Algorithm for Unconstrained Optimization Problems ( http://arxiv.org/abs/2309.04013v1 )

ライセンス: Link先を確認
Shiheng Zhang, Jiahao Zhang, Jie Shen and Guang Lin(参考訳) 本研究では、非条件エネルギー散逸則を満たす新しい最適化アルゴリズム、E-RSAVを提案し、修正されたエネルギーと元のエネルギーとの整合性を改善した。 本アルゴリズムは凸設定における線形収束の厳密な証明を特徴とする。 さらに,不定値の場合の線形収束率を超線形に改善する簡易な高速化アルゴリズムを提案する。 また,ステッフェンセンステップサイズを持つ適応型E-RSAVを提案する。 アルゴリズムのロバスト性と高速収束性を検証するため,十分な数値実験を行った。

We present a novel optimization algorithm, element-wise relaxed scalar auxiliary variable (E-RSAV), that satisfies an unconditional energy dissipation law and exhibits improved alignment between the modified and the original energy. Our algorithm features rigorous proofs of linear convergence in the convex setting. Furthermore, we present a simple accelerated algorithm that improves the linear convergence rate to super-linear in the univariate case. We also propose an adaptive version of E-RSAV with Steffensen step size. We validate the robustness and fast convergence of our algorithm through ample numerical experiments.
翻訳日:2023-09-11 16:46:11 公開日:2023-09-07
# 材料セグメンテーション用マルチモーダル変圧器

Multimodal Transformer for Material Segmentation ( http://arxiv.org/abs/2309.04001v1 )

ライセンス: Link先を確認
Md Kaykobad Reza (1), Ashley Prater-Bennette (2), M. Salman Asif (1) ((1) University of California, Riverside, (2) Air Force Research Laboratory)(参考訳) 多様なモダリティにまたがる情報を活用することで、マルチモーダルセグメンテーションタスクの性能を高めることが知られている。 しかし,各モダリティのユニークな特徴から,異なるモダリティの情報を効果的に活用することは依然として困難である。 本稿では,RGB,直線偏光角(AoLP),直線偏光度(DoLP),近赤外線(NIR)の4つの異なる組み合わせから情報を効果的に融合する新しい融合戦略を提案する。 また,マルチモーダルセグメンテーションを行うための核融合戦略を組み込んだマルチモーダルセグメンテーショントランスフォーマ (mmsformer) という新しいモデルを提案する。 MMSFormerは、現在のMCubeS(Multimodal Materials Segmentation)データセットよりも52.05%のmIoUを実現している。 例えば,砂利 (+10.4%) および人 (+9.1%) クラスの検出において,本手法は大幅な改善をもたらす。 アブレーション研究では、融合ブロック内の異なるモジュールが全体のモデル性能に不可欠であることが示されている。 さらに, 各種材料の識別性能を向上させるため, 異なる入力モードの容量に着目したアブレーション研究を行った。 コードと事前訓練されたモデルはhttps://github.com/csiplab/MMSFormer.comで入手できる。

Leveraging information across diverse modalities is known to enhance performance on multimodal segmentation tasks. However, effectively fusing information from different modalities remains challenging due to the unique characteristics of each modality. In this paper, we propose a novel fusion strategy that can effectively fuse information from different combinations of four different modalities: RGB, Angle of Linear Polarization (AoLP), Degree of Linear Polarization (DoLP) and Near-Infrared (NIR). We also propose a new model named Multi-Modal Segmentation Transformer (MMSFormer) that incorporates the proposed fusion strategy to perform multimodal material segmentation. MMSFormer achieves 52.05% mIoU outperforming the current state-of-the-art on Multimodal Material Segmentation (MCubeS) dataset. For instance, our method provides significant improvement in detecting gravel (+10.4%) and human (+9.1%) classes. Ablation studies show that different modules in the fusion block are crucial for overall model performance. Furthermore, our ablation studies also highlight the capacity of different input modalities to improve performance in the identification of different types of materials. The code and pretrained models will be made available at https://github.com/csiplab/MMSFormer.
翻訳日:2023-09-11 16:46:02 公開日:2023-09-07
# 自己教師付き表現のマルチドメイン設定への適応

Adapting Self-Supervised Representations to Multi-Domain Setups ( http://arxiv.org/abs/2309.03999v1 )

ライセンス: Link先を確認
Neha Kalibhat, Sam Sharpe, Jeremy Goodsitt, Bayan Bruss, Soheil Feizi(参考訳) 現在の最先端の自己監督アプローチは、個々のドメインでトレーニングする場合に有効であるが、見えないドメインでは限定的な一般化を示す。 これらのモデルは、混合ドメイン上でトレーニングしてもあまり一般化せず、多様な実世界環境下でのデプロイには適さないと観察した。 そこで我々は,共有クラスの有無に関わらず,多種多様なドメインで表現学習を効果的に行うために,任意の自己教師付きエンコーダにプラグイン可能な汎用軽量ドメイン異角モジュール(ddm)を提案する。 自己監督的損失に従って事前トレーニングを行う際、DDMはドメイン不変部分とドメイン不変部分に分割することで表現空間のゆがみを強制する。 ドメインラベルが利用できない場合、DDMは擬似ドメインを見つけるために堅牢なクラスタリングアプローチを使用する。 PACS, DomainNet, WILDS などのマルチベンチマーク上で, DDM を用いた事前学習により, SimCLR, MoCo, BYOL, DINO, SimSiam, Barlow Twins といった最先端の自己教師型モデルに対して,線形探索精度を最大3.5%向上させることができることを示す。 DDMで訓練されたモデルでは、ベースラインに比べて一般化(7.4%)が著しく改善された。 したがって、ddmは、多種多様なマルチドメインデータに対して高品質で汎用的な表現を提供するために、自己教師付きエンコーダを効率的に適応させることができる。

Current state-of-the-art self-supervised approaches, are effective when trained on individual domains but show limited generalization on unseen domains. We observe that these models poorly generalize even when trained on a mixture of domains, making them unsuitable to be deployed under diverse real-world setups. We therefore propose a general-purpose, lightweight Domain Disentanglement Module (DDM) that can be plugged into any self-supervised encoder to effectively perform representation learning on multiple, diverse domains with or without shared classes. During pre-training according to a self-supervised loss, DDM enforces a disentanglement in the representation space by splitting it into a domain-variant and a domain-invariant portion. When domain labels are not available, DDM uses a robust clustering approach to discover pseudo-domains. We show that pre-training with DDM can show up to 3.5% improvement in linear probing accuracy on state-of-the-art self-supervised models including SimCLR, MoCo, BYOL, DINO, SimSiam and Barlow Twins on multi-domain benchmarks including PACS, DomainNet and WILDS. Models trained with DDM show significantly improved generalization (7.4%) to unseen domains compared to baselines. Therefore, DDM can efficiently adapt self-supervised encoders to provide high-quality, generalizable representations for diverse multi-domain data.
翻訳日:2023-09-11 16:45:39 公開日:2023-09-07
# ConDA:AI生成テキスト検出のための対照的なドメイン適応

ConDA: Contrastive Domain Adaptation for AI-generated Text Detection ( http://arxiv.org/abs/2309.03992v1 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Tharindu Kumarage, Raha Moraffah, Huan Liu(参考訳) 大規模言語モデル(llm)は、ジャーナリストのニュース記事を含む様々なユースケースでテキストを生成するためにますます使われている。 これらのLSMを大規模に偽情報を生成できる潜在的な悪意のある性質を考えると、このようなAI生成テキストのための効果的な検出器を構築することが重要である。 新たなLSMの開発が急増する中で、監視検出器のラベル付きトレーニングデータを取得することがボトルネックとなっている。 しかし、どのジェネレータから来たかの情報なしで、ラベルなしのテキストデータがたくさんあるかもしれません。 本研究では,aiが生成するニューステキストを検出し,教師なしのドメイン適応タスクとしてこの問題をフレーム化するという,このデータ問題に取り組む。 ここで、ドメインは異なるテキストジェネレータ、すなわちLLMであり、ラベル付きソースデータとラベルなしターゲットデータのみにアクセス可能であると仮定する。 ConDAと呼ばれるContrastive Domain Adaptationフレームワークを開発し、標準的なドメイン適応技術とコントラスト学習の表現力を融合させ、最終的な教師なし検出タスクに有効なドメイン不変表現を学習する。 本実験は,本フレームワークの有効性を実証し,最高性能のベースラインから平均31.7%,全監視検出器の0.8%の範囲で性能向上を実現した。 私たちのコードとデータは、https://github.com/AmritaBh/ConDA-gen-text-detectionで利用可能です。

Large language models (LLMs) are increasingly being used for generating text in a variety of use cases, including journalistic news articles. Given the potential malicious nature in which these LLMs can be used to generate disinformation at scale, it is important to build effective detectors for such AI-generated text. Given the surge in development of new LLMs, acquiring labeled training data for supervised detectors is a bottleneck. However, there might be plenty of unlabeled text data available, without information on which generator it came from. In this work we tackle this data problem, in detecting AI-generated news text, and frame the problem as an unsupervised domain adaptation task. Here the domains are the different text generators, i.e. LLMs, and we assume we have access to only the labeled source data and unlabeled target data. We develop a Contrastive Domain Adaptation framework, called ConDA, that blends standard domain adaptation techniques with the representation power of contrastive learning to learn domain invariant representations that are effective for the final unsupervised detection task. Our experiments demonstrate the effectiveness of our framework, resulting in average performance gains of 31.7% from the best performing baselines, and within 0.8% margin of a fully supervised detector. All our code and data is available at https://github.com/AmritaBh/ConDA-gen-text-detection.
翻訳日:2023-09-11 16:45:09 公開日:2023-09-07
# 最適制御理論による座標降下アルゴリズムの導出

Derivation of Coordinate Descent Algorithms from Optimal Control Theory ( http://arxiv.org/abs/2309.03990v1 )

ライセンス: Link先を確認
I. M. Ross(参考訳) 近年,最適制御理論から発する中心源の観点から異なる最適化アルゴリズムが融合される可能性が示唆された。 ここでは、この新たな原理から座標降下アルゴリズムを導出する方法を示すことにより、この提案をさらに進める。 特に、最大原理と最大関数の集合を「制御」リアプノフ関数として利用して、基本座標導出アルゴリズムを導出できることが示される。 結果として得られる座標降下アルゴリズムの収束は、対応するリャプノフ関数の制御された散逸につながっている。 すべての場合における探索ベクトルの操作的計量は凸目的関数のヘッセンによって与えられる。

Recently, it was posited that disparate optimization algorithms may be coalesced in terms of a central source emanating from optimal control theory. Here we further this proposition by showing how coordinate descent algorithms may be derived from this emerging new principle. In particular, we show that basic coordinate descent algorithms can be derived using a maximum principle and a collection of max functions as "control" Lyapunov functions. The convergence of the resulting coordinate descent algorithms is thus connected to the controlled dissipation of their corresponding Lyapunov functions. The operational metric for the search vector in all cases is given by the Hessian of the convex objective function.
翻訳日:2023-09-11 16:44:46 公開日:2023-09-07
# CDFSL-V:ビデオ用クロスドメインFew-Shot学習

CDFSL-V: Cross-Domain Few-Shot Learning for Videos ( http://arxiv.org/abs/2309.03989v1 )

ライセンス: Link先を確認
Sarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah(参考訳) 少数のラベル付きサンプルしか持たない新しいカテゴリを識別するには、少数のビデオアクション認識が有効なアプローチであり、大規模なビデオデータセットの収集と注釈付けに関する課題を軽減している。 既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存する。 しかし、この設定は、異なる空間的・時間的特性を持つ異なるデータ領域から新しいカテゴリが生まれる可能性があるため、現実的ではない。 このソースドメインとターゲットドメインの相違は大きな課題となり、従来の少数ショットのアクション認識技術では効果がない。 この問題に対処するため,本研究では,自己教師付き学習とカリキュラム学習を活用し,ソース領域とターゲット領域の情報のバランスをとるクロスドメイン・ビデオ・アクション認識手法を提案する。 具体的には,マスク付きオートエンコーダに基づく自己教師付き学習目標を用いて,ソースデータとターゲットデータの両方から自己教師付きで学習する。 そして、プログレッシブカリキュラムは、ソースデータセットから識別情報とターゲットドメインから学習した汎用情報とのバランスをとる。 まず,教師付き学習を用いてソースデータからクラス識別特徴を学習する。 トレーニングが進むにつれて、ターゲットドメイン固有の特徴の学習に移行する。 我々は,ソースドメインのクラス識別的教師付き特徴に基づいて,対象ドメインにおけるリッチな特徴の出現を促すプログレッシブカリキュラムを提案する。 %のスケジュールが、この移行に役立ちます。 提案手法をいくつかの挑戦的なベンチマークデータセットで評価し,既存のドメイン間数ショット学習技術より優れていることを示す。 我々のコードは \hyperlink{https://github.com/Sarinda251/CDFSL-V}{https://github.com/Sarinda251/CDFSL-V} で入手できる。

Few-shot video action recognition is an effective approach to recognizing new categories with only a few labeled examples, thereby reducing the challenges associated with collecting and annotating large-scale video datasets. Existing methods in video action recognition rely on large labeled datasets from the same domain. However, this setup is not realistic as novel categories may come from different data domains that may have different spatial and temporal characteristics. This dissimilarity between the source and target domains can pose a significant challenge, rendering traditional few-shot action recognition techniques ineffective. To address this issue, in this work, we propose a novel cross-domain few-shot video action recognition method that leverages self-supervised learning and curriculum learning to balance the information from the source and target domains. To be particular, our method employs a masked autoencoder-based self-supervised training objective to learn from both source and target data in a self-supervised manner. Then a progressive curriculum balances learning the discriminative information from the source dataset with the generic information learned from the target domain. Initially, our curriculum utilizes supervised learning to learn class discriminative features from the source data. As the training progresses, we transition to learning target-domain-specific features. We propose a progressive curriculum to encourage the emergence of rich features in the target domain based on class discriminative supervised features in the source domain. %a schedule that helps with this transition. We evaluate our method on several challenging benchmark datasets and demonstrate that our approach outperforms existing cross-domain few-shot learning techniques. Our code is available at \hyperlink{https://github.com/Sarinda251/CDFSL-V}{https://github.com/Sarinda251/CDFSL-V}
翻訳日:2023-09-11 16:44:36 公開日:2023-09-07
# 中性子スピンエコーは「2つの経路の量子物語」

Neutron spin echo is a "quantum tale of two paths'' ( http://arxiv.org/abs/2309.03987v1 )

ライセンス: Link先を確認
S. McKay, A. A. M. Irfan, Q. Le Thien, N. Geerits, S. R. Parnell, R. M. Dalgliesh, N. V. Lavrik, I. I. Kravchenko, G. Ortiz, R. Pynn(参考訳) 典型的な中性子スピンエコー小角散乱(sesans)実験において,各中性子のスピンアップおよびスピンダウン成分が空間的に分離された平行経路に沿ってコヒーレントに連接する2経路干渉モデルを強く支持する実験について述べる。 具体的には, 中性子パケットの横幅が有限であるとき, 周期的な位相格子で得られたSESANS信号のスピンエコー長の関数として減衰を予測した。 しかし、そのような減衰は実験的に観測されず、ラーモアモデルが誤りであるか、あるいは波状パケットの逆幅が非常に大きいことを示唆している。 これとは対照的に、単一中性子の2つのモード絡み合うスピン状態(すなわち粒子内絡み合うスピン状態)が空間で分離される量子力学的干渉モデルが、格子と相互作用すると、波のパケット幅に依存しない測定されたSESANS信号を正確に予測できることを理論的に示す。

We describe an experiment that strongly supports a two-path interferometric model in which the spin-up and spin-down components of each neutron propagate coherently along spatially separated parallel paths in a typical neutron spin echo small angle scattering (SESANS) experiment. Specifically, we show that the usual semi-classical, single-path treatment of the Larmor precession of a polarized neutron in an external magnetic field predicts a damping as a function of the spin-echo length of the SESANS signal obtained with a periodic phase grating when the transverse width of the neutron wave packet is finite. However, no such damping is observed experimentally, implying either that the Larmor model is incorrect or that the transverse extent of the wave packet is very large. In contrast, we demonstrate theoretically that a quantum-mechanical interferometric model in which the two mode-entangled (i.e. intraparticle entangled) spin states of a single neutron are separated in space when they interact with the grating accurately predicts the measured SESANS signal, which is independent of the wave packet width.
翻訳日:2023-09-11 16:44:06 公開日:2023-09-07
# $\mathsf{OR}$と$\mathsf{MAX}$関数の雑音計算

Noisy Computing of the $\mathsf{OR}$ and $\mathsf{MAX}$ Functions ( http://arxiv.org/abs/2309.03986v1 )

ライセンス: Link先を確認
Banghua Zhu, Ziao Wang, Nadim Ghaddar, Jiantao Jiao, Lele Wang(参考訳) ノイズの多いクエリを使って$n$変数の関数を計算することの問題は、各クエリが固定され既知の確率$p \in (0,1/2)$で誤りである。 具体的には、$n$ビットの$\mathsf{OR}$関数(クエリはビットのノイズリードに対応する)と$\mathsf{MAX}$関数(クエリはノイズペア比較に対応する)の計算を考える。 1 \pm o(1)) \frac{n\log \frac{1}{\delta}}{d_{\mathsf{kl}}(p \| 1-p)} \] の期待されたクエリ数は、双方の関数を消滅するエラー確率 $\delta = o(1)$ で計算するのに十分かつ必要であることを示し、ここで $d_{\mathsf{kl}}(p \| 1-p)$ は $\mathsf{bern}(p)$ と $\mathsf{bern}(1-p)$ の間のkullback-leibler の発散を表す。 先行研究と比較して,2つの関数の上限値と下限値の両方において,p$依存性が強くなった。

We consider the problem of computing a function of $n$ variables using noisy queries, where each query is incorrect with some fixed and known probability $p \in (0,1/2)$. Specifically, we consider the computation of the $\mathsf{OR}$ function of $n$ bits (where queries correspond to noisy readings of the bits) and the $\mathsf{MAX}$ function of $n$ real numbers (where queries correspond to noisy pairwise comparisons). We show that an expected number of queries of \[ (1 \pm o(1)) \frac{n\log \frac{1}{\delta}}{D_{\mathsf{KL}}(p \| 1-p)} \] is both sufficient and necessary to compute both functions with a vanishing error probability $\delta = o(1)$, where $D_{\mathsf{KL}}(p \| 1-p)$ denotes the Kullback-Leibler divergence between $\mathsf{Bern}(p)$ and $\mathsf{Bern}(1-p)$ distributions. Compared to previous work, our results tighten the dependence on $p$ in both the upper and lower bounds for the two functions.
翻訳日:2023-09-11 16:43:41 公開日:2023-09-07
# 固体量子応用のための高精度超微細構造テンソル:ダイヤモンド中のnv中心の場合

Accurate Hyperfine Tensors for Solid State Quantum Applications: Case of the NV Center in Diamond ( http://arxiv.org/abs/2309.03983v1 )

ライセンス: Link先を確認
Istv\'an Tak\'acs and Viktor Iv\'ady(参考訳) 点欠陥量子ビットのデコヒーレンスはしばしば電子スピン核スピン超微細構造相互作用によって制御され、原理的にはab inito計算を用いてパラメータ化される。 これまでの理論研究のほとんどは、最も近い核スピンの超微細な相互作用に焦点を当てているが、異なる核スピンの予測の精度はほとんど議論されていない。 ダイヤモンド中のNV中心の場合、計算された超微粒子パラメータの絶対相対誤差が弱い結合核スピンに対するVASPにおいて100\%を超えることが示される。 この問題を克服するために, 代替法を実装し, 全距離における平均誤差が$o$(1\%) で大幅に向上した超微細値について報告する。 実験および理論上の超微細データを比較することにより、量子情報処理および核スピンの位置決めのためのnv量子ノードの高精度シミュレーションを可能にする。

The decoherence of point defect qubits is often governed by the electron spin-nuclear spin hyperfine interaction that can be parameterized by using ab inito calculations in principle. So far most of the theoretical works have focused on the hyperfine interaction of the closest nuclear spins, while the accuracy of the predictions for distinct nuclear spins is barely discussed. We demonstrate for the case of the NV center in diamond that the absolute relative error of the computed hyperfine parameters can exceed 100\% in VASP for weakly coupled nuclear spins. To overcome this issue, we implement an alternative method and report on significantly improved hyperfine values with $O$(1\%) relative mean error at all distances. The provided accurate hyperfine data for the NV center enables high-precision simulation of NV quantum nodes for quantum information processing and positioning of nuclear spins by comparing experimental and theoretical hyperfine data.
翻訳日:2023-09-11 16:43:09 公開日:2023-09-07
# 効率的な物体追跡のための分離自在および混合注意変圧器

Separable Self and Mixed Attention Transformers for Efficient Object Tracking ( http://arxiv.org/abs/2309.03979v1 )

ライセンス: Link先を確認
Goutam Yelluru Gopal, Maria A. Amer(参考訳) 視覚オブジェクト追跡のためのトランスフォーマーの配置は、いくつかのベンチマークで最先端の結果を示している。 しかし、トランスフォーマーベースのモデルは、注意ブロックの計算複雑性のため、シームズ軽量追跡には未利用である。 本稿では,軽量トラッキングのための自己・混在型トランスフォーマーアーキテクチャを提案する。 提案したバックボーンは、分離可能な混合注意変換器を用いて特徴抽出中にテンプレートと検索領域を融合させ、優れた特徴符号化を生成する。 我々の予測ヘッドは、高能率な目標状態推定に効率的な自己認識ブロックを活用することにより、符号化された特徴のグローバルな文脈モデリングを行う。 これらの貢献により、提案されている軽量トラッカーは、初めてトランスフォーマーベースのバックボーンとヘッドモジュールを同時にデプロイする。 本研究は,提案するバックボーンとヘッドモジュールの組合せの有効性を検証した。 シミュレーションによれば、当社の分離可能な自己および混合注意型トラッカーであるsmatは、got10k、trackingnet、lasot、nfs30、uav123、avistデータセット上の関連する軽量トラッカーのパフォーマンスを上回っており、cpu上で37fps、gpu上で158fps、パラメータ3.8mで動作している。 例えば、GOT10k-testのE.T.TrackとMixFormerV2-Sをそれぞれ7.9%、AOの5.8%で大きく上回っている。 trackerのコードとモデルはhttps://github.com/goutamyg/smatで入手できる。

The deployment of transformers for visual object tracking has shown state-of-the-art results on several benchmarks. However, the transformer-based models are under-utilized for Siamese lightweight tracking due to the computational complexity of their attention blocks. This paper proposes an efficient self and mixed attention transformer-based architecture for lightweight tracking. The proposed backbone utilizes the separable mixed attention transformers to fuse the template and search regions during feature extraction to generate superior feature encoding. Our prediction head performs global contextual modeling of the encoded features by leveraging efficient self-attention blocks for robust target state estimation. With these contributions, the proposed lightweight tracker deploys a transformer-based backbone and head module concurrently for the first time. Our ablation study testifies to the effectiveness of the proposed combination of backbone and head modules. Simulations show that our Separable Self and Mixed Attention-based Tracker, SMAT, surpasses the performance of related lightweight trackers on GOT10k, TrackingNet, LaSOT, NfS30, UAV123, and AVisT datasets, while running at 37 fps on CPU, 158 fps on GPU, and having 3.8M parameters. For example, it significantly surpasses the closely related trackers E.T.Track and MixFormerV2-S on GOT10k-test by a margin of 7.9% and 5.8%, respectively, in the AO metric. The tracker code and model is available at https://github.com/goutamyg/SMAT
翻訳日:2023-09-11 16:42:52 公開日:2023-09-07
# srn-sz:超解像ニューラルネットワークを用いた科学的誤り境界ロスイ圧縮

SRN-SZ: Deep Leaning-Based Scientific Error-bounded Lossy Compression with Super-resolution Neural Networks ( http://arxiv.org/abs/2309.04037v1 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Sian Jin, Kai Zhao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) 現代のスーパーコンピューティングシステムの計算能力とスケールの急速な成長は、エクサスケール科学データの管理において大きな課題を提起した。 科学的データの利用性を維持するため,制約のあるデータ歪みを伴う科学的データのサイズ削減に不可欠な手法として,誤差バウンド損失圧縮を提案する。 様々な科学シミュレーションによって生成された多様なデータセットのうち、特定のデータセットは、従来のテクニックで既存のエラーバウンドの損失圧縮機では効果的に圧縮できない。 人工知能の最近の成功は、ニューラルネットワークをエラーバウンドの損失圧縮機に統合するきっかけとなった。 しかし、これらの作品はまだ圧縮率や極めて低い効率に苦しむ。 本稿では,超解像ニューラルネットワークによって実装された階層的データグリッド拡張パラダイムを活用した,深層学習に基づく科学的エラーバウンドロスイ圧縮器であるsrn-szを提案する。 SRN-SZはその圧縮に最も高度な超解像ネットワーク HAT を適用している。 各種の最先端圧縮機との比較実験において、SRN-SZは最大75%の圧縮比を同じ誤差境界下で達成し、最大80%の圧縮比を同じPSNR下で達成する。

The fast growth of computational power and scales of modern super-computing systems have raised great challenges for the management of exascale scientific data. To maintain the usability of scientific data, error-bound lossy compression is proposed and developed as an essential technique for the size reduction of scientific data with constrained data distortion. Among the diverse datasets generated by various scientific simulations, certain datasets cannot be effectively compressed by existing error-bounded lossy compressors with traditional techniques. The recent success of Artificial Intelligence has inspired several researchers to integrate neural networks into error-bounded lossy compressors. However, those works still suffer from limited compression ratios and/or extremely low efficiencies. To address those issues and improve the compression on the hard-to-compress datasets, in this paper, we propose SRN-SZ, which is a deep learning-based scientific error-bounded lossy compressor leveraging the hierarchical data grid expansion paradigm implemented by super-resolution neural networks. SRN-SZ applies the most advanced super-resolution network HAT for its compression, which is free of time-costing per-data training. In experiments compared with various state-of-the-art compressors, SRN-SZ achieves up to 75% compression ratio improvements under the same error bound and up to 80% compression ratio improvements under the same PSNR than the second-best compressor.
翻訳日:2023-09-11 16:37:31 公開日:2023-09-07
# 対称性分解作用素絡み合いの研究

More on symmetry resolved operator entanglement ( http://arxiv.org/abs/2309.04032v1 )

ライセンス: Link先を確認
Sara Murciano, J\'er\^ome Dubail and Pasquale Calabrese(参考訳) 量子作用素 $O$ の ‘operator entanglement' は、その複雑性の有用な指標であり、一次元では、行列積作用素による近似性である。 ここでは、グローバルな u(1)$ 保存則を持つスピンチェーンと、明確に定義された $u(1)$ チャージを持つ演算子 $o$ に焦点を当てる。 我々は[PRX Quantum 4, 010318 (2023)]で導入された対称性分解作用素絡み合い(SROE)の概念を用いて、後者の論文の結果を様々な方向に拡張する。 共形場理論と臨界自由フェルミオン鎖の厳密な解析および数値計算の組み合わせを用いて、熱密度行列 $\rho_\beta = e^{- \beta h}$ と、ハイゼンベルク像 $o = e^{i t h} o e^{-i t h}$ で進化する荷電局所作用素のsroeについて研究する。 私たちの主な成果は i) $\rho_\beta$のSROEは,オペレーター地域法に従う。 ii) 自由フェルミオンの場合,ハイゼンベルク図の局所作用素は,時間内に対数的に成長するSROE又は一定値に飽和するSROEを有することができる。 三 フェルミオン生成及び消滅演算子のうち一対のフェルミオン生成及び消滅演算子を除くすべての帯電セクターに絡み合う部分がある。

The `operator entanglement' of a quantum operator $O$ is a useful indicator of its complexity, and, in one-dimension, of its approximability by matrix product operators. Here we focus on spin chains with a global $U(1)$ conservation law, and on operators $O$ with a well-defined $U(1)$ charge, for which it is possible to resolve the operator entanglement of $O$ according to the $U(1)$ symmetry. We employ the notion of symmetry resolved operator entanglement (SROE) introduced in [PRX Quantum 4, 010318 (2023)] and extend the results of the latter paper in several directions. Using a combination of conformal field theory and of exact analytical and numerical calculations in critical free fermionic chains, we study the SROE of the thermal density matrix $\rho_\beta = e^{- \beta H}$ and of charged local operators evolving in Heisenberg picture $O = e^{i t H} O e^{-i t H}$. Our main results are: i) the SROE of $\rho_\beta$ obeys the operator area law; ii) for free fermions, local operators in Heisenberg picture can have a SROE that grows logarithmically in time or saturates to a constant value; iii) there is equipartition of the entanglement among all the charge sectors except for a pair of fermionic creation and annihilation operators.
翻訳日:2023-09-11 16:36:50 公開日:2023-09-07
# 大規模言語モデルからエンドツーエンドasrシステムへの多重表現転送

Multiple Representation Transfer from Large Language Models to End-to-End ASR Systems ( http://arxiv.org/abs/2309.04031v1 )

ライセンス: Link先を確認
Takuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Masayasu Muraoka, George Saon(参考訳) 大規模言語モデル(LLM)の知識の伝達は,言語知識をエンドツーエンドの自動音声認識(ASR)システムに組み込む上で有望な手法である。 しかし、既存の著作物は LLM の単一の表現(例えば、事前訓練された BERT の最後の層)のみを転送するが、テキストの表現は本質的に非普遍的であり、異なるレイヤ、コンテキスト、モデルから様々な方法で得ることができる。 本研究では,LLMの複数の表現をトランスデューサベースのASRシステムに変換するための幅広い手法について検討する。 概念的には単純であるが,LLMの複数の表現の転送は,単一の表現のみの転送に有効な方法であることを示す。

Transferring the knowledge of large language models (LLMs) is a promising technique to incorporate linguistic knowledge into end-to-end automatic speech recognition (ASR) systems. However, existing works only transfer a single representation of LLM (e.g. the last layer of pretrained BERT), while the representation of a text is inherently non-unique and can be obtained variously from different layers, contexts and models. In this work, we explore a wide range of techniques to obtain and transfer multiple representations of LLMs into a transducer-based ASR system. While being conceptually simple, we show that transferring multiple representations of LLMs can be an effective alternative to transferring only a single representation.
翻訳日:2023-09-11 16:35:59 公開日:2023-09-07
# リニアライズリカレントニューラルネットワーク(RNN)のポイントワイド非線形性前後に関する簡単な技術的考察

Brief technical note on linearizing recurrent neural networks (RNNs) before vs after the pointwise nonlinearity ( http://arxiv.org/abs/2309.04030v1 )

ライセンス: Link先を確認
Marino Pagan, Adrian Valente, Srdjan Ostojic, and Carlos D. Brody(参考訳) リカレントニューラルネットワーク(RNN)の力学の線形化は、しばしばその特性を研究するために用いられる。 同じrnnダイナミクスは、``アクティベーション(各ユニットへのネット入力、その点非線形性)、または ``activities"(各ユニットの出力、その点非線形性の後)という用語で書くことができ、対応する2つの線形化は互いに異なる。 この簡潔で非公式な技術ノートは、動力学行列の左右の固有ベクトル間の2つの線形化の関係を記述しており、いくつかの文脈依存効果はアクティビティダイナミクスの線形化下では容易に明らかであるが、活性化ダイナミクスの線形化ではないことを示している。

Linearization of the dynamics of recurrent neural networks (RNNs) is often used to study their properties. The same RNN dynamics can be written in terms of the ``activations" (the net inputs to each unit, before its pointwise nonlinearity) or in terms of the ``activities" (the output of each unit, after its pointwise nonlinearity); the two corresponding linearizations are different from each other. This brief and informal technical note describes the relationship between the two linearizations, between the left and right eigenvectors of their dynamics matrices, and shows that some context-dependent effects are readily apparent under linearization of activity dynamics but not linearization of activation dynamics.
翻訳日:2023-09-11 16:35:41 公開日:2023-09-07
# カメラ切除の代数と幾何学

Algebra and Geometry of Camera Resectioning ( http://arxiv.org/abs/2309.04028v1 )

ライセンス: Link先を確認
Erin Connelly, Timothy Duff, Jessie Loucks-Tavitas(参考訳) カメラ切断問題に関連する代数多様体について検討する。 Gr\"オブナーベース手法を用いて、これらの分類多様体の多階退化イデアルを特徴づける。 応用として、カメラポイントの双対性に関連する幾何学的コンピュータビジョンにおける有望な結果を導出し、再解釈する。 また, 最適切除と三角測量に関する古典的問題と, 切除多様体のユークリッド距離次数の仮定式との関係を明らかにし, この予想が最近解決されたマルチビュー予想とどのように関係しているかを考察した。

We study algebraic varieties associated with the camera resectioning problem. We characterize these resectioning varieties' multigraded vanishing ideals using Gr\"obner basis techniques. As an application, we derive and re-interpret celebrated results in geometric computer vision related to camera-point duality. We also clarify some relationships between the classical problems of optimal resectioning and triangulation, state a conjectural formula for the Euclidean distance degree of the resectioning variety, and discuss how this conjecture relates to the recently-resolved multiview conjecture.
翻訳日:2023-09-11 16:35:04 公開日:2023-09-07
# TIDE:分類と言語モデルの評価と拡張のためのテキストアイデンティティ検出

TIDE: Textual Identity Detection for Evaluating and Augmenting Classification and Language Models ( http://arxiv.org/abs/2309.04027v1 )

ライセンス: Link先を確認
Emmanuel Klu and Sameer Sethi(参考訳) 機械学習モデルは、不公平で不均衡なデータセットから意図しないバイアスを永続することができる。 人種、性別、性的指向などのセンシティブな属性が利用できないテキストデータセットでは、これらのデータセットとモデルの評価とデバイアスが特に難しい。 これらのモデルが社会に展開されると、歴史的に過小評価されたグループに対して不公平な結果をもたらす可能性がある。 本稿では,分類器と言語モデルにおけるテキストの公平性を向上する手法と組み合わせたデータセットを提案する。 私たちは、3つのカテゴリにわたる15,123のアイデンティティ用語と関連するセンスコンテキストを含む、より包括的なアイデンティティレキシコンであるtidalを作成します。 我々はTIDALを利用して、識別コンテキストの可用性とMLフェアネス手法の有効性を向上させるために使用できる識別アノテーションと拡張ツールを開発する。 人間のコントリビュータを用いてアプローチを評価し、データセットとモデルのデバイアスに着目した実験も行います。 提案手法により,ループ内作業の信頼性と速度が向上することを示す。 我々のデータセットと手法は、評価中により多くの格差を明らかにし、修復中により公平なモデルを生成する。 これらのアプローチは、現実世界の設定で分類器と生成モデルフェアネスをスケーリングするための実用的なパスを提供する。

Machine learning models can perpetuate unintended biases from unfair and imbalanced datasets. Evaluating and debiasing these datasets and models is especially hard in text datasets where sensitive attributes such as race, gender, and sexual orientation may not be available. When these models are deployed into society, they can lead to unfair outcomes for historically underrepresented groups. In this paper, we present a dataset coupled with an approach to improve text fairness in classifiers and language models. We create a new, more comprehensive identity lexicon, TIDAL, which includes 15,123 identity terms and associated sense context across three demographic categories. We leverage TIDAL to develop an identity annotation and augmentation tool that can be used to improve the availability of identity context and the effectiveness of ML fairness techniques. We evaluate our approaches using human contributors, and additionally run experiments focused on dataset and model debiasing. Results show our assistive annotation technique improves the reliability and velocity of human-in-the-loop processes. Our dataset and methods uncover more disparities during evaluation, and also produce more fair models during remediation. These approaches provide a practical path forward for scaling classifier and generative model fairness in real-world settings.
翻訳日:2023-09-11 16:34:55 公開日:2023-09-07
# 顔の照明品質評価による美容製品推薦の精度向上

Improving the Accuracy of Beauty Product Recommendations by Assessing Face Illumination Quality ( http://arxiv.org/abs/2309.04022v1 )

ライセンス: Link先を確認
Parnian Afshar, Jenny Yeon, Andriy Levitskyy, Rahul Suresh, and Amin Banitalebi-Dehkordi(参考訳) 特に基礎製品や隠蔽製品など,製品の色と人の肌の色を比較する場合において,責任ある美容製品推奨の課題に対処することに注力する。 正確な推奨を行うには、製品属性と、皮膚の状態やトーンなどの製品固有の顔特徴の両方を推測することが重要である。 しかし、多くの製品写真は明るい条件下で撮影されるが、顔写真は幅広い条件下で撮影される。 照明のない環境から写真から抽出された特徴は、非常に誤解を招くか、あるいは製品属性と比較できない場合さえある。 これにより、照明条件の悪さが推奨品質を著しく低下させる。 本稿では,照明条件が良いか悪いかのどちらかに分類する,照明評価のための機械学習フレームワークを提案する。 次に、照明条件が良いか悪いかをユーザーに知らせる自動ユーザー誘導ツールを構築する。 このように、ユーザは迅速なフィードバックを提供し、レコメンデーションのためにどのように撮影するかをインタラクティブに制御できる。 この問題に特化している研究はごくわずかで、主に、大きなデータセットの欠如、ラベル付け、そしてスキントーンとライトパターンの両面で多様である。 このようなデータセットの欠如は、肌色多様性の無視につながる。 そこで我々は,既存の顔画像データセットに加えて,様々な肌色や光パターンをシミュレートする多種多様な合成データセットの構築から始める。 次に、合成データセットを用いて既存のソリューションよりも優れた照明評価を行うために、畳み込みニューラルネットワーク(CNN)を訓練する。 最後に,様々なファウンデーション製品のシェードレコメンデーションを改善させる方法について分析する。

We focus on addressing the challenges in responsible beauty product recommendation, particularly when it involves comparing the product's color with a person's skin tone, such as for foundation and concealer products. To make accurate recommendations, it is crucial to infer both the product attributes and the product specific facial features such as skin conditions or tone. However, while many product photos are taken under good light conditions, face photos are taken from a wide range of conditions. The features extracted using the photos from ill-illuminated environment can be highly misleading or even be incompatible to be compared with the product attributes. Hence bad illumination condition can severely degrade quality of the recommendation. We introduce a machine learning framework for illumination assessment which classifies images into having either good or bad illumination condition. We then build an automatic user guidance tool which informs a user holding their camera if their illumination condition is good or bad. This way, the user is provided with rapid feedback and can interactively control how the photo is taken for their recommendation. Only a few studies are dedicated to this problem, mostly due to the lack of dataset that is large, labeled, and diverse both in terms of skin tones and light patterns. Lack of such dataset leads to neglecting skin tone diversity. Therefore, We begin by constructing a diverse synthetic dataset that simulates various skin tones and light patterns in addition to an existing facial image dataset. Next, we train a Convolutional Neural Network (CNN) for illumination assessment that outperforms the existing solutions using the synthetic dataset. Finally, we analyze how the our work improves the shade recommendation for various foundation products.
翻訳日:2023-09-11 16:34:40 公開日:2023-09-07
# 遺伝子集合機能発見のための大規模言語モデルの評価

Evaluation of large language models for discovery of gene set function ( http://arxiv.org/abs/2309.04019v1 )

ライセンス: Link先を確認
Mengzhou Hu and Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Robin Bachelder, Trey Ideker, and Dexter Pratt(参考訳) 遺伝子セット解析は機能ゲノム学の主要な基盤であるが、生物学的文脈に不完全な遺伝子機能の手作業によるデータベースに依存している。 本稿では、組込み生物医学的知識から共通の遺伝子機能に関する仮説を展開する大規模言語モデル(llm)であるopenaiのgpt-4の機能を評価する。 我々はgpt-4パイプラインを作成し,解析テキストと引用文により,コンセンサス機能を要約した遺伝子集合をラベルづけした。 遺伝子オントロジーにおける名前付き遺伝子セットに対するベンチマークでは、gpt-4は50%のケースで非常に類似した名前を生成し、残りのケースではより一般的な概念の名前を回復した。 オミクスデータで発見された遺伝子セットでは、GPT-4の名前は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証された文や引用を支持した。 共通遺伝子機能を迅速に合成する能力は、LLMを有用な機能ゲノムアシスタントとして位置づける。

Gene set analysis is a mainstay of functional genomics, but it relies on manually curated databases of gene functions that are incomplete and unaware of biological context. Here we evaluate the ability of OpenAI's GPT-4, a Large Language Model (LLM), to develop hypotheses about common gene functions from its embedded biomedical knowledge. We created a GPT-4 pipeline to label gene sets with names that summarize their consensus functions, substantiated by analysis text and citations. Benchmarking against named gene sets in the Gene Ontology, GPT-4 generated very similar names in 50% of cases, while in most remaining cases it recovered the name of a more general concept. In gene sets discovered in 'omics data, GPT-4 names were more informative than gene set enrichment, with supporting statements and citations that largely verified in human review. The ability to rapidly synthesize common gene functions positions LLMs as valuable functional genomics assistants.
翻訳日:2023-09-11 16:34:15 公開日:2023-09-07
# レニンガー負回帰パラドックスの時間対称分解

Time-Symmetric Resolutions of the Renninger Negative-Result Paradoxes ( http://arxiv.org/abs/2309.04018v1 )

ライセンス: Link先を確認
Michael B. Heaney(参考訳) 1953年と1960年のルニンガーの負の反証思考実験は、量子力学のコペンハーゲン定式化における概念的パラドックスを示している。 1953年のパラドックスでは、検出器と相互作用する粒子なしでマッハ・ツェンダー干渉計の片腕に検出器の存在を推測することができる。 1960年のパラドックスでは、検出器の状態の変化なしに波動関数の崩壊を推測することができる。 この2つのパラドックスを量子力学の時間対称な定式化を用いて解決する。 また,コペンハーゲン式と時間対称式を区別できる実実験についても述べる。

The 1953 and 1960 Renninger negative-result thought experiments illustrate conceptual paradoxes in the Copenhagen formulation of quantum mechanics. In the 1953 paradox we can infer the presence of a detector in one arm of a Mach-Zehnder interferometer without any particle interacting with the detector. In the 1960 paradox we can infer the collapse of a wavefunction without any change in the state of a detector. I resolve both of these paradoxes by using a time-symmetric formulation of quantum mechanics. I also describe a real experiment that can distinguish between the Copenhagen and time-symmetric formulations.
翻訳日:2023-09-11 16:33:57 公開日:2023-09-07
# テンパレート指数測度を用いた最適輸送

Optimal Transport with Tempered Exponential Measures ( http://arxiv.org/abs/2309.04015v1 )

ライセンス: Link先を確認
Ehsan Amid, Frank Nielsen, Richard Nock, and Manfred K. Warmuth(参考訳) 最適輸送の分野では、2つの顕著なサブフィールドが向かい合っている。 (i)非正規化された最適輸送量、 ``\`a-la-kantorovich'' は、非常に疎い計画をもたらすが、スケールの悪いアルゴリズムを伴う。 (ii)エントロピー規則化された最適輸送である ``\`a-la-Sinkhorn-Cuturi' は、近似アルゴリズムを近似するが、最大でスパースな計画をもたらす。 本稿では, 間接測度正規化を伴う指数関数列の一般化である指数関数列のテンペラ指数測度への一般化が, 非常に高速な近似アルゴリズムとスパーシティパターンの制御下にあるスパーシリティの両面において, 非常に便利であることを示す。 さらに、不均衡な最適輸送問題の設定にも自然に適合する。

In the field of optimal transport, two prominent subfields face each other: (i) unregularized optimal transport, ``\`a-la-Kantorovich'', which leads to extremely sparse plans but with algorithms that scale poorly, and (ii) entropic-regularized optimal transport, ``\`a-la-Sinkhorn-Cuturi'', which gets near-linear approximation algorithms but leads to maximally un-sparse plans. In this paper, we show that a generalization of the latter to tempered exponential measures, a generalization of exponential families with indirect measure normalization, gets to a very convenient middle ground, with both very fast approximation algorithms and sparsity which is under control up to sparsity patterns. In addition, it fits naturally in the unbalanced optimal transport problem setting as well.
翻訳日:2023-09-11 16:33:48 公開日:2023-09-07
# 人工ゼーマン項を用いた平均場コヒーレントイジングマシン

Mean-field Coherent Ising Machines with artificial Zeeman terms ( http://arxiv.org/abs/2309.04043v1 )

ライセンス: Link先を確認
Mastiyage Don Sudeera Hasaranga Gunathilaka, Yoshitaka Inui, Satoshi Kako, Yoshihisa Yamamoto, Toru Aonishi(参考訳) コヒーレントイジングマシン(Coherent Ising Machine, CIM)は、イジング・ハミルトンの基底状態を見つけることで組合せ最適化問題を解決する光学パラメトリック発振器のネットワークである。 cimsでは、スピンに対応する光パラメトリック発振器パルスの可変振幅による相互作用とゼーマン項の大きさのミスマッチのためにゼーマン項を実現しようとすると問題が発生する。 cimのこの問題に対処するために、絶対平均振幅法、補助スピン法、カオス振幅制御法(cac)法という3つのアプローチが提案されている。 本稿では,量子ノイズのない物理学的なヒューリスティック解法である平均場CIMモデルにおけるゼーマン項の効率的な実装に焦点を当てた。 平均場モデルでは、計算はより物理的に正確なモデルよりも容易であり、FPGAや大規模シミュレーションの実装に適している。 まず,CAC法を用いてゼーマン項を実現するための平均場CIMモデルの性能と,より物理的に正確なモデルと比較した場合の性能について検討した。 次に、平均場モデルおよびより物理的に正確なモデル上での他のゼーマン項実現手法と比較した。 どちらのモデルでも、CAC法は同様の性能を維持しながら他の手法よりも優れていた。

Coherent Ising Machine (CIM) is a network of optical parametric oscillators that solves combinatorial optimization problems by finding the ground state of an Ising Hamiltonian. In CIMs, a problem arises when attempting to realize the Zeeman term because of the mismatch in size between interaction and Zeeman terms due to the variable amplitude of the optical parametric oscillator pulses corresponding to spins. There have been three approaches proposed so far to address this problem for CIM, including the absolute mean amplitude method, the auxiliary spin method, and the chaotic amplitude control (CAC) method. This paper focuses on the efficient implementation of Zeeman terms within the mean-field CIM model, which is a physics-inspired heuristic solver without quantum noise. With the mean-field model, computation is easier than with more physically accurate models, which makes it suitable for implementation in FPGAs and large-scale simulations. Firstly, we examined the performance of the mean-field CIM model for realizing the Zeeman term with the CAC method, as well as their performance when compared to a more physically accurate model. Next, we compared the CAC method to other Zeeman term realization techniques on the mean-field model and a more physically accurate model. In both models, the CAC method outperformed the other methods while retaining similar performance.
翻訳日:2023-09-11 16:23:42 公開日:2023-09-07
# マルチモーダル大言語モデルにおける失認の評価と緩和

Evaluation and Mitigation of Agnosia in Multimodal Large Language Models ( http://arxiv.org/abs/2309.04041v1 )

ライセンス: Link先を確認
Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Baochen Sun, Carl Yang and Jie Yang(参考訳) マルチモーダル大言語モデル(mllm)は様々な視覚言語タスクで広く使われているが、視覚入力を誤解したり、単純なケースでもテキスト命令に従わなかったり、無関係な応答や誤り、根拠のない主張に繋がることがある。 この観察はアグノシア(Agnosia)として知られる神経心理学の現象と類似しており、感覚のモダリティを正しく処理し、物事(物体、色、関係など)を認識することができない。 本研究は,このような概念をmllmにおけるアグノシア (agnosia in mllm) と定義するために適用し,mllmにおけるアグノシアを包括的に評価し緩和することを目的としている。 神経心理学における診断と治療のプロセスから着想を得た新しい枠組みEMMA(Evaluation and Mitigation of Multimodal Agnosia)を提案する。 EMMA では,MLLM におけるアグノシアの程度を包括的に評価するために,細粒度で多様な視覚的質問応答例を自動生成する評価モジュールを開発した。 また、細粒度会話のマルチモーダル命令チューニングによりMLLMのアグノシアを低減するための緩和モジュールを開発する。 本フレームワークの有効性を検証するため,9K試験試料を用いた7種類の最先端MLLMの診断・解析を行った。 その結果,大半は様々な側面や程度において失認を呈することが明らかとなった。 さらに,より微細な命令セットとMLLMを調整し,アグノシアを緩和し,精度を著しく向上させた。

While Multimodal Large Language Models (MLLMs) are widely used for a variety of vision-language tasks, one observation is that they sometimes misinterpret visual inputs or fail to follow textual instructions even in straightforward cases, leading to irrelevant responses, mistakes, and ungrounded claims. This observation is analogous to a phenomenon in neuropsychology known as Agnosia, an inability to correctly process sensory modalities and recognize things (e.g., objects, colors, relations). In our study, we adapt this similar concept to define "agnosia in MLLMs", and our goal is to comprehensively evaluate and mitigate such agnosia in MLLMs. Inspired by the diagnosis and treatment process in neuropsychology, we propose a novel framework EMMA (Evaluation and Mitigation of Multimodal Agnosia). In EMMA, we develop an evaluation module that automatically creates fine-grained and diverse visual question answering examples to assess the extent of agnosia in MLLMs comprehensively. We also develop a mitigation module to reduce agnosia in MLLMs through multimodal instruction tuning on fine-grained conversations. To verify the effectiveness of our framework, we evaluate and analyze agnosia in seven state-of-the-art MLLMs using 9K test samples. The results reveal that most of them exhibit agnosia across various aspects and degrees. We further develop a fine-grained instruction set and tune MLLMs to mitigate agnosia, which led to notable improvement in accuracy.
翻訳日:2023-09-11 16:23:20 公開日:2023-09-07
# S-Adapter:統計的トークンを用いた顔アンチスプーフィングのための一般化視覚変換器

S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens ( http://arxiv.org/abs/2309.04038v1 )

ライセンス: Link先を確認
Rizhao Cai, Zitong Yu, Chenqi Kong, Haoliang Li, Changsheng Chen, Yongjian Hu, Alex Kot(参考訳) face anti-spoofing (fas) は、顔を偽装して顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。 最先端のfas技術は、主にディープラーニングモデルに依存しているが、そのクロスドメイン一般化能力は、トレーニングとテストデータの違いによるドメインシフト問題によってしばしば妨げられる。 本研究では、EPTL(Efficient Parameter Transfer Learning)パラダイムに基づく一般化されたFAS手法を開発し、FASタスクのための事前学習されたビジョントランスフォーマーモデルを適用する。 トレーニング中、アダプタモジュールはトレーニング済みのViTモデルに挿入され、アダプタは更新され、他のトレーニング済みのパラメータは固定される。 従来のバニラアダプタの制限は、スプーフィング対応誘導バイアスが欠如しており、したがってクロスドメインの一般化を制限する線形層に基づいている。 この制限に対処し、クロスドメイン一般化FASを実現するために、局所的なトークンヒストグラムから局所的な識別および統計情報を収集する新しい統計的適応器(S-Adapter)を提案する。 統計トークンの一般化をさらに高めるために,異なる領域にまたがるトークンから抽出されたグラム行列を正則化することにより,ドメインスタイルの分散を低減しようとする新しいトークンスタイル正則化(tsr)を提案する。 実験結果から,提案するs-adapterとtsrは,ゼロショットおよび少数ショットのクロスドメインテストの両方において,いくつかのベンチマークテストにおいて最先端のメソッドよりも優れたメリットがあることが示された。 受け入れ次第、ソースコードをリリースします。

Face Anti-Spoofing (FAS) aims to detect malicious attempts to invade a face recognition system by presenting spoofed faces. State-of-the-art FAS techniques predominantly rely on deep learning models but their cross-domain generalization capabilities are often hindered by the domain shift problem, which arises due to different distributions between training and testing data. In this study, we develop a generalized FAS method under the Efficient Parameter Transfer Learning (EPTL) paradigm, where we adapt the pre-trained Vision Transformer models for the FAS task. During training, the adapter modules are inserted into the pre-trained ViT model, and the adapters are updated while other pre-trained parameters remain fixed. We find the limitations of previous vanilla adapters in that they are based on linear layers, which lack a spoofing-aware inductive bias and thus restrict the cross-domain generalization. To address this limitation and achieve cross-domain generalized FAS, we propose a novel Statistical Adapter (S-Adapter) that gathers local discriminative and statistical information from localized token histograms. To further improve the generalization of the statistical tokens, we propose a novel Token Style Regularization (TSR), which aims to reduce domain style variance by regularizing Gram matrices extracted from tokens across different domains. Our experimental results demonstrate that our proposed S-Adapter and TSR provide significant benefits in both zero-shot and few-shot cross-domain testing, outperforming state-of-the-art methods on several benchmark tests. We will release the source code upon acceptance.
翻訳日:2023-09-11 16:22:53 公開日:2023-09-07
# 観測された事象の(非)絶対性とは何か?

What Does '(Non)-Absoluteness of Observed Events' Mean? ( http://arxiv.org/abs/2309.03171v2 )

ライセンス: Link先を確認
Emily Adlam(参考訳) 近年では「出現した事象の絶対性」に関する定理の類型化がみられ、量子力学はある種のメタ物理学的に急進的な非絶対性(関係論やパースペクティビティズムなど)を伴っていると論じられることがある。 しかし、我々の見解では、これらの定理の綿密な検証は、そのような可能性を支持することに失敗する。 In this paper we argue that the Wigner's friend paradox, the theorem of Bong et al and the theorem of Lawrence et al are all best understood as demonstrating that if quantum mechanics is universal, and if certain auxiliary assumptions hold, then the world inevitably includes various forms of 'disaccord,' but this need not be interpreted in a metaphysically radical way; meanwhile, the theorem of Ormrod and Barrett is best understood either as an argument for an interpretation allowing multiple outcomes per observer, such as the Everett approach, or as a proof that quantum mechanics cannot be universal in the sense relevant for this theorem. また、これらの定理は、観測された事象が絶対的である間に動的状態が相対化される異なる種類の関係アプローチの興味深い可能性を示しており、そのようなアプローチを機能させるためには「再帰性」のようなものが必要であるが、これはレトロカウサリティに対する多くの一般的な反対を避ける非常に特殊なレトロカウサリティであることを示している。 非絶対性定理は、測定問題の許容可能な解への収束に寄与する重要な役割を担っていると結論づける。

Recently there have emerged an assortment of theorems relating to the 'absoluteness of emerged events,' and these results have sometimes been used to argue that quantum mechanics may involve some kind of metaphysically radical non-absoluteness, such as relationalism or perspectivalism. However, in our view a close examination of these theorems fails to convincingly support such possibilities. In this paper we argue that the Wigner's friend paradox, the theorem of Bong et al and the theorem of Lawrence et al are all best understood as demonstrating that if quantum mechanics is universal, and if certain auxiliary assumptions hold, then the world inevitably includes various forms of 'disaccord,' but this need not be interpreted in a metaphysically radical way; meanwhile, the theorem of Ormrod and Barrett is best understood either as an argument for an interpretation allowing multiple outcomes per observer, such as the Everett approach, or as a proof that quantum mechanics cannot be universal in the sense relevant for this theorem. We also argue that these theorems taken together suggest interesting possibilities for a different kind of relational approach in which dynamical states are relativized whilst observed events are absolute, and we show that although something like 'retrocausality' might be needed to make such an approach work, this would be a very special kind of retrocausality which would evade a number of common objections against retrocausality. We conclude that the non-absoluteness theorems may have a significant role to play in helping converge towards an acceptable solution to the measurement problem.
翻訳日:2023-09-11 09:13:00 公開日:2023-09-07
# チャージへの学習: 深層強化学習によるuavカバレッジパス計画

Learning to Recharge: UAV Coverage Path Planning through Deep Reinforcement Learning ( http://arxiv.org/abs/2309.03157v2 )

ライセンス: Link先を確認
Mirco Theile, Harald Bayerlein, Marco Caccamo, and Alberto L. Sangiovanni-Vincentelli(参考訳) 被覆経路計画(CPP)は、ロボット工学において重要な問題であり、ある分野のすべての点をカバーする効率的な経路を見つけることが目的である。 本研究は、電池限定無人航空機(UAV)の充電に伴う電力制約のCPP問題に対処する。 この問題では、リチャージジャーニーを全般的なカバレッジ戦略に統合することから、戦略的、長期的な意思決定を行うという複雑な課題が浮かび上がっています。 本稿では,行動マスキングとディスカウント係数スケジューリングを応用し,ミッションホライズンズ全体にわたるカバレッジトラジェクタを最適化した,新しい近近政策最適化(ppo)に基づく深層強化学習(drl)手法を提案する。 さらに,リチャージ能力に起因する創発的状態ループを処理するための位置履歴をエージェントに提供する。 提案手法はベースラインヒューリスティックを上回り,異なる対象領域や地図に一般化し,目に見えない地図に限定的な一般化を行う。 我々は,長期的問題に対するDRLアルゴリズム設計に関する貴重な知見を提供し,CPP問題のためのソフトウェアフレームワークを提供する。

Coverage path planning (CPP) is a critical problem in robotics, where the goal is to find an efficient path that covers every point in an area of interest. This work addresses the power-constrained CPP problem with recharge for battery-limited unmanned aerial vehicles (UAVs). In this problem, a notable challenge emerges from integrating recharge journeys into the overall coverage strategy, highlighting the intricate task of making strategic, long-term decisions. We propose a novel proximal policy optimization (PPO)-based deep reinforcement learning (DRL) approach with map-based observations, utilizing action masking and discount factor scheduling to optimize coverage trajectories over the entire mission horizon. We further provide the agent with a position history to handle emergent state loops caused by the recharge capability. Our approach outperforms a baseline heuristic, generalizes to different target zones and maps, with limited generalization to unseen maps. We offer valuable insights into DRL algorithm design for long-horizon problems and provide a publicly available software framework for the CPP problem.
翻訳日:2023-09-11 09:12:35 公開日:2023-09-07
# 計測タンパ検出ベンチマーク

Benchmarks for Detecting Measurement Tampering ( http://arxiv.org/abs/2308.15605v4 )

ライセンス: Link先を確認
Fabien Roger, Ryan Greenblatt, Max Nadeau, Buck Shlegeris, Nate Thomas(参考訳) 複雑なタスクを実行するために強力なAIシステムをトレーニングする場合、最適化に堅牢なトレーニング信号を提供することは困難である。 ひとつは \textit{measurement tampering} で、aiシステムは望ましい結果を得るのではなく、良い結果の錯覚を作り出すために複数の測定値を操作する。 本研究では,大規模言語モデルにおける計測改ざん検出手法を評価するために,新たに4つのテキストベースデータセットを構築した。 具体的には、何らかの結果が生じたかどうかを判断するためのテキスト入力と測定のセットと、測定結果を正確に予測できるベースモデルが与えられた場合、すべての測定結果が実際に結果が生じたかどうかを示す例、測定の改ざんによって引き起こされたかどうかを判断する。 ほとんどのデータセットで単純なベースラインを上回りますが、最大パフォーマンスは達成できません。 技術とデータセットの両方に改善の余地があると信じており、測定の改ざんに取り組む今後の作業に興奮しています。

When training powerful AI systems to perform complex tasks, it may be challenging to provide training signals which are robust to optimization. One concern is \textit{measurement tampering}, where the AI system manipulates multiple measurements to create the illusion of good results instead of achieving the desired outcome. In this work, we build four new text-based datasets to evaluate measurement tampering detection techniques on large language models. Concretely, given sets of text inputs and measurements aimed at determining if some outcome occurred, as well as a base model able to accurately predict measurements, the goal is to determine if examples where all measurements indicate the outcome occurred actually had the outcome occur, or if this was caused by measurement tampering. We demonstrate techniques that outperform simple baselines on most datasets, but don't achieve maximum performance. We believe there is significant room for improvement for both techniques and datasets, and we are excited for future work tackling measurement tampering.
翻訳日:2023-09-11 09:12:14 公開日:2023-09-07
# 異常検出のためのグラフフェアリング畳み込みネットワーク

Graph Fairing Convolutional Networks for Anomaly Detection ( http://arxiv.org/abs/2010.10274v2 )

ライセンス: Link先を確認
Mahsa Mesgaran and A. Ben Hamza(参考訳) グラフ畳み込みは、グラフ構造化データ上の多くのディープニューラルネットワークの基本的な構成要素である。 本稿では,半教師付き異常検出のためのスキップ接続を用いた単純なグラフ畳み込みネットワークを提案する。 提案する階層的伝播則は,幾何学処理における暗黙的フェアリングの概念を理論的に動機付けており,隣接ノードからの情報を集約するグラフ畳み込みモジュールと,階層的近傍表現を結合するスキップ接続モジュールを備える。 この伝播則はジャコビ法による暗黙のフェアリング方程式の反復解から導かれる。 ネットワーク層間の接続をスキップすることで,遠隔グラフノードから情報を取得することに加えて,識別ノード表現の学習にグラフ構造とノード特徴の両方を活用する。 これらのスキップ接続は,提案するネットワークアーキテクチャで設計的に統合される。 本モデルの有効性は,5つのベンチマークデータセットに対する広範な実験により実証され,強力なベースライン法に対して,より優れた,あるいは同等な異常検出結果が得られた。 また,接続をスキップすることでモデルの性能が向上することを示す。

Graph convolution is a fundamental building block for many deep neural networks on graph-structured data. In this paper, we introduce a simple, yet very effective graph convolutional network with skip connections for semi-supervised anomaly detection. The proposed layerwise propagation rule of our model is theoretically motivated by the concept of implicit fairing in geometry processing, and comprises a graph convolution module for aggregating information from immediate node neighbors and a skip connection module for combining layer-wise neighborhood representations. This propagation rule is derived from the iterative solution of the implicit fairing equation via the Jacobi method. In addition to capturing information from distant graph nodes through skip connections between the network's layers, our approach exploits both the graph structure and node features for learning discriminative node representations. These skip connections are integrated by design in our proposed network architecture. The effectiveness of our model is demonstrated through extensive experiments on five benchmark datasets, achieving better or comparable anomaly detection results against strong baseline methods. We also demonstrate through an ablation study that skip connection helps improve the model performance.
翻訳日:2023-09-08 18:36:09 公開日:2023-09-07
# 非可換多項式最適化問題としての線形力学系の最適学習

Proper Learning of Linear Dynamical Systems as a Non-Commutative Polynomial Optimisation Problem ( http://arxiv.org/abs/2002.01444v5 )

ライセンス: Link先を確認
Quan Zhou and Jakub Marecek(参考訳) 不適切な学習として知られる線形力学系(lds)の次の観測を予測したり、ldsの適切な学習として知られる系行列の推定を行うのが最近の進歩である。 本稿では,この問題の非凸性に拘わらず,最小二乗推定器への数値解の大域収束を保証する,ldsの適切な学習手法を提案する。 我々は有望な計算結果を示す。

There has been much recent progress in forecasting the next observation of a linear dynamical system (LDS), which is known as the improper learning, as well as in the estimation of its system matrices, which is known as the proper learning of LDS. We present an approach to proper learning of LDS, which in spite of the non-convexity of the problem, guarantees global convergence of numerical solutions to a least-squares estimator. We present promising computational results.
翻訳日:2023-09-08 18:35:46 公開日:2023-09-07
# OpenVoting: デュアル投票における失敗からのリカバリ

OpenVoting: Recoverability from Failures in Dual Voting ( http://arxiv.org/abs/1908.09557v8 )

ライセンス: Link先を確認
Prashant Agrawal, Kabir Tomer, Abhinav Nakarmi, Mahabir Prasad Jhanwar, Subodh Sharma, Subhashis Banerjee(参考訳) 本稿では,選挙の検証に失敗した場合,再選挙を行わずに失敗から回復する問題に対処する。 本稿では, エンドツーエンド検証投票(E2E-V)の暗号的保証と, 投票者認証紙記録(VVPR)を用いた監査の簡易化を両立させる「emph{dual voting}」プロトコルの設定を検討する。 まず、このようなシステムの設計要件を検討し、次に、VVPRと整合性のある誤りのない投票の検証可能なサブセットを識別する「emph{OpenVoting}」というプロトコルを提案する。 通常の投票者にとって、emph{OpenVoting}は、従来の紙ベースの投票システムに似ており、認知的過負荷を最小限に抑えている。

In this paper we address the problem of recovery from failures without re-running entire elections when elections fail to verify. We consider the setting of \emph{dual voting} protocols, where the cryptographic guarantees of end-to-end verifiable voting (E2E-V) are combined with the simplicity of audit using voter-verified paper records (VVPR). We first consider the design requirements of such a system and then suggest a protocol called \emph{OpenVoting}, which identifies a verifiable subset of error-free votes consistent with the VVPRs, and the polling booths corresponding to the votes that fail to verify with possible reasons for the failures. To an ordinary voter \emph{OpenVoting} looks just like an old fashioned paper based voting system, with minimal additional cognitive overload.
翻訳日:2023-09-08 18:35:38 公開日:2023-09-07
# 排他的オー問題に対するコピュラ表現と誤差曲面投影

Copula Representations and Error Surface Projections for the Exclusive Or Problem ( http://arxiv.org/abs/1907.04483v2 )

ライセンス: Link先を確認
Roy S. Freedman(参考訳) 排他的あるいは(xor)関数は、機械学習アプリケーションにおいて、非線形フィードフォワードネットワークが線形回帰よりも優れている理由を示す最も単純な例の1つである。 本稿では,xor表現と近似問題を概観し,それらの解を確率論理と連想コプラ関数の観点から論じる。 フィードフォワードネットワークの仕様を概観した後、学習した誤差曲面のダイナミクスとRELUやTanhといった異なるアクティベーション関数を、カラフルな3次元チャートを通じて比較する。 copula表現はxorをbooleanからreal値に拡張し、in-sampleとout-sampleデータセットのクロスバリデーションの概念を示す便利な方法を提供する。 私たちのアプローチは教育的であり、機械学習のプロレゴメノンを目指しています。

The exclusive or (xor) function is one of the simplest examples that illustrate why nonlinear feedforward networks are superior to linear regression for machine learning applications. We review the xor representation and approximation problems and discuss their solutions in terms of probabilistic logic and associative copula functions. After briefly reviewing the specification of feedforward networks, we compare the dynamics of learned error surfaces with different activation functions such as RELU and tanh through a set of colorful three-dimensional charts. The copula representations extend xor from Boolean to real values, thereby providing a convenient way to demonstrate the concept of cross-validation on in-sample and out-sample data sets. Our approach is pedagogical and is meant to be a machine learning prolegomenon.
翻訳日:2023-09-08 18:35:20 公開日:2023-09-07
# 量子ラビモデルの一般化:正確な解とスペクトル構造

A generalization of the quantum Rabi model: exact solution and spectral structure ( http://arxiv.org/abs/1706.02687v3 )

ライセンス: Link先を確認
Hans-Peter Eckle and Henrik Johannesson(参考訳) 量子ラビモデルの一般化を考えると、2レベル系と1モードキャビティ発振器は追加のスターク的な項で結合される。 最近Braak[Phys]によって導入された手法を適用する。 Rev. Lett. bf 107}, 100401 (2011)], 我々はそのモデルを正確に解いた。 ラビカップリングの実験的に関連のある超強強強強構造における低次スペクトルは、元の量子ラビモデルに欠ける2つの印象的な特徴を示す: 同じパリティの状態の準位交叉を回避し、ラビカップリングが増加するにつれて2倍近い縮退準位が異常に高速に発生すること。

We consider a generalization of the quantum Rabi model where the two-level system and the single-mode cavity oscillator are coupled by an additional Stark-like term. By adapting a method recently introduced by Braak [Phys. Rev. Lett. {\bf 107}, 100401 (2011)], we solve the model exactly. The low-lying spectrum in the experimentally relevant ultrastrong and deep strong regimes of the Rabi coupling is found to exhibit two striking features absent from the original quantum Rabi model: avoided level crossings for states of the same parity and an anomalously rapid onset of two-fold near-degenerate levels as the Rabi coupling increases.
翻訳日:2023-09-08 18:35:08 公開日:2023-09-07
# データ独立関数による暗黙正則化の限界

Limitation of Characterizing Implicit Regularization by Data-independent Functions ( http://arxiv.org/abs/2201.12198v2 )

ライセンス: Link先を確認
Leyang Zhang, Zhi-Qin John Xu, Tao Luo, Yaoyu Zhang(参考訳) 近年,ニューラルネットワーク(nns)の暗黙的正規化の理解が深層学習理論の中心的な課題となっている。 しかし、暗黙の正則化自体は完全に定義されておらず、よく理解されているわけではない。 本研究では,暗黙の正規化を数学的に定義し,研究する。 重要なのは,データ独立関数を用いた暗黙の正規化を特徴付ける共通アプローチの限界を検討することである。 本稿では,2つの動的メカニズム,すなわち2点重なり合い機構を提案する。このメカニズムは,1つの隠れニューロンNNのクラスを生成するための2つのレシピを提供する。 これまでの研究に続いて、我々は暗黙の正則化の深いデータ依存をさらに強調し、将来におけるNNの暗黙の正則化のデータ依存を詳細に研究するよう促しました。

In recent years, understanding the implicit regularization of neural networks (NNs) has become a central task in deep learning theory. However, implicit regularization is itself not completely defined and well understood. In this work, we attempt to mathematically define and study implicit regularization. Importantly, we explore the limitations of a common approach to characterizing implicit regularization using data-independent functions. We propose two dynamical mechanisms, i.e., Two-point and One-point Overlapping mechanisms, based on which we provide two recipes for producing classes of one-hidden-neuron NNs that provably cannot be fully characterized by a type of or all data-independent functions. Following the previous works, our results further emphasize the profound data dependency of implicit regularization in general, inspiring us to study in detail the data dependency of NN implicit regularization in the future.
翻訳日:2023-09-08 18:28:32 公開日:2023-09-07
# アクシオンダークマター探索のための量子デュアルパス干渉法

Quantum dual-path interferometry scheme for axion dark matter searches ( http://arxiv.org/abs/2201.08291v4 )

ライセンス: Link先を確認
Qiaoli Yang, Yu Gao, Zhihui Peng(参考訳) キャビティ・アクシオン・ダークマター探索におけるデュアルパス干渉法増幅構成を提案する。 磁場によって透過された低温キャビティにおいて, 1軸光子の変換速度は, キャビティ品質係数$Q$で向上し, 古典的な結果よりも約$\pi/2$で定量的に大きくなることを示す。 現代の低温条件下では、キャビティ内の熱光子は無視できるため、アクシオンキャビティは時間的分離を伴う単一光子を放出する量子デバイスと見なすことができる。 これは、アキソンがバッチで遷移し、変換エネルギーがキャビティ内の電磁場に蓄積する古典的な図とは異なる。 これは、例えば、クロスパワーと2次相関測定のような量子レベルでの信号感度を扱うためのアクシオンキャビティ実験の可能性を明らかにする。 現在の技術における増幅鎖における光子場4次構造の相関は、高い電子移動度トランジスタ増幅器やJosephson Parametric Amplifiers (JPAs) に基づく単一パス増幅方式と比較して信号対雑音比を高める。 特に、共振器と量子制限増幅器の間のチャネルにおける避けられないマイクロ波信号挿入損失(通常$\sim-3\,$dB)を克服するために、二重パス干渉法とJPAなどの他の手法を組み合わせることは有用である。 この強化により信号走査時間が大幅に短縮され、軸-光子結合の感度が向上する。 さらに、二重パス方式の2次相関関数測定により、候補信号がアクシオン変換されているかその他の雑音であるかどうかのさらなる検証を行うことができる。

We propose a dual-path interferometry amplification configuration in cavity axion dark matter searches. We show quantum-mechanically that in a low-temperature cavity permeated by a magnetic field, the single axion-photon conversion rate is enhanced by the cavity quality factor $Q$ and quantitatively larger than the classical result by a factor $\pi/2$. Under modern cryogenic conditions, thermal photons in the cavity are negligible; thus, the axion cavity can be considered a quantum device emitting single photons with temporal separations. This differs from the classical picture in which axions transition in batches and the converted energy accumulates in the electromagnetic field inside the cavity. It reveals a possibility for the axion cavity experiment to handle the signal sensitivity at the quantum level, e.g., cross-power and second-order correlation measurements. The correlation of photon field quadratures in the amplification chain within current technology enhances the signal-to-noise ratio compared with a single-path amplification scheme based on a high electronic mobility transistor amplifier or Josephson Parametric Amplifiers (JPAs). In particular, it is useful to combine the dual-path interferometry scheme with other techniques, e.g., JPAs, to overcome the inevitable microwave signal insertion loss (normally $\sim-3\,$dB) in the channels between the cavity and the quantum-limited amplifiers. This enhancement would greatly reduce the signal scanning time to improve the sensitivity of the axion-photon coupling. In addition, the second-order correlation function measurement in the dual-path scheme can provide an additional verification of whether the candidate signals are axion converted or other noises.
翻訳日:2023-09-08 18:27:58 公開日:2023-09-07
# 一般空間を持つmdpのq-learning:弱連続性下での量子化による収束と近似最適性

Q-Learning for MDPs with General Spaces: Convergence and Near Optimality via Quantization under Weak Continuity ( http://arxiv.org/abs/2111.06781v3 )

ライセンス: Link先を確認
Ali Devran Kara, Naci Saldi, Serdar Y\"uksel(参考訳) 強化学習アルゴリズムはマルコフ決定過程 (MDPs) における状態空間と行動空間の有限性を必要とすることが多く、連続状態および行動空間に対するそのようなアルゴリズムの適用性について様々な研究がなされている。 本稿では、非常に穏やかな正規性条件(特にmdpの遷移核の弱連続性のみを含む)下では、状態と動作(量子化q学習と呼ばれる)の量子化による標準ボレルmdpのq-ラーニングが極限に収束し、さらにこの極限は、明示的な性能境界または漸近的に最適となることを保証した最適性方程式を満たすことを示す。 私たちのアプローチは i)量子化を測定核として、したがって量子化されたMDPを部分的に観察されたマルコフ決定過程(POMDP)として見ること。 (ii)pomdpsにおけるq-learningの最適化と収束結果の活用 (iii) 最後に, 構築した pomdp の不動点に対応する弱連続核を持つ mdps に対する有限状態モデル近似の近似近似に近い最適化性を示す。 そこで本研究では,連続mdpに対するq-learningの適用可能性について,非常に一般的な収束と近似結果を示す。

Reinforcement learning algorithms often require finiteness of state and action spaces in Markov decision processes (MDPs) (also called controlled Markov chains) and various efforts have been made in the literature towards the applicability of such algorithms for continuous state and action spaces. In this paper, we show that under very mild regularity conditions (in particular, involving only weak continuity of the transition kernel of an MDP), Q-learning for standard Borel MDPs via quantization of states and actions (called Quantized Q-Learning) converges to a limit, and furthermore this limit satisfies an optimality equation which leads to near optimality with either explicit performance bounds or which are guaranteed to be asymptotically optimal. Our approach builds on (i) viewing quantization as a measurement kernel and thus a quantized MDP as a partially observed Markov decision process (POMDP), (ii) utilizing near optimality and convergence results of Q-learning for POMDPs, and (iii) finally, near-optimality of finite state model approximations for MDPs with weakly continuous kernels which we show to correspond to the fixed point of the constructed POMDP. Thus, our paper presents a very general convergence and approximation result for the applicability of Q-learning for continuous MDPs.
翻訳日:2023-09-08 18:27:30 公開日:2023-09-07
# コーン・シャム理論の最小構成と拡張性

Exposing minimal composition of Kohn-Sham theory and its extendability ( http://arxiv.org/abs/2108.01232v3 )

ライセンス: Link先を確認
H. Nakada(参考訳) 多重フェルミオン問題を一粒子方程式(s.p.)に還元し、コーンシャム(ks)理論は多電子系における基底状態エネルギーと密度の計算を実践するための実用的なツールを提供している。 KS理論を他の物理量を記述するように拡張する試みや、他の多重フェルミオン系に適用する試みがある。 1-体密度行列の観点でKS理論を一般化し再定式化することにより、多元数問題をs.p.方程式に還元できる理論の最小構成を明らかにする。 改正により、いくつかの基本的な問題が再考される。 KS理論の$v$-および$N$-representabilitiesはホヘンベルク・コーンの定理のものと区別される。 KS理論の拡張性に関する基準に対処する。

Reducing the many-fermion problem to a set of single-particle (s.p.) equations, the Kohn-Sham (KS) theory has provided a practical tool to implement \textit{ab initio} calculations of ground-state energies and densities in many-electron systems. There have been attempts to extend the KS theory so that it could describe other physical quantities, or it could be applied to other many-fermion systems. By generalizing and reformulating the KS theory in terms of the 1-body density matrix, we expose the minimal composition of the theory that enables the reduction of the many-fermion problem to the s.p. equations. Based on the reformulation, several basic issues are reconsidered. The $v$- and $N$-representabilities for the KS theory are distinguished from those for the Hohenberg-Kohn theorem. Criteria for the extendability of the KS theory are addressed.
翻訳日:2023-09-08 18:26:41 公開日:2023-09-07
# 局所負ビットをもつ量子非局所性のシミュレーション

Simulations of quantum nonlocality with local negative bits ( http://arxiv.org/abs/2106.07945v3 )

ライセンス: Link先を確認
Kelvin Onggadinata and Pawel Kurzynski and Dagomir Kaszlikowski(参考訳) 我々は,n$オブザーバが局所負ビットにアクセスすることを前提に,正の確率分布を持つ局所隠れ変数源を用いて,n$ qubits間の非局所量子相関の簡単なシミュレーションを提案する。 特にトナーベーコンプロトコルとは異なり、観測者間で古典的なビットの交換は不要である。 さらに,popscu-rohrlich box correlationsを含むようにシミュレーションを拡張できる。

We propose a simple simulation of nonlocal quantum correlations among $N$ qubits using a local hidden variable source with a positive probability distribution, given that each the $N$ observers has access to a local negative bit. Notably, unlike the Toner-Bacon protocol, no exchange of classical bits between the observers is required. Moreover, our simulation can be extended to include Popescu-Rohrlich box correlations.
翻訳日:2023-09-08 18:26:25 公開日:2023-09-07
# ターゲットネットワーク間のギャップと機能正規化の橋渡し

Bridging the Gap Between Target Networks and Functional Regularization ( http://arxiv.org/abs/2106.02613v4 )

ライセンス: Link先を確認
Alexandre Pich\'e, Valentin Thomas, Rafael Pardinas, Joseph Marino, Gian Maria Marconi, Christopher Pal, Mohammad Emtiyaz Khan(参考訳) ブートストラップは、深層強化学習の成功の背後にある。 しかしながら、ブートストラップによる値関数の学習は、目標値の高速変更による不安定なトレーニングにつながることが多い。 ターゲットネットワークは、目標値を推定するために、追加の遅延パラメータセットを使用してトレーニングを安定化するために使用される。 ターゲットネットワークの人気にもかかわらず、最適化に対する効果はまだ誤解されている。 本研究では,バニラ TD(0) が収束しても,非フレキシブルであり,不安定性をもたらすような欠点を持つような暗黙の正則化器として作用することを示す。 これらの問題を克服するために,関数空間におけるフレキシブルかつ凸正則化可能な明示的な関数正則化代替案を提案し,その収束を理論的に検討する。 対象ネットワークと機能正規化による正規化の有効性を,性能,正確性,安定性の観点から検討するため,様々な環境,割引要因,非政治データ収集を実験的に検討した。 その結果,機能正規化はTarget Networksの代替として利用でき,結果として性能が向上することがわかった。 さらに、正規化重みと機能正規化におけるネットワーク更新期間の調整は、通常Target Networksで行われているように、ネットワーク更新期間を単に調整するよりも、さらなるパフォーマンス向上をもたらす可能性がある。 また,提案手法により,ネットワークが正確な$Q$-valueを復元する能力も向上する。

Bootstrapping is behind much of the successes of deep Reinforcement Learning. However, learning the value function via bootstrapping often leads to unstable training due to fast-changing target values. Target Networks are employed to stabilize training by using an additional set of lagging parameters to estimate the target values. Despite the popularity of Target Networks, their effect on the optimization is still misunderstood. In this work, we show that they act as an implicit regularizer which can be beneficial in some cases, but also have disadvantages such as being inflexible and can result in instabilities, even when vanilla TD(0) converges. To overcome these issues, we propose an explicit Functional Regularization alternative that is flexible and a convex regularizer in function space and we theoretically study its convergence. We conduct an experimental study across a range of environments, discount factors, and off-policiness data collections to investigate the effectiveness of the regularization induced by Target Networks and Functional Regularization in terms of performance, accuracy, and stability. Our findings emphasize that Functional Regularization can be used as a drop-in replacement for Target Networks and result in performance improvement. Furthermore, adjusting both the regularization weight and the network update period in Functional Regularization can result in further performance improvements compared to solely adjusting the network update period as typically done with Target Networks. Our approach also enhances the ability to networks to recover accurate $Q$-values.
翻訳日:2023-09-08 18:26:18 公開日:2023-09-07
# 量子状態のコレクションのアイデンティティをテストする:サンプル複雑性分析

Testing identity of collections of quantum states: sample complexity analysis ( http://arxiv.org/abs/2103.14511v5 )

ライセンス: Link先を確認
Marco Fanizza, Raffaele Salvia, Vittorio Giovannetti(参考訳) 我々は、このコレクションへのサンプルアクセスが与えられた未知の量子状態の集合の同一性をテストする問題について検討する。 濃度 $n$ の $d$-次元量子状態の集合に対して、サンプル複雑性は $o(\sqrt{n}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant} である。 このテストは、B\u{a}descu, O'Donnell, Wright (https://dl.acm.org/doi/10.1145/3313276.3316344) による2つの未知の状態の間のヒルベルト-シュミット距離の推定器の適切な一般化により、状態間の平均2乗ヒルベルト-シュミット距離を推定することによって得られる。

We study the problem of testing identity of a collection of unknown quantum states given sample access to this collection, each state appearing with some known probability. We show that for a collection of $d$-dimensional quantum states of cardinality $N$, the sample complexity is $O(\sqrt{N}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant}. The test is obtained by estimating the mean squared Hilbert-Schmidt distance between the states, thanks to a suitable generalization of the estimator of the Hilbert-Schmidt distance between two unknown states by B\u{a}descu, O'Donnell, and Wright (https://dl.acm.org/doi/10.1145/3313276.3316344).
翻訳日:2023-09-08 18:25:54 公開日:2023-09-07
# 複合超解像と逆トーン・マッピング:特徴分解集約ネットワークと新しいベンチマーク

Joint Super-Resolution and Inverse Tone-Mapping: A Feature Decomposition Aggregation Network and A New Benchmark ( http://arxiv.org/abs/2207.03367v4 )

ライセンス: Link先を確認
Gang Xu (1), Yu-chen Yang (1), Liang Wang (2), Xian-Tong Zhen (3), Jun Xu (1) ((1) Nankai University, (2) Institute of Automation, CAS, (3) Guangdong University of Petrochemical Technology)(参考訳) 超解像と逆トーン・マッピング(交叉SR-ITM)は,低解像度および標準ダイナミックレンジ画像の解像度とダイナミックレンジの向上を目的としている。 最近のネットワークは主に複雑なマルチブランチアーキテクチャによる画像分解技術に依存している。 しかし、固定分解技術は多彩な画像に対するパワーをほとんど制限する。 本稿では,分解機構の潜在的な力を利用するために,画像領域からより広い特徴領域へ一般化する。 そこで本稿では,軽量な特徴分解集約ネットワーク(fdan)を提案する。 特に,特徴分解ブロック(FDB)を設計して,詳細と基本特徴マップの学習可能な分離を実現し,FDBをカスケードして階層的特徴分解グループを構築する。 さらに、比較手法をよりよく評価するために、ロバストモデルトレーニングと評価のための汎用シナリオを提供する共同SR-ITM、すなわちSRITM-4Kの大規模データセットを収集する。 2つのベンチマークデータセットによる実験結果から、FDANは効率的で、関節SR-ITMの最先端手法よりも優れていることが示された。 FDANとSRITM-4Kデータセットのコードはhttps://github.com/CS-GangXu/FDANで公開されている。

Joint Super-Resolution and Inverse Tone-Mapping (joint SR-ITM) aims to increase the resolution and dynamic range of low-resolution and standard dynamic range images. Recent networks mainly resort to image decomposition techniques with complex multi-branch architectures. However, the fixed decomposition techniques would largely restricts their power on versatile images. To exploit the potential power of decomposition mechanism, in this paper, we generalize it from the image domain to the broader feature domain. To this end, we propose a lightweight Feature Decomposition Aggregation Network (FDAN). In particular, we design a Feature Decomposition Block (FDB) to achieve learnable separation of detail and base feature maps, and develop a Hierarchical Feature Decomposition Group by cascading FDBs for powerful multi-level feature decomposition. Moreover, to better evaluate the comparison methods, we collect a large-scale dataset for joint SR-ITM, i.e., SRITM-4K, which provides versatile scenarios for robust model training and evaluation. Experimental results on two benchmark datasets demonstrate that our FDAN is efficient and outperforms state-of-the-art methods on joint SR-ITM. The code of our FDAN and the SRITM-4K dataset are available at https://github.com/CS-GangXu/FDAN.
翻訳日:2023-09-08 18:19:47 公開日:2023-09-07
# 符号問題を用いたニューラルネットワーク層の効率的なアンチ・シンメトリゼーション

Efficient anti-symmetrization of a neural network layer by taming the sign problem ( http://arxiv.org/abs/2205.12250v2 )

ライセンス: Link先を確認
Nilin Abrahamsen, Lin Lin(参考訳) ニューラルネットワークの明示的な反対称性は、量子物理学においてユビキタスである汎用反対称関数の普遍関数近似子の潜在的な候補である。 しかし、この手順は実装に優先的にコストがかかるため、多数の粒子に対して実用的ではない。 戦略もサインの問題に悩まされている。 すなわち、正と負の寄与のほぼ実効的なキャンセルのため、反対称性関数の大きさは、反対称性よりもかなり小さい可能性がある。 二層ニューラルネットワークの反対称射影を効率的に評価でき、反対称ニューラルネットワークansatzesのビルディングブロックとして汎用反対称層を用いてドアを開くことができる。 この近似は符号問題を制御する場合に有効であり、この性質は標準xavier/he初期化法の下での活性化関数の選択に大きく依存することを示す。 その結果、スムースなアクティベーション関数を使用するには、標準初期化と比較してニューラルネットワークの重みを再スケーリングする必要がある。

Explicit antisymmetrization of a neural network is a potential candidate for a universal function approximator for generic antisymmetric functions, which are ubiquitous in quantum physics. However, this procedure is a priori factorially costly to implement, making it impractical for large numbers of particles. The strategy also suffers from a sign problem. Namely, due to near-exact cancellation of positive and negative contributions, the magnitude of the antisymmetrized function may be significantly smaller than before anti-symmetrization. We show that the anti-symmetric projection of a two-layer neural network can be evaluated efficiently, opening the door to using a generic antisymmetric layer as a building block in anti-symmetric neural network Ansatzes. This approximation is effective when the sign problem is controlled, and we show that this property depends crucially the choice of activation function under standard Xavier/He initialization methods. As a consequence, using a smooth activation function requires re-scaling of the neural network weights compared to standard initializations.
翻訳日:2023-09-08 18:18:56 公開日:2023-09-07
# オートSDE:データ駆動確率力学系から効果的な還元力学を学ぶ

Auto-SDE: Learning effective reduced dynamics from data-driven stochastic dynamical systems ( http://arxiv.org/abs/2205.04151v2 )

ライセンス: Link先を確認
Lingyu Feng, Ting Gao, Min Dai and Jinqiao Duan(参考訳) マルチスケール確率力学系は、多くの実世界の応用において複雑な現象を描写できるため、科学的・工学的な問題に広く採用されている。 本研究は、低速確率力学系の効率的な還元ダイナミクスの研究に費やされている。 未知の低速確率系を満たす短時間の観測データから,Auto-SDEと呼ばれるニューラルネットワークを含む新しいアルゴリズムを提案し,不変の遅い多様体を学習する。 本手法は,離散化された確率微分方程式による損失を伴う一連の時間依存オートエンコーダニューラルネットワークの進化的性質を捉える。 また, 各種評価指標による数値実験により, 精度, 安定性, 有効性も証明した。

Multiscale stochastic dynamical systems have been widely adopted to scientific and engineering problems due to their capability of depicting complex phenomena in many real world applications. This work is devoted to investigating the effective reduced dynamics for a slow-fast stochastic dynamical system. Given observation data on a short-term period satisfying some unknown slow-fast stochastic system, we propose a novel algorithm including a neural network called Auto-SDE to learn invariant slow manifold. Our approach captures the evolutionary nature of a series of time-dependent autoencoder neural networks with the loss constructed from a discretized stochastic differential equation. Our algorithm is also proved to be accurate, stable and effective through numerical experiments under various evaluation metrics.
翻訳日:2023-09-08 18:18:38 公開日:2023-09-07
# 修正エピポーラ平面画像による光深度推定

Light Field Depth Estimation via Stitched Epipolar Plane Images ( http://arxiv.org/abs/2203.15201v3 )

ライセンス: Link先を確認
Ping Zhou, Langqing Shi, Xiaoyang Liu, Jing Jin, Yuting Zhang, and Junhui Hou(参考訳) 深度推定は光場処理の基本的な問題である。 エピポーラ平面画像(EPI)に基づく手法は、離散化誤差や角度分解能の制限による勾配計算の精度の低下といった問題にしばしば遭遇する。 既存の手法は、ほとんどの地域ではうまく機能するが、閉ざされた地域で鋭い縁を作り、テクスチャのない地域で曖昧さを解決するのに苦労している。 これらの問題に対処するため,我々は斜面計算を強化するためのstitched-epi (sepi) の概念を提案する。 SEPIは、同じ3Dポイントに対応する異なるEPIから線をシフトして連結することでこれを達成している。 さらに, 咬合処理を行う行の非閉塞部分のみに焦点をあてたハーフセピアルゴリズムを提案する。 さらに,テクスチャレス領域における深度推定の改善を目的とした深度伝搬戦略を提案する。 この戦略は、エッジから内部へ進み、粗い領域上の正確な領域を優先することで、そのような領域の深さを決定することである。 広範囲な実験評価とアブレーション実験を行い,提案手法の有効性を検証した。 その結果,最先端の手法と比較して,全領域にわたって高精度でロバストな奥行き地図を生成することができることがわかった。 ソースコードはhttps://github.com/PingZhou-LF/Light-Field-Depth-Estimation-Based-on-Stitched-EPIsで公開されている。

Depth estimation is a fundamental problem in light field processing. Epipolar-plane image (EPI)-based methods often encounter challenges such as low accuracy in slope computation due to discretization errors and limited angular resolution. Besides, existing methods perform well in most regions but struggle to produce sharp edges in occluded regions and resolve ambiguities in texture-less regions. To address these issues, we propose the concept of stitched-EPI (SEPI) to enhance slope computation. SEPI achieves this by shifting and concatenating lines from different EPIs that correspond to the same 3D point. Moreover, we introduce the half-SEPI algorithm, which focuses exclusively on the non-occluded portion of lines to handle occlusion. Additionally, we present a depth propagation strategy aimed at improving depth estimation in texture-less regions. This strategy involves determining the depth of such regions by progressing from the edges towards the interior, prioritizing accurate regions over coarse regions. Through extensive experimental evaluations and ablation studies, we validate the effectiveness of our proposed method. The results demonstrate its superior ability to generate more accurate and robust depth maps across all regions compared to state-of-the-art methods. The source code will be publicly available at https://github.com/PingZhou-LF/Light-Field-Depth-Estimation-Based-on-Stitched-EPIs.
翻訳日:2023-09-08 18:18:27 公開日:2023-09-07
# 全方位画像補完を用いた新しいビュー合成の促進

Enhancement of Novel View Synthesis Using Omnidirectional Image Completion ( http://arxiv.org/abs/2203.09957v4 )

ライセンス: Link先を確認
Takayuki Hara and Tatsuya Harada(参考訳) 本研究では,ニューラルラジアンス場(NeRF)に基づく単一の360度RGB-D画像から新しいビューを合成する方法を提案する。 それまでの研究は、多層パーセプトロンの近傍補間能力を、閉塞とズームによる完全な欠損領域に頼っていた。 本研究では,入力画像を他のカメラ位置の360度RGB画像に再投影し,2次元画像生成モデルにより再投影された画像の欠落領域を完了し,完成した画像を用いてNeRFを訓練する手法を提案する。 複数枚の画像に3Dの矛盾が生じているため, 対象画像のサブセットを用いてNeRFモデルを学習し, 領域の重複を少なくする手法を提案する。 このような画像のサブセットの選択は、シミュレーションアニールによって解決される最大重量独立セット問題に起因する。 実験により,提案手法は実世界と実世界の両方でシーンの特徴を保ちながら,可塑性新規ビューを合成できることが実証された。

In this study, we present a method for synthesizing novel views from a single 360-degree RGB-D image based on the neural radiance field (NeRF) . Prior studies relied on the neighborhood interpolation capability of multi-layer perceptrons to complete missing regions caused by occlusion and zooming, which leads to artifacts. In the method proposed in this study, the input image is reprojected to 360-degree RGB images at other camera positions, the missing regions of the reprojected images are completed by a 2D image generative model, and the completed images are utilized to train the NeRF. Because multiple completed images contain inconsistencies in 3D, we introduce a method to learn the NeRF model using a subset of completed images that cover the target scene with less overlap of completed regions. The selection of such a subset of images can be attributed to the maximum weight independent set problem, which is solved through simulated annealing. Experiments demonstrated that the proposed method can synthesize plausible novel views while preserving the features of the scene for both artificial and real-world data.
翻訳日:2023-09-08 18:18:05 公開日:2023-09-07
# deepad: アルツハイマー病進行のロバストなディープラーニングモデルによる実世界臨床応用

DeepAD: A Robust Deep Learning Model of Alzheimer's Disease Progression for Real-World Clinical Applications ( http://arxiv.org/abs/2203.09096v5 )

ライセンス: Link先を確認
Somaye Hashemifar, Claudia Iriondo, Evan Casey, Mohsen Hejrati, for Alzheimer's Disease Neuroimaging Initiative(参考訳) 患者の将来の軌跡を予測する能力は、アルツハイマー病(AD)のような複雑な疾患の治療薬の開発に向けた重要なステップである。 しかし、病気の進行を予測するために開発されたほとんどの機械学習アプローチは、単一タスクモデルまたは単一モダリティモデルであり、高次元画像を用いたマルチタスク学習を含む設定では直接適用できない。 さらに、これらのアプローチのほとんどは単一のデータセット(すなわちコホート)で訓練されており、他のコホートには一般化できない。 本稿では,複数コホートからの経時的臨床・神経画像データを分析し,AD進行を予測するためのマルチモーダル・マルチタスク深層学習モデルを提案する。 提案モデルでは,3次元畳み込みニューラルネットワークの高次元MRI特徴と臨床および人口統計情報を含む他のデータモダリティを統合し,患者の将来の軌跡を予測する。 本モデルでは,研究固有の画像バイアス,特に研究間領域シフトを緩和するために,敵対的損失を用いる。 さらに,シャープネス・アウェア・最小化(SAM)最適化手法を適用し,モデル一般化をさらに改善した。 提案モデルでは, 実験結果の評価と検証のために, 各種データセット上で実験を行った。 私たちの結果は 1)我々のモデルはベースラインモデルよりも大幅に改善され、 2) 3次元畳み込みニューラルネットワークから抽出したニューロイメージング特徴を用いたモデルは,MRI由来の容積特徴に適用した場合に,同じモデルより優れている。

The ability to predict the future trajectory of a patient is a key step toward the development of therapeutics for complex diseases such as Alzheimer's disease (AD). However, most machine learning approaches developed for prediction of disease progression are either single-task or single-modality models, which can not be directly adopted to our setting involving multi-task learning with high dimensional images. Moreover, most of those approaches are trained on a single dataset (i.e. cohort), which can not be generalized to other cohorts. We propose a novel multimodal multi-task deep learning model to predict AD progression by analyzing longitudinal clinical and neuroimaging data from multiple cohorts. Our proposed model integrates high dimensional MRI features from a 3D convolutional neural network with other data modalities, including clinical and demographic information, to predict the future trajectory of patients. Our model employs an adversarial loss to alleviate the study-specific imaging bias, in particular the inter-study domain shifts. In addition, a Sharpness-Aware Minimization (SAM) optimization technique is applied to further improve model generalization. The proposed model is trained and tested on various datasets in order to evaluate and validate the results. Our results showed that 1) our model yields significant improvement over the baseline models, and 2) models using extracted neuroimaging features from 3D convolutional neural network outperform the same models when applied to MRI-derived volumetric features.
翻訳日:2023-09-08 18:17:47 公開日:2023-09-07
# DRTAM:Dual Rank-1 Tensor Attention Module

DRTAM: Dual Rank-1 Tensor Attention Module ( http://arxiv.org/abs/2203.05893v2 )

ライセンス: Link先を確認
Hanxing Chi, Baihong Lin, Jun Hu, Liang Wang(参考訳) 近年,コンピュータビジョンにおいて注目機構が広く研究されているが,大規模ネットワークとモバイルネットワークの両方において優れた性能を示すものは少ない。 本稿では,フィードフォワード畳み込みニューラルネットワークのための新しい残差アテンション学習誘導アテンションモジュールであるdual rank-1 tensor attention module (drtam)を提案する。 DRTAMはまず3つの軸に沿って3つの2次元特徴記述子を生成する。 次に、3つの記述子を用いて、drtamは2つのランク1テンソル注意マップ、初期注意マップと補完注意マップを逐次推論し、それらを組み合わせて入力特徴マップに乗算し、適応的特徴改善を行う(図1(c)参照)。 To generate two attention maps, DRTAM introduces rank-1 tensor attention module (RTAM) and residual descriptors extraction module (RDEM): RTAM divides each 2D feature descriptors into several chunks, and generate three factor vectors of a rank-1 tensor attention map by employing strip pooling on each chunk so that local and long-range contextual information can be captured along three dimension respectively; RDEM generates three 2D feature descriptors of the residual feature to produce the complement attention map, using three factor vectors of the initial attention map and three descriptors of the input feature. ImageNet-1K, MS COCO, PASCAL VOCの大規模な実験結果から, DRTAMは, 大規模・モバイル両ネットワークにおいて, 他の最先端の注目モジュールと比較して, 競争性能が向上することが示された。

Recently, attention mechanisms have been extensively investigated in computer vision, but few of them show excellent performance on both large and mobile networks. This paper proposes Dual Rank-1 Tensor Attention Module (DRTAM), a novel residual-attention-learning-guided attention module for feed-forward convolutional neural networks. Given a 3D feature tensor map, DRTAM firstly generates three 2D feature descriptors along three axes. Then, using three descriptors, DRTAM sequentially infers two rank-1 tensor attention maps, the initial attention map and the complement attention map, combines and multiplied them to the input feature map for adaptive feature refinement(see Fig.1(c)). To generate two attention maps, DRTAM introduces rank-1 tensor attention module (RTAM) and residual descriptors extraction module (RDEM): RTAM divides each 2D feature descriptors into several chunks, and generate three factor vectors of a rank-1 tensor attention map by employing strip pooling on each chunk so that local and long-range contextual information can be captured along three dimension respectively; RDEM generates three 2D feature descriptors of the residual feature to produce the complement attention map, using three factor vectors of the initial attention map and three descriptors of the input feature. Extensive experimental results on ImageNet-1K, MS COCO and PASCAL VOC demonstrate that DRTAM achieves competitive performance on both large and mobile networks compare with other state-of-the-art attention modules.
翻訳日:2023-09-08 18:17:24 公開日:2023-09-07
# FCNet:任意長露光推定のための畳み込みニューラルネットワーク

FCNet: A Convolutional Neural Network for Arbitrary-Length Exposure Estimation ( http://arxiv.org/abs/2203.03624v4 )

ライセンス: Link先を確認
Jin Liang, Yuchen Yang, Anran Zhang, Jun Xu, Hui Li, Xiantong Zhen(参考訳) デジタルカメラで撮影された写真は、通常、露出不足や露出不足に苦しむ。 画像露光エンハンスメントでは,単一露光補正(sec)と複数露光融合(mef)の課題が画像処理コミュニティで広く研究されている。 しかし、現在のSECまたはMEF法は、異なるモチベーションの下で開発されており、SECとMEFの内部相関を無視しているため、不適切な露出で任意の長さのシーケンスを処理するのが困難である。 加えて、MEF法は通常、露出不足または露出過剰な画像のみを含むシーケンスの露出を推定できない。 これらの問題を緩和するために,不適切な露光を伴う任意の長さ(うち1つを含む)の画像列に対処する新しいFCNetを開発した。 これは、ラプラシアンピラミッド(LP)画像分解による画像シーケンスの融合と補正によって達成される。 各lpレベルにおいて、入力画像シーケンスの低周波ベース成分を、代替露光融合および補正により実装された連続露光推定のための連続露光ブロックと補正ブロックとに順次供給する。 現在のLPレベルの露光補正画像は、次のLPレベルの入力画像シーケンスの高周波詳細成分とアップサンプリングして融合し、次のLPレベルのFusionおよびCorrectionブロックのベースコンポーネントを出力する。 ベンチマークデータセットの実験では、当社のFCNetはSECとMEFを含む任意の長さの露光推定に有効であることが示された。 コードはhttps://github.com/NKUJinLiang/FCNetで公開されている。

The photographs captured by digital cameras usually suffer from over or under exposure problems. For image exposure enhancement, the tasks of Single-Exposure Correction (SEC) and Multi-Exposure Fusion (MEF) are widely studied in the image processing community. However, current SEC or MEF methods are developed under different motivations and thus ignore the internal correlation between SEC and MEF, making it difficult to process arbitrary-length sequences with improper exposures. Besides, the MEF methods usually fail at estimating the exposure of a sequence containing only under-exposed or over-exposed images. To alleviate these problems, in this paper, we develop a novel Fusion-Correction Network (FCNet) to tackle an arbitrary-length (including one) image sequence with improper exposures. This is achieved by fusing and correcting an image sequence by Laplacian Pyramid (LP) image decomposition. In each LP level, the low-frequency base component of the input image sequence is fed into a Fusion block and a Correction block sequentially for consecutive exposure estimation, implemented by alternative exposure fusion and correction. The exposure-corrected image in current LP level is upsampled and fused with the high-frequency detail components of the input image sequence in the next LP level, to output the base component for the Fusion and Correction blocks in next LP level. Experiments on the benchmark dataset demonstrate that our FCNet is effective on arbitrary-length exposure estimation, including both SEC and MEF. The code is publicly released at https://github.com/NKUJinLiang/FCNet.
翻訳日:2023-09-08 18:17:00 公開日:2023-09-07
# 拡散確率モデルと拡散に基づく逆オートエンコーダ

Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders ( http://arxiv.org/abs/2202.09671v4 )

ライセンス: Link先を確認
Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) フォワード拡散チェーンを用いて、データをノイズ分布に徐々にマッピングし、拡散に基づく生成モデルは、逆拡散チェーンを推論してデータを生成する方法を学ぶ。 しかしこのアプローチは、多くの前進ステップと逆ステップを必要とするため、遅くてコストがかかる。 我々は、データが純粋なランダムノイズになるまでではなく、確実に学習できる隠れノイズデータ分布に到達するまで、より高速で安価なアプローチを提案する。 そして、ノイズの多いデータに類似したこの隠れ分布から始めてデータを生成するために、逆ステップを減らします。 提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与される逆自動エンコーダとしてキャストすることができる。 実験の結果, 逆拡散ステップがかなり少ない場合でも, 提案手法は無条件およびテキスト誘導画像生成における性能の面で, 非有向拡散確率モデルよりも一貫した改善が期待できることがわかった。

Employing a forward diffusion chain to gradually map the data to a noise distribution, diffusion-based generative models learn how to generate the data by inferring a reverse diffusion chain. However, this approach is slow and costly because it needs many forward and reverse steps. We propose a faster and cheaper approach that adds noise not until the data become pure random noise, but until they reach a hidden noisy data distribution that we can confidently learn. Then, we use fewer reverse steps to generate data by starting from this hidden distribution that is made similar to the noisy data. We reveal that the proposed model can be cast as an adversarial auto-encoder empowered by both the diffusion process and a learnable implicit prior. Experimental results show even with a significantly smaller number of reverse diffusion steps, the proposed truncated diffusion probabilistic models can provide consistent improvements over the non-truncated ones in terms of performance in both unconditional and text-guided image generations.
翻訳日:2023-09-08 18:16:34 公開日:2023-09-07
# 時間周波数を量子連続変数とする量子力学:サブショットノイズ精度と位相空間表現

Quantum metrology using time-frequency as quantum continuous variables: sub shot-noise precision and phase space representation ( http://arxiv.org/abs/2210.05511v4 )

ライセンス: Link先を確認
Eloi Descamps, Nicolas Fabre, Arne Keller and Perola Milman(参考訳) 単一光子を用いた時間精度測定における電磁場周波数の役割をパラダイムシステムとして検討する。 そこで我々は、強度とスペクトル資源の寄与を独立に同定し、プローブ数によるパラメータ推定の精度のスケーリングにおいて、両者が重要な役割を果たしていることを示す。 特に、量子モード相関を用いた二次スケーリングを観測することは可能であり、ハイゼンベルク極限を満たす状態の数学的表現を明示することができる。 また,結果の幾何学的および位相空間的解釈を提供し,状態のスペクトル分散を変化させることで,スケール上の興味深い量子-古典的遷移を観察する。 この結果は、量子力学的観点から周波数の役割を考えることにより、単一光子と量子光学の離散的かつ連続的な側面を結びつける。

We study the role of the electromagnetic field's frequency in time precision measurements using single photons as a paradigmatic system. For such, we independently identify the contributions of intensity and spectral resources and show that both can play a role on the scaling of the precision of parameter estimation with the number of probes. We show in particular that it is possible to observe a quadratic scaling using quantum mode correlations only and explicit the mathematical expression of states saturating the Heisenberg limit. We also provide a geometrical and phase space interpretation of our results, and observe a curious quantum-to-classical-like transition on scaling by modifying the spectral variance of states. Our results connect discrete and continuous aspects of single photons and quantum optics by considering from a quantum mechanical perspective the role of frequency.
翻訳日:2023-09-08 18:08:33 公開日:2023-09-07
# USE-Evaluator:不確かさ,小ささ,明快な基準アノテーションを用いた医用画像分割モデルの性能指標

USE-Evaluator: Performance Metrics for Medical Image Segmentation Models with Uncertain, Small or Empty Reference Annotations ( http://arxiv.org/abs/2209.13008v4 )

ライセンス: Link先を確認
Sophie Ostmeier, Brian Axelrod, Jeroen Bertels, Fabian Isensee, Maarten G.Lansberg, Soren Christensen, Gregory W. Albers, Li-Jia Li, Jeremy J. Heit(参考訳) 医用画像セグメンテーションモデルの性能指標は、参照アノテーションと予測されたセグメンテーションの一致度を測定するために使用される。 通常、diceのような重なりメトリクスは、結果が同等になるためにこれらのモデルのパフォーマンスを評価するためのメトリクスとして使われます。 しかし, 症例の分布と公共データセットにおけるセグメンテーション作業の難易度との間には, 臨床実践と比較してミスマッチがある。 一般的なメトリクスは、このミスマッチの影響を測ることに失敗し、特に低信号の病理、難しいセグメンテーションタスク、不確実、小さい、空の参照アノテーションを含む臨床データセットに対してである。 この制限は、モデルの設計と最適化における機械学習実践者の非効率な研究をもたらす可能性がある。 臨床評価の課題は,参照アノテーションの不確実性,参照アノテーションのボリュームサイズからの独立性,空の参照アノテーションの分類の評価などである。 本研究では,医療画像のセグメンテーションにおける基準アノテーションが,モデルによらず,社内データセット上の指標値に与える影響について検討する。 本研究では,標準ディープラーニングフレームワークの予測におけるメトリクスの挙動を調べ,臨床価値のあるメトリクスを同定する。 我々は、公開ベンチマークデータセット(BraTS 2019)と、高信号の病理と、特定の、より大きな、空の参照アノテーションとを比較します。 機械学習の実践者や、不確実性、小ささ、空の参照アノテーションは、評価と最適化の手順を再考する必要がある。 評価コードは、このトピックのさらなる分析を促進するためにリリースされた。 https://github.com/SophieOstmeier/UncertainSmallEmpty.git

Performance metrics for medical image segmentation models are used to measure the agreement between the reference annotation and the predicted segmentation. Usually, overlap metrics, such as the Dice, are used as a metric to evaluate the performance of these models in order for results to be comparable. However, there is a mismatch between the distributions of cases and difficulty level of segmentation tasks in public data sets compared to clinical practice. Common metrics fail to measure the impact of this mismatch, especially for clinical data sets that include low signal pathologies, a difficult segmentation task, and uncertain, small, or empty reference annotations. This limitation may result in ineffective research of machine learning practitioners in designing and optimizing models. Dimensions of evaluating clinical value include consideration of the uncertainty of reference annotations, independence from reference annotation volume size, and evaluation of classification of empty reference annotations. We study how uncertain, small, and empty reference annotations influence the value of metrics for medical image segmentation on an in-house data set regardless of the model. We examine metrics behavior on the predictions of a standard deep learning framework in order to identify metrics with clinical value. We compare to a public benchmark data set (BraTS 2019) with a high-signal pathology and certain, larger, and no empty reference annotations. We may show machine learning practitioners, how uncertain, small, or empty reference annotations require a rethinking of the evaluation and optimizing procedures. The evaluation code was released to encourage further analysis of this topic. https://github.com/SophieOstmeier/UncertainSmallEmpty.git
翻訳日:2023-09-08 18:08:19 公開日:2023-09-07
# 半有限計画法による最小二乗極小クラスタリングのグローバル最適化

Global Optimization for Cardinality-constrained Minimum Sum-of-Squares Clustering via Semidefinite Programming ( http://arxiv.org/abs/2209.08901v3 )

ライセンス: Link先を確認
Veronica Piccialli, Antonio M. Sudoso(参考訳) 最小二乗クラスタリング(MSSC)あるいはk平均型クラスタリング(k平均型クラスタリング)は、最近、各クラスタの濃度に関する事前知識を活用するために拡張されている。 このような知識は、ソリューションの品質だけでなく、パフォーマンスを向上させるためにも使われます。 本稿では,分枝切断法に基づく大域的最適化手法を提案する。 下界ルーチンに対しては、最近Rujeerapaiboonらによって提案された半定値プログラミング(SDP)緩和を用いる。 [SIAM J. Optim. 29(2), 1211-1239, (2019)] しかし、この緩和は小規模インスタンスのみにブランチ・アンド・カット法で使用できる。 そこで,本研究では,インスタンスサイズやクラスタ数に応じて拡張可能な新しいSDP緩和法を提案する。 いずれの場合も多面体切断を加えることで境界を強化する。 相互に制約を課す分枝戦略に適合して、子どものノードに生じる問題の複雑さを軽減します。 上界に対しては,各ノードで解いたSDP緩和解を利用した局所探索手法を提案する。 計算結果によると,提案アルゴリズムは,最先端の正確な手法で解かれたものよりも10倍の大きさの実世界のインスタンスを,初めてグローバルに解いた。

The minimum sum-of-squares clustering (MSSC), or k-means type clustering, has been recently extended to exploit prior knowledge on the cardinality of each cluster. Such knowledge is used to increase performance as well as solution quality. In this paper, we propose a global optimization approach based on the branch-and-cut technique to solve the cardinality-constrained MSSC. For the lower bound routine, we use the semidefinite programming (SDP) relaxation recently proposed by Rujeerapaiboon et al. [SIAM J. Optim. 29(2), 1211-1239, (2019)]. However, this relaxation can be used in a branch-and-cut method only for small-size instances. Therefore, we derive a new SDP relaxation that scales better with the instance size and the number of clusters. In both cases, we strengthen the bound by adding polyhedral cuts. Benefiting from a tailored branching strategy which enforces pairwise constraints, we reduce the complexity of the problems arising in the children nodes. For the upper bound, instead, we present a local search procedure that exploits the solution of the SDP relaxation solved at each node. Computational results show that the proposed algorithm globally solves, for the first time, real-world instances of size 10 times larger than those solved by state-of-the-art exact methods.
翻訳日:2023-09-08 18:07:51 公開日:2023-09-07
# 思考に富んだ」ローカルフレンドリーなno-go定理--適合する新しい仮定による予測実験

A "thoughtful" Local Friendliness no-go theorem: a prospective experiment with new assumptions to suit ( http://arxiv.org/abs/2209.08491v3 )

ライセンス: Link先を確認
Howard M. Wiseman and Eric G. Cavalcanti and Eleanor G. Rieffel(参考訳) ウィグナーの友人シナリオを拡張した2人の同僚による最近の論文は、量子論(QT)によって予測されるある種の経験的相関が、我々が「局所親和性」(LF)と呼ぶ一連のメタ物理仮定から導かれる不等式に反することを示した。 これらの仮定はベルの不等式を導いたものよりも厳密に弱い。 この定理の重要さは、可逆進化を持つ量子系が観測者(共生的に「友人」)になるという前提であった。 しかし、この論文は実験目的のオブザーバを構成するものについて、非コミットであった。 ここでは、システムが *thoughts* を持つという考えを、観測者となるのに十分な条件とする新しいlf no-go定理を提案する。 LF不等式の新しい導出は4つのメタ物理的仮定を使用し、そのうち3つは「フレンドリ」と呼ばれるものを含む思考関連である。 これら4つの仮定は、「友好性」が言及するシステムのタイプを含む実験に対してLF不等式を導出することを可能にする。 これら4つのメタフィジカルな仮定に加えて、この新しいno-go定理は、人間レベルの人工知能と、高速で大規模であるユニバーサル量子コンピューティングの2つの前提を必要とする。 後者はしばしば qt が普遍的であるという信念に動機づけられているが、これは *not* 定理の仮定である。 新しい定理の意図は将来の実験主義者に明確な目標を与え、その目標を達成するための明確な動機を与えることである。 定理の観点からQTに対する様々なアプローチを概観する。 量子論は解釈を必要としない」という一般的な主張は、我々の仮定に疑問を呈せず、否定される。 最後に,提案する実験の難易度を定量的に議論し,その進路に関するマイルストーンを簡潔に議論する。

A recent paper by two of us and co-workers, based on an extended Wigner's friend scenario, demonstrated that certain empirical correlations predicted by quantum theory (QT) violate inequalities derived from a set of metaphysical assumptions we called "Local Friendliness" (LF). These assumptions are strictly weaker than those used for deriving Bell inequalities. Crucial to the theorem was the premise that a quantum system with reversible evolution could be an observer (colloquially, a "friend"). However, that paper was noncommittal on what would constitute an observer for the purpose of an experiment. Here, we present a new LF no-go theorem which takes seriously the idea that a system's having *thoughts* is a sufficient condition for it to be an observer. Our new derivation of the LF inequalities uses four metaphysical assumptions, three of which are thought-related, including one that is explicitly called "Friendliness". These four assumptions, in conjunction, allow one to derive LF inequalities for experiments involving the type of system that "Friendliness" refers to. In addition to these four metaphysical assumptions, this new no-go theorem requires two assumptions about what is *technologically* feasible: Human-Level Artificial Intelligence, and Universal Quantum Computing which is fast and large scale. The latter is often motivated by the belief that QT is universal, but this is *not* an assumption of the theorem. The intent of the new theorem is to give a clear goal for future experimentalists, and a clear motivation for trying to achieve that goal. We review various approaches to QT in light of our theorem. The popular stance that "quantum theory needs no interpretation" does not question any of our assumptions and so is ruled out. Finally, we quantitatively discuss how difficult the experiment we envisage would be, and briefly discuss milestones on the paths towards it.
翻訳日:2023-09-08 18:07:30 公開日:2023-09-07
# 未知のQubit-Unitary操作を決定的かつ正確に反転させる

Reversing Unknown Qubit-Unitary Operation, Deterministically and Exactly ( http://arxiv.org/abs/2209.02907v5 )

ライセンス: Link先を確認
Satoshi Yoshida, Akihito Soeda, Mio Murao(参考訳) 我々は、クローズドキュービットシステムの時間反転をシミュレートする未知のキュービットユニタリ演算をリバースするための決定論的かつ厳密なプロトコルを報告する。 普遍的な決定論的完全ユニタリ変換に関する既知のno-go結果を避けるために、量子回路モデル内で未知のユニタリ操作を変換するプロトコルの最も一般的なクラスを検討し、入力ユニタリ操作をシーケンスで複数回呼び、呼び出しの間に固定された量子回路を挿入する。 提案プロトコルでは、入力キュービット単位演算を4回呼び出して逆演算を行い、単位反転の他の実行時に補助系における出力状態を触媒状態として再利用することができる。 また、M. T. Quintino と D. Ebler [Quantum $\textbf{6}$, 679 (2022)] によって提示された任意の次元に対する最適決定論的ユニタリ反転プロトコルを探索するための半定値プログラミングの単純化についても述べる。 我々は,すべての可能なプロトコルを表す大きな探索空間を減少させる手法を示し,ユニタリ演算のための高次量子変換の解析に有用なツールを提供する。

We report a deterministic and exact protocol to reverse any unknown qubit-unitary operation, which simulates the time inversion of a closed qubit system. To avoid known no-go results on universal deterministic exact unitary inversion, we consider the most general class of protocols transforming unknown unitary operations within the quantum circuit model, where the input unitary operation is called multiple times in sequence and fixed quantum circuits are inserted between the calls. In the proposed protocol, the input qubit-unitary operation is called 4 times to achieve the inverse operation, and the output state in an auxiliary system can be reused as a catalyst state in another run of the unitary inversion. We also present the simplification of the semidefinite programming for searching the optimal deterministic unitary inversion protocol for an arbitrary dimension presented by M. T. Quintino and D. Ebler [Quantum $\textbf{6}$, 679 (2022)]. We show a method to reduce the large search space representing all possible protocols, which provides a useful tool for analyzing higher-order quantum transformations for unitary operations.
翻訳日:2023-09-08 18:06:31 公開日:2023-09-07
# NeurVecによる力学系の大規模シミュレーションのための数値解の高速化

Accelerating Numerical Solvers for Large-Scale Simulation of Dynamical System via NeurVec ( http://arxiv.org/abs/2208.03680v2 )

ライセンス: Link先を確認
Zhongzhan Huang, Senwei Liang, Hong Zhang, Haizhao Yang and Liang Lin(参考訳) 力学系の大規模シミュレーションは多くの科学・工学分野において重要である。 しかし、従来の数値解法は積分を推定する際のステップサイズの選択によって制限され、精度と計算効率のトレードオフをもたらす。 この課題に対処するために,本研究では,統合誤差を補償し,シミュレーションにおいてより大きな時間ステップサイズを実現するニューラルベクター(neural vector,neurvec)と呼ばれる深層学習に基づく補正器を提案する。 様々な複雑な力学系ベンチマークに関する広範な実験により、NeurVecは、有限かつ離散的なデータを用いて訓練しても、連続位相空間において顕著な一般化能力を示すことが示された。 NeurVecは従来のソルバを著しく加速し、高いレベルの精度と安定性を維持しながら、数十倍から数百倍の速度を達成する。 さらに、neurvecの単純yet効率設計は実装の容易さと相まって、深層学習に基づく微分方程式を高速に解くための新しいパラダイムを確立する可能性を秘めている。

The large-scale simulation of dynamical systems is critical in numerous scientific and engineering disciplines. However, traditional numerical solvers are limited by the choice of step sizes when estimating integration, resulting in a trade-off between accuracy and computational efficiency. To address this challenge, we introduce a deep learning-based corrector called Neural Vector (NeurVec), which can compensate for integration errors and enable larger time step sizes in simulations. Our extensive experiments on a variety of complex dynamical system benchmarks demonstrate that NeurVec exhibits remarkable generalization capability on a continuous phase space, even when trained using limited and discrete data. NeurVec significantly accelerates traditional solvers, achieving speeds tens to hundreds of times faster while maintaining high levels of accuracy and stability. Moreover, NeurVec's simple-yet-effective design, combined with its ease of implementation, has the potential to establish a new paradigm for fast-solving differential equations based on deep learning.
翻訳日:2023-09-08 18:06:11 公開日:2023-09-07
# スマート農業のための自律農業ロボット

Autonomous Agriculture Robot for Smart Farming ( http://arxiv.org/abs/2208.01708v2 )

ライセンス: Link先を確認
Vinay Ummadi, Aravind Gundlapalle, Althaf Shaik, Shaik Mohammad Rafi B(参考訳) 本研究の目的は,農業用応用ロボット(AAR)と呼ばれる低地野菜の半自動栽培を行うことのできる知能を有する地上ロボットの開発と実証である。 aarは、インテリジェントな知覚を使って植物とその特性の検出と分類を行う軽量なソーラーパワーロボットである。 このシステムは、自動雑草切断のためのロボットアームも備えている。 このロボットは、肥料散布、殺虫剤、除草剤、その他の流体を作物、雑草、その他の害虫に届けることができる。 さらに、収量推定、作物の収穫、土壌の健康モニタリングといった高度なタスクに関する将来の研究のための情報を提供する。 本稿では,実環境における有望な結果を示すロボットの設計と関連する実験について述べる。

This project aims to develop and demonstrate a ground robot with intelligence capable of conducting semi-autonomous farm operations for different low-heights vegetable crops referred as Agriculture Application Robot(AAR). AAR is a lightweight, solar-electric powered robot that uses intelligent perception for conducting detection and classification of plants and their characteristics. The system also has a robotic arm for the autonomous weed cutting process. The robot can deliver fertilizer spraying, insecticide, herbicide, and other fluids to the targets such as crops, weeds, and other pests. Besides, it provides information for future research into higher-level tasks such as yield estimation, crop, and soil health monitoring. We present the design of robot and the associated experiments which show the promising results in real world environments.
翻訳日:2023-09-08 18:05:53 公開日:2023-09-07
# 反転量子多体スカーリングによるモビリティエッジ

Mobility edges through inverted quantum many-body scarring ( http://arxiv.org/abs/2208.01054v2 )

ライセンス: Link先を確認
N. S. Srivatsa, Hadi Yarloo, Roderich Moessner, Anne E. B. Nielsen(参考訳) 両分割のほとんどの選択に対して体積法則の絡み合ったエントロピーを持つ虹状態が多体局在スペクトルに埋め込まれていることが示される。 得られたモデルにおいて、幅広い障害強度を求めるため、スペクトル内で高度に絡み合った状態の狭い窓を、領域法的な絡み合った状態の海に埋め込む。 この構造は、多くのボディローカライズドシステムにモビリティエッジを埋め込む。 これは「反転量子多体傷」と呼ばれる多体傷の補遺と考えることができ、固有状態熱化仮説が破られるようなさらなる設定を提供する。

We show that the rainbow state, which has volume law entanglement entropy for most choices of bipartitions, can be embedded in a many-body localized spectrum. For a broad range of disorder strengths in the resulting model, we numerically find a narrow window of highly entangled states in the spectrum, embedded in a sea of area law entangled states. The construction hence embeds mobility edges in many-body localized systems. This can be thought of as the complement to many-body scars, an `inverted quantum many-body scar', providing a further type of setting where the eigenstate thermalization hypothesis is violated.
翻訳日:2023-09-08 18:05:41 公開日:2023-09-07
# 超伝導量子プロセッサ上でのチャーン絶縁体のシミュレーション

Simulating Chern insulators on a superconducting quantum processor ( http://arxiv.org/abs/2207.11797v2 )

ライセンス: Link先を確認
Zhong-Cheng Xiang, Kaixuan Huang, Yu-Ran Zhang, Tao Liu, Yun-Hao Shi, Cheng-Lin Deng, Tong Liu, Hao Li, Gui-Han Liang, Zheng-Yang Mei, Haifeng Yu, Guangming Xue, Ye Tian, Xiaohui Song, Zhi-Bo Liu, Kai Xu, Dongning Zheng, Franco Nori, and Heng Fan(参考訳) 量子ホール効果は、現代の凝縮物質物理学の基本であり、新しい理論を継続的に刺激し、物質の創発的な相を予測する。 ここでは、プログラム可能な30量子ラダー超伝導プロセッサ上で、合成次元を有する3種類のチャーン絶縁体を実験的に示す。 合成次元に沿った2次元チャーン絶縁体のバンド構造をオーブリー・アンドルー・ハーパー鎖の様々な構成で直接測定し、エッジ励起の動的局在を観察する。 これら2つのトポロジーのシグネチャを用いて,合成2次元チャーン絶縁体におけるバルクエッジ対応を実装した。 さらに、はしご型超伝導プロセッサ上で2つの異なる二層チャーン絶縁体をシミュレートする。 2つの結合鎖に対する同じおよび反対の周期的に変調されたオンサイトポテンシャルを用いて、ホール伝導率ゼロの位相的非自明なエッジ状態とチャーン数の高いチャーン絶縁体をシミュレートする。 本研究は、超伝導量子ビットを用いた量子物質の様々な興味深い位相の研究の可能性を示す。

The quantum Hall effect, fundamental in modern condensed matter physics, continuously inspires new theories and predicts emergent phases of matter. Here we experimentally demonstrate three types of Chern insulators with synthetic dimensions on a programable 30-qubit-ladder superconducting processor. We directly measure the band structures of the 2D Chern insulator along synthetic dimensions with various configurations of Aubry-Andr\'e-Harper chains and observe dynamical localisation of edge excitations. With these two signatures of topology, our experiments implement the bulk-edge correspondence in the synthetic 2D Chern insulator. Moreover, we simulate two different bilayer Chern insulators on the ladder-type superconducting processor. With the same and opposite periodically modulated on-site potentials for two coupled chains, we simulate topologically nontrivial edge states with zero Hall conductivity and a Chern insulator with higher Chern numbers, respectively. Our work shows the potential of using superconducting qubits for investigating different intriguing topological phases of quantum matter.
翻訳日:2023-09-08 18:05:29 公開日:2023-09-07
# BigText-QA: 大規模ハイブリッド知識グラフに関する質問応答

BigText-QA: Question Answering over a Large-Scale Hybrid Knowledge Graph ( http://arxiv.org/abs/2212.05798v2 )

ライセンス: Link先を確認
Jingjing Xu, Maria Biryukov, Martin Theobald, Vinu Ellampallil Venugopal(参考訳) 特に自然言語文の中で表現された複数のエンティティ間のニュアンス的関係を扱う場合、テキスト的リソースに関する複雑な質問に答えることは課題である。 この目的のために、YAGO、DBpedia、Freebase、Wikidataといったキュレートされた知識ベース(KB)が広く使われ、過去10年間にQAアプリケーションに広く受け入れられてきた。 これらのKBは構造化された知識表現を提供するが、自然言語ソースに見られる文脈的多様性は欠如している。 この制限に対処するために、bigtext-qaは統合qaアプローチを導入し、構造化された知識と構造化されていない知識の両方を統一されたグラフィカル表現で整理する、より冗長なナレッジグラフ(kg)の形式に基づいて質問に答えることができる。 これにより、BigText-QAは、構造化された背景KB(YAGOやWikidataなど)にマッピングされた名前付きエンティティの標準セットである$\unicode{x2013}$aと、リッチなコンテキスト情報を備えた高度に多様化したリレーショナルパラフレーズを提供するオープンな文節のセットを組み合わせることができる。 実験の結果,BigText-QAはニューラルネットワークベースのQAシステムであるDrQAより優れており,グラフベースの教師なしQAシステムであるQUESTと競合する結果が得られた。

Answering complex questions over textual resources remains a challenge, particularly when dealing with nuanced relationships between multiple entities expressed within natural-language sentences. To this end, curated knowledge bases (KBs) like YAGO, DBpedia, Freebase, and Wikidata have been widely used and gained great acceptance for question-answering (QA) applications in the past decade. While these KBs offer a structured knowledge representation, they lack the contextual diversity found in natural-language sources. To address this limitation, BigText-QA introduces an integrated QA approach, which is able to answer questions based on a more redundant form of a knowledge graph (KG) that organizes both structured and unstructured (i.e., "hybrid") knowledge in a unified graphical representation. Thereby, BigText-QA is able to combine the best of both worlds$\unicode{x2013}$a canonical set of named entities, mapped to a structured background KB (such as YAGO or Wikidata), as well as an open set of textual clauses providing highly diversified relational paraphrases with rich context information. Our experimental results demonstrate that BigText-QA outperforms DrQA, a neural-network-based QA system, and achieves competitive results to QUEST, a graph-based unsupervised QA system.
翻訳日:2023-09-08 18:00:03 公開日:2023-09-07
# 因果推論による根源の局在と異常緩和について

On Root Cause Localization and Anomaly Mitigation through Causal Inference ( http://arxiv.org/abs/2212.04031v2 )

ライセンス: Link先を確認
Xiao Han, Lu Zhang, Yongkai Wu, Shuhan Yuan(参考訳) セキュリティ、金融監視、健康リスクといった現実世界の幅広い応用により、様々な深い異常検出モデルが提案され、最先端のパフォーマンスを達成している。 しかし、実際は効果があるだけでなく、何が異常な結果を引き起こすのか、どのように修正するかを知りたいと考える。 本研究では,Root Cause Localization と Anomaly Mitigation を因果的観点から実現することを目的とした RootCLAM を提案する。 特に,正常な因果機構に対する外的介入による異常を定式化し,外的介入を根本原因とする異常な特徴の発見を目指す。 その後, 異常な特徴に対する緩和行動を推奨し, 因果機構が誘導する反事実が正常であるような異常結果の逆転を推奨する, 異常緩和アプローチも提案する。 3つのデータセットの実験により、我々のアプローチは根本原因を特定し、さらに異常なラベルを反転させることができることが示された。

Due to a wide spectrum of applications in the real world, such as security, financial surveillance, and health risk, various deep anomaly detection models have been proposed and achieved state-of-the-art performance. However, besides being effective, in practice, the practitioners would further like to know what causes the abnormal outcome and how to further fix it. In this work, we propose RootCLAM, which aims to achieve Root Cause Localization and Anomaly Mitigation from a causal perspective. Especially, we formulate anomalies caused by external interventions on the normal causal mechanism and aim to locate the abnormal features with external interventions as root causes. After that, we further propose an anomaly mitigation approach that aims to recommend mitigation actions on abnormal features to revert the abnormal outcomes such that the counterfactuals guided by the causal mechanism are normal. Experiments on three datasets show that our approach can locate the root causes and further flip the abnormal labels.
翻訳日:2023-09-08 17:59:37 公開日:2023-09-07
# PGFed:フェデレートラーニングのための各クライアントのグローバルオブジェクトをパーソナライズ

PGFed: Personalize Each Client's Global Objective for Federated Learning ( http://arxiv.org/abs/2212.01448v2 )

ライセンス: Link先を確認
Jun Luo, Matias Mendieta, Chen Chen, Shandong Wu(参考訳) 個人化フェデレーション学習は、異種データに対する従来のフェデレーション学習(FL)の平凡な性能のため、注目を集めている。 単一のグローバルコンセンサスモデルをトレーニングする従来のflとは異なり、パーソナライズされたflは異なるクライアントに対して異なるモデルを可能にする。 しかし、既存のパーソナライズされたflアルゴリズムは、知識を集約されたモデルや正規化に組み込むことで、連合全体で協調的な知識を暗黙的に伝達するだけである。 この暗黙的な知識伝達は、各クライアントの他のクライアントに対する経験的リスクの可能性を最大化するのに失敗する。 そこで本研究では,個人化グローバルフェデレーション・ラーニング(pgfed)を提案する。このフレームワークは,自己と他のクライアントの経験的リスクを明確かつ適応的に集約することで,各クライアントが自身のグローバル目標をパーソナライズできる,新たなパーソナライズされたflフレームワークである。 これを達成しつつ、通信オーバーヘッド(O(N^2))と潜在的なプライバシーリークを回避するため、各クライアントのリスクは、他のクライアントの適応的リスクアグリゲーションの1次近似によって推定される。 PGFedの上にPGFedMoと呼ばれるモーメントアップグレードを開発し、クライアントの経験的リスクをより効率的に活用する。 異なるフェデレーション設定下での4つのデータセットに対する広範な実験により、従来の最先端手法よりも一貫したPGFの改良が示された。 コードはhttps://github.com/ljaiverson/pgfedで公開されている。

Personalized federated learning has received an upsurge of attention due to the mediocre performance of conventional federated learning (FL) over heterogeneous data. Unlike conventional FL which trains a single global consensus model, personalized FL allows different models for different clients. However, existing personalized FL algorithms only implicitly transfer the collaborative knowledge across the federation by embedding the knowledge into the aggregated model or regularization. We observed that this implicit knowledge transfer fails to maximize the potential of each client's empirical risk toward other clients. Based on our observation, in this work, we propose Personalized Global Federated Learning (PGFed), a novel personalized FL framework that enables each client to personalize its own global objective by explicitly and adaptively aggregating the empirical risks of itself and other clients. To avoid massive (O(N^2)) communication overhead and potential privacy leakage while achieving this, each client's risk is estimated through a first-order approximation for other clients' adaptive risk aggregation. On top of PGFed, we develop a momentum upgrade, dubbed PGFedMo, to more efficiently utilize clients' empirical risks. Our extensive experiments on four datasets under different federated settings show consistent improvements of PGFed over previous state-of-the-art methods. The code is publicly available at https://github.com/ljaiverson/pgfed.
翻訳日:2023-09-08 17:59:21 公開日:2023-09-07
# 非造影CTにおけるDeep Learning acute Ischemic Stroke Segmentationの非偽性

Non-inferiority of Deep Learning Acute Ischemic Stroke Segmentation on Non-Contrast CT Compared to Expert Neuroradiologists ( http://arxiv.org/abs/2211.15341v3 )

ライセンス: Link先を確認
Sophie Ostmeier, Brian Axelrod, Benjamin F.J. Verhaaren, Soren Christensen, Abdelkader Mahammedi, Yongkai Liu, Benjamin Pulli, Li-Jia Li, Greg Zaharchuk, Jeremy J. Heit(参考訳) 畳み込みニューラルネットワーク(CNN)深層学習モデルが、非コントラストCTの急性虚血変化を神経放射線学者と比較して正確に区分できるかどうかを判定する。 defuse 3 試験に参加した急性期脳梗塞232例の非コントラストct (ncct) 検査について検討した。 経験豊富な3人の神経放射線学者は、各スキャンで虚血核を反映する低密度を分離した。 最も経験の深い神経放射線学者(専門A)は、深層学習モデルトレーニングの基礎的真実となった。 さらに2人の神経放射線学者(専門家BとC)がデータ検査に使用された。 232の研究はランダムにトレーニングとテストセットに分割された。 トレーニングセットはさらに、トレーニングセットと検証セットで5つの折りたたみにランダムに分割された。 NCCTからの専門家Aのセグメンテーションを予測するために,3次元CNNアーキテクチャを訓練し,最適化した。 モデルの性能は, 20%, 3ml, 3mmの非干渉しきい値を用いて, 体積, 重ね合わせ, 距離測定値を用いて評価した。 我々は、一方的なウィルコクソンの署名付きランクテストを使用して、専門家間の合意と比較したモデル-専門家の不便さをテストしました。 虚血性コアセグメンテーションタスクの最終的なモデル性能は, 専門家aで訓練すると, 0.46+-0.09 表面サイスと 0.47+-0.13 サイスの性能に到達した。 CNNは、神経放射線学者に匹敵する精度で急性虚血性脳梗塞患者におけるNCCTの低濃度虚血コアを正確に規定している。

To determine if a convolutional neural network (CNN) deep learning model can accurately segment acute ischemic changes on non-contrast CT compared to neuroradiologists. Non-contrast CT (NCCT) examinations from 232 acute ischemic stroke patients who were enrolled in the DEFUSE 3 trial were included in this study. Three experienced neuroradiologists independently segmented hypodensity that reflected the ischemic core on each scan. The neuroradiologist with the most experience (expert A) served as the ground truth for deep learning model training. Two additional neuroradiologists (experts B and C) segmentations were used for data testing. The 232 studies were randomly split into training and test sets. The training set was further randomly divided into 5 folds with training and validation sets. A 3-dimensional CNN architecture was trained and optimized to predict the segmentations of expert A from NCCT. The performance of the model was assessed using a set of volume, overlap, and distance metrics using non-inferiority thresholds of 20%, 3ml, and 3mm. The optimized model trained on expert A was compared to test experts B and C. We used a one-sided Wilcoxon signed-rank test to test for the non-inferiority of the model-expert compared to the inter-expert agreement. The final model performance for the ischemic core segmentation task reached a performance of 0.46+-0.09 Surface Dice at Tolerance 5mm and 0.47+-0.13 Dice when trained on expert A. Compared to the two test neuroradiologists the model-expert agreement was non-inferior to the inter-expert agreement, p < 0.05. The CNN accurately delineates the hypodense ischemic core on NCCT in acute ischemic stroke patients with an accuracy comparable to neuroradiologists.
翻訳日:2023-09-08 17:58:51 公開日:2023-09-07
# 深部量子回路からのノイズロバスト基底状態エネルギー推定

Noise-robust ground state energy estimates from deep quantum circuits ( http://arxiv.org/abs/2211.08780v2 )

ライセンス: Link先を確認
Harish J. Vallury, Michael A. Jones, Gregory A. L. White, Floyd M. Creevey, Charles D. Hill, Lloyd C. L. Hollenberg(参考訳) フォールトトレランスに先立ち、量子コンピューティングの実用性は、量子アルゴリズムにおいてノイズの影響をいかに適切に回避できるかによって決定される。 変分量子固有解法(VQE)のようなハイブリッド量子古典アルゴリズムは、短期的な状態のために設計されている。 しかしながら、問題の規模が大きくなるにつれて、VQEの結果は現在のハードウェアのノイズによってスクランブルされる。 誤り軽減技術はこれらの問題をある程度緩和するが、ノイズに対する堅牢性が高いアルゴリズムアプローチを開発する必要がある。 本稿では,最近導入された量子計算モーメント法(qcm)の基底状態エネルギー問題に対するロバスト性について検討し,基礎エネルギー推定が非コヒーレントノイズを明示的に除去する例を示す。 この観測により、我々はIBM Quantumハードウェア上で量子磁性のモデルとしてQCMを実装し、回路深度の増加に伴うノイズフィルタリング効果を調べる。 QCMはVQEが完全に失敗する極めて高いエラー堅牢性を維持している。 量子磁性モデルでは、500 cnot以下の超深層状態回路の20量子ビットモデルでは、qcmは依然として妥当なエネルギー推定を抽出できる。 この観測は広範な実験結果によって支えられている。 これらの結果と一致させるためには、VQEはエラー率で約2桁のハードウェア改善が必要である。

In the lead up to fault tolerance, the utility of quantum computing will be determined by how adequately the effects of noise can be circumvented in quantum algorithms. Hybrid quantum-classical algorithms such as the variational quantum eigensolver (VQE) have been designed for the short-term regime. However, as problems scale, VQE results are generally scrambled by noise on present-day hardware. While error mitigation techniques alleviate these issues to some extent, there is a pressing need to develop algorithmic approaches with higher robustness to noise. Here, we explore the robustness properties of the recently introduced quantum computed moments (QCM) approach to ground state energy problems, and show through an analytic example how the underlying energy estimate explicitly filters out incoherent noise. Motivated by this observation, we implement QCM for a model of quantum magnetism on IBM Quantum hardware to examine the noise-filtering effect with increasing circuit depth. We find that QCM maintains a remarkably high degree of error robustness where VQE completely fails. On instances of the quantum magnetism model up to 20 qubits for ultra-deep trial state circuits of up to ~500 CNOTs, QCM is still able to extract reasonable energy estimates. The observation is bolstered by an extensive set of experimental results. To match these results, VQE would need hardware improvement by some 2 orders of magnitude on error rates.
翻訳日:2023-09-08 17:58:26 公開日:2023-09-07
# 病理画像解析のための立体不変自己教師あり学習

Stain-invariant self supervised learning for histopathology image analysis ( http://arxiv.org/abs/2211.07590v2 )

ライセンス: Link先を確認
Alexandre Tiard, Alex Wong, David Joon Ho, Yangchao Wu, Eliram Nof, Alvin C. Goh, Stefano Soatto, Saad Nadeem(参考訳) 乳がんのヘマトキシリンおよびエオシン(H&E)染色像におけるいくつかの分類課題に対する自己監督アルゴリズムを提案する。 本手法は, 自動分析ツールの適用性を制限したヒストロジー画像取得プロセスに固有の変異の染色に頑健である。 トレーニング中に染色正規化技術を利用する学習潜在空間に制約を課すことでこの問題に対処する。 各イテレーションで、イメージを正規化ターゲットとして選択し、そのターゲットに正規化されたバッチ内の各イメージのバージョンを生成します。 異なる染色変化下で同じ画像に対応する埋め込み間の距離を最小化し、他のサンプル間の距離を最大化する。 提案手法は,マルチセンターデータ間の染色変化に対するロバスト性を向上するだけでなく,様々な正規化対象および手法に関する広範な実験を通じて,分類性能を向上させる。 本手法は,腫瘍分類(CAMELYON17)やサブタイピング(BRACS)からHER2ステータス分類および治療応答予測まで,いくつかの乳がんデータセットの最先端性を実現する。

We present a self-supervised algorithm for several classification tasks within hematoxylin and eosin (H&E) stained images of breast cancer. Our method is robust to stain variations inherent to the histology images acquisition process, which has limited the applicability of automated analysis tools. We address this problem by imposing constraints a learnt latent space which leverages stain normalization techniques during training. At every iteration, we select an image as a normalization target and generate a version of every image in the batch normalized to that target. We minimize the distance between the embeddings that correspond to the same image under different staining variations while maximizing the distance between other samples. We show that our method not only improves robustness to stain variations across multi-center data, but also classification performance through extensive experiments on various normalization targets and methods. Our method achieves the state-of-the-art performance on several publicly available breast cancer datasets ranging from tumor classification (CAMELYON17) and subtyping (BRACS) to HER2 status classification and treatment response prediction.
翻訳日:2023-09-08 17:58:03 公開日:2023-09-07
# 障害のあるモニターフリーフェルミオン

Disordered monitored free fermions ( http://arxiv.org/abs/2211.02534v2 )

ライセンス: Link先を確認
Marcin Szyniszewski, Oliver Lunt, Arijeet Pal(参考訳) ユニタリ進化における量子情報のスクランブルは、定常状態における絡みを抑制する実空間における量子力学的波動関数のピン化によって妨げられる。 監視された自由フェルミオンモデルでは、定常状態は対数的に絡み合った臨界状態から領域法則への移行を行う。 しかし、障害はアンダーソン局在に繋がる可能性がある。 連続モニタリングによるランダム電位自由フェルミオンについて検討し,測定誘起相と局所化相の相互作用について検討する。 臨界相は有限障害まで安定であり、臨界性はベレジンスキー・コステリッツ・チューレス普遍性と一致していることを示す。 さらに、監視は局在を壊し、弱い散逸における領域ロー位相は単粒子波動関数のパワーロー減衰を示す。 我々の研究は、量子ドットアレイとナノワイヤの電子系におけるこの新しい相転移を探索し、絡み合った状態の量子制御を可能にします。

Scrambling of quantum information in unitary evolution can be hindered due to measurements and localization, which pin quantum mechanical wavefunctions in real space suppressing entanglement in the steady state. In monitored free-fermionic models, the steady state undergoes an entanglement transition from a logarithmically entangled critical state to area-law. However, disorder can lead to Anderson localization. We investigate free fermions in a random potential with continuous monitoring, which enables us to probe the interplay between measurement-induced and localized phases. We show that the critical phase is stable up to a finite disorder and the criticality is consistent with the Berezinskii-Kosterlitz-Thouless universality. Furthermore, monitoring destroys localization, and the area-law phase at weak dissipation exhibits power-law decay of single-particle wave functions. Our work opens the avenue to probe this novel phase transition in electronic systems of quantum dot arrays and nanowires, and allow quantum control of entangled states.
翻訳日:2023-09-08 17:57:41 公開日:2023-09-07
# 加算増幅器と光子サブトラクションによる高忠実度非ガウス状態の高速生成

Fast Generation of High-Fidelity Mechanical Non-Gaussian States via Additional Amplifier and Photon Subtraction ( http://arxiv.org/abs/2211.00976v2 )

ライセンス: Link先を確認
Dong-Long Hu, Jia-Jin Zou, Feng-Xiao Sun, Jie-Qiao Liao, Qiongyi He, Ze-Liang Xiang(参考訳) 高次相関特性を持つ非ガウス状態(NGS)は、量子情報処理に幅広い応用がある。 しかし、高品質な状態の生成は、いまだに実践的な課題に直面している。 本稿では,オープンオプティカルシステムにおいて,協調性が1 (g^2/\kappa\gamma<1$) より小さい場合でも,2種類のメカニカルngs,すなわち schr\"{o}dinger cat state と fock state を忠実に生成するプロトコルを提案する。 通常の方式とは対照的に、短絞り場をポンピングしてビームスプリッター状の光機械的相互作用を介してメカニカル共振器と迅速に絡み合い、メカニカルデコヒーレンスを効果的に低減する。 さらに、エンタングル光電界で追加増幅器及び以下のマルチ光子減算を行うことにより、高忠実なメカニカルキャット及びフォック状態を選択的に得ることができる。 このプロトコルは様々な不完全さに頑健であり、単位忠実度に近い最先端の実験システムで実装できる。 さらに、4成分の猫状態を生成するように拡張し、将来のNGSの量子応用の可能性を提供する。

Non-Gaussian states (NGSs) with higher-order correlation properties have wide-range applications in quantum information processing. However, the generation of such states with high quality still faces practical challenges. Here, we propose a protocol to faithfully generate two types of mechanical NGSs, i.e., Schr\"{o}dinger cat states and Fock states, in open optomechanical systems, even when the cooperativity is smaller than one ($g^2/\kappa\gamma<1$). In contrast to the usual scheme, a short squeezed field is pumped to rapidly entangle with a mechanical resonator via a beam-splitter-like optomechanical interaction, effectively reducing the mechanical decoherence. Furthermore, by performing an additional amplifier and a following multi photon subtraction on the entangled optical field, one can selectively obtain the high-fidelity mechanical cat and Fock states. This protocol is robust to various imperfections, allowing it to be implemented with state-of-the-art experimental systems with close to unit fidelity. Moreover, it can be extended to generate a four-component cat state and provide possibilities for future quantum applications of NGSs.
翻訳日:2023-09-08 17:57:25 公開日:2023-09-07
# CodeEditor: トレーニング済みモデルでソースコードを編集する学習

CodeEditor: Learning to Edit Source Code with Pre-trained Models ( http://arxiv.org/abs/2210.17040v3 )

ライセンス: Link先を確認
Jia Li, Ge Li, Zhuo Li, Zhi Jin, Xing Hu, Kechi Zhang, Zhiyi Fu(参考訳) 開発者はソフトウェア開発において、様々な理由で反復的なコード編集活動(例えば、コードリファクタリング)を行うことが多い。 事前訓練されたコード編集モデルは、最先端(SOTA)の結果を得た。 事前トレーニングされたモデルは、まず事前トレーニングタスクで事前トレーニングされ、コード編集タスクで微調整される。 既存の事前トレーニングタスクは、主に、自然言語処理分野から派生したコードインフィルディングタスク(例えば、マスク付き言語モデリング)であり、自動コード編集用に設計されていない。 本稿では,コード編集に特化した新しい事前学習タスクを提案し,CodeEditorというコード編集モデルを提案する。 我々の事前学習タスクは、コード編集モデルの性能と一般化能力をさらに向上させる。 具体的には、多くの現実世界のコードスニペットを基礎として収集し、強力なジェネレータを使用して変更バージョンに書き換えます。 次に、CodeEditorをトレーニングして、修正されたバージョンを対応する真実に編集し、編集パターンを学ぶ。 4つのコード編集データセットの実験を行い、事前学習したCodeEditorを3つの設定で評価する。 1)微調整設定では,事前学習したCodeEditorを4つのデータセットでトレーニングし,テストデータ上で評価する。 CodeEditorは4つのデータセットでSOTAベースラインを15%、25.5%、9.4%、26.6%で上回っている。 2) 数ショット設定では,訓練済みのCodeEditorを限られたデータでトレーニングし,テストデータで評価する。 CodeEditorは、すべてのベースラインよりも大幅にパフォーマンスが向上する。 (3) ゼロショット設定では, sotaベースラインが動作しない間,codeeditor は 1,113 のプログラムを正しく編集する。

Developers often perform repetitive code editing activities for various reasons (e.g., code refactoring) during software development. Pre-trained code editing models have achieved the state-of-the-art (SOTA) results. Pre-trained models are first pre-trained with pre-training tasks and fine-tuned with the code editing task. Existing pre-training tasks mainly are code infilling tasks (e.g., masked language modeling), which are derived from the natural language processing field and are not designed for automatic code editing. This paper proposes a novel pre-training task specialized in code editing and presents an effective pre-trained code editing model named CodeEditor. Our pre-training task further improves the performance and generalization ability of code editing models. Specifically, we collect lots of real-world code snippets as the ground truth and use a powerful generator to rewrite them into mutated versions. Then, we pre-train our CodeEditor to edit mutated versions into the corresponding ground truth, to learn edit patterns. We conduct experiments on four code editing datasets and evaluate the pre-trained CodeEditor in three settings. (1) In the fine-tuning setting, we train the pre-trained CodeEditor with four datasets and evaluate it on the test data. CodeEditor outperforms the SOTA baselines by 15%, 25.5%, and 9.4% and 26.6% on four datasets. (2) In the few-shot setting, we train the pre-trained CodeEditor with limited data and evaluate it on the test data. CodeEditor substantially performs better than all baselines. (3) In the zero-shot setting, CodeEditor correctly edits 1,113 programs while the SOTA baselines can not work.
翻訳日:2023-09-08 17:57:01 公開日:2023-09-07
# M3FGM:ノードマスキングと多粒度メッセージパスベースフェデレーショングラフモデルによる時空間データ予測

M3FGM:a node masking and multi-granularity message passing-based federated graph model for spatial-temporal data prediction ( http://arxiv.org/abs/2210.16193v3 )

ライセンス: Link先を確認
Yuxing Tian, Zheng Liu, Yanwen Qu, Song Li, Jiachi Luo(参考訳) 研究者たちは、プライバシーとセキュリティの制約に関して、連合学習(fl)とグラフモデルを組み合わせることで、空間-時間予測の課題を解決している。 グラフモデルのパワーをよりよく活用するために、いくつかの研究は分割学習(SL)も組み合わせている。 しかし、未解決の問題がいくつか残っている。 1) クライアントは,推論フェーズ中にサーバにアクセスできないかもしれない。 2) サーバモデルで手動で設計したクライアントのグラフは,クライアント間の適切な関係を明らかにするものではない。 本稿では,これらの問題に対して,新しいgnn指向分割フェデレート学習法であるnode {\bfseries m}asking と {\bfseries m}ulti-granularity {\bfseries m}essage passing-based federated graph model (m$^3$fgm)を提案する。 最初の問題として、m$^3$fgmのサーバモデルは、クライアントがオフラインの場合をシミュレートするためにマスクノード層を使用している。 また、クライアントモデルのデコーダをデュアルサブデコーダ構造で再設計し、各クライアントモデルがそのローカルデータをオフライン時に独立して予測できるようにします。 2つ目の問題として、MGMP(Multi-Granularity Message Passing)層と呼ばれる新しいGNN層が、各クライアントノードがグローバルおよびローカル情報を知覚できるようにする。 2つの実トラフィックデータセット上で2つの異なるシナリオで広範な実験を行った。 その結果、M$^3$FGMはベースラインと変種モデルより優れており、データセットとシナリオの両方で最高の結果が得られることがわかった。

Researchers are solving the challenges of spatial-temporal prediction by combining Federated Learning (FL) and graph models with respect to the constrain of privacy and security. In order to make better use of the power of graph model, some researchs also combine split learning(SL). However, there are still several issues left unattended: 1) Clients might not be able to access the server during inference phase; 2) The graph of clients designed manually in the server model may not reveal the proper relationship between clients. This paper proposes a new GNN-oriented split federated learning method, named node {\bfseries M}asking and {\bfseries M}ulti-granularity {\bfseries M}essage passing-based Federated Graph Model (M$^3$FGM) for the above issues. For the first issue, the server model of M$^3$FGM employs a MaskNode layer to simulate the case of clients being offline. We also redesign the decoder of the client model using a dual-sub-decoders structure so that each client model can use its local data to predict independently when offline. As for the second issue, a new GNN layer named Multi-Granularity Message Passing (MGMP) layer enables each client node to perceive global and local information. We conducted extensive experiments in two different scenarios on two real traffic datasets. Results show that M$^3$FGM outperforms the baselines and variant models, achieves the best results in both datasets and scenarios.
翻訳日:2023-09-08 17:56:33 公開日:2023-09-07
# 医用画像変換学習における隠れ表現の再検討

Revisiting Hidden Representations in Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2302.08272v2 )

ライセンス: Link先を確認
Dovile Juodelyte, Amelia Jim\'enez-S\'anchez, Veronika Cheplygina(参考訳) ディープラーニングの成功の鍵となるコンポーネントは、大量のトレーニングデータの提供であるが、医療画像データセットは多様性とサイズに制限されることが多い。 転送学習は、関連するが異なるドメイン間のギャップを埋める可能性がある。 しかし, 医学的応用については, 自然画像や医用画像の事前学習が有益かは定かではない。 我々は,imagenet と radimagenet の初期化を 7 つの医療分類タスクで比較することにより,この問題に光を当てる。 我々の研究には、以前に発表された結果とは逆の結果をもたらす複製研究が含まれている。 我々の実験では、ImageNetで事前トレーニングされたResNet50モデルは、RadImageNetでトレーニングされたモデルよりも優れています。 さらなる知見を得るため,CCA(Canonical correlation Analysis)を用いて学習した表現を調査し,異なるモデルの予測を比較した。 以上の結果から,imagenet と radimagenet は,直観とは対照的に,異なる中間表現に収束する可能性が示唆された。 これらの異なる表現にもかかわらず、モデルの予測は似通っている。 以上の結果から,微調整前後のネットワーク間の類似性は,性能向上と相関せず,畳み込みニューラルネットワークの初期層における特徴の再利用のみによるものではないことが示唆された。

While a key component to the success of deep learning is the availability of massive amounts of training data, medical image datasets are often limited in diversity and size. Transfer learning has the potential to bridge the gap between related yet different domains. For medical applications, however, it remains unclear whether it is more beneficial to pre-train on natural or medical images. We aim to shed light on this problem by comparing initialization on ImageNet and RadImageNet on seven medical classification tasks. Our work includes a replication study, which yields results contrary to previously published findings. In our experiments, ResNet50 models pre-trained on ImageNet tend to outperform those trained on RadImageNet. To gain further insights, we investigate the learned representations using Canonical Correlation Analysis (CCA) and compare the predictions of the different models. Our results indicate that, contrary to intuition, ImageNet and RadImageNet may converge to distinct intermediate representations, which appear to diverge further during fine-tuning. Despite these distinct representations, the predictions of the models remain similar. Our findings show that the similarity between networks before and after fine-tuning does not correlate with performance gains, suggesting that the advantages of transfer learning might not solely originate from the reuse of features in the early layers of a convolutional neural network.
翻訳日:2023-09-08 17:47:45 公開日:2023-09-07
# 変分量子回路のトレーサビリティの効率的な推定

Efficient estimation of trainability for variational quantum circuits ( http://arxiv.org/abs/2302.04649v2 )

ライセンス: Link先を確認
Valentin Heyraud, Zejian Li, Kaelan Donatella, Alexandre Le Boit\'e, and Cristiano Ciuti(参考訳) 変分 ans\atze として使用されるパラメータ化量子回路は、量子化学から組合せ最適化までの複雑な問題に対処するための有望なツールとして出現している。 これらの変分量子回路は、システムサイズによるコスト関数勾配の指数関数的消滅によって特徴付けられる、不毛高原の有名な呪いに苦しむ可能性がある。 汎用量子回路を効率的にシミュレートできないため、トレーニング可能性の決定は重要な問題である。 本稿では,コスト関数の勾配とその分散を多種多様な変分量子回路で計算する効率的な方法を見出す。 我々のスキームは、ランダムに初期化された回路からクラフォード回路の集合への正確な写像の証明に依存しており、これは有名なゴッテスマン・クニルの定理によって古典的なコンピュータ上で効率的にシミュレートできる。 この方法はスケーラブルであり、変分量子回路のトレーサビリティを証明し、不毛高原問題を克服する設計戦略を探求するために使用できる。 実例として、最大100キュービットの結果を示す。

Parameterized quantum circuits used as variational ans\"atze are emerging as promising tools to tackle complex problems ranging from quantum chemistry to combinatorial optimization. These variational quantum circuits can suffer from the well-known curse of barren plateaus, which is characterized by an exponential vanishing of the cost-function gradient with the system size, making training unfeasible for practical applications. Since a generic quantum circuit cannot be simulated efficiently, the determination of its trainability is an important problem. Here we find an efficient method to compute the gradient of the cost function and its variance for a wide class of variational quantum circuits. Our scheme relies on our proof of an exact mapping from randomly initialized circuits to a set of Clifford circuits that can be efficiently simulated on a classical computer by virtue of the celebrated Gottesmann-Knill theorem. This method is scalable and can be used to certify trainability for variational quantum circuits and explore design strategies that can overcome the barren plateau problem. As illustrative examples, we show results with up to 100 qubits.
翻訳日:2023-09-08 17:47:24 公開日:2023-09-07
# 仮想量子エラー検出

Virtual quantum error detection ( http://arxiv.org/abs/2302.02626v3 )

ライセンス: Link先を確認
Kento Tsubouchi, Yasunari Suzuki, Yuuki Tokunaga, Nobuyuki Yoshioka, Suguru Endo(参考訳) 量子誤差補正と量子誤差検出は、エラーを検出するために症候群の測定を必要とする。 各安定化器発電機のシンドローム測定は、現在の量子ハードウェアにおける読み出し忠実度が一般的にゲート忠実度よりも低いという事実を考慮すると、大きなオーバーヘッドとなる。 本稿では,対称性拡張と呼ばれる量子エラー緩和手法を一般化することにより,仮想量子エラー検出(VQED)と呼ばれるプロトコルを提案する。 この方法では、回路実行中の量子誤差検出により得られた後選択量子状態に対応する計算結果を、シンドローム測定を実装せずに、事実上評価することができる。 安定化器発生器毎のアダマール試験回路の実装を必要とする従来の量子誤り検出とは異なり、我々のVQEDプロトコルは、安定化器発生器の数に関係なく、アンシラ量子ビットを持つ一定の深さの浅い量子回路で実行することができる。 また,vqedを用いた計算結果は,vqedの動作中に発生する雑音に対して頑健であり,本手法は他の誤差緩和手法と完全互換であり,計算精度のさらなる向上と高忠実性量子コンピューティングの容易化が図れる。

Quantum error correction and quantum error detection necessitate syndrome measurements to detect errors. Performing syndrome measurements for each stabilizer generator can be a significant overhead, considering the fact that the readout fidelity in the current quantum hardware is generally lower than gate fidelity. Here, by generalizing a quantum error mitigation method known as symmetry expansion, we propose a protocol called virtual quantum error detection (VQED). This method virtually allows for evaluating computation results corresponding to post-selected quantum states obtained through quantum error detection during circuit execution, without implementing syndrome measurements. Unlike conventional quantum error detection, which requires the implementation of Hadamard test circuits for each stabilizer generator, our VQED protocol can be performed with a constant depth shallow quantum circuit with an ancilla qubit, irrespective of the number of stabilizer generators. Furthermore, the computation results obtained using VQED are robust against the noise that occurred during the operation of VQED, and our method is fully compatible with other error mitigation schemes, enabling further improvements in computation accuracy and facilitating high-fidelity quantum computing.
翻訳日:2023-09-08 17:46:43 公開日:2023-09-07
# 散乱体を有する高調波導波路における量子カオス

Quantum chaos in a harmonic waveguide with scatterers ( http://arxiv.org/abs/2301.06065v2 )

ライセンス: Link先を確認
Vladimir A. Yurovsky (School of Chemistry, Tel Aviv University)(参考訳) 軸に沿ったゼロレンジ散乱器の集合は、高調波導波路の可積分性を持ち上げる。 このモデルに対するシュリンガー方程式の効果的な解法は、散乱器の分離性のため可能であり、数百万の固有状態は控えめな計算資源を用いて計算できる。 モデルカオス性が散乱器の数と強みによって増加するにつれて、可積分性-カオス遷移が探求される。 完全な量子カオスと固有状態熱化の体制は32個の散乱器によってアプローチできる。 これは、エネルギースペクトルの特性、逆参加比、観測可能な期待値の変動によって確認される。

A set of zero-range scatterers along its axis lifts the integrability of a harmonic waveguide. Effective solution of the Schr\"odinger equation for this model is possible due to the separable nature of the scatterers and millions of eigenstates can be calculated using modest computational resources. Integrability-chaos transition can be explored as the model chaoticity increases with the number of scatterers and their strengths. The regime of complete quantum chaos and eigenstate thermalization can be approached with 32 scatterers. This is confirmed by properties of energy spectra, the inverse participation ratio, and fluctuations of observable expectation values.
翻訳日:2023-09-08 17:46:24 公開日:2023-09-07
# 2次元テンソルネットワークに対するブロック信念伝播アルゴリズム

Block belief propagation algorithm for two-dimensional tensor networks ( http://arxiv.org/abs/2301.05844v3 )

ライセンス: Link先を確認
Chu Guo, Dario Poletti, Itai Arad(参考訳) 信念伝播は複素ネットワーク上の多変量確率分布の局所辺を近似するよく研究されたアルゴリズムであり、テンソルネットワーク状態は量子および古典多体問題の強力なツールである。 本研究では, 2次元テンソルネットワークを縮小し, 2d$システムの基底状態の近似を行うブロック信念伝播アルゴリズムを提案する。 私たちの方法の利点は3倍です。 1) 同じアルゴリズムは有限系と無限系の両方に作用する。 2) 自然かつ効率的な並列化を可能にする。 3) 柔軟性を考えると、異なるユニットセルを扱うことができる。 応用として、我々のアルゴリズムを用いて2D$Heisenbergとtransverse Isingモデルを調べ、この手法の精度が最先端の結果と同等であることを示す。

Belief propagation is a well-studied algorithm for approximating local marginals of multivariate probability distribution over complex networks, while tensor network states are powerful tools for quantum and classical many-body problems. Building on a recent connection between the belief propagation algorithm and the problem of tensor network contraction, we propose a block belief propagation algorithm for contracting two-dimensional tensor networks and approximating the ground state of $2D$ systems. The advantages of our method are three-fold: 1) the same algorithm works for both finite and infinite systems; 2) it allows natural and efficient parallelization; 3) given its flexibility it would allow to deal with different unit cells. As applications, we use our algorithm to study the $2D$ Heisenberg and transverse Ising models, and show that the accuracy of the method is on par with state-of-the-art results.
翻訳日:2023-09-08 17:46:13 公開日:2023-09-07
# 計算議論におけるクレーム最適化

Claim Optimization in Computational Argumentation ( http://arxiv.org/abs/2212.08913v2 )

ライセンス: Link先を確認
Gabriella Skitalinskaya, Maximilian Splieth\"over, and Henning Wachsmuth(参考訳) 議論の最適な提供は、人間とaiシステムの両方にとって、あらゆる議論における説得の鍵である。 これは、与えられた議論に関連する明確で流動的な主張を使う必要がある。 先行研究は議論品質の自動評価を広く研究してきた。 しかし、これまでのところ品質改善の方法はない。 このギャップを埋めるために,提案するクレーム最適化の課題,すなわち,そのデリバリを最適化するために議論的クレームを書き換えることを提案する。 複数の最適化が可能となると、まずコンテキスト情報を考慮したBARTなどの大規模言語モデルを用いて、多様な候補クレームを生成することで、この問題に対処する。 そして、様々な品質指標を用いてベスト候補を選択する。 英語コーパスの自動評価において、我々の品質ベースの候補選択は、いくつかのベースラインを上回り、すべてのクレームの60%を改善した(16%以上)。 追従分析の結果、われわれのアプローチはコピー編集以外にも、しばしば詳細なクレームを指定するが、人間よりもエビデンスが少ないことが判明した。 さらに、その能力は、命令テキストのような他のドメインにうまく一般化します。

An optimal delivery of arguments is key to persuasion in any debate, both for humans and for AI systems. This requires the use of clear and fluent claims relevant to the given debate. Prior work has studied the automatic assessment of argument quality extensively. Yet, no approach actually improves the quality so far. To fill this gap, this paper proposes the task of claim optimization: to rewrite argumentative claims in order to optimize their delivery. As multiple types of optimization are possible, we approach this task by first generating a diverse set of candidate claims using a large language model, such as BART, taking into account contextual information. Then, the best candidate is selected using various quality metrics. In automatic and human evaluation on an English-language corpus, our quality-based candidate selection outperforms several baselines, improving 60% of all claims (worsening 16% only). Follow-up analyses reveal that, beyond copy editing, our approach often specifies claims with details, whereas it adds less evidence than humans do. Moreover, its capabilities generalize well to other domains, such as instructional texts.
翻訳日:2023-09-08 17:45:10 公開日:2023-09-07
# 制約付きネットワーク分割と適応型深層強化学習を用いた大規模交通信号制御

Large-Scale Traffic Signal Control Using Constrained Network Partition and Adaptive Deep Reinforcement Learning ( http://arxiv.org/abs/2303.11899v5 )

ライセンス: Link先を確認
Hankang Gu, Shangbo Wang, Xiaoguang Ma, Dongyao Jia, Guoqiang Mao, Eng Gee Lim, Cheuk Pong Ryan Wong(参考訳) 近年,Multi-Adnt Deep Reinforcement Learning (MADRL)に基づく交通信号制御が注目されている。 大規模トラフィックネットワーク上での完全集中型RL手法のスケーラビリティ問題と完全分散型RL手法の非定常性問題を軽減するために,ネットワーク全体を複数の非結合領域に分割し,各領域に集中型RL手法を適用するという地域制御手法を用いる文献もある。 しかし、既存の分割規則は、領域のトポロジーに制約を持たないか、すべての領域に対して同じトポロジーを必要とする。 一方, 4相信号(EW, EWL, NS, NSL)により交差点が制御される場合, 指数関数的に増大する地域行動空間において, 最適関節動作の性能を探索する既存の地域制御手法は存在しない。 本稿では、上記の制約に対処するため、RereaLightという新しいRLトレーニングフレームワークを提案する。 具体的には、領域のトポロジーは、1つの中心と任意の数の葉からなる星ネットワークに最初に制約される。 次に、ネットワーク分割問題を最適化問題としてモデル化し、領域数を最小化する。 そこで, 適応分岐処理Q-Network (ABDQ) モデルを提案し, 地域制御タスクを, 特定の交差点に対応する複数の共同信号制御サブタスクに分解する。 その後、これらのサブタスクは協力的に地域利益を最大化する。 最後に、全領域の最適共同動作を連結することにより、ネットワーク全体のグローバル制御戦略を得る。 実験の結果,提案手法は実データと合成データの両方に比較して,全ての評価指標において有効であることがわかった。

Multi-agent Deep Reinforcement Learning (MADRL) based traffic signal control becomes a popular research topic in recent years. To alleviate the scalability issue of completely centralized RL techniques and the non-stationarity issue of completely decentralized RL techniques on large-scale traffic networks, some literature utilizes a regional control approach where the whole network is firstly partitioned into multiple disjoint regions, followed by applying the centralized RL approach to each region. However, the existing partitioning rules either have no constraints on the topology of regions or require the same topology for all regions. Meanwhile, no existing regional control approach explores the performance of optimal joint action in an exponentially growing regional action space when intersections are controlled by 4-phase traffic signals (EW, EWL, NS, NSL). In this paper, we propose a novel RL training framework named RegionLight to tackle the above limitations. Specifically, the topology of regions is firstly constrained to a star network which comprises one center and an arbitrary number of leaves. Next, the network partitioning problem is modeled as an optimization problem to minimize the number of regions. Then, an Adaptive Branching Dueling Q-Network (ABDQ) model is proposed to decompose the regional control task into several joint signal control sub-tasks corresponding to particular intersections. Subsequently, these sub-tasks maximize the regional benefits cooperatively. Finally, the global control strategy for the whole network is obtained by concatenating the optimal joint actions of all regions. Experimental results demonstrate the superiority of our proposed framework over all baselines under both real and synthetic datasets in all evaluation metrics.
翻訳日:2023-09-08 17:40:01 公開日:2023-09-07
# 説明シフト: 分散シフトはモデルにどのように影響したのか?

Explanation Shift: How Did the Distribution Shift Impact the Model? ( http://arxiv.org/abs/2303.08081v2 )

ライセンス: Link先を確認
Carlos Mougan, Klaus Broelemann, David Masip, Gjergji Kasneci, Thanassis Thiropanis, Steffen Staab(参考訳) 入力データ分布が進化するにつれて、機械学習モデルの予測性能は低下する傾向にある。 実際には、新しい入力データにはターゲットラベルがない傾向がある。 次に、最先端技術が入力データ分布やモデル予測分布をモデル化し、学習モデルとシフト分布の相互作用に関する問題を理解する。 本稿では,分布変化による説明特性の変化をモデル化する手法を提案する。 また, 説明シフトのモデル化は, 最先端技術よりも分布外モデル行動の検出に有効であることがわかった。 合成例と実世界のデータセットを用いて,様々な分布シフトを分析する。 我々は,データセットの特徴と学習モデルとの相互作用を検査し,それらを最先端技術と比較するアルゴリズムを提案する。 私たちは、実験を再現するコードだけでなく、オープンソースのpythonパッケージでメソッドをリリースします。

As input data distributions evolve, the predictive performance of machine learning models tends to deteriorate. In practice, new input data tend to come without target labels. Then, state-of-the-art techniques model input data distributions or model prediction distributions and try to understand issues regarding the interactions between learned models and shifting distributions. We suggest a novel approach that models how explanation characteristics shift when affected by distribution shifts. We find that the modeling of explanation shifts can be a better indicator for detecting out-of-distribution model behaviour than state-of-the-art techniques. We analyze different types of distribution shifts using synthetic examples and real-world data sets. We provide an algorithmic method that allows us to inspect the interaction between data set features and learned models and compare them to the state-of-the-art. We release our methods in an open-source Python package, as well as the code used to reproduce our experiments.
翻訳日:2023-09-08 17:38:59 公開日:2023-09-07
# ISLE: 画像レベルのセマンティックセマンティックセグメンテーションのためのフレームワーク

ISLE: A Framework for Image Level Semantic Segmentation Ensemble ( http://arxiv.org/abs/2303.07898v3 )

ライセンス: Link先を確認
Erik Ostrowski and Muhammad Shafique(参考訳) 最先端のセマンティックセグメンテーションネットワークを現実世界で採用する上で重要なボトルネックのひとつは、トレーニングラベルの可用性だ。 従来のセマンティクスセグメンテーションネットワークは、最先端の予測品質に達するために大量のピクセル単位で注釈付きラベルを必要とする。 したがって、いくつかの作品は画像レベルのアノテーションだけで訓練されたセマンティックセグメンテーションネットワークに焦点を当てている。 しかし、最先端の成果をより詳細に調べると、平均予測品質において互いに非常に近いことが分かり、異なるアプローチが異なるクラスでより良く機能し、他のクラスで低い品質を提供する。 この問題に対処するため,我々は,クラスレベルで異なる意味セグメンテーション手法のセットに対して,"pseudo-labels" のアンサンブルを用いた新しい枠組みである isle を提案する。 Pseudo-labelsは、最終的なセグメンテーションモデルをトレーニングするために使用される画像レベルのセグメンテーションフレームワークのピクセルワイズ予測である。 擬似ラベルは複数のセグメンテーション手法の強い点をシームレスに組み合わせて予測精度を向上させる。 私たちはISLEの個々のコンポーネントよりも2.4%改善しています。 画像レベルのセマンティックセグメンテーションのための最先端フレームワークに対するISLEの有効性を示すために、徹底的な分析を行った。

One key bottleneck of employing state-of-the-art semantic segmentation networks in the real world is the availability of training labels. Conventional semantic segmentation networks require massive pixel-wise annotated labels to reach state-of-the-art prediction quality. Hence, several works focus on semantic segmentation networks trained with only image-level annotations. However, when scrutinizing the results of state-of-the-art in more detail, we notice that they are remarkably close to each other on average prediction quality, different approaches perform better in different classes while providing low quality in others. To address this problem, we propose a novel framework, ISLE, which employs an ensemble of the "pseudo-labels" for a given set of different semantic segmentation techniques on a class-wise level. Pseudo-labels are the pixel-wise predictions of the image-level semantic segmentation frameworks used to train the final segmentation model. Our pseudo-labels seamlessly combine the strong points of multiple segmentation techniques approaches to reach superior prediction quality. We reach up to 2.4% improvement over ISLE's individual components. An exhaustive analysis was performed to demonstrate ISLE's effectiveness over state-of-the-art frameworks for image-level semantic segmentation.
翻訳日:2023-09-08 17:38:46 公開日:2023-09-07
# ReFit: 医用画像におけるオブジェクト境界フィッティングを用いた弱監視セマンティックセグメンテーションの補正フレームワーク

ReFit: A Framework for Refinement of Weakly Supervised Semantic Segmentation using Object Border Fitting for Medical Images ( http://arxiv.org/abs/2303.07853v2 )

ライセンス: Link先を確認
Bharath Srinivas Prabakaran and Erik Ostrowski and Muhammad Shafique(参考訳) 画像レベルの監視のみに依存する弱い教師付きセマンティックセグメンテーション(wsss)は、セグメンテーションネットワークの必要性に対処するための有望なアプローチである。 しかし、ほとんどの最先端の画像レベルWSSS技術は、ネットワークが単に画像レベルラベルからオブジェクト境界情報を導き出すことができないため、画像に埋め込まれた幾何学的特徴の理解を欠いている。 ここで境界を、オブジェクトとその背景を分離する線、または2つの異なるオブジェクトとして定義する。 この欠点に対処するために,我々は,最先端のクラスアクティベーションマップと様々なポストプロセッシング技術を組み合わせた,詳細な高精度セグメンテーションマスクを実現するための新しいrefitフレームワークを提案する。 これを実現するために,ReFitがよりシャープな境界を持つ物体の位置を予測できる境界マップの構築に使用できる最先端の教師なしセグメンテーションネットワークについて検討する。 本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。 このフレームワークはオープンソースで、結果が再現可能で、https://github.com/bharathprabakaran/ReFit.comでオンラインでアクセスできます。

Weakly Supervised Semantic Segmentation (WSSS) relying only on image-level supervision is a promising approach to deal with the need for Segmentation networks, especially for generating a large number of pixel-wise masks in a given dataset. However, most state-of-the-art image-level WSSS techniques lack an understanding of the geometric features embedded in the images since the network cannot derive any object boundary information from just image-level labels. We define a boundary here as the line separating an object and its background, or two different objects. To address this drawback, we are proposing our novel ReFit framework, which deploys state-of-the-art class activation maps combined with various post-processing techniques in order to achieve fine-grained higher-accuracy segmentation masks. To achieve this, we investigate a state-of-the-art unsupervised segmentation network that can be used to construct a boundary map, which enables ReFit to predict object locations with sharper boundaries. By applying our method to WSSS predictions, we achieved up to 10% improvement over the current state-of-the-art WSSS methods for medical imaging. The framework is open-source, to ensure that our results are reproducible, and accessible online at https://github.com/bharathprabakaran/ReFit.
翻訳日:2023-09-08 17:38:28 公開日:2023-09-07
# 有理およびニューラルネットワークに基づく近似の比較

A comparison of rational and neural network based approximations ( http://arxiv.org/abs/2303.04436v2 )

ライセンス: Link先を確認
Vinesha Peiris, Reinier Diaz Millan, Nadezda Sukhorukova, Julien Ugon(参考訳) 合理的およびニューラルネットワークに基づく近似は、現代の近似における効率的なツールである。 これらのアプローチは、多変量領域関数を含む非スムートおよび非リプシッツ関数の正確な近似を生成することができる。 本稿では,有理近似,ニューラルネットワークおよびそれらの組み合わせを用いた関数近似の効率を比較する。 その結果、有理近似は、同じ数の決定変数を持つニューラルネットワークベースのアプローチよりも優れていることがわかった。 数値実験では, 近似パラメータの数(すなわち, 対応する最適化問題の次元)が小さい場合でも, 合理的近似の有効性を示す。 もう一つの重要な貢献は、合理的近似アルゴリズムの改善である。 すなわち、合理的近似のための最適化に基づくアルゴリズムは、制約行列の条件数を制御するように調整することができる。 この簡単な調整により、高次元最適化問題に取り組み、ニューラルネットワークの設計を改善することができる。 ニューラルネットワークの主な強みは、多数の変数を持つモデルを扱う能力である。 したがって、決定変数の多さは、ニューラルネットワークの性質にある。

Rational and neural network based approximations are efficient tools in modern approximation. These approaches are able to produce accurate approximations to nonsmooth and non-Lipschitz functions, including multivariate domain functions. In this paper we compare the efficiency of function approximation using rational approximation, neural network and their combinations. It was found that rational approximation is superior to neural network based approaches with the same number of decision variables. Our numerical experiments demonstrate the efficiency of rational approximation, even when the number of approximation parameters (that is, the dimension of the corresponding optimisation problems) is small. Another important contribution of this paper lies in the improvement of rational approximation algorithms. Namely, the optimisation based algorithms for rational approximation can be adjusted to in such a way that the conditioning number of the constraint matrices are controlled. This simple adjustment enables us to work with high dimension optimisation problems and improve the design of the neural network. The main strength of neural networks is in their ability to handle models with a large number of variables: complex models are decomposed in several simple optimisation problems. Therefore the the large number of decision variables is in the nature of neural networks.
翻訳日:2023-09-08 17:38:02 公開日:2023-09-07
# 大規模機械学習モデルのための証明可能な量子アルゴリズムを目指して

Towards provably efficient quantum algorithms for large-scale machine-learning models ( http://arxiv.org/abs/2303.03428v4 )

ライセンス: Link先を確認
Junyu Liu, Minzhao Liu, Jin-Peng Liu, Ziyu Ye, Yunfei Wang, Yuri Alexeev, Jens Eisert, Liang Jiang(参考訳) 大規模な機械学習モデルは人工知能の革命的な技術であり、そのボトルネックには、事前学習と微調整の両方で使用される膨大な計算コスト、パワー、時間が含まれる。 この研究では、フォールトトレラントな量子コンピューティングは、モデルのサイズが$n$であり、モデルが十分に散逸的でスパースであり、学習率が低い限り、モデルの反復数である$\mathcal{o}(t^2 \times \text{polylog}(n))$としてスケールし、一般的な(確率的な)勾配降下アルゴリズムに対して、確実に効率的な解決を提供する可能性があることを示します。 散逸微分方程式に対するより効率的な量子アルゴリズムに基づいて、類似のアルゴリズムが機械学習の主要なアルゴリズムである(確率的な)勾配降下のために機能することを発見し、証明する。 実際には、700万から1億300万のパラメータを持つ大規模機械学習モデルのインスタンスをベンチマークします。 スパーストレーニングの文脈では、モデルプルーニング後の学習の初期段階で量子拡張が可能であり、スパースパラメータのダウンロードと再アップロードのスキームを動機付けている。 我々の研究は、フォールトトレラントな量子アルゴリズムが、最先端の大規模機械学習問題の多くに寄与する可能性を確証している。

Large machine learning models are revolutionary technologies of artificial intelligence whose bottlenecks include huge computational expenses, power, and time used both in the pre-training and fine-tuning process. In this work, we show that fault-tolerant quantum computing could possibly provide provably efficient resolutions for generic (stochastic) gradient descent algorithms, scaling as $\mathcal{O}(T^2 \times \text{polylog}(n))$, where $n$ is the size of the models and $T$ is the number of iterations in the training, as long as the models are both sufficiently dissipative and sparse, with small learning rates. Based on earlier efficient quantum algorithms for dissipative differential equations, we find and prove that similar algorithms work for (stochastic) gradient descent, the primary algorithm for machine learning. In practice, we benchmark instances of large machine learning models from 7 million to 103 million parameters. We find that, in the context of sparse training, a quantum enhancement is possible at the early stage of learning after model pruning, motivating a sparse parameter download and re-upload scheme. Our work shows solidly that fault-tolerant quantum algorithms could potentially contribute to most state-of-the-art, large-scale machine-learning problems.
翻訳日:2023-09-08 17:37:46 公開日:2023-09-07
# ハイブリッド融合によるマルチモーダル産業異常検出

Multimodal Industrial Anomaly Detection via Hybrid Fusion ( http://arxiv.org/abs/2303.00601v2 )

ライセンス: Link先を確認
Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Yabiao Wang, Chengjie Wang(参考訳) 2Dに基づく産業異常検出は広く議論されているが、3D点雲とRGB画像に基づくマルチモーダル産業異常検出には、まだ多くの未タッチフィールドがある。 既存のマルチモーダル産業異常検出手法は, マルチモーダル特徴を直接結合し, 特徴間の強い乱れを招き, 検出性能を損なう。 本稿では,ハイブリッド・フュージョン・スキームを用いた新しいマルチモーダル・アノマリー検出手法であるmulti-3d-memory (m3dm)を提案する。第1に,異なるモーダル特徴の相互作用を促進するパッチ・アズ・コントラスト・ラーニングを用いた教師なし機能融合の設計,第2に,複数のメモリバンクとの意思決定層融合による情報損失の回避,最終決定のための新たな分類器の追加などを提案する。 さらに,ポイントクラウドとrgbの機能を調整するためのポイント機能アライメント操作を提案する。 MVTec-3D ADデータセットにおける検出精度とセグメンテーション精度の両面で、我々の多モード産業異常検出モデルは、最先端(SOTA)手法よりも優れていることを示す。 コードはhttps://github.com/nomewang/M3DMで入手できる。

2D-based Industrial Anomaly Detection has been widely discussed, however, multimodal industrial anomaly detection based on 3D point clouds and RGB images still has many untouched fields. Existing multimodal industrial anomaly detection methods directly concatenate the multimodal features, which leads to a strong disturbance between features and harms the detection performance. In this paper, we propose Multi-3D-Memory (M3DM), a novel multimodal anomaly detection method with hybrid fusion scheme: firstly, we design an unsupervised feature fusion with patch-wise contrastive learning to encourage the interaction of different modal features; secondly, we use a decision layer fusion with multiple memory banks to avoid loss of information and additional novelty classifiers to make the final decision. We further propose a point feature alignment operation to better align the point cloud and RGB features. Extensive experiments show that our multimodal industrial anomaly detection model outperforms the state-of-the-art (SOTA) methods on both detection and segmentation precision on MVTec-3D AD dataset. Code is available at https://github.com/nomewang/M3DM.
翻訳日:2023-09-08 17:36:58 公開日:2023-09-07
# Internet Explorer: オープンWeb上での表現学習を目標に

Internet Explorer: Targeted Representation Learning on the Open Web ( http://arxiv.org/abs/2302.14051v2 )

ライセンス: Link先を確認
Alexander C. Li, Ellis Brown, Alexei A. Efros, Deepak Pathak(参考訳) 現代のビジョンモデルは通常、大規模で静的なデータセットで事前訓練された微調整の汎用モデルに依存している。 これらの汎用モデルは、トレーニング済みのデータセット内の知識のみをキャプチャする。これは、毎日何十億もの画像がアップロードされるインターネットの小さな最新スナップショットである。 大規模な事前トレーニングの後、我々の静的データセットが所望のタスクに転送されることを期待するのではなく、インターネットを動的に活用して、手作業で非常にうまく動作する小規模モデルを迅速に訓練することを提案する。 当社のアプローチはInternet Explorerと呼ばれ、Webを自己教師型の方法で探索し、望ましいターゲットデータセットのパフォーマンスを改善するための関連するサンプルを徐々に見つける。 インターネット上の画像検索とテキストクエリ、ダウンロードされた画像の自己教師付きトレーニング、どの画像が役に立つかの判断、次に何を探すかの優先順位付けをサイクルする。 我々はInternet Explorerを複数のデータセットで評価し、たった1つのGPUデスクトップを使用して30~40時間インターネットに問い合わせることにより、CLIPオーラクルのパフォーマンスを上回り、一致させることを示した。 結果、可視化、ビデオ: https://internet-explorer-ssl.github.io/

Modern vision models typically rely on fine-tuning general-purpose models pre-trained on large, static datasets. These general-purpose models only capture the knowledge within their pre-training datasets, which are tiny, out-of-date snapshots of the Internet -- where billions of images are uploaded each day. We suggest an alternate approach: rather than hoping our static datasets transfer to our desired tasks after large-scale pre-training, we propose dynamically utilizing the Internet to quickly train a small-scale model that does extremely well on the task at hand. Our approach, called Internet Explorer, explores the web in a self-supervised manner to progressively find relevant examples that improve performance on a desired target dataset. It cycles between searching for images on the Internet with text queries, self-supervised training on downloaded images, determining which images were useful, and prioritizing what to search for next. We evaluate Internet Explorer across several datasets and show that it outperforms or matches CLIP oracle performance by using just a single GPU desktop to actively query the Internet for 30--40 hours. Results, visualizations, and videos at https://internet-explorer-ssl.github.io/
翻訳日:2023-09-08 17:36:22 公開日:2023-09-07
# 確率-量子対応

The Stochastic-Quantum Correspondence ( http://arxiv.org/abs/2302.10778v2 )

ライセンス: Link先を確認
Jacob A. Barandes(参考訳) 本稿では,確率系の一般クラスと量子論の厳密な対応について述べる。 この対応は、ヒルベルト空間法を用いて非常に一般的で非マルコフ型の確率力学を定式化する新しい枠組みを提供する。 また, 確率力学を応用した構成空間の軌道からなる物理モデルから量子論を再構成するために, 逆方向の対応を用いる。 これにより、ヒルベルト空間、経路積分式、準確率式とともに量子論の新しい定式化が得られる。 さらに、この再構成アプローチは、干渉、デコヒーレンス、絡み合い、非可換可観測物、波動関数崩壊などの量子現象を理解する新しい方法を開く。

This paper introduces an exact correspondence between a general class of stochastic systems and quantum theory. This correspondence provides a new framework for using Hilbert-space methods to formulate highly generic, non-Markovian types of stochastic dynamics, with potential applications throughout the sciences. This paper also uses the correspondence in the other direction to reconstruct quantum theory from physical models that consist of trajectories in configuration spaces undergoing stochastic dynamics. The correspondence thereby yields a new formulation of quantum theory, alongside the Hilbert-space, path-integral formulations, and quasiprobability formulations. In addition, this reconstruction approach opens up new ways of understanding quantum phenomena like interference, decoherence, entanglement, noncommutative observables, and wave-function collapse.
翻訳日:2023-09-08 17:36:02 公開日:2023-09-07
# EGformer:360度深度推定のための等角形状バイアス変換器

EGformer: Equirectangular Geometry-biased Transformer for 360 Depth Estimation ( http://arxiv.org/abs/2304.07803v2 )

ライセンス: Link先を確認
Ilwi Yun, Chanyong Shin, Hyunku Lee, Hyuk-Jae Lee and Chae Eun Rhee(参考訳) 等角(すなわち360度)画像(eis)の深さの推定は、畳み込みニューラルネットワーク(cnn)で扱うのが難しい歪んだ180x360の視野を考えると困難である。 グローバルアテンションを持つトランスフォーマーは、EI深度推定タスクにおいてCNNよりも大幅に改善されるが、計算的に非効率であり、局所アテンションを持つトランスフォーマーの必要性が高まる。 しかし、EIsに対して局所的な注意をうまく適用するには、歪んだ正方形幾何と限定受容場を同時に扱う特定の戦略が必要である。 以前の作品ではどちらの作品も気付いていなかったため、時には不満足な深さに陥ることもあった。 本稿では,EGformer と呼ばれる等角形状バイアス変換器を提案する。 計算コストとネットワークパラメータの数を制限しながら、egformerは、大きな受容場を持つ等角幾何対応局所的注意の抽出を可能にする。 そこで我々は,EIsの歪みを低減するのに苦労するのではなく,局所的な注意のバイアスとして等角形状を積極的に活用する。 直近のEI深度推定法と比較すると,提案手法は計算コストが低く,パラメータが最少であり,提案手法の有効性が示された。

Estimating the depths of equirectangular (i.e., 360) images (EIs) is challenging given the distorted 180 x 360 field-of-view, which is hard to be addressed via convolutional neural network (CNN). Although a transformer with global attention achieves significant improvements over CNN for EI depth estimation task, it is computationally inefficient, which raises the need for transformer with local attention. However, to apply local attention successfully for EIs, a specific strategy, which addresses distorted equirectangular geometry and limited receptive field simultaneously, is required. Prior works have only cared either of them, resulting in unsatisfactory depths occasionally. In this paper, we propose an equirectangular geometry-biased transformer termed EGformer. While limiting the computational cost and the number of network parameters, EGformer enables the extraction of the equirectangular geometry-aware local attention with a large receptive field. To achieve this, we actively utilize the equirectangular geometry as the bias for the local attention instead of struggling to reduce the distortion of EIs. As compared to the most recent EI depth estimation studies, the proposed approach yields the best depth outcomes overall with the lowest computational cost and the fewest parameters, demonstrating the effectiveness of the proposed methods.
翻訳日:2023-09-08 17:28:00 公開日:2023-09-07
# AceCoder: 既存のコードを使用してコード生成を促進する

AceCoder: Utilizing Existing Code to Enhance Code Generation ( http://arxiv.org/abs/2303.17780v3 )

ライセンス: Link先を確認
Jia Li, Yunfei Zhao, Yongmin Li, Ge Li, Zhi Jin(参考訳) 大きな言語モデル(LLM)はコード生成で大きな成功を収めています。 LLMは入力としてプロンプトを受け取り、コードを出力する。 重要な質問は、プロンプト(すなわちプロンプトテクニック)の作り方である。 既存のプロンプト技術は自然言語生成用に設計されており、コード生成の精度は低い。 本稿では,AceCoderという新しいプロンプト手法を提案する。 私たちのモチベーションは、コード生成が2つの固有の課題(要求理解とコード実装)を満たすことです。 AceCoderには、これらの課題を解決するための2つの新しいメカニズム(ガイド付きコード生成とサンプル検索)が含まれている。 1) 誘導型コード生成はまずllmに要求を分析し,中間予備(テストケースなど)を出力する。 プリミティブは要件を明確にし、llmに"何を書くべきか"を伝えるために使用される。 2)例検索はプロンプトの例として類似したプログラムを選択し,関連するコンテンツ(アルゴリズムやapiなど)を多数提供し,llmに"書き方"を教える。 AceCoderを3つのLLM(例えばCodex)に適用し、Pass@kを使って3つの公開ベンチマークで評価する。 その結果、AceCoderはコード生成におけるLLMの性能を大幅に改善できることがわかった。 1) Pass@1 では、AceCoder は最先端のベースラインを MBPP で 56.4% 、MBJP で 70.7% 、MBJSP で 88.4% で上回っている。 2) AceCoderは、異なるサイズ(6Bから13B)と異なる言語(Python、Java、JavaScript)のLLMで有効である。 (3)人間の開発者はAceCoderのプログラムを好む。

Large Language Models (LLMs) have shown great success in code generation. LLMs take as the input a prompt and output the code. A key question is how to make prompts (i.e., Prompting Techniques). Existing prompting techniques are designed for natural language generation and have low accuracy in code generation. In this paper, we propose a new prompting technique named AceCoder. Our motivation is that code generation meets two unique challenges (i.e., requirement understanding and code implementation). AceCoder contains two novel mechanisms (i.e., guided code generation and example retrieval) to solve these challenges. (1) Guided code generation asks LLMs first to analyze requirements and output an intermediate preliminary (e.g., test cases). The preliminary is used to clarify requirements and tell LLMs "what to write". (2) Example retrieval selects similar programs as examples in prompts, which provide lots of relevant content (e.g., algorithms, APIs) and teach LLMs "how to write". We apply AceCoder to three LLMs (e.g., Codex) and evaluate it on three public benchmarks using the Pass@k. Results show that AceCoder can significantly improve the performance of LLMs on code generation. (1) In terms of Pass@1, AceCoder outperforms the state-of-the-art baseline by up to 56.4% in MBPP, 70.7% in MBJP, and 88.4% in MBJSP. (2) AceCoder is effective in LLMs with different sizes (i.e., 6B to 13B) and different languages (i.e., Python, Java, and JavaScript). (3) Human evaluation shows human developers prefer programs from AceCoder.
翻訳日:2023-09-08 17:26:31 公開日:2023-09-07
# 2つの時間スケールを持つ開量子系に対する断熱除去のハイゼンベルク定式化

Heisenberg formulation of adiabatic elimination for open quantum systems with two time-scales ( http://arxiv.org/abs/2303.17308v2 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) ガリーニ、コサコフスキー、スダルシャン、リンドブラッド(英語版)(GKSL)マスター方程式と2つの倍スケールを持つ開量子系を考える: 高速な方程式は、準平衡の線型部分空間へ指数関数的に収束する。 通常、断熱的な除去はschr\"odinger画像で実行される。 本稿では,準平衡部分空間に対する高速減衰ダイナミクスに付随する不変作用素が重要な役割を果たすハイゼンベルク公式を提案する。 幾何学的特異摂動に基づいて、ハイゼンベルクのスローダイナミクスと高速不変線型部分空間の漸近展開が提案されている。 彼らは中心多様体と分岐理論からカーの近似補題を利用する。 2階展開の詳細は、遅い時間スケールでの遅いダイナミクスのトレースと完全な正の保存を2階項まで保証するために示される。 このような展開は数値的に活用できる。

Consider an open quantum system governed by a Gorini, Kossakowski, Sudarshan, Lindblad (GKSL) master equation with two times-scales: a fast one, exponentially converging towards a linear subspace of quasi-equilibria; a slow one resulting from perturbations (small arbitrary decoherence and Hamiltonian dynamics). Usually adiabatic elimination is performed in the Schr\"odinger picture. We propose here an Heisenberg formulation where the invariant operators attached to the fast decay dynamics towards the quasi-equilibria subspace play a key role. Based on geometric singular perturbations, asympotic expansions of the Heisenberg slow dynamics and of the fast invariant linear subspaces are proposed. They exploit Carr's approximation lemma from center-manifold and bifurcation theory. Second-order expansions are detailed and shown to ensure preservation, up to second-order terms, of the trace and complete positivity for the slow dynamics on a slow time-scale. Such expansions can be exploited numerically.
翻訳日:2023-09-08 17:26:04 公開日:2023-09-07
# OccamのRazorを実現する: 最適モデル削減のためのディープラーニング

Achieving Occam's Razor: Deep Learning for Optimal Model Reduction ( http://arxiv.org/abs/2303.13746v2 )

ライセンス: Link先を確認
Botond B Antal, Anthony G Chesebro, Helmut H Strey, Lilianne R Mujica-Parodi, Corey Weistuch(参考訳) 科学のあらゆる分野は数学的モデルに依存する。 オッカムのカミソリは、良いモデルは、表現するシステムを記述するのに必要な最小限のパラメータ以外のパラメータを除外すべきである、という原則を指している。 これは、冗長性がデータからモデルパラメータを誤って推定し、不正確なあるいは曖昧な結論をもたらすためである。 ここでは、Occamのカミソリに対処するために、ディープラーニングがいかに強力に活用できるかを示す。 この新しい手法であるfixfitは、ボトルネック層を持つフィードフォワードディープニューラルネットワークを使用して、入力パラメータから与えられたモデルの振る舞いを特徴付け、予測する。 FixFitには3つの大きな利点がある。 まず、元のモデルの複雑さの度合いを定量化するメトリックを提供する。 第二に、データのユニークな適合を可能にする。 第三に、価値を付加する実験仮説とそうでない仮説を区別する偏りのない方法を提供する。 2つのユースケースにおいて、この手法が科学的領域で広く適用可能であることを示す。 この手法を既知のシステムを用いて検証するため,ケプラー軌道モデルに対する既知の合成パラメータの復元にFixFitを適用した。 本手法が確立されていない分野にどのように適用できるかを説明するため,マルチスケール脳モデルのためのパラメータを同定し,実行可能な候補機構の探索スペースを削減する。

All fields of science depend on mathematical models. Occam's razor refers to the principle that good models should exclude parameters beyond those minimally required to describe the systems they represent. This is because redundancy can lead to incorrect estimates of model parameters from data, and thus inaccurate or ambiguous conclusions. Here, we show how deep learning can be powerfully leveraged to address Occam's razor. FixFit, our new method, uses a feedforward deep neural network with a bottleneck layer to characterize and predict the behavior of a given model from its input parameters. FixFit has three major benefits. First, it provides a metric to quantify the original model's degree of complexity. Second, it allows for the unique fitting of data. Third, it provides an unbiased way to discriminate between experimental hypotheses that add value versus those that do not. In two use cases, we demonstrate the broad applicability of this method across scientific domains. To validate the method using a known system, we apply FixFit to recover known composite parameters for the Kepler orbit model. To illustrate how the method can be applied to less well-established fields, we use it to identify parameters for a multi-scale brain model and reduce the search space for viable candidate mechanisms.
翻訳日:2023-09-08 17:25:40 公開日:2023-09-07
# 自己蒸留型表現学習のための適応的類似性ブートストラップ

Adaptive Similarity Bootstrapping for Self-Distillation based Representation Learning ( http://arxiv.org/abs/2303.13606v2 )

ライセンス: Link先を確認
Tim Lebailly, Thomas Stegm\"uller, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars(参考訳) 表現学習のためのほとんどの自己教師付き手法は、クロスビュー一貫性の目的、すなわち、ある画像の拡張ビューの表現類似性を最大化する。 最近のNNCLRは、クロスビューパラダイムを超えて、コントラスト的な設定で隣人のブートストラップを通じて得られたさまざまな画像から正のペアを使用する。 負のサンプルに依存する対照的な学習環境とは対照的に, 自己蒸留方式に近接する近傍のブートストラップを組み込むことで, 性能低下や崩壊につながる可能性が示唆された。 この予期せぬ行動の理由を精査し、解決策を提供する。 本稿では,潜在空間の品質の推定値に基づいて,近隣住民を適応的にブートストラップする手法を提案する。 単純ブートストラップ法とオリジナルベースラインと比較して一貫した改善を報告した。 提案手法は, 各種自己蒸留法/バックボーンの組み合わせと標準下流タスクの性能改善につながる。 私たちのコードはhttps://github.com/tileb1/AdaSim.comで公開されています。

Most self-supervised methods for representation learning leverage a cross-view consistency objective i.e., they maximize the representation similarity of a given image's augmented views. Recent work NNCLR goes beyond the cross-view paradigm and uses positive pairs from different images obtained via nearest neighbor bootstrapping in a contrastive setting. We empirically show that as opposed to the contrastive learning setting which relies on negative samples, incorporating nearest neighbor bootstrapping in a self-distillation scheme can lead to a performance drop or even collapse. We scrutinize the reason for this unexpected behavior and provide a solution. We propose to adaptively bootstrap neighbors based on the estimated quality of the latent space. We report consistent improvements compared to the naive bootstrapping approach and the original baselines. Our approach leads to performance improvements for various self-distillation method/backbone combinations and standard downstream tasks. Our code is publicly available at https://github.com/tileb1/AdaSim.
翻訳日:2023-09-08 17:25:20 公開日:2023-09-07
# 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages ( http://arxiv.org/abs/2303.13592v3 )

ライセンス: Link先を確認
Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Samuel Cahyawijaya, Holy Lovenia, Genta Indra Winata, Lintang Sutawika, Jan Christian Blaise Cruz, Long Phan, Yin Lin Tan, Thamar Solorio, Alham Fikri Aji(参考訳) コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。 大規模な言語モデル(llms)が最近普及したことにより,次のような疑問が生まれています。 本稿では,東南アジアの7カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,タミル語,シングリッシュ語)のコードミキシングデータを生成するため,ゼロショット方式で多言語 LLM を作成することを検討する。 BLOOMZ や Flan-T5-XXL のような多言語命令調整モデルでは,異なる言語から句や節を生成できないことがわかった。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示し、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。 例えば、chatgptは英語ベースのクレオール(英語版)でシンガポールで話されている)が、英語とタミル語のペアでは、文法的に不正確または意味的に意味のない発話を生成することが多い。 さらに、プロンプトで指定されていない言語を誤って導入することもできる。 本研究により,既存の多言語 LLM は,SEA 言語用コード混合データ生成の幅広い習熟度を示す。 したがって、この文脈でのLSMの使用は、広範囲の人的チェックを伴わないようアドバイスする。

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The recent proliferation of Large Language Models (LLMs) compels one to ask: how capable are these systems in generating code-mixed data? In this paper, we explore prompting multilingual LLMs in a zero-shot manner to generate code-mixed data for seven languages in South East Asia (SEA), namely Indonesian, Malay, Chinese, Tagalog, Vietnamese, Tamil, and Singlish. We find that publicly available multilingual instruction-tuned models such as BLOOMZ and Flan-T5-XXL are incapable of producing texts with phrases or clauses from different languages. ChatGPT exhibits inconsistent capabilities in generating code-mixed texts, wherein its performance varies depending on the prompt template and language pairing. For instance, ChatGPT generates fluent and natural Singlish texts (an English-based creole spoken in Singapore), but for English-Tamil language pair, the system mostly produces grammatically incorrect or semantically meaningless utterances. Furthermore, it may erroneously introduce languages not specified in the prompt. Based on our investigation, existing multilingual LLMs exhibit a wide range of proficiency in code-mixed data generation for SEA languages. As such, we advise against using LLMs in this context without extensive human checks.
翻訳日:2023-09-08 17:25:06 公開日:2023-09-07
# ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering ( http://arxiv.org/abs/2306.00526v4 )

ライセンス: Link先を確認
Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang(参考訳) レイアウト対応事前学習モデルは,文書画像質問応答において大きな進歩を遂げた。 既存の言語モデルに学習可能な追加モジュールを導入し、OCRツールが取得したテキスト境界ボックス座標から文書イメージ内のレイアウト情報をキャプチャする。 しかし、追加モジュールはドキュメントイメージの事前トレーニングを必要とする。 これにより、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接利用することができない。 そこで本稿では,claude や chatgpt といった命令チューニング言語モデルが,空間やラインブレークによってレイアウトを理解できることを示す。 そこで本研究では,レイアウト対応文書の内容とタスク対応命令からなるレイアウトおよびタスク対応命令プロンプト(latin-prompt)を提案する。 具体的には、ocrツールが取得したテキストセグメント間のレイアウト情報を復元するために適切なスペースとラインブレークを使用しており、後者は生成された回答がフォーマット要件に準拠していることを保証する。 さらに、alpacaのような小さな命令チューニングモデルの性能を向上させるために、レイアウトおよびタスク認識命令チューニング(latin-tuning)を提案する。 LATIN-Promptは文書画像質問応答におけるSOTAの微調整性能に匹敵する、ClaudeとChatGPTのゼロショット性能を実現し、LATIN-TuningはAlpacaのゼロショット性能を大幅に向上させることを示した。 例えば、LATIN-PromptはDocVQA上でのClaudeとChatGPTのパフォーマンスをそれぞれ263%、20%改善する。 LATIN-TuningはDocVQA上でのAlpacaの性能を87.7%改善した。 LATIN-PromptとLATIN-Tuningの有効性を定量的に定性的に解析した。 コードを補足的に提供し、将来の研究を促進するためにリリースします。

Layout-aware pre-trained models has achieved significant progress on document image question answering. They introduce extra learnable modules into existing language models to capture layout information within document images from text bounding box coordinates obtained by OCR tools. However, extra modules necessitate pre-training on extensive document images. This prevents these methods from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Instead, in this paper, we find that instruction-tuning language models like Claude and ChatGPT can understand layout by spaces and line breaks. Based on this observation, we propose the LAyout and Task aware Instruction Prompt (LATIN-Prompt), which consists of layout-aware document content and task-aware instruction. Specifically, the former uses appropriate spaces and line breaks to recover the layout information among text segments obtained by OCR tools, and the latter ensures that generated answers adhere to formatting requirements. Moreover, we propose the LAyout and Task aware Instruction Tuning (LATIN-Tuning) to improve the performance of small instruction-tuning models like Alpaca. Experimental results show that LATIN-Prompt enables zero-shot performance of Claude and ChatGPT to be comparable to the fine-tuning performance of SOTAs on document image question answering, and LATIN-Tuning enhances the zero-shot performance of Alpaca significantly. For example, LATIN-Prompt improves the performance of Claude and ChatGPT on DocVQA by 263% and 20% respectively. LATIN-Tuning improves the performance of Alpaca on DocVQA by 87.7%. Quantitative and qualitative analyses demonstrate the effectiveness of LATIN-Prompt and LATIN-Tuning. We provide the code in supplementary and will release it to facilitate future research.
翻訳日:2023-09-08 17:19:10 公開日:2023-09-07
# 相対性理論と理論変数に基づく量子論のバージョンとの接続の可能性

Possible connections between relativity theory and a version of quantum theory based upon theoretical variables ( http://arxiv.org/abs/2305.15435v4 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への別のアプローチについて述べ、彼のアプローチを特殊相対性理論と一般相対性理論に結びつける仮の試みについて論じる。 重要な概念はゲージ群といくつかの物理系に接続された情報/エントロピーである。 ブラックホールに関連する情報に関する最近のいくつかの結果は触れられ、どのように情報が保存されるかが示されている。 この議論はブラックホールの外で何が起こるかにのみ依存する。 ブラックホールの内部に繋がる全ての物はアクセスできない。

An alternative approach towards quantum theory is described, and tentative attempts to connect his approach to special and general relativity are discussed. Important concepts are gauge groups and information/entropy connected to some physical systems. Some recent results on information in connection to black holes are touched upon, and it is indicated how expected information can be argued to be conserved. This argument only depends on what happens outside the black hole. Everything connected to the interior of the black hole is inaccessible.
翻訳日:2023-09-08 17:18:40 公開日:2023-09-07
# 説明不能な例がセキュリティの誤った感覚を与える: 学習可能な例で説明不能なデータをピアスする

Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable Examples ( http://arxiv.org/abs/2305.09241v4 )

ライセンス: Link先を確認
Wan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong(参考訳) 不正な搾取からデータを保護することは、プライバシーとセキュリティにとって不可欠である。 この目的のために、データに知覚不可能な摂動を加え、それらに基づいてトレーニングされたモデルが、元のクリーンな分布でそれらを正確に分類できないようにすることで、近年、説得力のある保護として \textit{unlearnable examples} (UEs) が提案されている。 残念なことに、UEが誤ったセキュリティの感覚を提供するのは、未許可のユーザが他の保護されていないデータを使って保護を取り除くのを止められないからである。 この観察により、我々は、保護を取り除いたUEであるtextit{learnable unauthorized example} (LE)を導入して、新たな脅威を正式に定義する。 このアプローチの核は UE を LE の多様体に射影する新しい精製過程である。 これは、UEとLEの画素上条件付きおよび知覚的類似性を識別する新しいジョイント条件拡散モデルによって実現される。 広範囲にわたる実験により、LEは様々なシナリオにおいて教師なしのUEと教師なしのUEの両方に対して最先端の対応性能を提供することを示した。 我々のコードは \url{https://github.com/jiangw-0/LE_JCDP} で入手できる。

Safeguarding data from unauthorized exploitation is vital for privacy and security, especially in recent rampant research in security breach such as adversarial/membership attacks. To this end, \textit{unlearnable examples} (UEs) have been recently proposed as a compelling protection, by adding imperceptible perturbation to data so that models trained on them cannot classify them accurately on original clean distribution. Unfortunately, we find UEs provide a false sense of security, because they cannot stop unauthorized users from utilizing other unprotected data to remove the protection, by turning unlearnable data into learnable again. Motivated by this observation, we formally define a new threat by introducing \textit{learnable unauthorized examples} (LEs) which are UEs with their protection removed. The core of this approach is a novel purification process that projects UEs onto the manifold of LEs. This is realized by a new joint-conditional diffusion model which denoises UEs conditioned on the pixel and perceptual similarity between UEs and LEs. Extensive experiments demonstrate that LE delivers state-of-the-art countering performance against both supervised UEs and unsupervised UEs in various scenarios, which is the first generalizable countermeasure to UEs across supervised learning and unsupervised learning. Our code is available at \url{https://github.com/jiangw-0/LE_JCDP}.
翻訳日:2023-09-08 17:18:33 公開日:2023-09-07
# コード生成のための構造的チェーン・オブ・サートプロンプト

Structured Chain-of-Thought Prompting for Code Generation ( http://arxiv.org/abs/2305.06599v3 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yongmin Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)(例えばChatGPT)は、コード生成において顕著なパフォーマンスを示している。 LLMは入力としてプロンプトを取り、Chain-of-Thought(CoT)プロンプトは最先端プロンプト技術である。 CoT プロンプトは LLM に対してまず CoT を生成し、次にコードを出力する。 しかし、CoTプロンプトは自然言語生成用に設計されており、コード生成の精度は低い。 本稿では、構造化CoT(Structured CoTs)を提案し、コード生成のための新しいプロンプト技術であるSCoTプロンプトを提案する。 私たちのモチベーションは、ソースコードには豊富な構造情報が含まれており、任意のコードは3つのプログラム構造(シーケンス、分岐、ループ構造)で構成されています。 直感的には、構造化中間推論ステップは構造化ソースコードに対して行われる。 そこで我々は,プログラム構造を用いてCoTを構築し,SCoTを得る。 次に、LCMはSCoTに基づいて最終コードを生成する。 CoTのプロンプトと比較すると、SCoT は LLM に対して、ソースコードの観点から要求を解決する方法や、コード生成における LLM のパフォーマンスを考慮するよう明示的に制約している。 我々は、SCoTプロンプトを2つのLLM(ChatGPTとCodex)に適用し、3つのベンチマーク(HumanEval、MBPP、MBCPP)で評価する。 1) SCoTプロンプトは、Pass@1の13.79%まで、最先端のベースラインであるCoTより優れている。 2)人間評価は、人間開発者はscotプロンプトからプログラムを好むことを示している。 (3) SCoTプロンプトは例にとって堅牢で,大幅な改善が達成されている。

Large Language Models (LLMs) (e.g., ChatGPT) have shown impressive performance in code generation. LLMs take prompts as inputs, and Chain-of-Thought (CoT) prompting is the state-of-the-art prompting technique. CoT prompting asks LLMs first to generate CoTs (i.e., intermediate natural language reasoning steps) and then output the code. However, CoT prompting is designed for natural language generation and has low accuracy in code generation. In this paper, we propose Structured CoTs (SCoTs) and present a novel prompting technique for code generation, named SCoT prompting. Our motivation is source code contains rich structural information and any code can be composed of three program structures (i.e., sequence, branch, and loop structures). Intuitively, structured intermediate reasoning steps make for structured source code. Thus, we ask LLMs to use program structures to build CoTs, obtaining SCoTs. Then, LLMs generate the final code based on SCoTs. Compared to CoT prompting, SCoT prompting explicitly constrains LLMs to think about how to solve requirements from the view of source code and further the performance of LLMs in code generation. We apply SCoT prompting to two LLMs (i.e., ChatGPT and Codex) and evaluate it on three benchmarks (i.e., HumanEval, MBPP, and MBCPP). (1) SCoT prompting outperforms the state-of-the-art baseline - CoT prompting by up to 13.79% in Pass@1. (2) Human evaluation shows human developers prefer programs from SCoT prompting. (3) SCoT prompting is robust to examples and achieves substantial improvements.
翻訳日:2023-09-08 17:18:03 公開日:2023-09-07
# マルチフォーカス空間アテンションを用いたマスケ顔認識

Localization using Multi-Focal Spatial Attention for Masked Face Recognition ( http://arxiv.org/abs/2305.01905v2 )

ライセンス: Link先を確認
Yooshin Cho, Hanbyel Cho, Hyeong Gwon Hong, Jaesung Ahn, Dongmin Cho, JungWoo Chang, and Junmo Kim(参考訳) 世界的な新型コロナウイルス(covid-19)パンデミックの始まり以来、顔のマスクは感染拡大を制限するために推奨されてきた。 しかし、これらのマスクは特定の顔の特徴を隠す。 そのため、既存の顔認証システムでは、マスク付き顔認証を行うのが難しくなっている。 この文脈では、非接触生体認証システムのためのマスク顔認識(mfr)を開発する必要がある。 そこで,本稿では,マスク領域と背景領域の2つの異なる領域に着目して,補完的な空間的注意を訓練することにより,マスク領域を正確に除去する補完的注意学習と多焦点空間注意を提案する。 本手法では,非マスク領域に着目し,従来型顔認識(fr)性能の低下を最小限に抑えつつマスク不変特徴を抽出する。 従来のFRでは,IJB-C, Age-DB, CALFW, CPLFWデータセットの性能評価を行った。 ICCV2021-MFR/Insightfaceトラック上でのMFR性能を評価し,MFRデータセットとFRデータセットの両方において改善された性能を示す。 さらに,提案手法の空間的注意が,未成熟領域でより正確に活性化されていることを実証的に検証した。

Since the beginning of world-wide COVID-19 pandemic, facial masks have been recommended to limit the spread of the disease. However, these masks hide certain facial attributes. Hence, it has become difficult for existing face recognition systems to perform identity verification on masked faces. In this context, it is necessary to develop masked Face Recognition (MFR) for contactless biometric recognition systems. Thus, in this paper, we propose Complementary Attention Learning and Multi-Focal Spatial Attention that precisely removes masked region by training complementary spatial attention to focus on two distinct regions: masked regions and backgrounds. In our method, standard spatial attention and networks focus on unmasked regions, and extract mask-invariant features while minimizing the loss of the conventional Face Recognition (FR) performance. For conventional FR, we evaluate the performance on the IJB-C, Age-DB, CALFW, and CPLFW datasets. We evaluate the MFR performance on the ICCV2021-MFR/Insightface track, and demonstrate the improved performance on the both MFR and FR datasets. Additionally, we empirically verify that spatial attention of proposed method is more precisely activated in unmasked regions.
翻訳日:2023-09-08 17:17:39 公開日:2023-09-07
# 量子コンピュータにおける古典カオス

Classical Chaos in Quantum Computers ( http://arxiv.org/abs/2304.14435v2 )

ライセンス: Link先を確認
Simon-Dominik B\"orner, Christoph Berke, David P. DiVincenzo, Simon Trebst, Alexander Altland(参考訳) 量子コンピューティングハードウェアの開発は、50-100量子ビットからなる現在の量子プロセッサが、古典的コンピュータの量子シミュレーションの範囲外で動作するという課題に直面している。 本稿では,古典的限界のシミュレーションが,この問題を緩和する潜在的に強力な診断ツールであることを示す。 提案手法の試行として,多数の非線形量子発振器の結合が不安定なカオス共鳴を引き起こす可能性のある計算プラットフォームであるトランスモン量子ビットプロセッサを検討する。 古典的および量子シミュレーションは、$\mathcal{O}(10)$transmonsの系における同様の安定性指標(古典的なリアプノフ指数と量子波関数の参加比)をもたらす。 しかし、古典シミュレーションの大きな利点は、最大数千の量子ビットからなる大規模システムにプッシュできることである。 我々は,Osprey 世代の 433 キュービットプロセッサや,1,121 キュービットの将来のデバイスを含む,現在の IBM トランスモンチップをシミュレートして,この古典的なツールボックスの有用性を示す。 現実的なシステムパラメータでは,システムサイズによるLyapunov指数の体系的な増加が見られ,より大きなレイアウトでは情報保護にさらなる努力が必要であることが示唆された。

The development of quantum computing hardware is facing the challenge that current-day quantum processors, comprising 50-100 qubits, already operate outside the range of quantum simulation on classical computers. In this paper we demonstrate that the simulation of classical limits can be a potent diagnostic tool potentially mitigating this problem. As a testbed for our approach we consider the transmon qubit processor, a computing platform in which the coupling of large numbers of nonlinear quantum oscillators may trigger destabilizing chaotic resonances. We find that classical and quantum simulations lead to similar stability metrics (classical Lyapunov exponents vs. quantum wave function participation ratios) in systems with $\mathcal{O}(10)$ transmons. However, the big advantage of classical simulation is that it can be pushed to large systems comprising up to thousands of qubits. We exhibit the utility of this classical toolbox by simulating all current IBM transmon chips, including the recently announced 433-qubit processor of the Osprey generation, as well as future devices with 1,121 qubits (Condor generation). For realistic system parameters, we find a systematic increase of Lyapunov exponents with system size, suggesting that larger layouts require added efforts in information protection.
翻訳日:2023-09-08 17:16:55 公開日:2023-09-07
# 古典的ランダム性をもつ量子ウォークの局所化:手動法と教師あり機械学習の比較

Localization of quantum walk with classical randomness: Comparison between manual methods and supervised machine learning ( http://arxiv.org/abs/2304.14348v3 )

ライセンス: Link先を確認
Christopher Mastandrea and Chih-Chun Chien(参考訳) 古典的ランダム性によって誘導される量子ウォークの遷移は、ランダムパラメータが臨界値を超えると、ウォーカーの確率分布を2ピーク構造から1ピーク構造に変更する。 まず,ランダムな回転や翻訳の存在下での出現を示すことにより,局所化の一般性を確立する。 遷移点は、確率分布、慣性運動量、逆参加比を調べることで手動で位置決めすることができる。 比較として、サポートベクトルマシン(SVM)、多層パーセプトロンニューラルネットワーク、同じデータを持つ畳み込みニューラルネットワークの3つの教師付き機械学習手法を実装し、それらが遷移を識別可能であることを示す。 svmは手動の手法に比べて指数を過小評価することがあるが、2つのニューラルネットワーク法は変動確率分布によるランダム翻訳の場合の偏差を示す。 我々の研究は、量子と古典の混合確率を持つ物理システムの機械学習に直面する可能性と課題を示している。

A transition of quantum walk induced by classical randomness changes the probability distribution of the walker from a two-peak structure to a single-peak one when the random parameter exceeds a critical value. We first establish the generality of the localization by showing its emergence in the presence of random rotation or translation. The transition point can be located manually by examining the probability distribution, momentum of inertia, and inverse participation ratio. As a comparison, we implement three supervised machine learning methods, the support vector machine (SVM), multi-layer perceptron neural network, and convolutional neural network with the same data and show they are able to identify the transition. While the SVM sometimes underestimate the exponents compared to the manual methods, the two neural-network methods show more deviation for the case with random translation due to the fluctuating probability distributions. Our work illustrates potentials and challenges facing machine learning of physical systems with mixed quantum and classical probabilities.
翻訳日:2023-09-08 17:16:33 公開日:2023-09-07
# コントラスト学習によるマンモグラフィ画像解析のための領域一般化

Domain Generalization for Mammographic Image Analysis with Contrastive Learning ( http://arxiv.org/abs/2304.10226v5 )

ライセンス: Link先を確認
Zheren Li, Zhiming Cui, Lichi Zhang, Sheng Wang, Chenjin Lei, Xi Ouyang, Dongdong Chen, Xiangyu Zhao, Yajia Gu, Zaiyi Liu, Chunling Liu, Dinggang Shen, Jie-Zhi Cheng(参考訳) 深層学習技術はマンモグラフィーのコンピュータ支援診断手法において, 画像解析の課題に効果的に対処することが示されている。 効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を持つ大規模データが必要である。 データの多様性は、ベンダーのさまざまなスキャナの使用から生じることが多い。 しかし実際には、トレーニングに十分な量の多様なデータを集めることは現実的ではない。 この目的のために、より優れたスタイルの一般化機能を備えた深層学習モデルを実現するために、新しいコントラスト学習が開発された。 具体的には、事前学習モデルとして、スタイル多様性に対する堅牢な特徴埋め込みを求めるために、マルチスタイル・マルチビュー・非教師なしセルフラーニングスキームを実施する。 その後、事前訓練されたネットワークは、質量検出、マッチング、バイラッド評価、乳房密度分類などの下流タスクにさらに微調整される。 提案手法は様々なベンダースタイルのドメインといくつかの公開データセットのマンモグラムを用いて広範囲に厳密に評価されている。 実験結果から,提案手法は,観察領域と見えない領域の両方のデータに対する4つのマンモグラフィ画像タスクの性能を効果的に向上し,多くの最先端(SOTA)一般化手法より優れていることが示唆された。

The deep learning technique has been shown to be effectively addressed several image analysis tasks in the computer-aided diagnosis scheme for mammography. The training of an efficacious deep learning model requires large data with diverse styles and qualities. The diversity of data often comes from the use of various scanners of vendors. But, in practice, it is impractical to collect a sufficient amount of diverse data for training. To this end, a novel contrastive learning is developed to equip the deep learning models with better style generalization capability. Specifically, the multi-style and multi-view unsupervised self-learning scheme is carried out to seek robust feature embedding against style diversity as a pretrained model. Afterward, the pretrained network is further fine-tuned to the downstream tasks, e.g., mass detection, matching, BI-RADS rating, and breast density classification. The proposed method has been evaluated extensively and rigorously with mammograms from various vendor style domains and several public datasets. The experimental results suggest that the proposed domain generalization method can effectively improve performance of four mammographic image tasks on the data from both seen and unseen domains, and outperform many state-of-the-art (SOTA) generalization methods.
翻訳日:2023-09-08 17:16:17 公開日:2023-09-07
# DiFaReli: 拡散面のリライト

DiFaReli: Diffusion Face Relighting ( http://arxiv.org/abs/2304.09479v3 )

ライセンス: Link先を確認
Puntawat Ponglertnapakorn, Nontawat Tritrong, Supasorn Suwajanakorn(参考訳) 野生での単眼の顔のリライティングに新しいアプローチを提案する。 グローバル照明やキャストシャドウなどの非拡散効果を扱うことは、長い間、顔を照らすことの難題だった。 以前の研究では、ランバート面、簡易照明モデル、あるいは3次元形状、アルベド、シャドウマップを推定するものだった。 しかし、この推定は誤りやすいため、十分な一般化のために多くの訓練例が必要となる。 本研究は,内在的成分を正確に推定する必要性を回避し,光ステージデータや多視点画像,あるいは地上の真理を照らすことなく2d画像のみを訓練できる。 我々のキーとなるアイデアは、拡散暗黙モデル(DDIM)を用いて、オフザシェルフ推定器から推定される3次元形状と顔の同一性に関連する他のエンコーディングと共に、歪んだ光符号化を復号することである。 また,ddimを空間的に変調するレンダリングシェーディング参照を用いて,光と幾何学の複雑な相互作用のモデル化を容易にする新しい条件付け手法を提案する。 我々は,標準ベンチマークマルチパイで最先端のパフォーマンスを実現し,実写画像のフォトリアリスティックなリライトを実現する。 https://diffusion-face-relighting.github.io

We present a novel approach to single-view face relighting in the wild. Handling non-diffuse effects, such as global illumination or cast shadows, has long been a challenge in face relighting. Prior work often assumes Lambertian surfaces, simplified lighting models or involves estimating 3D shape, albedo, or a shadow map. This estimation, however, is error-prone and requires many training examples with lighting ground truth to generalize well. Our work bypasses the need for accurate estimation of intrinsic components and can be trained solely on 2D images without any light stage data, multi-view images, or lighting ground truth. Our key idea is to leverage a conditional diffusion implicit model (DDIM) for decoding a disentangled light encoding along with other encodings related to 3D shape and facial identity inferred from off-the-shelf estimators. We also propose a novel conditioning technique that eases the modeling of the complex interaction between light and geometry by using a rendered shading reference to spatially modulate the DDIM. We achieve state-of-the-art performance on standard benchmark Multi-PIE and can photorealistically relight in-the-wild images. Please visit our page: https://diffusion-face-relighting.github.io
翻訳日:2023-09-08 17:15:55 公開日:2023-09-07
# 二重不均質環境におけるオフポリシー評価

Off-policy Evaluation in Doubly Inhomogeneous Environments ( http://arxiv.org/abs/2306.08719v2 )

ライセンス: Link先を確認
Zeyu Bian, Chengchun Shi, Zhengling Qi and Lan Wang(参考訳) 本研究の目的は,2つの重要な強化学習(RL)の仮定 – 時間的定常性と個人的均質性の両方に違反するシナリオの下で,政治外評価(OPE)を研究することである。 二重不均一性」を扱うために、モデルベースとモデルフリーの両方のアプローチからなる一般的なOPEフレームワークを開発するために、報酬および観測遷移関数のための潜在因子モデルのクラスを提案する。 我々の知る限り、この論文は二重不均一なオフラインRLにおける統計的に健全なOPE法を開発した最初の論文である。 標準的なRL仮定が満たされていない環境でのOPEの深い理解に寄与し、これらの設定においていくつかの実践的なアプローチを提供する。 提案する値推定器の理論的性質を定め,その手法が時間的非定常性や個人的不均一性を無視する競合手法よりも優れていることを実証的に示す。 最後に,集中治療のための医療情報マートから得られたデータセットについて述べる。

This work aims to study off-policy evaluation (OPE) under scenarios where two key reinforcement learning (RL) assumptions -- temporal stationarity and individual homogeneity are both violated. To handle the ``double inhomogeneities", we propose a class of latent factor models for the reward and observation transition functions, under which we develop a general OPE framework that consists of both model-based and model-free approaches. To our knowledge, this is the first paper that develops statistically sound OPE methods in offline RL with double inhomogeneities. It contributes to a deeper understanding of OPE in environments, where standard RL assumptions are not met, and provides several practical approaches in these settings. We establish the theoretical properties of the proposed value estimators and empirically show that our approach outperforms competing methods that ignore either temporal nonstationarity or individual heterogeneity. Finally, we illustrate our method on a data set from the Medical Information Mart for Intensive Care.
翻訳日:2023-09-08 17:07:30 公開日:2023-09-07
# オブジェクト検出とインスタンスセグメンテーションのための再訪トークンプルーニング

Revisiting Token Pruning for Object Detection and Instance Segmentation ( http://arxiv.org/abs/2306.07050v2 )

ライセンス: Link先を確認
Yifei Liu, Mathias Gehrig, Nico Messikommer, Marco Cannici, Davide Scaramuzza(参考訳) ビジョントランスフォーマー(vits)はコンピュータビジョンにおいて印象的な性能を示しているが、その高い計算コスト(トークン数の二乗)は、計算制約付きアプリケーションにおける採用を制限している。 しかし、全てのトークンが等しく重要であるわけではないため、この大量のトークンは必要ないかもしれない。 本稿では,オブジェクト検出とインスタンスセグメンテーションの推論を高速化するトークンプルーニングについて検討し,画像分類から先行研究を拡張した。 広範な実験を通じて、我々は高密度なタスクに対する4つの洞察を提供する。 (i)トークンは完全に刈り取られて廃棄されるのではなく、機能マップに保存して後で使用する。 (ii) 前処理したトークンの再活性化により,モデル性能がさらに向上する。 (iii)画像に基づく動的刈り込み速度は固定刈り出し速度より優れている。 (iv)軽量2層MLPはトークンを効果的にプーンし、より単純な設計で複雑なゲーティングネットワークに匹敵する精度を実現する。 我々は,これらの設計選択がCOCOデータセットに与える影響を評価し,先行技術トークンプルーニングモデルよりも優れており,ボックスとマスクの両方において,1.5mAPから0.3mAPまでの性能低下を著しく低減する手法を提案する。 すべてのトークンを使用する高密度なトークンと比較すると,提案手法はネットワーク全体の推論速度を最大34%,バックボーンを46%向上させる。

Vision Transformers (ViTs) have shown impressive performance in computer vision, but their high computational cost, quadratic in the number of tokens, limits their adoption in computation-constrained applications. However, this large number of tokens may not be necessary, as not all tokens are equally important. In this paper, we investigate token pruning to accelerate inference for object detection and instance segmentation, extending prior works from image classification. Through extensive experiments, we offer four insights for dense tasks: (i) tokens should not be completely pruned and discarded, but rather preserved in the feature maps for later use. (ii) reactivating previously pruned tokens can further enhance model performance. (iii) a dynamic pruning rate based on images is better than a fixed pruning rate. (iv) a lightweight, 2-layer MLP can effectively prune tokens, achieving accuracy comparable with complex gating networks with a simpler design. We evaluate the impact of these design choices on COCO dataset and present a method integrating these insights that outperforms prior art token pruning models, significantly reducing performance drop from ~1.5 mAP to ~0.3 mAP for both boxes and masks. Compared to the dense counterpart that uses all tokens, our method achieves up to 34% faster inference speed for the whole network and 46% for the backbone.
翻訳日:2023-09-08 17:06:50 公開日:2023-09-07
# 交通予測のための動的因果グラフ畳み込みネットワーク

Dynamic Causal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2306.07019v2 )

ライセンス: Link先を確認
Junpeng Lin, Ziyue Li, Zhishuai Li, Lei Bai, Rui Zhao, Chen Zhang(参考訳) 相関交通系列における複雑な時空間依存性のモデル化は交通予測に不可欠である。 近年の研究では、ニューラルネットワークを用いた時空間相関抽出による予測性能の向上が示されているが、その効果は、トラヒックネットワークの空間トポロジーを表現するのに使用されるグラフ構造の品質に依存する。 本研究では,交通データの微細な時空間トポロジを捉えるために,時間変化の動的ベイズネットワークを組み込んだ交通予測手法を提案する。 次に、グラフ畳み込みネットワークを使用してトラフィック予測を生成します。 非線形トラヒック伝播パターンを効率的にモデル化するために,ハイパーネットワークとしてディープラーニングモジュールを開発し,ステップワイズ動的因果グラフを生成する。 実交通データを用いた実験結果から,提案手法の予測性能が優れていることを示す。 コードはhttps://github.com/MonBG/DCGCNで入手できる。

Modeling complex spatiotemporal dependencies in correlated traffic series is essential for traffic prediction. While recent works have shown improved prediction performance by using neural networks to extract spatiotemporal correlations, their effectiveness depends on the quality of the graph structures used to represent the spatial topology of the traffic network. In this work, we propose a novel approach for traffic prediction that embeds time-varying dynamic Bayesian network to capture the fine spatiotemporal topology of traffic data. We then use graph convolutional networks to generate traffic forecasts. To enable our method to efficiently model nonlinear traffic propagation patterns, we develop a deep learning-based module as a hyper-network to generate stepwise dynamic causal graphs. Our experimental results on a real traffic dataset demonstrate the superior prediction performance of the proposed method. The code is available at https://github.com/MonBG/DCGCN.
翻訳日:2023-09-08 17:06:27 公開日:2023-09-07
# LDMRes-Net:IoTとエッジプラットフォーム上で効率的な医用画像セグメンテーションを実現する

LDMRes-Net: Enabling Efficient Medical Image Segmentation on IoT and Edge Platforms ( http://arxiv.org/abs/2306.06145v2 )

ライセンス: Link先を確認
Shahzaib Iqbal, Tariq M. Khan, Syed S. Naqvi, Muhammad Usman, and Imran Razzak(参考訳) 本研究では,IoTおよびエッジプラットフォーム上での医用画像セグメンテーションに適した,軽量なデュアルマルチスケール残差ブロックベースニューラルネットワークLDMRes-Netを提案する。 従来のU-Netベースのモデルは、病気のモニタリング、放射線治療、画像誘導手術などのリアルタイム臨床応用のスピードと効率の要求を満たすための課題に直面している。 LDMRes-Netは、非常に少ない学習可能なパラメータ(0.072M)でこれらの制限を克服し、リソース制約のあるデバイスに非常に適している。 モデルの主な革新は、複数のスケールで洗練された特徴の抽出を可能にし、全体的なセグメンテーション性能を向上するデュアルマルチレジデントブロックアーキテクチャである。 効率をさらに最適化するため、オーバーラップを防止し、トレーニング時間を短縮し、計算効率を向上させるためにフィルタ数を慎重に選択する。 この研究は包括的評価を含み、眼科の診断と治療に欠かせない血管と硬口蓋の網膜像のセグメンテーションに焦点を当てている。 その結果、LDMRes-Netの堅牢性、一般化可能性、高いセグメンテーション精度が示され、特にIoTおよびエッジプラットフォームにおける様々な臨床応用において、正確かつ迅速な医療画像セグメンテーションのための効率的なツールとして位置づけられた。 このような進歩は、医療の成果を改善し、リソース制限された環境でリアルタイムの医療画像分析を可能にするという大きな約束を持っている。

In this study, we propose LDMRes-Net, a lightweight dual-multiscale residual block-based computational neural network tailored for medical image segmentation on IoT and edge platforms. Conventional U-Net-based models face challenges in meeting the speed and efficiency demands of real-time clinical applications, such as disease monitoring, radiation therapy, and image-guided surgery. LDMRes-Net overcomes these limitations with its remarkably low number of learnable parameters (0.072M), making it highly suitable for resource-constrained devices. The model's key innovation lies in its dual multi-residual block architecture, which enables the extraction of refined features on multiple scales, enhancing overall segmentation performance. To further optimize efficiency, the number of filters is carefully selected to prevent overlap, reduce training time, and improve computational efficiency. The study includes comprehensive evaluations, focusing on segmentation of the retinal image of vessels and hard exudates crucial for the diagnosis and treatment of ophthalmology. The results demonstrate the robustness, generalizability, and high segmentation accuracy of LDMRes-Net, positioning it as an efficient tool for accurate and rapid medical image segmentation in diverse clinical applications, particularly on IoT and edge platforms. Such advances hold significant promise for improving healthcare outcomes and enabling real-time medical image analysis in resource-limited settings.
翻訳日:2023-09-08 17:05:54 公開日:2023-09-07
# toolalpaca:3000シミュレートケースを持つ言語モデルのための一般化ツール学習

ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases ( http://arxiv.org/abs/2306.05301v2 )

ライセンス: Link先を確認
Qiaoyu Tang, Ziliang Deng, Hongyu Lin, Xianpei Han, Qiao Liang, Boxi Cao, Le Sun(参考訳) 実世界のツールを効果的に活用するための大きな言語モデルの実現は、具体的知性を達成する上で不可欠である。 ツール学習への既存のアプローチは、主にGPT-4のような非常に大きな言語モデルに依存し、ゼロショットで汎用的なツール使用能力を達成するか、あるいは教師付き学習を使用して、コンパクトモデル上のツールの限られた範囲を訓練している。 しかし、小さな言語モデルがツール固有のトレーニングなしで汎用的なツール利用能力を実現できるかどうかはまだ不明である。 本稿では,多種多様なツール利用コーパスを自動生成し,人間の介入を最小限に抑えたコンパクト言語モデルにおける汎用ツール利用能力を学習するための新しいフレームワークであるToolAlpacaを紹介する。 具体的には、toolalpacaはマルチエージェントシミュレーション環境を構築して、より多様なツール利用コーパスを自動的に作成する。 コーパスには、50の異なるカテゴリにまたがる400以上の現実世界のツールAPIから3938のツール使用インスタンスが含まれている。 その後、構築されたコーパスを微調整したコンパクト言語モデルに採用し、それぞれ toolalpaca-7b と toolalpaca-13b の2つのモデルを生成する。 最後に、これらのモデルが未確認のツールを特定のトレーニングなしで利用できる能力を評価する。 GPT-3.5のような非常に大きな言語モデルに匹敵する効果的な汎用ツール利用能力を実現し、学習の汎用ツール利用能力がコンパクト言語モデルで実現可能であることを示した。

Enabling large language models to utilize real-world tools effectively is crucial for achieving embodied intelligence. Existing approaches to tool learning have either primarily relied on extremely large language models, such as GPT-4, to attain generalized tool-use abilities in a zero-shot manner, or utilized supervised learning to train limited scopes of tools on compact models. However, it remains uncertain whether smaller language models can achieve generalized tool-use abilities without tool-specific training. To address this question, this paper introduces ToolAlpaca, a novel framework designed to automatically generate a diverse tool-use corpus and learn generalized tool-use abilities on compact language models with minimal human intervention. Specifically, ToolAlpaca first automatically creates a highly diversified tool-use corpus by building a multi-agent simulation environment. The corpus contains 3938 tool-use instances from more than 400 real-world tool APIs spanning 50 distinct categories. Subsequently, the constructed corpus is employed to fine-tune compact language models, resulting in two models, namely ToolAlpaca-7B and ToolAlpaca-13B, respectively. Finally, we evaluate the ability of these models to utilize previously unseen tools without specific training. Experimental results demonstrate that ToolAlpaca achieves effective generalized tool-use capabilities comparable to those of extremely large language models like GPT-3.5, demonstrating that learning generalized tool-use ability is feasible for compact language models.
翻訳日:2023-09-08 17:05:30 公開日:2023-09-07
# 神経崩壊レンズによるV-Lモデルのプロンプトチューニングの理解

Understanding Prompt Tuning for V-L Models Through the Lens of Neural Collapse ( http://arxiv.org/abs/2306.15955v3 )

ライセンス: Link先を確認
Didi Zhu, Zexi Li, Min Zhang, Junkun Yuan, Yunfeng Shao, Jiashuo Liu, Kun Kuang, Yinchuan Li, Chao Wu(参考訳) 大規模視覚言語モデル (V-L) は, 高速チューニングによる下流タスクの顕著な一般化機能を示した。 しかし、学習したテキスト表現の背後にあるメカニズムは不明であり、特にクラス不均衡のシナリオにおいて、さらなる一般化のゲインを制限する。 視覚のみのモデルにおける神経崩壊(NC)現象の最近の進歩は、最適な表現構造が単純なETFであり、V-Lモデルにおける表現の研究の道を開くことを示唆している。 本稿では,プロンプトチューニングによるV-Lモデルの表現の検証にNCを用いた最初の試みを行う。 その結果,テキスト対画像表現のnc最適性は下流汎化可能性と正の相関を示し,クラス不均衡設定下ではより厳格であることがわかった。 そこで本研究では,同じetfを満たすテキストと画像表現を用いてプロンプトを学習する新しい手法であるneural-collapse-anchored prompt tuning (npt)を提案する。 NPTは、言語モダリティの崩壊と多モダリティの同型という2つの正規化用語を取り入れている。 大規模な実験により、NTTはバランスの取れた設定と不均衡な設定の両方で、11データセットにわたる既存のプロンプトチューニング技術を改善するのに一貫して役立つことが示されている。

Large-scale vision-language (V-L) models have demonstrated remarkable generalization capabilities for downstream tasks through prompt tuning. However, the mechanisms behind the learned text representations are unknown, limiting further generalization gains, especially under class imbalance scenarios. Recent advances in the neural collapse (NC) phenomenon of vision-only models suggest that the optimal representation structure is the simplex ETF, which paves the way to study representations in V-L models. In this paper, we make the first attempt to use NC for examining the representations in V-L models via prompt tuning. It is found that NC optimality of text-to-image representations shows a positive correlation with downstream generalizability, which is more severe under class imbalance settings. To improve the representations, we propose Neural-collapse-anchored Prompt Tuning (NPT), a novel method that learns prompts with text and image representations that satisfy the same simplex ETF. NPT incorporates two regularization terms: language-modality collapse and multi-modality isomorphism; and it is compatible with other prompt tuning methods. Extensive experiments show that NPT can consistently help to improve existing prompt tuning techniques across 11 datasets for both balanced and imbalanced settings.
翻訳日:2023-09-08 16:58:41 公開日:2023-09-07
# 非古典的ネットワーク相関の階層的認証

Hierarchical certification of non-classical network correlations ( http://arxiv.org/abs/2306.15717v2 )

ライセンス: Link先を確認
Ming-Xing Luo, Xue Yang, Alejandro Pozas-Kerstjens(参考訳) 量子技術デバイスが利用可能になるにつれて、その正しい非古典的動作を保証するためのツールが基本となる。 これは、マルチパートの暗号プロトコルが実装されるプラットフォームを構成する量子ネットワークにおいて特に重要であり、非古典性の保証がセキュリティ証明に変換される。 我々は、ネットワークに対する線形および非線形ベル的不等式を導出し、その違反は、それらの最小数の古典的情報源が存在しないことを証明している。 まず、自然は最終的に量子力学によって支配され、ネットワーク非局所性と完全なネットワーク非局所性との間を補間する階層を提供する。 第2に,この仮定を挿入することで,実験における認証に適する結果が得られます。

With the increased availability of quantum technological devices, it becomes fundamental to have tools to guarantee their correct non-classical behavior. This is especially important for quantum networks, which constitute the platforms where multipartite cryptographic protocols will be implemented, and where guarantees of non-classicality translate into security proofs. We derive linear and non-linear Bell-like inequalities for networks, whose violation certifies the absence of a minimum number of classical sources in them. We do so, firstly, without assuming that nature is ultimately governed by quantum mechanics, providing a hierarchy interpolating between network nonlocality and full network nonlocality. Secondly we insert this assumption, which leads to results more amenable to certification in experiments.
翻訳日:2023-09-08 16:58:16 公開日:2023-09-07
# 留意機構におけるマックスマージントークンの選択

Max-Margin Token Selection in Attention Mechanism ( http://arxiv.org/abs/2306.13596v3 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Yingcong Li, Xuechen Zhang, Samet Oymak(参考訳) 注意機構はトランスフォーマーアーキテクチャの中心的な構成要素であり、大きな言語モデルの驚くべき成功につながった。 しかし、注意機構の根底にある理論原理は、特に非凸最適化力学の理解が不十分である。 この研究において、seminal softmax-attention model $f(\boldsymbol{x})=\langle \boldsymbol{xv}, \textt{softmax}(\boldsymbol{xwp})\rangle$、ここで$\boldsymbol{x}$はトークンシーケンス、$(\boldsymbol{v},\boldsymbol{w},\boldsymbol{p})$はトレーニング可能なパラメータである。 我々は、$\boldsymbol{p}$ あるいは $\boldsymbol{W}$ の勾配勾配が、最適でないものから $\textit{locally-optimal}$ トークンを分離する最大マルジン解に収束することを証明している。 これは注意を最適なトークン選択機構として明確に定式化する。 注目すべきは、我々の結果は一般的なデータに適用でき、$\textit{optimality}$を値埋め込みの$\boldsymbol{Xv}$と問題幾何学で正確に特徴付けることである。 また,非線形予測ヘッドにおいても注意の限界を最大化する広い正規化経路解析を提供する。 ロジスティック損失とともに$\boldsymbol{v}$と$\boldsymbol{p}$を最適化するとき、正規化パスがそれぞれのハードマージンSVMソリューションに方向収束する条件を特定し、$\boldsymbol{v}$はラベルに基づいて入力特徴を分離する。 興味深いことに、$\boldsymbol{p}$のsvm定式化は$\boldsymbol{v}$のサポートベクトル幾何に影響されている。 最後に, 数値実験により理論的知見を検証し, 洞察を与える。

Attention mechanism is a central component of the transformer architecture which led to the phenomenal success of large language models. However, the theoretical principles underlying the attention mechanism are poorly understood, especially its nonconvex optimization dynamics. In this work, we explore the seminal softmax-attention model $f(\boldsymbol{X})=\langle \boldsymbol{Xv}, \texttt{softmax}(\boldsymbol{XWp})\rangle$, where $\boldsymbol{X}$ is the token sequence and $(\boldsymbol{v},\boldsymbol{W},\boldsymbol{p})$ are trainable parameters. We prove that running gradient descent on $\boldsymbol{p}$, or equivalently $\boldsymbol{W}$, converges in direction to a max-margin solution that separates $\textit{locally-optimal}$ tokens from non-optimal ones. This clearly formalizes attention as an optimal token selection mechanism. Remarkably, our results are applicable to general data and precisely characterize $\textit{optimality}$ of tokens in terms of the value embeddings $\boldsymbol{Xv}$ and problem geometry. We also provide a broader regularization path analysis that establishes the margin maximizing nature of attention even for nonlinear prediction heads. When optimizing $\boldsymbol{v}$ and $\boldsymbol{p}$ simultaneously with logistic loss, we identify conditions under which the regularization paths directionally converge to their respective hard-margin SVM solutions where $\boldsymbol{v}$ separates the input features based on their labels. Interestingly, the SVM formulation of $\boldsymbol{p}$ is influenced by the support vector geometry of $\boldsymbol{v}$. Finally, we verify our theoretical findings via numerical experiments and provide insights.
翻訳日:2023-09-08 16:58:04 公開日:2023-09-07
# DreamEditor: テキスト駆動の3Dシーン編集

DreamEditor: Text-Driven 3D Scene Editing with Neural Fields ( http://arxiv.org/abs/2306.13455v3 )

ライセンス: Link先を確認
Jingyu Zhuang, Chen Wang, Lingjie Liu, Liang Lin, Guanbin Li(参考訳) ニューラルフィールドは、視覚合成とシーン再構成において素晴らしい進歩を遂げている。 しかしながら、これらのニューラルフィールドの編集は、幾何学とテクスチャ情報の暗黙的なエンコーディングのため、依然として困難である。 本稿では,ユーザがテキストプロンプトを用いて制御されたニューラルネットワークの編集を行うことができる新しいフレームワークであるDreamEditorを提案する。 シーンをメッシュベースのニューラルネットワークとして表現することで、dreameditorは特定の領域内でローカライズされた編集を可能にする。 DreamEditorは、事前訓練されたテキスト間拡散モデルのテキストエンコーダを使用して、テキストプロンプトのセマンティクスに基づいて編集される領域を自動的に識別する。 その後、dreameditorは編集領域を最適化し、その形状とテクスチャをスコア蒸留サンプリング[29]によりテキストプロンプトに調整する。 広範な実験により、dreameditorは、与えられたテキストプロンプトに従って現実世界のシーンのニューラルフィールドを正確に編集でき、無関係な領域における一貫性を確保している。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。

Neural fields have achieved impressive advancements in view synthesis and scene reconstruction. However, editing these neural fields remains challenging due to the implicit encoding of geometry and texture information. In this paper, we propose DreamEditor, a novel framework that enables users to perform controlled editing of neural fields using text prompts. By representing scenes as mesh-based neural fields, DreamEditor allows localized editing within specific regions. DreamEditor utilizes the text encoder of a pretrained text-to-Image diffusion model to automatically identify the regions to be edited based on the semantics of the text prompts. Subsequently, DreamEditor optimizes the editing region and aligns its geometry and texture with the text prompts through score distillation sampling [29]. Extensive experiments have demonstrated that DreamEditor can accurately edit neural fields of real-world scenes according to the given text prompts while ensuring consistency in irrelevant areas. DreamEditor generates highly realistic textures and geometry, significantly surpassing previous works in both quantitative and qualitative evaluations.
翻訳日:2023-09-08 16:57:23 公開日:2023-09-07
# HamLib: 量子アルゴリズムとハードウェアのベンチマークのためのハミルトンのライブラリ

HamLib: A library of Hamiltonians for benchmarking quantum algorithms and hardware ( http://arxiv.org/abs/2306.13126v2 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Daniel Marti-Dafcik, Yang Ho, Daniel P Tabor, David Bernal, Alicia B Magann, Shavindra Premaratne, Pradeep Dubey, Anne Matsuura, Nathan Bishop, Wibe A de Jong, Simon Benjamin, Ojas D Parekh, Norm Tubman, Katherine Klymko, Daan Camps(参考訳) 計算ハードウェア、ソフトウェア、アルゴリズムを特徴付け、ベンチマークするためには、多くの問題インスタンスを手元に持つことが不可欠である。 これは量子計算に当てはまるものではなく、実世界の問題インスタンスの集合がベンチマーク研究を可能にし、アルゴリズムとハードウェアの設計の両方を改善するのに役立つ。 そこで本稿では,量子ハミルトニアンの大規模データセットを提案する。 HamLib(ハミルトン図書館)と呼ばれるこのデータセットは、オンラインで無料で利用可能であり、2から1000キュービットまでの問題サイズを含んでいる。 HamLibには、Heisenbergモデル、Fermi-Hubbardモデル、Bose-Hubbardモデル、分子電子構造、分子振動構造、MaxCut、Max-k-SAT、Max-k-Cut、QMaxCut、旅行セールスパーソンの問題が含まれている。 この努力の目標は (a)問題インスタンスを作成してqubit表現にマップする必要をなくし、研究者の時間を節約する。 (b)新しいアルゴリズムやハードウェアのより徹底的なテストを可能にすること、及び (c) 研究における再現性と標準化を可能にすること。

In order to characterize and benchmark computational hardware, software, and algorithms, it is essential to have many problem instances on-hand. This is no less true for quantum computation, where a large collection of real-world problem instances would allow for benchmarking studies that in turn help to improve both algorithms and hardware designs. To this end, here we present a large dataset of qubit-based quantum Hamiltonians. The dataset, called HamLib (for Hamiltonian Library), is freely available online and contains problem sizes ranging from 2 to 1000 qubits. HamLib includes problem instances of the Heisenberg model, Fermi-Hubbard model, Bose-Hubbard model, molecular electronic structure, molecular vibrational structure, MaxCut, Max-k-SAT, Max-k-Cut, QMaxCut, and the traveling salesperson problem. The goals of this effort are (a) to save researchers time by eliminating the need to prepare problem instances and map them to qubit representations, (b) to allow for more thorough tests of new algorithms and hardware, and (c) to allow for reproducibility and standardization across research studies.
翻訳日:2023-09-08 16:56:53 公開日:2023-09-07
# 線形制約をもつバンディットの純粋探査

Pure Exploration in Bandits with Linear Constraints ( http://arxiv.org/abs/2306.12774v2 )

ライセンス: Link先を確認
Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi(参考訳) 我々は,多腕バンディット設定における最適ポリシーを一定の信頼度で識別する問題に, 'emph{the arms' が線形制約を受ける際に対処する。 良く研究されている標準的な最良の腕識別問題とは異なり、この場合の最適方針は決定論的ではなく、複数の腕の間で混合することができる。 これは、情報理論の下界によって特徴づけられる問題の幾何学を変える。 本稿では,この設定に対して,トラック・アンド・ストップ法とゲーム理論に基づく2つの漸近的最適アルゴリズムを提案する。 これらのアルゴリズムは、下界に基づいて最適な割り当てを追跡し、通常の円錐の境界への重み付き投影によって計算する。 最後に,限界を検証し,制約が問題の硬さを変える様子を可視化する実験結果を提供する。

We address the problem of identifying the optimal policy with a fixed confidence level in a multi-armed bandit setup, when \emph{the arms are subject to linear constraints}. Unlike the standard best-arm identification problem which is well studied, the optimal policy in this case may not be deterministic and could mix between several arms. This changes the geometry of the problem which we characterize via an information-theoretic lower bound. We introduce two asymptotically optimal algorithms for this setting, one based on the Track-and-Stop method and the other based on a game-theoretic approach. Both these algorithms try to track an optimal allocation based on the lower bound and computed by a weighted projection onto the boundary of a normal cone. Finally, we provide empirical results that validate our bounds and visualize how constraints change the hardness of the problem.
翻訳日:2023-09-08 16:56:34 公開日:2023-09-07
# Blended-NeRF:既存の神経放射場におけるゼロショットオブジェクト生成とブレンド

Blended-NeRF: Zero-Shot Object Generation and Blending in Existing Neural Radiance Fields ( http://arxiv.org/abs/2306.12760v2 )

ライセンス: Link先を確認
Ori Gordon and Omri Avrahami and Dani Lischinski(参考訳) nerfで表現された3dシーンのローカル領域や特定のオブジェクトの編集や、シーンに新しい現実的なオブジェクトを一貫してブレンドすることは、主にシーン表現の暗黙的な性質のために難しい。 Blended-NeRFは、テキストプロンプトと3D ROIボックスに基づいて、既存のNeRFシーンに対する特定の関心領域を編集する、堅牢で柔軟なフレームワークである。 提案手法は,既存のNeRFシーン上で初期化された3次元MLPモデルとともに,事前訓練された言語画像モデルを用いて,合成をユーザが提供するテキストプロンプトに向けて操り,オブジェクトを生成し,元のシーンで指定された領域にブレンドする。 入力シーンに3droiボックスをローカライズすることでローカル編集を可能にし、新しいボリュームブレンド技術を用いてroi内部で合成されたコンテンツを既存のシーンとブレンドする。 自然視・視界整合性のある結果を得るために,既存の幾何学的先行と3次元拡張を利用して最終結果の視覚的忠実度を向上する。 我々は,実写3Dシーンやテキストプロンプトの質的,定量的にテストし,ベースラインと比較して多くの柔軟性と多様性を持った現実的なマルチビュー一貫性のある結果を示す。 最後に,シーンへの新たなオブジェクトの追加,既存オブジェクトの削除・更新・変更,テクスチャ変換など,いくつかの3d編集アプリケーションに対するフレームワークの適用性を示す。

Editing a local region or a specific object in a 3D scene represented by a NeRF or consistently blending a new realistic object into the scene is challenging, mainly due to the implicit nature of the scene representation. We present Blended-NeRF, a robust and flexible framework for editing a specific region of interest in an existing NeRF scene, based on text prompts, along with a 3D ROI box. Our method leverages a pretrained language-image model to steer the synthesis towards a user-provided text prompt, along with a 3D MLP model initialized on an existing NeRF scene to generate the object and blend it into a specified region in the original scene. We allow local editing by localizing a 3D ROI box in the input scene, and blend the content synthesized inside the ROI with the existing scene using a novel volumetric blending technique. To obtain natural looking and view-consistent results, we leverage existing and new geometric priors and 3D augmentations for improving the visual fidelity of the final result. We test our framework both qualitatively and quantitatively on a variety of real 3D scenes and text prompts, demonstrating realistic multi-view consistent results with much flexibility and diversity compared to the baselines. Finally, we show the applicability of our framework for several 3D editing applications, including adding new objects to a scene, removing/replacing/altering existing objects, and texture conversion.
翻訳日:2023-09-08 16:56:20 公開日:2023-09-07
# 例外曲面に沿って高次例外点へ移動する

Moving along an exceptional surface towards a higher-order exceptional point ( http://arxiv.org/abs/2306.10851v2 )

ライセンス: Link先を確認
Jan Wiersig(参考訳) 例外点と呼ばれる非エルミート的縮退性を持つ開系は、小さな摂動によって引き起こされる大きなエネルギー分裂の観点で摂動に対する顕著な反応を示す。 この反応は例外点のスペクトル応答強度によって定量することができる。 基礎となる理論をヒルベルト空間の次元が例外点の次数よりも大きい一般の場合まで拡張する。 この一般化により、興味深い現象が示せる:例外点のスペクトル応答強度は大幅に増大し、最終的に例外点の次数を増加させるパラメータ変動の下で無限に分岐する。 この劇的な振る舞いは一般にエネルギー固有値の発散を伴わず、例外点に近いピーターマン因子のよく知られた発散と関係があることが示されている。 最後に, 一般理論と残差計算に基づくスペクトル応答強度の計算法について, 高精度でロバストな数値計算法を提案する。

Open systems with non-Hermitian degeneracies called exceptional points show a significantly enhanced response to perturbations in terms of large energy splittings induced by a small perturbation. This reaction can be quantified by the spectral response strength of the exceptional point. We extend the underlying theory to the general case where the dimension of the Hilbert space is larger than the order of the exceptional point. This generalization allows us to demonstrate an intriguing phenomenon: The spectral response strength of an exceptional point increases considerably and may even diverge to infinity under a parameter variation that eventually increases the order of the exceptional point. This dramatic behavior is in general not accompanied by a divergence of the energy eigenvalues and is shown to be related to the well-known divergence of Petermann factors near exceptional points. Finally, an accurate and robust numerical scheme for the computation of the spectral response strength based on the general theory and residue calculus is presented.
翻訳日:2023-09-08 16:55:53 公開日:2023-09-07
# take-a-photo:ポイントクラウドモデルの3dから2d生成前トレーニング

Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models ( http://arxiv.org/abs/2307.14971v2 )

ライセンス: Link先を確認
Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) MAEによるマスク画像モデリングの圧倒的な傾向により、生成事前学習は2次元視覚における基本モデルの性能を高める驚くべき可能性を示している。 しかし、3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質は、生成前のトレーニングのさらなる発展を妨げている。 本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。 本稿では,前訓練方式としてクロスアテンション機構を用いて異なるポーズから視点画像を生成することを提案する。 ビューイメージの生成は、ポイントクラウドよりも正確な監督を行うため、3dバックボーンがポイントクラウドの幾何学的構造と立体的関係をより詳細に理解できるように支援する。 提案した3D-to-2D生成前訓練法は,従来の事前訓練法よりも優れていた。 また,scanobjectnn分類やshapenetpartセグメンテーションタスクを微調整する場合,アーキテクチャ指向アプローチの性能向上や最先端の性能向上にも有効である。 コードはhttps://github.com/wangzy22/tapで入手できる。

With the overwhelming trend of mask image modeling led by MAE, generative pre-training has shown a remarkable potential to boost the performance of fundamental models in 2D vision. However, in 3D vision, the over-reliance on Transformer-based backbones and the unordered nature of point clouds have restricted the further development of generative pre-training. In this paper, we propose a novel 3D-to-2D generative pre-training method that is adaptable to any point cloud model. We propose to generate view images from different instructed poses via the cross-attention mechanism as the pre-training scheme. Generating view images has more precise supervision than its point cloud counterpart, thus assisting 3D backbones to have a finer comprehension of the geometrical structure and stereoscopic relations of the point cloud. Experimental results have proved the superiority of our proposed 3D-to-2D generative pre-training over previous pre-training methods. Our method is also effective in boosting the performance of architecture-oriented approaches, achieving state-of-the-art performance when fine-tuning on ScanObjectNN classification and ShapeNetPart segmentation tasks. Code is available at https://github.com/wangzy22/TAP.
翻訳日:2023-09-08 16:44:12 公開日:2023-09-07
# 対称および反対称状態からの集合放出としての単一光子超放射とサブ放射

Single Photon Superradiance and Subradiance as Collective Emission From Symmetric and Antisymmetric States ( http://arxiv.org/abs/2307.14667v2 )

ライセンス: Link先を確認
Nicola Piovella and Stefano Olivares(参考訳) 最近の研究では、N$共振2レベル原子のアンサンブルからの集合的な単一光子自然放出が豊富な研究分野であることが示されている。 超放射能は、例えば外部レーザーによって印加された1つの励起原子で、N$原子の完全に対称な状態からの放出を記述する。 代わりに、サブラジオアンスは残りの$N-1$非対称状態からの放出に関連付けられ、単一の原子値よりも集団崩壊率が低い。 本稿では,対称および非対称状態の正規直交基底の性質と超ラジアントおよび亜ラジアント状態の絡み合い特性について考察する。 一方、対称超ラジカル状態とサブラジアント状態とを分離することにより、レーザーによってシステム内で誘導されるサブラジアント分画を決定することができる。 一方, 外部レーザーをオフにし, 原子励起が崩壊すると, 超ラジアント分率がしきい値1/n以下になると, 原子アンサンブルの絡み合いが現れる。

Recent works have shown that collective single photon spontaneous emission from an ensemble of $N$ resonant two-level atoms is a rich field of study. Superradiance describes emission from a completely symmetric state of $N$ atoms, with a single excited atom prepared with a given phase, for instance imprinted by an external laser. Instead, subradiance is associated with the emission from the remaining $N-1$ asymmetric states, with a collective decay rate less than the single-atom value. Here, we discuss the properties of the orthonormal basis of symmetric and asymmetric states and the entanglement properties of superradiant and subradiant states. On the one hand, by separating the symmetric superradiant state from the subradiant ones, we are able to determine the subradiant fraction induced in the system by the laser. On the other hand, we show that, as the external laser is switched off and the atomic excitation decays, entanglement in the atomic ensemble appears when the superradiant fraction falls below the threshold 1/N.
翻訳日:2023-09-08 16:43:52 公開日:2023-09-07
# スパイキングニューロンによるスパースイベント学習による自動車物体検出

Automotive Object Detection via Learning Sparse Events by Spiking Neurons ( http://arxiv.org/abs/2307.12900v2 )

ライセンス: Link先を確認
Hu Zhang, Yanchen Li, Luziwei Leng, Kaiwei Che, Qian Liu, Qinghai Guo, Jianxing Liao, Ran Cheng(参考訳) 1 {\displaystyle 1} の時間分解能と120 db のダイナミックレンジで区別されるイベントベースのセンサーは、車両やドローンのような速いペースで配置するための理想的なツールとして際立っている。 ANN(Artificial Neural Networks)を利用する従来のオブジェクト検出技術は、これらのセンサがキャプチャするイベントのスパースで非同期性のため、課題に直面している。 対照的に、spyking neural networks (snns)は有望な代替手段を提供し、本質的にイベントベースのデータと一致した時間表現を提供する。 本稿では,SNNの膜電位ダイナミクスとスパース現象の変調能力について検討する。 安定トレーニング用に設計された革新的スパイクトリガー適応しきい値機構を導入する。 これらの知見に基づいて,自動車イベントに基づく物体検出に最適化されたスパイク特徴ピラミッドネットワーク(SpikeFPN)を提案する。 総合的な評価では、SpikeFPNは従来のSNNと、注意機構によって強化された高度なANNの両方を上回っている。 明らかにspikefpnは、gen1 automotive detection(gad)ベンチマークデータセットで平均平均精度(map)0.477を達成しており、以前のベストsnと比べて9.7%の大幅な増加を示している。 さらに、SpikeFPNの効率的な設計は、計算資源を最適化しながら堅牢な性能を確保する。

Event-based sensors, distinguished by their high temporal resolution of 1 {\mu}s and a dynamic range of 120 dB, stand out as ideal tools for deployment in fast-paced settings like vehicles and drones. Traditional object detection techniques that utilize Artificial Neural Networks (ANNs) face challenges due to the sparse and asynchronous nature of the events these sensors capture. In contrast, Spiking Neural Networks (SNNs) offer a promising alternative, providing a temporal representation that is inherently aligned with event-based data. This paper explores the unique membrane potential dynamics of SNNs and their ability to modulate sparse events. We introduce an innovative spike-triggered adaptive threshold mechanism designed for stable training. Building on these insights, we present a specialized spiking feature pyramid network (SpikeFPN) optimized for automotive event based object detection. Comprehensive evaluations demonstrate that SpikeFPN surpasses both traditional SNNs and advanced ANNs enhanced with attention mechanisms. Evidently, SpikeFPN achieves a mean Average Precision (mAP) of 0.477 on the GEN1 Automotive Detection (GAD) benchmark dataset, marking a significant increase of 9.7% over the previous best SNN. Moreover, the efficient design of SpikeFPN ensures robust performance while optimizing computational resources, attributed to its innate sparse computation capabilities.
翻訳日:2023-09-08 16:43:32 公開日:2023-09-07
# 双方向積分近似による完全拡散反転

Exact Diffusion Inversion via Bi-directional Integration Approximation ( http://arxiv.org/abs/2307.10829v3 )

ライセンス: Link先を確認
Guoqiang Zhang and J. P. Lewis and W. Bastiaan Kleijn(参考訳) 近年,EDICT[36]やNull-textインバージョン[22]などの画像編集を可能にするために,DDIMインバージョンの不整合問題に対処する様々な手法が提案されている。 しかし、上記の手法は計算オーバーヘッドがかなり大きい。 本稿では,BDIA(emph{bi-directional integration approximation)と呼ばれる新しい手法を提案する。 次の拡散状態 $\boldsymbol{z}_{i-1}$ at timestep $t_i$ と履歴情報 $(i,\boldsymbol{z}_i)$ と $(i+1,\boldsymbol{z}_{i+1})$ を推定する。 まず、推定されたガウスノイズ $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$ を取得し、次に次回の時間スロット$[t_i, t_{i-1}]$ と前回の時間スロット$[t_i, t_{t+1}]$ を後方方向に近似するためにDDIM更新手順を2回適用する。 以前の時間スロットのDDIMステップは、$\boldsymbol{z}_i$を計算する際に以前になされた積分近似を洗練するために使用される。 BDIA-DDIMのよい性質は、$\boldsymbol{z}_{i-1}$の更新式が$(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$の線形結合であることである。 これにより、$\boldsymbol{z}_{i+1}$が与えられた$(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$の正確な逆計算が可能になり、正確な拡散反転をもたらす。 bdia-ddimが特に画像編集に有効であることを実験により実証した。 さらに,BDIA-DDIMはテキスト・ツー・イメージ生成において,DDIMよりも優れた画像サンプリング特性が得られることを示した。 BDIAはDDIMに加えて他のODEソルバの性能向上にも応用できる。 本研究では,BDIAをEDMサンプリング法に適用することにより,CIFAR10上でのSOTA性能が向上することが確認された。

Recently, various methods have been proposed to address the inconsistency issue of DDIM inversion to enable image editing, such as EDICT [36] and Null-text inversion [22]. However, the above methods introduce considerable computational overhead. In this paper, we propose a new technique, named \emph{bi-directional integration approximation} (BDIA), to perform exact diffusion inversion with neglible computational overhead. Suppose we would like to estimate the next diffusion state $\boldsymbol{z}_{i-1}$ at timestep $t_i$ with the historical information $(i,\boldsymbol{z}_i)$ and $(i+1,\boldsymbol{z}_{i+1})$. We first obtain the estimated Gaussian noise $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$, and then apply the DDIM update procedure twice for approximating the ODE integration over the next time-slot $[t_i, t_{i-1}]$ in the forward manner and the previous time-slot $[t_i, t_{t+1}]$ in the backward manner. The DDIM step for the previous time-slot is used to refine the integration approximation made earlier when computing $\boldsymbol{z}_i$. A nice property of BDIA-DDIM is that the update expression for $\boldsymbol{z}_{i-1}$ is a linear combination of $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$. This allows for exact backward computation of $\boldsymbol{z}_{i+1}$ given $(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$, thus leading to exact diffusion inversion. It is demonstrated with experiments that (round-trip) BDIA-DDIM is particularly effective for image editing. Our experiments further show that BDIA-DDIM produces markedly better image sampling qualities than DDIM for text-to-image generation. BDIA can also be applied to improve the performance of other ODE solvers in addition to DDIM. In our work, it is found that applying BDIA to the EDM sampling procedure produces new SOTA performance over CIFAR10.
翻訳日:2023-09-08 16:43:09 公開日:2023-09-07
# 片道流による対向的確率推定

Adversarial Likelihood Estimation With One-Way Flows ( http://arxiv.org/abs/2307.09882v2 )

ライセンス: Link先を確認
Omri Ben-Dov, Pravir Singh Gupta, Victoria Abrevaya, Michael J. Black, Partha Ghosh(参考訳) generative adversarial network (gans) は高品質なサンプルを生成できるが、サンプル周辺の確率密度の推定はできない。 しかしながら、エネルギーに基づく設定において、ログの類似度を最大化することは、判別器が非正規化された密度(しばしばエネルギーと呼ばれる)を提供する敵の枠組みにつながる可能性がある。 我々は、この視点をさらに発展させ、重要サンプリングを取り入れ、 1)wasserstein ganは分割関数の偏り推定を行い、代わりに偏りのない推定器を使うように提案する。 2) 可能性に最適化する場合は, 生成エントロピーを最大化する必要がある。 これは、より良いモードカバレッジを提供すると仮定される。 従来の研究と異なり、生成したサンプルの密度を明示的に計算する。 これは分割関数の偏りのない推定器の設計とジェネレータエントロピー項の計算の鍵となる。 ジェネレータ密度は、一方向フローネットワークと呼ばれる新しいタイプのフローネットワークによって得られるが、従順な逆関数を必要としないため、アーキテクチャの面では制約が小さい。 実験の結果,本手法はより高速に収束し,類似したアーキテクチャでGANに匹敵するサンプル品質が得られ,一般的なデータセットへの過度な適合を回避し,トレーニングデータのスムーズな低次元潜在表現を生成することができた。

Generative Adversarial Networks (GANs) can produce high-quality samples, but do not provide an estimate of the probability density around the samples. However, it has been noted that maximizing the log-likelihood within an energy-based setting can lead to an adversarial framework where the discriminator provides unnormalized density (often called energy). We further develop this perspective, incorporate importance sampling, and show that 1) Wasserstein GAN performs a biased estimate of the partition function, and we propose instead to use an unbiased estimator; and 2) when optimizing for likelihood, one must maximize generator entropy. This is hypothesized to provide a better mode coverage. Different from previous works, we explicitly compute the density of the generated samples. This is the key enabler to designing an unbiased estimator of the partition function and computation of the generator entropy term. The generator density is obtained via a new type of flow network, called one-way flow network, that is less constrained in terms of architecture, as it does not require a tractable inverse function. Our experimental results show that our method converges faster, produces comparable sample quality to GANs with similar architecture, successfully avoids over-fitting to commonly used datasets and produces smooth low-dimensional latent representations of the training data.
翻訳日:2023-09-08 16:42:12 公開日:2023-09-07
# モビリティデータサイエンスのためのeXplainable AIを目指して

Towards eXplainable AI for Mobility Data Science ( http://arxiv.org/abs/2307.08461v3 )

ライセンス: Link先を確認
Anahid Jalali, Anita Graser, Clemens Heistracher(参考訳) 本稿では,xai for mobility data science 応用に向けて,時間グラフニューラルネットワーク (gnns) と偽物を用いた車両や船舶のgps 追跡などの高密度軌道データから学習可能な説明可能なモデルに着目した,現在進行中の研究について述べる。 我々は既存のGeoXAI研究をレビューし、人間中心のアプローチによる理解可能な説明の必要性を論じ、モビリティデータサイエンスのためのXAI研究の道筋を概説する。

This paper presents our ongoing work towards XAI for Mobility Data Science applications, focusing on explainable models that can learn from dense trajectory data, such as GPS tracks of vehicles and vessels using temporal graph neural networks (GNNs) and counterfactuals. We review the existing GeoXAI studies, argue the need for comprehensible explanations with human-centered approaches, and outline a research path toward XAI for Mobility Data Science.
翻訳日:2023-09-08 16:41:48 公開日:2023-09-07
# Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数

Deep Network Approximation: Beyond ReLU to Diverse Activation Functions ( http://arxiv.org/abs/2307.06555v3 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。 $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Mish}$, $\matht{Sigmoid}$, $\matht{ReLU}$, $\matht{Sigmoid}$, $\matht{ReLU}^2$, $\mathtt{SELU}$, $, $\mathtt{Softplus}$, $\mathtt{GELU}$, $, $\mathttt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathttt{Sig}$\mathtt{Sig}$, $, $\mathttttt{Sig}$, $, $\mathttttt{Sig}$\matht{Sig}$, $, $\mathttttt{Sig}$}$, $\mathttt{Sig}$}$}$, $}$, $\matht{Swt{Swt{Sw}$, $, $\matht{Swt{Swt{Sw}$, $, $} 任意の活性化関数 $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ に対して、任意の有界集合上の$\varrho$-activated network of width $4N$ and depth $2L$ を任意の精度で近似できることを示した。 この発見により、$\mathtt{relu}$ネットワークで達成されたほとんどの近似結果が、より大きい定数のコストで、他の様々な活性化関数に拡張できる。

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $4N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, at the cost of slightly larger constants.
翻訳日:2023-09-08 16:41:38 公開日:2023-09-07
# Rad-ReStruct: 構造化ラジオロジーレポートのための新しいVQAベンチマークと方法

Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology Reporting ( http://arxiv.org/abs/2307.05766v4 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Nassir Navab(参考訳) 放射線医学の報告は、放射線医と他の医療専門家の間でのコミュニケーションにおいて重要な部分であるが、時間とエラーの危険性がある。 これを軽減する1つのアプローチは構造化レポートであり、これは時間を節約し、自由テキストレポートよりも正確な評価を可能にする。 しかし、構造化レポートの自動化に関する研究は限られており、異なる方法を評価し比較するための公開ベンチマークは提供されていない。 このギャップを埋めるために、X線画像の構造化レポートの形式で微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットRad-ReStructを導入する。 本稿では,階層的視覚的質問応答 (VQA) として構造化された報告課題をモデル化し,従来質問されていた質問や回答の形式で事前の文脈を考察する手法であるhi-VQAを提案する。 実験の結果,Hu-VQAは,医用VQAベンチマークVQARADにおいて,ドメイン固有の視覚言語事前学習を伴わない手法の中で最高の性能を示し,Rad-Reructの強力なベースラインを提供する。 我々の研究は、構造化放射線学レポートの自動化に向けた重要な一歩であり、この分野における将来の研究のための貴重な第1のベンチマークを提供する。 データセットとコードはhttps://github.com/ChantalMP/Rad-ReStruct.comから入手可能です。

Radiology reporting is a crucial part of the communication between radiologists and other medical professionals, but it can be time-consuming and error-prone. One approach to alleviate this is structured reporting, which saves time and enables a more accurate evaluation than free-text reports. However, there is limited research on automating structured reporting, and no public benchmark is available for evaluating and comparing different methods. To close this gap, we introduce Rad-ReStruct, a new benchmark dataset that provides fine-grained, hierarchically ordered annotations in the form of structured reports for X-Ray images. We model the structured reporting task as hierarchical visual question answering (VQA) and propose hi-VQA, a novel method that considers prior context in the form of previously asked questions and answers for populating a structured radiology report. Our experiments show that hi-VQA achieves competitive performance to the state-of-the-art on the medical VQA benchmark VQARad while performing best among methods without domain-specific vision-language pretraining and provides a strong baseline on Rad-ReStruct. Our work represents a significant step towards the automated population of structured radiology reports and provides a valuable first benchmark for future research in this area. Our dataset and code is available at https://github.com/ChantalMP/Rad-ReStruct.
翻訳日:2023-09-08 16:37:44 公開日:2023-09-07
# MSViT:ビジョントランスのための動的混合スケールトークン化

MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers ( http://arxiv.org/abs/2307.02321v2 )

ライセンス: Link先を確認
Jakob Drachmann Havtorn and Amelie Royer and Tijmen Blankevoort and Babak Ehteshami Bejnordi(参考訳) 視覚変換器への入力トークンは、その内容に関係なく、入力画像の通常の等サイズのパッチとして定義されるため、意味をほとんど持たない。 しかし、画像の均一な背景領域の処理は、密度の高い散らばった領域ほど計算を必要としない。 そこで本研究では,ViT,MSViTのための動的混合スケールトークン化方式を提案する。 本手法では,画像領域毎に最適なトークンスケールを選択する条件付きゲーティング機構を導入し,入力毎にトークン数を動的に決定する。 さらに, 学習中のゲートの条件的挙動を向上させるため, バッチシェーピング損失の新たな一般化を提案する。 当社のゲーティングモジュールは,局所的に粗いパッチレベルで動作するにも関わらず,意味のあるセマンティクスを学習できることを示します。 提案されたゲーティングモジュールは軽量で、トランスフォーマーバックボーンの選択に依存せず、トレーニングオーバーヘッドの少ない数エポックでトレーニングされる。 さらに、トークンプルーニングとは対照的に、MSViTは入力に関する情報を失うことはないため、密集したタスクに容易に適用できる。 我々はMSViTを分類と分割のタスクで検証し、精度・複雑さのトレードオフを改善する。

The input tokens to Vision Transformers carry little semantic meaning as they are defined as regular equal-sized patches of the input image, regardless of its content. However, processing uniform background areas of an image should not necessitate as much compute as dense, cluttered areas. To address this issue, we propose a dynamic mixed-scale tokenization scheme for ViT, MSViT. Our method introduces a conditional gating mechanism that selects the optimal token scale for every image region, such that the number of tokens is dynamically determined per input. In addition, to enhance the conditional behavior of the gate during training, we introduce a novel generalization of the batch-shaping loss. We show that our gating module is able to learn meaningful semantics despite operating locally at the coarse patch-level. The proposed gating module is lightweight, agnostic to the choice of transformer backbone, and trained within a few epochs with little training overhead. Furthermore, in contrast to token pruning, MSViT does not lose information about the input, thus can be readily applied for dense tasks. We validate MSViT on the tasks of classification and segmentation where it leads to improved accuracy-complexity trade-off.
翻訳日:2023-09-08 16:37:18 公開日:2023-09-07
# ClipSitu:状況認識における条件予測のためのCLIPの有効活用

ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition ( http://arxiv.org/abs/2307.00586v2 )

ライセンス: Link先を確認
Debaditya Roy, Dhruv Verma, Basura Fernando(参考訳) 状況認識とは、活動動詞とアクターやオブジェクトによって演じられる意味的役割を用いて、画像内で起こっていることの構造化された要約を生成するタスクである。 このタスクでは、同じアクティビティ動詞が多様な状況の集合を記述することができ、同じアクターやオブジェクトカテゴリが、画像に表示される状況に応じて多様なセマンティックな役割を演じることができる。 したがって、状況認識モデルは、画像のコンテキストと意味的役割の視覚言語的意味を理解する必要がある。 そこで我々は,言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。 より深い多層パーセプトロン(MLP)ブロックは、CLIP画像とテキスト埋め込み機能を用いて、状況認識タスクの注目すべき結果が得られることを示し、CLIPがカプセル化した外部暗黙的視覚言語知識と現代のMLPブロック設計の表現力のおかげで、トランスフォーマーベースのモデルであるCoFormerよりも優れていた。 テキストの役割と視覚的実体の関係をモデル化するCLIPビジュアルトークンを用いた横断的アテンションベースのトランスフォーマーを設計する。 ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、ImSituデータセットを使用してトップ1の精度でセマンティックロールラベリング(値)を14.1\%の大差で、既存の最先端技術よりも優れています。 同様に、我々のClipSitu XTFは最先端のローカライゼーション性能を得る。 コードを公開する予定です。

Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence a situation recognition model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1\% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. {Similarly, our ClipSitu XTF obtains state-of-the-art situation localization performance.} We will make the code publicly available.
翻訳日:2023-09-08 16:37:00 公開日:2023-09-07
# 低光画像強調のための自己参照深部適応曲線推定

Self-Reference Deep Adaptive Curve Estimation for Low-Light Image Enhancement ( http://arxiv.org/abs/2308.08197v3 )

ライセンス: Link先を確認
Jianyu Wen, Chenhao Wu, Tong Zhang, Yixuan Yu, Piotr Swierczynski(参考訳) 本稿では,自己参照深度適応曲線推定(Self-DACE)と呼ばれる2段階の低照度画像強調手法を提案する。 第1段階では,直感的,軽量,高速,教師なしの輝度強調アルゴリズムを提案する。 このアルゴリズムは、画像の輝度を局所的に増やすために使用できる新しい低光度強調曲線に基づいている。 また,自然画像の色,構造,忠実度を保存するために,物理モデルを単純化した新たな損失関数を提案する。 バニラCNNを用いて各画素を局所的な画像構造を保ちながら、AAC(Adaptive Adjustment Curves)の深部をマッピングする。 第2に,暗黒の潜在雑音を除去すべく,対応する消音方式を導入する。 暗黒環境でのノイズを概ねモデル化し,第1段階以降のノイズを推定および除去するためにDenoising-Netをデプロイする。 探索的定性的および定量的分析により,本手法は複数の実世界のデータセット上で,既存の最先端アルゴリズムよりも優れていることが示された。

In this paper, we propose a 2-stage low-light image enhancement method called Self-Reference Deep Adaptive Curve Estimation (Self-DACE). In the first stage, we present an intuitive, lightweight, fast, and unsupervised luminance enhancement algorithm. The algorithm is based on a novel low-light enhancement curve that can be used to locally boost image brightness. We also propose a new loss function with a simplified physical model designed to preserve natural images' color, structure, and fidelity. We use a vanilla CNN to map each pixel through deep Adaptive Adjustment Curves (AAC) while preserving the local image structure. Secondly, we introduce the corresponding denoising scheme to remove the latent noise in the darkness. We approximately model the noise in the dark and deploy a Denoising-Net to estimate and remove the noise after the first stage. Exhaustive qualitative and quantitative analysis shows that our method outperforms existing state-of-the-art algorithms on multiple real-world datasets.
翻訳日:2023-09-08 16:30:48 公開日:2023-09-07
# 高忠実性2量子ゲートを持つスピン軌道相互作用

Spin-Orbit Interaction Enabled High-Fidelity Two-Qubit Gates ( http://arxiv.org/abs/2308.06986v2 )

ライセンス: Link先を確認
Jiaan Qi, Zhi-Hai Liu and H. Q. Xu(参考訳) 半導体スピンキュービットプラットフォームにおける2量子ゲート(TQG)に対するスピン軌道相互作用(SOI)の影響について検討した。 量子ビット対を管理する交換相互作用はSOIの下では異方性であり、ハイゼンベルク交換の下で引き起こされた従来のTQGに問題がある。 SOI を用いた実効2量子ハミルトニアンの簡潔な形式を開発した後、回転フレームにおける TQG の性質を導出する。 主な観測は2つある。 まず, 過去の信念とは対照的に, 適切な量のSOIはNO-SOIの場合と比較して制御相ゲートの忠実度を高めることができる。 第二に、SOIはリフレクションゲートやコントロールノットゲートのような直流進化によって従来はアクセスできない新しい2量子ダイナミクスを実現する。

We study the implications of spin-orbit interaction (SOI) for two-qubit gates (TQGs) in semiconductor spin qubit platforms. The exchange interaction governing qubit pairs is anisotropic under SOI, posing a problem for conventional TQGs derived under the Heisenberg exchange. After developing a concise form of the effective two-qubit Hamiltonian with SOI, we use it to derive properties of TQGs in the rotating-frame. Two main observations are made. First, in contrary to past belief, we find that an appropriate amount of SOI can enhance the controlled-phase gate fidelity compared to the no-SOI case. Second, SOI enables novel two-qubit dynamics, that are conventionally inaccessible through DC evolution, such as the reflection gate and the controlled-not gate.
翻訳日:2023-09-08 16:30:32 公開日:2023-09-07
# GraPhSyM:グラフ物理合成モデル

GraPhSyM: Graph Physical Synthesis Model ( http://arxiv.org/abs/2308.03944v2 )

ライセンス: Link先を確認
Ahmed Agiza, Rajarshi Roy, Teodor Dumitru Ene, Saad Godil, Sherief Reda, Bryan Catanzaro(参考訳) 本研究では,グラフ注意ネットワーク(GATv2)モデルであるGraPhSyMを紹介する。 トレーニングが完了すると、GraPhSyMは、論理合成のような初期のEDAステージに対する最終的な設計メトリクスを、遅い物理合成フローを走らせることなく正確に可視化し、ステージ間のグローバルな共最適化を可能にする。 さらに、GraPhSyMが提供する迅速で正確なフィードバックは、機械学習ベースのEDA最適化フレームワークに役立ちます。 グラフとして表される回路のゲートレベルネットリストが与えられたとき、GraPhSyMはグラフ構造、接続性、電気的特性を利用してバッファ挿入やゲートサイズなどの物理合成変換の影響を予測する。 攻撃的な遅延ターゲットで合成された6000のプレフィックス加算器のデータセットでトレーニングすると、GraPhSyMは合成後の遅延(98.3%)と、高速な0.22s推論時間を持つ未確認加算器の面積(96.1%)を正確に予測することができる。 さらに,GraPhSyMの合成性について,一定の遅延目標に対してトレーニングしたモデルを用いて,様々な遅延目標の合成後の指標を正確に予測する。 最後に,GraPhSyMモデルをトレーニング対象の加算器と異なる回路で評価した場合に,有望な一般化能力を報告した。 結果は、GraPhSyMが高度な最適化技術のための強力なツールとして機能し、EDA機械学習フレームワークのオラクルとして機能する可能性を示している。

In this work, we introduce GraPhSyM, a Graph Attention Network (GATv2) model for fast and accurate estimation of post-physical synthesis circuit delay and area metrics from pre-physical synthesis circuit netlists. Once trained, GraPhSyM provides accurate visibility of final design metrics to early EDA stages, such as logic synthesis, without running the slow physical synthesis flow, enabling global co-optimization across stages. Additionally, the swift and precise feedback provided by GraPhSyM is instrumental for machine-learning-based EDA optimization frameworks. Given a gate-level netlist of a circuit represented as a graph, GraPhSyM utilizes graph structure, connectivity, and electrical property features to predict the impact of physical synthesis transformations such as buffer insertion and gate sizing. When trained on a dataset of 6000 prefix adder designs synthesized at an aggressive delay target, GraPhSyM can accurately predict the post-synthesis delay (98.3%) and area (96.1%) metrics of unseen adders with a fast 0.22s inference time. Furthermore, we illustrate the compositionality of GraPhSyM by employing the model trained on a fixed delay target to accurately anticipate post-synthesis metrics at a variety of unseen delay targets. Lastly, we report promising generalization capabilities of the GraPhSyM model when it is evaluated on circuits different from the adders it was exclusively trained on. The results show the potential for GraPhSyM to serve as a powerful tool for advanced optimization techniques and as an oracle for EDA machine learning frameworks.
翻訳日:2023-09-08 16:29:50 公開日:2023-09-07
# RAHNet:ロングテールグラフ分類のための検索拡張ハイブリッドネットワーク

RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification ( http://arxiv.org/abs/2308.02335v2 )

ライセンス: Link先を確認
Zhengyang Mao, Wei Ju, Yifang Qin, Xiao Luo, and Ming Zhang(参考訳) グラフ分類は、画像、ビデオ、ソーシャルネットワークなどの様々なマルチメディアデータタイプをグラフで表現できる、多くの実世界のマルチメディアアプリケーションにおいて重要なタスクである。 これまで、クラス分布がバランスの取れた状況にグラフニューラルネットワーク(GNN)を適用してきた。 しかし、現実のデータは典型的には長い尾のクラス分布を示すため、GNNを使用するとヘッドクラスに偏りが生じる。 最近のアプローチは、主にモデルトレーニング中に異なるクラスを再バランスすることにフォーカスしており、新しい知識を明示的に導入せず、ヘッドクラスのパフォーマンスを犠牲にしている。 これらの欠点に対処するために,頑健な特徴抽出器と非バイアスの分類器を疎結合で学習するRAHNet(Retrieval Augmented Hybrid Network)という新しいフレームワークを提案する。 特徴抽出学習段階において,末尾クラスにおけるクラス内多様性を直接強化する関連グラフを探索するグラフ検索モジュールを開発した。 さらに,カテゴリー中心の教師付きコントラスト損失を革新的に最適化し,ロングテールシナリオに適した識別表現を得る。 分類器の微調整段階において、分類器の重みと2つの重み正規化手法、すなわちマックスノルムと重み減衰のバランスをとる。 様々なベンチマーク実験により,提案手法の最先端手法に対する優位性を検証した。

Graph classification is a crucial task in many real-world multimedia applications, where graphs can represent various multimedia data types such as images, videos, and social networks. Previous efforts have applied graph neural networks (GNNs) in balanced situations where the class distribution is balanced. However, real-world data typically exhibit long-tailed class distributions, resulting in a bias towards the head classes when using GNNs and limited generalization ability over the tail classes. Recent approaches mainly focus on re-balancing different classes during model training, which fails to explicitly introduce new knowledge and sacrifices the performance of the head classes. To address these drawbacks, we propose a novel framework called Retrieval Augmented Hybrid Network (RAHNet) to jointly learn a robust feature extractor and an unbiased classifier in a decoupled manner. In the feature extractor training stage, we develop a graph retrieval module to search for relevant graphs that directly enrich the intra-class diversity for the tail classes. Moreover, we innovatively optimize a category-centered supervised contrastive loss to obtain discriminative representations, which is more suitable for long-tailed scenarios. In the classifier fine-tuning stage, we balance the classifier weights with two weight regularization techniques, i.e., Max-norm and weight decay. Experiments on various popular benchmarks verify the superiority of the proposed method against state-of-the-art approaches.
翻訳日:2023-09-08 16:29:23 公開日:2023-09-07
# 1次元水素分子中の電子の局所絡み合い

Local entanglement of electrons in 1D hydrogen molecule ( http://arxiv.org/abs/2308.01708v2 )

ライセンス: Link先を確認
Ivan P. Christov(参考訳) 一次元水素分子中の電子の量子エンタングルメントエントロピーは、2次元配置空間の適切な分割を用いて局所的に定量化される。 大域的および局所的絡み合いエントロピーは、核間距離を増加させると単調に増加するが、局所エントロピーは核間の中央でピークに達し、幅が減少する。 その結果、安定な水素分子が形成される核間距離において、量子エントロピーは特異性を示しず、エントロピーとエネルギー測度が関連する2つの同一電子間の相互作用に関して異なる感度を示すことが示された。 1つの説明として、量子エントロピーの計算は核間の距離を明示的に考慮していないが、エネルギー最小値がその距離に決定的に依存する総エネルギー計算とは対照的である。 数値的精度と時間依存の量子モンテカルロ計算は、密接な結果を示す。

The quantum entanglement entropy of the electrons in one-dimensional hydrogen molecule is quantified locally using an appropriate partitioning of the two-dimensional configuration space. Both the global and the local entanglement entropy exhibit a monotonic increase when increasing the inter-nuclear distance, while the local entropy remains peaked at the middle between the nuclei with its width decreasing. Our findings show that at the inter-nuclear distance where stable hydrogen molecule is formed, the quantum entropy shows no peculiarity thus indicating that the entropy and the energy measures display different sensitivity with respect to the interaction between the two identical electrons involved. One possible explanation is that the calculation of the quantum entropy does not account explicitly for the distance between the nuclei, which contrasts to the total energy calculation where the energy minimum depends decisively on that distance. The numerically exact and the time-dependent quantum Monte Carlo calculations show close results.
翻訳日:2023-09-08 16:29:00 公開日:2023-09-07
# 電子健康記録における意思決定のための因果思考--理由と方法

Causal thinking for decision making on Electronic Health Records: why and how ( http://arxiv.org/abs/2308.01605v3 )

ライセンス: Link先を確認
Matthieu Doutreligne (SODA), Tristan Struja (MIT, USZ), Judith Abecassis (SODA), Claire Morgand (ARS IDF), Leo Anthony Celi (MIT), Ga\"el Varoquaux (SODA)(参考訳) 正確な予測は、機械学習と同様に、すべての患者に最適な医療を提供するのに十分ではないかもしれない。 実際、予測はデータのショートカット(例えば人種バイアス)によって駆動される。 データ駆動決定には因果思考が必要である。 ここでは、日常的に収集されるデータ、電子健康記録(ehrs)、クレームデータを中心に、重要な要素について紹介する。 このようなデータを使用して介入の価値を評価するには、注意が必要です。 ランダム化試行をエミュレートして実生活の患者記録から有効な意思決定を行うためのステップ・バイ・ステップのフレームワークを提案する。 我々のフレームワークは、因果的な結論を引き出すために、EHRやクレームデータを分析する上で最も重要な落とし穴と考察を強調します。 集中治療データベース(MIMIC-IV)において,アルブミンが敗血症死亡率に及ぼす影響について検討した。 特徴抽出から因果推定選択まで,各ステップにおける多様な選択の影響について検討した。 チュートリアルの精神では、コードとデータは公開されています。

Accurate predictions, as with machine learning, may not suffice to provide optimal healthcare for every patient. Indeed, prediction can be driven by shortcuts in the data, such as racial biases. Causal thinking is needed for data-driven decisions. Here, we give an introduction to the key elements, focusing on routinely-collected data, electronic health records (EHRs) and claims data. Using such data to assess the value of an intervention requires care: temporal dependencies and existing practices easily confound the causal effect. We present a step-by-step framework to help build valid decision making from real-life patient records by emulating a randomized trial before individualizing decisions, eg with machine learning. Our framework highlights the most important pitfalls and considerations in analysing EHRs or claims data to draw causal conclusions. We illustrate the various choices in studying the effect of albumin on sepsis mortality in the Medical Information Mart for Intensive Care database (MIMIC-IV). We study the impact of various choices at every step, from feature extraction to causal-estimator selection. In a tutorial spirit, the code and the data are openly available.
翻訳日:2023-09-08 16:28:43 公開日:2023-09-07
# VLUCI: 反現実推論のための未観測の共同創業者の変分学習

VLUCI: Variational Learning of Unobserved Confounders for Counterfactual Inference ( http://arxiv.org/abs/2308.00904v2 )

ライセンス: Link先を確認
Yonghe Zhao, Qiang Huang, Siwei Wu, Yun Peng, Huiyan Sun(参考訳) 因果推論は疫学、医療、経済学など様々な分野において重要な役割を担っている。 因果推論研究において、観測データにおける不一致と反実予測が顕著な関心事となっている。 既存のモデルが観察された共同設立者に取り組む一方で、観察されていない共同設立者の存在は依然として大きな課題であり、因果推論を歪め、反事実的結果の正確さに影響を与える。 そこで本研究では,非観測的共同設立者の後方分布を生成する,非観測的共同設立者(VLUCI)の新たな変分学習モデルを提案する。 VLUCIは、ほとんどの因果推論法で見過ごされる未解決の仮定を緩和する。 観測された、観測されていない共同設立者を遠ざけることで、VLUCIは二重変動推論モデルを構築し、観測されていない共同設立者の分布を近似する。 合成および半合成データセットに関する大規模な実験は、VLUCIが観測されていない共同設立者を推論する際の優れた性能を示している。 これは最先端の反事実推論モデルと互換性があり、グループレベルと個人レベルでの推論精度が大幅に向上する。 さらに、VLUCIは、リスクに敏感な領域における意思決定を支援する、反ファクト的な結果に対する信頼区間を提供する。 さらに、VLUCIの実用上の利点を浮き彫りにして、一般のIHDPデータセットを例として用いたモデル仮定に厳密に準拠しない場合に、VLUCIを適用する際の考慮事項を明らかにした。

Causal inference plays a vital role in diverse domains like epidemiology, healthcare, and economics. De-confounding and counterfactual prediction in observational data has emerged as a prominent concern in causal inference research. While existing models tackle observed confounders, the presence of unobserved confounders remains a significant challenge, distorting causal inference and impacting counterfactual outcome accuracy. To address this, we propose a novel variational learning model of unobserved confounders for counterfactual inference (VLUCI), which generates the posterior distribution of unobserved confounders. VLUCI relaxes the unconfoundedness assumption often overlooked by most causal inference methods. By disentangling observed and unobserved confounders, VLUCI constructs a doubly variational inference model to approximate the distribution of unobserved confounders, which are used for inferring more accurate counterfactual outcomes. Extensive experiments on synthetic and semi-synthetic datasets demonstrate VLUCI's superior performance in inferring unobserved confounders. It is compatible with state-of-the-art counterfactual inference models, significantly improving inference accuracy at both group and individual levels. Additionally, VLUCI provides confidence intervals for counterfactual outcomes, aiding decision-making in risk-sensitive domains. We further clarify the considerations when applying VLUCI to cases where unobserved confounders don't strictly conform to our model assumptions using the public IHDP dataset as an example, highlighting the practical advantages of VLUCI.
翻訳日:2023-09-08 16:28:27 公開日:2023-09-07
# beneficent intelligence:aiシステムによる利益、援助、および関連するモラル障害のモデリングのための能力アプローチ

Beneficent Intelligence: A Capability Approach to Modeling Benefit, Assistance, and Associated Moral Failures through AI Systems ( http://arxiv.org/abs/2308.00868v2 )

ライセンス: Link先を確認
Alex John London, Hoda Heidari(参考訳) AI倫理に関する一般的な言説は、AIシステムが個人と対話する際に生じる多様な倫理的懸念を捉えるのに必要な言語や形式主義を欠いている。 SenとNussbaumの機能的アプローチに基づいて、AIシステムが利害関係者に有意義な利益や援助を与えるために必要な倫理的概念と権利のネットワークを形式化するフレームワークを提案する。 このような制度は、基本的権利を維持しつつ、利害関係者の生活計画と幸福を向上する能力を高める。 我々は、aiシステムとそれらの機能によって影響を受けるものとの道徳的に許容される相互作用に必要な2つの条件と、有意義な利益の理想を実現するための2つの条件を特徴付ける。 そして、この理想をいくつかの健全な失敗モード、すなわち、不当な父性主義、強制、騙し、搾取、支配を構成する社会的相互作用と対比する。 ハイテイクドメインにおけるAI関連のインシデントの増加は、これらの問題の重大さと、AIシステムへの倫理主導のアプローチをその発端から取り除こうとする衝動を浮き彫りにしている。

The prevailing discourse around AI ethics lacks the language and formalism necessary to capture the diverse ethical concerns that emerge when AI systems interact with individuals. Drawing on Sen and Nussbaum's capability approach, we present a framework formalizing a network of ethical concepts and entitlements necessary for AI systems to confer meaningful benefit or assistance to stakeholders. Such systems enhance stakeholders' ability to advance their life plans and well-being while upholding their fundamental rights. We characterize two necessary conditions for morally permissible interactions between AI systems and those impacted by their functioning, and two sufficient conditions for realizing the ideal of meaningful benefit. We then contrast this ideal with several salient failure modes, namely, forms of social interactions that constitute unjustified paternalism, coercion, deception, exploitation and domination. The proliferation of incidents involving AI in high-stakes domains underscores the gravity of these issues and the imperative to take an ethics-led approach to AI systems from their inception.
翻訳日:2023-09-08 16:28:03 公開日:2023-09-07
# ディープラーニングモデルに対するパッチロバスト性認定のための多数不変手法

A Majority Invariant Approach to Patch Robustness Certification for Deep Learning Models ( http://arxiv.org/abs/2308.00452v2 )

ライセンス: Link先を確認
Qilin Zhou, Zhengyuan Wei, Haipeng Wang, and W.K. Chan(参考訳) パッチ堅牢性認証は、サンプル上の特定のバウンド内のパッチがディープラーニングモデルを操作して異なるラベルを予測することを保証します。 しかし、既存の技術では、分類器やパッチ領域レベルで厳格なバーを満たせないサンプルを検証できない。 本稿ではMajorCertを提案する。 MajorCertはまず、すべての可能なラベルセットを、下層の分類器で同じサンプルの同じパッチ領域で操作し、その組み合わせを要素的に列挙し、最後に、これらの組み合わせの大多数の不変量がサンプルを認証するためにそのままであるかどうかをチェックする。

Patch robustness certification ensures no patch within a given bound on a sample can manipulate a deep learning model to predict a different label. However, existing techniques cannot certify samples that cannot meet their strict bars at the classifier or patch region levels. This paper proposes MajorCert. MajorCert firstly finds all possible label sets manipulatable by the same patch region on the same sample across the underlying classifiers, then enumerates their combinations element-wise, and finally checks whether the majority invariant of all these combinations is intact to certify samples.
翻訳日:2023-09-08 16:27:42 公開日:2023-09-07
# 画像の高分解能化と個人化のための画素認識安定拡散

Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization ( http://arxiv.org/abs/2308.14469v2 )

ライセンス: Link先を確認
Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang(参考訳) リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。 一般的に用いられる対向訓練に基づくReal-ISR法は、不自然な視覚的アーティファクトを導入し、自然なシーン画像の現実的なテクスチャを生成するのに失敗することが多い。 最近開発された生成的安定拡散モデルは、事前学習された強い画像プリエントを持つ実isrの潜在的な解決策を提供する。 しかし、この線に沿った既存の手法は、忠実なピクセル単位での画像構造を維持するのに失敗するか、詳細を再現するために余分にスキップされた接続に頼るかのどちらかであり、画像空間における追加のトレーニングを必要とし、画像スタイライゼーションのような潜在空間における他の関連タスクへの拡張を制限する。 本研究では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。 具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。 ベース拡散モデルをパーソナライズしたモデルに置き換えるだけで,ペアワイズトレーニングデータの収集を必要とせず,多様なスタイライゼーション画像を生成することができる。 PASDは、安定拡散のような既存の拡散モデルに容易に統合できる。 実isrとパーソナライズされたスタイライゼーション実験は,提案手法の有効性を示す。 ソースコードとモデルは \url{https://github.com/yangxy/PASD} で見ることができる。

Realistic image super-resolution (Real-ISR) aims to reproduce perceptually realistic image details from a low-quality input. The commonly used adversarial training based Real-ISR methods often introduce unnatural visual artifacts and fail to generate realistic textures for natural scene images. The recently developed generative stable diffusion models provide a potential solution to Real-ISR with pre-learned strong image priors. However, the existing methods along this line either fail to keep faithful pixel-wise image structures or resort to extra skipped connections to reproduce details, which requires additional training in image space and limits their extension to other related tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR as well as personalized stylization. In specific, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. By simply replacing the base diffusion model with a personalized one, our method can generate diverse stylized images without the need to collect pairwise training data. PASD can be easily integrated into existing diffusion models such as Stable Diffusion. Experiments on Real-ISR and personalized stylization demonstrate the effectiveness of our proposed approach. The source code and models can be found at \url{https://github.com/yangxy/PASD}.
翻訳日:2023-09-08 16:19:24 公開日:2023-09-07
# editsum: ソースコード要約のための検索および編集フレームワーク

EditSum: A Retrieve-and-Edit Framework for Source Code Summarization ( http://arxiv.org/abs/2308.13775v2 )

ライセンス: Link先を確認
Jia Li, Yongmin Li, Ge Li, Xing Hu, Xin Xia, Zhi Jin(参考訳) 既存の研究によると、コード要約は開発者がソースコードを理解し維持するのに役立ちます。 残念ながら、これらの要約はソフトウェアプロジェクトで欠落したり時代遅れになったりすることが多い。 コード要約は、ソースコードのための自然言語記述を自動的に生成することを目的としている。 コード要約は高度に構造化され、反復的なパターンを持つ。 パターン化された単語の他に、コード要約には重要なキーワードが含まれており、コードの機能を反映するための鍵となる。 しかし、最先端のアプローチはキーワードの予測に乏しく、結果として生成された要約は情報不足に陥る。 この問題を軽減するために,コード要約のためのEditSumという新しい検索・編集手法を提案する。 具体的には、editsumは事前に定義されたコーパスから類似のコードスニペットを取得し、その要約をプロトタイプサマリとして扱い、パターンを学習する。 そして、EditSumがプロトタイプを自動的に編集し、プロトタイプのパターンと入力コードのセマンティック情報を組み合わせる。 私たちのモチベーションは、検索したプロトタイプがポストジェネレーションの出発点として優れたものであることです。 後編集処理は、プロトタイプのパターン化された単語をさらに再利用し、入力コードの意味情報に基づいてキーワードを生成する。 大規模なjavaコーパスで実験を行い,editsumが最先端のアプローチをかなり上回っていることを実験的に証明した。 人間の評価は、EditSumが生成した要約がより情報的で有用であることを証明している。 また、EditSumがパターン化された単語やキーワードの予測に有効であることを検証した。

Existing studies show that code summaries help developers understand and maintain source code. Unfortunately, these summaries are often missing or outdated in software projects. Code summarization aims to generate natural language descriptions automatically for source code. Code summaries are highly structured and have repetitive patterns. Besides the patternized words, a code summary also contains important keywords, which are the key to reflecting the functionality of the code. However, the state-of-the-art approaches perform poorly on predicting the keywords, which leads to the generated summaries suffering a loss in informativeness. To alleviate this problem, this paper proposes a novel retrieve-and-edit approach named EditSum for code summarization. Specifically, EditSum first retrieves a similar code snippet from a pre-defined corpus and treats its summary as a prototype summary to learn the pattern. Then, EditSum edits the prototype automatically to combine the pattern in the prototype with the semantic information of input code. Our motivation is that the retrieved prototype provides a good start-point for post-generation because the summaries of similar code snippets often have the same pattern. The post-editing process further reuses the patternized words in the prototype and generates keywords based on the semantic information of input code. We conduct experiments on a large-scale Java corpus and experimental results demonstrate that EditSum outperforms the state-of-the-art approaches by a substantial margin. The human evaluation also proves the summaries generated by EditSum are more informative and useful. We also verify that EditSum performs well on predicting the patternized words and keywords.
翻訳日:2023-09-08 16:18:56 公開日:2023-09-07
# zc3: ゼロショットのクロス言語コードクローン検出

ZC3: Zero-Shot Cross-Language Code Clone Detection ( http://arxiv.org/abs/2308.13754v2 )

ライセンス: Link先を確認
Jia Li, Chongyang Tao, Zhi Jin, Fang Liu, Jia Li, Ge Li(参考訳) 開発者はプログラミングの生産性を向上させるためにコードクローンを導入する。 既存の多くの研究はモノリンガルコードクローン検出において顕著な性能を達成した。 しかし、ソフトウェア開発の間、多くの開発者が異なる言語で意味論的に等価なプログラムを書き、異なるプラットフォームをサポートし、開発者がある言語から別の言語にプロジェクトを翻訳するのを手助けします。 言語間の並列データ収集、特に低リソース言語のための収集は高価で時間がかかり、並列データに依存しない効果的な言語横断モデルの設計が重要な問題である。 本稿では,ゼロショット言語コードクローン検出のためのZC3という新しい手法を提案する。 zc3は、異なるプログラミング言語間で同型表現空間を形成するために、対照的なスニペット予測を設計する。 これに基づいて、ZC3はドメイン認識学習とサイクル一貫性学習を活用して、異なる言語間で整合した表現を生成するためにモデルをさらに制約する。 このアプローチを評価するために,4つの代表的な言語間クローン検出データセットについて広範な実験を行った。 実験の結果、ZC3は最先端のベースラインを67.12%、51.39%、14.85%、そして53.01%でそれぞれ上回った。 異なる言語の表現分布についても検討し,本手法の有効性について考察する。

Developers introduce code clones to improve programming productivity. Many existing studies have achieved impressive performance in monolingual code clone detection. However, during software development, more and more developers write semantically equivalent programs with different languages to support different platforms and help developers translate projects from one language to another. Considering that collecting cross-language parallel data, especially for low-resource languages, is expensive and time-consuming, how designing an effective cross-language model that does not rely on any parallel data is a significant problem. In this paper, we propose a novel method named ZC3 for Zero-shot Cross-language Code Clone detection. ZC3 designs the contrastive snippet prediction to form an isomorphic representation space among different programming languages. Based on this, ZC3 exploits domain-aware learning and cycle consistency learning to further constrain the model to generate representations that are aligned among different languages meanwhile are diacritical for different types of clones. To evaluate our approach, we conduct extensive experiments on four representative cross-language clone detection datasets. Experimental results show that ZC3 outperforms the state-of-the-art baselines by 67.12%, 51.39%, 14.85%, and 53.01% on the MAP score, respectively. We further investigate the representational distribution of different languages and discuss the effectiveness of our method.
翻訳日:2023-09-08 16:18:31 公開日:2023-09-07
# AtmoRep:大規模表現学習を用いた大気力学の確率モデル

AtmoRep: A stochastic model of atmosphere dynamics using large scale representation learning ( http://arxiv.org/abs/2308.13280v2 )

ライセンス: Link先を確認
Christian Lessig, Ilaria Luise, Bing Gong, Michael Langguth, Scarlet Stadler, Martin Schultz(参考訳) 大気は、悪天候による生命の喪失から社会への長期的な社会的・経済的影響まで、様々な方法で人間に影響を与える。 したがって、大気力学のコンピュータシミュレーションは、私たちと将来の世代の幸福にとって非常に重要である。 そこで本稿では,atmorep を提案する。atmorep はタスクに依存しない新しい大気力学の確率的計算機モデルで,幅広い応用に熟練した結果をもたらす。 atmorepは、人工知能による大規模な表現学習を用いて、観測によって制約されたシステムの歴史的軌道の最良の推定値から、大気の高度に複雑で確率的なダイナミクスの一般的な記述を決定する。 これは、新しい自己教師型学習目標と、歴史記録に記載された変動性を持つ確率モデルからサンプルをサンプリングするユニークなアンサンブルによって実現されている。 AtmoRepのタスク非依存性は、特定のトレーニングをせずに様々なアプリケーションに対して巧妙な結果を得られる。 また、AtmoRepはレーダー観測などの追加データで改善可能であり、ダウンスケーリングのようなタスクにも拡張可能であることも示している。 我々の研究は、大規模ニューラルネットワークが大気力学の巧妙でタスクに依存しないモデルを提供できることを証明している。 これにより、大気観測の膨大な記録を応用や科学的調査に利用し、第一原理に基づく既存のシミュレーションを補完する新しい手段が提供される。

The atmosphere affects humans in a multitude of ways, from loss of life due to adverse weather effects to long-term social and economic impacts on societies. Computer simulations of atmospheric dynamics are, therefore, of great importance for the well-being of our and future generations. Here, we propose AtmoRep, a novel, task-independent stochastic computer model of atmospheric dynamics that can provide skillful results for a wide range of applications. AtmoRep uses large-scale representation learning from artificial intelligence to determine a general description of the highly complex, stochastic dynamics of the atmosphere from the best available estimate of the system's historical trajectory as constrained by observations. This is enabled by a novel self-supervised learning objective and a unique ensemble that samples from the stochastic model with a variability informed by the one in the historical record. The task-independent nature of AtmoRep enables skillful results for a diverse set of applications without specifically training for them and we demonstrate this for nowcasting, temporal interpolation, model correction, and counterfactuals. We also show that AtmoRep can be improved with additional data, for example radar observations, and that it can be extended to tasks such as downscaling. Our work establishes that large-scale neural networks can provide skillful, task-independent models of atmospheric dynamics. With this, they provide a novel means to make the large record of atmospheric observations accessible for applications and for scientific inquiry, complementing existing simulations based on first principles.
翻訳日:2023-09-08 16:18:10 公開日:2023-09-07
# Halo: オープンソースの弱言語モデルにおける幻覚の推定と削減

Halo: Estimation and Reduction of Hallucinations in Open-Source Weak Large Language Models ( http://arxiv.org/abs/2308.11764v3 )

ライセンス: Link先を確認
Mohamed Elaraby, Mengyin Lu, Jacob Dunn, Xueying Zhang, Yu Wang, Shizhu Liu, Pingchuan Tian, Yuping Wang, Yuxuan Wang(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした。 研究や実用化には便利だが、パラメータが少ないオープンソースのLLMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。 本稿では,研究用および商用用として公開されている,より弱いオープンソースLLMの代表であるBLOOM 7Bの幻覚の測定と低減に焦点をあてる。 我々は,LLMにおける幻覚の重症度を定量化する軽量なブラックボックス知識フリーフレームワークであるHaloCheckを紹介する。 さらに,低パラメータLDMにおける幻覚を軽減するための知識注入や教師の指導的アプローチなどの手法についても検討する。 本実験は,これらのLSMに対する挑戦領域における幻覚の減少を効果的に示すものである。

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP). Although convenient for research and practical applications, open-source LLMs with fewer parameters often suffer from severe hallucinations compared to their larger counterparts. This paper focuses on measuring and reducing hallucinations in BLOOM 7B, a representative of such weaker open-source LLMs that are publicly available for research and commercial applications. We introduce HaloCheck, a lightweight BlackBox knowledge-free framework designed to quantify the severity of hallucinations in LLMs. Additionally, we explore techniques like knowledge injection and teacher-student approaches to alleviate hallucinations in low-parameter LLMs. Our experiments effectively demonstrate the reduction of hallucinations in challenging domains for these LLMs.
翻訳日:2023-09-08 16:17:48 公開日:2023-09-07
# 大規模言語モデルに基づく自律エージェントに関する調査

A Survey on Large Language Model based Autonomous Agents ( http://arxiv.org/abs/2308.11432v2 )

ライセンス: Link先を確認
Lei Wang and Chen Ma and Xueyang Feng and Zeyu Zhang and Hao Yang and Jingsen Zhang and Zhiyuan Chen and Jiakai Tang and Xu Chen and Yankai Lin and Wayne Xin Zhao and Zhewei Wei and Ji-Rong Wen(参考訳) 自律エージェントは長い間、学術コミュニティと産業コミュニティの両方で重要な研究対象であった。 この分野での以前の研究は、しばしば孤立した環境の中で限られた知識を持つ訓練エージェントに焦点を当てており、それは人間の学習プロセスと大きく異なるため、エージェントが人間のような決定を下すのを困難にしている。 近年,膨大な量のWeb知識の獲得により,人間レベルの知能を実現する上で,大きな言語モデル(LLM)が顕著な可能性を示している。 LLMをベースとした自律型エージェントの研究が急増した。 本稿では,これらの研究の包括的調査を行い,総合的な観点からllmベースの自律エージェントの分野を体系的に検討する。 より具体的には、LLMに基づく自律エージェントの構築について論じ、前回の作業の大部分を包含する統一的なフレームワークを提案する。 次に,社会科学,自然科学,工学の分野におけるllmに基づく自律エージェントの多様な応用について概観する。 最後に、llmベースの自律エージェントで一般的に使用される評価戦略について考察する。 本研究は,本分野における課題と今後の方向性についても述べる。 このフィールドを追跡し、調査を継続的に更新するために、関連する参照のリポジトリをhttps://github.com/paitesanshi/llm-agent-surveyに保持します。

Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from human learning processes, and thus makes the agents hard to achieve human-like decisions. Recently, through the acquisition of vast amounts of web knowledge, large language models (LLMs) have demonstrated remarkable potential in achieving human-level intelligence. This has sparked an upsurge in studies investigating LLM-based autonomous agents. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of the field of LLM-based autonomous agents from a holistic perspective. More specifically, we first discuss the construction of LLM-based autonomous agents, for which we propose a unified framework that encompasses a majority of the previous work. Then, we present a comprehensive overview of the diverse applications of LLM-based autonomous agents in the fields of social science, natural science, and engineering. Finally, we delve into the evaluation strategies commonly used for LLM-based autonomous agents. Based on the previous studies, we also present several challenges and future directions in this field. To keep track of this field and continuously update our survey, we maintain a repository of relevant references at https://github.com/Paitesanshi/LLM-Agent-Survey.
翻訳日:2023-09-08 16:17:38 公開日:2023-09-07
# 雑音光物理関数学習のための多項式境界と誤り学習との関連

Polynomial Bounds for Learning Noisy Optical Physical Unclonable Functions and Connections to Learning With Errors ( http://arxiv.org/abs/2308.09199v2 )

ライセンス: Link先を確認
Apollo Albright, Boris Gelfand, Michael Dixon(参考訳) 雑音の存在下でも任意の確率で任意の精度で光学的物理的非拘束関数(PUF)のクラスを学習できることが示され、ノイズとチャレンジベクトルの分布に関する軽度な仮定の下で、多項式的に多くのチャレンジ応答対と多項式有界な計算パワーへのアクセスが与えられる。 これはRh\"uramir et al. (2013) の結果を拡張し、PUFの光学系が線形あるいは無視可能な非線形効果を持つという仮定の下で、このタイプのPUFのサブセットはノイズのない多項式時間で学習可能であることを示した。 そこで本研究では,pufのサイズパラメータ,課題と雑音ベクトルの分布,回帰アルゴリズムの確率と精度に基づいて,線形回帰アルゴリズムの所要数の多項式境界と計算複雑性を導出する。

It is shown that a class of optical physical unclonable functions (PUFs) can be learned to arbitrary precision with arbitrarily high probability, even in the presence of noise, given access to polynomially many challenge-response pairs and polynomially bounded computational power, under mild assumptions about the distributions of the noise and challenge vectors. This extends the results of Rh\"uramir et al. (2013), who showed a subset of this class of PUFs to be learnable in polynomial time in the absence of noise, under the assumption that the optics of the PUF were either linear or had negligible nonlinear effects. We derive polynomial bounds for the required number of samples and the computational complexity of a linear regression algorithm, based on size parameters of the PUF, the distributions of the challenge and noise vectors, and the probability and accuracy of the regression algorithm, with a similar analysis to one done by Bootle et al. (2018), who demonstrated a learning attack on a poorly implemented version of the Learning With Errors problem.
翻訳日:2023-09-08 16:17:02 公開日:2023-09-07
# RatGPT:オンラインLLMをマルウェア攻撃のプロキシに変える

RatGPT: Turning online LLMs into Proxies for Malware Attacks ( http://arxiv.org/abs/2308.09183v2 )

ライセンス: Link先を確認
Mika Beckerich, Laura Plein, Sergio Coronado(参考訳) 生成型aiの進化と新しくリリースされた大言語モデル(llm)の能力は、ソフトウェア工学における新たな機会を開く。 しかし、サイバーセキュリティの新たな課題にも繋がる。 最近、研究者はChatGPTのようなLSMを使って、直接悪用したり、経験の浅いハッカーを誘導してツールやコードを武器化する悪意のあるコンテンツを生成する可能性を示した。 これらの研究は、攻撃者がループの真ん中にいる必要があるシナリオをカバーした。 本研究では,オープンなプラグインを活用し,LLMを攻撃者と被害者の間のプロキシとして利用する。 本稿では,ChatGPTを悪質なソフトウェアの普及に利用し,検出を回避し,コマンド・コントロール(C2)サーバへの通信を確立し,被害者のシステムと対話するコマンドを受信する概念実証を行う。 最後に,検出されていない状態で攻撃を成功させるために,一般的なアプローチと必須要素を提示する。 この概念実証は、公開可能なプラグインとLLMによる重要なサイバーセキュリティ問題を強調しており、セキュリティガイドライン、コントロール、緩和戦略の開発が必要である。

The evolution of Generative AI and the capabilities of the newly released Large Language Models (LLMs) open new opportunities in software engineering. However, they also lead to new challenges in cybersecurity. Recently, researchers have shown the possibilities of using LLMs such as ChatGPT to generate malicious content that can directly be exploited or guide inexperienced hackers to weaponize tools and code. These studies covered scenarios that still require the attacker to be in the middle of the loop. In this study, we leverage openly available plugins and use an LLM as proxy between the attacker and the victim. We deliver a proof-of-concept where ChatGPT is used for the dissemination of malicious software while evading detection, alongside establishing the communication to a command and control (C2) server to receive commands to interact with a victim's system. Finally, we present the general approach as well as essential elements in order to stay undetected and make the attack a success. This proof-of-concept highlights significant cybersecurity issues with openly available plugins and LLMs, which require the development of security guidelines, controls, and mitigation strategies.
翻訳日:2023-09-08 16:16:42 公開日:2023-09-07
# 味を学習する:マルチモーダルワインデータセット

Learning to Taste: A Multimodal Wine Dataset ( http://arxiv.org/abs/2308.16900v2 )

ライセンス: Link先を確認
Thoranna Bender, Simon Moe S{\o}rensen, Alireza Kashani, K. Eldjarn Hjorleifsson, Grethe Hyldig, S{\o}ren Hauberg, Serge Belongie and Frederik Warburg(参考訳) 我々は,視覚知覚,言語,風味の関係を研究するための大規模マルチモーダルワインデータセットである winesensed を提案する。 データセットには、ワインラベルの897k画像と、ヴィヴィノプラットフォームから収集されたワインの824kレビューが含まれている。 年間、地域、格付け、アルコール度数、価格、ブドウの組成でアノテートされた350k以上のユニークなビンテージを持つ。 味覚の類似性に基づいてワインのランク付けを依頼された256人の被験者を対象に, ワイン味覚実験を行い, 5k以上の香味距離が得られた。 人間の経験と自動機械類似性カーネルを組み合わせた低次元概念埋め込みアルゴリズムを提案する。 この共有概念埋め込み空間は,粗いフレーバー分類(アルコールパーセンテージ,国,ブドウ,価格,レーティング)のための別個の埋め込み空間を改良し,複雑なフレーバーの人間知覚に適合することを示す。

We present WineSensed, a large multimodal wine dataset for studying the relations between visual perception, language, and flavor. The dataset encompasses 897k images of wine labels and 824k reviews of wines curated from the Vivino platform. It has over 350k unique vintages, annotated with year, region, rating, alcohol percentage, price, and grape composition. We obtained fine-grained flavor annotations on a subset by conducting a wine-tasting experiment with 256 participants who were asked to rank wines based on their similarity in flavor, resulting in more than 5k pairwise flavor distances. We propose a low-dimensional concept embedding algorithm that combines human experience with automatic machine similarity kernels. We demonstrate that this shared concept embedding space improves upon separate embedding spaces for coarse flavor classification (alcohol percentage, country, grape, price, rating) and aligns with the intricate human perception of flavor.
翻訳日:2023-09-08 16:11:04 公開日:2023-09-07
# サポートベクターマシンとしてのトランスフォーマー

Transformers as Support Vector Machines ( http://arxiv.org/abs/2308.16898v2 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Yingcong Li, Christos Thrampoulidis, Samet Oymak(参考訳) Attention Is All You Need"の発端から、トランスフォーマーアーキテクチャはNLPの革命的な進歩につながっている。 変換器内のアテンション層は入力トークンのシーケンスを$X$として、Softmax$(XQK^\top X^\top)$として計算されたペアの類似性を通じて相互作用させる。 本研究では,トークンペアの外積に対する線形制約を用いた最適入力トークンと最適入力トークンを分離する,自己アテンションの最適化手法とハードマージンSVM問題との形式的等価性を確立する。 この定式化により、勾配降下に最適化された1層トランスフォーマーの暗黙バイアスを特徴づけることができる: 1) パラメータを$(K,Q)$でパラメータ化した注意層を、組み合わせたパラメータ$W=KQ^\top$の核ノルムを最小化するSVMソリューションに収束させる。 その代わり、$W$による直接パラメータ化はフロベニウスノルムの目的を最小化する。 我々はこの収束を特徴付け、グローバルな方向ではなく、局所的な最適方向に向けて起こることを強調した。 2) これの補足として, 幾何条件下での勾配降下の局所的・言語的方向収束を証明した。 さらに, 過パラメータ化はsvm問題の実現可能性を確保し, 静止点のない良性最適化景観を保証し, 大域的収束を触媒することを示す。 3) この理論は主に線形予測ヘッドに適用できるが, 非線形ヘッドによる暗黙バイアスを予測するより一般的なsvm等価性を提案する。 本研究は任意のデータセットに適用でき,その妥当性を実験により検証する。 オープンな問題や研究の方向性も紹介する。 これらの発見は、最適なトークンを分離し、選択するSVMの階層としてのトランスフォーマーの解釈を促していると信じている。

Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax$(XQK^\top X^\top)$, where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
翻訳日:2023-09-08 16:10:47 公開日:2023-09-07
# Ladder-of-Thought:知識をスタンス検出のステップとして使う

Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection ( http://arxiv.org/abs/2308.16763v2 )

ライセンス: Link先を確認
Kairui Hu, Ming Yan, Joey Tianyi Zhou, Ivor W. Tsang, Wen Haw Chong, Yong Keong Yap(参考訳) スタンス検出は、文書に示される目標に対する態度を特定することを目的としている。 CoT(Chain-of-Thought)のような手法は、中間的論理の導出を通じてモデルの推論能力を向上し、この課題を推し進めている。 しかし、CoTは主に推論中のモデルの事前訓練された内部知識に依存しているため、これまでモデルに知られていなかった貴重な外部情報を無視している。 この省略、特に教師なしの推論プロセス内では、モデル全体のパフォーマンスに影響を与える可能性がある。 さらに、CoTはLarge Language Models (LLMs)を強化しているが、より小さなLMは効率的に運用されているものの、ニュアンスな推論を実現する上での課題に直面している。 これらのギャップに応答して、姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 デュアルフェーズプログレッシブ最適化フレームワークを通じて構築されたLoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を洗練させる。 これらの確固たる合理性は、その後、より正確な予測の基礎となる。 LoTは効率と性能のバランスをとる。 実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。

Stance detection aims to identify the attitude expressed in a document towards a given target. Techniques such as Chain-of-Thought (CoT) prompting have advanced this task, enhancing a model's reasoning capabilities through the derivation of intermediate rationales. However, CoT relies primarily on a model's pre-trained internal knowledge during reasoning, thereby neglecting the valuable external information that is previously unknown to the model. This omission, especially within the unsupervised reasoning process, can affect the model's overall performance. Moreover, while CoT enhances Large Language Models (LLMs), smaller LMs, though efficient operationally, face challenges in delivering nuanced reasoning. In response to these identified gaps, we introduce the Ladder-of-Thought (LoT) for the stance detection task. Constructed through a dual-phase Progressive Optimization Framework, LoT directs the small LMs to assimilate high-quality external knowledge, refining the intermediate rationales produced. These bolstered rationales subsequently serve as the foundation for more precise predictions - akin to how a ladder facilitates reaching elevated goals. LoT achieves a balance between efficiency and performance. Our empirical evaluations underscore LoT's efficacy, marking a 16% improvement over GPT-3.5 and a 10% enhancement compared to GPT-3.5 with CoT on stance detection task.
翻訳日:2023-09-08 16:10:13 公開日:2023-09-07
# EmojiがGitHubの開発者参加と課題解決を推進

Emoji Promotes Developer Participation and Issue Resolution on GitHub ( http://arxiv.org/abs/2308.16360v2 )

ライセンス: Link先を確認
Yuhang Zhou, Xuan Lu, Ge Gao, Qiaozhu Mei, Wei Ai(参考訳) パンデミックの間、リモートワークはますます採用されているが、多くはリモートワークの低効率を懸念している。 テキストベースのコミュニケーションの欠如は、表情やボディランゲージのような非言語的な手がかりであり、効果的なコミュニケーションを妨げるとともに、作業結果に悪影響を及ぼす。 ソーシャルメディアプラットフォームで普及している絵文字は、言語以外の代替手段として、バーチャルワークスペースでも人気を集めている。 本稿では,絵文字利用が仮想ワークスペースにおける開発者の参加や課題解決にどのように影響するかを検討する。 この目的のために、GitHubの課題を1年間収集し、絵文字の因果効果を測定するために因果推論手法を適用し、イシューコンテンツ、リポジトリ、著者情報などの共同設立者を制御する。 絵文字は問題の解決時間を大幅に削減し、より多くのユーザーを惹きつけることができる。 また、異なる種類の問題に対する異種の影響も比較する。 これらの発見は開発者コミュニティの理解を深め、インタラクションの促進と開発者参加の拡大に関する設計上の意味合いを提供します。

Although remote working is increasingly adopted during the pandemic, many are concerned by the low-efficiency in the remote working. Missing in text-based communication are non-verbal cues such as facial expressions and body language, which hinders the effective communication and negatively impacts the work outcomes. Prevalent on social media platforms, emojis, as alternative non-verbal cues, are gaining popularity in the virtual workspaces well. In this paper, we study how emoji usage influences developer participation and issue resolution in virtual workspaces. To this end, we collect GitHub issues for a one-year period and apply causal inference techniques to measure the causal effect of emojis on the outcome of issues, controlling for confounders such as issue content, repository, and author information. We find that emojis can significantly reduce the resolution time of issues and attract more user participation. We also compare the heterogeneous effect on different types of issues. These findings deepen our understanding of the developer communities, and they provide design implications on how to facilitate interactions and broaden developer participation.
翻訳日:2023-09-08 16:09:51 公開日:2023-09-07
# ディープビデオコーデック制御

Deep Video Codec Control ( http://arxiv.org/abs/2308.16215v3 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Srimat Chakradhar(参考訳) 損失のあるビデオ圧縮は、ビデオデータの転送と保存によく使用される。 H.264やH.265のような統一ビデオコーデックは、高度な(神経的な)圧縮アプローチが可能であるにもかかわらず、デファクトスタンダードのままである。 動的ネットワーク帯域幅の条件で動画を送信するには、ビデオコーデックが全く異なる圧縮強度に適応する必要がある。 レート制御モジュールはコーデックの圧縮を増大させ、帯域制限が満たされ、ビデオ歪みが最小化される。 ビデオコードとそのレート制御モジュールは、人間の品質評価の歪みを最小限に抑えるために開発されたが、ディープビジョンモデルの下流性能は考慮されていない。 本稿では,既存の規格を破ることなく,帯域制限とダウンストリーム視覚性能の両方を考慮した,エンドツーエンドで学習可能なディープビデオコーデック制御を提案する。 我々は2つの共通ビジョンタスク(セマンティックセグメンテーションと光フロー推定)と2つの異なるデータセットに対して、ダイナミックな帯域幅制約を満たし、標準化に固執しながら、2パス平均ビットレート制御を使用するよりも、より深いコーデック制御の方が下流のパフォーマンスを良く維持できることを示す。

Lossy video compression is commonly used when transmitting and storing video data. Unified video codecs (e.g., H.264 or H.265) remain the de facto standard, despite the availability of advanced (neural) compression approaches. Transmitting videos in the face of dynamic network bandwidth conditions requires video codecs to adapt to vastly different compression strengths. Rate control modules augment the codec's compression such that bandwidth constraints are satisfied and video distortion is minimized. While, both standard video codes and their rate control modules are developed to minimize video distortion w.r.t. human quality assessment, preserving the downstream performance of deep vision models is not considered. In this paper, we present the first end-to-end learnable deep video codec control considering both bandwidth constraints and downstream vision performance, while not breaking existing standardization. We demonstrate for two common vision tasks (semantic segmentation and optical flow estimation) and on two different datasets that our deep codec control better preserves downstream performance than using 2-pass average bit rate control while meeting dynamic bandwidth constraints and adhering to standardizations.
翻訳日:2023-09-08 16:09:33 公開日:2023-09-07
# LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v3 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。 これらのllmはますます複雑なタスクにデプロイされるため、より長い推論プロセスやより大きなコンテキストを理解する必要性に直面することが多い。 これらの状況下では、長い列上のLLMの長さ一般化失敗がより顕著になる。 ほとんどの事前訓練は、トレーニングシーケンスを一定長さに切り詰める。 LLMは、この問題に対処するために設計された相対的な位置エンコーディングでさえも、より長いコンテキストの後に下流のタスクを実行することは言うまでもなく、流動的で一貫性のあるテキストを生成するのに苦労する。 長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアと時間のコストを悩ませ、注意深くトレーニングプロセス設計を必要とする。 既存のLCMの生成能力をより効率的に活用するため,本問題に寄与する主要なアウト・オブ・ディストリビューション(OOD)要因を理論的・実験的に検討した。 この診断にインスパイアされた本研究では,オンザフライ長一般化のための単純かつ効果的な解であるLM-Infiniteを提案する。 これはパラメータ更新や学習を必要とせず、$\lambda$型のアテンションマスク(過剰な出席トークンを避けるため)と距離制限(見えない距離を避けるため)のみを含む。 相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算的に効率的であり、ArXivとOpenWebText2データセットで32kトークンの一貫性のあるテキスト生成率と品質を示し、2.72倍のデコード速度を持つ。 パスキー検索などの下流タスクでは、バニラモデルが即座に失敗するトレーニング長よりもずっと長い入力が処理される。

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex tasks, they often face the need to conduct longer reasoning processes or understand larger contexts. In these situations, the length generalization failure of LLMs on long sequences becomes more prominent. Most pre-training schemes truncate training sequences to a fixed length. LLMs often struggle to generate fluent and coherent texts, let alone carry out downstream tasks, after longer contexts, even with relative positional encoding designed to cope with this problem. Common solutions such as finetuning on longer corpora often involve daunting hardware and time costs and require careful training process design. To more efficiently leverage the generation capacity of existing LLMs, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite. It involves only a $\Lambda$-shaped attention mask (to avoid excessive attended tokens) and a distance limit (to avoid unseen distances) while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computationally efficient with $O(n)$ time and space, and demonstrates consistent text generation fluency and quality to as long as 32k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. On downstream tasks such as passkey retrieval, it continues to work on inputs much longer than training lengths where vanilla models fail immediately.
翻訳日:2023-09-08 16:09:10 公開日:2023-09-07
# DDMからDNNへ:プロセスデータと意思決定モデルを用いて人間とAIのインタラクションを改善する

From DDMs to DNNs: Using process data and models of decision-making to improve human-AI interactions ( http://arxiv.org/abs/2308.15225v2 )

ライセンス: Link先を確認
Mrugsen Nagsen Gopnarayan, Jaan Aru, Sebastian Gluth(参考訳) 過去数十年にわたり、認知神経科学者や行動経済学者は意思決定の過程を詳細に記述し、時間とともに意思決定の出現をモデル化する価値を認識してきた。 例えば、決定に要する時間は、決定そのものだけでなく、エージェントの真の隠れた好みを明らかにすることができる。 同様に、眼球運動や神経記録などの進行中の意思決定プロセスを追跡するデータは、決定が下されても、悪用できる重要な情報を含んでいる。 ここでは、人工知能(AI)の研究は、意思決定が時間とともにどのように現れるかについての洞察に強く焦点を合わせ、関連するプロセスデータを組み込んで、AIの予測を全般的および人間とAIのインタラクションで改善するのに役立つと論じる。 まず, ノイズの蓄積による決定を前提とした高度に確立された計算枠組みを導入し, 心理学, 神経科学, 経済学における実証研究を紹介する。 次に、マルチエージェントAIにおける現在のアプローチが、プロセスデータや意思決定のモデルをどの程度取り入れているかについて議論する。 最後に、AIのトレーニングと使用にエビデンス蓄積フレームワークをもっと原則的に組み込むことが、将来的には人間とAIのインタラクションを改善するのにどのように役立つかを概説する。

Over the past decades, cognitive neuroscientists and behavioral economists have recognized the value of describing the process of decision making in detail and modeling the emergence of decisions over time. For example, the time it takes to decide can reveal more about an agent's true hidden preferences than only the decision itself. Similarly, data that track the ongoing decision process such as eye movements or neural recordings contain critical information that can be exploited, even if no decision is made. Here, we argue that artificial intelligence (AI) research would benefit from a stronger focus on insights about how decisions emerge over time and incorporate related process data to improve AI predictions in general and human-AI interactions in particular. First, we introduce a highly established computational framework that assumes decisions to emerge from the noisy accumulation of evidence, and we present related empirical work in psychology, neuroscience, and economics. Next, we discuss to what extent current approaches in multi-agent AI do or do not incorporate process data and models of decision making. Finally, we outline how a more principled inclusion of the evidence-accumulation framework into the training and use of AI can help to improve human-AI interactions in the future.
翻訳日:2023-09-08 16:08:13 公開日:2023-09-07
# 多変量時系列分類のための説明法の評価

Evaluating Explanation Methods for Multivariate Time Series Classification ( http://arxiv.org/abs/2308.15223v2 )

ライセンス: Link先を確認
Davide Italo Serramazza, Thu Trang Nguyen, Thach Le Nguyen, Georgiana Ifrim(参考訳) 多変量時系列分類は、データが時間と複数のチャンネルにまたがって記録されるアプリケーションにおいて重要な計算タスクである。 例えば、スマートウォッチは人の動きの加速度と方向を記録し、これらの信号は多変量時系列として記録される。 このデータを分類することで、人間の動きやフィットネスレベルなどの様々な特性を理解し予測することができる。 多くのアプリケーションでは、分類だけでは十分ではなく、モデルが何を学ぶかを分類すると同時に理解する必要があります(例えば、データ内の情報に基づいて、なぜ予測が与えられたのか)。 本稿では,多変量時系列分類(MTSC)に適した説明手法の分析と評価に焦点をあてる。 我々は,分類決定に最も関係のあるチャネルと時系列を指摘できる,塩分に基づく説明手法に注目した。 我々は,人気かつ正確な時系列分類器であるROCKETとdResNetと,SHAPとdCAMの2つを解析した。 これらの手法を3つの合成データセットと2つの実世界のデータセットで検討し,説明の量的・質的分析を行う。 チャネルの連結による多変量データセットのフラット化は,マルチ変量分類器を直接使用するだけでなく,mtscへのshapの適応も良好であることがわかった。 さらに、私たちが使用した一般的な合成データセットは時系列解析には適さないこともわかりました。

Multivariate time series classification is an important computational task arising in applications where data is recorded over time and over multiple channels. For example, a smartwatch can record the acceleration and orientation of a person's motion, and these signals are recorded as multivariate time series. We can classify this data to understand and predict human movement and various properties such as fitness levels. In many applications classification alone is not enough, we often need to classify but also understand what the model learns (e.g., why was a prediction given, based on what information in the data). The main focus of this paper is on analysing and evaluating explanation methods tailored to Multivariate Time Series Classification (MTSC). We focus on saliency-based explanation methods that can point out the most relevant channels and time series points for the classification decision. We analyse two popular and accurate multivariate time series classifiers, ROCKET and dResNet, as well as two popular explanation methods, SHAP and dCAM. We study these methods on 3 synthetic datasets and 2 real-world datasets and provide a quantitative and qualitative analysis of the explanations provided. We find that flattening the multivariate datasets by concatenating the channels works as well as using multivariate classifiers directly and adaptations of SHAP for MTSC work quite well. Additionally, we also find that the popular synthetic datasets we used are not suitable for time series analysis.
翻訳日:2023-09-08 16:07:48 公開日:2023-09-07
# 複合型メタラーニングによるタンパク質シミュレータの精密調整

Mixup-Augmented Meta-Learning for Sample-Efficient Fine-Tuning of Protein Simulators ( http://arxiv.org/abs/2308.15116v2 )

ライセンス: Link先を確認
Jingbang Chen, Yian Wang, Xingwei Qu, Shuangjia Zheng, Yaodong Yang, Hao Dong, Jie Fu(参考訳) 分子動力学シミュレーションは生体分子の研究の基本的な道具として登場した。 同時に、分子が変動可能な様々な条件下で粒子の集合のシミュレーションを行うことが望ましい。 本稿では,分子動力学の課題に対してソフトプロンプトに基づく学習法を探索し,適応する。 私たちのモデルは、限られたトレーニングデータを使用して、未発見の分散シナリオに著しく一般化することができます。 我々の研究は、テストケースとしての温度に焦点を当てているが、我々のアプローチの汎用性は、圧力や体積などの連続的な動的条件を通した効率的なシミュレーションを可能にする。 枠組みには2つの段階があります 1)データミキシング技術による事前学習を行い,分子構造データと温度プロンプトを増強し,その比率をスムーズに増やしカリキュラム学習法を適用する。 2) メタラーニングに基づくファインチューニングフレームワークは, ファインチューニングプロセスのサンプル効率を向上し, ソフト・プロンプトチューニングを向上する。 包括的実験により,本フレームワークはドメイン内データの精度を向上し,未知および分布外サンプルの強力な一般化能力を示した。

Molecular dynamics simulations have emerged as a fundamental instrument for studying biomolecules. At the same time, it is desirable to perform simulations of a collection of particles under various conditions in which the molecules can fluctuate. In this paper, we explore and adapt the soft prompt-based learning method to molecular dynamics tasks. Our model can remarkably generalize to unseen and out-of-distribution scenarios with limited training data. While our work focuses on temperature as a test case, the versatility of our approach allows for efficient simulation through any continuous dynamic conditions, such as pressure and volumes. Our framework has two stages: 1) Pre-trains with data mixing technique, augments molecular structure data and temperature prompts, then applies a curriculum learning method by increasing the ratio of them smoothly. 2) Meta-learning-based fine-tuning framework improves sample-efficiency of fine-tuning process and gives the soft prompt-tuning better initialization points. Comprehensive experiments reveal that our framework excels in accuracy for in-domain data and demonstrates strong generalization capabilities for unseen and out-of-distribution samples.
翻訳日:2023-09-08 16:07:24 公開日:2023-09-07
# 修正分散関係の宇宙論的複雑性

Cosmological complexity of the modified dispersion relation ( http://arxiv.org/abs/2309.01595v2 )

ライセンス: Link先を確認
Tao Li, Lei-Hua Liu(参考訳) 複雑性は高エネルギー物理学においてますます不可欠になるだろう。 自然に非常に初期の宇宙に拡張される。 宇宙を量子カオス系として考えると、スカラー場の曲率摂動は2モードの圧縮状態と同一視される。 Schr$\ddot{o}$dinger 方程式を解くことで、角度パラメータとスキーズパラメータの数値解を得ることができる。 スクイーズパラメータの解は、主に複雑性の進化を決定する。 我々の数値は、修正された分散関係の複雑さが地平線が出てから非線形パターンを持つことを示している。 一方、対応するリャプノフ指数は標準の場合よりも大きい。 インフレーション期間の間、複雑さは不規則に振動し、スクランブル時間も標準の場合よりも短くなる。 修正された分散関係は、量子重力の様々な枠組みの結果と称されるので、これらの枠組みに適用することができる。 最後に、量子重力の枠組みは、様々なインフレーションモデルの区別を導く複雑性の実りある進化をもたらすと期待できる。

Complexity will be more and more essential in high-energy physics. It is naturally extended into the very early universe. Considering the universe as a quantum chaotic system, the curvature perturbation of the scalar field is identified with the two-mode squeezed state. By solving the Schr$\ddot{o}$dinger equation, one can obtain the numerical solutions of the angle parameter and squeezing parameter. The solution of the squeezing parameter mainly determines the evolution of complexity. Our numeric indicates that the complexity of the modified dispersion relation will have a non-linear pattern after the horizon exits. Meanwhile, its corresponding Lyapunov index is also larger compared with the standard case. During the inflationary period, the complexity will irregularly oscillate and its scrambling time is also shorter compared with the standard case. Since the modified dispersion relation can be dubbed as the consequences of various frameworks of quantum gravity, it could be applicable to these frameworks. Finally, one can expect the framework of quantum gravity will lead to the fruitful evolution of complexity, which guides us in distinguishing various inflationary models.
翻訳日:2023-09-08 16:00:19 公開日:2023-09-07
# 顔認証における視覚的品質改善と対向的攻撃の伝達性

Improving Visual Quality and Transferability of Adversarial Attacks on Face Recognition Simultaneously with Adversarial Restoration ( http://arxiv.org/abs/2309.01582v2 )

ライセンス: Link先を確認
Fengfan Zhou, Hefei Ling, Yuxuan Shi, Jiazhong Chen, Ping Li(参考訳) 敵対的な顔の例は2つの重要な特性を持っている。 しかし、既存のアプローチではこれらの特性を同時に扱うことはめったにない。 そこで本研究では, 顔の復元に先立って活用することで, 顔の視覚的品質と伝達性を高めるadvrestore (adversarial restoration) と呼ばれる新しい攻撃手法を提案する。 本手法では,顔の復元を目的としたリカバリ潜在拡散モデル(RLDM)を訓練する。 次に、RLDMの推論プロセスを用いて、対向顔例を生成する。 RLDMの中間特性に逆方向の摂動を適用した。 さらに、RLDM顔復元を兄弟タスクとして扱うことにより、生成した対向顔例の転送性をさらに向上する。 提案手法の有効性を実験的に検証した。

Adversarial face examples possess two critical properties: Visual Quality and Transferability. However, existing approaches rarely address these properties simultaneously, leading to subpar results. To address this issue, we propose a novel adversarial attack technique known as Adversarial Restoration (AdvRestore), which enhances both visual quality and transferability of adversarial face examples by leveraging a face restoration prior. In our approach, we initially train a Restoration Latent Diffusion Model (RLDM) designed for face restoration. Subsequently, we employ the inference process of RLDM to generate adversarial face examples. The adversarial perturbations are applied to the intermediate features of RLDM. Additionally, by treating RLDM face restoration as a sibling task, the transferability of the generated adversarial face examples is further improved. Our experimental results validate the effectiveness of the proposed attack method.
翻訳日:2023-09-08 16:00:05 公開日:2023-09-07
# 強調的・混合的特徴再建による暗黙的神経画像縫合

Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction ( http://arxiv.org/abs/2309.01409v2 )

ライセンス: Link先を確認
Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin(参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。 しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。 近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。 この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。 画質向上のための画像のフーリエ係数を推定する。 提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。 提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。 ソースコードはhttps://github.com/minshu-kim/nisで入手できます。

Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS.
翻訳日:2023-09-08 15:59:51 公開日:2023-09-07
# ディリクレ境界条件下における画像縫合における残留弾性ワルプの学習

Learning Residual Elastic Warps for Image Stitching under Dirichlet Boundary Condition ( http://arxiv.org/abs/2309.01406v2 )

ライセンス: Link先を確認
Minsu Kim, Yongjun Lee, Woo Kyoung Han, Kyong Hwan Jin(参考訳) 学習に基づく弾性ワープの傾向は、深層画像の縫合によって大きなパララックス誤差に晒された画像の整列を可能にする。 対象画像のオーバーラップ領域と非オーバーラップ領域のずれや穴が生じたり,不連続性に支障をきたすことがあるが,この手法は,主にオーバーラップ領域アライメントに着目した学習戦略である。 結果として、不連続性を隠蔽するために、シームファインダーやイメージインペイントなどの追加モジュールが必要である。 本稿では,ディリクレ境界条件の問題に対処するリカレント弾性ワープ(Recurrent Elastic Warps,REwarp)を提案する。 特に、Rewarpは、不連続およびホールフリー画像縫合のための境界制約の下で、ホモグラフィと薄板スプライン(TPS)を予測する。 本実験は,既存の縫合法と比較して,Rewarpの整合性および競合計算コストを示す。 ソースコードはhttps://github.com/minshu-kim/rewarp.comから入手できます。

Trendy suggestions for learning-based elastic warps enable the deep image stitchings to align images exposed to large parallax errors. Despite the remarkable alignments, the methods struggle with occasional holes or discontinuity between overlapping and non-overlapping regions of a target image as the applied training strategy mostly focuses on overlap region alignment. As a result, they require additional modules such as seam finder and image inpainting for hiding discontinuity and filling holes, respectively. In this work, we suggest Recurrent Elastic Warps (REwarp) that address the problem with Dirichlet boundary condition and boost performances by residual learning for recurrent misalign correction. Specifically, REwarp predicts a homography and a Thin-plate Spline (TPS) under the boundary constraint for discontinuity and hole-free image stitching. Our experiments show the favorable aligns and the competitive computational costs of REwarp compared to the existing stitching methods. Our source code is available at https://github.com/minshu-kim/REwarp.
翻訳日:2023-09-08 15:59:34 公開日:2023-09-07
# chatgptを用いた放射線レポートからのゼロショット情報抽出

Zero-shot information extraction from radiological reports using ChatGPT ( http://arxiv.org/abs/2309.01398v2 )

ライセンス: Link先を確認
Danqing Hu, Bing Liu, Xiaofeng Zhu, Xudong Lu, Nan Wu(参考訳) 電子健康記録には大量の貴重な情報が含まれているが、その多くはフリーテキストで記録されている。 情報抽出は、文字のシーケンスを構造化データに変換する戦略であり、二次分析に使用できる。 しかし、名前付きエンティティ認識や関係抽出などの従来の情報抽出コンポーネントは、モデルパラメータを最適化するために注釈付きデータを必要としており、情報抽出システムの構築において大きなボトルネックとなっている。 大規模言語モデルがパラメータ調整なしで様々な下流NLPタスクで優れた性能を発揮することにより、ゼロショット情報抽出に大規模言語モデルを使用することが可能である。 本研究では,最もポピュラーな大規模言語モデルであるChatGPTが,放射線学的報告から有用な情報を抽出できるかどうかを検討することを目的とする。 まず、CTレポートの興味ある情報に対するプロンプトテンプレートを設計する。 次に,プロンプトテンプレートとCTレポートとをチャットGPTの入力として組み合わせてプロンプトを生成し,応答を得る。 処理後モジュールを開発し、応答を構造化された抽出結果に変換する。 北京大学がん病院から採取した847個のct画像を用いて実験を行った。 実験の結果,chatgptは,ベースライン情報抽出システムと比較して,いくつかの抽出タスクにおいて競合性能を得ることができたが,いくつかの制限は改善される必要がある。

Electronic health records contain an enormous amount of valuable information, but many are recorded in free text. Information extraction is the strategy to transform the sequence of characters into structured data, which can be employed for secondary analysis. However, the traditional information extraction components, such as named entity recognition and relation extraction, require annotated data to optimize the model parameters, which has become one of the major bottlenecks in building information extraction systems. With the large language models achieving good performances on various downstream NLP tasks without parameter tuning, it becomes possible to use large language models for zero-shot information extraction. In this study, we aim to explore whether the most popular large language model, ChatGPT, can extract useful information from the radiological reports. We first design the prompt template for the interested information in the CT reports. Then, we generate the prompts by combining the prompt template with the CT reports as the inputs of ChatGPT to obtain the responses. A post-processing module is developed to transform the responses into structured extraction results. We conducted the experiments with 847 CT reports collected from Peking University Cancer Hospital. The experimental results indicate that ChatGPT can achieve competitive performances for some extraction tasks compared with the baseline information extraction system, but some limitations need to be further improved.
翻訳日:2023-09-08 15:59:17 公開日:2023-09-07
# 変形性関節症に対する音響-調音インバージョン:事前訓練による自己指導的表現は好ましいか?

Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable? ( http://arxiv.org/abs/2309.01108v2 )

ライセンス: Link先を確認
Sarthak Kumar Maharana, Krishna Kamal Adidam, Shoumik Nandi, Ajitesh Srivastava(参考訳) AAI (Acoustic-to-articatory inversion) は、音響空間から調音空間へマッピングする。 MFCCのような信号処理機能は、AAIタスクに広く使われている。 変形性発声者にとって、AAIは不正確で不明瞭な発音のため困難である。 本研究では,事前学習型自己教師付き学習(ssl)モデルを用いて,構音障害児のaaiを行う。 我々は、この挑戦的なAAIタスクに対する様々な事前訓練された機能の影響を、低リソース環境で実証する。 さらに、抽出したSSL機能にxベクトルを条件として、BLSTMネットワークをトレーニングする。 実例では、3つのAIトレーニングスキーム(オブジェクト固有、プール化、微調整)を実験する。 トレーニングスキーム全体で整合性があり、DeCoARは、微調整スキームにおいて、健康的なコントロールと患者に対してそれぞれ${\sim}$1.81\%と${\sim}$4.56\%でピアソン相関係数(CC)を相対的に改善することを明らかにする。 目に見えないケースでは、異なるSSL機能に対する同様の平均トレンドを観察します。 全体として、機能再構築や将来のタイムステップ予測タスクでトレーニングされたwav2vec、APC、DeCoARといったSSLネットワークは、関節の変形を予測できる。

$ $Acoustic-to-articulatory inversion (AAI) involves mapping from the acoustic space to the articulatory space. Signal-processing features like the MFCCs, have been widely used for the AAI task. For subjects with dysarthric speech, AAI is challenging because of an imprecise and indistinct pronunciation. In this work, we perform AAI for dysarthric speech using representations from pre-trained self-supervised learning (SSL) models. We demonstrate the impact of different pre-trained features on this challenging AAI task, at low-resource conditions. In addition, we also condition x-vectors to the extracted SSL features to train a BLSTM network. In the seen case, we experiment with three AAI training schemes (subject-specific, pooled, and fine-tuned). The results, consistent across training schemes, reveal that DeCoAR, in the fine-tuned scheme, achieves a relative improvement of the Pearson Correlation Coefficient (CC) by ${\sim}$1.81\% and ${\sim}$4.56\% for healthy controls and patients, respectively, over MFCCs. In the unseen case, we observe similar average trends for different SSL features. Overall, SSL networks like wav2vec, APC, and DeCoAR, which are trained with feature reconstruction or future timestep prediction tasks, perform well in predicting dysarthric articulatory trajectories.
翻訳日:2023-09-08 15:58:55 公開日:2023-09-07
# 共通汚職に対するヒューマンパーサーのロバスト性の検討

Exploring the Robustness of Human Parsers Towards Common Corruptions ( http://arxiv.org/abs/2309.00938v2 )

ライセンス: Link先を確認
Sanyi Zhang, Xiaochun Cao, Rui Wang, Guo-Jun Qi, Jie Zhou(参考訳) human parseは、人間の画像の各ピクセルを、きめ細かなセマンティックカテゴリで分割することを目的としている。 しかし、クリーンなデータで訓練された現在の人間のパーサーは、ぼやけやノイズといった多くの画像の破損によって容易に混乱する。 本稿では,人間のパーサーのロバスト性を改善するために,llip-c,atr-c,pascal-person-part-cと呼ばれる3つの腐敗ロバスト性ベンチマークを構築し,人間の解析モデルのリスク許容性を評価する。 本研究では,データ拡張戦略に触発されて,不均質な拡張強化機構を提案する。 具体的には、異なるビューからの2種類のデータ拡張、すなわち、画像認識拡張とモデル認識画像から画像への変換を連続的に統合して、予期せぬ画像破損に対応させる。 画像認識拡張は、一般的な画像操作の助けを借りて、トレーニング画像の多様性を高めることができる。 モデルのランダム性を考慮して入力データの多様性を向上させるモデル認識強化戦略。 提案されたメソッドはモデルに依存しず、任意の最先端のヒューマンパースフレームワークにプラグアンドプレイすることができる。 実験の結果,提案手法は画像共通汚損に直面した場合に,人間のパースモデルや意味的セグメンテーションモデルの堅牢性を向上できる優れた普遍性を示すことが示された。 一方で、クリーンデータに対する近似的なパフォーマンスも得ることができる。

Human parsing aims to segment each pixel of the human image with fine-grained semantic categories. However, current human parsers trained with clean data are easily confused by numerous image corruptions such as blur and noise. To improve the robustness of human parsers, in this paper, we construct three corruption robustness benchmarks, termed LIP-C, ATR-C, and Pascal-Person-Part-C, to assist us in evaluating the risk tolerance of human parsing models. Inspired by the data augmentation strategy, we propose a novel heterogeneous augmentation-enhanced mechanism to bolster robustness under commonly corrupted conditions. Specifically, two types of data augmentations from different views, i.e., image-aware augmentation and model-aware image-to-image transformation, are integrated in a sequential manner for adapting to unforeseen image corruptions. The image-aware augmentation can enrich the high diversity of training images with the help of common image operations. The model-aware augmentation strategy that improves the diversity of input data by considering the model's randomness. The proposed method is model-agnostic, and it can plug and play into arbitrary state-of-the-art human parsing frameworks. The experimental results show that the proposed method demonstrates good universality which can improve the robustness of the human parsing models and even the semantic segmentation models when facing various image common corruptions. Meanwhile, it can still obtain approximate performance on clean data.
翻訳日:2023-09-08 15:58:28 公開日:2023-09-07
# VideoGen: 高定義テキスト・ビデオ生成のための参照型遅延拡散手法

VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation ( http://arxiv.org/abs/2309.00398v2 )

ライセンス: Link先を確認
Xin Li, Wenqing Chu, Ye Wu, Weihang Yuan, Fanglong Liu, Qi Zhang, Fu Li, Haocheng Feng, Errui Ding, Jingdong Wang(参考訳) 本稿では,参照誘導潜在拡散を用いた高フレーム忠実性と強い時間的一貫性を有する高精細映像を生成できるテキスト対ビデオ生成手法であるvideogenを提案する。 テキストプロンプトからコンテンツ品質の高い画像を生成し、映像生成を導くための基準画像として、既成のテキスト対画像生成モデル(例えば、安定拡散)を利用する。 次に、参照画像とテキストプロンプトの両方に条件付けされた効率的な遅延拡散モジュールを導入し、遅延ビデオ表現を生成し、その後、時間分解能を改善するためのフローベースの時間的アップサンプリングステップを導入する。 最後に,拡張ビデオデコーダを用いて,潜在映像表現を高精細映像にマッピングする。 トレーニング中は,地上構造ビデオの最初のフレームを基準画像として,カスケード付き潜伏拡散モジュールのトレーニングを行う。 提案手法の主な特徴は,テキスト・ツー・イメージ・モデルによって生成された参照画像が視覚的忠実度を向上させること,拡散モデルが映像力学の学習に集中すること,ビデオデコーダがラベル付けされていないビデオデータよりも訓練され,高品質なビデオの恩恵を受けること,などである。 videogenは、質的および定量的評価の両方の観点から、テキスト対ビデオ生成の最先端を新たに設定する。 詳細は \url{https://videogen.github.io/VideoGen/} を参照。

In this paper, we present VideoGen, a text-to-video generation approach, which can generate a high-definition video with high frame fidelity and strong temporal consistency using reference-guided latent diffusion. We leverage an off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to generate an image with high content quality from the text prompt, as a reference image to guide video generation. Then, we introduce an efficient cascaded latent diffusion module conditioned on both the reference image and the text prompt, for generating latent video representations, followed by a flow-based temporal upsampling step to improve the temporal resolution. Finally, we map latent video representations into a high-definition video through an enhanced video decoder. During training, we use the first frame of a ground-truth video as the reference image for training the cascaded latent diffusion module. The main characterises of our approach include: the reference image generated by the text-to-image model improves the visual fidelity; using it as the condition makes the diffusion model focus more on learning the video dynamics; and the video decoder is trained over unlabeled video data, thus benefiting from high-quality easily-available videos. VideoGen sets a new state-of-the-art in text-to-video generation in terms of both qualitative and quantitative evaluation. See \url{https://videogen.github.io/VideoGen/} for more samples.
翻訳日:2023-09-08 15:57:43 公開日:2023-09-07
# Diffusion-EDFs: 視覚ロボットマニピュレーションのためのSE(3)に基づく2-equivariant Denoising Generative Modeling

Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3) for Visual Robotic Manipulation ( http://arxiv.org/abs/2309.02685v2 )

ライセンス: Link先を確認
Hyunwoo Ryu, Jiwoo Kim, Junwoo Chang, Hyun Seok Ahn, Joohwan Seo, Taehan Kim, Yubin Kim, Jongeun Choi, Roberto Horowitz(参考訳) 近年の研究では、同変法がロボット学習におけるデータ効率、一般化性、ロバスト性を大幅に改善できることが実証されている。 一方,確率的行動を伴う実演からロボット操作学習への有望なアプローチとして,拡散型生成モデリングが注目されている。 本稿では,空間的ロト変換等価性,すなわち拡散生成モデルに対するSE(3)-等価性を含む新しい手法である拡散EDFを提案する。 モデルアーキテクチャにse(3)等価性を統合することで,提案手法は顕著なデータ効率を示し,エンドツーエンドの効果的なトレーニングには5~10タスクのデモンストレーションしか必要としないことを示した。 さらに,本手法は,従来の拡散型操作法よりも優れた一般化性を示す。

Recent studies have verified that equivariant methods can significantly improve the data efficiency, generalizability, and robustness in robot learning. Meanwhile, denoising diffusion-based generative modeling has recently gained significant attention as a promising approach for robotic manipulation learning from demonstrations with stochastic behaviors. In this paper, we present Diffusion-EDFs, a novel approach that incorporates spatial roto-translation equivariance, i.e., SE(3)-equivariance to diffusion generative modeling. By integrating SE(3)-equivariance into our model architectures, we demonstrate that our proposed method exhibits remarkable data efficiency, requiring only 5 to 10 task demonstrations for effective end-to-end training. Furthermore, our approach showcases superior generalizability compared to previous diffusion-based manipulation methods.
翻訳日:2023-09-08 15:51:21 公開日:2023-09-07
# 物理インフォームドニューラルネットワークによる高次元最小表面の近似

Approximating High-Dimensional Minimal Surfaces with Physics-Informed Neural Networks ( http://arxiv.org/abs/2309.02589v2 )

ライセンス: Link先を確認
Steven Zhou and Xiaojing Ye(参考訳) 本稿では,PDE(Partial Differential Equation)の基本型である最小曲面の数値近似を高次元で計算する。 古典的手法はこの場合、次元の呪いのために処理できない、なぜならこれらの方法の計算コストは、より高次元の問題に対応して指数関数的に増大し、現代のスーパーコンピュータの計算能力を大きく超えているからである。 過去数年間で、機械学習の研究者たちはこの問題を緩和することができた。 ここで選択される解法は、深層ニューラルネットワーク(dnn)を訓練して極小表面pdeを解決する物理インフォームドニューラルネットワーク(pinn)として知られるモデルである。 より高次元にスケールアップでき、GPUのないラップトップでも比較的高速にトレーニングできる。 高次元出力を見ることができないため、データは十分な固定軸を持つ高次元形状のスニペットとして提示され、3次元グラフで見ることができる。 このメソッドの機能をテストするだけでなく、メソッドのパフォーマンスの潜在的な制限についても検討します。

In this paper, we compute numerical approximations of the minimal surfaces, an essential type of Partial Differential Equation (PDE), in higher dimensions. Classical methods cannot handle it in this case because of the Curse of Dimensionality, where the computational cost of these methods increases exponentially fast in response to higher problem dimensions, far beyond the computing capacity of any modern supercomputers. Only in the past few years have machine learning researchers been able to mitigate this problem. The solution method chosen here is a model known as a Physics-Informed Neural Network (PINN) which trains a deep neural network (DNN) to solve the minimal surface PDE. It can be scaled up into higher dimensions and trained relatively quickly even on a laptop with no GPU. Due to the inability to view the high-dimension output, our data is presented as snippets of a higher-dimension shape with enough fixed axes so that it is viewable with 3-D graphs. Not only will the functionality of this method be tested, but we will also explore potential limitations in the method's performance.
翻訳日:2023-09-08 15:51:06 公開日:2023-09-07
# 暗号化画像を用いた高速微調整型視覚変換器のドメイン適応

Domain Adaptation for Efficiently Fine-tuning Vision Transformer with Encrypted Images ( http://arxiv.org/abs/2309.02556v2 )

ライセンス: Link先を確認
Teru Nagamori, Sayaka Shiota, Hitoshi Kiya(参考訳) 近年、データ変換でトレーニングされたディープニューラルネットワーク(DNN)は、プライバシ保護学習、アクセス制御、敵防衛など、さまざまなアプリケーションに適用されている。 しかし、変換データの使用はモデルの性能を低下させる。 そこで本稿では,視覚トランスフォーマ (vit) を用いて,変換画像を持つモデルの微調整を行う新しい手法を提案する。 提案手法は,vitの埋め込み構造に基づいて,モデルの精度を低下させるものではない。 実験では,CIFAR-10とCIFAR-100データセットを用いた暗号化画像を用いても,精度の低下を防止できることを確認した。

In recent years, deep neural networks (DNNs) trained with transformed data have been applied to various applications such as privacy-preserving learning, access control, and adversarial defenses. However, the use of transformed data decreases the performance of models. Accordingly, in this paper, we propose a novel method for fine-tuning models with transformed images under the use of the vision transformer (ViT). The proposed domain adaptation method does not cause the accuracy degradation of models, and it is carried out on the basis of the embedding structure of ViT. In experiments, we confirmed that the proposed method prevents accuracy degradation even when using encrypted images with the CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-09-08 15:50:48 公開日:2023-09-07
# 機械翻訳における行動テストの自動化

Automating Behavioral Testing in Machine Translation ( http://arxiv.org/abs/2309.02553v2 )

ライセンス: Link先を確認
Javier Ferrando, Matthias Sperber, Hendra Setiawan, Dominic Telaar, Sa\v{s}a Hasan(参考訳) NLPにおける振る舞いテストは、入出力動作の分析を通じて言語能力を調べることによって、システムのきめ細かい評価を可能にする。 残念ながら、機械翻訳(MT)における振る舞いテストに関する既存の作業は、現在、限られた機能と言語をカバーする手作りのテストに限られている。 この制限に対処するために,我々は,MTモデルの振る舞いを幅広い状況でテストするために,多種多様なソース文を生成するために,Large Language Models (LLMs) を提案する。 次に, MTモデルがLLMを用いて生成した候補集合をマッチングすることにより, 期待される挙動を示すか否かを検証する。 本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。 実験では,提案手法を用いて複数のMTシステムの評価を行い,従来の精度に基づく測定値から観測可能な傾向をパスレートで追従するが,精度のみに依存する場合,いくつかの重要な違いや潜在的なバグを明らかにすることができた。

Behavioral testing in NLP allows fine-grained evaluation of systems by examining their linguistic capabilities through the analysis of input-output behavior. Unfortunately, existing work on behavioral testing in Machine Translation (MT) is currently restricted to largely handcrafted tests covering a limited range of capabilities and languages. To address this limitation, we propose to use Large Language Models (LLMs) to generate a diverse set of source sentences tailored to test the behavior of MT models in a range of situations. We can then verify whether the MT model exhibits the expected behavior through matching candidate sets that are also generated using LLMs. Our approach aims to make behavioral testing of MT systems practical while requiring only minimal human effort. In our experiments, we apply our proposed evaluation framework to assess multiple available MT systems, revealing that while in general pass-rates follow the trends observable from traditional accuracy-based metrics, our method was able to uncover several important differences and potential bugs that go unnoticed when relying only on accuracy.
翻訳日:2023-09-08 15:50:36 公開日:2023-09-07
# 映像音源分離のための一般化帯域分割ニューラルネットワーク

A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation ( http://arxiv.org/abs/2309.02539v2 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Chih-Wei Wu, Yiwei Ding, Iroro Orife, Aaron J. Hipple, Phillip A. Williams, Scott Kramer, Alexander Lerch, and William Wolcott(参考訳) 映像音源分離は、音声音源分離の比較的新しいサブタスクであり、対話ステム、音楽ステム、およびそれらの混合物からのエフェクトを抽出することを目的としている。 本研究では,周波数軸の完全あるいは過剰な分割に対してバンドスプリットRNNを一般化するモデルを開発した。 心理的に動機づけられた周波数尺度は、より信頼性の高い特徴抽出のために冗長性で定義されているバンド定義を知らせるために用いられた。 1-ノルムの信号対雑音比とスパーシティ・プロモーティング特性に動機づけられた損失関数を提案した。 さらに、共通エンコーダ構成の情報共有性を利用して、トレーニングと推論の両方における計算複雑性を低減し、難解な音のクラスに対する分離性能を改善し、容易に解離可能なデコーダによる推論時間における柔軟性を実現する。 我々の最良のモデルは、対話stemの理想的な比マスクよりも高いパフォーマンスで分割とリマスターのデータセットに芸術の状態を設定します。

Cinematic audio source separation is a relatively new subtask of audio source separation, with the aim of extracting the dialogue stem, the music stem, and the effects stem from their mixture. In this work, we developed a model generalizing the Bandsplit RNN for any complete or overcomplete partitions of the frequency axis. Psycho-acoustically motivated frequency scales were used to inform the band definitions which are now defined with redundancy for more reliable feature extraction. A loss function motivated by the signal-to-noise ratio and the sparsity-promoting property of the 1-norm was proposed. We additionally exploit the information-sharing property of a common-encoder setup to reduce computational complexity during both training and inference, improve separation performance for hard-to-generalize classes of sounds, and allow flexibility during inference time with easily detachable decoders. Our best model sets the state of the art on the Divide and Remaster dataset with performance above the ideal ratio mask for the dialogue stem.
翻訳日:2023-09-08 15:50:19 公開日:2023-09-07
# テンソル化によるディープラーニングモデルの強化: 包括的調査とフレームワーク

Enhancing Deep Learning Models through Tensorization: A Comprehensive Survey and Framework ( http://arxiv.org/abs/2309.02428v2 )

ライセンス: Link先を確認
Manal Helal(参考訳) パブリックドメインデータの急成長とディープラーニングモデルアーキテクチャの複雑さの増大は、より効率的なデータ表現と分析技術の必要性を浮き彫りにした。 本稿では, Helal (2023) の業績を動機とし, テンソル化の包括的概要を示す。 この変換的アプローチは、データの本質的に多次元の性質と線形代数ベースの機械学習アルゴリズムで一般的に使用される単純化された2次元行列の間のギャップを埋める。 本稿では, テンソル化, 多次元データソース, 様々な多方向解析手法, およびこれらの手法の利点について考察する。 2次元アルゴリズムとPythonのマルチウェイアルゴリズムを比較したBlind Source separation(BSS)の小さな例を示す。 その結果,多方向解析の方が表現力が高いことがわかった。 次元の呪いの直感とは対照的に、多次元のデータセットを原形に利用し、多線型代数を基底とした多次元解析手法を適用すると、様々な次元の複雑な相互関係を捉える重要な能力が明らかとなり、驚くほど、モデルのパラメータの減少と処理の高速化が図られる。 異なる領域のケーススタディを用いて,多元的解析手法と様々な深層ニューラルネットワークモデルとの統合に関する調査を行った。

The burgeoning growth of public domain data and the increasing complexity of deep learning model architectures have underscored the need for more efficient data representation and analysis techniques. This paper is motivated by the work of Helal (2023) and aims to present a comprehensive overview of tensorization. This transformative approach bridges the gap between the inherently multidimensional nature of data and the simplified 2-dimensional matrices commonly used in linear algebra-based machine learning algorithms. This paper explores the steps involved in tensorization, multidimensional data sources, various multiway analysis methods employed, and the benefits of these approaches. A small example of Blind Source Separation (BSS) is presented comparing 2-dimensional algorithms and a multiway algorithm in Python. Results indicate that multiway analysis is more expressive. Contrary to the intuition of the dimensionality curse, utilising multidimensional datasets in their native form and applying multiway analysis methods grounded in multilinear algebra reveal a profound capacity to capture intricate interrelationships among various dimensions while, surprisingly, reducing the number of model parameters and accelerating processing. A survey of the multi-away analysis methods and integration with various Deep Neural Networks models is presented using case studies in different domains.
翻訳日:2023-09-08 15:50:01 公開日:2023-09-07
# マルチモーダルトラッキングのための生成的核融合機構

Generative-based Fusion Mechanism for Multi-Modal Tracking ( http://arxiv.org/abs/2309.01728v2 )

ライセンス: Link先を確認
Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Xiao-Jun Wu, Josef Kittler(参考訳) 生成モデル(gms)は、包括的理解を達成するための顕著な能力について研究の関心が高まっている。 しかしながら、マルチモーダルトラッキングの領域における彼らの潜在的な応用は、比較的未調査のままである。 この文脈では,多モードトラッキングにおいて重要な課題である情報融合に対処するために,生成技術を活用する可能性を明らかにする。 本稿では,2つのGM技術,すなわち条件付き生成逆数ネットワーク(CGAN)と拡散モデル(DM)を探索する。 各モードの特徴を直接融合ブロックに供給する標準的な融合プロセスとは異なり、GMフレームワークにランダムノイズを伴ってこれらのマルチモーダル特徴を条件付けし、元のトレーニングサンプルをより難しいインスタンスに効果的に変換する。 この設計は特徴から識別的手がかりを抽出し、究極の追跡性能を向上させる。 提案手法の有効性を定量的に評価するために,マルチモーダルトラッキングタスク2つ,ベースラインメソッド3つ,挑戦ベンチマーク3つにまたがる広範な実験を行った。 実験の結果,提案手法はラッシャーとrgbd1kに新しいレコードをセットすることで,最先端の性能を実現することがわかった。

Generative models (GMs) have received increasing research interest for their remarkable capacity to achieve comprehensive understanding. However, their potential application in the domain of multi-modal tracking has remained relatively unexplored. In this context, we seek to uncover the potential of harnessing generative techniques to address the critical challenge, information fusion, in multi-modal tracking. In this paper, we delve into two prominent GM techniques, namely, Conditional Generative Adversarial Networks (CGANs) and Diffusion Models (DMs). Different from the standard fusion process where the features from each modality are directly fed into the fusion block, we condition these multi-modal features with random noise in the GM framework, effectively transforming the original training samples into harder instances. This design excels at extracting discriminative clues from the features, enhancing the ultimate tracking performance. To quantitatively gauge the effectiveness of our approach, we conduct extensive experiments across two multi-modal tracking tasks, three baseline methods, and three challenging benchmarks. The experimental results demonstrate that the proposed generative-based fusion mechanism achieves state-of-the-art performance, setting new records on LasHeR and RGBD1K.
翻訳日:2023-09-08 15:49:10 公開日:2023-09-07
# ハイブリッドHPCQCツールチェーンの実現に向けて

Toward a Unified Hybrid HPCQC Toolchain ( http://arxiv.org/abs/2309.01661v2 )

ライセンス: Link先を確認
Philipp Seitz, Amr Elsharkawy, Xiao-Ting Michelle To, Martin Schulz(参考訳) 量子コンピューティング(QC)の分野では、QCと高性能コンピューティング(HPC)要素(量子ハードウェア、古典的ハードウェア、両方のソフトウェアインフラなど)の効率的でシームレスな統合が重要な役割を担っている。 本稿では,ハイブリッド量子古典システムのための統一ツールチェーンの開発について述べる。 本研究は,スケーラビリティ,クロステクノロジー実行,事前最適化(aot)といった課題に対処する,統合ハイブリッドハイパフォーマンスコンピューティング-量子コンピューティング(hpcqc)ツールチェーンの設計を提案する。

In the expanding field of Quantum Computing (QC), efficient and seamless integration of QC and high performance computing (HPC) elements (e.g., quantum hardware, classical hardware, and software infrastructure on both sides) plays a crucial role. This paper addresses the development of a unified toolchain designed for hybrid quantum-classical systems. Our work proposes a design for a unified hybrid high performance computing - quantum computing (HPCQC) toolchain that tackles pressing issues such as scalability, cross-technology execution, and ahead-of-time (AOT) optimization.
翻訳日:2023-09-08 15:48:49 公開日:2023-09-07
# 適応型オールインワンビデオ復元のためのクロスコンテンシブディープアンフォールディングネットワーク

Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration ( http://arxiv.org/abs/2309.01627v2 )

ライセンス: Link先を確認
Yuanshuo Cheng, Mingwen Shao, Yecong Wan, Lixu Zhang, Wangmeng Zuo, Deyu Meng(参考訳) 既存のビデオ復元(VR)手法は、様々な悪天候の劣化を取り除くために、各悪天候に対する個々のモデルの展開を必要とし、劣化の適応処理能力に欠ける。 このような制限は、実用アプリケーションにおける複雑さとデプロイメントコストを増幅する。 そこで本稿では,この不足を克服するために,オールインワンvrのためのクロスコンテンス・ディープ・アンフォールディング・ネットワーク(cdun)を提案する。 具体的には,事前に与えられた劣化特性に応じて,対応する劣化により破損したフレームを復元することのできる,新しい反復最適化フレームワークを実現する。 多様な劣化を除去する枠組みを強化するために,入力された劣化映像の劣化特性を推定するシーケンスワイド適応劣化推定器(SADE)を考案した。 これら2つのカスケード手順を編成することにより、CDUNは多様な劣化に対する適応的な処理を達成する。 さらに,より隣接したフレームからの情報を活用するためのウィンドウベースのフレーム間融合戦略を提案する。 この戦略は、複数の繰り返しにおける時間窓の進行的な積み重ねを伴い、時間的受容領域を効果的に拡大し、各フレームの復元が遠方のフレームからの情報を活用することを可能にする。 広汎な実験により,All-In-One VRにおける最先端性能が得られた。

Existing Video Restoration (VR) methods always necessitate the individual deployment of models for each adverse weather to remove diverse adverse weather degradations, lacking the capability for adaptive processing of degradations. Such limitation amplifies the complexity and deployment costs in practical applications. To overcome this deficiency, in this paper, we propose a Cross-consistent Deep Unfolding Network (CDUN) for All-In-One VR, which enables the employment of a single model to remove diverse degradations for the first time. Specifically, the proposed CDUN accomplishes a novel iterative optimization framework, capable of restoring frames corrupted by corresponding degradations according to the degradation features given in advance. To empower the framework for eliminating diverse degradations, we devise a Sequence-wise Adaptive Degradation Estimator (SADE) to estimate degradation features for the input corrupted video. By orchestrating these two cascading procedures, CDUN achieves adaptive processing for diverse degradation. In addition, we introduce a window-based inter-frame fusion strategy to utilize information from more adjacent frames. This strategy involves the progressive stacking of temporal windows in multiple iterations, effectively enlarging the temporal receptive field and enabling each frame's restoration to leverage information from distant frames. Extensive experiments demonstrate that the proposed method achieves state-of-the-art performance in All-In-One VR.
翻訳日:2023-09-08 15:48:39 公開日:2023-09-07
# Blink: ベイジアン推定によるグラフニューラルネットワークにおける局所微分プライバシーのリンク

Blink: Link Local Differential Privacy in Graph Neural Networks via Bayesian Estimation ( http://arxiv.org/abs/2309.03190v2 )

ライセンス: Link先を確認
Xiaochen Zhu, Vincent Y. F. Tan, Xiaokui Xiao(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ推論タスクのノード埋め込みを学習する能力に優れていたため、人気が高まっている。 そこで本研究では,非信頼なサーバと協調してGNNを訓練し,リンクの存在を明らかにすることなく,分散ノード上でのリンクローカルディファレンシャルプライバシの利用を提案する。 提案手法では,学習したGNNの精度に対するLDPの負の影響を緩和し,ベイズ推定によるグラフトポロジの劣化を改善するために,サーバのグラフのリンクと度合を別々に利用している。 我々は、基底真理グラフトポロジーに対する推定リンク確率の平均絶対誤差を制限した。 次に,異なるプライバシ設定で相互補完するldp機構の2つの変種を提案する。うち1つは,不確実性が高い場合には偽陽性リンク推定を避けるために,低いプライバシ予算下でリンクを少なく見積もる。 さらに,両戦略を結合し,異なるプライバシ予算でよりよいパフォーマンスを実現するハイブリッド型を提案する。 大規模な実験により, 従来の手法よりも, 様々なプライバシー予算下での精度が優れていた。

Graph neural networks (GNNs) have gained an increasing amount of popularity due to their superior capability in learning node embeddings for various graph inference tasks, but training them can raise privacy concerns. To address this, we propose using link local differential privacy over decentralized nodes, enabling collaboration with an untrusted server to train GNNs without revealing the existence of any link. Our approach spends the privacy budget separately on links and degrees of the graph for the server to better denoise the graph topology using Bayesian estimation, alleviating the negative impact of LDP on the accuracy of the trained GNNs. We bound the mean absolute error of the inferred link probabilities against the ground truth graph topology. We then propose two variants of our LDP mechanism complementing each other in different privacy settings, one of which estimates fewer links under lower privacy budgets to avoid false positive link estimates when the uncertainty is high, while the other utilizes more information and performs better given relatively higher privacy budgets. Furthermore, we propose a hybrid variant that combines both strategies and is able to perform better across different privacy budgets. Extensive experiments show that our approach outperforms existing methods in terms of accuracy under varying privacy budgets.
翻訳日:2023-09-08 15:39:51 公開日:2023-09-07
# インプレッションインフォームド多行動推薦システム:階層グラフ注意アプローチ

Impression-Informed Multi-Behavior Recommender System: A Hierarchical Graph Attention Approach ( http://arxiv.org/abs/2309.03169v2 )

ライセンス: Link先を確認
Dong Li and Divya Bhargavi and Vidya Sagar Ravipati(参考訳) 推薦システムは暗黙のフィードバックから大きな恩恵を受けているが、ユーザとアイテム間の複数行動相互作用のニュアンスを見逃すことがしばしばある。 歴史的には、これらのシステムは、特異な「相互作用」ラベルの下で、例えば \textit{impression} (以前の \textit{view} )、 \textit{add-to-cart} や \textit{buy} のような全ての振る舞いをアマルガム化したか、あるいはターゲットの振る舞いのみを優先した。 最近の進歩は、この単純化に対処しようとしたが、主にターゲットの振る舞いだけを最適化し、データの不足と戦おうとした。 さらに、彼らは行動に固有のニュアンス階層をバイパスする傾向があった。 これらのギャップを埋めるために、我々は \textbf{H}ierarchical \textbf{M}ulti-behavior \textbf{G}raph Attention \textbf{N}etwork (HMGN)を導入する。 この先駆的なフレームワークは、マルチタスク階層型ベイズパーソナライズランキング(HBPR)を最適化に使用しながら、ビヘイビア内およびビヘイビア内からの情報を識別するために注意機構を活用する。 スケーラビリティの必要性を認識した本手法では,特殊なマルチビヘイビアサブグラフサンプリング技術を統合する。 さらに、HMGNの適応性により、知識メタデータと時系列データのシームレスな取り込みが可能になる。 実験結果から,従来のグラフニューラルネットワーク手法と比較して,NDCG@100測定値の最大64\%の顕著なパフォーマンス向上が得られた。

While recommender systems have significantly benefited from implicit feedback, they have often missed the nuances of multi-behavior interactions between users and items. Historically, these systems either amalgamated all behaviors, such as \textit{impression} (formerly \textit{view}), \textit{add-to-cart}, and \textit{buy}, under a singular 'interaction' label, or prioritized only the target behavior, often the \textit{buy} action, discarding valuable auxiliary signals. Although recent advancements tried addressing this simplification, they primarily gravitated towards optimizing the target behavior alone, battling with data scarcity. Additionally, they tended to bypass the nuanced hierarchy intrinsic to behaviors. To bridge these gaps, we introduce the \textbf{H}ierarchical \textbf{M}ulti-behavior \textbf{G}raph Attention \textbf{N}etwork (HMGN). This pioneering framework leverages attention mechanisms to discern information from both inter and intra-behaviors while employing a multi-task Hierarchical Bayesian Personalized Ranking (HBPR) for optimization. Recognizing the need for scalability, our approach integrates a specialized multi-behavior sub-graph sampling technique. Moreover, the adaptability of HMGN allows for the seamless inclusion of knowledge metadata and time-series data. Empirical results attest to our model's prowess, registering a notable performance boost of up to 64\% in NDCG@100 metrics over conventional graph neural network methods.
翻訳日:2023-09-08 15:39:25 公開日:2023-09-07
# 筋骨格モデルを用いた強化学習による自然歩行とロバスト歩行

Natural and Robust Walking using Reinforcement Learning without Demonstrations in High-Dimensional Musculoskeletal Models ( http://arxiv.org/abs/2309.02976v2 )

ライセンス: Link先を確認
Pierre Schumacher, Thomas Geijtenbeek, Vittorio Caggiano, Vikash Kumar, Syn Schmitt, Georg Martius, Daniel F. B. Haeufle(参考訳) 人間は複雑な自然環境において頑健な二足歩行に優れている。 それぞれのステップで、バイオメカニカル筋力学と神経信号の相互作用を適切に調整し、地面の状態の不確実性に対して堅牢である。 しかし、安定性、堅牢性、エネルギー効率を考慮した多目的制御問題を解くために、神経系が筋骨格の冗長性をどのように解決するかは、まだ完全には分かっていない。 コンピュータシミュレーションでは、エネルギーの最小化が最適化の目標として成功し、軌道最適化や反射に基づく制御手法で自然歩行を再現することが示されている。 しかし、これらの手法は一度に特定の動きに焦点を合わせ、結果として生じるコントローラは摂動を補償するときに制限される。 ロボット工学において、強化学習(rl)法は、最近、四足歩行システムにおいて高度に安定(かつ効率的な)移動を達成したが、二足歩行の生体力学的モデルを用いた人間のような歩行の生成には、専門家のデータセットを広範囲に使用する必要がある。 このデモへの強い依存は、しばしば脆いポリシーをもたらし、特に3Dの高次元筋骨格モデルに対する潜在的な様々な動きを考慮して、新しい行動への適用を制限する。 RLの強靭さを犠牲にすることなく自然の移動を実現することは、複雑な自然環境における人間の歩行を研究する新しいアプローチの道を開くかもしれない。 ビデオ: https://sites.google.com/view/naturalwalkingrl

Humans excel at robust bipedal walking in complex natural environments. In each step, they adequately tune the interaction of biomechanical muscle dynamics and neuronal signals to be robust against uncertainties in ground conditions. However, it is still not fully understood how the nervous system resolves the musculoskeletal redundancy to solve the multi-objective control problem considering stability, robustness, and energy efficiency. In computer simulations, energy minimization has been shown to be a successful optimization target, reproducing natural walking with trajectory optimization or reflex-based control methods. However, these methods focus on particular motions at a time and the resulting controllers are limited when compensating for perturbations. In robotics, reinforcement learning~(RL) methods recently achieved highly stable (and efficient) locomotion on quadruped systems, but the generation of human-like walking with bipedal biomechanical models has required extensive use of expert data sets. This strong reliance on demonstrations often results in brittle policies and limits the application to new behaviors, especially considering the potential variety of movements for high-dimensional musculoskeletal models in 3D. Achieving natural locomotion with RL without sacrificing its incredible robustness might pave the way for a novel approach to studying human walking in complex natural environments. Videos: https://sites.google.com/view/naturalwalkingrl
翻訳日:2023-09-08 15:38:54 公開日:2023-09-07
# 臨床における大規模言語モデルの調整

Aligning Large Language Models for Clinical Tasks ( http://arxiv.org/abs/2309.02884v2 )

ライセンス: Link先を確認
Supun Manathunga, Isuru Hettigoda(参考訳) 大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。 しかし、その優れた自然言語処理(NLP)能力にもかかわらず、特定の臨床応用のためにLLMを効果的に配置することは重要な課題である。 実際の正確な内容で応答を生成し、かつ自明な推論ステップに係わる能力は、llmが臨床医学の応用に適することにとって不可欠である。 インストラクションチューニング(英語版)とインプロンプト戦略(英語版)(英語版)の併用により、LLMの性能は大幅に向上した。 提案手法は「expand-guess-refine」と呼ばれ、パラメータとデータ効率のよいソリューションを提供する。 この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。

Large Language Models (LLMs) have demonstrated remarkable adaptability, showcasing their capacity to excel in tasks for which they were not explicitly trained. However, despite their impressive natural language processing (NLP) capabilities, effective alignment of LLMs remains a crucial challenge when deploying them for specific clinical applications. The ability to generate responses with factually accurate content and to engage in non-trivial reasoning steps are crucial for the LLMs to be eligible for applications in clinical medicine. Employing a combination of techniques including instruction-tuning and in-prompt strategies like few-shot and chain-of-thought prompting has significantly enhanced the performance of LLMs. Our proposed alignment strategy for medical question-answering, known as 'expand-guess-refine', offers a parameter and data-efficient solution. A preliminary analysis of this method demonstrated outstanding performance, achieving a score of 70.63% on a subset of questions sourced from the USMLE dataset.
翻訳日:2023-09-08 15:38:30 公開日:2023-09-07
# ニューラルネットワーク圧縮のための帯域効率推論

Bandwidth-efficient Inference for Neural Image Compression ( http://arxiv.org/abs/2309.02855v2 )

ライセンス: Link先を確認
Shanzhi Yin, Tongda Xu, Yongsheng Liang, Yuanyuan Wang, Yanghao Li, Yan Wang, Jingjing Liu(参考訳) ニューラルネットワークが深くなり、機能マップが大きくなり、外部メモリ(dram)による通信帯域が制限され、電力制約がモバイルやエッジデバイスでネットワーク推論を実装する上でボトルネックとなる。 本稿では,ニューラルデータ圧縮法により圧縮されたアクティベーションを用いた終端から終端までの帯域幅効率のよいニューラル推論法を提案する。 具体的には、対称指数ゴロンブ符号化によるアクティベーション圧縮のための変換量子化エントロピー符号化パイプラインと、演算符号化のためのデータ依存ガウスエントロピーモデルを提案する。 既存のモデル量子化法により最適化され、画像圧縮の低レベルタスクは6.21倍の省エネで最大19倍の帯域幅を削減できる。

With neural networks growing deeper and feature maps growing larger, limited communication bandwidth with external memory (or DRAM) and power constraints become a bottleneck in implementing network inference on mobile and edge devices. In this paper, we propose an end-to-end differentiable bandwidth efficient neural inference method with the activation compressed by neural data compression method. Specifically, we propose a transform-quantization-entropy coding pipeline for activation compression with symmetric exponential Golomb coding and a data-dependent Gaussian entropy model for arithmetic coding. Optimized with existing model quantization methods, low-level task of image compression can achieve up to 19x bandwidth reduction with 6.21x energy saving.
翻訳日:2023-09-08 15:38:11 公開日:2023-09-07
# DMKD:デュアルマスキング強化による物体検出のための特徴ベース知識蒸留の改良

DMKD: Improving Feature-based Knowledge Distillation for Object Detection Via Dual Masking Augmentation ( http://arxiv.org/abs/2309.02719v2 )

ライセンス: Link先を確認
Guang Yang, Yin Tang, Zhijian Wu, Jun Li, Jianhua Xu, Xili Wan(参考訳) 最近の主流のマスキング蒸留法では,教師の特徴地図から学生ネットワークの選択的マスキング領域を再構成する機能がある。 これらの手法では,教師の特徴のような十分な識別と表現能力が再現されるように,マスク領域を適切に選択する必要がある。 しかし, 従来のマスク蒸留法では, 空間マスキングのみに焦点が当てられており, 得られたマスキング領域は情報チャネルの手がかりを符号化することなく, 空間的重要性に偏っている。 本研究では,包括的マスク付き特徴再構成のための空間的重要情報とチャネル的情報的手がかりの両方を捕捉できるDMKD(Dual Masked Knowledge Distillation)フレームワークを考案した。 具体的には,各マスキング枝を案内する2重注意機構を用い,2重重要度を符号化した特徴の再構築を行う。 さらに, 自己調整可能な重み付け戦略により, 効率的な特徴蒸留を行うことにより, 再構成された特徴を融合させる。 対象検出タスクにおける実験により, RetinaNet と Cascade Mask R-CNN をそれぞれ教師ネットワークとして用いた場合, 生徒ネットワークの性能は4.1%, 4.3%向上し, 他の最先端蒸留法よりも優れていた。

Recent mainstream masked distillation methods function by reconstructing selectively masked areas of a student network from the feature map of its teacher counterpart. In these methods, the masked regions need to be properly selected, such that reconstructed features encode sufficient discrimination and representation capability like the teacher feature. However, previous masked distillation methods only focus on spatial masking, making the resulting masked areas biased towards spatial importance without encoding informative channel clues. In this study, we devise a Dual Masked Knowledge Distillation (DMKD) framework which can capture both spatially important and channel-wise informative clues for comprehensive masked feature reconstruction. More specifically, we employ dual attention mechanism for guiding the respective masking branches, leading to reconstructed feature encoding dual significance. Furthermore, fusing the reconstructed features is achieved by self-adjustable weighting strategy for effective feature distillation. Our experiments on object detection task demonstrate that the student networks achieve performance gains of 4.1% and 4.3% with the help of our method when RetinaNet and Cascade Mask R-CNN are respectively used as the teacher networks, while outperforming the other state-of-the-art distillation methods.
翻訳日:2023-09-08 15:37:48 公開日:2023-09-07
# HAE-RAE Bench: 言語モデルにおける韓国語知識の評価

HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models ( http://arxiv.org/abs/2309.02706v2 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Suwan Kim, Huiseo Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim(参考訳) 大規模コーパスに事前学習された大規模言語モデル(llm)は、幅広いタスクにわたって顕著な能力を発揮するが、非英語言語への注目はこの分野で限定されている。 このギャップに対処し,韓国語・文化における言語モデルの習熟度を評価するために,語彙,歴史,一般知識を含む6つのタスクをカバーするhae-raeベンチを提案する。 本ベンチマークでは, GPT-3.5のような包括的, 普遍的モデルに対して, LLSM(Large Language-Specific Models)を用いることの潜在的な利点を強調した。 本研究は,GPT-3.5の約13倍のモデルで,言語固有の知識検索において,同様の性能を示すことを示す。 この観察は、プロレベルの言語特化モデルを訓練するための均質コーパスの重要性を強調している。 それとは対照的に、構造化された回答を生成するよう指示されたとき、これらの小さなLMのパープレッション性能の低下も観察する。

Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.
翻訳日:2023-09-08 15:36:59 公開日:2023-09-07
# 相反的生成学習を応用した早産児における空白質病変の分節化

Punctate White Matter Lesion Segmentation in Preterm Infants Powered by Counterfactually Generative Learning ( http://arxiv.org/abs/2309.03440v1 )

ライセンス: Link先を確認
Zehua Ren, Yongheng Sun, Miaomiao Wang, Yuying Feng, Xianjun Li, Chao Jin, Jian Yang, Chunfeng Lian, Fan Wang(参考訳) パンクレート白質病変(PWML)の正確なセグメンテーションは、関連する発達障害のタイムリーな診断と治療に欠かせない。 乳児脳mri画像からのpwmlの自動分割は、通常、病変は小さく、低コントラストであり、病変の数は被験者間で劇的に変化する可能性があるため、困難である。 既存の学習ベースの手法は、この困難なタスクに一般的なネットワークアーキテクチャを直接適用するが、pwmlの詳細な位置情報を捉えられず、重度の低セグメント化につながる可能性がある。 本稿では,脳組織セグメンテーションの補助的課題と相まって,PWMLの微粒な位置的および形態的表現を正確な位置化とセグメンテーションのために学習する反事実推論の考え方を活用することを提案する。 単純で実装が容易なディープラーニングフレームワーク(DeepPWML)が設計されている。 病変偽物マップと組織確率マップを組み合わせることで、軽量pwmlセグメンテーションネットワークを訓練し、乳児t1w mr画像の実臨床データセットで最先端のパフォーマンスを示す。 コードは \href{https://github.com/ladderlab-xjtu/DeepPWML}{https://github.com/ladderlab-xjtu/DeepPWML} で公開されている。

Accurate segmentation of punctate white matter lesions (PWMLs) are fundamental for the timely diagnosis and treatment of related developmental disorders. Automated PWMLs segmentation from infant brain MR images is challenging, considering that the lesions are typically small and low-contrast, and the number of lesions may dramatically change across subjects. Existing learning-based methods directly apply general network architectures to this challenging task, which may fail to capture detailed positional information of PWMLs, potentially leading to severe under-segmentations. In this paper, we propose to leverage the idea of counterfactual reasoning coupled with the auxiliary task of brain tissue segmentation to learn fine-grained positional and morphological representations of PWMLs for accurate localization and segmentation. A simple and easy-to-implement deep-learning framework (i.e., DeepPWML) is accordingly designed. It combines the lesion counterfactual map with the tissue probability map to train a lightweight PWML segmentation network, demonstrating state-of-the-art performance on a real-clinical dataset of infant T1w MR images. The code is available at \href{https://github.com/ladderlab-xjtu/DeepPWML}{https://github.com/ladderlab-xjtu/DeepPWML}.
翻訳日:2023-09-08 14:39:59 公開日:2023-09-07
# パーソナライズされたタッカー分解:テンソルデータの共通性と特異性をモデル化する

Personalized Tucker Decomposition: Modeling Commonality and Peculiarity on Tensor Data ( http://arxiv.org/abs/2309.03439v1 )

ライセンス: Link先を確認
Jiuyun Hu, Naichen Shi, Raed Al Kontar, Hao Yan(参考訳) 本研究では,従来のテンソル分解手法の制約に対処するパーソナライズされたタッカー分解(perTucker)を提案する。 perTuckerはテンソルデータを共有グローバルコンポーネントとパーソナライズされたローカルコンポーネントに分解する。 本稿では,モード直交性仮定を導入し,定常点に収束することを保証した近位勾配正規化ブロック座標降下アルゴリズムを開発する。 データセットにまたがる一意かつ共通表現を学習することにより,パータッカーの異常検出,クライアント分類,クラスタリングにおける効果をシミュレーション研究と,太陽フレア検出とトンネージ信号分類に関する2つのケーススタディにより実証する。

We propose personalized Tucker decomposition (perTucker) to address the limitations of traditional tensor decomposition methods in capturing heterogeneity across different datasets. perTucker decomposes tensor data into shared global components and personalized local components. We introduce a mode orthogonality assumption and develop a proximal gradient regularized block coordinate descent algorithm that is guaranteed to converge to a stationary point. By learning unique and common representations across datasets, we demonstrate perTucker's effectiveness in anomaly detection, client classification, and clustering through a simulation study and two case studies on solar flare detection and tonnage signal classification.
翻訳日:2023-09-08 14:39:34 公開日:2023-09-07
# 分散低減と微分プライバシーを考慮したビザンチンロバストフェデレーション学習

Byzantine-Robust Federated Learning with Variance Reduction and Differential Privacy ( http://arxiv.org/abs/2309.03437v1 )

ライセンス: Link先を確認
Zikai Zhang, Rui Hu(参考訳) フェデレーテッド・ラーニング(FL)は、モデルトレーニング中にデータのプライバシを保存するように設計されており、データはクライアント側(IoTデバイス)に留まり、クライアントのモデル更新のみが反復的に共有される。 しかし、このプロセスはプライバシー攻撃やビザンティン攻撃に弱い。FLネットワーク全体で共有されているローカルモデル更新は、地元のトレーニングデータに関する個人情報を漏洩させ、ビザンティン攻撃者が不正に作って学習を妨げることもできる。 本稿では,厳密なプライバシーを保証し,ビザンチン攻撃に対するシステムの堅牢性を高める新しいflスキームを提案する。 提案手法では,ビザンチン系攻撃者に対して,クライアントレベルの差分プライバシー(DP)機構にスペーシフィケーションとモーメント駆動の分散還元を導入する。 セキュリティ設計は,クライアントレベルのDPメカニズムのプライバシ保証に違反するものではない。 iidと非iidのデータセットと異なるタスクの両方について広範な実験を行い、最新の防御手法と比較することで、異なるビザンチン攻撃に対するアプローチの性能を評価する。 実験結果は,我々のフレームワークの有効性を示し,強力なプライバシ保証を実現しつつ,ビザンチン攻撃に対するシステムの堅牢性を向上させる能力を示す。

Federated learning (FL) is designed to preserve data privacy during model training, where the data remains on the client side (i.e., IoT devices), and only model updates of clients are shared iteratively for collaborative learning. However, this process is vulnerable to privacy attacks and Byzantine attacks: the local model updates shared throughout the FL network will leak private information about the local training data, and they can also be maliciously crafted by Byzantine attackers to disturb the learning. In this paper, we propose a new FL scheme that guarantees rigorous privacy and simultaneously enhances system robustness against Byzantine attacks. Our approach introduces sparsification- and momentum-driven variance reduction into the client-level differential privacy (DP) mechanism, to defend against Byzantine attackers. The security design does not violate the privacy guarantee of the client-level DP mechanism; hence, our approach achieves the same client-level DP guarantee as the state-of-the-art. We conduct extensive experiments on both IID and non-IID datasets and different tasks and evaluate the performance of our approach against different Byzantine attacks by comparing it with state-of-the-art defense methods. The results of our experiments show the efficacy of our framework and demonstrate its ability to improve system robustness against Byzantine attacks while achieving a strong privacy guarantee.
翻訳日:2023-09-08 14:39:21 公開日:2023-09-07
# 非線形超伝導マイクロ波システムのスペクトル理論:緩和率の抽出とモードハイブリダイゼーション

Spectral Theory for Non-linear Superconducting Microwave Systems: Extracting Relaxation Rates and Mode Hybridization ( http://arxiv.org/abs/2309.03435v1 )

ライセンス: Link先を確認
Dung N. Pham, Richard D. Li, Hakan E. T\"ureci(参考訳) モードハイブリダイゼーションの正確なモデリングと放射緩和率の計算は超伝導量子デバイスの設計と最適化に不可欠である。 本研究では,超伝導体の一般三次元分布における励起緩和率の抽出を可能にする超伝導体の電気流体力学のスペクトル理論を提案する。 提案手法は, 効率が高く, 放射型ハイブリダイゼーション場を2次量子化できるオープンシステムのモーダル記述を定式化する, 長年の課題に対処する。 これは、放射が計算領域内と外へ伝播できる有限だが透明な境界を実装することで達成される。 結果として生じるスペクトル問題は、多スケール超伝導量子系の非平衡ダイナミクスの解析に適した電気流体力学方程式の粗い定式化の中で定義される。

The accurate modeling of mode hybridization and calculation of radiative relaxation rates have been crucial to the design and optimization of superconducting quantum devices. In this work, we introduce a spectral theory for the electrohydrodynamics of superconductors that enables the extraction of the relaxation rates of excitations in a general three-dimensional distribution of superconducting bodies. Our approach addresses the long-standing problem of formulating a modal description of open systems that is both efficient and allows for second quantization of the radiative hybridized fields. This is achieved through the implementation of finite but transparent boundaries through which radiation can propagate into and out of the computational domain. The resulting spectral problem is defined within a coarse-grained formulation of the electrohydrodynamical equations that is suitable for the analysis of the non-equilibrium dynamics of multiscale superconducting quantum systems.
翻訳日:2023-09-08 14:38:55 公開日:2023-09-07
# 大規模言語モデルによるオープン情報抽出の改善 : 実証的不確実性の検討

Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty ( http://arxiv.org/abs/2309.03433v1 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Xuchao Zhang, Yanchi Liu, Wei Cheng, Haoyu Wang, Zhengzhang Chen, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao(参考訳) Open Information extract (OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。 一般的なタスク解決手段としてChatGPTのような大規模言語モデル(LLM)の可能性にもかかわらず、2つの重要な問題により、OIEタスクの最先端(教師付き)メソッドが遅れている。 まず、LLMは関連する関係と無関係なコンテキストを区別し、モデルを微調整する制限のために構造化された出力を生成するのに苦労する。 第二に、LSMは確率に基づいて自己回帰的に応答を生成し、予測された関係は信頼を欠いている。 本稿では,OIE タスクの改善における LLM の機能評価を行う。 特に,llmの命令追従能力を高めるための様々な文脈内学習戦略と,生成された関係の信頼度を高めるための実証的不確実性定量化モジュールを提案する。 3つのoieベンチマークデータセットに関する実験から,本手法は定量的および定性的に確立された教師付き手法に対して独自のアプローチを持っていることが示された。

Open Information Extraction (OIE) task aims at extracting structured facts from unstructured text, typically in the form of (subject, relation, object) triples. Despite the potential of large language models (LLMs) like ChatGPT as a general task solver, they lag behind state-of-the-art (supervised) methods in OIE tasks due to two key issues. First, LLMs struggle to distinguish irrelevant context from relevant relations and generate structured output due to the restrictions on fine-tuning the model. Second, LLMs generates responses autoregressively based on probability, which makes the predicted relations lack confidence. In this paper, we assess the capabilities of LLMs in improving the OIE task. Particularly, we propose various in-context learning strategies to enhance LLM's instruction-following ability and a demonstration uncertainty quantification module to enhance the confidence of the generated relations. Our experiments on three OIE benchmark datasets show that our approach holds its own against established supervised methods, both quantitatively and qualitatively.
翻訳日:2023-09-08 14:38:41 公開日:2023-09-07
# 同等の長期利益率:静的公正通知を逐次決定に適応させる

Equal Long-term Benefit Rate: Adapting Static Fairness Notions to Sequential Decision Making ( http://arxiv.org/abs/2309.03426v1 )

ライセンス: Link先を確認
Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang, Jieyu Zhao, Furong Huang(参考訳) 機械学習モデルによる決定は、時間とともに持続的な影響をもたらす可能性がある。 長期的な効果を無視すると、静的な設定で公平性基準を無効に課すことは、時間とともにバイアスを悪化させる可能性があることが示されている。 逐次意思決定におけるバイアスに明示的に対処するため、最近の研究はマルコフ決定プロセス(MDP)フレームワークにおける長期的な公平性の概念を定式化している。 彼らは、長期バイアスを各時間ステップにおける静的バイアスの合計と定義している。 しかし, ステップワイズバイアスをナイーブに要約すると, 移行過程における異なる時間ステップの重要度の違いを考慮できないため, 公平感を誤認する可能性があることを実証した。 本研究では,時間的重要性の変動を明示的に考慮し,静的公平性原理を逐次設定に適応する「平等長期利益率」(elbert)という長期的公平性概念を導入する。 さらに、長期利益率の政策勾配を分析的に標準政策勾配に還元できることを示す。 これにより, 標準方針最適化手法をバイアス低減に適用し, 提案手法であるELBERT-POを導出する。 3つの逐次意思決定環境の実験により,ELBERT-POはバイアスを著しく低減し,高い有効性を維持することが示された。 コードはhttps://github.com/Yuancheng-Xu/ELBERT.comで入手できる。

Decisions made by machine learning models may have lasting impacts over time, making long-term fairness a crucial consideration. It has been shown that when ignoring the long-term effect, naively imposing fairness criterion in static settings can actually exacerbate bias over time. To explicitly address biases in sequential decision-making, recent works formulate long-term fairness notions in Markov Decision Process (MDP) framework. They define the long-term bias to be the sum of static bias over each time step. However, we demonstrate that naively summing up the step-wise bias can cause a false sense of fairness since it fails to consider the importance difference of different time steps during transition. In this work, we introduce a long-term fairness notion called Equal Long-term Benefit Rate (ELBERT), which explicitly considers varying temporal importance and adapts static fairness principles to the sequential setting. Moreover, we show that the policy gradient of Long-term Benefit Rate can be analytically reduced to standard policy gradient. This makes standard policy optimization methods applicable for reducing the bias, leading to our proposed bias mitigation method ELBERT-PO. Experiments on three sequential decision making environments show that ELBERT-PO significantly reduces bias and maintains high utility. Code is available at https://github.com/Yuancheng-Xu/ELBERT.
翻訳日:2023-09-08 14:38:22 公開日:2023-09-07
# 準周期ヤコビブロック行列の非摂動的局在

Non-perturbative localization for quasi-periodic Jacobi block matrices ( http://arxiv.org/abs/2309.03423v1 )

ライセンス: Link先を確認
Rui Han, Wilhelm Schlag(参考訳) 準周期ヤコビブロック行列作用素に対する非摂動的アンダーソン局在を、すべてのリャプノフ指数の非消滅を仮定して証明する。 tori $\mathbb{t}^b$ の基底ダイナミクスはディオファント回転であると仮定される。 算術的ローカライゼーションの結果は$b=1$で得られ、スキューシフト、積層グラフェン、XYスピンチェーン、結合ハーパーモデルへの応用について議論する。

We prove non-perturbative Anderson localization for quasi-periodic Jacobi block matrix operators assuming non-vanishing of all Lyapunov exponents. The base dynamics on tori $\mathbb{T}^b$ is assumed to be a Diophantine rotation. Results on arithmetic localization are obtained for $b=1$, and applications to the skew shift, stacked graphene, XY spin chains, and coupled Harper models are discussed.
翻訳日:2023-09-08 14:37:57 公開日:2023-09-07
# base to conversational:日本語命令データセットと大規模言語モデルのチューニング

From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models ( http://arxiv.org/abs/2309.03412v1 )

ライセンス: Link先を確認
Masahiro Suzuki, Masanori Hirano, Hiroki Sakaji(参考訳) インストラクションチューニングは、大規模言語モデル(LLM)が対話的になるために不可欠である。 多くの命令チューニングデータセットが英語に存在しているが、他の言語には顕著に欠けている。 また、その効果は英語以外の言語ではよく確認されていない。 既存のデータセットを拡張・フィルタリングして日本語指導データセットを構築し,そのデータセットを日本語事前学習ベースモデルに適用する。 日本語と英語の既存モデルに対して,命令データセットを用いてローランド適応(LoRA)チューニングを行った。 定量的および定性的な観点からこれらのモデルを評価した。 その結果,日本語指導データセットの有効性が確認された。 また,LLMが比較的小さい場合でも,インストラクションチューニングによって下流タスクのパフォーマンスが向上することが示唆された。 我々の指導データセット、チューニングモデル、実装はオンラインで公開されている。

Instruction tuning is essential for large language models (LLMs) to become interactive. While many instruction tuning datasets exist in English, there is a noticeable lack in other languages. Also, their effectiveness has not been well verified in non-English languages. We construct a Japanese instruction dataset by expanding and filtering existing datasets and apply the dataset to a Japanese pre-trained base model. We performed Low-Rank Adaptation (LoRA) tuning on both Japanese and English existing models using our instruction dataset. We evaluated these models from both quantitative and qualitative perspectives. As a result, the effectiveness of Japanese instruction datasets is confirmed. The results also indicate that even with relatively small LLMs, performances in downstream tasks would be improved through instruction tuning. Our instruction dataset, tuned models, and implementation are publicly available online.
翻訳日:2023-09-08 14:37:50 公開日:2023-09-07
# 最適化ツールとしての大規模言語モデル

Large Language Models as Optimizers ( http://arxiv.org/abs/2309.03409v1 )

ライセンス: Link先を確認
Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen(参考訳) 最適化はユビキタスです。 微分アルゴリズムは様々な問題に対して強力なツールであるが、勾配の欠如は現実世界の多くのアプリケーションに課題を課している。 本研究では,最適化タスクを自然言語で記述する大規模言語モデル(llms)を最適化器として活用するための,単純かつ効果的な手法であるoproを提案する。 各最適化ステップにおいて、LCMは、予め生成された値を含むプロンプトから新しいソリューションを生成し、その後、新しいソリューションを評価し、次の最適化ステップのプロンプトに追加する。 まず,線形回帰問題と旅行セールスマン問題についてOPROを紹介し,タスクの精度を最大化する命令を見つけることを目標とする最適化に進む。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。

Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.
翻訳日:2023-09-08 14:37:40 公開日:2023-09-07
# Fast FixMatch: カリキュラムバッチサイズによる半教師付き学習の高速化

Fast FixMatch: Faster Semi-Supervised Learning with Curriculum Batch Size ( http://arxiv.org/abs/2309.03469v1 )

ライセンス: Link先を確認
John Chen, Chen Dun, Anastasios Kyrillidis(参考訳) SSL(Semi-Supervised Learning)の進歩は,SSLとSupervised Learningのギャップを,ラベル数のごく一部で完全に埋めている。 しかし、最近のパフォーマンス改善はしばしば、トレーニング計算を大幅に増加させるコストでtextit{at}となる。 そこで,本稿では,深層ニューラルネットワークの自然学習力学を生かしたCurriculum Batch Size (CBS), \textit{an unlabeled batch size Curriculum Batch Sizeを提案する。 } トレーニング開始時に小さなラベルのないバッチサイズが使用され、トレーニング終了までに徐々に増加する。 データセット、モデル、エポックの数に関わらず、固定カリキュラムが使用され、すべての設定でトレーニング計算の削減が示される。 我々は、CBS, strong labeled augmentation, Curriculum Pseudo Labeling (CPL) \citep{FlexMatch} を FixMatch \citep{FixMatch} に適用し、新しいSSLアルゴリズムである Fast FixMatch を呼ぶ。 我々は,強いラベル付き強化および/またはCPLがトレーニング計算を著しく低減しないことを示すアブレーション研究を行い,CBSとの相乗効果により最適な性能が得られることを示した。 Fast FixMatchは、以前の最先端技術と比較して、かなり高いデータ利用を実現している。 Fast FixMatchは2.1\times$ - $3.4\times$で、バニラFixMatchと比較して40、250、4000のラベルを除いてCIFAR-10のトレーニング計算を削減し、同じ引用された最先端のエラーレートを達成している。 CIFAR-100、SVHN、STL-10でも同様の結果が得られた。 最後に、fast mixmatchは2.6\times$ - $3.3\times$ で、フェデレーションされたsslタスクのトレーニング計算を削減し、オンライン/ストリーミングでsslタスクを学習する。

Advances in Semi-Supervised Learning (SSL) have almost entirely closed the gap between SSL and Supervised Learning at a fraction of the number of labels. However, recent performance improvements have often come \textit{at the cost of significantly increased training computation}. To address this, we propose Curriculum Batch Size (CBS), \textit{an unlabeled batch size curriculum which exploits the natural training dynamics of deep neural networks.} A small unlabeled batch size is used in the beginning of training and is gradually increased to the end of training. A fixed curriculum is used regardless of dataset, model or number of epochs, and reduced training computations is demonstrated on all settings. We apply CBS, strong labeled augmentation, Curriculum Pseudo Labeling (CPL) \citep{FlexMatch} to FixMatch \citep{FixMatch} and term the new SSL algorithm Fast FixMatch. We perform an ablation study to show that strong labeled augmentation and/or CPL do not significantly reduce training computations, but, in synergy with CBS, they achieve optimal performance. Fast FixMatch also achieves substantially higher data utilization compared to previous state-of-the-art. Fast FixMatch achieves between $2.1\times$ - $3.4\times$ reduced training computations on CIFAR-10 with all but 40, 250 and 4000 labels removed, compared to vanilla FixMatch, while attaining the same cited state-of-the-art error rate \citep{FixMatch}. Similar results are achieved for CIFAR-100, SVHN and STL-10. Finally, Fast MixMatch achieves between $2.6\times$ - $3.3\times$ reduced training computations in federated SSL tasks and online/streaming learning SSL tasks, which further demonstrate the generializbility of Fast MixMatch to different scenarios and tasks.
翻訳日:2023-09-08 14:32:16 公開日:2023-09-07
# ボナード問題におけるクロスイメージコンテキスト

Cross-Image Context Matters for Bongard Problems ( http://arxiv.org/abs/2309.03468v1 )

ライセンス: Link先を確認
Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas(参考訳) 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。 自然画像ボンガード問題のベンチマークであるbongard-hoiでは、既存の手法は66%の精度(確率50%)に達している。 低精度は、ニューラルネットワークが人間のような象徴的なルールを見つける能力の欠如に起因することが多い。 本研究では,既存の手法の多くは,サポートセット全体に含まれる情報を組み込んでおらず,個々のサポートから抽出した情報に依存するという,より単純な問題によって精度を低下させていることを指摘する。 これは、オブジェクト分類に関するわずかな学習タスクとは異なり、典型的なボンガード問題における「キー概念」は、複数の正と複数の負でしか区別できないため、重要な問題である。 このクロスイメージの文脈を考慮に入れるための様々な単純な方法を検討し、以前の方法よりも大幅な向上を示し、bongard-logo (75.3%) とbongard-hoi (72.45%) の新しい最先端パフォーマンスと、元のbongard問題集合 (60.84%) での強力なパフォーマンスをもたらす。

Current machine learning methods struggle to solve Bongard problems, which are a type of IQ test that requires deriving an abstract "concept" from a set of positive and negative "support" images, and then classifying whether or not a new query image depicts the key concept. On Bongard-HOI, a benchmark for natural-image Bongard problems, existing methods have only reached 66% accuracy (where chance is 50%). Low accuracy is often attributed to neural nets' lack of ability to find human-like symbolic rules. In this work, we point out that many existing methods are forfeiting accuracy due to a much simpler problem: they do not incorporate information contained in the support set as a whole, and rely instead on information extracted from individual supports. This is a critical issue, because unlike in few-shot learning tasks concerning object classification, the "key concept" in a typical Bongard problem can only be distinguished using multiple positives and multiple negatives. We explore a variety of simple methods to take this cross-image context into account, and demonstrate substantial gains over prior methods, leading to new state-of-the-art performance on Bongard-LOGO (75.3%) and Bongard-HOI (72.45%) and strong performance on the original Bongard problem set (60.84%).
翻訳日:2023-09-08 14:31:34 公開日:2023-09-07
# オープンVocabulary 360-Degree画像生成のための自己回帰型Omni-Awareアウトペイント

Autoregressive Omni-Aware Outpainting for Open-Vocabulary 360-Degree Image Generation ( http://arxiv.org/abs/2309.03467v1 )

ライセンス: Link先を確認
Zhuqiang Lu, Kun Hu, Chaoyue Wang, Lei Bai, Zhiyong Wang(参考訳) 360度(全方向)の画像は、シーンの全球ビューを提供する。 近年,デジタルカメラやスマートフォンが捉えた従来の狭視野画像(NFoV)から360度画像を合成することで,仮想現実などの様々なシナリオにおいて没入感のある体験を提供することへの関心が高まっている。 しかし、既存の手法は通常、複雑な視覚的詳細を合成したり、生成された画像がユーザーが提供するプロンプトと整合していることを保証するのに不足する。 本研究では,NFoVとテキストガイダンスを併用または個別に,不完全な360度画像を段階的に描画することで,自動回帰型Omni-Aware Generative Network(AOG-Net)を提案する。 この自己回帰スキームは、プロセスの生成と調整を動的に行うことによって、きめ細かいパターンやテキストに一貫性のあるパターンを導出するだけでなく、生成プロセスを通じて、より柔軟な条件編集を可能にする。 各自己回帰ステップにおいて、アウトペイントガイダンスを包括的に定式化するために、グローバルローカルコンディショニング機構が考案された。 テキストガイダンス、全視覚手がかり、nfov入力、全地形計測を符号化し、さらにクロスアテンションに基づくトランスフォーマーをグローバルストリームに、ローカルストリームを条件付き生成バックボーンモデルに定式化する。 aog-netは条件付きエンコーダと生成前の大規模なモデルを活用するために互換性があるため、幅広いオープンボカブラリーテキストガイダンスを生成できる。 室内と屋外の両方でよく使用される2つの360度画像データセットに関する総合実験により,提案手法の最先端性能が示された。 私たちのコードは公開されます。

A 360-degree (omni-directional) image provides an all-encompassing spherical view of a scene. Recently, there has been an increasing interest in synthesising 360-degree images from conventional narrow field of view (NFoV) images captured by digital cameras and smartphones, for providing immersive experiences in various scenarios such as virtual reality. Yet, existing methods typically fall short in synthesizing intricate visual details or ensure the generated images align consistently with user-provided prompts. In this study, autoregressive omni-aware generative network (AOG-Net) is proposed for 360-degree image generation by out-painting an incomplete 360-degree image progressively with NFoV and text guidances joinly or individually. This autoregressive scheme not only allows for deriving finer-grained and text-consistent patterns by dynamically generating and adjusting the process but also offers users greater flexibility to edit their conditions throughout the generation process. A global-local conditioning mechanism is devised to comprehensively formulate the outpainting guidance in each autoregressive step. Text guidances, omni-visual cues, NFoV inputs and omni-geometry are encoded and further formulated with cross-attention based transformers into a global stream and a local stream into a conditioned generative backbone model. As AOG-Net is compatible to leverage large-scale models for the conditional encoder and the generative prior, it enables the generation to use extensive open-vocabulary text guidances. Comprehensive experiments on two commonly used 360-degree image datasets for both indoor and outdoor settings demonstrate the state-of-the-art performance of our proposed method. Our code will be made publicly available.
翻訳日:2023-09-08 14:31:08 公開日:2023-09-07
# MIRA: モデル反転に基づく除去攻撃による深層ニューラルネットワークのブラックボックス透かし

MIRA: Cracking Black-box Watermarking on Deep Neural Networks via Model Inversion-based Removal Attacks ( http://arxiv.org/abs/2309.03466v1 )

ライセンス: Link先を確認
Yifan Lu, Wenxuan Li, Mi Zhang, Xudong Pan, Min Yang(参考訳) 高度に訓練された深層ニューラルネットワーク(DNN)の知的特性を保護するため,DNNモデルの予測行動に埋め込まれたブラックボックスDNN透かしが,専門的なサンプルのセットに組み込まれ,学界と産業の双方で人気が高まっている。 ウォーターマークの堅牢性は通常、保護されたモデルを盗み、ウォーターマーク除去のパラメータを難読化する攻撃者に対して実装される。 最近の研究では、既知の除去の試みに対するほとんどのブラックボックス透かしスキームの堅牢性が実証されている。 本稿では,主要なブラックボックスDNN透かし方式のほとんどに対して,透かしに依存しない新しいモデル反転型除去攻撃(\textsc{Mira})を提案する。 一般的に、攻撃パイプラインは保護されたモデルの内部を利用してウォーターマークメッセージを復元し、解き放つ。 さらに,ターゲットクラス検出とサンプル分割アルゴリズムの設計を行い,<textsc{mira>によるユーティリティ損失を低減し,透かしスキームの半分でデータフリーな透かし除去を実現する。 我々は,3つのベンチマークデータセットとDNNアーキテクチャを用いた10の主流ブラックボックス透かしに対して,textsc{Mira}の総合評価を行う。 6つのベースライン削除攻撃と比較すると、‘textsc{Mira} はカバーされた透かしに対して強い透かし除去効果を達成し、盗まれたモデルユーティリティの少なくとも 90 % を保存し、データセットの可用性をより緩やかに、あるいは全く仮定しない。

To protect the intellectual property of well-trained deep neural networks (DNNs), black-box DNN watermarks, which are embedded into the prediction behavior of DNN models on a set of specially-crafted samples, have gained increasing popularity in both academy and industry. Watermark robustness is usually implemented against attackers who steal the protected model and obfuscate its parameters for watermark removal. Recent studies empirically prove the robustness of most black-box watermarking schemes against known removal attempts. In this paper, we propose a novel Model Inversion-based Removal Attack (\textsc{Mira}), which is watermark-agnostic and effective against most of mainstream black-box DNN watermarking schemes. In general, our attack pipeline exploits the internals of the protected model to recover and unlearn the watermark message. We further design target class detection and recovered sample splitting algorithms to reduce the utility loss caused by \textsc{Mira} and achieve data-free watermark removal on half of the watermarking schemes. We conduct comprehensive evaluation of \textsc{Mira} against ten mainstream black-box watermarks on three benchmark datasets and DNN architectures. Compared with six baseline removal attacks, \textsc{Mira} achieves strong watermark removal effects on the covered watermarks, preserving at least $90\%$ of the stolen model utility, under more relaxed or even no assumptions on the dataset availability.
翻訳日:2023-09-08 14:30:36 公開日:2023-09-07
# SyncDreamer: シングルビュー画像から複数ビュー一貫性の画像を生成する

SyncDreamer: Generating Multiview-consistent Images from a Single-view Image ( http://arxiv.org/abs/2309.03453v1 )

ライセンス: Link先を確認
Yuan Liu and Cheng Lin and Zijiao Zeng and Xiaoxiao Long and Lingjie Liu and Taku Komura and Wenping Wang(参考訳) 本稿では,一視点画像から多視点一貫性画像を生成する新しい拡散モデルを提案する。 事前訓練された大規模2次元拡散モデルを用いて、Zero123は、オブジェクトの単一ビューイメージから可塑性な新規ビューを生成する能力を示す。 しかし、生成画像の幾何学と色における一貫性を維持することは依然として課題である。 この問題に対処するために,マルチビュー画像の連立確率分布をモデル化し,単一の逆過程におけるマルチビュー一貫性画像の生成を可能にする,同期型マルチビュー拡散モデルを提案する。 syncdreamerは、逆プロセスの各ステップで生成されたすべての画像の中間状態を同期させ、対応する機能を異なるビューに関連付ける3d認識機能アテンションメカニズムを提供する。 実験により、SyncDreamerは様々な視点で高い一貫性の画像を生成し、ノベルビュー合成、テキスト3D、画像3Dといった様々な3D生成タスクに適していることが示された。

In this paper, we present a novel diffusion model called that generates multiview-consistent images from a single-view image. Using pretrained large-scale 2D diffusion models, recent work Zero123 demonstrates the ability to generate plausible novel views from a single-view image of an object. However, maintaining consistency in geometry and colors for the generated images remains a challenge. To address this issue, we propose a synchronized multiview diffusion model that models the joint probability distribution of multiview images, enabling the generation of multiview-consistent images in a single reverse process. SyncDreamer synchronizes the intermediate states of all the generated images at every step of the reverse process through a 3D-aware feature attention mechanism that correlates the corresponding features across different views. Experiments show that SyncDreamer generates images with high consistency across different views, thus making it well-suited for various 3D generation tasks such as novel-view-synthesis, text-to-3D, and image-to-3D.
翻訳日:2023-09-08 14:30:06 公開日:2023-09-07
# モーダリティ推論の欠如に対するマルチモーダリティ誘導ネットワーク

Multi-Modality Guidance Network For Missing Modality Inference ( http://arxiv.org/abs/2309.03452v1 )

ライセンス: Link先を確認
Zhuokai Zhao, Harish Palani, Tianyi Liu, Lena Evans and Ruth Toner(参考訳) 近年,マルチモーダルモデルが大きな成功を収めている。 標準的なマルチモーダルアプローチは、トレーニング段階から推論段階まで、常にモダリティを仮定することが多い。 しかし、実際には、多くのシナリオは推論中にモダリティの欠如によってそのような仮定を満たさないため、マルチモーダルモデルの適用範囲に制限が生じる。 既存の手法では、不足しているモダリティを再構築することで問題を緩和するが、不要な計算コストは増大する。 そこで本研究では,学習中の知識共有を促進させ,マルチモーダル表現を活用し,推論のための単一モダリティモデルの訓練を行う新しい指導ネットワークを提案する。 暴力検出における実生活実験により,提案フレームワークは,従来の訓練されたモデルよりもはるかに優れた単一モダリティモデルを訓練し,同一の推論コストを維持した。

Multimodal models have gained significant success in recent years. Standard multimodal approaches often assume unchanged modalities from training stage to inference stage. In practice, however, many scenarios fail to satisfy such assumptions with missing modalities during inference, leading to limitations on where multimodal models can be applied. While existing methods mitigate the problem through reconstructing the missing modalities, it increases unnecessary computational cost, which could be just as critical, especially for large, deployed systems. To solve the problem from both sides, we propose a novel guidance network that promotes knowledge sharing during training, taking advantage of the multimodal representations to train better single-modality models for inference. Real-life experiment in violence detection shows that our proposed framework trains single-modality models that significantly outperform its traditionally trained counterparts while maintaining the same inference cost.
翻訳日:2023-09-08 14:29:48 公開日:2023-09-07
# 効率的な水中データ解析のためのクロスドメイン音声認識

Cross-domain Sound Recognition for Efficient Underwater Data Analysis ( http://arxiv.org/abs/2309.03451v1 )

ライセンス: Link先を確認
Jeongsoo Park, Dong-Gyun Han, Hyoung Sul La, Sangmin Lee, Yoonchang Han, and Eun-Jin Yang(参考訳) 本稿では,広範囲の非水中音(aerial)を訓練したモデルを用いて,大規模水中音響データの解析を行うための新しい深層学習手法を提案する。 大量の水中データをラベル付けすることの課題を認識し、この労働集約的な手順を加速するための2つの方法論を提案する。 我々のアプローチの第一部は、空中音響認識モデルの特徴ベクトルを用いた水中データのpcaおよびumap可視化である。 これにより、データを2次元空間にクラスタリングし、これらのクラスタ内のポイントを聴き、その特徴を理解することができます。 この革新的な方法は、さらなるトレーニングのために候補ラベルを選択するプロセスを単純化する。 第2部では,選択した水中データと非水中データセットの両方を用いてニューラルネットワークモデルをトレーニングする。 一般的な水中音であるエアガン音の認識のためのモデルの精度, リコール, F1 スコアを測定するために, 定量的解析を行った。 モデルによるF1スコアは84.3%を超え, 水中音響データ解析におけるアプローチの有効性を示した。 本稿では,水中データ解析に要する作業量を削減するための重要な可能性を示し,クロスドメインデータ解析の分野における新たな可能性を開く。

This paper presents a novel deep learning approach for analyzing massive underwater acoustic data by leveraging a model trained on a broad spectrum of non-underwater (aerial) sounds. Recognizing the challenge in labeling vast amounts of underwater data, we propose a two-fold methodology to accelerate this labor-intensive procedure. The first part of our approach involves PCA and UMAP visualization of the underwater data using the feature vectors of an aerial sound recognition model. This enables us to cluster the data in a two dimensional space and listen to points within these clusters to understand their defining characteristics. This innovative method simplifies the process of selecting candidate labels for further training. In the second part, we train a neural network model using both the selected underwater data and the non-underwater dataset. We conducted a quantitative analysis to measure the precision, recall, and F1 score of our model for recognizing airgun sounds, a common type of underwater sound. The F1 score achieved by our model exceeded 84.3%, demonstrating the effectiveness of our approach in analyzing underwater acoustic data. The methodology presented in this paper holds significant potential to reduce the amount of labor required in underwater data analysis and opens up new possibilities for further research in the field of cross-domain data analysis.
翻訳日:2023-09-08 14:29:31 公開日:2023-09-07
# XGen-7B技術報告

XGen-7B Technical Report ( http://arxiv.org/abs/2309.03450v1 )

ライセンス: Link先を確認
Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kry\'sci\'nski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong(参考訳) 大規模言語モデル(llm)は、さまざまなドメインにまたがって広く普及し、情報と対話し、研究を行う方法を変えています。 しかし、ほとんどの高い性能のLSMはプロプライエタリな壁の後ろに留まり、科学的進歩を妨げる。 一方、ほとんどのオープンソース LLM は、長いシーケンス長をサポートする能力に制限があり、これは入力コンテキスト上で推論を必要とする多くのタスクにとって重要な要件である。 これを解決するために、最大8Kシーケンス長で最大1.5Tトークンの7BパラメータモデルであるXGenをトレーニングしました。 また、パブリックドメインの命令データに基づいてXGenモデルを微調整し、その命令を微調整する(XGen-Inst)。 研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。 標準ベンチマークによる評価の結果,XGen モデルは最先端のオープンソース LLM と比較すると,同等あるいはより良い結果が得られることがわかった。 2K系列のオープンソースLLMに対する8K系列モデルの利点を示す。

Large Language Models (LLMs) have become ubiquitous across various domains, transforming the way we interact with information and conduct research. However, most high-performing LLMs remain confined behind proprietary walls, hindering scientific progress. Most open-source LLMs, on the other hand, are limited in their ability to support longer sequence lengths, which is a key requirement for many tasks that require inference over an input context. To address this, we have trained XGen, a series of 7B parameter models on up to 8K sequence length for up to 1.5T tokens. We have also finetuned the XGen models on public-domain instructional data, creating their instruction-tuned counterparts (XGen-Inst). We open-source our models for both research advancements and commercial applications. Our evaluation on standard benchmarks shows that XGen models achieve comparable or better results when compared with state-of-the-art open-source LLMs. Our targeted evaluation on long sequence modeling tasks shows the benefits of our 8K-sequence models over 2K-sequence open-source LLMs.
翻訳日:2023-09-08 14:29:13 公開日:2023-09-07
# 生成型adversarial neural operatorsによる広帯域動画像合成:開発と検証

Broadband Ground Motion Synthesis via Generative Adversarial Neural Operators: Development and Validation ( http://arxiv.org/abs/2309.03447v1 )

ライセンス: Link先を確認
Yaozhong Shi, Grigorios Lavrentiadis, Domniki Asimaki, Zachary E. Ross, Kamyar Azizzadenesheli(参考訳) 本稿では,GANO(Generative Adversarial Neural Operator)を用いた地動合成のためのデータ駆動モデルを提案する。このモデルでは,機械学習の最近の進歩とオープンアクセスの強い動きデータセットを組み合わせて,モーメントマグニチュード(M$),破断距離(R_{rup}$),最大30mの時間平均せん断波速度(V_{S30}$),テクトニック環境や断層のスタイルを条件とした3成分加速度時間ヒストリーを生成する。 モデルトレーニングがデータサンプリング周波数に依存しないことを保証する、分解能不変量アーキテクチャであるneural operatorsを使用する。 まず, 条件付きグラウンドモーション合成アルゴリズム(従来はcGM-GANOと呼ばれていた)について述べる。 次に,南カリフォルニア地震センター(SCEC)ブロードバンド・プラットフォーム(BBP)で発生する地動シミュレーションを用いて,cGM-GANOフレームワークを検証する。 最後に、日本のKK-netデータセット上でcGM-GANOをトレーニングし、このフレームワークがフーリエ振幅と擬スペクトル加速度のスケール、距離、および$V_{S30}$を回復可能であることを示す。 実験データを用いた残差解析と,選択した地動シナリオに対する従来の地動モデル(GMM)との比較により,cGM-GANOの評価を行った。 その結果,cGM-GANOは,対応するテクトニクス環境のGMMと一貫した中央値のスケーリングを実現することがわかった。 最大のミスフィットは、トレーニングデータの不足により、短距離で観測される。 短距離の例外を除いて、応答スペクトル順序の摂動変動性は、特にトレーニングデータの適切さによる沈み込みイベントに関してもよく理解されている。 提案フレームワークの応用には、サイト固有のエンジニアリングアプリケーションのためのリスク対象地動の生成が含まれる。

We present a data-driven model for ground-motion synthesis using a Generative Adversarial Neural Operator (GANO) that combines recent advancements in machine learning and open access strong motion data sets to generate three-component acceleration time histories conditioned on moment magnitude ($M$), rupture distance ($R_{rup}$), time-average shear-wave velocity at the top $30m$ ($V_{S30}$), and tectonic environment or style of faulting. We use Neural Operators, a resolution invariant architecture that guarantees that the model training is independent of the data sampling frequency. We first present the conditional ground-motion synthesis algorithm (referred to heretofore as cGM-GANO) and discuss its advantages compared to previous work. Next, we verify the cGM-GANO framework using simulated ground motions generated with the Southern California Earthquake Center (SCEC) Broadband Platform (BBP). We lastly train cGM-GANO on a KiK-net dataset from Japan, showing that the framework can recover the magnitude, distance, and $V_{S30}$ scaling of Fourier amplitude and pseudo-spectral accelerations. We evaluate cGM-GANO through residual analysis with the empirical dataset as well as by comparison with conventional Ground Motion Models (GMMs) for selected ground motion scenarios. Results show that cGM-GANO produces consistent median scaling with the GMMs for the corresponding tectonic environments. The largest misfit is observed at short distances due to the scarcity of training data. With the exception of short distances, the aleatory variability of the response spectral ordinates is also well captured, especially for subduction events due to the adequacy of training data. Applications of the presented framework include generation of risk-targeted ground motions for site-specific engineering applications.
翻訳日:2023-09-08 14:28:57 公開日:2023-09-07
# 非一様サンプリングを用いた変圧器拡散モデルによる水中画像の強調

Underwater Image Enhancement by Transformer-based Diffusion Model with Non-uniform Sampling for Skip Strategy ( http://arxiv.org/abs/2309.03445v1 )

ライセンス: Link先を確認
Yi Tang, Takafumi Iwaguchi, Hiroshi Kawasaki(参考訳) 本稿では,水中シーンにおける拡散モデルを用いた画像強調手法を提案する。 提案手法は,水中画像とガウス雑音を入力として,条件付き拡散確率モデルを適用して対応する拡張画像を生成する。 さらに, 拡散モデルにおける逆過程の効率を向上させるために, 2つの異なる方法を採用する。 まず,提案する軽量トランスフォーメーションネットワークは,イテレーション毎のネットワーク転送時間を効果的に促進できる。 一方で,反復回数を減らすためのスキップサンプリング戦略も導入する。 さらに,スキップサンプリング戦略に基づき,時間ステップのシーケンスに対する2つの異なる非一様サンプリング手法,すなわち,進化的アルゴリズムを用いた分割サンプリングと探索を提案する。 どちらも有効であり、前の均一サンプリングに対して同じステップを使用することで、さらに性能を向上させることができる。 最後に,最近の最先端手法と提案手法とで,広く使用されている水中拡張データセットの相対評価を行った。 実験の結果,本手法は競争性能と高い効率を両立できることがわかった。 私たちのコードは \href{mailto:https://github.com/piggy2009/dm_underwater}{\color{blue}{https://github.com/piggy2009/dm\_underwater}} で利用可能です。

In this paper, we present an approach to image enhancement with diffusion model in underwater scenes. Our method adapts conditional denoising diffusion probabilistic models to generate the corresponding enhanced images by using the underwater images and the Gaussian noise as the inputs. Additionally, in order to improve the efficiency of the reverse process in the diffusion model, we adopt two different ways. We firstly propose a lightweight transformer-based denoising network, which can effectively promote the time of network forward per iteration. On the other hand, we introduce a skip sampling strategy to reduce the number of iterations. Besides, based on the skip sampling strategy, we propose two different non-uniform sampling methods for the sequence of the time step, namely piecewise sampling and searching with the evolutionary algorithm. Both of them are effective and can further improve performance by using the same steps against the previous uniform sampling. In the end, we conduct a relative evaluation of the widely used underwater enhancement datasets between the recent state-of-the-art methods and the proposed approach. The experimental results prove that our approach can achieve both competitive performance and high efficiency. Our code is available at \href{mailto:https://github.com/piggy2009/DM_underwater}{\color{blue}{https://github.com/piggy2009/DM\_underwater}}.
翻訳日:2023-09-08 14:28:21 公開日:2023-09-07
# SAM3D: ボリューム医療画像におけるセグメンテーションモデル

SAM3D: Segment Anything Model in Volumetric Medical Images ( http://arxiv.org/abs/2309.03493v1 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Minh-Triet Tran and Ngan Le(参考訳) 画像分割は医用画像解析において重要な課題であり、正確な診断に役立つ貴重な情報を提供する。 近年,深層学習に基づく自動画像分割手法が医療画像に優れた結果をもたらしている。 本稿では,2次元静止画セグメンテーションにおける印象的な精度と強力な一般化能力に多くの注目を集めた基礎モデルであるsegment anything model(sam)に触発されて,3次元体積医用画像を対象としたsam3dを提案する。 ボリュームを2次元スライスに分割することでセグメンテーションを行う既存のSAMベースボリュームセグメンテーション法とは異なり、本モデルでは3次元ボリューム画像全体を入力として取り込んで、簡便かつ効果的に、かなりの数のパラメータのトレーニングを避ける。 複数の医用画像データセットを用いて大規模な実験を行い, パラメータの面では極めて効率的でありながら, 従来の3次元医用セグメンテーションの手法と比較して, ネットワークが競争力を発揮することを示した。

Image segmentation is a critical task in medical image analysis, providing valuable information that helps to make an accurate diagnosis. In recent years, deep learning-based automatic image segmentation methods have achieved outstanding results in medical images. In this paper, inspired by the Segment Anything Model (SAM), a foundation model that has received much attention for its impressive accuracy and powerful generalization ability in 2D still image segmentation, we propose a SAM3D that targets at 3D volumetric medical images and utilizes the pre-trained features from the SAM encoder to capture meaningful representations of input images. Different from other existing SAM-based volumetric segmentation methods that perform the segmentation by dividing the volume into a set of 2D slices, our model takes the whole 3D volume image as input and processes it simply and effectively that avoids training a significant number of parameters. Extensive experiments are conducted on multiple medical image datasets to demonstrate that our network attains competitive results compared with other state-of-the-art methods in 3D medical segmentation tasks while being significantly efficient in terms of parameters.
翻訳日:2023-09-08 14:21:21 公開日:2023-09-07
# 適応共振理論によるプライバシ保存連続フェデレーションクラスタリング

Privacy-preserving Continual Federated Clustering via Adaptive Resonance Theory ( http://arxiv.org/abs/2309.03487v1 )

ライセンス: Link先を確認
Naoki Masuyama, Yusuke Nojima, Yuichiro Toda, Chu Kiong Loo, Hisao Ishibuchi, Naoyuki Kubota(参考訳) データプライバシ保護の重要性が高まる中、さまざまなプライバシ保護機械学習手法が提案されている。 クラスタリング領域では、フェデレーション学習フレームワーク(フェデレーションクラスタリング)を用いた様々なアルゴリズムが活発に研究され、データのプライバシーを維持しながら高いクラスタリング性能を示した。 しかしながら、既存のフェデレーションクラスタリングアルゴリズムで使用される基盤クラスタ(すなわちクラスタリングアルゴリズム)のほとんどは、事前にクラスタの数を指定する必要がある。 したがって、これらのアルゴリズムは、分布が未知または連続的に変化するデータを扱うことができない。 そこで本研究では,プライバシ保護型連続フェデレーションクラスタリングアルゴリズムを提案する。 提案アルゴリズムでは,連続学習が可能な適応共振理論に基づくクラスタリングアルゴリズムをベースクラスタリングとして用いた。 そこで,提案アルゴリズムは連続学習の能力を継承する。 合成および実世界のデータセットを用いた実験の結果,提案アルゴリズムは,データのプライバシ保護と継続的な学習能力を実現しつつ,最先端のフェデレーションクラスタリングアルゴリズムよりも優れたクラスタリング性能を示す。 ソースコードは \url{https://github.com/Masuyama-lab/FCAC} で公開されている。

With the increasing importance of data privacy protection, various privacy-preserving machine learning methods have been proposed. In the clustering domain, various algorithms with a federated learning framework (i.e., federated clustering) have been actively studied and showed high clustering performance while preserving data privacy. However, most of the base clusterers (i.e., clustering algorithms) used in existing federated clustering algorithms need to specify the number of clusters in advance. These algorithms, therefore, are unable to deal with data whose distributions are unknown or continually changing. To tackle this problem, this paper proposes a privacy-preserving continual federated clustering algorithm. In the proposed algorithm, an adaptive resonance theory-based clustering algorithm capable of continual learning is used as a base clusterer. Therefore, the proposed algorithm inherits the ability of continual learning. Experimental results with synthetic and real-world datasets show that the proposed algorithm has superior clustering performance to state-of-the-art federated clustering algorithms while realizing data privacy protection and continual learning ability. The source code is available at \url{https://github.com/Masuyama-lab/FCAC}.
翻訳日:2023-09-08 14:20:49 公開日:2023-09-07
# バルク散逸量子系における作用素拡散による加速減衰

Accelerated Decay due to Operator Spreading in Bulk-Dissipated Quantum Systems ( http://arxiv.org/abs/2309.03485v1 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Takashi Mori(参考訳) マルコフ開多体量子系は複雑な緩和ダイナミクスを示す。 リウヴィリアンのスペクトルギャップは漸近減衰率を定常状態に向かって特徴づけるが、スペクトルギャップは必ずしも全体の緩和時間を決定するものではないことが最近指摘されている。 漸近的長期体制以前の緩和過程に対する我々の理解はまだ限られている。 ここでは定常状態における自己相関関数の集団緩和ダイナミクスを示す。 解析において重要な量として、過渡緩和を特徴付ける瞬時崩壊率を導入し、長期限界における従来の漸近崩壊率に収束する。 この理論は、バルク散逸した系が、作用素の拡散に伴う量子情報のスクランブル化によって漸近的レジーム以前の加速減衰を示すことを予測している。

Markovian open many-body quantum systems display complicated relaxation dynamics. The spectral gap of the Liouvillian characterizes the asymptotic decay rate towards the stationary state, but it has recently been pointed out that the spectral gap does not necessarily determine the overall relaxation time. Our understanding on the relaxation process before the asymptotically long-time regime is still limited. We here present a collective relaxation dynamics of autocorrelation functions in the stationary state. As a key quantity in the analysis, we introduce the instantaneous decay rate, which characterizes the transient relaxation and converges to the conventional asymptotic decay rate in the long-time limit. Our theory predicts that a bulk-dissipated system generically shows an accelerated decay before the asymptotic regime due to the scrambling of quantum information associated with the operator spreading.
翻訳日:2023-09-08 14:20:21 公開日:2023-09-07
# 物理の法則

Laws of Physics ( http://arxiv.org/abs/2309.03484v1 )

ライセンス: Link先を確認
Eddy Keming Chen(参考訳) その複雑さにもかかわらず、我々の世界は単純な物理法則によって統治されているようだ。 この巻はそのような法律を哲学的に紹介している。 オントロジー、可能性、説明、誘導、反事実、時間、決定論、基本性といった哲学の中心的な問題とどのように関係しているかを説明します。 法律は、その物理的可能性を制限することによって世界を支配する基本的な事実であると提案する。 単純性、正確性、客観性という3つの法則を考察し、それらが物理学の法則とどう関連しているかを議論する。

Despite its apparent complexity, our world seems to be governed by simple laws of physics. This volume provides a philosophical introduction to such laws. I explain how they are connected to some of the central issues in philosophy, such as ontology, possibility, explanation, induction, counterfactuals, time, determinism, and fundamentality. I suggest that laws are fundamental facts that govern the world by constraining its physical possibilities. I examine three hallmarks of laws--simplicity, exactness, and objectivity--and discuss whether and how they may be associated with laws of physics.
翻訳日:2023-09-08 14:20:02 公開日:2023-09-07
# DetermiNet:Determinerを用いた複雑なビジュアルグラウンド参照のための大規模診断データセット

DetermiNet: A Large-Scale Diagnostic Dataset for Complex Visually-Grounded Referencing using Determiners ( http://arxiv.org/abs/2309.03483v1 )

ライセンス: Link先を確認
Clarence Lee, M Ganesh Kumar, Cheston Tan(参考訳) 最先端のビジュアルグラウンドモデルは高い検出精度を達成することができるが、興味のある特定のオブジェクトのみと全てのオブジェクトを区別するように設計されていない。 自然言語では、特定の対象や興味のある対象のセットを特定するために、人間は「私」や「アイザー」や「スーズ」といった決定器を使う。 決定子は、重要な単語クラスとして、名詞の参照または量に関する自然言語におけるスキーマの一種である。 既存の接地参照データセットは、名詞、動詞、形容詞などの他の単語クラスと比べて、決定子に重点を置いている。 これにより、オブジェクト参照の完全な多様性と複雑さを理解するモデルの開発が困難になる。 そこで我々は,25個の決定子に基づく合成画像とキャプションからなるDetermiNetデータセットを開発し,リリースした。 タスクは、与えられた決定子のセマンティクスによって制約された、関心のあるオブジェクトを識別するための境界ボックスを予測することである。 現在の最先端のビジュアルグラウンドモデルはデータセットではうまく機能せず、参照および定量化タスクにおける既存のモデルの制限を強調している。

State-of-the-art visual grounding models can achieve high detection accuracy, but they are not designed to distinguish between all objects versus only certain objects of interest. In natural language, in order to specify a particular object or set of objects of interest, humans use determiners such as "my", "either" and "those". Determiners, as an important word class, are a type of schema in natural language about the reference or quantity of the noun. Existing grounded referencing datasets place much less emphasis on determiners, compared to other word classes such as nouns, verbs and adjectives. This makes it difficult to develop models that understand the full variety and complexity of object referencing. Thus, we have developed and released the DetermiNet dataset , which comprises 250,000 synthetically generated images and captions based on 25 determiners. The task is to predict bounding boxes to identify objects of interest, constrained by the semantics of the given determiner. We find that current state-of-the-art visual grounding models do not perform well on the dataset, highlighting the limitations of existing models on reference and quantification tasks.
翻訳日:2023-09-08 14:19:35 公開日:2023-09-07
# tsi-net:digital subtraction angiographyにおける頭蓋内動脈セグメンテーションのためのタイミングシーケンス画像セグメンテーションネットワーク

TSI-Net: A Timing Sequence Image Segmentation Network for Intracranial Artery Segmentation in Digital Subtraction Angiography ( http://arxiv.org/abs/2309.03477v1 )

ライセンス: Link先を確認
Lemeng Wang, Wentao Liu, Weijin Xu, Haoyuan Li, Huihua Yang, Feng Gao(参考訳) 脳血管疾患は、現在、世界の主要な疾患の1つです。 デジタルサブトラクション血管造影(DSA)シークエンスにおける頭蓋内動脈(IA)の自動分画は,血管疾患の診断や神経インターベンショナリーの指導において重要なステップである。 一方、単一の画像は、DSA技術の撮像原理に従って、コントラスト媒体内のIAの一部しか表示できない。 したがって、2D DSAセグメンテーション法は、脳血管疾患の完全なIA情報と治療を捉えることができない。 エンコーダに双方向のConvGRUモジュール(BCM)を組み込んだ,TSI-Netと呼ばれるU字型の時系列画像分割ネットワークを提案する。 エンコーダには双方向のConvGRUモジュール(BCM)が組み込まれており、可変長DSAシーケンスを入力し、過去と将来の情報を保持し、2D画像に分割することができる。 また,最後に細かな船舶を監督するセンシティブディテールブランチ(sdb)を導入する。 DSAシークエンスデータセットDIASを用いて実験したところ、近年の最先端ネットワークよりも大幅に性能が向上した。 特に0.797のSen評価基準を達成しており、他の手法と比べて3%改善されている。

Cerebrovascular disease is one of the major diseases facing the world today. Automatic segmentation of intracranial artery (IA) in digital subtraction angiography (DSA) sequences is an important step in the diagnosis of vascular related diseases and in guiding neurointerventional procedures. While, a single image can only show part of the IA within the contrast medium according to the imaging principle of DSA technology. Therefore, 2D DSA segmentation methods are unable to capture the complete IA information and treatment of cerebrovascular diseases. We propose A timing sequence image segmentation network with U-shape, called TSI-Net, which incorporates a bi-directional ConvGRU module (BCM) in the encoder. The network incorporates a bi-directional ConvGRU module (BCM) in the encoder, which can input variable-length DSA sequences, retain past and future information, segment them into 2D images. In addition, we introduce a sensitive detail branch (SDB) at the end for supervising fine vessels. Experimented on the DSA sequence dataset DIAS, the method performs significantly better than state-of-the-art networks in recent years. In particular, it achieves a Sen evaluation metric of 0.797, which is a 3% improvement compared to other methods.
翻訳日:2023-09-08 14:19:11 公開日:2023-09-07
# interactionnet: トランスフォーマーを用いた自律運転のための共同計画と予測

InteractionNet: Joint Planning and Prediction for Autonomous Driving with Transformers ( http://arxiv.org/abs/2309.03475v1 )

ライセンス: Link先を確認
Jiawei Fu, Yanqing Shen, Zhiqiang Jian, Shitao Chen, Jingmin Xin, and Nanning Zheng(参考訳) 計画と予測は、自律運転の重要な2つのモジュールであり、最近大きな進歩を遂げた。 それにもかかわらず、既存のほとんどの手法は計画と予測を独立とみなし、それら間の相関を無視しており、交通シナリオの相互作用や動的変化に対する考慮の欠如につながっている。 この課題に対処するために、transformerを利用して全トラフィック参加者間でグローバルなコンテキスト推論を共有し、インタラクションをキャプチャし、相互接続計画と予測を行い、ジョイントを実現するinteractionnetを提案する。 さらに、InteractionNetは別のトランスフォーマーをデプロイして、重要な車両や見えない車両を含む認識領域に、モデルがさらなる注意を払うのを助ける。 interactionnetはいくつかのベンチマークで、特に安全性の観点から他のベースラインよりも優れており、これは計画と予測の合同の考慮から恩恵を受けている。 コードはhttps://github.com/fujiawei0724/InteractionNetで入手できる。

Planning and prediction are two important modules of autonomous driving and have experienced tremendous advancement recently. Nevertheless, most existing methods regard planning and prediction as independent and ignore the correlation between them, leading to the lack of consideration for interaction and dynamic changes of traffic scenarios. To address this challenge, we propose InteractionNet, which leverages transformer to share global contextual reasoning among all traffic participants to capture interaction and interconnect planning and prediction to achieve joint. Besides, InteractionNet deploys another transformer to help the model pay extra attention to the perceived region containing critical or unseen vehicles. InteractionNet outperforms other baselines in several benchmarks, especially in terms of safety, which benefits from the joint consideration of planning and forecasting. The code will be available at https://github.com/fujiawei0724/InteractionNet.
翻訳日:2023-09-08 14:18:41 公開日:2023-09-07
# ビデオオブジェクトセグメンテーション参照のための時間的収集と分布

Temporal Collection and Distribution for Referring Video Object Segmentation ( http://arxiv.org/abs/2309.03473v1 )

ライセンス: Link先を確認
Jiajin Tang, Ge Zheng, Sibei Yang(参考訳) 参照ビデオオブジェクトのセグメンテーションは、自然言語表現に従ってビデオシーケンスを通して参照対象をセグメンテーションすることを目的としている。 自然言語表現とオブジェクトの動作と、その動的関連をグローバルビデオレベルで調整する必要があるが、フレームレベルでオブジェクトをセグメンテーションする必要がある。 この目的を達成するために,グローバルレファレントトークンとオブジェクトクエリのシーケンスを同時に保持し,前者が言語表現に従ってビデオレベルのレファレントをキャプチャすると同時に,後者が各フレームでのオブジェクトの配置とセグメンテーションを改善する役割を担っていることを提案する。 さらに,オブジェクト上でのオブジェクトの動きと空間的-時空間的クロスモーダル推論を明示的に捉えるために,グローバル参照トークンとオブジェクトクエリとのインタラクションのための新しい時間的コレクション分散機構を提案する。 具体的には、時間収集機構は、オブジェクトクエリから時間運動、言語表現に至るまで、参照トークンのグローバル情報を収集する。 時間分布は、まず、参照トークンを参照シーケンスに全フレームにわたって分散し、その後、参照シーケンスとオブジェクトクエリ間の効率的なクロスフレーム推論を行う。 実験結果から,本手法は全てのベンチマークにおける最先端の手法よりも連続的に,有意に優れていた。

Referring video object segmentation aims to segment a referent throughout a video sequence according to a natural language expression. It requires aligning the natural language expression with the objects' motions and their dynamic associations at the global video level but segmenting objects at the frame level. To achieve this goal, we propose to simultaneously maintain a global referent token and a sequence of object queries, where the former is responsible for capturing video-level referent according to the language expression, while the latter serves to better locate and segment objects with each frame. Furthermore, to explicitly capture object motions and spatial-temporal cross-modal reasoning over objects, we propose a novel temporal collection-distribution mechanism for interacting between the global referent token and object queries. Specifically, the temporal collection mechanism collects global information for the referent token from object queries to the temporal motions to the language expression. In turn, the temporal distribution first distributes the referent token to the referent sequence across all frames and then performs efficient cross-frame reasoning between the referent sequence and object queries in every frame. Experimental results show that our method outperforms state-of-the-art methods on all benchmarks consistently and significantly.
翻訳日:2023-09-08 14:18:26 公開日:2023-09-07
# 生成的スキャンパス表現に基づく360$^\circ$画像の知覚的品質評価

Perceptual Quality Assessment of 360$^\circ$ Images Based on Generative Scanpath Representation ( http://arxiv.org/abs/2309.03472v1 )

ライセンス: Link先を確認
Xiangjie Sui, Hanwei Zhu, Xuelin Liu, Yuming Fang, Shiqi Wang, Zhou Wang(参考訳) 全方位(すなわち、360$^\circ$)画像品質評価(OIQA)のためのヒューリスティックモデルの設計に多大な努力を払っているが、360$^\circ$画像の知覚品質の変化につながる観察行動の多様性が考慮されていないため、目立ったギャップが残っている。 ユーザの視線パターンを著しく低下させる視聴条件の無視と、品質推論のための360$^\circ$画像からの単一のビューポートシーケンスへの過度な依存である。 これらの課題に対処するために,360$^\circ$画像の品質を効果的に推定するための独自の生成型スキャパス表現(GSR)を導入する。 より具体的には、視聴及び探索時間の開始点を特徴とする視聴条件を考えると、動的視覚的固定からなる走査パスのセットをアプ・スキャンパス生成器を用いて作成することができる。 この後、スキャンパスを用いて360$^\circ$画像を独自のGSRに変換し、スキャンパスから得られる視線に焦点を絞ったコンテンツのグローバルな概要を提供する。 これにより、360$^\circ$画像の品質推定はGSRの画像に迅速に変換される。 そこで我々は,GSRの品質マップを学習し,効率的なOIQA計算フレームワークを提案する。 包括的実験により,提案手法の予測は時空間領域における人間の知覚と高度に一致し,特に局所的に歪んだ360$^\circ$画像の様々な視聴条件下での難易度が高いことがわかった。 コードはhttps://github.com/xiangjieSui/GSRで公開される。

Despite substantial efforts dedicated to the design of heuristic models for omnidirectional (i.e., 360$^\circ$) image quality assessment (OIQA), a conspicuous gap remains due to the lack of consideration for the diversity of viewing behaviors that leads to the varying perceptual quality of 360$^\circ$ images. Two critical aspects underline this oversight: the neglect of viewing conditions that significantly sway user gaze patterns and the overreliance on a single viewport sequence from the 360$^\circ$ image for quality inference. To address these issues, we introduce a unique generative scanpath representation (GSR) for effective quality inference of 360$^\circ$ images, which aggregates varied perceptual experiences of multi-hypothesis users under a predefined viewing condition. More specifically, given a viewing condition characterized by the starting point of viewing and exploration time, a set of scanpaths consisting of dynamic visual fixations can be produced using an apt scanpath generator. Following this vein, we use the scanpaths to convert the 360$^\circ$ image into the unique GSR, which provides a global overview of gazed-focused contents derived from scanpaths. As such, the quality inference of the 360$^\circ$ image is swiftly transformed to that of GSR. We then propose an efficient OIQA computational framework by learning the quality maps of GSR. Comprehensive experimental results validate that the predictions of the proposed framework are highly consistent with human perception in the spatiotemporal domain, especially in the challenging context of locally distorted 360$^\circ$ images under varied viewing conditions. The code will be released at https://github.com/xiangjieSui/GSR
翻訳日:2023-09-08 14:18:04 公開日:2023-09-07
# タンジブルエフェクトのための機械学習:無数のマッサージ産業を明らかにする自然言語処理と触覚のためのコンピュータビジョン

Machine Learning for Tangible Effects: Natural Language Processing for Uncovering the Illicit Massage Industry & Computer Vision for Tactile Sensing ( http://arxiv.org/abs/2309.03470v1 )

ライセンス: Link先を確認
Rui Ouyang(参考訳) 私はこの論文で2つの疑問を探っている。コンピュータサイエンスは人間の身売買とどのように戦うことができるのか? コンピュータビジョンはどのように触感を生み出すのか? 私は自然言語処理(NLP)を使って、治療マッサージだけでなく商業性サービスも提供する数十億ドル規模の産業である米国違法マッサージ産業(IMI)を監視しています。 この業界の従業員はしばしば、仕事の機会がほとんどなく移民の女性であり、詐欺や強制労働、その他の人身売買に弱い。 時空間トレンドの監視は、IMIにおけるトラフィックの防止に役立つ。 Google Places、Rubmaps、AMPReviewsの3つの公開ウェブサイトでデータセットを作成することで、bag-of-wordsやWord2VecといったNLP技術と組み合わせることで、従業員が直面する労働のプレッシャーや言語障壁、そして収入、人口統計、そして性購入に影響を与える社会的プレッシャーに対する洞察を導き出す方法を示します。 これらのデータセットには、他の研究者へのコール・トゥ・アクションが含まれています。 また、銀行セクターの対トラフィングに役立つ合成金融データの作成についても検討しています。 私はエージェントベースのモデルを使って表グラフデータと有償グラフデータの両方を作成します。 次に、触覚センサーの製造におけるコンピュータビジョンの役割を考えます。 私は、Gelsightセンサーをグラニュラーメディア中の物体に適応させる新しいセンサー、Digger Fingerについて報告します。 内部照明ledを蛍光塗料に置き換えたり、振動子モーターを追加してジャミングに対抗したりといった変更も行われた。 最後に、webカメラとプリントされた参照マーカー(fiducial)を使って低コストの6軸力トルクセンサーを作る方法を紹介します。 このセンサーは商用センサーの100倍も安いので、幅広い用途に使える。 この章とそれ以前の章では、デザインファイルとコードをオープンソースとしてリリースしています。

I explore two questions in this thesis: how can computer science be used to fight human trafficking? And how can computer vision create a sense of touch? I use natural language processing (NLP) to monitor the United States illicit massage industry (IMI), a multi-billion dollar industry that offers not just therapeutic massages but also commercial sexual services. Employees of this industry are often immigrant women with few job opportunities, leaving them vulnerable to fraud, coercion, and other facets of human trafficking. Monitoring spatiotemporal trends helps prevent trafficking in the IMI. By creating datasets with three publicly-accessible websites: Google Places, Rubmaps, and AMPReviews, combined with NLP techniques such as bag-of-words and Word2Vec, I show how to derive insights into the labor pressures and language barriers that employees face, as well as the income, demographics, and societal pressures affecting sex buyers. I include a call-to-action to other researchers given these datasets. I also consider how to creating synthetic financial data, which can aid with counter-trafficking in the banking sector. I use an agent-based model to create both tabular and payee-recipient graph data. I then consider the role of computer vision in making tactile sensors. I report on a novel sensor, the Digger Finger, that adapts the Gelsight sensor to finding objects in granular media. Changes include using a wedge shape to facilitate digging, replacing the internal lighting LEDs with fluorescent paint, and adding a vibrator motor to counteract jamming. Finally, I also show how to use a webcam and a printed reference marker, or fiducial, to create a low-cost six-axis force-torque sensor. This sensor is up to a hundred times less expensive than commercial sensors, allowing for a wider range of applications. For this and earlier chapters I release design files and code as open source.
翻訳日:2023-09-08 14:17:34 公開日:2023-09-07
# dgc:チャンクによるグラフ分割を用いた時空間非一様性を持つ動的グラフのトレーニング

DGC: Training Dynamic Graphs with Spatio-Temporal Non-Uniformity using Graph Partitioning by Chunks ( http://arxiv.org/abs/2309.03523v1 )

ライセンス: Link先を確認
Fahao Chen, Peng Li, Celimuge Wu(参考訳) 動的グラフニューラルネットワーク(DGNN)は、空間的特徴と時間的特徴の両方を利用して動的グラフを学習する強力な能力を示している。 DGNNは最近、AIコミュニティからかなりの注目を集め、様々なDGNNモデルが提案されているが、効率的なDGNNトレーニングのための分散システムの構築はまだ難しい。 動的グラフを分割し、ワークロードを複数のGPUに割り当てる方法が、トレーニングアクセラレーションにおいて重要な役割を果たすことはよく知られている。 既存のワークは、動的なグラフをスナップショットまたは時間シーケンスに分割するが、これはグラフが一様時空間構造を持つ場合にのみうまく機能する。 しかし、実際には動的グラフは均一に構造化されておらず、スナップショットの中には非常に密度が高いものもあれば、疎いものもある。 この問題に対処するため,テストベッドにおける最先端技術よりも1.25倍から7.52倍の高速化を実現する分散DGNNトレーニングシステムDGCを提案する。 dgcの成功は、動的グラフをチャンクに分割する新しいグラフ分割法に起因している。 この分割アルゴリズムはグラフ粗化に基づいており、大きなグラフ上で非常に高速に実行できる。 さらに、DGCは、提案したチャンク融合とアダプティブステールアグリゲーション技術を利用して、非常に効率的な実行時間を持つ。 DGCの有効性を示すために、3つの典型的なDGNNモデルと4つの人気のある動的グラフデータセットに関する大規模な実験結果を示す。

Dynamic Graph Neural Network (DGNN) has shown a strong capability of learning dynamic graphs by exploiting both spatial and temporal features. Although DGNN has recently received considerable attention by AI community and various DGNN models have been proposed, building a distributed system for efficient DGNN training is still challenging. It has been well recognized that how to partition the dynamic graph and assign workloads to multiple GPUs plays a critical role in training acceleration. Existing works partition a dynamic graph into snapshots or temporal sequences, which only work well when the graph has uniform spatio-temporal structures. However, dynamic graphs in practice are not uniformly structured, with some snapshots being very dense while others are sparse. To address this issue, we propose DGC, a distributed DGNN training system that achieves a 1.25x - 7.52x speedup over the state-of-the-art in our testbed. DGC's success stems from a new graph partitioning method that partitions dynamic graphs into chunks, which are essentially subgraphs with modest training workloads and few inter connections. This partitioning algorithm is based on graph coarsening, which can run very fast on large graphs. In addition, DGC has a highly efficient run-time, powered by the proposed chunk fusion and adaptive stale aggregation techniques. Extensive experimental results on 3 typical DGNN models and 4 popular dynamic graph datasets are presented to show the effectiveness of DGC.
翻訳日:2023-09-08 14:11:39 公開日:2023-09-07
# 異なるケメニーランクアグリゲーションのパラメータ化

Parameterized Aspects of Distinct Kemeny Rank Aggregation ( http://arxiv.org/abs/2309.03517v1 )

ライセンス: Link先を確認
Koustav De, Harshil Mittal, Palash Dey, Neeldhara Misra(参考訳) ケメニー法はランクアグリゲーションの一般的な道具の1つである。 しかし、最適なケメニーランクの計算はNPハードである。 その結果,多くのパラメータに対するパラメータ化複雑性のレンズの下で,ケメニーランクを求める計算タスクが研究されている。 まず,これらのパラメータの包括的関係,理論的および経験的関係について述べる。 さらに,パラメータ化複雑性のレンズの下で,異なるケメニーランクの計算問題について検討する。 対象ケメニースコア,候補数,入力ランキングの平均距離,任意の候補の最大範囲,一致幅をパラメータとして検討した。 これらのパラメータに対して、既にFPTアルゴリズムがあります。 ケメニーランキングの望ましい数も、実行時間を大幅に増加させることなく発見できることがわかった。 また,これらのパラメータに関して,ケメニーランクアグリゲーションに対するFPT近似アルゴリズムを提案する。

The Kemeny method is one of the popular tools for rank aggregation. However, computing an optimal Kemeny ranking is NP-hard. Consequently, the computational task of finding a Kemeny ranking has been studied under the lens of parameterized complexity with respect to many parameters. We first present a comprehensive relationship, both theoretical and empirical, among these parameters. Further, we study the problem of computing all distinct Kemeny rankings under the lens of parameterized complexity. We consider the target Kemeny score, number of candidates, average distance of input rankings, maximum range of any candidate, and unanimity width as our parameters. For all these parameters, we already have FPT algorithms. We find that any desirable number of Kemeny rankings can also be found without substantial increase in running time. We also present FPT approximation algorithms for Kemeny rank aggregation with respect to these parameters.
翻訳日:2023-09-08 14:11:14 公開日:2023-09-07
# recommender systemsの背後にある: acm recsysコミュニティの地理

Behind Recommender Systems: the Geography of the ACM RecSys Community ( http://arxiv.org/abs/2309.03512v1 )

ライセンス: Link先を確認
Lorenzo Porcaro, Jo\~ao Vinagre, Pedro Frau, Isabelle Hupont, Emilia G\'omez(参考訳) 現在、オンラインでアクセス可能なメディアコンテンツの量と普及率は圧倒的である。 Recommender Systemsは、これらの情報を管理可能なストリームやフィードにフィルタリングします。 情報フィルタリングに使用されるアルゴリズムが、我々の世界観から重要な要素を歪めたり、取り除いたりすることは、非常に重要である。 この原則の下では、設計と開発の初期段階から多様な見解とチームを巻き込むことが不可欠である。 これは例えば、差別のリスクを含むリスク監視の要件や、aiシステムの開発にさまざまなバックグラウンドを持つ人々を関与させる要件を通じて、最近の欧州連合(eu)のデジタルサービス法(digital services act)のような規制において強調されている。 我々は,推薦システム研究コミュニティの地理的多様性について,特に過去15年間のACMレコメンダシステム会議(RecSys)にコントリビュートした著者の提携国を分析して検討する。 この研究は、aiフォーラムにおける多様性の長期的な監視を指標として、aiの多様性の枠組みであるdivinaiプロジェクトで行われてきた。

The amount and dissemination rate of media content accessible online is nowadays overwhelming. Recommender Systems filter this information into manageable streams or feeds, adapted to our personal needs or preferences. It is of utter importance that algorithms employed to filter information do not distort or cut out important elements from our perspectives of the world. Under this principle, it is essential to involve diverse views and teams from the earliest stages of their design and development. This has been highlighted, for instance, in recent European Union regulations such as the Digital Services Act, via the requirement of risk monitoring, including the risk of discrimination, and the AI Act, through the requirement to involve people with diverse backgrounds in the development of AI systems. We look into the geographic diversity of the recommender systems research community, specifically by analyzing the affiliation countries of the authors who contributed to the ACM Conference on Recommender Systems (RecSys) during the last 15 years. This study has been carried out in the framework of the Diversity in AI - DivinAI project, whose main objective is the long-term monitoring of diversity in AI forums through a set of indexes.
翻訳日:2023-09-08 14:11:04 公開日:2023-09-07
# BroadCAM:小規模弱監視アプリケーションのための出力非依存クラス活性化マッピング

BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale Weakly Supervised Applications ( http://arxiv.org/abs/2309.03509v1 )

ライセンス: Link先を確認
Jiatai Lin, Guoqiang Han, Xuemiao Xu, Changhong Liang, Tien-Tsin Wong, C. L. Philip Chen, Zaiyi Liu, Chu Han(参考訳) 深層学習モデルの可視化技術であるクラスアクティベーションマッピング~(CAM)は、弱教師付きセマンティックセグメンテーション〜(WSSS)とオブジェクトローカライゼーション〜(WSOL)に一般的に用いられている。 これは高階関係写像を活性化することにより特徴写像の重み付け集合である。 現在のCAM手法は、予測スコア~(前方情報)、勾配〜(後方情報)などのトレーニング結果に依存する。 しかし、小規模なデータの場合、不安定なトレーニングはより効果的でないモデル結果をもたらし、信頼性の低い重みを発生させ、最終的には誤った活性化とノイズの多いCAM種子をもたらす。 本稿では,小規模の弱教師付きアプリケーションに対して,結果非依存のcam手法であるbroadcamを提案する。 広範学習システム(BLS)はモデル学習とは独立しているため、BroadCAMは小規模データによる信頼性の低いモデル結果の影響を避けることができる。 VOC2012のBroadCAM(自然画像)とWSSSのBCSS-WSSS(医用画像)をWSOLのOpenImages30kで評価することにより、BroadCAMはCNNアーキテクチャの小さなデータ(5倍未満)を持つ既存のCAMメソッドよりも優れた性能を示す。 また、大規模トレーニングデータによるsoma性能も実現している。 大規模学習データを用いて,BroadCAMが高クラス関連特徴マップをどのように活性化し,信頼性の高いCAMを生成するかを示す。

Class activation mapping~(CAM), a visualization technique for interpreting deep learning models, is now commonly used for weakly supervised semantic segmentation~(WSSS) and object localization~(WSOL). It is the weighted aggregation of the feature maps by activating the high class-relevance ones. Current CAM methods achieve it relying on the training outcomes, such as predicted scores~(forward information), gradients~(backward information), etc. However, when with small-scale data, unstable training may lead to less effective model outcomes and generate unreliable weights, finally resulting in incorrect activation and noisy CAM seeds. In this paper, we propose an outcome-agnostic CAM approach, called BroadCAM, for small-scale weakly supervised applications. Since broad learning system (BLS) is independent to the model learning, BroadCAM can avoid the weights being affected by the unreliable model outcomes when with small-scale data. By evaluating BroadCAM on VOC2012 (natural images) and BCSS-WSSS (medical images) for WSSS and OpenImages30k for WSOL, BroadCAM demonstrates superior performance than existing CAM methods with small-scale data (less than 5\%) in different CNN architectures. It also achieves SOTA performance with large-scale training data. Extensive qualitative comparisons are conducted to demonstrate how BroadCAM activates the high class-relevance feature maps and generates reliable CAMs when with small-scale training data.
翻訳日:2023-09-08 14:10:45 公開日:2023-09-07
# ウェーブレット領域における動的フレーム補間

Dynamic Frame Interpolation in Wavelet Domain ( http://arxiv.org/abs/2309.03508v1 )

ライセンス: Link先を確認
Lingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Ying Tai, Chengjie Wang, Jie Yang(参考訳) ビデオフレーム補間は、より流動的な視覚体験のためにフレームレートを向上させる重要な低レベル視覚タスクである。 既存の手法は高度な動きモデルと合成ネットワークを用いることで大きな成功を収めた。 しかし、対象のフレームを合成する際の空間的冗長性は十分に調べられておらず、多くの非効率な計算をもたらす可能性がある。 一方、フレーム補間における計算圧縮度はテクスチャ分布とシーン動作の両方に大きく依存しており、各入力フレームペアの時空間情報をより良い圧縮度選択のために理解する必要がある。 本稿では、上記の問題に対処するために、waveletvfiと呼ばれる2段階フレーム補間フレームワークを提案する。 まず、軽量な動き知覚ネットワークを用いて中間光流を推定し、次いでウェーブレット合成ネットワークは、フロー整列コンテキスト特徴を用いて、効率的な目標フレーム再構成のためのスパース畳み込みによるマルチスケールウェーブレット係数を予測し、各スケールでの計算を制御するスパース有効マスクを決定しきい値比で決定する。 従来の手法のように固定値を設定する代わりに,動作知覚ネットワークに分類器を埋め込んで各サンプルの動的閾値を学習することで,精度をほぼ損なわずに計算精度を向上できることがわかった。 一般的な高解像度およびアニメーションフレーム補間ベンチマークでは、提案されたWaveletVFIは、類似した精度を維持しながら40%まで計算を削減できるため、他の最先端技術に対してより効率的に動作する。 コードはhttps://github.com/ltkong218/WaveletVFIで入手できる。

Video frame interpolation is an important low-level vision task, which can increase frame rate for more fluent visual experience. Existing methods have achieved great success by employing advanced motion models and synthesis networks. However, the spatial redundancy when synthesizing the target frame has not been fully explored, that can result in lots of inefficient computation. On the other hand, the computation compression degree in frame interpolation is highly dependent on both texture distribution and scene motion, which demands to understand the spatial-temporal information of each input frame pair for a better compression degree selection. In this work, we propose a novel two-stage frame interpolation framework termed WaveletVFI to address above problems. It first estimates intermediate optical flow with a lightweight motion perception network, and then a wavelet synthesis network uses flow aligned context features to predict multi-scale wavelet coefficients with sparse convolution for efficient target frame reconstruction, where the sparse valid masks that control computation in each scale are determined by a crucial threshold ratio. Instead of setting a fixed value like previous methods, we find that embedding a classifier in the motion perception network to learn a dynamic threshold for each sample can achieve more computation reduction with almost no loss of accuracy. On the common high resolution and animation frame interpolation benchmarks, proposed WaveletVFI can reduce computation up to 40% while maintaining similar accuracy, making it perform more efficiently against other state-of-the-arts. Code is available at https://github.com/ltkong218/WaveletVFI.
翻訳日:2023-09-08 14:10:12 公開日:2023-09-07
# ガウス系における量子再帰と光力学への応用

Quantum retrodiction in Gaussian systems and applications in optomechanics ( http://arxiv.org/abs/2309.03507v1 )

ライセンス: Link先を確認
Jonas Lammers, Klemens Hammerer(参考訳) 測定システムは測定の開始時に、量子状態に関する連続的な測定の記録から、どのような知識を得ることができるか? より一般的な状態予測の逆である量子状態再帰のタスクは、回帰的正の演算子値測度を通じて量子測定理論において厳密かつエレガントに扱われる。 本稿では, 連続時間ホモダイン測定によるガウス量子状態の再現のための実用的定式化と, 光学系への応用について紹介する。 共振・オフ共振駆動方式とホモダイン検出における局所発振周波数の特定により,共振・オフ共振駆動モードにおいて実現可能な回帰性povmを同定し,特徴付ける。 特に,メカニカル・オシレータの四角形をほぼ理想的に測定し,振動子の位置や運動量分布に直接アクセスする可能性を示す。 これは完全な量子状態トモグラフィの基礎を形成するが、破壊的な方法である。

What knowledge can be obtained from the record of a continuous measurement about the quantum state the measured system was in at the beginning of the measurement? The task of quantum state retrodiction, the inverse of the more common state prediction, is rigorously and elegantly addressed in quantum measurement theory through retrodictive Positive Operator Valued Measures. This article provides an introduction to this general framework, presents its practical formulation for retrodicting Gaussian quantum states using continuous-time homodyne measurements, and applies it to optomechanical systems. We identify and characterise achievable retrodictive POVMs in common optomechanical operating modes with resonant or off-resonant driving fields and specific choices of local oscillator frequencies in homodyne detection. In particular, we demonstrate the possibility of a near-ideal measurement of the quadrature of the mechanical oscillator, giving direct access to the position or momentum distribution of the oscillator at a given time. This forms the basis for complete quantum state tomography, albeit in a destructive manner.
翻訳日:2023-09-08 14:09:45 公開日:2023-09-07
# Ipsilateral Dual-Views Breast Cancer Analysis におけるロバストな自然なマンモグラフィ病変合成に向けて

Towards Robust Natural-Looking Mammography Lesion Synthesis on Ipsilateral Dual-Views Breast Cancer Analysis ( http://arxiv.org/abs/2309.03506v1 )

ライセンス: Link先を確認
Thanh-Huy Nguyen, Quang Hien Kha, Thai Ngoc Toan Truong, Ba Thinh Lam, Ba Hung Ngo, Quang Vinh Dinh, and Nguyen Quoc Khanh Le(参考訳) 近年,癌分類タスクを改善するためにマンモグラフィー画像解析法が数多く導入されている。 マンモグラフィ分類タスクの2つの大きな問題は、マルチビューマンモグラフィ情報とクラス不均衡ハンドリングの活用である。 最初の問題として、トレーニングと推論のステージに2つ以上のビューを結合する多くのマルチビューメソッドがリリースされた。 とはいえ、ほとんどのマルチビュー既存手法は、機能融合の意味において説明不可能であり、診断のために多くのビューを等しく扱う。 本研究は,癌的特徴を含む高レベル特徴を学習する前に補助的視点(一側的視点)から低レベル特徴情報を活用することにより,簡易かつ新しい検査的視点(主観)を強化する手法を提案することを目的とする。 第2号では,軽度のサンプルをサンプリングするための単純だが新しい悪性マンモグラム合成フレームワークも提案する。 提案手法は,ランダムペーストパッチ,ハード輪郭問題,領域シフト問題を含む合成画像の信頼性に乏しい cutmix アルゴリズムの限界を解消した。 VinDr-MammoデータセットとCMMDデータセットを用いた結果,マルチビュートレーニングとマンモグラフィ画像の合成における2つの新しいフレームワークの有効性が示された。

In recent years, many mammographic image analysis methods have been introduced for improving cancer classification tasks. Two major issues of mammogram classification tasks are leveraging multi-view mammographic information and class-imbalance handling. In the first problem, many multi-view methods have been released for concatenating features of two or more views for the training and inference stage. Having said that, most multi-view existing methods are not explainable in the meaning of feature fusion, and treat many views equally for diagnosing. Our work aims to propose a simple but novel method for enhancing examined view (main view) by leveraging low-level feature information from the auxiliary view (ipsilateral view) before learning the high-level feature that contains the cancerous features. For the second issue, we also propose a simple but novel malignant mammogram synthesis framework for upsampling minor class samples. Our easy-to-implement and no-training framework has eliminated the current limitation of the CutMix algorithm which is unreliable synthesized images with random pasted patches, hard-contour problems, and domain shift problems. Our results on VinDr-Mammo and CMMD datasets show the effectiveness of our two new frameworks for both multi-view training and synthesizing mammographic images, outperforming the previous conventional methods in our experimental settings.
翻訳日:2023-09-08 14:09:27 公開日:2023-09-07
# 動的予測塗装領域によるストローク型ニューラルペイントとスティル化

Stroke-based Neural Painting and Stylization with Dynamically Predicted Painting Region ( http://arxiv.org/abs/2309.03504v1 )

ライセンス: Link先を確認
Teng Hu, Ran Yi, Haokun Zhu, Liang Liu, Jinlong Peng, Yabiao Wang, Chengjie Wang, Lizhuang Ma(参考訳) ストロークベースのレンダリングは、ストロークのセットで画像を再現することを目的としている。 既存のほとんどの手法では、一様ブロック分割戦略を使って複雑な画像をレンダリングする。 そこで本研究では,画像平面を絵画領域に均一に分割するのではなく,現在のキャンバスに基づいて次の絵画領域を動的に予測する新しいストロークベースレンダリングフレームワークである合成ニューラルネットワークを提案する。 空のキャンバスから始めて、絵の過程をいくつかのステップに分けます。 各ステップにおいて、ファシックRL戦略で訓練された合成器ネットワークがまず次の塗装領域を予測し、次にWGAN判別器で訓練された画家ネットワークがストロークパラメータを予測し、ストロークレンダが現在のキャンバスの塗装領域にストロークを描画する。 さらに,ストロークに基づくスタイライゼーション中に入力画像の構造を保存できる,新しい微分可能距離変換損失を用いたストローク型スタイル転送にも拡張した。 我々のモデルは脳卒中ベースニューラルペイントと脳卒中ベーススタイリゼーションの両方において既存モデルよりも優れていた。 コードはhttps://github.com/sjtuplayer/compositional_neural_painterで入手できる。

Stroke-based rendering aims to recreate an image with a set of strokes. Most existing methods render complex images using an uniform-block-dividing strategy, which leads to boundary inconsistency artifacts. To solve the problem, we propose Compositional Neural Painter, a novel stroke-based rendering framework which dynamically predicts the next painting region based on the current canvas, instead of dividing the image plane uniformly into painting regions. We start from an empty canvas and divide the painting process into several steps. At each step, a compositor network trained with a phasic RL strategy first predicts the next painting region, then a painter network trained with a WGAN discriminator predicts stroke parameters, and a stroke renderer paints the strokes onto the painting region of the current canvas. Moreover, we extend our method to stroke-based style transfer with a novel differentiable distance transform loss, which helps preserve the structure of the input image during stroke-based stylization. Extensive experiments show our model outperforms the existing models in both stroke-based neural painting and stroke-based stylization. Code is available at https://github.com/sjtuplayer/Compositional_Neural_Painter
翻訳日:2023-09-08 14:09:01 公開日:2023-09-07
# TEM画像における転位のインスタンスセグメンテーション

Instance Segmentation of Dislocations in TEM Images ( http://arxiv.org/abs/2309.03499v1 )

ライセンス: Link先を確認
Karina Ruzaeva, Kishan Govind, Marc Legros, Stefan Sandfeld(参考訳) その場ひずみ実験中の透過電子顕微鏡(tem)は、金属結晶格子の線状欠陥である転位の動きを明らかにすることができる。 材料科学の分野では, 転位の位置と移動に関する知識が, 優れた特性を持つ新素材の創出に重要である。 しかし、長年の問題は転位の位置を特定して形状を抽出することであり、最終的にはそのような物質のデジタル双対を作るのに役立つ。 本研究では,Mask R-CNNやYOLOv8など,最先端のインスタンスセグメンテーション手法を定量的に比較する。 事例分割の結果としての転位マスクを数学的直線に変換することにより,転位長と幾何の定量的解析を可能にする。ドメイン科学者にとって重要な情報であり,ネットワーク性能を推定するための新しい品質指標として含めることを提案する。 セグメンテーションパイプラインは、すべてのドメイン固有の後処理に適した高い精度を示しています。 さらに、我々の物理学に基づく計量は、通常使われるピクセル単位のメトリクスよりもずっと一貫して機能することが判明した。

Quantitative Transmission Electron Microscopy (TEM) during in-situ straining experiment is able to reveal the motion of dislocations -- linear defects in the crystal lattice of metals. In the domain of materials science, the knowledge about the location and movement of dislocations is important for creating novel materials with superior properties. A long-standing problem, however, is to identify the position and extract the shape of dislocations, which would ultimately help to create a digital twin of such materials. In this work, we quantitatively compare state-of-the-art instance segmentation methods, including Mask R-CNN and YOLOv8. The dislocation masks as the results of the instance segmentation are converted to mathematical lines, enabling quantitative analysis of dislocation length and geometry -- important information for the domain scientist, which we then propose to include as a novel length-aware quality metric for estimating the network performance. Our segmentation pipeline shows a high accuracy suitable for all domain-specific, further post-processing. Additionally, our physics-based metric turns out to perform much more consistently than typically used pixel-wise metrics.
翻訳日:2023-09-08 14:08:38 公開日:2023-09-07
# 免疫組織化学とルーチン組織学を用いた深層学習によるメラノーマ分類の評価

Evaluating Deep Learning-based Melanoma Classification using Immunohistochemistry and Routine Histology: A Three Center Study ( http://arxiv.org/abs/2309.03494v1 )

ライセンス: Link先を確認
Christoph Wies, Lucas Schneide, Sarah Haggenmueller, Tabea-Clara Bucher, Sarah Hobelsberger, Markus V. Heppt, Gerardo Ferrara, Eva I. Krieghoff-Henning, Titus J. Brinker(参考訳) 病理学者は、メラノーマの診断において、ヘマトキシリンやエオシン(H&E)染色のスライドに加え、免疫組織化学的(IHC)染色組織スライドをメラノーマに対して日常的に使用する。 組織形態および細胞組成の自動検査における診断ディープラーニング(DL)ベースの支援システムの使用は,標準H&E染色組織スライドでよく研究されている。 対照的に、IDCスライドをDLを用いて解析する研究はほとんどない。 そこで我々は,MelanAでトレーニングしたResNetと,それに対応するH&Eステンディングスライドの分離および共同動作について検討した。 MelanA分類器は、それぞれ0.81と0.75のH&Eベースのベンチマーク分類と同様、分布(OOD)データセットで0.82と0.74の受信動作特性曲線(AUROC)の領域を達成した。 MelanAとH&Eを組み合わせた分類器はOODデータセットで0.85と0.81のAUROCを達成した。 dlメラナを用いた補助システムは, ベンチマークh&e分類と同等の性能を示し, 臨床経過において病理医を支援するマルチ染色分類により改善される可能性がある。

Pathologists routinely use immunohistochemical (IHC)-stained tissue slides against MelanA in addition to hematoxylin and eosin (H&E)-stained slides to improve their accuracy in diagnosing melanomas. The use of diagnostic Deep Learning (DL)-based support systems for automated examination of tissue morphology and cellular composition has been well studied in standard H&E-stained tissue slides. In contrast, there are few studies that analyze IHC slides using DL. Therefore, we investigated the separate and joint performance of ResNets trained on MelanA and corresponding H&E-stained slides. The MelanA classifier achieved an area under receiver operating characteristics curve (AUROC) of 0.82 and 0.74 on out of distribution (OOD)-datasets, similar to the H&E-based benchmark classification of 0.81 and 0.75, respectively. A combined classifier using MelanA and H&E achieved AUROCs of 0.85 and 0.81 on the OOD datasets. DL MelanA-based assistance systems show the same performance as the benchmark H&E classification and may be improved by multi stain classification to assist pathologists in their clinical routine.
翻訳日:2023-09-08 14:08:22 公開日:2023-09-07
# 再利用と拡散:テキスト対ビデオ生成のための反復的デノイジング

Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation ( http://arxiv.org/abs/2309.03549v1 )

ライセンス: Link先を確認
Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu(参考訳) 画像合成における潜在拡散モデル(ldms)の顕著な成功に触発されて,テキスト対ビデオ生成のためのldmの研究を行った。 単一のLCMは通常、非常に限られた数のビデオフレームしか生成できない。 既存のいくつかの研究は、より多くのビデオフレームを生成するための別々の予測モデルに焦点を当てている。 本稿では, LDMが生成したフレームに追従するフレームを生成するために, $\textit{VidRD}$ という "Reuse and Diffuse" というフレームワークを提案する。 フレーム数が少ない初期ビデオクリップに条件付きで、元の潜伏特徴を再利用し、前の拡散過程に従って追加フレームを反復的に生成する。 さらに、ピクセル空間と潜在空間の変換に使われるオートエンコーダに対して、デコーダに時間的層を注入し、時間的一貫性を高めるためにこれらの層を微調整する。 また、アクション認識のためのビデオデータセットや画像テキストデータセットを含む、複数の既存データセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。 本手法は定量評価と定性評価の両方において良好な結果が得られることを示す。 プロジェクトページは$\href{https://anonymous0x233.github.io/reuseanddiffuse/}{here}$です。

Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed $\textit{VidRD}$ to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available $\href{https://anonymous0x233.github.io/ReuseAndDiffuse/}{here}$.
翻訳日:2023-09-08 13:59:10 公開日:2023-09-07
# 宝物:分解・凝集による低光度物体検出

Trash to Treasure: Low-Light Object Detection via Decomposition-and-Aggregation ( http://arxiv.org/abs/2309.03548v1 )

ライセンス: Link先を確認
Xiaohan Cui, Long Ma, Tengyu Ma, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 低照度シナリオにおける物体検出は、ここ数年で注目を集めている。 主流かつ代表的なスキームは、正規検出器の前処理としてエンハンサーを導入する。 しかしながら、エンハンサーと検出器のタスク目標の相違のため、このパラダイムは最高の能力では輝けない。 本研究では,エンハンサー+検出器の可能性について検討する。 既存の作品と異なり、照明を除去したシーン分解モジュールとして照明ベースのエンハンサー(新しく設計されたまたは既存のもの)を拡張し、検出フレンドリーな特徴を抽出するための検出器の補助として活用する。 コンテキスト空間に複数スケールのシーン関連セマンティック情報を統合するためのセマンティックアグリゲーションモジュールをさらに確立する。 実際、我々の構築したスキームは「トラッシュ」(すなわち検出器の無視された照明)を検出器の「トラス」に変換することに成功した。 他の最先端手法に対する我々の優位性を明らかにするために、数多くの実験が行われた。 コードが受け入れられれば公開されます。

Object detection in low-light scenarios has attracted much attention in the past few years. A mainstream and representative scheme introduces enhancers as the pre-processing for regular detectors. However, because of the disparity in task objectives between the enhancer and detector, this paradigm cannot shine at its best ability. In this work, we try to arouse the potential of enhancer + detector. Different from existing works, we extend the illumination-based enhancers (our newly designed or existing) as a scene decomposition module, whose removed illumination is exploited as the auxiliary in the detector for extracting detection-friendly features. A semantic aggregation module is further established for integrating multi-scale scene-related semantic information in the context space. Actually, our built scheme successfully transforms the "trash" (i.e., the ignored illumination in the detector) into the "treasure" for the detector. Plenty of experiments are conducted to reveal our superiority against other state-of-the-art methods. The code will be public if it is accepted.
翻訳日:2023-09-08 13:58:45 公開日:2023-09-07
# MVD:音響車両型分類の新しい手法とデータセット

MVD:A Novel Methodology and Dataset for Acoustic Vehicle Type Classification ( http://arxiv.org/abs/2309.03544v1 )

ライセンス: Link先を確認
Mohd Ashhad, Omar Ahmed, Sooraj K. Ambat, Zeeshan Ali Haq, Mansaf Alam(参考訳) 都市人口の増加により、自動車の利用が急増し、交通の監視と管理が不可欠となった。 アコースティック・トラヒック・モニタリング(ATM)は、コンピュータビジョン技術を含むような、より計算コストのかかるトラヒックの監視方法に代わるコスト効率が高く効率的な代替手段を提供する。 本稿では,移動車両の音響記録を含む音響トラヒックモニタリングと車両分類アルゴリズムの開発のために,mvdとmvdaの2つのオープンデータセットを提案する。 データセットにはトラック、カー、バイク、ノービークルの4つのクラスが含まれている。 さらに,cepstrum と spectrum based local and global audio と multi-input neural network を用いて,これらの音響信号を高精度に分類する手法を提案する。 実験結果から,本手法は従来手法の確立したベースラインを改善し,MVDデータセットとMVDAデータセットでそれぞれ91.98%,96.66%の精度を達成した。 最後に、提案されたモデルはandroidアプリケーションを通してデプロイされ、テストにアクセスしやすくなり、その効果を示す。

Rising urban populations have led to a surge in vehicle use and made traffic monitoring and management indispensable. Acoustic traffic monitoring (ATM) offers a cost-effective and efficient alternative to more computationally expensive methods of monitoring traffic such as those involving computer vision technologies. In this paper, we present MVD and MVDA: two open datasets for the development of acoustic traffic monitoring and vehicle-type classification algorithms, which contain audio recordings of moving vehicles. The dataset contain four classes- Trucks, Cars, Motorbikes, and a No-vehicle class. Additionally, we propose a novel and efficient way to accurately classify these acoustic signals using cepstrum and spectrum based local and global audio features, and a multi-input neural network. Experimental results show that our methodology improves upon the established baselines of previous works and achieves an accuracy of 91.98% and 96.66% on MVD and MVDA Datasets, respectively. Finally, the proposed model was deployed through an Android application to make it accessible for testing and demonstrate its efficacy.
翻訳日:2023-09-08 13:58:28 公開日:2023-09-07
# トリプルトキャリブレーションと削減によるゼロショットシーングラフ生成

Zero-Shot Scene Graph Generation via Triplet Calibration and Reduction ( http://arxiv.org/abs/2309.03542v1 )

ライセンス: Link先を確認
Jiankai Li, Yunhong Wang, and Weixin Li(参考訳) SGG(Scene Graph Generation)は、下流の視覚言語タスクにおいて重要な役割を果たす。 既存のSGG法は、通常、目に見えない三重項の組成の一般化に苦しむ。 これらは一般的に、支配的三重項を含む不完全な注釈付きシーングラフに訓練され、推論中にこれらの三重項に偏りがちである。 本稿では,この問題に対処するために,三重項キャリブレーション・リダクション(t-car)フレームワークを提案する。 本フレームワークでは,まず,多彩な三重項の表現を規則化し,不完全な注釈付き訓練シーングラフで同時に三重項を抽出するために三重項校正損失を提示する。 さらに、シーングラフの見えない空間は、多くの非現実的な構成を含むため、通常、その空間の何倍も大きい。 そこで本研究では, モデルトレーニングを容易にするために, 掘削の注意を合理的な未知の組成にシフトさせるため, 未確認空間縮小損失を提案する。 最後に,対象物と対象物の相対空間関係を明示的にモデル化することにより,目に見えない三重項の構成一般化を改善するための文脈エンコーダを提案する。 実験により, ゼロショットSGGの最先端手法に対する一貫した改善が得られた。 コードはhttps://github.com/jkli1998/T-CARで公開されている。

Scene Graph Generation (SGG) plays a pivotal role in downstream vision-language tasks. Existing SGG methods typically suffer from poor compositional generalizations on unseen triplets. They are generally trained on incompletely annotated scene graphs that contain dominant triplets and tend to bias toward these seen triplets during inference. To address this issue, we propose a Triplet Calibration and Reduction (T-CAR) framework in this paper. In our framework, a triplet calibration loss is first presented to regularize the representations of diverse triplets and to simultaneously excavate the unseen triplets in incompletely annotated training scene graphs. Moreover, the unseen space of scene graphs is usually several times larger than the seen space since it contains a huge number of unrealistic compositions. Thus, we propose an unseen space reduction loss to shift the attention of excavation to reasonable unseen compositions to facilitate the model training. Finally, we propose a contextual encoder to improve the compositional generalizations of unseen triplets by explicitly modeling the relative spatial relations between subjects and objects. Extensive experiments show that our approach achieves consistent improvements for zero-shot SGG over state-of-the-art methods. The code is available at https://github.com/jkli1998/T-CAR.
翻訳日:2023-09-08 13:58:10 公開日:2023-09-07
# 水中環境のためのYOLOシリーズターゲット検出アルゴリズム

YOLO series target detection algorithms for underwater environments ( http://arxiv.org/abs/2309.03539v1 )

ライセンス: Link先を確認
Chenjie Zhang and Pengcheng Jiao(参考訳) You Only Look Once (YOLO)アルゴリズムは2016年に登場した代表的なターゲット検出アルゴリズムであり、その計算速度と精度のバランスで知られており、現在では人間の生産と生活の様々な分野で重要な役割を果たしている。 しかし,水中でのヨーロアルゴリズムの適用には,薄暗い光や濁った水などの問題があるため,まだ多くの制限がある。 陸地資源が限られているため、海洋は将来の人類開発にとって大きな可能性を秘めなければならない。 本稿では, 海洋工学の実際のニーズから, 水中構造型健康モニタリング(SHM)と水中生物検出を例に, 水中YOLOアルゴリズムの適用方法の改善を提案し, 現存する問題点を指摘する。

You Only Look Once (YOLO) algorithm is a representative target detection algorithm emerging in 2016, which is known for its balance of computing speed and accuracy, and now plays an important role in various fields of human production and life. However, there are still many limitations in the application of YOLO algorithm in underwater environments due to problems such as dim light and turbid water. With limited land area resources, the ocean must have great potential for future human development. In this paper, starting from the actual needs of marine engineering applications, taking underwater structural health monitoring (SHM) and underwater biological detection as examples, we propose improved methods for the application of underwater YOLO algorithms, and point out the problems that still exist.
翻訳日:2023-09-08 13:57:47 公開日:2023-09-07
# コンパクトサポートと消滅モーメントを備えたグラフ上のグラフベースタイトフレーム

Subgraph-based Tight Frames on Graphs with Compact Supports and Vanishing Moments ( http://arxiv.org/abs/2309.03537v1 )

ライセンス: Link先を確認
Ruigang Zheng and Xiaosheng Zhuang(参考訳) 本研究では,一連の階層的分割に基づくコンパクトなサポート付きグラフ上でのタイトなフレーム構築手法を提案する。 分割木に基づく従来のメソッドを一般化した抽象的な構成から始めて、グラフフレームの設計にsubgraph laplaciansを柔軟に組み込むことができます。 これにより,グラフ信号の経路的サポートを効率的に表現するために,フレームレットの消滅モーメントと方向性などの余分な特性を調整できる。 いくつかの変種は明示的に定義され、テストされる。 提案するグラフフレームは非線形近似タスクにおいて優れた性能を示す。

In this work, we proposed a novel and general method to construct tight frames on graphs with compact supports based on a series of hierarchical partitions. Starting from our abstract construction that generalizes previous methods based on partition trees, we are able to flexibly incorporate subgraph Laplacians into our design of graph frames. Consequently, our general methods permit adjusting the (subgraph) vanishing moments of the framelets and extra properties, such as directionality, for efficiently representing graph signals with path-like supports. Several variants are explicitly defined and tested. Experimental results show our proposed graph frames perform superiorly in non-linear approximation tasks.
翻訳日:2023-09-08 13:57:35 公開日:2023-09-07
# 容器セグメンテーションのための特徴エンハンサーセグメンテーションネットワーク(FES-Net)

Feature Enhancer Segmentation Network (FES-Net) for Vessel Segmentation ( http://arxiv.org/abs/2309.03535v1 )

ライセンス: Link先を確認
Tariq M. Khan, Muhammad Arsalan, Shahzaib Iqbal, Imran Razzak, Erik Meijering(参考訳) 糖尿病網膜症や加齢黄斑変性などの疾患は視覚に重大なリスクをもたらし、進行の追跡と診断において網膜血管の正確な分割の重要性を強調している。 しかし、エンコーダ-デコーダ構造に大きく依存する既存の血管分割法は、網膜血管構成に関するコンテキスト情報をキャプチャするのに苦労しており、エンコーダとデコーダの機能間の意味的格差を解消する上での課題となっている。 そこで本研究では,画像強調ステップを必要とせず,正確な画素分割を実現する機能拡張セグメンテーションネットワーク(FES-Net)を提案する。 FES-Netは入力画像を直接処理し、ダウンサンプリング中に4つのプロンプト畳み込みブロック(PCB)を利用する。 DRIVE, STARE, CHASE, HRFの4つの公開技術データセット上でのFES-Netの性能を評価する。 評価結果は,既存の文献に記録されている他の競争的アプローチと比較して,FES-Netの優れた性能を示す。

Diseases such as diabetic retinopathy and age-related macular degeneration pose a significant risk to vision, highlighting the importance of precise segmentation of retinal vessels for the tracking and diagnosis of progression. However, existing vessel segmentation methods that heavily rely on encoder-decoder structures struggle to capture contextual information about retinal vessel configurations, leading to challenges in reconciling semantic disparities between encoder and decoder features. To address this, we propose a novel feature enhancement segmentation network (FES-Net) that achieves accurate pixel-wise segmentation without requiring additional image enhancement steps. FES-Net directly processes the input image and utilizes four prompt convolutional blocks (PCBs) during downsampling, complemented by a shallow upsampling approach to generate a binary mask for each class. We evaluate the performance of FES-Net on four publicly available state-of-the-art datasets: DRIVE, STARE, CHASE, and HRF. The evaluation results clearly demonstrate the superior performance of FES-Net compared to other competitive approaches documented in the existing literature.
翻訳日:2023-09-08 13:57:24 公開日:2023-09-07
# 原型を用いた部分領域適応に対するロバスト負の学習手法

A Robust Negative Learning Approach to Partial Domain Adaptation Using Source Prototypes ( http://arxiv.org/abs/2309.03531v1 )

ライセンス: Link先を確認
Sandipan Choudhuri, Suli Adeniye, Arunabha Sen(参考訳) 本研究は、ロバストなターゲット・スーパービジョン戦略を取り入れることで、負の転送問題を緩和するロバスト部分領域適応(pda)フレームワークを提案する。 アンサンブル学習を活用し、多様なラベルフィードバックを含み、誤ったフィードバックの効果を緩和し、擬似ラベルの洗練を促進する。 分散アライメントのために一階のモーメントのみに頼るのではなく、推定されたソースプロトタイプと高い信頼度を持つターゲットサンプルをドメイン不変の方法で、クラス内コンパクト性とクラス間分離を最適化するための明示的な目的を提供する。 特に私たちは,ソースプロトタイプの事前推論を通じて,適応フェーズ中にソースデータにアクセスする必要をなくし,ソースデータのプライバシを確保する。 我々は,部分領域適応タスクを網羅するアブレーション解析を含む包括的実験を行った。 ベンチマークデータセットの包括的な評価は、我々のフレームワークの強化された堅牢性と一般化を裏付け、既存の最先端のPDAアプローチよりも優れていることを示す。

This work proposes a robust Partial Domain Adaptation (PDA) framework that mitigates the negative transfer problem by incorporating a robust target-supervision strategy. It leverages ensemble learning and includes diverse, complementary label feedback, alleviating the effect of incorrect feedback and promoting pseudo-label refinement. Rather than relying exclusively on first-order moments for distribution alignment, our approach offers explicit objectives to optimize intra-class compactness and inter-class separation with the inferred source prototypes and highly-confident target samples in a domain-invariant fashion. Notably, we ensure source data privacy by eliminating the need to access the source data during the adaptation phase through a priori inference of source prototypes. We conducted a series of comprehensive experiments, including an ablation analysis, covering a range of partial domain adaptation tasks. Comprehensive evaluations on benchmark datasets corroborate our framework's enhanced robustness and generalization, demonstrating its superiority over existing state-of-the-art PDA approaches.
翻訳日:2023-09-08 13:57:04 公開日:2023-09-07
# 高速高精度cnnを用いた画像パッチの効率的な単一物体検出

Efficient Single Object Detection on Image Patches with Early Exit Enhanced High-Precision CNNs ( http://arxiv.org/abs/2309.03530v1 )

ライセンス: Link先を確認
Arne Moos(参考訳) 本稿では,robocup standard platform leagueのコンテキストにおける移動ロボットを用いた物体検出手法を提案する。 課題は、速い動きによって生じる様々な照明条件とぼやけた画像で動的物体を検出することである。 この課題に対処するために,計算に制約のあるロボットプラットフォーム用に設計された畳み込みニューラルネットワークアーキテクチャを提案する。 提案するcnnは、画像パッチにおける単一物体の高精度な分類と、それらの正確な空間的位置の決定を行うように訓練されている。 本稿では,既存の高精度CNNアーキテクチャにEarly Exitsを組み込んで,バックグラウンドクラスで容易に拒否可能なケースの計算コストを削減する。 トレーニングプロセスは、動的重み付けとデータ拡張による信頼性と位置損失に基づく複合損失関数を含む。 提案手法では,検証データセット上で100%の精度を実現し,約87%のリコールを実現した。 提案手法とEarly Exitを組み合わせることで,従来のCNNと比較して平均28%以上のランタイム最適化を実現することができる。 本稿では,計算制約のあるロボットプラットフォームにおいて,物体,特にボールの検出を効率化するための効率的なソリューションを提供する。

This paper proposes a novel approach for detecting objects using mobile robots in the context of the RoboCup Standard Platform League, with a primary focus on detecting the ball. The challenge lies in detecting a dynamic object in varying lighting conditions and blurred images caused by fast movements. To address this challenge, the paper presents a convolutional neural network architecture designed specifically for computationally constrained robotic platforms. The proposed CNN is trained to achieve high precision classification of single objects in image patches and to determine their precise spatial positions. The paper further integrates Early Exits into the existing high-precision CNN architecture to reduce the computational cost of easily rejectable cases in the background class. The training process involves a composite loss function based on confidence and positional losses with dynamic weighting and data augmentation. The proposed approach achieves a precision of 100% on the validation dataset and a recall of almost 87%, while maintaining an execution time of around 170 $\mu$s per hypotheses. By combining the proposed approach with an Early Exit, a runtime optimization of more than 28%, on average, can be achieved compared to the original CNN. Overall, this paper provides an efficient solution for an enhanced detection of objects, especially the ball, in computationally constrained robotic platforms.
翻訳日:2023-09-08 13:56:45 公開日:2023-09-07
# 多電子系の基底状態と最適核配置に対する第一量子化断熱時間発展

First-quantized adiabatic time evolution for the ground state of a many-electron system and the optimal nuclear configuration ( http://arxiv.org/abs/2309.03529v1 )

ライセンス: Link先を確認
Yusuke Nishiya, Hirofumi Nishi, Yannick Couzini\'e, Taichi Kosugi, Yu-ichiro Matsushita(参考訳) 本稿では,量子回路上での量子多電子系の基底状態を第1量子化に基づいて初めて取得する,断熱時間進化(ATE)法を提案する。 ATE法の顕著な特徴として、これはユニタリ演算のみで構成されており、すなわち、補助量子ビットや制御されたリアルタイム進化演算子を必要としないことを意味する。 また、ate回路への入力として好適な反対称性および非退化初期基底状態を作成する方法も提供し、任意の数の電子を持つ系に対してate法を適用することができる。 さらに、量子力学電子系および古典核系に対する第一量子化ハミルトニアンを考えることにより、ATEに基づく最適構造探索のための量子回路を設計する。 簡単なシステムに対して数値シミュレーションを行い,電子系の基底状態と最適構造を本手法で求めることができることを確認した。

We propose an adiabatic time evolution (ATE) method for obtaining the ground state of a quantum many-electron system on a quantum circuit based on first quantization for the first time. As a striking feature of the ATE method, it consists of only unitary operations, which means that it does not require any ancillary qubits, nor controlled real-time evolution operators. We also provide a way to prepare an antisymmetrized and non-degenerate initial ground state that is suitable as an input to an ATE circuit, which allows our ATE method to be applied to systems with any number of electrons. In addition, by considering a first-quantized Hamiltonian for quantum-mechanical electron system and classical nuclear system, we design a quantum circuit for optimal structure search based on ATE. Numerical simulations are demonstrated for simple systems, and it is confirmed that the ground state of the electronic system and optimal structure can be obtained by our method.
翻訳日:2023-09-08 13:56:26 公開日:2023-09-07
# DropPos:ドロップ位置の再構成による事前学習型ビジョントランス

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions ( http://arxiv.org/abs/2309.03576v1 )

ライセンス: Link先を確認
Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tong Wang, Zhaoxiang Zhang(参考訳) 視覚変換器(ViT)は入力トークンの順序に非常に敏感であることが実証的に観察されているため、ViTの位置認識を高めるための適切な自己教師型プレテキストタスクの必要性が顕在化しつつある。 そこで我々は,Dropped Positionsを再構築するための新しいプレテキストタスクDropPosを紹介する。 dropposの定式化は単純で、まず位置埋め込みの大きなランダムなサブセットをドロップし、その後、モデルは、その視覚的な外観のみに基づいて、重複しないパッチごとに実際の位置を分類する。 簡単な解決策を避けるために、パッチのサブセットだけを見えるようにすることで、このタスクの難しさを高めます。 また、類似した視覚的外観を持つパッチが存在する可能性があることから、このような分類問題を緩和するための位置平滑化および注意深い再構築戦略を提案する。 DropPosの実証評価は強力な能力を示している。 DropPosは教師付き事前トレーニングより優れており、幅広いダウンストリームベンチマークにおける最先端のセルフ教師付き代替手段と比較して、競争力がある。 これは、DropPosがしているように、空間的推論能力を明確に奨励することが、ViTsの位置認識の向上に寄与していることを示唆している。 コードはhttps://github.com/haochen-wang409/dropposで公開されている。

As it is empirically observed that Vision Transformers (ViTs) are quite insensitive to the order of input tokens, the need for an appropriate self-supervised pretext task that enhances the location awareness of ViTs is becoming evident. To address this, we present DropPos, a novel pretext task designed to reconstruct Dropped Positions. The formulation of DropPos is simple: we first drop a large random subset of positional embeddings and then the model classifies the actual position for each non-overlapping patch among all possible positions solely based on their visual appearance. To avoid trivial solutions, we increase the difficulty of this task by keeping only a subset of patches visible. Additionally, considering there may be different patches with similar visual appearances, we propose position smoothing and attentive reconstruction strategies to relax this classification problem, since it is not necessary to reconstruct their exact positions in these cases. Empirical evaluations of DropPos show strong capabilities. DropPos outperforms supervised pre-training and achieves competitive results compared with state-of-the-art self-supervised alternatives on a wide range of downstream benchmarks. This suggests that explicitly encouraging spatial reasoning abilities, as DropPos does, indeed contributes to the improved location awareness of ViTs. The code is publicly available at https://github.com/Haochen-Wang409/DropPos.
翻訳日:2023-09-08 13:51:02 公開日:2023-09-07
# 高品質な顔表現学習を目指して

Toward High Quality Facial Representation Learning ( http://arxiv.org/abs/2309.03575v1 )

ライセンス: Link先を確認
Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Liang Liu, Yabiao Wang, Chengjie Wang(参考訳) 顔分析タスクには幅広い応用があるが、普遍的な顔表現はいくつかの作品でしか研究されていない。 本稿では,顔アライメントや顔解析などの顔分析タスクを向上するための,高性能な事前学習手法を検討する。 本稿では,マスク画像モデリングと顔領域タスク用に特別に調整されたコントラスト戦略を備えた,自己教師付き事前学習フレームワーク \textbf{\it mask contrastive face (mcf)}を提案する。 顔の表現品質を向上させるために,事前訓練された視覚バックボーンの特徴マップを監督項目として使用し,マスク画像モデリングに部分的に訓練済みデコーダを使用する。 事前学習段階における顔の同一性を扱うために、ランダムマスクを用いて対照的な学習ペアを構築する。 我々は、インターネットのウェブサイトから2000万枚以上の顔画像を含むLAION-FACE 20Mの亜種であるLAION-FACE-croppedデータセットの事前トレーニングを行う。 効率向上のために,LAION-FACEクロッピングのごく一部で事前学習性能を検証し,事前学習の異なる設定で優位性を検証した。 トレーニング前のデータセットで事前学習したモデルは、複数の下流タスクで最先端の手法よりも優れています。 本モデルは,aflw-19顔アライメントに0.932 nme$_{diag}$,lapa顔解析に93.96 f1スコアを達成する。 コードはhttps://github.com/nomewang/mcfで入手できる。

Face analysis tasks have a wide range of applications, but the universal facial representation has only been explored in a few works. In this paper, we explore high-performance pre-training methods to boost the face analysis tasks such as face alignment and face parsing. We propose a self-supervised pre-training framework, called \textbf{\it Mask Contrastive Face (MCF)}, with mask image modeling and a contrastive strategy specially adjusted for face domain tasks. To improve the facial representation quality, we use feature map of a pre-trained visual backbone as a supervision item and use a partially pre-trained decoder for mask image modeling. To handle the face identity during the pre-training stage, we further use random masks to build contrastive learning pairs. We conduct the pre-training on the LAION-FACE-cropped dataset, a variants of LAION-FACE 20M, which contains more than 20 million face images from Internet websites. For efficiency pre-training, we explore our framework pre-training performance on a small part of LAION-FACE-cropped and verify the superiority with different pre-training settings. Our model pre-trained with the full pre-training dataset outperforms the state-of-the-art methods on multiple downstream tasks. Our model achieves 0.932 NME$_{diag}$ for AFLW-19 face alignment and 93.96 F1 score for LaPa face parsing. Code is available at https://github.com/nomewang/MCF.
翻訳日:2023-09-08 13:50:41 公開日:2023-09-07
# 車両インターネットにおける物体検出のスパースフェデレーショントレーニング

Sparse Federated Training of Object Detection in the Internet of Vehicles ( http://arxiv.org/abs/2309.03569v1 )

ライセンス: Link先を確認
Luping Rao, Chuan Ma, Ming Ding, Yuwen Qian, Lu Zhou, Zhe Liu(参考訳) インテリジェントトランスポーテーションシステム(ITS)の重要な構成要素として、IoV(Internet of Vehicles)は交通問題の緩和に重要な役割を果たしている。 オブジェクト検出は、タイムリーでセンシティブな車両関連情報を分析することにより、交通管理サービスを提供するために広く使用されているiovの重要な技術の一つである。 しかし、現在のオブジェクト検出方法は、主に集中的な深層トレーニングに基づいているため、エッジデバイスが取得した機密データをサーバにアップロードする必要があるため、プライバシー上の懸念が生じる。 このようなプライバシの漏えいを軽減するため,我々はまず,よく訓練されたローカルモデルを中央サーバで共有する,連合学習ベースのフレームワークを提案する。 しかし、エッジデバイスは通常、計算能力に制限があり、IoVの低レイテンシの厳しい要件があるため、エッジデバイス上では、モデルを効果的に軽量化し、エッジデバイス上でのトレーニング効率を確保でき、通信オーバーヘッドを低減できるスパーストレーニングプロセスも提案する。 さらに、多様なコンピューティング能力と動的環境により、異なるスパーシティレートがエッジデバイスに適用される。 さらに性能を保証するために、FedAvgに基づく改良されたアグリゲーションスキームであるFedWegを提案する。 yoloを用いた実生活データセットの実験により,提案手法は通信コストを節約しながら,必要な物体検出率を達成できることが示された。

As an essential component part of the Intelligent Transportation System (ITS), the Internet of Vehicles (IoV) plays a vital role in alleviating traffic issues. Object detection is one of the key technologies in the IoV, which has been widely used to provide traffic management services by analyzing timely and sensitive vehicle-related information. However, the current object detection methods are mostly based on centralized deep training, that is, the sensitive data obtained by edge devices need to be uploaded to the server, which raises privacy concerns. To mitigate such privacy leakage, we first propose a federated learning-based framework, where well-trained local models are shared in the central server. However, since edge devices usually have limited computing power, plus a strict requirement of low latency in IoVs, we further propose a sparse training process on edge devices, which can effectively lighten the model, and ensure its training efficiency on edge devices, thereby reducing communication overheads. In addition, due to the diverse computing capabilities and dynamic environment, different sparsity rates are applied to edge devices. To further guarantee the performance, we propose, FedWeg, an improved aggregation scheme based on FedAvg, which is designed by the inverse ratio of sparsity rates. Experiments on the real-life dataset using YOLO show that the proposed scheme can achieve the required object detection rate while saving considerable communication costs.
翻訳日:2023-09-08 13:50:13 公開日:2023-09-07
# 中国のソーシャルメディアにおける認知的歪みと自殺リスクの同定における教師付き学習と大言語モデルの効果評価

Evaluating the Efficacy of Supervised Learning vs Large Language Models for Identifying Cognitive Distortions and Suicidal Risks in Chinese Social Media ( http://arxiv.org/abs/2309.03564v1 )

ライセンス: Link先を確認
Hongzhi Qi, Qing Zhao, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Jianqiang Li and Guanghui Fu(参考訳) 大規模言語モデル、特に急速に進歩しているGPTシリーズに類似したモデルは、その拡大した影響で勢いを増している。 心理学のような医学領域での利用性には強い関心があるが、実世界のデータに関する具体的な調査はまだ少ない。 特定のテーマの傘の下では、これらの感情はしばしば否定的な感情として現れ、時には自殺的な傾向へとエスカレートする。 このような認知的歪みや自殺リスクのタイムリーな識別は、効果的に介入し、危険な状況を避けるために重要である。 本研究は,中国のソーシャルメディアプラットフォーム上での自殺リスクと認知歪みの識別という,2つの重要な課題を実験することによって,この領域を開拓した。 教師付き学習をベースラインとして,ゼロショット,少数ショット,微調整の3つの戦略を用いて,大規模言語モデルの有効性を検討した。 以上の結果から,大規模言語モデルと従来の教師付き学習手法では,微妙なカテゴリーを完全に把握できないため,明確な性能差が認められた。 特に、GPT-4は複数のシナリオで比較した場合、GPT-3.5は微調整後の自殺リスク分類の大幅な向上を示す。 私たちの知る限りでは、この調査は中国のソーシャルメディアタスクで大規模な言語モデルを調べる最初の試みだ。 本研究は,心理学分野における大規模言語モデルの利用の前方的および変容的含意を明らかにする。 心理学研究と実践における将来の応用の土台となる。

Large language models, particularly those akin to the rapidly progressing GPT series, are gaining traction for their expansive influence. While there is keen interest in their applicability within medical domains such as psychology, tangible explorations on real-world data remain scant. Concurrently, users on social media platforms are increasingly vocalizing personal sentiments; under specific thematic umbrellas, these sentiments often manifest as negative emotions, sometimes escalating to suicidal inclinations. Timely discernment of such cognitive distortions and suicidal risks is crucial to effectively intervene and potentially avert dire circumstances. Our study ventured into this realm by experimenting on two pivotal tasks: suicidal risk and cognitive distortion identification on Chinese social media platforms. Using supervised learning as a baseline, we examined and contrasted the efficacy of large language models via three distinct strategies: zero-shot, few-shot, and fine-tuning. Our findings revealed a discernible performance gap between the large language models and traditional supervised learning approaches, primarily attributed to the models' inability to fully grasp subtle categories. Notably, while GPT-4 outperforms its counterparts in multiple scenarios, GPT-3.5 shows significant enhancement in suicide risk classification after fine-tuning. To our knowledge, this investigation stands as the maiden attempt at gauging large language models on Chinese social media tasks. This study underscores the forward-looking and transformative implications of using large language models in the field of psychology. It lays the groundwork for future applications in psychological research and practice.
翻訳日:2023-09-08 13:49:47 公開日:2023-09-07
# all labels together: 効率的なラベル意味符号化パラダイムによる低ショットインテント検出

All Labels Together: Low-shot Intent Detection with an Efficient Label Semantic Encoding Paradigm ( http://arxiv.org/abs/2309.03563v1 )

ライセンス: Link先を確認
Jiangshu Du, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S. Yu(参考訳) 意図検出タスクでは、意図ラベルから有意義な意味情報を活用することは、わずかなシナリオで特に有用である。 しかし、既存の数発の意図検出方法はインテントラベルを無視するか(例えばインテントをインデックスとして扱うなど)、あるいはこの情報を十分に利用していない(インテントラベルの一部のみを使用するなど)。 本稿では,すべてのラベル候補と入力発話の比較が可能なエンドツーエンドの1対1システムを提案する。 するとシステムは、この方法でラベルのセマンティクスを完全に活用できる。 3つのマイナショットインテント検出タスクの実験では、トレーニングリソースが極めて少ない場合、特に1対1の効果が示され、1~3、および5ショットの設定で最先端のパフォーマンスを達成している。 さらに,パラフラージングからの間接的監督を活用し,意図検出タスクにおけるゼロショットクロスドメイン一般化を実現する,新たな事前学習戦略を提案する。 私たちのコードはhttps://github.com/jiangshdd/AllLablesTogetheにあります。

In intent detection tasks, leveraging meaningful semantic information from intent labels can be particularly beneficial for few-shot scenarios. However, existing few-shot intent detection methods either ignore the intent labels, (e.g. treating intents as indices) or do not fully utilize this information (e.g. only using part of the intent labels). In this work, we present an end-to-end One-to-All system that enables the comparison of an input utterance with all label candidates. The system can then fully utilize label semantics in this way. Experiments on three few-shot intent detection tasks demonstrate that One-to-All is especially effective when the training resource is extremely scarce, achieving state-of-the-art performance in 1-, 3- and 5-shot settings. Moreover, we present a novel pretraining strategy for our model that utilizes indirect supervision from paraphrasing, enabling zero-shot cross-domain generalization on intent detection tasks. Our code is at https://github.com/jiangshdd/AllLablesTogethe.
翻訳日:2023-09-08 13:49:21 公開日:2023-09-07
# 値処理の欠如に対する三次決定木

Trinary Decision Trees for missing value handling ( http://arxiv.org/abs/2309.03561v1 )

ライセンス: Link先を確認
Henning Zakrisson(参考訳) 本稿では,決定木回帰器と分類器の欠落データ処理を改善するアルゴリズムであるTrinary decision treeを紹介する。 他のアプローチとは異なり、三項決定木は、欠落した値が応答に関する情報を含まないと仮定しない。 実データを用いた推定器バイアスと数値図解の理論的計算は,それぞれ異なるデータシナリオ(MCAR:Missing Completely at Random)とInformative Missingness(IM:Informative Missingness)の確立したアルゴリズムと比較するために提示される。 特にトリナリーツリーは、MCAR設定において、特にデータがサンプル外にあるだけで、IM設定に欠如している場合に、ピアよりも優れています。 Trinary ツリーとMissing In Attributes (MIA) アプローチを組み合わせたハイブリッドモデルである TrinaryMIA ツリーは、あらゆるタイプの欠落において堅牢なパフォーマンスを示している。 トレーニング速度の遅さの潜在的な欠点にもかかわらず、Trinary Treeは、決定木アルゴリズムで欠落したデータを処理する、有望で正確な方法を提供する。

This paper introduces the Trinary decision tree, an algorithm designed to improve the handling of missing data in decision tree regressors and classifiers. Unlike other approaches, the Trinary decision tree does not assume that missing values contain any information about the response. Both theoretical calculations on estimator bias and numerical illustrations using real data sets are presented to compare its performance with established algorithms in different missing data scenarios (Missing Completely at Random (MCAR), and Informative Missingness (IM)). Notably, the Trinary tree outperforms its peers in MCAR settings, especially when data is only missing out-of-sample, while lacking behind in IM settings. A hybrid model, the TrinaryMIA tree, which combines the Trinary tree and the Missing In Attributes (MIA) approach, shows robust performance in all types of missingness. Despite the potential drawback of slower training speed, the Trinary tree offers a promising and more accurate method of handling missing data in decision tree algorithms.
翻訳日:2023-09-08 13:49:02 公開日:2023-09-07
# 引用フィールド学習のためのアンカー学習手法

An Anchor Learning Approach for Citation Field Learning ( http://arxiv.org/abs/2309.03559v1 )

ライセンス: Link先を確認
Zilin Yuan, Borun Chen, Yimeng Dai, Yinghui Li, Hai-Tao Zheng, Rui Zhang(参考訳) 引用フィールド学習は、引用文字列を著者、タイトル、会場などの興味のある分野に分割することである。 引用からこれらの分野を抽出することは、引用索引付けや研究者のプロファイル分析などに不可欠である。 学術ホームページやCurriculum Vitaeのようなユーザ生成リソースは、豊富な引用フィールド情報を提供する。 しかし、これらのリソースからフィールドを抽出することは、一貫性のない引用スタイル、不完全文構文、不十分なトレーニングデータのために困難である。 そこで,これらの課題に対処するために,新たなアルゴリズムであるcifal(citation field learning by anchor learning)を提案する。 cifalは、事前学習された言語モデルのモデルに依存しないアンカー学習を利用して、さまざまな引用スタイルのデータから引用パターンをキャプチャする。 実験の結果,cifalは,フィールドレベルf1-scoreの2.83%向上した。 結果の広範な分析により,cifalの有効性が定量的,質的に確認された。

Citation field learning is to segment a citation string into fields of interest such as author, title, and venue. Extracting such fields from citations is crucial for citation indexing, researcher profile analysis, etc. User-generated resources like academic homepages and Curriculum Vitae, provide rich citation field information. However, extracting fields from these resources is challenging due to inconsistent citation styles, incomplete sentence syntax, and insufficient training data. To address these challenges, we propose a novel algorithm, CIFAL (citation field learning by anchor learning), to boost the citation field learning performance. CIFAL leverages the anchor learning, which is model-agnostic for any Pre-trained Language Model, to help capture citation patterns from the data of different citation styles. The experiments demonstrate that CIFAL outperforms state-of-the-art methods in citation field learning, achieving a 2.83% improvement in field-level F1-scores. Extensive analysis of the results further confirms the effectiveness of CIFAL quantitatively and qualitatively.
翻訳日:2023-09-08 13:48:42 公開日:2023-09-07
# 人物再同定のための地域創出・評価ネットワーク

Region Generation and Assessment Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2309.03558v1 )

ライセンス: Link先を確認
Shuting He, Weihua Chen, Kai Wang, Hao Luo, Fan Wang, Wei Jiang, Henghui Ding(参考訳) 個人再識別(ReID)は近年,幅広い応用分野において,より重要な役割を担っている。 既存のReIDメソッドは、性能を劇的に低下させる不整合と閉塞の難しさに悩まされている。 ほとんどの手法は、ボディ部分の特定やマッチング戦略の活用に外部ツールを活用することで、このような課題に対処する。 それでも、外部ツールとReIDデータセットで使用されるデータセットと複雑なマッチングプロセスの間に必然的なドメインギャップがあるため、これらのメソッドは信頼性が低くノイズに敏感である。 本稿では,人体領域を効果的かつ効率的に検出し,重要な領域をハイライトする領域生成評価ネットワーク(RGANet)を提案する。 提案するRGANetでは,まず,事前学習したCLIPを用いてテキスト記述から抽出したセマンティックプロトタイプを用いて人体領域を特定する領域生成モジュール(RGM)を考案する。 Learnable promptは、CLIPデータセットとReIDデータセットの間のドメインギャップを取り除くように設計されている。 次に,各領域の重要度を測定するために,信頼度スコアを異なる領域に割り当て,咬合領域の悪影響を低いスコアで低減する領域評価モジュール(ram)を導入する。 ramは、識別認識指標と非分散認識指標とから構成され、前者は、異なるアイデンティティと区別する能力を示し、後者は、同一の人体領域の画像間の一貫性を表す。 RGANetの最先端の手法に対する優位性を示す3つのタスクを含む6つの広く使用されているベンチマークの大規模な実験結果。

Person Re-identification (ReID) plays a more and more crucial role in recent years with a wide range of applications. Existing ReID methods are suffering from the challenges of misalignment and occlusions, which degrade the performance dramatically. Most methods tackle such challenges by utilizing external tools to locate body parts or exploiting matching strategies. Nevertheless, the inevitable domain gap between the datasets utilized for external tools and the ReID datasets and the complicated matching process make these methods unreliable and sensitive to noises. In this paper, we propose a Region Generation and Assessment Network (RGANet) to effectively and efficiently detect the human body regions and highlight the important regions. In the proposed RGANet, we first devise a Region Generation Module (RGM) which utilizes the pre-trained CLIP to locate the human body regions using semantic prototypes extracted from text descriptions. Learnable prompt is designed to eliminate domain gap between CLIP datasets and ReID datasets. Then, to measure the importance of each generated region, we introduce a Region Assessment Module (RAM) that assigns confidence scores to different regions and reduces the negative impact of the occlusion regions by lower scores. The RAM consists of a discrimination-aware indicator and an invariance-aware indicator, where the former indicates the capability to distinguish from different identities and the latter represents consistency among the images of the same class of human body regions. Extensive experimental results for six widely-used benchmarks including three tasks (occluded, partial, and holistic) demonstrate the superiority of RGANet against state-of-the-art methods.
翻訳日:2023-09-08 13:48:26 公開日:2023-09-07
# マルチエージェント非線形フィルタリングと学習のダイナミクスについて

On the dynamics of multi agent nonlinear filtering and learning ( http://arxiv.org/abs/2309.03557v1 )

ライセンス: Link先を確認
Sayed Pouria Talebi and Danilo Mandic(参考訳) マルチエージェントシステムは、ダイナミクスを求める分散コンセンサスを通じて高度に複雑な学習課題を達成することを目的としており、その利用は信号処理や計算知能社会において大きな注目を集めている。 本稿では非線形フィルタリング/学習力学を用いたマルチエージェントネットワークシステムの挙動について検討する。 この目的のために、マルチエージェントネットワークシステムにおけるエージェントの動作に関する一般的な定式化を行い、結束学習行動を達成するための条件を与える。 重要なのは、分散および連合学習シナリオにおけるso派生フレームワークの適用である。

Multiagent systems aim to accomplish highly complex learning tasks through decentralised consensus seeking dynamics and their use has garnered a great deal of attention in the signal processing and computational intelligence societies. This article examines the behaviour of multiagent networked systems with nonlinear filtering/learning dynamics. To this end, a general formulation for the actions of an agent in multiagent networked systems is presented and conditions for achieving a cohesive learning behaviour is given. Importantly, application of the so derived framework in distributed and federated learning scenarios are presented.
翻訳日:2023-09-08 13:48:01 公開日:2023-09-07
# Text2Control3D:Geometry-Guided Text-to- Image Diffusion Modelを用いたニューラルラジアンス場における制御可能な3次元アバター生成

Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model ( http://arxiv.org/abs/2309.03550v1 )

ライセンス: Link先を確認
Sungwon Hwang, Junha Hyung, Jaegul Choo(参考訳) controlnetのような拡散モデルの最近の進歩は、幾何学的に制御可能で高精細なテキスト対画像生成を可能にした。 しかし、これらはテキストから3D生成への制御性の追加という問題に対処するものではない。 ハンドヘルドカメラでカジュアルに捉えたモノクロ映像から表情を制御可能なテキスト・ツー・3Dアバター生成法であるText2Control3Dを提案する。 ニューラルラジアンス・フィールド(NeRF)における3次元アバターの構築は,入力ビデオから抽出した深度マップが条件入力であるコントロールネットから生成した制御された視点認識画像の集合に最適化される。 視点認識画像を生成する際、クロスリファレンス・アテンション(cross-reference attention)を利用して、よく制御された参照的な表情と外観をクロス・アテンションで注入する。 また, 3d では理解できない同一画素位置に同一のテクスチャを含む視点認識画像を含む場合, 実験解析から観察した視点非依存なテクスチャ問題を改善するため, 拡散モデルのガウス的潜在性のローパスフィルタリングを行う。 最後に、視線を意識した画像でNeRFを訓練するには、図形ごとの幾何学的変動を、共有3次元標準空間からの変形のビューとみなす。 これにより、変形場テーブルを介して画像毎の変形の集合を学習することにより、変形可能なNeRFの正準空間に3Dアバターを構築する。 実験結果を実証し,本手法の有効性について考察する。

Recent advances in diffusion models such as ControlNet have enabled geometrically controllable, high-fidelity text-to-image generation. However, none of them addresses the question of adding such controllability to text-to-3D generation. In response, we propose Text2Control3D, a controllable text-to-3D avatar generation method whose facial expression is controllable given a monocular video casually captured with hand-held camera. Our main strategy is to construct the 3D avatar in Neural Radiance Fields (NeRF) optimized with a set of controlled viewpoint-aware images that we generate from ControlNet, whose condition input is the depth map extracted from the input video. When generating the viewpoint-aware images, we utilize cross-reference attention to inject well-controlled, referential facial expression and appearance via cross attention. We also conduct low-pass filtering of Gaussian latent of the diffusion model in order to ameliorate the viewpoint-agnostic texture problem we observed from our empirical analysis, where the viewpoint-aware images contain identical textures on identical pixel positions that are incomprehensible in 3D. Finally, to train NeRF with the images that are viewpoint-aware yet are not strictly consistent in geometry, our approach considers per-image geometric variation as a view of deformation from a shared 3D canonical space. Consequently, we construct the 3D avatar in a canonical space of deformable NeRF by learning a set of per-image deformation via deformation field table. We demonstrate the empirical results and discuss the effectiveness of our method.
翻訳日:2023-09-08 13:47:52 公開日:2023-09-07
# 確率論的経路:量子アンサンブル制御の新しいフロンティア

Probabilistic Pathways: New Frontiers in Quantum Ensemble Control ( http://arxiv.org/abs/2309.03601v1 )

ライセンス: Link先を確認
Randa Herzallah and Abdessamad Belfakir(参考訳) 本稿では,システムと外部環境との相互作用を補うことのできる,量子システムのアンサンブルを効率的に制御するための新しい確率論的制御フレームワークを提案する。 この問題の主な課題は、初期状態から望ましい最終状態への内部パラメータの変化を伴うシステムの集合を同時に操ることである。 量子アンサンブルの力学の確率論的記述と予め定義された所望の確率論的記述との相違の最小化が提案されたフレームワークの重要なステップである。 この目的により、導出された解は、アンサンブルをある状態から別の状態へ遷移させるだけでなく、一般にアンサンブルの初期分布を最終分布に操ることを可能にする。 提案した確率的制御フレームワークの有効性を示す数値的な結果を示す。

In this paper, we propose a novel probabilistic control framework for efficiently controlling an ensemble of quantum systems that can also compensate for the interaction of the systems with the external environment. The main challenge in this problem is to simultaneously steer an ensemble of systems with variation in their internal parameters from an initial state to a desired final state. The minimisation of the discrepancy between the probabilistic description of the dynamics of a quantum ensemble and a predefined desired probabilistic description is the key step in the proposed framework. With this objective, the derived solution will not only allow the transitioning of the ensemble from one state to another, but will generally allow steering an initial distribution of the ensemble to a final distribution. Numerical results are presented, demonstrating the effectiveness of the proposed probabilistic control framework.
翻訳日:2023-09-08 13:39:22 公開日:2023-09-07
# 単一画像からのテキスト3次元生成における一貫性の追求

Chasing Consistency in Text-to-3D Generation from a Single Image ( http://arxiv.org/abs/2309.03599v1 )

ライセンス: Link先を確認
Yichen Ouyang, Wenhao Chai, Jiayi Ye, Dapeng Tao, Yibing Zhan, Gaoang Wang(参考訳) シングルビュー画像からのテキスト・ツー・3D生成は、3Dビジョンでは人気があるが難しい課題である。 多くの方法が提案されているが、既存の作業は相反する問題に悩まされている。 1)意味的不整合 2)幾何学的矛盾,及び 3) 飽和不整合, ゆがみ, 過度に適合し, 過飽和世代が生じる。 上記の問題に照らし合わせて,1つの画像から意味的,幾何学的,飽和的,3d生成を追求する3段階のフレームワークである consist3d を提示し,最初の2段階はパラメータ化された一貫性トークンの学習を目標とし,最後の段階は最適化のためのものである。 具体的には、セマンティックエンコーディングステージは、ビューと推定から独立したトークンを学び、セマンティック一貫性とロバスト性を促進する。 一方、幾何符号化ステージは、新しい視点推定の下で包括的幾何および再構成制約を伴う別のトークンを学習し、過剰フィッティングを低減し、幾何整合性を促進する。 最後に、最適化段階は意味的および幾何学的トークンの恩恵を受け、分類器のないガイダンススケールを小さくすることができ、したがって過飽和を防止できる。 実験により、Consist3Dは従来の最先端手法と比較して一貫性があり、忠実で、フォトリアリスティックな3Dアセットを生成することが示された。 さらにConsist3Dでは、テキストプロンプトによるバックグラウンドやオブジェクトの編集も可能である。

Text-to-3D generation from a single-view image is a popular but challenging task in 3D vision. Although numerous methods have been proposed, existing works still suffer from the inconsistency issues, including 1) semantic inconsistency, 2) geometric inconsistency, and 3) saturation inconsistency, resulting in distorted, overfitted, and over-saturated generations. In light of the above issues, we present Consist3D, a three-stage framework Chasing for semantic-, geometric-, and saturation-Consistent Text-to-3D generation from a single image, in which the first two stages aim to learn parameterized consistency tokens, and the last stage is for optimization. Specifically, the semantic encoding stage learns a token independent of views and estimations, promoting semantic consistency and robustness. Meanwhile, the geometric encoding stage learns another token with comprehensive geometry and reconstruction constraints under novel-view estimations, reducing overfitting and encouraging geometric consistency. Finally, the optimization stage benefits from the semantic and geometric tokens, allowing a low classifier-free guidance scale and therefore preventing oversaturation. Experimental results demonstrate that Consist3D produces more consistent, faithful, and photo-realistic 3D assets compared to previous state-of-the-art methods. Furthermore, Consist3D also allows background and object editing through text prompts.
翻訳日:2023-09-08 13:39:08 公開日:2023-09-07
# 半教師付き学習におけるサンプル適応強化によるサンプル利用の促進

Enhancing Sample Utilization through Sample Adaptive Augmentation in Semi-Supervised Learning ( http://arxiv.org/abs/2309.03598v1 )

ライセンス: Link先を確認
Guan Gui, Zhen Zhao, Lei Qi, Luping Zhou, Lei Wang, Yinghuan Shi(参考訳) 半教師あり学習では、ラベルなしのサンプルは強化と一貫性の正規化によって利用できる。 しかし,強い増量を受ける場合であっても,一定の試料は高い信頼度で正しく分類され,0に近い損失を生じさせる。 これらのサンプルはすでに十分に学習されており、モデルにさらなる最適化の利点を提供していないことを示している。 これらのサンプルを ``naive sample' と呼ぶ。 残念ながら、既存のsslモデルはナイーブなサンプルの特徴を見落としており、すべてのサンプルに同じ学習戦略を適用するだけです。 SSLモデルをさらに最適化するために、より多様な方法で、より単純なサンプルに注意を向けることの重要性を強調します。 この目的のためにサンプル適応拡張(SAA)が提案され、2つのモジュールから構成される。 1) サンプル選択モジュール 2)サンプル増強モジュール。 具体的には、各エポックの履歴トレーニング情報に基づいて、サンプル選択モジュールが{naive sample}を選択すると、サンプル拡張モジュールでは、より多様な方法でネイティブなサンプルが拡張される。 上記のモジュールの実装が極端に簡単になるため、SAAはシンプルで軽量であるのに有利である。 我々はそれぞれFixMatchとFlexMatchの上にSAAを追加し、SAAがモデルを大幅に改善できることを示す実験を行った。 例えば、SAAはFixMatchの精度を92.50%から94.76%に改善し、FlexMatchは95.01%から95.31%に改善した。

In semi-supervised learning, unlabeled samples can be utilized through augmentation and consistency regularization. However, we observed certain samples, even undergoing strong augmentation, are still correctly classified with high confidence, resulting in a loss close to zero. It indicates that these samples have been already learned well and do not provide any additional optimization benefits to the model. We refer to these samples as ``naive samples". Unfortunately, existing SSL models overlook the characteristics of naive samples, and they just apply the same learning strategy to all samples. To further optimize the SSL model, we emphasize the importance of giving attention to naive samples and augmenting them in a more diverse manner. Sample adaptive augmentation (SAA) is proposed for this stated purpose and consists of two modules: 1) sample selection module; 2) sample augmentation module. Specifically, the sample selection module picks out {naive samples} based on historical training information at each epoch, then the naive samples will be augmented in a more diverse manner in the sample augmentation module. Thanks to the extreme ease of implementation of the above modules, SAA is advantageous for being simple and lightweight. We add SAA on top of FixMatch and FlexMatch respectively, and experiments demonstrate SAA can significantly improve the models. For example, SAA helped improve the accuracy of FixMatch from 92.50% to 94.76% and that of FlexMatch from 95.01% to 95.31% on CIFAR-10 with 40 labels.
翻訳日:2023-09-08 13:38:46 公開日:2023-09-07
# Loquacity and Visible Emotion: ChatGPTの政策アドバイザー

Loquacity and Visible Emotion: ChatGPT as a Policy Advisor ( http://arxiv.org/abs/2309.03595v1 )

ライセンス: Link先を確認
Claudia Biancotti, Carolina Camassa(参考訳) 人間の会話能力をシミュレートするソフトウェアChatGPTが注目を集めている。 創造的な仕事を含む、画期的な生産性支援として描かれることもある。 本稿では,複雑な書き込みタスクにおけるその可能性を評価する実験を行う。 我々は、このソフトウェアに、イタリア銀行の理事会のための政策概要の作成を依頼する。 また、ChatGPTは、構造化されたコンテンツ提案を提供することでワークフローを加速し、広範かつ言語学的に正しいテキストを数秒で生成できることを見出した。 しかし、それはかなりの量の専門家の監督を必要としており、生産性の向上を部分的に相殺している。 アプリが無意味に使われている場合、アウトプットは不正確、表面的、無関係である。 ファシリティは、ハイレベルな聴衆を対象とした政策アドバイスの文脈において特に問題となる制限である。

ChatGPT, a software seeking to simulate human conversational abilities, is attracting increasing attention. It is sometimes portrayed as a groundbreaking productivity aid, including for creative work. In this paper, we run an experiment to assess its potential in complex writing tasks. We ask the software to compose a policy brief for the Board of the Bank of Italy. We find that ChatGPT can accelerate workflows by providing well-structured content suggestions, and by producing extensive, linguistically correct text in a matter of seconds. It does, however, require a significant amount of expert supervision, which partially offsets productivity gains. If the app is used naively, output can be incorrect, superficial, or irrelevant. Superficiality is an especially problematic limitation in the context of policy advice intended for high-level audiences.
翻訳日:2023-09-08 13:38:18 公開日:2023-09-07
# 中性子軌道角運動量について:実際に実証されたか?

On the neutron orbital angular momentum: Has it actually been demonstrated? ( http://arxiv.org/abs/2309.03594v1 )

ライセンス: Link先を確認
Wolfgang Treimer and Frank Hau{\ss}er and Martin Suda(参考訳) Nature LETTER [1]では、中性子結晶干渉計を用いて中性子角運動量の制御が実証された。 その間、n-OAMと中性子干渉計を扱う多くの非常に興味深い論文が [1] を引用して出版された。 我々は,n-OAMを検出した[1]の解釈がいくつかの重大な理由から誤りであることを示し,矛盾を指摘する。 動的中性子回折の理論のみに基づいて、すべての干渉図を計算し、[1]で与えられるものと完全な一致を示す。 標準理論では説明できない追加効果が観測されなかったため、追加の n-OAM を仮定する必要はない。

In a Nature LETTER [1], a control of neutron angular momentum was apparently demonstrated using a neutron crystal interferometer. In the meantime, a number of highly interesting articles have been published dealing with the n-OAM and neutron interferometry, citing [1]. We show that the interpretation of [1] having detected a n-OAM is incorrect for several serious reasons and point out inconsistencies. Based only on the theory of dynamical neutron diffraction, we calculate all the interferograms and show perfect agreement with those given in [1]. There was no need to assume an additional n-OAM because no additional effect was observed that could not be explained by standard theory.
翻訳日:2023-09-08 13:38:06 公開日:2023-09-07
# SATによる量子グラフ状態合成

Quantum Graph-State Synthesis with SAT ( http://arxiv.org/abs/2309.03593v1 )

ライセンス: Link先を確認
Sebastiaan Brand, Tim Coopmans, Alfons Laarman(参考訳) 量子コンピューティングと量子情報処理において、グラフ状態(英: graph state)は、量子ネットワークや量子エラー補正で一般的に用いられる特定の種類の量子状態である。 繰り返し発生する問題は、ローカル操作のみを使用して、所定のソースグラフ状態から所望のターゲットグラフ状態への変換を見つけることである。 近年、変換性の決定はすでにNPハードであることが示されている。 本稿では,1キュービットのクリフォードゲートと1キュービットのポーリ計測に対応する,局所的および非局所的なグラフ状態操作のcnf符号化について述べる。 所望の変換を合成するために、このエンコーディングを有界モデルチェックセットで使用する。 完全性しきい値に対しては、それが存在すれば変換の長さの上限を与える。 1つはランダムなグラフ状態からのユビキタスghz状態の合成であり、もう1つは提案されている14ノードの量子ネットワークに基づいている。 このアプローチは、30分以内に17キュービットまでのグラフの変換を合成できることがわかりました。

In quantum computing and quantum information processing, graph states are a specific type of quantum states which are commonly used in quantum networking and quantum error correction. A recurring problem is finding a transformation from a given source graph state to a desired target graph state using only local operations. Recently it has been shown that deciding transformability is already NP-hard. In this paper, we present a CNF encoding for both local and non-local graph state operations, corresponding to one- and two-qubit Clifford gates and single-qubit Pauli measurements. We use this encoding in a bounded-model-checking set-up to synthesize the desired transformation. For a completeness threshold, we provide an upper bound on the length of the transformation if it exists. We evaluate the approach in two settings: the first is the synthesis of the ubiquitous GHZ state from a random graph state where we can vary the number of qubits, while the second is based on a proposed 14 node quantum network. We find that the approach is able to synthesize transformations for graphs up to 17 qubits in under 30 minutes.
翻訳日:2023-09-08 13:37:55 公開日:2023-09-07
# 選択型プランジャゲート電圧における量子ドットアレイの単一電子占有

Single-electron occupation in quantum dot arrays at selectable plunger gate voltage ( http://arxiv.org/abs/2309.03591v1 )

ライセンス: Link先を確認
Marcel Meyer, Corentin D\'eprez, Ilja N. Meijer, Florian K. Unseld, Saurabh Karwal, Amir Sammak, Giordano Scappucci, Lieven M. K. Vandersypen, Menno Veldhorst(参考訳) 半導体量子ビットのフットプリントはスケーラブルな量子コンピューティングに好適である。 しかし、その大きさは局所環境やゲート構造の変化にも敏感である。 現在、各デバイスは量子ドットごとに1つの電荷を閉じ込めるためにゲート電圧を調整する必要がある。 ここでは、これらのゲート電圧を調整し、応力電圧の一時的な適用のみで等化する。 二重量子ドットでは、安定な(1,1)電荷状態に到達し、同一かつ所定のプランジャゲート電圧と様々な相互結合を行う。 1,1,1,1) の電荷状態が (1,1,1,1) となるように、2$\times$2 の量子ドットをチューニングし、全てのプランジャゲートが 1 v に設定される。 必要なゲート電圧を定義する能力は、スピン量子ビットデバイスの制御エレクトロニクスと操作の要件を緩和し、量子ハードウェアを進歩させる手段を提供する。

The small footprint of semiconductor qubits is favourable for scalable quantum computing. However, their size also makes them sensitive to their local environment and variations in gate structure. Currently, each device requires tailored gate voltages to confine a single charge per quantum dot, clearly challenging scalability. Here, we tune these gate voltages and equalize them solely through the temporary application of stress voltages. In a double quantum dot, we reach a stable (1,1) charge state at identical and predetermined plunger gate voltage and for various interdot couplings. Applying our findings, we tune a 2$\times$2 quadruple quantum dot such that the (1,1,1,1) charge state is reached when all plunger gates are set to 1 V. The ability to define required gate voltages may relax requirements on control electronics and operations for spin qubit devices, providing means to advance quantum hardware.
翻訳日:2023-09-08 13:37:40 公開日:2023-09-07
# 視覚データセットにまたがる静的画像分類のための大胆なfmri時系列の空間符号化:人間の視覚に関するパイロット研究

Spatial encoding of BOLD fMRI time series for categorizing static images across visual datasets: A pilot study on human vision ( http://arxiv.org/abs/2309.03590v1 )

ライセンス: Link先を確認
Vamshi K. Kancharala, Debanjali Bhattacharya and Neelam Sinha(参考訳) 機能MRI(Functional MRI)は脳活動に伴う酸素化血流の変化を検出することで脳機能を調べるために広く用いられている。 本研究では,視覚に関連する神経活動の違いを理解するために,fMRI時系列(TS)を用いて,異なる視覚データセット間での複雑性特異的画像分類を行う。 この目的で一般公開されているbold5000データセットは、coco、imagenet、sunの3つの標準的なコンピュータビジョンデータセットから引き出された5254の画像を見ながら、fmriスキャンを含む。 視覚を理解するには、異なる画像を見ながら脳がどのように機能するかを研究することが重要である。 これを実現するために、従来のグラミアン角場(GAF)とマルコフ遷移場(MTF)を用いてCOCO、Imagenet、SUNの画像を表す2次元BOLD TSを得るfMRI BOLD TSの空間符号化が行われた。 分類において、個々のGAFとMTFの特徴は通常のCNNに供給される。 その後、COCO、Imagenet、SUNにまたがる画像の分類に2D機能を組み合わせた並列CNNモデルが採用された。 また、2次元CNNモデルの結果を、生のfMRI BOLD信号を用いた1次元LSTMとBi-LSTMと比較した。 並列cnnモデルは他のネットワークモデルよりも優れており、マルチクラス分類では7%改善されている。 臨床関連性-この分析の結果は、多様な複雑さの画像を見ながら、人間の脳がどう機能するかを研究する基準となる。

Functional MRI (fMRI) is widely used to examine brain functionality by detecting alteration in oxygenated blood flow that arises with brain activity. In this study, complexity specific image categorization across different visual datasets is performed using fMRI time series (TS) to understand differences in neuronal activities related to vision. Publicly available BOLD5000 dataset is used for this purpose, containing fMRI scans while viewing 5254 images of diverse categories, drawn from three standard computer vision datasets: COCO, ImageNet and SUN. To understand vision, it is important to study how brain functions while looking at different images. To achieve this, spatial encoding of fMRI BOLD TS has been performed that uses classical Gramian Angular Field (GAF) and Markov Transition Field (MTF) to obtain 2D BOLD TS, representing images of COCO, Imagenet and SUN. For classification, individual GAF and MTF features are fed into regular CNN. Subsequently, parallel CNN model is employed that uses combined 2D features for classifying images across COCO, Imagenet and SUN. The result of 2D CNN models is also compared with 1D LSTM and Bi-LSTM that utilizes raw fMRI BOLD signal for classification. It is seen that parallel CNN model outperforms other network models with an improvement of 7% for multi-class classification. Clinical relevance- The obtained result of this analysis establishes a baseline in studying how differently human brain functions while looking at images of diverse complexities.
翻訳日:2023-09-08 13:37:22 公開日:2023-09-07
# 選好学習による多目的問題における対話型ハイパーパラメータ最適化

Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning ( http://arxiv.org/abs/2309.03581v1 )

ライセンス: Link先を確認
Joseph Giovanelli, Alexander Tornede, Tanja Tornede, Marius Lindauer(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)の潜在能力を最大限活用するために重要である。 実際には、ユーザは多目的(mo)の問題、すなわち、精度やエネルギー消費といった潜在的に矛盾する目標を最適化することに関心を持つことが多い。 これを解決するために、MO-MLアルゴリズムの大多数は、非支配的な機械学習モデルのParetoをユーザに返す。 このようなアルゴリズムのハイパーパラメータの最適化は、ハイパーパラメータの設定を評価することは、パレートフロントの品質を評価することを伴うため、自明ではない。 文献では、異なる性質(例えば体積、基準点に近い)を定量化することでパレートフロント(例えば、ハイパーボリューム、R2)の品質を評価する既知の指標が存在する。 しかし、望ましいparetoフロントにつながるインジケータを選択するのは、ユーザーにとっては難しい作業かもしれません。 本稿では、好み学習を利用した多目的MLに適した人間中心型対話型HPO手法を提案し、最適化を導くユーザからデシダラタを抽出する。 ユーザが最も適切な指標を推測する代わりに、このアプローチは自動的に適切な指標を学習します。 具体的には、異なるパレートフロントのペアワイズ比較を利用して、このような適切な品質指標を学習する。 そして,最新のHPO手法を用いて,基礎となるMO-MLアルゴリズムのハイパーパラメータをこの学習指標に最適化する。 mlの環境影響を対象とする実験研究において,提案手法がユーザの選択した誤った指標に基づく最適化に比べて,パレートフロントが大幅に向上することを示すとともに,ユーザが選択すべき指標を知っている場合と同等の性能を発揮することを実証した。

Hyperparameter optimization (HPO) is important to leverage the full potential of machine learning (ML). In practice, users are often interested in multi-objective (MO) problems, i.e., optimizing potentially conflicting objectives, like accuracy and energy consumption. To tackle this, the vast majority of MO-ML algorithms return a Pareto front of non-dominated machine learning models to the user. Optimizing the hyperparameters of such algorithms is non-trivial as evaluating a hyperparameter configuration entails evaluating the quality of the resulting Pareto front. In literature, there are known indicators that assess the quality of a Pareto front (e.g., hypervolume, R2) by quantifying different properties (e.g., volume, proximity to a reference point). However, choosing the indicator that leads to the desired Pareto front might be a hard task for a user. In this paper, we propose a human-centered interactive HPO approach tailored towards multi-objective ML leveraging preference learning to extract desiderata from users that guide the optimization. Instead of relying on the user guessing the most suitable indicator for their needs, our approach automatically learns an appropriate indicator. Concretely, we leverage pairwise comparisons of distinct Pareto fronts to learn such an appropriate quality indicator. Then, we optimize the hyperparameters of the underlying MO-ML algorithm towards this learned indicator using a state-of-the-art HPO approach. In an experimental study targeting the environmental impact of ML, we demonstrate that our approach leads to substantially better Pareto fronts compared to optimizing based on a wrong indicator pre-selected by the user, and performs comparable in the case of an advanced user knowing which indicator to pick.
翻訳日:2023-09-08 13:36:52 公開日:2023-09-07
# DTW+S: 時系列と順序付き局所トレンドの比較

DTW+S: Shape-based Comparison of Time-series with Ordered Local Trend ( http://arxiv.org/abs/2309.03579v1 )

ライセンス: Link先を確認
Ajitesh Srivastava(参考訳) 時系列データ間の距離や類似度を測定することは、分類やクラスタリングを含む多くのアプリケーションの基本的側面である。 既存の措置は、局所的な傾向(形)によって類似性を捉えられず、誤解を招く結果を生み出すことさえある。 当社の目標は、同様の傾向が同じ時期に発生し、適用領域の研究者にとって容易に解釈可能な指標を開発することです。 これは、流行(ピークまで上昇して減少する)のような、順序付けられた有意義な局所的な傾向のシーケンスを持つアプリケーションにとって特に有用である。 本稿では,各列が局所的傾向を表す時系列の解釈可能な「閉鎖性保存」行列表現を作成し,それらの行列間の距離を計算するために動的時間ワープを適用する新しい尺度DTW+Sを提案する。 我々は,この表現の選択を支援する理論的解析を行う。 流行曲線のアンサンブル構築とクラスタリングにおけるDTW+Sの有用性を実証する。 また,大規模ではなく局所的な傾向が決定的な役割を担っている場合,我々のアプローチは,データセットのクラスに対する動的時間ワープよりも優れた分類をもたらすことを示す。

Measuring distance or similarity between time-series data is a fundamental aspect of many applications including classification and clustering. Existing measures may fail to capture similarities due to local trends (shapes) and may even produce misleading results. Our goal is to develop a measure that looks for similar trends occurring around similar times and is easily interpretable for researchers in applied domains. This is particularly useful for applications where time-series have a sequence of meaningful local trends that are ordered, such as in epidemics (a surge to an increase to a peak to a decrease). We propose a novel measure, DTW+S, which creates an interpretable "closeness-preserving" matrix representation of the time-series, where each column represents local trends, and then it applies Dynamic Time Warping to compute distances between these matrices. We present a theoretical analysis that supports the choice of this representation. We demonstrate the utility of DTW+S in ensemble building and clustering of epidemic curves. We also demonstrate that our approach results in better classification compared to Dynamic Time Warping for a class of datasets, particularly when local trends rather than scale play a decisive role.
翻訳日:2023-09-08 13:36:24 公開日:2023-09-07
# タンパク質機能予測のためのトランスフォーマーモデルの内部動作への洞察

Insights Into the Inner Workings of Transformer Models for Protein Function Prediction ( http://arxiv.org/abs/2309.03631v1 )

ライセンス: Link先を確認
Markus Wenzel, Erik Gr\"uner, Nils Strodthoff(参考訳) モチベーション:我々は、遺伝子オントロジー項や酵素委員会数予測に微調整されたトランスフォーマーモデル内の潜伏表現を検査できるような、広く使われている統合勾配のXAIメソッドを拡張して、ニューラルネットワークの内部動作に光を当てることによって、AI(XAI)がどのように役立つかを探索した。 結果: 本手法により, トランスフォーマーが特に注意を払っている配列中のアミノ酸を同定し, これらの関連配列は, 組込み層とモデル内部の両方において, 生物学や化学からの期待を反映していることを示すことができた。 可用性と実装: ソースコードはhttps://github.com/markuswenzel/xai-proteinsでアクセスできる。

Motivation: We explored how explainable AI (XAI) can help to shed light into the inner workings of neural networks for protein function prediction, by extending the widely used XAI method of integrated gradients such that latent representations inside of transformer models, which were finetuned to Gene Ontology term and Enzyme Commission number prediction, can be inspected too. Results: The approach enabled us to identify amino acids in the sequences that the transformers pay particular attention to, and to show that these relevant sequence parts reflect expectations from biology and chemistry, both in the embedding layer and inside of the model, where we identified transformer heads with a statistically significant correspondence of attribution maps with ground truth sequence annotations (e.g., transmembrane regions, active sites) across many proteins. Availability and Implementation: Source code can be accessed at https://github.com/markuswenzel/xai-proteins .
翻訳日:2023-09-08 13:31:32 公開日:2023-09-07
# 正のハミルトニアンは正の可観測物の指数的崩壊を与えることができない

Positive Hamiltonians cannot give exponential decay of positive observables ( http://arxiv.org/abs/2309.03625v1 )

ライセンス: Link先を確認
Paolo Facchi, Davide Lonigro(参考訳) 有限基底エネルギーを持つ量子系の生存確率は、しばしば指数的に崩壊することが知られている。 ここで、同じ仮定の下で、量子可観測値の平均値は、よく定義されたときは常に、可観測値のスペクトルの極値に指数関数的に収束することができないことを示す。 したがって、指数崩壊からの大規模な時間偏差は量子系の一般的な特徴である。 これらの結果の単純な応用として、有限基底エネルギーを持つハミルトニアンによって動力学が生成される開量子系を考えると、集団の大規模な指数的崩壊は禁止されるが、コヒーレンスは指数関数的に崩壊する。

The survival probability of a quantum system with a finite ground energy is known to decay subexponentially at large times. Here we show that, under the same assumption, the average value of any quantum observable, whenever well-defined, cannot converge exponentially to an extremal value of the spectrum of the observable. Large-time deviations from the exponential decay are therefore a general feature of quantum systems. As a simple application of these results, we show that, when considering an open quantum system whose dynamics is generated by a Hamiltonian with a finite ground energy, a large-time exponential decay of populations is forbidden, whereas coherences may still decay exponentially.
翻訳日:2023-09-08 13:31:12 公開日:2023-09-07
# 代数的関係論の擁護

A defense of algebraic relationalism ( http://arxiv.org/abs/2309.03622v1 )

ライセンス: Link先を確認
Lu Chen(参考訳) 私は代数主義を擁護し、時空多様体に言及せずに、それらの構造的関係において物理的場が理解されるようにし、時空が本質的に存在する時空に等しいという従来の知恵に対する真のリレーショナル主義的見解である。 私は、準安定主義と同等の代数主義の標準版を批判します。 さらに、関係論をよりよく実装する代数主義の別の例を示し、それらの劣性論やその標準的な代数的類似点に対して明確な利点を示す。

I defend algebraicism, according to which physical fields can be understood in terms of their structural relations without reference to a spacetime manifold, as a genuine relationalist view against the conventional wisdom that it is equivalent to substantivalism, according to which spacetime exists fundamentally. I criticize the standard version of algebraicism that is considered equivalent to substantivalism. Furthermore, I present alternative examples of algebraicism that better implement relationalism and showcase their distinct advantages over substantivalism or its standard algebraic counterpart.
翻訳日:2023-09-08 13:31:00 公開日:2023-09-07
# 量子状態多様体のゆらぎ、不確実性関係、および幾何学

Fluctuations, uncertainty relations, and the geometry of quantum state manifolds ( http://arxiv.org/abs/2309.03621v1 )

ライセンス: Link先を確認
Bal\'azs Het\'enyi and P\'eter L\'evay(参考訳) パラメトリズド量子系の完全な量子計量は、実部(通常、プロボスト・バレー計量として知られる)とシンプレクティック虚部(ベリー曲率として知られる)を持つ。 本稿では,計量によって記述される空間のリーマン曲率テンソルとベリー曲率との関係を,ヒルベルト空間におけるベクトルの明示的な平行移動により検討する。 その後、複素計量と高次幾何学的テンソル(アフィン接続、リーマン曲率テンソル)をゲージ不変積という観点から得ることができる生成関数を記述する。 生成関数は、パラメータ空間の幾何を量子揺らぎに特徴づける量を明示的に関連付ける。 また、量子計量の実部と虚部の両方を混合した量子古典系は、質量テンソルがエルミート的であればダイナミクスに寄与することを示した。 不確実性原理の多くの作用素一般化は、複素量子計量の行列式を取ることによって生じる。 また、$SU(1,1)$群のいくつかの表現を含む多数のリー群コヒーレント状態の量子計量を計算する。 我々の例では、一般化されたコヒーレント状態に対する非自明な複素幾何学結果である。 su(1,1)$ 群に対応する一対の発振器状態は、スペクトルの二重級数を与える。 2つの最小不確実コヒーレント状態は自明な幾何学を示すが、また、一般化コヒーレント状態に対しては非自明な幾何学結果を示す。

The complete quantum metric of a parametrized quantum system has a real part (usually known as the Provost-Vallee metric) and a symplectic imaginary part (known as the Berry curvature). In this paper, we first investigate the relation between the Riemann curvature tensor of the space described by the metric, and the Berry curvature, by explicit parallel transport of a vector in Hilbert space. Subsequently, we write a generating function from which the complex metric, as well as higher order geometric tensors (affine connection, Riemann curvature tensor) can be obtained in terms of gauge invariant cumulants. The generating function explicitly relates the quantities which characterize the geometry of the parameter space to quantum fluctuations. We also show that for a mixed quantum-classical system both real and imaginary parts of the quantum metric contribute to the dynamics, if the mass tensor is Hermitian. A many operator generalization of the uncertainty principle results from taking the determinant of the complex quantum metric. We also calculate the quantum metric for a number of Lie group coherent states, including several representations of the $SU(1,1)$ group. In our examples non-trivial complex geometry results for generalized coherent states. A pair of oscillator states corresponding to the $SU(1,1)$ group gives a double series for its spectrum. The two minimal uncertainty coherent states show trivial geometry, but, again, for generalized coherent states non-trivial geometry results.
翻訳日:2023-09-08 13:30:23 公開日:2023-09-07
# 分散と冗長化による音声表現の自己教師付き学習理解

Understanding Self-Supervised Learning of Speech Representation via Invariance and Redundancy Reduction ( http://arxiv.org/abs/2309.03619v1 )

ライセンス: Link先を確認
Yusuf Brima, Ulf Krumnack, Simone Pika and Gunther Heidemann(参考訳) 目的関数の選択は、自己教師付き学習から高品質な表現を生み出す上で重要である。 本稿では,barlow twins (bt) の目的が音声データにおける下流タスク性能に与える影響について検討する。 そこで本研究では,話者識別,性別認識,キーワードスポッティングタスクにおいて,正規化潜伏子を用いた修正バーローツイン(MBT)を提案する。 その結果、mbtはオリジナルのbtよりも表現の一般化が向上することが示された。 これは不変かつ移動可能な表現を奨励する目的を設計することの重要性を強調している。 今回の分析は,bt学習目標が新たなダウンストリームタスクに適応した場合に優れた音声表現を生成するためにどのように調整されるかに関する洞察を提供する。 本研究は,再利用可能な自己教師あり音声表現を開発するための重要なステップである。

The choice of the objective function is crucial in emerging high-quality representations from self-supervised learning. This paper investigates how different formulations of the Barlow Twins (BT) objective impact downstream task performance for speech data. We propose Modified Barlow Twins (MBT) with normalized latents to enforce scale-invariance and evaluate on speaker identification, gender recognition and keyword spotting tasks. Our results show MBT improves representation generalization over original BT, especially when fine-tuning with limited target data. This highlights the importance of designing objectives that encourage invariant and transferable representations. Our analysis provides insights into how the BT learning objective can be tailored to produce speech representations that excel when adapted to new downstream tasks. This study is an important step towards developing reusable self-supervised speech representations.
翻訳日:2023-09-08 13:29:40 公開日:2023-09-07
# NeuroCodeBench: ソフトウェア検証のための普通のCニューラルネットワークベンチマーク

NeuroCodeBench: a plain C neural network benchmark for software verification ( http://arxiv.org/abs/2309.03617v1 )

ライセンス: Link先を確認
Edoardo Manino, Rafael S\'a Menezes, Fedor Shmarov, Lucas C. Cordeiro(参考訳) ニューラルネットワークコンポーネントを持つ安全クリティカルシステムは、強力な保証を必要とする。 既存のニューラルネットワーク検証技術はこの目標に向けて大きな進歩を見せているが、ネットワーク実装におけるソフトウェア欠陥の欠如を証明することはできない。 本稿では,平易なc言語で記述されたニューラルネットワークコードの検証ベンチマークであるneurocodebenchについて述べる。計算ライブラリ,アクティベーション関数,誤り訂正ネットワーク,伝達関数近似,確率密度推定,強化学習の6つのカテゴリに,607の安全性特性を持つ32のニューラルネットワークが含まれている。 予備評価の結果,標準c数式ライブラリの不完全なサポートと大規模ニューラルネットワークの複雑さにより,最先端のソフトウェア検証者が正しい判断を下すのに苦労していることが判明した。

Safety-critical systems with neural network components require strong guarantees. While existing neural network verification techniques have shown great progress towards this goal, they cannot prove the absence of software faults in the network implementation. This paper presents NeuroCodeBench - a verification benchmark for neural network code written in plain C. It contains 32 neural networks with 607 safety properties divided into 6 categories: maths library, activation functions, error-correcting networks, transfer function approximation, probability density estimation and reinforcement learning. Our preliminary evaluation shows that state-of-the-art software verifiers struggle to provide correct verdicts, due to their incomplete support of the standard C mathematical library and the complexity of larger neural networks.
翻訳日:2023-09-08 13:29:04 公開日:2023-09-07
# 動的グラフ分類のための濾過面

Filtration Surfaces for Dynamic Graph Classification ( http://arxiv.org/abs/2309.03616v1 )

ライセンス: Link先を確認
Franz Srambical and Bastian Rieck(参考訳) 動的グラフを分類するための既存のアプローチは、グラフカーネルを時間領域にリフトするか、グラフニューラルネットワーク(GNN)を使用する。 しかし、現在のベースラインにはスケーラビリティの問題があり、ノードセットの変更を処理できない、あるいはエッジウェイト情報を考慮していない。 我々は,その制約を緩和する,スケーラブルでフレキシブルな新しい方法である濾過面を提案する。 本モデルの有効性を実験的に検証し,エッジウエイト情報に依存するデータセットの最先端ベースラインよりも濾過表面が優れていることを示す。 提案手法は完全にパラメータフリーか少なくとも1つのパラメータを持ちながら、全体的な標準偏差を最小にする。

Existing approaches for classifying dynamic graphs either lift graph kernels to the temporal domain, or use graph neural networks (GNNs). However, current baselines have scalability issues, cannot handle a changing node set, or do not take edge weight information into account. We propose filtration surfaces, a novel method that is scalable and flexible, to alleviate said restrictions. We experimentally validate the efficacy of our model and show that filtration surfaces outperform previous state-of-the-art baselines on datasets that rely on edge weight information. Our method does so while being either completely parameter-free or having at most one parameter, and yielding the lowest overall standard deviation.
翻訳日:2023-09-08 13:28:45 公開日:2023-09-07
# 推薦システムとしてのChatGPTの評価:厳密なアプローチ

Evaluating ChatGPT as a Recommender System: A Rigorous Approach ( http://arxiv.org/abs/2309.03613v1 )

ライセンス: Link先を確認
Dario Di Palma, Giovanni Maria Biancofiore, Vito Walter Anelli, Fedelucio Narducci, Tommaso Di Noia, Eugenio Di Sciascio(参考訳) 最近の人気は、その印象的な自然言語能力のために、大きなAI言語モデルを取り巻いている。 プロンプトベースの学習を含む言語関連タスクに大きく貢献し、様々な特定のタスクに有用である。 このアプローチは、完全なポテンシャルを解放し、精度と一般化を高める。 研究コミュニティはChatGPTの承認を得て、積極的に応用を探求している。 大きな言語モデルに関する広範な研究にもかかわらず、レコメンデーションシナリオの可能性はまだ検討する必要がある。 本研究の目的は、ゼロショットレコメンデータシステムとしてのChatGPTの能力を調査することによって、このギャップを埋めることである。 私たちのゴールは、リコメンデーションにユーザー好みを使う能力の評価、既存のレコメンデーションリストのリオーダー、類似のユーザーからの情報の活用、コールドスタートの状況への対応です。 3つのデータセット(MovieLens Small, Last.FM, Facebook Book)を用いて,ChatGPTの性能評価を行った。 本稿では,ChatGPTの性能を標準推奨アルゴリズムや,GPT-3.5やPaLM-2などの大規模言語モデルと比較する。 推奨効果を評価するために,平均的評価指標として,平均的評価精度 (MAP), 再コール, 精度, F1, 正規化された分散累積ゲイン (nDCG), アイテムカバレッジ, 期待される人気度補完 (EPC), 平均的推奨度 (ACLT), 平均的推薦度 (ARP), 人気度に基づく等式 (PopREO) を用いる。 推薦システムにおけるchatgptの能力について徹底的に検討し,大規模言語モデルの汎用性と応用可能性に関する研究の進展に寄与することを目的としている。 私たちの実験コードはgithubリポジトリで入手できる。 https://github.com/sisinflab/recommender-chatgpt

Recent popularity surrounds large AI language models due to their impressive natural language capabilities. They contribute significantly to language-related tasks, including prompt-based learning, making them valuable for various specific tasks. This approach unlocks their full potential, enhancing precision and generalization. Research communities are actively exploring their applications, with ChatGPT receiving recognition. Despite extensive research on large language models, their potential in recommendation scenarios still needs to be explored. This study aims to fill this gap by investigating ChatGPT's capabilities as a zero-shot recommender system. Our goals include evaluating its ability to use user preferences for recommendations, reordering existing recommendation lists, leveraging information from similar users, and handling cold-start situations. We assess ChatGPT's performance through comprehensive experiments using three datasets (MovieLens Small, Last.FM, and Facebook Book). We compare ChatGPT's performance against standard recommendation algorithms and other large language models, such as GPT-3.5 and PaLM-2. To measure recommendation effectiveness, we employ widely-used evaluation metrics like Mean Average Precision (MAP), Recall, Precision, F1, normalized Discounted Cumulative Gain (nDCG), Item Coverage, Expected Popularity Complement (EPC), Average Coverage of Long Tail (ACLT), Average Recommendation Popularity (ARP), and Popularity-based Ranking-based Equal Opportunity (PopREO). Through thoroughly exploring ChatGPT's abilities in recommender systems, our study aims to contribute to the growing body of research on the versatility and potential applications of large language models. Our experiment code is available on the GitHub repository: https://github.com/sisinflab/Recommender-ChatGPT
翻訳日:2023-09-08 13:28:28 公開日:2023-09-07
# 量子誤差補正と密度分類のための量子セルオートマトン

Quantum cellular automata for quantum error correction and density classification ( http://arxiv.org/abs/2309.03608v1 )

ライセンス: Link先を確認
Thiago L. M. Guedes, Don Winter, and Markus M\"uller(参考訳) 量子セルオートマトンは量子チューリングマシンや量子回路に代わる量子計算パラダイムである。 彼らの作業メカニズムは本質的に自動化され、測定は自由であり、レジスタのすべてのセル/キュートに対して変換不変に作用し、細胞状態をローカルに更新するグローバルルールを生成する。 多くのアプリケーションで望ましい機能があるが、これらの完全自動化された離散時間ローカルアップデートが、彼らが実行する(ノイズの多い)システムにおいて、どの程度で長距離の順序を生成・維持できるかは、一般的には明確ではない。 特に、量子セルオートマトンが量子誤差を補正できるかどうかと方法は、未解決のままである。 この概念のギャップを埋めるために,量子セルオートマトンを量子エラー訂正機能で提案する。 我々は,局所多数決と2行投票という,密度分類機能を持つ既知の古典的セルオートマタ規則に基づいて,2つの(準)1次元量子セルオートマトンを設計し,検討する。 これらの量子セルオートマトンを量子メモリコンポーネントとして,論理的ビットフリップによって引き起こされる論理的情報に必要な更新ステップ数をシミュレートすることにより,その性能について検討する。 提案する設計は、量子誤差補正機能を内蔵した新しいタイプの量子セルオートマトンの可能性をさらに探究する手段となる。

Quantum cellular automata are alternative quantum-computing paradigms to quantum Turing machines and quantum circuits. Their working mechanisms are inherently automated, therefore measurement free, and they act in a translation invariant manner on all cells/qudits of a register, generating a global rule that updates cell states locally, i.e., based solely on the states of their neighbors. Although desirable features in many applications, it is generally not clear to which extent these fully automated discrete-time local updates can generate and sustain long-range order in the (noisy) systems they act upon. In special, whether and how quantum cellular automata can perform quantum error correction remain open questions. We close this conceptual gap by proposing quantum cellular automata with quantum-error-correction capabilities. We design and investigate two (quasi-)one dimensional quantum cellular automata based on known classical cellular-automata rules with density-classification capabilities, namely the local majority voting and the two-line voting. We investigate the performances of those quantum cellular automata as quantum-memory components by simulating the number of update steps required for the logical information they act upon to be afflicted by a logical bit flip. The proposed designs pave a way to further explore the potential of new types of quantum cellular automata with built-in quantum error correction capabilities.
翻訳日:2023-09-08 13:27:53 公開日:2023-09-07
# バッテリーは爆発だ! 認証による偽造電池の保護

Your Battery Is a Blast! Safeguarding Against Counterfeit Batteries with Authentication ( http://arxiv.org/abs/2309.03607v1 )

ライセンス: Link先を確認
Francesco Marchiori, Mauro Conti(参考訳) リチウムイオン(リチウムイオン)電池は、高エネルギーと電力密度のため、様々な用途において主要な電源である。 彼らの市場は2022年に最大48億ドルの米国ドルと見積もられた。 しかし、Liイオン電池の普及により偽造細胞が生産され、利用者に安全上の危険をもたらす可能性がある。 偽造細胞は爆発や火災を引き起こし、市場におけるその流行は、ユーザーが偽造細胞を検出するのを困難にしている。 実際、現在のバッテリ認証手法は高度な偽造技術の影響を受けやすく、様々なセルやシステムに適応できないことが多い。 本稿では,機械学習モデルを用いて,各セルの内部特性を活用する2つの新しい手法であるDCAuthとEISthenticationを提案することにより,バッテリ認証技術の向上を図る。 本手法は, 外部デバイスを必要とせずに, リチウムイオン電池モデルやアーキテクチャを通常の使用データから自動的に認証する。 それらはまた、最も一般的で批判的な偽造行為に耐性があり、いくつかのバッテリーやデバイスにスケールできる。 提案手法の有効性を評価するために,我々は20のデータセットから時系列データを解析し,分析に有意義な特徴を抽出する。 提案手法は,アーキテクチャ(最大0.99)とモデル(最大0.96)の両方のバッテリ認証において高い精度を実現する。 さらに,本手法は識別性能と同等である。 提案手法により, 製造者は, 装置が正当な電池のみを使用することを保証し, システムの運用状態と安全性を保証できる。

Lithium-ion (Li-ion) batteries are the primary power source in various applications due to their high energy and power density. Their market was estimated to be up to 48 billion U.S. dollars in 2022. However, the widespread adoption of Li-ion batteries has resulted in counterfeit cell production, which can pose safety hazards to users. Counterfeit cells can cause explosions or fires, and their prevalence in the market makes it difficult for users to detect fake cells. Indeed, current battery authentication methods can be susceptible to advanced counterfeiting techniques and are often not adaptable to various cells and systems. In this paper, we improve the state of the art on battery authentication by proposing two novel methodologies, DCAuth and EISthentication, which leverage the internal characteristics of each cell through Machine Learning models. Our methods automatically authenticate lithium-ion battery models and architectures using data from their regular usage without the need for any external device. They are also resilient to the most common and critical counterfeit practices and can scale to several batteries and devices. To evaluate the effectiveness of our proposed methodologies, we analyze time-series data from a total of 20 datasets that we have processed to extract meaningful features for our analysis. Our methods achieve high accuracy in battery authentication for both architectures (up to 0.99) and models (up to 0.96). Moreover, our methods offer comparable identification performances. By using our proposed methodologies, manufacturers can ensure that devices only use legitimate batteries, guaranteeing the operational state of any system and safety measures for the users.
翻訳日:2023-09-08 13:27:30 公開日:2023-09-07
# 意味画像分割における比較知識蒸留に向けて

Towards Comparable Knowledge Distillation in Semantic Image Segmentation ( http://arxiv.org/abs/2309.03659v1 )

ライセンス: Link先を確認
Onno Niemann, Christopher Vox, and Thorben Werner(参考訳) 知識蒸留 (KD) は, セマンティックセグメンテーションにおいて, モデルサイズが大きく, 推論速度が遅い方法の一つとして提案されている。 本研究では,過去4年間に14の出版物から25の蒸留損失項を抽出した。 残念なことに、公開結果に基づく用語の比較は、トレーニング構成の違いのため、しばしば不可能である。 この問題の好例は、2022年の2つの出版物の比較である。 同じモデルとデータセットを用いて、Struform and Statistical Texture Distillation (SSTKD)は学生mIoUの4.54増加と29.19の最終的なパフォーマンスを報告し、Adaptive Perspective Distillation (APD)は学生のパフォーマンスを2.06ポイント改善するが、最終的なパフォーマンスは39.25である。 このような極端な違いの理由は、しばしばハイパーパラメータの最適下選択と、基準点として使用される学生モデルの過小評価である。 本研究では,SKDとIFVDという2つの広く受け入れられているフレームワークの蒸留改善が,過度パラメータを十分に最適化した場合に消滅することを示し,過度パラメータチューニングの問題点を明らかにする。 本研究では,3つのデータセットと2つの学生モデルのためのソリッドベースラインを構築し,ハイパーパラメータチューニングに関する広範な情報を提供する。 ADE20Kデータセットの単純なベースラインと競合できるのは8つのテクニックのうち2つだけです。

Knowledge Distillation (KD) is one proposed solution to large model sizes and slow inference speed in semantic segmentation. In our research we identify 25 proposed distillation loss terms from 14 publications in the last 4 years. Unfortunately, a comparison of terms based on published results is often impossible, because of differences in training configurations. A good illustration of this problem is the comparison of two publications from 2022. Using the same models and dataset, Structural and Statistical Texture Distillation (SSTKD) reports an increase of student mIoU of 4.54 and a final performance of 29.19, while Adaptive Perspective Distillation (APD) only improves student performance by 2.06 percentage points, but achieves a final performance of 39.25. The reason for such extreme differences is often a suboptimal choice of hyperparameters and a resulting underperformance of the student model used as reference point. In our work, we reveal problems of insufficient hyperparameter tuning by showing that distillation improvements of two widely accepted frameworks, SKD and IFVD, vanish when hyperparameters are optimized sufficiently. To improve comparability of future research in the field, we establish a solid baseline for three datasets and two student models and provide extensive information on hyperparameter tuning. We find that only two out of eight techniques can compete with our simple baseline on the ADE20K dataset.
翻訳日:2023-09-08 13:19:10 公開日:2023-09-07
# BNS-Net:行動レベルと文レベルの矛盾を考慮した二重チャネルサーカスム検出法

BNS-Net: A Dual-channel Sarcasm Detection Method Considering Behavior-level and Sentence-level Conflicts ( http://arxiv.org/abs/2309.03658v1 )

ライセンス: Link先を確認
Liming Zhou and Xiaowei Xu and Xiaodong Wang(参考訳) Sarcasm Detectionは、与えられた発話が皮肉であるかどうかを判断することを目的としたバイナリ分類タスクである。 過去10年間で、サーカズム検出は古典的なパターン認識からディープラーニングアプローチへと進化し、ユーザプロファイルや句読点、感情語といった特徴がサーカズム検出に一般的に用いられてきた。 実生活の皮肉表現では、明示的な感情的な手がかりのない行動はしばしば暗黙的な感情的な意味のキャリアとして機能する。 そこで本研究では,BNS-Netという2チャネルサーカスタム検出モデルを提案する。 モデルは2つのチャンネルにおける行動と文の衝突を考察する。 チャンネル1: 行動レベルのコンフリクトチャンネルは、修正されたアテンションメカニズムを利用してコンフリクト情報を強調しながら、コア動詞に基づいてテキストを再構築する。 チャンネル2: 文レベルの衝突チャンネルは、外部の感情知識を導入し、テキストを明示的で暗黙的な文に分割し、それらの間の衝突をキャプチャする。 BNS-Netの有効性を検証するために、3つの公開サルカズムデータセットで比較およびアブレーション実験を行った。 実験結果の分析と評価により,BNS-Netはテキスト中の皮肉を効果的に識別し,最先端の性能を実現することを示した。

Sarcasm detection is a binary classification task that aims to determine whether a given utterance is sarcastic. Over the past decade, sarcasm detection has evolved from classical pattern recognition to deep learning approaches, where features such as user profile, punctuation and sentiment words have been commonly employed for sarcasm detection. In real-life sarcastic expressions, behaviors without explicit sentimental cues often serve as carriers of implicit sentimental meanings. Motivated by this observation, we proposed a dual-channel sarcasm detection model named BNS-Net. The model considers behavior and sentence conflicts in two channels. Channel 1: Behavior-level Conflict Channel reconstructs the text based on core verbs while leveraging the modified attention mechanism to highlight conflict information. Channel 2: Sentence-level Conflict Channel introduces external sentiment knowledge to segment the text into explicit and implicit sentences, capturing conflicts between them. To validate the effectiveness of BNS-Net, several comparative and ablation experiments are conducted on three public sarcasm datasets. The analysis and evaluation of experimental results demonstrate that the BNS-Net effectively identifies sarcasm in text and achieves the state-of-the-art performance.
翻訳日:2023-09-08 13:18:42 公開日:2023-09-07
# 前立腺癌検出のための解剖学的インフォームドデータ拡張

Anatomy-informed Data Augmentation for Enhanced Prostate Cancer Detection ( http://arxiv.org/abs/2309.03652v1 )

ライセンス: Link先を確認
Balint Kovacs, Nils Netzer, Michael Baumgartner, Carolin Eith, Dimitrios Bounias, Clara Meinzer, Paul F. Jaeger, Kevin S. Zhang, Ralf Floca, Adrian Schrader, Fabian Isensee, Regula Gnirs, Magdalena Goertz, Viktoria Schuetz, Albrecht Stenzinger, Markus Hohenfellner, Heinz-Peter Schlemmer, Ivo Wolf, David Bonekamp, Klaus H. Maier-Hein(参考訳) データ拡張(DA)は、磁気共鳴画像における前立腺癌(PCa)の検出など、医療画像解析において重要な要素である。 最先端のコンピュータ支援診断システムはまだ、病的ラベルのポストトランスフォーメーションを維持するために、単純空間変換に依存している。 しかし、このような増強は、訓練セットにおける臓器や腫瘍の形状の変化を実質的に増加させるものではなく、より多様な局所的な軟組織変形を持つ未発見の症例に一般化する能力を制限する。 本研究では,前立腺の典型的生理的変形をシミュレートするために隣接臓器の情報を活用する新しい解剖情報変換法を提案する。 軽量な計算要求のため、一般的なDAフレームワークに簡単に統合できる。 本研究は,PCa検出の最先端手法を異なる拡張設定で評価することにより,74の生検確認試験データセットに対する拡張の有効性を実証する。

Data augmentation (DA) is a key factor in medical image analysis, such as in prostate cancer (PCa) detection on magnetic resonance images. State-of-the-art computer-aided diagnosis systems still rely on simplistic spatial transformations to preserve the pathological label post transformation. However, such augmentations do not substantially increase the organ as well as tumor shape variability in the training set, limiting the model's ability to generalize to unseen cases with more diverse localized soft-tissue deformations. We propose a new anatomy-informed transformation that leverages information from adjacent organs to simulate typical physiological deformations of the prostate and generates unique lesion shapes without altering their label. Due to its lightweight computational requirements, it can be easily integrated into common DA frameworks. We demonstrate the effectiveness of our augmentation on a dataset of 774 biopsy-confirmed examinations, by evaluating a state-of-the-art method for PCa detection with different augmentation settings.
翻訳日:2023-09-08 13:18:22 公開日:2023-09-07
# グリッド型強化学習環境における一般化・解釈可能な知識の学習

Learning of Generalizable and Interpretable Knowledge in Grid-Based Reinforcement Learning Environments ( http://arxiv.org/abs/2309.03651v1 )

ライセンス: Link先を確認
Manuel Eberhardinger, Johannes Maucher, Setareh Maghsudi(参考訳) 深層強化学習で訓練されたエージェントの相互作用を理解することは、ゲームや現実世界にエージェントを配置するのに重要である。 前者の場合、不合理な行動はプレイヤーを混乱させる。 後者では、予期せぬ行動が事故を引き起こし、関連する個人に重大な長期的影響をもたらすため、この効果はさらに重要である。 本研究では,行動系列の軌跡を見た後,強化学習方針を模倣するプログラム合成手法を提案する。 プログラムは本質的に解釈可能であり、正確性を検証するという利点がある。 本研究では,現在最先端のプログラム合成システムDreamCoderをグリッドベースの環境,特にナビゲーションタスクと,Atariゲーム,Space Invaders,Asterixの2つのミニバージョンで学習する。 生成されたライブラリを検査することで、ブラックボックスエージェントが学んだ概念を推論し、エージェントの振る舞いをよりよく理解することができる。 我々は、模倣されたシーケンスに対するエージェントの決定過程を可視化することで、同じことを実現できる。 提案手法は,検索専用手法,ニューラル誘導探索,言語モデルに基づいて,様々な種類のプログラムシンセサイザーを用いて評価する。

Understanding the interactions of agents trained with deep reinforcement learning is crucial for deploying agents in games or the real world. In the former, unreasonable actions confuse players. In the latter, that effect is even more significant, as unexpected behavior cause accidents with potentially grave and long-lasting consequences for the involved individuals. In this work, we propose using program synthesis to imitate reinforcement learning policies after seeing a trajectory of the action sequence. Programs have the advantage that they are inherently interpretable and verifiable for correctness. We adapt the state-of-the-art program synthesis system DreamCoder for learning concepts in grid-based environments, specifically, a navigation task and two miniature versions of Atari games, Space Invaders and Asterix. By inspecting the generated libraries, we can make inferences about the concepts the black-box agent has learned and better understand the agent's behavior. We achieve the same by visualizing the agent's decision-making process for the imitated sequences. We evaluate our approach with different types of program synthesizers based on a search-only method, a neural-guided search, and a language model fine-tuned on code.
翻訳日:2023-09-08 13:18:04 公開日:2023-09-07
# フェアネスのためのGNNのリプシッツ安定性のキャラクタリゼーション

Characterizing Lipschitz Stability of GNN for Fairness ( http://arxiv.org/abs/2309.03648v1 )

ライセンス: Link先を確認
Yaning Jia, Chunhui Zhang, Jundong Li, Chuxu Zhang(参考訳) 頑健な統計学の手法であるリプシッツ境界は、関連する無関係なバイアス要因を考慮して、入力に関する出力の最大変化を制限することができる。 追加の計算コストを発生させることなく、機械学習モデルの出力安定性を効率よく検証できる手法である。 近年,非ユークリッドデータを扱うグラフニューラルネットワーク (GNN) が注目されている。 しかしながら、gnnリプシッツ境界がモデル出力の安定化に光を当てるかどうか、特に固有のバイアスを持つ非ユークリッドデータを扱う場合の以前の研究は行われていない。 GNNトレーニングに使用される共通グラフデータの固有のバイアスを考えると、入力バイアスによって引き起こされるGNN出力の摂動を制限し、トレーニング中の公正性を保護することが深刻な課題となる。 近年、リプシッツ定数がユークリッド神経回路網の安定性を制御するのに使われているにもかかわらず、正確なリプシッツ定数の計算はGNNのような非ユークリッド神経回路網、特にフェアネスの文脈において解明されている。 このギャップを狭めるために、私たちは、帰属グラフで動作する一般的なgnnから始め、入力に関連するバイアスに関する出力の変化を制限するために束縛されたリプシッツを定式化する。 さらに,gnnモデルのリプシッツ定数が,公平なトレーニングのためにデータから学習したバイアスによって引き起こされる出力摂動をいかに制約するかを理論的に解析した。 モデル出力のバイアスを制限するリプシッツ境界の有効性を実験的に検証した。 最後に、学習力学の観点から、なぜ理論上のリプシッツ境界がGNNトレーニングを効果的にガイドし、精度と公正性のトレードオフを改善することができるのかを示す。

The Lipschitz bound, a technique from robust statistics, can limit the maximum changes in the output concerning the input, taking into account associated irrelevant biased factors. It is an efficient and provable method for examining the output stability of machine learning models without incurring additional computation costs. Recently, Graph Neural Networks (GNNs), which operate on non-Euclidean data, have gained significant attention. However, no previous research has investigated the GNN Lipschitz bounds to shed light on stabilizing model outputs, especially when working on non-Euclidean data with inherent biases. Given the inherent biases in common graph data used for GNN training, it poses a serious challenge to constraining the GNN output perturbations induced by input biases, thereby safeguarding fairness during training. Recently, despite the Lipschitz constant's use in controlling the stability of Euclideanneural networks, the calculation of the precise Lipschitz constant remains elusive for non-Euclidean neural networks like GNNs, especially within fairness contexts. To narrow this gap, we begin with the general GNNs operating on an attributed graph, and formulate a Lipschitz bound to limit the changes in the output regarding biases associated with the input. Additionally, we theoretically analyze how the Lipschitz constant of a GNN model could constrain the output perturbations induced by biases learned from data for fairness training. We experimentally validate the Lipschitz bound's effectiveness in limiting biases of the model output. Finally, from a training dynamics perspective, we demonstrate why the theoretical Lipschitz bound can effectively guide the GNN training to better trade-off between accuracy and fairness.
翻訳日:2023-09-08 13:17:45 公開日:2023-09-07
# videolandgpt: 会話型推薦システムに関するユーザスタディ

VideolandGPT: A User Study on a Conversational Recommender System ( http://arxiv.org/abs/2309.03645v1 )

ライセンス: Link先を確認
Mateo Gutierrez Granada, Dina Zilbershtein, Daan Odijk, Francesco Barile(参考訳) 本稿では,大規模言語モデル(LLM)がレコメンデータシステムを強化し,ユーザの好みと既存ランキングモデルからの個人化候補選択を利用した会話レコメンデーションシステムに特に焦点をあてる。 本稿では,ビデオオン・デマンド(VOD)プラットフォーム用レコメンデーションシステムであるVideolandGPTを紹介し,チャットインタフェースとユーザのインタラクションによって示される追加コンテキストを考慮して,ChatGPTを用いて所定のコンテンツセットを選択する。 本研究では,個人化バージョンと非個人化バージョンを比較し,評価指標,ユーザエクスペリエンス,レコメンデーションの公平性を評価した。 その結果、パーソナライズされたバージョンは、正確さと一般ユーザ満足度で非パーソナライズされたバージョンよりも優れており、どちらのバージョンもレコメンデーションリストの上位にない項目の可視性を高めていることがわかった。 しかし、両バージョンは、ビデオランドでは利用できないレコメンデーションを生成するため、公平性という点で矛盾する振る舞いを示す。

This paper investigates how large language models (LLMs) can enhance recommender systems, with a specific focus on Conversational Recommender Systems that leverage user preferences and personalised candidate selections from existing ranking models. We introduce VideolandGPT, a recommender system for a Video-on-Demand (VOD) platform, Videoland, which uses ChatGPT to select from a predetermined set of contents, considering the additional context indicated by users' interactions with a chat interface. We evaluate ranking metrics, user experience, and fairness of recommendations, comparing a personalised and a non-personalised version of the system, in a between-subject user study. Our results indicate that the personalised version outperforms the non-personalised in terms of accuracy and general user satisfaction, while both versions increase the visibility of items which are not in the top of the recommendation lists. However, both versions present inconsistent behavior in terms of fairness, as the system may generate recommendations which are not available on Videoland.
翻訳日:2023-09-08 13:17:16 公開日:2023-09-07
# 単調音声強調のためのスパイキング構造状態空間モデル

Spiking Structured State Space Model for Monaural Speech Enhancement ( http://arxiv.org/abs/2309.03641v1 )

ライセンス: Link先を確認
Yu Du, Xu Liu, Yansong Chua(参考訳) 音声強調は、ノイズの多い信号からクリーンな音声を抽出しようとする。 従来のディープラーニング手法は、2つの課題に直面している。 これらの問題に対処するために、スパイキング構造化状態空間モデル(Spiking-S4)を紹介する。 このアプローチは、スパイキングニューラルネットワーク(SNN)のエネルギー効率と構造化状態空間モデル(S4)の長距離シーケンスモデリング能力を融合し、魅力的なソリューションを提供する。 DNSチャレンジとVoiceBank+Demand Datasetsの評価によると、Spike-S4は既存のArtificial Neural Network(ANN)メソッドと競合するが、パラメータの削減と浮動小数点演算(FLOP)によって証明された計算リソースが少ない。

Speech enhancement seeks to extract clean speech from noisy signals. Traditional deep learning methods face two challenges: efficiently using information in long speech sequences and high computational costs. To address these, we introduce the Spiking Structured State Space Model (Spiking-S4). This approach merges the energy efficiency of Spiking Neural Networks (SNN) with the long-range sequence modeling capabilities of Structured State Space Models (S4), offering a compelling solution. Evaluation on the DNS Challenge and VoiceBank+Demand Datasets confirms that Spiking-S4 rivals existing Artificial Neural Network (ANN) methods but with fewer computational resources, as evidenced by reduced parameters and Floating Point Operations (FLOPs).
翻訳日:2023-09-08 13:16:54 公開日:2023-09-07
# 単一校正画像からの文脈認識型3次元物体定位:バスケットボールの研究

Context-Aware 3D Object Localization from Single Calibrated Images: A Study of Basketballs ( http://arxiv.org/abs/2309.03640v1 )

ライセンス: Link先を確認
Marcello Davide Caio (1), Gabriel Van Zandycke (1 and 2) and Christophe De Vleeschouwer (2) ((1) Sportradar AG, (2) UCLouvain)(参考訳) 3次元の物体の正確な位置決め(3D)は、ロボティクス、自律運転、拡張現実など、さまざまなコンピュータビジョンアプリケーションに不可欠である。 この課題はスポーツ分析におけるもう一つの重要な応用を見つけ,本研究では,単一校正画像から3次元バスケットボールのローカライゼーションを行う新しい手法を提案する。 提案手法は,画像内の地上面への投影を推定し,画像自体と物体の位置を入力として利用することにより,画像空間における物体の高さを推定する。 ボールの3次元座標は、既知の投影行列を利用して再構成される。 画像毎にカメラキャリブレーション情報と合わせて3d球位置の地上真理アノテーションを提供するdeepsportデータセットに関する広範囲な実験を行い,最近の研究に比べて精度が大幅に向上することを示す。 我々の研究は、ボール追跡と理解を強化し、多様な領域におけるコンピュータビジョンを前進させる新たな可能性を開く。 この作業のソースコードは \url{https://github.com/gabriel-vanzandycke/deepsport} で公開されている。

Accurately localizing objects in three dimensions (3D) is crucial for various computer vision applications, such as robotics, autonomous driving, and augmented reality. This task finds another important application in sports analytics and, in this work, we present a novel method for 3D basketball localization from a single calibrated image. Our approach predicts the object's height in pixels in image space by estimating its projection onto the ground plane within the image, leveraging the image itself and the object's location as inputs. The 3D coordinates of the ball are then reconstructed by exploiting the known projection matrix. Extensive experiments on the public DeepSport dataset, which provides ground truth annotations for 3D ball location alongside camera calibration information for each image, demonstrate the effectiveness of our method, offering substantial accuracy improvements compared to recent work. Our work opens up new possibilities for enhanced ball tracking and understanding, advancing computer vision in diverse domains. The source code of this work is made publicly available at \url{https://github.com/gabriel-vanzandycke/deepsport}.
翻訳日:2023-09-08 13:16:39 公開日:2023-09-07
# XAIを超えて:責任あるAIを目指すObstacles

Beyond XAI:Obstacles Towards Responsible AI ( http://arxiv.org/abs/2309.03638v1 )

ライセンス: Link先を確認
Yulu Pi(参考訳) 説明可能な人工知能(XAI)の急速に進歩する領域は、AIシステムをより透明で理解しやすいものにするための技術開発に大きな関心を喚起した。 それにもかかわらず、現実世界の文脈では、説明可能性とその評価戦略には多くの制限がある。 本稿では、これらの制限について検討し、プライバシ、公正性、競争性など他の重要な側面を考慮する際に、責任あるAIの搭乗者コンテキストにおけるそれらの影響について議論する。

The rapidly advancing domain of Explainable Artificial Intelligence (XAI) has sparked significant interests in developing techniques to make AI systems more transparent and understandable. Nevertheless, in real-world contexts, the methods of explainability and their evaluation strategies present numerous limitations.Moreover, the scope of responsible AI extends beyond just explainability. In this paper, we explore these limitations and discuss their implications in a boarder context of responsible AI when considering other important aspects, including privacy, fairness and contestability.
翻訳日:2023-09-08 13:16:19 公開日:2023-09-07
# ヒルベルト空間の断片化とブロック逆参加比

Probing Hilbert space fragmentation and the block Inverse Participation Ratio ( http://arxiv.org/abs/2309.03632v1 )

ライセンス: Link先を確認
Philipp Frey, David Mikhail, Stephan Rachel and Lucas Hackl(参考訳) 量子多体ハミルトニアンの族を考えると、ある極限におけるヒルベルト空間の正確な断片化を示す。 この問題は、断片化がこれらの正確に断片化されたモデルによって定義される部分集合の近傍、特に熱力学極限においてハミルトン多様体に意味を持つかどうかである。 我々は,フラグメントと非フラグメント間の遷移行動の区別可能なクラスを考慮し,この遷移を表わす数値観測器を用いて,この問題を照らそうとする。 これらの観測対象の1つとして、断片化されたブロック構造の出現を捉えるために設計された、修正された逆参加比(IPR)を示す。 我々は、このブロックIDPを、逆参加比の他の定義と比較し、より伝統的なレベルスペーシング統計と絡み合いエントロピーの尺度と比較する。 数値で生じる微妙な問題を解くために、分断された極限の周りの摂動理論を効果的なブロック構造を定義する基礎として利用する。 我々のブロック IPR は、レベル統計と二分的絡み合いに基づく結果と互換性のあるフラグメントと非フラグメントの境界を予測している。 スケーリング解析は、厳密に断片化された極限の周りの有限領域は、熱力学的極限においても近似的なフラグメンテーションの影響によって支配され、フラグメンテーションが位相を構成することを示唆する。 我々のアプローチの普遍性を示す証拠として、ハミルトンの異なる族に適用し、突発的な双極子保存による断片的極限を特徴とする。

We consider a family of quantum many-body Hamiltonians that show exact Hilbert space fragmentation in certain limits. The question arises whether fragmentation has implications for Hamiltonians in the vicinity of the subset defined by these exactly fragmented models, in particular in the thermodynamic limit. We attempt to illuminate this issue by considering distinguishable classes of transitional behaviour between fragmented and non-fragmented regimes and employing a set of numerical observables that indicate this transition. As one of these observables we present a modified inverse participation ratio (IPR) that is designed to capture the emergence of fragmented block structures. We compare this block IPR to other definitions of inverse participation ratios, as well as to the more traditional measures of level spacing statistics and entanglement entropy. In order to resolve subtleties that arise in the numerics, we use perturbation theory around the fragmented limit as a basis for defining an effective block structure. We find that our block IPR predicts a boundary between fragmented and non-fragmented regimes that is compatible with results based on level statistics and bipartite entanglement. A scaling analysis indicates that a finite region around the exactly fragmented limit is dominated by effects of approximate fragmentation, even in the thermodynamic limit, and suggests that fragmentation constitutes a phase. We provide evidence for the universality of our approach by applying it to a different family of Hamiltonians, that features a fragmented limit due to emergent dipole-conservation.
翻訳日:2023-09-08 13:16:09 公開日:2023-09-07
# PyGraft: Fingertipにおけるスキーマと知識グラフの設定可能な生成

PyGraft: Configurable Generation of Schemas and Knowledge Graphs at Your Fingertips ( http://arxiv.org/abs/2309.03685v1 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Mathieu d'Aquin, Armelle Brun, Davy Monticolo(参考訳) 知識グラフ(KG)は、データ表現と管理のパラダイムとして注目されている。 通常、スキーマ(オントロジーなど)によって支えられているため、KGは事実情報だけでなく文脈知識もキャプチャする。 いくつかのタスクでは、数kgが標準ベンチマークとして確立された。 しかし、最近の研究は、限られたデータセットのコレクションに依存するだけでは、アプローチの一般化能力を評価するには不十分である、と概説している。 教育や医学などのデータに敏感な分野では、公開データセットへのアクセスはさらに制限されている。 PyGraftは、高度にカスタマイズされたドメインに依存しないスキーマと知識グラフを生成するPythonベースのツールです。 合成されたスキーマはRDFSとOWLの構成を多用し、合成されたKGは現実世界のKGの特性とスケールをエミュレートする。 生成されたリソースの論理的一貫性は、最終的に記述ロジック(DL)推論を実行することで保証される。 単一のパイプラインでスキーマとKGの両方を生成する方法を提供することで、PyGraftの目的は、グラフベースの機械学習(ML)やより一般的にはKG処理といった領域における新しいアプローチをベンチマークするために、より多様なKGの配列を生成することである。 特にグラフベースのMLでは、モデル性能と一般化能力のより包括的な評価が促進され、利用可能なベンチマークの限られたコレクションを超えていなければならない。 PyGraft は https://github.com/nicolas-hbt/pygraft で利用可能である。

Knowledge graphs (KGs) have emerged as a prominent data representation and management paradigm. Being usually underpinned by a schema (e.g. an ontology), KGs capture not only factual information but also contextual knowledge. In some tasks, a few KGs established themselves as standard benchmarks. However, recent works outline that relying on a limited collection of datasets is not sufficient to assess the generalization capability of an approach. In some data-sensitive fields such as education or medicine, access to public datasets is even more limited. To remedy the aforementioned issues, we release PyGraft, a Python-based tool that generates highly customized, domain-agnostic schemas and knowledge graphs. The synthesized schemas encompass various RDFS and OWL constructs, while the synthesized KGs emulate the characteristics and scale of real-world KGs. Logical consistency of the generated resources is ultimately ensured by running a description logic (DL) reasoner. By providing a way of generating both a schema and KG in a single pipeline, PyGraft's aim is to empower the generation of a more diverse array of KGs for benchmarking novel approaches in areas such as graph-based machine learning (ML), or more generally KG processing. In graph-based ML in particular, this should foster a more holistic evaluation of model performance and generalization capability, thereby going beyond the limited collection of available benchmarks. PyGraft is available at: https://github.com/nicolas-hbt/pygraft.
翻訳日:2023-09-08 13:10:14 公開日:2023-09-07
# 計算に軽量なセーフラーニングアルゴリズム

A computationally lightweight safe learning algorithm ( http://arxiv.org/abs/2309.03672v1 )

ライセンス: Link先を確認
Dominik Baumann and Krzysztof Kowalczyk and Koen Tiels and Pawe{\l} Wachel(参考訳) 安全は、物理システムの制御ポリシーを学ぶ上で不可欠な資産であり、トレーニング中の安全制約に違反すると、高価なハードウェアの損傷につながる可能性がある。 このニーズに応えて、セーフラーニングの分野は、基礎となるシステム力学の知識を必要とせずに確率論的安全性を保証するアルゴリズムによって誕生した。 これらのアルゴリズムはしばしばガウス過程推論に依存する。 残念ながら、ガウス過程推論はデータポイントの数と立方的にスケールし、高次元および埋め込みシステムへの適用性を制限する。 本稿では,ガウス過程の代わりにナダラヤ・ワットソン推定器を利用する確率的安全性保証を提供する安全な学習アルゴリズムを提案する。 nadaraya-watson推定器では、データポイントの数で対数スケーリングに到達できます。 シミュレーションによる7自由度ロボットマニピュレータの数値実験を行い, 推定値の理論的保証を行い, 安全な学習アルゴリズムに組み込む。

Safety is an essential asset when learning control policies for physical systems, as violating safety constraints during training can lead to expensive hardware damage. In response to this need, the field of safe learning has emerged with algorithms that can provide probabilistic safety guarantees without knowledge of the underlying system dynamics. Those algorithms often rely on Gaussian process inference. Unfortunately, Gaussian process inference scales cubically with the number of data points, limiting applicability to high-dimensional and embedded systems. In this paper, we propose a safe learning algorithm that provides probabilistic safety guarantees but leverages the Nadaraya-Watson estimator instead of Gaussian processes. For the Nadaraya-Watson estimator, we can reach logarithmic scaling with the number of data points. We provide theoretical guarantees for the estimates, embed them into a safe learning algorithm, and show numerical experiments on a simulated seven-degrees-of-freedom robot manipulator.
翻訳日:2023-09-08 13:09:50 公開日:2023-09-07
# 弱ラベルビデオからのデータセット生成とボノボ分類

Dataset Generation and Bonobo Classification from Weakly Labelled Videos ( http://arxiv.org/abs/2309.03671v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin(参考訳) 本稿では,一般的な機械学習手法を用いたボノボ検出・分類パイプラインを提案する。 このようなアプリケーションは、人間の助けなしにタッチスクリーンデバイスを使って、囲いの中でボノボをテストする必要性によって動機付けられている。 本研究は, 半自動生成したボノボ記録に基づく新たなデータセットを提案する。 記録は弱くラベル付けされ、ビデオに写っている個人を空間的に検出するためにマカク検出器に送られる。 異なる分類アルゴリズムとresnetアーキテクチャを用いたディープラーニング手法を組み合わせた手作り特徴をボノボ識別のために検討した。 異なるデータ分離手法を用いて、データベースの分割の分類精度で性能を比較する。 我々は、データ準備の重要性と、間違ったデータ分離がいかに誤った良い結果をもたらすかを示す。 最後に、データを有意に分離した後、微調整されたResNetモデルを用いて最高の分類性能を取得し、精度75%に達する。

This paper presents a bonobo detection and classification pipeline built from the commonly used machine learning methods. Such application is motivated by the need to test bonobos in their enclosure using touch screen devices without human assistance. This work introduces a newly acquired dataset based on bonobo recordings generated semi-automatically. The recordings are weakly labelled and fed to a macaque detector in order to spatially detect the individual present in the video. Handcrafted features coupled with different classification algorithms and deep-learning methods using a ResNet architecture are investigated for bonobo identification. Performance is compared in terms of classification accuracy on the splits of the database using different data separation methods. We demonstrate the importance of data preparation and how a wrong data separation can lead to false good results. Finally, after a meaningful separation of the data, the best classification performance is obtained using a fine-tuned ResNet model and reaches 75% of accuracy.
翻訳日:2023-09-08 13:09:34 公開日:2023-09-07
# ソーシャルメディアの影響

Social Media Influence Operations ( http://arxiv.org/abs/2309.03670v1 )

ライセンス: Link先を確認
Raphael Meier(参考訳) ソーシャルメディアプラットフォームは、ほとんど制限のない多対多通信を可能にする。 危機の時、彼らは集団的な感覚作りの場を提供し、新しい社会現象(例えばオープンソースの調査)を引き起こした。 しかし、それらは公衆の意見を形作り、意思決定プロセスに干渉するために、サイバー対応社会影響操作(cesios)を行う脅威俳優の道具としても機能する。 CeSIOはソック・パペットのアカウントを利用して、オンラインコミュニケーションに本物のユーザーを巻き込み、影響力を行使し、オンラインの会話を覆す。 大規模言語モデル(llm)は、sock puppetのアカウントの偽装性をさらに強化する可能性がある。 最近のllmは、主に人間が書いたコンテンツと区別できない、標的的で説得力のあるテキストを生成することができる。 本稿では,LLMとインフルエンス操作の交差点における最近の展開を概説し,LLMのサリエンスを要約し,CeSIOのLLM内蔵ソックパペットアカウントの潜在的影響について考察する。 最後に、近い将来の緩和策が強調される。

Social media platforms enable largely unrestricted many-to-many communication. In times of crisis, they offer a space for collective sense-making and gave rise to new social phenomena (e.g. open-source investigations). However, they also serve as a tool for threat actors to conduct cyber-enabled social influence operations (CeSIOs) in order to shape public opinion and interfere in decision-making processes. CeSIOs rely on the employment of sock puppet accounts to engage authentic users in online communication, exert influence, and subvert online discourse. Large Language Models (LLMs) may further enhance the deceptive properties of sock puppet accounts. Recent LLMs are able to generate targeted and persuasive text which is for the most part indistinguishable from human-written content -- ideal features for covert influence. This article reviews recent developments at the intersection of LLMs and influence operations, summarizes LLMs' salience, and explores the potential impact of LLM-instrumented sock puppet accounts for CeSIOs. Finally, mitigation measures for the near future are highlighted.
翻訳日:2023-09-08 13:09:20 公開日:2023-09-07
# 算数問題から Prolog 述語を生成する LM の探索

Exploring an LM to generate Prolog Predicates from Mathematics Questions ( http://arxiv.org/abs/2309.03667v1 )

ライセンス: Link先を確認
Xiaocheng Yang, Yik-Cheung Tam(参考訳) 近年、ChatGPTによるNLPへの関心が高まっている。 ChatGPTは変圧器をベースとした大規模な生成言語モデルであり、自然言語に基づく様々なタスクの実行において多目的性を示す。 しかし、大きな言語モデルは推論を必要とする数学の問題を解くのに性能が劣ることが多い。 これまでの研究では、思考の連鎖が推論能力を高める効果を実証してきた。 そこで本研究では,Prolog コード生成モデル,論理言語を微調整し,その後コンパイラに渡すことにより,精度が向上するかどうかを検討することを目的とする。 その結果、我々はLLaMA7Bをベースラインモデルとし、Prologコードの生成、Prologコード+チェーン・オブ・思想コード+Prologコードのための他の微調整LLaMA7Bモデルを開発した。 その結果,Prolog生成モデルがベースラインを超える一方で,組み合わせ生成モデルでは大幅な改善が得られないことが判明した。 GSM8Kに基づくPrologコーパスとLLaMA7Bに基づく微調整されたProlog生成モデルを研究コミュニティにリリースする。

Recently, there has been a surge in interest in NLP driven by ChatGPT. ChatGPT, a transformer-based generative language model of substantial scale, exhibits versatility in performing various tasks based on natural language. Nevertheless, large language models often exhibit poor performance in solving mathematics questions that require reasoning. Prior research has demonstrated the effectiveness of chain-of-thought prompting in enhancing reasoning capabilities. Now, we aim to investigate whether fine-tuning a model for the generation of Prolog codes, a logic language, and subsequently passing these codes to a compiler can further improve accuracy. Consequently, we employ chain-of-thought to fine-tune LLaMA7B as a baseline model and develop other fine-tuned LLaMA7B models for the generation of Prolog code, Prolog code + chain-of-thought, and chain-of-thought + Prolog code, respectively. The results reveal that the Prolog generation model surpasses the baseline in performance, while the combination generation models do not yield significant improvements. The Prolog corpus based on GSM8K and the correspondingly finetuned Prolog generation model based on LLaMA7B are released to the research community.
翻訳日:2023-09-08 13:09:00 公開日:2023-09-07
# フラクショナルチャーン絶縁体における隠れ秩序の検出

Detecting Hidden Order in Fractional Chern Insulators ( http://arxiv.org/abs/2309.03666v1 )

ライセンス: Link先を確認
Fabian J. Pauw, Felix A. Palm, Ulrich Schollw\"ock, Annabelle Bohrdt, Sebastian Paeckel, Fabian Grusdt(参考訳) 位相相転移はギンツブルクやランダウの自発的対称性の破れのパラダイムを超えて、関連する局所次数パラメータなしで起こる。 代わりに、そのような遷移は非局所的な順序パラメータの出現によって特徴づけられるが、これは多くの粒子を同時に測定する必要がある。 一方、量子シミュレーターはそのような測定を実証し、非局所的トポロジカル秩序を実験的に確認する主要な候補とした。 ここでは、超低温原子と光子を用いた少数粒子のチャーン絶縁体の作製の最近の進歩に基づき、ラウリン状態を特徴付ける隠蔽対角長距離秩序(HODLRO)を検出するための現実的なスキームを提案する。 さらに、分数チャーン絶縁体、特に等方性ホフシュタッター-ボース-ハバードモデルにおける$\nu=\frac{1}{2}$-laughlin状態において、この隠れた秩序の存在を示す。 これは行列積状態に基づく大規模数値密度行列再正規化群 (DMRG) シミュレーションにより実現され、提案手法とよく似た方法でHODLROへの直接アクセスを提供する効率的なサンプリング手順が定式化される。 HODLROの特徴的パワーロースケーリングを,指数$\frac{1}{\nu} = 2$で確認し,その検出に必要なスナップショットは数千枚程度であることを示す。 これにより、現在の技術で現実的に実現可能となり、非可換なアノニオン励起を持つ位相状態において、非局所位相秩序のさらなる分析への道を開くことができる。

Topological phase transitions go beyond Ginzburg and Landau's paradigm of spontaneous symmetry breaking and occur without an associated local order parameter. Instead, such transitions can be characterized by the emergence of non-local order parameters, which require measurements on extensively many particles simultaneously - an impossible venture in real materials. On the other hand, quantum simulators have demonstrated such measurements, making them prime candidates for an experimental confirmation of non-local topological order. Here, building upon the recent advances in preparing few-particle fractional Chern insulators using ultracold atoms and photons, we propose a realistic scheme for detecting the hidden off-diagonal long-range order (HODLRO) characterizing Laughlin states. Furthermore, we demonstrate the existence of this hidden order in fractional Chern insulators, specifically for the $\nu=\frac{1}{2}$-Laughlin state in the isotropic Hofstadter-Bose-Hubbard model. This is achieved by large-scale numerical density matrix renormalization group (DMRG) simulations based on matrix product states, for which we formulate an efficient sampling procedure providing direct access to HODLRO in close analogy to the proposed experimental scheme. We confirm the characteristic power-law scaling of HODLRO, with an exponent $\frac{1}{\nu} = 2$, and show that its detection requires only a few thousand snapshots. This makes our scheme realistically achievable with current technology and paves the way for further analysis of non-local topological orders, e.g. in topological states with non-Abelian anyonic excitations.
翻訳日:2023-09-08 13:08:41 公開日:2023-09-07
# 敵対的攻撃はいかにして安定した正確な分類を妨害するか

How adversarial attacks can disrupt seemingly stable accurate classifiers ( http://arxiv.org/abs/2309.03665v1 )

ライセンス: Link先を確認
Oliver J. Sutton, Qinghua Zhou, Ivan Y. Tyukin, Alexander N. Gorban, Alexander Bastounis, Desmond J. Higham(参考訳) 敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。 実証的な証拠は、入力データの大きなランダムな摂動に対して頑健なシステムでさえ、その入力の小さな、容易に構築された対角的な摂動に影響を受けやすいことを示している。 ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。 本稿では,実システムで観測される重要な動作を高い確率で発生させる,単純な汎用的・汎用的枠組みを提案する。特に,逆攻撃を容易に構築するための(その他に正確な)モデルの同時感受性,入力データのランダムな摂動に対するロバスト性について述べる。 この現象は、標準画像分類問題に基づいて訓練された実践的ニューラルネットワークにおいて直接観測され、大きな付加的ランダムノイズでさえネットワークの対向的不安定を誘発することができない。 驚くべきことに、分類器の判断面を訓練と試験データから切り離す小さなマージンでさえ、ランダムにサンプリングされた摂動を用いて敵の感受性が検出されるのを防ぐことができる。 反対に、トレーニングやテスト中に付加音を用いることは、敵の例を根絶したり検出するのに非効率であり、より要求される敵の訓練が必要である。

Adversarial attacks dramatically change the output of an otherwise accurate learning system using a seemingly inconsequential modification to a piece of input data. Paradoxically, empirical evidence indicates that even systems which are robust to large random perturbations of the input data remain susceptible to small, easily constructed, adversarial perturbations of their inputs. Here, we show that this may be seen as a fundamental feature of classifiers working with high dimensional input data. We introduce a simple generic and generalisable framework for which key behaviours observed in practical systems arise with high probability -- notably the simultaneous susceptibility of the (otherwise accurate) model to easily constructed adversarial attacks, and robustness to random perturbations of the input data. We confirm that the same phenomena are directly observed in practical neural networks trained on standard image classification problems, where even large additive random noise fails to trigger the adversarial instability of the network. A surprising takeaway is that even small margins separating a classifier's decision surface from training and testing data can hide adversarial susceptibility from being detected using randomly sampled perturbations. Counterintuitively, using additive noise during training or testing is therefore inefficient for eradicating or detecting adversarial examples, and more demanding adversarial training is required.
翻訳日:2023-09-08 13:08:11 公開日:2023-09-07
# 位相的機械学習による脳脊髄液ラマン分光法によるアルツハイマー病の検出

Alzheimer Disease Detection from Raman Spectroscopy of the Cerebrospinal Fluid via Topological Machine Learning ( http://arxiv.org/abs/2309.03664v1 )

ライセンス: Link先を確認
Francesco Conti, Martina Banchelli, Valentina Bessi, Cristina Cecchi, Fabrizio Chiti, Sara Colantonio, Cristiano D'Andrea, Marella de Angelis, Davide Moroni, Benedetta Nacmias, Maria Antonietta Pascali, Sandro Sorbi and Paolo Matteini(参考訳) アルツハイマー病 (AD) の臨床診断を受けた19例の脳脊髄液 (CSF) および5例の病態コントロールをRaman spectroscopy (RS) により収集・解析した。 生および前処理したRamanスペクトルを用いてADと制御を区別できるかどうかを検討した。 まず、不満足な結果を得るために、標準機械学習(ML)手法を適用した。 次に,生スペクトルから抽出した位相ディスクリプタ群にmlを適用し,非常に良好な分類精度(>87%)を得た。 以上の結果から, rsとトポロジカル解析の併用はadの臨床診断の確認や無効化に有効な組み合わせとなる可能性が示唆された。 次のステップでは、提案手法をよりよく検証するために、CSFサンプルのデータセットを拡大すること、そしておそらく、トポロジ的データ分析がADサブタイプの特徴づけをサポートすることができるかどうかを理解することが含まれる。

The cerebrospinal fluid (CSF) of 19 subjects who received a clinical diagnosis of Alzheimer's disease (AD) as well as of 5 pathological controls have been collected and analysed by Raman spectroscopy (RS). We investigated whether the raw and preprocessed Raman spectra could be used to distinguish AD from controls. First, we applied standard Machine Learning (ML) methods obtaining unsatisfactory results. Then, we applied ML to a set of topological descriptors extracted from raw spectra, achieving a very good classification accuracy (>87%). Although our results are preliminary, they indicate that RS and topological analysis together may provide an effective combination to confirm or disprove a clinical diagnosis of AD. The next steps will include enlarging the dataset of CSF samples to validate the proposed method better and, possibly, to understand if topological data analysis could support the characterization of AD subtypes.
翻訳日:2023-09-08 13:07:48 公開日:2023-09-07
# 1次元位相導波路における巨大原子間の相互作用

Interaction between giant atoms in a one-dimensional topological waveguide ( http://arxiv.org/abs/2309.03663v1 )

ライセンス: Link先を確認
Da-Wei Wang, Chengsong Zhao, Junya Yang, Ye-Ting Yan, Zhihai-Wang Ling Zhou(参考訳) 一次元トポロジカル導波路貯留層に結合した巨大原子の研究を行った。 ボルン・マルコフ近似の下で, トポロジカル導波路のトポロジカル相に依存するトポロジカル導波路を介する巨大原子間の実用的なコヒーレンスと相関散逸相互作用を得た。 バンドギャップ系では、光子結合状態の出現と光子分布の指数減衰に対応する、コヒーレント相互作用のみが存在して指数関数的に崩壊する。 次に、巨大原子の周波数が異なるバンドギャップにある場合の光子結合状態の出現について論じる。 キラル光子分布は、2つのサブ格子点に結合した巨大原子が強度が異なり、導波路と共鳴すると起こる。 最後に、同じバンドギャップ幅の場合、励起伝達速度は自明な位相よりも位相相の方が速いことが分かる。 我々の研究は、巨大原子と結合したトポロジカル物質の研究を促進する。

We study giant atoms coupled to a one-dimensional topological waveguide reservoir. Under the Born-Markov approximation, we obtained practical coherence and correlated dissipative interactions between giant atoms mediated by topological waveguide reservoirs, which depend on the topological phase in the topological waveguide. In the bandgap regime, only coherent interactions exist and decay exponentially with distance, corresponding to photon-bound states' appearance and the photon distribution's exponential decay. Then, we discuss the appearance of photon-bound states when the frequencies of the giant atoms lie in different band gaps. A chiral photon distribution occurs when the giant atoms coupled to two sub-lattice points differ in intensity and resonate with the waveguide, which stems from the fact that the photon-bound state can be considered as a topological edge state, which is insensitive to off-diagonal disorder. Finally, we find that for the same bandgap width, the excitation transfer rate is faster in topological phases than in trivial phases. Our work will promote the study of topological matter coupled to giant atoms.
翻訳日:2023-09-08 13:07:31 公開日:2023-09-07
# 視覚および言語ナビゲーションのためのプロンプトベースコンテキストおよびドメインアウェア事前学習

Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation ( http://arxiv.org/abs/2309.03661v1 )

ライセンス: Link先を確認
Ting Liu, Wansen Wu, Yue Hu, Youkai Wang, Kai Xu, Quanjun Yin(参考訳) 強力な表現能力により、事前訓練された視覚言語モデルは視覚と言語ナビゲーション(VLN)で広く使われている。 しかし、そのほとんどはWebcrawledの汎用データセットでトレーニングされており、VLNタスクで使用する場合、かなりのドメインギャップが生じる。 VLNのもう1つの課題は、エージェントが軌道上のアクション間の文脈的関係をどのように理解し、連続的にモード間のアライメントを実行するかである。 本稿では,これらの問題に対処するための新しいPrompt-bAsed coNtext- and Domain-Aware(PANDA)事前学習フレームワークを提案する。 プロンプトは2段階で行われる。 ドメイン認識の段階では、VLNタスクにおけるオブジェクトレベルおよびシーンレベルのクロスモーダルアライメントを備えた事前学習モデルのドメイン内データセットからソフトな視覚的プロンプトを学習するために、低コストなプロンプトチューニングパラダイムを適用する。 さらに,コンテキスト認識の段階では,シーケンスレベルのセマンティクスを捉えるための一連のハードコンテキストプロンプトを設計し,インストラクション内のコンテキスト外知識とコンテキスト外知識の両方をクロスモーダル表現に変換する。 コントラスト学習を通じて事前訓練されたモデルのさらなるチューニングを可能にする。 R2RとREVERIEの両方の実験結果から,従来の最先端手法に比べてPANDAの方が優れていた。

With strong representation capabilities, pretrained vision-language models are widely used in vision and language navigation (VLN). However, most of them are trained on web-crawled general-purpose datasets, which incurs a considerable domain gap when used for VLN tasks. Another challenge for VLN is how the agent understands the contextual relations between actions on a trajectory and performs cross-modal alignment sequentially. In this paper, we propose a novel Prompt-bAsed coNtext- and Domain-Aware (PANDA) pretraining framework to address these problems. It performs prompting in two stages. In the domain-aware stage, we apply a low-cost prompt tuning paradigm to learn soft visual prompts from an in-domain dataset for equipping the pretrained models with object-level and scene-level cross-modal alignment in VLN tasks. Furthermore, in the context-aware stage, we design a set of hard context prompts to capture the sequence-level semantics and instill both out-of-context and contextual knowledge in the instruction into cross-modal representations. They enable further tuning of the pretrained models via contrastive learning. Experimental results on both R2R and REVERIE show the superiority of PANDA compared to previous state-of-the-art methods.
翻訳日:2023-09-08 13:07:08 公開日:2023-09-07
# 散逸結合光力学系における量子非線形効果

Quantum Nonlinear Effect in Dissipatively Coupled Optomechanical System ( http://arxiv.org/abs/2309.03719v1 )

ライセンス: Link先を確認
Wen-Quan Yang, Wei Niu, Yong-Hong Ma, and Wen-Zhao Zhang(参考訳) フル量子アプローチは、ミシェルソン・サニャック干渉計光学系の量子非線形特性を研究するために用いられる。 効果的なハミルトニアンは、散逸結合と分散結合の両方が虚数と実数の非線形性を持つことを示した。 そして予期せぬことに、散逸結合によって引き起こされる非線形性は非エルミートハミルトン的性質を持つ。 分散結合の量子的性質を、従来の系の散逸を超えて保護することができる。 この保護機構により、双曲関数 $J^2 = \Delta_c \Delta_e$ のパラメータ領域に強い量子非線形効果を示すことができる。 さらに, 分散結合と散逸結合の助けを借りて, 強い結合状態でも弱い結合状態でも強い結合防止効果を得ることができる。 強い量子非線形効果を実験的に実現し研究するための新しい視点を提供するかもしれない。

A full-quantum approach is used to study quantum nonlinear properties of a compound Michelson-Sagnac interferometer optomechanical system. The effective Hamiltonian shows that both dissipative and dispersive couplings possess imaginary- and real-Kerr nonlinearities. And unexpectedly, the nonlinearities caused by the dissipative coupling have non-Hermitian Hamiltonian-like properties. It can protect the quantum nature of the dispersive coupling beyond the traditional dissipation of the system. This protection mechanism allows the system to exhibit strong quantum nonlinear effects in the parameter region of the hyperbolic function $J^2 = \Delta_c \Delta_e$. Moreover, we can obtain strong anti-bunching effects whether in strong or weak coupling regimes with the help of the dispersive and dissipative couplings jointly. It may provide a new perspective to experimentally realize and study the strong quantum nonlinear effects.
翻訳日:2023-09-08 12:59:19 公開日:2023-09-07
# 韓国語における単語分割粒度

Word segmentation granularity in Korean ( http://arxiv.org/abs/2309.03713v1 )

ライセンス: Link先を確認
Jungyeul Park, Mija Kim(参考訳) 本稿では,韓国語処理における単語の粒度について述べる。 韓国語では「eojeol」と呼ばれる空白空間で区切られた単語から形態素の列まで、韓国語では単語分割粒度が複数の可能性がある。 特定の言語処理やコーパスアノテーションタスクにおいて,韓国語を含む凝集言語は機能的形態素と構文的カテゴリーを1対1でマッピングするため,様々な粒度レベルが提案され,活用されている。 そこで我々は,これら異なる粒度レベルを解析し,今後の韓国語処理システムの例を示す。 興味深いことに、ケースマーカーと動詞の終末を含む機能的形態素のみを分離し、形態的派生のための他の接尾辞を保持することにより、句構造解析の最適性能が得られる。 これは、すべての形態素を分離する必要がある様々なアプリケーションのデファクトスタンダードである韓国語処理の以前のベストプラクティスと矛盾する。

This paper describes word {segmentation} granularity in Korean language processing. From a word separated by blank space, which is termed an eojeol, to a sequence of morphemes in Korean, there are multiple possible levels of word segmentation granularity in Korean. For specific language processing and corpus annotation tasks, several different granularity levels have been proposed and utilized, because the agglutinative languages including Korean language have a one-to-one mapping between functional morpheme and syntactic category. Thus, we analyze these different granularity levels, presenting the examples of Korean language processing systems for future reference. Interestingly, the granularity by separating only functional morphemes including case markers and verbal endings, and keeping other suffixes for morphological derivation results in the optimal performance for phrase structure parsing. This contradicts previous best practices for Korean language processing, which has been the de facto standard for various applications that require separating all morphemes.
翻訳日:2023-09-08 12:59:06 公開日:2023-09-07
# 報酬を減らすための状態表現

A State Representation for Diminishing Rewards ( http://arxiv.org/abs/2309.03710v1 )

ライセンス: Link先を確認
Ted Moskovitz, Samo Hromadka, Ahmed Touati, Diana Borsa, Maneesh Sahani(参考訳) マルチタスク強化学習(rl)における共通設定は、エージェントが固定分布からランダムにサンプリングされた様々な定常報酬関数に迅速に適応することを要求する。 このような状況下では、後継代表(sr)は、政策の期待値、累積状態の占有を特定の報酬機能から切り離して、迅速な政策評価を支援する一般的な枠組みである。 しかし、自然界では、シーケンシャルなタスクは滅多に独立せず、報酬刺激の可利用性と主観的な認識に基づいて優先順位のシフトを反映している。 そこで,本論文では,辺縁的有用性を低下させる現象を考察し,新しい状態表現である$\lambda$ representation (\lambda$r) を導入する。 我々は、$\lambda$Rの形式的特性を確立し、機械学習の文脈における規範的な利点と、自然行動の研究、特に採餌に有用性を検討する。

A common setting in multitask reinforcement learning (RL) demands that an agent rapidly adapt to various stationary reward functions randomly sampled from a fixed distribution. In such situations, the successor representation (SR) is a popular framework which supports rapid policy evaluation by decoupling a policy's expected discounted, cumulative state occupancies from a specific reward function. However, in the natural world, sequential tasks are rarely independent, and instead reflect shifting priorities based on the availability and subjective perception of rewarding stimuli. Reflecting this disjunction, in this paper we study the phenomenon of diminishing marginal utility and introduce a novel state representation, the $\lambda$ representation ($\lambda$R) which, surprisingly, is required for policy evaluation in this setting and which generalizes the SR as well as several other state representations from the literature. We establish the $\lambda$R's formal properties and examine its normative advantages in the context of machine learning, as well as its usefulness for studying natural behaviors, particularly foraging.
翻訳日:2023-09-08 12:58:48 公開日:2023-09-07
# チャットの失敗とトラブル:理由と解決策

Chat Failures and Troubles: Reasons and Solutions ( http://arxiv.org/abs/2309.03708v1 )

ライセンス: Link先を確認
Manal Helal, Patrick Holthaus, Gabriella Lakatos, Farshid Amirabdollahian(参考訳) 本稿では,Chatにおける障害やトラブルの原因となるヒューマンロボットインタラクション(HRI)の一般的な問題について検討する。 あるユースケースの設計決定は、適切なロボット、適切なチャットモデル、失敗の原因となる共通の問題、潜在的な解決策の特定、継続的な改善計画から始まります。 結論として、トレーニング済み人工知能(ai)事前学習モデルの使用をガイドし、語彙フィルタリング、新しいデータセットでバッチモデルの再トレーニング、データストリームからオンライン学習、強化学習モデルを使用してトレーニング済みモデルを自己更新し、エラーを低減するクローズドループ制御アルゴリズムの使用が推奨されている。

This paper examines some common problems in Human-Robot Interaction (HRI) causing failures and troubles in Chat. A given use case's design decisions start with the suitable robot, the suitable chatting model, identifying common problems that cause failures, identifying potential solutions, and planning continuous improvement. In conclusion, it is recommended to use a closed-loop control algorithm that guides the use of trained Artificial Intelligence (AI) pre-trained models and provides vocabulary filtering, re-train batched models on new datasets, learn online from data streams, and/or use reinforcement learning models to self-update the trained models and reduce errors.
翻訳日:2023-09-08 12:58:29 公開日:2023-09-07
# Triplet Markov Chainsを用いた確率的半教師付きアプローチ

A Probabilistic Semi-Supervised Approach with Triplet Markov Chains ( http://arxiv.org/abs/2309.03707v1 )

ライセンス: Link先を確認
Katherine Morales, Yohan Petetin(参考訳) トリプルトマルコフ連鎖は、(ノイズ)観測、関連する離散ラベル、および関連するラベルの分布を強化することを目的とした潜在変数の3種類のランダム変数を考慮に入れたシーケンシャルデータの一般的な生成モデルである。 しかし、実際には、そのようなモデルのパラメータを推定するために、観測に関連するラベルを全て処分することはできません。 本稿では,半教師付き文脈でパラメータ付き三重項マルコフ連鎖モデルを学習するための変分ベイズ推定に基づく一般的な枠組みを提案する。 このアプローチの一般化により、逐次ベイズ分類のための様々な生成モデルに対する半教師付きアルゴリズムを導出することができる。

Triplet Markov chains are general generative models for sequential data which take into account three kinds of random variables: (noisy) observations, their associated discrete labels and latent variables which aim at strengthening the distribution of the observations and their associated labels. However, in practice, we do not have at our disposal all the labels associated to the observations to estimate the parameters of such models. In this paper, we propose a general framework based on a variational Bayesian inference to train parameterized triplet Markov chain models in a semi-supervised context. The generality of our approach enables us to derive semi-supervised algorithms for a variety of generative models for sequential Bayesian classification.
翻訳日:2023-09-08 12:58:17 公開日:2023-09-07
# DiffDefense:拡散モデルによる敵攻撃に対する防御

DiffDefense: Defending against Adversarial Attacks via Diffusion Models ( http://arxiv.org/abs/2309.03702v1 )

ライセンス: Link先を確認
Hondamunige Prasanna Silva, Lorenzo Seidenari, and Alberto Del Bimbo(参考訳) 本稿では,機械学習の分類器を敵の攻撃から保護するために拡散モデルを利用する新しい再構築手法を提案する。 機械学習モデルの小さな入力摂動に対する感受性は、敵の攻撃に対して脆弱である。 拡散法は, 逆過程が遅いため, 敵防御には無視されることが多いが, 提案手法は, クリーンな精度, 速度, プラグ・アンド・プレイの互換性を保ちながら, 敵の脅威に対して頑健であることを示す。 コードネームはhttps://github.com/HondamunigePrasannaSilva/DiffDefence。

This paper presents a novel reconstruction method that leverages Diffusion Models to protect machine learning classifiers against adversarial attacks, all without requiring any modifications to the classifiers themselves. The susceptibility of machine learning models to minor input perturbations renders them vulnerable to adversarial attacks. While diffusion-based methods are typically disregarded for adversarial defense due to their slow reverse process, this paper demonstrates that our proposed method offers robustness against adversarial threats while preserving clean accuracy, speed, and plug-and-play compatibility. Code at: https://github.com/HondamunigePrasannaSilva/DiffDefence.
翻訳日:2023-09-08 12:58:03 公開日:2023-09-07
# 概念誘導メモリを用いた適応型物体干渉検出

Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory ( http://arxiv.org/abs/2309.03696v1 )

ライセンス: Link先を確認
Ting Lei, Fabian Caba, Qingchao Chen, Hailin Jin, Yuxin Peng, Yang Liu(参考訳) human object interaction(hoi)検出は、人間とオブジェクトの関係を局所化し、推論することを目的としている。 おそらく、このタスクの教師付きモデルをスクラッチからトレーニングすることは、稀なクラスに対する性能低下と、複雑なHOIシーンにおけるHOIの長期分布を扱うのに必要な高い計算コストと時間によって、現実的な環境下での課題となる。 この観察により、長い尾のラベル付きデータでも訓練できるHOI検出器を設計し、事前訓練されたモデルから既存の知識を活用することができる。 大規模視覚言語モデル(vlm)の分類・検索タスクにおける強力な一般化能力に触発されて,概念誘導メモリ(ada-cm)を用いた効率的な適応型hoi検出器を提案する。 ADA-CMには2つの動作モードがある。 最初のモードでは、トレーニングフリーのパラダイムで新しいパラメータを学習せずにチューニングできる。 第2モードにはインスタンス対応アダプタ機構が組み込まれており、ライトウェイトなパラメータセットを更新することで、パフォーマンスをさらに高めることができる。 提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合結果を得る。 コードはhttps://github.com/ltttpku/ada-cmにある。

Human Object Interaction (HOI) detection aims to localize and infer the relationships between a human and an object. Arguably, training supervised models for this task from scratch presents challenges due to the performance drop over rare classes and the high computational cost and time required to handle long-tailed distributions of HOIs in complex HOI scenes in realistic settings. This observation motivates us to design an HOI detector that can be trained even with long-tailed labeled data and can leverage existing knowledge from pre-trained models. Inspired by the powerful generalization ability of the large Vision-Language Models (VLM) on classification and retrieval tasks, we propose an efficient Adaptive HOI Detector with Concept-guided Memory (ADA-CM). ADA-CM has two operating modes. The first mode makes it tunable without learning new parameters in a training-free paradigm. Its second mode incorporates an instance-aware adapter mechanism that can further efficiently boost performance if updating a lightweight set of parameters can be afforded. Our proposed method achieves competitive results with state-of-the-art on the HICO-DET and V-COCO datasets with much less training time. Code can be found at https://github.com/ltttpku/ADA-CM.
翻訳日:2023-09-08 12:57:50 公開日:2023-09-07
# パーティクルスウォーム最適化マルチヘッドアテンション強化CNN-LSTMネットワークによる短期負荷予測

Short-Term Load Forecasting Using A Particle-Swarm Optimized Multi-Head Attention-Augmented CNN-LSTM Network ( http://arxiv.org/abs/2309.03694v1 )

ライセンス: Link先を確認
Paapa Kwesi Quansah(参考訳) 短期負荷予測は電力系統の効率的な運転と計画において最重要であり、本質的に非線形かつ動的性質を考慮に入れている。 ディープラーニングの最近の進歩は、この課題に取り組む上での有望さを示している。 しかし、これらの手法は、しばしばハイパーパラメータ感度、解釈容易性の不透明さ、そしてリアルタイムデプロイメントのための高い計算オーバーヘッドに悩まされる。 本稿では,これらの障害を克服する新しい解を提案する。 提案手法は,超パラメータを自律的に探索し最適化するパーティクル・スワーム最適化アルゴリズムのパワー,正確な予測に不可欠な特徴を識別するマルチヘッドアテンション機構,計算効率の合理化フレームワークを活用する。 本手法は真の電力需要データセットを用いて厳密な評価を行う。 この結果は、精度、堅牢性、計算効率の点でその優位性を示している。 特に、我々の平均絶対パーセンテージ誤差 1.9376 は、既存の最先端のアプローチを大きく進歩させ、短期的な負荷予測の新しい時代を告げている。

Short-term load forecasting is of paramount importance in the efficient operation and planning of power systems, given its inherent non-linear and dynamic nature. Recent strides in deep learning have shown promise in addressing this challenge. However, these methods often grapple with hyperparameter sensitivity, opaqueness in interpretability, and high computational overhead for real-time deployment. In this paper, I propose a novel solution that surmounts these obstacles. Our approach harnesses the power of the Particle-Swarm Optimization algorithm to autonomously explore and optimize hyperparameters, a Multi-Head Attention mechanism to discern the salient features crucial for accurate forecasting, and a streamlined framework for computational efficiency. Our method undergoes rigorous evaluation using a genuine electricity demand dataset. The results underscore its superiority in terms of accuracy, robustness, and computational efficiency. Notably, our Mean Absolute Percentage Error of 1.9376 marks a significant advancement over existing state-of-the-art approaches, heralding a new era in short-term load forecasting.
翻訳日:2023-09-08 12:57:28 公開日:2023-09-07
# 密度行列状態に対する非平衡シュウィンガー・ケルディッシュ形式論:解析的性質と宇宙論における意義

Nonequilibrium Schwinger-Keldysh formalism for density matrix states: analytic properties and implications in cosmology ( http://arxiv.org/abs/2309.03687v1 )

ライセンス: Link先を確認
Andrei O. Barvinsky, Nikita Kolganov(参考訳) 宇宙の量子状態に対する宇宙論的ハートル・ホーキングとミクロカノニカル密度行列の処方を動機とし、初期密度行列を持つ一般非平衡力学系に対するシュウィンガー・ケルディッシュ内形式を開発した。 我々は,グリーン関数の生成関数とガウス型の一般密度行列に対する期待値を構築し,粒子解釈の要求が密度行列パラメータによって決定される理論の波動作用素の正/負の周波数基底関数の区別された集合を選択することを示す。 次に、この理論のユークリッド経路積分によって決定される密度行列の特別な場合を考察し、宇宙論的文脈において、非境界純状態のマイクロカノニカルアンサンブルの場合への一般化と見なすことができ、特別な反射対称性の観点から、ワイトマン・グリーンの関数は物理的セットアップの非平衡性にも拘わらずkubo-martin-schwinger周期性条件を満たすことを示した。 時間変数の複素平面におけるリッチ解析構造は、初期密度行列の性質に依存して古典的に禁止された量子状態の崩壊と解釈できるユークリッド・ローレンツ理論の複合進化を明らかにする。

Motivated by cosmological Hartle-Hawking and microcanonical density matrix prescriptions for the quantum state of the Universe we develop Schwinger-Keldysh in-in formalism for generic nonequilibrium dynamical systems with the initial density matrix. We build the generating functional of in-in Green's functions and expectation values for a generic density matrix of the Gaussian type and show that the requirement of particle interpretation selects a distinguished set of positive/negative frequency basis functions of the wave operator of the theory, which is determined by the density matrix parameters. Then we consider a special case of the density matrix determined by the Euclidean path integral of the theory, which in the cosmological context can be considered as a generalization of the no-boundary pure state to the case of the microcanonical ensemble, and show that in view of a special reflection symmetry its Wightman Green's functions satisfy Kubo-Martin-Schwinger periodicity conditions which hold despite the nonequilibrium nature of the physical setup. Rich analyticity structure in the complex plane of the time variable reveals the combined Euclidean-Lorentzian evolution of the theory, which depending on the properties of the initial density matrix can be interpreted as a decay of a classically forbidden quantum state.
翻訳日:2023-09-08 12:57:08 公開日:2023-09-07
# MS-UNet-v2:小さなトレーニングデータを用いた医用画像分割のための適応型Denoising法とトレーニング戦略

MS-UNet-v2: Adaptive Denoising Method and Training Strategy for Medical Image Segmentation with Small Training Data ( http://arxiv.org/abs/2309.03686v1 )

ライセンス: Link先を確認
Haoyuan Chen, Yufei Han, Pin Xu, Yanyi Li, Kuan Li, Jianping Yin(参考訳) U-like構造に基づくモデルにより,医用画像分割の性能が向上した。 しかし、U-Netの単一層デコーダ構造は、十分な情報を利用するには「薄すぎる」ため、エンコーダとデコーダ部分のセマンティックな違いが大きい。 注釈付きデータの取得が他のタスクよりも難しい医療画像処理タスクでは、トレーニングセットの数が十分に大きくない場合、事態は悪化する。 そこで本研究では,医用画像分割作業のための新しいU-NetモデルMS-UNetを提案する。 Swin-UNet と TransUnet で使用されるシングルレイヤのU-Netデコーダ構造の代わりに,U-Net 用の Swin Transformer に基づくマルチスケールネスト型デコーダを設計する。 提案したマルチスケールのネスト型デコーダ構造により,デコーダとエンコーダの機能マッピングがセマンティックに近づき,ネットワークはより詳細な機能を学ぶことができる。 さらに,MS-UNetのセグメンテーション性能を効果的に向上するだけでなく,他のモデルにも個別に適用できる新しいエッジロスとプラグアンドプレイ細調整モジュールを提案する。 実験結果から,MS-UNetはより効率的な特徴学習能力でネットワーク性能を効果的に向上し,特に訓練データが少ない極端な場合において,より高度な性能を示すことが示され,提案したエッジロス・デノナイジングモジュールは,MS-UNetのセグメンテーション性能を大幅に向上させることができた。

Models based on U-like structures have improved the performance of medical image segmentation. However, the single-layer decoder structure of U-Net is too "thin" to exploit enough information, resulting in large semantic differences between the encoder and decoder parts. Things get worse if the number of training sets of data is not sufficiently large, which is common in medical image processing tasks where annotated data are more difficult to obtain than other tasks. Based on this observation, we propose a novel U-Net model named MS-UNet for the medical image segmentation task in this study. Instead of the single-layer U-Net decoder structure used in Swin-UNet and TransUnet, we specifically design a multi-scale nested decoder based on the Swin Transformer for U-Net. The proposed multi-scale nested decoder structure allows the feature mapping between the decoder and encoder to be semantically closer, thus enabling the network to learn more detailed features. In addition, we propose a novel edge loss and a plug-and-play fine-tuning Denoising module, which not only effectively improves the segmentation performance of MS-UNet, but could also be applied to other models individually. Experimental results show that MS-UNet could effectively improve the network performance with more efficient feature learning capability and exhibit more advanced performance, especially in the extreme case with a small amount of training data, and the proposed Edge loss and Denoising module could significantly enhance the segmentation performance of MS-UNet.
翻訳日:2023-09-08 12:56:40 公開日:2023-09-07
# 文エンコーダを用いたDending Dilemma:標準ベンチマークの成功,基本意味的特性の獲得における失敗

The Daunting Dilemma with Sentence Encoders: Success on Standard Benchmarks, Failure in Capturing Basic Semantic Properties ( http://arxiv.org/abs/2309.03747v1 )

ライセンス: Link先を確認
Yash Mahajan, Naman Bansal, Shubhra Kanti Karmaker ("Santu")(参考訳) 本稿では,既存の5つの文エンコーダ(Sentence-BERT,Universal Sentence Encoder (USE), LASER, InferSent, Doc2vec)を,下流タスクにおける処理性能と基本的な意味的特性の獲得能力で比較し比較する。 まず,5つの文エンコーダをstevalベンチマークで評価し,複数の文エンコーダが様々なダウンストリームタスクでうまく動作することを発見した。 しかしながら、すべてのケースで1つの勝者を見つけることができないため、その行動をより深く理解するために、さらなる実験をデザインしました。 具体的には,4つの意味的評価基準,すなわちパラフレーズ,同期置換,アンソニー置換,文ジャムリングを提案し,これらの基準を用いて同じ5つの文エンコーダを評価した。 その結果,SBERTとSentence-BertモデルとUSEモデルはパラフレージング基準を超越していることがわかった。 同義語置換基準の場合、LASERが優勢である。 興味深いことに、すべての文エンコーダはアントロニムの置き換えとジャムリング基準に失敗した。 これらの結果は、これらの一般的な文エンコーダは、SentEvalベンチマークでかなりよく機能するが、基本的な意味的特性の獲得に苦慮していることを示唆している。

In this paper, we adopted a retrospective approach to examine and compare five existing popular sentence encoders, i.e., Sentence-BERT, Universal Sentence Encoder (USE), LASER, InferSent, and Doc2vec, in terms of their performance on downstream tasks versus their capability to capture basic semantic properties. Initially, we evaluated all five sentence encoders on the popular SentEval benchmark and found that multiple sentence encoders perform quite well on a variety of popular downstream tasks. However, being unable to find a single winner in all cases, we designed further experiments to gain a deeper understanding of their behavior. Specifically, we proposed four semantic evaluation criteria, i.e., Paraphrasing, Synonym Replacement, Antonym Replacement, and Sentence Jumbling, and evaluated the same five sentence encoders using these criteria. We found that the Sentence-Bert and USE models pass the paraphrasing criterion, with SBERT being the superior between the two. LASER dominates in the case of the synonym replacement criterion. Interestingly, all the sentence encoders failed the antonym replacement and jumbling criteria. These results suggest that although these popular sentence encoders perform quite well on the SentEval benchmark, they still struggle to capture some basic semantic properties, thus, posing a daunting dilemma in NLP research.
翻訳日:2023-09-08 12:51:20 公開日:2023-09-07
# 3次元心血管系免疫蛍光像の核検出と分類のためのラベル効率の高いコントラスト学習モデル

Label-efficient Contrastive Learning-based model for nuclei detection and classification in 3D Cardiovascular Immunofluorescent Images ( http://arxiv.org/abs/2309.03744v1 )

ライセンス: Link先を確認
Nazanin Moradinasab, Rebecca A. Deaton, Laura S. Shankman, Gary K. Owens, Donald E. Brown(参考訳) 近年,深層学習に基づく手法は,核検出と分類において有望な性能を達成している。 しかし、深層学習に基づく手法の訓練には、特に3D画像において、時間と労力のかかる大量の画素単位のアノテートデータが必要である。 もう一つのアプローチは、各核に点をラベル付けするなどの弱いアノテーション法を適用することであるが、この方法は2Dの病理像(もともと開発された)から3Dの免疫蛍光画像に拡張しない。 理由は、3D画像が核と異なるマーカーの複数のチャネル(z軸)を別々に含むため、ポイントアノテーションを用いたトレーニングが困難になるからである。 この課題に対処するために,3次元免疫蛍光画像の様々な種類の核を検出・分類するためのラベル効率・コントラスト学習ベース(LECL)モデルを提案する。 これまでの方法では、最大強度投影(MIP)を使用して、複数のスライスを持つ免疫蛍光画像を2D画像に変換することで、異なるzスタックからの信号が互いに関連付けられていると偽る可能性がある。 この問題を解決するために、MIPを用いた問題に対処するEMIP(Extended Maximum Intensity Projection)アプローチを考案した。 さらに、弱教師付き設定のためのSCL(Supervised Contrastive Learning)アプローチも実施した。 心血管系データセットを用いて実験を行い,本フレームワークは3次元免疫蛍光画像における種々の種類の核の検出と分類に有効であることを確認した。

Recently, deep learning-based methods achieved promising performance in nuclei detection and classification applications. However, training deep learning-based methods requires a large amount of pixel-wise annotated data, which is time-consuming and labor-intensive, especially in 3D images. An alternative approach is to adapt weak-annotation methods, such as labeling each nucleus with a point, but this method does not extend from 2D histopathology images (for which it was originally developed) to 3D immunofluorescent images. The reason is that 3D images contain multiple channels (z-axis) for nuclei and different markers separately, which makes training using point annotations difficult. To address this challenge, we propose the Label-efficient Contrastive learning-based (LECL) model to detect and classify various types of nuclei in 3D immunofluorescent images. Previous methods use Maximum Intensity Projection (MIP) to convert immunofluorescent images with multiple slices to 2D images, which can cause signals from different z-stacks to falsely appear associated with each other. To overcome this, we devised an Extended Maximum Intensity Projection (EMIP) approach that addresses issues using MIP. Furthermore, we performed a Supervised Contrastive Learning (SCL) approach for weakly supervised settings. We conducted experiments on cardiovascular datasets and found that our proposed framework is effective and efficient in detecting and classifying various types of nuclei in 3D immunofluorescent images.
翻訳日:2023-09-08 12:50:48 公開日:2023-09-07
# ClusterFusion: 自律走行車におけるレーダーカメラ3次元物体検出のためのレーダ空間特性の活用

ClusterFusion: Leveraging Radar Spatial Features for Radar-Camera 3D Object Detection in Autonomous Vehicles ( http://arxiv.org/abs/2309.03734v1 )

ライセンス: Link先を確認
Irfan Tito Kurniawan and Bambang Riyanto Trilaksono(参考訳) ミリ波レーダとカメラの相補的な性質により、深層学習に基づくレーダーカメラによる3Dオブジェクト検出法は、低視認性条件でも確実に正確な検出を行うことができる。 これにより、両センサーの合計コストはライダーのコストよりも安価であるため、自動運転車の知覚システムでの使用が好まれる。 最近のレーダーカメラの手法では、画像の特徴と同じ平面にレーダーポイントを投影し、両方のモダリティから抽出した特徴を融合させる機能レベルの融合が一般的である。 イメージプレーン上での融合は一般的に簡単で高速であるが、レーダーをイメージプレーンに投影すると、情報損失につながるポイントクラウドの深さ次元が平坦になり、ポイントクラウドの空間的特徴の抽出が難しくなる。 本研究では,ポイントクラウドをクラスタリングし,ポイントクラウドクラスタ上で直接特徴抽出を行い,その特徴をイメージプレーンに投影することで,レーダーポイントクラウドの局所的空間的特徴を活用するアーキテクチャであるclusterfusionを提案する。 ClusterFusion は、NDS (48.7% nuScenes detection score) による nuScenes データセットのテストスライスにおいて、すべてのレーダー-眼カメラ手法の最先端性能を達成した。 また, ポイントクラウドクラスタ上での各種レーダ特徴抽出戦略の性能について検討し, ハンドクラフト戦略, ラーニングベース戦略, 両者の組み合わせを検討した結果, ハンドクラフト戦略が最高の性能を示した。 本研究の主な目的は,レーダ点群から直接抽出し,画像平面上でクロスモーダルな特徴融合を行うレーダ-モンカメラ3Dオブジェクト検出法について,レーダの局所的空間的特徴と点的特徴の利用を検討することである。

Thanks to the complementary nature of millimeter wave radar and camera, deep learning-based radar-camera 3D object detection methods may reliably produce accurate detections even in low-visibility conditions. This makes them preferable to use in autonomous vehicles' perception systems, especially as the combined cost of both sensors is cheaper than the cost of a lidar. Recent radar-camera methods commonly perform feature-level fusion which often involves projecting the radar points onto the same plane as the image features and fusing the extracted features from both modalities. While performing fusion on the image plane is generally simpler and faster, projecting radar points onto the image plane flattens the depth dimension of the point cloud which might lead to information loss and makes extracting the spatial features of the point cloud harder. We proposed ClusterFusion, an architecture that leverages the local spatial features of the radar point cloud by clustering the point cloud and performing feature extraction directly on the point cloud clusters before projecting the features onto the image plane. ClusterFusion achieved the state-of-the-art performance among all radar-monocular camera methods on the test slice of the nuScenes dataset with 48.7% nuScenes detection score (NDS). We also investigated the performance of different radar feature extraction strategies on point cloud clusters: a handcrafted strategy, a learning-based strategy, and a combination of both, and found that the handcrafted strategy yielded the best performance. The main goal of this work is to explore the use of radar's local spatial and point-wise features by extracting them directly from radar point cloud clusters for a radar-monocular camera 3D object detection method that performs cross-modal feature fusion on the image plane.
翻訳日:2023-09-08 12:50:22 公開日:2023-09-07
# 表現バランスによる連続的治療効果の学習

Learning continuous-valued treatment effects through representation balancing ( http://arxiv.org/abs/2309.03731v1 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann, Toon Vanderschueren, Jeroen Berrevoets, Tim Verdonck, Wouter Verbeke(参考訳) 事象の結果に対する治療の効果を推定する「服用反応」は、医療からビジネス、経済、その他様々な分野に関係している。 このような効果は連続的な治療効果としても知られ、通常、線量選択バイアスの対象となる観測データから推定される。 これは、投与量の割り当てが前処理コバリアントに依存することを意味する。 これまでの研究では、従来の機械学習アプローチでは、線量選択バイアスの存在下での線量応答の正確な個々の推定を学習できないことが示されている。 本研究では、観測データから個々の線量応答を推定する因果機械学習手法であるCBRNetを提案する。 cbrnet は neyman-rubin potential outcome framework を採用し、選択バイアスを克服するバランス付き表現学習の概念を拡張した。 当社の作業は、継続的評価された処理設定で表現バランスを最初に適用したものです。 本手法を新たに提案するベンチマークで評価する。 本実験は,CBRNetが選択バイアス下で治療効果を正確に学習する能力と,他の最先端手法に対する競合性能を示すものである。

Estimating the effects of treatments with an associated dose on an instance's outcome, the "dose response", is relevant in a variety of domains, from healthcare to business, economics, and beyond. Such effects, also known as continuous-valued treatment effects, are typically estimated from observational data, which may be subject to dose selection bias. This means that the allocation of doses depends on pre-treatment covariates. Previous studies have shown that conventional machine learning approaches fail to learn accurate individual estimates of dose responses under the presence of dose selection bias. In this work, we propose CBRNet, a causal machine learning approach to estimate an individual dose response from observational data. CBRNet adopts the Neyman-Rubin potential outcome framework and extends the concept of balanced representation learning for overcoming selection bias to continuous-valued treatments. Our work is the first to apply representation balancing in a continuous-valued treatment setting. We evaluate our method on a newly proposed benchmark. Our experiments demonstrate CBRNet's ability to accurately learn treatment effects under selection bias and competitive performance with respect to other state-of-the-art methods.
翻訳日:2023-09-08 12:49:49 公開日:2023-09-07
# ローン価格に関する因果的視点--入札機能同定における選択バイアスの影響の検討

A Causal Perspective on Loan Pricing: Investigating the Impacts of Selection Bias on Identifying Bid-Response Functions ( http://arxiv.org/abs/2309.03730v1 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann, Sam Verboven, Tim Verdonck, Wouter Verbeke(参考訳) 価格が顧客と製品の両方に特有な貸付では、適切な機能を持ったパーソナライズされた価格ポリシーが効果的なビジネスに不可欠である。 典型的には、このような方針は観測データから導き出さなければならない。 既定の価格設定文献では'endogeneity'の問題は顕著に研究されているが、選択バイアス(またはより正確には入札選択バイアス)の問題ではない。 因果推論問題として価格設定を行うことにより,選択バイアスの影響を理解するための一歩を踏み出した。 具体的には、顧客の治療効果の価格設定に対する反応を検討する。 実験では、ベルギーのローンローン申請に関する半合成データセットにおける選択バイアスの異なるレベルをシミュレートした。 個人入札応答関数の同定のためのパラメトリックおよび非パラメトリック手法の可能性を検討する。 本研究は,ロジスティック回帰やニューラルネットワークなどの従来の手法が選択バイアスに悪影響を及ぼすことを示す。 対照的に,因果機械学習から最先端手法を実装し,価格データの選択バイアスを克服する能力を示す。

In lending, where prices are specific to both customers and products, having a well-functioning personalized pricing policy in place is essential to effective business making. Typically, such a policy must be derived from observational data, which introduces several challenges. While the problem of ``endogeneity'' is prominently studied in the established pricing literature, the problem of selection bias (or, more precisely, bid selection bias) is not. We take a step towards understanding the effects of selection bias by posing pricing as a problem of causal inference. Specifically, we consider the reaction of a customer to price a treatment effect. In our experiments, we simulate varying levels of selection bias on a semi-synthetic dataset on mortgage loan applications in Belgium. We investigate the potential of parametric and nonparametric methods for the identification of individual bid-response functions. Our results illustrate how conventional methods such as logistic regression and neural networks suffer adversely from selection bias. In contrast, we implement state-of-the-art methods from causal machine learning and show their capability to overcome selection bias in pricing data.
翻訳日:2023-09-08 12:49:34 公開日:2023-09-07
# Few-Shotモデル適応のための方向分布整合性を有するファシック含量拡散モデル

Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption ( http://arxiv.org/abs/2309.03729v1 )

ライセンス: Link先を確認
Teng Hu, Jiangning Zhang, Liang Liu, Ran Yi, Siqi Kou, Haokun Zhu, Xu Chen, Yabiao Wang, Chengjie Wang, Lizhuang Ma(参考訳) サンプル数が少ない生成モデルをトレーニングするのは難しい作業です。 現在の手法は主にネットワークのトレーニングに数発のモデル適応に依存している。 しかし、データが非常に限られているシナリオ(10未満)では、生成ネットワークは過剰に適合し、コンテンツの劣化に苦しむ傾向がある。 そこで本研究では, 拡散モデルの異なる学習段階における異なる学習目標を対象とする, 方向分布一貫性損失を伴う数発拡散モデルを用いた新しいファシックコンテンツを提案する。 具体的には,tが大きければコンテンツとスタイル情報を学習し,tが小さければ対象領域の局所的詳細を学習し,コンテンツ,スタイル,局所的詳細の把握を改善するために,ファシック・コンテント融合を用いたファシック・トレーニング戦略を設計する。 さらに, 生成した分布とソース分布との整合性を従来手法よりも効率よく安定的に確保し, モデルが過度に適合することを防止できる新しい方向分布整合性損失を導入する。 最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。 理論解析,定性的,定量的実験は,最先端手法と比較して,数ショット生成モデル適応タスクにおけるアプローチの優位性を示す。 ソースコードはhttps://github.com/sjtuplayer/few-shot-diffusion。

Training a generative model with limited number of samples is a challenging task. Current methods primarily rely on few-shot model adaption to train the network. However, in scenarios where data is extremely limited (less than 10), the generative network tends to overfit and suffers from content degradation. To address these problems, we propose a novel phasic content fusing few-shot diffusion model with directional distribution consistency loss, which targets different learning objectives at distinct training stages of the diffusion model. Specifically, we design a phasic training strategy with phasic content fusion to help our model learn content and style information when t is large, and learn local details of target domain when t is small, leading to an improvement in the capture of content, style and local details. Furthermore, we introduce a novel directional distribution consistency loss that ensures the consistency between the generated and source distributions more efficiently and stably than the prior methods, preventing our model from overfitting. Finally, we propose a cross-domain structure guidance strategy that enhances structure consistency during domain adaptation. Theoretical analysis, qualitative and quantitative experiments demonstrate the superiority of our approach in few-shot generative model adaption tasks compared to state-of-the-art methods. The source code is available at: https://github.com/sjtuplayer/few-shot-diffusion.
翻訳日:2023-09-08 12:49:17 公開日:2023-09-07
# Reasoning Supervision による解釈可能な視覚質問応答

Interpretable Visual Question Answering via Reasoning Supervision ( http://arxiv.org/abs/2309.03726v1 )

ライセンス: Link先を確認
Maria Parelli and Dimitrios Mallis and Markos Diomataris and Vassilis Pitsikalis(参考訳) トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。 しかし、そのようなモデルは重要な視覚的手がかりを無視し、しばしば視覚的根拠の欠如と呼ばれる現象である正しい答えを予測するために言語モダリティのマルチモーダルなショートカットと固有のバイアスに依存する。 本研究では,常識推論を監督信号として利用する視覚質問応答のための新しいアーキテクチャにより,この欠点を解消する。 推論の監督は正しい回答をテキストで正当化する形で行われ、このようなアノテーションは大規模なVisual Common Sense Reasoning (VCR)データセットですでに利用可能である。 モデルの視覚的注意は、質問と正しい推論によって導かれる学習された注意分布を整合させる類似性損失を通じて、シーンの重要な要素に向かって誘導される。 提案手法は,明示的な接地アノテーションのトレーニングを必要とせずに,モデルの視覚知覚能力を高め,性能向上につながることを定量的かつ定性的に示す。

Transformer-based architectures have recently demonstrated remarkable performance in the Visual Question Answering (VQA) task. However, such models are likely to disregard crucial visual cues and often rely on multimodal shortcuts and inherent biases of the language modality to predict the correct answer, a phenomenon commonly referred to as lack of visual grounding. In this work, we alleviate this shortcoming through a novel architecture for visual question answering that leverages common sense reasoning as a supervisory signal. Reasoning supervision takes the form of a textual justification of the correct answer, with such annotations being already available on large-scale Visual Common Sense Reasoning (VCR) datasets. The model's visual attention is guided toward important elements of the scene through a similarity loss that aligns the learned attention distributions guided by the question and the correct reasoning. We demonstrate both quantitatively and qualitatively that the proposed approach can boost the model's visual perception capability and lead to performance increase, without requiring training on explicit grounding annotations.
翻訳日:2023-09-08 12:48:53 公開日:2023-09-07
# 古典的および量子的反分散性に対する最適誤差指数について

On the optimal error exponents for classical and quantum antidistinguishability ( http://arxiv.org/abs/2309.03723v1 )

ライセンス: Link先を確認
Hemant K. Mishra, Michael Nussbaum, Mark M. Wilde(参考訳) 量子状態の非識別性の概念は、量子力学の基本的な問題を研究するために研究されている。 量子状態除去(quantum state elimination)とも呼ばれるが、これはそのようなプロトコルの目標は、ランダムに選択された有限個の状態のうち、システムが準備されていないことを推測することである(すなわち、除去の過程における最初のステップと考えることができる)。 反識別性は、量子力学の$\psi$-epistemic存在論的モデル[Pusey et al., Nat. Phys., 8(6):475-478, 2012]を除外して、量子状態の現実を調べるために用いられる。 したがって、量子力学における反識別性の重要性が確立されているため、さらなる探索が保証される。 本稿では,古典的および量子的反識別性に対する最適誤差指数(最適誤差確率が漸近的にゼロになる速度)を総合的に研究する。 古典的ケースにおける最適誤差指数の正確な式を導出し、古典的なチャーノフ-ヘリンガー発散によって与えられることを示す。 そこで本研究では,この多変量発散を,一組の確率測度に対する最適誤差指数として有意義な操作解釈を与える。 量子の場合、最適誤差指数についていくつかの境界を与える: 状態の最適ペアのチャーノフ発散によって与えられる下界、最大相対エントロピーの項における上界、最小および最大量子チャーノフ-ヘリンジャー発散の項における下界と上界。 量子アンチディスタグイッシブルの最適誤差指数に対する明示的な表現を得ることは、依然として未解決の問題である。

The concept of antidistinguishability of quantum states has been studied to investigate foundational questions in quantum mechanics. It is also called quantum state elimination, because the goal of such a protocol is to guess which state, among finitely many chosen at random, the system is not prepared in (that is, it can be thought of as the first step in a process of elimination). Antidistinguishability has been used to investigate the reality of quantum states, ruling out $\psi$-epistemic ontological models of quantum mechanics [Pusey et al., Nat. Phys., 8(6):475-478, 2012]. Thus, due to the established importance of antidistinguishability in quantum mechanics, exploring it further is warranted. In this paper, we provide a comprehensive study of the optimal error exponent -- the rate at which the optimal error probability vanishes to zero asymptotically -- for classical and quantum antidistinguishability. We derive an exact expression for the optimal error exponent in the classical case and show that it is given by the classical Chernoff--Hellinger divergence. Our work thus provides this multi-variate divergence with a meaningful operational interpretation as the optimal error exponent for antidistinguishing a set of probability measures. We provide several bounds on the optimal error exponent in the quantum case: a lower bound given by the best pairwise Chernoff divergence of the states, an upper bound in terms of max-relative entropy, and lower and upper bounds in terms of minimal and maximal quantum Chernoff--Hellinger divergences. It remains an open problem to obtain an explicit expression for the optimal error exponent for quantum antidistinguishability.
翻訳日:2023-09-08 12:48:36 公開日:2023-09-07
# 屋根面セグメンテーションのためのユークリッドおよび埋め込み空間における境界対応点クラスタリング手法

A boundary-aware point clustering approach in Euclidean and embedding spaces for roof plane segmentation ( http://arxiv.org/abs/2309.03722v1 )

ライセンス: Link先を確認
Li Li and Qingqing Li and Guozheng Xu and Pengwei Zhou and Jingmin Tu and Jie Li and Jian Yao(参考訳) 空飛ぶLiDAR点雲からの屋根面のセグメンテーションは、3Dビルディングモデル再構築の重要な技術である。 プレーンセグメンテーションの重要な問題のひとつは、隣接する平面パッチを正確に識別できる強力な機能を設計する方法だ。 点特徴の質は、屋根面のセグメンテーションの精度を直接決定する。 既存のアプローチのほとんどは、屋根面の抽出に手作りの機能を使用している。 しかしながら、特に境界領域において、これらの特徴の能力は比較的低い。 この問題を解決するために,多タスク深層ネットワークによる屋根面分割のためのユークリッド空間と埋め込み空間における境界認識点クラスタリング手法を提案する。 セマンティックラベルを予測し,オフセットを指摘し,深い埋め込み特徴を抽出する3分岐ネットワークを設計する。 第1のブランチでは、入力データを非ルーフ点、境界点、平面点に分類する。 第2のブランチでは、各ポイントをそれぞれのインスタンスセンターに移動するポイントオフセットを予測します。 第3のブランチでは、同じ平面インスタンスの点が同様の埋め込みを持つべきだという制約があります。 我々は、同じ平面のインスタンスの点が、ユークリッド空間と埋め込み空間の両方において可能な限り近いことを保証することを目指している。 しかし, 深層ネットワークは特徴表現能力が強いが, 平面インスタンス境界付近の点を正確に識別することは困難である。 したがって、まず2つの空間の多くのクラスタに平面点をグループ化し、残りの境界点を最も近いクラスタに割り当てて最終的な屋根面を生成する。 このようにして、信頼できない境界点の影響を効果的に低減することができる。 さらに、我々のアプローチを訓練し評価するために、合成データセットと実際のデータセットを構築します。 実験の結果,提案手法が既存の最先端手法を大きく上回ることがわかった。

Roof plane segmentation from airborne LiDAR point clouds is an important technology for 3D building model reconstruction. One of the key issues of plane segmentation is how to design powerful features that can exactly distinguish adjacent planar patches. The quality of point feature directly determines the accuracy of roof plane segmentation. Most of existing approaches use handcrafted features to extract roof planes. However, the abilities of these features are relatively low, especially in boundary area. To solve this problem, we propose a boundary-aware point clustering approach in Euclidean and embedding spaces constructed by a multi-task deep network for roof plane segmentation. We design a three-branch network to predict semantic labels, point offsets and extract deep embedding features. In the first branch, we classify the input data as non-roof, boundary and plane points. In the second branch, we predict point offsets for shifting each point toward its respective instance center. In the third branch, we constrain that points of the same plane instance should have the similar embeddings. We aim to ensure that points of the same plane instance are close as much as possible in both Euclidean and embedding spaces. However, although deep network has strong feature representative ability, it is still hard to accurately distinguish points near plane instance boundary. Therefore, we first group plane points into many clusters in the two spaces, and then we assign the rest boundary points to their closest clusters to generate final complete roof planes. In this way, we can effectively reduce the influence of unreliable boundary points. In addition, we construct a synthetic dataset and a real dataset to train and evaluate our approach. The experiments results show that the proposed approach significantly outperforms the existing state-of-the-art approaches.
翻訳日:2023-09-08 12:48:05 公開日:2023-09-07
# 変化点検出機構を有するホッフィング木に基づく連続学習シナリオのための天然ガス消費量予測システム

A Natural Gas Consumption Forecasting System for Continual Learning Scenarios based on Hoeffding Trees with Change Point Detection Mechanism ( http://arxiv.org/abs/2309.03720v1 )

ライセンス: Link先を確認
Radek Svoboda, Sebastian Basterrech, J\k{e}drzej Kozal, Jan Plato\v{s}, Micha{\l} Wo\'zniak(参考訳) 天然ガス消費の予測は、季節性やトレンドを考慮して、その供給と消費を計画し、主に工業企業による生産コストの最適化に不可欠である。 しかし、供給に対する脅威の時においても、個々の消費者のニーズを満たすためにこの原料の供給を保証し、社会のエネルギー安全を確保する重要な要素である。 本稿では,データストリーム処理を用いた連続学習機能付きモデルコレクション選択のための,変化点検出統合による天然ガス消費の多段階予測について紹介する。 提案手法に基づく予測モデルの性能を,天然ガス消費予測の複雑な実世界のユースケースで評価した。 我々は,予測モデルとしてHoeffding Tree Predictionorを用い,変化点検出のためのPruned Exact Linear Time (PELT) アルゴリズムを開発した。 変更点検出統合により、連続した時間フレームに対して異なるモデルコレクションを選択することができる。 これにより、検出された変化点の密度が異なる予測シナリオに対して、3つのモデル収集選択手順(エラーフィードバックループの有無)を定義し、評価する。 これらのモデルと変化点非依存のベースラインアプローチを比較した。 実験では,モデルコレクション選択手順に関わらず,変更点が少ないと予測誤差が小さくなることを示した。 また、予測誤差フィードバックを省略したモデル収集選択手順は、連続学習タスクに適したより堅牢な予測モデルをもたらす。

Forecasting natural gas consumption, considering seasonality and trends, is crucial in planning its supply and consumption and optimizing the cost of obtaining it, mainly by industrial entities. However, in times of threats to its supply, it is also a critical element that guarantees the supply of this raw material to meet individual consumers' needs, ensuring society's energy security. This article introduces a novel multistep ahead forecasting of natural gas consumption with change point detection integration for model collection selection with continual learning capabilities using data stream processing. The performance of the forecasting models based on the proposed approach is evaluated in a complex real-world use case of natural gas consumption forecasting. We employed Hoeffding tree predictors as forecasting models and the Pruned Exact Linear Time (PELT) algorithm for the change point detection procedure. The change point detection integration enables selecting a different model collection for successive time frames. Thus, three model collection selection procedures (with and without an error feedback loop) are defined and evaluated for forecasting scenarios with various densities of detected change points. These models were compared with change point agnostic baseline approaches. Our experiments show that fewer change points result in a lower forecasting error regardless of the model collection selection procedure employed. Also, simpler model collection selection procedures omitting forecasting error feedback leads to more robust forecasting models suitable for continual learning tasks.
翻訳日:2023-09-08 12:47:40 公開日:2023-09-07
# スパース表現と四元QR分解を用いた$L_{2,1}$-Norm正規化四元行列補完

$L_{2,1}$-Norm Regularized Quaternion Matrix Completion Using Sparse Representation and Quaternion QR Decomposition ( http://arxiv.org/abs/2309.03764v1 )

ライセンス: Link先を確認
Juan Han, Kit Ian Kou, Jifei Miao, Lizhi Liu, Haojiang Li(参考訳) カラー画像の完成はコンピュータビジョンにおいて難しい問題であるが、近年の研究では、カラー画像の四元表現が多くの領域でうまく機能していることが示されている。 これらの表現はカラーイメージ全体を考慮し、3つのカラーチャネル間の結合情報を効果的に活用する。 その結果,低ランク四元数行列補完(LRQMC)アルゴリズムが注目されている。 QLNM-QQR と呼ばれる四元数 Qatar Riyal 分解と四元数 $L_{2,1}$-norm に基づく手法を提案する。 この新しいアプローチは、大きな四元数行列のQSVDを計算する必要性を回避し、計算複雑性を低減する。 また,QLNM-QQR法の改良版であるIRQLNM-QQRを,反復的に再重み付けした四元数$L_{2,1}$-norm最小化と,スパース正規化を統合したQLNM-QQR-SRという方法を提案する。 自然色画像とカラー医用画像を用いた実験により、IRQLNM-QQRはQLNM-QQRより優れており、提案手法は最先端のいくつかの手法よりも優れていることが示された。

Color image completion is a challenging problem in computer vision, but recent research has shown that quaternion representations of color images perform well in many areas. These representations consider the entire color image and effectively utilize coupling information between the three color channels. Consequently, low-rank quaternion matrix completion (LRQMC) algorithms have gained significant attention. We propose a method based on quaternion Qatar Riyal decomposition (QQR) and quaternion $L_{2,1}$-norm called QLNM-QQR. This new approach reduces computational complexity by avoiding the need to calculate the QSVD of large quaternion matrices. We also present two improvements to the QLNM-QQR method: an enhanced version called IRQLNM-QQR that uses iteratively reweighted quaternion $L_{2,1}$-norm minimization and a method called QLNM-QQR-SR that integrates sparse regularization. Our experiments on natural color images and color medical images show that IRQLNM-QQR outperforms QLNM-QQR and that the proposed QLNM-QQR-SR method is superior to several state-of-the-art methods.
翻訳日:2023-09-08 12:41:08 公開日:2023-09-07
# dacl1k: オープンソースのデータをテストに当てる実世界のブリッジ損傷データセット

dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the Test ( http://arxiv.org/abs/2309.03763v1 )

ライセンス: Link先を確認
Johannes Flotzinger, Philipp J. R\"osch, Norbert Oswald, Thomas Braml(参考訳) 鉄筋コンクリート欠陥(RCD)の認識は,橋梁の構造的完全性,交通安全,耐久性を決定する重要な要素である。 しかし、rcdドメインにある既存のデータセットのほとんどは、特定のカメラポーズ、照明条件、固定されたハードウェアで取得された少数のブリッジに由来する。 これらの制限は、実際のシナリオでそのようなオープンソースデータに基づいてトレーニングされたモデルのユーザビリティに疑問を呈する。 我々は,1,474枚の画像を含む建築検査に基づく多ラベル分類のための非常に多様なRCDデータセットである"dacl1k"データセット上で,そのようなモデルをテストすることでこの問題に対処する。 そこで,我々はオープンソースデータ(メタデータセット)の異なる組み合わせでモデルを訓練し,それらの組み合わせは外部的および本質的に評価された。 外部評価では,dacl1kとメタデータセットのメトリクスを報告する。 dacl1kのパフォーマンス分析はメタデータの実用的な使用性を示し、最良のモデルは正確な一致率32%を示す。 さらに,モデルがデータセットの識別や目標となるクラス(rcds)を学習した場合には,外部評価から導出した最良モデルのボトルネック特性をクラスタリングすることにより,本質的な評価を行う。 dacl1kデータセットとトレーニング済みのモデルが公開され、研究者や実践者がモデルを実世界でテストできるようになります。

Recognising reinforced concrete defects (RCDs) is a crucial element for determining the structural integrity, traffic safety and durability of bridges. However, most of the existing datasets in the RCD domain are derived from a small number of bridges acquired in specific camera poses, lighting conditions and with fixed hardware. These limitations question the usability of models trained on such open-source data in real-world scenarios. We address this problem by testing such models on our "dacl1k" dataset, a highly diverse RCD dataset for multi-label classification based on building inspections including 1,474 images. Thereby, we trained the models on different combinations of open-source data (meta datasets) which were subsequently evaluated both extrinsically and intrinsically. During extrinsic evaluation, we report metrics on dacl1k and the meta datasets. The performance analysis on dacl1k shows practical usability of the meta data, where the best model shows an Exact Match Ratio of 32%. Additionally, we conduct an intrinsic evaluation by clustering the bottleneck features of the best model derived from the extrinsic evaluation in order to find out, if the model has learned distinguishing datasets or the classes (RCDs) which is the aspired goal. The dacl1k dataset and our trained models will be made publicly available, enabling researchers and practitioners to put their models to the real-world test.
翻訳日:2023-09-08 12:40:40 公開日:2023-09-07
# 核スピンの過分極:偏極遮断

Hyperpolarisation of nuclear spins: polarisation blockade ( http://arxiv.org/abs/2309.03761v1 )

ライセンス: Link先を確認
O.T. Whaites, C.I. Ioannou, B.J.Pingault, G.L. van de Stolpe, T.H. Taminiau, and T.S. Monteiro(参考訳) ダイヤモンド中の窒素空孔(NV)中心のような光学活性な欠陥中心による核スピンの効率的な超分極は、NMRベースの量子情報処理とナノスケール磁気共鳴イメージングの強化に大きな可能性を持っている。 近年、パルスベースのプロトコルは、電子欠陥スピンの光誘起偏光を周囲の核スピン(特に共鳴パルス間隔)に効率的に転送することが示されている。 本研究では, 単一NV欠陥の電子スピンを用いて, 解析的かつ実験的にこれらのプロトコルの性能について検討する。 原子核スピンの偏光共鳴は、電子中心スピンと強い対角結合を持つ単スピンである「ブロッキング」スピンとほぼ縮退している場合、共鳴の顕著な弱化を伴わずに中心共鳴領域から外れる。 基礎となる物理機構を解析し,変位の閉形式式を得る。 スピンブロッキングは、核スピンの超分極化において一般的だが見過ごされる効果を示し、(自然発生の)ブロックスピンの存在下でのプロトコル性能向上のためのソリューションを提案する。

Efficient hyperpolarisation of nuclear spins via optically active defect centers, such as the nitrogen vacancy (NV) center in diamond, has great potential for enhancing NMR based quantum information processing and nanoscale magnetic resonance imaging. Recently, pulse-based protocols have been shown to efficiently transfer optically induced polarisation of the electron defect spin to surrounding nuclear spins -- at particular resonant pulse intervals. In this work, we investigate the performance of these protocols, both analytically and experimentally, with the electronic spin of a single NV defect. We find that whenever polarisation resonances of nuclear spins are near-degenerate with a `blocking' spin, which is single spin with stronger off-diagonal coupling to the electronic central spin, they are displaced out of the central resonant region -- without, in general, significant weakening of the resonance. We analyse the underlying physical mechanism and obtain a closed form expression for the displacement. We propose that spin blocking represents a common but overlooked effect in hyperpolarisation of nuclear spins and suggest solutions for improved protocol performance in the presence of (naturally occurring) blocking nuclear spins.
翻訳日:2023-09-08 12:40:17 公開日:2023-09-07
# 心エコー図を用いたM(otion)モードによる誘発率予測

M(otion)-mode Based Prediction of Ejection Fraction using Echocardiograms ( http://arxiv.org/abs/2309.03759v1 )

ライセンス: Link先を確認
Ece Ozkan and Thomas M. Sutter, Yurong Hu, Sebastian Balzer, Julia E. Vogt(参考訳) 定期スクリーニングによる心機能異常の早期発見は心血管疾患の診断に不可欠である。 心機能の重要な指標は左室放出分画(EF)であり、下肢のEFは心筋症と関連している。 エコー心電図は、超音波が低コストでリアルタイムで非イオン化技術である、心臓医学の一般的な診断ツールである。 しかし,EF計算のための心エコー図の人間による評価は,時間と専門知識が要求されるため,自動化アプローチの必要性が高まっている。 本研究では、心エコー図のM(otion)モードを用いて、EFの推定と心筋症分類を行う。 心エコー図から複数の人工Mモード画像を生成し,既製のモデルアーキテクチャを用いて組み合わせる。 さらに,コントラスト学習(CL)を心臓画像に拡張し,ラベルのないデータから有意な表現を学習することで,アノテーションを限定したモデルでも精度の高いモデルを実現する。 実験の結果,教師付き設定は10モードのみに収束し,煩雑なトレーニングプロセスを回避し,計算効率が向上し,ベースライン法に匹敵することがわかった。 さらに、Mモード画像を用いたCLは、200人の患者にラベルを付けるなどの限られたデータシナリオにおいて有用である。

Early detection of cardiac dysfunction through routine screening is vital for diagnosing cardiovascular diseases. An important metric of cardiac function is the left ventricular ejection fraction (EF), where lower EF is associated with cardiomyopathy. Echocardiography is a popular diagnostic tool in cardiology, with ultrasound being a low-cost, real-time, and non-ionizing technology. However, human assessment of echocardiograms for calculating EF is time-consuming and expertise-demanding, raising the need for an automated approach. In this work, we propose using the M(otion)-mode of echocardiograms for estimating the EF and classifying cardiomyopathy. We generate multiple artificial M-mode images from a single echocardiogram and combine them using off-the-shelf model architectures. Additionally, we extend contrastive learning (CL) to cardiac imaging to learn meaningful representations from exploiting structures in unlabeled data allowing the model to achieve high accuracy, even with limited annotations. Our experiments show that the supervised setting converges with only ten modes and is comparable to the baseline method while bypassing its cumbersome training process and being computationally much more efficient. Furthermore, CL using M-mode images is helpful for limited data scenarios, such as having labels for only 200 patients, which is common in medical applications.
翻訳日:2023-09-08 12:39:45 公開日:2023-09-07
# 動的・複雑なロボット動作計画のための表現学習と強化学習のハイブリッド

Hybrid of representation learning and reinforcement learning for dynamic and complex robotic motion planning ( http://arxiv.org/abs/2309.03758v1 )

ライセンス: Link先を確認
Chengmin Zhou, Xin Lu, Jiapeng Dai, Bingding Huang, Xiaoxu Liu, and Pasi Fr\"anti(参考訳) モーションプランニングはロボットの意思決定の魂である。 グラフ探索や反応に基づくアルゴリズムのような古典的な計画アルゴリズムは、密度と動的障害の場合に課題に直面している。 ディープラーニングアルゴリズムは、多くの衝突を引き起こす最適化された1段階の予測を生成する。 強化学習アルゴリズムは最適またはほぼ最適の時間系列予測を生成する。 しかし、それらは緩やかな収束、最適以下の収束結果、過度な適合に悩まされる。 本稿では,ロボット動作計画のためのハイブリッドアルゴリズムを提案する。長期記憶(LSTM)プーリングと,注意に基づく離散ソフトアクタ批判(LSA-DSAC)のためのスキップ接続である。 まず、グラフネットワーク(関係グラフ)とアテンションネットワーク(アテンション重み)が、離散的ソフトアクタ批判アルゴリズムの学習のための環境状態を解釈する。 注目ネットワークの表現力は、これらの2つの表現方法の差分解析により、タスクにおけるグラフの表現能力より優れる。 しかし、注意に基づくDSACは、トレーニングにおいて過度に適合する問題に直面している。 第2に、過剰適合を緩和し、収束速度を向上させるために、注目に基づくDSACにスキップ接続方式を統合する。 第3に、LSTMプーリングは注意重みの和演算子を置き換え、初期訓練時の収束速度をわずかに犠牲にすることで過度な適合をなくす。 実験の結果, LSA-DSACはトレーニングおよびほとんどの評価において, 最先端技術よりも優れていた。 物理ロボットは実世界でも実装され、テストされる。

Motion planning is the soul of robot decision making. Classical planning algorithms like graph search and reaction-based algorithms face challenges in cases of dense and dynamic obstacles. Deep learning algorithms generate suboptimal one-step predictions that cause many collisions. Reinforcement learning algorithms generate optimal or near-optimal time-sequential predictions. However, they suffer from slow convergence, suboptimal converged results, and overfittings. This paper introduces a hybrid algorithm for robotic motion planning: long short-term memory (LSTM) pooling and skip connection for attention-based discrete soft actor critic (LSA-DSAC). First, graph network (relational graph) and attention network (attention weight) interpret the environmental state for the learning of the discrete soft actor critic algorithm. The expressive power of attention network outperforms that of graph in our task by difference analysis of these two representation methods. However, attention based DSAC faces the overfitting problem in training. Second, the skip connection method is integrated to attention based DSAC to mitigate overfitting and improve convergence speed. Third, LSTM pooling is taken to replace the sum operator of attention weigh and eliminate overfitting by slightly sacrificing convergence speed at early-stage training. Experiments show that LSA-DSAC outperforms the state-of-the-art in training and most evaluations. The physical robot is also implemented and tested in the real world.
翻訳日:2023-09-08 12:39:07 公開日:2023-09-07
# TSGBench: 時系列生成ベンチマーク

TSGBench: Time Series Generation Benchmark ( http://arxiv.org/abs/2309.03755v1 )

ライセンス: Link先を確認
Yihao Ang, Qiang Huang, Yifan Bao, Anthony K. H. Tung, Zhiyong Huang(参考訳) 合成時系列生成(TSG)は、データ拡張、異常検出、プライバシー保護など、さまざまなアプリケーションにおいて重要である。 この分野では大きな進歩を遂げているが、既存の手法には3つの重要な制限がある。 2) 特殊合成データセットとプライベートデータセットの使用は、バイアスと一般化を阻害する。 (3) カスタムネットワークや下流タスクに結びついているあいまいな評価措置は、一貫性と公正な比較を妨げる。 これらの制約を克服するために,TSG手法の統一的かつ総合的な評価を目的とした最初のTSGベンチマークである \textsf{TSGBench} を導入する。 1)TSG用に最適化された実世界のデータセットと標準化された前処理パイプライン、(2)バニラ測度、新しい距離ベースアセスメント、可視化ツールを含む総合的な評価スイート、(3)ドメイン適応(DA)に根ざした先駆的な一般化テスト(DA)の3つのモジュールからなる。 様々な領域から10個の実世界のデータセットにまたがって大規模な実験を行い、10個の高度なTSG法と12個の評価尺度を用いた。 結果は、その顕著な有効性と一貫性を強調している。 さらに重要なことに、 \textsf{tsgbench} はメソッドのランキングを統計的に分解し、さまざまなデータセットや測定値のパフォーマンスのバリエーションを照らし出し、各メソッドの有効性に関する微妙な洞察を提供する。

Synthetic Time Series Generation (TSG) is crucial in a range of applications, including data augmentation, anomaly detection, and privacy preservation. Although significant strides have been made in this field, existing methods exhibit three key limitations: (1) They often benchmark against similar model types, constraining a holistic view of performance capabilities. (2) The use of specialized synthetic and private datasets introduces biases and hampers generalizability. (3) Ambiguous evaluation measures, often tied to custom networks or downstream tasks, hinder consistent and fair comparison. To overcome these limitations, we introduce \textsf{TSGBench}, the inaugural TSG Benchmark, designed for a unified and comprehensive assessment of TSG methods. It comprises three modules: (1) a curated collection of publicly available, real-world datasets tailored for TSG, together with a standardized preprocessing pipeline; (2) a comprehensive evaluation measures suite including vanilla measures, new distance-based assessments, and visualization tools; (3) a pioneering generalization test rooted in Domain Adaptation (DA), compatible with all methods. We have conducted extensive experiments across ten real-world datasets from diverse domains, utilizing ten advanced TSG methods and twelve evaluation measures, all gauged through \textsf{TSGBench}. The results highlight its remarkable efficacy and consistency. More importantly, \textsf{TSGBench} delivers a statistical breakdown of method rankings, illuminating performance variations across different datasets and measures, and offering nuanced insights into the effectiveness of each method.
翻訳日:2023-09-08 12:38:34 公開日:2023-09-07
# 分散ASGDの収束解析

Convergence Analysis of Decentralized ASGD ( http://arxiv.org/abs/2309.03754v1 )

ライセンス: Link先を確認
Mauro DL Tosi, Martin Theobald(参考訳) 過去数十年間、SGD(Stochastic Gradient Descent)は機械学習コミュニティによって集中的に研究されてきた。 汎用性と優れた性能にもかかわらず、SGDによる大規模モデルの最適化は依然として時間を要する作業である。 トレーニング時間を短縮するため、トレーニングプロセスを複数のデバイスに分散することが一般的である。 近年,非同期SGD(ASGD)の収束は常にミニバッチSGDよりも高速であることが示されている。 しかし、これらの理論的な境界の改善にもかかわらず、ほとんどのasgd収束率証明は依然として集中型パラメーターサーバに依存しており、多くの分散プロセスで勾配計算をスケールアウトするときにボトルネックになりがちである。 本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散および非同期SGD(DASGD)の収束速度解析について述べる。 具体的には、 DASGD の収束率に対して $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(QS_{avg}\epsilon^{-3/2}) + \mathcal{O}(S_{avg}\epsilon^{-1})$ のバウンダリを提供する。 さらに、勾配が有界でないとき、DASGD の収束速度を $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(\sqrt{\hat{S}_{avg}\hat{S}_{max}}\epsilon^{-1})$, with $\hat{S}_{max}$ および $\hat{S}_{avg}$ とすると、平均および最大スタルネスのゆるいバージョンを表す。 我々の収束証明は、固定階数および任意の非凸、同次、L-滑らかな目的函数を仮定する。 我々は,DASGDを研究者や開発者の広いコミュニティで採用する上で,当社の成果は高い妥当性を期待する。

Over the last decades, Stochastic Gradient Descent (SGD) has been intensively studied by the Machine Learning community. Despite its versatility and excellent performance, the optimization of large models via SGD still is a time-consuming task. To reduce training time, it is common to distribute the training process across multiple devices. Recently, it has been shown that the convergence of asynchronous SGD (ASGD) will always be faster than mini-batch SGD. However, despite these improvements in the theoretical bounds, most ASGD convergence-rate proofs still rely on a centralized parameter server, which is prone to become a bottleneck when scaling out the gradient computations across many distributed processes. In this paper, we present a novel convergence-rate analysis for decentralized and asynchronous SGD (DASGD) which does not require partial synchronization among nodes nor restrictive network topologies. Specifically, we provide a bound of $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(QS_{avg}\epsilon^{-3/2}) + \mathcal{O}(S_{avg}\epsilon^{-1})$ for the convergence rate of DASGD, where $S_{avg}$ is the average staleness between models, $Q$ is a constant that bounds the norm of the gradients, and $\epsilon$ is a (small) error that is allowed within the bound. Furthermore, when gradients are not bounded, we prove the convergence rate of DASGD to be $\mathcal{O}(\sigma\epsilon^{-2}) + \mathcal{O}(\sqrt{\hat{S}_{avg}\hat{S}_{max}}\epsilon^{-1})$, with $\hat{S}_{max}$ and $\hat{S}_{avg}$ representing a loose version of the average and maximum staleness, respectively. Our convergence proof holds for a fixed stepsize and any non-convex, homogeneous, and L-smooth objective function. We anticipate that our results will be of high relevance for the adoption of DASGD by a broad community of researchers and developers.
翻訳日:2023-09-08 12:37:55 公開日:2023-09-07
# クラスタ番号自動選択によるメドロイドシルエットクラスタリング

Medoid Silhouette clustering with automatic cluster number selection ( http://arxiv.org/abs/2309.03751v1 )

ライセンス: Link先を確認
Lars Lenssen and Erich Schubert(参考訳) クラスタリング結果の評価は困難であり、評価されたデータセットとbeholderの視点に大きく依存している。 クラスタリング結果を検証するための一般的な手段を提供しようとする、クラスタリングの品質測定方法には、さまざまなものがある。 非常に人気のある尺度はシルエットである。 効率的なメドロイドベースのシルエットの変種について議論し,その性質を理論的に解析し,直接最適化のために2つの高速バージョンを提供し,最適なクラスタ数を選択する方法について論じる。 我々は、オリジナルのSilhouetteのアイデアとよく知られたPAMアルゴリズムと、その最新の改良であるFasterPAMを組み合わせる。 バージョンの一つは元の変種と同じ結果を保証し、O(k^2)$のランスピードアップを提供する。 30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$\times$ Speedupが観測された。 さらに、最適なクラスタ数を直接選択するための変種も提供します。

The evaluation of clustering results is difficult, highly dependent on the evaluated data set and the perspective of the beholder. There are many different clustering quality measures, which try to provide a general measure to validate clustering results. A very popular measure is the Silhouette. We discuss the efficient medoid-based variant of the Silhouette, perform a theoretical analysis of its properties, provide two fast versions for the direct optimization, and discuss the use to choose the optimal number of clusters. We combine ideas from the original Silhouette with the well-known PAM algorithm and its latest improvements FasterPAM. One of the versions guarantees equal results to the original variant and provides a run speedup of $O(k^2)$. In experiments on real data with 30000 samples and $k$=100, we observed a 10464$\times$ speedup compared to the original PAMMEDSIL algorithm. Additionally, we provide a variant to choose the optimal number of clusters directly.
翻訳日:2023-09-08 12:37:06 公開日:2023-09-07
# PBP:自律走行のための経路に基づく軌道予測

PBP: Path-based Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2309.03750v1 )

ライセンス: Link先を確認
Sepideh Afshar, Nachiket Deo, Akshay Bhagat, Titas Chakraborty, Yunming Shao, Balarama Raju Buddharaju, Adwait Deshpande, Henggang Cui(参考訳) 軌道予測は、自動運転車が周囲のエージェントの動きを予測できるようにすることで、自動運転スタックにおいて重要な役割を果たす。 目標ベースの予測モデルは、将来の軌道のマルチモーダル性に対処するために近年注目を集めている。 ゴールベースの予測モデルは、エージェントの2次元目標位置を最初に予測し、各目標に条件付けられた軌道を予測することで、マルチモーダル予測を単純化する。 しかし、単一の2Dゴール位置は、軌道全体を予測するための弱い帰納バイアスとして機能し、しばしば地図コンプライアンスの貧弱、すなわち軌道の一部がオフロードまたは交通規則を破る原因となる。 本稿では,Path-based prediction(PBP)アプローチを提案することにより,目標に基づく予測を改善する。 pbpは、経路特徴を用いてhdマップ内の参照経路上の離散確率分布を予測し、経路関係フレネットフレームの軌跡を予測する。 我々は,HiVTシーンエンコーダ上にPBPトラジェクトリデコーダを適用し,Argoverseデータセットで結果を報告する。 実験の結果,PBPは標準軌跡予測指標の競争性能を向上する一方で,地図コンプライアンスの点で最先端のベースラインを著しく上回っていることがわかった。

Trajectory prediction plays a crucial role in the autonomous driving stack by enabling autonomous vehicles to anticipate the motion of surrounding agents. Goal-based prediction models have gained traction in recent years for addressing the multimodal nature of future trajectories. Goal-based prediction models simplify multimodal prediction by first predicting 2D goal locations of agents and then predicting trajectories conditioned on each goal. However, a single 2D goal location serves as a weak inductive bias for predicting the whole trajectory, often leading to poor map compliance, i.e., part of the trajectory going off-road or breaking traffic rules. In this paper, we improve upon goal-based prediction by proposing the Path-based prediction (PBP) approach. PBP predicts a discrete probability distribution over reference paths in the HD map using the path features and predicts trajectories in the path-relative Frenet frame. We applied the PBP trajectory decoder on top of the HiVT scene encoder and report results on the Argoverse dataset. Our experiments show that PBP achieves competitive performance on the standard trajectory prediction metrics, while significantly outperforming state-of-the-art baselines in terms of map compliance.
翻訳日:2023-09-08 12:36:48 公開日:2023-09-07
# 大規模言語モデルを用いたパイプラインベース会話エージェントの強化

Enhancing Pipeline-Based Conversational Agents with Large Language Models ( http://arxiv.org/abs/2309.03748v1 )

ライセンス: Link先を確認
Mina Foosherian, Hendrik Purwins, Purna Rathnayake, Touhidul Alam, Rui Teimao, Klaus-Dieter Thoben(参考訳) AIとディープラーニングの最近の進歩は、GPT-4のような大規模言語モデル(LLM)ベースのエージェントのブレークスルーにつながった。 しかし、多くの商用会話エージェント開発ツールはパイプラインベースであり、人間のような会話を保持するのに制限がある。 本稿では,パイプライン型対話エージェントを2段階に拡張するLLMの能力について検討する。 1) 設計・開発段階及び 2) 運用中。 院 1) LLMは, トレーニングデータの生成, 実体と同義語抽出, ローカライゼーション, ペルソナ設計を支援する。 院 2) LLMは, 文脈化, 意図分類, 会話のブレークダウンの防止, スコープ外質問の対処, 発話の自動修正, 回答の表現, 曖昧な質問の定式化, 要約, クローズドな質問応答機能の実現を支援できる。 プライベートバンキング分野におけるGPT-4による非公式な実験を行い,実例で実例を示した。 プライバシの懸念と、既存のエコシステム内での深い統合の必要性から、企業はパイプラインベースのエージェントをLLMに置き換えることをためらうかも知れません。 LLMをパイプラインベースのエージェントに統合するハイブリッドアプローチにより、既存のシステムの統合とプライバシ保護を維持しながら、LLMの能力を活用することで、エージェントの構築と実行の時間とコストを節約できる。

The latest advancements in AI and deep learning have led to a breakthrough in large language model (LLM)-based agents such as GPT-4. However, many commercial conversational agent development tools are pipeline-based and have limitations in holding a human-like conversation. This paper investigates the capabilities of LLMs to enhance pipeline-based conversational agents during two phases: 1) in the design and development phase and 2) during operations. In 1) LLMs can aid in generating training data, extracting entities and synonyms, localization, and persona design. In 2) LLMs can assist in contextualization, intent classification to prevent conversational breakdown and handle out-of-scope questions, auto-correcting utterances, rephrasing responses, formulating disambiguation questions, summarization, and enabling closed question-answering capabilities. We conducted informal experiments with GPT-4 in the private banking domain to demonstrate the scenarios above with a practical example. Companies may be hesitant to replace their pipeline-based agents with LLMs entirely due to privacy concerns and the need for deep integration within their existing ecosystems. A hybrid approach in which LLMs' are integrated into the pipeline-based agents allows them to save time and costs of building and running agents by capitalizing on the capabilities of LLMs while retaining the integration and privacy safeguards of their existing systems.
翻訳日:2023-09-08 12:36:27 公開日:2023-09-07
# FisheyePP4AV: 魚眼カメラ画像による自動運転車のプライバシー保護手法

FisheyePP4AV: A privacy-preserving method for autonomous vehicles on fisheye camera images ( http://arxiv.org/abs/2309.03799v1 )

ライセンス: Link先を確認
Linh Trinh, Bach Ha, Tu Tran(参考訳) 世界の多くの地域では、自動運転車のための公道で収集された膨大なデータの利用が増加している。 実際の走行シナリオで歩行者の顔や近くの車のナンバープレートを検出し、匿名化するために、効果的な解決策が急務である。 より多くのデータが収集されるにつれて、歩行者の顔や周囲の車両ナンバープレートを含むプライバシーに関する懸念が高まる。 通常と魚眼カメラは、通常、収集車に搭載される2種類の一般的なカメラである。 複雑なカメラ歪みモデルでは、魚眼カメラ画像は通常の画像とは対照的に変形した。 多数のディープラーニングモデルを使用すると、コンピュータビジョンタスクのパフォーマンスが低下する。 この研究では、プライバシ保護に特に注意を払っていますが、無人運転車によって撮影された魚眼カメラ写真のいくつかの法律に固執しています。 まず,複数の教師モデルから顔と板の識別知識を抽出する枠組みを提案する。 2つ目の提案は、画像とラベルの両方を通常の画像から魚眼のようなデータに変換することである。 最後に、オープンソースのPP4AVデータセットを用いてテストを実行する。 実験結果から,データにソフトラベルを付けた場合でも,自動運転車のデータに基づいてトレーニングを行った場合,モデルがベースライン法よりも優れていた。 実装コードは、github.com/khaclinh/FisheyePP4AV.comで利用可能です。

In many parts of the world, the use of vast amounts of data collected on public roadways for autonomous driving has increased. In order to detect and anonymize pedestrian faces and nearby car license plates in actual road-driving scenarios, there is an urgent need for effective solutions. As more data is collected, privacy concerns regarding it increase, including but not limited to pedestrian faces and surrounding vehicle license plates. Normal and fisheye cameras are the two common camera types that are typically mounted on collection vehicles. With complex camera distortion models, fisheye camera images were deformed in contrast to regular images. It causes computer vision tasks to perform poorly when using numerous deep learning models. In this work, we pay particular attention to protecting privacy while yet adhering to several laws for fisheye camera photos taken by driverless vehicles. First, we suggest a framework for extracting face and plate identification knowledge from several teacher models. Our second suggestion is to transform both the image and the label from a regular image to fisheye-like data using a varied and realistic fisheye transformation. Finally, we run a test using the open-source PP4AV dataset. The experimental findings demonstrated that our model outperformed baseline methods when trained on data from autonomous vehicles, even when the data were softly labeled. The implementation code is available at our github: https://github.com/khaclinh/FisheyePP4AV.
翻訳日:2023-09-08 12:30:28 公開日:2023-09-07
# 共形自己回帰生成:カバレッジ保証付きビーム探索

Conformal Autoregressive Generation: Beam Search with Coverage Guarantees ( http://arxiv.org/abs/2309.03797v1 )

ライセンス: Link先を確認
Nicolas Deutschmann, Marvin Alberts, Mar\'ia Rodr\'iguez Mart\'inez(参考訳) 本稿では,コンフォメーション予測(cp)に基づくビーム探索アルゴリズムの新たな拡張を2つ導入し,理論的カバレッジ保証付きシーケンス群を作成する。 最初の方法は極めて単純で、ビーム検索結果の動的サイズのサブセットを提案するが、通常のcpプロシージャとは異なり、ポストホックキャリブレーションの尺度に応じて達成可能な保証の上界を持つ。 第2のアルゴリズムでは,共形集合予測手順を復号処理の一部として導入し,電流の不確かさに適応する可変ビーム幅を生成する。 この手順はより複雑だが、事前に選択したカバレッジ保証を達成することができる。 本研究では,各手法の限界被覆境界を提供し,自然言語処理や化学から引き出されたタスクの選択を実証的に評価する。

We introduce two new extensions to the beam search algorithm based on conformal predictions (CP) to produce sets of sequences with theoretical coverage guarantees. The first method is very simple and proposes dynamically-sized subsets of beam search results but, unlike typical CP procedures, has an upper bound on the achievable guarantee depending on a post-hoc calibration measure. Our second algorithm introduces the conformal set prediction procedure as part of the decoding process, producing a variable beam width which adapts to the current uncertainty. While more complex, this procedure can achieve coverage guarantees selected a priori. We provide marginal coverage bounds for each method, and evaluate them empirically on a selection of tasks drawing from natural language processing and chemistry.
翻訳日:2023-09-08 12:30:07 公開日:2023-09-07
# 駆動超流動における持続的正方形パターンの自発的形成

Spontaneous formation of persistent square pattern in a driven superfluid ( http://arxiv.org/abs/2309.03792v1 )

ライセンス: Link先を確認
Nikolas Liebster, Marius Sparn, Elinor Kath, Keisuke Fujii, Sarah G\"orlitz, Tilman Enss, Helmut Strobel, Markus K. Oberthaler(参考訳) 単純な物理法則からのパターンの出現は、自然科学で最も顕著なトピックである。 特に、初期均質状態から構造が自発的に形成されることは、最終的には安定で非均質な物質の状態につながる。 ここでは, 吸収境界を持つ2次元ボックスポテンシャルに閉じ込められた回転対称で駆動されたボース・アインシュタイン凝縮体における正方格子パターンの自然形成について報告する。 この2粒子相互作用を周期的に周期的に変調して駆動を実現する。 ファラデー不安定の結果として出現するランダム配向ストライプの一次位相の後、フォノン-フォノン相互作用が関係する高度に占有された状態において、続く正方格子パターンの形成を観察する。 理論的には、この状態は結合非線形振幅方程式の魅力的な不動点として解釈できる。 この固定点の存在を確立することは、駆動超流体中の物質の新しい高相関状態の工学的視点を開く。

The emergence of patterns from simple physical laws belongs to the most striking topics in natural science. In particular, the spontaneous formation of structures from an initially homogeneous state can eventually lead to stable, non-homogeneous states of matter. Here we report on the spontaneous formation of square lattice patterns in a rotationally symmetric and driven Bose-Einstein condensate, confined in a two-dimensional box potential with absorptive boundaries. The drive is realized by globally modulating the two-particle interaction periodically in time. After a primary phase of randomly oriented stripes that emerge as a consequence of the Faraday instability, we observe the subsequent formation of persistent square lattice patterns in the highly occupied regime, where phonon-phonon interactions become relevant. We show theoretically that this state can be understood as an attractive fixed point of coupled nonlinear amplitude equations. Establishing the existence of this fixed point opens the perspective for engineering new, highly correlated states of matter in driven superfluids.
翻訳日:2023-09-08 12:29:54 公開日:2023-09-07
# 最適トランスポート型分岐器を用いた逆ロバスト深層学習

Adversarially Robust Deep Learning with Optimal-Transport-Regularized Divergences ( http://arxiv.org/abs/2309.03791v1 )

ライセンス: Link先を確認
Jeremiah Birrell, Mohammadreza Ebrahimi(参考訳) 我々は、ディープラーニングモデルの対角的堅牢性を高める新しいアプローチとして、$ARMOR_D$メソッドを紹介した。 これらの手法は,情報ばらつきと最適輸送(OT)コストの不完全な畳み込みによって構築された,新しい最適輸送規則分岐のクラスに基づいている。 我々はこれらを,分布近傍での期待損失を最大化することにより,対向ロバスト性を高めるツールとして利用する。 本手法は, 対向サンプル構築のためのツールとして, OTコストに応じて試料を輸送し, 情報ばらつきに応じて再重み付けを行う。 本手法がマルウェア検出および画像認識アプリケーションに与える影響を実証し,我々の知る限り,敵攻撃に対するロバスト性を高めるために既存の手法よりも優れていることを示す。 armor_d$は、mnistデータセットで$fgsm$に対して$8.29\%$、mnistデータセットで$pgd^{40}$に対して$8.18\%の堅牢化精度を与え、以前の方法と比較してそれぞれ$19.7\%$と$37.2\%のエラー率を減少させる。 同様に、マルウェア検出において、離散(バイナリ)データドメインである$ARMOR_D$は、以前の最高のパフォーマンスの訓練手法に比べて$rFGSM^{50}$攻撃による堅牢化精度を37.0\%$で、偽陰性および偽陽性率は511.1\%$と57.53\%$で下げる。

We introduce the $ARMOR_D$ methods as novel approaches to enhancing the adversarial robustness of deep learning models. These methods are based on a new class of optimal-transport-regularized divergences, constructed via an infimal convolution between an information divergence and an optimal-transport (OT) cost. We use these as tools to enhance adversarial robustness by maximizing the expected loss over a neighborhood of distributions, a technique known as distributionally robust optimization. Viewed as a tool for constructing adversarial samples, our method allows samples to be both transported, according to the OT cost, and re-weighted, according to the information divergence. We demonstrate the effectiveness of our method on malware detection and image recognition applications and find that, to our knowledge, it outperforms existing methods at enhancing the robustness against adversarial attacks. $ARMOR_D$ yields the robustified accuracy of $98.29\%$ against $FGSM$ and $98.18\%$ against $PGD^{40}$ on the MNIST dataset, reducing the error rate by more than $19.7\%$ and $37.2\%$ respectively compared to prior methods. Similarly, in malware detection, a discrete (binary) data domain, $ARMOR_D$ improves the robustified accuracy under $rFGSM^{50}$ attack compared to the previous best-performing adversarial training methods by $37.0\%$ while lowering false negative and false positive rates by $51.1\%$ and $57.53\%$, respectively.
翻訳日:2023-09-08 12:29:37 公開日:2023-09-07
# 効率的なデコイ状態解析によるパイロット参照フリー連続可変量子鍵分布

Pilot-reference-free continuous-variable quantum key distribution with efficient decoy-state analysis ( http://arxiv.org/abs/2309.03789v1 )

ライセンス: Link先を確認
Anran Jin, Xingjian Zhang, Liang Jiang, Richard V. Penty, and Pei Zeng(参考訳) 光コヒーレント検出器を用いた連続可変量子鍵分布(CV QKD)は、実装コストの低減、波長分割多重化の柔軟性、標準コヒーレント通信技術との互換性などにより、事実上好ましい。 しかし、CV QKDのセキュリティ解析とパラメータ推定は無限次元の潜在ヒルベルト空間のために複雑である。 また、強い基準パルスの伝達は、セキュリティを損なわせ、実験を複雑にする。 本研究では,一般的なコヒーレント攻撃下で有効な単純な位相誤差に基づくセキュリティ解析を用いて,時間ビンエンコーディングcvプロトコルを提案することで,この2つの課題に対処した。 鍵を2つの光モード間の相対強度に符号化することで、グローバル参照の必要性は排除される。 さらに、異なる光子数成分のセキュリティ解析を分離するために位相ランダム化を導入することができる。 従って、各ラウンドのフォトン番号をタグ付けし、慎重に設計されたコヒーレント検出法を用いて、関連するプライバシを効果的に推定し、各コンポーネントから暗号化キーを独立に抽出することができる。 シミュレーションにより、マルチフォトン成分を用いるプロトコルは、シングルフォトン成分のみを使用するプロトコルに比べて、キーレートが2桁大きくなることが示された。 一方、4強度のデコイ解析を持つプロトコルは、ベネット・ブラッサード-1984の実装に匹敵する短距離鍵レート性能を持つタイトパラメータ推定に十分である。

Continuous-variable quantum key distribution (CV QKD) using optical coherent detectors is practically favorable due to its low implementation cost, flexibility of wavelength division multiplexing, and compatibility with standard coherent communication technologies. However, the security analysis and parameter estimation of CV QKD are complicated due to the infinite-dimensional latent Hilbert space. Also, the transmission of strong reference pulses undermines the security and complicates the experiments. In this work, we tackle these two problems by presenting a time-bin-encoding CV protocol with a simple phase-error-based security analysis valid under general coherent attacks. With the key encoded into the relative intensity between two optical modes, the need for global references is removed. Furthermore, phase randomization can be introduced to decouple the security analysis of different photon-number components. We can hence tag the photon number for each round, effectively estimate the associated privacy using a carefully designed coherent-detection method, and independently extract encryption keys from each component. Simulations manifest that the protocol using multi-photon components increases the key rate by two orders of magnitude compared to the one using only the single-photon component. Meanwhile, the protocol with four-intensity decoy analysis is sufficient to yield tight parameter estimation with a short-distance key-rate performance comparable to the best Bennett-Brassard-1984 implementation.
翻訳日:2023-09-08 12:29:00 公開日:2023-09-07
# USA: ユニバーサル感性分析モデルと日本語感性テキスト分類の構築と音声データセットの一部

USA: Universal Sentiment Analysis Model & Construction of Japanese Sentiment Text Classification and Part of Speech Dataset ( http://arxiv.org/abs/2309.03787v1 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, Tatsunori Mori(参考訳) 感性分析は自然言語処理の領域において重要な課題である。 テキストレベルの感情極性分類と単語レベルの音声(POS)の感情極性決定の両方を包含する。 このような分析は、曖昧な情報を抽出しながら、テキストを水平に理解するモデルに挑戦する。 大規模言語モデル(llm)の台頭に伴い、感情分析のための新しい道が開かれた。 本稿では,個々の単語とテキスト全体の相互強化効果(MRE)を活用することで,パフォーマンスの向上を提案する。 言葉の極性が通路の全体的感情にどのように影響するかを掘り下げる。 本研究を支援するために,既存の感情分類データセットに基づいて,4つの新しい感性テキスト分類と音声の一部(SCPOS)データセットを注釈付けした。 さらに,7ビリオンのパラメータサイズを持つユニバーサル感性分析(USA)モデルを開発した。 実験結果から, 感情分析におけるMREの重要性を実証し, gpt-3.5-turboの性能を4つのデータセットすべてで上回った。

Sentiment analysis is a pivotal task in the domain of natural language processing. It encompasses both text-level sentiment polarity classification and word-level Part of Speech(POS) sentiment polarity determination. Such analysis challenges models to understand text holistically while also extracting nuanced information. With the rise of Large Language Models(LLMs), new avenues for sentiment analysis have opened. This paper proposes enhancing performance by leveraging the Mutual Reinforcement Effect(MRE) between individual words and the overall text. It delves into how word polarity influences the overarching sentiment of a passage. To support our research, we annotated four novel Sentiment Text Classification and Part of Speech(SCPOS) datasets, building upon existing sentiment classification datasets. Furthermore, we developed a Universal Sentiment Analysis(USA) model, with a 7-billion parameter size. Experimental results revealed that our model surpassed the performance of gpt-3.5-turbo across all four datasets, underscoring the significance of MRE in sentiment analysis.
翻訳日:2023-09-08 12:28:38 公開日:2023-09-07
# 時間エンコーディングに基づく深層強化学習による組込みデバイス上でのリアルタイムアプリケーションのcpu周波数スケジューリング

CPU frequency scheduling of real-time applications on embedded devices with temporal encoding-based deep reinforcement learning ( http://arxiv.org/abs/2309.03779v1 )

ライセンス: Link先を確認
Ti Zhou and Man Lin(参考訳) 小型デバイスは、ソフトデッドラインで周期的な専用のタスクを実行するために、IoTやスマートシティアプリケーションで頻繁に使用される。 本研究は,小型デバイス上での周期的タスクに対する効率的な電力管理手法の開発に焦点をあてる。 まず,小型デバイスで使用する既存のlinux組み込みメソッドの制限について検討した。 Linuxの組み込みソリューションでは管理が難しい3つの典型的なワークロード/システムパターンを説明します。 我々は,3つのシステムパターンが存在する場合でも,効果的なDVFS知事を導き出すために,時間エンコーディングを用いた強化学習ベースの手法を開発した。 派生したガウンジは、組み込みLinuxメカニズムと同じ1つのパフォーマンスカウンタしか使用せず、ワークロードに対して明示的なタスクモデルを必要としない。 Nvidia Jetson Nano Boardにプロトタイプシステムを実装し,2つの自設計と4つのベンチマークアプリケーションを含む6つのアプリケーションで実験を行った。 異なる期限制約の下では、我々のアプローチは、パフォーマンス要件に適応し、省エネの組込みLinuxアプローチより優れたDVFSの知事を迅速に導き出すことができる。 Mibenchのワークロードでは、パフォーマンスが0.04秒から0.4秒の範囲で、Ondemandに比べて3%から11%のエネルギーを節約できる。 audioregとfaceregのアプリケーションは5%から14%の省エネ改善がある。 我々はカーネル内量子化ニューラルネットワークエンジンの実装をオープンソースにした。 コードベースは、https://github.com/coladog/tinyagent.com/で確認できる。

Small devices are frequently used in IoT and smart-city applications to perform periodic dedicated tasks with soft deadlines. This work focuses on developing methods to derive efficient power-management methods for periodic tasks on small devices. We first study the limitations of the existing Linux built-in methods used in small devices. We illustrate three typical workload/system patterns that are challenging to manage with Linux's built-in solutions. We develop a reinforcement-learning-based technique with temporal encoding to derive an effective DVFS governor even with the presence of the three system patterns. The derived governor uses only one performance counter, the same as the built-in Linux mechanism, and does not require an explicit task model for the workload. We implemented a prototype system on the Nvidia Jetson Nano Board and experimented with it with six applications, including two self-designed and four benchmark applications. Under different deadline constraints, our approach can quickly derive a DVFS governor that can adapt to performance requirements and outperform the built-in Linux approach in energy saving. On Mibench workloads, with performance slack ranging from 0.04 s to 0.4 s, the proposed method can save 3% - 11% more energy compared to Ondemand. AudioReg and FaceReg applications tested have 5%- 14% energy-saving improvement. We have open-sourced the implementation of our in-kernel quantized neural network engine. The codebase can be found at: https://github.com/coladog/tinyagent.
翻訳日:2023-09-08 12:28:24 公開日:2023-09-07
# 運転自動知覚におけるディープラーニングの安全性問題

Deep Learning Safety Concerns in Automated Driving Perception ( http://arxiv.org/abs/2309.03774v1 )

ライセンス: Link先を確認
Stephanie Abrecht, Alexander Hirsch, Shervin Raafatnia, Matthias Woehrle(参考訳) ディープラーニングの分野における最近の進歩と、知覚のためのディープニューラルネットワーク(dnn)の印象的なパフォーマンスにより、自動運転(ad)システムへの需要が高まっている。 このようなシステムの安全性は極めて重要であるため、DNNのユニークな特性を考慮する必要がある。 系統的かつ包括的アプローチでDNNに基づく認識コンポーネントを用いたADシステムの安全性を実現するために,いわゆる安全懸念が適切な構造要素として導入されている。 一方、安全上の懸念という概念は、ISO 21448(SOTIF)のようなADシステムの安全性に関する既存の標準によく適合している。 一方、すでにいくつかの学術出版物や、ISO PAS 8800のようなAI安全性に関する今後の標準に触発されている。 安全に関する概念は以前から紹介されてきたが,本論文では,様々な分野の専門家や安全専門家からのフィードバックを活用して,その拡張と改良を行っている。 特に,クロスファンクショナルなチームによる関心事への対処を可能にするとともに,理解を深めるための新たな分類を導入する。

Recent advances in the field of deep learning and impressive performance of deep neural networks (DNNs) for perception have resulted in an increased demand for their use in automated driving (AD) systems. The safety of such systems is of utmost importance and thus requires to consider the unique properties of DNNs. In order to achieve safety of AD systems with DNN-based perception components in a systematic and comprehensive approach, so-called safety concerns have been introduced as a suitable structuring element. On the one hand, the concept of safety concerns is -- by design -- well aligned to existing standards relevant for safety of AD systems such as ISO 21448 (SOTIF). On the other hand, it has already inspired several academic publications and upcoming standards on AI safety such as ISO PAS 8800. While the concept of safety concerns has been previously introduced, this paper extends and refines it, leveraging feedback from various domain and safety experts in the field. In particular, this paper introduces an additional categorization for a better understanding as well as enabling cross-functional teams to jointly address the concerns.
翻訳日:2023-09-08 12:28:00 公開日:2023-09-07
# 帰納的論理関係推論のための帰納的知識グラフ埋め込みモデルの拡張

Extending Transductive Knowledge Graph Embedding Models for Inductive Logical Relational Inference ( http://arxiv.org/abs/2309.03773v1 )

ライセンス: Link先を確認
Thomas Gebhart and John Cobb(参考訳) 知識グラフに対する多くの下流推論タスク、例えば関係予測は、トランスダクティブセッティングにおける知識グラフ埋め込み技術によってうまく処理されてきた。 推論時に知識グラフに新しいエンティティが導入された帰納的設定に対処するため、より最近の研究は、グラフニューラルネットワークアーキテクチャによってしばしばパラメータ化されるネットワークのサブグラフ構造の複雑な関数を通して知識グラフの暗黙的な表現を学ぶモデルを選択する。 これらはパラメトリゼーションの増加、解釈可能性の低減、他の下流の推論タスクへの一般化の制限といったコストを伴っている。 本稿では,従来の帰納的知識グラフ埋め込みアプローチと,より最近の帰納的関係予測モデルとのギャップを橋渡しし,帰納的埋め込み法で学習した表現を帰納的設定のように推論時に導入された新しい実体の表現を推論するために活用する調和拡張の一般化形式を導入する。 この高調波拡張手法は、そのような最適近似を提供し、効率的な反復スキームによって実装することができ、知識グラフ上の連結論理的クエリの族に答えることができ、さらにトランスダクティブ埋め込み法の能力を拡大することができる。 大規模ナレッジグラフ埋め込みベンチマーク実験では,知識グラフ補完と論理クエリをインダクティブ設定で実行するために,トランスダクティブナレッジグラフ埋め込みモデルの機能を拡張するためのこのアプローチが,そのインダクティブなタスクで明示的に導出される最先端モデルよりも優れており,いくつかのシナリオでは競合していることがわかった。

Many downstream inference tasks for knowledge graphs, such as relation prediction, have been handled successfully by knowledge graph embedding techniques in the transductive setting. To address the inductive setting wherein new entities are introduced into the knowledge graph at inference time, more recent work opts for models which learn implicit representations of the knowledge graph through a complex function of a network's subgraph structure, often parametrized by graph neural network architectures. These come at the cost of increased parametrization, reduced interpretability and limited generalization to other downstream inference tasks. In this work, we bridge the gap between traditional transductive knowledge graph embedding approaches and more recent inductive relation prediction models by introducing a generalized form of harmonic extension which leverages representations learned through transductive embedding methods to infer representations of new entities introduced at inference time as in the inductive setting. This harmonic extension technique provides the best such approximation, can be implemented via an efficient iterative scheme, and can be employed to answer a family of conjunctive logical queries over the knowledge graph, further expanding the capabilities of transductive embedding methods. In experiments on a number of large-scale knowledge graph embedding benchmarks, we find that this approach for extending the functionality of transductive knowledge graph embedding models to perform knowledge graph completion and answer logical queries in the inductive setting is competitive with--and in some scenarios outperforms--several state-of-the-art models derived explicitly for such inductive tasks.
翻訳日:2023-09-08 12:27:44 公開日:2023-09-07
# neural lasso:lassoとニューラルネットワークの統一的アプローチ

Neural lasso: a unifying approach of lasso and neural networks ( http://arxiv.org/abs/2309.03770v1 )

ライセンス: Link先を確認
David Delgado, Ernesto Curbelo, Danae Carreras(参考訳) 近年、両方のアプローチの利点を得るために、統計学と機械学習の分野に起因した技術を組み合わせることへの関心が高まっている。 本稿では,変数選択のための統計的手法であるLassoをニューラルネットワークで表現する。 統計的アプローチとニューラルバージョンは同じ目的関数を持つが、最適化によって異なることが観察されている。 特に、神経バージョンは1つの検証セットを使用して1ステップで最適化されるのに対し、統計バージョンはクロスバリデーションに基づく2ステップの最適化を使用する。 統計的手法のより精巧な最適化は、特にトレーニングセットが小さい場合、より正確なパラメータ推定をもたらす。 このため、統計的枠組みを模倣したニューラルネットワークのトレーニングのための標準アプローチの修正が提案されている。 上記の修正の過程で、重要な変数を識別する新しい最適化アルゴリズムが登場した。 合成および実データを用いた実験の結果, この最適化アルゴリズムは, 従来の3つの最適化手法のどれよりも優れた性能を実現することがわかった。

In recent years, there is a growing interest in combining techniques attributed to the areas of Statistics and Machine Learning in order to obtain the benefits of both approaches. In this article, the statistical technique lasso for variable selection is represented through a neural network. It is observed that, although both the statistical approach and its neural version have the same objective function, they differ due to their optimization. In particular, the neural version is usually optimized in one-step using a single validation set, while the statistical counterpart uses a two-step optimization based on cross-validation. The more elaborated optimization of the statistical method results in more accurate parameter estimation, especially when the training set is small. For this reason, a modification of the standard approach for training neural networks, that mimics the statistical framework, is proposed. During the development of the above modification, a new optimization algorithm for identifying the significant variables emerged. Experimental results, using synthetic and real data sets, show that this new optimization algorithm achieves better performance than any of the three previous optimization approaches.
翻訳日:2023-09-08 12:27:16 公開日:2023-09-07
# ArtHDR-Net:知覚的にリアルで正確なHDRコンテンツ作成

ArtHDR-Net: Perceptually Realistic and Accurate HDR Content Creation ( http://arxiv.org/abs/2309.03827v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua, Ganesh Krishnasamy, KokSheik Wong, Kalin Stefanov, Abhinav Dhall(参考訳) ハイダイナミックレンジ(HDR)コンテンツ制作は、現代メディアやエンターテイメント、ゲーム、拡張現実産業にとって重要なトピックとなっている。 単一露光または多露光LDRを入力した低ダイナミックレンジ(LDR)画像/ビデオのHDR対応を再現する多くの手法が提案されている。 最先端の手法は、主に再構成の構造的類似性とピクセルの精度の保存に焦点を当てている。 しかし、これらの従来のアプローチは、メディア、エンターテイメント、ゲームにおいて不可欠な要素である人間の視覚知覚の観点から、イメージの芸術的意図を保ち続けることを強調しない。 本稿では,このギャップを解明し,埋めようとしている。 マルチ露光LDR特徴を入力として利用する畳み込みニューラルネットワークに基づくArtHDR-Netアーキテクチャを提案する。 実験結果から,ArtHDR-Netは,PSNRとSSIMの両面での競争性能を保ちながら,HDR-VDP-2スコア(平均スコア指数)で最先端のパフォーマンスを達成できることが示された。

High Dynamic Range (HDR) content creation has become an important topic for modern media and entertainment sectors, gaming and Augmented/Virtual Reality industries. Many methods have been proposed to recreate the HDR counterparts of input Low Dynamic Range (LDR) images/videos given a single exposure or multi-exposure LDRs. The state-of-the-art methods focus primarily on the preservation of the reconstruction's structural similarity and the pixel-wise accuracy. However, these conventional approaches do not emphasize preserving the artistic intent of the images in terms of human visual perception, which is an essential element in media, entertainment and gaming. In this paper, we attempt to study and fill this gap. We propose an architecture called ArtHDR-Net based on a Convolutional Neural Network that uses multi-exposed LDR features as input. Experimental results show that ArtHDR-Net can achieve state-of-the-art performance in terms of the HDR-VDP-2 score (i.e., mean opinion score index) while reaching competitive performance in terms of PSNR and SSIM.
翻訳日:2023-09-08 12:18:48 公開日:2023-09-07
# 素数学習と変調学習:署名付きバックプロパゲーションと環境条件を用いた前方モデルの生成

Prime and Modulate Learning: Generation of forward models with signed back-propagation and environmental cues ( http://arxiv.org/abs/2309.03825v1 )

ライセンス: Link先を確認
Sama Daryanavard, Bernd Porr(参考訳) 学習にエラーバックプロパゲーションを用いるディープニューラルネットワークは、勾配問題の爆発と消失に苦しむことがある。 正規化技術や線形整流ユニットへの活性化関数の制限など、多くの解が提案されている。 本研究では,特に前方モデルの閉ループ学習において,後方伝搬が学習の素数化にエラー信号の符号を排他的に用いながら,グローバル関連信号が学習率を変調するアプローチを踏襲する。 これは局所可塑性とグローバルニューロモジュレーションの相互作用に触発されたものである。 例えば、空の道路を運転している間は、アクションのステップワイズを遅くすることができるが、忙しい交差点では、エラーを一度に修正する必要がある。 したがって、誤差はプライミング信号であり、経験の強度は重量変化の変調因子である。 このPrime and Modulateパラダイムの利点は2つあります。正規化が不要で、学習を豊かにするために環境から関連する手がかりを活用しています。 本稿では,z空間における学習則を数学的に導出し,ロボットプラットフォームを用いた実時間性能を示す。 その結果,従来のバックプロパゲーションに比べて収束速度が大幅に向上した。

Deep neural networks employing error back-propagation for learning can suffer from exploding and vanishing gradient problems. Numerous solutions have been proposed such as normalisation techniques or limiting activation functions to linear rectifying units. In this work we follow a different approach which is particularly applicable to closed-loop learning of forward models where back-propagation makes exclusive use of the sign of the error signal to prime the learning, whilst a global relevance signal modulates the rate of learning. This is inspired by the interaction between local plasticity and a global neuromodulation. For example, whilst driving on an empty road, one can allow for slow step-wise optimisation of actions, whereas, at a busy junction, an error must be corrected at once. Hence, the error is the priming signal and the intensity of the experience is a modulating factor in the weight change. The advantages of this Prime and Modulate paradigm is twofold: it is free from normalisation and it makes use of relevant cues from the environment to enrich the learning. We present a mathematical derivation of the learning rule in z-space and demonstrate the real-time performance with a robotic platform. The results show a significant improvement in the speed of convergence compared to that of the conventional back-propagation.
翻訳日:2023-09-08 12:18:30 公開日:2023-09-07
# 逐次凍結とランク量子化を用いた低ランク分解ネットワークの学習促進

Training Acceleration of Low-Rank Decomposed Networks using Sequential Freezing and Rank Quantization ( http://arxiv.org/abs/2309.03824v1 )

ライセンス: Link先を確認
Habib Hajimolahoseini and Walid Ahmed and Yang Liu(参考訳) 低ランク分解 (LRD) は、訓練可能なパラメータの数と計算複雑性を減らすために、ディープラーニングモデルの重みテンソルに適用されるモデル圧縮技術である。 しかし, LRDの適用後, アーキテクチャに新たなレイヤが加わったため, 分解ランクが十分に小さくなければ, トレーニング/推論の高速化には至らない可能性がある。 問題は、分解後の精度低下のリスクが小さくなることである。 本稿では,分解に小さな階数を用いることなく,低階分解モデルを促進する2つの手法を提案する。 これらの方法は、ランク最適化と分解層の逐次凍結を含む。 畳み込みモデルと変圧器モデルの両方で実験を行う。 実験によれば、これらの手法はトレーニング中のモデルのスループットを60%まで向上させ、推論時に37%を結合し、元のモデルに近い精度を保つことができる。

Low Rank Decomposition (LRD) is a model compression technique applied to the weight tensors of deep learning models in order to reduce the number of trainable parameters and computational complexity. However, due to high number of new layers added to the architecture after applying LRD, it may not lead to a high training/inference acceleration if the decomposition ranks are not small enough. The issue is that using small ranks increases the risk of significant accuracy drop after decomposition. In this paper, we propose two techniques for accelerating low rank decomposed models without requiring to use small ranks for decomposition. These methods include rank optimization and sequential freezing of decomposed layers. We perform experiments on both convolutional and transformer-based models. Experiments show that these techniques can improve the model throughput up to 60% during training and 37% during inference when combined together while preserving the accuracy close to that of the original models
翻訳日:2023-09-08 12:18:09 公開日:2023-09-07
# 変動のない損失に対する経験的リスク最小化

Empirical Risk Minimization for Losses without Variance ( http://arxiv.org/abs/2309.03818v1 )

ライセンス: Link先を確認
Guanhua Fang, Ping Li, Gennady Samorodnitsky(参考訳) 本稿では,データに有限分散性はないが,$p \in (1,2)$ で$p$-th のモーメントしか持たない重み付き設定下での経験的リスク最小化問題を考える。 トランケートされた観測データに基づいて推定を行う代わりに,リスク値の最小化によりオプティマイザを選択する。 これらのリスク値は、markive catoni's method (catoni, 2012)を用いてロバストに推定できる。 カタニ型影響関数の構造により、一般化されたジェネリック連鎖法を用いて過剰リスク上限を確立することができる。 さらに,計算問題を考慮に入れている。 特に,ロバスト勾配降下アルゴリズムと経験的リスクベース手法の2つの最適化手法について理論的に検討した。 広範な数値研究により,カトーニ型推定による経験的リスクに基づくオプティマイザが,他のベースラインよりも優れた性能を示すことがわかった。 断続データに基づく推定は不満足な結果につながる可能性がある。

This paper considers an empirical risk minimization problem under heavy-tailed settings, where data does not have finite variance, but only has $p$-th moment with $p \in (1,2)$. Instead of using estimation procedure based on truncated observed data, we choose the optimizer by minimizing the risk value. Those risk values can be robustly estimated via using the remarkable Catoni's method (Catoni, 2012). Thanks to the structure of Catoni-type influence functions, we are able to establish excess risk upper bounds via using generalized generic chaining methods. Moreover, we take computational issues into consideration. We especially theoretically investigate two types of optimization methods, robust gradient descent algorithm and empirical risk-based methods. With an extensive numerical study, we find that the optimizer based on empirical risks via Catoni-style estimation indeed shows better performance than other baselines. It indicates that estimation directly based on truncated data may lead to unsatisfactory results.
翻訳日:2023-09-08 12:17:54 公開日:2023-09-07
# T2IW:画像と透かし生成のための共同テキスト

T2IW: Joint Text to Image & Watermark Generation ( http://arxiv.org/abs/2309.03815v1 )

ライセンス: Link先を確認
An-An Liu, Guokai Zhang, Yuting Su, Ning Xu, Yongdong Zhang, and Lanjun Wang(参考訳) テキスト条件画像生成モデルの最近の発展は、現実的な結果の生成に革命をもたらした。 残念ながら、これはプライバシー侵害の増加と偽情報の拡散につながっており、トレーサビリティ、プライバシー保護、その他のセキュリティ対策を必要としている。 しかし、既存のテキストから画像へのパラダイムには、トレース可能なメッセージを画像生成とリンクする技術的能力が欠けている。 本研究では,画像と透かし(T2IW)に共同でテキストを生成するための新しいタスクを提案する。 このt2iw方式は、意味的特徴と透かし信号とを画素で互換性を持たせ、複合画像を生成する際の画質の低下を最小限に抑える。 さらに,シャノン情報理論と非協調ゲーム理論の原理を利用することで,画像と透かしを複合画像から分離することができる。 さらに, 複写画像に様々な後処理攻撃を施すことにより, 提案手法の透かしの堅牢性を高め, 露呈した透かしに最小の画素歪みを観測した。 画像品質,透かしの可視性,透かしのロバスト性などにおいて,提案する評価指標を用いて広範な実験を行った。

Recent developments in text-conditioned image generative models have revolutionized the production of realistic results. Unfortunately, this has also led to an increase in privacy violations and the spread of false information, which requires the need for traceability, privacy protection, and other security measures. However, existing text-to-image paradigms lack the technical capabilities to link traceable messages with image generation. In this study, we introduce a novel task for the joint generation of text to image and watermark (T2IW). This T2IW scheme ensures minimal damage to image quality when generating a compound image by forcing the semantic feature and the watermark signal to be compatible in pixels. Additionally, by utilizing principles from Shannon information theory and non-cooperative game theory, we are able to separate the revealed image and the revealed watermark from the compound image. Furthermore, we strengthen the watermark robustness of our approach by subjecting the compound image to various post-processing attacks, with minimal pixel distortion observed in the revealed watermark. Extensive experiments have demonstrated remarkable achievements in image quality, watermark invisibility, and watermark robustness, supported by our proposed set of evaluation metrics.
翻訳日:2023-09-08 12:17:36 公開日:2023-09-07
# anthronet: 人文計測による人間の条件生成

AnthroNet: Conditional Generation of Humans via Anthropometrics ( http://arxiv.org/abs/2309.03812v1 )

ライセンス: Link先を確認
Francesco Picetti, Shrinath Deshpande, Jonathan Leban, Soroosh Shahtalebi, Jay Patel, Peifeng Jing, Chunpu Wang, Charles Metze III, Cameron Sun, Cera Laidlaw, James Warren, Kathy Huynh, River Page, Jonathan Hogins, Adam Crespi, Sujoy Ganguly, Salehe Erfanian Ebadi(参考訳) 本稿では,人体の形状やポーズを多種多様に生成できる多種多様な人為中心計測によって定式化した新しい人体モデルを提案する。 提案モデルでは,任意のポーズで人間を生成可能な深層生成アーキテクチャを用いて,特定の人間のアイデンティティを直接モデル化することができる。 人工的に生成されたデータのみを使用してエンドツーエンドでトレーニングされたのはこれが初めてであり、高精度なメッシュ表現を提供するだけでなく、身体の正確な人類計測も可能である。 さらに, 高度に多様なアニメーションライブラリを用いて, 学習可能な事前学習の多様性を最大化するために, 合成人間の身体と手を明瞭に表現した。 我々のモデルは、手続き的に生成した人体メッシュとそれに対応する人体計測値のデータセットで訓練された。 我々の合成データジェネレータは、何百万ものユニークな人間のアイデンティティを生成でき、非商業的な学術研究目的のためにポーズを取ることができる。

We present a novel human body model formulated by an extensive set of anthropocentric measurements, which is capable of generating a wide range of human body shapes and poses. The proposed model enables direct modeling of specific human identities through a deep generative architecture, which can produce humans in any arbitrary pose. It is the first of its kind to have been trained end-to-end using only synthetically generated data, which not only provides highly accurate human mesh representations but also allows for precise anthropometry of the body. Moreover, using a highly diverse animation library, we articulated our synthetic humans' body and hands to maximize the diversity of the learnable priors for model training. Our model was trained on a dataset of $100k$ procedurally-generated posed human meshes and their corresponding anthropometric measurements. Our synthetic data generator can be used to generate millions of unique human identities and poses for non-commercial academic research purposes.
翻訳日:2023-09-08 12:17:17 公開日:2023-09-07
# 光子からのパノラマ

Panoramas from Photons ( http://arxiv.org/abs/2309.03811v1 )

ライセンス: Link先を確認
Sacha Jungerman, Atul Ingle, Mohit Gupta(参考訳) 高速モーションと低照度の存在下でのシーン再構成は、拡張現実や仮想現実、ドローンナビゲーション、自律ロボティクスといった多くの応用において重要である。 従来の動き推定手法はそのような条件下では失敗し、高速な動きと低照度環境での強い雑音の存在があまりにぼやけている。 単光子カメラは最近、高速で極端な感度のおかげで、毎秒数十万光子フレームを撮影できる有望な技術として登場した。 残念なことに、従来のコンピュータビジョン技術は、極端なポアソンノイズによって破壊されるため、これらのカメラが捉えた2値光子データを扱うのに適していない。 本稿では,低照度や高ダイナミックレンジなどの難易度条件下での極端なシーン動作を,単光子カメラで捉えたような高速画像フレーム列から推定する手法を提案する。 本手法は, フレームの集合とグループ化による動き推定を, 階層化された方法で反復的に改善することに依存する。 高速動作と極低光下での高画質パノラマの創出と,カスタム単光子カメラの試作による超高分解能化を実証した。 コードと補足資料については、$\href{https://wisionlab.com/project/panoramas-from-photons/}{\text{project webpage}}$をご覧ください。

Scene reconstruction in the presence of high-speed motion and low illumination is important in many applications such as augmented and virtual reality, drone navigation, and autonomous robotics. Traditional motion estimation techniques fail in such conditions, suffering from too much blur in the presence of high-speed motion and strong noise in low-light conditions. Single-photon cameras have recently emerged as a promising technology capable of capturing hundreds of thousands of photon frames per second thanks to their high speed and extreme sensitivity. Unfortunately, traditional computer vision techniques are not well suited for dealing with the binary-valued photon data captured by these cameras because these are corrupted by extreme Poisson noise. Here we present a method capable of estimating extreme scene motion under challenging conditions, such as low light or high dynamic range, from a sequence of high-speed image frames such as those captured by a single-photon camera. Our method relies on iteratively improving a motion estimate by grouping and aggregating frames after-the-fact, in a stratified manner. We demonstrate the creation of high-quality panoramas under fast motion and extremely low light, and super-resolution results using a custom single-photon camera prototype. For code and supplemental material see our $\href{https://wisionlab.com/project/panoramas-from-photons/}{\text{project webpage}}$.
翻訳日:2023-09-08 12:17:02 公開日:2023-09-07
# SimNP: 神経点間の自己相似性を学習する

SimNP: Learning Self-Similarity Priors Between Neural Points ( http://arxiv.org/abs/2309.03809v1 )

ライセンス: Link先を確認
Christopher Wewer, Eddy Ilg, Bernt Schiele, Jan Eric Lenssen(参考訳) 既存の3次元オブジェクト再構成のためのニューラルフィールド表現は、(1)オブジェクトレベルの表現を使用するが、グローバル潜在コードでの条件付けのために低品質の詳細に苦しむか、(2)観測を完璧に再構築できるが、観測されていない領域を推測するためにオブジェクトレベルの事前知識を活用できない。 本稿では,神経点放射場とカテゴリレベルの自己相似性表現を結合することにより,両世界の利点を結合した,カテゴリーレベルの自己相似性を学ぶ手法であるsimnpを提案する。 私たちの貢献は2倍です。 1) コヒーレント・ポイント・クラウドの概念を利用して,カテゴリーレベルでの最初の神経点表現を設計する。 その結果得られるニューラルポイントラミアンスフィールドは、ローカルにサポートされているオブジェクト領域の高レベルなディテールを格納する。 2) 再建過程において, 対象の未観測領域を所定の観測から導き出すことが可能な, 制約のない, 教師なしの方法で, ニューラルポイント間での情報共有を学習する。 我々は、simnpは、カテゴリーレベルまたはピクセルアライメントのラミアンスフィールド上に構築する手法を上回り、インスタンス間の意味対応を提供しながら、対称性のないオブジェクト領域を再構築する以前の手法を上回ることができることを示す。

Existing neural field representations for 3D object reconstruction either (1) utilize object-level representations, but suffer from low-quality details due to conditioning on a global latent code, or (2) are able to perfectly reconstruct the observations, but fail to utilize object-level prior knowledge to infer unobserved regions. We present SimNP, a method to learn category-level self-similarities, which combines the advantages of both worlds by connecting neural point radiance fields with a category-level self-similarity representation. Our contribution is two-fold. (1) We design the first neural point representation on a category level by utilizing the concept of coherent point clouds. The resulting neural point radiance fields store a high level of detail for locally supported object regions. (2) We learn how information is shared between neural points in an unconstrained and unsupervised fashion, which allows to derive unobserved regions of an object during the reconstruction process from given observations. We show that SimNP is able to outperform previous methods in reconstructing symmetric unseen object regions, surpassing methods that build upon category-level or pixel-aligned radiance fields, while providing semantic correspondences between instances
翻訳日:2023-09-08 12:16:39 公開日:2023-09-07
# スペクトル法によるランクアグリゲーションの理論的保証の改善

Improved theoretical guarantee for rank aggregation via spectral method ( http://arxiv.org/abs/2309.03808v1 )

ライセンス: Link先を確認
Ziliang Samuel Zhong, Shuyang Ling(参考訳) 複数の項目間のペアワイズ比較を与えられた場合、ランキングが観測値と一致するようにランク付けする方法? この問題はランクアグリゲーションと呼ばれ、スポーツ、レコメンデーションシステム、その他のウェブアプリケーションで多くの応用が見られた。 ミスマッチを最小化するグローバルランキング(ケメニー最適化として知られる)を見つけるのは通常np困難であるため、このランキング問題に対するerd\"os-r\'enyi outliers (ero)モデルに焦点を当てる。 ここで、各ペア比較は真のスコア差の破損したコピーである。 非正規化および正規化データ行列に基づくスペクトルランキングアルゴリズムについて検討する。 重要なのは,観測データから各項目の下位スコアを回復する上で,そのパフォーマンスを理解することだ。 これにより、非正規化/正規化データ行列の最上位固有ベクトルとその集団行列との間の入射摂動誤差が導かれる。 leave-one-out技術を用いることで、固有ベクトルのよりシャープな$\ell_{\infty}$-norm摂動境界を提供し、各アイテムの最大変位にバインドされた誤差を導出し、わずか$\omega(n\log n)$のサンプルだけを得る。 我々の理論解析は, 試料の複雑さの観点から, 最先端の結果を改良し, 数値実験によりこれらの理論的知見が裏付けられる。

Given pairwise comparisons between multiple items, how to rank them so that the ranking matches the observations? This problem, known as rank aggregation, has found many applications in sports, recommendation systems, and other web applications. As it is generally NP-hard to find a global ranking that minimizes the mismatch (known as the Kemeny optimization), we focus on the Erd\"os-R\'enyi outliers (ERO) model for this ranking problem. Here, each pairwise comparison is a corrupted copy of the true score difference. We investigate spectral ranking algorithms that are based on unnormalized and normalized data matrices. The key is to understand their performance in recovering the underlying scores of each item from the observed data. This reduces to deriving an entry-wise perturbation error bound between the top eigenvectors of the unnormalized/normalized data matrix and its population counterpart. By using the leave-one-out technique, we provide a sharper $\ell_{\infty}$-norm perturbation bound of the eigenvectors and also derive an error bound on the maximum displacement for each item, with only $\Omega(n\log n)$ samples. Our theoretical analysis improves upon the state-of-the-art results in terms of sample complexity, and our numerical experiments confirm these theoretical findings.
翻訳日:2023-09-08 12:16:15 公開日:2023-09-07
# 神経機能学習におけるparetoのフロンティア: データ、計算、幅、運

Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and Luck ( http://arxiv.org/abs/2309.03800v1 )

ライセンス: Link先を確認
Benjamin L. Edelman, Surbhi Goel, Sham Kakade, Eran Malach, Cyril Zhang(参考訳) 本研究は,計算統計的ギャップの存在下でのディープラーニングのためのニュアンスドアルゴリズム設計選択について検討する。 まず,多層パーセプトロンの勾配に基づく学習のための統計的クエリの下限を許容する教師付き分類問題であるオフラインスパースパリティ学習を検討する。 この下限は、多元的トレードオフフロンティアとして解釈することができる: 成功する学習は、十分なリッチ(大きなモデル)、知識のある(大きなデータセット)、患者(多くのトレーニングイテレーション)、幸運(多くのランダムな推測)がある場合にのみ発生する。 理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。 ここで、幅は平行探索の役割を担っている: 「ラッタチケット」ニューロンを見つける確率を増幅し、よりサンプル効率のよい特徴を学習する。 最後に,合成スパースパリティタスクは,軸指向型特徴学習を必要とする実問題に対するプロキシとして有用であることを示す。 広帯域かつ疎初期化MLPモデルを用いて,表層分類ベンチマークにおけるサンプル効率の向上を実証した。

This work investigates the nuanced algorithm design choices for deep learning in the presence of computational-statistical gaps. We begin by considering offline sparse parity learning, a supervised classification problem which admits a statistical query lower bound for gradient-based training of a multilayer perceptron. This lower bound can be interpreted as a multi-resource tradeoff frontier: successful learning can only occur if one is sufficiently rich (large model), knowledgeable (large dataset), patient (many training iterations), or lucky (many random guesses). We show, theoretically and experimentally, that sparse initialization and increasing network width yield significant improvements in sample efficiency in this setting. Here, width plays the role of parallel search: it amplifies the probability of finding "lottery ticket" neurons, which learn sparse features more sample-efficiently. Finally, we show that the synthetic sparse parity task can be useful as a proxy for real problems requiring axis-aligned feature learning. We demonstrate improved sample efficiency on tabular classification benchmarks by using wide, sparsely-initialized MLP models; these networks sometimes outperform tuned random forests.
翻訳日:2023-09-08 12:15:51 公開日:2023-09-07
# 双曲格子と2次元yang-mills理論

Hyperbolic lattices and two-dimensional Yang-Mills theory ( http://arxiv.org/abs/2309.03857v1 )

ライセンス: Link先を確認
G. Shankar and Joseph Maciejko(参考訳) 双曲格子は、回路量子力学と電気回路ネットワークでエミュレートされた新しいタイプの合成量子物質であり、粒子は2次元の負の曲面空間の離散的テッセル化にコヒーレントにホップする。 実空間法と逆空間双曲バンド理論は、これらのシステムのエネルギースペクトルを分析するために最近提案されているが、2つのアプローチの相違は残っている。 本研究では,高次リーマン面上の双曲バンド理論とu(n)$位相yang-mills理論の等価性を確立することにより,これらのアプローチを解消する。 次に、双曲的タイト結合モデルの状態密度のモーメントは、量子ゲージ理論におけるウィルソンループの期待値に対応し、大きな$n$極限で正確になることを示す。

Hyperbolic lattices are a new type of synthetic quantum matter emulated in circuit quantum electrodynamics and electric-circuit networks, where particles coherently hop on a discrete tessellation of two-dimensional negatively curved space. While real-space methods and a reciprocal-space hyperbolic band theory have been recently proposed to analyze the energy spectra of those systems, discrepancies between the two sets of approaches remain. In this work, we reconcile those approaches by first establishing an equivalence between hyperbolic band theory and $U(N)$ topological Yang-Mills theory on higher-genus Riemann surfaces. We then show that moments of the density of states of hyperbolic tight-binding models correspond to expectation values of Wilson loops in the quantum gauge theory and become exact in the large-$N$ limit.
翻訳日:2023-09-08 12:10:32 公開日:2023-09-07
# FLM-101B:オープンLCMと1万ドルの予算でトレーニングする方法

FLM-101B: An Open LLM and How to Train It with $100K Budget ( http://arxiv.org/abs/2309.03852v1 )

ライセンス: Link先を確認
Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang(参考訳) 大規模言語モデル(LLM)は、NLPおよびマルチモーダルタスクにおいて顕著な成功を収めた。 これらの成功にもかかわらず、彼らの開発は2つの大きな課題に直面している。 (i)高い計算コスト、及び (ii)公平かつ客観的な評価を行うのが困難である。 LLMは違法に高価であり、少数の主要プレイヤーだけがトレーニングを受けられるため、研究と応用の両方の機会を制限できる。 これはコスト効率の高いllmトレーニングの重要性を強調するものだ。 本稿では,成長戦略を用いてllmトレーニングコストを大幅に削減する。 101B パラメータと 0.31TB トークンを持つ LLM が 1K の予算でトレーニング可能であることを示す。 また,LLMのIQ評価に体系的な評価パラダイムを導入し,知識指向能力を重視した既存の評価を補完する。 本ベンチマークでは,シンボルマッピング,イトルル理解,パターンマイニング,対干渉など,インテリジェンスの重要な側面を評価する。 このような評価は記憶の潜在的な影響を最小限に抑える。 実験結果から,本モデルflm-101bは1kの予算で訓練され,gpt-3やglm-130bといった強力でよく知られたモデルと同等の性能を達成していることがわかった。 FLM-101Bのチェックポイントはhttps://huggingface.co/CofeAI/FLM-101Bでオープンソース化される。

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.
翻訳日:2023-09-08 12:10:14 公開日:2023-09-07
# CenTime: 生存分析におけるセンサのイベントコンディションモデリング

CenTime: Event-Conditional Modelling of Censoring in Survival Analysis ( http://arxiv.org/abs/2309.03851v1 )

ライセンス: Link先を確認
Ahmed H. Shahin, An Zhao, Alexander C. Whitehead, Daniel C. Alexander, Joseph Jacob, David Barber(参考訳) 生存分析は、死やがんの再発などの特定の事象が観測されるまでの時間を推定するための貴重なツールである。 これは、患者データに基づいて臨床的に重要な事象を予測する医療において特に有用である。 しかし、既存のアプローチには、生存可能性による患者のランク付けのみに焦点を当て、実際のイベント時間を見積もることを無視する者もいれば、イベント固有の時間順構造を無視して、問題を分類タスクとして扱う者もいる。 さらに、モデルの予測精度を向上させるためには、検閲済みサンプル(正確な事象時刻が不明なデータポイントをトレーニングする)の有効利用が不可欠である。 本稿では,イベント発生時刻を直接推定する生存分析の新しい手法であるCenTimeを紹介する。 本手法は,非検閲データが少ない場合でも堅牢なイベント条件検閲機構を特徴とする。 我々の手法は、無検閲のデータがなくても、イベントモデルパラメータの一貫性のある推定器を形成することを示す。 さらに、CenTimeはバッチサイズや非検閲サンプルの数に制限がなく、ディープラーニングモデルと簡単に統合できる。 我々は,Cox比例ハザードモデルやDeepHitなど,標準的な生存分析手法との比較を行った。 以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することが示された。 私たちの実装はhttps://github.com/ahmedhshahin/centimeで公開しています。

Survival analysis is a valuable tool for estimating the time until specific events, such as death or cancer recurrence, based on baseline observations. This is particularly useful in healthcare to prognostically predict clinically important events based on patient data. However, existing approaches often have limitations; some focus only on ranking patients by survivability, neglecting to estimate the actual event time, while others treat the problem as a classification task, ignoring the inherent time-ordered structure of the events. Furthermore, the effective utilization of censored samples - training data points where the exact event time is unknown - is essential for improving the predictive accuracy of the model. In this paper, we introduce CenTime, a novel approach to survival analysis that directly estimates the time to event. Our method features an innovative event-conditional censoring mechanism that performs robustly even when uncensored data is scarce. We demonstrate that our approach forms a consistent estimator for the event model parameters, even in the absence of uncensored data. Furthermore, CenTime is easily integrated with deep learning models with no restrictions on batch size or the number of uncensored samples. We compare our approach with standard survival analysis methods, including the Cox proportional-hazard model and DeepHit. Our results indicate that CenTime offers state-of-the-art performance in predicting time-to-death while maintaining comparable ranking performance. Our implementation is publicly available at https://github.com/ahmedhshahin/CenTime.
翻訳日:2023-09-08 12:09:53 公開日:2023-09-07
# ガウスの混合物は、多項式のサンプル数でプライベートに学習できる

Mixtures of Gaussians are Privately Learnable with a Polynomial Number of Samples ( http://arxiv.org/abs/2309.03847v1 )

ライセンス: Link先を確認
Mohammad Afzali, Hassan Ashtiani, Christopher Liaw(参考訳) 差分プライバシー(DP)の制約下でのガウスの混合度を推定する問題について検討する。 主な結果は、$\tilde{o}(k^2 d^4 \log(1/\delta) / \alpha^2 \varepsilon)$サンプルは、$(\varepsilon, \delta)$-dpを満たしながら、全変動距離までの$k$ガウスの混合物を推定するのに十分である。 これはgmmsの構造的な仮定をしない問題の上限となる最初の有限個のサンプル複雑性である。 この問題を解決するために、我々は他のタスクに役立つかもしれない新しいフレームワークを考案する。 高いレベルでは、(1)分布のクラス(ガウス等)がデコッド可能なリストであり、(2)「局所的に小さい」カバー [BKSW19] が全変動距離に関して認められる場合、その混合のクラスはプライベートに学習可能であることを示す。 この証明はガウスとは異なり、GMMが局所的な小さな被覆 [AAL21] を含まないことを示す既知の障壁を回避している。

We study the problem of estimating mixtures of Gaussians under the constraint of differential privacy (DP). Our main result is that $\tilde{O}(k^2 d^4 \log(1/\delta) / \alpha^2 \varepsilon)$ samples are sufficient to estimate a mixture of $k$ Gaussians up to total variation distance $\alpha$ while satisfying $(\varepsilon, \delta)$-DP. This is the first finite sample complexity upper bound for the problem that does not make any structural assumptions on the GMMs. To solve the problem, we devise a new framework which may be useful for other tasks. On a high level, we show that if a class of distributions (such as Gaussians) is (1) list decodable and (2) admits a "locally small'' cover [BKSW19] with respect to total variation distance, then the class of its mixtures is privately learnable. The proof circumvents a known barrier indicating that, unlike Gaussians, GMMs do not admit a locally small cover [AAL21].
翻訳日:2023-09-08 12:09:31 公開日:2023-09-07
# 構造化データに基づく勾配型特徴学習

Gradient-Based Feature Learning under Structured Data ( http://arxiv.org/abs/2309.03843v1 )

ライセンス: Link先を確認
Alireza Mousavi-Hosseini and Denny Wu and Taiji Suzuki and Murat A. Erdogdu(参考訳) 近年の研究では、入力データの1次元投影に依存する関数である単一インデックスモデルの勾配に基づく学習のサンプル複雑さが、情報指数によって制御されていることが示されている。 しかし、これらの結果は等方性データのみに関係しており、実際には、入力は暗黙的にアルゴリズムを導くことができる追加の構造を含んでいることが多い。 本研究では,スパイク共分散構造の効果を調べ,いくつかの興味深い現象を明らかにする。 まず, 異方性設定では, スパイクが目標方向と完全に一致していても, 一般的に使用される球面勾配ダイナミクスは真の方向を回復できない場合がある。 次に,バッチ正規化を想起する適切な重み正規化がこの問題を緩和することを示す。 さらに、(スピーク)入力共分散と目標とのアライメントを利用して、等方性の場合と比較して試料の複雑さが向上する。 特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にでき、また回転不変なカーネルメソッドの下位境界よりも優れている。

Recent works have demonstrated that the sample complexity of gradient-based learning of single index models, i.e. functions that depend on a 1-dimensional projection of the input data, is governed by their information exponent. However, these results are only concerned with isotropic data, while in practice the input often contains additional structure which can implicitly guide the algorithm. In this work, we investigate the effect of a spiked covariance structure and reveal several interesting phenomena. First, we show that in the anisotropic setting, the commonly used spherical gradient dynamics may fail to recover the true direction, even when the spike is perfectly aligned with the target direction. Next, we show that appropriate weight normalization that is reminiscent of batch normalization can alleviate this issue. Further, by exploiting the alignment between the (spiked) input covariance and the target, we obtain improved sample complexity compared to the isotropic case. In particular, under the spiked model with a suitably large spike, the sample complexity of gradient-based training can be made independent of the information exponent while also outperforming lower bounds for rotationally invariant kernel methods.
翻訳日:2023-09-08 12:09:07 公開日:2023-09-07
# 潜在確率力学系の遷移による早期警告

Early warning via transitions in latent stochastic dynamical systems ( http://arxiv.org/abs/2309.03842v1 )

ライセンス: Link先を確認
Lingyu Feng, Ting Gao, Wang Xiao and Jinqiao Duan(参考訳) 複雑なシステムや高次元観測データにおける動的遷移の早期警告は、遺伝子変異、脳疾患、自然災害、金融危機、工学的信頼性など、多くの現実世界の応用において不可欠である。 早期警報信号を効果的に抽出するために,低次元多様体の潜伏進化ダイナミクスを捉える有向異方性拡散マップを開発した。 本手法を正真正銘脳波データに適用し, 適切な有効座標を求め, 状態遷移時にチップ点を検出する早期警報信号を導出することに成功した。 本手法は、潜在ダイナミクスと元のデータセットを橋渡しする。 このフレームワークは、密度と遷移確率の観点から、数値実験によって正確かつ効果的であることが検証されている。 第2座標は, 種々の評価指標における臨界遷移について有意な情報を保持する。

Early warnings for dynamical transitions in complex systems or high-dimensional observation data are essential in many real world applications, such as gene mutation, brain diseases, natural disasters, financial crises, and engineering reliability. To effectively extract early warning signals, we develop a novel approach: the directed anisotropic diffusion map that captures the latent evolutionary dynamics in low-dimensional manifold. Applying the methodology to authentic electroencephalogram (EEG) data, we successfully find the appropriate effective coordinates, and derive early warning signals capable of detecting the tipping point during the state transition. Our method bridges the latent dynamics with the original dataset. The framework is validated to be accurate and effective through numerical experiments, in terms of density and transition probability. It is shown that the second coordinate holds meaningful information for critical transition in various evaluation metrics.
翻訳日:2023-09-08 12:08:45 公開日:2023-09-07
# オフライン強化学習を用いたブートストラップ適応型ヒューマンマシンインタフェース

Bootstrapping Adaptive Human-Machine Interfaces with Offline Reinforcement Learning ( http://arxiv.org/abs/2309.03839v1 )

ライセンス: Link先を確認
Jensen Gao, Siddharth Reddy, Glen Berseth, Anca D. Dragan, Sergey Levine(参考訳) アダプティブインタフェースは、ノイズの多い高次元のコマンド信号(例えば脳とコンピュータのインタフェースから)が与えられたロボット遠隔操作のようなシーケンシャルな意思決定タスクを実行するのに役立つ。 近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとのインタラクションによってこのようなシステムが改善されるが、実際には個々のユーザから収集できるデータ量によって制限される傾向がある。 本稿では,オフライン事前学習とオンラインファインチューニングの組み合わせを用いて,生のコマンド信号をアクションにマッピングするインタフェースを訓練することで,この問題に対処する強化学習アルゴリズムを提案する。 ノイズの多いコマンド信号やスパース報酬によって生じる課題に対処するため,ユーザの長期意図を与えられた軌道に対して表現し,推測する新しい手法を開発した。 提案手法は, webカメラから128次元の指令信号を変調するために視線を用いて12名の被験者がシミュレートされたナビゲーションタスクを行うユーザスタディを通じて, ノイズの多い高次元入力チャネルを介してのみ通信できるユーザを支援する能力について主に評価する。 その結果,本手法は,ユーザコマンド信号のデノベーションと共有自律支援を学習することで,ベースライン指向インタフェースよりも高い頻度でゴールナビゲーションを成功させることができた。 さらに,アイアイズコントロールによるソーヤー押下作業や,ユーザコマンドをシミュレートしたルナランダーゲームについても評価し,これらの領域におけるベースラインインタフェースの改善についても検討した。 シミュレーションユーザコマンドによる広範囲なアブレーション実験は,提案手法の各成分を経験的に動機づける。

Adaptive interfaces can help users perform sequential decision-making tasks like robotic teleoperation given noisy, high-dimensional command signals (e.g., from a brain-computer interface). Recent advances in human-in-the-loop machine learning enable such systems to improve by interacting with users, but tend to be limited by the amount of data that they can collect from individual users in practice. In this paper, we propose a reinforcement learning algorithm to address this by training an interface to map raw command signals to actions using a combination of offline pre-training and online fine-tuning. To address the challenges posed by noisy command signals and sparse rewards, we develop a novel method for representing and inferring the user's long-term intent for a given trajectory. We primarily evaluate our method's ability to assist users who can only communicate through noisy, high-dimensional input channels through a user study in which 12 participants performed a simulated navigation task by using their eye gaze to modulate a 128-dimensional command signal from their webcam. The results show that our method enables successful goal navigation more often than a baseline directional interface, by learning to denoise user commands signals and provide shared autonomy assistance. We further evaluate on a simulated Sawyer pushing task with eye gaze control, and the Lunar Lander game with simulated user commands, and find that our method improves over baseline interfaces in these domains as well. Extensive ablation experiments with simulated user commands empirically motivate each component of our method.
翻訳日:2023-09-08 12:08:30 公開日:2023-09-07
# クロスタスクアテンションネットワーク:医療画像アプリケーションのためのマルチタスク学習の改善

Cross-Task Attention Network: Improving Multi-Task Learning for Medical Imaging Applications ( http://arxiv.org/abs/2309.03837v1 )

ライセンス: Link先を確認
Sangwook Kim, Thomas G. Purdie, Chris McIntosh(参考訳) マルチタスク学習(MTL)は、訓練中の複数のタスクからの情報を活用し、モデルの性能を向上させる、ディープラーニングの強力なアプローチである。 医用画像では、MTLは様々な課題を解く大きな可能性を示している。 しかし、医用画像における既存のMTLアーキテクチャは、タスク間での情報共有に限られており、MTLの性能改善の可能性を減らすことができる。 本研究では,画素レベルから画像レベルまで様々なタスクにおけるタスク間インタラクションをよりよく活用するための,注目に基づく新しいMTLフレームワークを提案する。 具体的には,タスク間のインタラクションによって情報を取り込むクロスタスクアテンション機構を利用するクロスタスクアテンションネットワーク(ctan)を提案する。 対象とする2つの癌(前立腺癌,OpenKBP)のCT画像を用いた放射線治療計画予測,皮膚皮膚病変の分画と診断のための皮膚内視鏡画像(HAM10000),胸部CT画像(STOIC)を用いた新型コロナウイルスの診断と重症度予測の4つの領域にまたがってCTANを検証した。 本研究はCTANが医用画像の精度向上に有効であることを示す。 標準のシングルタスク学習(STL)と比較して、CTANはパフォーマンスが4.67%向上し、HPS(ハードパラメータ共有)の3.22%、MTAN(マルチタスク注意ネットワーク)の5.38%低下という、広く使われているMTLベースラインよりも優れていた。 これらの知見は,医療画像課題の解決におけるmtlフレームワークの意義と,その領域間における精度向上の可能性を強調した。

Multi-task learning (MTL) is a powerful approach in deep learning that leverages the information from multiple tasks during training to improve model performance. In medical imaging, MTL has shown great potential to solve various tasks. However, existing MTL architectures in medical imaging are limited in sharing information across tasks, reducing the potential performance improvements of MTL. In this study, we introduce a novel attention-based MTL framework to better leverage inter-task interactions for various tasks from pixel-level to image-level predictions. Specifically, we propose a Cross-Task Attention Network (CTAN) which utilizes cross-task attention mechanisms to incorporate information by interacting across tasks. We validated CTAN on four medical imaging datasets that span different domains and tasks including: radiation treatment planning prediction using planning CT images of two different target cancers (Prostate, OpenKBP); pigmented skin lesion segmentation and diagnosis using dermatoscopic images (HAM10000); and COVID-19 diagnosis and severity prediction using chest CT scans (STOIC). Our study demonstrates the effectiveness of CTAN in improving the accuracy of medical imaging tasks. Compared to standard single-task learning (STL), CTAN demonstrated a 4.67% improvement in performance and outperformed both widely used MTL baselines: hard parameter sharing (HPS) with an average performance improvement of 3.22%; and multi-task attention network (MTAN) with a relative decrease of 5.38%. These findings highlight the significance of our proposed MTL framework in solving medical imaging tasks and its potential to improve their accuracy across domains.
翻訳日:2023-09-08 12:08:03 公開日:2023-09-07
# 確率的ダイアグラム指導による実証から学ぶ

Learning from Demonstration via Probabilistic Diagrammatic Teaching ( http://arxiv.org/abs/2309.03835v1 )

ライセンス: Link先を確認
Weiming Zhi and Tianyi Zhang and Matthew Johnson-Roberson(参考訳) Learning for Demonstration (LfD)は、ロボットが専門家によるデモンストレーションを模倣することで新しいスキルを習得し、ユーザーが直感的に指示を伝えることを可能にする。 近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美教育や遠隔操作に依存していることが多い。 体操教育はロボットの物理的操作を必要とし、遠隔操作は追加のハードウェアで熟練を必要とする。 本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。 図式指導は,シーンの2次元画像上でのデモンストレーショントラジェクタのスケッチをユーザに促すことで,ロボットに新たなスキルを教えることを目的としており,これらを3次元タスク空間における運動トラジェクタ生成モデルとして合成する。 さらに,言語教育のためのレイトレーシング確率軌道学習(RPTL)フレームワークを提案する。 RPTLは2次元スケッチから時間変化確率密度を抽出し、3次元カルト空間の対応する領域を見つけるためにレイトレーシングを適用し、これらの領域に運動軌跡の確率モデルを適用する。 ユーザがスケッチしたものを模倣した新しいモーショントラジェクトリを確率モデルから生成することができる。 我々は,固定ベースマニピュレータと四足歩行マニピュレータを含む実ロボットのシミュレーションとシミュレーションの両方において,経験的検証を行った。

Learning for Demonstration (LfD) enables robots to acquire new skills by imitating expert demonstrations, allowing users to communicate their instructions in an intuitive manner. Recent progress in LfD often relies on kinesthetic teaching or teleoperation as the medium for users to specify the demonstrations. Kinesthetic teaching requires physical handling of the robot, while teleoperation demands proficiency with additional hardware. This paper introduces an alternative paradigm for LfD called Diagrammatic Teaching. Diagrammatic Teaching aims to teach robots novel skills by prompting the user to sketch out demonstration trajectories on 2D images of the scene, these are then synthesised as a generative model of motion trajectories in 3D task space. Additionally, we present the Ray-tracing Probabilistic Trajectory Learning (RPTL) framework for Diagrammatic Teaching. RPTL extracts time-varying probability densities from the 2D sketches, applies ray-tracing to find corresponding regions in 3D Cartesian space, and fits a probabilistic model of motion trajectories to these regions. New motion trajectories, which mimic those sketched by the user, can then be generated from the probabilistic model. We empirically validate our framework both in simulation and on real robots, which include a fixed-base manipulator and a quadruped-mounted manipulator.
翻訳日:2023-09-08 12:07:28 公開日:2023-09-07
# テキストデータ中のドリフトの解明 : 機械学習モデルにおけるドリフトの検出と緩和のための教師なし手法

Uncovering Drift in Textual Data: An Unsupervised Method for Detecting and Mitigating Drift in Machine Learning Models ( http://arxiv.org/abs/2309.03831v1 )

ライセンス: Link先を確認
Saeed Khaki, Akhouri Abhinav Aditya, Zohar Karnin, Lan Ma, Olivia Pan, Samarth Marudheri Chandrashekar(参考訳) 機械学習におけるドリフト(drift)とは、モデルが動作しているデータやコンテキストの統計的性質が時間とともに変化し、性能が低下する現象を指す。 したがって、潜在的な性能低下を積極的に防止するためには、機械学習モデル性能の定常的な監視プロセスを維持することが不可欠である。 しかし、教師付きドリフト検出法は人間の注意を必要とするため、ドリフトの検出と緩和に長い時間がかかる。 提案する非教師なしドリフト検出法では,2段階のドリフト検出を行う。 最初のステップでは,生産データのサンプルを対象分布として,モデルトレーニングデータを基準分布として符号化する。 第2のステップでは、最大平均誤差距離(MMD)を用いて、基準分布と目標分布を比較し、潜在的なドリフトを推定するカーネルベースの統計テストを用いる。 また,本手法では,ドリフトの根本原因である生産データのサブセットを同定する。 これらの高ドリフトサンプルを用いて再トレーニングしたモデルでは、オンライン顧客エクスペリエンスの品質指標のパフォーマンスが改善された。

Drift in machine learning refers to the phenomenon where the statistical properties of data or context, in which the model operates, change over time leading to a decrease in its performance. Therefore, maintaining a constant monitoring process for machine learning model performance is crucial in order to proactively prevent any potential performance regression. However, supervised drift detection methods require human annotation and consequently lead to a longer time to detect and mitigate the drift. In our proposed unsupervised drift detection method, we follow a two step process. Our first step involves encoding a sample of production data as the target distribution, and the model training data as the reference distribution. In the second step, we employ a kernel-based statistical test that utilizes the maximum mean discrepancy (MMD) distance metric to compare the reference and target distributions and estimate any potential drift. Our method also identifies the subset of production data that is the root cause of the drift. The models retrained using these identified high drift samples show improved performance on online customer experience quality metrics.
翻訳日:2023-09-08 12:07:05 公開日:2023-09-07
# 解釈可能性評価のための関数解釈ベンチマーク

A Function Interpretation Benchmark for Evaluating Interpretability Methods ( http://arxiv.org/abs/2309.03886v1 )

ライセンス: Link先を確認
Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba(参考訳) このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。 これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。 サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。 近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。 オープンなラベル付けツールの検証と比較には,どうすればよいのか? 本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。 関数は、テキストドメインと数値ドメインにまたがって手続き的に構築され、ノイズ、構成、近似、バイアスを含む様々な現実世界の複雑さを含む。 言語モデル(LM)を用いて関数の振る舞いのコードベースおよび言語記述を生成する新しい手法と既存手法を評価する。 機能へのブラックボックスアクセスのみを付加した既成のLMは、時にそれらの構造を推測し、仮説を形成し、実験を提案し、新しいデータに照らして記述を更新することによって科学者として機能する。 しかし、lmに基づく記述はグローバル機能の挙動を捉え、局所的な腐敗を見逃す傾向がある。 これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性手法の性能を特徴付けるのに有用であることが示唆された。

Labeling neural network submodules with human-legible descriptions is useful for many downstream tasks: such descriptions can surface failures, guide interventions, and perhaps even explain important model behaviors. To date, most mechanistic descriptions of trained networks have involved small models, narrowly delimited phenomena, and large amounts of human labor. Labeling all human-interpretable sub-computations in models of increasing size and complexity will almost certainly require tools that can generate and validate descriptions automatically. Recently, techniques that use learned models in-the-loop for labeling have begun to gain traction, but methods for evaluating their efficacy are limited and ad-hoc. How should we validate and compare open-ended labeling tools? This paper introduces FIND (Function INterpretation and Description), a benchmark suite for evaluating the building blocks of automated interpretability methods. FIND contains functions that resemble components of trained neural networks, and accompanying descriptions of the kind we seek to generate. The functions are procedurally constructed across textual and numeric domains, and involve a range of real-world complexities, including noise, composition, approximation, and bias. We evaluate new and existing methods that use language models (LMs) to produce code-based and language descriptions of function behavior. We find that an off-the-shelf LM augmented with only black-box access to functions can sometimes infer their structure, acting as a scientist by forming hypotheses, proposing experiments, and updating descriptions in light of new data. However, LM-based descriptions tend to capture global function behavior and miss local corruptions. These results show that FIND will be useful for characterizing the performance of more sophisticated interpretability methods before they are applied to real-world models.
翻訳日:2023-09-08 11:58:19 公開日:2023-09-07
# 聴覚指導によるゼロショット音声キャプション

Zero-Shot Audio Captioning via Audibility Guidance ( http://arxiv.org/abs/2309.03884v1 )

ライセンス: Link先を確認
Tal Shaharabany, Ariel Shaulov and Lior Wolf(参考訳) 音声キャプションのタスクは、画像キャプションやビデオキャプションといったタスクと本質的に似ている。 しかし、あまり注目されていない。 キャプション音声のためのデシデラタを3つ提案する。 (i)生成されたテキストの流布 (二)入力音声に対する生成されたテキストの忠実度及びそれと何らかの関連性 (iii)可聴性(音声のみに基づいて知覚できる品質) 本手法はゼロショット法であり,キャプションの実行を学習していない。 代わりにキャプションは、3つの望ましい品質に対応する3つのネットワークを含む推論プロセスとして発生する。 一 便宜上の理由から、大言語モデル、GPT-2 2 音声ファイルとテキストのマッチングスコアを提供するモデルであって、ImageBindと呼ばれるマルチモーダルマッチングネットワークを用いており、 3) GPT-4を指示し, 自動収集したデータセットを用いて学習したテキスト分類器において, 可聴文と可聴文の両方の生成を指示するプロンプトを付与した。 本稿では,AudioCapデータセットを用いて,この目的を欠くベースラインと比較して,聴力誘導が性能を著しく向上させることを示す。

The task of audio captioning is similar in essence to tasks such as image and video captioning. However, it has received much less attention. We propose three desiderata for captioning audio -- (i) fluency of the generated text, (ii) faithfulness of the generated text to the input audio, and the somewhat related (iii) audibility, which is the quality of being able to be perceived based only on audio. Our method is a zero-shot method, i.e., we do not learn to perform captioning. Instead, captioning occurs as an inference process that involves three networks that correspond to the three desired qualities: (i) A Large Language Model, in our case, for reasons of convenience, GPT-2, (ii) A model that provides a matching score between an audio file and a text, for which we use a multimodal matching network called ImageBind, and (iii) A text classifier, trained using a dataset we collected automatically by instructing GPT-4 with prompts designed to direct the generation of both audible and inaudible sentences. We present our results on the AudioCap dataset, demonstrating that audibility guidance significantly enhances performance compared to the baseline, which lacks this objective.
翻訳日:2023-09-08 11:57:51 公開日:2023-09-07
# dola: 大きな言語モデルの事実性を改善するレイヤの対比によるデコーディング

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models ( http://arxiv.org/abs/2309.03883v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He(参考訳) その印象的な能力にもかかわらず、大きな言語モデル(LLM)は幻覚、すなわち事前訓練中に見られる事実から逸脱したコンテンツを生成する傾向にある。 得られた外部知識の条件付けや追加の微調整を必要とせず,事前学習したllmを用いて幻覚を低減できる簡単な復号法を提案する。 本手法は,後段の層と前段の層を語彙空間に投影して得られたロジットの違いを対比し,llmにおける事実知識が一般に特定のトランスフォーマー層に局所化されていることを示すという事実を生かして,次段の分布を得る。 コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。 例えば、TruthfulQA上のLLaMAファミリーモデルの性能を12-17%向上させ、LLMが真理事実を確実に生成する可能性を示している。

Despite their impressive capabilities, large language models (LLMs) are prone to hallucinations, i.e., generating content that deviates from facts seen during pretraining. We propose a simple decoding strategy for reducing hallucinations with pretrained LLMs that does not require conditioning on retrieved external knowledge nor additional fine-tuning. Our approach obtains the next-token distribution by contrasting the differences in logits obtained from projecting the later layers versus earlier layers to the vocabulary space, exploiting the fact that factual knowledge in an LLMs has generally been shown to be localized to particular transformer layers. We find that this Decoding by Contrasting Layers (DoLa) approach is able to better surface factual knowledge and reduce the generation of incorrect facts. DoLa consistently improves the truthfulness across multiple choices tasks and open-ended generation tasks, for example improving the performance of LLaMA family models on TruthfulQA by 12-17% absolute points, demonstrating its potential in making LLMs reliably generate truthful facts.
翻訳日:2023-09-08 11:57:34 公開日:2023-09-07
# マルチチョイス問題における大規模言語モデルの選択バイアスについて

On Large Language Models' Selection Bias in Multi-Choice Questions ( http://arxiv.org/abs/2309.03882v1 )

ライセンス: Link先を確認
Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang(参考訳) マルチチョイス質問(MCQ)は、大規模言語モデル(LLM)の研究において、一般的だが重要なタスク形式として機能する。 我々の研究は、LCMはMCQに固有の「選択バイアス」を示しており、LCMが特定の位置(例えば「オプティオンC」)にある選択肢を選択することを好んでいることを示している。 このバイアスは様々なLCMにまたがっており、MCQのオプション位置変化に対してパフォーマンスが脆弱である。 選択バイアスをもたらす主な原因の1つはオプション番号、すなわちオプションに関連するIDシンボルA/B/C/Dである。 選択バイアスを軽減するため,プライドと呼ばれる新しい手法を提案する。 PriDeはまず、観測されたモデル予測分布を、オプションコンテンツ上の本質的な予測とオプションID上の事前分布に分解する。 その後、少数のテストサンプルでオプション内容の置換によって事前を推定し、その後のテストサンプルを嫌悪するために使用される。 ラベルのない推論時間法として、PriDeは強力なベースラインよりも効率的で計算効率の良いデバイアスを実現する。 さらに、PriDeが見積もった事前予測が、異なるドメインにまたがってうまく一般化し、より広いシナリオにおけるその実践的可能性を強調します。

Multi-choice questions (MCQs) serve as a common yet important task format in the research of large language models (LLMs). Our work shows that LLMs exhibit an inherent "selection bias" in MCQs, which refers to LLMs' preferences to select options located at specific positions (like "Option C"). This bias is prevalent across various LLMs, making their performance vulnerable to option position changes in MCQs. We identify that one primary cause resulting in selection bias is option numbering, i.e., the ID symbols A/B/C/D associated with the options. To mitigate selection bias, we propose a new method called PriDe. PriDe first decomposes the observed model prediction distribution into an intrinsic prediction over option contents and a prior distribution over option IDs. It then estimates the prior by permutating option contents on a small number of test samples, which is used to debias the subsequent test samples. We demonstrate that, as a label-free, inference-time method, PriDe achieves a more effective and computation-efficient debiasing than strong baselines. We further show that the priors estimated by PriDe generalize well across different domains, highlighting its practical potential in broader scenarios.
翻訳日:2023-09-08 11:57:14 公開日:2023-09-07
# ドメイン適応のためのより良い実践

Better Practices for Domain Adaptation ( http://arxiv.org/abs/2309.03879v1 )

ライセンス: Link先を確認
Linus Ericsson, Da Li and Timothy M. Hospedales(参考訳) 分散シフトは、機械学習の現実世界のアプリケーションではあまりにも一般的です。 ドメイン適応(da)は、ラベルを使わずにデプロイデータにモデルを適用するためのフレームワークを提供することで、これに対処することを目的としています。 しかし、ドメインシフトシナリオは、ラベル付き検証セットにアクセスせずにこれらの適応アルゴリズムに対してハイパーパラメータ最適化(HPO)を実行することの難しさという、さらに微妙な問題を引き起こす。 DAの不明瞭な検証プロトコルは、現実のシナリオでは利用できない場合、ターゲットテストラベルを使用してHPOを実行するなど、文学における悪い実践につながっている。 これは現実と比較してda研究の進展を過大に最適化する結果となった。 本稿では,適切な評価手法を用いてDAの状態を分析し,候補検証基準のベンチマークを行い,それを一般的な適応アルゴリズムの評価に用いる。 本稿では、Unsupervised Domain Adaptation (UDA)、Source-Free Domain Adaptation (SFDA)、Test Time Adaptation (TTA)の3つの分野にまたがる課題について述べる。 その結果、現実的に達成可能なパフォーマンスは期待以上に悪い場合が多いが、適切なバリデーションスプリットを使用することが有益であると同時に、これまで未調査だったバリデーションメトリクスが、これまでで最も優れた選択肢を提供していることも示している。 さらに、データ、トレーニング、検証、ハイパーパラメータ最適化に関する私たちの改善されたプラクティスは、ベンチマークを改善するための新たな厳格なパイプラインを形成します。

Distribution shifts are all too common in real-world applications of machine learning. Domain adaptation (DA) aims to address this by providing various frameworks for adapting models to the deployment data without using labels. However, the domain shift scenario raises a second more subtle challenge: the difficulty of performing hyperparameter optimisation (HPO) for these adaptation algorithms without access to a labelled validation set. The unclear validation protocol for DA has led to bad practices in the literature, such as performing HPO using the target test labels when, in real-world scenarios, they are not available. This has resulted in over-optimism about DA research progress compared to reality. In this paper, we analyse the state of DA when using good evaluation practice, by benchmarking a suite of candidate validation criteria and using them to assess popular adaptation algorithms. We show that there are challenges across all three branches of domain adaptation methodology including Unsupervised Domain Adaptation (UDA), Source-Free Domain Adaptation (SFDA), and Test Time Adaptation (TTA). While the results show that realistically achievable performance is often worse than expected, they also show that using proper validation splits is beneficial, as well as showing that some previously unexplored validation metrics provide the best options to date. Altogether, our improved practices covering data, training, validation and hyperparameter optimisation form a new rigorous pipeline to improve benchmarking, and hence research progress, within this important field going forward.
翻訳日:2023-09-08 11:56:51 公開日:2023-09-07
# 会話型データサイエンスのための"forecast utterance"の導入

Introducing "Forecast Utterance" for Conversational Data Science ( http://arxiv.org/abs/2309.03877v1 )

ライセンス: Link先を確認
Md Mahadi Hassan, Alex Knipper, Shubhra Kanti Karmaker (Santu)(参考訳) 機械学習(ML)プロセスの詳細な知識を必要とせずに、直感的で自然な会話を通じて予測タスクの実行を支援するインテリジェントエージェントを構想する。 この取り組みにおいてエージェントにとって重要な課題は、ユーザの予測目標を正確に理解し、その結果、正確なMLタスクを定式化することである。 本稿では,この野心的目標に向けて,予測発話という新しい概念を導入し,それらの発話からユーザの予測目標を自動的かつ正確に解釈することに焦点を当て,先駆的な一歩を踏み出す。 具体的には、各スロットが目標予測タスクの特定の側面に対応するスロット充足問題としてタスクをフレーム化する。 次に、スロット充填タスクの解決に2つのゼロショット法、すなわち: 1)エンティティ抽出(EE)及び 2)質問応答(qa)技術。 3つの厳密なデータセットを用いて実験を行い、我々の野心的な目標の実現可能性を検証するとともに、予測発話の解釈におけるEEおよびQA技術の有効性を実証した。

Envision an intelligent agent capable of assisting users in conducting forecasting tasks through intuitive, natural conversations, without requiring in-depth knowledge of the underlying machine learning (ML) processes. A significant challenge for the agent in this endeavor is to accurately comprehend the user's prediction goals and, consequently, formulate precise ML tasks. In this paper, we take a pioneering step towards this ambitious goal by introducing a new concept called Forecast Utterance and then focus on the automatic and accurate interpretation of users' prediction goals from these utterances. Specifically, we frame the task as a slot-filling problem, where each slot corresponds to a specific aspect of the goal prediction task. We then employ two zero-shot methods for solving the slot-filling task, namely: 1) Entity Extraction (EE), and 2) Question-Answering (QA) techniques. Our experiments, conducted with three meticulously crafted data sets, validate the viability of our ambitious goal and demonstrate the effectiveness of both EE and QA techniques in interpreting Forecast Utterances.
翻訳日:2023-09-08 11:56:25 公開日:2023-09-07
# OpinionGPT: 命令修飾LDMにおける明示的ビアーゼのモデル化

OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs ( http://arxiv.org/abs/2309.03876v1 )

ライセンス: Link先を確認
Patrick Haller, Ansar Aynetdinov, Alan Akbik(参考訳) 命令調整型大規模言語モデル(LLM)は、最近、自然言語命令に適合する応答を生成する顕著な能力を示した。 しかしながら、オープンな研究課題は、訓練されたモデルの本質的なバイアスとその応答に関するものである。 例えば、llmをチューニングするために使用されるデータが特定の政治的偏見を持つ人によって支配的に書かれた場合、このバイアスを共有するために生成された回答が期待できる。 現在の研究は、そのようなモデルのバイアスを減らしたり、バイアスのある答えを抑えることを目指している。 このデモンストレーションでは、インストラクションチューニングにおけるバイアスについて、別の見方を採っている: それらを抑制するのではなく、明示的で透明なものにすることを目指している。 この目的のために,ユーザが質問し,調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを紹介する。 デモでは、選択したバイアスを表すテキストに微調整されたモデルを使って、この質問に答える。 基礎となるモデルをトレーニングするために,11種類の異なるバイアス(政治的,地理的,性別,年齢)を特定し,各回答が1人の人口構成員によって書かれた学習コーパスを作成した。 本稿では,バイアス認識モデルをトレーニングした上で,webアプリケーションを紹介する(https://opiniongpt.informatik.hu-berlin.de)。

Instruction-tuned Large Language Models (LLMs) have recently showcased remarkable ability to generate fitting responses to natural language instructions. However, an open research question concerns the inherent biases of trained models and their responses. For instance, if the data used to tune an LLM is dominantly written by persons with a specific political bias, we might expect generated answers to share this bias. Current research work seeks to de-bias such models, or suppress potentially biased answers. With this demonstration, we take a different view on biases in instruction-tuning: Rather than aiming to suppress them, we aim to make them explicit and transparent. To this end, we present OpinionGPT, a web demo in which users can ask questions and select all biases they wish to investigate. The demo will answer this question using a model fine-tuned on text representing each of the selected biases, allowing side-by-side comparison. To train the underlying model, we identified 11 different biases (political, geographic, gender, age) and derived an instruction-tuning corpus in which each answer was written by members of one of these demographics. This paper presents OpinionGPT, illustrates how we trained the bias-aware model and showcases the web application (available at https://opiniongpt.informatik.hu-berlin.de).
翻訳日:2023-09-08 11:56:07 公開日:2023-09-07
# 弱監視・教師なしローカライゼーションタスクのためのボックスベースリファインメント

Box-based Refinement for Weakly Supervised and Unsupervised Localization Tasks ( http://arxiv.org/abs/2309.03874v1 )

ライセンス: Link先を確認
Eyal Gomel, Tal Shaharabany and Lior Wolf(参考訳) ボックス型検出器ネットワークの訓練は, 弱教師付きおよび非教師付き手法の局所化性能を向上させることが確立されている。 さらに,これらの検出器を元のネットワークを改善するために利用し,さらなる発展に向けた道筋を開くことを実証することで,この理解を深める。 これを実現するため、画像データの代わりにネットワーク出力上に検出器をトレーニングし、適切な損失バックプロパゲーションを適用する。 本研究は,「探す」タスクの語句接頭辞の大幅な改善と,教師なしオブジェクト発見の様々な方法を明らかにするものである。 私たちのコードはhttps://github.com/eyalgomel/box-based-refinementで利用可能です。

It has been established that training a box-based detector network can enhance the localization performance of weakly supervised and unsupervised methods. Moreover, we extend this understanding by demonstrating that these detectors can be utilized to improve the original network, paving the way for further advancements. To accomplish this, we train the detectors on top of the network output instead of the image data and apply suitable loss backpropagation. Our findings reveal a significant improvement in phrase grounding for the ``what is where by looking'' task, as well as various methods of unsupervised object discovery. Our code is available at https://github.com/eyalgomel/box-based-refinement.
翻訳日:2023-09-08 11:55:43 公開日:2023-09-07
# システム同定の非漸近理論に関するチュートリアル

A Tutorial on the Non-Asymptotic Theory of System Identification ( http://arxiv.org/abs/2309.03873v1 )

ライセンス: Link先を確認
Ingvar Ziemann, Anastasios Tsiamis, Bruce Lee, Yassir Jedra, Nikolai Matni, George J. Pappas(参考訳) このチュートリアルは、-主に線形システム識別の理論において、最近開発された非漸近的手法の紹介となる。 我々は,この領域の様々な問題,例えば被覆技術,ハンソン・ライト不等式,および自己正規化マルティンガレの方法など,特に有用と考えられるツールを強調した。 次に、これらのツールを用いて、自己回帰モデルにおけるパラメータを識別する様々な最小二乗推定器の性能の合理化の証明を行う。 結論として,ここで提示したアイデアを非線形同定問題に拡張する方法について考察する。

This tutorial serves as an introduction to recently developed non-asymptotic methods in the theory of -- mainly linear -- system identification. We emphasize tools we deem particularly useful for a range of problems in this domain, such as the covering technique, the Hanson-Wright Inequality and the method of self-normalized martingales. We then employ these tools to give streamlined proofs of the performance of various least-squares based estimators for identifying the parameters in autoregressive models. We conclude by sketching out how the ideas presented herein can be extended to certain nonlinear identification problems.
翻訳日:2023-09-08 11:55:29 公開日:2023-09-07
# 音声・視覚マイズショット学習のためのテキストから特徴への拡散

Text-to-feature diffusion for audio-visual few-shot learning ( http://arxiv.org/abs/2309.03869v1 )

ライセンス: Link先を確認
Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata(参考訳) 視聴覚データからビデオ分類のためのディープラーニングモデルのトレーニングには、コストのかかるプロセスで収集された大量のラベル付きトレーニングデータが必要である。 挑戦的で過度に探索されたセットアップは、ビデオデータからわずかに学習する。 特に、音声や視覚情報を含むビデオデータの本質的にマルチモーダルな性質は、ビデオ分類作業において広く活用されていない。 そこで,本研究では,VGGSound-FSL,UCF-FSL,ActivityNet-FSLの3つのデータセットに対して,統合された音声・視覚ビデオ分類ベンチマークを導入する。 さらに,まず時間的および音声的特徴をクロスモーダルな注意を通して融合し,その後,新たなクラスに対してマルチモーダルな特徴を生成する,音声間拡散フレームワークであるav-diffを提案する。 av-diffは,提案する音声(一般)マイノショット学習のベンチマークにおいて,最先端のパフォーマンスが得られることを示す。 本ベンチマークでは,限られたラベル付きデータしか利用できない場合に,効果的な音声視覚分類を行う方法について検討した。 コードとデータはhttps://github.com/ExplainableML/AVDIFF-GFSLで公開されている。

Training deep learning models for video classification from audio-visual data commonly requires immense amounts of labeled training data collected via a costly process. A challenging and underexplored, yet much cheaper, setup is few-shot learning from video data. In particular, the inherently multi-modal nature of video data with sound and visual information has not been leveraged extensively for the few-shot video classification task. Therefore, we introduce a unified audio-visual few-shot video classification benchmark on three datasets, i.e. the VGGSound-FSL, UCF-FSL, ActivityNet-FSL datasets, where we adapt and compare ten methods. In addition, we propose AV-DIFF, a text-to-feature diffusion framework, which first fuses the temporal and audio-visual features via cross-modal attention and then generates multi-modal features for the novel classes. We show that AV-DIFF obtains state-of-the-art performance on our proposed benchmark for audio-visual (generalised) few-shot learning. Our benchmark paves the way for effective audio-visual classification when only limited labeled data is available. Code and data are available at https://github.com/ExplainableML/AVDIFF-GFSL.
翻訳日:2023-09-08 11:55:21 公開日:2023-09-07
# ImageBind-LLM:マルチモードインストラクションチューニング

ImageBind-LLM: Multi-modality Instruction Tuning ( http://arxiv.org/abs/2309.03905v1 )

ライセンス: Link先を確認
Jiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao(参考訳) ImageBind-LLMは,大規模言語モデル(LLM)のマルチモーダル・インストラクション・チューニング手法である。 既存の作業は主に言語とイメージのチューニングに重点を置いており、それとは違って、ImageBind-LLMは、音声、3Dポイントクラウド、ビデオ、および画像テキストアライメントトレーニングのみによる埋め込み空間演算を含むマルチモーダルな条件に対応できる。 トレーニング中、LLaMAとImageBindの画像エンコーダの埋め込み空間を整列するために学習可能なバインドネットワークを採用する。 次に、バインドネットワークによって変換された画像特徴をLLaMAのすべてのレイヤのワードトークンに追加し、無注意かつゼロ初期化ゲーティング機構を介して視覚的指示を段階的に注入する。 ImageBindの組込みにより、簡単な画像テキストトレーニングにより、より優れたマルチモード命令追従能力が得られる。 推論中、マルチモーダル入力は対応するImageBindエンコーダに入力され、提案したビジュアルキャッシュモデルにより処理され、さらなるクロスモーダル埋め込み拡張を行う。 トレーニングフリーキャッシュモデルは、ImageBindによって抽出された300万の画像特徴から抽出される。 特に,我々のアプローチでは,imagebind-llmは多様なモダリティの指示に応答し,重要な言語生成品質を示すことができる。 コードはhttps://github.com/OpenGVLab/LLaMA-Adapterで公開されている。

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.
翻訳日:2023-09-08 11:50:35 公開日:2023-09-07
# テキスト条件画像合成のためのGANにおけるスパースMoEの探索

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis ( http://arxiv.org/abs/2309.03904v1 )

ライセンス: Link先を確認
Jiapeng Zhu, Ceyuan Yang, Kecheng Zheng, Yinghao Xu, Zifan Shi, Yujun Shen(参考訳) スケールアップの難しさから,GAN(Generative Adversarial Network)はテキスト条件による画像合成のタスクにおいて優雅さから外れているようである。 Sparsely-activated mixed-of-experts (MoE) は、計算資源が限られている大規模モデルのトレーニングに有効なソリューションとして最近実証されている。 このような哲学にインスパイアされたauroraは、ganベースのテキストから画像へのジェネレータで、機能処理を学ぶための専門家の集まりと、各機能ポイントに最も適した専門家を選択するためのスパースルータを備えています。 サンプリング確率性とテキスト条件を最終合成に忠実に復号するために,本ルータは,テキスト統合グローバル潜在コードを考慮し,適応的に決定を行う。 64x64画像解像度では, LAION2B-enとCOYO-700Mでトレーニングしたモデルで, MS COCOで0ショットFIDを6.2達成した。 コミュニティのさらなる開発を促進するために、コードとチェックポイントをリリースします。

Due to the difficulty in scaling up, generative adversarial networks (GANs) seem to be falling from grace on the task of text-conditioned image synthesis. Sparsely-activated mixture-of-experts (MoE) has recently been demonstrated as a valid solution to training large-scale models with limited computational resources. Inspired by such a philosophy, we present Aurora, a GAN-based text-to-image generator that employs a collection of experts to learn feature processing, together with a sparse router to help select the most suitable expert for each feature point. To faithfully decode the sampling stochasticity and the text condition to the final synthesis, our router adaptively makes its decision by taking into account the text-integrated global latent code. At 64x64 image resolution, our model trained on LAION2B-en and COYO-700M achieves 6.2 zero-shot FID on MS COCO. We release the code and checkpoints to facilitate the community for further development.
翻訳日:2023-09-08 11:50:07 公開日:2023-09-07
# デカップリングビデオセグメンテーションによるトラッキング

Tracking Anything with Decoupled Video Segmentation ( http://arxiv.org/abs/2309.03903v1 )

ライセンス: Link先を確認
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee(参考訳) ビデオセグメンテーションのトレーニングデータはアノテートに費用がかかる。 これは、特に大語彙設定において、新しいビデオセグメンテーションタスクへのエンドツーエンドアルゴリズムの拡張を妨げる。 個々のタスク毎にビデオデータをトレーニングすることなく「何でも追跡する」ために、タスク固有の画像レベルのセグメンテーションと、クラス/タスク非依存な双方向時間伝搬からなるデカップリングビデオセグメンテーションアプローチ(deva)を開発した。 この設計のため、ターゲットタスクのイメージレベルモデル(訓練コストが安い)と、タスクを一度訓練し、複数のタスクを一般化する普遍的時間伝搬モデルのみが必要である。 これら2つのモジュールを効果的に組み合わせるために、異なるフレームからのセグメンテーション仮説の(半)オンライン融合に双方向の伝搬を用いてコヒーレントセグメンテーションを生成する。 提案手法は,大語彙ビデオパオプティカルセグメンテーション,オープンワールドビデオセグメンテーション,参照ビデオセグメンテーション,教師なしビデオオブジェクトセグメンテーションなど,いくつかのデータ収集作業において,エンド・ツー・エンドのアプローチと好適に比較できることを示す。 コードは、https://hkchengrex.github.io/Tracking-Anything-with-DEVAで入手できる。

Training data for video segmentation are expensive to annotate. This impedes extensions of end-to-end algorithms to new video segmentation tasks, especially in large-vocabulary settings. To 'track anything' without training on video data for every individual task, we develop a decoupled video segmentation approach (DEVA), composed of task-specific image-level segmentation and class/task-agnostic bi-directional temporal propagation. Due to this design, we only need an image-level model for the target task (which is cheaper to train) and a universal temporal propagation model which is trained once and generalizes across tasks. To effectively combine these two modules, we use bi-directional propagation for (semi-)online fusion of segmentation hypotheses from different frames to generate a coherent segmentation. We show that this decoupled formulation compares favorably to end-to-end approaches in several data-scarce tasks including large-vocabulary video panoptic segmentation, open-world video segmentation, referring video segmentation, and unsupervised video object segmentation. Code is available at: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
翻訳日:2023-09-08 11:49:48 公開日:2023-09-07
# 単一画像HDR再構成のための連続露光値表現の学習

Learning Continuous Exposure Value Representations for Single-Image HDR Reconstruction ( http://arxiv.org/abs/2309.03900v1 )

ライセンス: Link先を確認
Su-Kai Chen, Hung-Lin Yen, Yu-Lun Liu, Min-Hung Chen, Hou-Ning Hu, Wen-Hsiao Peng, Yen-Yu Lin(参考訳) ディープラーニングは一般的に、LDR画像からHDR画像を再構成するために使用される。 LDRスタックに基づく手法は, 深層学習により生成されたHDRスタックからHDR画像を生成する単一像HDR再構成に使用される。 しかし、現在の方法は、hdr再構成の品質を制限できる所定の露光値(evs)を持つスタックを生成する。 そこで本研究では,任意のevを持つldr画像を生成するための暗黙的関数を用いた連続露光値表現(cevr)を提案する。 提案手法は,多様なEVを含む画像の連続スタックを生成し,HDR再構成を大幅に改善する。 我々は,連続したev ldr画像を生成する際に,対応する基底的真理を伴わずにモデルを監視するためのサイクルトレーニング戦略を用いる。 我々のCEVRモデルは,実験結果から示すように,既存の手法よりも優れている。

Deep learning is commonly used to reconstruct HDR images from LDR images. LDR stack-based methods are used for single-image HDR reconstruction, generating an HDR image from a deep learning-generated LDR stack. However, current methods generate the stack with predetermined exposure values (EVs), which may limit the quality of HDR reconstruction. To address this, we propose the continuous exposure value representation (CEVR), which uses an implicit function to generate LDR images with arbitrary EVs, including those unseen during training. Our approach generates a continuous stack with more images containing diverse EVs, significantly improving HDR reconstruction. We use a cycle training strategy to supervise the model in generating continuous EV LDR images without corresponding ground truths. Our CEVR model outperforms existing methods, as demonstrated by experimental results.
翻訳日:2023-09-08 11:49:23 公開日:2023-09-07
# カモフラージュの製作と破壊

The Making and Breaking of Camouflage ( http://arxiv.org/abs/2309.03899v1 )

ライセンス: Link先を確認
Hala Lamdouar, Weidi Xie, Andrew Zisserman(参考訳) すべてのカモフラージュが等しく有効であるわけではなく、部分的に見える輪郭やわずかな色の違いが動物を目立たせ、カモフラージュを壊す可能性がある。 本稿では,カモフラージュを成功させる要因について,その効果を自動的に評価するための3つのスコアを提案する。 特に,背景特徴と前景特徴の類似性と境界視認性によってカモフラージュを計測できることを示す。 これらのカモフラージュスコアを使用して、利用可能なすべてのカモフラージュデータセットを評価し、比較する。 また,提案するカモフラージュスコアを補助損失として生成モデルに組み込むことにより,効果的なカモフラージュ画像や映像をスケーラブルに合成できることを示す。 生成された合成データセットは、ビデオで迷彩動物をセグメンテーションするためのトランスフォーマーベースのモデルを訓練するために使用される。 実験では,MoCA-Maskベンチマークを用いて,最先端のカモフラージュ破壊性能を示す。

Not all camouflages are equally effective, as even a partially visible contour or a slight color difference can make the animal stand out and break its camouflage. In this paper, we address the question of what makes a camouflage successful, by proposing three scores for automatically assessing its effectiveness. In particular, we show that camouflage can be measured by the similarity between background and foreground features and boundary visibility. We use these camouflage scores to assess and compare all available camouflage datasets. We also incorporate the proposed camouflage score into a generative model as an auxiliary loss and show that effective camouflage images or videos can be synthesised in a scalable manner. The generated synthetic dataset is used to train a transformer-based model for segmenting camouflaged animals in videos. Experimentally, we demonstrate state-of-the-art camouflage breaking performance on the public MoCA-Mask benchmark.
翻訳日:2023-09-08 11:49:09 公開日:2023-09-07
# ProPainter: ビデオインペイントのためのプロパゲーションとトランスフォーマーの改善

ProPainter: Improving Propagation and Transformer for Video Inpainting ( http://arxiv.org/abs/2309.03897v1 )

ライセンス: Link先を確認
Shangchen Zhou, Chongyi Li, Kelvin C.K. Chan, Chen Change Loy(参考訳) フローベースの伝搬と時空間トランスフォーマーはビデオインペイント(VI)における2つの主要なメカニズムである。 これらのコンポーネントの有効性にも拘わらず、パフォーマンスに影響を与えるいくつかの制限に苦しめられている。 従来の伝搬に基づくアプローチは、画像または特徴領域で別々に実行される。 学習から分離された大域的な画像伝播は、不正確な光流による空間的不均衡を引き起こす可能性がある。 さらに、メモリや計算の制約により、特徴伝播とビデオトランスフォーマーの時間範囲が制限され、遠隔フレームからの対応情報の探索が防止される。 これらの問題に対処するため,ProPagationとTransformerを改良したProPainterというフレームワークを提案する。 具体的には,画像と特徴ウォーピングの利点を併せ持つデュアルドメイン伝搬を導入し,グローバル対応を確実に活用する。 また,不要かつ冗長なトークンを捨てることで高効率を実現するマスク誘導スパースビデオトランスも提案する。 これらの部品により、ProPainterはPSNRで1.46dBの大差で先行技術より優れ、魅力ある効率を維持している。

Flow-based propagation and spatiotemporal Transformer are two mainstream mechanisms in video inpainting (VI). Despite the effectiveness of these components, they still suffer from some limitations that affect their performance. Previous propagation-based approaches are performed separately either in the image or feature domain. Global image propagation isolated from learning may cause spatial misalignment due to inaccurate optical flow. Moreover, memory or computational constraints limit the temporal range of feature propagation and video Transformer, preventing exploration of correspondence information from distant frames. To address these issues, we propose an improved framework, called ProPainter, which involves enhanced ProPagation and an efficient Transformer. Specifically, we introduce dual-domain propagation that combines the advantages of image and feature warping, exploiting global correspondences reliably. We also propose a mask-guided sparse video Transformer, which achieves high efficiency by discarding unnecessary and redundant tokens. With these components, ProPainter outperforms prior arts by a large margin of 1.46 dB in PSNR while maintaining appealing efficiency.
翻訳日:2023-09-08 11:48:16 公開日:2023-09-07
# InstructDiffusion:視覚タスクのための汎用モデリングインタフェース

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks ( http://arxiv.org/abs/2309.03895v1 )

ライセンス: Link先を確認
Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, Baining Guo(参考訳) 本稿では,コンピュータビジョンタスクとヒューマンインストラクションを統一した汎用フレームワークinstructdiffusionを提案する。 先行知識を統合し、各視覚タスクの出力空間(例えばカテゴリと座標)を事前に定義する既存のアプローチとは異なり、出力空間がフレキシブルでインタラクティブなピクセル空間である人間の直感的な画像操作プロセスに様々な視覚タスクを投入する。 具体的には、拡散過程に基づいて構築され、男性の左肩を赤く囲む、または左車に青いマスクを塗るなど、ユーザの指示に従ってピクセルを予測するように訓練される。 InstructDiffusionは、セグメンテーションやキーポイント検出といった)タスクの理解や生成タスク(編集や拡張など)など、さまざまな視覚タスクを処理することができる。 目に見えないタスクを処理し、新しいデータセットで以前のメソッドを上回ることさえできる。 これは、ビジョンタスクのためのジェネラリストモデリングインタフェース、コンピュータビジョンの分野での人工知能の進歩への大きな一歩である。

We present InstructDiffusion, a unifying and generic framework for aligning computer vision tasks with human instructions. Unlike existing approaches that integrate prior knowledge and pre-define the output space (e.g., categories and coordinates) for each vision task, we cast diverse vision tasks into a human-intuitive image-manipulating process whose output space is a flexible and interactive pixel space. Concretely, the model is built upon the diffusion process and is trained to predict pixels according to user instructions, such as encircling the man's left shoulder in red or applying a blue mask to the left car. InstructDiffusion could handle a variety of vision tasks, including understanding tasks (such as segmentation and keypoint detection) and generative tasks (such as editing and enhancement). It even exhibits the ability to handle unseen tasks and outperforms prior methods on novel datasets. This represents a significant step towards a generalist modeling interface for vision tasks, advancing artificial general intelligence in the field of computer vision.
翻訳日:2023-09-08 11:47:33 公開日:2023-09-07
# DiffusionEngine: Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジン

DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection ( http://arxiv.org/abs/2309.03893v1 )

ライセンス: Link先を確認
Manlin Zhang, Jie Wu, Yuxi Ren, Ming Li, Jie Qin, Xuefeng Xiao, Wei Liu, Rui Wang, Min Zheng, Andy J. Ma(参考訳) 深層学習の基盤はデータだ。 本稿では,最近開発された拡散モデルが,オブジェクト検出のためのスケーラブルなデータエンジンであることを示す。 既存の検出指向データのスケールアップ方法は、しばしば、目標画像を得るために手動の収集または生成モデルを必要とし、続いてデータ拡張とラベル付けによって、コストが高く、複雑で、多様性に欠けるトレーニングペアを生成する。 これらの問題に対処するために,我々は,高品質な検出指向のトレーニングペアを単一ステージで提供するデータスケーリングエンジンであるdiffusionengine(de)を提案する。 deは、事前学習された拡散モデルと効果的な検出適応モデルで構成され、プラグ・アンド・プレイ方式でスケーラブルで多様で一般化可能な検出データを生成するのに寄与する。 Detection-Adapterは、オフザシェルフ拡散モデルにおける暗黙的な意味と位置の知識を検出認識信号と整合させて、バウンディングボックス予測を改善する。 さらに,COCO-DEとVOC-DEという2つのデータセットをコントリビュートして,既存の検出ベンチマークをスケールアップし,追跡調査を容易にする。 大規模な実験により、DEによるデータのスケールアップは、さまざまな検出アルゴリズム、自己教師付き事前トレーニング、データスパース、ラベルスカース、クロスドメイン、半教師付き学習など、さまざまなシナリオで大幅に改善できることが示された。 例えば、DINOベースのアダプタを使ってデータをスケールアップする場合、mAPはCOCOで3.1%、VOCで7.6%、Clipartで11.5%改善される。

Data is the cornerstone of deep learning. This paper reveals that the recently developed Diffusion Model is a scalable data engine for object detection. Existing methods for scaling up detection-oriented data often require manual collection or generative models to obtain target images, followed by data augmentation and labeling to produce training pairs, which are costly, complex, or lacking diversity. To address these issues, we presentDiffusionEngine (DE), a data scaling-up engine that provides high-quality detection-oriented training pairs in a single stage. DE consists of a pre-trained diffusion model and an effective Detection-Adapter, contributing to generating scalable, diverse and generalizable detection data in a plug-and-play manner. Detection-Adapter is learned to align the implicit semantic and location knowledge in off-the-shelf diffusion models with detection-aware signals to make better bounding-box predictions. Additionally, we contribute two datasets, i.e., COCO-DE and VOC-DE, to scale up existing detection benchmarks for facilitating follow-up research. Extensive experiments demonstrate that data scaling-up via DE can achieve significant improvements in diverse scenarios, such as various detection algorithms, self-supervised pre-training, data-sparse, label-scarce, cross-domain, and semi-supervised learning. For example, when using DE with a DINO-based adapter to scale up data, mAP is improved by 3.1% on COCO, 7.6% on VOC, and 11.5% on Clipart.
翻訳日:2023-09-08 11:47:15 公開日:2023-09-07
# ArtiGrasp: バイマニュアルデキスタラスグラフプとアーティキュレーションの物理的に可塑性な合成

ArtiGrasp: Physically Plausible Synthesis of Bi-Manual Dexterous Grasping and Articulation ( http://arxiv.org/abs/2309.03891v1 )

ライセンス: Link先を確認
Hui Zhang, Sammy Christen, Zicong Fan, Luocheng Zheng, Jemin Hwangbo, Jie Song, Otmar Hilliges(参考訳) そこで本研究では,把持と調音を含む2次元ハンドオブジェクトインタラクションを合成する新しい手法であるartigraspを提案する。 この課題は、大域的な手首の動きの多様性と、物体の明瞭化に必要な精密な指制御のためである。 ArtiGraspは、強化学習と物理シミュレーションを利用して、グローバルおよびローカルハンドポーズを制御するポリシーをトレーニングする。 提案手法は,単一姿勢参照によって導かれる単一方針における把握と明瞭化を統一する。 さらに,調音に必要な正確な指制御の訓練を容易にするために,難易度を増す学習カリキュラムを提案する。 静止オブジェクトの片手操作から始まり、手と非静止オブジェクトの両方を含むマルチエージェントトレーニングへと続く。 提案手法を評価するために,対象物を対象のポーズに投入する作業である動的オブジェクトグラスピングとArticulationを導入する。 このタスクには、把持、転位、調音が必要です。 我々はこの課題に対する我々の方法の有効性を示す。 さらに,本手法は,市販画像ベース回帰器からノイズの多い手動ポーズ推定を行うことができることを示す。

We present ArtiGrasp, a novel method to synthesize bi-manual hand-object interactions that include grasping and articulation. This task is challenging due to the diversity of the global wrist motions and the precise finger control that are necessary to articulate objects. ArtiGrasp leverages reinforcement learning and physics simulations to train a policy that controls the global and local hand pose. Our framework unifies grasping and articulation within a single policy guided by a single hand pose reference. Moreover, to facilitate the training of the precise finger control required for articulation, we present a learning curriculum with increasing difficulty. It starts with single-hand manipulation of stationary objects and continues with multi-agent training including both hands and non-stationary objects. To evaluate our method, we introduce Dynamic Object Grasping and Articulation, a task that involves bringing an object into a target articulated pose. This task requires grasping, relocation, and articulation. We show our method's efficacy towards this task. We further demonstrate that our method can generate motions with noisy hand-object pose estimates from an off-the-shelf image-based regressor.
翻訳日:2023-09-08 11:46:42 公開日:2023-09-07
# SpookyNet: 絡み合い検出のための畳み込みニューラルネットワークによる量子システム解析の進歩

SpookyNet: Advancement in Quantum System Analysis through Convolutional Neural Networks for Detection of Entanglement ( http://arxiv.org/abs/2309.03890v1 )

ライセンス: Link先を確認
Ali Kookani, Yousef Mafi, Payman Kazemikhah, Hossein Aghababa, Kazim Fouladi, Masoud Barati(参考訳) 量子情報理論における機械学習モデルの適用は近年急増しており、この分野の本質である絡み合いと量子状態の認識によって推進されている。 しかし、これらの研究のほとんどは既存のプレハブモデルに依存しており、精度が不十分である。 この研究は、量子システムに適したカスタムディープ畳み込みニューラルネットワーク(CNN)モデルを導入することで、このギャップを埋めることを目的としている。 我々の提案したCNNモデルであるSpookyNetは、量子システム固有の複素数データを扱うという課題を効果的に克服し、98.5%の精度を達成する。 このカスタムモデルの開発は、量子状態を解析し理解する能力を高めます。 しかし、まず第一に、量子状態は、完全かつ部分的に絡み合った状態を調べるために、より正確に分類されるべきである。 機械学習と量子情報理論が量子システム分析に統合されると、様々な視点やアプローチが現れ、この分野における革新的な洞察とブレークスルーの道を開く。

The application of machine learning models in quantum information theory has surged in recent years, driven by the recognition of entanglement and quantum states, which are the essence of this field. However, most of these studies rely on existing prefabricated models, leading to inadequate accuracy. This work aims to bridge this gap by introducing a custom deep convolutional neural network (CNN) model explicitly tailored to quantum systems. Our proposed CNN model, the so-called SpookyNet, effectively overcomes the challenge of handling complex numbers data inherent to quantum systems and achieves an accuracy of 98.5%. Developing this custom model enhances our ability to analyze and understand quantum states. However, first and foremost, quantum states should be classified more precisely to examine fully and partially entangled states, which is one of the cases we are currently studying. As machine learning and quantum information theory are integrated into quantum systems analysis, various perspectives, and approaches emerge, paving the way for innovative insights and breakthroughs in this field.
翻訳日:2023-09-08 11:46:19 公開日:2023-09-07