このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230926となっている論文です。

PDF登録状況(公開日: 20230926)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルネットワークモデル内での攻撃を解除するステガノグラフィー

Disarming Steganography Attacks Inside Neural Network Models ( http://arxiv.org/abs/2309.03071v2 )

ライセンス: Link先を確認
Ran Dubin, (参考訳) オープンソースコード共有の革命と同様、人工知能(AI)モデル共有も人気が高まっている。 しかし、業界における急速な適応、認識の欠如、モデルを利用する能力の欠如により、攻撃ベクトルは著しく向上する。 マルウェアをニューロンに埋め込むことで、ニューラルネットワークのパフォーマンスに小さな、あるいはまったく影響を与えずに、マルウェアを秘密裏に配信することができる。 LSBはモデル精度に最小限の影響しか与えないため、隠蔽攻撃はLSB重み攻撃(Last Significant Bits)を使用する。 攻撃を隠すには無限の方法があるので、AIモデル攻撃の武装解除と再構築に基づくゼロトラスト防止戦略に注力する。 本研究は,3種類のモデルステガノグラフィー・デザーム防御機構について提案した。 最初の2つはランダムビット置換ノイズに基づいており、もう1つはモデルウェイト量子化に基づいている。 本稿では,Qint8法とK-LRBP法に基づくモデル精度の低下を最小限に抑えるとともに,AIのセキュリティ向上に欠かせない要因である100\%の防止率を示す。

Similar to the revolution of open source code sharing, Artificial Intelligence (AI) model sharing is gaining increased popularity. However, the fast adaptation in the industry, lack of awareness, and ability to exploit the models make them significant attack vectors. By embedding malware in neurons, the malware can be delivered covertly, with minor or no impact on the neural network's performance. The covert attack will use the Least Significant Bits (LSB) weight attack since LSB has a minimal effect on the model accuracy, and as a result, the user will not notice it. Since there are endless ways to hide the attacks, we focus on a zero-trust prevention strategy based on AI model attack disarm and reconstruction. We proposed three types of model steganography weight disarm defense mechanisms. The first two are based on random bit substitution noise, and the other on model weight quantization. We demonstrate a 100\% prevention rate while the methods introduce a minimal decrease in model accuracy based on Qint8 and K-LRBP methods, which is an essential factor for improving AI security.
翻訳日:2024-03-25 23:09:29 公開日:2023-09-26
# IPv6フラグメントハンドリングの新しいモデル

A New Model for Testing IPv6 Fragment Handling ( http://arxiv.org/abs/2309.03525v2 )

ライセンス: Link先を確認
Edoardo Di Paolo, Enrico Bassetti, Angelo Spognardi, (参考訳) インターネットの起源以来、IPフラグメンテーションプロセスを利用する様々な脆弱性がIPv4プロトコルに悩まされ、その多くは広範囲の攻撃に繋がった。 IPv6は断片化の処理を修正し、広範囲にわたる文献で証明されたように、関連する問題を解決しない特定の拡張ヘッダを導入した。 問題の主な原因の1つは重複するフラグメントであり、再組み立て時に予期せぬまたは悪意のあるパケットが発生する。 断片化に関わる問題を克服するため、RFC 5722 の著者らは IPv6 ホストが MUST を静かに重複するフラグメントを降ろすことを決定した。 それ以来、IPv6ホストが重複するフラグメントを受け入れ、関連する攻撃に対して脆弱であるかどうかを確認する方法が提案されている。 しかし、上記の手法のいくつかは、完全に証明されていないか、より正確である必要がある。 本稿では,最新のオペレーティングシステムの再編成戦略に適したIPv6フラグメンテーション処理をチェックするための新しいモデルを提案する。 以前のモデルは、実際にはOSの再組み立てポリシーをバイトベースとしていた。 しかし、今日では、再組み立てポリシーは断片的であり、以前のモデルは不十分である。 我々のモデルはチェックサムの可換性を活用し、評価プロセス全体を単純化する。 この新モデルから、最新のオペレーティングシステムの RFC-5722 と RFC-9099 準拠を断片化処理に対してよりよく評価することができた。 我々の結果は、IPv6の断片化は依然として脅威であり、関連するセキュリティ問題を解決するにはより多くの努力が必要であることを示唆している。

Since the origins of the Internet, various vulnerabilities exploiting the IP fragmentation process have plagued IPv4 protocol, many leading to a wide range of attacks. IPv6 modified the handling of fragmentations and introduced a specific extension header, not solving the related problems, as proved by extensive literature. One of the primary sources of problems has been the overlapping fragments, which result in unexpected or malicious packets when reassembled. To overcome the problem related to fragmentation, the authors of RFC 5722 decided that IPv6 hosts MUST silently drop overlapping fragments. Since then, several studies have proposed methodologies to check if IPv6 hosts accept overlapping fragments and are still vulnerable to related attacks. However, some of the above methodologies have not been proven complete or need to be more accurate. In this paper we propose a novel model to check IPv6 fragmentation handling specifically suited for the reassembling strategies of modern operating systems. Previous models, indeed, considered OS reassembly policy as byte-based. However, nowadays, reassembly policies are fragment-based, making previous models inadequate. Our model leverages the commutative property of the checksum, simplifying the whole assessing process. Starting with this new model, we were able to better evaluate the RFC-5722 and RFC-9099 compliance of modern operating systems against fragmentation handling. Our results suggest that IPv6 fragmentation can still be considered a threat and that more effort is needed to solve related security issues.
翻訳日:2024-03-25 22:59:44 公開日:2023-09-26
# GitHubにおけるセキュリティ介入の有効性

The Effectiveness of Security Interventions on GitHub ( http://arxiv.org/abs/2309.04833v3 )

ライセンス: Link先を確認
Felix Fischer, Jonas Höbenreich, Jens Grossklags, (参考訳) 2017年、GitHubはユーザに対してセキュリティ警告を表示する最初のオンラインオープンソースプラットフォームとなった。 その後同社は、開発者が自身のオープンソースソフトウェアのセキュリティを改善するために、さらなるセキュリティ介入を導入した。 本研究では,これらの介入の効果について検討し,比較する。 これは、ソフトウェア開発の文脈におけるセキュリティ介入に関する貴重な実証的な視点を提供し、データ駆動の洞察で、主に質的で調査ベースの文献の景観を豊かにします。 セキュリティアラート、セキュリティアップデート、コードスキャンの介入による因果関係を推測するために、5万以上のGitHubリポジトリの大規模なサンプルの全履歴をカバーするセキュリティ修正コミットに関する時系列分析を行います。 私たちの分析によると、GitHubのすべてのセキュリティ介入は、セキュリティに重大な影響を与えるが、その効果サイズは大きく異なる。 各介入の設計を比較することで、うまく機能するビルディングブロックと、うまく機能しないビルディングブロックを識別する。 また,実践者が介入の設計を改善し,その効果を高めるためのレコメンデーションも提供する。

In 2017, GitHub was the first online open source platform to show security alerts to its users. It has since introduced further security interventions to help developers improve the security of their open source software. In this study, we investigate and compare the effects of these interventions. This offers a valuable empirical perspective on security interventions in the context of software development, enriching the predominantly qualitative and survey-based literature landscape with substantial data-driven insights. We conduct a time series analysis on security-altering commits covering the entire history of a large-scale sample of over 50,000 GitHub repositories to infer the causal effects of the security alert, security update, and code scanning interventions. Our analysis shows that while all of GitHub's security interventions have a significant positive effect on security, they differ greatly in their effect size. By comparing the design of each intervention, we identify the building blocks that worked well and those that did not. We also provide recommendations on how practitioners can improve the design of their interventions to enhance their effectiveness.
翻訳日:2024-03-25 14:25:04 公開日:2023-09-26
# RCTにおける差分プライバシーの有用性の評価

Assessing Utility of Differential Privacy for RCTs ( http://arxiv.org/abs/2309.14581v1 )

ライセンス: Link先を確認
Soumya Mukherjee, Aratrika Mustafi, Aleksandra Slavković, Lars Vilhuber, (参考訳) ランダム化制御試験(RCT)は、多くの文脈における介入や政策の影響を評価する強力なツールとなっている。 バイオメディカル分野や多くの社会科学における推論における金の標準とみなされている。 研究者は、推論の少なくとも一部にRCTに依存する研究が増えていることを公表し、これらの研究は典型的には、伝統的な開示制限法によって収集され、特定され、時には保護される応答データを含んでいる。 本稿では, 経済・政策分析における複製パッケージ(コンペンディアス)の利用性を利用して, RCTの公開分析に対する強力なプライバシ保護手法(ac{DP} 保証付き)の効果を実証的に評価する。 各種パラメトリゼーションの下でのプライバシ保護データに関する論文で、シミュレーション研究を行い、分析を再現する方法を実証する。 比較的単純なDPベースの手法では、これらの手法を用いることでより複雑な解析を制限できるが、公表されたデータの推測正当性を保護することができる。 結果は、特に低所得国や中所得国の状況において、RCTデータを強力なプライバシー保護で共有したい研究者に応用できる。

Randomized control trials, RCTs, have become a powerful tool for assessing the impact of interventions and policies in many contexts. They are considered the gold-standard for inference in the biomedical fields and in many social sciences. Researchers have published an increasing number of studies that rely on RCTs for at least part of the inference, and these studies typically include the response data collected, de-identified and sometimes protected through traditional disclosure limitation methods. In this paper, we empirically assess the impact of strong privacy-preservation methodology (with \ac{DP} guarantees), on published analyses from RCTs, leveraging the availability of replication packages (research compendia) in economics and policy analysis. We provide simulations studies and demonstrate how we can replicate the analysis in a published economics article on privacy-protected data under various parametrizations. We find that relatively straightforward DP-based methods allow for inference-valid protection of the published data, though computational issues may limit more complex analyses from using these methods. The results have applicability to researchers wishing to share RCT data, especially in the context of low- and middle-income countries, with strong privacy protection.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# 自己防衛能力を有するグループ署名の概念と構築

Concept and Construction of Group Signature with self-proof capacity for confirming and denying ( http://arxiv.org/abs/2309.14635v1 )

ライセンス: Link先を確認
Xiaogang Cheng, Ren Guo, (参考訳) プライバシ保護とトレーサビリティ特性により、グループシグネチャは暗号の中心的な役割を持つ暗号システムである。 アプリケーションのシナリオもたくさんあります。 グループシグネチャの新たな拡張概念、すなわち自己防御能力を持つグループシグネチャが提示される。 正当群シグネチャに対して、真のシグネチャは、そのシグネチャが実際に彼/彼女のシグネチャであることを示すことができる。 グループ内の他のメンバーは、署名が署名されていないことを証明できる。 前者は警察から報酬を請求するために、後者は刑事捜査における無実の証明に使用できる。

With privacy-preserving and traceability properties, group signature is a cryptosystem with central role in cryptography. And there are lots of application scenarios. A new extension concept of group signature is presented, namely group signature with self-proof capacity. For a legitimate group signature, the real signer can prove that the signature is indeed signed by him/her. While for the other members of the group, they can prove that the signature is not signed by him/her. The former can be used for claiming money reward from the police, while the latter can be used for proving one's innocent in a criminal investigation.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# 5Gサービスベースアーキテクチャのための公開鍵基盤

A Public Key Infrastructure for 5G Service-Based Architecture ( http://arxiv.org/abs/2309.14659v1 )

ライセンス: Link先を確認
Ayush Kumar, Vrizlynn L. L. Thing, (参考訳) 3GPP 5G Service-based Architecture (SBA) のセキュリティ仕様には、5G SBAの適切な公開鍵インフラストラクチャ(PKI)のセットアップ方法に関する詳細が記載されている。 本研究では,NFがネットワーク関数を参照する5G SBAコアネットワークにおいて,NF間通信をセキュアにするための公開鍵基盤である5G-SBA-PKIを提案する。 5G-SBA-PKIは、認証操作と通信NF間の鍵交換のための異なるPLMNレベルの複数の認証当局を含むように設計されている。 我々は, 5G-SBA-PKI を TAMARIN 証明器を用いて, 所望のセキュリティ特性について解析する。 最後に、5G-SBA-PKIの性能を「プリ量子」と量子セーフ暗号アルゴリズムで評価する。

The 3GPP 5G Service-based Architecture (SBA) security specifications leave several details on how to setup an appropriate Public Key Infrastructure (PKI) for 5G SBA, unspecified. In this work, we propose 5G-SBA-PKI, a public key infrastructure for secure inter-NF communication in 5G SBA core networks, where NF refers to Network Functions. 5G-SBA-PKI is designed to include multiple certificate authorities (with different scopes of operation and capabilities) at different PLMN levels for certification operations and key exchange between communicating NFs, where PLMN refers to a Public Land Mobile Network. We conduct a formal analysis of 5G-SBA-PKI with respect to the desired security properties using TAMARIN prover. Finally, we evaluate 5G-SBA-PKI's performance with "pre-quantum" as well as quantum-safe cryptographic algorithms.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# SyzTrust:IoTデバイス用に設計された信頼されたOS上の状態認識ファジィ

SyzTrust: State-aware Fuzzing on Trusted OS Designed for IoT Devices ( http://arxiv.org/abs/2309.14742v1 )

ライセンス: Link先を確認
Qinying Wang, Boyu Chang, Shouling Ji, Yuan Tian, Xuhong Zhang, Binbin Zhao, Gaoning Pan, Chenyang Lyu, Mathias Payer, Wenhai Wang, Raheem Beyah, (参考訳) IoTデバイスに組み込まれたTrusted Execution Environments(TEEs)は、ハードウェアレベルでIoTアプリケーションをセキュアにするためのデプロイ可能なソリューションを提供する。 TEEでは、Trusted OS (Trusted Operating System) が主要なコンポーネントである。 これによりTEEは、データ暗号化やID認証など、セキュリティベースの設計技術を使用することができる。 Trusted OSが悪用されると、TEEはもはやセキュリティを保証できない。 しかし、IoTデバイス向けのTrusted OSはセキュリティ分析がほとんどないため、(1)Trusted OSはクローズドソースであり、テストケースの送信やフィードバックの収集に好ましくない環境である。 2) 信頼されたOSは複雑なデータ構造を持ち、既存の脆弱性検出ツールを制限するステートフルなワークフローを必要とする。 この課題に対処するため、リソース制限されたTrusted OSのセキュリティを検証するための、最初の状態認識ファジィフレームワークであるSyzTrustを紹介します。 SyzTrustはハードウェア支援フレームワークを採用し、IoTデバイス上で直接ファジイングされたTrusted OSを有効にするとともに、状態とコードカバレッジを非侵襲的に追跡する。 SyzTrustは複合フィードバックを利用してファザをガイドし、より多くの状態を効果的に探索し、コードカバレッジを向上させる。 我々は、Samsung、Tsinglink Cloud、Ali Cloudの3つの主要なベンダーからSyzTrust on Trusted OSを評価した。 これらのシステムはCortex M23/33 MCU上で動作し、組み込みTEEに必要な抽象化を提供する。 私たちはTrusted OSで70の既知の脆弱性を発見し、これまでに10の新たなCVEを受け取りました。 さらに、ベースラインと比較して、SyzTrustは66%のコードカバレッジ、651%のステートカバレッジ、31%の脆弱性フィニング機能の改善など、大幅に改善されている。 ベンダーとオープンソースのSyzTrustに新しい脆弱性を発見したことを報告します。

Trusted Execution Environments (TEEs) embedded in IoT devices provide a deployable solution to secure IoT applications at the hardware level. By design, in TEEs, the Trusted Operating System (Trusted OS) is the primary component. It enables the TEE to use security-based design techniques, such as data encryption and identity authentication. Once a Trusted OS has been exploited, the TEE can no longer ensure security. However, Trusted OSes for IoT devices have received little security analysis, which is challenging from several perspectives: (1) Trusted OSes are closed-source and have an unfavorable environment for sending test cases and collecting feedback. (2) Trusted OSes have complex data structures and require a stateful workflow, which limits existing vulnerability detection tools. To address the challenges, we present SyzTrust, the first state-aware fuzzing framework for vetting the security of resource-limited Trusted OSes. SyzTrust adopts a hardware-assisted framework to enable fuzzing Trusted OSes directly on IoT devices as well as tracking state and code coverage non-invasively. SyzTrust utilizes composite feedback to guide the fuzzer to effectively explore more states as well as to increase the code coverage. We evaluate SyzTrust on Trusted OSes from three major vendors: Samsung, Tsinglink Cloud, and Ali Cloud. These systems run on Cortex M23/33 MCUs, which provide the necessary abstraction for embedded TEEs. We discovered 70 previously unknown vulnerabilities in their Trusted OSes, receiving 10 new CVEs so far. Furthermore, compared to the baseline, SyzTrust has demonstrated significant improvements, including 66% higher code coverage, 651% higher state coverage, and 31% improved vulnerability-finding capability. We report all discovered new vulnerabilities to vendors and open source SyzTrust.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# トピックAPIの定量的情報フロー解析

A Quantitative Information Flow Analysis of the Topics API ( http://arxiv.org/abs/2309.14746v1 )

ライセンス: Link先を確認
Mário S. Alvim, Natasha Fernandes, Annabelle McIver, Gabriel H. Nunes, (参考訳) サードパーティのクッキーは、1990年代半ばにクッキーが開発されて以来、プライバシー上の問題となっていたが、より厳格なクッキーポリシーは2010年代初頭にインターネットブラウザベンダーによってのみ導入された。 最近では、規制の変更により、ブラウザベンダーは、FirefoxとSafariの両方がすでに準拠しているサードパーティ製のクッキーを完全にブロックし始めた。 Topics APIは、Googleが関心に基づく広告(IBA)のための情報の追加的かつより侵入的な情報源として提案している。 Googleが公表した最初の結果は、ランダムな個人を再同定する確率は、いまだIBAをサポートしながら3%以下であると見積もっている。 本稿では,情報と意思決定の枠組みである量的情報フロー(QIF)の観点から,トピックスAPIが導入した個々のインターネットユーザの再識別リスクを分析する。 私たちのモデルは、APIのプライバシとユーティリティの両方の側面とトレードオフに関する理論的分析を可能にし、Topics APIがサードパーティのクッキーよりも優れたプライバシを持つことを示す。 今後の作業のためにユーティリティ分析を任せます。

Third-party cookies have been a privacy concern since cookies were first developed in the mid 1990s, but more strict cookie policies were only introduced by Internet browser vendors in the early 2010s. More recently, due to regulatory changes, browser vendors have started to completely block third-party cookies, with both Firefox and Safari already compliant. The Topics API is being proposed by Google as an additional and less intrusive source of information for interest-based advertising (IBA), following the upcoming deprecation of third-party cookies. Initial results published by Google estimate the probability of a correct re-identification of a random individual would be below 3% while still supporting IBA. In this paper, we analyze the re-identification risk for individual Internet users introduced by the Topics API from the perspective of Quantitative Information Flow (QIF), an information- and decision-theoretic framework. Our model allows a theoretical analysis of both privacy and utility aspects of the API and their trade-off, and we show that the Topics API does have better privacy than third-party cookies. We leave the utility analyses for future work.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# Logic Lockingベースのトロイの木馬

Logic Locking based Trojans: A Friend Turns Foe ( http://arxiv.org/abs/2309.15067v1 )

ライセンス: Link先を確認
Yuntao Liu, Aruna Jayasena, Prabhat Mishra, Ankur Srivastava, (参考訳) 論理ロックとハードウェアトロイの木馬はハードウェアセキュリティの2つの分野であり、主に互いに独立して開発されている。 本稿では,この2つの分野の関係を明らかにする。 多くの論理ロック技術に共通する構造は、ハードウェアトロイの木馬(HWT)の望ましい特性を持つ。 そこで我々は, Logic Locking (TroLL) に基づく新しいタイプのHWTを構築し, 最先端のATPGベースのHWT検出技術を回避する。 TroLLの検出のために,既存の最先端ATPGベースのHWT検出手法のカスタマイズと,SATベースの論理ロック攻撃をHWT検出に適用することを提案する。 実験では,ランダムサンプリングを参照として使用した。 カスタマイズされたATPGベースのアプローチは、最高のパフォーマンスであるが、ランダムサンプリングよりも限られた改善しか提供していないことが示されている。 さらに、TroLLのトリガーが長くなると効果も低下する。 そこで我々は、TroLLのスケーラブルなHWT検出アプローチを見つける必要性を強調した。

Logic locking and hardware Trojans are two fields in hardware security that have been mostly developed independently from each other. In this paper, we identify the relationship between these two fields. We find that a common structure that exists in many logic locking techniques has desirable properties of hardware Trojans (HWT). We then construct a novel type of HWT, called Trojans based on Logic Locking (TroLL), in a way that can evade state-of-the-art ATPG-based HWT detection techniques. In an effort to detect TroLL, we propose customization of existing state-of-the-art ATPG-based HWT detection approaches as well as adapting the SAT-based attacks on logic locking to HWT detection. In our experiments, we use random sampling as reference. It is shown that the customized ATPG-based approaches are the best performing but only offer limited improvement over random sampling. Moreover, their efficacy also diminishes as TroLL's triggers become longer, i.e., have more bits specified). We thereby highlight the need to find a scalable HWT detection approach for TroLL.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# 音声・音声のプライバシー保護とプライバシー侵害

Privacy-preserving and Privacy-attacking Approaches for Speech and Audio -- A Survey ( http://arxiv.org/abs/2309.15087v1 )

ライセンス: Link先を確認
Yuchen Liu, Apu Kapadia, Donald Williamson, (参考訳) 現代社会では、スマートフォンやホームアシスタントなどの音声制御デバイスが、その高度な能力と機能のために普及している。 常時オンのマイクは、これらのデバイスに簡単にアクセスできる利便性を提供する。 しかし、最近の研究や出来事により、このような音声制御デバイスは様々な種類の悪意のある攻撃をしがちであることが明らかになっているため、ユーザーと研究者の両方がそのような攻撃から保護することへの懸念が高まっている。 画像に対する敵対的攻撃とプライバシ保護を調査してきた多くの研究にもかかわらず、この性質に関する決定的な研究は、オーディオ領域では行われていない。 そこで本研究では,音声・音声のプライバシー保護・プライバシー侵害対策の既存手法について検討する。 この目的を達成するため、攻撃シナリオと防御シナリオをいくつかのカテゴリに分類し、各アプローチの詳細な分析を行う。 また、様々なアプローチの相違を解釈し、その貢献を強調し、その限界について検討する。 我々の調査によると、ニューラルネットワークに基づく音声制御デバイスは、本質的に特定の種類の攻撃の影響を受けやすい。 このようなモデルの堅牢性を特定の攻撃形態に拡張することは可能だが、ユーザプライバシを包括的に保護するためには、より高度なアプローチが必要である。

In contemporary society, voice-controlled devices, such as smartphones and home assistants, have become pervasive due to their advanced capabilities and functionality. The always-on nature of their microphones offers users the convenience of readily accessing these devices. However, recent research and events have revealed that such voice-controlled devices are prone to various forms of malicious attacks, hence making it a growing concern for both users and researchers to safeguard against such attacks. Despite the numerous studies that have investigated adversarial attacks and privacy preservation for images, a conclusive study of this nature has not been conducted for the audio domain. Therefore, this paper aims to examine existing approaches for privacy-preserving and privacy-attacking strategies for audio and speech. To achieve this goal, we classify the attack and defense scenarios into several categories and provide detailed analysis of each approach. We also interpret the dissimilarities between the various approaches, highlight their contributions, and examine their limitations. Our investigation reveals that voice-controlled devices based on neural networks are inherently susceptible to specific types of attacks. Although it is possible to enhance the robustness of such models to certain forms of attack, more sophisticated approaches are required to comprehensively safeguard user privacy.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# Eve曰く:AirBoneによるスマートアシスタントの認証

Eve Said Yes: AirBone Authentication for Head-Wearable Smart Voice Assistant ( http://arxiv.org/abs/2309.15203v1 )

ライセンス: Link先を確認
Chenpei Huang, Hui Zhong, Jie Lian, Pavana Prakash, Dian Shi, Yuan Xu, Miao Pan, (参考訳) 機械学習と自然言語処理の最近の進歩は、スマート音声アシスタントとそのサービス(Alexa、Google Home、Siriなど)の巨大な繁栄を後押ししている。 しかし、音声スプーフィング攻撃は、音声制御セキュリティの主要な課題の1つと考えられており、深層学習に基づく音声変換や音声合成技術のような進化を止めることは決してない。 音響領域外におけるこの問題を解決するため,振動領域内の骨伝導性音声を連続的に監視できるイヤホンやVRヘッドセットなどのヘッドウェアデバイスに焦点をあてる。 具体的には,同一の発声から発生する空気と骨の伝導(AC/BC)とユーザレベルの特異性が結合され,多要素認証(MFA)に好適な振る舞いと生体計測因子が得られた。 正当なユーザは、提案された2段階のAirBone認証で、音響ドメインを破り、サンプルをクロスドメインにスプーフィングすることもできる。 第1のステージは、空気および骨伝導発話が時間領域一貫性(TC)であるかを問う「textit{w」、第2のステージは「textit{bone伝導話者認識(BC-SR)」を実行する。 その結果,(1) スマート音声アシスタントの音響的攻撃は, 振動領域にある骨伝導に影響を与えない, (2) 高度なクロスドメイン攻撃においても, 独特な骨伝導は敵の偽装や機械による振動を検出できる,という2つの理由から, セキュリティレベルが向上した。 最後に、AirBone認証は、従来のMFAやスマート音声セキュリティを強化するために特別に設計されたものと比べて、使い勝手(音声認証と同じレベル)が良い。 実験の結果,提案したAirBone認証は有用かつ安全であり,市販の市販ヘッドウェアラブルで容易に使用でき,ユーザエクスペリエンスも良好であることがわかった。

Recent advances in machine learning and natural language processing have fostered the enormous prosperity of smart voice assistants and their services, e.g., Alexa, Google Home, Siri, etc. However, voice spoofing attacks are deemed to be one of the major challenges of voice control security, and never stop evolving such as deep-learning-based voice conversion and speech synthesis techniques. To solve this problem outside the acoustic domain, we focus on head-wearable devices, such as earbuds and virtual reality (VR) headsets, which are feasible to continuously monitor the bone-conducted voice in the vibration domain. Specifically, we identify that air and bone conduction (AC/BC) from the same vocalization are coupled (or concurrent) and user-level unique, which makes them suitable behavior and biometric factors for multi-factor authentication (MFA). The legitimate user can defeat acoustic domain and even cross-domain spoofing samples with the proposed two-stage AirBone authentication. The first stage answers \textit{whether air and bone conduction utterances are time domain consistent (TC)} and the second stage runs \textit{bone conduction speaker recognition (BC-SR)}. The security level is hence increased for two reasons: (1) current acoustic attacks on smart voice assistants cannot affect bone conduction, which is in the vibration domain; (2) even for advanced cross-domain attacks, the unique bone conduction features can detect adversary's impersonation and machine-induced vibration. Finally, AirBone authentication has good usability (the same level as voice authentication) compared with traditional MFA and those specially designed to enhance smart voice security. Our experimental results show that the proposed AirBone authentication is usable and secure, and can be easily equipped by commercial off-the-shelf head wearables with good user experience.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# 重要なインフラストラクチャセキュリティが宇宙に到達 - 地上で学んだ教訓の活用

Critical Infrastructure Security Goes to Space: Leveraging Lessons Learned on the Ground ( http://arxiv.org/abs/2309.15232v1 )

ライセンス: Link先を確認
Tim Ellis, Briland Hitaj, Ulf Lindqvist, Deborah Shands, Laura Tinnel, Bruce DeBruhl, (参考訳) 宇宙システムは、農業、商業、輸送、緊急操作など、さまざまな分野における重要なコミュニケーション、ナビゲーション、イメージング、センシングを可能にする。 これらの重要なインフラシステムのサイバーセキュリティを保護することが不可欠である。 宇宙環境は、サイバーセキュリティのリスク管理に固有の制約をもたらすが、他の重要なインフラストラクチャ領域におけるリスクと効果的な防御に関する教訓は、宇宙システムの効果的な防御を設計するのに役立ちます。 特に、エネルギー、製造、輸送、および消費者および産業用モノのインターネット(IoT)に対する産業用制御システム(ICS)に対するサイバーセキュリティに関する発見は、宇宙領域におけるサイバーセキュリティに関する洞察を提供する。 本稿では、ICSと宇宙システムの共通点の概要、宇宙システムに適用可能なICSのサイバーセキュリティに関する教訓、ますます重要な宇宙システムを確保するための今後の研究・開発への提言について述べる。

Space systems enable essential communications, navigation, imaging and sensing for a variety of domains, including agriculture, commerce, transportation, and emergency operations by first responders. Protecting the cybersecurity of these critical infrastructure systems is essential. While the space environment brings unique constraints to managing cybersecurity risks, lessons learned about risks and effective defenses in other critical infrastructure domains can help us to design effective defenses for space systems. In particular, discoveries regarding cybersecurity for industrial control systems (ICS) for energy, manufacturing, transportation, and the consumer and industrial Internet of Things (IoT) offer insights into cybersecurity for the space domain. This paper provides an overview of ICS and space system commonalities, lessons learned about cybersecurity for ICS that can be applied to space systems, and recommendations for future research and development to secure increasingly critical space systems.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# ビゲネール暗号の鍵長決定のための修正ツイストアルゴリズム

Modifying twist algorithms for determining the key length of a Vigenère cipher ( http://arxiv.org/abs/2309.15240v1 )

ライセンス: Link先を確認
Christian Millichap, Yeeka Yau, Alyssa Pate, Morgan Carns, (参考訳) 本稿では,Bigen\`{e}re暗号の鍵長を決定するために,Barr--Simoson と Park-Kim-Cho-Yum が導入したツイストベースのアルゴリズムを分析し,改良する。 本研究は, ツイスト指数の領域がこれらのアルゴリズムの精度にどう影響するかを, 実験的証拠を裏付けると共に詳細に議論する。 また、新しいツイストアルゴリズムであるツイスト$^{++}$アルゴリズムを導入し、このアルゴリズムが幅広いキー長とテキスト長に対するツイスト$^{++}$アルゴリズムよりも正確であることを示す。

In this article, we analyze and improve upon the twist-based algorithms introduced by Barr--Simoson and Park--Kim--Cho--Yum for determining the key length of a Vigen\`{e}re cipher. We provide an in-depth discussion on how the domain of the twist index affects the accuracy of these algorithms along with supporting experimental evidence. We also introduce a new twist-based algorithm, the twist$^{++}$ algorithm, and show this algorithm is more accurate than the twist$^{+}$ algorithm for a wide range of key lengths and text lengths.
翻訳日:2024-03-19 03:41:25 公開日:2023-09-26
# 信頼できるLLMを作る - ヘルスケアAIにおける幻覚の対処

Creating Trustworthy LLMs: Dealing with Hallucinations in Healthcare AI ( http://arxiv.org/abs/2311.01463v1 )

ライセンス: Link先を確認
Muhammad Aurangzeb Ahmad, Ilker Yaramis, Taposh Dutta Roy(参考訳) 大規模な言語モデルは、短期間で複数のドメインにまたがって拡大してきた。 しかし、現実性、コヒーレンス、幻覚といった問題のために、医療と医療の領域では採用をためらっている。 多くの研究者は、これらの問題が解決されるまで、医療の利用に注意を払っている。 医療におけるllmの実装と展開の鍵は、これらのモデルを信頼できる(可能な限り)透明かつ説明可能にすることです。 本稿では,信頼し,信頼し,偏見のないモデルを作成する上で,医療導入に必要な条件として重要な要素について述べる。 具体的には、医療の文脈における幻覚の定量化、検証、緩和に焦点を当てる。 最後に、医療におけるLLMの将来について論じる。

Large language models have proliferated across multiple domains in as short period of time. There is however hesitation in the medical and healthcare domain towards their adoption because of issues like factuality, coherence, and hallucinations. Give the high stakes nature of healthcare, many researchers have even cautioned against its usage until these issues are resolved. The key to the implementation and deployment of LLMs in healthcare is to make these models trustworthy, transparent (as much possible) and explainable. In this paper we describe the key elements in creating reliable, trustworthy, and unbiased models as a necessary condition for their adoption in healthcare. Specifically we focus on the quantification, validation, and mitigation of hallucinations in the context in healthcare. Lastly, we discuss how the future of LLMs in healthcare may look like.
翻訳日:2024-01-15 16:45:27 公開日:2023-09-26
# FlaCGEC: 微粒な言語アノテーションを用いた中国語文法的誤り訂正データセット

FlaCGEC: A Chinese Grammatical Error Correction Dataset with Fine-grained Linguistic Annotation ( http://arxiv.org/abs/2311.04906v1 )

ライセンス: Link先を確認
Hanyue Du, Yike Zhao, Qingyuan Tian, Jiani Wang, Lei Wang, Yunshi Lan, Xuesong Lu(参考訳) 中国の文法的誤り訂正(CGEC)は近年、研究者の注目を集めている。 この研究を支援するために複数のCGECデータセットが開発されたにもかかわらず、これらのデータセットは文法エラーの深い言語的トポロジーを提供する能力に欠けており、CGECアプローチの解釈と診断に不可欠である。 この制限に対処するため,粒度の細かい言語アノテーションを備えた新しいCGECデータセットであるFraCGECを導入する。 具体的には、中国語の専門家が定義した言語スキーマから生コーパスを収集し、規則による文の編集を行い、手動で生成したサンプルを精査し、78のインスタンス化文法点と3種類の編集を行う。 提案するflacgecデータセットにおける様々な最先端のcgec法を評価し,その識別不能な結果から,このデータセットは多種多様な文法的誤りをカバーするのに困難であることが示唆された。 さらに,一般化スキルをテストするための診断データセットとしてflacgecを扱い,既存のcgecモデルの徹底的な評価を行う。

Chinese Grammatical Error Correction (CGEC) has been attracting growing attention from researchers recently. In spite of the fact that multiple CGEC datasets have been developed to support the research, these datasets lack the ability to provide a deep linguistic topology of grammar errors, which is critical for interpreting and diagnosing CGEC approaches. To address this limitation, we introduce FlaCGEC, which is a new CGEC dataset featured with fine-grained linguistic annotation. Specifically, we collect raw corpus from the linguistic schema defined by Chinese language experts, conduct edits on sentences via rules, and refine generated samples manually, which results in 10k sentences with 78 instantiated grammar points and 3 types of edits. We evaluate various cutting-edge CGEC methods on the proposed FlaCGEC dataset and their unremarkable results indicate that this dataset is challenging in covering a large range of grammatical errors. In addition, we also treat FlaCGEC as a diagnostic dataset for testing generalization skills and conduct a thorough evaluation of existing CGEC models.
翻訳日:2024-01-15 16:32:13 公開日:2023-09-26
# ヘビアン学習によるクエリからの線形回帰パラメータの推定

Hebbian learning inspired estimation of the linear regression parameters from queries ( http://arxiv.org/abs/2311.03483v1 )

ライセンス: Link先を確認
Johannes Schmidt-Hieber and Wouter M Koolen(参考訳) 生物学的ニューラルネットワーク(BNN)における局所学習規則は、一般にヘビアン学習と呼ばれる。 [26] は生物学的に動機付けられたヘビーンの学習規則と特定のゼロ階最適化法を結びつける。 本研究では,線形回帰モデルにおける回帰ベクトルを回復するために,このヘビー学習規則の変動について検討する。 ゼロ階最適化法は、勾配降下のような一階法に比べて大きなパラメータ次元の最適値に収束することが知られており、一般に劣っていると考えられている。 しかし,上下境界を確立することにより,線形回帰損失のクエリのみが利用可能であれば,そのような手法がほぼ最適となることを示す。 さらに,このヘビー学習規則は,データとは独立に問合せを選択できる非適応的手法よりもかなり高速であることを示す。

Local learning rules in biological neural networks (BNNs) are commonly referred to as Hebbian learning. [26] links a biologically motivated Hebbian learning rule to a specific zeroth-order optimization method. In this work, we study a variation of this Hebbian learning rule to recover the regression vector in the linear regression model. Zeroth-order optimization methods are known to converge with suboptimal rate for large parameter dimension compared to first-order methods like gradient descent, and are therefore thought to be in general inferior. By establishing upper and lower bounds, we show, however, that such methods achieve near-optimal rates if only queries of the linear regression loss are available. Moreover, we prove that this Hebbian learning rule can achieve considerably faster rates than any non-adaptive method that selects the queries independently of the data.
翻訳日:2024-01-15 16:31:32 公開日:2023-09-26
# ChatGPTでは、学習目的を書き換えなければならない -- サイバーセキュリティにおけるケーススタディ

With ChatGPT, do we have to rewrite our learning objectives -- CASE study in Cybersecurity ( http://arxiv.org/abs/2311.06261v1 )

ライセンス: Link先を確認
Peter Jamieson, Suman Bhunia, Dhananjai M. Rao(参考訳) ChatGPTなどの人工知能チャットボットツールの出現と、GitHub CopilotのようなAIツールのコード記述によって、教育者は、今後のコースとカリキュラムをどのように教えるべきなのかを疑問視する必要がある。 実際には、自動化されたツールによって、ある学術分野が雇用者数で大幅に減少する可能性がある。 本研究では,「UbD (Understanding by Design)」のレンズを用いて,サイバーセキュリティ教育のケーススタディを作成する。 まず,コンピュータ科学の観点から,サイバーセキュリティの学習目標(LO)を広く理解する。 次に、私たちは、サイバーセキュリティに焦点を当てたカリキュラムを少し掘り下げ、マイアミ大学のサイバーセキュリティプログラムの主要なコースとLOを調べます。 これらの詳細とともに、上記のツールでlosがどこまで達成可能かに関する思考実験を行い、このプロセスで学んだ重要な質問である‘コンセプトを持続させる必要があるか’を問う。 LOが自動化ツールの存在が実現可能なものになったならば,‘ツールへの単純なクエリではないLOに対して,どのようなレベルが達成できるのか? このエクササイズによって、私たちは、これらの新しいaiツールの存在を踏まえて、学生のロスにおける業績を加速させるために、chatgptを促進させる方法の例を確立したいと考えています。

With the emergence of Artificial Intelligent chatbot tools such as ChatGPT and code writing AI tools such as GitHub Copilot, educators need to question what and how we should teach our courses and curricula in the future. In reality, automated tools may result in certain academic fields being deeply reduced in the number of employable people. In this work, we make a case study of cybersecurity undergrad education by using the lens of ``Understanding by Design'' (UbD). First, we provide a broad understanding of learning objectives (LOs) in cybersecurity from a computer science perspective. Next, we dig a little deeper into a curriculum with an undergraduate emphasis on cybersecurity and examine the major courses and their LOs for our cybersecurity program at Miami University. With these details, we perform a thought experiment on how attainable the LOs are with the above-described tools, asking the key question ``what needs to be enduring concepts?'' learned in this process. If an LO becomes something that the existence of automation tools might be able to do, we then ask ``what level is attainable for the LO that is not a simple query to the tools?''. With this exercise, we hope to establish an example of how to prompt ChatGPT to accelerate students in their achievements of LOs given the existence of these new AI tools, and our goal is to push all of us to leverage and teach these tools as powerful allies in our quest to improve human existence and knowledge.
翻訳日:2024-01-15 16:20:57 公開日:2023-09-26
# 大学退学要因:LightGBMとShapleyの協調ゲーム理論を用いた分析

College Dropout Factors: An Analysis with LightGBM and Shapley's Cooperative Game Theory ( http://arxiv.org/abs/2311.06260v1 )

ライセンス: Link先を確認
Hugo Roger Paz(参考訳) 本研究は, FACET-UNTにおける土木系学生の学歴データ分析に基づく。 私たちの主な目的は、キャリアのドロップアウトに大きな影響を与えるアカデミックなパフォーマンス変数を決定することです。 これを実現するために,lightgbmを用いた相関モデルを実装した(barbier et al., 2016; ke et al., 2017; shi et al., 2022)。 このモデルを用いて,学生の退学確率に影響を与える重要な変数を同定する。 さらに,ゲーム理論を用いて得られた結果の解釈を行う。 具体的には、PythonのSHAPライブラリ(Lundberg et al., 2018, 2020; Lundberg & Lee, 2017)を使ってShapley数を計算します。 本研究の結果,土木工学のキャリアからの脱落に影響を与える最も重要な変数が明らかになった。 年齢、研究に費やす時間、受講数、受験数などの学業成績において有意差が認められた。 これらの結果は、より効果的な留学生維持戦略を開発し、この分野での学術的成功を改善するのに有用である。

This study was based on data analysis of academic histories of civil engineering students at FACET-UNT. Our main objective was to determine the academic performance variables that have a significant impact on the dropout of the career. To do this, we implemented a correlation model using LightGBM (Barbier et al., 2016; Ke et al., 2017; Shi et al., 2022). We use this model to identify the key variables that influence the probability of student dropout. In addition, we use game theory to interpret the results obtained. Specifically, we use the SHAP library (Lundberg et al., 2018, 2020; Lundberg & Lee, 2017) in Python to calculate the Shapley numbers. The results of our study revealed the most important variables that influence the dropout from the civil engineering career. Significant differences were identified in terms of age, time spent in studies, and academic performance, which includes the number of courses passed and the number of exams taken. These results may be useful to develop more effective student retention strategies and improve academic success in this discipline.
翻訳日:2024-01-15 16:20:32 公開日:2023-09-26
# ニューラル画像圧縮のためのレート歪み計算フロンティアの強化

Advancing The Rate-Distortion-Computation Frontier For Neural Image Compression ( http://arxiv.org/abs/2311.12821v1 )

ライセンス: Link先を確認
David Minnen and Nick Johnston(参考訳) ニューラル画像圧縮モデルの速度歪み性能は、非学習コーデックの最先端を超えているが、ニューラルコーデックは広く展開や採用されるには程遠い。 最大の障害は、さまざまな消費者向けハードウェアで実現可能な効率的なモデルを持つことである。 標準ベンチマークプラットフォームの欠如や、ハードウェアアーキテクチャやテスト環境のバリエーションのため、比較研究と評価は困難である。 速度歪み計算(RDC)を用いて,浮動小数点演算(FLOP)も実行時も単独では十分ではないことを示した。 また、RDCフロンティアを探索し、計算要求とRD性能の最良のトレードオフを伴うモデルアーキテクチャのファミリを導いた。 最後に,BPG(VTMで7.0%,ELICで3.0%)よりも23.1%の削減率で最先端RD性能を実現する新しいニューラル圧縮アーキテクチャを,他の学習ベースコーデックよりもFLOPをはるかに多く必要とせずに同定する。

The rate-distortion performance of neural image compression models has exceeded the state-of-the-art for non-learned codecs, but neural codecs are still far from widespread deployment and adoption. The largest obstacle is having efficient models that are feasible on a wide variety of consumer hardware. Comparative research and evaluation is difficult due to the lack of standard benchmarking platforms and due to variations in hardware architectures and test environments. Through our rate-distortion-computation (RDC) study we demonstrate that neither floating-point operations (FLOPs) nor runtime are sufficient on their own to accurately rank neural compression methods. We also explore the RDC frontier, which leads to a family of model architectures with the best empirical trade-off between computational requirements and RD performance. Finally, we identify a novel neural compression architecture that yields state-of-the-art RD performance with rate savings of 23.1% over BPG (7.0% over VTM and 3.0% over ELIC) without requiring significantly more FLOPs than other learning-based codecs.
翻訳日:2024-01-15 15:33:00 公開日:2023-09-26
# msg-bart:マルチグラニュラリティシーングラフエンハンスエンハンスエンコーダ-デコーダ言語モデルによる対話生成

MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder Language Model for Video-grounded Dialogue Generation ( http://arxiv.org/abs/2311.12820v1 )

ライセンス: Link先を確認
Hongcheng Liu, Zhe Chen, Hui Li, Pingjie Wang, Yanfeng Wang, Yu Wang(参考訳) ビデオに接地された対話を生成するには、ビデオの視覚シーンについて高いレベルの理解と推論が必要である。 しかし、既存の大規模視覚言語モデルは、その潜在機能とデコーダのみの構造、特に時空間関係推論に関して有効ではない。 本稿では,マルチグラニュラ性時空間グラフをエンコーダ・デコーダ事前学習言語モデルに組み込むことにより,映像情報の統合を促進するmsg-bartという新しい手法を提案する。 具体的には、グローバルなシーングラフとローカルなシーングラフをエンコーダとデコーダに統合し、全体的な認識とターゲット推論能力を改善する。 情報選択能力をさらに向上するため,テキストとビデオの選択を容易にするマルチポインターネットワークを提案する。 3つのビデオグラウンド・ダイアログ・ベンチマークで大規模な実験を行い、提案したMSG-BARTの最先端のアプローチと比較して大きな優位性を示した。

Generating dialogue grounded in videos requires a high level of understanding and reasoning about the visual scenes in the videos. However, existing large visual-language models are not effective due to their latent features and decoder-only structure, especially with respect to spatio-temporal relationship reasoning. In this paper, we propose a novel approach named MSG-BART, which enhances the integration of video information by incorporating a multi-granularity spatio-temporal scene graph into an encoder-decoder pre-trained language model. Specifically, we integrate the global and local scene graph into the encoder and decoder, respectively, to improve both overall perception and target reasoning capability. To further improve the information selection capability, we propose a multi-pointer network to facilitate selection between text and video. Extensive experiments are conducted on three video-grounded dialogue benchmarks, which show the significant superiority of the proposed MSG-BART compared to a range of state-of-the-art approaches.
翻訳日:2024-01-15 15:32:39 公開日:2023-09-26
# ディープニューラルネットワークの問題を解決するには、より良いトレーニングデータと学習アルゴリズムが必要だ

Fixing the problems of deep neural networks will require better training data and learning algorithms ( http://arxiv.org/abs/2311.12819v1 )

ライセンス: Link先を確認
Drew Linsley, Thomas Serre(参考訳) ボワーズらは、dnnは人間のものと著しく異なる戦略に頼り、しばしば人間の正確さに対抗できるため、生物学的ビジョンの貧弱なモデルであると主張する。 DNNの大規模化と精度の向上に伴い,この問題は悪化しており,生物学的ビジョンを確実にモデル化できるDNNの構築方法が定められている。

Bowers and colleagues argue that DNNs are poor models of biological vision because they often learn to rival human accuracy by relying on strategies that differ markedly from those of humans. We show that this problem is worsening as DNNs are becoming larger-scale and increasingly more accurate, and prescribe methods for building DNNs that can reliably model biological vision.
翻訳日:2024-01-15 15:32:17 公開日:2023-09-26
# AR Try to Moveゲームにおけるエゴ-パースペクティブ強化フィットネストレーニング体験

Ego-perspective enhanced fitness training experience of AR Try to Move game ( http://arxiv.org/abs/2310.13698v1 )

ライセンス: Link先を確認
Chongyu Zhang(参考訳) 最近の新興技術であるarは、エンタテインメントで広く使われ、没入型でインタラクティブで、時には魅力的な体験を提供する。 リハビリテーションのプロセスや運動訓練のプロセスは退屈なものが多く,運動効率はリハビリ施設ほど効率的ではないことがよく知られている。 これまでのところ、エゴ・パースペクティブに基づく上肢スポーツリハビリテーションの効果的なトレーニングゲームはない。 そこで本研究では,リハビリテーションにおける楽しみ体験の向上と,より効果的な遠隔リハビリテーショントレーニングを目的として,ゲームと畳み込みニューラルネットワーク(cnn)をarで提供し,ユーザジェスチャを自己収集したarマルチインタラクティブジェスチャデータセットから識別・分類することを目的としている。 arゲームスコアリングシステムを利用して、より有効性と利便性の高い遠隔トレーニングにより、ユーザは上肢筋システムを強化するインセンティブを与える。

AR, a recent emerging technology, has been widely used in entertainment to provide users with immersive, interactive, and, sometimes, engaging experiences. The process of rehabilitation treatment and motor training process is often boring, and it is well known that users' exercise efficiency is often not as efficient as in a rehabilitation institution. Thus far, there is no effective upper limb sports rehabilitation training game based on the ego-perspective. Hence, with the objective of enhancing the enjoyment experience in rehabilitation and more effective remote rehabilitation training, this work aims to provide an AR Try to Move game and a convolutional neural network (CNN) for identifying and classifying user gestures from a self-collected AR multiple interactive gestures dataset. Utilizing an AR game scoring system, users are incentivized to enhance their upper limb muscle system through remote training with greater effectiveness and convenience.
翻訳日:2023-10-29 16:13:40 公開日:2023-09-26
# 学習型自動プログラム修復に関する調査

A Survey of Learning-based Automated Program Repair ( http://arxiv.org/abs/2301.03270v2 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Yuxiang Ma, Weisong Sun, Zhenyu Chen(参考訳) 自動プログラム修復(APR)は、ソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。 近年のディープラーニング(DL)の進歩により、ニューラルネットワークを活用して大規模なオープンソースコードリポジトリからバグフィックスパターンを学ぶためのAPR技術が増えている。 このような学習ベースの技術は通常、APRをニューラルネットワーク翻訳(NMT)タスクとして扱い、バグの多いコードスニペット(ソースコード言語)が自動的に固定コードスニペット(ターゲット言語)に変換される。 従来のバグ修正データセットから隠れた関係を学習するDLの強力な能力から、学習ベースのAPR技術は素晴らしいパフォーマンスを実現しました。 本稿では,学習型APRコミュニティにおける最先端研究を要約する体系的な調査を行う。 学習ベースのapr手法の一般的なワークフローを説明し,障害のローカライズ,パッチ生成,パッチランキング,パッチ検証,パッチ修正フェーズなど,重要なコンポーネントを詳述する。 次に、広く採用されているデータセットと評価メトリクスを議論し、既存の実証研究の概要を概説する。 本稿では, 修復領域, 産業展開, オープンサイエンス問題など, 学習ベースAPR技術のいくつかの重要な側面について論じる。 我々は、将来のAPR研究にDL技術を適用するための実践的ガイドラインをいくつか強調する。 本稿は,既存の学習ベースAPR技術の成果を総合的に理解し,これらの手法の実践的応用を促進する上で有効である。 私たちのアーティファクトは、 \url{https://github.com/QuanjunZhang/AwesomeLearningAPR}で公開されています。

Automated program repair (APR) aims to fix software bugs automatically and plays a crucial role in software development and maintenance. With the recent advances in deep learning (DL), an increasing number of APR techniques have been proposed to leverage neural networks to learn bug-fixing patterns from massive open-source code repositories. Such learning-based techniques usually treat APR as a neural machine translation (NMT) task, where buggy code snippets (i.e., source language) are translated into fixed code snippets (i.e., target language) automatically. Benefiting from the powerful capability of DL to learn hidden relationships from previous bug-fixing datasets, learning-based APR techniques have achieved remarkable performance. In this paper, we provide a systematic survey to summarize the current state-of-the-art research in the learning-based APR community. We illustrate the general workflow of learning-based APR techniques and detail the crucial components, including fault localization, patch generation, patch ranking, patch validation, and patch correctness phases. We then discuss the widely-adopted datasets and evaluation metrics and outline existing empirical studies. We discuss several critical aspects of learning-based APR techniques, such as repair domains, industrial deployment, and the open science issue. We highlight several practical guidelines on applying DL techniques for future APR studies, such as exploring explainable patch generation and utilizing code features. Overall, our paper can help researchers gain a comprehensive understanding about the achievements of the existing learning-based APR techniques and promote the practical application of these techniques. Our artifacts are publicly available at \url{https://github.com/QuanjunZhang/AwesomeLearningAPR}.
翻訳日:2023-10-24 13:35:01 公開日:2023-09-26
# DevOpsとInnerSourceのプラクティスによるマイクロサービスの大規模再利用 -- 縦断的なケーススタディ

Large scale reuse of microservices using DevOps and InnerSource practices -- A longitudinal case study ( http://arxiv.org/abs/2309.15175v1 )

ライセンス: Link先を確認
Deepika Badampudi, Muhammad Usman, Xingru Chen(参考訳) インナーソースやDevOpsといった現代的なプラクティスは、ソフトウェアの再利用を促進する。 本研究は,ソフトウェア再利用における現代的実践の意義について考察する。 特に,エリクソンにおける現代的再利用のコスト,メリット,課題,潜在的な改善について検討する。 私たちはその研究を2段階に分けて行った。 a)データ収集方法(例えば、インタビュー、議論、会社のポータル)の組み合わせに基づく最初のデータ収集 b) 第一段階において特定された課題及び改善の状況を理解するため、1年後のフォローアップグループディスカッション。 以上の結果から,再利用可能な資産の開発は,コンプライアンスの確保など,事前のコストに繋がったことが示唆された。 さらに、再利用による開発も、再利用可能な資産の統合や理解といった追加の努力をもたらした。 Ericssonはこの追加の取り組みを、品質、生産性、顧客エクスペリエンス、仕事の仕方など、長期的な利益をもたらす投資として捉えた。 エリクソンの主な課題は再利用可能な資産の生産者に対する圧力の増大であり、それはインナーソースの採用拡大によって緩和された。 再利用可能な資産への貢献の増加から、インナーソースの成功は明らかである。 さらに、Ericssonはコンプライアンスチェックの自動化などの手段を実装し、再利用可能な資産の成熟度を高め、再利用率を高めた。

Contemporary practices such as InnerSource and DevOps promote software reuse. This study investigates the implications of using contemporary practices on software reuse. In particular, we investigate the costs, benefits, challenges, and potential improvements in contemporary reuse at Ericsson. We performed the study in two phases: a) the initial data collection based on a combination of data collection methods (e.g., interviews, discussions, company portals), and b) a follow-up group discussion after a year to understand the status of the challenges and improvements identified in the first phase. Our results indicate that developing reusable assets resulted in upfront costs, such as additional effort in ensuring compliance. Furthermore, development with reuse also resulted in additional effort, for example, in integrating and understanding reusable assets. Ericsson perceived the additional effort as an investment resulting in long-term benefits such as improved quality, productivity, customer experience, and way of working. Ericsson's main challenge was increased pressure on the producers of reusable assets, which was mitigated by scaling the InnerSource adoption. InnerSource success is evident from the increase in the contributions to reusable assets. In addition, Ericsson implemented measures such as automating the compliance check, which enhanced the maturity of reusable assets and resulted in increased reuse.
翻訳日:2023-10-23 06:18:12 公開日:2023-09-26
# Gitcoinの問題と解決結果の関連性に関する研究

Studying the association between Gitcoin's issues and resolving outcomes ( http://arxiv.org/abs/2309.15017v1 )

ライセンス: Link先を確認
Morakot Choetkiertikul, Arada Puengmongkolchaikit, Pandaree Chandra, Chaiyong Ragkitwetsakul, Rungroj Maipradit, Hideaki Hata, Thanwadee Sunetnanta, Kenichi Matsumoto(参考訳) オープンソースソフトウェア(oss)プロジェクトの開発は通常、コントリビュータ間のコラボレーションを通じて進められ、ボランティアに強く依存する。 したがって、ソフトウェア実践者(例えば貢献者)を特定のタスクに割り当てることは自明ではなく、開発から注意を引くことになる。 そのため、多くのバグ報奨金プラットフォームが報奨金によってこの問題に対処している。 特に、新たな報奨金プラットフォームであるGitcoinでは、個々のイシューオーナ(支援者)が、クラウドファンディングメカニズムを使用するのではなく、暗号通貨を使用して報酬値を定義することのできる報奨報酬メカニズムが導入されている。 多くの研究がバウンティプラットフォームに関する現象を調査しているが、これらは異なるバウンティ報酬システムに依存している。 そこで本研究では,Gitcoinの賞金と成果(成功と非成功)との関連について検討した。 統計分析と機械学習技術を用いて,gitcoinバウンティに関する4000以上の課題を実証的に検討した。 両プラットフォームの使用状況に関する洞察を得るために,bountysourceプラットフォームとの比較調査も行いました。 本研究は,プロジェクトの長さ,イシュー記述,バウンティ問題の種類,バウンティ値など,バウンティ問題の結果と高い相関関係にあることが判明した要因の重要性を強調する。 これらの発見は実践者にとって有用なガイダンスとなる。

The development of open-source software (OSS) projects usually have been driven through collaborations among contributors and strongly relies on volunteering. Thus, allocating software practitioners (e.g., contributors) to a particular task is non-trivial and draws attention away from the development. Therefore, a number of bug bounty platforms have emerged to address this problem through bounty rewards. Especially, Gitcoin, a new bounty platform, introduces a bounty reward mechanism that allows individual issue owners (backers) to define a reward value using cryptocurrencies rather than using crowdfunding mechanisms. Although a number of studies have investigated the phenomenon on bounty platforms, those rely on different bounty reward systems. Our study thus investigates the association between the Gitcoin bounties and their outcomes (i.e., success and non-success). We empirically study over 4,000 issues with Gitcoin bounties using statistical analysis and machine learning techniques. We also conducted a comparative study with the Bountysource platform to gain insights into the usage of both platforms. Our study highlights the importance of factors such as the length of the project, issue description, type of bounty issue, and the bounty value, which are found to be highly correlated with the outcome of bounty issues. These findings can provide useful guidance to practitioners.
翻訳日:2023-10-23 06:17:51 公開日:2023-09-26
# DAnTE: ソフトウェアエンジニアリングタスクの自動化のための分類法

DAnTE: a taxonomy for the automation degree of software engineering tasks ( http://arxiv.org/abs/2309.14903v1 )

ライセンス: Link先を確認
Jorge Melegati and Eduardo Guerra(参考訳) ソフトウェア工学の研究者や実践家は、コードを開発するのに必要な時間と労力を減らし、規律の出現以来生産性を高める方法を模索してきた。 生成言語モデルは、この旅のもう1つのステップにすぎないが、おそらく最後のステップではないだろう。 この章では、ソフトウェアエンジニアリングのための自動化分類のデグレであるDAnTEを提案し、この分野の慣用性に基づいて、いくつかのレベルの自動化を記述します。 分類学に基づいて,過去および現在においてソフトウェア工学の実践に使用されているツールをいくつか評価した。 次に、私たちは、生成言語モデルを含むaiベースのツールに特に注意を向け、提案された分類法の中でそれらがどのように位置づけられているかについて議論し、現在持っている制限について推論します。 そこで本研究では,中期・長期に新たなツールが出現する可能性について論じる。

Software engineering researchers and practitioners have pursued manners to reduce the amount of time and effort required to develop code and increase productivity since the emergence of the discipline. Generative language models are just another step in this journey, but it will probably not be the last one. In this chapter, we propose DAnTE, a Degree of Automation Taxonomy for software Engineering, describing several levels of automation based on the idiosyncrasies of the field. Based on the taxonomy, we evaluated several tools used in the past and in the present for software engineering practices. Then, we give particular attention to AI-based tools, including generative language models, discussing how they are located within the proposed taxonomy, and reasoning about possible limitations they currently have. Based on this analysis, we discuss what novel tools could emerge in the middle and long term.
翻訳日:2023-10-23 06:17:11 公開日:2023-09-26
# やるべきでない:UML PSSMステートマシンにおけるDoアクティビティのセマンティックスとパターン

To Do or Not to Do: Semantics and Patterns for Do Activities in UML PSSM State Machines ( http://arxiv.org/abs/2309.14884v1 )

ライセンス: Link先を確認
M\'arton Elekes, Vince Moln\'ar, Zolt\'an Micskei(参考訳) ステートマシンはソフトウェア集約システムにおいてユビキタスに使われている。 UML State Machinesは強力な構造を持つ単純な有限状態マシンを拡張する。 多くの拡張の中で、ステートマシンのリアクティブな計算モデルであるdoActivity振舞いを根本的に変える、一見シンプルで無実な言語構造があります。 アクティビティ動作は、与えられた状態に入力された状態マシンから独立して実行される動作を記述し、一般的には複雑な計算や通信をバックグラウンドタスクとしてモデル化する。 しかし、UML仕様や教科書は、doActivityの振る舞い構造をどのように適切に使うべきかについて曖昧である。 このガイダンスの欠如は深刻な問題であり、doActivityが不適切に使用されると、特に発見が困難で、一見正しいソフトウェア設計を台無しにする、同時かつ非決定的なバグを引き起こす可能性がある。 uml state machines (pssm) 仕様の正確なセマンティクスは、ステートマシンの詳細な操作セマンティクスを導入した。 私たちの知る限りでは、PSSMで規定されている doActivity のセマンティクスに関する厳密なレビューはまだありません。 我々は,仕様書のテキストの相互チェック,意味モデル,実行可能なテストケース,PSSMをサポートするシミュレータから,意味論を解析した。 ツール開発者や高度なモデラーに関連する微妙な詳細と創発的な振る舞いに関する洞察を合成した。 我々は20以上の標準化委員会に不一致と不一致を報告した。 これらの知見に基づいて,特定の状況下でのdoActivityの使用結果を詳述したdoActivityのパターン11と,その対策や代替設計選択について議論した。 セマンティクスとパターンの分析がベンダがコンフォーマントシミュレータや検証ツールを開発し、エンジニアがよりよいステートマシンモデルを設計するのに役立つことを願っています。

State machines are used ubiquitously in engineering software-intensive systems. UML State Machines extend simple finite state machines with powerful constructs. Among the many extensions, there is one seemingly simple and innocent language construct that fundamentally changes state machines' reactive model of computation: doActivity behaviors. DoActivity behaviors describe behavior that is executed independently from the state machine once entered in a given state, typically modeling complex computation or communication as background tasks. However, the UML specification or textbooks are vague about how the doActivity behavior construct should be appropriately used. This lack of guidance is a severe issue as, when improperly used, doActivities can cause concurrent, non-deterministic bugs that are especially challenging to find and could ruin a seemingly correct software design. The Precise Semantics of UML State Machines (PSSM) specification introduced detailed operational semantics for state machines. To the best of our knowledge, there is no rigorous review yet of doActivity's semantics as specified in PSSM. We analyzed the semantics by collecting evidence from cross-checking the text of the specification, its semantic model and executable test cases, and the simulators supporting PSSM. We synthesized insights about subtle details and emergent behaviors relevant to tool developers and advanced modelers. We reported inconsistencies and missing clarifications in more than 20 issues to the standardization committee. Based on these insights, we studied 11 patterns for doActivities detailing the consequences of using a doActivity in a given situation and discussing countermeasures or alternative design choices. We hope that our analysis of the semantics and the patterns help vendors develop conformant simulators or verification tools and engineers design better state machine models.
翻訳日:2023-10-23 06:16:57 公開日:2023-09-26
# 光電界ゴーストイメージング

Light Field Ghost Imaging ( http://arxiv.org/abs/2309.14701v1 )

ライセンス: Link先を確認
Alberto Paniate, Gianlorenzo Massaro, Alessio Avella, Alice Meda, Francesco V. Pepe, Marco Genovese, Milena D'Angelo, Ivano Ruo Berchera(参考訳) ゴーストイメージングのような光ビームの古典的および量子的相関に基づく技術は、従来のイメージングおよびセンシングプロトコルの多くの制限を克服することができる。 その利点にもかかわらず、そのような技術の応用は、対象オブジェクトの位置と長手方向の延長が不明な実際のシナリオでは、しばしば制限される。 本研究は,光相関と光場イメージングの原理を利用して,ゴーストイメージングの限界を超えて広い範囲の応用を可能にする,光フィールドゴーストイメージングという新しい画像技術を提案し,実験的に実証するものである。 特に,本手法は,ゴーストイメージングプロトコルのすべての利点を維持しつつ3Dイメージングを行うとともに,後処理における再焦点化を可能にするために,対象距離について事前知識を持つことの必要性を排除している。

Techniques based on classical and quantum correlations in light beams, such as ghost imaging, allow us to overcome many limitations of conventional imaging and sensing protocols. Despite their advantages, applications of such techniques are often limited in practical scenarios where the position and the longitudinal extension of the target object are unknown. In this work, we propose and experimentally demonstrate a novel imaging technique, named Light Field Ghost Imaging, that exploits light correlations and light field imaging principles to enable going beyond the limitations of ghost imaging in a wide range of applications. Notably, our technique removes the requirement to have prior knowledge of the object distance allowing the possibility of refocusing in post-processing, as well as performing 3D imaging while retaining all the benefits of ghost imaging protocols.
翻訳日:2023-10-23 06:16:28 公開日:2023-09-26
# 電磁揺らぎによる散逸媒体のスケール依存熱輸送

Scale-dependent heat transport in dissipative media via electromagnetic fluctuations ( http://arxiv.org/abs/2309.16726v1 )

ライセンス: Link先を確認
Matthias Kr\"uger, Kiryl Asheichyk, Mehran Kardar, Ramin Golestanian(参考訳) 我々は、媒体内部の電磁波による熱輸送の理論を開発し、任意の系に対する電磁グリーンの機能とポテンシャルの観点から、空間的に非局所的な熱伝導率テンソルを導出する。 通常は高密度のバルク媒体では無視されるが、導電率の電磁成分は光学的に希薄な媒体では重要であり、フーリエ輸送と非干渉輸送の機構を示す。 さらに, 界面の存在下では, ナノシートの面内伝導度を例に, フーリエ系が存在しないなど, 様々な現象を示すような, 密度の高い媒体においても電磁的寄与が関係している。

We develop a theory for heat transport via electromagnetic waves inside media, and use it to derive a spatially nonlocal thermal conductivity tensor, in terms of the electromagnetic Green's function and potential, for any given system. While typically negligible for optically dense bulk media, the electromagnetic component of conductivity can be significant for optically dilute media, and shows regimes of Fourier transport as well as unhindered transport. Moreover, the electromagnetic contribution is relevant even for dense media, when in presence of interfaces, as exemplified for the in-plane conductivity of a nanosheet, which shows a variety of phenomena, including absence of a Fourier regime.
翻訳日:2023-10-23 05:37:11 公開日:2023-09-26
# 単一分子の単一電子制御運動

Single electron-controlled motions of single molecules ( http://arxiv.org/abs/2310.09296v1 )

ライセンス: Link先を確認
Divyam Neer Verma, KV Chinmaya, Moumita Ghosh, Jan Heck, G Mohan Rao, Sonia Contera, Siddharth Ghosh(参考訳) 単分子動力学の領域では、静電力が分子運動に与える影響を調べる。 本研究は、量子力学と静電相互作用の相互作用を考察し、惑星運動と重力アシスト加速度を想起させる。 状態依存拡散とグリーン関数を用いることで、分子の量子制御を説明する強固な理論的基礎を確立する。 表面電荷密度は、クーロン力に類似した線形スケーリングに従って拡散係数に重大な影響を与える。 我々の研究は、観測された拡散係数の範囲を拡張し、6000$\mu\text{m}^2\text{ms}^{-1}$に達する。 これらの発見は材料科学や分子工学に応用されている。 本研究は分子運動の理解を深め,ナノスケールでの量子操作による単一分子ダイナミクスの精密制御の可能性を明らかにする。

In the domain of single-molecule dynamics, we investigate the impact of electrostatic forces on molecular motion. Our study delves into the interplay between quantum mechanics and electrostatic interactions, resulting in trajectories reminiscent of planetary motion and gravity-assisted acceleration. By employing state-dependent diffusion and Green's functions, we establish a robust theoretical foundation that explains quantum control over molecules. We find that surface charge density critically influences diffusion coefficients, following linear scaling similar to Coulombic forces. Our research extends the range of observed diffusion coefficients, reaching up to 6000 $\mu\text{m}^2\text{ms}^{-1}$. These findings have practical applications in materials science and molecular engineering. This study advances our understanding of molecular motion and highlights the potential for precise control over single-molecule dynamics through quantum manipulation-an exploration at the nanoscale.
翻訳日:2023-10-23 02:40:06 公開日:2023-09-26
# センサに基づく人間活動認識のためのディープニューラルネットワークアーキテクチャと特徴抽出設計に関する研究

Investigating Deep Neural Network Architecture and Feature Extraction Designs for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2310.03760v1 )

ライセンス: Link先を確認
Danial Ahangarani, Mohammad Shirazi, Navid Ashraf(参考訳) スマートデバイスとIoT(Internet of Things)におけるセンサの広範な普及により、センサベースのアクティビティ認識を実装する可能性が開けた。 従来のセンサ時系列処理や手作業による特徴抽出とは対照的に,さまざまな領域にわたるディープラーニングの有効性が証明されたため,従来の信号処理や従来の機械学習アプローチよりも優れたアクティビティ認識の課題に取り組むために,多くのディープメソッドが検討されている。 本研究では,2つの人間行動認識データセットに関する広範囲な実験研究を行い,センサ時系列データから抽出した異なる学習機構(コントラスト学習など)と各種特徴表現を用いて,一般的なディープラーニングおよび機械学習手法の性能を検証し,その人間行動認識タスクの有効性を測定した。

The extensive ubiquitous availability of sensors in smart devices and the Internet of Things (IoT) has opened up the possibilities for implementing sensor-based activity recognition. As opposed to traditional sensor time-series processing and hand-engineered feature extraction, in light of deep learning's proven effectiveness across various domains, numerous deep methods have been explored to tackle the challenges in activity recognition, outperforming the traditional signal processing and traditional machine learning approaches. In this work, by performing extensive experimental studies on two human activity recognition datasets, we investigate the performance of common deep learning and machine learning approaches as well as different training mechanisms (such as contrastive learning), and various feature representations extracted from the sensor time-series data and measure their effectiveness for the human activity recognition task.
翻訳日:2023-10-15 14:45:38 公開日:2023-09-26
# Ruffle&Riley: 対話型チューニングシステムの自動誘導に向けて

Ruffle&Riley: Towards the Automated Induction of Conversational Tutoring Systems ( http://arxiv.org/abs/2310.01420v1 )

ライセンス: Link先を確認
Robin Schmucker, Meng Xia, Amos Azaria, Tom Mitchell(参考訳) 会話学習システム(CTS)は、自然言語の相互作用によって駆動される学習体験を提供する。 彼らは高いレベルの認知的エンゲージメントを促進し、特に推論タスクにおいて学習成果を享受することが知られている。 それでも、CTSコンテンツ作成に必要な時間とコストは、広く普及する上で大きな障害となります。 本稿では,最近の大規模言語モデル(llms)の進歩を,授業テキストから自動学習スクリプトを誘導する,新しいタイプのctsを提案する。 第二に、このシステムは2つのLCMベースのエージェント(Ruffle&Riley)によるスクリプトのオーケストレーションを、学生と教授の役割で自動化する。 このシステムは、 ITS-typeal outer-/inner-loop 構造に従う自由形式の会話を可能にする。 Ruffle&Rileyを簡単なQAチャットボットや読書活動と比較したオンラインユーザ調査(N = 100)では,テスト後のスコアに有意な差は認められなかった。 それでも、学習経験調査では、Ruffle&Rileyユーザーは理解と記憶のより高い評価を示し、提案されたサポートがより役に立つものと認識し、会話を一貫性のあるものとして認識した。 我々の研究は、新しい世代のスケーラブルCTS技術に対する洞察を提供する。

Conversational tutoring systems (CTSs) offer learning experiences driven by natural language interaction. They are known to promote high levels of cognitive engagement and benefit learning outcomes, particularly in reasoning tasks. Nonetheless, the time and cost required to author CTS content is a major obstacle to widespread adoption. In this paper, we introduce a novel type of CTS that leverages the recent advances in large language models (LLMs) in two ways: First, the system induces a tutoring script automatically from a lesson text. Second, the system automates the script orchestration via two LLM-based agents (Ruffle&Riley) with the roles of a student and a professor in a learning-by-teaching format. The system allows a free-form conversation that follows the ITS-typical outer-/inner-loop structure. In an initial between-subject online user study (N = 100) comparing Ruffle&Riley to simpler QA chatbots and reading activity, we found no significant differences in post-test scores. Nonetheless, in the learning experience survey, Ruffle&Riley users expressed higher ratings of understanding and remembering and further perceived the offered support as more helpful and the conversation as coherent. Our study provides insights for a new generation of scalable CTS technologies.
翻訳日:2023-10-08 11:08:36 公開日:2023-09-26
# 量子アニーラーによる大学生の抑うつに対するcovid-19パンデミックの影響に関する要因の検討

Investigation of factors regarding the effects of COVID-19 pandemic on college students' depression by quantum annealer ( http://arxiv.org/abs/2310.00018v1 )

ライセンス: Link先を確認
Junggu Choi, Kion Kim, Soohyun Park, Juyoen Hur, Hyunjung Yang, Younghoon Kim, Hakbae Lee, Sanghoon Han(参考訳) これまでの研究では、新型コロナウイルス(covid-19)のパンデミックがメンタルヘルスに与える影響に関するさまざまな事例が報告されている。 学生集団は、パンデミックの影響を受けやすいため、以前の研究でしばしばターゲット人口として選ばれてきた。 本研究では,様々なメンタルヘルス要因の複雑な関係に基づき,751人の大学生から多変量データセットを収集した。 我々は,市販のD-Wave量子コンピュータによって実行されたQAに基づく特徴選択アルゴリズムを用いて,パンデミック前後の関連要因の相対的重要性の変化を判定した。 マルチ変数線形回帰(MLR)モデルとXGBoostモデルもQAアルゴリズムの検証に応用された。 実験結果から,従来の研究で広く用いられてきたMLRモデルと比較し,QAに基づくアルゴリズムは因子分析研究に匹敵する能力を有することを確認した。 さらに,QAに基づくアルゴリズムの性能は,アルゴリズムの重要な要因によって検証された。 パンデミック後の状況において,パンデミック関連要因(社会システムの信頼度など)と心理的要因(不確かな状況における意思決定など)がより重要であった。 我々は,本研究が同様のトピックを研究する研究者の参考になると考えている。

Diverse cases regarding the impact, with its related factors, of the COVID-19 pandemic on mental health have been reported in previous studies. College student groups have been frequently selected as the target population in previous studies because they are easily affected by pandemics. In this study, multivariable datasets were collected from 751 college students based on the complex relationships between various mental health factors. We utilized quantum annealing (QA)-based feature selection algorithms that were executed by commercial D-Wave quantum computers to determine the changes in the relative importance of the associated factors before and after the pandemic. Multivariable linear regression (MLR) and XGBoost models were also applied to validate the QA-based algorithms. Based on the experimental results, we confirm that QA-based algorithms have comparable capabilities in factor analysis research to the MLR models that have been widely used in previous studies. Furthermore, the performance of the QA-based algorithms was validated through the important factor results from the algorithms. Pandemic-related factors (e.g., confidence in the social system) and psychological factors (e.g., decision-making in uncertain situations) were more important in post-pandemic conditions. We believe that our study will serve as a reference for researchers studying similar topics.
翻訳日:2023-10-08 11:06:54 公開日:2023-09-26
# 神経進化による脳誘発小世界スパイクニューラルネットの創発

Emergence of Brain-inspired Small-world Spiking Neural Network through Neuroevolution ( http://arxiv.org/abs/2304.10749v4 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Bing Han, Yiting Dong, Yi Zeng(参考訳) 人間の脳は何百万年もの間進化の産物であり、エネルギー消費の少ない複数の高度な認知機能に関与することができる。 脳にインスパイアされた人工知能は、この自然な進化過程の計算的継続に役立ち、脳の構造と機能の進化的メカニズムから着想を得ることが不可欠である。 研究は、人間の脳の高効率と低エネルギー消費は、その小世界のトポロジーと臨界ダイナミクスと密接に関連していることを示唆している。 しかしながら、スパイキングニューラルネットワーク(SNN)の性能指向構造進化に対する既存の取り組みは、脳の中核構造特性を無視し、時間を要する。 本稿では,スモールワールド係数と臨界性を組み合わせた多目的進化液体状態機械(elsm)を進化目標として提案し,スパイクニューラルネットワークの位相特性を静的および動的視点から統合し,脳にインスパイアされた効率的な構造の出現を導く。 広範な実験により、lsmベースと階層型snsアルゴリズムと比較して、提案モデルの一貫性と同等の性能を示す: 97.23\%をnmnistで達成し、mnistとfashion-mnistのすべてのlsmモデル(それぞれ98.05\%と88.81\%)と比較して、最先端のパフォーマンスに達する。 網羅的な分析により、ハブノードの自然発生、短い経路、長期分布、進化モデルにおける多くのコミュニティ構造が明らかになった。 この研究は、繰り返し発生するスパイクニューラルネットワークを脳にインスパイアされた効率的な構造とダイナミクスへと進化させ、適応的な一般知能を実現する可能性をもたらす。

Human brain is the product of evolution during hundreds over millions of years and can engage in multiple advanced cognitive functions with low energy consumption. Brain-inspired artificial intelligence serves as a computational continuation of this natural evolutionary process, is imperative to take inspiration from the evolutionary mechanisms of brain structure and function. Studies suggest that the human brain's high efficiency and low energy consumption may be closely related to its small-world topology and critical dynamics. However, existing efforts on the performance-oriented structural evolution of spiking neural networks (SNNs) are time-consuming and ignore the core structural properties of the brain. In this paper, we propose a multi-objective Evolutionary Liquid State Machine (ELSM) with the combination of small-world coefficient and criticality as evolution goals and simultaneously integrate the topological properties of spiking neural networks from static and dynamic perspectives to guide the emergence of brain-inspired efficient structures. Extensive experiments show a consistent and comparable performance of the proposed model compared to LSM-based and hierarchical SNNs algorithms: it achieves 97.23\% on NMNIST, and reaches the state-of-art performance compared to all LSM models on MNIST and Fashion-MNIST (98.05\% and 88.81\%, respectively). A thorough analysis reveals the spontaneous emergence of hub nodes, short paths, long-tailed degree distributions, and numerous community structures in evolutionary models. This work evolves recurrent spiking neural networks into brain-inspired efficient structures and dynamics, providing the potential to achieve adaptive general aritficial intelligence.
翻訳日:2023-09-29 22:36:04 公開日:2023-09-26
# 望遠鏡:レベル再生場におけるハイブリッド予測の自動化手法

Telescope: An Automated Hybrid Forecasting Approach on a Level-Playing Field ( http://arxiv.org/abs/2309.15871v1 )

ライセンス: Link先を確認
Andr\'e Bauer and Mark Leznik and Michael Stenger and Robert Leppich and Nikolas Herbst, Samuel Kounev and Ian Foster(参考訳) 意思決定の多くの領域において、予測は必須の柱である。 その結果,様々な予測手法が提案されている。 我々の経験から、最近発表された予測手法は計算集約的で、自動化が不十分で、特定のデータセットに合わせて調整されている。 そこで本研究では,各時系列から関連情報を自動抽出して分割し,それぞれを個別に処理する,新しい機械学習ベースの予測手法である望遠鏡を紹介する。 ディープラーニングの手法とは対照的に,私たちのアプローチではパラメータ化や,さまざまなパラメータのトレーニングや適合は必要ありません。 1つの時系列で動作し、追加設定なしで数秒以内に予測を提供する。 実験の結果, 望遠鏡は, 時系列解析を前提にせず, 高精度で信頼性の高い予測を行うことで, 最近の手法を上回っていることがわかった。

In many areas of decision-making, forecasting is an essential pillar. Consequently, many different forecasting methods have been proposed. From our experience, recently presented forecasting methods are computationally intensive, poorly automated, tailored to a particular data set, or they lack a predictable time-to-result. To this end, we introduce Telescope, a novel machine learning-based forecasting approach that automatically retrieves relevant information from a given time series and splits it into parts, handling each of them separately. In contrast to deep learning methods, our approach doesn't require parameterization or the need to train and fit a multitude of parameters. It operates with just one time series and provides forecasts within seconds without any additional setup. Our experiments show that Telescope outperforms recent methods by providing accurate and reliable forecasts while making no assumptions about the analyzed time series.
翻訳日:2023-09-29 19:28:35 公開日:2023-09-26
# HYKISTプロジェクトにおけるベトナム語自動音声認識のための教師なし事前学習

Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in the HYKIST Project ( http://arxiv.org/abs/2309.15869v1 )

ライセンス: Link先を確認
Khai Le-Duc(参考訳) 今日の相互接続された世界では、海外への移動はますます広まり、雇用、難民のリセット、その他の原因がある。 先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。 これにより、患者や医師が麻酔中や救急室でコミュニケーションが困難になり、患者のケアが損なわれる可能性がある。 HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。ASRシステムは、最近、LibriSpeechのような十分な量のトレーニングデータが利用できる特定のタスクにおいて、驚くべきパフォーマンスを示した。 優れたモデルの構築は、さまざまなスピーキングスタイル、音響と録音の設定、ドメイン内トレーニングデータの欠如などによって、依然として困難である。 本稿では,ベトナム語医療領域における会話型電話音声認識タスクのためのasrシステムを構築し,医師と患者との緊急連絡を言語障壁を越えて支援する試みについて述べる。 システムの性能を向上させるために,様々なトレーニングスケジュールとデータ統合戦略を検討する。 また、利用可能な小さなデータをどのように活用するかについても検討する。 xlsr-53のようなパブリックアクセスモデルの使用は、カスタマイズ済みの事前学習モデルと比較され、教師なしと教師なしの両方のアプローチはwav2vec 2.0をアーキテクチャとして利用する。

In today's interconnected globe, moving abroad is more and more prevalent, whether it's for employment, refugee resettlement, or other causes. Language difficulties between natives and immigrants present a common issue on a daily basis, especially in medical domain. This can make it difficult for patients and doctors to communicate during anamnesis or in the emergency room, which compromises patient care. The goal of the HYKIST Project is to develop a speech translation system to support patient-doctor communication with ASR and MT. ASR systems have recently displayed astounding performance on particular tasks for which enough quantities of training data are available, such as LibriSpeech. Building a good model is still difficult due to a variety of speaking styles, acoustic and recording settings, and a lack of in-domain training data. In this thesis, we describe our efforts to construct ASR systems for a conversational telephone speech recognition task in the medical domain for Vietnamese language to assist emergency room contact between doctors and patients across linguistic barriers. In order to enhance the system's performance, we investigate various training schedules and data combining strategies. We also examine how best to make use of the little data that is available. The use of publicly accessible models like XLSR-53 is compared to the use of customized pre-trained models, and both supervised and unsupervised approaches are utilized using wav2vec 2.0 as architecture.
翻訳日:2023-09-29 19:27:43 公開日:2023-09-26
# 非教師なし機械学習による眼圧亢進症患者の高速視野進行に関連する因子の同定

Identifying factors associated with fast visual field progression in patients with ocular hypertension based on unsupervised machine learning ( http://arxiv.org/abs/2309.15867v1 )

ライセンス: Link先を確認
Xiaoqin Huang, Asma Poursoroush, Jian Sun, Michael V. Boland, Chris Johnson, and Siamak Yousefi(参考訳) 目的: 教師なし機械学習に基づく視覚野進行傾向の異なる眼圧亢進(OHT)サブタイプを特定し, 高速なVF進行に関連する因子を明らかにすること。 参加者: 合計3133眼, 眼圧治療研究1568名(OHTS)で, フォローアップVF検査を5回以上実施した。 方法: 標準自動ペリメトリ(SAP)平均偏差(MD)軌跡を用いてOHTサブタイプを同定するためにLCMMを用いた。 分類,臨床,眼,VF因子をベースラインとしたサブタイプを同定した。 次に,一般化推定式(GEE)を用いて高速なVF進行を誘導する要因を特定し,定性的かつ定量的に解析を行った。 結果: lcmmモデルはmdの悪化の異なる眼球の4つのクラスター(サブタイプ)を発見した。 クラスター中の眼の数は744人(25%)、1675人(54%)、531人(17%)、133人(4%)であった。 これらのクラスタを,それぞれ0.08,-0.06,-0.21,-0.45dB/年であるMD低下の平均値に基づいて,改良型,安定型,低速進行型,高速進行型とラベル付けした。 高速VF進行眼は, 基線年齢, 眼圧, パターン標準偏差 (PSD) と屈折誤差 (RE) が高かったが, 中心角膜厚 (CCT) は低かった。 早期進行はカルシウムチャネル阻害薬, 男性, 心臓病歴, 糖尿病歴, アフリカ系アメリカ人, 脳卒中歴, 片頭痛と関係していた。

Purpose: To identify ocular hypertension (OHT) subtypes with different trends of visual field (VF) progression based on unsupervised machine learning and to discover factors associated with fast VF progression. Participants: A total of 3133 eyes of 1568 ocular hypertension treatment study (OHTS) participants with at least five follow-up VF tests were included in the study. Methods: We used a latent class mixed model (LCMM) to identify OHT subtypes using standard automated perimetry (SAP) mean deviation (MD) trajectories. We characterized the subtypes based on demographic, clinical, ocular, and VF factors at the baseline. We then identified factors driving fast VF progression using generalized estimating equation (GEE) and justified findings qualitatively and quantitatively. Results: The LCMM model discovered four clusters (subtypes) of eyes with different trajectories of MD worsening. The number of eyes in clusters were 794 (25%), 1675 (54%), 531 (17%) and 133 (4%). We labelled the clusters as Improvers, Stables, Slow progressors, and Fast progressors based on their mean of MD decline, which were 0.08, -0.06, -0.21, and -0.45 dB/year, respectively. Eyes with fast VF progression had higher baseline age, intraocular pressure (IOP), pattern standard deviation (PSD) and refractive error (RE), but lower central corneal thickness (CCT). Fast progression was associated with calcium channel blockers, being male, heart disease history, diabetes history, African American race, stroke history, and migraine headaches.
翻訳日:2023-09-29 19:27:09 公開日:2023-09-26
# chatgptとメカニカルエンジニアリング:feメカニカルエンジニアリングと学部試験におけるパフォーマンスの検討

ChatGPT & Mechanical Engineering: Examining performance on the FE Mechanical Engineering and Undergraduate Exams ( http://arxiv.org/abs/2309.15866v1 )

ライセンス: Link先を確認
Matthew Frenkel, Hebah Emara(参考訳) 2022年末のChatGPTの立ち上げは、STEM教育やSTEM専門家の間で人工知能の応用の可能性に大きな関心を呼んだ。 その結果、教室内外における生成AIツールの能力に関する多くの疑問が提起され、探求が始まっている。 本研究は機械工学の分野におけるchatgptの能力について検討する。 教室や専門的な場面でこのような技術のユースケースや落とし穴を調べることを目的としている。 chatgptは、大規模な私立大学で提供された中等・上級機械工学試験の一連の質問と、機械工学における工学試験の基礎(fe)に関する実践的な質問を提示された。 2つのChatGPTモデル,1つの無償使用と1つの有償サブスクリプションの応答を解析した。 論文は、サブスクリプションモデル(GPT-4)がフリーバージョン(GPT-3.5)を大きく上回り、76%が正しいか51%が正しいと結論した。 その結果,chatgptによる誤りの種類と落とし穴について文献から知見が得られた。 その結果,不整合性や不正確な回答を確実に生成する傾向から,このツールが専門知識を持つユーザに適していることがわかった。

The launch of ChatGPT at the end of 2022 generated large interest into possible applications of artificial intelligence in STEM education and among STEM professions. As a result many questions surrounding the capabilities of generative AI tools inside and outside of the classroom have been raised and are starting to be explored. This study examines the capabilities of ChatGPT within the discipline of mechanical engineering. It aims to examine use cases and pitfalls of such a technology in the classroom and professional settings. ChatGPT was presented with a set of questions from junior and senior level mechanical engineering exams provided at a large private university, as well as a set of practice questions for the Fundamentals of Engineering Exam (FE) in Mechanical Engineering. The responses of two ChatGPT models, one free to use and one paid subscription, were analyzed. The paper found that the subscription model (GPT-4) greatly outperformed the free version (GPT-3.5), achieving 76% correct vs 51% correct, but the limitation of text only input on both models makes neither likely to pass the FE exam. The results confirm findings in the literature with regards to types of errors and pitfalls made by ChatGPT. It was found that due to its inconsistency and a tendency to confidently produce incorrect answers the tool is best suited for users with expert knowledge.
翻訳日:2023-09-29 19:26:40 公開日:2023-09-26
# 相対論的絡み合いに関する一考察

A note on relativistic entanglement ( http://arxiv.org/abs/2309.15863v1 )

ライセンス: Link先を確認
Saulo Carneiro(参考訳) 非コラプス相互作用の存在下での量子絡み合いの時間発展について論じる。 相対論的システムの場合、絡み合う過程間の相関は対応する不変区間の等式によって定義される。 一例として、粒子崩壊の産物間の絡み合いが再検討され、ミューオン$g-2$実験結果と正確な一致で相関する。 曲線空間時間へのそのような仮定の拡張は、水平線の存在下での絡み合いの生存を議論するためにも用いられる。

I discuss the time evolution of quantum entanglement in presence of non-collapsing interactions. In the case of relativistic systems, the correlation between entangled processes is defined by the equality of the correspondent invariant intervals. As an example, the entanglement between the products of a particle decay is revisited, leading to correlations in precise agreement with the muon $g-2$ experimental results. The extension of such a postulate to the curved space-time is also used to discuss the survival of entanglement in the presence of horizons.
翻訳日:2023-09-29 19:26:18 公開日:2023-09-26
# GasMono: 室内シーンにおける幾何学的自己監督型単眼深度推定

GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for Indoor Scenes ( http://arxiv.org/abs/2309.16019v1 )

ライセンス: Link先を確認
Chaoqiang Zhao, Matteo Poggi, Fabio Tosi, Lei Zhou, Qiyu Sun, Yang Tang, Stefano Mattoccia(参考訳) 本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己監督単眼深度推定の課題に取り組む。 前者に対処するために多視点幾何を通して単眼列から粗いカメラポーズを得ることにより、学習プロセスを緩和する。 しかし,トレーニングデータセットの異なる場面におけるスケールのあいまいさによって制限された幾何学的粗いポーズの導入は,非直感的なパフォーマンス改善において肯定的な役割を果たせないことがわかった。 この問題に対処するために、回転と翻訳/スケール最適化によるトレーニング中のポーズを洗練することを提案する。 低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせることで、ネットワーク自体からのより正確な深度ガイダンスを提供する。 NYUv2, ScanNet, 7scenes, KITTIデータセットを用いた実験は, 室内の自己監督型単眼深度推定のための新しい最先端技術と優れた一般化能力を実現するフレームワークの各コンポーネントの有効性をサポートする。 コードとモデルはhttps://github.com/zxcqlf/GasMonoで入手できる。

This paper tackles the challenges of self-supervised monocular depth estimation in indoor scenes caused by large rotation between frames and low texture. We ease the learning process by obtaining coarse camera poses from monocular sequences through multi-view geometry to deal with the former. However, we found that limited by the scale ambiguity across different scenes in the training dataset, a na\"ive introduction of geometric coarse poses cannot play a positive role in performance improvement, which is counter-intuitive. To address this problem, we propose to refine those poses during training through rotation and translation/scale optimization. To soften the effect of the low texture, we combine the global reasoning of vision transformers with an overfitting-aware, iterative self-distillation mechanism, providing more accurate depth guidance coming from the network itself. Experiments on NYUv2, ScanNet, 7scenes, and KITTI datasets support the effectiveness of each component in our framework, which sets a new state-of-the-art for indoor self-supervised monocular depth estimation, as well as outstanding generalization ability. Code and models are available at https://github.com/zxcqlf/GasMono
翻訳日:2023-09-29 18:46:13 公開日:2023-09-26
# クロスシティ問題:高分解能ドメイン適応ネットワークを用いたクロスシティセマンティクスセグメンテーションのためのマルチモーダルリモートセンシングベンチマークデータセット

Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks ( http://arxiv.org/abs/2309.16499v1 )

ライセンス: Link先を確認
Danfeng Hong, Bing Zhang, Hao Li, Yuxuan Li, Jing Yao, Chenyu Li, Martin Werner, Jocelyn Chanussote, Alexander Zipf, Xiao Xiang Zhu(参考訳) 近年、人工知能(AI)のアプローチは、特に個々の都市環境(例えば、単一都市や地域)に重点を置いて、単一モダリティに支配されたリモートセンシング(RS)アプリケーションで顕著な成功を収めている。 しかし、これらのAIモデルは、多種多様なRS情報や高度な一般化能力を備えた最先端ソリューションが欠如しているため、都市や地域にわたるケーススタディにおけるパフォーマンスボトルネックを満たす傾向にある。 この目的のために我々は,ベルリン・アウクスブルク(ドイツ)と北京・武漢(中国)の2つの都市横断シーンからなる都市間セマンティックセグメンテーションタスク(C2Segデータセット)の研究を目的とした,マルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を新たに構築した。 一つの都市に留まらず,多都市環境からAIモデルの一般化能力を促進するために,高解像度なドメイン適応ネットワークであるHighDANを提案する。 高DANは、並列高分解能融合方式で研究都市景観の空間的トポロジカル構造を良好に維持できると同時に、異なる都市間でのRS画像表現の相違から生じるギャップを、対角学習により閉鎖することができる。 さらに、高DANでは、都市間の要因による階級不均衡の問題を軽減するため、Dice損失が考慮されている。 C2Segデータセットで実施された大規模な実験は、最先端の競合他社と比較して、セグメント化性能と一般化能力において、私たちのHighDANの優位性を示している。 C2Segデータセットとセマンティックセグメンテーションツールボックス(提案されているHighDANを含む)はhttps://github.com/danfenghong.comで公開される。

Artificial intelligence (AI) approaches nowadays have gained remarkable success in single-modality-dominated remote sensing (RS) applications, especially with an emphasis on individual urban environments (e.g., single cities or regions). Yet these AI models tend to meet the performance bottleneck in the case studies across cities or regions, due to the lack of diverse RS information and cutting-edge solutions with high generalization ability. To this end, we build a new set of multimodal remote sensing benchmark datasets (including hyperspectral, multispectral, SAR) for the study purpose of the cross-city semantic segmentation task (called C2Seg dataset), which consists of two cross-city scenes, i.e., Berlin-Augsburg (in Germany) and Beijing-Wuhan (in China). Beyond the single city, we propose a high-resolution domain adaptation network, HighDAN for short, to promote the AI model's generalization ability from the multi-city environments. HighDAN is capable of retaining the spatially topological structure of the studied urban scene well in a parallel high-to-low resolution fusion fashion but also closing the gap derived from enormous differences of RS image representations between different cities by means of adversarial learning. In addition, the Dice loss is considered in HighDAN to alleviate the class imbalance issue caused by factors across cities. Extensive experiments conducted on the C2Seg dataset show the superiority of our HighDAN in terms of segmentation performance and generalization ability, compared to state-of-the-art competitors. The C2Seg dataset and the semantic segmentation toolbox (involving the proposed HighDAN) will be available publicly at https://github.com/danfenghong.
翻訳日:2023-09-29 13:59:02 公開日:2023-09-26
# 最適スパース決定木

Optimal Sparse Decision Trees ( http://arxiv.org/abs/1904.12847v6 )

ライセンス: Link先を確認
Xiyang Hu, Cynthia Rudin, Margo Seltzer(参考訳) 決定木アルゴリズムは1980年代初頭から、解釈可能な(透明な)機械学習の最も一般的なアルゴリズムである。 決定木アルゴリズムの登場以来、決定木アルゴリズムに悩まされてきた問題は、最適性の欠如、または最適性に近いことの保証の欠如である。 決定木最適化の困難さは理論的かつ実践的な障害であり、注意深い数学的プログラミングアプローチでさえこれらの問題を効率的に解けていない。 本研究は,バイナリ変数の最適決定木に対する最初の実用的なアルゴリズムを提案する。 このアルゴリズムは、検索空間と、データ構造やカスタムビットベクトルライブラリを含む現代的なシステム技術を減らす解析的境界の共設計である。 我々の実験はスケーラビリティ、スピード、最適性の証明の利点を強調します。 コードはhttps://github.com/xiyanghu/OSDT.comで入手できる。

Decision tree algorithms have been among the most popular algorithms for interpretable (transparent) machine learning since the early 1980's. The problem that has plagued decision tree algorithms since their inception is their lack of optimality, or lack of guarantees of closeness to optimality: decision tree algorithms are often greedy or myopic, and sometimes produce unquestionably suboptimal models. Hardness of decision tree optimization is both a theoretical and practical obstacle, and even careful mathematical programming approaches have not been able to solve these problems efficiently. This work introduces the first practical algorithm for optimal decision trees for binary variables. The algorithm is a co-design of analytical bounds that reduce the search space and modern systems techniques, including data structures and a custom bit-vector library. Our experiments highlight advantages in scalability, speed, and proof of optimality. The code is available at https://github.com/xiyanghu/OSDT.
翻訳日:2023-09-29 03:55:31 公開日:2023-09-26
# 学習行動空間におけるスパース報酬の発見と活用

Discovering and Exploiting Sparse Rewards in a Learned Behavior Space ( http://arxiv.org/abs/2111.01919v2 )

ライセンス: Link先を確認
Giuseppe Paolo, Miranda Coninx, Alban Laflaqui\`ere, and Stephane Doncieux(参考訳) スパース報酬設定での最適ポリシーの学習は、学習エージェントがそのアクションの品質に対するフィードバックがほとんどないため、難しい。 これらの状況において、良い戦略は探索に集中することであり、改善のための報酬信号の発見につながることを願っている。 この種の設定を扱うことができる学習アルゴリズムは、(1)エージェントの振る舞いを探索し、(2)発見可能な報酬を活用できる必要がある。 効率的な探索アルゴリズムが提案され、行動空間を定義し、エージェントに関連付け、その結果として生じる振る舞いを探索する価値のある空間に関連付ける。 この空間を定義する必要性は、これらのアルゴリズムの制限である。 本研究では,与えられた報酬を効率的に最適化しつつ,行動空間を学習し,探索するアルゴリズムであるSTAXを紹介する。 それは、行動空間の探索と学習を、報酬の搾取から交互に2段階のプロセスを通して切り離すことによって行われる。 最初のステップでは、STAXは、ポリシー評価中に発生する高次元観測の低次元表現を学習しながら、多様なポリシーのレパートリーを構築する。 搾取ステップでは、エミッタを使用して、検出された報酬ソリューションのパフォーマンスを最適化する。 3つの異なるスパース報酬環境で行われた実験により、STAXは既存のベースラインと相容れない性能を示し、自律的に行動空間を構築する際に、タスクに関する事前情報を要求する。

Learning optimal policies in sparse rewards settings is difficult as the learning agent has little to no feedback on the quality of its actions. In these situations, a good strategy is to focus on exploration, hopefully leading to the discovery of a reward signal to improve on. A learning algorithm capable of dealing with this kind of settings has to be able to (1) explore possible agent behaviors and (2) exploit any possible discovered reward. Efficient exploration algorithms have been proposed that require to define a behavior space, that associates to an agent its resulting behavior in a space that is known to be worth exploring. The need to define this space is a limitation of these algorithms. In this work, we introduce STAX, an algorithm designed to learn a behavior space on-the-fly and to explore it while efficiently optimizing any reward discovered. It does so by separating the exploration and learning of the behavior space from the exploitation of the reward through an alternating two-steps process. In the first step, STAX builds a repertoire of diverse policies while learning a low-dimensional representation of the high-dimensional observations generated during the policies evaluation. In the exploitation step, emitters are used to optimize the performance of the discovered rewarding solutions. Experiments conducted on three different sparse reward environments show that STAX performs comparably to existing baselines while requiring much less prior information about the task as it autonomously builds the behavior space.
翻訳日:2023-09-29 02:08:42 公開日:2023-09-26
# 超伝導量子ビット中に析出するnb水素化物の発見

Discovery of Nb hydride precipitates in superconducting qubits ( http://arxiv.org/abs/2108.10385v2 )

ライセンス: Link先を確認
Jaeyel Lee, Zuhawn Sung, Akshay A. Murthy, Matt Reagor, Anna Grassellino, and Alexander Romanenko(参考訳) リゲッティ・コンピューティングで作製された超伝導量子ビットのシリコン基板上におけるニオブ膜中のニオブ水和物生成の最初の証拠を報告する。 室温および極低温原子スケール高分解能走査透過電子顕微鏡(hr-temおよびstem)、原子間力顕微鏡(afm)、tof-sims(time-of-flight secondary ion mass spectroscopy)などの補完技術を組み合わせて、リゲッティチップ領域に直接沈殿するニオブ水素化物の存在を明らかにする。 電子回折および高分解能透過電子顕微鏡(hr-tem)による超伝導ニオブ膜領域の室温および極低温温度(約106k)の解析を行い、結晶方位と原子構造が異なる3種類のnbハイドリドドメインの形成を明らかにした。 また、Nb粒内の小さな(〜5nm)不規則な形状ドメインから、大きな(~10-100nm)Nb粒まで、大きさや形態にも変化がある。 ニオブ水和物は非超伝導であり, 冷却温度の異なる場合, サイズや位置が変化しやすいことから, 超伝導量子ビットのデコヒーレンスを新たに未知にし, 準粒子と2レベル系(TLS)の損失の両面に寄与し, 冷却時のクビット性能の変化を説明できる可能性が示唆された。 超伝導量子ビット用Nb水素化物の生成を緩和する経路についても論じる。

We report the first evidence of the formation of niobium hydrides within niobium films on silicon substrates in superconducting qubits fabricated at Rigetti Computing. We combine complementary techniques including room and cryogenic temperature atomic scale high-resolution and scanning transmission electron microscopy (HR-TEM and STEM), atomic force microscopy (AFM), and the time-of-flight secondary ion mass spectroscopy (TOF-SIMS) to reveal the existence of the niobium hydride precipitates directly in the Rigetti chip areas. Electron diffraction and high-resolution transmission electron microscopy (HR-TEM) analyses are performed at room and cryogenic temperatures (~106 K) on superconducting qubit niobium film areas, and reveal the formation of three types of Nb hydride domains with different crystalline orientations and atomic structures. There is also variation in their size and morphology from small (~5 nm) irregular shape domains within the Nb grains to large (~10-100 nm) Nb grains fully converted to niobium hydride. As niobium hydrides are non-superconducting and can easily change in size and location upon different cooldowns to cryogenic temperatures, our findings highlight a new previously unknown source of decoherence in superconducting qubits, contributing to both quasiparticle and two-level system (TLS) losses, and offering a potential explanation for qubit performance changes upon cooldowns. A pathway to mitigate the formation of the Nb hydrides for superconducting qubit applications is also discussed.
翻訳日:2023-09-29 02:08:03 公開日:2023-09-26
# 簡単なステップは必要なだけ:フランク=ウルフと一般化された自己調和関数

Simple steps are all you need: Frank-Wolfe and generalized self-concordant functions ( http://arxiv.org/abs/2105.13913v6 )

ライセンス: Link先を確認
Alejandro Carderera and Mathieu Besan\c{c}on and Sebastian Pokutta(参考訳) 一般化自己一致は、多くの重要な学習問題の目的関数に存在する重要な特性である。 自由ループのステップサイズ戦略である$\gamma_t = 2/(t+2)$を用いて、原始ギャップとフランクウルフギャップの観点で、この関数のクラスに対して$\mathcal{o}(1/t)$の収束率を得る単純なフランク・ウルフ変種(英語版)の収束率を確立し、ここで$t$は反復数である。 これにより、二階情報の使用や、前の作業の局所的滑らか度パラメータを見積もる必要がない。 また,一様凸領域や多面体領域を考慮に入れた場合など,様々な症例に対する収束率の改善も示した。

Generalized self-concordance is a key property present in the objective function of many important learning problems. We establish the convergence rate of a simple Frank-Wolfe variant that uses the open-loop step size strategy $\gamma_t = 2/(t+2)$, obtaining a $\mathcal{O}(1/t)$ convergence rate for this class of functions in terms of primal gap and Frank-Wolfe gap, where $t$ is the iteration count. This avoids the use of second-order information or the need to estimate local smoothness parameters of previous work. We also show improved convergence rates for various common cases, e.g., when the feasible region under consideration is uniformly convex or polyhedral.
翻訳日:2023-09-29 02:07:34 公開日:2023-09-26
# geonet:wasserstein測地学学習用ニューラルネットワーク

GeONet: a neural operator for learning the Wasserstein geodesic ( http://arxiv.org/abs/2209.14440v3 )

ライセンス: Link先を確認
Andrew Gracyk, Xiaohui Chen(参考訳) 最適なトランスポート(ot)は、複雑なデータ分布を幾何学的に意味のある方法で比較するための汎用フレームワークを提供する。 従来の確率測度間のワッサーシュタイン距離と測地線を計算する方法はメッシュに依存した領域の離散化を必要とし、次元の呪いに苦しむ。 本稿では,初期分布と終端分布の入力対から2つの終端分布を接続するwasserstein測地線への非線形写像を学習するメッシュ不変深層ニューラルネットワークgeonetを提案する。 オフライントレーニング段階において、GeONetは、結合されたPDEシステムによって特徴づけられる原始空間と双対空間におけるOT問題の動的定式化のためのサドル点最適条件を学習する。 その後の推論段階は瞬時に行われ、オンライン学習環境でリアルタイムの予測にデプロイできる。 シミュレーション例では,GeONet が標準 OT ソルバと同等の精度で,MNIST データセットで推定段階の計算コストを桁違いに削減できることを示した。

Optimal transport (OT) offers a versatile framework to compare complex data distributions in a geometrically meaningful way. Traditional methods for computing the Wasserstein distance and geodesic between probability measures require mesh-dependent domain discretization and suffer from the curse-of-dimensionality. We present GeONet, a mesh-invariant deep neural operator network that learns the non-linear mapping from the input pair of initial and terminal distributions to the Wasserstein geodesic connecting the two endpoint distributions. In the offline training stage, GeONet learns the saddle point optimality conditions for the dynamic formulation of the OT problem in the primal and dual spaces that are characterized by a coupled PDE system. The subsequent inference stage is instantaneous and can be deployed for real-time predictions in the online learning setting. We demonstrate that GeONet achieves comparable testing accuracy to the standard OT solvers on simulation examples and the MNIST dataset with considerably reduced inference-stage computational cost by orders of magnitude.
翻訳日:2023-09-29 00:17:47 公開日:2023-09-26
# 制御バリア関数を用いた確率論的安全なオンライン学習

Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions ( http://arxiv.org/abs/2208.10733v2 )

ライセンス: Link先を確認
Fernando Casta\~neda, Jason J. Choi, Wonsuhk Jung, Bike Zhang, Claire J. Tomlin, Koushil Sreenath(参考訳) 学習ベースの制御スキームは、最近、様々なアプリケーションで複雑なタスクを実行する素晴らしい効果を示している。 しかし、実際のシステムにデプロイするには、オンライントレーニングと実行の間、システムが安全であることを保証することが極めて重要である。 この課題に対処する最も一般的な方法のうち、制御バリア関数(CBF)は、既知の力学を持つシステムに対して、正式な安全保存制御合成手順を提供する数学的ツールである。 本稿では,まずgaussian process (gp)回帰を用いたcbfベースの安全クリティカルコントローラのモデル不確実性を考慮した再構成を行い,近似数学モデルと実システムとのギャップを橋渡しする。 従来のアプローチと比較して,ロバストな安全クリティカルコントローラの実現可能性について検討した。 この実現可能性分析は、利用可能なシステムに関する情報が常に安全な制御アクションが見つかることを保証するために満たすべき一連の豊かさ条件をもたらす。 次に、これらの条件を用いて、学習した安全クリティカルコントローラの再帰的実現性を保証する、イベントトリガー付きオンラインデータ収集戦略を考案する。 提案手法は,現在処理中の情報が安全を確保するのに十分なものであるか,新しい測定が必要なのかを常に判断できる能力を備えたシステムを実現する。 これにより、事前探索されていない領域であっても、高い確率で安全な集合の前方不変性の公式な結果が得られる。 最後に,適応型クルーズ制御システムとキネマティック車両の数値シミュレーションにおいて,提案手法を検証した。

Learning-based control schemes have recently shown great efficacy performing complex tasks for a wide variety of applications. However, in order to deploy them in real systems, it is of vital importance to guarantee that the system will remain safe during online training and execution. Among the currently most popular methods to tackle this challenge, Control Barrier Functions (CBFs) serve as mathematical tools that provide a formal safety-preserving control synthesis procedure for systems with known dynamics. In this paper, we first introduce a model-uncertainty-aware reformulation of CBF-based safety-critical controllers using Gaussian Process (GP) regression to bridge the gap between an approximate mathematical model and the real system. Compared to previous approaches, we study the feasibility of the resulting robust safety-critical controller. This feasibility analysis results in a set of richness conditions that the available information about the system should satisfy to guarantee that a safe control action can be found at all times. We then use these conditions to devise an event-triggered online data collection strategy that ensures the recursive feasibility of the learned safety-critical controller. Our proposed methodology endows the system with the ability to reason at all times about whether the current information at its disposal is enough to ensure safety or if new measurements are required. This, in turn, allows us to provide formal results of forward invariance of a safe set with high probability, even in a priori unexplored regions. Finally, we validate the proposed framework in numerical simulations of an adaptive cruise control system and a kinematic vehicle.
翻訳日:2023-09-29 00:15:33 公開日:2023-09-26
# 複数ノード間情報をコヒーレントにルーティングする量子ネットワーク

Quantum networks with coherent routing of information through multiple nodes ( http://arxiv.org/abs/2208.00480v2 )

ライセンス: Link先を確認
Hl\'er Kristj\'ansson, Yan Zhong, Anthony Munson, Giulio Chiribella(参考訳) インターネットのような大規模通信ネットワークは、複数の中間ノードを介してデータのパケットをルーティングし、送信者から受信者へ情報を送信する。 本稿では,中間局を通る複数の経路に沿って同時に情報をルーティングする量子通信ネットワークのモデルを開発する。 量子ルーティング手法は,情報を確実に送信できる距離を原理的に拡張できることを実証する。 驚いたことに、量子ルーティングの利点は古典的な情報の伝送にも適用される: 送信されたデータが純粋に古典的であるとしても、複数のルートで非局在化することで、達成可能な送信距離を増大させることができる。 本研究は、セキュアな量子通信と分散量子コンピューティングを実現するだけでなく、古典的データ伝送の範囲を広げるための将来の量子インターネットの可能性を強調した。

Large-scale communication networks, such as the internet, rely on routing packets of data through multiple intermediate nodes to transmit information from a sender to a receiver. In this paper, we develop a model of a quantum communication network that routes information simultaneously along multiple paths passing through intermediate stations. We demonstrate that a quantum routing approach can in principle extend the distance over which information can be transmitted reliably. Surprisingly, the benefit of quantum routing also applies to the transmission of classical information: even if the transmitted data is purely classical, delocalising it on multiple routes can enhance the achievable transmission distance. Our findings highlight the potential of a future quantum internet not only for achieving secure quantum communication and distributed quantum computing but also for extending the range of classical data transmission.
翻訳日:2023-09-29 00:14:50 公開日:2023-09-26
# 敵対的攻撃に対する連続学習の感受性

Susceptibility of Continual Learning Against Adversarial Attacks ( http://arxiv.org/abs/2207.05225v4 )

ライセンス: Link先を確認
Hikmat Khan, Pir Masoom Shah, Syed Farhan Alam Zaidi, Saif ul Islam(参考訳) 最近の継続的な学習アプローチは主に破滅的な忘れを緩和することに焦点を当てている。 しかし、2つの重要な領域は比較的未発見のままである。 1)提案手法のロバスト性の評価及び評価 2)学習課題の安全性の確保。 本稿では,現在および以前取得したタスクを含む継続的な学習課題の敵攻撃に対する感受性について検討する。 具体的には、任意のタスクに属するクラスが、他のタスクの希望するターゲットクラスとして簡単にターゲットと誤分類できることを観察しました。 このような学習タスクの攻撃に対する感受性や脆弱性は、データの完全性とプライバシに関する深刻な懸念を引き起こす。 連続学習アプローチのロバスト性を評価するために,タスク・インクリメンタル学習,ドメイン・インクリメンタル学習,クラスインクリメンタル学習という3つのシナリオすべてにおいて,連続学習アプローチを検討する。 本稿では,正規化に基づく3つの手法,リプレイに基づく3つのアプローチ,リプレイと模範的アプローチを組み合わせた1つのハイブリッド手法の堅牢性について検討する。 実験により, 連続学習のあらゆる場面において, 現行や以前に学習されたタスクに属するあらゆるクラスが, 誤分類の影響を受けやすいことを示した。 本研究は, 対人攻撃に対する連続学習アプローチの潜在的な限界を特定し, 現在の連続学習アルゴリズムが実環境への展開に適さないことを強調した。

Recent continual learning approaches have primarily focused on mitigating catastrophic forgetting. Nevertheless, two critical areas have remained relatively unexplored: 1) evaluating the robustness of proposed methods and 2) ensuring the security of learned tasks. This paper investigates the susceptibility of continually learned tasks, including current and previously acquired tasks, to adversarial attacks. Specifically, we have observed that any class belonging to any task can be easily targeted and misclassified as the desired target class of any other task. Such susceptibility or vulnerability of learned tasks to adversarial attacks raises profound concerns regarding data integrity and privacy. To assess the robustness of continual learning approaches, we consider continual learning approaches in all three scenarios, i.e., task-incremental learning, domain-incremental learning, and class-incremental learning. In this regard, we explore the robustness of three regularization-based methods, three replay-based approaches, and one hybrid technique that combines replay and exemplar approaches. We empirically demonstrated that in any setting of continual learning, any class, whether belonging to the current or previously learned tasks, is susceptible to misclassification. Our observations identify potential limitations of continual learning approaches against adversarial attacks and highlight that current continual learning algorithms could not be suitable for deployment in real-world settings.
翻訳日:2023-09-29 00:14:37 公開日:2023-09-26
# fedss: クライアントのスマート選択による連合学習

FedSS: Federated Learning with Smart Selection of clients ( http://arxiv.org/abs/2207.04569v2 )

ライセンス: Link先を確認
Ammar Tahir, Yongzhou Chen, Prashanti Nilayam(参考訳) フェデレーション学習は、ユーザのプライバシを維持しながら、異種ユーザデータを分散形式で学習する機能を提供する。 しかし、現在のクライアント選択技術は、遅いクライアントと差別化するため、バイアスの源となっている。 まず、特定のネットワークやシステム固有の基準を満たすクライアントを選択し、遅いクライアントを選択しない。 そのようなクライアントがトレーニングプロセスに含まれている場合でも、トレーニングに苦しむか、遅すぎるために完全にドロップされる。 提案するアイデアは,スマートクライアントの選択とスケジューリング手法に注目することで,高速収束と異質性の間のスイートスポットを見出したいと考えている。

Federated learning provides the ability to learn over heterogeneous user data in a distributed manner while preserving user privacy. However, its current client selection technique is a source of bias as it discriminates against slow clients. For starters, it selects clients that satisfy certain network and system-specific criteria, thus not selecting slow clients. Even when such clients are included in the training process, they either struggle with the training or are dropped altogether for being too slow. Our proposed idea looks to find a sweet spot between fast convergence and heterogeneity by looking at smart client selection and scheduling techniques.
翻訳日:2023-09-29 00:14:15 公開日:2023-09-26
# 2つの政党の私的独立試験

Private independence testing across two parties ( http://arxiv.org/abs/2207.03652v2 )

ライセンス: Link先を確認
Praneeth Vepakomma, Mohammad Mohammadi Amiri, Cl\'ement L. Canonne, Ramesh Raskar, Alex Pentland(参考訳) 我々は,複数のパーティに分散したデータ間の統計的独立性をテストするプライバシ保存アルゴリズムである$\pi$-testを導入する。 我々のアルゴリズムは、Sz\ekely et alで導入された独立性の定量的尺度であるデータセット間の距離相関をプライベートに推定することに依存している。 [2007]. 我々は,機密データを含む様々な分散仮説テスト環境で応用されるであろう,微分プライベートテストの有用性について,加法と乗法の両方の誤差境界を定めている。

We introduce $\pi$-test, a privacy-preserving algorithm for testing statistical independence between data distributed across multiple parties. Our algorithm relies on privately estimating the distance correlation between datasets, a quantitative measure of independence introduced in Sz\'ekely et al. [2007]. We establish both additive and multiplicative error bounds on the utility of our differentially private test, which we believe will find applications in a variety of distributed hypothesis testing settings involving sensitive data.
翻訳日:2023-09-29 00:14:03 公開日:2023-09-26
# ランダムウォーク確率ADMMによるインフラストラクチャレスおよび異種環境における個人化フェデレーション学習の安定化

Mobilizing Personalized Federated Learning in Infrastructure-Less and Heterogeneous Environments via Random Walk Stochastic ADMM ( http://arxiv.org/abs/2304.12534v3 )

ライセンス: Link先を確認
Ziba Parsons, Fei Dou, Houyi Du, Zheng Song, Jin Lu(参考訳) 本稿では,インフラストラクチャレス環境において,無線リンクを介してのみ接続可能な,データ不均質な分離ノードを特徴とする実用的なシナリオにおいて,連合学習(federated learning:fl)を実現するための課題について検討する。 これらの課題を克服するために,モビリティとレジリエンスの促進を目的とした,パーソナライズされたFLアプローチを提案する。 具体的には,RWSADMM(Random Walk Stochastic Alternating Direction Method of Multipliers)と呼ばれる新しい最適化アルゴリズムを開発した。 RWSADMMは、クライアントに対するサーバのランダムな動きに着目し、コンセンサス更新や正規化メソッドによるバイアスの導入よりも、厳しい不等式制約に基づいて、隣接するクライアント間の局所的な近接を定式化する。 クライアントの計算負担を軽減するため、近似最適化問題の効率的な確率解法をRWSADMMで設計し、ほぼ確実に定常点に収束する。 我々の理論的および実証的な結果は、RWSADMMによる証明可能な高速収束と相当な精度の向上を示し、通信コストの削減とスケーラビリティの向上の恩恵を享受する。

This paper explores the challenges of implementing Federated Learning (FL) in practical scenarios featuring isolated nodes with data heterogeneity, which can only be connected to the server through wireless links in an infrastructure-less environment. To overcome these challenges, we propose a novel mobilizing personalized FL approach, which aims to facilitate mobility and resilience. Specifically, we develop a novel optimization algorithm called Random Walk Stochastic Alternating Direction Method of Multipliers (RWSADMM). RWSADMM capitalizes on the server's random movement toward clients and formulates local proximity among their adjacent clients based on hard inequality constraints rather than requiring consensus updates or introducing bias via regularization methods. To mitigate the computational burden on the clients, an efficient stochastic solver of the approximated optimization problem is designed in RWSADMM, which provably converges to the stationary point almost surely in expectation. Our theoretical and empirical results demonstrate the provable fast convergence and substantial accuracy improvements achieved by RWSADMM compared to baseline methods, along with its benefits of reduced communication costs and enhanced scalability.
翻訳日:2023-09-28 22:04:57 公開日:2023-09-26
# 簡易サブスキルコントローラによる探索誘導によるデクスタース手操作

Dexterous In-hand Manipulation by Guiding Exploration with Simple Sub-skill Controllers ( http://arxiv.org/abs/2303.03533v2 )

ライセンス: Link先を確認
Gagan Khandate, Cameron Mehlman, Xingsheng Wei, Matei Ciocarlie(参考訳) 近年、強化学習は複雑さを増すための巧妙な操作スキルにつながっている。 それでも、これらのスキルをシミュレーションで学ぶことは、これらのスキルがドメインの専門知識の恩恵を受けずにゼロから学習されるという事実に由来する、サンプル効率の低さを示す。 本研究では,ドメイン知識を介して利用可能な制御器を用いて手動操作スキルを学習する際のサンプル効率を向上させることを目的とする。 そこで我々は,単純なサブスキルコントローラを設計し,これらのコントローラからのアクションに従うことで,関連する状態空間への探索をガイドするフレームワークを用いて,サンプル効率の向上を示す。 我々は,探索的リセット分布を用いることなく,手指の操作能力の習得を初めて実演する。 ビデオの結果はhttps://roamlab.github.io/vgeで確認できる。

Recently, reinforcement learning has led to dexterous manipulation skills of increasing complexity. Nonetheless, learning these skills in simulation still exhibits poor sample-efficiency which stems from the fact these skills are learned from scratch without the benefit of any domain expertise. In this work, we aim to improve the sample efficiency of learning dexterous in-hand manipulation skills using controllers available via domain knowledge. To this end, we design simple sub-skill controllers and demonstrate improved sample efficiency using a framework that guides exploration toward relevant state space by following actions from these controllers. We are the first to demonstrate learning hard-to-explore finger-gaiting in-hand manipulation skills without the use of an exploratory reset distribution. Video results can be found at https://roamlab.github.io/vge
翻訳日:2023-09-28 22:03:56 公開日:2023-09-26
# 正方格子中のsu(3)フェルミオンの金属-絶縁体転移と磁性

Metal-insulator transition and magnetism of SU(3) fermions in the square lattice ( http://arxiv.org/abs/2306.10644v2 )

ライセンス: Link先を確認
Eduardo Ibarra-Garc\'ia-Padilla, Chunhan Feng, Giulio Pasqualetti, Simon F\"olling, Richard T. Scalettar, Ehsan Khatami, Kaden R. A. Hazzard(参考訳) 数値的精度決定型量子モンテカルロ法(DQMC)と数値連結クラスタ展開法(NLCE)を用いて, 正方格子中のSU(3)対称フェルミ-ハッバードモデル(FHM)を1/3$-fillingで検討した。 本稿では,金属絶縁体遷移と磁気クロスオーバーのシグネチャを捉え,局所的および短距離相関を特徴とするT-U$平面におけるモデルの異なる状態を示す。 これらのシグネチャは、圧縮率の上昇と対角スピン-スピン相関関数の符号における相互作用依存性の変化を特徴付ける温度スケールとして検出される。 圧縮性の解析は、金属絶縁体量子臨界点の位置を$U_c/t \sim 6$と推定し、有限のT$でモット物理を観測するための温度スケールを提供する。 さらに、スピン-スピン相関関数の解析から、$U/t \gtrsim6$と$T \sim J = 4t^2/U$に対して、温度が$T/J \lesssim 0.57$を下回るにつれて出現する3つの反強磁性構造(3-SL)と短距離の2つの反強磁性構造(2-SL)が発達する。 この2-slから3-slの磁気秩序の交差は、ハイゼンベルク限界予測と一致し、オンサイト対の密度に観測可能な効果を持つ。 最後に、現在達成されている実験技術と温度を持つ光学格子中のアルカリ-アース様原子を用いて、T$-$U$平面のレジームの特徴を探索する方法について述べる。 本論文で論じられた結果は, ドーピングによるSU(3)FHM探査の出発点となる。

We study the SU(3) symmetric Fermi-Hubbard model (FHM) in the square lattice at $1/3$-filling using numerically exact determinant quantum Monte Carlo (DQMC) and numerical linked-cluster expansion (NLCE) techniques. We present the different regimes of the model in the $T-U$ plane, which are characterized by local and short-range correlations, and capture signatures of the metal-insulator transition and magnetic crossovers. These signatures are detected as the temperature scales characterizing the rise of the compressibility, and an interaction-dependent change in the sign of the diagonal spin-spin correlation function. The analysis of the compressibility estimates the location of the metal-insulator quantum critical point at $U_c/t \sim 6$, and provides a temperature scale for observing Mott physics at finite-$T$. Furthermore, from the analysis of the spin-spin correlation function we observe that for $U/t \gtrsim6$ and $T \sim J = 4t^2/U$ there is a development of a short-range two sublattice (2-SL) antiferromagnetic structure, as well as an emerging three sublattice (3-SL) antiferromagnetic structure as the temperature is lowered below $T/J \lesssim 0.57$. This crossover from 2-SL to 3-SL magnetic ordering agrees with Heisenberg limit predictions, and has observable effects on the density of on-site pairs. Finally, we describe how the features of the regimes in the $T$-$U$ plane can be explored with alkaline-earth-like atoms in optical lattices with currently-achieved experimental techniques and temperatures. The results discussed in this manuscript provide a starting point for the exploration of the SU(3) FHM upon doping.
翻訳日:2023-09-28 21:57:04 公開日:2023-09-26
# Fermi-Hubbardモデルに対するコンピュテータスケーリングによるトラッター誤差

Trotter error with commutator scaling for the Fermi-Hubbard model ( http://arxiv.org/abs/2306.10603v2 )

ライセンス: Link先を確認
Ansgar Schubert and Christian B. Mendl(参考訳) 一般トロッター積公式の小さな因子による高階誤差境界を導出し、子などの結果を一般化する。 (第11回第11回第011020回(2021年)) 次に、これらの境界をフェルミ・ハバード・ハミルトニアンによって支配される実時間量子時間発展作用素に1次元および2次元の正方格子および三角形格子に応用する。 我々の研究の主な技術的貢献は、与えられた格子幾何学のホッピングと相互作用項の間の入れ子交換子の象徴的評価である。 この計算は、時間ステップとハミルトニアン係数の項による誤差境界の明示的な表現をもたらす。 実際のtrotterエラー(小さなシステムで評価された)と比較すると、バウンダリがエラーを過大評価していることがわかる。

We derive higher-order error bounds with small prefactors for a general Trotter product formula, generalizing a result of Childs et al. [Phys. Rev. X 11, 011020 (2021)]. We then apply these bounds to the real-time quantum time evolution operator governed by the Fermi-Hubbard Hamiltonian on one-dimensional and two-dimensional square and triangular lattices. The main technical contribution of our work is a symbolic evaluation of nested commutators between hopping and interaction terms for a given lattice geometry. The calculations result in explicit expressions for the error bounds in terms of the time step and Hamiltonian coefficients. Comparison with the actual Trotter error (evaluated on a small system) indicates that the bounds still overestimate the error.
翻訳日:2023-09-28 21:55:59 公開日:2023-09-26
# K'arolyh\'azyモデルの検証可能性について

On the testability of the K\'arolyh\'azy model ( http://arxiv.org/abs/2306.10094v2 )

ライセンス: Link先を確認
Laria Figurato, Angelo Bassi, Sandro Donadi(参考訳) 重力が基本的に古典的であり、空間におけるデコヒーレンスを引き起こす可能性はしばしば文献で考えられている。 この方向の最初の試みの1つは、k\'arolyh\'azyによるモデルであり、量子プローブを用いて測定を行う能力の基本的な限界と、デコヒーレンスに責任を持つ時空計量のゆらぎの存在を関連付けている。 荷電粒子とこの変動する時空との相互作用により、モデルは荷電粒子からの連続的な放射を予測し、Di\'osi と Luk\'acs は、放射率が実験的な観測と矛盾していることを示した。 ここでは、K'arolyh\'azy がモデルから導出する際に、時空のゆらぎが波動方程式を満たすことを仮定して追加の仮説を立てる。 本稿では, この仮定を緩和し, 時空ゆらぎのより一般的な相関関数, 時空変換と時間変換による対称性, 時間反映のみを考察することで, モデルを再考する。 相関関数が満たさなければならない制約をk\'arolyh\'azy基本アイデアと現在の実験境界と互換性を持たせるために計算する。 自発的波動関数崩壊モデルのように、空間と時間変数に分解される可能性のある相関関数の例を示し、これら全ての要件に適合する。

The possibility that gravity is fundamentally classical and that it induces decoherence in space has been often considered in literature. One of the first attempts in this direction is a model put forward by K\'arolyh\'azy, which relates fundamental limitation in the ability to perform a measurement using a quantum probe to the existence of fluctuations of the spacetime metric responsible for decoherence. Due to the interaction of charged particles with this fluctuating spacetime, the model predicts a continuous emission of radiation from charged particles; Di\'osi and Luk\'acs showed that the radiation emission rate is in contradiction with experimental observations, hence ruling out the model. We note that, in deriving his model, K\'arolyh\'azy makes an additional hypothesis by assuming that the spacetime fluctuations satisfy a wave equation. In this paper we reconsider the model by relaxing this assumption and by studying more general correlation functions of the spacetime fluctuations, only imposing symmetry under space and time translations, and time reflection. We compute the constraints the correlation function must fulfill in order to be compatible with K\'arolyh\'azy fundamental idea and with current experimental bounds. We provide one example of a possible correlation function factorized in the space and time variables, like those typical of spontaneous wave function collapse models, which is compatible with all these requirements.
翻訳日:2023-09-28 21:55:45 公開日:2023-09-26
# 共分散ニューラルネットワークを用いた説明可能な脳年齢予測

Explainable Brain Age Prediction using coVariance Neural Networks ( http://arxiv.org/abs/2305.18370v2 )

ライセンス: Link先を確認
Saurabh Sihag, Gonzalo Mateos, Corey T. McMillan, Alejandro Ribeiro(参考訳) 計算神経科学において、脳画像データを利用して個人に「脳年齢」の見積もりを提供する機械学習アルゴリズムの開発への関心が高まっている。 重要なことは、脳年齢と時間年齢の不一致(「脳年齢ギャップ」と呼ばれる)は、健康状態の悪化による老化の加速を捉え、神経疾患や認知障害に対する脆弱性の増加を反映することができる。 しかし、既存の脳年齢予測アルゴリズムの透明性の欠如と方法論的正当化のために、臨床的意思決定支援のための脳年齢の広範な採用が妨げられている。 本稿では,コバリアンスニューラルネットワーク(VNN)を用いて,皮質厚み特徴を用いた脳年齢予測のための解剖学的解釈可能な枠組みを提案する。 具体的には、私たちの脳年齢予測フレームワークは、アルツハイマー病(AD)の脳年齢ギャップの粗い指標を超えて拡張され、2つの重要な観察を行います。 i)VNNは、貢献する脳領域を同定することにより、ADの脳年齢差の増大に解剖学的解釈性を割り当てることができる。 (ii)vnnsが提供する解釈性は、解剖学的共分散行列の特定の固有ベクトルを利用する能力に起因している。 これらの観察は、脳年齢予測の課題に対する説明可能な視点を促進する。

In computational neuroscience, there has been an increased interest in developing machine learning algorithms that leverage brain imaging data to provide estimates of "brain age" for an individual. Importantly, the discordance between brain age and chronological age (referred to as "brain age gap") can capture accelerated aging due to adverse health conditions and therefore, can reflect increased vulnerability towards neurological disease or cognitive impairments. However, widespread adoption of brain age for clinical decision support has been hindered due to lack of transparency and methodological justifications in most existing brain age prediction algorithms. In this paper, we leverage coVariance neural networks (VNN) to propose an anatomically interpretable framework for brain age prediction using cortical thickness features. Specifically, our brain age prediction framework extends beyond the coarse metric of brain age gap in Alzheimer's disease (AD) and we make two important observations: (i) VNNs can assign anatomical interpretability to elevated brain age gap in AD by identifying contributing brain regions, (ii) the interpretability offered by VNNs is contingent on their ability to exploit specific eigenvectors of the anatomical covariance matrix. Together, these observations facilitate an explainable perspective to the task of brain age prediction.
翻訳日:2023-09-28 21:54:52 公開日:2023-09-26
# インテリジェントシステムの複雑解析

Complex Analysis of Intelligent Systems ( http://arxiv.org/abs/2307.12905v3 )

ライセンス: Link先を確認
M.W. AlMasri(参考訳) 論理ゲートは、入力と出力が複数の変数を持つ解析関数である複素微分作用素を用いて書くことができる。 複素数の極表現を用いて、系の振動挙動と論理ゲートの間の即時接続に到達する。 物理オブジェクトが情報処理に使用するユニバーサルプログラミング言語(UPL)について説明する。 UPLの因果構造を保証するため,各時間スケールの計算を特徴付けるレイヤの概念を導入する。

Logic gates can be written in terms of complex differential operators where the inputs and outputs are analytic functions with several variables. Using the polar representation of complex numbers, we arrive at an immediate connection between the oscillatory behavior of the system and logic gates. We explain the universal programming language (UPL) used by physical objects to process information. To assure the causality structure in UPL, we introduce the concept of layers that characterizes the computations for each time scale.
翻訳日:2023-09-28 21:42:42 公開日:2023-09-26
# FLuID:不変ドロップアウトを用いたフェデレーション学習におけるストラグラーの緩和

FLuID: Mitigating Stragglers in Federated Learning using Invariant Dropout ( http://arxiv.org/abs/2307.02623v3 )

ライセンス: Link先を確認
Irene Wang, Prashant J. Nair, Divya Mahajan(参考訳) federated learning(fl)は、機械学習モデルを個々のモバイルデバイス上でローカルにトレーニングし、モデル更新を共有サーバ経由で同期可能にする。 このアプローチはユーザのプライバシを保護するが、デバイス間のパフォーマンス能力が異なるため、異種なトレーニング環境も生成する。 その結果、パフォーマンスの低いストラグラーデバイスは、flの全体的なトレーニング時間を決定することが多い。 本研究では,システム全体のトレーニング負荷を動的にバランスさせることにより,トラグラーによるパフォーマンスボトルネックを軽減することを目的とする。 Invariant Dropoutは,重み更新閾値に基づいてサブモデルを抽出し,精度への影響を最小限に抑える手法である。 このドロップアウト技術に基づいて,適応型学習フレームワークであるFederated Learning using Invariant Dropout (FLuID)を開発した。 FLuIDは計算強度を制御し、モデル品質に影響を与えることなくストラグラーデバイスへの負荷を低減する軽量なサブモデル抽出を提供する。 提案手法は,非ストラグラーデバイスからのニューロン更新を利用して,クライアントの性能プロファイルに基づいて,各ストラグラーに適したサブモデルを構築する。 さらに、FLuIDは実行条件が変化するにつれてストラグラーの変化に動的に対応できる。 5つの実世界のモバイルクライアントを用いてFLuIDを評価する。 評価によると、Invariant Dropoutは、動的で実行時のアプローチを通じてストラグラーのパフォーマンスボトルネックを緩和しながら、ベースラインモデルの効率を維持する。

Federated Learning (FL) allows machine learning models to train locally on individual mobile devices, synchronizing model updates via a shared server. This approach safeguards user privacy; however, it also generates a heterogeneous training environment due to the varying performance capabilities across devices. As a result, straggler devices with lower performance often dictate the overall training time in FL. In this work, we aim to alleviate this performance bottleneck due to stragglers by dynamically balancing the training load across the system. We introduce Invariant Dropout, a method that extracts a sub-model based on the weight update threshold, thereby minimizing potential impacts on accuracy. Building on this dropout technique, we develop an adaptive training framework, Federated Learning using Invariant Dropout (FLuID). FLuID offers a lightweight sub-model extraction to regulate computational intensity, thereby reducing the load on straggler devices without affecting model quality. Our method leverages neuron updates from non-straggler devices to construct a tailored sub-model for each straggler based on client performance profiling. Furthermore, FLuID can dynamically adapt to changes in stragglers as runtime conditions shift. We evaluate FLuID using five real-world mobile clients. The evaluations show that Invariant Dropout maintains baseline model efficiency while alleviating the performance bottleneck of stragglers through a dynamic, runtime approach.
翻訳日:2023-09-28 21:42:09 公開日:2023-09-26
# 臨界多キューブ格子:クディットゲートの無限系に対する新しい含意代数

Critical Multi-Cubic Lattices: A Novel Implication Algebra for Infinite Systems of Qudit Gates ( http://arxiv.org/abs/2306.12236v2 )

ライセンス: Link先を確認
Morrison Turnansky(参考訳) 批判的マルチキュービック格子という新しい構造を導入する。 特に臨界多キューブ格子は、立方格子の高次元空間への最初の真の一般化である。 次に、臨界多重立方体格子の圏における準同型の概念を導入し、その自己同型群を計算し、その群を表すヒルベルト空間を構築する。 このユニタリ表現により、量子計算に共通する一般化されたパウリ行列を導出し、また無限の四重項系の代数的フレームワークを定義する。 また, qudit ゲートの論理的枠組みとしての新たな含意代数として, 臨界多キューブ格子を簡潔に検討する。

We introduce a new structure, the critical multi-cubic lattice. Notably the critical multi-cubic lattice is the first true generalization of the cubic lattice to higher dimensional spaces. We then introduce the notion of a homomorphism in the category of critical multi-cubic lattices, compute its automorphism group, and construct a Hilbert space over which we represent the group. With this unitary representation, we re-derive the generalized Pauli matrices common in quantum computation while also defining an algebraic framework for an infinite system of qudits. We also briefly explore the critical multi-cubic lattice as a novel implication algebra serving as a logical framework for qudit gates.
翻訳日:2023-09-28 21:41:45 公開日:2023-09-26
# フィードバックに基づく基底状態準備のための量子アルゴリズム

Feedback-based quantum algorithms for ground state preparation ( http://arxiv.org/abs/2303.02917v2 )

ライセンス: Link先を確認
James B. Larsen, Matthew D. Grace, Andrew D. Baczewski, Alicia B. Magann(参考訳) 量子多体系の基底状態の性質は、化学、材料科学、物理学にまたがる関心の対象となっている。 したがって、基底状態を見つけるアルゴリズムは広い影響をもたらす可能性がある。 変分量子アルゴリズムは、近年大きな注目を集めている基底状態アルゴリズムの一類である。 これらのアルゴリズムは、量子コンピュータ上で基底状態を作成するためにハイブリッド量子古典計算フレームワークを使用する。 しかし、これは高次元では避けられないほど高価になる古典的な最適化問題を解く必要がある。 ここでは,2次量子化で表されるFermi-Hubbard Hamiltoniansと分子ハミルトニアンの2つの幅広いクラスにおいて,この問題に対処するために使用できる基底状態準備のためのフィードバックベース量子アルゴリズムの定式化を開発する。 古典的な最適化の代わりに、量子回路パラメータは量子リアプノフ制御原理に由来する決定論的フィードバック則に従って設定される。 このフィードバック法則は、量子回路の深さに対する解品質の単調な改善を保証する。 これらの問題クラスに対するフィードバックに基づく量子アルゴリズムの収束と堅牢性を分析するための様々な数値図式が提供される。

The ground state properties of quantum many-body systems are a subject of interest across chemistry, materials science, and physics. Thus, algorithms for finding ground states can have broad impacts. Variational quantum algorithms are one class of ground state algorithms that has received significant attention in recent years. These algorithms utilize a hybrid quantum-classical computing framework to prepare ground states on quantum computers. However, this requires solving a classical optimization problem that can become prohibitively expensive in high dimensions. Here, we develop formulations of feedback-based quantum algorithms for ground state preparation that can be used to address this challenge for two broad classes of Hamiltonians: Fermi-Hubbard Hamiltonians, and molecular Hamiltonians represented in second quantization. Feedback-based quantum algorithms are optimization-free; in place of classical optimization, quantum circuit parameters are set according to a deterministic feedback law derived from quantum Lyapunov control principles. This feedback law guarantees a monotonic improvement in solution quality with respect to the depth of the quantum circuit. A variety of numerical illustrations are provided that analyze the convergence and robustness of feedback-based quantum algorithms for these problem classes.
翻訳日:2023-09-28 19:51:27 公開日:2023-09-26
# 凸ハル構成問題に対する漸近的最適アルゴリズム

An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem ( http://arxiv.org/abs/2302.02033v2 )

ライセンス: Link先を確認
Gang Qiao, Ambuj Tewari(参考訳) 本研究は、与えられた点が有限分布の手段の凸船体にあるかどうかを効率よく正確に決定することを目的とした凸船体メンバシップ(CHM)問題に対する純粋探索条件について研究する。 一次元設定におけるCHM問題のサンプル複雑性の完全な特徴付けを与える。 我々は, 停止規則とサンプリング規則からなる最初の漸近的最適アルゴリズムであるトンプソン-chmを提案する。 さらに,本アルゴリズムを,マルチアームバンディット文学におけるいくつかの重要な問題を一般化する設定に拡張する。 さらに、トンプソン-CHMの高次元への拡張についても論じる。 最後に,実時間軸に対する理論結果に適合するアルゴリズムの実験的挙動を示す数値実験を行った。

This work studies the pure-exploration setting for the convex hull membership (CHM) problem where one aims to efficiently and accurately determine if a given point lies in the convex hull of means of a finite set of distributions. We give a complete characterization of the sample complexity of the CHM problem in the one-dimensional setting. We present the first asymptotically optimal algorithm called Thompson-CHM, whose modular design consists of a stopping rule and a sampling rule. In addition, we extend the algorithm to settings that generalize several important problems in the multi-armed bandit literature. Furthermore, we discuss the extension of Thompson-CHM to higher dimensions. Finally, we provide numerical experiments to demonstrate the empirical behavior of the algorithm matches our theoretical results for realistic time horizons.
翻訳日:2023-09-28 19:49:14 公開日:2023-09-26
# 大規模言語モデルを用いて政治家の最近の位置を推定できる

Large Language Models Can Be Used to Estimate the Latent Positions of Politicians ( http://arxiv.org/abs/2303.12057v4 )

ライセンス: Link先を確認
Patrick Y. Wu, Jonathan Nagler, Joshua A. Tucker, Solomon Messing(参考訳) 特定の次元に沿って政治家の潜在位置を推定する既存のアプローチは、関連するデータが限られている場合、しばしば失敗する。 我々は、この課題に対処し、特定の政治的または政策的な側面に沿って議員の立場を測定するために、ジェネレーティブ・大型言語モデル(llm)に埋め込まれた知識を活用する。 命令/対話型LLMを推進し、議員をペアで比較し、Bradley-Terryモデルを用いて結果のグラフをスケールする。 我々は、リベラル保守的イデオロギー、銃規制、中絶に関する米国上院議員の立場に関する新しい措置を見積もる。 我々のリベラル保守尺度は、LCMによるスケーリングの検証に使用されており、既存の尺度と強く相関し、解釈的ギャップを減らし、LCMが既存の尺度を記憶するのではなく、インターネットやデジタルメディアから関連するデータを合成することを示唆している。 銃規制と中絶措置は、対面的な方法でリベラル保守的な尺度と異なり、イデオロギーのみよりも利害団体の格付けや議員の投票率を予測している。 以上の結果から, LLM は複雑な社会科学計測問題の解決に有効であることが示唆された。

Existing approaches to estimating politicians' latent positions along specific dimensions often fail when relevant data is limited. We leverage the embedded knowledge in generative large language models (LLMs) to address this challenge and measure lawmakers' positions along specific political or policy dimensions. We prompt an instruction/dialogue-tuned LLM to pairwise compare lawmakers and then scale the resulting graph using the Bradley-Terry model. We estimate novel measures of U.S. senators' positions on liberal-conservative ideology, gun control, and abortion. Our liberal-conservative scale, used to validate LLM-driven scaling, strongly correlates with existing measures and offsets interpretive gaps, suggesting LLMs synthesize relevant data from internet and digitized media rather than memorizing existing measures. Our gun control and abortion measures -- the first of their kind -- differ from the liberal-conservative scale in face-valid ways and predict interest group ratings and legislator votes better than ideology alone. Our findings suggest LLMs hold promise for solving complex social science measurement problems.
翻訳日:2023-09-28 19:42:13 公開日:2023-09-26
# SGAligner : シーングラフを用いた3次元シーンアライメント

SGAligner : 3D Scene Alignment with Scene Graphs ( http://arxiv.org/abs/2304.14880v2 )

ライセンス: Link先を確認
Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni(参考訳) 3Dシーングラフの構築は、構造化されたリッチな方法で世界を表現するために、いくつかの具体化されたAIアプリケーションのためのシーン表現のトピックとして最近登場した。 下流タスク(ナビゲーションや部屋の配置など)の問題解決に利用が増えたことで、エージェント操作における重要なステップである環境の3Dマップの作成にそれらを活用して再利用できるだろうか? 重なりが0から偏りがあり、任意の変化を含むことができる3次元シーングラフのペアの整列に関する根本的な問題に焦点を当てる。 本研究では,SGAlignerを提案する。SGAlignerは3次元シーングラフのペアを配置する最初の手法で,環境の変化や環境の変化など,Wildのシナリオに対して堅牢である。 マルチモーダルな知識グラフにインスパイアされ、コントラスト学習を用いて、共同でマルチモーダルな埋め込み空間を学ぶ。 さらに,3RScanデータセットを用いて,2対の3Dシーン間の変換を推定できることを示す。 これらのタスクのベンチマークが欠けているので、このデータセット上でそれらを作成します。 コード、ベンチマーク、トレーニングされたモデルはプロジェクトのWebサイトで入手できる。

Building 3D scene graphs has recently emerged as a topic in scene representation for several embodied AI applications to represent the world in a structured and rich manner. With their increased use in solving downstream tasks (eg, navigation and room rearrangement), can we leverage and recycle them for creating 3D maps of environments, a pivotal step in agent operation? We focus on the fundamental problem of aligning pairs of 3D scene graphs whose overlap can range from zero to partial and can contain arbitrary changes. We propose SGAligner, the first method for aligning pairs of 3D scene graphs that is robust to in-the-wild scenarios (ie, unknown overlap -- if any -- and changes in the environment). We get inspired by multi-modality knowledge graphs and use contrastive learning to learn a joint, multi-modal embedding space. We evaluate on the 3RScan dataset and further showcase that our method can be used for estimating the transformation between pairs of 3D scenes. Since benchmarks for these tasks are missing, we create them on this dataset. The code, benchmark, and trained models are available on the project website.
翻訳日:2023-09-28 19:31:32 公開日:2023-09-26
# ドメイン適応型および一般化可能なネットワークアーキテクチャとセマンティックイメージセグメンテーションのためのトレーニング戦略

Domain Adaptive and Generalizable Network Architectures and Training Strategies for Semantic Image Segmentation ( http://arxiv.org/abs/2304.13615v2 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Luc Van Gool(参考訳) 教師なしドメイン適応(UDA)とドメイン一般化(DG)により、ソースドメインでトレーニングされた機械学習モデルが、ラベルなしまたは目に見えないターゲットドメインでもうまく機能する。 従来のUDA&DGセマンティックセマンティックセグメンテーションは,主に時代遅れのネットワークに基づいているため,より最近のアーキテクチャをベンチマークし,トランスフォーマーの可能性を明らかにし,UDA&DGに適したDAFormerネットワークを設計する。 1) 希少なクラスサンプリングは共通のソースドメインクラスに対するバイアスを軽減するが、(2) Thing-Class ImageNet Feature Distance と(3) 学習率ウォームアップは ImageNet Pretraining からのフィーチャ転送を促進する。 UDA&DGは通常GPUメモリに集約されているため、これまでのほとんどのメソッドはダウンスケールまたはクロップイメージである。 しかしながら、低解像度の予測は細部を保存できないことが多いが、刈り取られた画像で訓練されたモデルは、長距離のドメインローバストなコンテキスト情報を取得するのに不足している。 そこで我々は,UDA&DGのマルチレゾリューション・フレームワークであるHRDAを提案し,細かなセグメンテーションの詳細と大きな低レゾリューションの作物の強度を組み合わせ,長期の文脈依存性を学習規模で把握する。 DAFormerとHRDAは、5つのベンチマークで10mIoU以上で最先端のUDA&DGを大幅に改善した。 実装はhttps://github.com/lhoyer/hrdaで利用可能である。

Unsupervised domain adaptation (UDA) and domain generalization (DG) enable machine learning models trained on a source domain to perform well on unlabeled or even unseen target domains. As previous UDA&DG semantic segmentation methods are mostly based on outdated networks, we benchmark more recent architectures, reveal the potential of Transformers, and design the DAFormer network tailored for UDA&DG. It is enabled by three training strategies to avoid overfitting to the source domain: While (1) Rare Class Sampling mitigates the bias toward common source domain classes, (2) a Thing-Class ImageNet Feature Distance and (3) a learning rate warmup promote feature transfer from ImageNet pretraining. As UDA&DG are usually GPU memory intensive, most previous methods downscale or crop images. However, low-resolution predictions often fail to preserve fine details while models trained with cropped images fall short in capturing long-range, domain-robust context information. Therefore, we propose HRDA, a multi-resolution framework for UDA&DG, that combines the strengths of small high-resolution crops to preserve fine segmentation details and large low-resolution crops to capture long-range context dependencies with a learned scale attention. DAFormer and HRDA significantly improve the state-of-the-art UDA&DG by more than 10 mIoU on 5 different benchmarks. The implementation is available at https://github.com/lhoyer/HRDA.
翻訳日:2023-09-28 19:31:11 公開日:2023-09-26
# 変圧器を用いた効率的なロボット動作計画のためのサンプリング辞書の学習

Learning Sampling Dictionaries for Efficient and Generalizable Robot Motion Planning with Transformers ( http://arxiv.org/abs/2306.00851v2 )

ライセンス: Link先を確認
Jacob J Johnson, Ahmed H Qureshi and Michael Yip(参考訳) 運動計画は、自律走行、手術ロボット、産業用マニピュレータなどのロボット応用に不可欠なものである。 既存の計画手法は高次元空間へのスケーラビリティを欠いているが、近年の学習ベースのプランナーはサンプリングベースのモーションプランナー (smp) を加速する可能性を示している。 そこで本研究では,従来の学習手法の重要な一般化とスケーリングの欠点を克服する,ベクトル量子化計画変換器(VQ-MPT)を提案する。 VQ-MPTは2つのステージから構成される。 ステージ1は有限個のサンプリング分布を用いて計画空間を表現することを学習するベクトル量子変数オートエンコーダモデルであり、ステージ2は学習したサンプリング分布集合から選択してSMPのサンプリング領域を構築する自動回帰モデルである。 大規模計画空間を離散集合に分割し、サンプリング領域を選択的に選択することにより、プランナーは外部SMPとペアリングし、VQ-MPTの助けなしにほぼ最適経路を生成する。 2次元平面から、コストマップやポイントクラウドなど、多様な環境表現を持つ14次元バイマニピュレーションロボットまで、様々な複雑なシステムに適用できるという点で一般化できる。 訓練されたVQ-MPTモデルは、トレーニング中に見えない環境に一般化し、従来の方法よりも高い成功率を達成する。

Motion planning is integral to robotics applications such as autonomous driving, surgical robots, and industrial manipulators. Existing planning methods lack scalability to higher-dimensional spaces, while recent learning based planners have shown promise in accelerating sampling-based motion planners (SMP) but lack generalizability to out-of-distribution environments. To address this, we present a novel approach, Vector Quantized-Motion Planning Transformers (VQ-MPT) that overcomes the key generalization and scaling drawbacks of previous learning-based methods. VQ-MPT consists of two stages. Stage 1 is a Vector Quantized-Variational AutoEncoder model that learns to represent the planning space using a finite number of sampling distributions, and stage 2 is an Auto-Regressive model that constructs a sampling region for SMPs by selecting from the learned sampling distribution sets. By splitting large planning spaces into discrete sets and selectively choosing the sampling regions, our planner pairs well with out-of-the-box SMPs, generating near-optimal paths faster than without VQ-MPT's aid. It is generalizable in that it can be applied to systems of varying complexities, from 2D planar to 14D bi-manual robots with diverse environment representations, including costmaps and point clouds. Trained VQ-MPT models generalize to environments unseen during training and achieve higher success rates than previous methods.
翻訳日:2023-09-28 19:22:01 公開日:2023-09-26
# プログレッシブ・シャープニング, フラット・ミニマおよび一般化について

On progressive sharpening, flat minima and generalisation ( http://arxiv.org/abs/2305.14683v4 )

ライセンス: Link先を確認
Lachlan Ewen MacDonald and Jack Valmadre and Simon Lucey(参考訳) 深層学習における損失曲率と入出力モデル行動の関係を理解するための新しい手法を提案する。 具体的には、ディープニューラルネットワークのトレーニング中のトレーニングサンプル上で、ディープニューラルネットワーク損失ヘッシアンと入出力ジャコビアンを結合したアンサッツをグラウンドする、ディープネットワーク損失ヘッシアンスペクトルの既存の経験的分析を用いる。 次に、モデルの入力出力ジャコビアンがデータ分布上のそのリプシッツノルムを近似する程度を定量化する一連の理論結果を証明し、経験的ヤコビアンによって束縛された新しい一般化を導出する。 我々はansatzを理論的な結果とともに利用し、最近観測されたプログレッシブ・シャープニング現象とフラット・ミニマの一般化特性について新しい説明を与える。 我々の主張を検証するための実験的な証拠が提供される。

We present a new approach to understanding the relationship between loss curvature and input-output model behaviour in deep learning. Specifically, we use existing empirical analyses of the spectrum of deep network loss Hessians to ground an ansatz tying together the loss Hessian and the input-output Jacobian over training samples during the training of deep neural networks. We then prove a series of theoretical results which quantify the degree to which the input-output Jacobian of a model approximates its Lipschitz norm over a data distribution, and deduce a novel generalisation bound in terms of the empirical Jacobian. We use our ansatz, together with our theoretical results, to give a new account of the recently observed progressive sharpening phenomenon, as well as the generalisation properties of flat minima. Experimental evidence is provided to validate our claims.
翻訳日:2023-09-28 19:20:52 公開日:2023-09-26
# 量子最適制御のための直接コロケーション

Direct Collocation for Quantum Optimal Control ( http://arxiv.org/abs/2305.03261v3 )

ライセンス: Link先を確認
Aaron Trowbridge, Aditya Bhardwaj, Kevin He, David I. Schuster, and Zachary Manchester(参考訳) 本稿では,ロボット工学や航空宇宙工学でよく用いられる軌道最適化手法であるダイレクト・コロケーションを量子最適制御(QOC)に適用し,この手法をPade Integrator Collocation (PICO)と呼ぶ。 このアプローチは、状態と制御に対する一般的な非線形制約をサポートし、最先端の大規模非線形プログラミング解法を生かし、GRAPEやCRABのような標準手法と比較して収束特性が優れている。 PICOはまた、新しい自由時間および最小時間制御問題の定式化を可能にする。 シミュレーションおよびハードウェア上でのPICOの性能を3次元回路キャビティ量子電磁力学システムを用いて実証する。

We present an adaptation of direct collocation -- a trajectory optimization method commonly used in robotics and aerospace applications -- to quantum optimal control (QOC); we refer to this method as Pade Integrator COllocation (PICO). This approach supports general nonlinear constraints on the states and controls, takes advantage of state-of-the-art large-scale nonlinear programming solvers, and has superior convergence properties compared to standard approaches like GRAPE and CRAB. PICO also allows for the formulation of novel free-time and minimum-time control problems -- crucial for realizing high-performance quantum computers when the optimal pulse duration is not known a priori. We demonstrate PICO's performance both in simulation and on hardware with a 3D circuit cavity quantum electrodynamics system.
翻訳日:2023-09-28 19:19:22 公開日:2023-09-26
# マルチエージェント協調知覚のためのS2R-ViT:シミュレーションから現実へのギャップを埋める

S2R-ViT for Multi-Agent Cooperative Perception: Bridging the Gap from Simulation to Reality ( http://arxiv.org/abs/2307.07935v3 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 既存のマルチエージェント協調認識アルゴリズムは、十分な実際のマルチエージェントデータがないため、トレーニングと検証のためにシミュレーションされたセンサーデータを選択する。 しかし,シミュレーション学習モデルが実世界へデプロイされた場合,シミュレーションデータと実データの間の領域ギャップが大きいため,知覚性能が低下する。 本稿では,S2R-ViT と名付けられた新しい視覚変換器を用いて,シミュレーションデータと実データ間の配置ギャップと特徴ギャップの両方を考慮した,マルチエージェント協調認識のための最初のシミュレーションから現実への変換学習フレームワークを提案する。 そこで本研究では,これら2種類のドメインギャップの効果を調査し,展開ギャップを効果的に緩和する新しい不確実性認識型視覚トランスと,エージェントによる特徴適応モジュールを提案する。 提案するs2r-vitはシミュレーションから現実へのギャップを効果的に橋渡しし,ポイントクラウドに基づく3次元物体検出において,他の手法を大幅に上回ることができることを示す。

Due to the lack of enough real multi-agent data and time-consuming of labeling, existing multi-agent cooperative perception algorithms usually select the simulated sensor data for training and validating. However, the perception performance is degraded when these simulation-trained models are deployed to the real world, due to the significant domain gap between the simulated and real data. In this paper, we propose the first Simulation-to-Reality transfer learning framework for multi-agent cooperative perception using a novel Vision Transformer, named as S2R-ViT, which considers both the Deployment Gap and Feature Gap between simulated and real data. We investigate the effects of these two types of domain gaps and propose a novel uncertainty-aware vision transformer to effectively relief the Deployment Gap and an agent-based feature adaptation module with inter-agent and ego-agent discriminators to reduce the Feature Gap. Our intensive experiments on the public multi-agent cooperative perception datasets OPV2V and V2V4Real demonstrate that the proposed S2R-ViT can effectively bridge the gap from simulation to reality and outperform other methods significantly for point cloud-based 3D object detection.
翻訳日:2023-09-28 19:10:41 公開日:2023-09-26
# ハイパーグラフ製品コードにおける部分的症候群計測

Partial Syndrome Measurement for Hypergraph Product Codes ( http://arxiv.org/abs/2306.17122v2 )

ライセンス: Link先を確認
Noah Berthusen and Daniel Gottesman(参考訳) ハイパーグラフ製品コードは、一定のオーバーヘッドでフォールトトレラント量子計算を達成するための有望な方法である。 これらや他の定レートqLDPCコードを2Dに埋め込むには、かなりの数の非局所接続が必要であり、いくつかの量子コンピューティングアーキテクチャでは困難である。 本研究では,この非局所性を実現することを目的とした耐故障性手法を提案し,空間的に離れたキュービットに作用する発電機を非局所性よりも少ない頻度で測定する。 本研究では,本方式の簡易版の性能について検討し,測定した生成器をランダムに選択した。 ハイパーグラフ製品コードと修正された小セットフリップ復号アルゴリズムに適用した場合、測定されるジェネレータの比率が十分に高い場合、しきい値が存在することが証明される。 また, 発生器の定数が一定でない場合でも, 論理誤差率が指数関数的に抑制されることを示す。

Hypergraph product codes are a promising avenue to achieving fault-tolerant quantum computation with constant overhead. When embedding these and other constant-rate qLDPC codes into 2D, a significant number of nonlocal connections are required, posing difficulties for some quantum computing architectures. In this work, we introduce a fault-tolerance scheme that aims to alleviate the effects of implementing this nonlocality by measuring generators acting on spatially distant qubits less frequently than those which do not. We investigate the performance of a simplified version of this scheme, where the measured generators are randomly selected. When applied to hypergraph product codes and a modified small-set-flip decoding algorithm, we prove that for a sufficiently high percentage of generators being measured, a threshold still exists. We also find numerical evidence that the logical error rate is exponentially suppressed even when a large constant fraction of generators are not measured.
翻訳日:2023-09-28 19:09:42 公開日:2023-09-26
# SCENEREPLICA:再現可能なシーンの作成による実世界のロボット操作のベンチマーク

SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating Replicable Scenes ( http://arxiv.org/abs/2306.15620v2 )

ライセンス: Link先を確認
Ninad Khargonkar, Sai Haneesh Allu, Yangxiao Lu, Jishnu Jaykumar P, Balakrishnan Prabhakaran, Yu Xiang(参考訳) 実世界におけるロボット操作の評価のための再現可能な新しいベンチマークを提案する。 我々のベンチマークでは、ロボットコミュニティでよく使われているデータセットであるYCBオブジェクトを使用して、結果が他の研究と比較されるようにしています。 さらに、このベンチマークは現実世界で容易に再現できるように設計されており、研究者や実践者が利用できる。 また, モデルベースおよびモデルフリーな6次元ロボットグルーピングのための実験結果と解析を行い, 対象認識, 把握計画, 動作計画のための代表アルゴリズムの評価を行った。 私たちのベンチマークは、ロボット操作の分野を前進させるための貴重なツールであると信じています。 標準化された評価フレームワークを提供することで、研究者は様々な技術やアルゴリズムをより簡単に比較でき、ロボット操作法の開発がより早く進められる。

We present a new reproducible benchmark for evaluating robot manipulation in the real world, specifically focusing on pick-and-place. Our benchmark uses the YCB objects, a commonly used dataset in the robotics community, to ensure that our results are comparable to other studies. Additionally, the benchmark is designed to be easily reproducible in the real world, making it accessible to researchers and practitioners. We also provide our experimental results and analyzes for model-based and model-free 6D robotic grasping on the benchmark, where representative algorithms are evaluated for object perception, grasping planning, and motion planning. We believe that our benchmark will be a valuable tool for advancing the field of robot manipulation. By providing a standardized evaluation framework, researchers can more easily compare different techniques and algorithms, leading to faster progress in developing robot manipulation methods.
翻訳日:2023-09-28 19:09:24 公開日:2023-09-26
# スケールを超えて:データ品質指標としての多様性係数 LLM は形式的に異なるデータに基づいて事前訓練される

Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data ( http://arxiv.org/abs/2306.13840v2 )

ライセンス: Link先を確認
Alycia Lee, Brando Miranda, Sudharsan Sundar, Sanmi Koyejo(参考訳) 有能な大規模言語モデル(llm)を事前学習する現在のトレンドは、主にモデルとデータセットサイズのスケーリングに重点を置いている。 しかし、事前学習データの質は強力なLCMを訓練する上で重要な要素であるが、十分に評価されていない誤った概念である。 そこで、最近提案されたTask2Vecの多様性係数を用いて、データ品質の形式的側面を基礎化し、理解し、スケールのみを超えていく。 具体的には、公開事前学習データセットの多様性係数を測定し、それらの形式的多様性が理論的下限および上限と比較して高いことを示す。 さらに、多様性係数の信頼性を高めるために、解釈可能性実験を行い、その係数が多様性の直感的な性質、例えば潜在概念の数が増加するにつれて増加することを確認する。 多様性係数は信頼性が高く、公開可能なLLMデータセットには高い値を示し、LLMのための有用な多様なデータセットを構築するために使用できると推測する。

Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it's high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.
翻訳日:2023-09-28 19:09:10 公開日:2023-09-26
# 公平な分類のための修正下表現と断面バイアス

Correcting Underrepresentation and Intersectional Bias for Fair Classification ( http://arxiv.org/abs/2306.11112v3 )

ライセンス: Link先を確認
Alexander Williams Tolbert and Emily Diana(参考訳) 偏見バイアスによって劣化したデータから学習することの問題点を考察し, 正の例を, 一定数のセンシティブなグループに対して異なる未知のレートでフィルタする。 非偏りの少ないデータを用いて,交叉グループのメンバシップが各交叉率を計算不能に学習する場合でも,グループ毎のドロップアウトパラメータを効率的に推定できることを示す。 このグループ毎のドロップアウト率の推定を用いて、バイアスのあるサンプルでの経験的誤差のみを観測しても、真の分布上の任意の仮説の損失を近似できる再重み付けスキームを構築する。 最後に、この学習および再重み付けプロセスをカプセル化するアルゴリズムを提案し、高い確率で、真の分布に対する仮説のリスクの推定が真のリスクに任意に近づくことを、PACスタイルの強い保証を提供する。

We consider the problem of learning from data corrupted by underrepresentation bias, where positive examples are filtered from the data at different, unknown rates for a fixed number of sensitive groups. We show that with a small amount of unbiased data, we can efficiently estimate the group-wise drop-out parameters, even in settings where intersectional group membership makes learning each intersectional rate computationally infeasible. Using this estimate for the group-wise drop-out rate, we construct a re-weighting scheme that allows us to approximate the loss of any hypothesis on the true distribution, even if we only observe the empirical error on a biased sample. Finally, we present an algorithm encapsulating this learning and re-weighting process, and we provide strong PAC-style guarantees that, with high probability, our estimate of the risk of the hypothesis over the true distribution will be arbitrarily close to the true risk.
翻訳日:2023-09-28 19:08:52 公開日:2023-09-26
# 浅層ニューラルネットワークによるゾノイドの最適近似と一様近似

Optimal Approximation of Zonoids and Uniform Approximation by Shallow Neural Networks ( http://arxiv.org/abs/2307.15285v2 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) 以下の2つの問題点を考察する。 1つ目は、$\mathbb{r}^{d+1}$ の任意のソノイドがどの誤差をハウスドルフ距離で、$n$ の直線セグメントの和で近似できるかを決定することである。 2つ目は、変動空間上の浅いReLU$^k$ニューラルネットワークの均一ノルムにおける最適近似率を決定することである。 これらの問題の1つは$d\neq 2,3$で解かれたが、$d=2,3$の場合、最高の上限と下限の間の対数ギャップは残る。 我々はこのギャップを閉じ、すべての次元で解を完結させる。 2つ目の問題として、k\geq 1$の既存の近似率を大幅に改善し、対象関数とその導関数の均一近似を可能にする。

We study the following two related problems. The first is to determine to what error an arbitrary zonoid in $\mathbb{R}^{d+1}$ can be approximated in the Hausdorff distance by a sum of $n$ line segments. The second is to determine optimal approximation rates in the uniform norm for shallow ReLU$^k$ neural networks on their variation spaces. The first of these problems has been solved for $d\neq 2,3$, but when $d=2,3$ a logarithmic gap between the best upper and lower bounds remains. We close this gap, which completes the solution in all dimensions. For the second problem, our techniques significantly improve upon existing approximation rates when $k\geq 1$, and enable uniform approximation of both the target function and its derivatives.
翻訳日:2023-09-28 19:00:35 公開日:2023-09-26
# マルチソースデータを用いた分散ロバスト機械学習

Distributionally Robust Machine Learning with Multi-source Data ( http://arxiv.org/abs/2309.02211v2 )

ライセンス: Link先を確認
Zhenyu Wang, Peter B\"uhlmann, Zijian Guo(参考訳) 古典的な機械学習手法は、ターゲット分布がソース集団と異なる場合、予測性能が低下する可能性がある。 本稿では,複数のソースから得られるデータを活用し,対象分布のクラスに対する説明分散に関する対角的報酬を最適化するために定義された群分布的堅牢な予測モデルを提案する。 従来の経験的リスク最小化と比較して,提案手法は分布シフトを伴うターゲット集団の予測精度を向上させる。 集団分布にロバストな予測モデルは,資源集団の条件付き結果モデルの重み付け平均であることを示す。 この重要な識別結果を利用して、ランダムな森林やニューラルネットワークなど、任意の機械学習アルゴリズムを堅牢化します。 汎用機械学習アルゴリズムの最適凝集重みを推定するために,新しいバイアス補正推定器を考案し,収束率の向上を示す。 提案手法は,任意の機械学習ベースアルゴリズムを用いて計算効率が高く実装が容易であり,プライバシの制約を満たし,対象とする共変量分布の予測において異なる情報源の重要性をうまく解釈できる。 ランダムな森林とニューラルネットワークをベースラーニングアルゴリズムとして用いたシミュレーションおよび実データに対して,提案手法の有効性を示す。

Classical machine learning methods may lead to poor prediction performance when the target distribution differs from the source populations. This paper utilizes data from multiple sources and introduces a group distributionally robust prediction model defined to optimize an adversarial reward about explained variance with respect to a class of target distributions. Compared to classical empirical risk minimization, the proposed robust prediction model improves the prediction accuracy for target populations with distribution shifts. We show that our group distributionally robust prediction model is a weighted average of the source populations' conditional outcome models. We leverage this key identification result to robustify arbitrary machine learning algorithms, including, for example, random forests and neural networks. We devise a novel bias-corrected estimator to estimate the optimal aggregation weight for general machine-learning algorithms and demonstrate its improvement in the convergence rate. Our proposal can be seen as a distributionally robust federated learning approach that is computationally efficient and easy to implement using arbitrary machine learning base algorithms, satisfies some privacy constraints, and has a nice interpretation of different sources' importance for predicting a given target covariate distribution. We demonstrate the performance of our proposed group distributionally robust method on simulated and real data with random forests and neural networks as base-learning algorithms.
翻訳日:2023-09-28 18:49:56 公開日:2023-09-26
# リニア振動:視覚トランスフォーマのための新しい活性化機能

Linear Oscillation: A Novel Activation Function for Vision Transformer ( http://arxiv.org/abs/2308.13670v2 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 活性化関数はディープラーニングのリンチピンであり、ニューラルネットワークの表現能力とトレーニングダイナミクスの両方に大きな影響を及ぼす。 それらは表現の性質だけでなく、収束率を最適化し、一般化ポテンシャルを高める。 この重要な役割を評価し、$f(x) = x \times \sin(\alpha x + \beta)$と定義される線形振動(LoC)活性化関数を示す。 非線型性を主に導入する従来の活性化関数とは異なり、LoCは線形軌道と振動偏差をシームレスにブレンドする。 形容詞「線形振動」は、線形活性化と調和振動を融合させ、「混乱の親和性」の本質を捉えたユニークな特徴である。 ネットワークアクティベーション内の"制御された混乱"というこの概念は、より強固な学習、特に微妙なパターンを識別する必要のある文脈を促進することを実証している。 実験の結果,様々なニューラルアーキテクチャに統合された場合,locアクティベーション関数は,reluやsgmoidといった確立されたものよりも一貫して優れていることが明らかとなった。 LoCを用いたアバンギャルドビジョントランスモデルで示された恒星の性能は、その有効性をさらに検証する。 本研究は、他の顕著な活性化機能に対するLoCの顕著な利点を照らす。 トレーニング中に意図的な複雑さや「融合」を断続的に導入することで、より深く、ニュアンスのある学習を促すという考えを擁護する。 これは、ニューラルネットワークトレーニングの未来を形作る上で、公平に選択されたアクティベーション関数の重要な役割を強調する。

Activation functions are the linchpins of deep learning, profoundly influencing both the representational capacity and training dynamics of neural networks. They shape not only the nature of representations but also optimize convergence rates and enhance generalization potential. Appreciating this critical role, we present the Linear Oscillation (LoC) activation function, defined as $f(x) = x \times \sin(\alpha x + \beta)$. Distinct from conventional activation functions which primarily introduce non-linearity, LoC seamlessly blends linear trajectories with oscillatory deviations. The nomenclature "Linear Oscillation" is a nod to its unique attribute of infusing linear activations with harmonious oscillations, capturing the essence of the "Importance of Confusion". This concept of "controlled confusion" within network activations is posited to foster more robust learning, particularly in contexts that necessitate discerning subtle patterns. Our empirical studies reveal that, when integrated into diverse neural architectures, the LoC activation function consistently outperforms established counterparts like ReLU and Sigmoid. The stellar performance exhibited by the avant-garde Vision Transformer model using LoC further validates its efficacy. This study illuminates the remarkable benefits of the LoC over other prominent activation functions. It champions the notion that intermittently introducing deliberate complexity or "confusion" during training can spur more profound and nuanced learning. This accentuates the pivotal role of judiciously selected activation functions in shaping the future of neural network training.
翻訳日:2023-09-28 18:49:11 公開日:2023-09-26
# 非測定共著者をもつ一般化線形モデルに対する同時推論

Simultaneous inference for generalized linear models with unmeasured confounders ( http://arxiv.org/abs/2309.07261v2 )

ライセンス: Link先を確認
Jin-Hong Du and Larry Wasserman and Kathryn Roeder(参考訳) 数万の同時仮説テストがゲノム研究で定期的に行われ、異なる発現遺伝子を同定する。 しかし、計測されていない共同設立者のために、多くの標準的な統計手法は実質的に偏っているかもしれない。 本稿では,多変量一般化線形モデルに対する大規模仮説検定問題について検討する。 任意のコンバウンディング機構の下で,直交構造を利用し,線形射影を3つの重要な段階に統合する統一的な統計的推定と推論フレームワークを提案する。 それは、潜在係数を回復するために、辺縁および非相関な共役効果を分離することから始まる。 その後、ラッソ型最適化により潜在因子と一次効果を共同で推定する。 最後に,予測および重み付けされたバイアス補正ステップを仮説テストに取り入れた。 理論的には、様々な効果と非漸近誤差境界の同定条件を確立する。 asymptotic $z$-tests の type-i エラー制御をサンプルおよび応答サイズとして有効に行う。 数値実験により, 提案手法はベンジャミン・ホックベルク法により偽発見率を制御し, 代替手法よりも強力であることが示された。 2つのサンプル群から得られた単細胞RNA-seq数を比較することにより、モデルから有意な共変量が欠如している場合の共振効果の調整性を示す。

Tens of thousands of simultaneous hypothesis tests are routinely performed in genomic studies to identify differentially expressed genes. However, due to unmeasured confounders, many standard statistical approaches may be substantially biased. This paper investigates the large-scale hypothesis testing problem for multivariate generalized linear models in the presence of confounding effects. Under arbitrary confounding mechanisms, we propose a unified statistical estimation and inference framework that harnesses orthogonal structures and integrates linear projections into three key stages. It begins by disentangling marginal and uncorrelated confounding effects to recover the latent coefficients. Subsequently, latent factors and primary effects are jointly estimated through lasso-type optimization. Finally, we incorporate projected and weighted bias-correction steps for hypothesis testing. Theoretically, we establish the identification conditions of various effects and non-asymptotic error bounds. We show effective Type-I error control of asymptotic $z$-tests as sample and response sizes approach infinity. Numerical experiments demonstrate that the proposed method controls the false discovery rate by the Benjamini-Hochberg procedure and is more powerful than alternative methods. By comparing single-cell RNA-seq counts from two groups of samples, we demonstrate the suitability of adjusting confounding effects when significant covariates are absent from the model.
翻訳日:2023-09-28 18:38:20 公開日:2023-09-26
# AI倫理への投資への回帰 - 全体論的なフレームワーク

The Return on Investment in AI Ethics: A Holistic Framework ( http://arxiv.org/abs/2309.13057v2 )

ライセンス: Link先を確認
Marialena Bevilacqua, Nicholas Berente, Heather Domin, Brian Goehring and Francesca Rossi(参考訳) 本稿では,人工知能(AI)倫理活動への組織的投資の回帰を理解するために,HROE(Hollistic Return on Ethics)フレームワークを提案する。 このフレームワークは、投資決定のリターンを定量化したい組織にとって有用である。 この枠組みは、そのような投資の直接的な経済的なリターン、組織的評判にかかわる無形を通した間接的経路、能力にかかわるリアルオプションを識別する。 包括的なフレームワークは、最終的に組織にAI倫理投資を採用、正当化する能力を提供する。

We propose a Holistic Return on Ethics (HROE) framework for understanding the return on organizational investments in artificial intelligence (AI) ethics efforts. This framework is useful for organizations that wish to quantify the return for their investment decisions. The framework identifies the direct economic returns of such investments, the indirect paths to return through intangibles associated with organizational reputation, and real options associated with capabilities. The holistic framework ultimately provides organizations with the competency to employ and justify AI ethics investments.
翻訳日:2023-09-28 18:27:52 公開日:2023-09-26
# シーンプリエントを用いた一般化ニューラルネットワークによる3次元再構成

3D Reconstruction with Generalizable Neural Fields using Scene Priors ( http://arxiv.org/abs/2309.15164v1 )

ライセンス: Link先を確認
Yang Fu, Shalini De Mello, Xueting Li, Amey Kulkarni, Jan Kautz, Xiaolong Wang, Sifei Liu(参考訳) 高忠実度3Dシーン再構成は、近年の神経磁場の進展により大幅に進歩している。 しかし、既存のほとんどのメソッドは個々のシーンごとに別のネットワークをスクラッチからトレーニングする。 これはスケーラビリティがなく、非効率で、限られたビューで良い結果を得ることができない。 学習ベースのマルチビューステレオメソッドは、この問題をある程度緩和するが、マルチビュー設定は、スケールアップや幅広いアプリケーションへの柔軟性を低下させる。 代わりに、シーンプリエント(nfps)を組み込んだトレーニング一般化ニューラルネットワークを導入する。 NFPネットワークは、任意のシングルビューRGB-D画像を符号付き距離と放射値にマッピングする。 完全なシーンは、融合モジュールを外した体積空間の個々のフレームをマージすることで再構築でき、柔軟性が向上する。 シーン先行を大規模なデータセットでトレーニングすることで、ビューの少ない新しいシーンの再構築を迅速に行うことができる。 NFPは、SOTAシーンの再構成性能と効率を実証するだけでなく、ニューラルネットワークで過小評価されている単一画像のノベルビュー合成もサポートする。 より質的な結果が、https://oasisyang.github.io/neural-prior.comで公開されている。

High-fidelity 3D scene reconstruction has been substantially advanced by recent progress in neural fields. However, most existing methods train a separate network from scratch for each individual scene. This is not scalable, inefficient, and unable to yield good results given limited views. While learning-based multi-view stereo methods alleviate this issue to some extent, their multi-view setting makes it less flexible to scale up and to broad applications. Instead, we introduce training generalizable Neural Fields incorporating scene Priors (NFPs). The NFP network maps any single-view RGB-D image into signed distance and radiance values. A complete scene can be reconstructed by merging individual frames in the volumetric space WITHOUT a fusion module, which provides better flexibility. The scene priors can be trained on large-scale datasets, allowing for fast adaptation to the reconstruction of a new scene with fewer views. NFP not only demonstrates SOTA scene reconstruction performance and efficiency, but it also supports single-image novel-view synthesis, which is underexplored in neural fields. More qualitative results are available at: https://oasisyang.github.io/neural-prior
翻訳日:2023-09-28 18:20:17 公開日:2023-09-26
# func-qaoaによる整数分解

Integer Factorization through Func-QAOA ( http://arxiv.org/abs/2309.15162v1 )

ライセンス: Link先を確認
Mostafa Atallah, Haemanth Velmurugan, Rohan Sharma, Siddhant Midha, Shamim Al Mamun, Ludmila Botelho, Adam Glos, \"Ozlem Salehi(参考訳) 整数分解は重要な問題であり、広く使われている暗号方式のセキュリティに影響を及ぼす。 多項式時間整数分解の効率的な古典的アルゴリズムは、広範な研究にもかかわらず発見されていない。 Peter Shorのブレークスルー量子アルゴリズムは実現可能なソリューションを提供するが、現在のノイズの多い中間スケール量子(NISQ)コンピュータの制限は、その実装を妨げている。 これを解決するために、研究者はNISQデバイスに適した分解方法を探究した。 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm)は、二進ビット上で定義される最適化問題として分解を扱うアルゴリズムである。 本稿では,従来の手法の限界を克服し,より高度な因子化手法を取り入れることを可能にする,因子化のためのfunc-qaoaアプローチについて検討する。 整数演算の最も有望な量子実装をレビューした後、func-qaoaアプローチの有効性を示すいくつかの例を示し、最適化プロセスを高速化するための探索空間を減らす方法について論じる。

Integer factorization is a significant problem, with implications for the security of widely-used cryptographic schemes. No efficient classical algorithm for polynomial-time integer factorization has been found despite extensive research. Although Peter Shor's breakthrough quantum algorithm offers a viable solution, current limitations of noisy intermediate-scale quantum (NISQ) computers hinder its practical implementation. To address this, researchers have explored alternative methods for factorization suitable for NISQ devices. One such method is the Quantum Approximate Optimization Algorithm, which treats factoring as an optimization problem defined over binary bits, resulting in various problematic aspects. In this paper, we explore the Func-QAOA approach for factorization, which premises overcoming some of the limitations of previous approaches and allows the incorporation of more advanced factorization techniques. After reviewing the most promising quantum implementations for integer arithmetics, we present a few illustrative examples to demonstrate the efficacy of the Func-QAOA approach and discuss methods to reduce the search space to speed up the optimization process.
翻訳日:2023-09-28 18:20:01 公開日:2023-09-26
# 3次元ディラック半金属中の異常リニアおよび4次元ノードレス表面ディラックコーン

Anomalous Linear and Quadratic Nodeless Surface Dirac Cones in Three-Dimensional Dirac Semimetals ( http://arxiv.org/abs/2309.15154v1 )

ライセンス: Link先を確認
Dongling Liu, Xiao-Jiao Wang, Yijie Mo, Zhongbo Yan(参考訳) 3次元の位相絶縁体の表面ディラックコーンは、多くのエキゾチックな性質をホストしているため、ほぼ20年にわたって多大な関心を寄せてきた。 本研究では,2種類の代表的な3次元ディラック半金属の位相的表面状態を調査し,バルクディラックノードの投影が重なり合うほとんど見落とされた表面上に2種類の異常な表面ディラックコーンが存在することを明らかにした。 これらの表面ディラックコーンは、位相的絶縁体と著しく異なる多くの特徴を示すことが分かる。 最も顕著なものは、diracノードが存在しないことである。 さらに、これらのノードレス面のスピンテクスチャは、独自の2相角依存性を示し、軌道分解されたスピンテクスチャに2つの異なる巻数が存在することが見出され、これはトポロジカル絶縁体におけるよく知られたスピン-モーメントロックとはかなり異なる。 ディラックノードが存在しないにもかかわらず、表面のディラックコーンは2次分散を持つ曲面の1つのタイプであっても、$\pi$ベリー位相の量子化によって特徴付けられる。 時間反転対称性の破れ場が存在すると、表面とバルクディラックコーンの応答は興味深いバルク面対応を示すことが分かる。 これらのノードのない表面ディラック円錐の解明は、ディラック半金属における位相的表面状態とバルク境界対応の理解を広げ、ディラック物理学の研究をさらに加速させる可能性がある。

Surface Dirac cones in three-dimensional topological insulators have generated tremendous and enduring interest for almost two decades owing to hosting a multitude of exotic properties. In this work, we explore the topological surface states in two representative types of three-dimensional Dirac semimetals, and unveil the existence of two types of anomalous surface Dirac cones on the largely overlooked surfaces where the projections of bulk Dirac nodes overlap. These surface Dirac cones are found to display a number of features remarkably different from that in topological insulators. The most prominent one is the absence of Dirac node in them. In addition, the spin textures of these nodeless surface Dirac cones are found to exhibit a unique two-phase-angle dependence, leading to the presence of two different winding numbers in the orbital-resolved spin textures, which is rather different from the well-known spin-momentum locking in topological insulators. Despite the absence of Dirac node, we find that the surface Dirac cones are also characterized by quantized $\pi$ Berry phases, even though one type of the surface Dirac cones takes a quadratic dispersion. In the presence of time-reversal-symmetry-breaking fields, we find that the responses of the surface and bulk Dirac cones display an interesting bulk-surface correspondence. The uncovering of these nodeless surface Dirac cones broadens our understanding of the topological surface states and bulk-boundary correspondence in Dirac semimetals, and could further fuel the research interest in Dirac physics.
翻訳日:2023-09-28 18:19:43 公開日:2023-09-26
# ホログラフィックエントロピーの不等式とエンタングルメントウェッジネスティングのトポロジー

Holographic Entropy Inequalities and the Topology of Entanglement Wedge Nesting ( http://arxiv.org/abs/2309.15145v1 )

ライセンス: Link先を確認
Bartlomiej Czech, Sirui Shuai, Yixu Wang and Daiming Zhang(参考訳) ホログラフィックエントロピーの不等式の新しい無限族を2つ証明する。 鍵となるツールは、エンタングルメントウェッジネスティング(英語版)(ewn)に基づく不等式項のグラフィカルアレンジメントである。 この不等式はトーラスのテッセル化と射影平面とを関連付けており、これはEWNのある種の位相的側面を反映している。 不等式はホログラフィックエントロピー円錐の構造に関する事前の予想を証明し、微分エントロピーとの興味深い相互作用を示す。

We prove two new infinite families of holographic entropy inequalities. A key tool is a graphical arrangement of terms of inequalities, which is based on entanglement wedge nesting (EWN). It associates the inequalities with tessellations of the torus and the projective plane, which reflect a certain topological aspect of EWN. The inequalities prove a prior conjecture about the structure of the holographic entropy cone and show an interesting interplay with differential entropy.
翻訳日:2023-09-28 18:19:14 公開日:2023-09-26
# E-Mobility Servicesにおけるエネルギー管理のためのAIアルゴリズムの検討

A Review on AI Algorithms for Energy Management in E-Mobility Services ( http://arxiv.org/abs/2309.15140v1 )

ライセンス: Link先を確認
Sen Yan, Maqsood Hussain Shah, Ji Li, Noel O'Connor and Mingming Liu(参考訳) 電気モビリティ(E-mobility)は、交通セクターにおける環境と持続可能性の懸念に対処するための重要なソリューションとして登場した。 化石燃料の枯渇、温室効果ガスの排出のエスカレート、気候変動と戦うための衝動は、電気自動車(EV)への移行の重要性を強調している。 本稿では,e-mobility system(EMS)におけるエネルギー管理の効率化に関する課題に,人工知能(AI)が取り組む可能性を検討する。 これらの課題は、レンジ不安、充電速度最適化、EVにおけるエネルギー貯蔵の持続性といった重要な要因を含んでいる。 既存の文献を分析して、これらの課題に対処し、EMSにおける効率的なエネルギー管理を可能にする上で、AIが果たす役割を掘り下げる。 私たちの目標は2つある: この研究領域における現在の最先端の概観を提供し、将来の調査のために効果的な道を提案する。 この分析を通じて、よりグリーンで持続可能な輸送の未来を形作る、持続可能で効率的なe-mobilityソリューションの進展に寄与することを目指している。

E-mobility, or electric mobility, has emerged as a pivotal solution to address pressing environmental and sustainability concerns in the transportation sector. The depletion of fossil fuels, escalating greenhouse gas emissions, and the imperative to combat climate change underscore the significance of transitioning to electric vehicles (EVs). This paper seeks to explore the potential of artificial intelligence (AI) in addressing various challenges related to effective energy management in e-mobility systems (EMS). These challenges encompass critical factors such as range anxiety, charge rate optimization, and the longevity of energy storage in EVs. By analyzing existing literature, we delve into the role that AI can play in tackling these challenges and enabling efficient energy management in EMS. Our objectives are twofold: to provide an overview of the current state-of-the-art in this research domain and propose effective avenues for future investigations. Through this analysis, we aim to contribute to the advancement of sustainable and efficient e-mobility solutions, shaping a greener and more sustainable future for transportation.
翻訳日:2023-09-28 18:19:03 公開日:2023-09-26
# PINF:物理に制約のあるディープラーニングのための継続的正規化フロー

PINF: Continuous Normalizing Flows for Physics-Constrained Deep Learning ( http://arxiv.org/abs/2309.15139v1 )

ライセンス: Link先を確認
Feng Liu, Faguo Wu and Xiao Zhang(参考訳) 確率密度の正規化制約は、フォッカー・プランク方程式を解く上で大きな課題となる。 流れの正規化 可逆生成モデルは変数式の変化を利用して確率密度の保存を保証し、複雑なデータ分布の学習を可能にする。 本稿では,連続正規化流の新たな拡張である物理不定形正規化流(pinf)を,特性の手法による拡散を取り入れて紹介する。 メッシュフリーかつ因果フリーな本手法は,高次元時間依存性と定常状態Fokker-Planck方程式を効率的に解ける。

The normalization constraint on probability density poses a significant challenge for solving the Fokker-Planck equation. Normalizing Flow, an invertible generative model leverages the change of variables formula to ensure probability density conservation and enable the learning of complex data distributions. In this paper, we introduce Physics-Informed Normalizing Flows (PINF), a novel extension of continuous normalizing flows, incorporating diffusion through the method of characteristics. Our method, which is mesh-free and causality-free, can efficiently solve high dimensional time-dependent and steady-state Fokker-Planck equations.
翻訳日:2023-09-28 18:18:43 公開日:2023-09-26
# 電力系統における予測軌道生成のための深部生成手法

Deep Generative Methods for Producing Forecast Trajectories in Power Systems ( http://arxiv.org/abs/2309.15137v1 )

ライセンス: Link先を確認
Nathan Weill, Jonathan Dumas(参考訳) 電力混合における再生可能エネルギーの拡大により、電力網の変動は増加し、その安全性を保証するためにシステムを堅牢化する必要がある。 そのため、トランスポート・システム・オペレーター(TSO)は、将来の電力系統の機能のシミュレーションを行う必要がある。 そして、これらのシミュレーションを意思決定プロセスの入力として利用する。 本研究では,ディープラーニングモデルを用いて,エネルギー生産と負荷予測の軌跡を生成する。 これらの多変量時系列における時空間相関を捉えるため、自己回帰的ネットワークと正規化フローを適用し、現在のコプラに基づく統計的アプローチに対する効果を示す。 フランスのtso rte風予報データについて広範な実験を行い,時系列生成のための評価指標である \textit{ad hoc} と比較した。

With the expansion of renewables in the electricity mix, power grid variability will increase, hence a need to robustify the system to guarantee its security. Therefore, Transport System Operators (TSOs) must conduct analyses to simulate the future functioning of power systems. Then, these simulations are used as inputs in decision-making processes. In this context, we investigate using deep learning models to generate energy production and load forecast trajectories. To capture the spatiotemporal correlations in these multivariate time series, we adapt autoregressive networks and normalizing flows, demonstrating their effectiveness against the current copula-based statistical approach. We conduct extensive experiments on the French TSO RTE wind forecast data and compare the different models with \textit{ad hoc} evaluation metrics for time series generation.
翻訳日:2023-09-28 18:18:31 公開日:2023-09-26
# フィルタ構造融合を用いたコントラスト連続多視点クラスタリング

Contrastive Continual Multi-view Clustering with Filtered Structural Fusion ( http://arxiv.org/abs/2309.15135v1 )

ライセンス: Link先を確認
Xinhang Wan, Jiyuan Liu, Ao Li, Xinwang Liu, En Zhu(参考訳) ビュー間の一貫性と補完的な情報を抽出して、ビューを事前に収集するアプリケーションでは、マルチビュークラスタリングが繁栄する。 しかし、データビューが順次収集されるシナリオ、すなわちリアルタイムデータを見落としている。 プライバシーの問題やメモリの負荷のため、これらの状況では以前の見解は時間とともに利用できない。 いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。 具体的には、これらの手法は、新しい視点が得られたときの事前知識を破滅的に忘れてしまう。 このような破滅的な忘れ問題(CFP)はクラスタリング性能の獲得と影響を難しくする。 そこで本研究では,フィルタ構造融合(CCMVC-FSF)を用いたContrastive Continual Multi-view Clustering法を提案する。 正確には、データ相関がクラスタリングにおいて重要な役割を担い、事前知識が新しいビューのクラスタリングプロセスを導くべきであると考え、フィルタされた構造情報を格納する固定サイズのデータバッファを開発し、これを利用してコントラスト学習による頑健な分割マトリックスの生成を導出する。 さらに,CCMVC-FSFと半教師付き学習と知識蒸留を理論的に結びつける。 大規模な実験は提案手法の優れた性能を示す。

Multi-view clustering thrives in applications where views are collected in advance by extracting consistent and complementary information among views. However, it overlooks scenarios where data views are collected sequentially, i.e., real-time data. Due to privacy issues or memory burden, previous views are not available with time in these situations. Some methods are proposed to handle it but are trapped in a stability-plasticity dilemma. In specific, these methods undergo a catastrophic forgetting of prior knowledge when a new view is attained. Such a catastrophic forgetting problem (CFP) would cause the consistent and complementary information hard to get and affect the clustering performance. To tackle this, we propose a novel method termed Contrastive Continual Multi-view Clustering with Filtered Structural Fusion (CCMVC-FSF). Precisely, considering that data correlations play a vital role in clustering and prior knowledge ought to guide the clustering process of a new view, we develop a data buffer with fixed size to store filtered structural information and utilize it to guide the generation of a robust partition matrix via contrastive learning. Furthermore, we theoretically connect CCMVC-FSF with semi-supervised learning and knowledge distillation. Extensive experiments exhibit the excellence of the proposed method.
翻訳日:2023-09-28 18:18:19 公開日:2023-09-26
# アセットフローから現状・行動・意図発見へ:暗号通貨における早期マス検出

From Asset Flow to Status, Action and Intention Discovery: Early Malice Detection in Cryptocurrency ( http://arxiv.org/abs/2309.15133v1 )

ライセンス: Link先を確認
Ling Cheng, Feida Zhu, Yong Wang, Ruicheng Liang, Huiwen Liu(参考訳) 仮想通貨は、取引主体の匿名性から、おそらく従来の金融資産よりも多くの違法行為の対象となっている。 理想的な検出モデルは, (I) 早期検出, (II) 良好な解釈性, (III) 様々な不正行為に対する汎用性の3つの重要な特性をすべて達成できることが期待される。 しかし、既存のソリューションはこれらの要件をすべて満たせない。ほとんどのソリューションは解釈不能なディープラーニングに大きく依存しており、特定の不正タイプの振り返り分析にのみ利用可能である。 これらの問題に対処するため、我々は、特定のアドレスのオンチェーンレコードデータが他の暗号通貨プラットフォームよりもはるかに不足するbitcoin(btc)における早期malice検出のための意図監視器を提案する。 まず,決定木に基づく特徴選択と補完(dt-sc)を用いて資産移動経路を定義し,異なる悪意タイプに対して異なる特徴集合を構築する。 次に、ステータス/アクション提案モジュール(s/a-pm)とインテント-ヴェイモジュールがステータス、アクション、インテント-スニペットおよびインテント-スニペット埋め込みを生成する。 これら全てのモジュールで、我々のモデルは高度に解釈可能であり、様々な違法な活動を検出することができる。 さらに、よく設計された損失関数は予測速度とモデルの解釈性をさらに向上させる。 3つの実世界のデータセットに関する広範囲な実験により,提案手法が最先端手法よりも優れていることが証明された。 さらに,我々のモデルが既存の不正なパターンを説明できるだけでなく,新たな不審な文字を発見できるケーススタディも加わった。

Cryptocurrency has been subject to illicit activities probably more often than traditional financial assets due to the pseudo-anonymous nature of its transacting entities. An ideal detection model is expected to achieve all three critical properties of (I) early detection, (II) good interpretability, and (III) versatility for various illicit activities. However, existing solutions cannot meet all these requirements, as most of them heavily rely on deep learning without interpretability and are only available for retrospective analysis of a specific illicit type. To tackle all these challenges, we propose Intention-Monitor for early malice detection in Bitcoin (BTC), where the on-chain record data for a certain address are much scarcer than other cryptocurrency platforms. We first define asset transfer paths with the Decision-Tree based feature Selection and Complement (DT-SC) to build different feature sets for different malice types. Then, the Status/Action Proposal Module (S/A-PM) and the Intention-VAE module generate the status, action, intent-snippet, and hidden intent-snippet embedding. With all these modules, our model is highly interpretable and can detect various illegal activities. Moreover, well-designed loss functions further enhance the prediction speed and model's interpretability. Extensive experiments on three real-world datasets demonstrate that our proposed algorithm outperforms the state-of-the-art methods. Furthermore, additional case studies justify our model can not only explain existing illicit patterns but can also find new suspicious characters.
翻訳日:2023-09-28 18:17:58 公開日:2023-09-26
# 遺伝的インフォマックス:高次元画像遺伝学研究における相互情報最大化の探求

Genetic InfoMax: Exploring Mutual Information Maximization in High-Dimensional Imaging Genetics Studies ( http://arxiv.org/abs/2309.15132v1 )

ライセンス: Link先を確認
Yaochen Xie, Ziqian Xie, Sheikh Muhammad Saiful Islam, Degui Zhi, Shuiwang Ji(参考訳) 遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。 高次元医用画像データに適用する場合、重要なステップは、データの低次元かつ情報的な表現を特性として抽出することである。 画像表現学習は、gwasが典型的な視覚表現学習と比較した場合に生じる独特の課題のため、ほとんどが未熟である。 本研究では,既存の手法の重要な限界を特定することによって,相互情報(MI)の観点からこの問題に取り組む。 我々は,GWASの具体的な課題に対処するために,正規化MI推定器と新しい遺伝的インフォームドトランスフォーマーを含むトランスモーダル学習フレームワークであるGenematic InfoMax(GIM)を紹介する。 我々は、ヒト脳の3次元MRIデータからGIMを評価し、既存のアプローチと比較するための標準化された評価プロトコルを確立した。 以上の結果から, GIM の有効性と GWAS の性能向上が示唆された。

Genome-wide association studies (GWAS) are used to identify relationships between genetic variations and specific traits. When applied to high-dimensional medical imaging data, a key step is to extract lower-dimensional, yet informative representations of the data as traits. Representation learning for imaging genetics is largely under-explored due to the unique challenges posed by GWAS in comparison to typical visual representation learning. In this study, we tackle this problem from the mutual information (MI) perspective by identifying key limitations of existing methods. We introduce a trans-modal learning framework Genetic InfoMax (GIM), including a regularized MI estimator and a novel genetics-informed transformer to address the specific challenges of GWAS. We evaluate GIM on human brain 3D MRI data and establish standardized evaluation protocols to compare it to existing approaches. Our results demonstrate the effectiveness of GIM and a significantly improved performance on GWAS.
翻訳日:2023-09-28 18:17:33 公開日:2023-09-26
# 一般化グローバー硬貨を用いたディヘドラル群のケイリーグラフ上の離散時間量子ウォーク

Discrete-time quantum walks on Cayley graphs of Dihedral groups using generalized Grover coins ( http://arxiv.org/abs/2309.15194v1 )

ライセンス: Link先を確認
Rohit Sarma Sarkar, Bibhas Adhikari(参考訳) 本稿では,2面体群に対応するケイリーグラフ上の離散時間量子ウォークについて検討する。 我々は,Grover行列の1パラメータ連続変形であるコインを用いたウォークを,ある置換行列の線形結合として記述できると考えている。 ウォークは、置換行列の置換または負のコインに対してのみ周期的であることを示す。 最後に, 歩行の局所化特性を数値シミュレーションにより検討し, 歩行が様々な大きさのコインに対して局所化するのを観察した。

In this paper we study discrete-time quantum walks on Cayley graphs corresponding to Dihedral groups, which are graphs with both directed and undirected edges. We consider the walks with coins that are one-parameter continuous deformation of the Grover matrix and can be written as linear combinations of certain permutation matrices. We show that the walks are periodic only for coins that are permutation or negative of a permutation matrix. Finally, we investigate the localization property of the walks through numerical simulations and observe that the walks localize for a wide range of coins for different sizes of the graphs.
翻訳日:2023-09-28 18:09:31 公開日:2023-09-26
# ICML 2023 トポロジカルディープラーニングチャレンジ : 設計と結果

ICML 2023 Topological Deep Learning Challenge : Design and Results ( http://arxiv.org/abs/2309.15188v1 )

ライセンス: Link先を確認
Mathilde Papillon, Mustafa Hajij, Florian Frantzen, Josef Hoppe, Helen Jenne, Johan Mathe, Audun Myers, Theodore Papamarkou, Michael T. Schaub, Ghada Zamzmi, Tolga Birdal, Tamal Dey, Tim Doster, Tegan Emerson, Gurusankar Gopalakrishnan, Devendra Govil, Vincent Grande, Aldo Guzm\'an-S\'aenz, Henry Kvinge, Neal Livesay, Jan Meisner, Soham Mukherjee, Shreyas N. Samaga, Karthikeyan Natesan Ramamurthy, Maneel Reddy Karri, Paul Rosen, Sophia Sanborn, Michael Scholkemper, Robin Walters, Jens Agerberg, Georg B\"okman, Sadrodin Barikbin, Claudio Battiloro, Gleb Bazhenov, Guillermo Bernardez, Aiden Brent, Sergio Escalera, Simone Fiorellino, Dmitrii Gavrilev, Mohammed Hassanin, Paul H\"ausner, Odin Hoff Gardaa, Abdelwahed Khamis, Manuel Lecha, German Magai, Tatiana Malygina, Pavlo Melnyk, Rub\'en Ballester, Kalyan Nadimpalli, Alexander Nikitin, Abraham Rabinowitz, Alessandro Salatiello, Simone Scardapane, Luca Scofano, Suraj Singh, Jens Sj\"olund, Paul Snopov, Indro Spinelli, Lev Telyatnikov, Lucia Testa, Maosheng Yang, Yixiao Yue, Olga Zaghen, Ali Zia, Nina Miolane(参考訳) 本稿では、ICML 2023 Workshop on Topology and Geometry in Machine Learningにホストされたトポロジ的深層学習に関する計算課題について述べる。 コンペティションは参加者に対して、PythonパッケージのTopoNetX(データ処理)とTopoModelX(ディープラーニング)にコントリビュートすることで、文献からトポロジカルニューラルネットワークのオープンソース実装を提供するように求めた。 この挑戦は2ヶ月の期間で28の応募を惹きつけた。 本稿では,課題の設計について述べるとともに,その主な知見を概説する。

This paper presents the computational challenge on topological deep learning that was hosted within the ICML 2023 Workshop on Topology and Geometry in Machine Learning. The competition asked participants to provide open-source implementations of topological neural networks from the literature by contributing to the python packages TopoNetX (data processing) and TopoModelX (deep learning). The challenge attracted twenty-eight qualifying submissions in its two-month duration. This paper describes the design of the challenge and summarizes its main findings.
翻訳日:2023-09-28 18:09:20 公開日:2023-09-26
# 機械学習モデルのモニタリング: 関連する偏差のオンライン検出

Monitoring Machine Learning Models: Online Detection of Relevant Deviations ( http://arxiv.org/abs/2309.15187v1 )

ライセンス: Link先を確認
Florian Heinrichs(参考訳) 機械学習モデルは、さまざまな領域において必須のツールであるが、データ分散やその他の要因の変化により、時間とともにパフォーマンスが低下する可能性がある。 モデル信頼性を維持するためには,このような劣化の検出と対処が不可欠である。 一方、十分なデータがあれば、任意の品質変化を検出することができる。 モデルの再トレーニングや置換といった介入は費用がかかる可能性があるため、変更が所定のしきい値を超えた場合にのみ実施すべきであると主張する。 関連する変化を検出するための逐次モニタリング手法を提案する。 提案手法は,不必要な警告を低減し,測定したモデル品質の時間的依存性を考慮し,複数のテスト問題を克服する。 一貫性と特定の漸近レベルの条件を提供する。 シミュレーションおよび実データを用いた実証検証は,ベンチマーク手法と比較して,モデル品質の関連する変化を検出する上で,我々のアプローチが優れていることを示す。 本研究は,機械学習モデルの性能において,ゆらぎと意味のある劣化を区別し,動的環境における信頼性を確保するための実践的ソリューションを提供する。

Machine learning models are essential tools in various domains, but their performance can degrade over time due to changes in data distribution or other factors. On one hand, detecting and addressing such degradations is crucial for maintaining the models' reliability. On the other hand, given enough data, any arbitrary small change of quality can be detected. As interventions, such as model re-training or replacement, can be expensive, we argue that they should only be carried out when changes exceed a given threshold. We propose a sequential monitoring scheme to detect these relevant changes. The proposed method reduces unnecessary alerts and overcomes the multiple testing problem by accounting for temporal dependence of the measured model quality. Conditions for consistency and specified asymptotic levels are provided. Empirical validation using simulated and real data demonstrates the superiority of our approach in detecting relevant changes in model quality compared to benchmark methods. Our research contributes a practical solution for distinguishing between minor fluctuations and meaningful degradations in machine learning model performance, ensuring their reliability in dynamic environments.
翻訳日:2023-09-28 18:09:09 公開日:2023-09-26
# 代数集合を用いた半クリフォードゲートの特性評価

Characterising semi-Clifford gates using algebraic sets ( http://arxiv.org/abs/2309.15184v1 )

ライセンス: Link先を確認
Imin Chen, Nadish de Silva(参考訳) フォールトトレラント量子計算における中心的な役割により、クリフォード階層の第3階層のゲートの集合とその「近対角」半クリフォードゲートの区別された部分集合を研究する。 クリフォード階層ゲートは適切なマジック状態のゲートテレポーテーションによって実装することができる。 フォールトトレランスを達成するために必要とされるこれらのリソースステートの多くは、ユニバーサル量子コンピュータの実験的な実装において重要なボトルネックである。 セミクリフォードゲートはこれらの資源状態をはるかに効率的に利用して実装できるので重要である。 最大2キューディットの3階ゲートが全て半クリフォードであることを証明する。 したがって、qubit の場合における Zeng-Chen-Chuang (2008) の結果と、qutrit の場合における 2番目の著者 (2020) の結果を、任意の素次元$d$のクォーディットの場合に一般化する。 初期の結果は網羅的な計算に依存していたが、本研究では代数幾何学のツールを活用している。 具体的には、三階クリフォード階層ゲートと三階半クリフォードゲートの集合に対応する2つのスキームを構築する。 次に、これらのスキームを modulo $d$ に還元した2つの代数集合が、同じ有理点の集合を共有することを示す。

Motivated by their central role in fault-tolerant quantum computation, we study the sets of gates of the third-level of the Clifford hierarchy and their distinguished subsets of 'nearly diagonal' semi-Clifford gates. The Clifford hierarchy gates can be implemented via gate teleportation given appropriate magic states. The vast quantity of these resources states required for achieving fault-tolerance is a significant bottleneck for experimental implementations of universal quantum computers. Semi-Clifford gates are important because they can be implemented with far more efficient use of these resource states. We prove that every third-level gate of up to two qudits is semi-Clifford. We thus generalise results of Zeng-Chen-Chuang (2008) in the qubit case and of the second author (2020) in the qutrit case to the case of qudits of arbitrary prime dimension $d$. Earlier results relied on exhaustive computations whereas our present work leverages tools of algebraic geometry. Specifically, we construct two schemes corresponding to the sets of third-level Clifford hierarchy gates and third-level semi-Clifford gates. We then show that the two algebraic sets resulting from reducing these schemes modulo $d$ share the same set of rational points.
翻訳日:2023-09-28 18:08:52 公開日:2023-09-26
# 保守的世界モデル

Conservative World Models ( http://arxiv.org/abs/2309.15178v1 )

ライセンス: Link先を確認
Scott Jeen, Tom Bewley, Jonathan M. Cullen(参考訳) zero-shot reinforcement learning(rl)は、オフライン事前トレーニングフェーズの後、環境内で任意のタスクを実行できるエージェントを提供することを約束する。 フォワード・バックワード(FB)表現はこの理想に向かって顕著な進歩を示し、タスク固有のエージェントのパフォーマンスの85%を達成している。 しかし、このようなパフォーマンスは、ほとんどの実際の問題に対して期待できない、大規模で多様な事前トレーニング用データセットへのアクセスに依存している。 ここでは、多様性に欠ける小さなデータセットでトレーニングされた場合、FBパフォーマンスがいかに劣化するかを検討し、それを保守性によって緩和する。 さまざまなデータセット、ドメイン、タスクにまたがるメソッドファミリーを評価し、総計でバニラfbパフォーマンスの150%に達します。 やや意外なことに、保守的なfbアルゴリズムは、報酬ラベルへのアクセスがなく、すべてのタスクのポリシーを維持する必要があるにもかかわらず、タスク固有のベースラインを上回っている。 保守的なfbアルゴリズムは完全なデータセットでfbよりもパフォーマンスが良いので、前者に対するマイナス面はほとんどない。 私たちのコードはhttps://enjeeneer.io/projects/conservative-world-models/で公開されています。

Zero-shot reinforcement learning (RL) promises to provide agents that can perform any task in an environment after an offline pre-training phase. Forward-backward (FB) representations represent remarkable progress towards this ideal, achieving 85% of the performance of task-specific agents in this setting. However, such performance is contingent on access to large and diverse datasets for pre-training, which cannot be expected for most real problems. Here, we explore how FB performance degrades when trained on small datasets that lack diversity, and mitigate it with conservatism, a well-established feature of performant offline RL algorithms. We evaluate our family of methods across various datasets, domains and tasks, reaching 150% of vanilla FB performance in aggregate. Somewhat surprisingly, conservative FB algorithms also outperform the task-specific baseline, despite lacking access to reward labels and being required to maintain policies for all tasks. Conservative FB algorithms perform no worse than FB on full datasets, and so present little downside over their predecessor. Our code is available open-source via https://enjeeneer.io/projects/conservative-world-models/.
翻訳日:2023-09-28 18:08:28 公開日:2023-09-26
# STANCE-C3:コントラスト学習と対実生成によるドメイン適応型クロスターゲットスタンス検出

STANCE-C3: Domain-adaptive Cross-target Stance Detection via Contrastive Learning and Counterfactual Generation ( http://arxiv.org/abs/2309.15176v1 )

ライセンス: Link先を確認
Nayoung Kim, David Mosallanezhad, Lu Cheng, Michelle V. Mancenido, Huan Liu(参考訳) スタンス検出(スタンス検出)とは、新型コロナウイルス(COVID-19)のパンデミックにおける健康政策など、一般的な関心事や議論の的となっている話題に対する一般的な認識を推論するために、特定の問題に対する人物の位置や立場を推定するプロセスである。 既存のスタンス検出モデルは、単一のドメイン(例えば、COVID-19)と特定のターゲットトピック(例えば、マスキングプロトコル)に対してうまく機能するように訓練されるが、データ内の分散シフトのため、一般的に他のドメインやターゲットでは効果がない。 しかし、ハイパフォーマンスなドメイン固有のスタンス検出モデルを構築するには、ターゲットドメインに関連するラベル付きデータの広範なコーパスが必要である。 これは、データのアノテートプロセスがコストと時間を要するため、課題となる。 そこで,本研究では,学習中に対象領域データセットを充実させ,新たなドメインからの情報量を大幅に減らすことにより,非事実的データ拡張によるドメイン適応型トレーニングを強化するための,コントラスト学習と反事実生成(stance-c3)によるドメイン適応型クロスターゲットスタンス検出モデルを提案する。 また,STANCE-C3の構成要素である自己教師付きコントラスト学習を改良し,既存のドメインへの過度な適合を防止し,ターゲット間姿勢検出を可能にする。 各種データセットを用いた実験により, stand-c3 は既存の最先端手法よりも性能が向上することを示す。

Stance detection is the process of inferring a person's position or standpoint on a specific issue to deduce prevailing perceptions toward topics of general or controversial interest, such as health policies during the COVID-19 pandemic. Existing models for stance detection are trained to perform well for a single domain (e.g., COVID-19) and a specific target topic (e.g., masking protocols), but are generally ineffectual in other domains or targets due to distributional shifts in the data. However, constructing high-performing, domain-specific stance detection models requires an extensive corpus of labeled data relevant to the targeted domain, yet such datasets are not readily available. This poses a challenge as the process of annotating data is costly and time-consuming. To address these challenges, we introduce a novel stance detection model coined domain-adaptive Cross-target STANCE detection via Contrastive learning and Counterfactual generation (STANCE-C3) that uses counterfactual data augmentation to enhance domain-adaptive training by enriching the target domain dataset during the training process and requiring significantly less information from the new domain. We also propose a modified self-supervised contrastive learning as a component of STANCE-C3 to prevent overfitting for the existing domain and target and enable cross-target stance detection. Through experiments on various datasets, we show that STANCE-C3 shows performance improvement over existing state-of-the-art methods.
翻訳日:2023-09-28 18:08:08 公開日:2023-09-26
# 可観測熱化:理論、数値、分析的証拠

Observable Thermalization: Theory, Numerical and Analytical Evidence ( http://arxiv.org/abs/2309.15173v1 )

ライセンス: Link先を確認
Lodovico Scarpa, Fabio Anza, Vlatko Vedral(参考訳) 孤立量子系における可観測物が熱平衡に動的に進化するかどうかを予測することは、熱力学と統計力学の適用性を決定する重要な開問題である。 可観測熱化フレームワークは、可観測性固有の最大エントロピー原理を用いて熱化する可観測物質を特徴付ける解として提案されている。 本稿では,3つの結果を得た。 まず, 局所可観測体の最大エントロピーへの動的緩和を, 1次元イジング鎖で確認する。 第二に、最大化問題に対する最も一般的な解を提供し、同じモデルにおける平衡挙動に関する一般的な予測を数値的に検証する。 第3に,観測可能なエネルギー概念の出現と物理的意味について考察する。 この結果は、孤立量子系における熱化の完全な予測理論への大きな進展を示し、観測可能比熱力学量に関する興味深い疑問を開こうとしている。

Predicting whether an observable will dynamically evolve to thermal equilibrium in an isolated quantum system is an important open problem, as it determines the applicability of thermodynamics and statistical mechanics. The Observable Thermalization framework has been proposed as a solution, characterizing observables that thermalize using an observable-specific maximum entropy principle. In this paper, we achieve three results. First, we confirm the dynamical relaxation of local observables towards maximum entropy, in a 1D Ising chain. Second, we provide the most general solution to the maximization problem and numerically verify some general predictions about equilibrium behavior in the same model. Third, we explore the emergence and physical meaning of an observable-specific notion of energy. Our results mark significant progress towards a fully predictive theory of thermalization in isolated quantum systems and open interesting questions about observable-specific thermodynamic quantities.
翻訳日:2023-09-28 18:07:39 公開日:2023-09-26
# 多変量時系列予測における時空間マスクオートエンコーダのパワー向上

Revealing the Power of Spatial-Temporal Masked Autoencoders in Multivariate Time Series Forecasting ( http://arxiv.org/abs/2309.15169v1 )

ライセンス: Link先を確認
Jiarui Sun, Yujie Fan, Chin-Chia Michael Yeh, Wei Zhang, Girish Chowdhary(参考訳) 多変量時系列予測(MTS)は、過去の観測に基づいて将来の時系列データを予測する。 既存の研究は、時系列変数間の空間依存性と時間相関を明示的に捉える複雑な空間-時間モデルの開発を主に強調している。 しかし、最近の進歩はデータの不足とモデルの堅牢性に関する課題によって妨げられている。 これらの問題に対処するため,マスク付きオートエンコーダを利用した時空間ベースラインモデルの性能向上を目的としたMSS予測フレームワークSTMAEを提案する。 STMAは2つの学習段階から構成される。 プリトレーニング段階では、エンコーダ-デコーダアーキテクチャが使用される。 エンコーダは、ランダムウォークベースの空間マスキングやパッチベースの時間マスキングを含む、新しいデュアルマスキング戦略によって生成される部分可視MSSデータを処理する。 その後,デコーダは空間的,時間的両面からマスクを復元する。 事前学習段階は、エンコーダが堅牢な時空間パターンを学習するように促す挑戦的な前提課題を確立する。 微調整段階では、プリトレーニングエンコーダが保持され、予測のために既存の時空間モデルからの元のデコーダが付加される。 複数のMSSベンチマークで大規模な実験が行われた。 有望な結果は,STMAEを様々な時空間モデルに統合することで,MSS予測能力を大幅に向上させることができることを示す。

Multivariate time series (MTS) forecasting involves predicting future time series data based on historical observations. Existing research primarily emphasizes the development of complex spatial-temporal models that capture spatial dependencies and temporal correlations among time series variables explicitly. However, recent advances have been impeded by challenges relating to data scarcity and model robustness. To address these issues, we propose Spatial-Temporal Masked Autoencoders (STMAE), an MTS forecasting framework that leverages masked autoencoders to enhance the performance of spatial-temporal baseline models. STMAE consists of two learning stages. In the pretraining stage, an encoder-decoder architecture is employed. The encoder processes the partially visible MTS data produced by a novel dual-masking strategy, including biased random walk-based spatial masking and patch-based temporal masking. Subsequently, the decoders aim to reconstruct the masked counterparts from both spatial and temporal perspectives. The pretraining stage establishes a challenging pretext task, compelling the encoder to learn robust spatial-temporal patterns. In the fine-tuning stage, the pretrained encoder is retained, and the original decoder from existing spatial-temporal models is appended for forecasting. Extensive experiments are conducted on multiple MTS benchmarks. The promising results demonstrate that integrating STMAE into various spatial-temporal models can largely enhance their MTS forecasting capability.
翻訳日:2023-09-28 18:07:23 公開日:2023-09-26
# ローカルスーパーオペレーターの基底状態としての対称性

Symmetries as Ground States of Local Superoperators ( http://arxiv.org/abs/2309.15167v1 )

ライセンス: Link先を確認
Sanjay Moudgalya, Olexei I. Motrunich(参考訳) 局所性を持つ量子多体系の対称性代数は、与えられた局所作用素の集合と可換な作用素の代数として定義される可換代数を用いて理解することができる。 本研究では、これらの対称性代数を局所超作用素のフラストレーションのない基底状態として表現できることを示し、これを「超ハミルトニアン」と呼ぶ。 これは、例えば$z_2$、$u(1)$、$su(2)$のように、対称性代数が様々な強磁性基底状態に写像する従来の対称性や、ヒルベルト空間の断片化や量子多体傷の弱いエルゴーディティ破砕現象をもたらす非慣習的な対称性に対して証明する。 さらに、この超ハミルトニアンは、雑音対称ブラウン回路における作用素緩和を支配する超作用素であることを示す。 この物理解釈は、自己相関関数のマズール境界に対する新しい解釈を提供し、超ハミルトニアンの低エネルギー励起を対称性系の緩やかな緩和モードを決定する近似対称性に関連付ける。 離散/連続対称性の存在下で生じるスローモードの欠如/欠如を示すガッピング/ガップレス超ハミルトニアンの例を見いだす。 空隙のない場合、それぞれU(1)$対称性、ヒルベルト空間の断片化、および量子的き裂の塔の存在下で、拡散、トレーサー拡散、漸近的き裂などの緩やかなモードを回復する。 これは、局所性を持つ系における対称性とそれらの動的結果の包括的理解を得る際の可換代数フレームワークの力を示す。

Symmetry algebras of quantum many-body systems with locality can be understood using commutant algebras, which are defined as algebras of operators that commute with a given set of local operators. In this work, we show that these symmetry algebras can be expressed as frustration-free ground states of a local superoperator, which we refer to as a "super-Hamiltonian". We demonstrate this for conventional symmetries such as $Z_2$, $U(1)$, and $SU(2)$, where the symmetry algebras map to various kinds of ferromagnetic ground states, as well as for unconventional ones that lead to weak ergodicity breaking phenomena of Hilbert space fragmentation and quantum many-body scars. In addition, we show that this super-Hamiltonian is exactly the superoperator that governs the operator relaxation in noisy symmetric Brownian circuits. This physical interpretation provides a novel interpretation for Mazur bounds for autocorrelation functions, and relates the low-energy excitations of the super-Hamiltonian to approximate symmetries that determine slowly relaxing modes in symmetric systems. We find examples of gapped/gapless super-Hamiltonians indicating the absence/presence of slow-modes, which happens in the presence of discrete/continuous symmetries. In the gapless cases, we recover slow-modes such as diffusion, tracer diffusion, and asymptotic scars in the presence of $U(1)$ symmetry, Hilbert space fragmentation, and a tower of quantum scars respectively. In all, this demonstrates the power of the commutant algebra framework in obtaining a comprehensive understanding of symmetries and their dynamical consequences in systems with locality.
翻訳日:2023-09-28 18:06:58 公開日:2023-09-26
# 量子コンピュータにおけるスペクトル関数評価のための量子テンソルネットワークアルゴリズム

Quantum tensor networks algorithms for evaluation of spectral functions on quantum computers ( http://arxiv.org/abs/2309.15165v1 )

ライセンス: Link先を確認
Michael L. Wall, Aidan Reilly, John S. Van Dyke, Collin Broholm, Paraj Titum(参考訳) 量子多体系の静的および動的性質をシミュレートするためにテンソルネットワークから派生した量子アルゴリズムを調べる。 量子テンソルネットワーク(QTN)と呼ぶ行列積状態(MPS)の逐次的に準備された量子回路表現を用いて、量子コンピュータ上で基底および励起状態を作成し、分子ナノマグネット(MNM)に適用するアルゴリズムをパラダイム的な例として示す。 本研究では、中性子散乱実験で測定されたスペクトル相関関数を抽出する2つの方法を開発する。 (a)波動関数の重なりの計算のためのSWAPテストの一般化 b) 行列積作用素(MPO)の概念を、ユニタリの線型結合を生成するQTN設定に一般化する。 後者の手法は変換不変なスピンハーフ系に対して詳細に議論されており、SWAP法と比較してキュービットリソースの要求を減らし、他の系に一般化することができる。 我々はスピン1/2とスピン-3/2 MNMをシミュレートし、後者がCr$^{3+}_8$環の実験的モデルであることを示す。 提案手法は,MPS表現の結合次元と対数的にのみスケールする多体系の構成成分数に依存しない量子ビット要件を持ち,中間回路計測とリセットによる短期量子ハードウェアの実装をアピールする。

We investigate quantum algorithms derived from tensor networks to simulate the static and dynamic properties of quantum many-body systems. Using a sequentially prepared quantum circuit representation of a matrix product state (MPS) that we call a quantum tensor network (QTN), we demonstrate algorithms to prepare ground and excited states on a quantum computer and apply them to molecular nanomagnets (MNMs) as a paradigmatic example. In this setting, we develop two approaches for extracting the spectral correlation functions measured in neutron scattering experiments: (a) a generalization of the SWAP test for computing wavefunction overlaps and, (b) a generalization of the notion of matrix product operators (MPOs) to the QTN setting which generates a linear combination of unitaries. The latter method is discussed in detail for translationally invariant spin-half systems, where it is shown to reduce the qubit resource requirements compared with the SWAP method, and may be generalized to other systems. We demonstrate the versatility of our approaches by simulating spin-1/2 and spin-3/2 MNMs, with the latter being an experimentally relevant model of a Cr$^{3+}_8$ ring. Our approach has qubit requirements that are independent of the number of constituents of the many-body system and scale only logarithmically with the bond dimension of the MPS representation, making them appealing for implementation on near-term quantum hardware with mid-circuit measurement and reset.
翻訳日:2023-09-28 18:06:27 公開日:2023-09-26
# 共起ネットワーク推論アルゴリズムの訓練と試験のためのクロスバリデーション

Cross-Validation for Training and Testing Co-occurrence Network Inference Algorithms ( http://arxiv.org/abs/2309.15225v1 )

ライセンス: Link先を確認
Daniel Agyapong, Jeffrey Ryan Propster, Jane Marks, Toby Dylan Hocking(参考訳) 微生物は、土壌、水、空気、動物や植物などの他の生物を含むほとんど全ての環境に存在する。 一部の微生物は病気を引き起こすが、ほとんどの微生物は分解、発酵、栄養循環といった生物学的プロセスに役立っている。 様々な環境における微生物群集の研究や、それらの相互作用や関係が様々な病気に対する洞察を与える方法について、多くの研究が進められている。 共起ネットワーク推論アルゴリズムは、微生物、特に細菌の複雑な関連を理解するのに役立つ。 既存のネットワーク推論アルゴリズムは、相関、正規化線形回帰、条件依存といった、ネットワークのスパース性を決定する異なるハイパーパラメータを持つ手法を用いる。 推定されたネットワークの品質を評価する以前の方法は、外部データの使用とサブサンプル間のネットワーク一貫性であり、どちらも実際のマイクロバイオーム合成データセットでの適用性を制限するいくつかの欠点がある。 本稿では,共起ネットワーク推論アルゴリズムを評価するための新しいクロスバリデーション手法と,既存アルゴリズムを適用してテストデータを予測する新しい手法を提案する。 実験により,提案手法は,異なるアルゴリズム(テスト)間でのパラメータ選択(トレーニング)および推論ネットワークの品質の比較に有用であることが確認された。

Microorganisms are found in almost every environment, including the soil, water, air, and inside other organisms, like animals and plants. While some microorganisms cause diseases, most of them help in biological processes such as decomposition, fermentation and nutrient cycling. A lot of research has gone into studying microbial communities in various environments and how their interactions and relationships can provide insights into various diseases. Co-occurrence network inference algorithms help us understand the complex associations of micro-organisms, especially bacteria. Existing network inference algorithms employ techniques such as correlation, regularized linear regression, and conditional dependence, which have different hyper-parameters that determine the sparsity of the network. Previous methods for evaluating the quality of the inferred network include using external data, and network consistency across sub-samples, both which have several drawbacks that limit their applicability in real microbiome composition data sets. We propose a novel cross-validation method to evaluate co-occurrence network inference algorithms, and new methods for applying existing algorithms to predict on test data. Our empirical study shows that the proposed method is useful for hyper-parameter selection (training) and comparing the quality of the inferred networks between different algorithms (testing).
翻訳日:2023-09-28 18:01:50 公開日:2023-09-26
# 逆音声合成のための協調的透かし

Collaborative Watermarking for Adversarial Speech Synthesis ( http://arxiv.org/abs/2309.15224v1 )

ライセンス: Link先を確認
Lauri Juvela (Aalto University, Finland) and Xin Wang (National Institute of Informatics, Japan)(参考訳) ニューラル音声合成の進歩は、人間の自然さに近づくだけでなく、わずかなデータで瞬時に音声をクローンできる技術をもたらし、事前訓練されたモデルで高いアクセス性を持つ。 当然、生成されたコンテンツの潜在的な洪水は、合成音声の検出と透かしの必要性を高める。 近年, 受動的対応を目的とした自動話者検証・発声対策チャレンジ(ASVspoof)に, 合成音声検出におけるかなりの研究努力が関係している。 合成システムは、他の機械による検出を補助するが、人間の聴取者には透過的でありながら、生成した音声を透かし出すために積極的に努力すべきである。 ASVspoof 2021ベースライン対策モデルと協調するHiFi-GANニューラルボコーダが従来の分類器学習よりも一貫して検出性能を向上させることを示す。 さらに,協調学習と強化戦略を組み合わせることで,雑音に対する頑健性や時間的拡張性が向上することを示す。 最後に、聞き取りテストにより、協調訓練がvocode音声の知覚的品質に悪影響を及ぼすことが示される。

Advances in neural speech synthesis have brought us technology that is not only close to human naturalness, but is also capable of instant voice cloning with little data, and is highly accessible with pre-trained models available. Naturally, the potential flood of generated content raises the need for synthetic speech detection and watermarking. Recently, considerable research effort in synthetic speech detection has been related to the Automatic Speaker Verification and Spoofing Countermeasure Challenge (ASVspoof), which focuses on passive countermeasures. This paper takes a complementary view to generated speech detection: a synthesis system should make an active effort to watermark the generated speech in a way that aids detection by another machine, but remains transparent to a human listener. We propose a collaborative training scheme for synthetic speech watermarking and show that a HiFi-GAN neural vocoder collaborating with the ASVspoof 2021 baseline countermeasure models consistently improves detection performance over conventional classifier training. Furthermore, we demonstrate how collaborative training can be paired with augmentation strategies for added robustness against noise and time-stretching. Finally, listening tests demonstrate that collaborative training has little adverse effect on perceptual quality of vocoded speech.
翻訳日:2023-09-28 18:01:31 公開日:2023-09-26
# パラメータ効率の高い音声認識のための大言語モデルの低位適応化

Low-rank Adaptation of Large Language Model Rescoring for Parameter-Efficient Speech Recognition ( http://arxiv.org/abs/2309.15223v1 )

ライセンス: Link先を確認
Yu Yu, Chao-Han Huck Yang, Jari Kolehmainen, Prashanth G. Shivakumar, Yile Gu, Sungho Ryu, Roger Ren, Qi Luo, Aditya Gourav, I-Fan Chen, Yi-Chieh Liu, Tuan Dinh, Ankur Gandhe, Denis Filimonov, Shalini Ghosh, Andreas Stolcke, Ariya Rastow, Ivan Bulyko(参考訳) 音声認識出力再構成のための低ランク適応(LoRA)に基づくニューラルネットワークモデリングシステムを提案する。 BERTのような事前学習言語モデル(LM)は、第2パスの再構成において優れた性能を示しているが、事前学習段階をスケールアップし、事前訓練されたモデルを特定の領域に適応させることによる高い計算コストは、復調における実用的使用を制限する。 本稿では,事前学習されたパラメータの分数 (0.08%) のみを用いて,リコーリングbertモデルを学習し,新しい領域に適用するための低ランク分解法を提案する。 これらの挿入行列は、相関に基づく正規化損失とともに、識別訓練目的を通じて最適化される。 提案した低ランク適応型Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセット上で5.4から3.6の因子でトレーニング時間を短縮する。

We propose a neural language modeling system based on low-rank adaptation (LoRA) for speech recognition output rescoring. Although pretrained language models (LMs) like BERT have shown superior performance in second-pass rescoring, the high computational cost of scaling up the pretraining stage and adapting the pretrained models to specific domains limit their practical use in rescoring. Here we present a method based on low-rank decomposition to train a rescoring BERT model and adapt it to new domains using only a fraction (0.08%) of the pretrained parameters. These inserted matrices are optimized through a discriminative training objective along with a correlation-based regularization loss. The proposed low-rank adaptation Rescore-BERT (LoRB) architecture is evaluated on LibriSpeech and internal datasets with decreased training times by factors between 5.4 and 3.6.
翻訳日:2023-09-28 18:01:11 公開日:2023-09-26
# RAGAS:検索増強世代の自動評価

RAGAS: Automated Evaluation of Retrieval Augmented Generation ( http://arxiv.org/abs/2309.15217v1 )

ライセンス: Link先を確認
Shahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert(参考訳) RAGA(Retrieval Augmented Generation Assessment)は、RAG(Retrieval Augmented Generation)パイプラインの参照レス評価のためのフレームワークである。 RAGシステムは、検索とLLMベースの生成モジュールで構成され、LLMに参照テキストデータベースからの知識を提供し、ユーザとテキストデータベース間の自然言語層として機能し、幻覚のリスクを低減する。 しかし、RAGアーキテクチャを評価することは、関連性のあるコンテキストパスを検索システムが特定できる能力、LCMがそのようなパスを忠実に活用できる能力、世代自体の品質など、考慮すべき側面がいくつかあるため、難しい。 ragasでは、これらの異なる次元の \textit{with without without handle to rely on ground truth human annotations}を評価するのに使用できるメトリクスのスイートを作成しました。 このようなフレームワークがragアーキテクチャの評価サイクルを高速化する上で,極めて重要な役割を果たすことが期待される。

We introduce RAGAs (Retrieval Augmented Generation Assessment), a framework for reference-free evaluation of Retrieval Augmented Generation (RAG) pipelines. RAG systems are composed of a retrieval and an LLM based generation module, and provide LLMs with knowledge from a reference textual database, which enables them to act as a natural language layer between a user and textual databases, reducing the risk of hallucinations. Evaluating RAG architectures is, however, challenging because there are several dimensions to consider: the ability of the retrieval system to identify relevant and focused context passages, the ability of the LLM to exploit such passages in a faithful way, or the quality of the generation itself. With RAGAs, we put forward a suite of metrics which can be used to evaluate these different dimensions \textit{without having to rely on ground truth human annotations}. We posit that such a framework can crucially contribute to faster evaluation cycles of RAG architectures, which is especially important given the fast adoption of LLMs.
翻訳日:2023-09-28 18:00:55 公開日:2023-09-26
# CodeBERTとRandom Forest RegressorによるC言語の自動最適化

Auto-grading C programming assignments with CodeBERT and Random Forest Regressor ( http://arxiv.org/abs/2309.15216v1 )

ライセンス: Link先を確認
Roshan Vasu Muddaluru, Sharvaani Ravikumar Thoguluva, Shruti Prabha, Dr. Peeta Basa Pati and Ms. Roshni M Balakrishnan(参考訳) 手動によるコーディングの割り当ては、複雑さと主観性のために難しい。 しかし、ディープラーニングによるオートグレーディングはタスクを単純化する。 客観的にコード品質を評価し、エラーを検知し、正確にマークを割り当て、効率的で公平な評価を確保しながらインストラクターの負担を軽減する。 本研究は、回帰、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)といったディープラーニングアプローチと機械学習を用いて、C言語プログラムの課題の自動階調分析を行う。 CodeBERTと呼ばれるコードベースのトランスフォーマーワード埋め込みモデルを使用して、テキストコード入力をベクトルに変換し、ベクターを複数のモデルに入力した。 実験の結果,ルート平均二乗誤差(RMSE)が1.89。 本研究では,統計的手法と深層学習技術との対比について論じる。

Grading coding assignments manually is challenging due to complexity and subjectivity. However, auto-grading with deep learning simplifies the task. It objectively assesses code quality, detects errors, and assigns marks accurately, reducing the burden on instructors while ensuring efficient and fair assessment. This study provides an analysis of auto-grading of the C programming assignments using machine learning and deep learning approaches like regression, convolutional neural networks (CNN) and long short-term memory (LSTM). Using a code-based transformer word embedding model called CodeBERT, the textual code inputs were transformed into vectors, and the vectors were then fed into several models. The testing findings demonstrated the efficacy of the suggested strategy with a root mean squared error (RMSE) of 1.89. The contrast between statistical methods and deep learning techniques is discussed in the study.
翻訳日:2023-09-28 18:00:25 公開日:2023-09-26
# 機械学習による時系列予測における計算効率と予測誤差のバランス:気象情報放送のライブ実験から

Balancing Computational Efficiency and Forecast Error in Machine Learning-based Time-Series Forecasting: Insights from Live Experiments on Meteorological Nowcasting ( http://arxiv.org/abs/2309.15207v1 )

ライセンス: Link先を確認
Elin T\"ornquist, Wagner Costa Santos, Timothy Pogue, Nicholas Wingle, Robert A. Caulk(参考訳) 時系列予測のための機械学習は、依然として研究の重要な分野である。 多くの機械学習技術が成功したにもかかわらず、計算効率を予測エラーに関係させることは未検討の領域である。 本稿では,気象情報を用いた計算コストと予測誤差の関係を定量化するための実時間実験を通じて,この問題に対処する。 我々は,マルチ水平,低温,風速,雲の3変数の短期予測に,XGBoost,FC-MLP,Transformer,LSTMといった一般的な回帰手法を用いている。 5日間のライブ実験では、4000のデータソースがトレーニング用にストリーミングされ、1時間に144モデルを参照された。 これらのモデルは、新しい自動適応データ削減手法(分散地平線)と性能に基づく概念ドリフト検出機構の2つの計算コスト最小化手法の予測誤差を調べるためにパラメータ化された。 すべてのモデル変動の予測誤差は、最先端の気象予報モデルに対してリアルタイムにベンチマークされた。 パフォーマンスは古典的および新しい評価指標を用いて評価された。 その結果,分散地平線を用いた場合,計算量は50\%以上減少し,誤差は0~15\%に増加した。 一方、パフォーマンスベースのリトレーニングは計算使用量を最大90\%削減し、一方 \emph{also} は予測エラーを最大10\%削減した。 最後に、分散地平線とパフォーマンスベースのリトレーニングの組み合わせは、計算使用量に正規化されたエラーを考えると、他のモデル構成を最大99.7\%上回った。

Machine learning for time-series forecasting remains a key area of research. Despite successful application of many machine learning techniques, relating computational efficiency to forecast error remains an under-explored domain. This paper addresses this topic through a series of real-time experiments to quantify the relationship between computational cost and forecast error using meteorological nowcasting as an example use-case. We employ a variety of popular regression techniques (XGBoost, FC-MLP, Transformer, and LSTM) for multi-horizon, short-term forecasting of three variables (temperature, wind speed, and cloud cover) for multiple locations. During a 5-day live experiment, 4000 data sources were streamed for training and inferencing 144 models per hour. These models were parameterized to explore forecast error for two computational cost minimization methods: a novel auto-adaptive data reduction technique (Variance Horizon) and a performance-based concept drift-detection mechanism. Forecast error of all model variations were benchmarked in real-time against a state-of-the-art numerical weather prediction model. Performance was assessed using classical and novel evaluation metrics. Results indicate that using the Variance Horizon reduced computational usage by more than 50\%, while increasing between 0-15\% in error. Meanwhile, performance-based retraining reduced computational usage by up to 90\% while \emph{also} improving forecast error by up to 10\%. Finally, the combination of both the Variance Horizon and performance-based retraining outperformed other model configurations by up to 99.7\% when considering error normalized to computational usage.
翻訳日:2023-09-28 17:59:01 公開日:2023-09-26
# CLRmatchNet:ディープマッチングプロセスによる曲線線検出の強化

CLRmatchNet: Enhancing Curved Lane Detection with Deep Matching Process ( http://arxiv.org/abs/2309.15204v1 )

ライセンス: Link先を確認
Sapir Kontente, Roy Orfaig and Ben-Zion Bobrovsky(参考訳) レーン検出は、安全なナビゲーションを確保するために重要なデータを提供することによって、自動運転において重要な役割を果たす。 現代のアルゴリズムはアンカーベースの検出器に依存しており、学習した幾何学的属性に基づいてトレーニング検出を正または負のインスタンスとして分類するラベル割り当てプロセスが続く。 しかし、現在の方法には制限があり、低次元モデルに基づく古典的コスト関数に依存しているため、最適ではないかもしれない。 ラベル割り当てプロセスの強化を目的とした,ディープラーニングサブモジュールベースのアプローチであるMatchNetを紹介した。 CLRNet(Cross Layer Refinement Network for Lane Detection)のような最先端のレーン検出ネットワークに統合され、MatchNetは従来のラベル割り当てプロセスをサブモジュールネットワークに置き換える。 この統合により、カーブした車線を含むシナリオが大幅に改善され、ResNet34の+2.8%、ResNet101の+2.3%、DLA34の+2.96%が大幅に改善された。 さらに、他のセクションで同等の結果を維持するか、改善する。 本手法は車線検出における信頼度レベルを高め,信頼しきい値の増大を可能にする。 コードはまもなく利用可能になる。 https://github.com/sapirkontente/CLRmatchNet.git

Lane detection plays a crucial role in autonomous driving by providing vital data to ensure safe navigation. Modern algorithms rely on anchor-based detectors, which are then followed by a label assignment process to categorize training detections as positive or negative instances based on learned geometric attributes. The current methods, however, have limitations and might not be optimal since they rely on predefined classical cost functions that are based on a low-dimensional model. Our research introduces MatchNet, a deep learning sub-module-based approach aimed at enhancing the label assignment process. Integrated into a state-of-the-art lane detection network like the Cross Layer Refinement Network for Lane Detection (CLRNet), MatchNet replaces the conventional label assignment process with a sub-module network. This integration results in significant improvements in scenarios involving curved lanes, with remarkable improvement across all backbones of +2.8% for ResNet34, +2.3% for ResNet101, and +2.96% for DLA34. In addition, it maintains or even improves comparable results in other sections. Our method boosts the confidence level in lane detection, allowing an increase in the confidence threshold. The code will be available soon: https://github.com/sapirkontente/CLRmatchNet.git
翻訳日:2023-09-28 17:58:13 公開日:2023-09-26
# 量子サブシステムの予測複雑性

Predictive complexity of quantum subsystems ( http://arxiv.org/abs/2309.15200v1 )

ライセンス: Link先を確認
Curtis T. Asplund and Elisa Panciu(参考訳) 我々は、異なるサブシステムからなる量子システムの予測状態と予測複雑性を定義する。 この複雑さは絡み合いエントロピーの一般化である。 確率的および複素系理論の予測状態解析の統計的または予測的複雑性に触発されるが、本質的に量子的である。 サブシステムの予測状態は、外部ヒルベルト空間における状態ベクトルの同値類によって形成され、しばらくの間そのサブシステムの同じ将来の振る舞いを効果的に予測する。 図示的な例として、等方的ハイゼンベルクモデルスピン鎖の力学の計算を行い、エンタングルメントエントロピーと比較して、予測複雑性はマグノン衝突のような動的に重要な事象をよりよく表すことを示す。 量子系における様々な対称性を情報理論的な方法でどのように特徴付けるのかを議論し、応用や拡張の可能性についてコメントする。

We define predictive states and predictive complexity for quantum systems composed of distinct subsystems. This complexity is a generalization of entanglement entropy. It is inspired by the statistical or forecasting complexity of predictive state analysis of stochastic and complex systems theory, but is intrinsically quantum. Predictive states of a subsystem are formed by equivalence classes of state vectors in the exterior Hilbert space that effectively predict the same future behavior of that subsystem for some time. As an illustrative example, we present calculations in the dynamics of an isotropic Heisenberg model spin chain and show that, in comparison to the entanglement entropy, the predictive complexity better signifies dynamically important events, such as magnon collisions. We discuss how this quantity may usefully characterize a variety of symmetries in quantum systems in an information-theoretic way, and comment on possible applications and extensions.
翻訳日:2023-09-28 17:57:51 公開日:2023-09-26
# 2つの文化の物語:twitterにおける対人情報開示基準の比較

A Tale of Two Cultures: Comparing Interpersonal Information Disclosure Norms on Twitter ( http://arxiv.org/abs/2309.15197v1 )

ライセンス: Link先を確認
Mainack Mondal, Anju Punuru, Tyng-Wen Scott Cheng, Kenneth Vargas, Chaz Gundry, Nathan S Driggs, Noah Schill, Nathaniel Carlson, Josh Bedwell, Jaden Q Lorenc, Isha Ghosh, Yao Li, Nancy Fulda, and Xinru Page(参考訳) 本稿では,twitter上での対人関係情報(家族,同僚,友人,恋人に関する情報など)の公開に関する文化的規範について検討する。 この文献は、個人主義と集合主義の文化的側面を、感情、話題、コンテンツの観点でオフラインコミュニケーションの違いの主要な決定要因と定義している。 我々は、個人主義(米国)と集団主義(インド)の社会で投稿されたツイートを比較する際に、このような違いがTwitterの文脈でオンラインでも起こるかどうかを調査することにした。 米国とインドで3ヶ月の間に200万あまりのツイートを収集し、対人関係のキーワードを格納した。 カードソート研究は、対人関係(例えば、母、母、母)を表すキーワードの文化的に敏感な飽和分類法を開発するために用いられた。 そして,ポスターの個人的関係(例えば「ママ」ではなく「ママ」)を参照する場合の単語を識別するために,依存性パーシング(f1-score: 86%)に基づく高精度な個人間開示検出装置を開発した。 これにより、ポスターの対人関係に関する情報を実際に開示するデータセット内の400万以上のツイートを特定できます。 我々は、これらのツイートを分析するための混合手法(例えば、家族について表現された喜びの量を比較する)を用いて、米国とインドにおけるツイート間の感情、話題、内容の違いを発見した。 我々の分析は、これらの違いを明らかにするために定性的手法と定量的手法の組み合わせが必要であることも明らかにしている。 本研究は,マルチパーティプライバシに関する先行文献を拡張し,文化に敏感なシステムの研究者や設計者へのガイダンスを提供する。

We present an exploration of cultural norms surrounding online disclosure of information about one's interpersonal relationships (such as information about family members, colleagues, friends, or lovers) on Twitter. The literature identifies the cultural dimension of individualism versus collectivism as being a major determinant of offline communication differences in terms of emotion, topic, and content disclosed. We decided to study whether such differences also occur online in context of Twitter when comparing tweets posted in an individualistic (U.S.) versus a collectivist (India) society. We collected more than 2 million tweets posted in the U.S. and India over a 3 month period which contain interpersonal relationship keywords. A card-sort study was used to develop this culturally-sensitive saturated taxonomy of keywords that represent interpersonal relationships (e.g., ma, mom, mother). Then we developed a high-accuracy interpersonal disclosure detector based on dependency-parsing (F1-score: 86%) to identify when the words refer to a personal relationship of the poster (e.g., "my mom" as opposed to "a mom"). This allowed us to identify the 400K+ tweets in our data set which actually disclose information about the poster's interpersonal relationships. We used a mixed methods approach to analyze these tweets (e.g., comparing the amount of joy expressed about one's family) and found differences in emotion, topic, and content disclosed between tweets from the U.S. versus India. Our analysis also reveals how a combination of qualitative and quantitative methods are needed to uncover these differences; Using just one or the other can be misleading. This study extends the prior literature on Multi-Party Privacy and provides guidance for researchers and designers of culturally-sensitive systems.
翻訳日:2023-09-28 17:57:36 公開日:2023-09-26
# VPA: フルテストタイムのビジュアルプロンプト適応

VPA: Fully Test-Time Visual Prompt Adaptation ( http://arxiv.org/abs/2309.15251v1 )

ライセンス: Link先を確認
Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao, Cristian Canton Ferrer, Caner Hazirbas(参考訳) テキストプロンプトチューニングは、手書きのプロンプトをトレーニング可能なパラメータとして扱うことにより、さまざまな下流タスクに自然言語処理モデルを適用することで、大幅なパフォーマンス向上を示す。 テキストプロンプトの成功に触発されたいくつかの研究は、視覚的プロンプトチューニングの有効性を調査した。 本稿では,テスト時間適応による視覚的プロンプトを一般化する最初のフレームワークであるVisual Prompt Adaptation (VPA)を紹介する。 VPAは少数の学習可能なトークンを導入し、ソースドメイン情報を必要とせずに完全なテスト時間とストレージ効率の適応を可能にする。 本稿では,VPA設計を,単一画像,バッチ画像,擬似ラベル適応を含む多様な適応条件下で検討する。 我々は、分散(ood)一般化、腐敗の堅牢性、ドメイン適応などを含む複数のタスクでvpaを評価する。 実験の結果、VPAはOODの一般化を様々なモデルで効果的に3.3%向上させ、従来のテストタイムのアプローチを上回った。 さらに, VPAは, 強いベースラインに比べて, 耐汚損性を6.5%向上させることを示した。 最後に、VPAはドメイン適応性能を比較的5.2%向上させることを示した。 VPAはまた、視覚言語モデルにおけるゼロショット認識の堅牢性向上に顕著な効果を示した。

Textual prompt tuning has demonstrated significant performance improvements in adapting natural language processing models to a variety of downstream tasks by treating hand-engineered prompts as trainable parameters. Inspired by the success of textual prompting, several studies have investigated the efficacy of visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA), the first framework that generalizes visual prompting with test-time adaptation. VPA introduces a small number of learnable tokens, enabling fully test-time and storage-efficient adaptation without necessitating source-domain information. We examine our VPA design under diverse adaptation settings, encompassing single-image, batched-image, and pseudo-label adaptation. We evaluate VPA on multiple tasks, including out-of-distribution (OOD) generalization, corruption robustness, and domain adaptation. Experimental results reveal that VPA effectively enhances OOD generalization by 3.3% across various models, surpassing previous test-time approaches. Furthermore, we show that VPA improves corruption robustness by 6.5% compared to strong baselines. Finally, we demonstrate that VPA also boosts domain adaptation performance by relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the robustness of zero-shot recognition for vision-language models.
翻訳日:2023-09-28 17:49:07 公開日:2023-09-26
# 非可換位相空間における非エルミート2次元調和振動子

Non-Hermitian two-dimensional harmonic oscillator in noncommutative phase-space ( http://arxiv.org/abs/2309.15247v1 )

ライセンス: Link先を確認
Emanonfi Elias N'Dolo(参考訳) 本稿では,非可換位相空間(NCPS)における[Andreas Fring et al J. Phys. A 43, 345401 (2010)]の結果を拡張する。 NCPSにおける調和振動子の非エルミートハミルトニアンを計算する。 非可換位相空間において新しいP T対称性を構築し、この系が壊れたP T-レジームを持たないことを証明する。 次に、システムの非エルミートハミルトニアンの固有値スペクトルを計算する。

In this paper, we extend the result of [Andreas Fring et al J. Phys. A 43, 345401 (2010)] in noncommutative phase-space (NCPS). We compute the non-Hermitian Hamiltonian of a harmonic oscillator in NCPS. We construct a new P T-symmetry in noncommutative phase-space and prove that the system does not possess a broken P T-regime. We then compute the eigenvalue spectrum of the non-Hermitian Hamiltonian of the system.
翻訳日:2023-09-28 17:48:46 公開日:2023-09-26
# SeMAnD:マルチモーダル地理空間データセットにおける自己監視型異常検出

SeMAnD: Self-Supervised Anomaly Detection in Multimodal Geospatial Datasets ( http://arxiv.org/abs/2309.15245v1 )

ライセンス: Link先を確認
Daria Reshetova and Swetava Ganguli and C. V. Krishnakumar Iyer and Vipul Pandey(参考訳) マルチモーダル地理空間データセットにおける幾何学的異常を検出するために,SeMAnDと呼ばれる自己教師付き異常検出手法を提案する。 地理空間データには、意味的に意味のある画像のようなテンソルに変換し、多モードデータの表現、アライメント、融合の課題に対処する異種データモダリティが取得され、導出される。 SeMAnD は i)randpolyaugmentという,ベクトルジオメトリの多様な拡張を生成可能な単純なデータ拡張戦略 (二)一方のモダリティの局所的な変化を判別し、他方のモダリティに裏付けられない多様データの学習表現をインセンティブとする3つの要素からなる自己教師付き訓練目標 局所的な欠陥の検出は、小さな異常(例えば、道路、建物、土地被覆などのような多角形ベクトルジオメトリーの移動、不正接続、または欠落)でさえ、マッピング、ルーティング、検索、レコメンデーションシステムのような地理空間的アプリケーションのユーザの経験と安全性に有害である地理空間的異常の検出に不可欠である。 3つの地理的領域にわたる実世界の幾何学的地理空間異常の試験セットに関する実証的研究は、SeMAnDが実世界の欠陥を検出し、異常分類AUCを用いて測定したドメインに依存しない異常検出戦略を4.8-19.7%上回っていることを示す。 モデルのパフォーマンスも向上しています (i)入力モダリティ数の増加に伴い、最大20.4% (ii)訓練データ増強の多様性と強度が増すにつれて22.9%まで上昇する。

We propose a Self-supervised Anomaly Detection technique, called SeMAnD, to detect geometric anomalies in Multimodal geospatial datasets. Geospatial data comprises of acquired and derived heterogeneous data modalities that we transform to semantically meaningful, image-like tensors to address the challenges of representation, alignment, and fusion of multimodal data. SeMAnD is comprised of (i) a simple data augmentation strategy, called RandPolyAugment, capable of generating diverse augmentations of vector geometries, and (ii) a self-supervised training objective with three components that incentivize learning representations of multimodal data that are discriminative to local changes in one modality which are not corroborated by the other modalities. Detecting local defects is crucial for geospatial anomaly detection where even small anomalies (e.g., shifted, incorrectly connected, malformed, or missing polygonal vector geometries like roads, buildings, landcover, etc.) are detrimental to the experience and safety of users of geospatial applications like mapping, routing, search, and recommendation systems. Our empirical study on test sets of different types of real-world geometric geospatial anomalies across 3 diverse geographical regions demonstrates that SeMAnD is able to detect real-world defects and outperforms domain-agnostic anomaly detection strategies by 4.8-19.7% as measured using anomaly classification AUC. We also show that model performance increases (i) up to 20.4% as the number of input modalities increase and (ii) up to 22.9% as the diversity and strength of training data augmentations increase.
翻訳日:2023-09-28 17:48:36 公開日:2023-09-26
# 無限幅2層ReLUニューラルネットワークのためのホモトピー緩和訓練アルゴリズム

Homotopy Relaxation Training Algorithms for Infinite-Width Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2309.15244v1 )

ライセンス: Link先を確認
Yahong Yang, Qipin Chen, Wenrui Hao(参考訳) 本稿では,従来手法とは対照的にトレーニングプロセスの高速化を目的とした,HRTA(Homotopy Relaxation Training Algorithm)と呼ばれる新しいトレーニング手法を提案する。 提案アルゴリズムは,線形活性化関数とReLU活性化関数をシームレスに結合するホモトピー活性化関数を構築することを含む。 我々は,ニューラル・タンジェント・カーネル(NTK)の文脈において,この手法の詳細な解析を行い,収束率を大幅に改善した。 実験の結果,特に幅の広いネットワークでは理論的な結論が得られた。 このHRTAは、他の活性化機能やディープニューラルネットワークの可能性を示す。

In this paper, we present a novel training approach called the Homotopy Relaxation Training Algorithm (HRTA), aimed at accelerating the training process in contrast to traditional methods. Our algorithm incorporates two key mechanisms: one involves building a homotopy activation function that seamlessly connects the linear activation function with the ReLU activation function; the other technique entails relaxing the homotopy parameter to enhance the training refinement process. We have conducted an in-depth analysis of this novel method within the context of the neural tangent kernel (NTK), revealing significantly improved convergence rates. Our experimental results, especially when considering networks with larger widths, validate the theoretical conclusions. This proposed HRTA exhibits the potential for other activation functions and deep neural networks.
翻訳日:2023-09-28 17:48:01 公開日:2023-09-26
# APIS:虚血性脳卒中セグメンテーションのためのCT-MRIデータセット

APIS: A paired CT-MRI dataset for ischemic stroke segmentation challenge ( http://arxiv.org/abs/2309.15243v1 )

ライセンス: Link先を確認
Santiago G\'omez, Daniel Mantilla, Gustavo Garz\'on, Edgar Rangel, Andr\'es Ortiz, Franklin Sierra-Jerez and Fabio Mart\'inez(参考訳) ストロークは世界で2番目に大きな死因である。 即時注意と診断は患者の予後に重要な役割を果たす。 診断の鍵は脳病変の局所化と脱線である。 標準的な脳卒中検査プロトコルには、出血と虚血を区別する非造影CTスキャンの初期評価が含まれる。 しかし、非コントラストctは急性期における微妙な虚血性変化を検出する感度に欠ける可能性がある。 その結果、相補的な拡散強調MRI研究が捉えられ、脳卒中病変の回復と定量化を可能にした。 この研究は、NCCTとADCによる急性虚血性脳卒中患者の最初のペアデータセットであるAPISを導入した。 第20回IEEE International Symposium on Biomedical Imaging 2023で、APISは課題として提示され、研究者はペア化されたデータを活用し、CTシークエンス上の病変のセグメンテーションを扱う新しい計算戦略を提案するよう依頼された。 すべてのチームが専門的なディープラーニングツールを使用しているにも関わらず、NCCTの虚血性脳卒中セグメンテーションタスクは依然として困難である。 注釈付きデータセットは登録後も一般に公開されており、NCCTの脳卒中の特徴に対処するよう科学コミュニティに呼びかけるが、ペア化されたDWI情報でガイドされる。

Stroke is the second leading cause of mortality worldwide. Immediate attention and diagnosis play a crucial role regarding patient prognosis. The key to diagnosis consists in localizing and delineating brain lesions. Standard stroke examination protocols include the initial evaluation from a non-contrast CT scan to discriminate between hemorrhage and ischemia. However, non-contrast CTs may lack sensitivity in detecting subtle ischemic changes in the acute phase. As a result, complementary diffusion-weighted MRI studies are captured to provide valuable insights, allowing to recover and quantify stroke lesions. This work introduced APIS, the first paired public dataset with NCCT and ADC studies of acute ischemic stroke patients. APIS was presented as a challenge at the 20th IEEE International Symposium on Biomedical Imaging 2023, where researchers were invited to propose new computational strategies that leverage paired data and deal with lesion segmentation over CT sequences. Despite all the teams employing specialized deep learning tools, the results suggest that the ischemic stroke segmentation task from NCCT remains challenging. The annotated dataset remains accessible to the public upon registration, inviting the scientific community to deal with stroke characterization from NCCT but guided with paired DWI information.
翻訳日:2023-09-28 17:47:48 公開日:2023-09-26
# PlotMap:ゲームワールド構築のためのレイアウト自動設計

PlotMap: Automated Layout Design for Building Game Worlds ( http://arxiv.org/abs/2309.15242v1 )

ライセンス: Link先を確認
Yi Wang, Jieliang Luo, Adam Gaier, Evan Atherton, Hilmar Koch(参考訳) ゲームの物語と物理的世界の両方を開発する過程であるワールドビルディングは、ゲーム体験において重要な役割を果たす。 批判的に賞賛されたインディペンデントゲームとaaaビデオゲームは強力なワールドビルディングで賞賛され、ゲームマップは物語とマスターに干渉し、高揚させ、プレイヤーを魅了し、永続的な印象を残している。 しかし、様々な考察から複雑な制約を満たす必要があるため、所望の物語をサポートするゲームマップの設計は困難である。 既存のマップ生成手法のほとんどはゲームプレイの仕組みやマップの地形について考慮するが、ストーリーをサポートする必要性は通常無視される。 結果として、特定のストーリーを促進するゲーム世界を設計するためには、広範な手動調整が必要である。 本研究では,世界構築パイプラインにおけるマップ生成手法に依存しないプロット配置設計の余分なレイヤを導入することで,この問題に対処する。 具体的には、Reinforcement Learning(RL)を利用して、ゲームマップ上の具体的位置を、与えられたストーリー(プロット施設)に言及された抽象的な場所に自動的に割り当てるシステムを提案する。 意思決定エージェントは、地図と互いとの関係を考慮して、ストーリーの制約を最も満たした地図上の場所へプロット設備を移動させる。 本システムでは,画像をピクセルとして,施設位置を実際の値として,ストーリ制約を自然言語で表現した複数のモダリティから入力する。 施設配置タスクのデータセットを作成し、RLモデルを訓練し評価するためのRL環境を作成し、さらに総合的な実験とアブレーション研究グループを通じてエージェントの挙動を分析し、RLに基づくプロット配置設計の洞察を提供することを目的としている。

World-building, the process of developing both the narrative and physical world of a game, plays a vital role in the game's experience. Critically acclaimed independent and AAA video games are praised for strong world building, with game maps that masterfully intertwine with and elevate the narrative, captivating players and leaving a lasting impression. However, designing game maps that support a desired narrative is challenging, as it requires satisfying complex constraints from various considerations. Most existing map generation methods focus on considerations about gameplay mechanics or map topography, while the need to support the story is typically neglected. As a result, extensive manual adjustment is still required to design a game world that facilitates particular stories. In this work, we approach this problem by introducing an extra layer of plot facility layout design that is independent of the underlying map generation method in a world-building pipeline. Concretely, we present a system that leverages Reinforcement Learning (RL) to automatically assign concrete locations on a game map to abstract locations mentioned in a given story (plot facilities), following spatial constraints derived from the story. A decision-making agent moves the plot facilities around, considering their relationship to the map and each other, to locations on the map that best satisfy the constraints of the story. Our system considers input from multiple modalities: map images as pixels, facility locations as real values, and story constraints expressed in natural language. We develop a method of generating datasets of facility layout tasks, create an RL environment to train and evaluate RL models, and further analyze the behaviors of the agents through a group of comprehensive experiments and ablation studies, aiming to provide insights for RL-based plot facility layout design.
翻訳日:2023-09-28 17:47:27 公開日:2023-09-26
# テキスト・画像拡散モデルによる原始情報生成による学習

Learning Using Generated Privileged Information by Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.15238v1 )

ライセンス: Link先を確認
Rafael-Edy Menadil, Mariana-Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 特権情報を用いた学習(英語: Learning Using Privileged Information)とは、教師モデルが、特権情報と呼ばれる訓練中に追加のデータ表現から恩恵を受ける、特定の種類の知識蒸留である。 しかし、実際には特権情報はほとんど入手できない。 そこで本研究では,テキスト間拡散モデルを用いて人工的な特権情報を生成するテキスト分類フレームワークを提案する。 生成した画像と元のテキストサンプルは、最先端のトランスフォーマーアーキテクチャに基づくマルチモーダル教師モデルのトレーニングにさらに使用される。 最後に、マルチモーダル教師の知識をテキストベースの(単調な)学生に蒸留する。 したがって, 生成モデルを用いて合成データを特権情報として生成することにより, 学習者のモデルの学習を指導する。 我々のフレームワークはLearning Using Generated Privileged Information (LUGPI)と呼ばれ、4つのテキスト分類データセットに対して顕著な性能向上をもたらし、推論中に追加のコストを伴わずにその可能性を示す。

Learning Using Privileged Information is a particular type of knowledge distillation where the teacher model benefits from an additional data representation during training, called privileged information, improving the student model, which does not see the extra representation. However, privileged information is rarely available in practice. To this end, we propose a text classification framework that harnesses text-to-image diffusion models to generate artificial privileged information. The generated images and the original text samples are further used to train multimodal teacher models based on state-of-the-art transformer-based architectures. Finally, the knowledge from multimodal teachers is distilled into a text-based (unimodal) student. Hence, by employing a generative model to produce synthetic data as privileged information, we guide the training of the student model. Our framework, called Learning Using Generated Privileged Information (LUGPI), yields noticeable performance gains on four text classification data sets, demonstrating its potential in text classification without any additional cost during inference.
翻訳日:2023-09-28 17:46:53 公開日:2023-09-26
# ユーザエクスペリエンス設計専門家による生成人工知能の認識

User Experience Design Professionals' Perceptions of Generative Artificial Intelligence ( http://arxiv.org/abs/2309.15237v1 )

ライセンス: Link先を確認
Jie Li, Hancheng Cao, Laura Lin, Youyang Hou, Ruihao Zhu, Abdallah El Ali(参考訳) クリエイティブなプロフェッショナルの中で、Generative Artificial Intelligence(GenAI)はその能力と予期せぬ結果に対する恐怖に対して興奮を呼んだ。 GenAIはユーザエクスペリエンスデザイン(UXD)の実践にどのように影響しますか。 さまざまな経験を持つ20人のuxデザイナ(スタートアップから大企業まで)にインタビューした。 彼らのプラクティスを特徴付けるために調査を行い、態度や懸念、期待をサンプリングしました。 経験豊富なデザイナーは、その独創性、創造性、共感的なスキルに自信を持ち、GenAIの役割を補助的と捉えている。 彼らは、人間が「AIアライメント」のアービターのままである「喜び」と「緊急」のユニークな人間の要素を強調した。 しかし、スキル劣化、雇用の代替、クリエイティビティの枯渇はジュニアデザイナーに悪影響を及ぼす可能性がある。 我々は、人間-GenAIコラボレーション、特に著作権と所有権、人間の創造性とエージェンシー、AIリテラシーとアクセスの意味について論じる。 我々は、責任と参加型AIのレンズを通して、GenAIの恐怖とUXDの機会をより深く理解する。

Among creative professionals, Generative Artificial Intelligence (GenAI) has sparked excitement over its capabilities and fear over unanticipated consequences. How does GenAI impact User Experience Design (UXD) practice, and are fears warranted? We interviewed 20 UX Designers, with diverse experience and across companies (startups to large enterprises). We probed them to characterize their practices, and sample their attitudes, concerns, and expectations. We found that experienced designers are confident in their originality, creativity, and empathic skills, and find GenAI's role as assistive. They emphasized the unique human factors of "enjoyment" and "agency", where humans remain the arbiters of "AI alignment". However, skill degradation, job replacement, and creativity exhaustion can adversely impact junior designers. We discuss implications for human-GenAI collaboration, specifically copyright and ownership, human creativity and agency, and AI literacy and access. Through the lens of responsible and participatory AI, we contribute a deeper understanding of GenAI fears and opportunities for UXD.
翻訳日:2023-09-28 17:46:34 公開日:2023-09-26
# 原子散乱長の確率分布

Probability distributions of atomic scattering lengths ( http://arxiv.org/abs/2309.15236v1 )

ライセンス: Link先を確認
John L. Bohn and Reuben R. W. Wang(参考訳) 原子散乱長の実際の部分と想像上の部分の確率分布は、非弾性散乱を許容する2チャネルモデルによって導出される。 a$の本当の部分はコーシー分布のままであるが、Gribakin と Flambaum の古典的な作品において単一のチャネル散乱が予測されるように、$a$ の想像上の部分は 0 近くで強くピークに達する。 したがって、2体非弾性散乱速度は、単純推定よりも一般に小さくなる可能性がある。

The probability distribution of the real and imaginary parts of atomic scattering lengths $a$ are derived, in a two-channel model that allows for inelastic scattering to occur. While the real part of $a$ remains Cauchy-distributed, as predicted for single channel scattering in the classic work of Gribakin and Flambaum, the imaginary part of $a$ is seen to be strongly peaked near zero. Two-body inelastic scattering rates may therefore be smaller in general than a naive estimate would suggest.
翻訳日:2023-09-28 17:46:19 公開日:2023-09-26
# チップ上の高効率で純粋な数光子源

A Highly Efficient and Pure Few-Photon Source on Chip ( http://arxiv.org/abs/2309.15233v1 )

ライセンス: Link先を確認
Zhaohui Ma, Jia-Yang Chen, Malvika Garikapati, Zhan Li, Chao Tang, Yong Meng Sua, and Yu-Ping Huang(参考訳) 薄膜ニオブ酸リチウム上の周期偏極マイクロリング共振器で発生する相関双晶の多光子統計について報告する。 高空洞閉じ込めとほぼ完全な準位相マッチングにより、光子対は1つのモードで27MHz/$\mu$Wのポンプパワーで効率よく生成される。 パルス幅インピーダンスがキャビティと一致するポンプレーザーを用いることで、これらの光子は、後続のフィルタリングに頼ることなく、純度99\%に達する単一長手モードでさらに生成される。 二重チャネル光子数分解検出システムにより, 複数光子状態の結合検出確率を最大3光子まで直接的に求めることができ, それぞれに偶然のコントラストが生じる。 単一の光子源として使用され、チップ上では1光子レート650kHzで、約0.04ドル(約1,400円)の約$g_H^{(2)}(0)が与えられる。 この研究の結果は、このナノフォトニックプラットフォームが、量子光学の基礎研究や情報応用において、理想的な識別不可能な非古典的で少数の光子状態を生成するための有望なプラットフォームとしての可能性を強調している。

We report on multi-photon statistics of correlated twin beams produced in a periodic poled micro-ring resonator on thin-film lithium niobate. Owing to high cavity confinement and near perfect quasi-phase matching, the photons pairs are produced efficiently in single modes at rates reaching 27 MHz per $\mu$W pump power. By using a pump laser whose pulse width impedance matches with the cavity, those photons are further created in single longitudinal modes with purity reaching 99\%, without relying on later-on filtering. With a dual-channel photon-number resolving detection system, we obtain directly the joint detection probabilities of multi-photon states up to three photons, with high coincidence to accidental contrast for each. Used as a single photon source, it gives heralded $g_H^{(2)}(0)$ around 0.04 at a single photon rate of 650 kHz on chip. The findings of our research highlight the potential of this nanophotonic platform as a promising platform for generating non-classical, few-photon states with ideal indistinguishability, for fundamental quantum optics studies and information applications.
翻訳日:2023-09-28 17:46:09 公開日:2023-09-26
# 分類のためのトポロジカル機械学習パイプライン

A Topological Machine Learning Pipeline for Classification ( http://arxiv.org/abs/2309.15276v1 )

ライセンス: Link先を確認
Francesco Conti, Davide Moroni and Maria Antonietta Pascali(参考訳) 本研究では,データ型に対する最も適切なフィルタリングを通じて,永続化図をデジタルデータに関連付けるパイプラインを開発した。 このパイプラインはグリッド探索手法を用いて最適な表現方法とパラメータを決定する。 機械学習のためのこのようなトポロジカルパイプラインの開発には、そのパフォーマンスに強い影響を与える2つの重要なステップが含まれている: まず、デジタルデータは、トポロジカルな要約である永続化ダイアグラムを計算するために、適切な関連する濾過を伴う代数的オブジェクトとして表現されなければならない。 次に、永続化ダイアグラムは機械学習アルゴリズムに導入するために適切な表現方法で変換されなければならない。 パイプラインの性能を評価し、並行して、人気のあるベンチマークデータセットの異なる表現方法を比較します。 この作業は、永続的ホモロジーと機械学習を使ったデータ分類のための簡単かつ使いやすいパイプラインと、実行すべきデータセットとタスクが与えられた場合、ペア(フィルタ、トポロジ表現)が他のものよりも優れている理由を理解するための第一歩である。

In this work, we develop a pipeline that associates Persistence Diagrams to digital data via the most appropriate filtration for the type of data considered. Using a grid search approach, this pipeline determines optimal representation methods and parameters. The development of such a topological pipeline for Machine Learning involves two crucial steps that strongly affect its performance: firstly, digital data must be represented as an algebraic object with a proper associated filtration in order to compute its topological summary, the Persistence Diagram. Secondly, the persistence diagram must be transformed with suitable representation methods in order to be introduced in a Machine Learning algorithm. We assess the performance of our pipeline, and in parallel, we compare the different representation methods on popular benchmark datasets. This work is a first step toward both an easy and ready-to-use pipeline for data classification using persistent homology and Machine Learning, and to understand the theoretical reasons why, given a dataset and a task to be performed, a pair (filtration, topological representation) is better than another.
翻訳日:2023-09-28 17:40:15 公開日:2023-09-26
# 視覚変圧器適応のための効率的低ランクバックプロパゲーション

Efficient Low-rank Backpropagation for Vision Transformer Adaptation ( http://arxiv.org/abs/2309.15275v1 )

ライセンス: Link先を確認
Yuedong Yang, Hung-Yueh Chiang, Guihong Li, Diana Marculescu, Radu Marculescu(参考訳) 視覚変換器(ViT)の規模が増大するにつれて、これらの大きなモデルの特定のニーズに対する効率的な微調整が様々なアプリケーションにおいて大きな課題となっている。 この問題は、ViTの線形層を通したバックプロパゲーションプロセスで必要となる計算的に要求される行列乗法に由来する。 本稿では,Walsh-Hadamard Transformation (LBP-WHT) 法を用いた新しい低ランクバックプロパゲーションを提案する。 直感的には、lpp-whtは勾配を低ランク空間に投影し、バックプロパゲーションを行う。 このアプローチは、低ランク空間における行列乗算がリソース集約的でないため、ViTの適応に必要な計算を大幅に削減する。 複数のデータセット上で異なるモデル(ViT、ハイブリッド畳み込み-ViTモデル)を用いて広範な実験を行い、本手法の有効性を実証する。 例えば、CIFAR100上でEfficientFormer-L1モデルを適用する場合、当社のLBP-WHTは、最先端のベースラインよりも10.4%高い精度を達成できます。 低ランクバックプロパゲーションによるViT適応を高速化する最初の試みとして, LBP-WHT法は従来の多くの取り組みと相補的であり, 性能向上のために組み合わせることができる。

The increasing scale of vision transformers (ViT) has made the efficient fine-tuning of these large models for specific needs a significant challenge in various applications. This issue originates from the computationally demanding matrix multiplications required during the backpropagation process through linear layers in ViT. In this paper, we tackle this problem by proposing a new Low-rank BackPropagation via Walsh-Hadamard Transformation (LBP-WHT) method. Intuitively, LBP-WHT projects the gradient into a low-rank space and carries out backpropagation. This approach substantially reduces the computation needed for adapting ViT, as matrix multiplication in the low-rank space is far less resource-intensive. We conduct extensive experiments with different models (ViT, hybrid convolution-ViT model) on multiple datasets to demonstrate the effectiveness of our method. For instance, when adapting an EfficientFormer-L1 model on CIFAR100, our LBP-WHT achieves 10.4% higher accuracy than the state-of-the-art baseline, while requiring 9 MFLOPs less computation. As the first work to accelerate ViT adaptation with low-rank backpropagation, our LBP-WHT method is complementary to many prior efforts and can be combined with them for better performance.
翻訳日:2023-09-28 17:39:57 公開日:2023-09-26
# 長期ビデオのためのメモリ効率の良い連続学習オブジェクトセグメンテーション

Memory-Efficient Continual Learning Object Segmentation for Long Video ( http://arxiv.org/abs/2309.15274v1 )

ライセンス: Link先を確認
Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth(参考訳) 近年の最先端の半教師付きビデオオブジェクトセグメンテーション (VOS) 法では, 先行フレームからの情報が現在のフレームのセグメンテーションに使用される場合, 対象オブジェクトセグメンテーション精度が大幅に向上している。 特に、そのようなメモリベースのアプローチは、モデルが外観変化(表現フロート)や閉塞をより効果的に扱うのに役立つ。 理想的には、最大パフォーマンスを得るためには、オンラインのVOSメソッドは、前のフレーム(または抽出された情報)の全てまたはほとんどをメモリに格納し、連続したフレームでオンライン学習に使用する必要がある。 長いビデオでは、必要なメモリサイズが制限なく大きくなるため、このような解決策は実現できない。 一方、これらの手法は、メモリが制限され、対象オブジェクトがビデオを通して繰り返し表現ドリフトを経験するときに失敗する可能性がある。 本稿では,長いビデオのモデリング精度と一般化を改善しつつ,オンラインVOS手法のメモリ要求を低減させる2つの新しい手法を提案する。 本稿では,事前学習した知識を保存するための連続学習技術の成功に感銘を受けて,限られたメモリを対象とするオンラインVOSの性能を向上させるGated-Regularizer Continual Learning (GRCL) と,記憶に格納された情報から効率よく得られるオンラインVOS手法を活用するRestruction-based Memory Selection Continual Learning (RMSCL) を提案する。 実験結果から,提案手法はオンラインVOSモデルの性能を最大10%向上させ,長ビデオデータセットのロバスト性を向上するとともに,短ビデオデータセットのDAVIS16とDAVIS17に匹敵する性能を維持した。

Recent state-of-the-art semi-supervised Video Object Segmentation (VOS) methods have shown significant improvements in target object segmentation accuracy when information from preceding frames is used in undertaking segmentation on the current frame. In particular, such memory-based approaches can help a model to more effectively handle appearance changes (representation drift) or occlusions. Ideally, for maximum performance, online VOS methods would need all or most of the preceding frames (or their extracted information) to be stored in memory and be used for online learning in consecutive frames. Such a solution is not feasible for long videos, as the required memory size would grow without bound. On the other hand, these methods can fail when memory is limited and a target object experiences repeated representation drifts throughout a video. We propose two novel techniques to reduce the memory requirement of online VOS methods while improving modeling accuracy and generalization on long videos. Motivated by the success of continual learning techniques in preserving previously-learned knowledge, here we propose Gated-Regularizer Continual Learning (GRCL), which improves the performance of any online VOS subject to limited memory, and a Reconstruction-based Memory Selection Continual Learning (RMSCL) which empowers online VOS methods to efficiently benefit from stored information in memory. Experimental results show that the proposed methods improve the performance of online VOS models up to 10 %, and boosts their robustness on long-video datasets while maintaining comparable performance on short-video datasets DAVIS16 and DAVIS17.
翻訳日:2023-09-28 17:39:33 公開日:2023-09-26
# DECO:野生の人間の3D接触の密度推定

DECO: Dense Estimation of 3D Human-Scene Contact In The Wild ( http://arxiv.org/abs/2309.15273v1 )

ライセンス: Link先を確認
Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black(参考訳) 人間が物理的接触を使って世界と対話する方法を理解することが、人間中心の人工知能を実現する鍵となる。 3d接触を推測することは、現実的で物理的に目立たない人間と物体の相互作用をモデル化するのに不可欠であるが、既存の方法は2dにフォーカスするか、表面ではなく身体関節を考えるか、粗い3dボディ領域を使うか、野生のイメージに一般化しないかのどちらかである。 対照的に、物体と体表面の密接な3次元接触を任意の画像で推定することに焦点を当てる。 そこで我々はまず,複雑な人間オブジェクトと人間シーンの接触を含むRGB画像と組み合わせた高密度頂点レベルの接触アノテーションを含む新しいデータセットDAMONを収集した。 次に,ボディパート駆動とシーンコンテキスト駆動の両方の注意を駆使して,smplボディの頂点レベル接触を推定する,新しい3次元接触検出器decoをトレーニングする。 DECOは、人間の観察者が接触する身体部分、シーンオブジェクトへの近接、周囲のシーンコンテキストについて推論することで、接触を認識するという知見に基づいている。 我々は,DAMONとRICHおよびBEHAVEデータセット上で,検出器の広範囲な評価を行う。 すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。 また、DECが自然画像における多様で挑戦的な現実世界の人間との相互作用を一般化することを示す。 コード、データ、モデルはhttps://deco.is.tue.mpg.deで入手できる。

Understanding how humans use physical contact to interact with the world is key to enabling human-centric artificial intelligence. While inferring 3D contact is crucial for modeling realistic and physically-plausible human-object interactions, existing methods either focus on 2D, consider body joints rather than the surface, use coarse 3D body regions, or do not generalize to in-the-wild images. In contrast, we focus on inferring dense, 3D contact between the full body surface and objects in arbitrary images. To achieve this, we first collect DAMON, a new dataset containing dense vertex-level contact annotations paired with RGB images containing complex human-object and human-scene contact. Second, we train DECO, a novel 3D contact detector that uses both body-part-driven and scene-context-driven attention to estimate vertex-level contact on the SMPL body. DECO builds on the insight that human observers recognize contact by reasoning about the contacting body parts, their proximity to scene objects, and the surrounding scene context. We perform extensive evaluations of our detector on DAMON as well as on the RICH and BEHAVE datasets. We significantly outperform existing SOTA methods across all benchmarks. We also show qualitatively that DECO generalizes well to diverse and challenging real-world human interactions in natural images. The code, data, and models are available at https://deco.is.tue.mpg.de.
翻訳日:2023-09-28 17:39:02 公開日:2023-09-26
# ObVi-SLAM: 長期的なオブジェクト指向SLAM

ObVi-SLAM: Long-Term Object-Visual SLAM ( http://arxiv.org/abs/2309.15268v1 )

ライセンス: Link先を確認
Amanda Adkins, Taijing Chen, Joydeep Biswas(参考訳) 長時間の作業に責任を持つロボットは、幾何学的、視点的、外観的変化の中で一貫してスカラー化できなければならない。 既存のvisual slamのアプローチは、このような環境変化に対して堅牢でない低レベルの機能記述子に依存しており、長期的にはスケールしない大きなマップサイズになる。 対照的に、オブジェクト検出は環境変動に対して堅牢であり、よりコンパクトな表現をもたらすが、ほとんどのオブジェクトベースのSLAMシステムは、クローゼットオブジェクトによる短期的な屋内配置をターゲットとしている。 本稿では,両手法のベストを活かし,これらの課題を克服するためにobvi-slamを提案する。 ObVi-SLAMは、高品質な短期視覚計測のために低レベルの視覚的特徴を使用し、グローバルで長期的な一貫性を確保するために、永続オブジェクトの不確実性を認識した長期マップを構築し、デプロイ毎に更新する。 気象条件や照明条件の異なる16回の配備セッションのデータに基づいてObVi-SLAMを評価することにより,ObVi-SLAMは外観条件が異なるにもかかわらず,長時間のスケールで正確な位置推定値を生成することを実証的に示す。

Robots responsible for tasks over long time scales must be able to localize consistently and scalably amid geometric, viewpoint, and appearance changes. Existing visual SLAM approaches rely on low-level feature descriptors that are not robust to such environmental changes and result in large map sizes that scale poorly over long-term deployments. In contrast, object detections are robust to environmental variations and lead to more compact representations, but most object-based SLAM systems target short-term indoor deployments with close objects. In this paper, we introduce ObVi-SLAM to overcome these challenges by leveraging the best of both approaches. ObVi-SLAM uses low-level visual features for high-quality short-term visual odometry; and to ensure global, long-term consistency, ObVi-SLAM builds an uncertainty-aware long-term map of persistent objects and updates it after every deployment. By evaluating ObVi-SLAM on data from 16 deployment sessions spanning different weather and lighting conditions, we empirically show that ObVi-SLAM generates accurate localization estimates consistent over long-time scales in spite of varying appearance conditions.
翻訳日:2023-09-28 17:38:35 公開日:2023-09-26
# 二次元ウィグナーフラグメントにおける六方晶格子の出現

The emergence of the hexagonal lattice in two-dimensional Wigner fragments ( http://arxiv.org/abs/2309.15260v1 )

ライセンス: Link先を確認
Miguel Escobar Azor and Amer Alrakik and Louan de Bentzmann and Xabier Telleria-Allika and Alfredo S\'anchez de Mer\'as and Stefano Evangelisti and J. Arjan Berger(参考訳) 非常に低い密度で、一様電子ガス中の電子は自発的に対称性を破り、結晶格子[1]を形成する。 この結晶は1934年にeugene wignerによって初めて予測され、wigner crystals [2]と呼ばれる。 しかし、電子が形成される結晶の種類は? ここでは、ウィグナー結晶の破片の密度分布を第一原理、すなわち経験的データや調整可能なパラメータなしで数値的に研究する。 ウィグナーフラグメントをシミュレートするために、クリフォード周期境界条件とクーロンポテンシャル [3,4] における再正規化距離を用いる。 これらの境界条件と高スピン制限された開殻ハートリー・フォック理論は、多くの電子を持つ系のウィグナー局所化を正確に捉えることができる。 電子が局在する位置については何も仮定していない。 系の総エネルギーを最小にすると、得られる密度プロファイルが自然に現れる。 アプローチでは、最大20個の電子を持つ2次元ウィグナー断片を研究する。 2次元ウィグナー結晶の基底状態構造であると予測された六角形結晶構造の出現を明瞭に観察した。

At very low density, the electrons in a uniform electron gas spontaneously break symmetry and form a crystalline lattice [1]. This type of crystal was first predicted in 1934 by Eugene Wigner and they are thus called Wigner crystals [2]. But which type of crystal will the electrons form? Here we report a numerical study of the density profiles of fragments of Wigner crystals from first principles, i.e., without any empirical data or adjustable parameters. To simulate the Wigner fragments we use Clifford periodic boundary conditions and a renormalized distance in the Coulomb potential [3,4]. We show that these boundary conditions together with high-spin restricted open-shell Hartree-Fock theory provide a method that can accurately capture the Wigner localisation for systems with many electrons. We do not make any assumptions about the positions where the electrons will localise. The density profiles we obtain emerge naturally when we minimise the total energy of the system. With our approach we study two-dimensional Wigner fragments with up to 20 electrons. We clearly observe the emergence of the hexagonal crystal structure which has been predicted to be ground-state structure of the two-dimensional Wigner crystal.
翻訳日:2023-09-28 17:38:12 公開日:2023-09-26
# sliq: 雑音量子コンピュータ上の量子画像類似性ネットワーク

SLIQ: Quantum Image Similarity Networks on Noisy Quantum Computers ( http://arxiv.org/abs/2309.15259v1 )

ライセンス: Link先を確認
Daniel Silver, Tirthak Patel, Aditya Ranjan, Harshitta Gandhi, William Cutler, Devesh Tiwari(参考訳) 量子機械学習の研究は、量子コンピュータが古典的プログラムをスピードアップする能力によって、近年大きく成長している。 しかし、これらの取り組みは量子コンピュータ上で動くように移植することの難しさから、教師なしの類似性検出タスクをまだ解決していない。 この課題を克服するために,資源効率の高い量子類似性検出ネットワークのための最初のオープンソースの研究であるSLIQを提案する。

Exploration into quantum machine learning has grown tremendously in recent years due to the ability of quantum computers to speed up classical programs. However, these efforts have yet to solve unsupervised similarity detection tasks due to the challenge of porting them to run on quantum computers. To overcome this challenge, we propose SLIQ, the first open-sourced work for resource-efficient quantum similarity detection networks, built with practical and effective quantum learning and variance-reducing algorithms.
翻訳日:2023-09-28 17:37:53 公開日:2023-09-26
# STARC: 逆関数の違いを定量化するための一般的なフレームワーク

STARC: A General Framework For Quantifying Differences Between Reward Functions ( http://arxiv.org/abs/2309.15257v1 )

ライセンス: Link先を確認
Joar Skalse, Lucy Farnik, Sumeet Ramesh Motwani, Erik Jenner, Adam Gleave, Alessandro Abate(参考訳) 強化学習を用いて課題を解決するためには,まずその課題の目標を報奨関数として定式化する必要がある。 しかし、多くの実世界のタスクでは、望ましくない振る舞いをインセンティブにしない報酬関数を手動で指定することは極めて困難である。 その結果,データから報酬関数を学習しようとする報奨学習アルゴリズムが普及している。 しかし、報酬学習の理論的基礎はまだ十分に発達していない。 特に、高い確率で与えられた報酬学習アルゴリズムが、最適化するのに安全な報酬関数をいつ学習するかは知られていない。 これは、報酬学習アルゴリズムは一般的に経験的に評価されなければならず、これは高価であり、その失敗モードは事前に予測することが困難であることを意味する。 より理論的な保証を導き出すための障害の1つは、報酬関数間の差を定量化する良い方法がないことである。 本稿では,我々がstarc(standardized reward comparison)メトリックと呼ぶすべての報酬関数の空間上の擬メトリックのクラスという形で,この問題に対する解決策を提案する。 以上の結果から,STARCの指標は最悪の場合の後悔に対して上界と下界の両方を誘導し,我々の指標は厳密であり,同じ性質を持つ指標は我々のものと同等でなければならないことを示唆する。 さらに,先行研究によって提案された報奨指標を用いて,課題を多数特定した。 最後に,実効性を示すために,指標を実証的に評価する。 STARCメトリクスは、報酬学習アルゴリズムの理論的および実証的な解析を簡単かつより原理的に行うために使用できる。

In order to solve a task using reinforcement learning, it is necessary to first formalise the goal of that task as a reward function. However, for many real-world tasks, it is very difficult to manually specify a reward function that never incentivises undesirable behaviour. As a result, it is increasingly popular to use reward learning algorithms, which attempt to learn a reward function from data. However, the theoretical foundations of reward learning are not yet well-developed. In particular, it is typically not known when a given reward learning algorithm with high probability will learn a reward function that is safe to optimise. This means that reward learning algorithms generally must be evaluated empirically, which is expensive, and that their failure modes are difficult to predict in advance. One of the roadblocks to deriving better theoretical guarantees is the lack of good methods for quantifying the difference between reward functions. In this paper we provide a solution to this problem, in the form of a class of pseudometrics on the space of all reward functions that we call STARC (STAndardised Reward Comparison) metrics. We show that STARC metrics induce both an upper and a lower bound on worst-case regret, which implies that our metrics are tight, and that any metric with the same properties must be bilipschitz equivalent to ours. Moreover, we also identify a number of issues with reward metrics proposed by earlier works. Finally, we evaluate our metrics empirically, to demonstrate their practical efficacy. STARC metrics can be used to make both theoretical and empirical analysis of reward learning algorithms both easier and more principled.
翻訳日:2023-09-28 17:37:43 公開日:2023-09-26
# 機械学習と線形プログラミングを用いた日常ファンタシーフットボールの最適ラインアップ生成法と検証

Method and Validation for Optimal Lineup Creation for Daily Fantasy Football Using Machine Learning and Linear Programming ( http://arxiv.org/abs/2309.15253v1 )

ライセンス: Link先を確認
Joseph M, Mahoney, Tomasz B. Paniak(参考訳) デイリーファンタジースポーツ(英: Daily fantasy Sports、DFS)は、個人選手の実際のパフォーマンスをファンタジーポイント(FPTS)に変換するオンラインコンテストである。 ユーザーはラインアップのプレイヤーを選択して、設定されたプレイヤーの給与上限内でFPTSを最大化する。 本稿では,(1)不確実性の下でNFL選手のパフォーマンスを予測する手法の開発,(2)所定の給与制限下でFPTSを最大化するための最適ラインアップを決定することに焦点を当てる。 教師付き学習ニューラルネットワークが作成され、来週より前に過去のプレーヤーのパフォーマンス(2018 NFLのレギュラーシーズン)に基づいてFPTSを投影するために使用された。 これらの投影されたFPTSは、最適ラインアップを見つけるために混合整数線形プログラムで使用された。 結果のラインアップの性能をランダムに作成したラインアップと比較した。 平均すると、最適ラインアップはランダムラインアップよりも優れていた。 生成されたラインアップは、DraftKingsのユーザーによる現実世界のラインアップと比較された。 生成したラインアップは一般的に31パーセント(中間)に低下した。 本研究をベースライン比較として, FPTS法と予測法をさらに改良することができる。

Daily fantasy sports (DFS) are weekly or daily online contests where real-game performances of individual players are converted to fantasy points (FPTS). Users select players for their lineup to maximize their FPTS within a set player salary cap. This paper focuses on (1) the development of a method to forecast NFL player performance under uncertainty and (2) determining an optimal lineup to maximize FPTS under a set salary limit. A supervised learning neural network was created and used to project FPTS based on past player performance (2018 NFL regular season for this work) prior to the upcoming week. These projected FPTS were used in a mixed integer linear program to find the optimal lineup. The performance of resultant lineups was compared to randomly-created lineups. On average, the optimal lineups outperformed the random lineups. The generated lineups were then compared to real-world lineups from users on DraftKings. The generated lineups generally fell in approximately the 31st percentile (median). The FPTS methods and predictions presented here can be further improved using this study as a baseline comparison.
翻訳日:2023-09-28 17:37:19 公開日:2023-09-26
# V2Xリード:車間通信統合によるLiDARによるエンドツーエンド自動運転

V2X-Lead: LiDAR-based End-to-End Autonomous Driving with Vehicle-to-Everything Communication Integration ( http://arxiv.org/abs/2309.15252v1 )

ライセンス: Link先を確認
Zhiyun Deng, Yanjun Shi, Weiming Shen(参考訳) 本稿では,V2X-Lead(V2X-Lead)と呼ばれる,自動車間通信を統合したLiDARを用いたエンドツーエンド自動運転手法を提案する。 提案手法は,搭載lidarセンサとv2x通信データを用いて不完全な部分観測を行う。 モデルフリー・オフポリシー深層強化学習(drl)アルゴリズムを用いて運転エージェントを訓練し、注意深く設計された報酬機能とマルチタスク学習技術を組み込んで、様々な運転タスクやシナリオの一般化を促進する。 実験結果から,混合自律交通における無信号交差点を横断する作業における安全性と効率向上のための提案手法の有効性が示された。 V2X通信の統合は、自動運転車(AV)にとって、搭載センサー以外の環境を知覚するための重要なデータソースを提供し、運転環境をより正確かつ包括的な認識と、より安全で堅牢な運転行動をもたらす。

This paper presents a LiDAR-based end-to-end autonomous driving method with Vehicle-to-Everything (V2X) communication integration, termed V2X-Lead, to address the challenges of navigating unregulated urban scenarios under mixed-autonomy traffic conditions. The proposed method aims to handle imperfect partial observations by fusing the onboard LiDAR sensor and V2X communication data. A model-free and off-policy deep reinforcement learning (DRL) algorithm is employed to train the driving agent, which incorporates a carefully designed reward function and multi-task learning technique to enhance generalization across diverse driving tasks and scenarios. Experimental results demonstrate the effectiveness of the proposed approach in improving safety and efficiency in the task of traversing unsignalized intersections in mixed-autonomy traffic, and its generalizability to previously unseen scenarios, such as roundabouts. The integration of V2X communication offers a significant data source for autonomous vehicles (AVs) to perceive their surroundings beyond onboard sensors, resulting in a more accurate and comprehensive perception of the driving environment and more safe and robust driving behavior.
翻訳日:2023-09-28 17:37:02 公開日:2023-09-26
# log-concavityを超えて:sum-log-concave最適化の理論とアルゴリズム

Beyond Log-Concavity: Theory and Algorithm for Sum-Log-Concave Optimization ( http://arxiv.org/abs/2309.15298v1 )

ライセンス: Link先を確認
Mastane Achab(参考訳) 本稿では、凸最適化の古典的な理論を、我々がsum-log-concave関数、すなわちlog-concave関数の和と呼ぶものの否定対数に等しい関数の最小化に拡張する。 特に、そのような函数は一般に凸ではないが、一般凸不等式を満たすことを示す。 これらの不等式は、私たちがクロスグラディエント(cross-gradient)と呼び、一般に通常の勾配とは異なるあるベクトルの重要な重要性を浮き彫りにする。 そこで,我々はクロスグレードの反対方向に移動するクロスグレード降下 (xgd) アルゴリズムを提案し,収束解析を導出する。 本稿では,sum-log-concave フレームワークの適用として,sum-log-concave 関数に依存するいわゆる Checkered regression 手法を提案する。 この分類器は、任意の数の超平面を用いて特徴空間を計算し、チェッカーボードのような決定領域のパターンを作成することができるので、(複数のクラス)ロジスティック回帰を非線形に分離できない問題に拡張する。

This paper extends the classic theory of convex optimization to the minimization of functions that are equal to the negated logarithm of what we term as a sum-log-concave function, i.e., a sum of log-concave functions. In particular, we show that such functions are in general not convex but still satisfy generalized convexity inequalities. These inequalities unveil the key importance of a certain vector that we call the cross-gradient and that is, in general, distinct from the usual gradient. Thus, we propose the Cross Gradient Descent (XGD) algorithm moving in the opposite direction of the cross-gradient and derive a convergence analysis. As an application of our sum-log-concave framework, we introduce the so-called checkered regression method relying on a sum-log-concave function. This classifier extends (multiclass) logistic regression to non-linearly separable problems since it is capable of tessellating the feature space by using any given number of hyperplanes, creating a checkerboard-like pattern of decision regions.
翻訳日:2023-09-28 17:29:13 公開日:2023-09-26
# バイオメディカルチューブ流れに対する多重物理インフォームニューラルネットワーク

Multiple Physics-Informed Neural Network for Biomedical Tube Flows ( http://arxiv.org/abs/2309.15294v1 )

ライセンス: Link先を確認
Hong Shen Wong, Wei Xuan Chan, Bing Huan Li, Choon Hwai Yap(参考訳) 管状ジオメトリーの流体力学計算は血管および気道流体力学の生体医学的評価に重要である。 物理インフォームドニューラルネットワーク(PINN)は、最近、従来の計算流体力学(CFD)手法の代替として登場した。 しかしながら、バニラPINNは、特定のフローシナリオごとに従来のCFDメソッドよりもはるかに長いトレーニング時間を必要とするため、メインストリームの使用を正当化しない。 本稿では,多ケースPINNを用いたバイオメディカルチューブ流れの計算手法について検討する。そこでは,多様な幾何学的ケースをパラメータ化し,PINN上で事前学習することにより,未知のジオメトリの結果をリアルタイムで得ることができる。 本研究の目的は, ネットワークアーキテクチャ, チューブ固有化, 正規化を最適化する手法を, 一連の理想化された2次元管流の実験を通じて同定することである。

Fluid dynamics computations for tube-like geometries are important for biomedical evaluation of vascular and airway fluid dynamics. Physics-Informed Neural Networks (PINNs) have recently emerged as a good alternative to traditional computational fluid dynamics (CFD) methods. The vanilla PINN, however, requires much longer training time than the traditional CFD methods for each specific flow scenario and thus does not justify its mainstream use. Here, we explore the use of the multi-case PINN approach for calculating biomedical tube flows, where varied geometry cases are parameterized and pre-trained on the PINN, such that results for unseen geometries can be obtained in real time. Our objective is to identify network architecture, tube-specific, and regularization strategies that can optimize this, via experiments on a series of idealized 2D stenotic tube flows.
翻訳日:2023-09-28 17:28:50 公開日:2023-09-26
# 最大拡散強化学習

Maximum Diffusion Reinforcement Learning ( http://arxiv.org/abs/2309.15293v1 )

ライセンス: Link先を確認
Thomas A. Berrueta, Allison Pinosky, Todd D. Murphey(参考訳) データが独立しているという仮定は、すべての機械学習を支えている。 エージェント経験から順次データが収集される場合、強化学習のように、一般的にこの仮定は持たない。 ここでは,最大拡散強化学習(maximum diffusion reinforcement learning)と呼ぶエルゴード過程の統計力学を活用し,これらの限界を克服する手法を導出する。 エージェント体験の関連付けにより,エージェントは初期化に拘わらず,シングルショットで継続的に学習することができる。 さらに,本手法は既知の最大エントロピー手法を一般化し,人気のあるベンチマークにおいて最先端性能を頑健に上回っていることを示す。 nexus of physics, learning, and controlの結果は、ロボットや自動運転車などの強化学習エージェントにおける、より透明で信頼性の高い意思決定への道を開くものでした。

The assumption that data are independent and identically distributed underpins all machine learning. When data are collected sequentially from agent experiences this assumption does not generally hold, as in reinforcement learning. Here, we derive a method that overcomes these limitations by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables agents to learn continually in single-shot deployments regardless of how they are initialized. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and show that it robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control pave the way towards more transparent and reliable decision-making in reinforcement learning agents, such as locomoting robots and self-driving cars.
翻訳日:2023-09-28 17:28:36 公開日:2023-09-26
# 状態空間モデルを用いたユビキタスECGからの表現学習

Scaling Representation Learning from Ubiquitous ECG with State-Space Models ( http://arxiv.org/abs/2309.15292v1 )

ライセンス: Link先を確認
Kleanthis Avramidis, Dominika Kunc, Bartosz Perz, Kranti Adsul, Tiantian Feng, Przemys{\l}aw Kazienko, Stanis{\l}aw Saganowski, Shrikanth Narayanan(参考訳) 野生のウェアラブルデバイスからのユビキタスなセンシングは、臨床症状の診断やストレスの測定から、適応的な健康促進足場の構築まで、人間の健康向上を約束している。 しかし、異種コンテキストにまたがる大量のデータは、従来の教師付き学習アプローチに課題をもたらす。 生物信号からの表現学習は、近年の計算モデリングの進歩と、公開データベースの充実によって実現された新興領域である。 心電図(ecg)はこの文脈で主要な研究対象であり、健康モニタリング、ストレス、影響推定に応用されている。 しかし、ほとんどの研究は、小さな制御されたデータ収集と過度にパラメータ化されたアーキテクチャの選択によって制限されている。 本稿では,ECG信号からの表現学習のための事前学習状態空間モデルである \textbf{WildECG} を紹介する。 我々は,275,000個のECG記録を野生で収集し,下流のタスクで評価することで,このモデルを自己指導的に訓練する。 提案モデルはecg分析のための堅牢なバックボーンであり、考慮されたタスクのほとんどで競合性能を提供し、低リソースのシステムでの有効性を示す。 コードとトレーニング済みのウェイトはhttps://github.com/klean2050/tiles_ecg_model.comで公開されている。

Ubiquitous sensing from wearable devices in the wild holds promise for enhancing human well-being, from diagnosing clinical conditions and measuring stress to building adaptive health promoting scaffolds. But the large volumes of data therein across heterogeneous contexts pose challenges for conventional supervised learning approaches. Representation Learning from biological signals is an emerging realm catalyzed by the recent advances in computational modeling and the abundance of publicly shared databases. The electrocardiogram (ECG) is the primary researched modality in this context, with applications in health monitoring, stress and affect estimation. Yet, most studies are limited by small-scale controlled data collection and over-parameterized architecture choices. We introduce \textbf{WildECG}, a pre-trained state-space model for representation learning from ECG signals. We train this model in a self-supervised manner with 275,000 10s ECG recordings collected in the wild and evaluate it on a range of downstream tasks. The proposed model is a robust backbone for ECG analysis, providing competitive performance on most of the tasks considered, while demonstrating efficacy in low-resource regimes. The code and pre-trained weights are shared publicly at https://github.com/klean2050/tiles_ecg_model.
翻訳日:2023-09-28 17:28:21 公開日:2023-09-26
# SEPT:動き予測のための効率的なシーン表現学習を目指して

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction ( http://arxiv.org/abs/2309.15289v1 )

ライセンス: Link先を確認
Zhiqian Lan, Yuxuan Jiang, Yao Mu, Chen Chen, Shengbo Eben Li, Hang Zhao, Keqiang Li(参考訳) 運動予測は、自動運転車が複雑な交通環境下で安全に動作するために不可欠である。 交通要素間の効果的な時空間関係の抽出は正確な予測の鍵となる。 本稿では,事前学習された大規模言語モデルの実践に触発されて,自己教師付き学習を活用して複雑な交通シーンの時空間的強力な理解を実現するためのモデリングフレームワークSEPTを提案する。 具体的には,3つのマスキング・リコンストラクション・モデリングタスクを,エージェントのトラジェクタや道路網を含むシーン入力,軌道内の運動量をキャプチャするシーンエンコーダの事前学習,道路網の空間構造,道路とエージェント間のインタラクションなどに適用した。 プリトレーニングされたエンコーダは、下流予測タスクで微調整される。 大規模な実験により、SEPTは複雑なアーキテクチャ設計や手動の特徴工学を伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成し、すべての主要な指標に対する従来の手法よりも大きなマージンで優れていることが示された。

Motion prediction is crucial for autonomous vehicles to operate safely in complex traffic environments. Extracting effective spatiotemporal relationships among traffic elements is key to accurate forecasting. Inspired by the successful practice of pretrained large language models, this paper presents SEPT, a modeling framework that leverages self-supervised learning to develop powerful spatiotemporal understanding for complex traffic scenes. Specifically, our approach involves three masking-reconstruction modeling tasks on scene inputs including agents' trajectories and road network, pretraining the scene encoder to capture kinematics within trajectory, spatial structure of road network, and interactions among roads and agents. The pretrained encoder is then finetuned on the downstream forecasting task. Extensive experiments demonstrate that SEPT, without elaborate architectural design or manual feature engineering, achieves state-of-the-art performance on the Argoverse 1 and Argoverse 2 motion forecasting benchmarks, outperforming previous methods on all main metrics by a large margin.
翻訳日:2023-09-28 17:28:00 公開日:2023-09-26
# 量子情報駆動ansatz(qida) : 量子化学による浅層深い経験的量子回路

Quantum Information Driven Ansatz (QIDA): shallow-depth empirical quantum circuits from Quantum Chemistry ( http://arxiv.org/abs/2309.15287v1 )

ライセンス: Link先を確認
Davide Materia, Leonardo Ratini, Celestino Angeli and Leonardo Guidoni(参考訳) 量子化学の変分量子固有ソルバシミュレーションのためのハードウェア効率の高い経験的変分 ans\"atze は、古典的量子化学法と直接の接続が欠如している。 本研究では, 古典的量子化学状態に関連する量子相互情報を活用して, 分子系の相関を反映するトポロジーを用いて, 単純かつ効果的なヒューリスティックなans\"atzeを設計することにより, このギャップを埋める手法を提案する。 第一段階として、M{\o}ller-Plesset (MP2) 摂動理論のような量子化学計算は、まず近似した自然軌道基底を与えるが、これは最近、コンパクトな経験波動関数を開発するための最適候補1電子基底であることが示されている(Ratini, et al 2023)。 第二に、量子相互情報行列の評価を通じて、量子回路の量子ビット間の主相関関係に関する情報を提供し、回路の絡み合うブロックの直接設計を開発することができる。 結果として得られるアンザッツは変分量子固有解器(VQE)を用いて電子ハミルトニアンの短深さ変分基底状態を得る。 提案手法を検証するため, 様々な分子系のシミュレーション(H_2, LiH, H_2O$)により包括的統計的解析を行い, より複雑なNH_3$分子に適用する。 以上の結果から,提案手法は性能の標準的な実証的ラグエンタングラー・アンザッツを超越し,高い効率のアンサゼを生じさせることが示された。 全体として,本手法は大規模分子系のための効率的な変分量子回路の設計に有効な経路を提供する有効な状態準備として利用することができる。

Hardware-efficient empirical variational ans\"atze for Variational Quantum Eigensolver simulations of Quantum Chemistry suffer from the lack of a direct connection to classical Quantum Chemistry methods. In the present work, we propose a method to fill this gap by introducing a new approach for constructing variational quantum circuits, leveraging quantum mutual information associated with classical Quantum Chemistry states to design simple yet effective heuristic ans\"atze with a topology that reflects the correlations of the molecular system. As first step, Quantum Chemistry calculations, such as M{\o}ller-Plesset (MP2) perturbation theory, firstly provide an approximate Natural Orbitals basis, which has been recently shown to be the best candidate one-electron basis for developing compact empirical wavefunctions (Ratini, et al 2023). Secondly, throughout the evaluation of quantum mutual information matrices, they provide information about the main correlations between qubits of the quantum circuit, enabling the development of a direct design of entangling blocks for the circuit. The resulting ansatz is then utilized with a Variational Quantum Eigensolver (VQE) to obtain a short depth variational groundstate of the electronic Hamiltonian. To validate our approach, we perform a comprehensive statistical analysis by simulations over various molecular systems ($H_2, LiH, H_2O$) and apply it to the more complex $NH_3$ molecule. The reported results demonstrate that the proposed methodology gives rise to highly effective ans\"atze, surpassing the standard empirical ladder-entangler ansatz in performance. Overall, our approach can be used as effective state preparation providing a promising route for designing efficient variational quantum circuits for large molecular systems.
翻訳日:2023-09-28 17:27:42 公開日:2023-09-26
# 行列最大化のための構成可能なコアセット:グリーディはほぼ最適である

Composable Coresets for Determinant Maximization: Greedy is Almost Optimal ( http://arxiv.org/abs/2309.15286v1 )

ライセンス: Link先を確認
Siddharth Gollapudi, Sepideh Mahabadi, Varun Sivashankar(参考訳) $\mathbb{R}^d$ における$n$ベクトルの集合が与えられたとき、 \emph{determinant maximization} 問題の目標は最大体積を持つ$k$ベクトルを選ぶことである。 決定的最大化(Determinant maximization)は、決定的ポイントプロセス(DPP)のためのMAP推論タスクであり、近年、モデリングの多様性に対して大きな注目を集めている。 問題のほとんどのアプリケーションは大量のデータを使用するため、この問題は関連する \textit{composable coreset} 設定で研究されている。 特に [Indyk-Mahabadi-OveisGharan-Rezaei--SODA'20, ICML'19] は、この問題に対して最適近似係数が$\tilde O(k)^k$で構成可能なコアセットを得ることができ、局所探索アルゴリズムが$O(k)^{2k}$でほぼ最適な近似を保証することを示した。 本研究では,広く用いられているグリーディアルゴリズムが,従来知られていた$c^{k^2}$の保証よりも向上するほぼ最適近似係数である$o(k)^{3k}$の合成可能なコアセットを提供するとともに,グリーディアルゴリズムをコアセットとして実用性を示す先行実験結果をサポートすることを示す。 我々の主な結果は、グリーディの局所最適性を示すことによる: グリーディの解から、グリーディのアルゴリズムが選ばなかったベクトルに1点を置き換えることで、少なくとも1+\sqrt{k})$の係数で体積を増大させることができる。 これは加法定数が$$$の値に固まる。 最後に, 実験により, グリーディアルゴリズムの局所最適性は, 実データ集合上の理論的境界よりも低いことを示した。

Given a set of $n$ vectors in $\mathbb{R}^d$, the goal of the \emph{determinant maximization} problem is to pick $k$ vectors with the maximum volume. Determinant maximization is the MAP-inference task for determinantal point processes (DPP) and has recently received considerable attention for modeling diversity. As most applications for the problem use large amounts of data, this problem has been studied in the relevant \textit{composable coreset} setting. In particular, [Indyk-Mahabadi-OveisGharan-Rezaei--SODA'20, ICML'19] showed that one can get composable coresets with optimal approximation factor of $\tilde O(k)^k$ for the problem, and that a local search algorithm achieves an almost optimal approximation guarantee of $O(k)^{2k}$. In this work, we show that the widely-used Greedy algorithm also provides composable coresets with an almost optimal approximation factor of $O(k)^{3k}$, which improves over the previously known guarantee of $C^{k^2}$, and supports the prior experimental results showing the practicality of the greedy algorithm as a coreset. Our main result follows by showing a local optimality property for Greedy: swapping a single point from the greedy solution with a vector that was not picked by the greedy algorithm can increase the volume by a factor of at most $(1+\sqrt{k})$. This is tight up to the additive constant $1$. Finally, our experiments show that the local optimality of the greedy algorithm is even lower than the theoretical bound on real data sets.
翻訳日:2023-09-28 17:27:10 公開日:2023-09-26
# 交通状態予測のための物理強化残差学習(perl)フレームワーク

A Physics Enhanced Residual Learning (PERL) Framework for Traffic State Prediction ( http://arxiv.org/abs/2309.15284v1 )

ライセンス: Link先を確認
Keke Long, Haotian Shi, Zihao Sheng, Xiaopeng Li, Sikai Chen(参考訳) 車両軌道予測では、物理モデルとデータ駆動モデルが2つの主要な手法である。 物理モデルは予測可能性に不足し、データ駆動モデルは解釈可能性に欠ける。 本稿では,これらの欠点に対処し,新しい枠組みである物理強化残留学習(PERL)モデルを提案する。 PERLは、トラフィック状態予測のための物理とデータ駆動方式の長所を統合する。 PERLは物理モデルと残留学習モデルを含んでいる。 その予測は物理モデルの結果とそれに対する補正として予測された残差の合計である。 物理モデルに固有の解釈可能性を保持し、データ駆動方式と比較してデータ要求を減らしている。 実車軌道データセットを用いて実験を行った。 我々は,知能ドライバモデル(IDM)を物理カーフォローモデルとし,Long Short-Term Memory(LSTM)を残留学習モデルとするPERLモデルを提案した。 このPERLモデルと物理カーフォローモデル,データ駆動モデル,その他の物理インフォームドニューラルネットワーク(PINN)モデルを比較した。 その結果、PERLは物理モデル、データ駆動モデル、PINNモデルと比較して、小さなデータセットでより良い予測を達成できることがわかった。 第2に、PERLモデルはトレーニング中により高速な収束を示し、データ駆動モデルやPINNモデルよりも少ないトレーニングサンプルで同等のパフォーマンスを提供する。 感度解析はまた、別の残差学習モデルと物理カー追従モデルを用いてPERLと同等の性能を示す。

In vehicle trajectory prediction, physics models and data-driven models are two predominant methodologies. However, each approach presents its own set of challenges: physics models fall short in predictability, while data-driven models lack interpretability. Addressing these identified shortcomings, this paper proposes a novel framework, the Physics-Enhanced Residual Learning (PERL) model. PERL integrates the strengths of physics-based and data-driven methods for traffic state prediction. PERL contains a physics model and a residual learning model. Its prediction is the sum of the physics model result and a predicted residual as a correction to it. It preserves the interpretability inherent to physics-based models and has reduced data requirements compared to data-driven methods. Experiments were conducted using a real-world vehicle trajectory dataset. We proposed a PERL model, with the Intelligent Driver Model (IDM) as its physics car-following model and Long Short-Term Memory (LSTM) as its residual learning model. We compare this PERL model with the physics car-following model, data-driven model, and other physics-informed neural network (PINN) models. The result reveals that PERL achieves better prediction with a small dataset, compared to the physics model, data-driven model, and PINN model. Second, the PERL model showed faster convergence during training, offering comparable performance with fewer training samples than the data-driven model and PINN model. Sensitivity analysis also proves comparable performance of PERL using another residual learning model and a physics car-following model.
翻訳日:2023-09-28 17:26:32 公開日:2023-09-26
# 目に見える、まだ心に残る:ビデオ追跡可能な記憶モデルによる未観測物体の推論と計画

Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models ( http://arxiv.org/abs/2309.15278v1 )

ライセンス: Link先を確認
Yixuan Huang, Jialin Yuan, Chanho Kim, Pupul Pradhan, Bryan Chen, Li Fuxin, Tucker Hermans(参考訳) ロボットは以前に観測された記憶を持つ必要があるが、現実的な環境で確実に動作するには、現在物体を隠蔽する必要がある。 オブジェクト指向メモリを多目的操作推論・計画フレームワークに符号化する問題について検討する。 本研究では,変換器のリレーショナルダイナミクスを利用して,部分視点雲と物体発見・追跡エンジンのトラジェクトリ履歴を符号化するDOOMとLOOMを提案する。 我々のアプローチは、隠されたオブジェクトによる推論、新しいオブジェクトの外観、オブジェクトの再出現など、複数の困難なタスクを実行することができる。 大規模なシミュレーションと実世界の実験を通して、我々のアプローチは、異なる物体の数と異なる乱れの回数でうまく機能することがわかった。 さらに,提案手法は暗黙のメモリベースラインよりも優れていることを示す。

Robots need to have a memory of previously observed, but currently occluded objects to work reliably in realistic environments. We investigate the problem of encoding object-oriented memory into a multi-object manipulation reasoning and planning framework. We propose DOOM and LOOM, which leverage transformer relational dynamics to encode the history of trajectories given partial-view point clouds and an object discovery and tracking engine. Our approaches can perform multiple challenging tasks including reasoning with occluded objects, novel objects appearance, and object reappearance. Throughout our extensive simulation and real-world experiments, we find that our approaches perform well in terms of different numbers of objects and different numbers of distractor actions. Furthermore, we show our approaches outperform an implicit memory baseline.
翻訳日:2023-09-28 17:26:10 公開日:2023-09-26
# スケールアップトランスフォーマによる高分解能画像分類の高速化

Boosting High Resolution Image Classification with Scaling-up Transformers ( http://arxiv.org/abs/2309.15277v1 )

ライセンス: Link先を確認
Yi Wang(参考訳) ICCV/CVPPA2023 Deep Nutrient Deficiency Challengeで2位を獲得した高解像度画像分類のための総合的なアプローチを提案する。 アプローチは以下の完全なパイプラインから成り立っている。 1)潜在的な領域シフトをチェックするためのデータ分布解析 2)高分解能入力のためにスケールアップする強いベースラインモデルに対するバックボーン選択。 3) 公開事前学習モデルと小サブデータセットの連続微調整を利用した転送学習 4) トレーニングデータの多様性と過剰適合防止のためのデータ強化 5) 予測のロバスト性を改善するためのテスト時間補完 6) 最終試験結果の平滑化を目的としたクロスフォールドモデル予測平均を行う「データスープ」。

We present a holistic approach for high resolution image classification that won second place in the ICCV/CVPPA2023 Deep Nutrient Deficiency Challenge. The approach consists of a full pipeline of: 1) data distribution analysis to check potential domain shift, 2) backbone selection for a strong baseline model that scales up for high resolution input, 3) transfer learning that utilizes published pretrained models and continuous fine-tuning on small sub-datasets, 4) data augmentation for the diversity of training data and to prevent overfitting, 5) test-time augmentation to improve the prediction's robustness, and 6) "data soups" that conducts cross-fold model prediction average for smoothened final test results.
翻訳日:2023-09-28 17:25:56 公開日:2023-09-26
# DeepROCK:ディープニューラルネットワークにおけるエラー制御インタラクション検出

DeepROCK: Error-controlled interaction detection in deep neural networks ( http://arxiv.org/abs/2309.15319v1 )

ライセンス: Link先を確認
Winston Chen, William Stafford Noble, Yang Young Lu(参考訳) ディープニューラルネットワーク(dnn)の複雑さは、それらは強力だが、解釈が難しくなり、エラー耐性のドメインでの適用性が阻害される。 既存の手法では、予測結果に影響を与える特徴的相互作用を識別することで、DNNの内部メカニズムを解明しようとする。 しかし、そのような手法は、信頼度を制御しながら相互作用を優先順位付けする体系的な戦略を欠いているため、科学的発見や仮説検証の実践は困難である。 本稿では,指定した特徴集合の依存構造を条件付き独立に模倣するように設計されたダミー変数であるノックオフを用いて,この制限に対処するために,deeprockと呼ばれる手法を提案する。 ペアワイズ結合層を含む新しいDNNアーキテクチャとともに、DeepROCKは偽発見率(FDR)を共同制御し、統計的パワーを最大化する。 さらに,市販の特徴的相互作用重要度尺度を用いてFDRを正しく制御する上での課題を明らかにした。 deeprockはこの課題を克服し、fdrを目標レベルで制御するための既存のインタラクション重要度対策に適用するキャリブレーション手順を提案する。 最後に、シミュレーションおよび実データに対する広範囲な実験を通してDeepROCKの有効性を検証する。

The complexity of deep neural networks (DNNs) makes them powerful but also makes them challenging to interpret, hindering their applicability in error-intolerant domains. Existing methods attempt to reason about the internal mechanism of DNNs by identifying feature interactions that influence prediction outcomes. However, such methods typically lack a systematic strategy to prioritize interactions while controlling confidence levels, making them difficult to apply in practice for scientific discovery and hypothesis validation. In this paper, we introduce a method, called DeepROCK, to address this limitation by using knockoffs, which are dummy variables that are designed to mimic the dependence structure of a given set of features while being conditionally independent of the response. Together with a novel DNN architecture involving a pairwise-coupling layer, DeepROCK jointly controls the false discovery rate (FDR) and maximizes statistical power. In addition, we identify a challenge in correctly controlling FDR using off-the-shelf feature interaction importance measures. DeepROCK overcomes this challenge by proposing a calibration procedure applied to existing interaction importance measures to make the FDR under control at a target level. Finally, we validate the effectiveness of DeepROCK through extensive experiments on simulated and real datasets.
翻訳日:2023-09-28 17:20:25 公開日:2023-09-26
# 大規模多言語自己教師型学習のための共同予測と認知

joint prediction and denoising for large-scale multilingual self-supervised learning ( http://arxiv.org/abs/2309.15317v1 )

ライセンス: Link先を確認
William Chen, Jiatong Shi, Brian Yan, Dan Berrebbi, Wangyou Zhang, Yifan Peng, Xuankai Chang, Soumi Maiti, Shinji Watanabe(参考訳) 多言語自己教師付き学習(ssl)は、多くの言語を扱うのに必要な費用と複雑さのため、最先端(sota)メソッドに遅れを取っていることが多い。 これによりSSLの再現性はさらに損なわれ、リソース使用のためにすでに研究グループに制限されている。 より強力な技術は、より効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示しています。 我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。 WavLabLMを構築するために,多言語データの言語不均衡に対応するために設計された,新しい多段階事前学習手法を開発した。 WavLabLMは、トレーニングデータの10%未満でML-SUPERB上のXLS-Rに匹敵するパフォーマンスを達成し、SSLを学術計算で実現している。 これは、xls-rの性能の94%を、わずか3%のデータ、gpu4つ、限定的なトライアルで維持できる。 ESPnetですべてのコードとモデルをオープンソースにしています。

Multilingual self-supervised learning (SSL) has often lagged behind state-of-the-art (SOTA) methods due to the expenses and complexity required to handle many languages. This further harms the reproducibility of SSL, which is already limited to few research groups due to its resource usage. We show that more powerful techniques can actually lead to more efficient pre-training, opening SSL to more research groups. We propose WavLabLM, which extends WavLM's joint prediction and denoising to 40k hours of data across 136 languages. To build WavLabLM, we devise a novel multi-stage pre-training method, designed to address the language imbalance of multilingual data. WavLabLM achieves comparable performance to XLS-R on ML-SUPERB with less than 10% of the training data, making SSL realizable with academic compute. We show that further efficiency can be achieved with a vanilla HuBERT Base model, which can maintain 94% of XLS-R's performance with only 3% of the data, 4 GPUs, and limited trials. We open-source all code and models in ESPnet.
翻訳日:2023-09-28 17:20:03 公開日:2023-09-26
# 畳み込みニューラルネットワークを用いた2エネルギー計算トモグラフィのパラメトリックマップへの1エネルギー計算トモグラフィの変換

Conversion of single-energy computed tomography to parametric maps of dual-energy computed tomography using convolutional neural network ( http://arxiv.org/abs/2309.15314v1 )

ライセンス: Link先を確認
Sangwook Kim, Jimin Lee, Jungye Kim, Bitbyeol Kim, Chang Heon Choi, Seongmoon Jung(参考訳) 目的: 単エネルギーCT(SECT)を2重エネルギーCT(DECT)のパラメトリックマップ(VMI)、有効原子数(EAN)、相対電子密度(RED)の3種類のパラメトリックマップに直接変換するための畳み込みニューラルネットワーク(CNN)を用いた深層学習(DL)マルチタスク学習フレームワークを提案する。 方法: SECT を 70, 120, 200 keV VMI に変換する VMI-Net を提案する。 さらに、EAN-NetとRED-NetもSECTをEANとREDに変換するために開発された。 2019年から2020年の間に収集した67名の患者を用いて,モデルのトレーニングと検証を行った。 DECT(IQon spectrum CT, Philips)が取得した120kVpのSECT画像を入力として、同じデバイスで取得したVMI、EAN、REDをターゲットとして使用した。 DLフレームワークの性能は絶対差(AD)と相対差(RD)で評価した。 結果: VMI-Net は 120 kVp SECT を AD の 9.02 Hounsfield Unit で VMI に変換し、RD は RD が 0.41% である。 変換されたEANは0.29、REDは0.96、RDは1.99%、REDは0.50%であった。 結論: SECTイメージはDECTの3つのパラメトリックマップ(VMI、EAN、RED)に直接変換された。 このモデルを用いることで、DECT装置なしでSECT画像からパラメトリック情報を生成することができる。 我々のモデルは、SECTからのパラメトリック情報を振り返りに調査するのに役立ちます。 知識の進歩: ディープラーニングフレームワークは、SECTをDECTの様々な高品質パラメトリックマップに変換することができる。

Objectives: We propose a deep learning (DL) multi-task learning framework using convolutional neural network (CNN) for a direct conversion of single-energy CT (SECT) to three different parametric maps of dual-energy CT (DECT): Virtual-monochromatic image (VMI), effective atomic number (EAN), and relative electron density (RED). Methods: We propose VMI-Net for conversion of SECT to 70, 120, and 200 keV VMIs. In addition, EAN-Net and RED-Net were also developed to convert SECT to EAN and RED. We trained and validated our model using 67 patients collected between 2019 and 2020. SECT images with 120 kVp acquired by the DECT (IQon spectral CT, Philips) were used as input, while the VMIs, EAN, and RED acquired by the same device were used as target. The performance of the DL framework was evaluated by absolute difference (AD) and relative difference (RD). Results: The VMI-Net converted 120 kVp SECT to the VMIs with AD of 9.02 Hounsfield Unit, and RD of 0.41% compared to the ground truth VMIs. The ADs of the converted EAN and RED were 0.29 and 0.96, respectively, while the RDs were 1.99% and 0.50% for the converted EAN and RED, respectively. Conclusions: SECT images were directly converted to the three parametric maps of DECT (i.e., VMIs, EAN, and RED). By using this model, one can generate the parametric information from SECT images without DECT device. Our model can help investigate the parametric information from SECT retrospectively. Advances in knowledge: Deep learning framework enables converting SECT to various high-quality parametric maps of DECT.
翻訳日:2023-09-28 17:19:43 公開日:2023-09-26
# M$^{3}$3D:Multi-Modal Masked Autoencodersを用いた2次元画像と映像理解のための3D先行学習

M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding ( http://arxiv.org/abs/2309.15313v1 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal, Omid Mohareri(参考訳) 我々は,マルチモーダルマスク付きオートエンコーダをベースとし,rgb-dデータのクロスモーダル表現を活用し,m$^{3}$3d (\underline{m}$ulti-$\underline{m}$odal$\underline{m}$asked$\underline{3d}$) という新たな事前学習戦略を提案する。 マスク付き画像モデリング(mim)とコントラスト型学習(con contrastive learning)の2つの主要な自己教師付き学習フレームワークを統合した。 特定の下流タスクに焦点を当てたり、複数視点対応を必要とする最近のアプローチとは対照的に、我々の事前学習戦略はユビキタスであり、ビデオアクション認識、ビデオアクション検出、2次元セマンティックセグメンテーション、深度推定など、様々な下流タスクの性能向上に寄与できる表現学習の改善を可能にする。 M$^{3}$3Dは、ScanNet、NYUv2、UCF-101、OR-ARにおける既存の最先端アプローチ、特にScanNetセマンティックセマンティックセグメンテーションにおけるMask3Dに対する+1.3\% mIoUの改善よりも優れていた。 提案手法を低データ方式で評価し,現在の最先端手法と比較して優れたデータ効率を示す。

We present a new pre-training strategy called M$^{3}$3D ($\underline{M}$ulti-$\underline{M}$odal $\underline{M}$asked $\underline{3D}$) built based on Multi-modal masked autoencoders that can leverage 3D priors and learned cross-modal representations in RGB-D data. We integrate two major self-supervised learning frameworks; Masked Image Modeling (MIM) and contrastive learning; aiming to effectively embed masked 3D priors and modality complementary features to enhance the correspondence between modalities. In contrast to recent approaches which are either focusing on specific downstream tasks or require multi-view correspondence, we show that our pre-training strategy is ubiquitous, enabling improved representation learning that can transfer into improved performance on various downstream tasks such as video action recognition, video action detection, 2D semantic segmentation and depth estimation. Experiments show that M$^{3}$3D outperforms the existing state-of-the-art approaches on ScanNet, NYUv2, UCF-101 and OR-AR, particularly with an improvement of +1.3\% mIoU against Mask3D on ScanNet semantic segmentation. We further evaluate our method on low-data regime and demonstrate its superior data efficiency compared to current state-of-the-art approaches.
翻訳日:2023-09-28 17:19:08 公開日:2023-09-26
# maptree:ベイズ決定木で"最適"決定木を破る

MAPTree: Beating "Optimal" Decision Trees with Bayesian Decision Trees ( http://arxiv.org/abs/2309.15312v1 )

ライセンス: Link先を確認
Colin Sullivan, Mo Tiwari, Sebastian Thrun(参考訳) 決定木は今日でも最も人気のある機械学習モデルの1つであり、その主な原因は、アウト・オブ・ボックスのパフォーマンスと解釈性にある。 本研究では,木上の後方分布の最大後方推定による決定木誘導に対するベイズ的アプローチを提案する。 まず,決定木の最大後方推定とAND/OR探索の関連性を示す。 この接続を用いて,MAPTree と呼ばれる最大木を復元できるAND/OR探索アルゴリズムを提案する。 最後に, 合成データと実世界環境の両方において, 最大後葉樹の実証的性能を実証した。 16の実世界のデータセットでは、MAPTreeはベースラインを上回るか、同等のパフォーマンスを示すが、ツリーははるかに小さい。 合成データセット上では、MAPTreeは既存のアプローチよりもノイズに対する堅牢性とより優れた一般化を示す。 最後に、MAPTreeは、既存のサンプリング手法よりも早く、最大木を復元し、それらのアルゴリズムとは対照的に、最適な証明を提供することができる。 実験のコードはhttps://github.com/ThrunGroup/maptree.orgで公開されている。

Decision trees remain one of the most popular machine learning models today, largely due to their out-of-the-box performance and interpretability. In this work, we present a Bayesian approach to decision tree induction via maximum a posteriori inference of a posterior distribution over trees. We first demonstrate a connection between maximum a posteriori inference of decision trees and AND/OR search. Using this connection, we propose an AND/OR search algorithm, dubbed MAPTree, which is able to recover the maximum a posteriori tree. Lastly, we demonstrate the empirical performance of the maximum a posteriori tree both on synthetic data and in real world settings. On 16 real world datasets, MAPTree either outperforms baselines or demonstrates comparable performance but with much smaller trees. On a synthetic dataset, MAPTree also demonstrates greater robustness to noise and better generalization than existing approaches. Finally, MAPTree recovers the maxiumum a posteriori tree faster than existing sampling approaches and, in contrast with those algorithms, is able to provide a certificate of optimality. The code for our experiments is available at https://github.com/ThrunGroup/maptree.
翻訳日:2023-09-28 17:18:33 公開日:2023-09-26
# 身体的会話エージェントにおけるマルチモーダル感情条件付けの重要性と影響一貫性

The Importance of Multimodal Emotion Conditioning and Affect Consistency for Embodied Conversational Agents ( http://arxiv.org/abs/2309.15311v1 )

ライセンス: Link先を確認
Che-Jui Chang, Samuel S. Sohn, Sen Zhang, Rajath Jayashankar, Muhammad Usman, Mubbasir Kapadia(参考訳) 仮想エージェントの感情知覚に関するこれまでの研究は、人間との相互作用を通じて感情伝達に仮想文字を用いることの有効性を示した。 しかし,表現行動を伴う自律的体現型会話エージェントの作成には2つの大きな課題がある。 最初の課題は、実際の人間の行動と同じくらい表現力のあるモダリティごとに会話の振る舞いを合成することの難しさである。 2つめの課題は、影響は独立してモデル化されるため、すべてのモダリティにわたって一貫した感情を持つマルチモーダルな応答を生成するのが困難である。 本研究では,一貫した運転影響を条件としたマルチモーダル行動を生成することにより,感情の知覚を高めることを目的とした,ACTOR(Affect-Consistent mulTimodal Behavior Generation)の概念的枠組みを提案する。 我々は,199名の被験者を対象に,運転行動に対する一貫性と一貫性のないマルチモーダル行動から知覚される影響を平均者が判断する方法についてのユーザ調査を行った。 その結果、すべてのモデル条件において、我々の感情整合フレームワークは、運転影響の知覚において最も高いlikertスコアを受信することが示された。 我々の統計的分析は、モダリティが不整合であることは運転への影響の知覚を著しく減少させることを示している。 また、一貫した影響を条件としたマルチモーダルな行動は、矛盾した影響を持つ行動よりも表現力が高いことも観察した。 そこで我々は,マルチモーダルな感情条件付けと感情の調和が,感情の知覚を高める上で重要であると結論づけた。

Previous studies regarding the perception of emotions for embodied virtual agents have shown the effectiveness of using virtual characters in conveying emotions through interactions with humans. However, creating an autonomous embodied conversational agent with expressive behaviors presents two major challenges. The first challenge is the difficulty of synthesizing the conversational behaviors for each modality that are as expressive as real human behaviors. The second challenge is that the affects are modeled independently, which makes it difficult to generate multimodal responses with consistent emotions across all modalities. In this work, we propose a conceptual framework, ACTOR (Affect-Consistent mulTimodal behaviOR generation), that aims to increase the perception of affects by generating multimodal behaviors conditioned on a consistent driving affect. We have conducted a user study with 199 participants to assess how the average person judges the affects perceived from multimodal behaviors that are consistent and inconsistent with respect to a driving affect. The result shows that among all model conditions, our affect-consistent framework receives the highest Likert scores for the perception of driving affects. Our statistical analysis suggests that making a modality affect-inconsistent significantly decreases the perception of driving affects. We also observe that multimodal behaviors conditioned on consistent affects are more expressive compared to behaviors with inconsistent affects. Therefore, we conclude that multimodal emotion conditioning and affect consistency are vital to enhancing the perception of affects for embodied conversational agents.
翻訳日:2023-09-28 17:18:15 公開日:2023-09-26
# 非標準量子代数と有限次元$\mathcal{pt}$-symmetricシステム

Non-standard quantum algebras and finite dimensional $\mathcal{PT}$-symmetric systems ( http://arxiv.org/abs/2309.15305v1 )

ライセンス: Link先を確認
\'Angel Ballesteros, Romina Ram\'irez and Marta Reboiro(参考訳) この研究では、量子$sl(2, \mathbb r)$代数上で定義される$\mathcal{pt}$-symmetric hamiltonianが提示される。 我々は、非標準$U_{z}(sl(2, \mathbb R))$ Hopf代数の変形を$sl(2, \mathbb R)$の生成元として記述した非エルミート的ハミルトン群のスペクトルを研究する。 u_{z}(sl(2, \mathbb r))$ の生成子の特定のボソン表現を利用することで、量子代数の余積と可換関係の両方が $\mathcal{pt}$-transformation の下で不変であることが示される。 これらの作用素の観点で、任意の任意の次元に対して解析的に得られるスペクトルを持つ有限次元 $\mathcal{PT}$-対称性ハミルトニアンを構成する。 特に、モデルパラメータの空間における例外点の出現を示し、正確な$\mathcal{PT}$対称性と壊れた$\mathcal{PT}$対称性の両方においてスペクトルの挙動について議論する。 例えば、この非標準量子代数学は、非対称二重量子ドットに基づく3電子ハイブリッド量子ビットの実験スペクトルを正確に記述する効果的なモデルハミルトニアンを定義するのに使うことができる。 注目すべきことに、この効果的なモデルでは、変形パラメータ$z$はシステムの変形パラメータと同一視する必要がある。

In this work, $\mathcal{PT}$-symmetric Hamiltonians defined on quantum $sl(2, \mathbb R)$ algebras are presented. We study the spectrum of a family of non-Hermitian Hamiltonians written in terms of the generators of the non-standard $U_{z}(sl(2, \mathbb R))$ Hopf algebra deformation of $sl(2, \mathbb R)$. By making use of a particular boson representation of the generators of $U_{z}(sl(2, \mathbb R))$, both the co-product and the commutation relations of the quantum algebra are shown to be invariant under the $\mathcal{PT}$-transformation. In terms of these operators, we construct several finite dimensional $\mathcal{PT}$-symmetry Hamiltonians, whose spectrum is analytically obtained for any arbitrary dimension. In particular, we show the appearance of Exceptional Points in the space of model parameters and we discuss the behaviour of the spectrum both in the exact $\mathcal{PT}$-symmetry and the broken $\mathcal{PT}$-symmetry dynamical phases. As an application, we show that this non-standard quantum algebra can be used to define an effective model Hamiltonian describing accurately the experimental spectra of three-electron hybrid qubits based on asymmetric double quantum dots. Remarkably enough, in this effective model, the deformation parameter $z$ has to be identified with the detuning parameter of the system.
翻訳日:2023-09-28 17:17:48 公開日:2023-09-26
# 非拘束型ロボットによる自己教師付き地形表現学習

Self-Supervised Terrain Representation Learning from Unconstrained Robot Experience ( http://arxiv.org/abs/2309.15302v1 )

ライセンス: Link先を確認
Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep Biswas, Peter Stone(参考訳) 地形認識、すなわち、異なる種類の地形を識別し識別する能力は、ロボットが自律的なオフロードナビゲーションで成功しなければならない重要な能力である。 この認識をロボットに提供する現在のアプローチは、収集に費用がかかるラベル付きデータ、一般化しないかもしれない機能やコスト関数、あるいは利用できないかもしれない人間のデモンストレーションに頼っている。 このような制約を伴わない地形認識型ロボットの実現に向けて,データ収集に制約を加えることなく,自由度・非拘束性・非拘束性にのみ依存する地形表現学習のための新たなアプローチである,自己教師型テレイン表現学習(STERling)を導入する。 STERlingは、地形認識ナビゲーションのための関連する地形表現を学習するために、非コントラスト表現学習を通じて、新しいマルチモーダルな自己超越目標を採用する。 オフロード環境における物理的ロボット実験を通じて,嗜好調整型視覚ナビゲーションの課題におけるスターリング特性を評価し,スターリング機能は完全な教師付きアプローチと同等の性能を持ち,嗜好調整に関して他の最先端手法を上回ることを見出した。 さらに,3マイルのトレイルを自律的にハイキングする大規模な実験を行い,STERlingは2つの手動介入で完遂し,現実世界のオフロード条件に対するロバスト性を実証した。

Terrain awareness, i.e., the ability to identify and distinguish different types of terrain, is a critical ability that robots must have to succeed at autonomous off-road navigation. Current approaches that provide robots with this awareness either rely on labeled data which is expensive to collect, engineered features and cost functions that may not generalize, or expert human demonstrations which may not be available. Towards endowing robots with terrain awareness without these limitations, we introduce Self-supervised TErrain Representation LearnING (STERLING), a novel approach for learning terrain representations that relies solely on easy-to-collect, unconstrained (e.g., non-expert), and unlabelled robot experience, with no additional constraints on data collection. STERLING employs a novel multi-modal self-supervision objective through non-contrastive representation learning to learn relevant terrain representations for terrain-aware navigation. Through physical robot experiments in off-road environments, we evaluate STERLING features on the task of preference-aligned visual navigation and find that STERLING features perform on par with fully supervised approaches and outperform other state-of-the-art methods with respect to preference alignment. Additionally, we perform a large-scale experiment of autonomously hiking a 3-mile long trail which STERLING completes successfully with only two manual interventions, demonstrating its robustness to real-world off-road conditions.
翻訳日:2023-09-28 17:17:21 公開日:2023-09-26
# 欠陥データからの学習:弱い教師付き自動音声認識

Learning from Flawed Data: Weakly Supervised Automatic Speech Recognition ( http://arxiv.org/abs/2309.15796v1 )

ライセンス: Link先を確認
Dongji Gao, Hainan Xu, Desh Raj, Leibny Paola Garcia Perera, Daniel Povey, Sanjeev Khudanpur(参考訳) 自動音声認識(asr)システムの訓練には、大量の適切なペアデータが必要である。 しかしながら、人間のアノテータは通常「非バーベティム」の転写を行い、訓練の不十分なモデルを生み出す。 本稿では,このような弱い監督から生じるラベルの不確実性を明確に組み込んだ新しいトレーニング基準であるOmni-temporal Classification (OTC)を提案する。 これにより、トレーニングテキストに存在する誤りを調整しながら、音声テキストのアライメントを効果的に学習することができる。 OTCは、重み付き有限状態トランスデューサを利用して、不完全転写のための従来のCTC目標を拡張している。 LibriSpeech と LibriVox のデータセットで行った実験により,最大70% のエラーを含む書き起こしでも,OCC を用いた ASR モデルのトレーニングが性能劣化を回避することを示した。 私たちの実装はhttps://github.com/k2-fsa/icefallで利用可能です。

Training automatic speech recognition (ASR) systems requires large amounts of well-curated paired data. However, human annotators usually perform "non-verbatim" transcription, which can result in poorly trained models. In this paper, we propose Omni-temporal Classification (OTC), a novel training criterion that explicitly incorporates label uncertainties originating from such weak supervision. This allows the model to effectively learn speech-text alignments while accommodating errors present in the training transcripts. OTC extends the conventional CTC objective for imperfect transcripts by leveraging weighted finite state transducers. Through experiments conducted on the LibriSpeech and LibriVox datasets, we demonstrate that training ASR models with OTC avoids performance degradation even with transcripts containing up to 70% errors, a scenario where CTC models fail completely. Our implementation is available at https://github.com/k2-fsa/icefall.
翻訳日:2023-09-28 12:44:57 公開日:2023-09-26
# 因果樹林における相対的リスク不均質性

Targeting Relative Risk Heterogeneity with Causal Forests ( http://arxiv.org/abs/2309.15793v1 )

ライセンス: Link先を確認
Vik Shirvaikar and Chris Holmes(参考訳) 集団内の異なるサブグループに対する治療効果の多様性(teh)または治療効果の変動は、臨床試験分析において重要な関心事である。 因果樹林(Wager and Athey, 2018)はこの問題に対する非常に一般的な方法であるが、TEHを検出する他の多くの方法と同様に、サブグループを分離するための基準は絶対リスクの違いに焦点を当てている。 これは相対リスクのニュアンスを隠蔽することで統計力を希薄にすることができるが、これは多くの場合、より適切な臨床関心量である。 本研究では,一般化線形モデル(GLM)の比較に基づく新しいノード分割手法を用いて,相対的リスクを目標とする因果林の修正手法を提案し,実装する。 本研究では, 相対的リスク因果樹林が不均質な源泉を捕捉できることを示すシミュレーションデータと実世界のデータについて報告する。

Treatment effect heterogeneity (TEH), or variability in treatment effect for different subgroups within a population, is of significant interest in clinical trial analysis. Causal forests (Wager and Athey, 2018) is a highly popular method for this problem, but like many other methods for detecting TEH, its criterion for separating subgroups focuses on differences in absolute risk. This can dilute statistical power by masking nuance in the relative risk, which is often a more appropriate quantity of clinical interest. In this work, we propose and implement a methodology for modifying causal forests to target relative risk using a novel node-splitting procedure based on generalized linear model (GLM) comparison. We present results on simulated and real-world data that suggest relative risk causal forests can capture otherwise unobserved sources of heterogeneity.
翻訳日:2023-09-28 12:44:43 公開日:2023-09-26
# ANNCRIPS: 癌研究のための予測と生存のためのニューラルネットワーク

ANNCRIPS: Artificial Neural Networks for Cancer Research In Prediction & Survival ( http://arxiv.org/abs/2309.15803v1 )

ライセンス: Link先を確認
Amit Mathapati(参考訳) 前立腺がんは50歳以上の男性に多い悪性腫瘍である。 現在の診断法は主に血液検査、PSA:前立腺特異的抗原レベル、DRE(Digital Rectal Examinations)に依存している。 しかし、これらの方法はかなりの偽陽性率に苦しむ。 本研究は,ニューラルネットワーク(anns)を用いて,前立腺癌の早期発見を促進するインテリジェントな数学的モデルの開発と検証に焦点をあてる。 本研究の目的は,前立腺癌の早期発見を支援する新しい数学的モデルを提供することであり,医療従事者による迅速な介入を促進することにある。 このモデルの実装は、偽陽性の発生率を減らし、患者の結果を改善する有望な可能性を示す。 さらに,さらなる精細化,広範な検査,検証によって,前立腺癌検出のための堅牢で市場性の高いソリューションへと進化することを期待している。 長期的な目標は、このソリューションを様々なスクリーニングセンター、病院、研究機関に展開しやすくすることであり、最終的にはより効果的ながんスクリーニングと患者ケアに寄与する。

Prostate cancer is a prevalent malignancy among men aged 50 and older. Current diagnostic methods primarily rely on blood tests, PSA:Prostate-Specific Antigen levels, and Digital Rectal Examinations (DRE). However, these methods suffer from a significant rate of false positive results. This study focuses on the development and validation of an intelligent mathematical model utilizing Artificial Neural Networks (ANNs) to enhance the early detection of prostate cancer. The primary objective of this research paper is to present a novel mathematical model designed to aid in the early detection of prostate cancer, facilitating prompt intervention by healthcare professionals. The model's implementation demonstrates promising potential in reducing the incidence of false positives, thereby improving patient outcomes. Furthermore, we envision that, with further refinement, extensive testing, and validation, this model can evolve into a robust, marketable solution for prostate cancer detection. The long-term goal is to make this solution readily available for deployment in various screening centers, hospitals, and research institutions, ultimately contributing to more effective cancer screening and patient care.
翻訳日:2023-09-28 12:31:21 公開日:2023-09-26
# AIの嘘をつかむ方法:無関係な質問をすることでブラックボックスのLLMの嘘検出

How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions ( http://arxiv.org/abs/2309.15840v1 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Alex J. Chan, S\"oren Mindermann, Ilan Moscovitz, Alexa Y. Pan, Yarin Gal, Owain Evans, Jan Brauner(参考訳) 大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽文を出力するものとして定義できる。 例えば、誤情報を出力するように指示された場合、LLMは「十分」かもしれない。 本稿では,LCMのアクティベーション(ブラックボックス)へのアクセスも,問題となっている事実の地味な知識も必要としない簡易な嘘検出装置を開発する。 この検出器は、疑わしい嘘の後に予め定義された無関係なフォローアップ質問のセットを問うことで動作し、llmのyes/no回答をロジスティック回帰分類器に供給する。 シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。 1つの設定から例を訓練すると、GPT-3.5は事実の疑問に答えるため、(1)他のLCMアーキテクチャー、(2)微調整されたLCM、(3)サイコファンの嘘、(4)販売などの現実のシナリオに現れている。 これらの結果から,LLMはアーキテクチャやコンテキスト間で一貫した振る舞いパターンを持ち,汎用的な嘘検出を可能にすることが示唆された。

Large language models (LLMs) can "lie", which we define as outputting false statements despite "knowing" the truth in a demonstrable sense. LLMs might "lie", for example, when instructed to output misinformation. Here, we develop a simple lie detector that requires neither access to the LLM's activations (black-box) nor ground-truth knowledge of the fact in question. The detector works by asking a predefined set of unrelated follow-up questions after a suspected lie, and feeding the LLM's yes/no answers into a logistic regression classifier. Despite its simplicity, this lie detector is highly accurate and surprisingly general. When trained on examples from a single setting -- prompting GPT-3.5 to lie about factual questions -- the detector generalises out-of-distribution to (1) other LLM architectures, (2) LLMs fine-tuned to lie, (3) sycophantic lies, and (4) lies emerging in real-life scenarios such as sales. These results indicate that LLMs have distinctive lie-related behavioural patterns, consistent across architectures and contexts, which could enable general-purpose lie detection.
翻訳日:2023-09-28 12:24:46 公開日:2023-09-26
# 機械学習によるcovid-19後の持続性炎症性バイオマーカーの自動検出

Automated Detection of Persistent Inflammatory Biomarkers in Post-COVID-19 Patients Using Machine Learning Techniques ( http://arxiv.org/abs/2309.15838v1 )

ライセンス: Link先を確認
Ghizal Fatima, Fadhil G. Al-Amran, Maitham G. Yousif(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、急性期以降の炎症を含む多くの症状を経験する個人に持続的な影響を残している。 これらの炎症性バイオマーカーの検出とモニタリングは、タイムリーな介入と患者の予後改善に重要である。 本研究は,イラクの病院から収集された医療データをもとに,290例の慢性炎症性バイオマーカーの同定を機械学習を用いて自動化する。 このデータには、C反応性蛋白とインターロイキン6レベル、患者の人口動態、コオービデンス、治療履歴など、幅広い臨床パラメータが含まれていた。 機械学習解析のためのデータセットを最適化するために、厳密なデータ前処理と特徴選択プロセスを実装した。 予測モデルを構築するために、ロジスティック回帰、ランダムフォレスト、サポートベクターマシン、勾配向上など、さまざまな機械学習アルゴリズムが導入された。 これらのモデルは有望な結果を示し、持続性炎症患者の同定に高い精度と精度を示した。 本研究の結果は,covid-19後の持続性炎症性バイオマーカー検出における機械学習の可能性を強調している。 これらのモデルは、医療提供者にとって貴重なツールとなり、持続性炎症のリスクのある個人のために早期診断とパーソナライズされた治療戦略を促進する。 キーワード:新型コロナウイルス、ポスト新型コロナウイルス、炎症、バイオマーカー、機械学習、早期検出。

The COVID-19 pandemic has left a lasting impact on individuals, with many experiencing persistent symptoms, including inflammation, in the post-acute phase of the disease. Detecting and monitoring these inflammatory biomarkers is critical for timely intervention and improved patient outcomes. This study employs machine learning techniques to automate the identification of persistent inflammatory biomarkers in 290 post-COVID-19 patients, based on medical data collected from hospitals in Iraq. The data encompassed a wide array of clinical parameters, such as C-reactive protein and interleukin-6 levels, patient demographics, comorbidities, and treatment histories. Rigorous data preprocessing and feature selection processes were implemented to optimize the dataset for machine learning analysis. Various machine learning algorithms, including logistic regression, random forests, support vector machines, and gradient boosting, were deployed to construct predictive models. These models exhibited promising results, showcasing high accuracy and precision in the identification of patients with persistent inflammation. The findings of this study underscore the potential of machine learning in automating the detection of persistent inflammatory biomarkers in post-COVID-19 patients. These models can serve as valuable tools for healthcare providers, facilitating early diagnosis and personalized treatment strategies for individuals at risk of persistent inflammation, ultimately contributing to improved post-acute COVID-19 care and patient well-being. Keywords: COVID-19, post-COVID-19, inflammation, biomarkers, machine learning, early detection.
翻訳日:2023-09-28 12:23:19 公開日:2023-09-26
# 集団コミュニケーションのための効率的な直接接続トポロジー

Efficient Direct-Connect Topologies for Collective Communications ( http://arxiv.org/abs/2202.03356v4 )

ライセンス: Link先を確認
Liangyu Zhao and Siddharth Pal and Tapan Chugh and Weiyang Wang and Jason Fantl and Prithwish Basu and Joud Khoury and Arvind Krishnamurthy(参考訳) 集団コミュニケーションのための効率的なネットワークトポロジーを蒸留する問題を考える。 ワークロードに関連するレイテンシと帯域幅のトレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。 提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。 我々のアルゴリズムは、小さな最適なベーストポロジと関連する通信スケジュールから始まり、より大きなトポロジとスケジュールを導出するために反復的に適用可能な一連のテクニックを使用する。 さらに,新しい多項式時間アルゴリズムを用いて効率的な集合スケジュールを生成することにより,大規模グラフトポロジをアルゴリズムフレームワークに組み込む。 評価では,複数のテストベッドと大規模シミュレーションを用いて,派生したトポロジやスケジュールから大きなパフォーマンス上のメリットを示す。

We consider the problem of distilling efficient network topologies for collective communications. We provide an algorithmic framework for constructing direct-connect topologies optimized for the latency vs. bandwidth trade-off associated with the workload. Our approach synthesizes many different topologies and schedules for a given cluster size and degree and then identifies the appropriate topology and schedule for a given workload. Our algorithms start from small, optimal base topologies and associated communication schedules and use a set of techniques that can be iteratively applied to derive much larger topologies and schedules. Additionally, we incorporate well-studied large-scale graph topologies into our algorithmic framework by producing efficient collective schedules for them using a novel polynomial-time algorithm. Our evaluation uses multiple testbeds and large-scale simulations to demonstrate significant performance benefits from our derived topologies and schedules.
翻訳日:2023-09-28 10:36:45 公開日:2023-09-26
# 羅生門重要度分布:不安定かつ単一モデルに基づく可変値のRID化

The Rashomon Importance Distribution: Getting RID of Unstable, Single Model-based Variable Importance ( http://arxiv.org/abs/2309.13775v2 )

ライセンス: Link先を確認
Jon Donnelly, Srikar Katta, Cynthia Rudin, Edward P. Browne(参考訳) 可変重要度を定量化することは、遺伝学、公共政策、医学などの分野における高リスクな質問に答えるために不可欠である。 現在の手法は一般に、与えられたデータセットでトレーニングされた与えられたモデルに対する変数の重要度を計算する。 しかし、あるデータセットに対して、ターゲットとなる結果について等しく説明できる多くのモデルが存在するかもしれない。 さらに、与えられたデータセットの可能なすべての説明を考慮に入れたとしても、これらの洞察は一般化しないかもしれない。 本稿では,すべての優れたモデルの集合における変数の重要性を定量化し,データ分布全体で安定な新しい変数重要度フレームワークを提案する。 私たちのフレームワークは非常に柔軟で、既存のモデルクラスやグローバル変数重要度メトリクスと統合できます。 実験により,提案手法は他の手法が失敗する複雑なシミュレーション環境において,変数重要度ランキングを回復することを示した。 さらに,本フレームワークは,基礎となるデータ分布に対する変数の真の重要性を正確に推定する。 推定器の整合性および有限サンプル誤差率に関する理論的保証を提供する。 最後に、HIV感染者のHIV負荷を予測するためにどの遺伝子が重要であるかを実世界のケーススタディで検証し、これまで研究されていない重要な遺伝子を強調した。 コードはここにある。

Quantifying variable importance is essential for answering high-stakes questions in fields like genetics, public policy, and medicine. Current methods generally calculate variable importance for a given model trained on a given dataset. However, for a given dataset, there may be many models that explain the target outcome equally well; without accounting for all possible explanations, different researchers may arrive at many conflicting yet equally valid conclusions given the same data. Additionally, even when accounting for all possible explanations for a given dataset, these insights may not generalize because not all good explanations are stable across reasonable data perturbations. We propose a new variable importance framework that quantifies the importance of a variable across the set of all good models and is stable across the data distribution. Our framework is extremely flexible and can be integrated with most existing model classes and global variable importance metrics. We demonstrate through experiments that our framework recovers variable importance rankings for complex simulation setups where other methods fail. Further, we show that our framework accurately estimates the true importance of a variable for the underlying data distribution. We provide theoretical guarantees on the consistency and finite sample error rates for our estimator. Finally, we demonstrate its utility with a real-world case study exploring which genes are important for predicting HIV load in persons with HIV, highlighting an important gene that has not previously been studied in connection with HIV. Code is available here.
翻訳日:2023-09-28 10:22:47 公開日:2023-09-26
# 放射線科医の正確なcxr診断への集中度:制御可能で解釈可能なaiシステム

Decoding Radiologists Intense Focus for Accurate CXR Diagnoses: A Controllable and Interpretable AI System ( http://arxiv.org/abs/2309.13550v2 )

ライセンス: Link先を確認
Trong Thang Pham, Jacob Brecheisen, Anh Nguyen, Hien Nguyen, Ngan Le(参考訳) 胸部X線診断(CXR)の分野では、既存の研究は、放射線技師がどこに見えるか、通常、検出、セグメンテーション、分類などのタスクによって決定することのみに焦点を当てることが多い。 しかしながら、これらのアプローチはしばしばブラックボックスモデルとして設計され、解釈性に欠ける。 本稿では,cxr診断における放射線科医の集中度をデコードするための新しい統一的な制御可能なパイプラインを提案する。 私たちのアプローチでは、3つの重要な疑問に対処しています。放射線科医が見ている場所、特定の領域に集中する時間、診断結果です。 放射線科医の視線の強さを捉えることで、放射線学的な解釈の基礎となる認知過程についての洞察を提供する統一的なソリューションを提供する。 診断処理中に入力画像全体から誤情報を抽出する傾向にあるブラックボックス機械学習モデルに依存する現在の手法とは異なり、無関係な情報を効果的にマスキングすることでこの問題に対処する。 提案手法は視覚言語モデルを利用して解釈過程を正確に制御し,無関係な特徴の排除を確実にする。 本モデルでは,眼球データを用いて解剖学的視線情報を抽出し,地上の真理熱マップを生成する。 実験により,本手法の有効性を実証した。 放射線学者の焦点を真似た注意熱マップが十分な情報をエンコードし,CXRの一部のみを用いて正確な分類作業を可能にすることを示す。

In the field of chest X-ray (CXR) diagnosis, existing works often focus solely on determining where a radiologist looks, typically through tasks such as detection, segmentation, or classification. However, these approaches are often designed as black-box models, lacking interpretability. In this paper, we introduce a novel and unified controllable interpretable pipeline for decoding the intense focus of radiologists in CXR diagnosis. Our approach addresses three key questions: where a radiologist looks, how long they focus on specific areas, and what findings they diagnose. By capturing the intensity of the radiologist's gaze, we provide a unified solution that offers insights into the cognitive process underlying radiological interpretation. Unlike current methods that rely on black-box machine learning models, which can be prone to extracting erroneous information from the entire input image during the diagnosis process, we tackle this issue by effectively masking out irrelevant information. Our approach leverages a vision-language model, allowing for precise control over the interpretation process while ensuring the exclusion of irrelevant features. To train our model, we utilize an eye gaze dataset to extract anatomical gaze information and generate ground truth heatmaps. Through extensive experimentation, we demonstrate the efficacy of our method. We showcase that the attention heatmaps, designed to mimic radiologists' focus, encode sufficient and relevant information, enabling accurate classification tasks using only a portion of CXR.
翻訳日:2023-09-28 10:22:06 公開日:2023-09-26
# Hofstadter butterflies と moir\'e ヘテロ構造の金属/絶縁体転移

Hofstadter butterflies and metal/insulator transitions for moir\'e heterostructures ( http://arxiv.org/abs/2206.11891v2 )

ライセンス: Link先を確認
Simon Becker, Lingrui Ge, Jens Wittsten(参考訳) 我々はTimmel と Mele が最近導入したタイトバインディングモデルについて考察する。 層対称せん断ひずみを印加したハニカム格子を2つ考慮し, 格子間のトンネルを1つの異なる方向に周期的に変調する。 これにより、モデルを1つの空間次元に効果的に還元し、行列値準周期作用素の理論に従わせることができる。 次に,このシステムの輸送特性とスペクトル特性について検討し,ホフスタッター型蝶の出現を解説した。 十分な計算不可能なモワール長と格子間の強い結合のために、これは局所化現象を引き起こす。

We consider a tight-binding model recently introduced by Timmel and Mele for strained moir\'e heterostructures. We consider two honeycomb lattices to which layer antisymmetric shear strain is applied to periodically modulate the tunneling between the lattices in one distinguished direction. This effectively reduces the model to one spatial dimension and makes it amenable to the theory of matrix-valued quasi-periodic operators. We then study the transport and spectral properties of this system, explaining the appearance of a Hofstadter-type butterfly. For sufficiently incommensurable moir\'e length and strong coupling between the lattices this leads to the occurrence of localization phenomena.
翻訳日:2023-09-27 21:01:41 公開日:2023-09-26
# 補助情報へのアクセスによる最適化

Optimization with Access to Auxiliary Information ( http://arxiv.org/abs/2206.00395v3 )

ライセンス: Link先を確認
El Mahdi Chayti and Sai Praneeth Karimireddy(参考訳) 目的関数 $f$ を最小化するための基本的な最適化問題について検討し,その勾配が計算に費用がかかるか,可用性が限られているかについて検討する。 この定式化は、実用的関連性の多くの設定をキャプチャする。 i)SGDにおけるバッチの再利用 ii) 転帰学習 三 連合学習 四 圧縮モデル/ドロップアウト等による訓練 これらすべての設定に適用可能な2つの汎用的な新しいアルゴリズムを提案し,対象と側情報とのヘッセン類似性を前提として,このフレームワークの利点を証明した。 また, この類似度尺度が小さい場合には, 補助雑音と対象関数の相関関係がある場合には, 確率性による潜在的な利点を示す。

We investigate the fundamental optimization question of minimizing a target function $f$, whose gradients are expensive to compute or have limited availability, given access to some auxiliary side function $h$ whose gradients are cheap or more available. This formulation captures many settings of practical relevance, such as i) re-using batches in SGD, ii) transfer learning, iii) federated learning, iv) training with compressed models/dropout, etc. We propose two generic new algorithms that apply in all these settings and prove that we can benefit from this framework using only an assumption on the Hessian similarity between the target and side information. A benefit is obtained when this similarity measure is small, we also show a potential benefit from stochasticity when the auxiliary noise is correlated with that of the target function.
翻訳日:2023-09-27 21:01:30 公開日:2023-09-26
# 時間から秒:微分顕微鏡による100倍高速な定量位相イメージング

From Hours to Seconds: Towards 100x Faster Quantitative Phase Imaging via Differentiable Microscopy ( http://arxiv.org/abs/2205.11521v2 )

ライセンス: Link先を確認
Udith Haputhanthri, Kithmini Herath, Ramith Hettiarachchi, Hasindu Kariyawasam, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage(参考訳) メタボロミクスから病理組織学まで、定量的位相顕微鏡(qpm)は強力なラベルフリーイメージングモードである。 高速多重撮像センサとディープラーニングに基づく逆解法が大幅に進歩したにもかかわらず、qpmのスループットは電子ハードウェアの速度によって制限されている。 本稿では、スループットをさらに向上するために、既存の電子ハードウェアボトルネックを超えてより多くの情報を転送できるように圧縮された画像を取得することを提案する。 そこで本研究では,コンテンツ固有の特徴を学習可能な光学圧縮圧縮フレームワークを提案する。 提案した定量位相顕微鏡($\partial \mu$)は、まず学習可能な光学的特徴抽出器を画像圧縮機として使用する。 これらのネットワークによって生成される強度表現は、撮像センサによってキャプチャされる。 最後に、電子ハードウェア上で動作する再構成ネットワークは、qpm画像をデ圧縮する。 数値実験では,セル上のSSIMの$\sim 0.90$とPSNRの$\sim 30$dBを維持しながら,$\times$64の圧縮を実現する。 実験によって実証された結果は、前例のないスループット向上をもたらす可能性のある、エンドツーエンド最適化(光学と電子)のコンパクトQPMシステムを実現するための新しい経路を開く。

With applications ranging from metabolomics to histopathology, quantitative phase microscopy (QPM) is a powerful label-free imaging modality. Despite significant advances in fast multiplexed imaging sensors and deep-learning-based inverse solvers, the throughput of QPM is currently limited by the speed of electronic hardware. Complementarily, to improve throughput further, here we propose to acquire images in a compressed form such that more information can be transferred beyond the existing electronic hardware bottleneck. To this end, we present a learnable optical compression-decompression framework that learns content-specific features. The proposed differentiable quantitative phase microscopy ($\partial \mu$) first uses learnable optical feature extractors as image compressors. The intensity representation produced by these networks is then captured by the imaging sensor. Finally, a reconstruction network running on electronic hardware decompresses the QPM images. In numerical experiments, the proposed system achieves compression of $\times$ 64 while maintaining the SSIM of $\sim 0.90$ and PSNR of $\sim 30$ dB on cells. The results demonstrated by our experiments open up a new pathway for achieving end-to-end optimized (i.e., optics and electronic) compact QPM systems that may provide unprecedented throughput improvements.
翻訳日:2023-09-27 21:01:17 公開日:2023-09-26
# 自己共役拡張スキームと量子ハミルトンへの応用

Self-adjoint extension schemes and modern applications to quantum Hamiltonians ( http://arxiv.org/abs/2201.10205v4 )

ライセンス: Link先を確認
Matteo Gallone and Alessandro Michelangeli(参考訳) This monograph contains revised and enlarged materials from previous lecture notes of undergraduate and graduate courses and seminars delivered by both authors over the last years on a subject that is central both in abstract operator theory and in applications to quantum mechanics: to decide whether a given densely defined and symmetric operator on Hilbert space admits a unique self-adjoint realisation, namely its operator closure, or whether instead it admits an infinite multiplicity of distinct self-adjoint extensions, and in the latter case to classify them and characterise their main features (operator and quadratic form domains, spectrum, etc.) This is at the same time a very classical, well established field, corresponding to the first part of the monograph, and a territory of novel, modern applications, a selection of which, obviously subjective to some extent, but also driven by a pedagogical criterion, is presented in depth in the second part. A number of models are discussed, which are receiving today new or renewed interest in mathematical physics, in particular from the point of view of realising certain operators of interests self-adjointly, classifying their self-adjoint extensions as actual quantum Hamiltonians, studying their spectral and scattering properties, and the like, but also from the point of view of intermediate technical questions that have theoretical interest per se, such as characterising the corresponding operator closures and adjoints.

This monograph contains revised and enlarged materials from previous lecture notes of undergraduate and graduate courses and seminars delivered by both authors over the last years on a subject that is central both in abstract operator theory and in applications to quantum mechanics: to decide whether a given densely defined and symmetric operator on Hilbert space admits a unique self-adjoint realisation, namely its operator closure, or whether instead it admits an infinite multiplicity of distinct self-adjoint extensions, and in the latter case to classify them and characterise their main features (operator and quadratic form domains, spectrum, etc.) This is at the same time a very classical, well established field, corresponding to the first part of the monograph, and a territory of novel, modern applications, a selection of which, obviously subjective to some extent, but also driven by a pedagogical criterion, is presented in depth in the second part. A number of models are discussed, which are receiving today new or renewed interest in mathematical physics, in particular from the point of view of realising certain operators of interests self-adjointly, classifying their self-adjoint extensions as actual quantum Hamiltonians, studying their spectral and scattering properties, and the like, but also from the point of view of intermediate technical questions that have theoretical interest per se, such as characterising the corresponding operator closures and adjoints.
翻訳日:2023-09-27 21:00:59 公開日:2023-09-26
# 自己と相互にエキサイティングな時系列から因果グラフの発見

Causal Graph Discovery from Self and Mutually Exciting Time Series ( http://arxiv.org/abs/2106.02600v5 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 時系列から因果指向非巡回グラフ (DAG) を復元するために, 線形因果モデルと新しいデータ適応線形正則化を組み合わせた一般化線形因果モデルを提案する。 最近開発された確率的単調変分不等式(vi)の定式化を利用して,因果発見問題を一般凸最適化として位置づけた。 さらに,幅広い非線形モノトンリンク関数に対する信頼区間を確立するための線形プログラムを解いて,非漸近的回復保証と定量化可能不確実性を開発する。 実験の結果を検証し, 広範な数値実験により, 提案手法の競争力を示す。 最も重要なことは、セプシス関連乱れ (SAD) に対する高度に解釈可能な因果DAGの復元におけるアプローチの有効性を示すと同時に、XGBoost のような強力な `black-box' モデルに匹敵する予測性能を実現することである。 したがって, 今後, 高リスク患者を臨床医が継続的に監視する手法が採用される可能性が高い。

We present a generalized linear structural causal model, coupled with a novel data-adaptive linear regularization, to recover causal directed acyclic graphs (DAGs) from time series. By leveraging a recently developed stochastic monotone Variational Inequality (VI) formulation, we cast the causal discovery problem as a general convex optimization. Furthermore, we develop a non-asymptotic recovery guarantee and quantifiable uncertainty by solving a linear program to establish confidence intervals for a wide range of non-linear monotone link functions. We validate our theoretical results and show the competitive performance of our method via extensive numerical experiments. Most importantly, we demonstrate the effectiveness of our approach in recovering highly interpretable causal DAGs over Sepsis Associated Derangements (SADs) while achieving comparable prediction performance to powerful ``black-box'' models such as XGBoost. Thus, the future adoption of our proposed method to conduct continuous surveillance of high-risk patients by clinicians is much more likely.
翻訳日:2023-09-27 21:00:43 公開日:2023-09-26
# 確率的世界

The probabilistic world ( http://arxiv.org/abs/2011.02867v2 )

ライセンス: Link先を確認
C. Wetterich(参考訳) 物理学は、数学的記述の基本的な実体としての確率に基づいている。 観測可能な物の期待値は、古典的な統計規則に従って計算される。 1つの世界の全体の確率分布は、常にカバーされる。 量子フォーマリズムは、ある超曲面から隣接する表面への時間局所確率情報の輸送に焦点が当てられると生じる。 波動関数や密度行列は古典統計学の一般線型進化法則を定式化することができる。 古典統計学の密度行列は、一般化したイジングモデルの概念を基底変換、運動量観測可能および関連するフーリエ表現、あるいは密度行列のサブトラスによるサブシステムの定義として実装できる強力なツールである。 観測可能量に対する作用素の関連は、通常の量子規則による密度行列の観点から期待値の計算を可能にする。 確率的セルオートマトンは離散時間ステップと実波関数を持つ定式化の量子系であることを示す。 オートマトンに対する進化作用素はフェルミオン生成および消滅作用素の観点で表すことができる。 時間局所確率情報は、過去と未来からなる環境と相関する全体確率システムのサブシステムに相当する。 このようなサブシステムは一般に確率的観測可能であり、測定可能な値の確率分布のみが利用できる。 不完全統計学では、任意のサブシステム・オブザーバブルに対する古典的相関関数を計算できない。 ベルの不等式は一般には適用されない。

Physics is based on probabilities as fundamental entities of a mathematical description. Expectation values of observables are computed according to the classical statistical rule. The overall probability distribution for one world covers all times. The quantum formalism arises once one focuses on the transport of the time-local probabilistic information from one hypersurface to a neighboring one. Wave functions or the density matrix allow the formulation of a general linear evolution law for classical statistics. The density matrix for classical statistics is a powerful tool which allows us to implement for generalized Ising models concepts as basis transformations, the momentum observable and the associated Fourier representation, or the definition of subsystems by subtraces of the density matrix. The association of operators to observables permits the computation of expectation values in terms of the density matrix by the usual quantum rule. We show that probabilistic cellular automata are quantum systems in a formulation with discrete time steps and real wave functions. The evolution operator for automata can be expressed in terms of fermionic creation and annihilation operators. The time-local probabilistic information amounts to a subsystem of the overall probabilistic system which is correlated with its environment consisting of the past and future. Such subsystems typically involve probabilistic observables for which only a probability distribution for their possible measurement values is available. Incomplete statistics does not permit to compute classical correlation functions for arbitrary subsystem-observables since different overall observables are mapped to the same subsystem observable. Bell's inequalities are not generally applicable.
翻訳日:2023-09-27 21:00:16 公開日:2023-09-26
# 機械学習モデルのステートフルディフェンスは、ブラックボックス攻撃に対してまだ安全ではない

Stateful Defenses for Machine Learning Models Are Not Yet Secure Against Black-box Attacks ( http://arxiv.org/abs/2303.06280v3 )

ライセンス: Link先を確認
Ryan Feng, Ashish Hooda, Neal Mangaokar, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) 最近の研究で、ステートフルディフェンスモデル(SDM)は、オンライン機械学習プラットフォームで一般的なように、モデルへのクエリアクセスしか持たないブラックボックス攻撃に対して、強力な防御戦略として提案されている。 このようなステートフルディフェンスは、クエリ履歴を追跡し、"類似"なクエリを検出して拒否することにより、ブラックボックスアタックが有用な勾配を見つけるのを防ぎ、適切なクエリ予算内で敵攻撃を見つけることによるブラックボックスアタックに対する防御を目指している。 最近のsdm(例えばblacklightやpiha)は、最先端のブラックボックス攻撃に対する防御に顕著な成功を収めている。 本稿では,sdmが適応ブラックボックス攻撃の新たなクラスに対して非常に脆弱であることを示す。 我々は,Oracle-Guided Adaptive Rejection Smpling (OARS) と呼ばれる新たな適応型ブラックボックス攻撃戦略を提案し,(1) 初期クエリパターンを用いてSDMの防御に関する重要な特性を推測し,(2) 抽出したプロパティを活用してその後のクエリパターンを設計し,SDMの防御を回避する。 OARSは、既存のブラックボックス攻撃の強化として広く適用されており、現在のSDMのクラスに対してより効果的に6つの一般的なブラックボックス攻撃を強化する戦略の適用方法を示す。 例えば、oarsで強化されたブラックボックス攻撃は、合理的なクエリ予算内で、最近のステートフル防御に対する攻撃成功率をほぼ0%から100%に改善した。

Recent work has proposed stateful defense models (SDMs) as a compelling strategy to defend against a black-box attacker who only has query access to the model, as is common for online machine learning platforms. Such stateful defenses aim to defend against black-box attacks by tracking the query history and detecting and rejecting queries that are "similar" and thus preventing black-box attacks from finding useful gradients and making progress towards finding adversarial attacks within a reasonable query budget. Recent SDMs (e.g., Blacklight and PIHA) have shown remarkable success in defending against state-of-the-art black-box attacks. In this paper, we show that SDMs are highly vulnerable to a new class of adaptive black-box attacks. We propose a novel adaptive black-box attack strategy called Oracle-guided Adaptive Rejection Sampling (OARS) that involves two stages: (1) use initial query patterns to infer key properties about an SDM's defense; and, (2) leverage those extracted properties to design subsequent query patterns to evade the SDM's defense while making progress towards finding adversarial inputs. OARS is broadly applicable as an enhancement to existing black-box attacks - we show how to apply the strategy to enhance six common black-box attacks to be more effective against current class of SDMs. For example, OARS-enhanced versions of black-box attacks improved attack success rate against recent stateful defenses from almost 0% to to almost 100% for multiple datasets within reasonable query budgets.
翻訳日:2023-09-27 20:55:58 公開日:2023-09-26
# 半古典周期軌道をカオス多体ハミルトニアンに埋め込む

Embedding semiclassical periodic orbits into chaotic many-body Hamiltonians ( http://arxiv.org/abs/2303.01359v2 )

ライセンス: Link先を確認
Andrew Hallam, Jean-Yves Desaules, Zlatko Papi\'c(参考訳) カオス環境からコヒーレント量子力学を保護することは、脆弱な多体現象の実現とその量子技術への応用の鍵となる。 我々は、望ましい周期軌道を非可積分多体ハミルトニアンの族に埋め込む一般的な構成を示す。 我々の構成は、量子力学を低エンタングル状態の多様体に投影する時間依存変分原理に基づいており、量子多体スカーとして知られる非熱固有状態を熱化スペクトルに埋め込む以前のアプローチを補完している。 変動多様体の外側の力学の「推論」を抑える用語を設計することにより、駆動されたAffleck-Kennedy-Lieb-Tasakiモデルと近年の超伝導量子ビット鎖における傷跡の実験的実現を例示して、正確な傷跡を包含するFloquetモデルのファミリを設計する。

Protecting coherent quantum dynamics from chaotic environment is key to realizations of fragile many-body phenomena and their applications in quantum technology. We present a general construction that embeds a desired periodic orbit into a family of non-integrable many-body Hamiltonians, whose dynamics is otherwise chaotic. Our construction is based on time dependent variational principle that projects quantum dynamics onto a manifold of low-entangled states, and it complements earlier approaches for embedding non-thermal eigenstates, known as quantum many-body scars, into thermalizing spectra. By designing terms that suppress "leakage" of the dynamics outside the variational manifold, we engineer families of Floquet models that host exact scarred dynamics, as we illustrate using a driven Affleck-Kennedy-Lieb-Tasaki model and a recent experimental realization of scars in a dimerized superconducting qubit chain.
翻訳日:2023-09-27 20:55:27 公開日:2023-09-26
# 多様体上の高速かつ正確な最適輸送のための測地シンクホーン

Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds ( http://arxiv.org/abs/2211.00805v2 )

ライセンス: Link先を確認
Guillaume Huguet, Alexander Tong, Mar\'ia Ramos Zapatero, Christopher J. Tape, Guy Wolf, Smita Krishnaswamy(参考訳) 分散間の最適な輸送距離の効率的な計算は、データ科学において重要である。 シンクホーン法は、現在そのような計算の最先端であるが、$O(n^2)$計算を必要とする。 さらにシンクホーンに基づく手法では、データポイント間のユークリッド基底距離が一般的である。 しかしながら、多様体構造科学データの普及に伴い、測地線距離を考えることがしばしば望ましい。 ここでは、多様体グラフ上の熱核の拡散に基づくGeodesic Sinkhornの提案により、両方の問題に取り組む。 特に、Geodesic Sinkhorn はスパースグラフ Laplacian に基づいた Chebyshev 多項式で熱核を近似するため、$O(n\log n)$計算しか必要としない。 本手法は,化学療法中の患者サンプルからの高次元単細胞データ数分布のバリセンタの計算に応用する。 特に、バリ中心距離を2つのそのようなバリ中心間の距離と定義する。 この定義を用いて,処理が細胞データに与える影響に関連する最適な輸送距離と経路を同定する。

Efficient computation of optimal transport distance between distributions is of growing importance in data science. Sinkhorn-based methods are currently the state-of-the-art for such computations, but require $O(n^2)$ computations. In addition, Sinkhorn-based methods commonly use an Euclidean ground distance between datapoints. However, with the prevalence of manifold structured scientific data, it is often desirable to consider geodesic ground distance. Here, we tackle both issues by proposing Geodesic Sinkhorn -- based on diffusing a heat kernel on a manifold graph. Notably, Geodesic Sinkhorn requires only $O(n\log n)$ computation, as we approximate the heat kernel with Chebyshev polynomials based on the sparse graph Laplacian. We apply our method to the computation of barycenters of several distributions of high dimensional single cell data from patient samples undergoing chemotherapy. In particular, we define the barycentric distance as the distance between two such barycenters. Using this definition, we identify an optimal transport distance and path associated with the effect of treatment on cellular data.
翻訳日:2023-09-27 20:54:11 公開日:2023-09-26
# 等次元コンパクト多様体上のベレジン型量子化

Berezin-type quantization on even-dimensional compact manifolds ( http://arxiv.org/abs/2210.08814v3 )

ライセンス: Link先を確認
Rukmini Dey and Kohinoor Ghosh(参考訳) 本稿では、コンパクトな偶次元多様体 $M^{2d}$ 上でベレジン型量子化が達成できることを示し、残余が $R^{2d}$ (セル分解) に微分されるような低い次元の骨格 $M_0$ を取り除き、$C^d$ と同一視して $CP^d$ に埋め込む。 cp^d$から局所ポアソン構造とベレジン型量子化を誘導する。 したがって、再生核を持つヒルベルト空間が存在する。 ヒルベルト空間上の有界線型作用素の記号は、測度 0 の集合の外側の対応原理を満たす星積を持つ。 この構成は微分同相に依存する。 大域的なホロノミーと、したがって多様体の細胞の分解を追跡する必要がある。 一例として、この種類のトーラスの量子化について説明する。 複素多様体のberezin-toeplitz量子化を上と同じ精神で示す。

In this article we show that a Berezin-type quantization can be achieved on a compact even dimensional manifold $M^{2d}$ by removing a skeleton $M_0$ of lower dimension such that what remains is diffeomorphic to $R^{2d}$ (cell decomposition) which we identify with $C^d$ and embed in $ CP^d$. A local Poisson structure and Berezin-type quantization are induced from $ CP^d$. Thus we have a Hilbert space with a reproducing kernel. The symbols of bounded linear operators on the Hilbert space have a star product which satisfies the correspondence principle outside a set of measure zero. This construction depends on the diffeomorphism. One needs to keep track of the global holonomy and hence the cell decomposition of the manifold. As an example, we illustrate this type of quanitzation of the torus. We exhibit Berezin-Toeplitz quantization of a complex manifold in the same spirit as above.
翻訳日:2023-09-27 20:53:56 公開日:2023-09-26
# フェデレーションエッジ学習のための平衡数系に基づくオーバーザ・エア計算

Over-the-Air Computation Based on Balanced Number Systems for Federated Edge Learning ( http://arxiv.org/abs/2210.07012v3 )

ライセンス: Link先を確認
Alphan Sahin(参考訳) 本研究では,フェデレーションエッジラーニング(feel)のための連続値集約を実現するためのoac(digital over-the-air computation)方式を提案する。 実数値パラメータの集合の平均は、対応する数字の平均を用いておおよそ計算できることを示し、この数値はバランスの取れた数系に基づいて得られる。 このキー特性を利用して、提案手法は局所確率勾配を数値の集合に符号化する。 次に、数値を用いて、活性化直交周波数分割多重化(OFDM)サブキャリアの位置を決定する。 正確なサンプルレベルの時間同期、チャネル推定オーバーヘッド、チャネルインバージョンの必要性を回避するため、提案手法ではエッジサーバ(ES)では非コヒーレント受信機を使用し、エッジデバイス(ED)では事前等化を利用できない。 提案手法のmse性能と非凸損失関数の収束率を理論的に解析した。 提案手法によりFEELのテスト精度を向上させるために,適応絶対最大値(AAM)の概念を導入する。 数値計算の結果,提案手法がFEELのAAMと併用された場合,テスト精度は異種データ分布の最大98%に達することがわかった。

In this study, we propose a digital over-the-air computation (OAC) scheme for achieving continuous-valued (analog) aggregation for federated edge learning (FEEL). We show that the average of a set of real-valued parameters can be calculated approximately by using the average of the corresponding numerals, where the numerals are obtained based on a balanced number system. By exploiting this key property, the proposed scheme encodes the local stochastic gradients into a set of numerals. Next, it determines the positions of the activated orthogonal frequency division multiplexing (OFDM) subcarriers by using the values of the numerals. To eliminate the need for precise sample-level time synchronization, channel estimation overhead, and channel inversion, the proposed scheme also uses a non-coherent receiver at the edge server (ES) and does not utilize a pre-equalization at the edge devices (EDs). We theoretically analyze the MSE performance of the proposed scheme and the convergence rate for a non-convex loss function. To improve the test accuracy of FEEL with the proposed scheme, we introduce the concept of adaptive absolute maximum (AAM). Our numerical results show that when the proposed scheme is used with AAM for FEEL, the test accuracy can reach up to 98% for heterogeneous data distribution.
翻訳日:2023-09-27 20:53:38 公開日:2023-09-26
# 乱れた量子スピン系における普遍緩和ダイナミクスの観察

Observation of universal relaxation dynamics in disordered quantum spin systems ( http://arxiv.org/abs/2209.08080v2 )

ライセンス: Link先を確認
Titus Franz, Sebastian Geier, Cl\'ement Hainaut, Adrian Braemer, Nithiwadee Thaicharoen, Moritz Hornung, Eduard Braun, Martin G\"arttner, Gerhard Z\"urn, and Matthias Weidem\"uller(参考訳) 量子多体系の平衡ダイナミクスを理解するための主要なゴールは、ダイナミクスがもはやシステムの微視的詳細に依存しないという意味で普遍性の兆候を見つけることである。 我々は、rydberg状態の適切な組み合わせを選択することで、rydberg原子量子シミュレータ上で多体スピン系を広範囲に実現する。 このプラットフォームを用いて、混乱したハイゼンベルク XX-, XXZ-, Ising Hamiltonian の磁化緩和ダイナミクスをスケーラブルな方法で比較する。 進化時間の適切な再スケーリングの後、全ての動力学は単一の曲線に崩壊する。 観測された挙動は、局所的なスピン対のみを考える可積分モデルによってほぼ捕捉される。 これらのペアは、乱れたハイゼンベルク量子スピン系の緩和ダイナミクスの普遍的な性質を説明するハミルトニアンの種類とは独立な振動を示す。

A major goal toward understanding far-from-equilibrium dynamics of quantum many-body systems consists in finding indications of universality in the sense that the dynamics no longer depends on microscopic details of the system. We realize a large range of many-body spin systems on a Rydberg atom quantum simulator by choosing appropriate Rydberg state combinations. We use this platform to compare the magnetization relaxation dynamics of disordered Heisenberg XX-, XXZ- and Ising Hamiltonians in a scalable fashion. After appropriate rescaling of evolution time, all the dynamics collapse onto a single curve. We find that the observed behavior is approximately captured by an integrable model that only considers local pairs of spins. These pairs exhibit oscillations independent of the type of Hamiltonian which explains the universal character of relaxation dynamics of disordered Heisenberg quantum spin systems.
翻訳日:2023-09-27 20:52:55 公開日:2023-09-26
# E2EG:グラフトポロジとテキストベースのノード属性を用いたエンドツーエンドノード分類

E2EG: End-to-End Node Classification Using Graph Topology and Text-based Node Attributes ( http://arxiv.org/abs/2208.04609v2 )

ライセンス: Link先を確認
Tu Anh Dinh, Jeroen den Boef, Joran Cornelisse, Paul Groth(参考訳) テキストベースのノード属性を用いたノード分類は、学術用引用グラフにおける論文トピックの予測から、ソーシャルメディアネットワークにおけるユーザ特性の分類まで、多くの現実の応用がある。 GIANTのような最先端のノード分類フレームワークでは、まずグラフノードのテキスト属性を埋め込み、その結果の埋め込みをノード分類モデルに供給する、2段階のパイプラインを使用する。 本稿では,この2つの段階を排除し,GIANT(End-to-End-GIANT, E2EG)に基づくエンドツーエンドノード分類モデルを開発する。 本手法における主目的と補助分類目的のタンデム利用により,より頑健なモデルが実現され,25%から40%のパラメータ削減が可能な蒸留エンコーダでは,bertバックボーンの切り換えが可能となった。 さらに、モデルのエンドツーエンドの性質は、ノード分類のための複数のモデルをチェーンする必要がないため、使いやすさを高める。 ogbn-arxivおよびogbn-productsデータセットのGIANT+MLPベースラインと比較して、E2EGはトランスダクティブ設定(+0.5%)において若干精度が向上し、モデルのトレーニング時間を最大40%短縮する。 我々のモデルは誘導的設定にも適用でき、GIANT+MLPを最大2.23%上回る。

Node classification utilizing text-based node attributes has many real-world applications, ranging from prediction of paper topics in academic citation graphs to classification of user characteristics in social media networks. State-of-the-art node classification frameworks, such as GIANT, use a two-stage pipeline: first embedding the text attributes of graph nodes then feeding the resulting embeddings into a node classification model. In this paper, we eliminate these two stages and develop an end-to-end node classification model that builds upon GIANT, called End-to-End-GIANT (E2EG). The tandem utilization of a main and an auxiliary classification objectives in our approach results in a more robust model, enabling the BERT backbone to be switched out for a distilled encoder with a 25% - 40% reduction in the number of parameters. Moreover, the model's end-to-end nature increases ease of use, as it avoids the need of chaining multiple models for node classification. Compared to a GIANT+MLP baseline on the ogbn-arxiv and ogbn-products datasets, E2EG obtains slightly better accuracy in the transductive setting (+0.5%), while reducing model training time by up to 40%. Our model is also applicable in the inductive setting, outperforming GIANT+MLP by up to +2.23%.
翻訳日:2023-09-27 20:52:42 公開日:2023-09-26
# 分極化学におけるパウリ原理

Pauli principle in polaritonic chemistry ( http://arxiv.org/abs/2307.03508v2 )

ライセンス: Link先を確認
Tam\'as Szidarovszky(参考訳) キャビティの量子化された放射モードと相互作用する分子アンサンブルの状態空間における、パウリ原理(スピン統計定理)によって要求される置換対称性の強制について論じる。 パウリが許容する集合状態は、群論、すなわち、状態空間を区別不能な分子の置換群の適切な既約表現に射影することによって得られる。 分子数の増加に伴い,パウリが許容する集団状態の比は急速に減少することが示された。 ボゾン状態はフェルミオン状態よりも豊富であり、パウリが許容する状態空間(光子励起状態からの寄与)の明るさは、物質基底(励起)状態多様体のエネルギー準位において微細な構造を増すにつれて増大(減少)する。 数値的な結果は、赤外線キャビティモードと相互作用するH$_2$O分子を緩和する現実的な例を示す。

Consequences of enforcing permutational symmetry, as required by the Pauli principle (spin-statistical theorem), on the state space of molecular ensembles interacting with the quantized radiation mode of a cavity are discussed. The Pauli-allowed collective states are obtained by means of group theory, i.e., by projecting the state space onto the appropriate irreducible representations of the permutation group of the indistinguishable molecules. It is shown that with increasing number of molecules the ratio of Pauli-allowed collective states decreases very rapidly. Bosonic states are more abundant than fermionic states, and the brightness of Pauli-allowed state space (contribution from photon excited states) increases(decreases) with increasing fine structure in the energy levels of the material ground(excited) state manifold. Numerical results are shown for the realistic example of rovibrating H$_2$O molecules interacting with an infrared (IR) cavity mode.
翻訳日:2023-09-27 20:44:49 公開日:2023-09-26
# ロデオ投影の最適化

Optimizing rodeo projection ( http://arxiv.org/abs/2305.19952v4 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) ロデオアルゴリズムは、離散スペクトル系に対する固定エネルギー状態への与えられた初期状態の投影のための量子コンピューティングの効率的な方法として最近提案されている。 ロデオアルゴリズムの初期定式化では、これらの時間は固定されたrms時間を持つガウス分布を介してランダムに選択された。 本稿では,このような時間選択のランダムなアプローチは,不必要な成分の抑制の指数関数的に大きな変動に苦しむことを示し,反復数が大きくなるにつれて,ランダム選択から得られる抑制因子の分布が,非常に大きな変動をもたらすログ正規分布に近づくことを示した。 このようなゆらぎをランダムにではなく意図的に時間を選択することで回避でき、抑制の厳密な上限を得ることができることに注意する。 さらに、固定計算コストを用いた平均抑制は、ランダムアルゴリズムと比較して桁違いに小さくすることができる。 これを行うための鍵は、極端に最大スケールから指数関数的に小さなスケールへと、指数関数的に多くのスケールで変化する時間を選択することである。

The rodeo algorithm has been proposed recently as an efficient method in quantum computing for projection of a given initial state onto a state of fixed energy for systems with discrete spectra. In the initial formulation of the rodeo algorithm these times were chosen randomly via a Gaussian distribution with fixed RMS times. In this paper it is shown that such a random approach for choosing times suffers from exponentially large fluctuations in the suppression of unwanted components: as the number of iterations gets large, the distribution of suppression factors obtained from random selection approaches a log-normal distribution leading to remarkably large fluctuations. We note that by choosing times intentionally rather than randomly such fluctuations can be avoided and strict upper bounds on the suppression can be obtained. Moreover, the average suppression using fixed computational cost can be reduced by many orders of magnitude relative to the random algorithm. A key to doing this is to choose times that vary over exponentially many times scales, starting from a modest maximum scale and going down to time scales exponentially smaller.
翻訳日:2023-09-27 20:44:20 公開日:2023-09-26
# ニュートン重力場における量子時計の時間拡張

Time dilation of quantum clocks in a Newtonian gravitational field ( http://arxiv.org/abs/2304.04281v2 )

ライセンス: Link先を確認
Tommaso Favalli and Augusto Smerzi(参考訳) 球状質量によって生成されるニュートン重力場と相互作用する2つの非相対論的量子時計を考える。 page と wootters のアプローチの枠組みでは、時計の時間状態の時間拡張を導出する。 遅延はシュワルツシルト計量から得られる重力時間拡張と一階まで一致している。 この結果は相対論的重力ポテンシャルを考えることで拡張できる:この場合、正確なシュワルツシルト解との一致を得る。

We consider two non-relativistic quantum clocks interacting with a Newtonian gravitational field produced by a spherical mass. In the framework of Page and Wootters approach, we derive a time dilation for the time states of the clocks. The delay is in agreement up to first order with the gravitational time dilation obtained from the Schwarzschild metric. This result can be extended by considering the relativistic gravitational potential: in this case we obtain the agreement with the exact Schwarzschild solution.
翻訳日:2023-09-27 20:43:23 公開日:2023-09-26
# 安定でロバストな線形パラメータ変動状態空間モデルの学習

Learning Stable and Robust Linear Parameter-Varying State-Space Models ( http://arxiv.org/abs/2304.01828v2 )

ライセンス: Link先を確認
Chris Verhoek and Ruigang Wang and Roland T\'oth(参考訳) 本稿では,安定な線形パラメータ変化状態空間(LPV-SS)モデルの2つの直接パラメータ化を提案する。 モデルパラメトリゼーションは、トレーニング中のすべてのパラメータ値に対して、許容されるモデルは収縮感覚で安定であるか、リプシッツ定数をユーザー定義値$\gamma$で境界付けるかの優先順位を保証する。 さらに、パラメトリゼーションは直接的であるため、制約のない最適化を使ってモデルを訓練することができる。 訓練されたモデルがLPV-SSクラスであるという事実は、さらなる凸解析やコントローラ設計に有用である。 LPV識別問題において,本手法の有効性を実証した。

This paper presents two direct parameterizations of stable and robust linear parameter-varying state-space (LPV-SS) models. The model parametrizations guarantee a priori that for all parameter values during training, the allowed models are stable in the contraction sense or have their Lipschitz constant bounded by a user-defined value $\gamma$. Furthermore, since the parametrizations are direct, the models can be trained using unconstrained optimization. The fact that the trained models are of the LPV-SS class makes them useful for, e.g., further convex analysis or controller design. The effectiveness of the approach is demonstrated on an LPV identification problem.
翻訳日:2023-09-27 20:43:17 公開日:2023-09-26
# 広告主によるオンライン学習:差分包摂分析

Online Learning with Adversaries: A Differential-Inclusion Analysis ( http://arxiv.org/abs/2304.01525v2 )

ライセンス: Link先を確認
Swetha Ganesh, Alexandre Reiffers-Masson, Gugan Thoppe(参考訳) 本稿では,フル非同期オンラインフェデレート学習(FL)のための観測行列ベースのフレームワークを提案する。 本研究では,確率ベクトルの平均を推定する上での有効性を示す。 我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$\muに収束することである。 これは、敵の存在下でAS収束を保証する最初の非同期FLメソッドになります。 新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。 証拠の他の2つのハイライトは (a)新しいリアプノフ関数を用いて、$\mu$が我々のアルゴリズムの制限力学のユニークなグローバルな誘引子であることを示し、 (b)マルティンゲールと停止時間理論を用いて、我々のアルゴリズムの反復がほぼ確実に有界であることを示すこと。

We introduce an observation-matrix-based framework for fully asynchronous online Federated Learning (FL) with adversaries. In this work, we demonstrate its effectiveness in estimating the mean of a random vector. Our main result is that the proposed algorithm almost surely converges to the desired mean $\mu.$ This makes ours the first asynchronous FL method to have an a.s. convergence guarantee in the presence of adversaries. We derive this convergence using a novel differential-inclusion-based two-timescale analysis. Two other highlights of our proof include (a) the use of a novel Lyapunov function to show that $\mu$ is the unique global attractor for our algorithm's limiting dynamics, and (b) the use of martingale and stopping-time theory to show that our algorithm's iterates are almost surely bounded.
翻訳日:2023-09-27 20:43:06 公開日:2023-09-26
# キャビティ埋め込み2次元moir\'e材料の電子-光子チャーン数

Electron-photon Chern number in cavity-embedded 2D moir\'e materials ( http://arxiv.org/abs/2303.08804v2 )

ライセンス: Link先を確認
Danh-Phuong Nguyen, Geva Arwas, Zuzhang Lin, Wang Yao, Cristiano Ciuti(参考訳) 我々は、2次元材料のトポロジカルな性質を共振および非共鳴電子-光子カップリングのための空洞量子電磁場によってどのように操作できるかを理論的に検討する。 電子と光子の状態のハイブリッド化の度合いでよく定義される空洞型エネルギーミニバンドに対する電子-光子トポロジカルチャーチャーン数について検討する。 オフ共振キャビティモードはキャビティカップリングなしで存在する電子位相位相位相を再正規化することができるが、キャビティモードが電子ミニバンド遷移に共振する場合、新しい高次電子光子チャーン数が出現する。

We explore theoretically how the topological properties of 2D materials can be manipulated by cavity quantum electromagnetic fields for both resonant and off-resonant electron-photon coupling, with a focus on van der Waals moir\'e superlattices. We investigate an electron-photon topological Chern number for the cavity-dressed energy minibands that is well defined for any degree of hybridization of the electron and photon states. While an off-resonant cavity mode can renormalize electronic topological phases that exist without cavity coupling, we show that when the cavity mode is resonant to electronic miniband transitions, new and higher electron-photon Chern numbers can emerge.
翻訳日:2023-09-27 20:42:37 公開日:2023-09-26
# 自己校正・完全微分可能なNLOS逆レンダリング

Self-Calibrating, Fully Differentiable NLOS Inverse Rendering ( http://arxiv.org/abs/2309.12047v2 )

ライセンス: Link先を確認
Kiseok Choi, Inchul Kim, Dongyoung Choi, Julio Marco, Diego Gutierrez, Min H. Kim(参考訳) 可視リレー面で測定した間接照明の光路を反転させることにより、既存の時間分解非視線イメージング(nlos)により隠れた風景を再現する。 これらの手法は, フィルタ関数やパラメータを手動で選択することで, ノイズを捕捉し, 逆の曖昧さによってアーチファクトを復元する傾向がある。 時間領域と周波数領域の両方で作業しながら、計測照明のみを入力として、隠れシーンの再構築時に画像パラメータを自己校正する完全微分可能なNLOS逆レンダリングパイプラインを導入する。 パイプラインは,NLOSボリューム強度から隠れたシーンの幾何学的表現を抽出し,その幾何学的情報を用いて生成したリレー壁の時間分解照明を推定する。 次に, 時間分解照明と測定照明の誤差を最小化し, 勾配降下を用いて撮像パラメータを最適化する。 エンド・ツー・エンドの差別化可能なパイプラインカップルは、経路空間光輸送と簡単な光線マーチング技術を用いて回折に基づくボリュームNLOS再構成を行い、詳細な表面点と隠蔽シーンの正規点を抽出する。 本手法のロバスト性は, 高い騒音レベルにおいても, 幾何およびアルベドを一貫して再構成できることを示す。

Existing time-resolved non-line-of-sight (NLOS) imaging methods reconstruct hidden scenes by inverting the optical paths of indirect illumination measured at visible relay surfaces. These methods are prone to reconstruction artifacts due to inversion ambiguities and capture noise, which are typically mitigated through the manual selection of filtering functions and parameters. We introduce a fully-differentiable end-to-end NLOS inverse rendering pipeline that self-calibrates the imaging parameters during the reconstruction of hidden scenes, using as input only the measured illumination while working both in the time and frequency domains. Our pipeline extracts a geometric representation of the hidden scene from NLOS volumetric intensities and estimates the time-resolved illumination at the relay wall produced by such geometric information using differentiable transient rendering. We then use gradient descent to optimize imaging parameters by minimizing the error between our simulated time-resolved illumination and the measured illumination. Our end-to-end differentiable pipeline couples diffraction-based volumetric NLOS reconstruction with path-space light transport and a simple ray marching technique to extract detailed, dense sets of surface points and normals of hidden scenes. We demonstrate the robustness of our method to consistently reconstruct geometry and albedo, even under significant noise levels.
翻訳日:2023-09-27 20:36:49 公開日:2023-09-26
# TMac:音響イベント分類のための時間的マルチモーダルグラフ学習

TMac: Temporal Multi-Modal Graph Learning for Acoustic Event Classification ( http://arxiv.org/abs/2309.11845v2 )

ライセンス: Link先を確認
Meng Liu, Ke Liang, Dayu Hu, Hao Yu, Yue Liu, Lingyuan Meng, Wenxuan Tu, Sihang Zhou, Xinwang Liu(参考訳) オーディオ視覚データは、このデジタル時代の至る所にあり、それによって、それら上で開発されたディープラーニングモデルに対するより高い要求がもたらされる。 マルチモーダルデータの情報を適切に扱うことは、より良いオーディオビジュアルモーダルの鍵となる。 映像中の各フレームの時間情報など,これらの映像データには時間特性が自然に存在することが観察された。 より具体的には、このようなデータは音声と視覚の両方で本質的にマルチモーダルであり、厳密な時系列順に進行する。 モーダル内およびモーダル間両方のマルチモーダル音響イベントモデリングにおいて,時間的情報の重要性が示唆された。 しかし、既存の手法ではそれぞれのモーダル特徴を独立に処理し、単にそれらを融合させるだけで、時間的関係のマイニングを怠り、結果として副最適性能に繋がる。 そこで本研究では,tmacと呼ばれる音響イベント分類のための時間的マルチモーダルグラフ学習手法を提案する。 特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。 各セグメントはノードと見なすことができ、ノード間の時間的関係はエッジ上のタイムスタンプと見なすことができる。 この場合、モーダル内およびモーダル間における動的情報をスムーズに捉えることができる。 いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。 私たちのコードはhttps://github.com/mgithubl/tmacで利用可能です。

Audiovisual data is everywhere in this digital age, which raises higher requirements for the deep learning models developed on them. To well handle the information of the multi-modal data is the key to a better audiovisual modal. We observe that these audiovisual data naturally have temporal attributes, such as the time information for each frame in the video. More concretely, such data is inherently multi-modal according to both audio and visual cues, which proceed in a strict chronological order. It indicates that temporal information is important in multi-modal acoustic event modeling for both intra- and inter-modal. However, existing methods deal with each modal feature independently and simply fuse them together, which neglects the mining of temporal relation and thus leads to sub-optimal performance. With this motivation, we propose a Temporal Multi-modal graph learning method for Acoustic event Classification, called TMac, by modeling such temporal information via graph learning techniques. In particular, we construct a temporal graph for each acoustic event, dividing its audio data and video data into multiple segments. Each segment can be considered as a node, and the temporal relationships between nodes can be considered as timestamps on their edges. In this case, we can smoothly capture the dynamic information in intra-modal and inter-modal. Several experiments are conducted to demonstrate TMac outperforms other SOTA models in performance. Our code is available at https://github.com/MGitHubL/TMac.
翻訳日:2023-09-27 20:36:23 公開日:2023-09-26
# グラフにおけるコミュニティ検出の包括的考察

A Comprehensive Review of Community Detection in Graphs ( http://arxiv.org/abs/2309.11798v2 )

ライセンス: Link先を確認
Songning Lai, Jiakang Li, Yonggang Lu(参考訳) 複雑なネットワークの研究は,実世界のグラフの重要な特徴であるコミュニティ構造の理解を深めてきた。 グラフにおけるコミュニティの検出は、社会学、生物学、計算機科学の応用において難しい問題である。 学際的な科学者コミュニティの努力にもかかわらず、この問題に対する十分な解決策はまだ達成されていない。 この記事では、複雑なシステムの組織や機能を理解する上で重要な役割を担うグラフにおけるコミュニティ検出のトピックについて論じる。 まず,クラスタ間の強い内部接続と弱い結合を持つ,クラスタへの頂点の配置を意味するコミュニティ構造の概念の導入から始める。 そこで我々は,新しい手法を含む,様々なコミュニティ検出手法の徹底的な解説を行う。 さらに,多様なネットワークにおけるコミュニティ検出の現実的応用について検討する。 この総合的なレビューは、グラフにおけるコミュニティ検出の深い理解を提供する。 複数の分野の研究者や実践者にとって貴重なリソースとなり、複雑なネットワークにおけるコミュニティ検出の課題、方法論、応用に関する洞察を提供する。

The study of complex networks has significantly advanced our understanding of community structures which serves as a crucial feature of real-world graphs. Detecting communities in graphs is a challenging problem with applications in sociology, biology, and computer science. Despite the efforts of an interdisciplinary community of scientists, a satisfactory solution to this problem has not yet been achieved. This review article delves into the topic of community detection in graphs, which serves as a crucial role in understanding the organization and functioning of complex systems. We begin by introducing the concept of community structure, which refers to the arrangement of vertices into clusters, with strong internal connections and weaker connections between clusters. Then, we provide a thorough exposition of various community detection methods, including a new method designed by us. Additionally, we explore real-world applications of community detection in diverse networks. In conclusion, this comprehensive review provides a deep understanding of community detection in graphs. It serves as a valuable resource for researchers and practitioners in multiple disciplines, offering insights into the challenges, methodologies, and applications of community detection in complex networks.
翻訳日:2023-09-27 20:36:02 公開日:2023-09-26
# フェデレート学習におけるデータ共有のための効率的なコア選択インセンティブメカニズム

Efficient Core-selecting Incentive Mechanism for Data Sharing in Federated Learning ( http://arxiv.org/abs/2309.11722v2 )

ライセンス: Link先を確認
Mengda Ji, Genjiu Xu, Jianjun Ge, Mingqiang Li(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、参加者のデータを使って改善されたグローバルモデルをトレーニングする分散機械学習システムである。 連合学習では、参加者が協力してグローバルモデルをトレーニングし、グローバルモデルと支払いを受け取る。 合理的な参加者は、個々のユーティリティを最大化しようと試み、データ品質に基づいて満足な支払いが得られない限り、彼らの高品質なデータを真実に入力しない。 さらに,参加者の協力的貢献から,連合学習のメリットが得られた。 したがって、データの入力を真にインセンティブ化し、安定した協調を促進するインセンティブメカニズムの確立は、検討すべき重要な課題となっている。 本稿では,協調学習のためのデータ共有ゲームモデルを紹介し,協調学習における一般的な概念であるコアを用いて,コア選択インセンティブ機構を設計するためのゲーム理論的手法を提案する。 連合学習では、コアは空になり、コア選択機構が実現不可能になる。 これに対処するために,我々はリラクゼーション方式を採用し,すべての参加者に対して偽データ入力のメリットを最小化している。 しかし、このメカニズムは、連合学習では実現不可能な全ての連立の指数モデルを集約する必要があるため、計算的に高価である。 そこで本研究では,サンプリング近似に基づく効率的なコア選択機構を提案する。 大規模な実験により、効率的なコア選択機構は高品質なデータ入力と安定した協調を動機付けることができるが、コア選択機構と比較して計算オーバーヘッドを低減できる。

Federated learning is a distributed machine learning system that uses participants' data to train an improved global model. In federated learning, participants cooperatively train a global model, and they will receive the global model and payments. Rational participants try to maximize their individual utility, and they will not input their high-quality data truthfully unless they are provided with satisfactory payments based on their data quality. Furthermore, federated learning benefits from the cooperative contributions of participants. Accordingly, how to establish an incentive mechanism that both incentivizes inputting data truthfully and promotes stable cooperation has become an important issue to consider. In this paper, we introduce a data sharing game model for federated learning and employ game-theoretic approaches to design a core-selecting incentive mechanism by utilizing a popular concept in cooperative games, the core. In federated learning, the core can be empty, resulting in the core-selecting mechanism becoming infeasible. To address this, our core-selecting mechanism employs a relaxation method and simultaneously minimizes the benefits of inputting false data for all participants. However, this mechanism is computationally expensive because it requires aggregating exponential models for all possible coalitions, which is infeasible in federated learning. To address this, we propose an efficient core-selecting mechanism based on sampling approximation that only aggregates models on sampled coalitions to approximate the exact result. Extensive experiments verify that the efficient core-selecting mechanism can incentivize inputting high-quality data and stable cooperation, while it reduces computational overhead compared to the core-selecting mechanism.
翻訳日:2023-09-27 20:35:47 公開日:2023-09-26
# ハイブリッドInSb-Pbナノワイヤにおけるゲート可変超伝導

Gate-tunable Superconductivity in Hybrid InSb-Pb Nanowires ( http://arxiv.org/abs/2309.08582v2 )

ライセンス: Link先を確認
Yan Chen, David van Driel, Charalampos Lampadaris, Sabbir A Khan, Khalifah Alattallah, Lunjie Zeng, Eva Olsson, Tom Dvir, Peter Krogstrup, Yu Liu(参考訳) 本稿では,高スピン軌道結合と高臨界磁場と大きな超伝導ギャップを組み合わせたハイブリッドinsb-pbナノワイヤについて報告する。 材料特性は、ナノワイヤ側面上の高結晶性Pb層を示す。 強誘起超伝導ギャップとゲート調整可能な超電流はハイブリッドナノワイヤで観察される。 これらの結果は、この物質の組み合わせがハイブリッド量子輸送デバイスに様々な応用をもたらす可能性を示している。

We present a report on hybrid InSb-Pb nanowires that combine high spin-orbit coupling with a high critical field and a large superconducting gap. Material characterization indicates the Pb layer of high crystal quality on the nanowire side facets. Hard induced superconducting gaps and gate-tunable supercurrent are observed in the hybrid nanowires. These results showcase the promising potential of this material combination for a diverse range of applications in hybrid quantum transport devices.
翻訳日:2023-09-27 20:34:58 公開日:2023-09-26
# rtllm: 大きな言語モデルによるrtl生成のためのオープンソースベンチマーク

RTLLM: An Open-Source Benchmark for Design RTL Generation with Large Language Model ( http://arxiv.org/abs/2308.05345v2 )

ライセンス: Link先を確認
Yao Lu, Shang Liu, Qijun Zhang, Zhiyao Xie(参考訳) ChatGPTのような最近の大規模言語モデル(LLM)の成功に触発されて、研究者は、自然言語命令に基づいた設計RTLの生成など、アジャイルハードウェア設計におけるLLMの採用を探り始めた。 しかし、既存の研究では、それらのターゲット設計はすべて比較的単純で小規模であり、著者自身によって提案されており、異なるLLMソリューション間で公正に比較することは困難である。 さらに、多くの先行作品は、生成した設計rtlの設計品質を評価することなく、設計の正確性にのみ焦点を合わせている。 本研究では,自然言語命令を用いた設計RTLを生成するRTLLMというオープンソースのベンチマークを提案する。 自動生成設計RTLを体系的に評価するために,構文目標,機能目標,設計品質目標の3つの段階目標をまとめた。 このベンチマークは、任意のLCMベースのソリューションを定量的に評価する。 さらに,提案するベンチマークにおいて,gpt-3.5の性能が大幅に向上することを示すセルフプランニングという,簡便かつ驚くほど効果的なプロンプトエンジニアリング手法を提案する。

Inspired by the recent success of large language models (LLMs) like ChatGPT, researchers start to explore the adoption of LLMs for agile hardware design, such as generating design RTL based on natural-language instructions. However, in existing works, their target designs are all relatively simple and in a small scale, and proposed by the authors themselves, making a fair comparison among different LLM solutions challenging. In addition, many prior works only focus on the design correctness, without evaluating the design qualities of generated design RTL. In this work, we propose an open-source benchmark named RTLLM, for generating design RTL with natural language instructions. To systematically evaluate the auto-generated design RTL, we summarized three progressive goals, named syntax goal, functionality goal, and design quality goal. This benchmark can automatically provide a quantitative evaluation of any given LLM-based solution. Furthermore, we propose an easy-to-use yet surprisingly effective prompt engineering technique named self-planning, which proves to significantly boost the performance of GPT-3.5 in our proposed benchmark.
翻訳日:2023-09-27 20:34:15 公開日:2023-09-26
# 制約付きオートエンコーダを用いた動的システムの低次モデリングのための非線形射影学習

Learning Nonlinear Projections for Reduced-Order Modeling of Dynamical Systems using Constrained Autoencoders ( http://arxiv.org/abs/2307.15288v2 )

ライセンス: Link先を確認
Samuel E. Otto, Gregory R. Macchio, Clarence W. Rowley(参考訳) 近年,データから学習した低次元多様体上の非線形力学系を近似する低次モデリング手法が開発されている。 これは、初期条件と他の外乱の影響が崩壊したポスト遷移状態におけるダイナミクスのモデリングに有効なアプローチである。 しかし、実時間制御や予測アプリケーションに必要な基礎多様体近傍の過渡ダイナミクスのモデリングは、高速力学と非正規感度機構の影響によって複雑になる。 これらの問題に対処するために,制約付きオートエンコーダニューラルネットワークによって記述される非線形射影のパラメトリッククラスを導入し,多様体と射影ファイバーの両方をデータから学習する。 我々のアーキテクチャでは、エンコーダがデコーダの左逆であることを保証するために、可逆活性化関数と直交重み行列を用いる。 また,高速ダイナミクスと非正規性を考慮した斜め投影ファイバーの学習を促進する新しいダイナミクス認識コスト関数も導入する。 これらの方法とその具体的な課題を実証するために,流体に浸漬されたブラフ体の後流に流す渦の3状態モデルについて,解析的に計算可能な2次元スロー多様体を有する詳細なケーススタディを提供する。 また,高次元システムへの将来的な応用を期待するために,提案した非線形射影フレームワークを用いて計算効率の良い縮小次モデルを構築するためのいくつかの手法を提案する。 これには、グラスマン多様体上の計算によるデトリメンタル重み行列の縮小を避けるエンコーダに対する新しいスパルシリティ促進ペナルティが含まれる。

Recently developed reduced-order modeling techniques aim to approximate nonlinear dynamical systems on low-dimensional manifolds learned from data. This is an effective approach for modeling dynamics in a post-transient regime where the effects of initial conditions and other disturbances have decayed. However, modeling transient dynamics near an underlying manifold, as needed for real-time control and forecasting applications, is complicated by the effects of fast dynamics and nonnormal sensitivity mechanisms. To begin to address these issues, we introduce a parametric class of nonlinear projections described by constrained autoencoder neural networks in which both the manifold and the projection fibers are learned from data. Our architecture uses invertible activation functions and biorthogonal weight matrices to ensure that the encoder is a left inverse of the decoder. We also introduce new dynamics-aware cost functions that promote learning of oblique projection fibers that account for fast dynamics and nonnormality. To demonstrate these methods and the specific challenges they address, we provide a detailed case study of a three-state model of vortex shedding in the wake of a bluff body immersed in a fluid, which has a two-dimensional slow manifold that can be computed analytically. In anticipation of future applications to high-dimensional systems, we also propose several techniques for constructing computationally efficient reduced-order models using our proposed nonlinear projection framework. This includes a novel sparsity-promoting penalty for the encoder that avoids detrimental weight matrix shrinkage via computation on the Grassmann manifold.
翻訳日:2023-09-27 20:33:56 公開日:2023-09-26
# コヒーレント光学系におけるニューラルネットワーク等化器の一般化性を高めるマルチタスク学習

Multi-Task Learning to Enhance Generalizability of Neural Network Equalizers in Coherent Optical Systems ( http://arxiv.org/abs/2307.05374v2 )

ライセンス: Link先を確認
Sasipim Srivallapanondh, Pedro J. Freire, Ashraful Alam, Nelson Costa, Bernhard Spinnler, Antonio Napoli, Egor Sedov, Sergei K. Turitsyn, Jaroslaw E. Prilepsky(参考訳) コヒーレントシステムにおけるnnベースのイコライザの柔軟性を改善するため,マルチタスク学習が初めて提案されている。 NNベースの「単一」等化器は、打ち上げ電力、シンボルレート、送信距離の変動があっても再訓練することなく、CDCと比較して最大4dBのQ因子を改善する。

For the first time, multi-task learning is proposed to improve the flexibility of NN-based equalizers in coherent systems. A "single" NN-based equalizer improves Q-factor by up to 4 dB compared to CDC, without re-training, even with variations in launch power, symbol rate, or transmission distance.
翻訳日:2023-09-27 20:33:29 公開日:2023-09-26
# 置換不変行列統計量と計算言語タスク

Permutation invariant matrix statistics and computational language tasks ( http://arxiv.org/abs/2202.06829v2 )

ライセンス: Link先を確認
Manuel Accettulli Huber, Adriana Correia, Sanjaye Ramgoolam, Mehrnoosh Sadrzadeh(参考訳) kartsaklis, ramgoolam, sadrzadeh によって導入された言語マトリクス理論プログラムは、重要な統計を符号化する重要な可観測性と見なされる置換不変多項式関数に基づいて、タイプ駆動分布意味論で生成される行列の統計に対するアプローチである。 本稿では,構成分布意味論から生じる行列分布の近似ガウス性に関する先行結果を一般化する。 また、置換不変量に対するグラフ理論の基盤と、単語に関連する行列のアンサンブルの統計的特性を利用して定義される単語の可観測ベクトルの幾何学も導入する。 本稿では,この統一フレームワークを計算機言語学における様々なタスクに応用し,同義語,対義語,ハイパーニム,低音の区別について述べる。

The Linguistic Matrix Theory programme introduced by Kartsaklis, Ramgoolam and Sadrzadeh is an approach to the statistics of matrices that are generated in type-driven distributional semantics, based on permutation invariant polynomial functions which are regarded as the key observables encoding the significant statistics. In this paper we generalize the previous results on the approximate Gaussianity of matrix distributions arising from compositional distributional semantics. We also introduce a geometry of observable vectors for words, defined by exploiting the graph-theoretic basis for the permutation invariants and the statistical characteristics of the ensemble of matrices associated with the words. We describe successful applications of this unified framework to a number of tasks in computational linguistics, associated with the distinctions between synonyms, antonyms, hypernyms and hyponyms.
翻訳日:2023-09-27 18:46:46 公開日:2023-09-26
# ビチューイングX線における歯列分類のための解釈型および対話型深層学習

Interpretable and Interactive Deep Multiple Instance Learning for Dental Caries Classification in Bitewing X-rays ( http://arxiv.org/abs/2112.09694v2 )

ライセンス: Link先を確認
Benjamin Bergner, Csaba Rohrer, Aiham Taleb, Martha Duchrau, Guilherme De Leon, Jonas Almeida Rodrigues, Falk Schwendicke, Joachim Krois, Christoph Lippert(参考訳) 本稿では, 深層多段階学習に基づく簡易かつ効率的な画像分類アーキテクチャを提案する。 まず、画像レベルの弱いラベルで訓練されているにもかかわらず、局所的なパッチ分類の確率のヒートマップを出力する。 第二に、セグメンテーションラベルからガイドトレーニングまで学ぶことは可能である。 既存の手法とは対照的に、人間のユーザは予測を忠実に解釈し、モデルと対話してどのリージョンに参加するかを決定することができる。 実験は、さまざまなベースラインと比較して競争力のあるパフォーマンスを達成するために、$\sim$38k bitewings ($316k)の大規模な臨床データセットで行われます。 外部カリーセグメンテーションモデルにより誘導されると、分類と局所化性能が著しく向上する。

We propose a simple and efficient image classification architecture based on deep multiple instance learning, and apply it to the challenging task of caries detection in dental radiographs. Technically, our approach contributes in two ways: First, it outputs a heatmap of local patch classification probabilities despite being trained with weak image-level labels. Second, it is amenable to learning from segmentation labels to guide training. In contrast to existing methods, the human user can faithfully interpret predictions and interact with the model to decide which regions to attend to. Experiments are conducted on a large clinical dataset of $\sim$38k bitewings ($\sim$316k teeth), where we achieve competitive performance compared to various baselines. When guided by an external caries segmentation model, a significant improvement in classification and localization performance is observed.
翻訳日:2023-09-27 18:46:16 公開日:2023-09-26
# 経路正規化:並列ReLUネットワークにおける凸性と疎結合による正規化

Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks ( http://arxiv.org/abs/2110.09548v4 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) ディープニューラルネットワークの成功の背後にある基本的な原則を理解することは、現在の文献で最も重要なオープンな質問の1つである。 そこで本研究では,深層ニューラルネットワークのトレーニング問題を考察し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。 我々は、標準のディープネットワークとresnetを特別なケースとして含む、ディープ・パラレルなreluネットワークアーキテクチャを考察する。 次に,パスワイズ正規化学習問題を凸最適化問題として表現できることを示す。 さらに、同値凸問題は群疎性誘導ノルムによって正規化されることも証明する。 したがって、経路正規化された並列ReLUネットワークは、高次元の擬似凸モデルと見なすことができる。 さらに重要なことは、元のトレーニング問題は多項式時間では訓練できないため、すべてのデータ次元で完全に多項式時間複雑性を持つ近似アルゴリズムを提案することである。 そして,このアルゴリズムのグローバルな最適性を保証する。 理論を裏付ける実験も行っています。

Understanding the fundamental principles behind the success of deep neural networks is one of the most important open questions in the current literature. To this end, we study the training problem of deep neural networks and introduce an analytic approach to unveil hidden convexity in the optimization landscape. We consider a deep parallel ReLU network architecture, which also includes standard deep networks and ResNets as its special cases. We then show that pathwise regularized training problems can be represented as an exact convex optimization problem. We further prove that the equivalent convex problem is regularized via a group sparsity inducing norm. Thus, a path regularized parallel ReLU network can be viewed as a parsimonious convex model in high dimensions. More importantly, since the original training problem may not be trainable in polynomial-time, we propose an approximate algorithm with a fully polynomial-time complexity in all data dimensions. Then, we prove strong global optimality guarantees for this algorithm. We also provide experiments corroborating our theory.
翻訳日:2023-09-27 18:46:01 公開日:2023-09-26
# 時系列解析によるクロスカメラ・ヒューマンモーショントランスファー

Cross-Camera Human Motion Transfer by Time Series Analysis ( http://arxiv.org/abs/2109.14174v3 )

ライセンス: Link先を確認
Yaping Zhao, Guanghan Li, Edmund Y. Lam(参考訳) 光センサー技術の進歩に伴い、高解像度(HR)ビデオの取得と分析に異機種カメラシステムの利用が増えている。 しかし、複数のカメラにまたがる移動が問題となる。 そこで本研究では,動きの季節性を特定し,移動可能なパターンを抽出する付加モデルを構築する時系列解析に基づくアルゴリズムを提案する。 実世界のデータに基づいて,本アルゴリズムの有効性と解釈可能性を示す。 特に、HRから派生したパターンを活用して低解像度ビデオのポーズ推定を改善し、実用性を向上させる。 コードは、https://github.com/IndigoPurple/TSAMTで入手できる。

With advances in optical sensor technology, heterogeneous camera systems are increasingly used for high-resolution (HR) video acquisition and analysis. However, motion transfer across multiple cameras poses challenges. To address this, we propose a algorithm based on time series analysis that identifies motion seasonality and constructs an additive model to extract transferable patterns. Validated on real-world data, our algorithm demonstrates effectiveness and interpretability. Notably, it improves pose estimation in low-resolution videos by leveraging patterns derived from HR counterparts, enhancing practical utility. Code is available at: https://github.com/IndigoPurple/TSAMT
翻訳日:2023-09-27 18:45:45 公開日:2023-09-26
# 深部生存用量応答機能を有する連続的治療勧告

Continuous Treatment Recommendation with Deep Survival Dose Response Function ( http://arxiv.org/abs/2108.10453v5 )

ライセンス: Link先を確認
Jie Zhu, Blanca Gallego(参考訳) 本稿では,Deep Survival Dose Response Function (DeepSDRF) と呼ばれる臨床生存データを用いた環境下での継続的治療推奨問題の一般的な定式化を提案する。 すなわち、観察された要因(共同設立者)が観察された治療とイベントの成果の両方に影響を及ぼす歴史的なデータのみから、条件付き平均線量応答(cadr)関数を学習する問題を考える。 DeepSDRFによる処理効果の推定により,選択バイアスを補正した推薦アルゴリズムの開発が可能となる。 ランダム検索と強化学習を併用した2つの推奨手法を比較し,同様の結果を得た。 我々は、DeepSDRFとそれに対応する勧告を、広範囲にわたるシミュレーション研究とeICU Research Institute (eRI)データベースで検証した。 我々の知る限りでは、医療的文脈における観察データによる継続的な治療効果に因果モデルが使用されるのはこれが初めてである。

We propose a general formulation for continuous treatment recommendation problems in settings with clinical survival data, which we call the Deep Survival Dose Response Function (DeepSDRF). That is, we consider the problem of learning the conditional average dose response (CADR) function solely from historical data in which observed factors (confounders) affect both observed treatment and time-to-event outcomes. The estimated treatment effect from DeepSDRF enables us to develop recommender algorithms with the correction for selection bias. We compared two recommender approaches based on random search and reinforcement learning and found similar performance in terms of patient outcome. We tested the DeepSDRF and the corresponding recommender on extensive simulation studies and the eICU Research Institute (eRI) database. To the best of our knowledge, this is the first time that causal models are used to address the continuous treatment effect with observational data in a medical context.
翻訳日:2023-09-27 18:45:35 公開日:2023-09-26
# 深部強化学習と歴史的運転経験に基づく人間的エネルギー管理

Human-like Energy Management Based on Deep Reinforcement Learning and Historical Driving Experiences ( http://arxiv.org/abs/2007.10126v2 )

ライセンス: Link先を確認
Hao Chen, Xiaolin Tang, Guo Hu, Teng Liu(参考訳) ハイブリッド電気自動車の開発は、先進的で効率的なエネルギー管理戦略(ems)に依存する。 本稿では, オンラインおよびリアルタイムの要件を念頭に, 深部強化学習手法によるハイブリッド電気自動車の人為的なエネルギー管理の枠組みを示し, 過去の運転データを収集する。 研究対象のハイブリッドパワートレインは並列トポロジーを持ち、その制御指向モデリングが最初に確立されている。 次に,Dep Deterministic Policy gradient (DDPG) と呼ばれるDRLアルゴリズムを導入する。 DRLフレームワークの導出電力分割制御を強化するため、動的プログラミング(DP)から得られたグローバル最適制御軌跡を専門知識とみなし、DDPGモデルを訓練する。 この操作は、提案した制御アーキテクチャの最適性を保証する。 さらに、経験豊富な運転者に基づく過去の運転データを用いて、DPベースの制御を代替し、人間ライクなEMSを構築する。 最後に,提案するヒト様emsの最適性と適応性を評価するために,実験の異なるカテゴリが実行される。 燃費と収束率の改善は、構築した制御構造の有効性を示している。

Development of hybrid electric vehicles depends on an advanced and efficient energy management strategy (EMS). With online and real-time requirements in mind, this article presents a human-like energy management framework for hybrid electric vehicles according to deep reinforcement learning methods and collected historical driving data. The hybrid powertrain studied has a series-parallel topology, and its control-oriented modeling is founded first. Then, the distinctive deep reinforcement learning (DRL) algorithm, named deep deterministic policy gradient (DDPG), is introduced. To enhance the derived power split controls in the DRL framework, the global optimal control trajectories obtained from dynamic programming (DP) are regarded as expert knowledge to train the DDPG model. This operation guarantees the optimality of the proposed control architecture. Moreover, the collected historical driving data based on experienced drivers are employed to replace the DP-based controls, and thus construct the human-like EMSs. Finally, different categories of experiments are executed to estimate the optimality and adaptability of the proposed human-like EMS. Improvements in fuel economy and convergence rate indicate the effectiveness of the constructed control structure.
翻訳日:2023-09-27 18:45:08 公開日:2023-09-26
# スタガー付きロールアウトの最適実験設計

Optimal Experimental Design for Staggered Rollouts ( http://arxiv.org/abs/1911.03764v6 )

ライセンス: Link先を確認
Ruoxuan Xiong, Susan Athey, Mohsen Bayati, Guido Imbens(参考訳) 本稿では, 処理開始時刻が単位によって異なる複数時間にわたって, 一連の単位に対して実施した実験の設計と解析について検討する。 設計問題は、処理の瞬時効果と累積効果の両方を最も正確に推定するために、各ユニットの初期処理時間を選択することである。 まず, 適応的でない実験について検討し, 実験開始前に全ての治療課題決定を行う。 この場合、最適化問題は一般にnpハードであることが示され、近似最適解を提案する。 この溶液下では、各周期で治療に入る割合は、最初は低く、その後高く、最後に再び低い。 次に、各期間のデータ収集後に、実験を継続する決定と治療課題を決定する決定が更新される適応的な実験設計問題について検討する。 適応型の場合, 適応型アルゴリズムであるPGAEアルゴリズムを提案する。このアルゴリズムは, 設計段階でも, 処理効果を推定する段階でも問題に対処し, 設計の適応性を考慮した有効な実験後推測を確実にする。 現実的な設定を用いることで,提案手法は静的設計ベンチマークと比較して,実験の機会コストを50%以上削減できることを実証する。

In this paper, we study the design and analysis of experiments conducted on a set of units over multiple time periods where the starting time of the treatment may vary by unit. The design problem involves selecting an initial treatment time for each unit in order to most precisely estimate both the instantaneous and cumulative effects of the treatment. We first consider non-adaptive experiments, where all treatment assignment decisions are made prior to the start of the experiment. For this case, we show that the optimization problem is generally NP-hard, and we propose a near-optimal solution. Under this solution, the fraction entering treatment each period is initially low, then high, and finally low again. Next, we study an adaptive experimental design problem, where both the decision to continue the experiment and treatment assignment decisions are updated after each period's data is collected. For the adaptive case, we propose a new algorithm, the Precision-Guided Adaptive Experiment (PGAE) algorithm, that addresses the challenges at both the design stage and at the stage of estimating treatment effects, ensuring valid post-experiment inference accounting for the adaptive nature of the design. Using realistic settings, we demonstrate that our proposed solutions can reduce the opportunity cost of the experiments by over 50%, compared to static design benchmarks.
翻訳日:2023-09-27 18:44:20 公開日:2023-09-26
# 輸送作業における量子アドバンテージ:発射体、ロケット、量子バックフロー

Quantum advantages for transportation tasks: projectiles, rockets and quantum backflow ( http://arxiv.org/abs/2209.00725v2 )

ライセンス: Link先を確認
David Trillo, Thinh P. Le and Miguel Navascues(参考訳) 量子粒子がまず空間のある有界領域で準備され、自由に伝播できるようなシナリオを考える。 しばらくして、粒子が遠くのターゲット領域に到達したかどうかを確認する。 我々は、同じ運動量分布を持つどの古典粒子よりも到着確率が大きい「超高速(ultrafast)」量子状態が存在することを発見した。 発射体とロケットの両方に対して、量子的古典的到達確率と最適古典的到着確率の違いによって量子的優位性が量子バックフローの現象を研究するために導入されたブラッケン・メリー定数$c_{bm}$によって制限されていることを証明した。 この点に関して、我々は$0.0315\leq c_{bm}\leq 0.072$の限界を証明することによって$c_{bm}\approx 0.038$という29ドルの予想を仮定する。 最後に、粒子の初期位置分布が固定された修正射影シナリオにおいて、量子的優位性は0.1262$に達することを示す。

Consider a scenario where a quantum particle is initially prepared in some bounded region of space and left to propagate freely. After some time, we verify if the particle has reached some distant target region. We find that there exist "ultrafast" ("ultraslow") quantum states, whose probability of arrival is greater (smaller) than that of any classical particle prepared in the same region with the same momentum distribution. For both projectiles and rockets, we prove that the quantum advantage, quantified by the difference between the quantum and optimal classical arrival probabilities, is limited by the Bracken-Melloy constant $c_{bm}$, originally introduced to study the phenomenon of quantum backflow. In this regard, we substantiate the $29$-year-old conjecture that $c_{bm}\approx 0.038$ by proving the bounds $0.0315\leq c_{bm}\leq 0.072$. Finally, we show that, in a modified projectile scenario where the initial position distribution of the particle is also fixed, the quantum advantage can reach $0.1262$.
翻訳日:2023-09-27 18:39:15 公開日:2023-09-26
# YOLOX-PAI:改良されたYOLOX、YoLOv6より強力で高速

YOLOX-PAI: An Improved YOLOX, Stronger and Faster than YOLOv6 ( http://arxiv.org/abs/2208.13040v3 )

ライセンス: Link先を確認
Ziheng Wu, Xinyi Zou, Wenmeng Zhou, Jun Huang(参考訳) 我々は、様々なSOTAコンピュータビジョン手法の使用を容易にするためにEasyCVというオールインワンのコンピュータビジョンツールボックスを開発した。 近年,YOLOXの改良版であるYOLOX-PAIをEasyCVに追加している。 我々はYOLOXに対する検出方法の影響を調べるためにアブレーション研究を行っている。 我々はまた、BladeDISCとTensorRTに基づく推論プロセスの高速化に使用されるPAI-Bladeの簡単な使用法を提供する。 最後に、単一のNVIDIA V100 GPUで1.0ms以内のCOCO日付セットで42.8mAPを受け取り、YOLOv6より少し速い。 シンプルなが効率的な予測器apiもEasyCVで設計され、エンドツーエンドのオブジェクト検出を行う。 コードとモデルは現在、https://github.com/alibaba/EasyCV.comで入手できる。

We develop an all-in-one computer vision toolbox named EasyCV to facilitate the use of various SOTA computer vision methods. Recently, we add YOLOX-PAI, an improved version of YOLOX, into EasyCV. We conduct ablation studies to investigate the influence of some detection methods on YOLOX. We also provide an easy use for PAI-Blade which is used to accelerate the inference process based on BladeDISC and TensorRT. Finally, we receive 42.8 mAP on COCO dateset within 1.0 ms on a single NVIDIA V100 GPU, which is a bit faster than YOLOv6. A simple but efficient predictor api is also designed in EasyCV to conduct end2end object detection. Codes and models are now available at: https://github.com/alibaba/EasyCV.
翻訳日:2023-09-27 18:38:53 公開日:2023-09-26
# ghz やベルの実験で否定できない局所実在論の弱形式に基づくアインシュタイン・ポドルスキー・ローゼンの議論

An Einstein-Podolsky-Rosen argument based on weak forms of local realism not falsifiable by GHZ or Bell experiments ( http://arxiv.org/abs/2208.01225v2 )

ライセンス: Link先を確認
Jesse Fulton, Run Yan Teh and M. D. Reid(参考訳) EPRパラドックス(Einstein-Podolsky-Rosen paradox)は、局所現実主義の前提に基づく量子力学の不完全性に関する議論である。 EPR の前提は Greenberger-Horne-Zeilinger (GHZ) と Bell の実験によってファルシフィケートされているためである。 本稿では,これらの実験で実現不可能な前提に基づくEPR論を提案する。 我々は2つの巨視的に異なる状態によって定義されるスピン$s_\theta$を用いたマクロeprおよびghz実験を提案する。 単位演算を実現するアナライザ$U_\theta$と測定設定$\theta$は、マクロ的な重ね合わせ状態を生成するデバイスである。 2つのマクロ的に異なる状態を持つ系では、マクロ的リアリズム(MR)は、状態の区別に$S_\theta$の所定の結果を示す。 決定論的マクロ・リアリズム(dMR)は相互作用が$U_\theta$になる前にシステムに対してMRを仮定する。 弱マクロ的リアリズム (wMR) は、$U_\theta$ の後にシステムに対して MR を仮定し、その時点で $t_f$ (システムが最終的な "ポインタ" 測定に準備されている場合、$S_\theta$ の結果は、リモートシステム$B$ で発生する可能性のある相互作用によって変更されない。 この前提はまた、システム$A$の$S_\theta^A$に対する結果が、相互作用が$B$で設定を固定した後で定義されるシステム$B$のポインタ測定によって予測できるならば、この時点で$S_\theta^A$に対する結果が決定される。 GHZ予測はdMRを否定するが、wMRと一致する。 しかし、EPRパラドックスはSchr\"odingerによって提案されたセットアップのwMRに基づいて発生し、一方は「一方は直接、もう一方は間接的に」2つの相補スピンを同時に測定する。 我々は、元のEPRパラドックスを再検討し、同様に、EPR引数はGHZテストやベルテストでは実現不可能な局所リアリズムの弱い形式に基づいていることが分かる。

The Einstein-Podolsky-Rosen (EPR) paradox gives an argument for the incompleteness of quantum mechanics based on the premises of local realism. A general view is that the argument is compromised, because EPR's premises are falsified by Greenberger-Horne-Zeilinger (GHZ) and Bell experiments. In this paper, we present an EPR argument based on premises not falsifiable by these experiments. We propose macroscopic EPR and GHZ experiments using spins $S_\theta$ defined by two macroscopically distinct states. The analyzers that realize the unitary operations $U_\theta$ determining the measurement settings $\theta$ are devices that create macroscopic superposition states. For a system with two macroscopically distinct states available, macroscopic realism (MR) posits a predetermined outcome for a measurement $S_\theta$ distinguishing between the states. Deterministic macroscopic realism (dMR) posits MR for the system prior to the interaction $U_\theta$. Weak macroscopic realism (wMR) posits MR for the system after $U_\theta$, at the time $t_f$ (when the system is prepared for a final "pointer" measurement), the outcome of $S_\theta$ not being changed by interactions that might occur at a remote system $B$. The premise also posits that if the outcome for $S_\theta^A$ of a system $A$ can be predicted by a pointer measurement on a system $B$ defined after the interaction fixing the setting at $B$, then the outcome for $S_\theta^A$ is determined at this time. The GHZ predictions negate dMR but are consistent with wMR. Yet, an EPR paradox arises based on wMR for the set-up proposed by Schr\"odinger, where one measures two complementary spins simultaneously, "one by direct, the other by indirect" measurement. We revisit the original EPR paradox and find similarly that an EPR argument can be based on a weak form of local realism not falsifiable by GHZ or Bell tests.
翻訳日:2023-09-27 18:38:41 公開日:2023-09-26
# マルチインスタンステキスト検索用EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022

Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022 ( http://arxiv.org/abs/2206.14381v2 )

ライセンス: Link先を確認
Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim(参考訳) 本稿では,EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022について述べる。 まず、文を動詞と名詞に対応する意味的役割にパースし、その後、意味的役割の文脈化されたビデオ特徴と、複数の埋め込み空間における三重項損失によるテキスト特徴を利用する。 本手法は, 意味的類似性が高い正規化分散累積ゲイン(nDCG)において, 強基底線を超越する。 私たちの応募はndcgで3位、mapで4位です。

In this report, we present our approach for EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022. We first parse sentences into semantic roles corresponding to verbs and nouns; then utilize self-attentions to exploit semantic role contextualized video features along with textual features via triplet losses in multiple embedding spaces. Our method overpasses the strong baseline in normalized Discounted Cumulative Gain (nDCG), which is more valuable for semantic similarity. Our submission is ranked 3rd for nDCG and ranked 4th for mAP.
翻訳日:2023-09-27 18:37:09 公開日:2023-09-26
# 古典的使用者による量子計測のないベル状態に基づく半量子プライベート比較

Semiquantum private comparison based on Bell states without quantum measurements from the classical user ( http://arxiv.org/abs/2205.04927v3 )

ライセンス: Link先を確認
Mao-Jie Geng, Xia Li, Tian-Yu Ye(参考訳) 本稿では,ベル状態に基づく新しいsqpcプロトコルを提案する。これにより,1人の量子ユーザと1人のクラシックユーザが,そのプライベート入力の等価性と,半正統な量子サードパーティ(tp)の助けを借りて比較することができる。 TPは、誰とでも共謀する以外は、ユーザーのプライベート入力を盗むためにあらゆる攻撃を受ける可能性があるという意味で、半正直であると考えられている。 セキュリティ分析により,我々のプロトコルは,内部参加者による攻撃だけでなく,外部の盗聴者からの攻撃にも耐えられることを確認した。 さらに、我々のプロトコルは、ベル基底測定のみをTPに要求するが、量子エンタングルメントスワッピングは必要とせず、古典的なユーザを量子測定や量子メモリの保持から解放する。 さらに,提案プロトコルは,ベル状態に基づく従来のSQPCプロトコルを量子ビット効率で利用することができる。 最後に、本プロトコルは、集合的に強調される雑音量子チャネルに一般化することができる。

In this paper, we propose a novel semiquantum private comparison (SQPC) protocol based on Bell states, which enables one quantum user and one classical user to compare the equality of their private inputs with the help of a semi-honest quantum third party (TP). TP is assumed to be semi-honest in the sense that she may take all possible attacks to steal users' private inputs except conspiring with anyone. The security analysis validates that our protocol can resist not only the attacks from internal participants but also the attacks from an external eavesdropper. Besides, our protocol only asks TP to perform Bell basis measurements but doesn't need quantum entanglement swapping; and it releases the classical user from conducting quantum measurements and having a quantum memory. Moreover, our protocol can take advantage over previous SQPC protocols based on Bell states in qubit efficiency. Finally, our protocol can be generalized into its counterpart of the collective-dephasing noise quantum channel.
翻訳日:2023-09-27 18:36:31 公開日:2023-09-26
# OpenPodcar:自動運転車研究のためのオープンソース自動車

OpenPodcar: an Open Source Vehicle for Self-Driving Car Research ( http://arxiv.org/abs/2205.04454v2 )

ライセンス: Link先を確認
Fanta Camara, Chris Waltham, Grey Churchill, and Charles Fox(参考訳) OpenPodcarは安価な、オープンソースのハードウェアとソフトウェア、自動運転車の研究プラットフォームで、既製の、頑丈で移動可能なスクータードナー車両をベースとしている。 ハードウェアとソフトウェアのビルド命令が提供され、ドナー車両を低コストで完全に自律的なプラットフォームに変換する。 オープンプラットフォームは、 (a)ハードウェアコンポーネント:CAD設計、材料請求書及びビルド指示 ロ 標準的なROSインタフェース及び車両のシミュレーションを提供するArduino、ROS及びGazebo制御及びシミュレーションソフトウェアファイル c) 標準ロボット自律計画制御の高レベルなROSソフトウェア実装と構成。例えば、移動ベースインターフェースとTimed-Elastic-Bandプランナーは、障害物の周りの電流から所望のポーズまで、車両を駆動するためのコマンドを実行する。 この車両は、ラストマイルの自動運転タクシーサービスとしての使用や、都市中心部周辺で同様の配送コンテナを輸送するなど、人間の乗客や同様の荷物を最大15km/hで輸送するのに十分な大きさである。 小型で安全で、標準的な研究所に駐車し、現実的な人間と車両の相互作用研究に使用できる。 新しいコンポーネントによるシステム構築コストは、2022年の合計で約7,000ドルである。 これによりopenpodcarは、現実世界のユーティリティ、安全性、コスト、研究の利便性のバランスが良い。

OpenPodcar is a low-cost, open source hardware and software, autonomous vehicle research platform based on an off-the-shelf, hard-canopy, mobility scooter donor vehicle. Hardware and software build instructions are provided to convert the donor vehicle into a low-cost and fully autonomous platform. The open platform consists of (a) hardware components: CAD designs, bill of materials, and build instructions; (b) Arduino, ROS and Gazebo control and simulation software files which provide standard ROS interfaces and simulation of the vehicle; and (c) higher-level ROS software implementations and configurations of standard robot autonomous planning and control, including the move_base interface with Timed-Elastic-Band planner which enacts commands to drive the vehicle from a current to a desired pose around obstacles. The vehicle is large enough to transport a human passenger or similar load at speeds up to 15km/h, for example for use as a last-mile autonomous taxi service or to transport delivery containers similarly around a city center. It is small and safe enough to be parked in a standard research lab and be used for realistic human-vehicle interaction studies. System build cost from new components is around USD7,000 in total in 2022. OpenPodcar thus provides a good balance between real world utility, safety, cost and research convenience.
翻訳日:2023-09-27 18:36:11 公開日:2023-09-26
# 格子型変分時間発展のための量子アルゴリズム

Quantum algorithms for grid-based variational time evolution ( http://arxiv.org/abs/2203.02521v3 )

ライセンス: Link先を確認
Pauline J Ollitrault, Sven Jandura, Alexander Miessen, Irene Burghardt, Rocco Martinazzo, Francesco Tacchino, Ivano Tavernelli(参考訳) 量子力学のシミュレーションは、第一量子化グリッドエンコーディングで動作する量子アルゴリズムを呼び出す。 本稿では,第1量子化において量子力学を行うための変分量子アルゴリズムを提案する。 変分法により与えられる回路深さの通常の減少に加え、このアルゴリズムは以前提案した手法に比べていくつかの利点がある。 例えば、変分的アプローチは、大量の測定の必要性に苦しむ。 しかし、第一量子化ハミルトニアンのグリッド符号化は、システムのサイズに関係なく、位置と運動量基底の測定のみを必要とする。 そのため、変分アプローチとの組み合わせは特に魅力的である。 さらに、トロッター化第一量子化ハミルトニアンの量子ゲートへのハード分解の限界を克服するために、ヒューリスティックな変分形式を用いることができる。 この量子アルゴリズムを1次元と2次元の複数の系のダイナミクスに適用する。 シミュレーションでは,前述した変動時間伝播手法の数値不安定性を示す。 サブスペースの対角化によって、さらに$\mathcal{o}(mn^2)$ 2-qubit ゲートのコストで、$m$ は次元の数、$n^m$ はグリッド点の総数である。

The simulation of quantum dynamics calls for quantum algorithms working in first quantized grid encodings. Here, we propose a variational quantum algorithm for performing quantum dynamics in first quantization. In addition to the usual reduction in circuit depth conferred by variational approaches, this algorithm also enjoys several advantages compared to previously proposed ones. For instance, variational approaches suffer from the need for a large number of measurements. However, the grid encoding of first quantized Hamiltonians only requires measuring in position and momentum bases, irrespective of the system size. Their combination with variational approaches is therefore particularly attractive. Moreover, heuristic variational forms can be employed to overcome the limitation of the hard decomposition of Trotterized first quantized Hamiltonians into quantum gates. We apply this quantum algorithm to the dynamics of several systems in one and two dimensions. Our simulations exhibit the previously observed numerical instabilities of variational time propagation approaches. We show how they can be significantly attenuated through subspace diagonalization at a cost of an additional $\mathcal{O}(MN^2)$ 2-qubit gates where $M$ is the number of dimensions and $N^M$ is the total number of grid points.
翻訳日:2023-09-27 18:35:19 公開日:2023-09-26
# 決定的点過程に基づくスキルの教師なし発見のための統一アルゴリズムフレームワーク

A Unified Algorithm Framework for Unsupervised Discovery of Skills based on Determinantal Point Process ( http://arxiv.org/abs/2212.00211v3 )

ライセンス: Link先を確認
Jiayu Chen, Vaneet Aggarwal, Tian Lan(参考訳) 外部報酬の監督なしでオプションフレームワークの下でリッチスキルを学ぶことは、強化学習研究のフロンティアにある。 既存の作品は主に、相互情報損失(カバレッジを無視しながら)を通じてオプションの多様性を最大化する変分的オプション発見と、(多様性を無視しながら)州空間の接続性を高めてオプションのカバレッジを改善することに焦点を当てたラプラシア的手法である。 本稿では,教師なしオプション発見における多様性と範囲が,同じ数学的枠組みの下で確実に統一できることを示す。 具体的には、DPP(Determinantal Point Process)の新たな利用により、学習した選択肢の多様性とカバレッジを明確に定量化し、これらの目的を最適化し、優れた多様性とカバレッジを持つ選択肢を見つける。 提案手法であるodppは,mujoco と atari による課題に対する広範囲な評価を行っている。 その結果,本アルゴリズムは多様性と包括性の両方のカテゴリーにおいて,最先端のベースラインよりも優れていた。

Learning rich skills under the option framework without supervision of external rewards is at the frontier of reinforcement learning research. Existing works mainly fall into two distinctive categories: variational option discovery that maximizes the diversity of the options through a mutual information loss (while ignoring coverage) and Laplacian-based methods that focus on improving the coverage of options by increasing connectivity of the state space (while ignoring diversity). In this paper, we show that diversity and coverage in unsupervised option discovery can indeed be unified under the same mathematical framework. To be specific, we explicitly quantify the diversity and coverage of the learned options through a novel use of Determinantal Point Process (DPP) and optimize these objectives to discover options with both superior diversity and coverage. Our proposed algorithm, ODPP, has undergone extensive evaluation on challenging tasks created with Mujoco and Atari. The results demonstrate that our algorithm outperforms state-of-the-art baselines in both diversity- and coverage-driven categories.
翻訳日:2023-09-27 18:28:00 公開日:2023-09-26
# 変更点検出のためのオンラインカーネルCUSUM

Online Kernel CUSUM for Change-Point Detection ( http://arxiv.org/abs/2211.15070v4 )

ライセンス: Link先を確認
Song Wei, Yao Xie(参考訳) 本稿では,カーネル統計値の最大値を用いて未知の変更点位置を推定する,変更点検出のための効率的なオンラインカーネル累積Sum(CUSUM)手法を提案する。 提案手法は,Scan-B統計法のような非パラメトリックなショーハートチャート型手法と比較して,小さな変化に対する感度の向上を示す。 平均実行長(ARL)と予測検出遅延(EDD)の2つの主要な性能指標に対して,ARLの対数順に最適なウィンドウ長を確立することで,無限メモリのオーラルプロシージャに対して最小限の電力損失を確保することができる。 このような発見は、パラメトリックな変化点検出文献において、ウィンドウ制限された一般化度比 (glr) 手順の古典的な結果と平行である。 さらに,オンライン処理に欠かせない一定の計算量とメモリの複雑さを確保するために,検出統計量に対する再帰的計算手法を導入する。 シミュレーションデータと実データの両方について広範な実験を行い,本手法の競合性能を実証し,理論結果の検証を行った。

We propose an efficient online kernel Cumulative Sum (CUSUM) method for change-point detection that utilizes the maximum over a set of kernel statistics to account for the unknown change-point location. Our approach exhibits increased sensitivity to small changes compared to existing methods, such as the Scan-B statistic, which corresponds to a non-parametric Shewhart chart-type procedure. We provide accurate analytic approximations for two key performance metrics: the Average Run Length (ARL) and Expected Detection Delay (EDD), which enable us to establish an optimal window length on the order of the logarithm of ARL to ensure minimal power loss relative to an oracle procedure with infinite memory. Such a finding parallels the classic result for window-limited Generalized Likelihood Ratio (GLR) procedure in parametric change-point detection literature. Moreover, we introduce a recursive calculation procedure for detection statistics to ensure constant computational and memory complexity, which is essential for online procedures. Through extensive experiments on both simulated and real data, we demonstrate the competitive performance of our method and validate our theoretical results.
翻訳日:2023-09-27 18:27:37 公開日:2023-09-26
# NSGA-IIのランタイム分析:多くの目的に対する非効率性の証明、定量化、説明

Runtime Analysis for the NSGA-II: Proving, Quantifying, and Explaining the Inefficiency For Many Objectives ( http://arxiv.org/abs/2211.13084v4 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) NSGA-IIは多目的最適化問題を解く最も顕著なアルゴリズムの1つである。 多くの応用が成功したにもかかわらず、NSGA-IIは多数の目的に対して効果が低いことがいくつかの研究で示されている。 本研究では,この現象の厳密な実証と定量化に数学的ランタイム解析を用いる。 すべての解がパレート最適である離散的 oneminmax ベンチマークの単純な $m$-objective 汎化においても、人口規模が大きい nsga-ii では、目的数が少なくとも 3 である場合、全パレートフロント(すべてのパレートオプティマの目的ベクトル)をサブ指数時間で計算することはできない。 この予期せぬ行動の理由は、密集距離の計算において、異なる目的が独立に考慮されるという事実にある。 これは2つの目的に対する問題ではなく、一方の目的に沿ったペアワイズ非可換な解の任意のソートもまた、他方の目的(逆順序)に従ってそのようなソートである。

The NSGA-II is one of the most prominent algorithms to solve multi-objective optimization problems. Despite numerous successful applications, several studies have shown that the NSGA-II is less effective for larger numbers of objectives. In this work, we use mathematical runtime analyses to rigorously demonstrate and quantify this phenomenon. We show that even on the simple $m$-objective generalization of the discrete OneMinMax benchmark, where every solution is Pareto optimal, the NSGA-II also with large population sizes cannot compute the full Pareto front (objective vectors of all Pareto optima) in sub-exponential time when the number of objectives is at least three. The reason for this unexpected behavior lies in the fact that in the computation of the crowding distance, the different objectives are regarded independently. This is not a problem for two objectives, where any sorting of a pair-wise incomparable set of solutions according to one objective is also such a sorting according to the other objective (in the inverse order).
翻訳日:2023-09-27 18:27:17 公開日:2023-09-26
# シングルタイムスケールアクター批判の有限時間解析

Finite-time analysis of single-timescale actor-critic ( http://arxiv.org/abs/2210.09921v3 )

ライセンス: Link先を確認
Xuyang Chen, Lin Zhao(参考訳) アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。 しかし、その有限時間収束は最も実用的な単時間スケール形式ではまだ理解されていない。 シングル・タイム・スケールの俳優・批評家を分析するための既存の研究は、単純なサンプリングや表の設定に限られている。 連続状態空間におけるより実用的なオンライン・シングルタイム・アクタ-クリティックアルゴリズムについて検討し,批判者は線形関数近似を仮定し,アクタステップ毎に単一のマルコフサンプルで更新する。 これまでの分析では、このような困難なシナリオの収束を確立することができなかった。 オンライン・シングルタイムスケール・アクタ-クリティック法は、標準仮定下でのサンプル複雑性が$\widetilde{\mathcal{o}}(\epsilon^{-2})である$\epsilon$-approximate stationary pointを、i.i.d.サンプリング下でさらに$\mathcal{o}(\epsilon^{-2})$に改善できることを実証する。 提案手法は,アクターと批評家間のエラー伝達を体系的に評価し,制御する。 他のシングルタイム強化学習アルゴリズムの分析にも有望なアプローチを提供する。

Actor-critic methods have achieved significant success in many challenging applications. However, its finite-time convergence is still poorly understood in the most practical single-timescale form. Existing works on analyzing single-timescale actor-critic have been limited to i.i.d. sampling or tabular setting for simplicity. We investigate the more practical online single-timescale actor-critic algorithm on continuous state space, where the critic assumes linear function approximation and updates with a single Markovian sample per actor step. Previous analysis has been unable to establish the convergence for such a challenging scenario. We demonstrate that the online single-timescale actor-critic method provably finds an $\epsilon$-approximate stationary point with $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity under standard assumptions, which can be further improved to $\mathcal{O}(\epsilon^{-2})$ under the i.i.d. sampling. Our novel framework systematically evaluates and controls the error propagation between the actor and critic. It offers a promising approach for analyzing other single-timescale reinforcement learning algorithms as well.
翻訳日:2023-09-27 18:26:15 公開日:2023-09-26
# CNNを用いた表現コスト理論の検証

Testing predictions of representation cost theory with CNNs ( http://arxiv.org/abs/2210.01257v3 )

ライセンス: Link先を確認
Charles Godfrey, Elise Bishoff, Myles Mckay, Davis Brown, Grayson Jorgenson, Henry Kvinge and Eleanor Byler(参考訳) 訓練された畳み込みニューラルネットワーク(CNN)は、周波数の異なる信号に対する感度のレベルが異なることが広く認識されている。 特に、多くの実証研究が低周波信号に対するCNNの感度を記録している。 本研究では,この観測感度が自然画像の周波数分布の結果であることを示す理論と実験を行い,そのパワーのほとんどが低から中程度の周波数に集中していることを示した。 我々の理論解析は、ネットワークトレーニングアルゴリズムの計算を加速し、暗黙のバイアスを研究するためにこれまで用いられてきたcnnの層を周波数空間で表現することに依存しているが、モデルロバストネスの領域では、我々の知識の最良の部分は適用されていない。

It is widely acknowledged that trained convolutional neural networks (CNNs) have different levels of sensitivity to signals of different frequency. In particular, a number of empirical studies have documented CNNs sensitivity to low-frequency signals. In this work we show with theory and experiments that this observed sensitivity is a consequence of the frequency distribution of natural images, which is known to have most of its power concentrated in low-to-mid frequencies. Our theoretical analysis relies on representations of the layers of a CNN in frequency space, an idea that has previously been used to accelerate computations and study implicit bias of network training algorithms, but to the best of our knowledge has not been applied in the domain of model robustness.
翻訳日:2023-09-27 18:25:16 公開日:2023-09-26
# PL-EVIO:点と線の特徴を持つロバストな単眼イベントベース視覚慣性オドメトリー

PL-EVIO: Robust Monocular Event-based Visual Inertial Odometry with Point and Line Features ( http://arxiv.org/abs/2209.12160v2 )

ライセンス: Link先を確認
Weipeng Guan, Peiyu Chen, Yuhan Xie, Peng Lu(参考訳) イベントカメラは、フレームレートが固定された強度画像の代わりにピクセルレベルの照明変化をキャプチャするモーションアクティベートセンサーである。 標準のカメラと比較すると、高速動作やダイナミックレンジのシナリオにおいて、信頼性の高い視覚知覚を提供することができる。 しかし、イベントカメラは、静止状態のように、カメラとシーンの間の相対的な動きが制限されている場合にのみ、わずかな情報やノイズを出力する。 標準的なカメラは、ほとんどのシナリオ、特に良好な照明条件において、リッチな知覚情報を提供できる。 この2つのカメラはまさに補完的です。 本稿では,イベントコーン機能,ラインベースイベント機能,点ベース画像機能を備えた,堅牢で高精度かつリアルタイムな単眼イベントベース視覚慣性オドメトリー(VIO)手法を提案する。 提案手法では,自然シーンにおけるポイントベース特徴と人造シーンにおけるラインベース特徴を活用し,設計の充実した機能管理を通じて,さらに追加的な構造や制約情報を提供する。 提案手法は,最新の画像ベースやイベントベースVIOと比較して,優れた性能が得られることを示す。 最後に,本手法を用いて,クローズドループ自律四極子飛行と大規模屋外実験を行った。 評価のビデオは、プロジェクトのWebサイト(https://b23.tv/OE3QM6j)で紹介されています。

Event cameras are motion-activated sensors that capture pixel-level illumination changes instead of the intensity image with a fixed frame rate. Compared with the standard cameras, it can provide reliable visual perception during high-speed motions and in high dynamic range scenarios. However, event cameras output only a little information or even noise when the relative motion between the camera and the scene is limited, such as in a still state. While standard cameras can provide rich perception information in most scenarios, especially in good lighting conditions. These two cameras are exactly complementary. In this paper, we proposed a robust, high-accurate, and real-time optimization-based monocular event-based visual-inertial odometry (VIO) method with event-corner features, line-based event features, and point-based image features. The proposed method offers to leverage the point-based features in the nature scene and line-based features in the human-made scene to provide more additional structure or constraints information through well-design feature management. Experiments in the public benchmark datasets show that our method can achieve superior performance compared with the state-of-the-art image-based or event-based VIO. Finally, we used our method to demonstrate an onboard closed-loop autonomous quadrotor flight and large-scale outdoor experiments. Videos of the evaluations are presented on our project website: https://b23.tv/OE3QM6j
翻訳日:2023-09-27 18:25:02 公開日:2023-09-26
# 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe ( http://arxiv.org/abs/2209.05324v3 )

ライセンス: Link先を確認
Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Jia Zeng, Zhiqi Li, Jiazhi Yang, Hanming Deng, Hao Tian, Enze Xie, Jiangwei Xie, Li Chen, Tianyu Li, Yang Li, Yulu Gao, Xiaosong Jia, Si Liu, Jianping Shi, Dhaka Lin and Yu Qiao(参考訳) 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。 ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。 センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。 BEVの知覚における中核的な問題は (a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法 b) bevグリッドにおける根拠真理アノテーションの取得方法 (c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び (d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。 本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。 さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。 さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。 最後に,この領域における今後の研究の方向性を指摘する。 このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待している。 最新の作業を収集するためにアクティブなリポジトリを保持し、https://github.com/OpenDriveLab/Birds-eye-view-Perceptionでトリックの袋を提供する。

Learning powerful representations in bird's-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent works on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report will shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenDriveLab/Birds-eye-view-Perception
翻訳日:2023-09-27 18:24:38 公開日:2023-09-26
# 指向拡散:注意誘導による物体配置の直接制御

Directed Diffusion: Direct Control of Object Placement through Attention Guidance ( http://arxiv.org/abs/2302.13153v3 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, J.P. Lewis, Avisek Lahiri, Thomas Leung, W. Bastiaan Kleijn(参考訳) DALLE-2、Imagen、eDiff-I、Stable Diffusionなどのテキスト誘導拡散モデルでは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。 多くの場合、画像は非常に高品質である。 しかし、これらのモデルは、特定の位置関係にある文字など、いくつかの重要なオブジェクトを含むシーンを構成するのに苦労することが多い。 映画やアニメーション理論の文献で認識されているように、画像内の文字や物体の配置を「直接」する能力の欠如はストーリーテリングにおいて極めて重要である。 この作業では、特に簡単なアプローチで必要な方向を提供しています。 そこで我々は,これらの単語が示す対象の空間的レイアウトを反映した単語のクロスアテンションマップの観察に基づいて,これらのクロスアテンションマップにおいて所望の位置に'アクティベーション'を生成する最適化目標を提案する。 結果として得られたアプローチは、ストーリーブックのように、単一の画像から関連する画像のコレクションへのテキスト誘導拡散モデルの適用性を一般化するためのステップである。 Directed Diffusionは、既存の事前学習モデルを使用し、位置付けられたオブジェクトと背景とのコヒーレントなブレンドを維持しながら、複数のオブジェクトに対して容易に高いレベルの位置制御を提供する。 さらに、実装には数行しか必要ありません。

Text-guided diffusion models such as DALLE-2, Imagen, eDiff-I, and Stable Diffusion are able to generate an effectively endless variety of images given only a short text prompt describing the desired image content. In many cases the images are of very high quality. However, these models often struggle to compose scenes containing several key objects such as characters in specified positional relationships. The missing capability to ``direct'' the placement of characters and objects both within and across images is crucial in storytelling, as recognized in the literature on film and animation theory. In this work, we take a particularly straightforward approach to providing the needed direction. Drawing on the observation that the cross-attention maps for prompt words reflect the spatial layout of objects denoted by those words, we introduce an optimization objective that produces ``activation'' at desired positions in these cross-attention maps. The resulting approach is a step toward generalizing the applicability of text-guided diffusion models beyond single images to collections of related images, as in storybooks. Directed Diffusion provides easy high-level positional control over multiple objects, while making use of an existing pre-trained model and maintaining a coherent blend between the positioned objects and the background. Moreover, it requires only a few lines to implement.
翻訳日:2023-09-27 18:18:25 公開日:2023-09-26
# UniPC: 拡散モデルの高速サンプリングのための統一予測コレクタフレームワーク

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2302.04867v3 )

ライセンス: Link先を確認
Wenliang Zhao, Lujia Bai, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。 しかし, プレトレーニングDPMからのサンプリングはデノナイジングネットワークの複数の評価により時間がかかり, DPMのサンプリングを加速することがますます重要になっている。 高速サンプラーの設計の最近の進歩にもかかわらず、既存の手法では、より少ないステップ(例えば$<$10)を好む多くのアプリケーションで満足のいく画像を生成することができない。 本稿では,既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し,モデル評価を余分に行わずに精度を高めるとともに,任意の順序を副生成物としてサポートする統一予測器(UniP)を導出する。 そこで,unip と unic を組み合わせることで,dpms の高速サンプリングのための統一予測子補正フレームワーク unipc を提案する。 我々は,画素空間と潜在空間DPMを用いた非条件サンプリングと条件サンプリングの両方を含む広範囲な実験により評価を行った。 我々のUniPCは、CIFAR10(unconditional)で3.87 FID、ImageNet 256$\times$256(conditional)で7.51 FIDを達成できる。 コードはhttps://github.com/wl-zhao/UniPCで入手できる。

Diffusion probabilistic models (DPMs) have demonstrated a very promising ability in high-resolution image synthesis. However, sampling from a pre-trained DPM is time-consuming due to the multiple evaluations of the denoising network, making it more and more important to accelerate the sampling of DPMs. Despite recent progress in designing fast samplers, existing methods still cannot generate satisfying images in many applications where fewer steps (e.g., $<$10) are favored. In this paper, we develop a unified corrector (UniC) that can be applied after any existing DPM sampler to increase the order of accuracy without extra model evaluations, and derive a unified predictor (UniP) that supports arbitrary order as a byproduct. Combining UniP and UniC, we propose a unified predictor-corrector framework called UniPC for the fast sampling of DPMs, which has a unified analytical form for any order and can significantly improve the sampling quality over previous methods, especially in extremely few steps. We evaluate our methods through extensive experiments including both unconditional and conditional sampling using pixel-space and latent-space DPMs. Our UniPC can achieve 3.87 FID on CIFAR10 (unconditional) and 7.51 FID on ImageNet 256$\times$256 (conditional) with only 10 function evaluations. Code is available at https://github.com/wl-zhao/UniPC.
翻訳日:2023-09-27 18:17:41 公開日:2023-09-26
# 基準点を用いた参照型進化的多目的最適化のための品質指標:レビューと分析

Quality Indicators for Preference-based Evolutionary Multi-objective Optimization Using a Reference Point: A Review and Analysis ( http://arxiv.org/abs/2301.12148v3 )

ライセンス: Link先を確認
Ryoji Tanabe and Ke Li(参考訳) 参照点を用いた選好に基づく進化的多目的最適化アルゴリズムのための品質指標がいくつか提案されている。 品質指標の体系的なレビューと分析は、ベンチマークと実用的な意思決定の両方に役立つが、どちらも実施されていない。 本稿では,まず,既存の関心領域と基準点を用いた嗜好に基づく進化的多目的最適化のための品質指標について概説する。 各品質指標は異なる関心領域のために設計されていると指摘する。 そこで本研究では,品質指標の特性について検討する。 目的空間における解から基準点までの距離は,達成度スカラー化関数値が必ずしも一致しないことを示す。 我々は、基準点の位置とパレート前面の形状によって、興味のある領域が著しく異なることを観察する。 いくつかの品質指標の望ましくない性質を識別する。 また,選好に基づく進化的多目的最適化アルゴリズムのランキングは品質指標の選択に依存することを示した。

Some quality indicators have been proposed for benchmarking preference-based evolutionary multi-objective optimization algorithms using a reference point. Although a systematic review and analysis of the quality indicators are helpful for both benchmarking and practical decision-making, neither has been conducted. In this context, first, this paper reviews existing regions of interest and quality indicators for preference-based evolutionary multi-objective optimization using the reference point. We point out that each quality indicator was designed for a different region of interest. Then, this paper investigates the properties of the quality indicators. We demonstrate that an achievement scalarizing function value is not always consistent with the distance from a solution to the reference point in the objective space. We observe that the regions of interest can be significantly different depending on the position of the reference point and the shape of the Pareto front. We identify undesirable properties of some quality indicators. We also show that the ranking of preference-based evolutionary multi-objective optimization algorithms depends on the choice of quality indicators.
翻訳日:2023-09-27 18:17:01 公開日:2023-09-26
# ddml:stataのダブル/デバイアス機械学習

ddml: Double/debiased machine learning in Stata ( http://arxiv.org/abs/2301.09397v2 )

ライセンス: Link先を確認
Achim Ahrens, Christian B. Hansen, Mark E. Schaffer, Thomas Wiemann(参考訳) 本稿では,Double/Debiased Machine Learning (DDML) のパッケージddmlを紹介する。 5つの異なる計量モデルに対する因果パラメータの推定がサポートされ、未知の機能形式や多くの外因性変数の設定において内因性変数の因果効果を柔軟に推定することができる。 ddmlは、スタタの既存の教師付き機械学習プログラムと互換性がある。 マルチマシン学習者を最終予測器に組み合わせたスタック推定とddmlを併用することを推奨する。 我々は推薦を支持するためにモンテカルロの証拠を提供する。

We introduce the package ddml for Double/Debiased Machine Learning (DDML) in Stata. Estimators of causal parameters for five different econometric models are supported, allowing for flexible estimation of causal effects of endogenous variables in settings with unknown functional forms and/or many exogenous variables. ddml is compatible with many existing supervised machine learning programs in Stata. We recommend using DDML in combination with stacking estimation which combines multiple machine learners into a final predictor. We provide Monte Carlo evidence to support our recommendation.
翻訳日:2023-09-27 18:16:45 公開日:2023-09-26
# データ蒸留:調査

Data Distillation: A Survey ( http://arxiv.org/abs/2301.04272v2 )

ライセンス: Link先を確認
Noveen Sachdeva, Julian McAuley(参考訳) ディープラーニングの人気は、膨大な数の大規模で多目的なデータセットのキュレーションにつながった。 個々のタスクに人間に近いパフォーマンスがあるにもかかわらず、大規模データセット上のパラメータハングリーモデルのトレーニングは、多面的な問題を引き起こす。 (a)高モデル学習時間 (b)研究の遅さ,及び (c)エコサステナビリティの低下。 代替として、データ蒸留アプローチは、モデルのトレーニング、推論、アーキテクチャ検索など、元のデータセットの効果的なドロップイン置換として機能する、精細なデータ要約を合成することを目的としている。 本稿では,既存手法の詳細な分類法を提供するとともに,データ蒸留のための形式的枠組みを提案する。 さらに,画像,グラフ,ユーザ-イテムインタラクション(レコメンダシステム)など,さまざまなデータモダリティに対するデータ蒸留アプローチについても取り上げ,現状の課題と今後の研究方向性を明らかにした。

The popularity of deep learning has led to the curation of a vast number of massive and multifarious datasets. Despite having close-to-human performance on individual tasks, training parameter-hungry models on large datasets poses multi-faceted problems such as (a) high model-training time; (b) slow research iteration; and (c) poor eco-sustainability. As an alternative, data distillation approaches aim to synthesize terse data summaries, which can serve as effective drop-in replacements of the original dataset for scenarios like model training, inference, architecture search, etc. In this survey, we present a formal framework for data distillation, along with providing a detailed taxonomy of existing approaches. Additionally, we cover data distillation approaches for different data modalities, namely images, graphs, and user-item interactions (recommender systems), while also identifying current challenges and future research directions.
翻訳日:2023-09-27 18:16:36 公開日:2023-09-26
# 教師なし音声再構成を用いたディエンタングリング韻律表現

Disentangling Prosody Representations with Unsupervised Speech Reconstruction ( http://arxiv.org/abs/2212.06972v2 )

ライセンス: Link先を確認
Leyuan Qu, Taihao Li, Cornelius Weber, Theresa Pekarek-Rosin, Fuji Ren and Stefan Wermter(参考訳) 人間の発話は、意味内容、話者のアイデンティティ、韻律情報など、様々な要素によって特徴づけられる。 自動音声認識(ASR)と話者検証タスクにおいて,意味内容の表現と話者識別を分離する上で重要な進歩が見られた。 しかし、音色やリズムなどの異なる属性の固有の関連性や、大規模で話者に依存しないASRを実現するための教師付きトレーニングスキームの必要性から、韻律情報を抽出することは依然としてオープンな研究課題である。 本研究の目的は,教師なしの再構築に基づく音声からの感情的韻律の偏りを解消することである。 具体的には,(1)音声信号をセマンティクスコンテンツの離散単位に変換する単位エンコーダ,(2)話者識別埋め込みを生成する事前学習型話者検証モデル,(3)韻律表現を学習する訓練可能な韻律エンコーダ,の3つの重要な構成要素を特定し,設計,実装し,統合する。 まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。 EVCタスクにおける客観的(重み付けと無重み付け)と主観的(平均評価スコア)の両方の評価は、Prosody2Vecが他の感情音声にスムーズに伝達できる一般的な韻律的特徴を効果的に捉えることを示唆している。 さらに,IEMOCAPデータセット上でのSER実験により,Prosody2Vecが学習した韻律特徴が,広く使用されている事前学習モデルの性能に相補的で有益であること,Prosody2Vecと HuBERT表現を組み合わせる際の最先端手法を超越していることが明らかになった。

Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for supervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective (weighted and unweighted accuracies) and subjective (mean opinion score) evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations.
翻訳日:2023-09-27 18:15:53 公開日:2023-09-26
# VeriX: ディープニューラルネットワークの検証可能な説明可能性を目指して

VeriX: Towards Verified Explainability of Deep Neural Networks ( http://arxiv.org/abs/2212.01051v5 )

ライセンス: Link先を確認
Min Wu, Haoze Wu, Clark Barrett(参考訳) 本稿では,機械学習モデルの意思決定境界に沿って,最適なロバストな説明と反事実を生成するシステム verix (verified descriptionability) を提案する。 制約解決手法と特徴レベルの感度ランキングに基づくヒューリスティックを用いて,このような説明と反事実を反復的に構築する。 本手法は,画像認識ベンチマークと自律型航空機タクシーの現実シナリオを用いて評価する。

We present VeriX (Verified eXplainability), a system for producing optimal robust explanations and generating counterfactuals along decision boundaries of machine learning models. We build such explanations and counterfactuals iteratively using constraint solving techniques and a heuristic based on feature-level sensitivity ranking. We evaluate our method on image recognition benchmarks and a real-world scenario of autonomous aircraft taxiing.
翻訳日:2023-09-27 18:15:12 公開日:2023-09-26
# KeyMatchNet: 一般化キーポイントマッチングによる3次元点雲のゼロショットポス推定

KeyMatchNet: Zero-Shot Pose Estimation in 3D Point Clouds by Generalized Keypoint Matching ( http://arxiv.org/abs/2303.16102v2 )

ライセンス: Link先を確認
Frederik Hagelskj{\ae}r and Rasmus Laurvig Haugaard(参考訳) 本稿では3次元点雲におけるゼロショットポーズ推定のための新しいネットワークであるKeyMatchNetを提案する。 ネットワークはオブジェクトのキーポイントとシーンポイントをマッチングするように訓練され、これらのマッチはポーズ推定に使用される。 このメソッドは、シーンポイントクラウドを入力としてだけでなく、オブジェクトポイントクラウドも使うことで、新しいオブジェクトに一般化する。 これは、オブジェクトの特徴をネットワーク重みに格納する従来の方法とは対照的である。 一般化されたネットワークを持つことで、新しいオブジェクトのための新しいモデルのトレーニングの必要性を回避し、メソッドの計算要件を大幅に削減する。 しかしながら、複雑さの結果、ゼロショットポーズ推定手法は一般に、単一のオブジェクトに対してトレーニングされたネットワークよりも低いパフォーマンスを持つ。 これに対処するため、トレーニング中にシナリオ情報を含めることで、タスクの複雑さを低減します。 これは一般的には実現不可能であり、新しいタスクの実際のデータ収集はコストを大幅に増加させる。 しかし、ゼロショットポーズ推定タスクでは、新しいオブジェクトに対して再トレーニングは必要ない。 これにより、高価なデータ収集を一度行うことができ、シナリオ情報はネットワーク重みに保持される。 ネットワークは1500のオブジェクトで訓練され、見えないオブジェクトでテストされる。 訓練されたネットワークは、新しいオブジェクトのポーズを正確に推定し、トレーニングされたクラス外でネットワークが実行する能力を示す。 提案手法は多くの実世界のシナリオに有用であると考えている。 コード、トレーニングされたネットワーク、データセットは公開時に利用可能になる。

In this paper, we present KeyMatchNet, a novel network for zero-shot pose estimation in 3D point clouds. The network is trained to match object keypoints with scene-points, and these matches are then used for pose estimation. The method generalizes to new objects by using not only the scene point cloud as input but also the object point cloud. This is in contrast with conventional methods where object features are stored in network weights. By having a generalized network we avoid the need for training new models for novel objects, thus significantly decreasing the computational requirements of the method. However, as a result of the complexity, zero-shot pose estimation methods generally have lower performance than networks trained for a single object. To address this, we reduce the complexity of the task by including the scenario information during training. This is generally not feasible as collecting real data for new tasks increases the cost drastically. But, in the zero-shot pose estimation task, no retraining is needed for new objects. The expensive data collection can thus be performed once, and the scenario information is retained in the network weights. The network is trained on 1,500 objects and is tested on unseen objects. We demonstrate that the trained network can accurately estimate poses for novel objects and demonstrate the ability of the network to perform outside of the trained class. We believe that the presented method is valuable for many real-world scenarios. Code, trained network, and dataset will be made available at publication.
翻訳日:2023-09-27 18:06:47 公開日:2023-09-26
# 自然相互作用を伴う多部交絡の高速発生

The fastest generation of multipartite entanglement with natural interactions ( http://arxiv.org/abs/2303.09238v2 )

ライセンス: Link先を確認
Pawe{\l} Cie\'sli\'nski, Waldemar K{\l}obus, Pawe{\l} Kurzy\'nski, Tomasz Paterek, Wies{\l}aw Laskowski(参考訳) 複数の量子オブジェクト間の自然な相互作用は、基本的に2体項のみで構成されている。 対照的に、非常に絡み合った状態を生成する単一の大域ユニタリは通常、複数のサブシステムを同時に結合するハミルトニアンから生じる。 本稿では,自然相互作用によって生成される単一ユニタリと強い非古典的マルチパーティイト相関を生成する時間について検討する。 対象状態の対称性に一致するように2体相互作用の対称性を制限し、最大7量子ビットに対してグリーンベルガー・ホルン・ザイリンガー(GHZ)、W、ディック(Dicke)および絶対最大エンタングルド(AME)状態の高速生成に集中する。 これらの結果は、系内のエネルギーを制約することで得られるため、対称性に調整された自然相互作用に対する状態依存的な量子速度限界と見なすことができる。 これらは、粒子の数が増加する特定の絡み合った状態の生成がそれ以上の時間を必要としない反直感効果をもたらす。 この手法は広範な数値シミュレーションと解析的推定に依存する。

Natural interactions among multiple quantum objects are fundamentally composed of two-body terms only. In contradistinction, single global unitaries that generate highly entangled states typically arise from Hamiltonians that couple multiple individual subsystems simultaneously. Here, we study the time to produce strongly nonclassical multipartite correlations with a single unitary generated by the natural interactions. We restrict the symmetry of two-body interactions to match the symmetry of the target states and focus on the fastest generation of multipartite entangled Greenberger-Horne-Zeilinger (GHZ), W, Dicke and absolutely maximally entangled (AME) states for up to seven qubits. These results are obtained by constraining the energy in the system and accordingly can be seen as state-dependent quantum speed limits for symmetry-adjusted natural interactions. They give rise to a counter-intuitive effect where the creation of particular entangled states with an increasing number of particles does not require more time. The methods used rely on extensive numerical simulations and analytical estimations.
翻訳日:2023-09-27 18:06:01 公開日:2023-09-26
# テンソルニューラルネットワークのロバスト一般化を支援する変換低ランクパラメータ化

Transformed Low-Rank Parameterization Can Help Robust Generalization for Tensor Neural Networks ( http://arxiv.org/abs/2303.00196v2 )

ライセンス: Link先を確認
Andong Wang, Chao Li, Mingyuan Bai, Zhong Jin, Guoxu Zhou, Qibin Zhao(参考訳) 効率的で堅牢なマルチチャネルデータ学習を実現することは、データサイエンスにおける課題である。 変換領域の低ランク性、すなわち変換低ランク性を活用することで、テンソル特異値分解(t-svd)はマルチチャネルデータ表現において大きな成功を収め、最近ではt-product layer(t-nns)を持つニューラルネットワークなどの関数表現にも拡張されている。 しかし、t-SVDがt-NNの学習行動に理論的にどのような影響を及ぼすかはまだ不明である。 本稿では,標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより,この問題に最初に答える。 完全変換された低ランクパラメータ化によって圧縮されたt-nnはより鋭い逆一般化を実現できる。 実際には、t-NNは正確に低ランクの重みを変換することはめったにないが、我々の分析は、勾配流(GF)を用いた対角訓練により、ReLUアクティベートによる過パラメータ化t-NNは、特定の条件下で変換された低ランクのパラメータ化に向けて暗黙の正規化で訓練されることを示している。 また,t-nnの逆一般化境界を概して低位重みを変換する。 分析の結果,変換された低ランクパラメータ化は,t-NNのロバストな一般化を促進することが示唆された。

Achieving efficient and robust multi-channel data learning is a challenging task in data science. By exploiting low-rankness in the transformed domain, i.e., transformed low-rankness, tensor Singular Value Decomposition (t-SVD) has achieved extensive success in multi-channel data representation and has recently been extended to function representation such as Neural Networks with t-product layers (t-NNs). However, it still remains unclear how t-SVD theoretically affects the learning behavior of t-NNs. This paper is the first to answer this question by deriving the upper bounds of the generalization error of both standard and adversarially trained t-NNs. It reveals that the t-NNs compressed by exact transformed low-rank parameterization can achieve a sharper adversarial generalization bound. In practice, although t-NNs rarely have exactly transformed low-rank weights, our analysis further shows that by adversarial training with gradient flow (GF), the over-parameterized t-NNs with ReLU activations are trained with implicit regularization towards transformed low-rank parameterization under certain conditions. We also establish adversarial generalization bounds for t-NNs with approximately transformed low-rank weights. Our analysis indicates that the transformed low-rank parameterization can promisingly enhance robust generalization for t-NNs.
翻訳日:2023-09-27 18:04:29 公開日:2023-09-26
# 不和合性は乱れより強い

Incompatibility is strictly stronger than disturbance ( http://arxiv.org/abs/2305.16931v4 )

ライセンス: Link先を確認
Marco Erba, Paolo Perinotti, Davide Rolino, Alessandro Tosini(参考訳) ハイゼンベルクの不確実性原理に対するヒューリスティックな議論の核心は、有名な$\gamma$-ray microscope $\textit{Gedankenexperiment}$ であり、それらが作用しているシステムの状態を不可逆的に変化させる測定の存在に依存し、その後の測定に不可解な障害を引き起こす。 この議論は、量子論における測定の不整合性を正当化するため、すなわち、測定障害の不可逆性とは異なると理解されている、共同で行うことができない測定の存在を正当化するために行われた。 一方,本書では,計測の非可逆性は計測外乱の不可逆性に対して十分条件であることを示す説得力のある論証を提示する一方で,逆の含意に対する反例である玩具理論を提示する。

The core of Heisenberg's heuristic argument for the uncertainty principle, involving the famous $\gamma$-ray microscope $\textit{Gedankenexperiment}$, hinges upon the existence of measurements that irreversibly alter the state of the system on which they are acting, causing an irreducible disturbance on subsequent measurements. The argument was put forward to justify measurement incompatibility in quantum theory, namely, the existence of measurements that cannot be performed jointly$-$a feature that is now understood to be different from irreversibility of measurement disturbance, though related to it. In this Letter, on the one hand, we provide a compelling argument showing that measurement incompatibility is indeed a sufficient condition for irreversibility of measurement disturbance, while, on the other hand, we exhibit a toy theory that is a counterexample for the converse implication.
翻訳日:2023-09-27 17:57:59 公開日:2023-09-26
# 大言語モデルからの複合視覚手がかりによるゼロショット視覚関連検出

Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models ( http://arxiv.org/abs/2305.12476v2 )

ライセンス: Link先を確認
Lin Li, Jun Xiao, Guikun Chen, Jian Shao, Yueting Zhuang, Long Chen(参考訳) CLIPのような事前訓練された視覚言語モデルは強力な一般化能力を示しており、ゼロショット視覚認識の領域において有望なツールとなっている。 視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)タイプを特定する典型的なタスクである。 しかし、ゼロショットvrdのクラスベースプロンプトが一般的であるクリップは、異なる細かな関係タイプを区別するのに苦労し、2つのオブジェクトの本質的な空間情報を無視するなど、いくつかの弱点がある。 そこで本研究では,複合記述プロンプトによる関係検出を解消する,ゼロショットvrd: recodeを提案する。 具体的には、まず各述語カテゴリを主題、対象、空間構成要素に分解する。 次に、大きな言語モデル(LLM)を活用して、各コンポーネントに対する記述ベースのプロンプト(またはビジュアルキュー)を生成する。 異なる視覚的な手がかりは、異なる視点から類似した関連カテゴリの識別性を高め、vrdのパフォーマンスを著しく向上させる。 異なる視覚的手がかりを動的に融合させるために,LLMが異なる視覚的手がかりに対して適切な重みを生成できるようにするチェーン・オブ・シント法を導入する。 4つのVRDベンチマークの大規模な実験は、RECODEの有効性と解釈可能性を示している。

Pretrained vision-language models, such as CLIP, have demonstrated strong generalization capabilities, making them promising tools in the realm of zero-shot visual recognition. Visual relation detection (VRD) is a typical task that identifies relationship (or interaction) types between object pairs within an image. However, naively utilizing CLIP with prevalent class-based prompts for zero-shot VRD has several weaknesses, e.g., it struggles to distinguish between different fine-grained relation types and it neglects essential spatial information of two objects. To this end, we propose a novel method for zero-shot VRD: RECODE, which solves RElation detection via COmposite DEscription prompts. Specifically, RECODE first decomposes each predicate category into subject, object, and spatial components. Then, it leverages large language models (LLMs) to generate description-based prompts (or visual cues) for each component. Different visual cues enhance the discriminability of similar relation categories from different perspectives, which significantly boosts performance in VRD. To dynamically fuse different cues, we further introduce a chain-of-thought method that prompts LLMs to generate reasonable weights for different visual cues. Extensive experiments on four VRD benchmarks have demonstrated the effectiveness and interpretability of RECODE.
翻訳日:2023-09-27 17:57:42 公開日:2023-09-26
# 意味的事前改良を伴う弱教師付き視覚テキストグラウンド

Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement ( http://arxiv.org/abs/2305.10913v2 )

ライセンス: Link先を確認
Davide Rigoni and Luca Parolari and Luciano Serafini and Alessandro Sperduti and Lamberto Ballan(参考訳) 画像-文ペアのみを用いて、弱い教師付き視覚-テクスチャグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。 教師付きアプローチと比較して,境界ボックスや文句対応が利用できないため,学習は困難である。 そこで本研究では,2つの主モジュールの出力を組み合わせることにより予測を行う意味的事前改良モデル(sprm)を提案する。 最初の未学習モジュールは、テキスト句とバウンディングボックスの間の粗いアライメントを返すことを目的としている。 第2の訓練モジュールは、2つのサブコンポーネントで構成されており、最終的なフレーズ境界ボックスアライメントの精度を向上させるために粗いアライメントを洗練している。 本モデルは,画像と文間のマルチモーダル類似度を最大化するために訓練され,同一文のマルチモーダル類似度を最小化するとともに,トレーニング中に最も役立てるために慎重に選択された新しい非関連画像を生成する。 われわれのアプローチは、Flickr30k EntitiesとReferItという2つの人気のあるデータセットに関する最先端の結果を示している。 さらに、トレーニングされていないコンポーネントのおかげで、少数のトレーニング例だけで、競争力のあるパフォーマンスに達する。

Using only image-sentence pairs, weakly-supervised visual-textual grounding aims to learn region-phrase correspondences of the respective entity mentions. Compared to the supervised approach, learning is more difficult since bounding boxes and textual phrases correspondences are unavailable. In light of this, we propose the Semantic Prior Refinement Model (SPRM), whose predictions are obtained by combining the output of two main modules. The first untrained module aims to return a rough alignment between textual phrases and bounding boxes. The second trained module is composed of two sub-components that refine the rough alignment to improve the accuracy of the final phrase-bounding box alignments. The model is trained to maximize the multimodal similarity between an image and a sentence, while minimizing the multimodal similarity of the same sentence and a new unrelated image, carefully selected to help the most during training. Our approach shows state-of-the-art results on two popular datasets, Flickr30k Entities and ReferIt, shining especially on ReferIt with a 9.6% absolute improvement. Moreover, thanks to the untrained component, it reaches competitive performances just using a small fraction of training examples.
翻訳日:2023-09-27 17:57:20 公開日:2023-09-26
# バイナリ化スペクトル圧縮イメージング

Binarized Spectral Compressive Imaging ( http://arxiv.org/abs/2305.10299v2 )

ライセンス: Link先を確認
Yuanhao Cai, Yuxin Zheng, Jing Lin, Xin Yuan, Yulun Zhang, Haoqian Wang(参考訳) ハイパースペクトル画像(hsi)再構成のための既存のディープラーニングモデルは優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。 したがって、これらの方法はリソース制限のあるモバイルデバイスにはほとんどデプロイできない。 本稿では, 圧縮圧縮画像(SCI)システムにおいて, 圧縮計測からHSIを効率よく, 実用的に復元する新しい手法であるBiSRNetを提案する。 まず、小型で展開が容易なベースモデルを再設計し、バイナライズする。 次に、基本単位、二元化スペクトル再分配畳み込み(bisr-conv)を示す。 BiSR-Conv はバイナライズアクティベーション前に HSI 表現を適応的に再分割し、拡張性のある双曲型タンジェント関数を用いてバックプロパゲーションにおいて符号関数を近似する。 BiSR-Convに基づいて、4つの二項化畳み込みモジュールをカスタマイズし、次元ミスマッチに対処し、ネットワーク全体の全精度情報を伝達する。 最後に、bisrnet はベースモデルを二元化するために提案手法を用いて導出する。 包括的定量的および定性的な実験により,提案したBiSRNetは最先端のバイナライゼーション手法より優れ,完全精度のアルゴリズムで同等の性能を発揮することが示された。 コードとモデルはhttps://github.com/caiyuanhao1998/BiSCIとhttps://github.com/caiyuanhao1998/MSTで公開されている。

Existing deep learning models for hyperspectral image (HSI) reconstruction achieve good performance but require powerful hardwares with enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited mobile devices. In this paper, we propose a novel method, Binarized Spectral-Redistribution Network (BiSRNet), for efficient and practical HSI restoration from compressed measurement in snapshot compressive imaging (SCI) systems. Firstly, we redesign a compact and easy-to-deploy base model to be binarized. Then we present the basic unit, Binarized Spectral-Redistribution Convolution (BiSR-Conv). BiSR-Conv can adaptively redistribute the HSI representations before binarizing activation and uses a scalable hyperbolic tangent function to closer approximate the Sign function in backpropagation. Based on our BiSR-Conv, we customize four binarized convolutional modules to address the dimension mismatch and propagate full-precision information throughout the whole network. Finally, our BiSRNet is derived by using the proposed techniques to binarize the base model. Comprehensive quantitative and qualitative experiments manifest that our proposed BiSRNet outperforms state-of-the-art binarization methods and achieves comparable performance with full-precision algorithms. Code and models are publicly available at https://github.com/caiyuanhao1998/BiSCI and https://github.com/caiyuanhao1998/MST
翻訳日:2023-09-27 17:56:57 公開日:2023-09-26
# 短期軌跡予測のための蒸留知識

Distilling Knowledge for Short-to-Long Term Trajectory Prediction ( http://arxiv.org/abs/2305.08553v2 )

ライセンス: Link先を確認
Sourav Das and Guglielmo Camporese and Lamberto Ballan(参考訳) 長期軌跡予測はコンピュータビジョン、機械学習、ロボット工学の分野において重要かつ困難な問題である。 一つの根本的な困難は、時間軸が成長するにつれてますます不確実で予測不可能になる軌道の進化であり、その後、問題の複雑さが増す。 そこで本稿では,学習過程における長期軌道予測を学生ネットワークに誘導する短期軌道モデル予測器を蒸留する新しい手法であるdi-longを提案する。 学生ネットワークと相補的対象系列に対する許容された観測を理解できる全順序長が与えられた場合、学生と教師は、同じ全軌道上で定義された2つの異なる関連タスクを解決させる: 学生は短い順序を観察し、長い軌道を予測し、教師は長い順序を観察し、残りの短目標軌道を予測する。 教師の課題は不確実性が少なく,その正確な予測を用いて知識蒸留の枠組みを通じて学生を指導し,長期的な不確実性を軽減する。 実験の結果,提案手法は長期予測に有効であり,InD(Intersection Drone Dataset)とSDD(Stanford Drone Dataset)の最先端性能を実現する。

Long-term trajectory forecasting is an important and challenging problem in the fields of computer vision, machine learning, and robotics. One fundamental difficulty stands in the evolution of the trajectory that becomes more and more uncertain and unpredictable as the time horizon grows, subsequently increasing the complexity of the problem. To overcome this issue, in this paper, we propose Di-Long, a new method that employs the distillation of a short-term trajectory model forecaster that guides a student network for long-term trajectory prediction during the training process. Given a total sequence length that comprehends the allowed observation for the student network and the complementary target sequence, we let the student and the teacher solve two different related tasks defined over the same full trajectory: the student observes a short sequence and predicts a long trajectory, whereas the teacher observes a longer sequence and predicts the remaining short target trajectory. The teacher's task is less uncertain, and we use its accurate predictions to guide the student through our knowledge distillation framework, reducing long-term future uncertainty. Our experiments show that our proposed Di-Long method is effective for long-term forecasting and achieves state-of-the-art performance on the Intersection Drone Dataset (inD) and the Stanford Drone Dataset (SDD).
翻訳日:2023-09-27 17:56:30 公開日:2023-09-26
# マルチタイム量子プロセスのための多重エントロピー生成

Multiple entropy production for multitime quantum processes ( http://arxiv.org/abs/2305.03965v2 )

ライセンス: Link先を確認
Zhiqiang Huang(参考訳) エントロピー生成と詳細なゆらぎ定理は熱力学過程において基本的な重要性である。 本稿では,マルチタイム量子プロセスにおける多重エントロピー生成を統一的な枠組みで検討する。 閉量子系とマルコフ開量子系では、与えられたエントロピー生成はすべて詳細なゆらぎ関係を満たす。 これはまた、エントロピー生成速度が非負であることを示している。 非マルコフ的開量子系では、メモリ効果は負のエントロピー生成率をもたらす。 したがって、一般に、辺分布のエントロピー生成は詳細FT関係を満足しない。 我々のフレームワークは、幅広い物理システムや力学に適用できる。 エントロピー生成とその速度を任意の量子過程下で研究するための体系的なツールを提供する。

Entropy production and the detailed fluctuation theorem are of fundamental importance for thermodynamic processes. In this paper, we study the multiple entropy production for multitime quantum processes in a unified framework. For closed quantum systems and Markovian open quantum systems, the given entropy productions all satisfy the detailed fluctuation relation. This also shows that the entropy production rate under these processes is non-negative. For non-Markovian open quantum systems, the memory effect can lead to a negative entropy production rate. Thus, in general, the entropy production of the marginal distribution does not satisfy the detailed FT relation. Our framework can be applied to a wide range of physical systems and dynamics. It provides a systematic tool for studying entropy production and its rate under arbitrary quantum processes.
翻訳日:2023-09-27 17:55:49 公開日:2023-09-26
# マルチキュービットシステムにおける dephasing Estimation の資源理論

Resource theory of dephasing estimation in multiqubit systems ( http://arxiv.org/abs/2304.14615v2 )

ライセンス: Link先を確認
Zishi Chen, Xueyuan Hu(参考訳) 本稿では,マルチビットシステムのパワーを,推定の難解化タスクにおけるプローブとして検討する資源理論を提案する。 本手法では, デファスメントパラメータに関する量子フィッシャー情報を用いて資源測定を行う。 量子フィッシャー情報の単調性に基づき,我々は資源理論において,ハミング距離保存操作と選択的ハミング距離保存操作という2つの自由操作セットを提案する。 これらの自由操作の下での状態変換に必要な条件を導出し、一様重ね合わせ状態が資源理論の黄金状態であることを実証する。 さらに、我々の資源理論とコヒーレンスの資源理論を比較し、その自由な操作と単一ビットおよび多ビットの場合の関係を徹底的に検討する。 さらに,マルチ量子ビットシステムでは,位相推定の資源理論と,位相推定の責任を負うu(1)$非対称性との不整合性を見出す。 また, 位相推定におけるプローブ状態の性能向上のための条件についても検討した。 その結果,資源理論による量子パラメータ推定の新しい知見が得られた。

We present a resource theory to investigate the power of a multqubit system as a probe in the task of dephasing estimation. Our approach employs the quantum Fisher information about the dephasing parameter as the resource measure. Based on the monotonicity of quantum Fisher information, we propose two sets of free operations in our resource theory, the Hamming distance preserving operations and the selectively Hamming distance preserving operations. We derive a necessary condition for the state transformation under these free operations and demonstrate that uniform superposition states are the golden states in our resource theory. We further compare our resource theory with the resource theory of coherence and thoroughly investigate the relation between their free operations in both single-qubit and multiqubit cases. Additionally, for multiqubit systems, we discover the incompatibility between the resource theory of dephasing estimation and that of $U(1)$ asymmetry, which is responsible for phase estimation. The condition for enhancing the performance of a probe state in phase estimation while preserving its ability in dephasing estimation is also discussed. Our results provide new insights into quantum parameter estimation by the resource-theoretic approach.
翻訳日:2023-09-27 17:55:41 公開日:2023-09-26
# 顔成分関係を用いた交互表現学習

Kinship Representation Learning with Face Componential Relation ( http://arxiv.org/abs/2304.04546v4 )

ライセンス: Link先を確認
Weng-Tai Su, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen(参考訳) Kinship Recognitionは、2つの顔画像の被験者が近親者なのか非近親者なのかを判断することを目的としている。 しかし,従来の手法では,顔画像間の空間相関を考慮せず,ヒューリスティックな設計に重点を置いている。 本稿では,顔成分(目,鼻など)間の関係情報に埋め込まれた識別的親和性表現を学習することを目的とする。 この目的を達成するために,画像間の顔成分間の関係を交互に学習し,親族認識のための重要な顔領域を自動的に学習する顔成分関係ネットワークを提案する。 さらに,顔成分関係ネットワーク (facornet) を提案し,クロス・アテンションからの指導により損失関数を適用し,より識別的な特徴表現を学習する。 提案されたFaCoRNetは、最大の公的な親族認識FIWベンチマークにおいて、最先端の手法よりも大きなマージンで優れている。

Kinship recognition aims to determine whether the subjects in two facial images are kin or non-kin, which is an emerging and challenging problem. However, most previous methods focus on heuristic designs without considering the spatial correlation between face images. In this paper, we aim to learn discriminative kinship representations embedded with the relation information between face components (e.g., eyes, nose, etc.). To achieve this goal, we propose the Face Componential Relation Network, which learns the relationship between face components among images with a cross-attention mechanism, which automatically learns the important facial regions for kinship recognition. Moreover, we propose Face Componential Relation Network (FaCoRNet), which adapts the loss function by the guidance from cross-attention to learn more discriminative feature representations. The proposed FaCoRNet outperforms previous state-of-the-art methods by large margins for the largest public kinship recognition FIW benchmark.
翻訳日:2023-09-27 17:55:24 公開日:2023-09-26
# content-emotion disentanglement を用いた感情音声駆動アニメーション

Emotional Speech-Driven Animation with Content-Emotion Disentanglement ( http://arxiv.org/abs/2306.08990v2 )

ライセンス: Link先を確認
Radek Dan\v{e}\v{c}ek, Kiran Chhatre, Shashank Tripathi, Yandong Wen, Michael J. Black, Timo Bolkart(参考訳) 広く採用するには、3D顔アバターを音声信号から直接、現実的に、容易にアニメーションする必要がある。 最新の手法では入力音声と同期した3Dアニメーションを生成するが、表情に対する感情の影響は無視される。 リアルな顔のアニメーションは、感情の自然な表現とリップシンクを必要とする。 そこで本稿では,感情表現の明示的な制御を実現しつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTE(Expressive Model Optimized for Talking with Emotion)を提案する。 そこで本研究では,EMOTEを音声(リップシンク)と感情の分離した損失で監督する。 これらの損失は,(1)発話による顔の変形は口周りで空間的に局在し,時間周波数が高いこと,(2)表情が顔全体に変形し,より長い間隔で発生すること,の2つの重要な観察に基づく。 そこで我々はEMOTEをフレーム単位の唇読取損失で訓練し、音声に依存したコンテンツを保存し、シーケンスレベルで感情を監督する。 さらに、同じ音声上で異なる感情を監督するために、音声と同期した唇の動きを維持しながらコンテンツ・感情交換機構を用いる。 好ましくないアーティファクトを得ることなく、深い知覚的損失を生かすために、時間的vaeの形で先行する動きを考案する。 高品質な3D顔データセットと音声が一致していないため、情緒的ビデオデータセット(MEAD)から抽出した3D擬似地下構造を用いてEMOTEを訓練する。 広汎な質的および知覚的評価により、EMOTEは、同じデータで訓練された最先端の方法よりも、口唇同期の優れた音声駆動の顔アニメーションを生成し、さらに高品質な感情制御を提供する。

To be widely adopted, 3D facial avatars must be animated easily, realistically, and directly from speech signals. While the best recent methods generate 3D animations that are synchronized with the input audio, they largely ignore the impact of emotions on facial expressions. Realistic facial animation requires lip-sync together with the natural expression of emotion. To that end, we propose EMOTE (Expressive Model Optimized for Talking with Emotion), which generates 3D talking-head avatars that maintain lip-sync from speech while enabling explicit control over the expression of emotion. To achieve this, we supervise EMOTE with decoupled losses for speech (i.e., lip-sync) and emotion. These losses are based on two key observations: (1) deformations of the face due to speech are spatially localized around the mouth and have high temporal frequency, whereas (2) facial expressions may deform the whole face and occur over longer intervals. Thus, we train EMOTE with a per-frame lip-reading loss to preserve the speech-dependent content, while supervising emotion at the sequence level. Furthermore, we employ a content-emotion exchange mechanism in order to supervise different emotions on the same audio, while maintaining the lip motion synchronized with the speech. To employ deep perceptual losses without getting undesirable artifacts, we devise a motion prior in the form of a temporal VAE. Due to the absence of high-quality aligned emotional 3D face datasets with speech, EMOTE is trained with 3D pseudo-ground-truth extracted from an emotional video dataset (i.e., MEAD). Extensive qualitative and perceptual evaluations demonstrate that EMOTE produces speech-driven facial animations with better lip-sync than state-of-the-art methods trained on the same data, while offering additional, high-quality emotional control.
翻訳日:2023-09-27 17:48:00 公開日:2023-09-26
# メモリ支援マルコフ熱過程における冷却と作業抽出

Cooling and work extraction under memory-assisted Markovian thermal processes ( http://arxiv.org/abs/2306.06883v2 )

ライセンス: Link先を確認
Yuancheng Liu, Xueyuan Hu(参考訳) 有限次元記憶を補助するマルコフ熱過程による冷却と作業抽出の限界について検討する。 ここで、メモリは自明なハミルトニアンを持つ$d$次元量子系であり、最初は最大混合状態である。 量子ビット系を冷却するには、コヒーレント制御による冷却と非コヒーレント制御による冷却の2つのパラダイムを考える。 いずれのパラダイムにおいても,一般熱プロセス(TP)とマルコフ熱プロセス(MTP)のセットの下での最適基底状態人口の導出と,TPとMPPのパフォーマンスのギャップを埋めるメモリアシストプロトコルの提案を行う。 作業抽出の課題として, 目標系が励起状態の量子ビットである場合, tpで達成された最小抽出誤差は, 十分なメモリで支援されたマルコフ熱過程によって近似できることを示す。 冷却や作業抽出を含む熱力学的タスクにおけるTP, MTPの性能を橋渡しできる。

We investigate the limits on cooling and work extraction via Markovian thermal processes assisted by a finite-dimensional memory. Here the memory is a $d$-dimensional quantum system with trivial Hamiltonian and initially in a maximally mixed state. For cooling a qubit system, we consider two paradigms: cooling under coherent control and cooling under incoherent control. For both paradigms, we derive the optimal ground-state populations under the set of general thermal processes (TP) and the set of Markovian thermal processes (MTP), and we further propose memory-assisted protocols, which bridge the gap between the performances of TP and MTP. For the task of work extraction, we prove that when the target system is a qubit in the excited state the minimum extraction error achieved by TP can be approximated by Markovian thermal processes assisted by a large enough memory. Our results can bridge the performances of TP and MTP in thermodynamic tasks including cooling and work extraction.
翻訳日:2023-09-27 17:47:05 公開日:2023-09-26
# EventCLIP: イベントベースのオブジェクト認識のためのCLIP適応

EventCLIP: Adapting CLIP for Event-based Object Recognition ( http://arxiv.org/abs/2306.06354v2 )

ライセンス: Link先を確認
Ziyi Wu, Xudong Liu, Igor Gilitschenski(参考訳) ゼロショットと少数ショット分類の最近の進歩は、CLIPのような事前訓練された視覚言語モデル(VLM)の成功に大きく依存している。 大規模データセットが不足しているため、イベントカメラデータのトレーニングは実現不可能である。 したがって、既存のモデルをモダリティに適用することは重要な研究課題である。 本稿では,ゼロショットおよび少数ショットのイベントベースオブジェクト認識にCLIPを利用する新しいアプローチであるEventCLIPを紹介する。 まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。 性能向上のために,イベントフレーム上の時間情報を集約し,テキスト埋め込みを改良し,視覚的入力との整合性を向上する機能アダプタを提案する。 N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。 データセット全体を微調整すると、既存のすべてのイベント分類器を上回ってしまう。 さらに,より堅牢なイベント分類やラベルなしイベント認識など,EventCLIPの実践的応用についても検討する。

Recent advances in zero-shot and few-shot classification heavily rely on the success of pre-trained vision-language models (VLMs) such as CLIP. Due to a shortage of large-scale datasets, training such models for event camera data remains infeasible. Thus, adapting existing models across modalities is an important research challenge. In this work, we introduce EventCLIP, a novel approach that utilizes CLIP for zero-shot and few-shot event-based object recognition. We first generalize CLIP's image encoder to event data by converting raw events to 2D grid-based representations. To further enhance performance, we propose a feature adapter to aggregate temporal information over event frames and refine text embeddings to better align with the visual inputs. We evaluate EventCLIP on N-Caltech, N-Cars, and N-ImageNet datasets, achieving state-of-the-art few-shot performance. When fine-tuned on the entire dataset, our method outperforms all existing event classifiers. Moreover, we explore practical applications of EventCLIP including robust event classification and label-free event recognition, where our approach surpasses previous baselines designed specifically for these tasks.
翻訳日:2023-09-27 17:46:49 公開日:2023-09-26
# ヒト類似性判定を用いたニューラルネットワーク表現の改善

Improving neural network representations using human similarity judgments ( http://arxiv.org/abs/2306.04507v2 )

ライセンス: Link先を確認
Lukas Muttenthaler and Lorenz Linhardt and Jonas Dippel and Robert A. Vandermeulen and Katherine Hermann and Andrew K. Lampinen and Simon Kornblith(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンタスクで人間レベルのパフォーマンスに達している。 しかし、これらのネットワークを訓練するために使用される目的は、同様の画像が表現空間内の同様の場所に埋め込まれていることのみを強制し、結果空間のグローバルな構造を直接制約しない。 本稿では,このグローバル構造を人間の類似性判断と線形に整合させることによって,その影響を考察する。 直感的なアプローチは、下流のパフォーマンスを損なう局所的な表現構造に大きな変化をもたらす。 そこで本研究では,局所構造を保ちながら表現のグローバル構造を整列する手法を提案する。 このグローバルローカル変換は、さまざまな少数ショット学習と異常検出タスクの精度を大幅に向上させる。 その結果、人間の視覚的表現は、少数の例から学習しやすく、このグローバルな構造をニューラルネットワーク表現に組み込むことで、下流タスクのパフォーマンスを向上させることが示唆された。

Deep neural networks have reached human-level performance on many computer vision tasks. However, the objectives used to train these networks enforce only that similar images are embedded at similar locations in the representation space, and do not directly constrain the global structure of the resulting space. Here, we explore the impact of supervising this global structure by linearly aligning it with human similarity judgments. We find that a naive approach leads to large changes in local representational structure that harm downstream performance. Thus, we propose a novel method that aligns the global structure of representations while preserving their local structure. This global-local transform considerably improves accuracy across a variety of few-shot learning and anomaly detection tasks. Our results indicate that human visual representations are globally organized in a way that facilitates learning from few examples, and incorporating this global structure into neural network representations improves performance on downstream tasks.
翻訳日:2023-09-27 17:46:31 公開日:2023-09-26
# 階層型ディープデファクトレグレスト最小化

Hierarchical Deep Counterfactual Regret Minimization ( http://arxiv.org/abs/2305.17327v2 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 不完全な情報ゲーム(IIG)は、意思決定者が不確実性に直面したり、完全な情報を欠いているシナリオに対して堅牢なモデルを提供する。 Counterfactual Regret Minimization (CFR)は、IIGに対処するための最も成功したアルゴリズムの1つである。 CFRとスキルベースの戦略学習を統合することで、より人間的な意思決定プロセスが反映され、複雑なIIGの学習性能が向上する可能性がある。 階層的な戦略の学習を可能にし、低レベルのコンポーネントはサブゲーム問題を解決するスキルを表し、高レベルのコンポーネントはスキル間の遷移を管理する。 本稿では,大規模な状態空間と深部ゲームツリーを含むタスクにおいて,学習効率を高める革新的な手法であるDeep CFR (HDCFR) の最初の階層バージョンを紹介する。 以前の作品よりもhdcfrの特筆すべきアドバンテージは、事前定義された(人間)専門知識で学習を促進し、同様のタスクに移行できるスキルの獲得を促進する能力である。 そこで我々はまず,階層的CFR更新規則と分散還元モンテカルロサンプリング拡張を包含した表型設定のアルゴリズムを構築した。 特に,提案する更新規則の収束率,モンテカルロ後悔推定器の不偏性,効果的な分散低減のための理想的な基準など,理論的正当性を提供する。 そして,ニューラルネットワークを関数近似器として使用し,提案したアルゴリズムを大規模タスクに適用し,理論的支援を維持しながら深層学習の目標を策定する。

Imperfect Information Games (IIGs) offer robust models for scenarios where decision-makers face uncertainty or lack complete information. Counterfactual Regret Minimization (CFR) has been one of the most successful family of algorithms for tackling IIGs. The integration of skill-based strategy learning with CFR could potentially mirror more human-like decision-making process and enhance the learning performance for complex IIGs. It enables the learning of a hierarchical strategy, wherein low-level components represent skills for solving subgames and the high-level component manages the transition between skills. In this paper, we introduce the first hierarchical version of Deep CFR (HDCFR), an innovative method that boosts learning efficiency in tasks involving extensively large state spaces and deep game trees. A notable advantage of HDCFR over previous works is its ability to facilitate learning with predefined (human) expertise and foster the acquisition of skills that can be transferred to similar tasks. To achieve this, we initially construct our algorithm on a tabular setting, encompassing hierarchical CFR updating rules and a variance-reduced Monte Carlo sampling extension. Notably, we offer the theoretical justifications, including the convergence rate of the proposed updating rule, the unbiasedness of the Monte Carlo regret estimator, and ideal criteria for effective variance reduction. Then, we employ neural networks as function approximators and develop deep learning objectives to adapt our proposed algorithms for large-scale tasks, while maintaining the theoretical support.
翻訳日:2023-09-27 17:44:36 公開日:2023-09-26
# object-lane clustering によるオンラインレーングラフ抽出の改善

Improving Online Lane Graph Extraction by Object-Lane Clustering ( http://arxiv.org/abs/2307.10947v2 )

ライセンス: Link先を確認
Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool(参考訳) 自律運転には正確な現場理解情報が必要である。 この目的のために、自律エージェントは知覚スタックの一部としてオブジェクト検出とオンラインBEVレーングラフ抽出手法をデプロイする。 本研究では,3次元物体検出出力を用いて局所レーングラフ推定精度を向上させるアーキテクチャと損失定式化を提案する。 提案手法では, 中心線をクラスタセンタとして, オブジェクトをクラスタセンタ上の確率分布に割り当てるデータポイントとして考慮し, 中心線にオブジェクトを割り当てることを学ぶ。 このトレーニングスキームはレーンとオブジェクトの関係を直接監視することを保証するので、パフォーマンスが向上する。 提案手法は,最先端手法よりもレーングラフ推定を大幅に改善する。 提案手法は,既存の3次元物体検出手法の出力を用いることで,大幅な性能向上が期待できることを示す。 本手法では, 中間表現ではなく検出出力を用いるため, テスト時に任意の検出手法を単一モデルで使用することができる。

Autonomous driving requires accurate local scene understanding information. To this end, autonomous agents deploy object detection and online BEV lane graph extraction methods as a part of their perception stack. In this work, we propose an architecture and loss formulation to improve the accuracy of local lane graph estimates by using 3D object detection outputs. The proposed method learns to assign the objects to centerlines by considering the centerlines as cluster centers and the objects as data points to be assigned a probability distribution over the cluster centers. This training scheme ensures direct supervision on the relationship between lanes and objects, thus leading to better performance. The proposed method improves lane graph estimation substantially over state-of-the-art methods. The extensive ablations show that our method can achieve significant performance improvements by using the outputs of existing 3D object detection methods. Since our method uses the detection outputs rather than detection method intermediate representations, a single model of our method can use any detection method at test time.
翻訳日:2023-09-27 17:38:46 公開日:2023-09-26
# RL-ViGen:視覚一般化のための強化学習ベンチマーク

RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization ( http://arxiv.org/abs/2307.10224v3 )

ライセンス: Link先を確認
Zhecheng Yuan, Sizhe Yang, Pu Hua, Can Chang, Kaizhe Hu, Huazhe Xu(参考訳) 視覚強化学習(Visual Reinforcement Learning, Visual RL)は、高次元の観察と相まって、分布外一般化という長年にわたる課題に直面してきた。 視覚的一般化問題の解決を目的としたアルゴリズムに重点を置いているにもかかわらず、デビルは孤立したタスクや一般化カテゴリに限定されており、エージェントの視覚的一般化能力の包括的な評価を損なうため、既存のベンチマークにあると論じる。 視覚一般化のための強化学習ベンチマーク(Reinforcement Learning Benchmark for Visual Generalization, RL-ViGen)は,多様なタスクと多種多様な一般化型を含み,より信頼性の高い結論の導出を容易にする。 さらに、RL-ViGenは最新の一般化ビジュアルRLアルゴリズムを統一されたフレームワークに組み込んでいる。 我々の願望は、RL-ViGenがこの領域で触媒として機能し、現実のシナリオに適した普遍的な視覚一般化RLエージェントの創出の基礎となることである。 コードへのアクセスと実装されたアルゴリズムはhttps://gemcollector.github.io/RL-ViGen/で提供されます。

Visual Reinforcement Learning (Visual RL), coupled with high-dimensional observations, has consistently confronted the long-standing challenge of out-of-distribution generalization. Despite the focus on algorithms aimed at resolving visual generalization problems, we argue that the devil is in the existing benchmarks as they are restricted to isolated tasks and generalization categories, undermining a comprehensive evaluation of agents' visual generalization capabilities. To bridge this gap, we introduce RL-ViGen: a novel Reinforcement Learning Benchmark for Visual Generalization, which contains diverse tasks and a wide spectrum of generalization types, thereby facilitating the derivation of more reliable conclusions. Furthermore, RL-ViGen incorporates the latest generalization visual RL algorithms into a unified framework, under which the experiment results indicate that no single existing algorithm has prevailed universally across tasks. Our aspiration is that RL-ViGen will serve as a catalyst in this area, and lay a foundation for the future creation of universal visual generalization RL agents suitable for real-world scenarios. Access to our code and implemented algorithms is provided at https://gemcollector.github.io/RL-ViGen/.
翻訳日:2023-09-27 17:38:30 公開日:2023-09-26
# TinyMetaFed: TinyMLの効果的なフェデレーションメタラーニング

TinyMetaFed: Efficient Federated Meta-Learning for TinyML ( http://arxiv.org/abs/2307.06822v2 )

ライセンス: Link先を確認
Haoyu Ren, Xue Li, Darko Anicic, Thomas A. Runkler(参考訳) Tiny Machine Learning(TinyML)の分野は、マイクロコントローラなどの低フットプリントデバイス上での機械学習の民主化において、大きく進歩している。 これらのミニチュアデバイスの普及は、知識の集約がTinyMLアプリケーションに利益をもたらすかどうかという問題を提起する。 フェデレートされたメタラーニングは、現実世界のデバイス間でのラベル付きデータや異種データ分散の不足に対処するため、この疑問への有望な答えです。 しかし、TinyMLハードウェアのデプロイには独自のリソース制約が伴うため、既存のメソッドはエネルギ、プライバシ、通信の制限により実用的ではない。 TinyMLに適したモデルに依存しないメタラーニングフレームワークであるTinyMetaFedを紹介する。 TinyMetaFedは、新しいデバイスで素早く微調整できるニューラルネットワークの初期化の協調トレーニングを容易にする。 部分的なローカル再構成とトップp%選択的通信による通信の節約とプライバシ保護、オンラインラーニングによる計算効率の向上、およびマイナショット学習によるクライアントの不均一性に対する堅牢性を提供する。 TinyMLの3つのユースケースに対する評価は、TinyMetaFedがエネルギー消費と通信オーバーヘッドを大幅に削減し、収束を加速し、トレーニングプロセスを安定させることを示した。

The field of Tiny Machine Learning (TinyML) has made substantial advancements in democratizing machine learning on low-footprint devices, such as microcontrollers. The prevalence of these miniature devices raises the question of whether aggregating their knowledge can benefit TinyML applications. Federated meta-learning is a promising answer to this question, as it addresses the scarcity of labeled data and heterogeneous data distribution across devices in the real world. However, deploying TinyML hardware faces unique resource constraints, making existing methods impractical due to energy, privacy, and communication limitations. We introduce TinyMetaFed, a model-agnostic meta-learning framework suitable for TinyML. TinyMetaFed facilitates collaborative training of a neural network initialization that can be quickly fine-tuned on new devices. It offers communication savings and privacy protection through partial local reconstruction and Top-P% selective communication, computational efficiency via online learning, and robustness to client heterogeneity through few-shot learning. The evaluations on three TinyML use cases demonstrate that TinyMetaFed can significantly reduce energy consumption and communication overhead, accelerate convergence, and stabilize the training process.
翻訳日:2023-09-27 17:38:11 公開日:2023-09-26
# ローカルを超越:グローバルグラフによるパーソナライズされたニュースレコメンデーション

Going Beyond Local: Global Graph-Enhanced Personalized News Recommendations ( http://arxiv.org/abs/2307.06576v5 )

ライセンス: Link先を確認
Boming Yang, Dairui Liu, Toyotaro Suzumura, Ruihai Dong, Irene Li(参考訳) 候補ニュース記事をユーザに正確に推薦することは、パーソナライズされたニュースレコメンデーションシステムにとって、常に重要な課題だった。 最近の研究は主に、現地の歴史的ニュースから派生したコンテンツに基づく手法を用いて、リッチテキストデータから意味情報を抽出する高度な自然言語処理技術に焦点を当てている。 しかし、このアプローチはグローバルな視点に欠けており、セマンティック情報を超えたユーザの隠されたモチベーションや振る舞いを説明できない。 そこで本研究では,他のユーザから学習したグローバル表現とローカル表現を組み合わせることで,パーソナライズドレコメンデーションシステムを強化する,gloly(グローバルローカルニュースレコメンデーションシステム)という新しいモデルを提案する。 我々は,グローバルニュースグラフを含むグローバルな歴史ニュースエンコーダを構築し,ゲートグラフニューラルネットワークを用いてニュース表現を充実させ,歴史的ニュースアグリゲータによる歴史的ニュース表現を融合させることにより,これを実現する。 同様に、グローバルエンティティグラフと候補ニュースアグリゲータを利用して、このアプローチをグローバル候補ニュースエンコーダにも拡張し、候補ニュース表現を強化します。 2つの公開ニュースデータセットの評価結果は,提案手法が既存手法より優れていることを示す。 さらに,より多様なレコメンデーションを提供する。

Precisely recommending candidate news articles to users has always been a core challenge for personalized news recommendation systems. Most recent works primarily focus on using advanced natural language processing techniques to extract semantic information from rich textual data, employing content-based methods derived from local historical news. However, this approach lacks a global perspective, failing to account for users' hidden motivations and behaviors beyond semantic information. To address this challenge, we propose a novel model called GLORY (Global-LOcal news Recommendation sYstem), which combines global representations learned from other users with local representations to enhance personalized recommendation systems. We accomplish this by constructing a Global-aware Historical News Encoder, which includes a global news graph and employs gated graph neural networks to enrich news representations, thereby fusing historical news representations by a historical news aggregator. Similarly, we extend this approach to a Global Candidate News Encoder, utilizing a global entity graph and a candidate news aggregator to enhance candidate news representation. Evaluation results on two public news datasets demonstrate that our method outperforms existing approaches. Furthermore, our model offers more diverse recommendations.
翻訳日:2023-09-27 17:37:49 公開日:2023-09-26
# ACDNet:効果的な医薬勧告のための注意誘導協調決定ネットワーク

ACDNet: Attention-guided Collaborative Decision Network for Effective Medication Recommendation ( http://arxiv.org/abs/2307.03332v2 )

ライセンス: Link先を確認
Jiacong Mi, Yi Zu, Zhuoyuan Wang, Jieyue He(参考訳) 複雑な医療データのためにElectronic Health Records(EHR)を用いた治療勧告は困難である。 最近のアプローチでは、患者eerから縦断情報を抽出して推奨事項をパーソナライズする。 しかし、既存のモデルは十分な患者表現を欠くことが多く、患者の薬の記録と特定の薬との類似性を考慮することの重要性を見落としている。 そこで本論文では,医薬品推奨のための注意誘導協調決定ネットワーク(ACDNet)を提案する。 具体的には、adcnetはアテンション機構とトランスフォーマーを使用して、グローバルレベルとローカルレベルの両方での歴史的な訪問をモデル化し、患者の健康状態と薬物記録を効果的に捉えている。 ACDNetはまた、医薬品記録と医薬品表現の類似性を利用して推奨プロセスを促進する共同決定フレームワークも採用している。 MIMIC-IIIとMIMIC-IVの2つの広範囲な医学データセット実験の結果、ACDNetはJaccard、PR-AUC、F1スコアで最先端モデルよりも優れており、その優位性を再確認している。 さらに, アブレーション実験により, acdnetにおける各モジュールの有効性の確証が得られ, 全体的な性能への寄与が確認された。 さらに、詳細なケーススタディでは、ERHデータに基づく医薬品推奨におけるACDNetの有効性を強化し、現実の医療シナリオにおけるその実用的価値を示す。

Medication recommendation using Electronic Health Records (EHR) is challenging due to complex medical data. Current approaches extract longitudinal information from patient EHR to personalize recommendations. However, existing models often lack sufficient patient representation and overlook the importance of considering the similarity between a patient's medication records and specific medicines. Therefore, an Attention-guided Collaborative Decision Network (ACDNet) for medication recommendation is proposed in this paper. Specifically, ACDNet utilizes attention mechanism and Transformer to effectively capture patient health conditions and medication records by modeling their historical visits at both global and local levels. ACDNet also employs a collaborative decision framework, utilizing the similarity between medication records and medicine representation to facilitate the recommendation process. The experimental results on two extensive medical datasets, MIMIC-III and MIMIC-IV, clearly demonstrate that ACDNet outperforms state-of-the-art models in terms of Jaccard, PR-AUC, and F1 score, reaffirming its superiority. Moreover, the ablation experiments provide solid evidence of the effectiveness of each module in ACDNet, validating their contribution to the overall performance. Furthermore, a detailed case study reinforces the effectiveness of ACDNet in medication recommendation based on EHR data, showcasing its practical value in real-world healthcare scenarios.
翻訳日:2023-09-27 17:37:27 公開日:2023-09-26
# ユーレリアシネマグラフのテキスト誘導合成

Text-Guided Synthesis of Eulerian Cinemagraphs ( http://arxiv.org/abs/2307.03190v3 )

ライセンス: Link先を確認
Aniruddha Mahapatra, Aliaksandr Siarohin, Hsin-Ying Lee, Sergey Tulyakov, Jun-Yan Zhu(参考訳) テキスト記述からシネマグラフを作成するための完全自動化手法であるtext2cinemagraphを紹介する。これらの画像の意味や動作の解釈が複雑であることから、想像上の要素や芸術的スタイルをプロンプトする場合、特に難しい課題である。 連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。 既存の単一画像アニメーション手法は芸術的な入力に不足しており、最近のテキストベースのビデオ手法は時間的不整合をしばしば導入し、特定の領域を静的に保つのに苦労している。 これらの課題に対処するために,1つのテキストプロンプトから画像双生児を合成する手法を提案する。 芸術的なイメージはテキストに詳述されたスタイルや外観を描写するが、リアルなイメージはレイアウトや動きの分析を大幅に単純化する。 既存の自然画像と映像データセットを利用して、現実のイメージを正確に分割し、その意味情報に基づいて、妥当な動きを予測できる。 予測された動きは芸術的イメージに転送され、最終的なシネマグラフが作成される。 本手法は,自然景観のシネマグラフ作成における既存の手法と,自動計測とユーザ研究によって検証された芸術的・異世界的なシーンに匹敵する手法である。 最後に,既存の絵画のアニメーション化と,テキストによる動き方向制御の2つの拡張を示す。

We introduce Text2Cinemagraph, a fully automated method for creating cinemagraphs from text descriptions - an especially challenging task when prompts feature imaginary elements and artistic styles, given the complexity of interpreting the semantics and motions of these images. We focus on cinemagraphs of fluid elements, such as flowing rivers, and drifting clouds, which exhibit continuous motion and repetitive textures. Existing single-image animation methods fall short on artistic inputs, and recent text-based video methods frequently introduce temporal inconsistencies, struggling to keep certain regions static. To address these challenges, we propose an idea of synthesizing image twins from a single text prompt - a pair of an artistic image and its pixel-aligned corresponding natural-looking twin. While the artistic image depicts the style and appearance detailed in our text prompt, the realistic counterpart greatly simplifies layout and motion analysis. Leveraging existing natural image and video datasets, we can accurately segment the realistic image and predict plausible motion given the semantic information. The predicted motion can then be transferred to the artistic image to create the final cinemagraph. Our method outperforms existing approaches in creating cinemagraphs for natural landscapes as well as artistic and other-worldly scenes, as validated by automated metrics and user studies. Finally, we demonstrate two extensions: animating existing paintings and controlling motion directions using text.
翻訳日:2023-09-27 17:37:03 公開日:2023-09-26
# LLQL: 強化学習のためのロジスティックなQラーニング

LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning ( http://arxiv.org/abs/2307.02345v2 )

ライセンス: Link先を確認
Outongyi Lv and Bingxin Zhou(参考訳) 現代の強化学習(RL)はオンラインとオフラインに分類できる。 オンラインRLとオフラインRLの両方の重要な側面として、ベルマン方程式の現在の研究は、その分布特性のようなベルマン誤差の本質的な構造的特性を探求するよりも、主に最適化技術と性能向上に焦点を当てている。 本研究では,ベルマン方程式の反復探索により,オンラインおよびオフラインの両方の設定におけるベルマン近似誤差の分布について検討した。 我々はオンラインRLとオフラインRLの両方において、ベルマン誤差がロジスティック分布に一致することを示した。 この発見に基づいて、ベルマンの誤差が正規分布に従属すると仮定して、この研究はよく使われるMSE損失の代替としてロジスティックス最大極大関数 (LLoss) を用いた。 オンラインとオフラインの多様な環境にまたがる広範な数値実験を通じて仮説を検証した。 特に,様々なベースラインアルゴリズム間での損失関数の補正を行い,ロジスティック補正による損失関数がMSEよりも有意に優れていたことを一貫して観察した。 さらに,ロジスティック分布の信頼性を確認するためにkolmogorov-smirnov試験を行った。 この研究の理論的および経験的洞察は、ベルマン誤差の分布を中心とした将来の調査と強化のための貴重な基礎となる。

Modern reinforcement learning (RL) can be categorized into online and offline variants. As a pivotal aspect of both online and offline RL, current research on the Bellman equation revolves primarily around optimization techniques and performance enhancement rather than exploring the inherent structural properties of the Bellman error, such as its distribution characteristics. This study investigates the distribution of the Bellman approximation error in both online and offline settings through iterative exploration of the Bellman equation. We observed that both in online RL and offline RL, the Bellman error conforms to a Logistic distribution. Building upon this discovery, this study employed the Logistics maximum likelihood function (LLoss) as an alternative to the commonly used MSE Loss, assuming that Bellman errors adhere to a normal distribution. We validated our hypotheses through extensive numerical experiments across diverse online and offline environments. In particular, we applied corrections to the loss function across various baseline algorithms and consistently observed that the loss function with Logistic corrections outperformed the MSE counterpart significantly. Additionally, we conducted Kolmogorov-Smirnov tests to confirm the reliability of the Logistic distribution. This study's theoretical and empirical insights provide valuable groundwork for future investigations and enhancements centered on the distribution of Bellman errors.
翻訳日:2023-09-27 17:36:37 公開日:2023-09-26
# rh20t: 多様なスキルをワンショットで学習する総合的なロボットデータセット

RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot ( http://arxiv.org/abs/2307.00595v2 )

ライセンス: Link先を確認
Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Chenxi Wang, Junbo Wang, Haoyi Zhu, Cewu Lu(参考訳) オープンドメインでのロボット操作における重要な課題は、ロボットの多様な一般化可能なスキルの獲得方法である。 ワンショット模倣学習における最近の研究は、訓練されたポリシーをデモに基づいて新しいタスクに移す約束を示している。 この機能は、ロボットが新しいスキルを身につけ、タスクや動きの計画を改善するのに役立ちます。 しかしながら、トレーニングデータセットの制限のため、コミュニティの現在の焦点は主に、視覚的なガイダンスのみに依存するプッシュやピックプレースタスクのような単純なケースに置かれている。 現実には、多くの複雑なスキルがあり、そのいくつかは、視覚と触覚の両方の知覚を必要とする。 本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。 これを実現するために,我々は,多種多様なスキル,コンテキスト,ロボット,カメラ視点にまたがる11万以上の接触型ロボット操作シーケンスからなるデータセットを,実世界で収集した。 データセットの各シーケンスは、ビジュアル、フォース、オーディオ、アクション情報を含む。 さらに,ロボットの各シーケンスに対して,対応する人間のデモンストレーションビデオと言語記述も提供する。 我々は、すべてのセンサーの校正と高品質なデータセットの確保に多大な努力を払っています。 データセットはrh20t.github.ioで公開されている

A key challenge in robotic manipulation in open domains is how to acquire diverse and generalizable skills for robots. Recent research in one-shot imitation learning has shown promise in transferring trained policies to new tasks based on demonstrations. This feature is attractive for enabling robots to acquire new skills and improving task and motion planning. However, due to limitations in the training dataset, the current focus of the community has mainly been on simple cases, such as push or pick-place tasks, relying solely on visual guidance. In reality, there are many complex skills, some of which may even require both visual and tactile perception to solve. This paper aims to unlock the potential for an agent to generalize to hundreds of real-world skills with multi-modal perception. To achieve this, we have collected a dataset comprising over 110,000 contact-rich robot manipulation sequences across diverse skills, contexts, robots, and camera viewpoints, all collected in the real world. Each sequence in the dataset includes visual, force, audio, and action information. Moreover, we also provide a corresponding human demonstration video and a language description for each robot sequence. We have invested significant efforts in calibrating all the sensors and ensuring a high-quality dataset. The dataset is made publicly available at rh20t.github.io
翻訳日:2023-09-27 17:36:16 公開日:2023-09-26
# MO-VLN: オープンセットゼロショットビジョン・ランゲージナビゲーションのためのマルチタスクベンチマーク

MO-VLN: A Multi-Task Benchmark for Open-set Zero-Shot Vision-and-Language Navigation ( http://arxiv.org/abs/2306.10322v2 )

ライセンス: Link先を確認
Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu, Shikui Ma, Xiaodan Liang(参考訳) 自然言語が与えられた場合、一般的なロボットは指示を理解し、探索されていない環境でも視覚観察に基づいて対象物や位置を見つける必要がある。 ほとんどのエージェントは、高度な一般化を達成するために、膨大な多様なトレーニングデータに依存している。 これらのエージェントは、しばしば共通のオブジェクトと少ないタスクに焦点を当てるため、異なる種類の命令を扱うのに十分な知性を持たない。 オープンセット視覚・言語ナビゲーションの研究を容易にするために,マルチタスク設定におけるエージェントの有効性と一般化の検証を目的としたMO-VLNというベンチマークを提案する。 まず,よりリアルな照明とディテールを備えたunreal engine 5を用いて,現実的なシナリオによる3次元シミュレータを開発した。 シミュレーターには、カフェ、レストラン、介護施設の3つのシーンがあり、業界で高い価値がある。 また,本シミュレータは,既存の環境に比べて複雑である,テイクウェイカップや医療用粘着テープなど,多種多様な不定期な物体を包含する。 近年の大規模言語モデル(chatgpt,vicunaなど)の成功に触発されて,人間のアノテーションを使わずに多彩な高品質な命令型データを構築した。 われわれのベンチマークMO-VLNは4つのタスクを提供している。 1) 特定の対象カテゴリー(例えば「フォーク」)が与えられた目標条件付きナビゲーション 2)簡単な指示が与えられた目標条件付きナビゲーション(例えば「テニスボールの探索と移動」) 3) ステップバイステップの指示 4)高レベルの命令に基づく抽象オブジェクト("I am thirsty"など)の発見。

Given a natural language, a general robot has to comprehend the instruction and find the target object or location based on visual observations even in unexplored environments. Most agents rely on massive diverse training data to achieve better generalization, which requires expensive labor. These agents often focus on common objects and fewer tasks, thus are not intelligent enough to handle different types of instructions. To facilitate research in open-set vision-and-language navigation, we propose a benchmark named MO-VLN, aiming at testing the effectiveness and generalization of the agent in the multi-task setting. First, we develop a 3D simulator rendered by realistic scenarios using Unreal Engine 5, containing more realistic lights and details. The simulator contains three scenes, i.e., cafe, restaurant, and nursing house, of high value in the industry. Besides, our simulator involves multiple uncommon objects, such as takeaway cup and medical adhesive tape, which are more complicated compared with existing environments. Inspired by the recent success of large language models (e.g., ChatGPT, Vicuna), we construct diverse high-quality data of instruction type without human annotation. Our benchmark MO-VLN provides four tasks: 1) goal-conditioned navigation given a specific object category (e.g., "fork"); 2) goal-conditioned navigation given simple instructions (e.g., "Search for and move towards a tennis ball"); 3) step-by-step instruction following; 4) finding abstract object based on high-level instruction (e.g., "I am thirsty").
翻訳日:2023-09-27 17:35:37 公開日:2023-09-26
# IBMの量子コンピュータを用いた部分ループホールフリーデバイス独立量子乱数発生装置

Partial Loopholes Free Device Independent Quantum Random Number Generator Using IBM's Quantum Computers ( http://arxiv.org/abs/2309.05299v2 )

ライセンス: Link先を確認
Abhishek Yadav, Sandeep Mishra, Anirban Pathak(参考訳) ランダム数は、様々な分野で応用される現代の計算の本質的な部分を形成する。 しかし、それらの制限のため、疑似乱数生成器(PRNG)の使用は、センシティブなアプリケーションには好ましくない。 固有ランダム性による量子システムは、真の乱数を生成するのに適した候補となり、認証も可能である。 本研究では,クラウド上で利用可能なIBM量子コンピュータを用いてデバイス独立な量子乱数を生成する手法を提案するためにCHSH不等式違反を用いた。 生成した乱数は、利用可能なIBM量子コンピュータによるCHSH不等式のテストに基づく実験により、その起源としてテストされている。 chshテストに対する各量子コンピュータの性能はプロットされ、特徴付けられる。 さらに、デバイス独立な量子乱数生成器を生成するために、可能な限り多くの抜け穴を閉じる努力がなされている。 本研究は,量子コンピュータを用いた自己テストおよび半自己テスト型乱数生成器の開発に向けた新しい方向性を提供する。

Random numbers form an intrinsic part of modern day computing with applications in a wide variety of fields. But due to their limitations, the use of pseudo random number generators (PRNGs) is certainly not desirable for sensitive applications. Quantum systems due to their intrinsic randomness form a suitable candidate for generation of true random numbers that can also be certified. In this work, the violation of CHSH inequality has been used to propose a scheme by which one can generate device independent quantum random numbers by use of IBM quantum computers that are available on the cloud. The generated random numbers have been tested for their source of origin through experiments based on the testing of CHSH inequality through available IBM quantum computers. The performance of each quantum computer against the CHSH test has been plotted and characterized. Further, efforts have been made to close as many loopholes as possible to produce device independent quantum random number generators. This study will provide new directions for the development of self-testing and semi-self-testing random number generators using quantum computers.
翻訳日:2023-09-27 17:27:40 公開日:2023-09-26
# 超高速Ultralight ConvNetを用いた早期Mpox診断のためのインテリジェントモニタリングシステム

Ultrafast-and-Ultralight ConvNet-Based Intelligent Monitoring System for Diagnosing Early-Stage Mpox Anytime and Anywhere ( http://arxiv.org/abs/2308.13492v2 )

ライセンス: Link先を確認
Yubiao Yue, Xiaoqiang Shi, Li Qin, Xinyue Zhang, Yanmei Chen, Jialong Xu, Zipei Zheng, Yujun Cao, Di Liu, Zhenzhang Li, Yang Li(参考訳) monkeypoxのより効率的な診断ツールが欠如しているため、その広まりは未確認のままであり、世界的な健康にとって大きな課題となっている。 サルポックス診断におけるディープラーニングモデルの高い有効性は関連する研究で実証されているが、推論速度、パラメータサイズ、早期サルポックスの診断性能の見落としは、実際の環境では適用できない。 これらの課題に対処するため,我々はFast-MpoxNetという超高速で超軽量なネットワークを提案した。 Fast-MpoxNetは0.27Mパラメータしか持たず、CPU上で68フレーム/秒(FPS)で入力画像を処理できる。 小型モデルキャパシティによる診断性能の限界に対応するため、注意に基づく特徴融合モジュールと、微妙な画像変化の検知と重みの最適化のための多重補助的損失増強戦略を統合する。 転送学習と5倍のクロスバリデーションを使用して、Fast-MpoxNetはMpoxデータセット上で94.26%の精度を達成した。 特に初期のサルポックスのリコールは93.65%に達する。 データ拡張の導入により、モデルの精度は98.40%向上し、実用性スコア(リアルタイム診断アプリケーションにおけるモデル実用性測定の新しい指標)が0.80に達する。 また、パソコンと携帯電話の両方にMpox-AISM V2というアプリケーションシステムを開発した。 Mpox-AISM V2は、超高速な応答、オフライン機能、デプロイが容易で、特にアウトブレイク時の人口の多い環境で、様々な現実の環境で、一般人および個人の両方の正確なリアルタイム診断を可能にする。 我々の研究は、将来のサルポックスの発生を緩和し、医療分野でリアルタイム診断ツールを開発するための新しいパラダイムを照らす可能性がある。

Due to the lack of more efficient diagnostic tools for monkeypox, its spread remains unchecked, presenting a formidable challenge to global health. While the high efficacy of deep learning models for monkeypox diagnosis has been demonstrated in related studies, the overlook of inference speed, the parameter size and diagnosis performance for early-stage monkeypox renders the models inapplicable in real-world settings. To address these challenges, we proposed an ultrafast and ultralight network named Fast-MpoxNet. Fast-MpoxNet possesses only 0.27M parameters and can process input images at 68 frames per second (FPS) on the CPU. To counteract the diagnostic performance limitation brought about by the small model capacity, it integrates the attention-based feature fusion module and the multiple auxiliary losses enhancement strategy for better detecting subtle image changes and optimizing weights. Using transfer learning and five-fold cross-validation, Fast-MpoxNet achieves 94.26% Accuracy on the Mpox dataset. Notably, its recall for early-stage monkeypox achieves 93.65%. By adopting data augmentation, our model's Accuracy rises to 98.40% and attains a Practicality Score (A new metric for measuring model practicality in real-time diagnosis application) of 0.80. We also developed an application system named Mpox-AISM V2 for both personal computers and mobile phones. Mpox-AISM V2 features ultrafast responses, offline functionality, and easy deployment, enabling accurate and real-time diagnosis for both the public and individuals in various real-world settings, especially in populous settings during the outbreak. Our work could potentially mitigate future monkeypox outbreak and illuminate a fresh paradigm for developing real-time diagnostic tools in the healthcare field.
翻訳日:2023-09-27 17:27:03 公開日:2023-09-26
# 階層構造潜在注意モデルによる弱教師付き行動定位

Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling ( http://arxiv.org/abs/2308.09946v2 )

ライセンス: Link先を確認
Guiqin Wang and Peng Zhao and Cong Zhao and Shusen Yang and Jie Cheng and Luziwei Leng and Jianxing Liao and Qinghai Guo(参考訳) 弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。 既存のモデルの多くはマルチインスタンス学習(mil)に依存しており、ラベルなしインスタンスの予測はラベル付きバッグの分類によって監督される。 MILに基づく手法は、分類において達成されるコジェント性能と比較的よく研究されているが、ローカライゼーションについては研究されていない。 一般に、ビデオレベルの分類によって時間領域を特定するが、特徴的意味論の時間的変動を無視する。 そこで本研究では,特徴セマンティクスの時間変化を学習するための新しい注意に基づく階層構造潜在モデルを提案する。 具体的には、2つのコンポーネントを包含し、1つは教師なしの変更点検出モジュールで、変化率に基づいて時間階層内の映像特徴の潜在表現を学習し、もう1つは前景の変化点を境界として選択する注意に基づく分類モデルである。 本モデルの有効性を評価するため, THUMOS-14とActivityNet-v1.3の2つのベンチマークデータセットに対して広範囲な実験を行った。 実験の結果,本手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できることがわかった。

Weakly-supervised action localization aims to recognize and localize action instancese in untrimmed videos with only video-level labels. Most existing models rely on multiple instance learning(MIL), where the predictions of unlabeled instances are supervised by classifying labeled bags. The MIL-based methods are relatively well studied with cogent performance achieved on classification but not on localization. Generally, they locate temporal regions by the video-level classification but overlook the temporal variations of feature semantics. To address this problem, we propose a novel attention-based hierarchically-structured latent model to learn the temporal variations of feature semantics. Specifically, our model entails two components, the first is an unsupervised change-points detection module that detects change-points by learning the latent representations of video features in a temporal hierarchy based on their rates of change, and the second is an attention-based classification model that selects the change-points of the foreground as the boundaries. To evaluate the effectiveness of our model, we conduct extensive experiments on two benchmark datasets, THUMOS-14 and ActivityNet-v1.3. The experiments show that our method outperforms current state-of-the-art methods, and even achieves comparable performance with fully-supervised methods.
翻訳日:2023-09-27 17:26:29 公開日:2023-09-26
# MonoNeRD:モノクロ3次元物体検出のためのNeRFライクな表現

MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection ( http://arxiv.org/abs/2308.09421v2 )

ライセンス: Link先を確認
Junkai Xu, Liang Peng, Haoran Cheng, Hao Li, Wei Qian, Ke Li, Wenxiao Wang, Deng Cai(参考訳) 単眼3次元検出の分野では,現場の幾何学的手がかりを用いて検出器の性能を向上させることが一般的である。 しかし、既存の多くの作品では、深度マップの推定や3d空間へのバックプロジェクションなど、これらの手がかりを明示的に採用している。 この明示的な手法は2次元から3次元への次元性の増大により3次元表現の空間性を誘導し、特に遠方および隠蔽物体において、かなりの情報損失をもたらす。 この問題を軽減するために,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。 具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。 我々はこれらの表現をNeRF(Neural Radiance Fields)として扱い、ボリュームレンダリングを用いてRGB画像と深度マップを復元する。 我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。 KITTI-3DベンチマークとWaymo Open Datasetで実施された大規模な実験は、MonoNeRDの有効性を示している。 コードはhttps://github.com/cskkxjk/mononerdで入手できる。

In the field of monocular 3D detection, it is common practice to utilize scene geometric clues to enhance the detector's performance. However, many existing works adopt these clues explicitly such as estimating a depth map and back-projecting it into 3D space. This explicit methodology induces sparsity in 3D representations due to the increased dimensionality from 2D to 3D, and leads to substantial information loss, especially for distant and occluded objects. To alleviate this issue, we propose MonoNeRD, a novel detection framework that can infer dense 3D geometry and occupancy. Specifically, we model scenes with Signed Distance Functions (SDF), facilitating the production of dense 3D representations. We treat these representations as Neural Radiance Fields (NeRF) and then employ volume rendering to recover RGB images and depth maps. To the best of our knowledge, this work is the first to introduce volume rendering for M3D, and demonstrates the potential of implicit reconstruction for image-based 3D perception. Extensive experiments conducted on the KITTI-3D benchmark and Waymo Open Dataset demonstrate the effectiveness of MonoNeRD. Codes are available at https://github.com/cskkxjk/MonoNeRD.
翻訳日:2023-09-27 17:25:56 公開日:2023-09-26
# 2つのフォトニック量子ビットにおけるほぼ決定論的パリティ射影のプロトコル

Protocol for nearly deterministic parity projection on two photonic qubits ( http://arxiv.org/abs/2308.09035v2 )

ライセンス: Link先を確認
Chenxu Liu, Rafail Frantzeskakis, Sophia E. Economou, Edwin Barnes(参考訳) フォトニックパリティ投影はフォトニック量子情報処理において重要な役割を果たす。 非破壊的なパリティ射影は通常、フォトニックと物質量子ビットの間の高忠実度制御されたZゲートを必要とする。 本稿では,安定な物質光子制御位相ゲートのみを必要とする2つのフォトニック量子ビット上のほぼ決定論的パリティプロジェクションプロトコルを提案する。 我々のプロトコルが完全制御Zゲートを必要としないという事実は、より実験的な実装に適しています。

Photonic parity projection plays a significant role in photonic quantum information processing. Non-destructive parity projections normally require high-fidelity Controlled-Z gates between photonic and matter qubits, which can be experimentally demanding. In this paper, we propose a nearly deterministic parity projection protocol on two photonic qubits which only requires stable matter-photon Controlled-Phase gates. The fact that our protocol does not require perfect Controlled-Z gates makes it more amenable to experimental implementation.
翻訳日:2023-09-27 17:25:34 公開日:2023-09-26
# 効率的な深部畳み込みニューラルネットワークを利用したスマートフォン画像を用いた局所集約空気質指数の探索

Uncovering local aggregated air quality index with smartphone captured images leveraging efficient deep convolutional neural network ( http://arxiv.org/abs/2308.03200v2 )

ライセンス: Link先を確認
Joyanta Jyoti Mondal, Md. Farhadul Islam, Raima Islam, Nowsin Kabir Rhidi, Sarfaraz Newaz, A. B. M. Alim Al Islam, Meem Arafat Manab, Jannatun Noor(参考訳) スマートフォンの普及と移動性は、これらを環境健康研究に広く利用している。 しかし, PM2.5濃度に基づく大気質指数(AQI)を決定する可能性については, 既存の文献では明らかにされていない。 本稿では,スマートフォンカメラで撮影した画像を用いて,位置特異的PM2.5濃度の予測に関する課題を徹底的に検討する。 私たちの研究はバングラデシュの首都ダッカに焦点をあてています。 我々の研究は、1000以上の屋外画像を撮影、注釈付けしてトレーニングする深層畳み込みニューラルネットワーク(dcnn)の開発に関するものです。 これらの写真はダッカの様々な場所で撮影され、そのラベルは米領事館から得たPM2.5濃度データに基づいて、 NowCastアルゴリズムを用いて計算されている。 教師付き学習を通じて,トレーニング中の相関指標を確立し,PM2.5濃度のイメージベース予測器(PPPC)として機能する能力を高める。 これにより、スマートフォン画像から同等の日平均AQI指数を計算することができる。 一般的なパラメータ化モデルとは異なり、パラメータが少ないため、我々のモデルはリソース効率を示す。 さらに,本モデルがVGG19,ResNet50,MobileNetV2などのCNNベースモデルよりも,位置特異的PM2.5濃度の予測に優れていることを示す。 我々のデータセットは、Dhakaによる大気画像と対応するPM2.5測定を含む、初めて公開されているコレクションである。 私たちのコードとデータセットは、論文を公開するときに公開されます。

The prevalence and mobility of smartphones make these a widely used tool for environmental health research. However, their potential for determining aggregated air quality index (AQI) based on PM2.5 concentration in specific locations remains largely unexplored in the existing literature. In this paper, we thoroughly examine the challenges associated with predicting location-specific PM2.5 concentration using images taken with smartphone cameras. The focus of our study is on Dhaka, the capital of Bangladesh, due to its significant air pollution levels and the large population exposed to it. Our research involves the development of a Deep Convolutional Neural Network (DCNN), which we train using over a thousand outdoor images taken and annotated. These photos are captured at various locations in Dhaka, and their labels are based on PM2.5 concentration data obtained from the local US consulate, calculated using the NowCast algorithm. Through supervised learning, our model establishes a correlation index during training, enhancing its ability to function as a Picture-based Predictor of PM2.5 Concentration (PPPC). This enables the algorithm to calculate an equivalent daily averaged AQI index from a smartphone image. Unlike, popular overly parameterized models, our model shows resource efficiency since it uses fewer parameters. Furthermore, test results indicate that our model outperforms popular models like ViT and INN, as well as popular CNN-based models such as VGG19, ResNet50, and MobileNetV2, in predicting location-specific PM2.5 concentration. Our dataset is the first publicly available collection that includes atmospheric images and corresponding PM2.5 measurements from Dhaka. Our code and dataset will be made public when publishing the paper.
翻訳日:2023-09-27 17:25:25 公開日:2023-09-26
# マルチフィデリティハイパーパラメータ最適化に必要なのはエポックか?

Is One Epoch All You Need For Multi-Fidelity Hyperparameter Optimization? ( http://arxiv.org/abs/2307.15422v2 )

ライセンス: Link先を確認
Romain Egele, Isabelle Guyon, Yixuan Sun, Prasanna Balaprakash(参考訳) ハイパーパラメータ最適化(HPO)は、微調整機械学習モデルには不可欠だが、計算コストが高い。 コスト削減のため、MF-HPO(Multi-fidelity HPO)は学習プロセスの中間精度レベルを活用し、早期に低性能モデルを捨てる。 様々な代表的MF-HPO法を,古典的ベンチマークデータに基づく単純なベースラインと比較した。 ベースラインは、訓練後1時間のみトップK以外の全てのモデルを廃棄し、その後、最高のモデルを選択するためのさらなる訓練が行われた。 驚くべきことに、このベースラインは同等の結果を得たが、計算量は桁違いに減った。 ベンチマークデータの学習曲線を解析すると,いくつかの支配的な学習曲線が観察され,ベースラインの成功が説明された。 これは、研究者が(1)ベンチマークで推奨されるベースラインを常に使用し、(2)より複雑なケースを含むためにmf-hpoベンチマークの多様性を広げるべきであることを示唆している。

Hyperparameter optimization (HPO) is crucial for fine-tuning machine learning models but can be computationally expensive. To reduce costs, Multi-fidelity HPO (MF-HPO) leverages intermediate accuracy levels in the learning process and discards low-performing models early on. We compared various representative MF-HPO methods against a simple baseline on classical benchmark data. The baseline involved discarding all models except the Top-K after training for only one epoch, followed by further training to select the best model. Surprisingly, this baseline achieved similar results to its counterparts, while requiring an order of magnitude less computation. Upon analyzing the learning curves of the benchmark data, we observed a few dominant learning curves, which explained the success of our baseline. This suggests that researchers should (1) always use the suggested baseline in benchmarks and (2) broaden the diversity of MF-HPO benchmarks to include more complex cases.
翻訳日:2023-09-27 17:24:56 公開日:2023-09-26
# ブラインド画像品質評価のためのテスト時間適応

Test Time Adaptation for Blind Image Quality Assessment ( http://arxiv.org/abs/2307.14735v3 )

ライセンス: Link先を確認
Subhadeep Roy, Shankhanil Mitra, Soma Biswas and Rajiv Soundararajan(参考訳) ブラインド画像品質評価(iqa)アルゴリズムの設計は大幅に改善されているが、トレーニングとテストシナリオの分散シフトは、推論時にこれらのメソッドのパフォーマンス低下につながることが多い。 これは、テスト時間適応(TTA)技術の研究を動機付け、推論時のパフォーマンスを改善する。 TTAに使われている既存の補助的タスクや損失関数は、事前訓練されたモデルの品質適応には関係しないかもしれない。 本研究は,視覚障害者のためのTTAを実現するために,バッチとサンプルレベルの2つの新しい品質関連補助タスクを導入する。 特に,バッチレベルでの相対的損失とサンプルレベルでの相対的ランク損失を導入し,モデルの品質を意識し,対象データに適応させる。 実験の結果,実験結果から得られた少数の画像を用いても,ソースモデルのバッチ正規化統計を更新することにより,性能の大幅な向上が期待できることがわかった。

While the design of blind image quality assessment (IQA) algorithms has improved significantly, the distribution shift between the training and testing scenarios often leads to a poor performance of these methods at inference time. This motivates the study of test time adaptation (TTA) techniques to improve their performance at inference time. Existing auxiliary tasks and loss functions used for TTA may not be relevant for quality-aware adaptation of the pre-trained model. In this work, we introduce two novel quality-relevant auxiliary tasks at the batch and sample levels to enable TTA for blind IQA. In particular, we introduce a group contrastive loss at the batch level and a relative rank loss at the sample level to make the model quality aware and adapt to the target data. Our experiments reveal that even using a small batch of images from the test distribution helps achieve significant improvement in performance by updating the batch normalization statistics of the source model.
翻訳日:2023-09-27 17:24:39 公開日:2023-09-26
# MBRとQEファインタニング:最良かつ最も高価な復号法の訓練時間蒸留

MBR and QE Finetuning: Training-time Distillation of the Best and Most Expensive Decoding Methods ( http://arxiv.org/abs/2309.10966v2 )

ライセンス: Link先を確認
Mara Finkelstein and Markus Freitag(参考訳) 自然言語生成(nlg)タスクのデコード手法に関する最近の研究は、モデル確率が必ずしも人間の好みと一致するとは限らないため、マップデコードが最適ではないことを示した。 QE(Quality Estimation)やMBR(Minimum Bayes' Risk)といったより強力な復号法が提案され、モデルパープレキシティとvs品質のミスマッチが軽減された。 これらの復号法は最先端の性能を実現するが、計算コストは極めて高い。 本研究では,これらの復号法から得られた品質向上を,推定時に効率的な復号アルゴリズムを用いて蒸留するmbr微調整とqe微調整を提案する。 ニューラルネットワーク翻訳(nmt)の標準的nlgタスクを用いて,自己学習においても,これらの微調整手法がベースモデルを大幅に上回っていることを示す。 さらに、外部LLMを教師モデルとして使用する場合、これらの微調整法は人為的な参照に基づいて微調整を行う。 これらの知見は, 復号時の最大効率を維持しつつ, 人間が収集したデータと同等かそれ以上か, モデル品質の改善を達成するために, 単言語データを活用する新しい方法を提案する。

Recent research in decoding methods for Natural Language Generation (NLG) tasks has shown that MAP decoding is not optimal, because model probabilities do not always align with human preferences. Stronger decoding methods, including Quality Estimation (QE) reranking and Minimum Bayes' Risk (MBR) decoding, have since been proposed to mitigate the model-perplexity-vs-quality mismatch. While these decoding methods achieve state-of-the-art performance, they are prohibitively expensive to compute. In this work, we propose MBR finetuning and QE finetuning which distill the quality gains from these decoding methods at training time, while using an efficient decoding algorithm at inference time. Using the canonical NLG task of Neural Machine Translation (NMT), we show that even with self-training, these finetuning methods significantly outperform the base model. Moreover, when using an external LLM as a teacher model, these finetuning methods outperform finetuning on human-generated references. These findings suggest new ways to leverage monolingual data to achieve improvements in model quality that are on par with, or even exceed, improvements from human-curated data, while maintaining maximum efficiency during decoding.
翻訳日:2023-09-27 17:18:14 公開日:2023-09-26
# 量子忠実性の簡易表現法

A Simplified Expression for Quantum Fidelity ( http://arxiv.org/abs/2309.10565v2 )

ライセンス: Link先を確認
Adrian M\"uller(参考訳) 量子忠実度は混合量子状態間の類似性の最も重要な尺度の1つである。 しかし、通常の定式化は面倒で、初めて遭遇したときは理解しにくい。 この研究は、表現がより簡潔であるだけでなく、対称性の性質もより明確になるような形式に書き換えられるという、新しいエレガントな証明で示している。 さらに、より単純な表現は、完全な分解を避けることによって、以前の最良の方法よりも計算効率が高いことが示される定式化をもたらす。 将来の研究は、他の定理が影響を受ける方法を探したり、忠実性が計算のボトルネックである再構成を利用するかもしれない。

Quantum fidelity is one of the most important measures of similarity between mixed quantum states. However, the usual formulation is cumbersome and hard to understand when encountering the first time. This work shows in a novel, elegant proof that the expression can be rewritten into a form, which is not only more concise but also makes its symmetry property more obvious. Further, the simpler expression gives rise to a formulation that is subsequently shown to be more computationally efficient than the best previous methods by avoiding any full decomposition. Future work might look for ways in which other theorems could be affected or utilize the reformulation where fidelity is the computational bottleneck.
翻訳日:2023-09-27 17:17:51 公開日:2023-09-26
# マルチモーダル大言語モデルにおけるカタストロフィック・フォーミングの検討

Investigating the Catastrophic Forgetting in Multimodal Large Language Models ( http://arxiv.org/abs/2309.10313v2 )

ライセンス: Link先を確認
Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma(参考訳) GPT4の成功を受けて、マルチモーダル大言語モデル(MLLM)研究への関心が高まっている。 この一連の研究は、微調整済みのLLMと視覚モデルによる汎用LLMの開発に焦点を当てている。 しかし、微調整モデルが事前訓練モデルと同じような性能を保たないという悪名高い破滅的な忘れ込みは、マルチモーダルLLM(MLLM)に固有の問題として残っている。 本稿では,各MLLMを画像分類器として扱うことにより,MLLMの破滅的忘れを評価するためのMulTimodalityの評価を行う。 我々はまず,オープンソースの細調整MLLMの評価にEMTを適用し,ほぼすべての評価されたMLLMが,標準的な画像分類タスクにおける視覚エンコーダと同じ性能を維持することができないことを発見した。 さらに、MLLMであるLLaVAの微調整を継続し、EMTを用いて微調整を通して性能を評価する。 興味深いことに、画像データセットの初期段階の微調整により、テキストとビジュアル機能のアライメントが向上し、他の画像データセットのパフォーマンスが向上することが示唆される。 しかし、微調整が進むにつれてMLLMは幻覚し始め、イメージエンコーダが凍結したままでも、一般化性が著しく低下する。 以上の結果から,MLLMは標準的な画像分類作業におけるビジョンモデルと同等の性能を示していないことが示唆された。

Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.
翻訳日:2023-09-27 17:17:40 公開日:2023-09-26
# 量子相対エントロピーの不確かさ関係

Quantum relative entropy uncertainty relation ( http://arxiv.org/abs/2309.09990v2 )

ライセンス: Link先を確認
Domingos S. P. Salazar(参考訳) 古典系では、熱力学的不確実性関係(TUR)は、電流のゆらぎがエントロピー生成の点で低い境界を持つことを述べる。 いくつかのTURは情報理論に根ざしており、特に確率的熱力学においてエントロピー生成の役割を果たすクルバック・リーバーの発散のような観測(平均と分散)と相違点の関係に由来する。 このアイデアを量子系に対して一般化し、量子相対エントロピーの観点から与えられる量子可観測物の不確実性に対する低い境界を求める。 量子エントロピー生成の観点から量子熱力学的不確実性関係を得るため, 任意の力学および非熱環境において有効である。

For classic systems, the thermodynamic uncertainty relation (TUR) states that the fluctuations of a current have a lower bound in terms of the entropy production. Some TURs are rooted in information theory, particularly derived from relations between observations (mean and variance) and dissimilarities, such as the Kullback-Leibler divergence, which plays the role of entropy production in stochastic thermodynamics. We generalize this idea for quantum systems, where we find a lower bound for the uncertainty of quantum observables given in terms of the quantum relative entropy. We apply the result to obtain a quantum thermodynamic uncertainty relation in terms of the quantum entropy production, valid for arbitrary dynamics and non-thermal environments.
翻訳日:2023-09-27 17:17:13 公開日:2023-09-26
# facebook上の偽情報のecho-chambers

Disinformation Echo-Chambers on Facebook ( http://arxiv.org/abs/2309.07745v3 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos and Wilson Ceron(参考訳) 情報のランドスケープは、インターネットの急速な拡大とオンラインソーシャルネットワークの出現によって、大きな変革を経験した。 当初、これらのプラットフォームが活発な参加と多様なコミュニケーションの文化を促進するという楽観主義があった。 しかし、近年の出来事は、ソーシャルメディアプラットフォームによるネガティブな影響を浮き彫りにして、ユーザーが既存の信念に沿ったコンテンツにのみ露出するエコーチャンバーの作成につながった。 さらに、悪意のある個人はこれらのプラットフォームを利用して人々を欺き、民主的なプロセスを損なう。 この章では、これらの現象をより深く理解するために、Facebookグループ内の協調的不正確な振る舞いを特定するための計算手法を紹介する。 この方法は、投稿、URL、画像の分析に焦点を当て、一部のFacebookグループが組織されたキャンペーンに従事していることを明らかにした。 これらのグループは同時に同一のコンテンツを共有しており、ユーザーが嘘や誤解を招く物語を繰り返し遭遇することを露呈し、事実上「偽情報エコー室」を形成している。 この章は、これらの発見の理論的および実証的な意味を議論することで締めくくられる。

The landscape of information has experienced significant transformations with the rapid expansion of the internet and the emergence of online social networks. Initially, there was optimism that these platforms would encourage a culture of active participation and diverse communication. However, recent events have brought to light the negative effects of social media platforms, leading to the creation of echo chambers, where users are exposed only to content that aligns with their existing beliefs. Furthermore, malicious individuals exploit these platforms to deceive people and undermine democratic processes. To gain a deeper understanding of these phenomena, this chapter introduces a computational method designed to identify coordinated inauthentic behavior within Facebook groups. The method focuses on analyzing posts, URLs, and images, revealing that certain Facebook groups engage in orchestrated campaigns. These groups simultaneously share identical content, which may expose users to repeated encounters with false or misleading narratives, effectively forming "disinformation echo chambers." This chapter concludes by discussing the theoretical and empirical implications of these findings.
翻訳日:2023-09-27 17:16:39 公開日:2023-09-26
# 拡散モデルに対する拡張逆時間SDEの解空間の解明

Elucidating the solution space of extended reverse-time SDE for diffusion models ( http://arxiv.org/abs/2309.06169v2 )

ライセンス: Link先を確認
Qinpeng Cui, Xinyi Zhang, Zongqing Lu and Qingmin Liao(参考訳) 拡散モデル(DM)は、様々な生成モデルタスクにおいて強力な画像生成能力を示す。 それでも、その主な制限はサンプリング速度の遅いことであり、高品質な画像を生成するために、大規模なニューラルネットワークを通じて数百から数千のシーケンシャルな機能評価を必要とする。 DMからのサンプリングは、対応する確率微分方程式 (SDE) や通常の微分方程式 (ODE) の解法とみなすことができる。 本研究では,提案手法を拡張逆時間SDE(ER SDE)として定式化し,従来のODEとSDEの探索を統一する。 ER SDE解の半線形構造を利用して、我々はそれぞれVP SDE と VE SDE の厳密な解と任意の高次近似解を提供する。 ER SDEの解空間に基づいて、高速サンプリングの観点から、SDEソルバよりもODEソルバの優れた性能を推定する数学的洞察を得る。 さらに,VP SDEソルバがVE SDEと同等であることも明らかにした。 最後に, ER-SDE-Solvers という高速で訓練のないサンプル装置を考案し, 確率的サンプル装置における最先端性能を実現する。 実験の結果、ImageNet 6,4\times64$データセット上で、20の関数評価で3.45 FID、50の関数評価で2.24 FIDを達成した。

Diffusion models (DMs) demonstrate potent image generation capabilities in various generative modeling tasks. Nevertheless, their primary limitation lies in slow sampling speed, requiring hundreds or thousands of sequential function evaluations through large neural networks to generate high-quality images. Sampling from DMs can be seen alternatively as solving corresponding stochastic differential equations (SDEs) or ordinary differential equations (ODEs). In this work, we formulate the sampling process as an extended reverse-time SDE (ER SDE), unifying prior explorations into ODEs and SDEs. Leveraging the semi-linear structure of ER SDE solutions, we offer exact solutions and arbitrarily high-order approximate solutions for VP SDE and VE SDE, respectively. Based on the solution space of the ER SDE, we yield mathematical insights elucidating the superior performance of ODE solvers over SDE solvers in terms of fast sampling. Additionally, we unveil that VP SDE solvers stand on par with their VE SDE counterparts. Finally, we devise fast and training-free samplers, ER-SDE-Solvers, achieving state-of-the-art performance across all stochastic samplers. Experimental results demonstrate achieving 3.45 FID in 20 function evaluations and 2.24 FID in 50 function evaluations on the ImageNet $64\times64$ dataset.
翻訳日:2023-09-27 17:16:22 公開日:2023-09-26
# 量子局所テスト可能な符号のトレードオフ構成

Tradeoff Constructions for Quantum Locally Testable Codes ( http://arxiv.org/abs/2309.05541v2 )

ライセンス: Link先を確認
Adam Wills, Ting-Chun Lin, Min-Hsiu Hsieh(参考訳) 本研究では,新しいパラメータの量子ローカルテスト可能なコード(qltcs)の探索を継続し,新しいqltcを古いものにする3つの構成を提示する。 第一に、量子符号の音質をHastingsのqLDPC符号の重み付け構造(arXiv:2102.10030)で解析し、qLTCの重み付け手順を与える。 第二に、入力された量子コードの健全性と局所性の両方を保存することが知られている最初の製品構成である。 これは量子コードの次元を拡大するために利用することができ、そこでトレードオフが距離に置かれる。 最後に, AEL 距離増幅構造を qLTC の場合に初めて適用し, 将来, 高距離 qLTC を線形距離 qLTC に変換することができる。 これらの構造は、新しいパラメータを得るために、as-yet未発見の qLTC で使用することができるが、現在、ハイパースフィア製品コード arXiv:1608.05089 とヘミノビックコード arXiv:1911.03069 に応用できる。 特に、逆多対数音性、多項式距離、多項式次元を持つ唯一の既知符号は多項式局所性を持つ。 一定の局所性を持つような符号を得る。

In this work, we continue the search for quantum locally testable codes (qLTCs) of new parameters by presenting three constructions that can make new qLTCs from old. The first analyses the soundness of a quantum code under Hastings' weight reduction construction for qLDPC codes arXiv:2102.10030 to give a weight reduction procedure for qLTCs. Secondly, we exhibit the `identity product': the first product construction that is known to preserve both the soundness and locality of the inputted quantum code. This can be used to grow the dimension of a quantum code, where now the tradeoff is put onto the distance. Finally, we apply the AEL distance amplification construction to the case of qLTCs for the first time which could, in future, be used to convert high-distance qLTCs into linear distance qLTCs. These constructions can be used on as-yet undiscovered qLTCs to obtain new parameters, but we are able to apply these presently to the hypersphere product code arXiv:1608.05089 and the hemicubic code arXiv:1911.03069 to obtain many previously unknown parameters. In particular, the only previously known codes to have inverse polylogarithmic soundness, polynomial distance and polynomial dimension have polynomial locality. We obtain such codes with constant locality.
翻訳日:2023-09-27 17:15:59 公開日:2023-09-26
# 時間的損失を考慮した知覚における時間的特性の爆発によるストリームベースアクティブラーニング

Stream-based Active Learning by Exploiting Temporal Properties in Perception with Temporal Predicted Loss ( http://arxiv.org/abs/2309.05517v2 )

ライセンス: Link先を確認
Sebastian Schmidt and Stephan G\"unnemann(参考訳) Active Learning(AL)は、ラベル付けするインスタンスをインテリジェントに選択することで、マシンラーニングモデルをトレーニングするために必要なラベル付きデータの量を削減する。 古典的なプールベースのalでは、データセンタにすべてのデータが存在する必要があるため、ディープラーニングに必要なデータ量の増加が難しくなる可能性がある。 しかし、モバイルデバイスや自動運転車のようなロボット上のALは、データセンターに到達する前に知覚センサーストリームからデータをフィルタリングすることができる。 本研究では,このような画像ストリームに対する時間的特性を活用し,新しい時間的損失予測法を提案する。 ストリームベースの設定を適切に評価するために、gta v streetとa2d2 streetsデータセットを導入し、両方とも公開しました。 実験の結果,不確実性に基づく手法では選択の多様性が著しく向上することがわかった。 知覚アプリケーションではプールベースのアプローチが一般的であるため、プールベースとストリームベースのalを比較して、tplが異なるモデルに対して最先端のプールやストリームベースのアプローチよりも優れています。 TPLは、プールベースの手法よりもはるかに高速でありながら、2.5プリセプションポイント (pp) の必要なデータが少ないことを示した。

Active learning (AL) reduces the amount of labeled data needed to train a machine learning model by intelligently choosing which instances to label. Classic pool-based AL requires all data to be present in a datacenter, which can be challenging with the increasing amounts of data needed in deep learning. However, AL on mobile devices and robots, like autonomous cars, can filter the data from perception sensor streams before reaching the datacenter. We exploited the temporal properties for such image streams in our work and proposed the novel temporal predicted loss (TPL) method. To evaluate the stream-based setting properly, we introduced the GTA V streets and the A2D2 streets dataset and made both publicly available. Our experiments showed that our approach significantly improves the diversity of the selection while being an uncertainty-based method. As pool-based approaches are more common in perception applications, we derived a concept for comparing pool-based and stream-based AL, where TPL out-performed state-of-the-art pool- or stream-based approaches for different models. TPL demonstrated a gain of 2.5 precept points (pp) less required data while being significantly faster than pool-based methods.
翻訳日:2023-09-27 17:15:33 公開日:2023-09-26
# MiChao-HuaFen 1.0:ドメイン固有の大規模モデルのための特別訓練済みコーパスデータセット

MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models ( http://arxiv.org/abs/2309.13079v2 )

ライセンス: Link先を確認
Yidong Liu, FuKai Shang, Fang Wang, Rui Xu, Jun Wang, Wei Li, Yao Li, Conghui He(参考訳) ディープラーニング技術の進歩により、gpt-4のような汎用大規模モデルは様々な領域で例外的な能力を発揮した。 それでも、医療、法律、金融といった分野では、高品質でドメイン固有のアウトプットが要求されている。 本稿では,まず,既存の大規模モデルを専門領域で評価し,その限界について考察する。 特定のドメインの特定のニーズに対応するために,プリトレーニングされたコーパスデータセットである ‘michao-huafen 1.0' を導入する。 2022年に公開されたインターネットデータから引用されたデータセットは、一貫性と安定した更新のための規定とともに、高品質で信頼性の高い起源を保証するために、複数のクリーンシングと処理を行った。 このデータセットは、中国の垂直領域の大規模モデルの事前学習をサポートするだけでなく、関連する分野におけるディープラーニングの研究や応用を促進する助けとなる。

With the advancement of deep learning technologies, general-purpose large models such as GPT-4 have demonstrated exceptional capabilities across various domains. Nevertheless, there remains a demand for high-quality, domain-specific outputs in areas like healthcare, law, and finance. This paper first evaluates the existing large models for specialized domains and discusses their limitations. To cater to the specific needs of certain domains, we introduce the ``MiChao-HuaFen 1.0'' pre-trained corpus dataset, tailored for the news and governmental sectors. The dataset, sourced from publicly available internet data from 2022, underwent multiple rounds of cleansing and processing to ensure high quality and reliable origins, with provisions for consistent and stable updates. This dataset not only supports the pre-training of large models for Chinese vertical domains but also aids in propelling deep learning research and applications in related fields.
翻訳日:2023-09-27 17:05:25 公開日:2023-09-26
# chatgptがプログラミング教育に与える影響: chatgptの反応を議論する最近の文献概要

ChatGPT impacts in programming education: A recent literature overview that debates ChatGPT responses ( http://arxiv.org/abs/2309.12348v2 )

ライセンス: Link先を確認
Christos-Nikolaos Anagnostopoulos(参考訳) 本稿では,計算機科学におけるプログラミングと学習/教育の科学分野におけるChatGTPの主な影響について概説する。 文献から、アプリケーション、アドバンテージ、制限、倫理的な問題など、このトピックで特定された主要な課題をリストアップし、カバーし、文書を作成した。 以上の質問に対する回答はChatGPT自体から募集され、回答が収集され、その後、最近の文献が調査され、回答が支持されるか否かが判断された。 論文は、近い将来に何が起こるかという短い議論で締めくくられる。 人類がaiを適切な同盟国とパートナーとして、異なる役割と、協力と相互作用の特定のルールを持つ、非常に有望な未来。

This paper aims at a brief overview of the main impact of ChatGTP in the scientific field of programming and learning/education in computer science. It lists, covers and documents from the literature the major issues that have been identified for this topic, such as applications, advantages and limitations, ethical issues raised. Answers to the above questions were solicited from ChatGPT itself, the responses were collected, and then the recent literature was surveyed to determine whether or not the responses are supported. The paper ends with a short discussion on what is expected to happen in the near future. A future that can be extremely promising if humanity manages to have AI as a proper ally and partner, with distinct roles and specific rules of cooperation and interaction.
翻訳日:2023-09-27 17:04:26 公開日:2023-09-26
# Tiny Machine Learningに関する機械学習指向調査

A Machine Learning-oriented Survey on Tiny Machine Learning ( http://arxiv.org/abs/2309.11932v2 )

ライセンス: Link先を確認
Luigi Capogrosso, Federico Cunico, Dong Seon Cheng, Franco Fummi, Marco Cristani(参考訳) TinyML(Tiny Machine Learning)の出現は、リソース制約のIoTハードウェアデバイスと学習ベースのソフトウェアアーキテクチャの共同設計を促進することによって、人工知能の分野に積極的に革命をもたらした。 TinyMLは、社会、経済、個人が効果的なAI融合コンピューティング技術(スマートシティ、自動車、医療ロボティクスなど)を採用するのを助けるために、第4および第5次産業革命において重要な役割を担っている。 この総合的な調査は、TinyMLベースのソリューション内のすべての学習アルゴリズムに焦点をあてた最新の概要を提供したいと考えている。 The Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)の方法論的流れに基づいており、体系的で完全な文献調査を可能にしている。 特に、まず、TinyMLベースのシステムを実装するための3つの異なるワークフロー、すなわちML指向、HW指向、共同設計について検討する。 第2に,TinyMLレンズの学習パノラマを網羅する分類法を提案し,モデル最適化と設計の異なるファミリと最先端の学習技術について詳細に検討する。 第3に、この調査では、TinyMLインテリジェントエッジアプリケーションの現状を表す、ハードウェアデバイスとソフトウェアツールの異なる特徴を提示する。 最後に,課題と今後の方向性について論じる。

The emergence of Tiny Machine Learning (TinyML) has positively revolutionized the field of Artificial Intelligence by promoting the joint design of resource-constrained IoT hardware devices and their learning-based software architectures. TinyML carries an essential role within the fourth and fifth industrial revolutions in helping societies, economies, and individuals employ effective AI-infused computing technologies (e.g., smart cities, automotive, and medical robotics). Given its multidisciplinary nature, the field of TinyML has been approached from many different angles: this comprehensive survey wishes to provide an up-to-date overview focused on all the learning algorithms within TinyML-based solutions. The survey is based on the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) methodological flow, allowing for a systematic and complete literature survey. In particular, firstly we will examine the three different workflows for implementing a TinyML-based system, i.e., ML-oriented, HW-oriented, and co-design. Secondly, we propose a taxonomy that covers the learning panorama under the TinyML lens, examining in detail the different families of model optimization and design, as well as the state-of-the-art learning techniques. Thirdly, this survey will present the distinct features of hardware devices and software tools that represent the current state-of-the-art for TinyML intelligent edge applications. Finally, we discuss the challenges and future directions.
翻訳日:2023-09-27 17:04:14 公開日:2023-09-26
# 信頼の復号化:強化学習視点

Decoding trust: A reinforcement learning perspective ( http://arxiv.org/abs/2309.14598v1 )

ライセンス: Link先を確認
Guozhong Zheng, Jiqiang Zhang, Jing Zhang, Weiran Cai, and Li Chen(参考訳) 信頼ゲームにおける行動実験は、信頼と信頼性が人間の間で普遍的であることを示し、正統派経済学において「ホモ・エコノミクス」を仮定することで予測と矛盾している。 これは、何らかのメカニズムが彼らの出現を好む必要があることを意味する。 しかし、以前の説明の多くは、ソーシャル学習の単純なバージョンである模倣学習に基づくいくつかの要因に頼る必要がある。 ここでは、個人が蓄積した経験を通して長期的な回帰を評価することによって戦略を更新する強化学習のパラダイムに目を向ける。 具体的には,q-learningアルゴリズムを用いて,受託者の意思決定を指導する2つのq-tableと関連づけた信頼ゲームについて検討する。 両者のシナリオでは、個人が過去の経験と未来への回帰の両方を理解すれば、高いレベルの信頼と信頼感が生まれます。 機械学的には、Qテーブルの進化は人間の心理的変化に似た交差を示す。 また,ゲームパラメータの位相図も提供し,境界解析を行った。 これらの発見は、シナリオが格子状個体群に拡張された場合、堅牢である。 その結果,外部要因を伴わない信頼と信頼性の出現の自然な説明が得られた。 さらに重要なことは、提案されたパラダイムは、人間の行動における多くのパズルを解読する可能性を示している。

Behavioral experiments on the trust game have shown that trust and trustworthiness are universal among human beings, contradicting the prediction by assuming \emph{Homo economicus} in orthodox Economics. This means some mechanism must be at work that favors their emergence. Most previous explanations however need to resort to some factors based upon imitative learning, a simple version of social learning. Here, we turn to the paradigm of reinforcement learning, where individuals update their strategies by evaluating the long-term return through accumulated experience. Specifically, we investigate the trust game with the Q-learning algorithm, where each participant is associated with two evolving Q-tables that guide one's decision making as trustor and trustee respectively. In the pairwise scenario, we reveal that high levels of trust and trustworthiness emerge when individuals appreciate both their historical experience and returns in the future. Mechanistically, the evolution of the Q-tables shows a crossover that resembles human's psychological changes. We also provide the phase diagram for the game parameters, where the boundary analysis is conducted. These findings are robust when the scenario is extended to a latticed population. Our results thus provide a natural explanation for the emergence of trust and trustworthiness without external factors involved. More importantly, the proposed paradigm shows the potential in deciphering many puzzles in human behaviors.
翻訳日:2023-09-27 15:27:17 公開日:2023-09-26
# 騒音域における政策最適化--連続制御における帰還景観について

Policy Optimization in a Noisy Neighborhood: On Return Landscapes in Continuous Control ( http://arxiv.org/abs/2309.14597v1 )

ライセンス: Link先を確認
Nate Rahn, Pierluca D'Oro, Harley Wiltzer, Pierre-Luc Bacon, Marc G. Bellemare(参考訳) 継続的制御のための深層強化学習剤は、時間とともにその性能に大きな不安定性を示すことが知られている。 本研究では,政策とリターンのマッピングという,リターンの景観を研究することにより,これらの行動に対する新たな視点を提供する。 一般的なアルゴリズムは、この風景のノイズの多い地区を横切り、ポリシーパラメータを1回更新するだけで、幅広いリターンが得られます。 これらのリターンの分布ビューを取ることで、ランドスケープをマッピングし、ポリシー空間の障害が発生しやすい領域を特徴付け、ポリシー品質の隠れた側面を明らかにする。 パラメータ空間内の単純な経路を見つけ、ポリシーの安定性を向上させることで、ランドスケープは驚くべき構造を示す。 結論として,政策のロバスト性を改善するため,騒音の多い地区から遠ざかって,そのような経路を見つける分散対応手法を開発した。 その結果,エージェントの最適化,評価,設計に関する新たな知見が得られた。

Deep reinforcement learning agents for continuous control are known to exhibit significant instability in their performance over time. In this work, we provide a fresh perspective on these behaviors by studying the return landscape: the mapping between a policy and a return. We find that popular algorithms traverse noisy neighborhoods of this landscape, in which a single update to the policy parameters leads to a wide range of returns. By taking a distributional view of these returns, we map the landscape, characterizing failure-prone regions of policy space and revealing a hidden dimension of policy quality. We show that the landscape exhibits surprising structure by finding simple paths in parameter space which improve the stability of a policy. To conclude, we develop a distribution-aware procedure which finds such paths, navigating away from noisy neighborhoods in order to improve the robustness of a policy. Taken together, our results provide new insight into the optimization, evaluation, and design of agents.
翻訳日:2023-09-27 15:26:57 公開日:2023-09-26
# FP8フォーマットによる学習後量子化の効率化

Efficient Post-training Quantization with FP8 Formats ( http://arxiv.org/abs/2309.14592v1 )

ライセンス: Link先を確認
Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, and Mengni Wang(参考訳) llmsや拡散モデルといったディープラーニング手法の最近の進歩は、精度を維持しつつ、これらの現代のアーキテクチャの計算要求を満たす量子化法の改善の必要性を生み出した。 この目的に向けて,機械翻訳,言語モデリング,テキスト生成,画像分類,生成,セグメンテーションなど,幅広いタスクをカバーする75のユニークなネットワークアーキテクチャを対象としたポストトレーニング量子化のためのFP8データフォーマットの利点について検討する。 本研究では,3種類のFP8表現(E5M2,E4M3,E3M4)について,ダイナミックレンジと精度の違いがモデル精度に及ぼす影響について検討した。 広範な研究に基づいて、異なるネットワークアーキテクチャをまたいで一般化する量子化ワークフローを開発した。 実験の結果、FP8フォーマットは、ワークロードカバレッジ(92.64%対65.87%)、モデルの正確性、幅広い操作に適した機能など、複数の面でINT8より優れていることが示された。 さらに,我々は,E4M3がNLPモデルに適していることを示し,E3M4はコンピュータビジョンタスクにおいてE4M3よりも極端に優れていることを示した。 コードはIntel Neural Compressorで公開されている。

Recent advances in deep learning methods such as LLMs and Diffusion models have created a need for improved quantization methods that can meet the computational demands of these modern architectures while maintaining accuracy. Towards this goal, we study the advantages of FP8 data formats for post-training quantization across 75 unique network architectures covering a wide range of tasks, including machine translation, language modeling, text generation, image classification, generation, and segmentation. We examine three different FP8 representations (E5M2, E4M3, and E3M4) to study the effects of varying degrees of trade-off between dynamic range and precision on model accuracy. Based on our extensive study, we developed a quantization workflow that generalizes across different network architectures. Our empirical results show that FP8 formats outperform INT8 in multiple aspects, including workload coverage (92.64% vs. 65.87%), model accuracy and suitability for a broader range of operations. Furthermore, our findings suggest that E4M3 is better suited for NLP models, whereas E3M4 performs marginally better than E4M3 on computer vision tasks. The code is publicly available on Intel Neural Compressor: https://github.com/intel/neural-compressor.
翻訳日:2023-09-27 15:26:41 公開日:2023-09-26
# 医用画像分類における逐次学習の応用

Applications of Sequential Learning for Medical Image Classification ( http://arxiv.org/abs/2309.14591v1 )

ライセンス: Link先を確認
Sohaib Naim and Brian Caffo and Haris I Sair and Craig K Jones(参考訳) 目的:本研究の目的は,少量の医用画像データの連続的トレーニングのためのニューラルネットワークトレーニングフレームワークを開発し,ホールドアウト検証やテストセットがない場合のトレーニングを評価するヒューリスティックスを作成することである。 材料と方法: 時間とともに医療画像のミニバッチのモデルをトレーニングし、継続的に更新するレトロスペクティブシーケンシャルな学習アプローチを定式化した。 我々は,PyTorch畳み込みニューラルネットワーク (CNN) や医療用MNISTおよびNIH Chest X-Ray画像データセットを通じて,過度に適合する,破滅的な忘れ込み,概念の漂流といった逐次学習を妨げる問題に対処する。 まず、逐次訓練されたCNNの2つの方法と、ベースとなる事前学習の有無を比較する。 次に、2つのユニークなトレーニングと検証データリクルートに移行し、オーバーフィットせずに完全な情報抽出を推定する。 最後に,本手法が主流的な研究手法になることを示す実生活データの一例について考察する。 結果: 最初の実験では, いずれも95%の精度のしきい値に達したが, 短時間の事前学習ステップでは, より少ないステップで逐次精度が向上した。 2つの手法を比較した2つ目の実験は、90%の精度閾値をはるかに早く越える2つ目の方法よりも優れた性能を示した。 最後の実験では、cnnが事前トレーニングなしで60%のしきい値を超えることができるプリトレーニングステップの利点が示されました。 結論: シーケンシャルラーニングは従来のCNNと統計的に比較して, 臨床的に現実的なシナリオで実現可能な小さなインクリメントでデータを取得することができる。

Purpose: The aim of this work is to develop a neural network training framework for continual training of small amounts of medical imaging data and create heuristics to assess training in the absence of a hold-out validation or test set. Materials and Methods: We formulated a retrospective sequential learning approach that would train and consistently update a model on mini-batches of medical images over time. We address problems that impede sequential learning such as overfitting, catastrophic forgetting, and concept drift through PyTorch convolutional neural networks (CNN) and publicly available Medical MNIST and NIH Chest X-Ray imaging datasets. We begin by comparing two methods for a sequentially trained CNN with and without base pre-training. We then transition to two methods of unique training and validation data recruitment to estimate full information extraction without overfitting. Lastly, we consider an example of real-life data that shows how our approach would see mainstream research implementation. Results: For the first experiment, both approaches successfully reach a ~95% accuracy threshold, although the short pre-training step enables sequential accuracy to plateau in fewer steps. The second experiment comparing two methods showed better performance with the second method which crosses the ~90% accuracy threshold much sooner. The final experiment showed a slight advantage with a pre-training step that allows the CNN to cross ~60% threshold much sooner than without pre-training. Conclusion: We have displayed sequential learning as a serviceable multi-classification technique statistically comparable to traditional CNNs that can acquire data in small increments feasible for clinically realistic scenarios.
翻訳日:2023-09-27 15:26:16 公開日:2023-09-26
# 歪み率レジリエンスを考慮したゴール指向セマンティック通信のための連成通信と計算フレームワーク

Joint Communication and Computation Framework for Goal-Oriented Semantic Communication with Distortion Rate Resilience ( http://arxiv.org/abs/2309.14587v1 )

ライセンス: Link先を確認
Minh-Duong Nguyen, Quang-Vinh Do, Zhaohui Yang, Quoc-Viet Pham, Won-Joo Hwang(参考訳) 近年のセマンティックコミュニケーションの研究は、主にゴール指向通信システムの最適化の主問題として、精度が重視されている。 人工知能(AI)タスクの精度は、ネットワーク制約によって指示されるのではなく、トレーニングを通じて自然に現れるべきである。 このジレンマを認識したこの研究は、速度歪み理論を利用した革新的なアプローチを導入し、コミュニケーションやセマンティック圧縮によって引き起こされる歪みを分析し、学習過程を分析する。 具体的には、元のデータと歪んだデータとの分布変化を調べ、そのaiモデルの性能への影響を評価する。 この分析に基づいて、AIタスクの実証的精度を事前に推定し、目標指向のセマンティックコミュニケーション問題を実現する。 この目的を達成するため,提案手法の理論的基礎とシミュレーションと実験を行い,その有効性を実証した。 実験結果から,提案手法はネットワーク制約を順守しながら正確なaiタスク性能を実現し,信号処理分野への貴重な貢献として確立できることが示唆された。 さらに本研究は,目標指向意味コミュニケーションの研究を前進させ,インテリジェントシステムの性能最適化におけるデータ駆動アプローチの重要性を強調する。

Recent research efforts on semantic communication have mostly considered accuracy as a main problem for optimizing goal-oriented communication systems. However, these approaches introduce a paradox: the accuracy of artificial intelligence (AI) tasks should naturally emerge through training rather than being dictated by network constraints. Acknowledging this dilemma, this work introduces an innovative approach that leverages the rate-distortion theory to analyze distortions induced by communication and semantic compression, thereby analyzing the learning process. Specifically, we examine the distribution shift between the original data and the distorted data, thus assessing its impact on the AI model's performance. Founding upon this analysis, we can preemptively estimate the empirical accuracy of AI tasks, making the goal-oriented semantic communication problem feasible. To achieve this objective, we present the theoretical foundation of our approach, accompanied by simulations and experiments that demonstrate its effectiveness. The experimental results indicate that our proposed method enables accurate AI task performance while adhering to network constraints, establishing it as a valuable contribution to the field of signal processing. Furthermore, this work advances research in goal-oriented semantic communication and highlights the significance of data-driven approaches in optimizing the performance of intelligent systems.
翻訳日:2023-09-27 15:25:43 公開日:2023-09-26
# タグ付きMRIによる音声合成とプラスチック変圧器による非負行列分解

Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix Factorization via Plastic Transformer ( http://arxiv.org/abs/2309.14586v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels, Jerry L. Prince, Georges El Fakhri, Jonghye Woo(参考訳) 舌の複雑な3D構造は、局所的な機能単位からなり、音声の生成において重要な役割を果たす。 タグ付きMRIを用いて測定すると、これらの機能単位は凝集変位と導出量を示し、音声生成の複雑な過程を促進する。 非負行列分解に基づくアプローチは、運動特徴を通して関数単位を推定し、一連の構成要素ブロックと対応する重み付け写像を生成する。 重み付け地図と音声音響の関係を調べることは、音声生成の複雑な過程に重要な洞察を与える。 そこで本研究では,2次元スペクトログラムをプロキシ表現として活用し,重み付けマップを対応する音声波形に翻訳するエンドツーエンドのディープラーニングフレームワークを開発した。 提案するプラスチック光変圧器(plt)フレームワークは,指向性製品相対位置バイアスと単層空間ピラミッドプーリングを基盤とし,入力情報損失や次元拡大を伴わずに,可変サイズの重み付けマップを固定サイズのスペクトログラムに柔軟に処理できる。 さらに、pltフレームワークは、広域マトリックス入力のグローバル相関を効率的にモデル化する。 比較的限られたトレーニングサンプルで生成したスペクトログラムのリアリズムを改善するために,最大平均離散性制約と対角的訓練を適用した。 2つの発話を発話する29人の被験者を対象とした実験結果から,本フレームワークは重み付けマップから音声波形を合成し,従来の畳み込み・変圧器モデルより優れることを示した。

The tongue's intricate 3D structure, comprising localized functional units, plays a crucial role in the production of speech. When measured using tagged MRI, these functional units exhibit cohesive displacements and derived quantities that facilitate the complex process of speech production. Non-negative matrix factorization-based approaches have been shown to estimate the functional units through motion features, yielding a set of building blocks and a corresponding weighting map. Investigating the link between weighting maps and speech acoustics can offer significant insights into the intricate process of speech production. To this end, in this work, we utilize two-dimensional spectrograms as a proxy representation, and develop an end-to-end deep learning framework for translating weighting maps to their corresponding audio waveforms. Our proposed plastic light transformer (PLT) framework is based on directional product relative position bias and single-level spatial pyramid pooling, thus enabling flexible processing of weighting maps with variable size to fixed-size spectrograms, without input information loss or dimension expansion. Additionally, our PLT framework efficiently models the global correlation of wide matrix input. To improve the realism of our generated spectrograms with relatively limited training samples, we apply pair-wise utterance consistency with Maximum Mean Discrepancy constraint and adversarial training. Experimental results on a dataset of 29 subjects speaking two utterances demonstrated that our framework is able to synthesize speech audio waveforms from weighting maps, outperforming conventional convolution and transformer models.
翻訳日:2023-09-27 15:25:23 公開日:2023-09-26
# DifAttack: 分散機能空間によるクエリ効率の良いブラックボックス攻撃

DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature Space ( http://arxiv.org/abs/2309.14585v1 )

ライセンス: Link先を確認
Liu Jun, Zhou Jiantao, Zeng Jiandian, Jinyu Tian(参考訳) 本研究は,高攻撃成功率(ASR)と良好な一般化性を備えた,効率的なスコアベースブラックボックス攻撃について検討する。 本研究では,DifAttackと呼ばれる,DifAttackと呼ばれる不整形特徴空間に基づく新たな攻撃手法を設計する。 具体的には、ディファタックはまず、画像の潜伏した特徴を敵対的特徴と視覚的特徴に切り離し、前者が画像の敵対的能力を支配し、後者が視覚的な外観を大々的に決定する。 我々は,ホワイトボックス攻撃法を用いて,利用可能なサロゲートモデルから生成した一対のクリーンイメージとその逆例(aes)を用いて,乱れに対するオートエンコーダを訓練する。 最終的に、DifAttackは、視覚的特徴を変更せずに、成功しているAEが生成されるまで、被害者モデルからのクエリフィードバックに従って、敵機能を反復的に最適化する。 さらに,ブラックボックスモデルにaesを最適化する際のサロゲートモデルの勾配情報の使用を避けるため,本提案手法は,被害者モデルのトレーニングデータセットが不明なオープンセットシナリオにおいて,本質的により優れた攻撃能力を有する。 広範な実験結果から,本手法はasrとクエリの効率を,特にターゲット攻撃とオープンセットシナリオにおいて同時に大幅に改善できることが判明した。 コードは近くhttps://github.com/csjunjun/difattack.gitで入手できる。

This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (ASR) and good generalizability. We design a novel attack method based on a Disentangled Feature space, called DifAttack, which differs significantly from the existing ones operating over the entire feature space. Specifically, DifAttack firstly disentangles an image's latent feature into an adversarial feature and a visual feature, where the former dominates the adversarial capability of an image, while the latter largely determines its visual appearance. We train an autoencoder for the disentanglement by using pairs of clean images and their Adversarial Examples (AEs) generated from available surrogate models via white-box attack methods. Eventually, DifAttack iteratively optimizes the adversarial feature according to the query feedback from the victim model until a successful AE is generated, while keeping the visual feature unaltered. In addition, due to the avoidance of using surrogate models' gradient information when optimizing AEs for black-box models, our proposed DifAttack inherently possesses better attack capability in the open-set scenario, where the training dataset of the victim model is unknown. Extensive experimental results demonstrate that our method achieves significant improvements in ASR and query efficiency simultaneously, especially in the targeted attack and open-set scenarios. The code will be available at https://github.com/csjunjun/DifAttack.git soon.
翻訳日:2023-09-27 15:24:56 公開日:2023-09-26
# CWCL: 連続重み付きコントラスト損失を用いたクロスモーダルトランスファー

CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss ( http://arxiv.org/abs/2309.14580v1 )

ライセンス: Link先を確認
Rakshith Sharma Srinivasa, Jaejin Cho, Chouchang Yang, Yashas Malur Saidutta, Ching-Hua Lee, Yilin Shen, Hongxia Jin(参考訳) 本稿では,一方のモダリティにおける事前学習モデルを用いてペアワイズデータを用いた表現学習を行うクロスモーダル0ショットトランスファーのコントラストトレーニングについて検討する。 後者のドメインで学習されたモデルは、最近注目されている '`Contrastive Language- Image Pre-training (CLIP)'' や ' ``Locked-image Tuning (LiT)'' と同様に、ゼロショットで多様なタスクセットに使用できる。 既存のクロスモーダル表現アライメントのための作品の多くは(クリップやリットを含む)標準のコントラストトレーニング目的を使用しており、同様のトレーニングデータサンプルをアライメントするために、ポジティブな例とネガティブな例のセットを使用している。 しかし、訓練例間の類似性はより連続的な性質を持ち、より「非バイナリ」な治療を求める。 そこで本研究では,相似性の連続尺度を用いた連続重み付きコントラスト損失(cwcl)と呼ばれる新しい損失関数を提案する。 CWCLでは、あるモダリティの埋め込み空間を他のモダリティと整合させる。 損失関数の類似性の連続性により、これらのモデルは複数のモデル、データセット、モダリティ間で0ショット転送を行う既存の手法より優れている。 特に,画像テキストと音声テキストのモダリティペアを考慮し,0ショット画像分類における従来の最先端手法よりも5~8%(絶対)改善し,20~30%(絶対)の改善を0ショット音声対インテント分類とキーワード分類で達成した。

This paper considers contrastive training for cross-modal 0-shot transfer wherein a pre-trained model in one modality is used for representation learning in another domain using pairwise data. The learnt models in the latter domain can then be used for a diverse set of tasks in a zero-shot way, similar to ``Contrastive Language-Image Pre-training (CLIP)'' and ``Locked-image Tuning (LiT)'' that have recently gained considerable attention. Most existing works for cross-modal representation alignment (including CLIP and LiT) use the standard contrastive training objective, which employs sets of positive and negative examples to align similar and repel dissimilar training data samples. However, similarity amongst training examples has a more continuous nature, thus calling for a more `non-binary' treatment. To address this, we propose a novel loss function called Continuously Weighted Contrastive Loss (CWCL) that employs a continuous measure of similarity. With CWCL, we seek to align the embedding space of one modality with another. Owing to the continuous nature of similarity in the proposed loss function, these models outperform existing methods for 0-shot transfer across multiple models, datasets and modalities. Particularly, we consider the modality pairs of image-text and speech-text and our models achieve 5-8% (absolute) improvement over previous state-of-the-art methods in 0-shot image classification and 20-30% (absolute) improvement in 0-shot speech-to-intent classification and keyword classification.
翻訳日:2023-09-27 15:24:30 公開日:2023-09-26
# ビデオ異常検出におけるディバイドとコンカー : 包括的レビューと新しいアプローチ

Divide and Conquer in Video Anomaly Detection: A Comprehensive Review and New Approach ( http://arxiv.org/abs/2309.14622v1 )

ライセンス: Link先を確認
Jian Xiao, Tianyuan Liu, Genlin Ji(参考訳) ビデオ異常検出は複雑な作業であり、「分割と征服」の原理は複雑な問題に取り組む効果的なアプローチとみなされることが多い。 ビデオ異常検出の最近の手法は、哲学の分割と征服の応用を(伝統的な使用法と異なる視点で)明らかにし、印象的な結果をもたらしている。 本稿では,これらの文献を6次元から体系的にレビューし,映像異常検出における分割・征服戦略の活用を促進することを目的とする。 さらに、このレビューから得られた知見に基づき、人間の骨格フレームワークとビデオデータ分析技術を統合する新しいアプローチが提示されている。 この手法は上海Techデータセットの最先端性能を達成し、既存のすべての先進的手法を上回ります。

Video anomaly detection is a complex task, and the principle of "divide and conquer" is often regarded as an effective approach to tackling intricate issues. It's noteworthy that recent methods in video anomaly detection have revealed the application of the divide and conquer philosophy (albeit with distinct perspectives from traditional usage), yielding impressive outcomes. This paper systematically reviews these literatures from six dimensions, aiming to enhance the use of the divide and conquer strategy in video anomaly detection. Furthermore, based on the insights gained from this review, a novel approach is presented, which integrates human skeletal frameworks with video data analysis techniques. This method achieves state-of-the-art performance on the ShanghaiTech dataset, surpassing all existing advanced methods.
翻訳日:2023-09-27 15:19:16 公開日:2023-09-26
# 医療人工知能のための統一的実用倫理枠組みに向けて

Towards A Unified Utilitarian Ethics Framework for Healthcare Artificial Intelligence ( http://arxiv.org/abs/2309.14617v1 )

ライセンス: Link先を確認
Forhan Bin Emdad, Shuyuan Mary Ho, Benhur Ravuri, Shezin Hussain(参考訳) 人工知能(AI)は、臨床上の意思決定を支援することで、医療をピナクルに高めることを目的としている。 倫理的AIの設計に関わる課題を克服することで、臨床医、医師、医療専門家、その他のステークホルダーが医療設定でAIを使用して信頼することができる。 本研究は,データアクセスやアルゴリズム,システムなど,さまざまな技術レベルでのAIの実用性能に影響を与える主要な倫理的原則を,テーマ分析によって明らかにしようとするものである。 私たちは、倫理的AIを検討する上で、正義、プライバシー、偏見、規制の欠如、リスク、解釈可能性が最も重要な原則であることを示した。 このデータ駆動研究は、36人のAI専門家によるPew Research Center(2020)からの二次調査データを分析し、AI設計の最高の倫理的原則を分類した。 メタ分析とドメインエキスパートが認識する倫理的問題を解決するために,医療領域の倫理的AIを設計するための実用的倫理的枠組みを提案する。

Artificial Intelligence (AI) aims to elevate healthcare to a pinnacle by aiding clinical decision support. Overcoming the challenges related to the design of ethical AI will enable clinicians, physicians, healthcare professionals, and other stakeholders to use and trust AI in healthcare settings. This study attempts to identify the major ethical principles influencing the utility performance of AI at different technological levels such as data access, algorithms, and systems through a thematic analysis. We observed that justice, privacy, bias, lack of regulations, risks, and interpretability are the most important principles to consider for ethical AI. This data-driven study has analyzed secondary survey data from the Pew Research Center (2020) of 36 AI experts to categorize the top ethical principles of AI design. To resolve the ethical issues identified by the meta-analysis and domain experts, we propose a new utilitarian ethics-based theoretical framework for designing ethical AI for the healthcare domain.
翻訳日:2023-09-27 15:18:55 公開日:2023-09-26
# NDCシーン:正規化デバイス座標空間における単分子3次元セマンティックシーン補完

NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space ( http://arxiv.org/abs/2309.14616v1 )

ライセンス: Link先を確認
Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Ouyang Wanli and Hongsheng Li(参考訳) SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑な意味や幾何学的形状を予測し、3D入力を必要としないため、近年注目されている。 本稿では,3次元空間への投影された2次元特徴のあいまいさ,3次元畳み込みのポーズあいまいさ,奥行きの異なる3次元畳み込みにおける計算の不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。 これらの問題に対処するために,デコンボリューション操作による深度次元の漸進的復元により,2次元特徴写像を世界空間に直接ではなく,正規化デバイスコーディネート(NDC)空間へ直接拡張する新しいシーンコンプリートネットワーク(NDC-Scene)を考案した。 実験の結果, 対象の3次元空間から提案する正規化デバイス座標への計算のほとんどを移動させることで, 単眼sscタスクが有効となることがわかった。 さらに,2次元特徴マップと3次元特徴マップを同時に重ね合わせて融合させる奥行き適応型デュアルデコーダの設計を行い,全体的な性能をさらに向上した。 提案手法は,屋外のセマンティックKITTIと屋内のNYUv2データセットの両方において,常に最先端の手法より優れていることを確認した。 私たちのコードはhttps://github.com/Jiawei-Yao0812/NDCSceneで公開されています。

Monocular 3D Semantic Scene Completion (SSC) has garnered significant attention in recent years due to its potential to predict complex semantics and geometry shapes from a single image, requiring no 3D inputs. In this paper, we identify several critical issues in current state-of-the-art methods, including the Feature Ambiguity of projected 2D features in the ray to the 3D space, the Pose Ambiguity of the 3D convolution, and the Computation Imbalance in the 3D convolution across different depth levels. To address these problems, we devise a novel Normalized Device Coordinates scene completion network (NDC-Scene) that directly extends the 2D feature map to a Normalized Device Coordinates (NDC) space, rather than to the world space directly, through progressive restoration of the dimension of depth with deconvolution operations. Experiment results demonstrate that transferring the majority of computation from the target 3D space to the proposed normalized device coordinates space benefits monocular SSC tasks. Additionally, we design a Depth-Adaptive Dual Decoder to simultaneously upsample and fuse the 2D and 3D feature maps, further improving overall performance. Our extensive experiments confirm that the proposed method consistently outperforms state-of-the-art methods on both outdoor SemanticKITTI and indoor NYUv2 datasets. Our code are available at https://github.com/Jiawei-Yao0812/NDCScene.
翻訳日:2023-09-27 15:18:25 公開日:2023-09-26
# 深層強化学習型取引エージェントのグレーボックス攻撃

Gray-box Adversarial Attack of Deep Reinforcement Learning-based Trading Agents ( http://arxiv.org/abs/2309.14615v1 )

ライセンス: Link先を確認
Foozhan Ataiefard, Hadi Hemmati(参考訳) 近年、深層強化学習(Deep RL)は、複雑なゲーム、自動運転車、チャットボットなど多くのシステムにおいて、スマートエージェントとして実装されている。 Deep RLの興味深いユースケースの1つは、自動株式取引エージェントとしての利用である。 一般に、任意の自動取引業者は、取引環境における敵による操作に弱い。 したがって、彼らの堅牢性を研究することは、実践の成功に不可欠である。 しかし, モデルがNASDAQなどのセキュアな国際交換APIの裏で保護されているため, ホワイトボックス勾配に基づく逆方向サンプル生成技術(FGSMなど)をベースとしたRLロバスト性研究の典型的なメカニズムは, このユースケースでは時代遅れである。 本研究では,同一株式市場で取引することで,取引業者に余分なアクセスを行わずに,深いrlベースのトレーディングエージェントを攻撃する「グレーボックス」アプローチが可能であることを実証する。 提案手法では,畳み込み層と完全連結層からなるポリシとして,ハイブリッドディープニューラルネットワークを用いる。 平均して3つ以上の模擬取引市場構成において、本研究で提案された敵意政策は、報酬価値を214.17%減らすことができ、それによってベースラインの潜在的な利益を139.4%減らし、アンサンブル方式を93.7%減らし、産業パートナーが開発する自動取引ソフトを85.5%減らし、被害者よりも大幅に少ない予算(427.77%、187.16%、66.97%)を消費する。

In recent years, deep reinforcement learning (Deep RL) has been successfully implemented as a smart agent in many systems such as complex games, self-driving cars, and chat-bots. One of the interesting use cases of Deep RL is its application as an automated stock trading agent. In general, any automated trading agent is prone to manipulations by adversaries in the trading environment. Thus studying their robustness is vital for their success in practice. However, typical mechanism to study RL robustness, which is based on white-box gradient-based adversarial sample generation techniques (like FGSM), is obsolete for this use case, since the models are protected behind secure international exchange APIs, such as NASDAQ. In this research, we demonstrate that a "gray-box" approach for attacking a Deep RL-based trading agent is possible by trading in the same stock market, with no extra access to the trading agent. In our proposed approach, an adversary agent uses a hybrid Deep Neural Network as its policy consisting of Convolutional layers and fully-connected layers. On average, over three simulated trading market configurations, the adversary policy proposed in this research is able to reduce the reward values by 214.17%, which results in reducing the potential profits of the baseline by 139.4%, ensemble method by 93.7%, and an automated trading software developed by our industrial partner by 85.5%, while consuming significantly less budget than the victims (427.77%, 187.16%, and 66.97%, respectively).
翻訳日:2023-09-27 15:17:25 公開日:2023-09-26
# リパラメタライズド変分拒絶サンプリング

Reparameterized Variational Rejection Sampling ( http://arxiv.org/abs/2309.14612v1 )

ライセンス: Link先を確認
Martin Jankowiak and Du Phan(参考訳) 変分推論の伝統的なアプローチは変分分布のパラメトリック族に依存し、家族の選択は結果の後方近似の精度を決定する上で重要な役割を担っている。 単純な平均場族はしばしば貧弱な近似をもたらすが、流れの正規化のような分布のリッチな族は最適化が難しく、通常、ブラックボックスの性質のため目標分布の既知の構造を取り入れない。 フレキシブルな変動型ファミリーの空間を拡大するために,パラメータ提案分布と回帰サンプリングを組み合わせた変動型リジェクションサンプリング (VRS) [Grover et al., 2018] を再検討し, 既知のターゲット分布を明示的に活用するリッチな非パラメトリック分布系を定義する。 提案分布のパラメータに対する低分散再パラメータ化勾配推定器を導入することにより,VRSを連続潜時変数を持つモデルに対する魅力的な推論戦略とする。 提案手法は,提案手法が計算コストと推論忠実度との間に魅力的なトレードオフをもたらすことを理論的および実証的に証明する。 実験では,本手法が実際によく機能し,ブラックボックス推論,特に局所潜伏変数を持つモデルに適していることが示されている。

Traditional approaches to variational inference rely on parametric families of variational distributions, with the choice of family playing a critical role in determining the accuracy of the resulting posterior approximation. Simple mean-field families often lead to poor approximations, while rich families of distributions like normalizing flows can be difficult to optimize and usually do not incorporate the known structure of the target distribution due to their black-box nature. To expand the space of flexible variational families, we revisit Variational Rejection Sampling (VRS) [Grover et al., 2018], which combines a parametric proposal distribution with rejection sampling to define a rich non-parametric family of distributions that explicitly utilizes the known target distribution. By introducing a low-variance reparameterized gradient estimator for the parameters of the proposal distribution, we make VRS an attractive inference strategy for models with continuous latent variables. We argue theoretically and demonstrate empirically that the resulting method--Reparameterized Variational Rejection Sampling (RVRS)--offers an attractive trade-off between computational cost and inference fidelity. In experiments we show that our method performs well in practice and that it is well-suited for black-box inference, especially for models with local latent variables.
翻訳日:2023-09-27 15:16:34 公開日:2023-09-26
# イベントストリームベースのビジュアルオブジェクト追跡:高解像度ベンチマークデータセットと新しいベースライン

Event Stream-based Visual Object Tracking: A High-Resolution Benchmark Dataset and A Novel Baseline ( http://arxiv.org/abs/2309.14611v1 )

ライセンス: Link先を確認
Xiao Wang, Shiao Wang, Chuanming Tang, Lin Zhu, Bo Jiang, Yonghong Tian, Jin Tang(参考訳) 近年,バイオインスパイアされたイベントカメラによる追跡が注目されている。 既存の作業は、整列RGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。 第1のカテゴリは推論により多くのコストを必要とし、第2のカテゴリはノイズのある事象やスパース空間分解の影響を受けやすい。 本稿では,学習中に多モード/多視点情報を完全に活用して知識伝達を容易にする階層型知識蒸留フレームワークを提案する。 具体的には、教師トランスフォーマーベースのマルチモーダルトラッキングフレームワークをまず、rgbフレームとイベントストリームを同時に供給してトレーニングする。 次に, 学生トランスフォーマーネットワークの学習を導くために, 対関係の類似性, 特徴表現, 応答マップに基づく知識蒸留を含む新しい階層的知識蒸留戦略を設計する。 さらに、既存のイベントベースのトラッキングデータセットはすべて低解像度(346 \times 260$)であるため、EventVOTと呼ばれる最初の大規模な高解像度(1280 \times 720$)データセットを提案する。 1141本のビデオがあり、歩行者、車両、uav、ピンポンなど幅広いカテゴリーをカバーしている。 低分解能(FE240hz, VisEvent, COESOT)と新たに提案した高分解能EventVOTデータセットのどちらも,提案手法の有効性を十分に検証した。 データセット、評価ツールキット、ソースコードは \url{https://github.com/Event-AHU/EventVOT_Benchmark} で入手できる。

Tracking using bio-inspired event cameras has drawn more and more attention in recent years. Existing works either utilize aligned RGB and event data for accurate tracking or directly learn an event-based tracker. The first category needs more cost for inference and the second one may be easily influenced by noisy events or sparse spatial resolution. In this paper, we propose a novel hierarchical knowledge distillation framework that can fully utilize multi-modal / multi-view information during training to facilitate knowledge transfer, enabling us to achieve high-speed and low-latency visual tracking during testing by using only event signals. Specifically, a teacher Transformer-based multi-modal tracking framework is first trained by feeding the RGB frame and event stream simultaneously. Then, we design a new hierarchical knowledge distillation strategy which includes pairwise similarity, feature representation, and response maps-based knowledge distillation to guide the learning of the student Transformer network. Moreover, since existing event-based tracking datasets are all low-resolution ($346 \times 260$), we propose the first large-scale high-resolution ($1280 \times 720$) dataset named EventVOT. It contains 1141 videos and covers a wide range of categories such as pedestrians, vehicles, UAVs, ping pongs, etc. Extensive experiments on both low-resolution (FE240hz, VisEvent, COESOT), and our newly proposed high-resolution EventVOT dataset fully validated the effectiveness of our proposed method. The dataset, evaluation toolkit, and source code are available on \url{https://github.com/Event-AHU/EventVOT_Benchmark}
翻訳日:2023-09-27 15:16:12 公開日:2023-09-26
# 教師なしグラフ深層学習が都市域の創発的洪水リスクプロファイルを明らかに

Unsupervised Graph Deep Learning Reveals Emergent Flood Risk Profile of Urban Areas ( http://arxiv.org/abs/2309.14610v1 )

ライセンス: Link先を確認
Kai Yin Ali Mostafavi(参考訳) 都市洪水リスクは、複雑な空間的な洪水依存関係とともに、洪水の危険性、洪水暴露、社会的および身体的脆弱性に関連する複数の特徴間の複雑な非線形相互作用から生じる。 しかし, 都市浸水リスクを特徴付ける既存のアプローチは, 主に洪水平原の地図に基づいており, 特徴の相互作用や空間領域間の関係を考慮せずに, 限られた特徴, 主に危険・露光の特徴に着目している。 このギャップを解消するために,新しい教師なしグラフ深層学習モデル(FloodRisk-Net)に基づく都市洪水リスク評価モデルを提案する。 floodrisk-netは、地域間の空間的依存を捉え、洪水の危険度と都市の特徴の間の複雑で非線形な相互作用を捉えて、創発的な洪水リスクを特定することができる。 米国内の複数の大都市圏統計地域(MSA)のデータを用いて、このモデルは洪水のリスクを6つの都市固有のレベルに特徴づける。 このモデルは解釈可能であり、各洪水リスクレベルの領域の特徴分析が可能であり、各msa内で最大の洪水リスクを形成する3つのアーチタイプを識別することができる。 洪水リスクは各MSA内の階層構造に空間的に分布しており、中核都市が最も高い洪水リスクを負っている。 複数の都市が洪水リスクレベルが高く、空間格差が低く、都市開発と洪水リスク低減のバランスをとるための選択肢が限られている。 洪水リスクの最大値と不均一な空間分布を考慮し, 関連する洪水リスク低減戦略について議論した。

Urban flood risk emerges from complex and nonlinear interactions among multiple features related to flood hazard, flood exposure, and social and physical vulnerabilities, along with the complex spatial flood dependence relationships. Existing approaches for characterizing urban flood risk, however, are primarily based on flood plain maps, focusing on a limited number of features, primarily hazard and exposure features, without consideration of feature interactions or the dependence relationships among spatial areas. To address this gap, this study presents an integrated urban flood-risk rating model based on a novel unsupervised graph deep learning model (called FloodRisk-Net). FloodRisk-Net is capable of capturing spatial dependence among areas and complex and nonlinear interactions among flood hazards and urban features for specifying emergent flood risk. Using data from multiple metropolitan statistical areas (MSAs) in the United States, the model characterizes their flood risk into six distinct city-specific levels. The model is interpretable and enables feature analysis of areas within each flood-risk level, allowing for the identification of the three archetypes shaping the highest flood risk within each MSA. Flood risk is found to be spatially distributed in a hierarchical structure within each MSA, where the core city disproportionately bears the highest flood risk. Multiple cities are found to have high overall flood-risk levels and low spatial inequality, indicating limited options for balancing urban development and flood-risk reduction. Relevant flood-risk reduction strategies are discussed considering ways that the highest flood risk and uneven spatial distribution of flood risk are formed.
翻訳日:2023-09-27 15:15:46 公開日:2023-09-26
# 半導体チップを用いた光ファイバネットワークにおけるマルチユーザ絡み合い分布と古典光の共存

Coexistence of multiuser entanglement distribution and classical light in optical fiber network with a semiconductor chip ( http://arxiv.org/abs/2309.14602v1 )

ライセンス: Link先を確認
Xu Jing, Cheng Qian, Hu Nian, Chenquan Wang, Jie Tang, Xiaowen Gu, Yuechan Kong, Tangsheng Chen, Yichen Liu, Chong Sheng, Dong Jiang, Bin Niu, and Liangliang Lu(参考訳) スケーラブルで堅牢な方法で複数のユーザ間の通信リンクを構築することは、大規模量子ネットワークを実現する上で重要な目的である。 現実的なシナリオでは、共存する古典光からのノイズは避けられず、最終的に絡み合いを乱す可能性がある。 従来の有意な完全連結マルチユーザ絡み合い分布実験はダークファイバリンクを用いて行われ,古典的雑音による絡み合い劣化とその誤差率の間には明確な関係はない。 そこで我々は,広帯域偏光エンタングルメントを直接発生させるために,高次元のメリートモード重なりを持つ半導体チップを作製した。 波長1.2*10^7 Hz/mWの42nm帯では, 偏光強度は96%以上である。 古典光と共存する3ユーザ間で,連続的に動作する量子絡み合い分布を行う。 有限鍵解析では、セキュアキーを確立し、画像の暗号化とユーザ間の量子秘密共有を可能にする。 本研究は,実世界の光通信ネットワークと互換性のあるフォトニックアーキテクチャを用いた,実用的なマルチパーティ量子通信への道を開くものである。

Building communication links among multiple users in a scalable and robust way is a key objective in achieving large-scale quantum networks. In realistic scenario, noise from the coexisting classical light is inevitable and can ultimately disrupt the entanglement. The previous significant fully connected multiuser entanglement distribution experiments are conducted using dark fiber links and there is no explicit relation between the entanglement degradations induced by classical noise and its error rate. Here we fabricate a semiconductor chip with a high figure-of-merit modal overlap to directly generate broadband polarization entanglement. Our monolithic source maintains polarization entanglement fidelity above 96% for 42 nm bandwidth with a brightness of 1.2*10^7 Hz/mW. We perform a continuously working quantum entanglement distribution among three users coexisting with classical light. Under finite-key analysis, we establish secure keys and enable images encryption as well as quantum secret sharing between users. Our work paves the way for practical multiparty quantum communication with integrated photonic architecture compatible with real-world fiber optical communication network.
翻訳日:2023-09-27 15:15:19 公開日:2023-09-26
# Neuro-Visualizer: 自動エンコーダによるロスランドスケープ可視化手法

Neuro-Visualizer: An Auto-encoder-based Loss Landscape Visualization Method ( http://arxiv.org/abs/2309.14601v1 )

ライセンス: Link先を確認
Mohannad Elhamod, Anuj Karpatne(参考訳) 近年,ニューラルネットワークのロスランドスケープを可視化することへの関心が高まっている。 ニューラルネットワークとその学習過程を直感的に研究する上で,主成分分析などの線形ランドスケープ可視化手法が広く利用されている。 しかし、これらの線形手法は、柔軟性の欠如と高次元の風景を表現することの信頼性の低下により、限界と欠点に苦しむ。 本稿では,ニューロ・ビジュアライザと呼ばれる,自動エンコーダを用いた非線形景観可視化手法を提案する。 その可能性を示すために、知識誘導機械学習(kgml)の2つの異なる応用において、様々な問題に関する実験を行う。 この結果は、Neuro-Visualizerが他の線形および非線形のベースラインより優れており、機械学習コミュニティが提案するコロボレート、時には挑戦に役立つことを示している。 本論文の実験で使用されたすべてのコードとデータは、https://anonymous.4open.science/r/NeuroVisualizer-FDD6で公開されている。

In recent years, there has been a growing interest in visualizing the loss landscape of neural networks. Linear landscape visualization methods, such as principal component analysis, have become widely used as they intuitively help researchers study neural networks and their training process. However, these linear methods suffer from limitations and drawbacks due to their lack of flexibility and low fidelity at representing the high dimensional landscape. In this paper, we present a novel auto-encoder-based non-linear landscape visualization method called Neuro-Visualizer that addresses these shortcoming and provides useful insights about neural network loss landscapes. To demonstrate its potential, we run experiments on a variety of problems in two separate applications of knowledge-guided machine learning (KGML). Our findings show that Neuro-Visualizer outperforms other linear and non-linear baselines and helps corroborate, and sometime challenge, claims proposed by machine learning community. All code and data used in the experiments of this paper are available at an anonymous link https://anonymous.4open.science/r/NeuroVisualizer-FDD6
翻訳日:2023-09-27 15:15:02 公開日:2023-09-26
# 自動3dプロトタイピングのためのプログレッシブテキストから3d生成

Progressive Text-to-3D Generation for Automatic 3D Prototyping ( http://arxiv.org/abs/2309.14600v1 )

ライセンス: Link先を確認
Han Yi, Zhedong Zheng, Xiangyu Xu and Tat-seng Chua(参考訳) テキストから3D生成は、自然言語の記述に従って3Dオブジェクトを作成することである。 これにより、3Dモデルを手動で設計する作業が大幅に削減され、ユーザにとってより自然なインタラクションが可能になる。 しかし,細粒度を効果的に回収し,大規模3d出力を効率的に最適化するには課題が残る。 進歩学習の成功に触発されて,マルチスケールトライプレーンネットワーク(MTN)と新しい進歩学習戦略を提案する。 名前の通り、マルチスケールのトライプレーンネットワークは4つのトライプレーンで構成され、低解像度から高解像度に遷移する。 低解像度のトライプレーンは、高分解能のトライプレーンの初期形状として機能し、最適化の困難さを和らげる。 さらに細粒度を極小にするためには、ネットワークに注意の焦点を単純な粗粒度パターンから難解な細粒度パターンにシフトさせるプログレッシブラーニング戦略も導入する。 提案手法が既存の手法に好適に作用することを検証した。 既存のほとんどのメソッドが実行可能な形状を作り出すのに苦労している最も難しい記述でさえ、提案手法は一貫して提供されます。 自然言語記述による自動3Dプロトタイピングの道を開くことを目指しています。

Text-to-3D generation is to craft a 3D object according to a natural language description. This can significantly reduce the workload for manually designing 3D models and provide a more natural way of interaction for users. However, this problem remains challenging in recovering the fine-grained details effectively and optimizing a large-size 3D output efficiently. Inspired by the success of progressive learning, we propose a Multi-Scale Triplane Network (MTN) and a new progressive learning strategy. As the name implies, the Multi-Scale Triplane Network consists of four triplanes transitioning from low to high resolution. The low-resolution triplane could serve as an initial shape for the high-resolution ones, easing the optimization difficulty. To further enable the fine-grained details, we also introduce the progressive learning strategy, which explicitly demands the network to shift its focus of attention from simple coarse-grained patterns to difficult fine-grained patterns. Our experiment verifies that the proposed method performs favorably against existing methods. For even the most challenging descriptions, where most existing methods struggle to produce a viable shape, our proposed method consistently delivers. We aspire for our work to pave the way for automatic 3D prototyping via natural language descriptions.
翻訳日:2023-09-27 15:14:44 公開日:2023-09-26
# DONNAv2 -- ビジョンタスクのための軽量ニューラルネットワーク検索

DONNAv2 -- Lightweight Neural Architecture Search for Vision tasks ( http://arxiv.org/abs/2309.14670v1 )

ライセンス: Link先を確認
Sweta Priyadarshi, Tianyu Jiang, Hsin-Pai Cheng, Sendil Krishna, Viswanath Ganapathy, Chirag Patel(参考訳) エッジデバイスにまたがるビジョンアプリケーションやデプロイメントの需要が高まっているため、デバイスデプロイメント時のパフォーマンスを維持するハードウェアフレンドリなアーキテクチャの開発が不可欠である。 neural architecture search (nas)技術は、様々な学習タスクの効率的なアーキテクチャを計算効率良く発見するための様々なアプローチを探索する。 本稿では,計算効率の良いニューラルアーキテクチャ蒸留システムDONNAv2の次世代ニューラルアーキテクチャ設計について述べる。 従来のNASアルゴリズムは、精度予測器を学習し、探索空間内のモデル性能を推定する計算的な段階に依存している。 この精度予測器の構築は、微調整されていないモデルの性能を予測するのに役立つ。 そこで我々は,精度予測器の構築を排除し,DONNAを計算効率の良い設定に拡張するエレガントな手法を開発した。 ネットワークを構成する個々のブロックの損失メトリックは、nas探索段階におけるサンプルモデルのサロゲートパフォーマンス指標として機能する。 DONNAv2の性能を検証するために,分類,物体検出,画像のデノナイズ,超高分解能,汎視知覚ネットワーク(YOLOP)など,多様な視覚タスクの幅広い実験を行った。 ハードウェア・イン・ザ・ループの実験はSamsung Galaxy S10モバイルプラットフォームを用いて行われた。 特に、DONNAv2は、より大きなデータセットに対して、DONNAの計算コストを10倍削減する。 さらに、NAS検索空間の品質を向上させるため、DONNAv2はブロック知識蒸留フィルタを活用し、推論コストの高いブロックを除去する。

With the growing demand for vision applications and deployment across edge devices, the development of hardware-friendly architectures that maintain performance during device deployment becomes crucial. Neural architecture search (NAS) techniques explore various approaches to discover efficient architectures for diverse learning tasks in a computationally efficient manner. In this paper, we present the next-generation neural architecture design for computationally efficient neural architecture distillation - DONNAv2 . Conventional NAS algorithms rely on a computationally extensive stage where an accuracy predictor is learned to estimate model performance within search space. This building of accuracy predictors helps them predict the performance of models that are not being finetuned. Here, we have developed an elegant approach to eliminate building the accuracy predictor and extend DONNA to a computationally efficient setting. The loss metric of individual blocks forming the network serves as the surrogate performance measure for the sampled models in the NAS search stage. To validate the performance of DONNAv2 we have performed extensive experiments involving a range of diverse vision tasks including classification, object detection, image denoising, super-resolution, and panoptic perception network (YOLOP). The hardware-in-the-loop experiments were carried out using the Samsung Galaxy S10 mobile platform. Notably, DONNAv2 reduces the computational cost of DONNA by 10x for the larger datasets. Furthermore, to improve the quality of NAS search space, DONNAv2 leverages a block knowledge distillation filter to remove blocks with high inference costs.
翻訳日:2023-09-27 15:06:13 公開日:2023-09-26
# ZiCo-BC:ビジョンタスクのためのバイアス補正ゼロショットNAS

ZiCo-BC: A Bias Corrected Zero-Shot NAS for Vision Tasks ( http://arxiv.org/abs/2309.14666v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Hsin-Pai Cheng, Sweta Priyadarshi, Zhuojin Li(参考訳) Zero-Shot Neural Architecture Search (NAS) アプローチでは、ゼロショットプロキシと呼ばれる新しいトレーニングフリーメトリクスを提案し、従来のトレーニングベースNASと比較して検索時間を大幅に短縮する。 画像分類の成功にもかかわらず、ゼロショットプロキシの有効性は、セマンティクスセグメンテーションやオブジェクト検出のような複雑な視覚タスクで評価されることは滅多にない。 さらに、既存のゼロショットプロキシは、その適用性を制限する特定のモデル特性に偏りがあることが示されている。 本稿では、複数の視覚タスクにおいて、最先端(SOTA)ゼロショットプロキシZiCoのバイアスを実証的に研究し、ZiCoがより薄くより深いネットワークに偏っていることを観察し、準最適アーキテクチャをもたらす。 この問題を解決するために,ZiCo-BCと呼ばれる新しいバイアス補正を提案する。 さまざまな視覚タスク(画像分類、オブジェクト検出、セマンティックセグメンテーション)にわたる広範な実験により、samsung galaxy s10デバイスで高い精度と大幅に低いレイテンシでアーキテクチャを検索することに成功した。

Zero-Shot Neural Architecture Search (NAS) approaches propose novel training-free metrics called zero-shot proxies to substantially reduce the search time compared to the traditional training-based NAS. Despite the success on image classification, the effectiveness of zero-shot proxies is rarely evaluated on complex vision tasks such as semantic segmentation and object detection. Moreover, existing zero-shot proxies are shown to be biased towards certain model characteristics which restricts their broad applicability. In this paper, we empirically study the bias of state-of-the-art (SOTA) zero-shot proxy ZiCo across multiple vision tasks and observe that ZiCo is biased towards thinner and deeper networks, leading to sub-optimal architectures. To solve the problem, we propose a novel bias correction on ZiCo, called ZiCo-BC. Our extensive experiments across various vision tasks (image classification, object detection and semantic segmentation) show that our approach can successfully search for architectures with higher accuracy and significantly lower latency on Samsung Galaxy S10 devices.
翻訳日:2023-09-27 15:05:49 公開日:2023-09-26
# ロボット群における創発的行動の学習

Learning Emergent Behavior in Robot Swarms with NEAT ( http://arxiv.org/abs/2309.14663v1 )

ライセンス: Link先を確認
Pranav Rajbhandari, Donald Sofge(参考訳) ロボット群を研究する際には、個々のエージェントの単純な局所行動から生じる複雑な集団行動が観察される。 しかしながら、望ましい緊急行動を生み出すために個々のポリシーを学ぶというタスクは、依然として挑戦的でほとんど解決されていない問題である。 本稿では,分散ロボット群アルゴリズムを用いて創発的行動を生成する方法を提案する。 動物における創発行動の生物学的進化に着想を得て,個体行動の「集団化」を学習し,望ましい集団行動の近似を行う。 コッペリアシムシミュレータで実施した,ジョージア工科大学の小型自律blimps(gt-mabs)空中ロボットプラットフォームのシミュレーションを用いて実験を行う。 さらに,Anki Vectorロボットのシミュレーションを用いて,様々な動作モードにおけるアルゴリズムの有効性を検証した。 このアルゴリズムは、成功のためにやや複雑なグループ動作を必要とする様々なタスクで評価する。 これらのタスクには、エリアカバレッジタスク、サラウンドターゲットタスク、ウォールクライミングタスクが含まれる。 アルゴリズムを用いて進化した行動と、我々が望む創発的な行動を示すために作成する「設計されたポリシー」を比較します。

When researching robot swarms, many studies observe complex group behavior emerging from the individual agents' simple local actions. However, the task of learning an individual policy to produce a desired emergent behavior remains a challenging and largely unsolved problem. We present a method of training distributed robotic swarm algorithms to produce emergent behavior. Inspired by the biological evolution of emergent behavior in animals, we use an evolutionary algorithm to train a 'population' of individual behaviors to approximate a desired group behavior. We perform experiments using simulations of the Georgia Tech Miniature Autonomous Blimps (GT-MABs) aerial robotics platforms conducted in the CoppeliaSim simulator. Additionally, we test on simulations of Anki Vector robots to display our algorithm's effectiveness on various modes of actuation. We evaluate our algorithm on various tasks where a somewhat complex group behavior is required for success. These tasks include an Area Coverage task, a Surround Target task, and a Wall Climb task. We compare behaviors evolved using our algorithm against 'designed policies', which we create in order to exhibit the emergent behaviors we desire.
翻訳日:2023-09-27 15:05:30 公開日:2023-09-26
# 専門家専門性を考慮したトランフォーマーによる医療相談用ユーザクエリの分類

Tranformer-based classification of user queries for medical consultancy with respect to expert specialisation ( http://arxiv.org/abs/2309.14662v1 )

ライセンス: Link先を確認
Dmitry Lyutkin, Andrey Soloviev, Dmitry Zhukov, Denis Pozdnyakov, Muhammad Shahid Iqbal Malik, Dmitry I. Ignatov(参考訳) デジタル医療の時代には、熟練した医療支援の必要性が高まっている。 本研究は、専門家の専門性を重視した医療相談分野におけるユーザからの問い合わせを分類するための、RuBERTモデルを活用した革新的な戦略を提案する。 トランスフォーマーの能力を利用することで,トレーニング済みのrubertモデルをさまざまなデータセットに微調整することで,クエリと特定の医療専門分野との正確な対応を可能にした。 総合的なデータセットを用いて,テストデータセットとトレーニングデータセットの相互評価および従来の分割によって計算した,f1-scoreが92%以上という,当社のアプローチの優れた性能を実証した。 われわれのアプローチは、心臓科、神経学、皮膚科などの医学領域にまたがる優れた一般化を示している。 この方法論は、ユーザに適切な専門家を誘導し、迅速かつターゲットとした医療アドバイスを提供する。 また、医療システムの効率を高め、実践者の負担を軽減し、患者のケア品質を向上させる。 まとめると、提案する戦略は特定の医療知識の獲得を促進し、デジタル医療分野における迅速な正確なアドバイスを提供する。

The need for skilled medical support is growing in the era of digital healthcare. This research presents an innovative strategy, utilising the RuBERT model, for categorising user inquiries in the field of medical consultation with a focus on expert specialisation. By harnessing the capabilities of transformers, we fine-tuned the pre-trained RuBERT model on a varied dataset, which facilitates precise correspondence between queries and particular medical specialisms. Using a comprehensive dataset, we have demonstrated our approach's superior performance with an F1-score of over 92%, calculated through both cross-validation and the traditional split of test and train datasets. Our approach has shown excellent generalisation across medical domains such as cardiology, neurology and dermatology. This methodology provides practical benefits by directing users to appropriate specialists for prompt and targeted medical advice. It also enhances healthcare system efficiency, reduces practitioner burden, and improves patient care quality. In summary, our suggested strategy facilitates the attainment of specific medical knowledge, offering prompt and precise advice within the digital healthcare field.
翻訳日:2023-09-27 15:05:13 公開日:2023-09-26
# cofii2p: イメージからポイントへのクラウド登録のための粗粒度対応

CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2309.14660v1 )

ライセンス: Link先を確認
Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Fangning Li, Zhen Dong, Bisheng Yang(参考訳) イメージツーポイントクラウド(I2P)登録は、ロボットナビゲーションとモバイルマッピングの分野における基本的なタスクである。 既存のI2P登録は、グローバルアライメントを無視して、ピクセル単位の対応を推定する。 しかし、グローバル制約からの高レベルガイダンスのないI2Pマッチングは、局所最適化に容易に収束する。 そこで本研究では,大域的最適解に対する粗大な対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを提案する。 まず、画像と点雲をシームズエンコーダデコーダネットワークに供給して階層的特徴抽出を行う。 そして、粗大なマッチングモジュールは、特徴を活用し、弾力性のある特徴対応を確立するように設計されている。 特に、粗いマッチングブロックでは、画像と点雲から均一で不均一なグローバル情報をキャプチャするために、新しいI2Pトランスフォーマーモジュールが使用される。 判別ディスクリプタにより、粗いスーパーポイント対スーパーピクセルマッチングペアを推定する。 微細マッチングモジュールでは、スーパーポイント・ツー・スーパーピクセル対応監視を用いて、ポイント・ツー・ピクセルペアを確立する。 最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。 KITTIデータセットで実施された大規模な実験により、CoFiI2Pは相対回転誤差(RRE)が2.25度、相対翻訳誤差(RTE)が0.61mに達することが示された。 その結果, 現状のSOTA法と比較して, RREの14%, RTEの52%が有意に改善した。 実験のデモビデオはhttps://youtu.be/tg2gbrjtuw4で見ることができる。 ソースコードはhttps://github.com/kang-1-2-3/CoFiI2Pで公開される。

Image-to-point cloud (I2P) registration is a fundamental task in the fields of robot navigation and mobile mapping. Existing I2P registration works estimate correspondences at the point-to-pixel level, neglecting the global alignment. However, I2P matching without high-level guidance from global constraints may converge to the local optimum easily. To solve the problem, this paper proposes CoFiI2P, a novel I2P registration network that extracts correspondences in a coarse-to-fine manner for the global optimal solution. First, the image and point cloud are fed into a Siamese encoder-decoder network for hierarchical feature extraction. Then, a coarse-to-fine matching module is designed to exploit features and establish resilient feature correspondences. Specifically, in the coarse matching block, a novel I2P transformer module is employed to capture the homogeneous and heterogeneous global information from image and point cloud. With the discriminate descriptors, coarse super-point-to-super-pixel matching pairs are estimated. In the fine matching module, point-to-pixel pairs are established with the super-point-to-super-pixel correspondence supervision. Finally, based on matching pairs, the transform matrix is estimated with the EPnP-RANSAC algorithm. Extensive experiments conducted on the KITTI dataset have demonstrated that CoFiI2P achieves a relative rotation error (RRE) of 2.25 degrees and a relative translation error (RTE) of 0.61 meters. These results represent a significant improvement of 14% in RRE and 52% in RTE compared to the current state-of-the-art (SOTA) method. The demo video for the experiments is available at https://youtu.be/TG2GBrJTuW4. The source code will be public at https://github.com/kang-1-2-3/CoFiI2P.
翻訳日:2023-09-27 15:04:54 公開日:2023-09-26
# 微分型マルチセンサカルマンフィルタによる自律走行のための確率的3次元多物体協調トラッキング

Probabilistic 3D Multi-Object Cooperative Tracking for Autonomous Driving via Differentiable Multi-Sensor Kalman Filter ( http://arxiv.org/abs/2309.14655v1 )

ライセンス: Link先を確認
Hsu-kuang Chiu, Chien-Yi Wang, Min-Hung Chen, Stephen F. Smith(参考訳) 現状の自動運転車は、知覚タスクを行うために個々のセンサーシステムに依存している。 このようなフレームワークの信頼性は、閉塞やセンサーの故障によって制限される可能性がある。 この問題に対処するために、より最近の研究では、車両間通信(V2V)を用いて他者と認識情報を共有することを提案する。 しかし、ほとんどの関連する研究は協力的発見にのみ焦点を合わせ、未熟な研究分野を協調的に追跡する。 V2V4Realのような最近のデータセットは、3Dマルチオブジェクト協調トラッキングベンチマークを提供する。 しかし,提案手法は主に単一センサkalmanフィルタに基づく追跡アルゴリズムの入力として協調検出結果を用いる。 彼らのアプローチでは、カルマンフィルタに基づくトラッキングアルゴリズムの理論的最適性を利用するために、異なるコネクテッド・オートモービル(CAV)からの異なるセンサの測定の不確かさを適切に見積もることはできない。 本稿では,微分可能なマルチセンサカルマンフィルタを用いた自律走行のための3次元多物体協調トラッキングアルゴリズムを提案する。 提案アルゴリズムは,カルマンフィルタに基づくトラッキング手法の理論的特性をよりよく活用可能な,検出毎に測定の不確かさを推定する。 実験の結果,V2V4Realの最先端手法と比較して,通信コストが0.037倍の追跡精度が17%向上した。

Current state-of-the-art autonomous driving vehicles mainly rely on each individual sensor system to perform perception tasks. Such a framework's reliability could be limited by occlusion or sensor failure. To address this issue, more recent research proposes using vehicle-to-vehicle (V2V) communication to share perception information with others. However, most relevant works focus only on cooperative detection and leave cooperative tracking an underexplored research field. A few recent datasets, such as V2V4Real, provide 3D multi-object cooperative tracking benchmarks. However, their proposed methods mainly use cooperative detection results as input to a standard single-sensor Kalman Filter-based tracking algorithm. In their approach, the measurement uncertainty of different sensors from different connected autonomous vehicles (CAVs) may not be properly estimated to utilize the theoretical optimality property of Kalman Filter-based tracking algorithms. In this paper, we propose a novel 3D multi-object cooperative tracking algorithm for autonomous driving via a differentiable multi-sensor Kalman Filter. Our algorithm learns to estimate measurement uncertainty for each detection that can better utilize the theoretical property of Kalman Filter-based tracking methods. The experiment results show that our algorithm improves the tracking accuracy by 17% with only 0.037x communication costs compared with the state-of-the-art method in V2V4Real.
翻訳日:2023-09-27 15:04:28 公開日:2023-09-26
# 集合メンバシップによる制御ダイナミクスの不確実性セットの学習:非漸近解析

Learning the Uncertainty Sets for Control Dynamics via Set Membership: A Non-Asymptotic Analysis ( http://arxiv.org/abs/2309.14648v1 )

ライセンス: Link先を確認
Yingying Li, Jing Yu, Lauren Conger, Adam Wierman(参考訳) 集合メンバシップ推定は、オンラインのロバスト安定化制御やロバスト適応モデル予測制御など、モデルの不確実性セットに対して堅牢性を必要とする適応/学習ベースの制御アルゴリズムで一般的に使用される。 広く応用されているにもかかわらず、確率的設定における非漸近的推定誤差境界は限定的である。 本稿では, 線形力学系に対する集合メンバシップ推定によって生じる不確実集合の直径の非漸近的境界,すなわち外乱について述べる。 さらに、不確実性セットをセットメンバシップで更新したロバスト適応モデル予測制御に適用する。 我々は,オフライン最適モデル予測コントローラの性能に素早く接近するロバスト適応制御器の性能を,最小二乗推定の信頼領域に基づく制御設計と比較して数値的に示す。

Set-membership estimation is commonly used in adaptive/learning-based control algorithms that require robustness over the model uncertainty sets, e.g., online robustly stabilizing control and robust adaptive model predictive control. Despite having broad applications, non-asymptotic estimation error bounds in the stochastic setting are limited. This paper provides such a non-asymptotic bound on the diameter of the uncertainty sets generated by set membership estimation on linear dynamical systems under bounded, i.i.d. disturbances. Further, this result is applied to robust adaptive model predictive control with uncertainty sets updated by set membership. We numerically demonstrate the performance of the robust adaptive controller, which rapidly approaches the performance of the offline optimal model predictive controller, in comparison with the control design based on least square estimation's confidence regions.
翻訳日:2023-09-27 15:04:07 公開日:2023-09-26
# 自由不連続設計:インターネット遮断の経済効果への適用

Free Discontinuity Design: With an Application to the Economic Effects of Internet Shutdowns ( http://arxiv.org/abs/2309.14630v1 )

ライセンス: Link先を確認
Florian Gunsilius and David Van Dijcke(参考訳) 治療課題の閾値は結果の不連続を生じさせ、因果的洞察を明らかにする。 地理的設定のような多くのコンテキストでは、これらのしきい値が未知で多変量である。 回帰面を滑らかで不連続な部分に分割することで,結果の不連続性を推定する非パラメトリック手法を提案する。 この推定子はムムフォード・シャー函数の凸緩和を使い、同定と収束を確立する。 本研究では,インドにおけるインターネットのシャットダウンによって経済活動が50%以上減少し,これまでの推計を大きく上回り,世界規模のデジタル経済におけるシャットダウンの真のコストに新たな光を当てた。

Thresholds in treatment assignments can produce discontinuities in outcomes, revealing causal insights. In many contexts, like geographic settings, these thresholds are unknown and multivariate. We propose a non-parametric method to estimate the resulting discontinuities by segmenting the regression surface into smooth and discontinuous parts. This estimator uses a convex relaxation of the Mumford-Shah functional, for which we establish identification and convergence. Using our method, we estimate that an internet shutdown in India resulted in a reduction of economic activity by over 50%, greatly surpassing previous estimates and shedding new light on the true cost of such shutdowns for digital economies globally.
翻訳日:2023-09-27 15:03:54 公開日:2023-09-26
# 表面ホッピングシミュレーションにおける運動量跳躍エネルギーの第一原理導出

A First Principles Derivation of Energy Conserving Momentum Jumps in Surface Hopping Simulations ( http://arxiv.org/abs/2309.14627v1 )

ライセンス: Link先を確認
Dorothy Miaoyu Huang and Austin T. Green and Craig C. Martens(参考訳) 1990年にタリーによって提案された最も小さなスイッチ面ホッピング(FSSH)法(J. C Tully, J. Chem. Phys. 93, 1061 (1990))は、その後の多くのバリエーションとともに、現実的なシステムの電子遷移を伴う分子動力学の最も実用的なシミュレーションの基礎となっている。 その人気にもかかわらず、アルゴリズムの厳密な公式な導出はまだ達成されていない。 本稿では、量子軌道表面ホッピング(QTSH[C.C. Martens, J. Phys. Chem. A 123, 1110 (2019)])の観点から、FSSHを特徴付けるエネルギー保存運動量ジャンプを導出する。 局所的非断熱遷移の極限において、単純な数学的および物理的議論はFSSHアルゴリズムを第一原理から導出することができる。 一般的なプロセスでは、QTSH法を特徴付ける量子力は、FSSHの人工運動量再スケーリングに頼ることなく、基礎となる確率面ホッピングの整合性において、アンサンブルレベルで厳密なエネルギー保存を伴う非断熱力学の正確な結果を与える。

The fewest switches surface hopping (FSSH) method proposed by Tully in 1990 [J. C Tully, J. Chem. Phys. 93, 1061 (1990)] -- along with its many later variations -- is basis for most practical simulations of molecular dynamics with electronic transitions in realistic systems. Despite its popularity, a rigorous formal derivation of the algorithm has yet to be achieved. In this paper, we derive the energy conserving momentum jumps characterizing FSSH from the perspective of quantum trajectory surface hopping (QTSH [C. C. Martens, J. Phys. Chem. A 123, 1110 (2019)]. In the limit of localized nonadiabatic transitions, simple mathematical and physical arguments allow the FSSH algorithm to be derived from first principles. For general processes, the quantum forces characterizing the QTSH method provides accurate results for nonadiabatic dynamics with rigorous energy conservation at the ensemble level within the consistency of the underlying stochastic surface hopping without resorting to the artificial momentum rescaling of FSSH.
翻訳日:2023-09-27 15:03:43 公開日:2023-09-26
# 抽象概念のためのテキスト・画像生成

Text-to-Image Generation for Abstract Concepts ( http://arxiv.org/abs/2309.14623v1 )

ライセンス: Link先を確認
Jiayi Liao, Xu Chen, Qiang Fu, Lun Du, Xiangnan He, Xiang Wang, Shi Han, Dongmei Zhang(参考訳) 近年、自然言語処理やコンピュータビジョンなど、様々な領域で大規模なモデルが大幅に進歩し、具体的な概念の表現が容易になった。 通常、物理的オブジェクトと直接関連づけられる具体的な概念とは異なり、自然言語による抽象概念の表現にはかなりの労力がかかり、複雑な意味論と意味論から生じる。 別のアプローチとして、画像を利用して豊かな視覚情報を補足として伝える方法がある。 それでも、既存のテキスト・トゥ・イメージ(T2I)モデルは、具体的物理オブジェクトで主に訓練されており、抽象概念の視覚化に失敗する傾向がある。 芸術的創造において重要な要素,意図,対象,形態を識別する3層アート理論に着想を得て,抽象概念のためのテキスト・画像生成の枠組みを提案する。 抽象概念は曖昧さを避けるために詳細な定義を持つ明確な意図に明確化される。 LLMはそれを意味的関連のある物理的オブジェクトに変換し、概念に依存したフォームはLLM抽出されたフォームパターンセットから検索される。 これら3つの側面からの情報は、LSMを介してT2Iモデルのプロンプトを生成するために統合される。 ヒューマンアセスメントによる評価結果と新たにデザインしたメートル法概念スコアは,抽象概念を十分に表現できる画像作成における我々のフレームワークの有効性を示す。

Recent years have witnessed the substantial progress of large-scale models across various domains, such as natural language processing and computer vision, facilitating the expression of concrete concepts. Unlike concrete concepts that are usually directly associated with physical objects, expressing abstract concepts through natural language requires considerable effort, which results from their intricate semantics and connotations. An alternative approach is to leverage images to convey rich visual information as a supplement. Nevertheless, existing Text-to-Image (T2I) models are primarily trained on concrete physical objects and tend to fail to visualize abstract concepts. Inspired by the three-layer artwork theory that identifies critical factors, intent, object and form during artistic creation, we propose a framework of Text-to-Image generation for Abstract Concepts (TIAC). The abstract concept is clarified into a clear intent with a detailed definition to avoid ambiguity. LLMs then transform it into semantic-related physical objects, and the concept-dependent form is retrieved from an LLM-extracted form pattern set. Information from these three aspects will be integrated to generate prompts for T2I models via LLM. Evaluation results from human assessments and our newly designed metric concept score demonstrate the effectiveness of our framework in creating images that can sufficiently express abstract concepts.
翻訳日:2023-09-27 15:03:21 公開日:2023-09-26
# クビット駆動相歪みのその場評価

In-situ characterization of qubit drive-phase distortions ( http://arxiv.org/abs/2309.14703v1 )

ライセンス: Link先を確認
M. F. Gely, J. M. Litarowicz, A. D. Leu and D. M. Lucas(参考訳) 量子ゲートにおける誤差の低減は量子コンピュータの開発に不可欠である。 そのため、制御信号の歪みを識別する必要があるが、従来のツールでは、システムの一部が高真空、低温、顕微鏡下にある場合、必ずしも適用できない。 本稿では, クビット自体をプローブとして, 振幅依存性の位相変化を検出し, 補償する手法を示す。 この手法はマイクロ波駆動で捕捉されたイオン量子ビットを用いて実装され、位相歪みを補正することで1量子ビットのゲートエラーが3倍改善され、クリフォードゲート当たり1.6(4)\times 10^{-6}$エラーでベンチマークされた最先端のパフォーマンスを達成する。

Reducing errors in quantum gates is critical to the development of quantum computers. To do so, any distortions in the control signals should be identified, however, conventional tools are not always applicable when part of the system is under high vacuum, cryogenic, or microscopic. Here, we demonstrate a method to detect and compensate for amplitude-dependent phase changes, using the qubit itself as a probe. The technique is implemented using a microwave-driven trapped ion qubit, where correcting phase distortions leads to a three-fold improvement in single-qubit gate error, to attain state-of-the-art performance benchmarked at $1.6(4)\times 10^{-6}$ error per Clifford gate.
翻訳日:2023-09-27 14:57:26 公開日:2023-09-26
# 逆移動性向上のための構造不変変換

Structure Invariant Transformation for better Adversarial Transferability ( http://arxiv.org/abs/2309.14700v1 )

ライセンス: Link先を確認
Xiaosen Wang, Zeliang Zhang, Jianping Zhang(参考訳) 敵の例に対するディープニューラルネットワーク(DNN)の深刻な脆弱性を考えると、セキュリティに敏感なアプリケーションにおけるDNNの欠陥を特定するために、効果的な敵攻撃が必要である。 一般的なブラックボックス攻撃の1つとして、既存の転送ベースの攻撃はホワイトボックス攻撃と同等の性能を達成できない。 これらのうち、入力変換に基づく攻撃は転送性の向上に顕著な効果を示している。 本研究では,既存の入力変換に基づく攻撃が入力画像をグローバルに変換し,変換画像の多様性が限定されることを示す。 より多様な変換された画像により、転送性が向上すると仮定する。 そこで,画像の構造を保ちながら,入力画像に様々な変換を局所的に適用し,その多様性を向上させる方法について検討する。 そこで本研究では、各画像ブロックにランダムな画像変換を適用して、勾配計算のための多様な画像セットを作成する、新たな入力変換ベースアタックであるStructure Invariant Attack(SIA)を提案する。 標準のimagenetデータセットに関する広範囲な実験により、siaはcnnおよびtransformerベースのモデルによる既存のsota入力変換に基づく攻撃よりもはるかに優れた転送性を示し、その汎用性と転送性の向上の優位性を示している。 コードはhttps://github.com/xiaosen-wang/SITで入手できる。

Given the severe vulnerability of Deep Neural Networks (DNNs) against adversarial examples, there is an urgent need for an effective adversarial attack to identify the deficiencies of DNNs in security-sensitive applications. As one of the prevalent black-box adversarial attacks, the existing transfer-based attacks still cannot achieve comparable performance with the white-box attacks. Among these, input transformation based attacks have shown remarkable effectiveness in boosting transferability. In this work, we find that the existing input transformation based attacks transform the input image globally, resulting in limited diversity of the transformed images. We postulate that the more diverse transformed images result in better transferability. Thus, we investigate how to locally apply various transformations onto the input image to improve such diversity while preserving the structure of image. To this end, we propose a novel input transformation based attack, called Structure Invariant Attack (SIA), which applies a random image transformation onto each image block to craft a set of diverse images for gradient calculation. Extensive experiments on the standard ImageNet dataset demonstrate that SIA exhibits much better transferability than the existing SOTA input transformation based attacks on CNN-based and transformer-based models, showing its generality and superiority in boosting transferability. Code is available at https://github.com/xiaosen-wang/SIT.
翻訳日:2023-09-27 14:57:11 公開日:2023-09-26
# 2次リカレントニューラルネットワークの計算複雑性と形式的階層性について

On the Computational Complexity and Formal Hierarchy of Second Order Recurrent Neural Networks ( http://arxiv.org/abs/2309.14691v1 )

ライセンス: Link先を確認
Ankur Mali and Alexander Ororbia and Daniel Kifer and Lee Giles(参考訳) 再発と自己注意を伴う人工ニューラルネットワーク(ANN)はチューリング完全(TC)であることが示されている。 しかし、既存の研究により、これらのアンはtc文法を認識するのに複数のターンまたはアンバウンドの計算時間を必要とすることが示されている。 しかし、固定または境界精度のニューロンや時間といった制約の下では、メモリを持たないANNは文脈自由言語を認識できない。 本研究では,2-次リカレントネットワーク(2-次リカレントネットワーク(2-d}$ RNN)の理論基盤を拡張し,有界時間でチューリング完全である2-次$ RNNのクラスが存在することを証明する。 このモデルは遷移テーブルを再帰的な重みに直接エンコードすることができ、有界時間計算を可能にし、設計によって解釈可能である。 また, 2 次 RNN がメモリなしで, 境界重みと時間制約の下で, バニラ RNN やゲートリカレントユニットなどの現代モデルより優れた正規文法認識性能を示した。 本稿では,2次RNNが正規文法の任意のクラスを認識するために必要なニューロンの最大数について,上限および安定性解析を行う。 トミタ文法に関する広範な実験は,計算効率の高いrnnの作成におけるテンソル接続の重要性を示すものである。 最後に、RNNが抽出によって解釈可能であることを示し、一階RNNと比較して高い成功率のステートマシンを抽出できることを示す。 我々の結果は、RNNの理論的基盤を拡張し、将来の説明可能なAI研究のための有望な道を提供する。

Artificial neural networks (ANNs) with recurrence and self-attention have been shown to be Turing-complete (TC). However, existing work has shown that these ANNs require multiple turns or unbounded computation time, even with unbounded precision in weights, in order to recognize TC grammars. However, under constraints such as fixed or bounded precision neurons and time, ANNs without memory are shown to struggle to recognize even context-free languages. In this work, we extend the theoretical foundation for the $2^{nd}$-order recurrent network ($2^{nd}$ RNN) and prove there exists a class of a $2^{nd}$ RNN that is Turing-complete with bounded time. This model is capable of directly encoding a transition table into its recurrent weights, enabling bounded time computation and is interpretable by design. We also demonstrate that $2$nd order RNNs, without memory, under bounded weights and time constraints, outperform modern-day models such as vanilla RNNs and gated recurrent units in recognizing regular grammars. We provide an upper bound and a stability analysis on the maximum number of neurons required by $2$nd order RNNs to recognize any class of regular grammar. Extensive experiments on the Tomita grammars support our findings, demonstrating the importance of tensor connections in crafting computationally efficient RNNs. Finally, we show $2^{nd}$ order RNNs are also interpretable by extraction and can extract state machines with higher success rates as compared to first-order RNNs. Our results extend the theoretical foundations of RNNs and offer promising avenues for future explainable AI research.
翻訳日:2023-09-27 14:56:48 公開日:2023-09-26
# DriveSceneGen:スクラッチから多様なリアルな運転シナリオを生成する

DriveSceneGen: Generating Diverse and Realistic Driving Scenarios from Scratch ( http://arxiv.org/abs/2309.14685v1 )

ライセンス: Link先を確認
Shuo Sun, Zekai Gu, Tianchen Sun, Jiawei Sun, Chengran Yuan, Yuhang Han, Dongen Li, Marcelo H. Ang Jr(参考訳) 現実的で多様な交通シナリオが自動運転システムの開発と検証に不可欠である。 しかし、データ収集プロセスの多くの困難と集中的なアノテーションに依存するため、実世界のデータセットはデータ需要の増加をサポートするのに十分な量と多様性を欠いている。 この研究は、実世界の運転データセットから学習し、スクラッチから全動的運転シナリオを生成するデータ駆動駆動駆動シナリオ生成メソッドであるDriveSceneGenを紹介する。 DriveSceneGenは、実世界のデータ配信と高い忠実度と多様性を備えた新しい駆動シナリオを生成することができる。 5k生成シナリオの実験結果は、実世界のデータセットと比較して、生成品質、多様性、スケーラビリティを強調している。 私たちの知る限り、DriveSceneGenは、静的マップ要素と動的トラフィック参加者の両方をスクラッチから含む新しい駆動シナリオを生成する最初の方法です。

Realistic and diverse traffic scenarios in large quantities are crucial for the development and validation of autonomous driving systems. However, owing to numerous difficulties in the data collection process and the reliance on intensive annotations, real-world datasets lack sufficient quantity and diversity to support the increasing demand for data. This work introduces DriveSceneGen, a data-driven driving scenario generation method that learns from the real-world driving dataset and generates entire dynamic driving scenarios from scratch. DriveSceneGen is able to generate novel driving scenarios that align with real-world data distributions with high fidelity and diversity. Experimental results on 5k generated scenarios highlight the generation quality, diversity, and scalability compared to real-world datasets. To the best of our knowledge, DriveSceneGen is the first method that generates novel driving scenarios involving both static map elements and dynamic traffic participants from scratch.
翻訳日:2023-09-27 14:56:19 公開日:2023-09-26
# Transformerを用いた簡単なテキスト・ビデオモデル

A Simple Text to Video Model via Transformer ( http://arxiv.org/abs/2309.14683v1 )

ライセンス: Link先を確認
Gang Chen(参考訳) 本稿では,トランスフォーマーに基づくビデオモデルに対する汎用的でシンプルなテキストを提案する。 テキストとビデオの両方がシーケンシャルなデータであるため、テキストとイメージの両方を同じ隠れ空間にエンコードし、さらにトランスフォーマティブに送られて時間的一貫性を捉え、デコーダでテキストまたは画像を生成する。 長いシーケンスで画像信号が弱くなることを考慮し、U-Netを導入し、そのノイズバージョンから画像を再構成する。 具体的には、長いシーケンスで元の画像にノイズレベルを増加させ、次にu-netから$down$モジュールを使用してノイズ画像をエンコードします。 また、ビデオ内の生成された画像ペア間の動きを促進する制約も追加します。 GPT2を使用して、UCF101データセット上でアプローチをテストし、有望なビデオを生成することができることを示す。

We present a general and simple text to video model based on Transformer. Since both text and video are sequential data, we encode both texts and images into the same hidden space, which are further fed into Transformer to capture the temporal consistency and then decoder to generate either text or images. Considering the image signal may become weak in the long sequence, we introduce the U-Net to reconstruct image from its noised version. Specifically, we increase the noise level to the original image in the long sequence, then use the $down$ module from U-Net to encode noised images, which are further input to transformer to predict next clear images. We also add a constraint to promote motion between any generated image pair in the video. We use GPT2 and test our approach on UCF101 dataset and show it can generate promising videos.
翻訳日:2023-09-27 14:56:05 公開日:2023-09-26
# コンテキスト内学習に人間生成のデモンストレーションは必要か?

Are Human-generated Demonstrations Necessary for In-context Learning? ( http://arxiv.org/abs/2309.14681v1 )

ライセンス: Link先を確認
Rui Li, Guoyin Wang, Jiwei Li(参考訳) 大規模言語モデル(llm)の有望な少数ショット能力にもかかわらず、インコンテキスト学習(icl)の標準パラダイムは、選択されたデモンストレーションに対する感受性の欠点と、これらのデモを生成するための複雑さに苦しんでいる。 本稿では,iclに人為的なデモンストレーションが必要かどうかという根本的な疑問を提起する。 そこで本研究では,人間による実演を含まない自意識促進戦略 (sec) を提案する。 SECのキーポイントは、手作りの例をICLのデモとして使用する代わりに、SECは、最終出力がどの部分で生成されるかに基づいて、まず自身のデモを作成するようにLLMに求めていることだ。 secは柔軟なフレームワークであり、vailla iclとchain-of-thought(cot)の両方に対応できるが、より簡単である。 算術推論、常識推論、マルチタスク言語理解、コード生成ベンチマークにおける広範な実験は、手作りのデモンストレーションを必要としないSECがゼロショット学習戦略を著しく上回り、手作りのデモでICLに匹敵する結果を達成していることを示している。 これは、多くのタスクにおいて、現代のLLMは意思決定の能力にのみ依存し、外部のトレーニングデータの必要性を取り除くのに十分なレベルの能力を持っていることを示している。 コードはhttps://github.com/ruili33/secで入手できる。

Despite the promising few-shot ability of large language models (LLMs), the standard paradigm of In-context Learning (ICL) suffers the disadvantages of susceptibility to selected demonstrations and the intricacy to generate these demonstrations. In this paper, we raise the fundamental question that whether human-generated demonstrations are necessary for ICL. To answer this question, we propose self-contemplation prompting strategy (SEC), a paradigm free from human-crafted demonstrations. The key point of SEC is that, instead of using hand-crafted examples as demonstrations in ICL, SEC asks LLMs to first create demonstrations on their own, based on which the final output is generated. SEC is a flexible framework and can be adapted to both the vanilla ICL and the chain-of-thought (CoT), but with greater ease: as the manual-generation process of both examples and rationale can be saved. Extensive experiments in arithmetic reasoning, commonsense reasoning, multi-task language understanding, and code generation benchmarks, show that SEC, which does not require hand-crafted demonstrations, significantly outperforms the zero-shot learning strategy, and achieves comparable results to ICL with hand-crafted demonstrations. This demonstrates that, for many tasks, contemporary LLMs possess a sufficient level of competence to exclusively depend on their own capacity for decision making, removing the need for external training data. Code is available at https://github.com/ruili33/SEC.
翻訳日:2023-09-27 14:55:50 公開日:2023-09-26
# XGV-BERT:効率的なソフトウェア脆弱性検出のための文脈言語モデルとグラフニューラルネットワークの活用

XGV-BERT: Leveraging Contextualized Language Model and Graph Neural Network for Efficient Software Vulnerability Detection ( http://arxiv.org/abs/2309.14677v1 )

ライセンス: Link先を確認
Vu Le Anh Quan, Chau Thuan Phat, Kiet Van Nguyen, Phan The Duy, Van-Hau Pham(参考訳) さまざまな分野におけるディープラーニング(DL)の進歩により、データ駆動アプローチによるソフトウェア脆弱性を明らかにする試みが数多く行われている。 それにもかかわらず、既存の作品には、非系列的な意味的特徴とソースコード属性の文脈的関係を保持できる効果的な表現が欠けている。 そこで本研究では,事前学習したCodeBERTモデルとGCN(Graph Neural Network)を組み合わせたソフトウェア脆弱性検出フレームワークであるXGV-BERTを提案する。 XGV-BERT内でCodeBERTとGCNモジュールを共同でトレーニングすることにより、大規模な事前学習、膨大な生データの利用、グラフ畳み込みによるデータトレーニングのための学習表現による伝達学習の利点を活用することができる。 その結果,xgv-bert法はvuldeepecker法やsysevr法に比べて脆弱性検出精度が著しく向上した。 VulDeePeckerデータセットでは、XGV-BERTは97.5%の印象的なF1スコアを達成した。 また、SySeVRデータセットでは、XGV-BERTは95.5%のF1スコアを獲得し、SySeVRの結果を83.5%のF1スコアで上回っている。

With the advancement of deep learning (DL) in various fields, there are many attempts to reveal software vulnerabilities by data-driven approach. Nonetheless, such existing works lack the effective representation that can retain the non-sequential semantic characteristics and contextual relationship of source code attributes. Hence, in this work, we propose XGV-BERT, a framework that combines the pre-trained CodeBERT model and Graph Neural Network (GCN) to detect software vulnerabilities. By jointly training the CodeBERT and GCN modules within XGV-BERT, the proposed model leverages the advantages of large-scale pre-training, harnessing vast raw data, and transfer learning by learning representations for training data through graph convolution. The research results demonstrate that the XGV-BERT method significantly improves vulnerability detection accuracy compared to two existing methods such as VulDeePecker and SySeVR. For the VulDeePecker dataset, XGV-BERT achieves an impressive F1-score of 97.5%, significantly outperforming VulDeePecker, which achieved an F1-score of 78.3%. Again, with the SySeVR dataset, XGV-BERT achieves an F1-score of 95.5%, surpassing the results of SySeVR with an F1-score of 83.5%.
翻訳日:2023-09-27 14:55:21 公開日:2023-09-26
# FedCompass: 計算パワーアウェアスケジューリングを用いた異種クライアントデバイス上での効率的なクロスサイロフェデレーション学習

FedCompass: Efficient Cross-Silo Federated Learning on Heterogeneous Client Devices using a Computing Power Aware Scheduler ( http://arxiv.org/abs/2309.14675v1 )

ライセンス: Link先を確認
Zilinghan Li, Pranshu Chaturvedi, Shilan He, Han Chen, Gagandeep Singh, Volodymyr Kindratenko, E. A. Huerta, Kibaek Kim, Ravi Madduri(参考訳) クロスサイロ連合学習(cross-silo federated learning)は、中央集権的なデータ施設を持たない科学プロジェクトだけでなく、ローカルデータセットのプライバシを損なうことなく、堅牢で一般化されたaiモデルを協調的にトレーニングする、有望なソリューションを提供する。 それでも、異なるクライアント間のコンピューティングリソースの相違(デバイス不均一性)により、同期フェデレーション学習アルゴリズムは、ストラグラークライアントを待つ際に、劣化効率に悩まされる。 同様に、非同期フェデレート学習アルゴリズムは、古いローカルモデルとクライアントのドリフトによる非同一かつ独立に分散された(非IID)ヘテロジニアスデータセット上で、収束率と最終モデル精度の劣化を経験する。 本稿では,異種クライアントとデータとのクロスサイロフェデレーション学習におけるこれらの制限に対処するために,サーバ側では計算パワー認識スケジューラを備えた,革新的な半同期フェデレーション学習アルゴリズムfeedcompassを提案し,各クライアントの計算能力の知識を用いて,異なるクライアントに対して様々なトレーニングタスクを適応的に割り当てる。 FedCompassは、クライアントから複数のローカルトレーニングされたモデルがアグリゲーションのグループとしてほぼ同時に受信されることを保証する。 同時に、全体的なトレーニングプロセスは非同期のままであり、ストラグラークライアントからの待ち時間が長くなる。 非IID異種分散データセットを用いて、FedCompassは他の非同期アルゴリズムよりも高速な収束と高精度を実現する一方で、異種クライアント上でフェデレート学習を行う場合、同期アルゴリズムよりも効率的であることを示す。

Cross-silo federated learning offers a promising solution to collaboratively train robust and generalized AI models without compromising the privacy of local datasets, e.g., healthcare, financial, as well as scientific projects that lack a centralized data facility. Nonetheless, because of the disparity of computing resources among different clients (i.e., device heterogeneity), synchronous federated learning algorithms suffer from degraded efficiency when waiting for straggler clients. Similarly, asynchronous federated learning algorithms experience degradation in the convergence rate and final model accuracy on non-identically and independently distributed (non-IID) heterogeneous datasets due to stale local models and client drift. To address these limitations in cross-silo federated learning with heterogeneous clients and data, we propose FedCompass, an innovative semi-asynchronous federated learning algorithm with a computing power aware scheduler on the server side, which adaptively assigns varying amounts of training tasks to different clients using the knowledge of the computing power of individual clients. FedCompass ensures that multiple locally trained models from clients are received almost simultaneously as a group for aggregation, effectively reducing the staleness of local models. At the same time, the overall training process remains asynchronous, eliminating prolonged waiting periods from straggler clients. Using diverse non-IID heterogeneous distributed datasets, we demonstrate that FedCompass achieves faster convergence and higher accuracy than other asynchronous algorithms while remaining more efficient than synchronous algorithms when performing federated learning on heterogeneous clients.
翻訳日:2023-09-27 14:54:56 公開日:2023-09-26
# UPTSTを用いたHerpanginaデータを用いた手指・手指疾患の入院率予測

Leveraging Herpangina Data to Enhance Hospital-level Prediction of Hand-Foot-and-Mouth Disease Admissions Using UPTST ( http://arxiv.org/abs/2309.14674v1 )

ライセンス: Link先を確認
Guoqi Yu, Hailun Yao, Huan Zheng and Ximing Xu(参考訳) ハンドフット・アンド・マウス病(HFMD)のアウトブレイクは重篤な死亡率と重篤な症例に関連している。 したがって,小児HFMD患者の日常入院の正確な予測は,発症の予知と院内感染の軽減に不可欠である。 このようなニーズに対処するために,HFMDと密接に相関した疾患であるHerpanginaからの洞察を活かしたパッチング戦略と共同予測戦略を活用した,U-net形状のトランスフォーマーモデルを提案する。 このモデルはまた、再構成損失を補助損失として導入することで表現学習を統合する。 その結果,U-net Patching Time Series Transformer (UPTST) モデルは病院レベルでのHFMDの長大・短大な予測精度において既存手法よりも優れていた。 さらに, 探索的拡張実験により, モデルの能力は感染症の予測を超えて拡張され, 様々な領域においてより広い適用性が示唆された。

Outbreaks of hand-foot-and-mouth disease(HFMD) have been associated with significant morbidity and, in severe cases, mortality. Accurate forecasting of daily admissions of pediatric HFMD patients is therefore crucial for aiding the hospital in preparing for potential outbreaks and mitigating nosocomial transmissions. To address this pressing need, we propose a novel transformer-based model with a U-net shape, utilizing the patching strategy and the joint prediction strategy that capitalizes on insights from herpangina, a disease closely correlated with HFMD. This model also integrates representation learning by introducing reconstruction loss as an auxiliary loss. The results show that our U-net Patching Time Series Transformer (UPTST) model outperforms existing approaches in both long- and short-arm prediction accuracy of HFMD at hospital-level. Furthermore, the exploratory extension experiments show that the model's capabilities extend beyond prediction of infectious disease, suggesting broader applicability in various domains.
翻訳日:2023-09-27 14:54:25 公開日:2023-09-26
# ALEX: ノイズラベルによる効果的なグラフ転送学習を目指して

ALEX: Towards Effective Graph Transfer Learning with Noisy Labels ( http://arxiv.org/abs/2309.14673v1 )

ライセンス: Link先を確認
Jingyang Yuan, Xiao Luo, Yifang Qin, Zhengyang Mao, Wei Ju, Ming Zhang(参考訳) グラフニューラルネットワーク(GNN)は、幅広いグラフ機械学習タスクにおける例外的なパフォーマンスのため、かなりの関心を集めている。 それでも、GNNベースのアプローチの大部分は、十分に注釈付きベンチマークデータセットを使用して検討されており、現実のグラフ学習シナリオでは、準最適パフォーマンスが得られる。 このギャップを埋めるために,ラベル雑音の存在下でのグラフ転送学習の問題について検討し,雑音源グラフからラベルなし対象グラフへ知識を伝達する。 本稿では、この課題に対処するため、バランスアライメントと情報認識検査(ALEX)と呼ばれる新しい手法を導入する。 ALEXはまず特異値分解を用いて、重要な構造的意味論を持つ異なるビューを生成し、グラフのコントラスト学習を用いた堅牢なノード表現を提供する。 ラベルシフトとドメインシフトの両方を緩和するため、バランスの取れたラベル分布を持つサブグラフを構築するための事前分布を推定する。 この基盤に基づいて、複雑なマルチモーダル分布の暗黙の領域アライメントのために、逆領域判別器が組み込まれている。 さらに、ノード表現を異なる空間に投影し、投影された特徴とラベル間の相互情報を最適化する。 その後、類似性構造の不整合を評価し、潜在的な過度適合を伴うノイズサンプルを同定する。 様々なベンチマークデータセットに関する包括的な実験は、異なる設定で提案されたALEXの優れた優位性を裏付けるものである。

Graph Neural Networks (GNNs) have garnered considerable interest due to their exceptional performance in a wide range of graph machine learning tasks. Nevertheless, the majority of GNN-based approaches have been examined using well-annotated benchmark datasets, leading to suboptimal performance in real-world graph learning scenarios. To bridge this gap, the present paper investigates the problem of graph transfer learning in the presence of label noise, which transfers knowledge from a noisy source graph to an unlabeled target graph. We introduce a novel technique termed Balance Alignment and Information-aware Examination (ALEX) to address this challenge. ALEX first employs singular value decomposition to generate different views with crucial structural semantics, which help provide robust node representations using graph contrastive learning. To mitigate both label shift and domain shift, we estimate a prior distribution to build subgraphs with balanced label distributions. Building on this foundation, an adversarial domain discriminator is incorporated for the implicit domain alignment of complex multi-modal distributions. Furthermore, we project node representations into a different space, optimizing the mutual information between the projected features and labels. Subsequently, the inconsistency of similarity structures is evaluated to identify noisy samples with potential overfitting. Comprehensive experiments on various benchmark datasets substantiate the outstanding superiority of the proposed ALEX in different settings.
翻訳日:2023-09-27 14:54:07 公開日:2023-09-26
# 異なる検索モデルとQAモデルを用いたAILQA(Indian Legal Question Answering)における人工知能の比較分析

Comparative Analysis of Artificial Intelligence for Indian Legal Question Answering (AILQA) Using Different Retrieval and QA Models ( http://arxiv.org/abs/2309.14735v1 )

ライセンス: Link先を確認
Shubham Kumar Nigam, Shubham Kumar Mishra, Ayush Kumar Mishra, Noel Shallum and Arnab Bhattacharya(参考訳) 法的質問回答(QA)システムは、法律専門家が訴訟法文書と相互作用する方法に革命をもたらす可能性がある。 本稿では,インド法制度における法的質問に答えるための既存の人工知能モデルの比較分析,特にインドの法的質問応答(ailqa)に着目し,現在利用可能なさまざまな検索アルゴリズムとqaアルゴリズムの有効性について検討する。 我々は,OpenAI GPTモデルをクエリプロンプトとともにベンチマークとして利用することにより,既存のAILQAシステムがユーザからの自然言語クエリを自動的に解釈し,高精度な応答を生成することができることを示す。 この研究は特に、複雑さと資源の制約のために独自の課題を持つインド刑事司法領域のアプリケーションに焦点を当てている。 これらのモデルの性能を厳密に評価するために、経験的評価は法律専門家からのフィードバックによって補完され、インドの法的質問応答の文脈におけるaiの能力と限界に関する多面的な見解を提供する。

Legal question-answering (QA) systems have the potential to revolutionize the way legal professionals interact with case law documents. This paper conducts a comparative analysis of existing artificial intelligence models for their utility in answering legal questions within the Indian legal system, specifically focusing on Indian Legal Question Answering (AILQA) and our study investigates the efficacy of different retrieval and QA algorithms currently available. Utilizing the OpenAI GPT model as a benchmark, along with query prompts, our investigation shows that existing AILQA systems can automatically interpret natural language queries from users and generate highly accurate responses. This research is particularly focused on applications within the Indian criminal justice domain, which has its own set of challenges due to its complexity and resource constraints. In order to rigorously assess the performance of these models, empirical evaluations are complemented by feedback from practicing legal professionals, thereby offering a multifaceted view on the capabilities and limitations of AI in the context of Indian legal question-answering.
翻訳日:2023-09-27 14:45:32 公開日:2023-09-26
# 相対エントロピー正規化を用いた多エージェント深層強化学習制御

Effective Multi-Agent Deep Reinforcement Learning Control with Relative Entropy Regularization ( http://arxiv.org/abs/2309.14727v1 )

ライセンス: Link先を確認
Chenyang Miao, Yunduan Cui, Huiyun Li, Xinyu Wu(参考訳) 本稿では,MARL(Multi-Adnt Reinforcement Learning)アプローチであるMACDPP(Multi-Agent Continuous Dynamic Policy Gradient)を提案する。 分散実行(ctde)フレームワークとアクタ-クリティック(ac)構造による集中トレーニングに相対エントロピー正規化を導入することで、複数のエージェントのポリシー更新の不整合を軽減する。 マルチエージェント協調や競争タスク、OpenAIベンチマークやロボットアーム操作などの従来の制御タスクによって評価され、MACDPPは、関連するマルチエージェントと広く実装されているシグナルエージェントベースラインの両方と比較して、学習能力とサンプル効率において大きな優位性を示す。

In this paper, a novel Multi-agent Reinforcement Learning (MARL) approach, Multi-Agent Continuous Dynamic Policy Gradient (MACDPP) was proposed to tackle the issues of limited capability and sample efficiency in various scenarios controlled by multiple agents. It alleviates the inconsistency of multiple agents' policy updates by introducing the relative entropy regularization to the Centralized Training with Decentralized Execution (CTDE) framework with the Actor-Critic (AC) structure. Evaluated by multi-agent cooperation and competition tasks and traditional control tasks including OpenAI benchmarks and robot arm manipulation, MACDPP demonstrates significant superiority in learning capability and sample efficiency compared with both related multi-agent and widely implemented signal-agent baselines and therefore expands the potential of MARL in effectively learning challenging control scenarios.
翻訳日:2023-09-27 14:45:13 公開日:2023-09-26
# PLMM:モバイルデバイス上の個人用大規模モデル

PLMM: Personal Large Models on Mobile Devices ( http://arxiv.org/abs/2309.14726v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 本稿では,フェデレーション学習に触発されて,従来の大規模言語モデルから抽出されるが,教育背景や趣味といった地域ユーザの個人情報に適応した個人的大規模モデルを提案する。 大規模な言語モデルは、個人レベル、専門家レベル、伝統的なレベルという3つのレベルに分類します。 個人レベルのモデルは、ユーザの個人情報に適応する。 ユーザの入力を暗号化し、プライバシを保護する。 エキスパートレベルモデルは財務、it、芸術といった特定の知識を融合することに焦点を当てている。 伝統的なモデルは、普遍的な知識発見とエキスパートモデルのアップグレードに焦点を当てている。 このような分類では、個人モデルはユーザーと直接対話する。 システム全体では、パーソナルモデルはユーザの(暗号化された)個人情報を持っている。 さらに、そのようなモデルはパーソナルコンピュータやモバイルデバイスで実行できるほど小さくなければならない。 最後に、より優れたユーザエクスペリエンスと高品質な結果を得るために、リアルタイムに応答する必要がある。 提案した個人用大規模モデルは、言語や視覚タスクといった幅広い応用に適用できる。

Inspired by Federated Learning, in this paper, we propose personal large models that are distilled from traditional large language models but more adaptive to local users' personal information such as education background and hobbies. We classify the large language models into three levels: the personal level, expert level and traditional level. The personal level models are adaptive to users' personal information. They encrypt the users' input and protect their privacy. The expert level models focus on merging specific knowledge such as finance, IT and art. The traditional models focus on the universal knowledge discovery and upgrading the expert models. In such classifications, the personal models directly interact with the user. For the whole system, the personal models have users' (encrypted) personal information. Moreover, such models must be small enough to be performed on personal computers or mobile devices. Finally, they also have to response in real-time for better user experience and produce high quality results. The proposed personal large models can be applied in a wide range of applications such as language and vision tasks.
翻訳日:2023-09-27 14:44:56 公開日:2023-09-26
# 貯水池スクイーズにおける駆動輸送の幾何学性

Geometricities of driven transport in presence of reservoir squeezing ( http://arxiv.org/abs/2309.14723v1 )

ライセンス: Link先を確認
Javed Akhtar, Jimli Goswami, Himangshu Prabal Goswami(参考訳) 2つの貯水池に結合したベアサイトにおいて, 2つの貯水池を絞り込み, 2つの貯水池を駆動する2つの同時プロセスが存在する場合, ボーソン交換の統計を探索する。 スクイージングパラメータは定常流束と雑音の性質を変えるために幾何学的位相的効果や幾何学的性質と競合する。 偶数(陰)の幾何累積と全最小エントロピーは、左右のスクイーズパラメータの交換に関して対称(反対称)であることが分かる。 スクイーズパラメータの強度を増大させると、幾何性の喪失が観察される。 最大スキューズ法の下では、位相差駆動プロトコルが存在する場合でも標準定常変動定理を回復することができる。 最近提案された幾何学的熱力学的不確実性原理は頑健である。

In a bare site coupled to two reservoirs, we explore the statistics of boson exchange in the presence of two simultaneous processes: squeezing the two reservoirs and driving the two reservoirs. The squeezing parameters compete with the geometric phaselike effect or geometricity to alter the nature of the steadystate flux and noise. The even (odd) geometric cumulants and the total minimum entropy are found to be symmetric (antisymmetric) with respect to exchanging the left and right squeezing parameters. Upon increasing the strength of the squeezing parameters, loss of geometricity is observed. Under maximum squeezing, one can recover a standard steadystate fluctuation theorem even in the presence of phase different driving protocol. A recently proposed modified geometric thermodynamic uncertainty principle is found to be robust.
翻訳日:2023-09-27 14:44:43 公開日:2023-09-26
# 逐次識別戦略の統一モデルに基づく量子鍵分布の完全セキュリティ解析

Complete security analysis of {quantum key distribution} based on unified model of sequential discrimination strategy ( http://arxiv.org/abs/2309.14719v1 )

ライセンス: Link先を確認
Min Namkung and Younghun Kwon(参考訳) マルチパーティのための量子鍵分布は、研究の必須課題の一つである。 特に、絡み合った状態を使わずに、マルチパーティのための量子鍵分布を実行することが重要な研究領域である。 この目的のために,マルチパーティ型量子通信とマルチレシーバの量子鍵分布を提供するシーケンシャルな識別法が最近導入された。 しかし、量子エンタングルメントを用いた侵入者による受信者の測定結果を盗聴する可能性があるため、量子鍵分布のセキュリティ解析を行う必要がある。 しかし、シーケンシャルスキームの観点から {quantum key distribution} のセキュリティ分析はまだ提供されていない。 本研究では,盗聴者を含む逐次的識別の統一モデルを提案することにより,逐次的識別戦略の統一モデルに基づく[量子鍵分布]のセキュリティ分析を行う。 このモデルでは、盗聴の成功確率と秘密鍵レートをメリットの指標として用いることができる。 そして,送信側と受信側の間の非ゼロ秘密鍵レートを求め,盗聴時でも送信側と受信側が秘密鍵を共有できることを示す。 さらに,提案モデルに対する現実的な量子光学実験を提案する。 我々は,送信側と受信側の間の秘密鍵が不完全であってもゼロではないことを観察する。 一般的な信条とは対照的に,カラーノイズの場合の方がホワイトノイズの場合よりも,盗聴の成功確率が小さいことが観察された。

The quantum key distribution for multiparty is one of the essential subjects of study. Especially, without using entangled states, performing the quantum key distribution for multiparty is a critical area of research. For this purpose, sequential discrimination, which provides multiparty quantum communication and quantum key distribution for {multiple receivers}, has recently been introduced. However, since there is a possibility of eavesdropping on the measurement result of a receiver by an intruder using quantum entanglement, a security analysis for {quantum key distribution} should be performed. {However,} no one has provided the security analysis for {quantum key distribution in view of the sequential scheme} yet. In this work, by proposing a unified model of sequential discrimination including an eavesdropper, we provide the security analysis of {quantum key distribution based on the unified model of sequential discrimination strategy.} In this model, the success probability of eavesdropping and the secret key rate can be used as a figure of merit. Then, we obtain a non-zero secret key rate between the sender and receiver, which implies that the sender and receiver can share a secret key despite eavesdropping. Further, we propose a realistic quantum optical experiment for the proposed model. We observe that the secret key between the sender and receiver can be non-zero, even with imperfections. As opposed to common belief, we further observe that the success probability of eavesdropping is smaller in the case of colored noise than in the case of white noise.
翻訳日:2023-09-27 14:44:30 公開日:2023-09-26
# 人間とAIの協調エージェント間の委譲の最適化

Optimizing delegation between human and AI collaborative agents ( http://arxiv.org/abs/2309.14718v1 )

ライセンス: Link先を確認
Andrew Fuchs, Andrea Passarella, Marco Conti(参考訳) ハイブリッドチームで人為的あるいは自律的なエージェントで操作する人間の文脈では、チームメンバーがいつ行動を起こすかを正確に特定することが不可欠である。 人間と自律的なシステムがタスクで成功するか失敗するかの過去の例を考えると、これらの潜在的なパフォーマンスの欠陥に関して、委譲の決定を下すマネージャエージェントを訓練したいと考えています。 加えて、さまざまなエージェントが環境の同じモデル内で動作することを期待することはできません。 アクションとトランジションがエージェントによって異なるケースに遭遇することが可能である。 そこで本フレームワークは,エージェントを動的に制約することなく,チームパフォーマンスの観察を通じて学習するマネージャモデルを提供する。 以上の結果から,マネージャは,環境の異なる表現の下で活動するエージェントのチームで代表意思決定を行うことを学び,チームを管理するための代替手法を著しく上回っています。

In the context of humans operating with artificial or autonomous agents in a hybrid team, it is essential to accurately identify when to authorize those team members to perform actions. Given past examples where humans and autonomous systems can either succeed or fail at tasks, we seek to train a delegating manager agent to make delegation decisions with respect to these potential performance deficiencies. Additionally, we cannot always expect the various agents to operate within the same underlying model of the environment. It is possible to encounter cases where the actions and transitions would vary between agents. Therefore, our framework provides a manager model which learns through observations of team performance without restricting agents to matching dynamics. Our results show our manager learns to perform delegation decisions with teams of agents operating under differing representations of the environment, significantly outperforming alternative methods to manage the team.
翻訳日:2023-09-27 14:44:10 公開日:2023-09-26
# QA-LoRA:大規模言語モデルの量子化を考慮した低ランク適応

QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2309.14717v1 )

ライセンス: Link先を確認
Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian(参考訳) 近年、大規模言語モデル(LLM)の急速な発展が見られた。 多くの言語理解タスクにおいて強力な能力があるにもかかわらず、計算の重荷は特にエッジデバイスにそれらをデプロイする必要がある場合にllmの適用をほとんど制限している。 本稿では,量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。 モチベーションは量子化と適応の自由の不均衡の度合いにあり、解は、適応の度合いを減少させながら量子化の自由度を増大させる群ワイズ作用素を使うことである。 QA-LoRAは数行のコードで簡単に実装でき、オリジナルのLoRAには2倍の能力がある。 i) 微調整中、LLMの重みは時間とメモリ使用量を減らすために定量化される(例:INT4)。 2) 微調整後, LLMおよび補助重量は, 精度を損なうことなく自然に量子化モデルに統合される。 我々は、LLaMAおよびLLaMA2モデルファミリーにQA-LoRAを適用し、異なる微調整データセットと下流シナリオでの有効性を検証する。 コードはhttps://github.com/yuhuixu1993/qa-loraで入手できる。

Recently years have witnessed a rapid development of large language models (LLMs). Despite the strong ability in many language-understanding tasks, the heavy computational burden largely restricts the application of LLMs especially when one needs to deploy them onto edge devices. In this paper, we propose a quantization-aware low-rank adaptation (QA-LoRA) algorithm. The motivation lies in the imbalanced degrees of freedom of quantization and adaptation, and the solution is to use group-wise operators which increase the degree of freedom of quantization meanwhile decreasing that of adaptation. QA-LoRA is easily implemented with a few lines of code, and it equips the original LoRA with two-fold abilities: (i) during fine-tuning, the LLM's weights are quantized (e.g., into INT4) to reduce time and memory usage; (ii) after fine-tuning, the LLM and auxiliary weights are naturally integrated into a quantized model without loss of accuracy. We apply QA-LoRA to the LLaMA and LLaMA2 model families and validate its effectiveness in different fine-tuning datasets and downstream scenarios. Code will be made available at https://github.com/yuhuixu1993/qa-lora.
翻訳日:2023-09-27 14:43:54 公開日:2023-09-26
# 可視化によるディープフェイスアルゴリズムの説明:調査

Explaining Deep Face Algorithms through Visualization: A Survey ( http://arxiv.org/abs/2309.14715v1 )

ライセンス: Link先を確認
Thrupthi Ann John, Vineeth N Balasubramanian, C. V. Jawahar(参考訳) 現在のフェイスタスクの深いモデルは、いくつかのベンチマークで人間のパフォーマンスを上回っていますが、それらの動作方法を理解していません。 したがって、新しい入力に対してどのように反応するかは予測できないため、破滅的な失敗やアルゴリズムの望ましくないバイアスが発生する。 説明可能なAIはギャップを埋めるのに役立つが、現在、顔のために設計された視覚化アルゴリズムはほとんどない。 この研究は、顔領域における説明可能性アルゴリズムの最初のメタ分析を行う。 顔領域に汎用的な視覚化アルゴリズムを適用する際のニュアンスと注意点を探索し、一般的な顔モデル上での可視化の計算によって説明する。 我々は,既存の顔説明作業について検討し,顔ネットワークの構造と階層構造に関する貴重な知見を明らかにする。 また,様々な説明可能性アルゴリズムの有用性についてユーザ研究を行うことにより,AI実践者が利用できる実用的な顔の可視化設計の考察も行う。

Although current deep models for face tasks surpass human performance on some benchmarks, we do not understand how they work. Thus, we cannot predict how it will react to novel inputs, resulting in catastrophic failures and unwanted biases in the algorithms. Explainable AI helps bridge the gap, but currently, there are very few visualization algorithms designed for faces. This work undertakes a first-of-its-kind meta-analysis of explainability algorithms in the face domain. We explore the nuances and caveats of adapting general-purpose visualization algorithms to the face domain, illustrated by computing visualizations on popular face models. We review existing face explainability works and reveal valuable insights into the structure and hierarchy of face networks. We also determine the design considerations for practical face visualizations accessible to AI practitioners by conducting a user study on the utility of various explainability algorithms.
翻訳日:2023-09-27 14:43:34 公開日:2023-09-26
# 高分解能低光画像強調のためのブートストラップ拡散モデル曲線推定

Bootstrap Diffusion Model Curve Estimation for High Resolution Low-Light Image Enhancement ( http://arxiv.org/abs/2309.14709v1 )

ライセンス: Link先を確認
Jiancheng Huang, Yifan Liu, Shifeng Chen(参考訳) 学習に基づく手法は多くの研究の関心を集め、低照度画像の強化に大きな改善をもたらした。 しかし、それらの多くは、高解像度画像における高価な計算コストと、同時拡張とデノイングにおける不満足なパフォーマンスの2つの大きな問題に悩まされている。 これらの問題に対処するため,我々は,通常の光画像ではなく曲線パラメータの分布を学習するブートストラップ拡散モデルであるbdceを提案する。 具体的には,ブートストラップ拡散モデルにより曲線パラメータを推定する高分解能画像を扱うために曲線推定法を採用する。 さらに、曲線調整の各イテレーションに denoise モジュールを適用して、各イテレーションの中間強化結果を denoise する。 我々は,BDCEを一般的なベンチマークデータセットで評価し,最先端の質的,定量的な性能が得られることを示す。

Learning-based methods have attracted a lot of research attention and led to significant improvements in low-light image enhancement. However, most of them still suffer from two main problems: expensive computational cost in high resolution images and unsatisfactory performance in simultaneous enhancement and denoising. To address these problems, we propose BDCE, a bootstrap diffusion model that exploits the learning of the distribution of the curve parameters instead of the normal-light image itself. Specifically, we adopt the curve estimation method to handle the high-resolution images, where the curve parameters are estimated by our bootstrap diffusion model. In addition, a denoise module is applied in each iteration of curve adjustment to denoise the intermediate enhanced result of each iteration. We evaluate BDCE on commonly used benchmark datasets, and extensive experiments show that it achieves state-of-the-art qualitative and quantitative performance.
翻訳日:2023-09-27 14:43:19 公開日:2023-09-26
# マルチモーダル核融合変圧器を用いたタイル分類に基づくビューポート予測

Tile Classification Based Viewport Prediction with Multi-modal Fusion Transformer ( http://arxiv.org/abs/2309.14704v1 )

ライセンス: Link先を確認
Zhihao Zhang and Yiwei Chen and Weizhan Zhang and Caixia Yan and Qinghua Zheng and Qi Wang and Wangdu Chen(参考訳) ビューポート予測は、タイルベースの360度ビデオストリーミングシステムの重要な側面である。 しかし、既存の軌道に基づく手法ではロバスト性が欠如しており、異なるモダリティ入力間の情報構築と融合のプロセスを過大に単純化し、エラー蓄積問題に繋がる。 本稿では,マルチモーダルフュージョン変換器(MFTR)を用いたタイル分類に基づくビューポート予測手法を提案する。 具体的には、MFTRはトランスフォーマーベースのネットワークを使用して、各モード内の長距離依存関係を抽出し、その後、ユーザ履歴入力とビデオコンテンツが将来のビューポート選択に与える影響を捉えるために、モダリティ内およびモダリティ間関係をマイニングする。 さらに、mftrでは、将来のタイルを2つのカテゴリに分類している。 ヘッドトラジェクタの予測と比較すると、tileのバイナリ分類結果に基づいて将来のviewportを選択すると、ロバスト性と解釈性が向上する。 提案したMFTRを評価するために,広く利用されている2つのPVS-HMとXu-Gazeデータセットについて広範な実験を行った。 MFTRは、平均予測精度と重なり比の観点から、最先端手法よりも優れた性能を示し、競合計算効率を示す。

Viewport prediction is a crucial aspect of tile-based 360 video streaming system. However, existing trajectory based methods lack of robustness, also oversimplify the process of information construction and fusion between different modality inputs, leading to the error accumulation problem. In this paper, we propose a tile classification based viewport prediction method with Multi-modal Fusion Transformer, namely MFTR. Specifically, MFTR utilizes transformer-based networks to extract the long-range dependencies within each modality, then mine intra- and inter-modality relations to capture the combined impact of user historical inputs and video contents on future viewport selection. In addition, MFTR categorizes future tiles into two categories: user interested or not, and selects future viewport as the region that contains most user interested tiles. Comparing with predicting head trajectories, choosing future viewport based on tile's binary classification results exhibits better robustness and interpretability. To evaluate our proposed MFTR, we conduct extensive experiments on two widely used PVS-HM and Xu-Gaze dataset. MFTR shows superior performance over state-of-the-art methods in terms of average prediction accuracy and overlap ratio, also presents competitive computation efficiency.
翻訳日:2023-09-27 14:43:03 公開日:2023-09-26
# CodeT5を使った最小限の編集によるプログラム修復

Program Repair with Minimal Edits Using CodeT5 ( http://arxiv.org/abs/2309.14760v1 )

ライセンス: Link先を確認
Atsushi Shirafuji, Md. Mostafizer Rahman, Md Faizul Ibne Amin, Yutaka Watanobe(参考訳) プログラマは、しばしばプログラムのバグを特定して修正するのに苦労する。 近年,誤プログラムの修正やエラー回復を支援するために,多くの言語モデル (LM) が提案されている。 しかし、LMは元の入力プログラムとは異なる解を生成する傾向がある。 これはユーザにとって潜在的な理解上の困難をもたらす。 本稿では,CodeT5を用いた修正編集を最小限に抑えたプログラムを提案する。 トレーニング済みのCodeT5を間違ったプログラムと正しいプログラムのコードペアに微調整し、いくつかのベースラインモデルで性能を評価する。 実験結果から、微調整されたCodeT5は91.95%のパス@100と6.84の最も近い正しいプログラムの平均編集距離を達成し、100の候補プログラムを生成することで少なくとも1つの正しいプログラムを提案できることを示した。 本稿では,導入プログラミング問題に対する最小限の編集によるプログラム修復を提案する上で,LMの有効性を示す。

Programmers often struggle to identify and fix bugs in their programs. In recent years, many language models (LMs) have been proposed to fix erroneous programs and support error recovery. However, the LMs tend to generate solutions that differ from the original input programs. This leads to potential comprehension difficulties for users. In this paper, we propose an approach to suggest a correct program with minimal repair edits using CodeT5. We fine-tune a pre-trained CodeT5 on code pairs of wrong and correct programs and evaluate its performance with several baseline models. The experimental results show that the fine-tuned CodeT5 achieves a pass@100 of 91.95% and an average edit distance of the most similar correct program of 6.84, which indicates that at least one correct program can be suggested by generating 100 candidate programs. We demonstrate the effectiveness of LMs in suggesting program repair with minimal edits for solving introductory programming problems.
翻訳日:2023-09-27 14:36:53 公開日:2023-09-26
# 拡散に基づく総括的テクスチャの整流と合成

Diffusion-based Holistic Texture Rectification and Synthesis ( http://arxiv.org/abs/2309.14759v1 )

ライセンス: Link先を確認
Guoqing Hao, Satoshi Iizuka, Kensho Hara, Edgar Simo-Serra, Hirokatsu Kataoka, Kazuhiro Fukui(参考訳) 自然画像から劣化したテクスチャサンプルの閉塞や歪みを補正する新しい枠組みを提案する。 従来のテクスチャ合成アプローチは、人間の細心の注意を要するプリスタンサンプルからテクスチャを生成することに重点を置いており、ほとんどの自然画像では達成できないことが多い。 これらの課題は、自然画像におけるテクスチャサンプルの頻繁な閉塞と歪みが、物体表面形状の障害や変化に起因するものである。 そこで本研究では, 自然画像中の劣化試料から総合的なテクスチャを合成する枠組みを提案し, 例題ベースのテクスチャ合成手法の適用性を拡張する。 本フレームワークは,新しいオクルージョン対応潜伏変圧器を備えた条件付き潜伏拡散モデル(LDM)を利用する。 この潜水変圧器は, LDMの生成過程に必要な部分観察試料のテクスチャ特性を効果的に符号化するだけでなく, 大きな閉塞を有する試料の長距離依存性を明示的に捕捉する。 本研究では,テクスチャの清浄化に幾何変換と自由形マスク生成を適用して合成データを生成する手法を提案する。 実験の結果, 既存の手法を定量的に, 定量的に上回った。 さらに,提案フレームワークの異なるコンポーネントを検証するため,包括的なアブレーション研究を行っている。 結果は,提案手法の有効性を強調する知覚的ユーザ調査によって裏付けられる。

We present a novel framework for rectifying occlusions and distortions in degraded texture samples from natural images. Traditional texture synthesis approaches focus on generating textures from pristine samples, which necessitate meticulous preparation by humans and are often unattainable in most natural images. These challenges stem from the frequent occlusions and distortions of texture samples in natural images due to obstructions and variations in object surface geometry. To address these issues, we propose a framework that synthesizes holistic textures from degraded samples in natural images, extending the applicability of exemplar-based texture synthesis techniques. Our framework utilizes a conditional Latent Diffusion Model (LDM) with a novel occlusion-aware latent transformer. This latent transformer not only effectively encodes texture features from partially-observed samples necessary for the generation process of the LDM, but also explicitly captures long-range dependencies in samples with large occlusions. To train our model, we introduce a method for generating synthetic data by applying geometric transformations and free-form mask generation to clean textures. Experimental results demonstrate that our framework significantly outperforms existing methods both quantitatively and quantitatively. Furthermore, we conduct comprehensive ablation studies to validate the different components of our proposed framework. Results are corroborated by a perceptual user study which highlights the efficiency of our proposed approach.
翻訳日:2023-09-27 14:36:36 公開日:2023-09-26
# UAV Swarmによる大量IoTの年齢最小化:マルチエージェント強化学習アプローチ

Age Minimization in Massive IoT via UAV Swarm: A Multi-agent Reinforcement Learning Approach ( http://arxiv.org/abs/2309.14757v1 )

ライセンス: Link先を確認
Eslam Eldeeb, Mohammad Shehab and Hirley Alves(参考訳) 多くの大規模なIoT通信シナリオでは、IoTデバイスは、IoTデバイスに近づき、アップリンクエネルギー消費を減らすことができる動的ユニットからのカバレッジを必要とする。 堅牢な解決策は、多数のUAV(UAV Swarm)をデプロイして、IoTネットワークのカバレッジとより良い視線(LoS)を提供することである。 しかし、大量のサービスユニットを持つこれらの巨大なIoTシナリオの研究は、高い複雑さを伴う高次元の問題を引き起こす。 本稿では,IoTデバイスから新しい情報を収集するために,UAVの群れを配置することによって生じる高次元問題に,マルチエージェント深層強化学習を適用した。 目標は、IoTネットワークにおける情報の全体的な年齢を最小化することです。 その結果,協調型および部分的協調型多エージェント深層強化学習アプローチは,大規模ネットワークにおいて無力な高複雑集中型深層強化学習アプローチを上回ることができることがわかった。

In many massive IoT communication scenarios, the IoT devices require coverage from dynamic units that can move close to the IoT devices and reduce the uplink energy consumption. A robust solution is to deploy a large number of UAVs (UAV swarm) to provide coverage and a better line of sight (LoS) for the IoT network. However, the study of these massive IoT scenarios with a massive number of serving units leads to high dimensional problems with high complexity. In this paper, we apply multi-agent deep reinforcement learning to address the high-dimensional problem that results from deploying a swarm of UAVs to collect fresh information from IoT devices. The target is to minimize the overall age of information in the IoT network. The results reveal that both cooperative and partially cooperative multi-agent deep reinforcement learning approaches are able to outperform the high-complexity centralized deep reinforcement learning approach, which stands helpless in large-scale networks.
翻訳日:2023-09-27 14:36:14 公開日:2023-09-26
# 拡散によって生成された画像の定量化と改善について

On quantifying and improving realism of images generated with diffusion ( http://arxiv.org/abs/2309.14756v1 )

ライセンス: Link先を確認
Yunzhuo Chen, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian(参考訳) 拡散モデルの最近の進歩は、生成的視覚コンテンツの品質の量子的飛躍をもたらした。 しかし、内容の現実性の定量化はまだ難しい。 Inception Score や Fr\'echet のような既存の評価指標は、生成された画像の汎用性により、ベンチマーク拡散モデルでは不足している。 さらに、個々のイメージのリアリズムを定量化するように設計されていない。 これにより法医学的画像解析への応用が制限され、新たな世代モデルの時代においてますます重要になりつつある。 そこで我々はまず,与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 この非学習ベースの計量は、生成された画像のリアリズムを効率的に定量化するだけでなく、与えられた画像を実物または偽物として分類する尺度として容易に利用できる。 本研究では,安定拡散モデル(sdm),dalle2,midjourney,bigganによる偽画像の検出により,提案するirsのモデルおよびデータ非依存性を実験的に確立する。 我々はさらに,sdmのirsによる生成的損失を最小限に抑えるために,この指標の属性を活用し,改良によるsdm生成コンテンツの便利かつ相当な品質改善を実証した。 このデータセットは、4つの高品質モデルによって生成された100のクラスに対して1,000のサンプルを提供します。 データセットとコードをリリースします。

Recent advances in diffusion models have led to a quantum leap in the quality of generative visual content. However, quantification of realism of the content is still challenging. Existing evaluation metrics, such as Inception Score and Fr\'echet inception distance, fall short on benchmarking diffusion models due to the versatility of the generated images. Moreover, they are not designed to quantify realism of an individual image. This restricts their application in forensic image analysis, which is becoming increasingly important in the emerging era of generative models. To address that, we first propose a metric, called Image Realism Score (IRS), computed from five statistical measures of a given image. This non-learning based metric not only efficiently quantifies realism of the generated images, it is readily usable as a measure to classify a given image as real or fake. We experimentally establish the model- and data-agnostic nature of the proposed IRS by successfully detecting fake images generated by Stable Diffusion Model (SDM), Dalle2, Midjourney and BigGAN. We further leverage this attribute of our metric to minimize an IRS-augmented generative loss of SDM, and demonstrate a convenient yet considerable quality improvement of the SDM-generated content with our modification. Our efforts have also led to Gen-100 dataset, which provides 1,000 samples for 100 classes generated by four high-quality models. We will release the dataset and code.
翻訳日:2023-09-27 14:35:58 公開日:2023-09-26
# スタイルディスタングルによる画像のデノーミング

Image Denoising via Style Disentanglement ( http://arxiv.org/abs/2309.14755v1 )

ライセンス: Link先を確認
Jingwei Niu, Jun Cheng, and Shan Tan(参考訳) 画像デノイジングは低レベルのコンピュータビジョンにおける基本的なタスクである。 最近のディープラーニングベースの画像デノジング手法は印象的なパフォーマンスを達成しているが、それらはブラックボックスモデルであり、基本的なデノジング原理はいまだに不明である。 本稿では,画像のデノイジングに対して,明確なデノイジング機構と良好な性能を両立させる新しい手法を提案する。 ノイズをイメージスタイルの一種として捉え,クリーンイメージからのノイズフリースタイルを取り入れて除去する。 そこで我々は,新しい損失とネットワークモジュールを設計し,ノイズの多い画像からノイズのないスタイル,クリーンな画像からノイズのないスタイルを抽出する。 ノイズフリースタイルは、ノイズ特徴に対する低応答アクティベーションと、特徴空間におけるコンテンツ特徴に対する高応答アクティベーションを誘導する。 これにより、クリーンなコンテンツがノイズから切り離され、効果的に画像が切り離される。 スタイルを用いて意味レベルの属性を編集する画像編集タスクと異なり、我々の貢献は、グローバルノイズフリースタイルを通じてピクセルレベルの属性を編集することにあります。 合成ノイズ除去と実世界の画像復調データセット(SIDDとDND)について広範な実験を行い,PSNRとSSIMの両指標を用いて本手法の有効性を実証した。 さらに,本手法が良好な解釈性をもたらすことを実験的に検証した。

Image denoising is a fundamental task in low-level computer vision. While recent deep learning-based image denoising methods have achieved impressive performance, they are black-box models and the underlying denoising principle remains unclear. In this paper, we propose a novel approach to image denoising that offers both clear denoising mechanism and good performance. We view noise as a type of image style and remove it by incorporating noise-free styles derived from clean images. To achieve this, we design novel losses and network modules to extract noisy styles from noisy images and noise-free styles from clean images. The noise-free style induces low-response activations for noise features and high-response activations for content features in the feature space. This leads to the separation of clean contents from noise, effectively denoising the image. Unlike disentanglement-based image editing tasks that edit semantic-level attributes using styles, our main contribution lies in editing pixel-level attributes through global noise-free styles. We conduct extensive experiments on synthetic noise removal and real-world image denoising datasets (SIDD and DND), demonstrating the effectiveness of our method in terms of both PSNR and SSIM metrics. Moreover, we experimentally validate that our method offers good interpretability.
翻訳日:2023-09-27 14:35:34 公開日:2023-09-26
# すべてのレベルの高度なバレーボール統計:単一カメラによる自動設定戦術検出と分類

Advanced Volleyball Stats for All Levels: Automatic Setting Tactic Detection and Classification with a Single Camera ( http://arxiv.org/abs/2309.14753v1 )

ライセンス: Link先を確認
Haotian Xia, Rhys Tracy, Yun Zhao, Yuqing Wang, Yuan-Fang Wang and Weining Shen(参考訳) 本稿では,バレーボールの試合における高度なセッティング戦略分類に特化して設計された2つのエンドツーエンドコンピュータビジョンフレームワークであるPathFinderとPathFinderPlusについて述べる。 本フレームワークは,ボール軌跡認識と新しいセット軌跡分類器を組み合わせることで,包括的で高度な統計データを生成する。 このアプローチはゲーム内分析の新しい視点を提供し、バレーボール統計の現在の粒度を上回っている。 PathFinderPlusで提案した球軌道検出手法は,ベースラインのPathFinderフレームワークと比べ,様々なゲーム条件下でのセッティング戦術の分類に優れた性能を示す。 この堅牢性は、複雑なゲーム状況の処理や異なるカメラアングルの調整において特に有利である。 さらに,ゲームプレイ中に相手チームの右サイド(オポジト)ヒットターの現在の行(前後)を自動的に識別する革新的なアルゴリズムを導入し,戦術分析に重要な洞察を与える。 シングルカメラシステムの実現可能性とメリットの実証が成功すれば、すべてのスキルレベルとリソース可用性を持つバレーボール愛好家にとって、ハイレベルな技術分析が利用できるようになる。 さらに,本システムの計算効率はリアルタイムな展開が可能であり,ゲーム内戦略分析やゲームプランの調整が可能である。

This paper presents PathFinder and PathFinderPlus, two novel end-to-end computer vision frameworks designed specifically for advanced setting strategy classification in volleyball matches from a single camera view. Our frameworks combine setting ball trajectory recognition with a novel set trajectory classifier to generate comprehensive and advanced statistical data. This approach offers a fresh perspective for in-game analysis and surpasses the current level of granularity in volleyball statistics. In comparison to existing methods used in our baseline PathFinder framework, our proposed ball trajectory detection methodology in PathFinderPlus exhibits superior performance for classifying setting tactics under various game conditions. This robustness is particularly advantageous in handling complex game situations and accommodating different camera angles. Additionally, our study introduces an innovative algorithm for automatic identification of the opposing team's right-side (opposite) hitter's current row (front or back) during gameplay, providing critical insights for tactical analysis. The successful demonstration of our single-camera system's feasibility and benefits makes high-level technical analysis accessible to volleyball enthusiasts of all skill levels and resource availability. Furthermore, the computational efficiency of our system allows for real-time deployment, enabling in-game strategy analysis and on-the-spot gameplan adjustments.
翻訳日:2023-09-27 14:35:13 公開日:2023-09-26
# ディープフェイクセレブインタラクション生成のためのテキスト画像誘導拡散モデル

Text-image guided Diffusion Model for generating Deepfake celebrity interactions ( http://arxiv.org/abs/2309.14751v1 )

ライセンス: Link先を確認
Yunzhuo Chen, Nur Al Hasan Haldar, Naveed Akhtar, Ajmal Mian(参考訳) ディープフェイク画像は、現実主義のために急速に深刻な関心事になりつつある。 拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証しており、ディープフェイク生成の優れた潜在的なツールとなっている。 ディープフェイクの利用を抑えるためには、まず拡散モデルを使って、便利なプロンプトで制御可能なリアルなコンテンツを生成する方法を探求する必要がある。 そこで本稿では,新しい手法を考案し,検討する。 提案手法は,一般的な安定拡散モデルを変化させ,テキストと画像のプロンプトで制御可能な高品質なDeepfake画像を生成する。 さらに、オリジナルの安定モデルは、複数の人を含む品質画像を生成するのに非常に不足している。 修正拡散モデルはこの問題に対処することができ、入力としてガウスランダム潜像ではなく、推論の開始時に入力アンカー画像の潜像を追加する。 したがって、噂を広めるのに使われるかもしれないセレブとの交流のために、偽コンテンツを生成することに焦点を合わせます。 また、偽画像の現実性を高めるためにDreamboothを適用します。 dreamboothは、中心となる単語と特定の特徴のペアリングを訓練し、より洗練されたパーソナライズされた出力画像を生成する。 提案手法により, 現実主義を脅かすような偽の視覚コンテンツを作成することが可能であり, 強大な政治的人物同士の出会いの有効な証拠となることが示唆された。

Deepfake images are fast becoming a serious concern due to their realism. Diffusion models have recently demonstrated highly realistic visual content generation, which makes them an excellent potential tool for Deepfake generation. To curb their exploitation for Deepfakes, it is imperative to first explore the extent to which diffusion models can be used to generate realistic content that is controllable with convenient prompts. This paper devises and explores a novel method in that regard. Our technique alters the popular stable diffusion model to generate a controllable high-quality Deepfake image with text and image prompts. In addition, the original stable model lacks severely in generating quality images that contain multiple persons. The modified diffusion model is able to address this problem, it add input anchor image's latent at the beginning of inferencing rather than Gaussian random latent as input. Hence, we focus on generating forged content for celebrity interactions, which may be used to spread rumors. We also apply Dreambooth to enhance the realism of our fake images. Dreambooth trains the pairing of center words and specific features to produce more refined and personalized output images. Our results show that with the devised scheme, it is possible to create fake visual content with alarming realism, such that the content can serve as believable evidence of meetings between powerful political figures.
翻訳日:2023-09-27 14:34:52 公開日:2023-09-26
# SSPFusion:赤外線・可視画像融合のための意味構造保存手法

SSPFusion: A Semantic Structure-Preserving Approach for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2309.14745v1 )

ライセンス: Link先を確認
Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen(参考訳) 既存の学習ベースの赤外線および可視画像融合(ivif)法の多くは、融合画像に大量の冗長な情報、すなわちエッジブルリング効果、あるいは物体検出器では認識できない情報を示す。 これらの問題を緩和するために,ivifに対する意味構造保存手法,すなわちsspfusionを提案する。 まず,赤外線および可視画像の構造的特徴を抽出するための構造的特徴抽出器(sfe)を設計する。 そこで我々は,赤外線画像と可視画像の構造的特徴を融合させるマルチスケールな構造保存融合(SPF)モジュールを導入し,融合とソース画像間の意味的構造の整合性を維持した。 これら2つの有効モジュールにより,2つの赤外線と可視画像から高品質な融合画像を生成することができ,下流コンピュータビジョンタスクの性能を向上させることができる。 3つのベンチマークによる実験結果から,本手法は質的および定量的評価において8つの最先端画像融合法を上回った。 このメソッドのコードは、さらなる比較結果とともに、https://github.com/qiaoyang-cv/sspfusionで利用可能になる。

Most existing learning-based infrared and visible image fusion (IVIF) methods exhibit massive redundant information in the fusion images, i.e., yielding edge-blurring effect or unrecognizable for object detectors. To alleviate these issues, we propose a semantic structure-preserving approach for IVIF, namely SSPFusion. At first, we design a Structural Feature Extractor (SFE) to extract the structural features of infrared and visible images. Then, we introduce a multi-scale Structure-Preserving Fusion (SPF) module to fuse the structural features of infrared and visible images, while maintaining the consistency of semantic structures between the fusion and source images. Owing to these two effective modules, our method is able to generate high-quality fusion images from pairs of infrared and visible images, which can boost the performance of downstream computer-vision tasks. Experimental results on three benchmarks demonstrate that our method outperforms eight state-of-the-art image fusion methods in terms of both qualitative and quantitative evaluations. The code for our method, along with additional comparison results, will be made available at: https://github.com/QiaoYang-CV/SSPFUSION.
翻訳日:2023-09-27 14:34:28 公開日:2023-09-26
# ADU-Depth:深さ推定のための不確かさモデリングによる注意に基づく蒸留

ADU-Depth: Attention-based Distillation with Uncertainty Modeling for Depth Estimation ( http://arxiv.org/abs/2309.14744v1 )

ライセンス: Link先を確認
Zizhang Wu, Zhuozheng Li, Zhi-Gang Fan, Yunzhe Wu, Xiaoquan Wang, Rui Tang, Jian Pu(参考訳) 単分子深度推定は、その固有の曖昧さと不適切な性質のために困難であるが、多くのアプリケーションにとって非常に重要である。 近年の研究では,単一のrgb画像から空間幾何学的手がかりを限定した特徴を抽出できるように,複雑なネットワークをデザインすることで精度が低下しているが,本稿では,学習した3次元形状認識知識を入力として活用した教師ネットワークを単眼学習ネットワークに導入し,空間的手がかりを導入することを目的としている。 具体的には,教師ネットワークを活用し,学生ネットワークの学習を指導し,空間的シーン情報による正確な奥行き推定を促進することを目的として,adu-depthという新しい知識蒸留フレームワークを提案する。 ドメイン適応を可能とし,教師から生徒への効果的かつ円滑な知識伝達を確保するため,注意適応型特徴蒸留と焦点深度適応型応答蒸留をトレーニング段階で適用した。 さらに, 特徴空間と結果空間の蒸留を誘導する深度推定の不確かさを明示的にモデル化し, 単眼観察から3次元認識知識をより良いものにし, 予測困難な画像領域の学習を向上させる。 KITTI と DrivingStereo による実深度推定データセットに関する広範な実験により,提案手法の有効性が示された。

Monocular depth estimation is challenging due to its inherent ambiguity and ill-posed nature, yet it is quite important to many applications. While recent works achieve limited accuracy by designing increasingly complicated networks to extract features with limited spatial geometric cues from a single RGB image, we intend to introduce spatial cues by training a teacher network that leverages left-right image pairs as inputs and transferring the learned 3D geometry-aware knowledge to the monocular student network. Specifically, we present a novel knowledge distillation framework, named ADU-Depth, with the goal of leveraging the well-trained teacher network to guide the learning of the student network, thus boosting the precise depth estimation with the help of extra spatial scene information. To enable domain adaptation and ensure effective and smooth knowledge transfer from teacher to student, we apply both attention-adapted feature distillation and focal-depth-adapted response distillation in the training stage. In addition, we explicitly model the uncertainty of depth estimation to guide distillation in both feature space and result space to better produce 3D-aware knowledge from monocular observations and thus enhance the learning for hard-to-predict image regions. Our extensive experiments on the real depth estimation datasets KITTI and DrivingStereo demonstrate the effectiveness of the proposed method, which ranked 1st on the challenging KITTI online benchmark.
翻訳日:2023-09-27 14:34:07 公開日:2023-09-26
# 体積論的に一貫性のある3dパンオプティカルマッピング

Volumetric Semantically Consistent 3D Panoptic Mapping ( http://arxiv.org/abs/2309.14737v1 )

ライセンス: Link先を確認
Yang Miao, Iro Armeni, Marc Pollefeys, Daniel Barath(参考訳) 非構造環境における自律型エージェントに適した包括的かつ正確で効率的な3Dマップを生成することを目的としたオンライン2D-to-3Dセマンティック・インスタンスマッピングアルゴリズムを提案する。 提案手法は,最近のアルゴリズムで用いられているVoxel-TSDF表現に基づいている。 マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。 さらなる改善は、グラフ最適化に基づくセマンティックラベリングとインスタンスリファインメントによって達成される。 提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。 SLAM推定データの代わりに基底真理軌道を入力として使用すると精度が著しく低下し,実世界のデータにおける結果と実際のパフォーマンスの間に大きなギャップが生じる。

We introduce an online 2D-to-3D semantic instance mapping algorithm aimed at generating comprehensive, accurate, and efficient semantic 3D maps suitable for autonomous agents in unstructured environments. The proposed approach is based on a Voxel-TSDF representation used in recent algorithms. It introduces novel ways of integrating semantic prediction confidence during mapping, producing semantic and instance-consistent 3D regions. Further improvements are achieved by graph optimization-based semantic labeling and instance refinement. The proposed method achieves accuracy superior to the state of the art on public large-scale datasets, improving on a number of widely used metrics. We also highlight a downfall in the evaluation of recent studies: using the ground truth trajectory as input instead of a SLAM-estimated one substantially affects the accuracy, creating a large gap between the reported results and the actual performance on real-world data.
翻訳日:2023-09-27 14:33:38 公開日:2023-09-26
# ディープ・ネット・インバージョンを用いたFrugal Satellite Image Change Detection

Frugal Satellite Image Change Detection with Deep-Net Inversion ( http://arxiv.org/abs/2309.14781v1 )

ライセンス: Link先を確認
Hichem Sahbi and Sebastien Deschamps(参考訳) 衛星画像における変化検出は、異なる瞬間に撮影された特定のシーンで標的となる変化の発生を見つけようとする。 このタスクには、土地被覆マッピングから人為的活動監視、気候変動や自然災害被害評価まで、いくつかの応用がある。 しかし,取得条件や変化の主観性から,変化の検出は非常に困難である。 本稿では,アクティブ学習に基づく変化検出のための新しいアルゴリズムを考案する。 提案手法は,少数のクリティカルイメージ(仮想例を参照)に対してのみ,変化の関連性についてオラクル(ユーザ)を探索する質問と回答モデルに基づいており,オラクルの応答によりディープニューラルネットワーク(DNN)分類器が更新される。 主な貢献は、訓練されたDNNに(最も)挑戦する最も代表的で多様で不確実な仮想例(訓練されたDNNの逆イメージとして)を学習することのできる、新しい敵対モデルにある。 実験により,提案するディープネットインバージョンの性能が,関連する作業に対して向上することを示した。

Change detection in satellite imagery seeks to find occurrences of targeted changes in a given scene taken at different instants. This task has several applications ranging from land-cover mapping, to anthropogenic activity monitory as well as climate change and natural hazard damage assessment. However, change detection is highly challenging due to the acquisition conditions and also to the subjectivity of changes. In this paper, we devise a novel algorithm for change detection based on active learning. The proposed method is based on a question and answer model that probes an oracle (user) about the relevance of changes only on a small set of critical images (referred to as virtual exemplars), and according to oracle's responses updates deep neural network (DNN) classifiers. The main contribution resides in a novel adversarial model that allows learning the most representative, diverse and uncertain virtual exemplars (as inverted preimages of the trained DNNs) that challenge (the most) the trained DNNs, and this leads to a better re-estimate of these networks in the subsequent iterations of active learning. Experiments show the out-performance of our proposed deep-net inversion against the related work.
翻訳日:2023-09-27 14:26:30 公開日:2023-09-26
# 気候変動に関する知識の移転

Transferring climate change knowledge ( http://arxiv.org/abs/2309.14780v1 )

ライセンス: Link先を確認
Francesco Immorlano, Veronika Eyring, Thomas le Monnier de Gouville, Gabriele Accarino, Donatello Elia, Giovanni Aloisio and Pierre Gentine(参考訳) 正確な気候予測は、気候適応と緩和のために必要である。 気候変動の予測に用いられる地球系モデルシミュレーションは、温室効果ガス濃度の増加に対する地球平均温度の応答の不確かさの根底にある雲のような小さな物理過程の表現を本質的に近似する。 将来の予測を制約し、気候予測や気候フィードバックの不確実性を減らすために、歴史的観測を用いたいくつかのアプローチが開発されている。 しかし、これらの手法は気候システムに固有の非線形複雑性を捉えることができない。 トランスファーラーニング(Transfer Learning)アプローチを用いて,21世紀の地球モデルシミュレーションと歴史的観測から得られた知識を最適に活用し,マージし,地球表面温度場をより正確に予測できることを,機械学習,特にディープニューラルネットワークを用いて示す。 共有社会経済経路(ssps)2-4.5,3-7.0,5-8.5について,2081-2098年の平均気温(1850-1900年)から2.73{\deg}c(2.44-3.11{\deg}c),3.92{\deg}c(3.5-4.47{\deg}c),4.53{\deg}c(3.69-5.5{\deg}c),2.7{\deg}c(1.65-3.8{\deg}c),3.71{\deg}c(2.56-4.97{\deg}c),4.47{\deg}c(2.95-952{\deg}c)の地域推定と世界平均気温の予測を精錬した。 SSP2-4.5は2031年(2028-2034年)、SSP3-7.0は2029年(2027-2031年)、SSP5-8.5は2028年(2025-2031年)である。 同様に、2{\deg}C閾値はそれぞれ2051 (2045-2059)、2044 (2040-2047)、2042 (2038-2047) を超える。 我々の新しい手法は、気候適応に緊急に必要なより正確な気候予測を提供する。

Accurate climate projections are required for climate adaptation and mitigation. Earth system model simulations, used to project climate change, inherently make approximations in their representation of small-scale physical processes, such as clouds, that are at the root of the uncertainties in global mean temperature's response to increased greenhouse gas concentrations. Several approaches have been developed to use historical observations to constrain future projections and reduce uncertainties in climate projections and climate feedbacks. Yet those methods cannot capture the non-linear complexity inherent in the climate system. Using a Transfer Learning approach, we show that Machine Learning, in particular Deep Neural Networks, can be used to optimally leverage and merge the knowledge gained from Earth system model simulations and historical observations to more accurately project global surface temperature fields in the 21st century. For the Shared Socioeconomic Pathways (SSPs) 2-4.5, 3-7.0 and 5-8.5, we refine regional estimates and the global projection of the average global temperature in 2081-2098 (with respect to the period 1850-1900) to 2.73{\deg}C (2.44-3.11{\deg}C), 3.92{\deg}C (3.5-4.47{\deg}C) and 4.53{\deg}C (3.69-5.5{\deg}C), respectively, compared to the unconstrained 2.7{\deg}C (1.65-3.8{\deg}C), 3.71{\deg}C (2.56-4.97{\deg}C) and 4.47{\deg}C (2.95-6.02{\deg}C). Our findings show that the 1.5{\deg}C threshold of the Paris' agreement will be crossed in 2031 (2028-2034) for SSP2-4.5, in 2029 (2027-2031) for SSP3-7.0 and in 2028 (2025-2031) for SSP5-8.5. Similarly, the 2{\deg}C threshold will be exceeded in 2051 (2045-2059), 2044 (2040-2047) and 2042 (2038-2047) respectively. Our new method provides more accurate climate projections urgently required for climate adaptation.
翻訳日:2023-09-27 14:25:54 公開日:2023-09-26
# 効率的なドメイン特化テキスト分類のためのプロンプト学習パラダイムを用いた小言語モデルの探索

Exploring Small Language Models with Prompt-Learning Paradigm for Efficient Domain-Specific Text Classification ( http://arxiv.org/abs/2309.14779v1 )

ライセンス: Link先を確認
Hengyu Luo, Peng Liu, Stefan Esping(参考訳) ドメイン固有のテキスト分類は、手動ラベリングのコストが高いため、ラベル付きデータの不足に直面する。 プロンプト学習(Prompt-learning)は、従来の微調整手法の代替として提案されている。 さらに、大きな言語モデル(LLM)は有名になったが、SLM(Small Language Model)は、業界の制約を前提として、大きなカスタマイズ性、適応性、コスト効率を提供する。 本研究では,SLMとドメイン固有テキスト分類の素早い学習パラダイムの組み合わせ,特に小売業における顧客とエージェントの相互作用の可能性について検討する。 220Mパラメータを持つ典型的なSLMであるT5-baseは,プロンプトベースモデルの微調整が可能な場合,ラベル付きデータ(全データの最大15%)で約75%の精度を達成し,プロンプト学習によるSLMの潜在可能性を示した。 そこで本研究では,能動型数発サンプリングの有効性と,優れた性能向上に寄与する素早い学習パイプラインにおけるアンサンブル戦略の有効性をさらに検証する。 さらに,固定モデルを用いたゼロショット設定では,約154Bパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず,FLAN-T5-large(GPT-3.5-turboのパラメータのわずか0.5%)のモデルであるFLAN-T5-largeが,最適化されたプロンプトで31%を超える精度を達成し,最適化されていないプロンプトで18%未満のパフォーマンスから飛躍的に向上することを示す。 本研究は,SLMを用いた分類タスクにおける即時学習の可能性を強調し,複数ショットサンプリングとアンサンブル戦略の利点を強調し,ゼロショット設定における即時エンジニアリングの重要性を強調した。

Domain-specific text classification faces the challenge of scarce labeled data due to the high cost of manual labeling. Prompt-learning, known for its efficiency in few-shot scenarios, is proposed as an alternative to traditional fine-tuning methods. And besides, although large language models (LLMs) have gained prominence, small language models (SLMs, with under 1B parameters) offer significant customizability, adaptability, and cost-effectiveness for domain-specific tasks, given industry constraints. In this study, we investigate the potential of SLMs combined with prompt-learning paradigm for domain-specific text classification, specifically within customer-agent interactions in retail. Our evaluations show that, in few-shot settings when prompt-based model fine-tuning is possible, T5-base, a typical SLM with 220M parameters, achieve approximately 75% accuracy with limited labeled data (up to 15% of full data), which shows great potentials of SLMs with prompt-learning. Based on this, We further validate the effectiveness of active few-shot sampling and the ensemble strategy in the prompt-learning pipeline that contribute to a remarkable performance gain. Besides, in zero-shot settings with a fixed model, we underscore a pivotal observation that, although the GPT-3.5-turbo equipped with around 154B parameters garners an accuracy of 55.16%, the power of well designed prompts becomes evident when the FLAN-T5-large, a model with a mere 0.5% of GPT-3.5-turbo's parameters, achieves an accuracy exceeding 31% with the optimized prompt, a leap from its sub-18% performance with an unoptimized one. Our findings underscore the promise of prompt-learning in classification tasks with SLMs, emphasizing the benefits of active few-shot sampling, and ensemble strategies in few-shot settings, and the importance of prompt engineering in zero-shot settings.
翻訳日:2023-09-27 14:24:46 公開日:2023-09-26
# Markov Chain Mirror氏がデータフェデレーションについて語る

Markov Chain Mirror Descent On Data Federation ( http://arxiv.org/abs/2309.14775v1 )

ライセンス: Link先を確認
Yawei Zhao(参考訳) ミラー降下のような確率的最適化手法は計算コストの低いために広く応用されている。 これらの手法は独立分布と同一分布の仮定の下でよく研究され、通常は部分線形収束率を達成する。 しかし、実際のアプリケーションシナリオでは、この仮定は強すぎるし、実践的ではないかもしれない。 最近の研究では、マルコフ連鎖からサンプルを採取した際の確率的勾配降下が研究されている。 不幸なことに、確率的ミラー降下で知られている結果はほとんどない。 本稿では,連合学習のシナリオにおいて,マーチオンと呼ばれる確率的ミラー降下の新たなバージョンを提案する。 分散ネットワークが与えられると、モデルはランダムにノードから隣り合うノードへと反復的に移動する。 さらに, コンベックス, 強凸, 非凸損失の収束率を最良とする, マーチオン解析のための新しい枠組みを提案する。 最後に,マーチオンの収束を評価するための実証的研究を行い,理論的結果を検証する。

Stochastic optimization methods such as mirror descent have wide applications due to low computational cost. Those methods have been well studied under assumption of the independent and identical distribution, and usually achieve sublinear rate of convergence. However, this assumption may be too strong and unpractical in real application scenarios. Recent researches investigate stochastic gradient descent when instances are sampled from a Markov chain. Unfortunately, few results are known for stochastic mirror descent. In the paper, we propose a new version of stochastic mirror descent termed by MarchOn in the scenario of the federated learning. Given a distributed network, the model iteratively travels from a node to one of its neighbours randomly. Furthermore, we propose a new framework to analyze MarchOn, which yields best rates of convergence for convex, strongly convex, and non-convex loss. Finally, we conduct empirical studies to evaluate the convergence of MarchOn, and validate theoretical results.
翻訳日:2023-09-27 14:24:04 公開日:2023-09-26
# BLIP-Adapter:モバイルスクリーンショットキャプションのためのパラメータ効率の良い転送学習

BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile Screenshot Captioning ( http://arxiv.org/abs/2309.14774v1 )

ライセンス: Link先を確認
Ching-Yu Chiang, I-Hua Chang, Shih-Wei Liao(参考訳) 本研究の目的は、スクリーンショットキャプションタスクの効率的なチューニング方法を検討することである。 近年,画像キャプションの進歩は著しいが,モバイル画面のキャプションタスクに関する研究は比較的少ない。 現在のデータセットと製品スクリーンショット内のユーザの振る舞いを記述するユースケースは、特に限られている。 その結果,スクリーンショットキャプションタスクの既存モデルの微調整を試みた。 しかし、画像キャプションモデルのパラメータが多すぎるため、事前学習された大規模モデルの微調整はリソース集約的で、かなりの時間、計算能力、ストレージを必要とする。 この課題に取り組むために、本研究では、モデル上の追加モジュールのみのチューニングを必要とするアダプタメソッドの組み合わせを提案する。 これらの手法はもともと視覚や言語タスク用に設計されており、スクリーンショットキャプションでも同様の課題に対処することを目的としています。 画像キャプションモデルのパラメータを凍結し、メソッドに関連する重みのみをトレーニングすることにより、モデル全体の微調整に匹敵する性能を達成でき、パラメータの数を著しく削減できる。 本研究は,スクリーンショットキャプションタスクのコンテキスト内でアダプタを組み合わせることの有効性について,最初の包括的な調査である。 本研究は,視覚言語モデルにおけるアダプタの適用に関する貴重な知見を提供し,スクリーンショットキャプションタスクの効率的なチューニング手法の開発に寄与することを目的としている。 私たちの研究はhttps://github.com/RainYuGG/BLIP-Adapterで公開されています。

This study aims to explore efficient tuning methods for the screenshot captioning task. Recently, image captioning has seen significant advancements, but research in captioning tasks for mobile screens remains relatively scarce. Current datasets and use cases describing user behaviors within product screenshots are notably limited. Consequently, we sought to fine-tune pre-existing models for the screenshot captioning task. However, fine-tuning large pre-trained models can be resource-intensive, requiring considerable time, computational power, and storage due to the vast number of parameters in image captioning models. To tackle this challenge, this study proposes a combination of adapter methods, which necessitates tuning only the additional modules on the model. These methods are originally designed for vision or language tasks, and our intention is to apply them to address similar challenges in screenshot captioning. By freezing the parameters of the image caption models and training only the weights associated with the methods, performance comparable to fine-tuning the entire model can be achieved, while significantly reducing the number of parameters. This study represents the first comprehensive investigation into the effectiveness of combining adapters within the context of the screenshot captioning task. Through our experiments and analyses, this study aims to provide valuable insights into the application of adapters in vision-language models and contribute to the development of efficient tuning techniques for the screenshot captioning task. Our study is available at https://github.com/RainYuGG/BLIP-Adapter
翻訳日:2023-09-27 14:23:52 公開日:2023-09-26
# ファクチュアル知識によるインテクスト学習の促進

Boosting In-Context Learning with Factual Knowledge ( http://arxiv.org/abs/2309.14771v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Chuanqi Tan, Jun Huang, Ming Gao(参考訳) In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件として、パラメータ更新の必要性を排除し、競合的なパフォーマンスを実現することで、これまで見られなかったタスクを解決することを目的としている。 本稿では、3つの中核領域におけるICLの性能,すなわちLLMで学んだ固有知識,選択したインコンテキストの例から得られた事実知識,および出力生成のためのLLMにおける知識バイアスについて,事実知識が不可欠であることを実証する。 数ショットの学習シナリオにおいてLLMの力を解き放つために、ICLの性能をさらに向上させる新しいKICT(Knowledgeable In-Context Tuning)フレームワークを導入する。 1【自己監督前訓練中のllmに事実知識を注入すること】 2)高い知識のある例を適切に選定し、 3)事前知識に基づいて予測結果を校正する。 複数のテキスト分類や質問応答タスクに対する自己回帰型LPM(例えばGPTスタイルのモデル)に対する提案手法の評価を行った。 実験の結果,KICTは強いベースラインを著しく上回り,テキスト分類と質問応答タスクの精度が13%以上,7%以上向上していることがわかった。

In-Context Learning (ICL) over Large language models (LLMs) aims at solving previously unseen tasks by conditioning on a few training examples, eliminating the need for parameter updates and achieving competitive performance. In this paper, we demonstrate that factual knowledge is imperative for the performance of ICL in three core facets, i.e., the inherent knowledge learned in LLMs, the factual knowledge derived from the selected in-context examples, and the knowledge biases in LLMs for output generation. To unleash the power of LLMs in few-shot learning scenarios, we introduce a novel Knowledgeable In-Context Tuning (KICT) framework to further improve the performance of ICL: 1) injecting factual knowledge to LLMs during continual self-supervised pre-training, 2) judiciously selecting the examples with high knowledge relevance, and 3) calibrating the prediction results based on prior knowledge. We evaluate the proposed approaches on auto-regressive LLMs (e.g., GPT-style models) over multiple text classification and question answering tasks. Experimental results demonstrate that KICT substantially outperforms strong baselines, and improves by more than 13% and 7% of accuracy on text classification and question answering tasks, respectively.
翻訳日:2023-09-27 14:23:28 公開日:2023-09-26
# KERMIT:逆変換を用いた強化関係モデリングの知識グラフ補完

KERMIT: Knowledge Graph Completion of Enhanced Relation Modeling with Inverse Transformation ( http://arxiv.org/abs/2309.14770v1 )

ライセンス: Link先を確認
Haotian Li, Lingzhi Wang, Yuliang Wei, Richard Yi Da Xu, Bailing Wang(参考訳) 知識グラフ補完は、知識グラフで利用可能な情報に基づいて、行方不明のトリプルを埋める作業である。 最近の研究の中で、テキストベースの手法は三重項のテキスト記述を利用してタスクを完了している。 しかし、このモデリングアプローチは、特に記述が意図した意味を正確に適切に表現できない場合に、制限に直面する可能性がある。 これらの課題を克服するために,2つの追加メカニズムによるデータの増大を提案する。 まず,外部知識ベースとしてchatgptを用い,クエリと回答間の意味的ギャップを埋めるためのコヒーレント記述を生成する。 次に、逆関係を利用して対称グラフを作成し、余分なラベリングを生成し、リンク予測のための補足情報を提供する。 このアプローチはエンティティ間の関係に関するさらなる洞察を提供する。 これらの取り組みを通じて、これらのメカニズムは利用可能なデータの豊かさと多様性を高め、より正確な結果をもたらすため、知識グラフ補完の大幅な改善が見られた。

Knowledge graph completion is a task that revolves around filling in missing triples based on the information available in a knowledge graph. Among the current studies, text-based methods complete the task by utilizing textual descriptions of triples. However, this modeling approach may encounter limitations, particularly when the description fails to accurately and adequately express the intended meaning. To overcome these challenges, we propose the augmentation of data through two additional mechanisms. Firstly, we employ ChatGPT as an external knowledge base to generate coherent descriptions to bridge the semantic gap between the queries and answers. Secondly, we leverage inverse relations to create a symmetric graph, thereby creating extra labeling and providing supplementary information for link prediction. This approach offers additional insights into the relationships between entities. Through these efforts, we have observed significant improvements in knowledge graph completion, as these mechanisms enhance the richness and diversity of the available data, leading to more accurate results.
翻訳日:2023-09-27 14:23:09 公開日:2023-09-26
# Adaptive and Transformed Relevance を用いたマルチラベル特徴選択

Multi-Label Feature Selection Using Adaptive and Transformed Relevance ( http://arxiv.org/abs/2309.14768v1 )

ライセンス: Link先を確認
Sadegh Eskandari, Sahar Ghassabi(参考訳) マルチラベル学習はデータ分析において重要なパラダイムとして現れ,複数のクラスラベルを同時に関連付けるシナリオに対処している。 テキストや画像分類などの多様なアプリケーションにわたるマルチラベルデータの普及に伴い,マルチラベル特徴の選択の重要性がますます高まっている。 本稿では,新たなヒューリスティック関数を持つ新しい情報理論的フィルタに基づくマルチラベル特徴選択atrを提案する。 ATRはアルゴリズム適応と問題変換のアプローチを組み合わせることで、個々のラベルと抽象的なラベル空間の識別能力を考慮した特徴をランク付けする。 実験では,様々な領域にまたがる12のベンチマークを包含し,6つの評価指標にまたがる10の最先端情報理論に基づくマルチラベル特徴選択手法の優位性を実証した。 さらに,我々の実験は,広範な特徴空間とラベル空間を特徴とするベンチマークにおけるATRのスケーラビリティを実証した。 コードはhttps://github.com/sadegh28/atrで入手できる。

Multi-label learning has emerged as a crucial paradigm in data analysis, addressing scenarios where instances are associated with multiple class labels simultaneously. With the growing prevalence of multi-label data across diverse applications, such as text and image classification, the significance of multi-label feature selection has become increasingly evident. This paper presents a novel information-theoretical filter-based multi-label feature selection, called ATR, with a new heuristic function. Incorporating a combinations of algorithm adaptation and problem transformation approaches, ATR ranks features considering individual labels as well as abstract label space discriminative powers. Our experimental studies encompass twelve benchmarks spanning various domains, demonstrating the superiority of our approach over ten state-of-the-art information-theoretical filter-based multi-label feature selection methods across six evaluation metrics. Furthermore, our experiments affirm the scalability of ATR for benchmarks characterized by extensive feature and label spaces. The codes are available at https://github.com/Sadegh28/ATR
翻訳日:2023-09-27 14:22:53 公開日:2023-09-26
# InvKA: Invertible Koopman Autoencoderによる歩行認識

InvKA: Gait Recognition via Invertible Koopman Autoencoder ( http://arxiv.org/abs/2309.14764v1 )

ライセンス: Link先を確認
Fan Li, Dong Liang, Jing Lian, Qidong Liu, Hegui Zhu, Jizhao Liu(参考訳) 現在の歩容認識法のほとんどは、解釈可能性の低下と計算コストの上昇に苦しむ。 解釈性を改善するために,クープマン作用素理論に基づく埋め込み空間における歩行特徴について検討する。 この空間の遷移行列は、歩行サイクルの複素キネマティックな特徴、すなわちクープマン作用素を捉える。 操作行列の対角要素は全体の動きトレンドを表現でき、物理的に意味のある記述子を提供する。 アルゴリズムの計算コストを削減するために,可逆オートエンコーダを用いてモデルサイズを小さくし,畳み込み層を排除して奥行きを圧縮し,浮動小数点演算を少なくする。 複数のデータセットに対する実験結果から,提案手法は最先端手法と比較して計算コストを1%削減し,非閉塞データセットでは98%の競合認識精度を達成した。

Most current gait recognition methods suffer from poor interpretability and high computational cost. To improve interpretability, we investigate gait features in the embedding space based on Koopman operator theory. The transition matrix in this space captures complex kinematic features of gait cycles, namely the Koopman operator. The diagonal elements of the operator matrix can represent the overall motion trend, providing a physically meaningful descriptor. To reduce the computational cost of our algorithm, we use a reversible autoencoder to reduce the model size and eliminate convolutional layers to compress its depth, resulting in fewer floating-point operations. Experimental results on multiple datasets show that our method reduces computational cost to 1% compared to state-of-the-art methods while achieving competitive recognition accuracy 98% on non-occlusion datasets.
翻訳日:2023-09-27 14:22:38 公開日:2023-09-26
# ConPET:大規模言語モデルのための連続パラメータ効率チューニング

ConPET: Continual Parameter-Efficient Tuning for Large Language Models ( http://arxiv.org/abs/2309.14763v1 )

ライセンス: Link先を確認
Chenyang Song, Xu Han, Zheni Zeng, Kuai Li, Chen Chen, Zhiyuan Liu, Maosong Sun and Tao Yang(参考訳) 継続学習は、新しいタスクへのモデルの継続的な適応を必要とし、古いタスクの破滅的な忘れを最小化する。 大きな言語モデル(LLM)では、計算コストの高騰、メモリ消費、忘れの問題により、バニラのフルパラメータチューニングが極めて難しい。 パラメータ効率チューニング(PET)の成功に触発されて,タスク数非依存の学習複雑性を持つLLMの連続的タスク適応のための一般化可能なパラダイムであるConPETを提案する。 ConPETには、異なるアプリケーションシナリオを持つ2つのバージョンが含まれている。 第1に、Static ConPETは、もともと比較的小さなモデルのために設計された従来の連続学習手法を、PETと動的リプレイ戦略によりLCMに適応させることができる。 さらに、スケーラビリティを維持するために、Dynamic ConPETは異なるタスクに対して別々のPETモジュールと動的最適選択のためのPETモジュールセレクタを採用する。 大規模な実験では、Static ConPETの適応により、複数の旧手法がチューナブルパラメータのスケールを3000回以上削減し、PETのみのベースラインを5つの小さなベンチマークで少なくとも5ポイント超えるのに対して、Dynamic ConPETは最大のデータセットで優位に立つ。 コードとデータセットはhttps://github.com/Raincleared-Song/ConPETで公開されている。

Continual learning necessitates the continual adaptation of models to newly emerging tasks while minimizing the catastrophic forgetting of old ones. This is extremely challenging for large language models (LLMs) with vanilla full-parameter tuning due to high computation costs, memory consumption, and forgetting issue. Inspired by the success of parameter-efficient tuning (PET), we propose Continual Parameter-Efficient Tuning (ConPET), a generalizable paradigm for continual task adaptation of LLMs with task-number-independent training complexity. ConPET includes two versions with different application scenarios. First, Static ConPET can adapt former continual learning methods originally designed for relatively smaller models to LLMs through PET and a dynamic replay strategy, which largely reduces the tuning costs and alleviates the over-fitting and forgetting issue. Furthermore, to maintain scalability, Dynamic ConPET adopts separate PET modules for different tasks and a PET module selector for dynamic optimal selection. In our extensive experiments, the adaptation of Static ConPET helps multiple former methods reduce the scale of tunable parameters by over 3,000 times and surpass the PET-only baseline by at least 5 points on five smaller benchmarks, while Dynamic ConPET gains its advantage on the largest dataset. The codes and datasets are available at https://github.com/Raincleared-Song/ConPET.
翻訳日:2023-09-27 14:22:22 公開日:2023-09-26
# 脳年齢回帰のための集団グラフ構築法とグラフニューラルネットワークの比較研究

A Comparative Study of Population-Graph Construction Methods and Graph Neural Networks for Brain Age Regression ( http://arxiv.org/abs/2309.14816v1 )

ライセンス: Link先を確認
Kyriaki-Margarita Bintsi, Tamara T. Mueller, Sophie Starck, Vasileios Baltatzis, Alexander Hammers, Daniel Rueckert(参考訳) 被験者の時系列と生物学的脳年齢の違いは神経変性疾患の重要なバイオマーカーとなりうるため、臨床環境では脳年齢推定が重要である。 この推定にマルチモーダル情報を組み込む一つの方法は、様々な種類のイメージングデータを結合し、人口内の個人間の関連を捉える人口グラフである。 医用画像では、人口グラフが有望な結果を示しており、主に分類作業に向けられている。 ほとんどの場合、グラフ構造は事前に定義されており、トレーニング中も静的である。 しかし、人口グラフの抽出は非自明な作業であり、グラフ構造に敏感なグラフニューラルネットワーク(GNN)の性能に大きな影響を与える可能性がある。 本研究では,異なる集団グラフ構築手法による有意義なグラフ構築と実験の重要性を強調し,GNNの性能が脳年齢推定に与える影響を明らかにする。 我々はホモフィリメトリックとグラフの可視化を用いて,抽出されたグラフ構造に関する定量的・定性的な洞察を得る。 実験的な評価のために、多くの画像表現型と非画像表現型を提供するuk biobankデータセットを利用する。 以上の結果から,グラフ畳み込みネットワーク (GCN) やグラフ注意ネットワーク (GAT) のようなグラフ構造に非常に敏感なアーキテクチャでは,グラフサージやチェビシェフといった他のアーキテクチャでは,異なるホモフィリー比でより堅牢であることが示唆された。 静的グラフ構築手法は、脳年齢推定のタスクには不十分である可能性があり、代替研究の方向性を推奨する。

The difference between the chronological and biological brain age of a subject can be an important biomarker for neurodegenerative diseases, thus brain age estimation can be crucial in clinical settings. One way to incorporate multimodal information into this estimation is through population graphs, which combine various types of imaging data and capture the associations among individuals within a population. In medical imaging, population graphs have demonstrated promising results, mostly for classification tasks. In most cases, the graph structure is pre-defined and remains static during training. However, extracting population graphs is a non-trivial task and can significantly impact the performance of Graph Neural Networks (GNNs), which are sensitive to the graph structure. In this work, we highlight the importance of a meaningful graph construction and experiment with different population-graph construction methods and their effect on GNN performance on brain age estimation. We use the homophily metric and graph visualizations to gain valuable quantitative and qualitative insights on the extracted graph structures. For the experimental evaluation, we leverage the UK Biobank dataset, which offers many imaging and non-imaging phenotypes. Our results indicate that architectures highly sensitive to the graph structure, such as Graph Convolutional Network (GCN) and Graph Attention Network (GAT), struggle with low homophily graphs, while other architectures, such as GraphSage and Chebyshev, are more robust across different homophily ratios. We conclude that static graph construction approaches are potentially insufficient for the task of brain age estimation and make recommendations for alternative research directions.
翻訳日:2023-09-27 14:16:15 公開日:2023-09-26
# ENIGMA-51:産業シナリオにおける人間と物体の相互作用の微妙な理解を目指して

ENIGMA-51: Towards a Fine-Grained Understanding of Human-Object Interactions in Industrial Scenarios ( http://arxiv.org/abs/2309.14809v1 )

ライセンス: Link先を確認
Francesco Ragusa and Rosario Leonardi and Michele Mazzamuto and Claudia Bonanno and Rosario Scavo and Antonino Furnari and Giovanni Maria Farinella(参考訳) ENIGMA-51は、19人の被験者が産業用ツール(例えば、電気スクリュードライバー)と電子機器(例えば、オシロスコープ)を使用して電気基板の修理を完了させる指示に従って、実産業領域で取得した新しいエゴセントリックなデータセットである。 51の配列は、工業領域における人間と対象の相互作用を体系的に研究できる豊富なラベルのセットで密に注釈付けされている。 人間とオブジェクトの相互作用に関連する4つのタスクのベンチマークを提供する。 1)未処理の動作検出 2)人間と物体の相互作用検出 3)短期的物体間相互作用予測及び 4)意図及び実体に関する自然言語の理解。 ベースラインの結果から、ENIGMA-51データセットは、産業シナリオにおける人間とオブジェクトの相互作用を研究する上で、困難なベンチマークとなることが示されている。 データセットは、https://iplab.dmi.unict.it/ENIGMA-51/で公開しています。

ENIGMA-51 is a new egocentric dataset acquired in a real industrial domain by 19 subjects who followed instructions to complete the repair of electrical boards using industrial tools (e.g., electric screwdriver) and electronic instruments (e.g., oscilloscope). The 51 sequences are densely annotated with a rich set of labels that enable the systematic study of human-object interactions in the industrial domain. We provide benchmarks on four tasks related to human-object interactions: 1) untrimmed action detection, 2) egocentric human-object interaction detection, 3) short-term object interaction anticipation and 4) natural language understanding of intents and entities. Baseline results show that the ENIGMA-51 dataset poses a challenging benchmark to study human-object interactions in industrial scenarios. We publicly release the dataset at: https://iplab.dmi.unict.it/ENIGMA-51/.
翻訳日:2023-09-27 14:15:48 公開日:2023-09-26
# 継続的学習におけるソフトマックスマスキングの再検討

Revisiting Softmax Masking for Stability in Continual Learning ( http://arxiv.org/abs/2309.14808v1 )

ライセンス: Link先を確認
Hoyong Kim, Minchan Kwon, Kangil Kim(参考訳) 連続学習では、多くの分類器がソフトマックス関数を使って信頼度を学習する。 しかし、多くの研究は、しばしばてんかんの不確実性と呼ばれる、外れ値の信頼分布を正確に決定できないことを指摘している。 この本質的な制限は、事前に訓練された信頼分布を、継続的な学習プロセスで忘れるべきものを選ぶための正確な判断をも短縮する。 この問題に対処するため,マスクソフトマックス関数の効果を再検討する。 この方法は、文献上では単純かつ一般的であるが、継続学習中の信頼分布を維持するための意味合いは、安定性としても知られ、過小評価されている。 本稿では,ソフトマックスマスキングの効果を再検討し,その信頼性維持効果を利用した手法を提案する。 メモリリプレイを伴わないクラスおよびタスクインクリメンタル学習ベンチマークでは,十分に大きな塑性を維持しながら安定性を著しく向上させる。 最後に、特にゼロメモリや小さなメモリでの使用において、最先端のメソッドよりも全体的なパフォーマンスを示す。 このことは、強力な安定なリプレイベースの連続学習のシンプルで効果的な基礎を築いた。

In continual learning, many classifiers use softmax function to learn confidence. However, numerous studies have pointed out its inability to accurately determine confidence distributions for outliers, often referred to as epistemic uncertainty. This inherent limitation also curtails the accurate decisions for selecting what to forget and keep in previously trained confidence distributions over continual learning process. To address the issue, we revisit the effects of masking softmax function. While this method is both simple and prevalent in literature, its implication for retaining confidence distribution during continual learning, also known as stability, has been under-investigated. In this paper, we revisit the impact of softmax masking, and introduce a methodology to utilize its confidence preservation effects. In class- and task-incremental learning benchmarks with and without memory replay, our approach significantly increases stability while maintaining sufficiently large plasticity. In the end, our methodology shows better overall performance than state-of-the-art methods, particularly in the use with zero or small memory. This lays a simple and effective foundation of strongly stable replay-based continual learning.
翻訳日:2023-09-27 14:15:30 公開日:2023-09-26
# サッカーマッチ予測モデルの評価:勾配ブースト木に対するディープラーニングアプローチと特徴最適化

Evaluating Soccer Match Prediction Models: A Deep Learning Approach and Feature Optimization for Gradient-Boosted Trees ( http://arxiv.org/abs/2309.14807v1 )

ライセンス: Link先を確認
Calvin Yeung, Rory Bunker, Rikuhei Umemoto, Keisuke Fujii(参考訳) 機械学習モデルは、サッカーの試合の結果を予測するためにますます人気になっているが、公開利用可能なベンチマークデータセットの欠如により、モデル評価が困難になっている。 2023年のサッカーの予測チャレンジでは、まず各チームが得点した正確なゴールについて、次に勝利、引き分け、負けの確率について、試合結果の予測が必要とされた。 当初のトレーニングセットは、2023年4月4日から4月13日にかけて追加試合が行われ、トレーニングセットが終了するまでの期間を表すが、予想される最初の試合(パフォーマンスが評価された期間)の前に拡張された。 この特徴としてpi-ratingsを用いたcatboostモデルを採用し,win/draw/loss確率の計算に最適であると考えられた。 特に、ディープラーニングモデルは、この特定のタスクでしばしば無視されている。 そこで本研究では,ディープラーニングモデルの性能を評価し,勾配ブースト木モデルの最適特徴集合を決定することを目的とした。 このモデルは、最新の5年間のデータを用いてトレーニングされ、3つのトレーニングセットと検証セットがハイパーパラメータグリッドサーチに使用された。 検証セットの結果,2017年のサッカー予測チャレンジのwin/draw/loss予測モデルと比較して,モデルの性能と安定性が向上したことがわかった。

Machine learning models have become increasingly popular for predicting the results of soccer matches, however, the lack of publicly-available benchmark datasets has made model evaluation challenging. The 2023 Soccer Prediction Challenge required the prediction of match results first in terms of the exact goals scored by each team, and second, in terms of the probabilities for a win, draw, and loss. The original training set of matches and features, which was provided for the competition, was augmented with additional matches that were played between 4 April and 13 April 2023, representing the period after which the training set ended, but prior to the first matches that were to be predicted (upon which the performance was evaluated). A CatBoost model was employed using pi-ratings as the features, which were initially identified as the optimal choice for calculating the win/draw/loss probabilities. Notably, deep learning models have frequently been disregarded in this particular task. Therefore, in this study, we aimed to assess the performance of a deep learning model and determine the optimal feature set for a gradient-boosted tree model. The model was trained using the most recent five years of data, and three training and validation sets were used in a hyperparameter grid search. The results from the validation sets show that our model had strong performance and stability compared to previously published models from the 2017 Soccer Prediction Challenge for win/draw/loss prediction.
翻訳日:2023-09-27 14:15:13 公開日:2023-09-26
# 3Dプリントによるリアルな指静脈ファントム

3D printed realistic finger vein phantoms ( http://arxiv.org/abs/2309.14806v1 )

ライセンス: Link先を確認
Luuk Spreeuwers, Rasmus van der Grift, Pesigrihastamadya Normakristagaluh(参考訳) 指静脈パターン認識は、提示攻撃に対する耐性と低いエラー率に優れたバイオメトリックスである。 1つの問題は、生の指から真理の指の静脈パターンを得ることが難しいことである。 そこで本研究では,3dプリンティングを用いた指静脈ファントムの作成法を提案し,様々な印刷材料とパラメータを用いて,指内の各種組織(骨,静脈,軟組織など)の光学的特性を模倣する手法を提案する。 我々は,現実的な指静脈像と正確に知られた静脈パターンをもたらす指孔を作成できることを実証した。 これらのファントムは、指静脈抽出および認識法の開発と評価に使用できる。 また, 指静脈のファントムを用いて, 指静脈認識システムを構築することも可能である。 本論文は,rasmus van der griftの修士論文に基づいている。

Finger vein pattern recognition is an emerging biometric with a good resistance to presentation attacks and low error rates. One problem is that it is hard to obtain ground truth finger vein patterns from live fingers. In this paper we propose an advanced method to create finger vein phantoms using 3D printing where we mimic the optical properties of the various tissues inside the fingers, like bone, veins and soft tissues using different printing materials and parameters. We demonstrate that we are able to create finger phantoms that result in realistic finger vein images and precisely known vein patterns. These phantoms can be used to develop and evaluate finger vein extraction and recognition methods. In addition, we show that the finger vein phantoms can be used to spoof a finger vein recognition system. This paper is based on the Master's thesis of Rasmus van der Grift.
翻訳日:2023-09-27 14:14:49 公開日:2023-09-26
# 複雑な情報抽出タスクのための微調整・整理質問応答モデル

Fine-tuning and aligning question answering models for complex information extraction tasks ( http://arxiv.org/abs/2309.14805v1 )

ライセンス: Link先を確認
Matthias Engelbach, Dennis Klau, Felix Scheerer, Jens Drawehn, Maximilien Kintz(参考訳) 大規模言語モデル(LLM)の出現は、様々なNLPタスクのパフォーマンスと可能性を高めた。 ChatGPTのような生成AIモデルの使用は、いくつかのビジネスユースケースで新たな機会を開く一方で、偽コンテンツを幻覚させる現在の傾向は、ドキュメントからの情報検索などのドキュメント分析の適用性を強く制限している。 対照的に、質問応答(QA)や通過検索モデルのような抽出言語モデルは、適切なコンテキスト文書の境界内にあるクエリ結果を保証するため、企業の生産環境においてより信頼性の高い情報抽出の候補となる。 本研究では,保険報告や医療用リーフレットなどのドイツのビジネス文書の特徴抽出を文書分析ソリューションに組み込むために,抽出型QAモデルを用いた手法を提案する。 さらに, 既存のドイツのQAモデルを微調整することで, 注釈付きデータのみを用いても, 損傷原因の説明や薬物の外観の説明などの複雑な言語的特徴の抽出タスクの性能が向上することを示す。 最後に,情報抽出タスクの評価における評価指標の妥当性を議論し,レベンシュテイン距離,f1-score,精密マッチング,ルージュlから総合指標を推定し,人間専門家の評価基準を模倣する。

The emergence of Large Language Models (LLMs) has boosted performance and possibilities in various NLP tasks. While the usage of generative AI models like ChatGPT opens up new opportunities for several business use cases, their current tendency to hallucinate fake content strongly limits their applicability to document analysis, such as information retrieval from documents. In contrast, extractive language models like question answering (QA) or passage retrieval models guarantee query results to be found within the boundaries of an according context document, which makes them candidates for more reliable information extraction in productive environments of companies. In this work we propose an approach that uses and integrates extractive QA models for improved feature extraction of German business documents such as insurance reports or medical leaflets into a document analysis solution. We further show that fine-tuning existing German QA models boosts performance for tailored extraction tasks of complex linguistic features like damage cause explanations or descriptions of medication appearance, even with using only a small set of annotated data. Finally, we discuss the relevance of scoring metrics for evaluating information extraction tasks and deduce a combined metric from Levenshtein distance, F1-Score, Exact Match and ROUGE-L to mimic the assessment criteria from human experts.
翻訳日:2023-09-27 14:14:34 公開日:2023-09-26
# 画像再構成のための3次元密度勾配に基づくニューラルレイディアンスフィールド(NeRF)のエッジ検出

3D Density-Gradient based Edge Detection on Neural Radiance Fields (NeRFs) for Geometric Reconstruction ( http://arxiv.org/abs/2309.14800v1 )

ライセンス: Link先を確認
Miriam J\"ager, Boris Jutzi(参考訳) ニューラルレイディアンス場(NeRF)から幾何学的3次元再構成を生成することは大きな関心事である。 しかし,密度値に基づく高精度かつ完全な復元は困難である。 ネットワーク出力は入力データ、NeRFネットワーク構成、ハイパーパラメータに依存する。 その結果、例えば、グローバルな密度閾値を持つフィルターを通しての密度値の直接使用は通常、経験的な調査を必要とする。 非対象領域から対象領域へ密度が増加するという仮定のもと、相対値からの密度勾配の利用が明らかである。 密度は位置依存パラメータを表すため、異方性に扱うことができるため、ボクセル化3次元密度場の処理が正当化される。 本研究では密度勾配に基づく幾何学的3次元再構成に対処する一方、勾配は第1および第2微分の3次元エッジ検出フィルタ、すなわちガウスのソベル、カニー、ラプラシアンによる。 勾配は全ての方向の相対隣接密度値に依存するため、絶対等級とは独立である。 その結果、勾配フィルタは広い密度範囲のエッジを抽出することができ、仮定や経験的研究からほぼ独立している。 本手法は,物体表面の幾何学的精度と目覚ましい物体完全性を有する幾何学的3次元再構成を実現する能力を示す。 特に、Cannyフィルタはギャップを効果的に排除し、均一な点密度を提供し、シーン全体の正確性と完全性の間に好適なバランスを取る。

Generating geometric 3D reconstructions from Neural Radiance Fields (NeRFs) is of great interest. However, accurate and complete reconstructions based on the density values are challenging. The network output depends on input data, NeRF network configuration and hyperparameter. As a result, the direct usage of density values, e.g. via filtering with global density thresholds, usually requires empirical investigations. Under the assumption that the density increases from non-object to object area, the utilization of density gradients from relative values is evident. As the density represents a position-dependent parameter it can be handled anisotropically, therefore processing of the voxelized 3D density field is justified. In this regard, we address geometric 3D reconstructions based on density gradients, whereas the gradients result from 3D edge detection filters of the first and second derivatives, namely Sobel, Canny and Laplacian of Gaussian. The gradients rely on relative neighboring density values in all directions, thus are independent from absolute magnitudes. Consequently, gradient filters are able to extract edges along a wide density range, almost independent from assumptions and empirical investigations. Our approach demonstrates the capability to achieve geometric 3D reconstructions with high geometric accuracy on object surfaces and remarkable object completeness. Notably, Canny filter effectively eliminates gaps, delivers a uniform point density, and strikes a favorable balance between correctness and completeness across the scenes.
翻訳日:2023-09-27 14:14:13 公開日:2023-09-26
# 注意的知識追跡のための予測型線形バイアス

Forgetting-aware Linear Bias for Attentive Knowledge Tracing ( http://arxiv.org/abs/2309.14796v1 )

ライセンス: Link先を確認
Yoonjin Im, Eunseong Choi, Heejin Kook, Jongwuk Lee(参考訳) KT(Knowledge Tracing)は,質問解決履歴に基づいて習熟度を追跡することを目的として,合理化されたカリキュラムを提供する。 最近の研究は、注意に基づくメカニズムを積極的に活用し、質問間の相関を捉え、学習者の応答特性と組み合わせている。 しかしながら,既存の注意に基づくKTモデルは,特にインタラクション履歴が長くなるにつれて,学習者の忘れ行動を無視している。 この問題は、忘れることの影響を不注意に無視しながら、質問の相関を過度に優先するバイアスから生じる。 本稿では,忘れる動作を線形バイアスとして反映する,単純なイエト効率な解法,すなわちrelookting-aware linear bias (folibi)を提案する。 その単純さにもかかわらず、FoLiBiは既存の注意深いKTモデルを備えており、問題相関と忘れる動作を効果的に分解する。 複数のKTモデルでプラグインされたFoLiBiは、4つのベンチマークデータセット上の最先端KTモデルよりも、AUCで最大2.58%改善されている。

Knowledge Tracing (KT) aims to track proficiency based on a question-solving history, allowing us to offer a streamlined curriculum. Recent studies actively utilize attention-based mechanisms to capture the correlation between questions and combine it with the learner's characteristics for responses. However, our empirical study shows that existing attention-based KT models neglect the learner's forgetting behavior, especially as the interaction history becomes longer. This problem arises from the bias that overprioritizes the correlation of questions while inadvertently ignoring the impact of forgetting behavior. This paper proposes a simple-yet-effective solution, namely Forgetting-aware Linear Bias (FoLiBi), to reflect forgetting behavior as a linear bias. Despite its simplicity, FoLiBi is readily equipped with existing attentive KT models by effectively decomposing question correlations with forgetting behavior. FoLiBi plugged with several KT models yields a consistent improvement of up to 2.58% in AUC over state-of-the-art KT models on four benchmark datasets.
翻訳日:2023-09-27 14:13:48 公開日:2023-09-26
# 動きデータに基づく車線配置への信号のセマンティックマップ学習

Semantic Map Learning of Traffic Light to Lane Assignment based on Motion Data ( http://arxiv.org/abs/2309.14793v1 )

ライセンス: Link先を確認
Thomas Monninger, Andreas Weber, Steffen Staab(参考訳) どの車線が交差点を安全に移動するのに不可欠かを理解する。 自動運転車は通常、車線への信号の割り当てに関する情報を含むHigh Definition (HD)マップに依存している。 この情報の手動プロビジョニングは退屈で高価であり、スケーラブルではない。 この問題に対処するため,提案手法では,車両の信号状態と対応する移動パターンから課題を導出する。 これは幾何学的配置とは独立して、自動化された方法で動作する。 本稿では,パターンに基づく貢献手法を実装し評価することで,この課題に対する基本的な統計的アプローチの有効性を示す。 また,提案手法は,統計的仮説テストを活用することで安全性を考慮に入れた。 最後に,セマンティックマップ学習のための動き予測データセットを再利用するためのデータセット変換を提案する。 Lyft Level 5データセット用の公開APIによって、研究者は独自のアプローチを開発し、評価することができます。

Understanding which traffic light controls which lane is crucial to navigate intersections safely. Autonomous vehicles commonly rely on High Definition (HD) maps that contain information about the assignment of traffic lights to lanes. The manual provisioning of this information is tedious, expensive, and not scalable. To remedy these issues, our novel approach derives the assignments from traffic light states and the corresponding motion patterns of vehicle traffic. This works in an automated way and independently of the geometric arrangement. We show the effectiveness of basic statistical approaches for this task by implementing and evaluating a pattern-based contribution method. In addition, our novel rejection method includes accompanying safety considerations by leveraging statistical hypothesis testing. Finally, we propose a dataset transformation to re-purpose available motion prediction datasets for semantic map learning. Our publicly available API for the Lyft Level 5 dataset enables researchers to develop and evaluate their own approaches.
翻訳日:2023-09-27 14:13:30 公開日:2023-09-26
# 教師なしビデオオブジェクトセグメンテーションにおける出力選択による動作のオプション化

Treating Motion as Option with Output Selection for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2309.14786v1 )

ライセンス: Link先を確認
Suhwan Cho, Minhyeok Lee, Jungho Lee, MyeongAh Cho, Sangyoun Lee(参考訳) 教師なしビデオオブジェクトセグメンテーション(英: unsupervised video object segmentation、vos)は、ビデオ内の最も有能なオブジェクトを外部の指示なしに検出することを目的としたタスクである。 近年の手法では,光フローマップから抽出した動きの手がかりと,rgb画像から抽出した外観の手がかりを協調的に利用する手法が提案されている。 しかしながら、光フローマップは通常、セグメンテーションマスクに非常に関係があるため、ネットワークトレーニング中の動きの手がかりに過度に依存して学習することが容易である。 その結果、このような2ストリームのアプローチは、混乱した動きの手がかりに弱いため、予測が不安定になる。 この問題を軽減するために,モーションキューを任意として扱うことで,新たなモーション・アズ・オプションネットワークを設計する。 ネットワークトレーニング中、RGB画像は光フローマップの代わりにモーションエンコーダにランダムに提供され、ネットワークの動作依存性を暗黙的に低減する。 学習したモーションエンコーダは、RGB画像と光フローマップの両方に対応できるため、どのソース情報がモーション入力として使用されるかによって、2つの異なる予測を生成することができる。 また、この特性を完全に活用するために、テスト時に最適な予測結果を採用する適応出力選択アルゴリズムを提案する。 提案手法は,リアルタイムの推論速度を維持しつつ,すべての公開ベンチマークデータセット上での最先端のパフォーマンスを実現する。

Unsupervised video object segmentation (VOS) is a task that aims to detect the most salient object in a video without external guidance about the object. To leverage the property that salient objects usually have distinctive movements compared to the background, recent methods collaboratively use motion cues extracted from optical flow maps with appearance cues extracted from RGB images. However, as optical flow maps are usually very relevant to segmentation masks, the network is easy to be learned overly dependent on the motion cues during network training. As a result, such two-stream approaches are vulnerable to confusing motion cues, making their prediction unstable. To relieve this issue, we design a novel motion-as-option network by treating motion cues as optional. During network training, RGB images are randomly provided to the motion encoder instead of optical flow maps, to implicitly reduce motion dependency of the network. As the learned motion encoder can deal with both RGB images and optical flow maps, two different predictions can be generated depending on which source information is used as motion input. In order to fully exploit this property, we also propose an adaptive output selection algorithm to adopt optimal prediction result at test time. Our proposed approach affords state-of-the-art performance on all public benchmark datasets, even maintaining real-time inference speed.
翻訳日:2023-09-27 14:13:18 公開日:2023-09-26
# クリフォード群の文字表について

On character table of Clifford groups ( http://arxiv.org/abs/2309.14850v1 )

ライセンス: Link先を確認
Chin-Yen Lee, Wei-Hsuan Yu, Yung-Ning Peng, Ching-Jui Lai(参考訳) _\mathcal{c}_n$ の表現と [gap] の助けに基づいて、clifford 群 $\mathcal{c}_n$ の文字テーブルを $n=1,2,3$ で構築する。 応用として、これらの場合において、行列表現のテンソル積(高次)を効率的に分解することができる。 その結果,[HWW, WF]の既知結果が回復し, 新たな現象が明らかになった。 自明な文字が$\mathcal{C}_n$ の唯一の線型文字であることを証明するので、$\mathcal{C}_n$ は $n\geq 3$ のときその可換部分群と等しい。 一般$n$に対する$\mathcal{C}_n$に関するいくつかの予想が提案されている。

Based on a presentation of $\mathcal{C}_n$ and the help of [GAP], we construct the character table of the Clifford group $\mathcal{C}_n$ for $n=1,2,3$. As an application, we can efficiently decompose the (higher power of) tensor product of the matrix representation in those cases. Our results recover some known results in [HWW, WF] and reveal some new phenomena. We prove that the trivial character is the only linear character for $\mathcal{C}_n$ and hence $\mathcal{C}_n$ equals to its commutator subgroup when $n\geq 3$. A few conjectures about $\mathcal{C}_n$ for general $n$ are proposed.
翻訳日:2023-09-27 14:04:20 公開日:2023-09-26
# 二次非拘束二元最適化問題に対するrydberg-atomグラフ

Rydberg-atom graphs for quadratic unconstrained binary optimization problems ( http://arxiv.org/abs/2309.14847v1 )

ライセンス: Link先を確認
Andrew Byun, Junwoo Jung, Kangheun Kim, Minhyuk Kim, Seokho Jeong, Heejeong Jeong and Jaewook Ahn(参考訳) 複雑な組合せ最適化問題に対処するために、Rydberg-atomシステムの可能性を活用することへの関心が高まっている。 ここでは、Rydberg-atom graphsを用いて2次非制約二元最適化(QUBO)問題を効果的に処理する方法を実験的に示す。 rydberg-atomグラフは、数理グラフに編成された中性原子の構成であり、プログラマブルな光学トウィーザーによって促進され、それぞれのグラフの最大独立集合 (mis) に対応する多体基底状態を示すように設計された。 我々は,局所制御の必要性をなくすだけでなく,原子間距離誤差に対して頑健であるとともに,一般的なQUBOグラフの定式化に十分なビルディングブロックとして機能する,4つの基本Rydberg-atomサブグラフコンポーネントを開発した。 提案手法の有効性を検証するため,これらのブロックの概念実証を行うために,Rydberg-atom実験を行った。 これらの実験は、これらの成分を用いて、QUBO問題をRydberg-atom graphにプログラム的にエンコードし、多体基底状態を測定することによって、QUBOの解がどのように決定されるかを示す。

There is a growing interest in harnessing the potential of the Rydberg-atom system to address complex combinatorial optimization challenges. Here we present an experimental demonstration of how the quadratic unconstrained binary optimization (QUBO) problem can be effectively addressed using Rydberg-atom graphs. The Rydberg-atom graphs are configurations of neutral atoms organized into mathematical graphs, facilitated by programmable optical tweezers, and designed to exhibit many-body ground states that correspond to the maximum independent set (MIS) of their respective graphs. We have developed four elementary Rydberg-atom subgraph components, not only to eliminate the need of local control but also to be robust against interatomic distance errors, while serving as the building blocks sufficient for formulating generic QUBO graphs. To validate the feasibility of our approach, we have conducted a series of Rydberg-atom experiments selected to demonstrate proof-of-concept operations of these building blocks. These experiments illustrate how these components can be used to programmatically encode the QUBO problems to Rydberg-atom graphs and, by measuring their many-body ground states, how their QUBO solutions are determined subsequently.
翻訳日:2023-09-27 14:04:04 公開日:2023-09-26
# Supersonic: C/C++でソースコード最適化を生成することを学ぶ

Supersonic: Learning to Generate Source Code Optimisations in C/C++ ( http://arxiv.org/abs/2309.14846v1 )

ライセンス: Link先を確認
Zimin Chen, Sen Fang and Martin Monperrus(参考訳) ソフトウェア最適化は、機能を維持しながら、リソース効率のプログラムを洗練する。 伝統的に、これは開発者とコンパイラが行うプロセスである。 本稿では,第3の選択肢であるソースコードレベルでの自動最適化を提案する。 最適化のためのマイナーソースコード修正を目的としたニューラルネットワークであるSupersonicを提案する。 seq2seqモデルを使用して、SupersonicはC/C++プログラムペア($x_{t}$, $x_{t+1}$)でトレーニングされ、$x_{t+1}$は$x_{t}$の最適化バージョンであり、差分を出力する。 Supersonicのパフォーマンスは、OpenAIのGPT-3.5-TurboとGPT-4の競合プログラミングタスクに対してベンチマークされる。 実験の結果、Supersonicはコード最適化タスクにおいて両方のモデルを上回るだけでなく、GPT-3.5-Turboより600倍、GPT-4より3700倍小さい変更範囲を最小化できることがわかった。

Software optimization refines programs for resource efficiency while preserving functionality. Traditionally, it is a process done by developers and compilers. This paper introduces a third option, automated optimization at the source code level. We present Supersonic, a neural approach targeting minor source code modifications for optimization. Using a seq2seq model, Supersonic is trained on C/C++ program pairs ($x_{t}$, $x_{t+1}$), where $x_{t+1}$ is an optimized version of $x_{t}$, and outputs a diff. Supersonic's performance is benchmarked against OpenAI's GPT-3.5-Turbo and GPT-4 on competitive programming tasks. The experiments show that Supersonic not only outperforms both models on the code optimization task, but also minimizes the extent of change with a more than 600x smaller than GPT-3.5-Turbo and 3700x smaller than GPT-4.
翻訳日:2023-09-27 14:03:38 公開日:2023-09-26
# 調理ロボットの注意機構を用いたアクティブ知覚によるリアルタイム動作生成

Realtime Motion Generation with Active Perception Using Attention Mechanism for Cooking Robot ( http://arxiv.org/abs/2309.14837v1 )

ライセンス: Link先を確認
Namiko Saito, Mayu Hiramoto, Ayuna Kubo, Kanata Suzuki, Hiroshi Ito, Shigeki Sugano and Tetsuya Ogata(参考訳) 人間を日常生活で支えるためには、ロボットは自律的に学習し、物体や環境に適応し、適切な行動を行う必要がある。 実際の材料を用いてスクランブルエッグを調理する作業に取り組んだところ、ロボットは卵の状態を認識し、卵を加熱し、状態を継続的に変化させながら、リアルタイムで刺激運動を調整する必要があることがわかった。 従来の研究では、知覚情報には動的情報、重要情報、ノイズ情報の両方が含まれており、常に変化に重きを置くべきモダリティがあるため、知覚と運動の両方をリアルタイムで実現することが困難であった。 センサ入力を重み付け、各モダリティの重要性と信頼性を識別し、迅速かつ効率的な知覚と運動生成を実現する、注意機構を備えた予測再帰型ニューラルネットワークを提案する。 モデルはデモから学習して訓練され、ロボットが人間のようなスキルを身につけることができる。 提案手法をロボットDry-AIRECを用いて検証し,学習モデルを用いて調理卵を未知の材料で調理できることを確認した。 ロボットは、卵の状態に応じてかき混ぜ方や方向を変えることができ、最初はポット全体をかき混ぜるが、その後、卵が加熱された後、特定の領域を対象とする動きを反転させ、分割する。

To support humans in their daily lives, robots are required to autonomously learn, adapt to objects and environments, and perform the appropriate actions. We tackled on the task of cooking scrambled eggs using real ingredients, in which the robot needs to perceive the states of the egg and adjust stirring movement in real time, while the egg is heated and the state changes continuously. In previous works, handling changing objects was found to be challenging because sensory information includes dynamical, both important or noisy information, and the modality which should be focused on changes every time, making it difficult to realize both perception and motion generation in real time. We propose a predictive recurrent neural network with an attention mechanism that can weigh the sensor input, distinguishing how important and reliable each modality is, that realize quick and efficient perception and motion generation. The model is trained with learning from the demonstration, and allows the robot to acquire human-like skills. We validated the proposed technique using the robot, Dry-AIREC, and with our learning model, it could perform cooking eggs with unknown ingredients. The robot could change the method of stirring and direction depending on the status of the egg, as in the beginning it stirs in the whole pot, then subsequently, after the egg started being heated, it starts flipping and splitting motion targeting specific areas, although we did not explicitly indicate them.
翻訳日:2023-09-27 14:03:22 公開日:2023-09-26
# 原子が崩壊する瞬間のタイミング(そしてシュレーディンガーの猫が死ぬ)

Timing the moment when atom decays (and Schroedinger's cat dies) ( http://arxiv.org/abs/2309.14825v1 )

ライセンス: Link先を確認
D. Sokolovski, A. Uranga, E. Akhmatskaya(参考訳) 原子が光子を発する瞬間を、ほぼ古典的なマクロ時計を用いて検出し、その生存可能性について議論する。 このような測定で何が起こるかは、時計の精度と光子に利用可能なエネルギー範囲の幅の関係に依存することが示されている。 Schroedingerの猫問題に対する解析の意義が報告されている。

We propose detecting the moment an atom emits a photon by means of a nearly classical macroscopic clock and discuss its viability. It is shown that what happens in such a measurement depends on the relation between the clock's accuracy and the width of the energy range available to the photon. Implications of the analysis for the long standing Schroedinger's cat problem are reported.
翻訳日:2023-09-27 14:02:58 公開日:2023-09-26
# ワンショット3DスキャンにおけるCNNによる画素単位位相推定の一般化とMRF最適化による位相アンラッピングの改善

Generalization of pixel-wise phase estimation by CNN and improvement of phase-unwrapping by MRF optimization for one-shot 3D scan ( http://arxiv.org/abs/2309.14824v1 )

ライセンス: Link先を確認
Hiroto Harada, Michihiro Mikamo, Ryo Furukawa, Ryushuke Sagawa, Hiroshi Kawasaki(参考訳) シングルパターンプロジェクション(ワンショット3Dスキャン)を用いたアクティブステレオ技術は、産業や医療目的などから広く注目を集めている。 ワンショット3Dスキャンの深刻な欠点はスパース再構成である。 また,効率のよい埋込みのために空間パターンが複雑になるため,ノイズの影響が容易となり,不安定な復号化が図られる。 そこで本研究では,このパターンが正規かつ周期的であれば,任意の静的パターンに適用可能な,ワンショットスキャンのための画素ワイズ補間手法を提案する。 これは、効率的なデータ拡張アルゴリズムでCGによって事前訓練されたU-netによって実現される。 本稿では,デコード不安定性をさらに克服するために,マルコフ確率場(MRF)最適化に基づくロバスト対応探索アルゴリズムを提案する。 また,b-spline と Gaussian のカーネル補間を明示的に検出したレーザ曲線を用いた形状改善アルゴリズムを提案する。 音やテクスチャの強い実データを用いて,提案手法の有効性を示す実験を行った。

Active stereo technique using single pattern projection, a.k.a. one-shot 3D scan, have drawn a wide attention from industry, medical purposes, etc. One severe drawback of one-shot 3D scan is sparse reconstruction. In addition, since spatial pattern becomes complicated for the purpose of efficient embedding, it is easily affected by noise, which results in unstable decoding. To solve the problems, we propose a pixel-wise interpolation technique for one-shot scan, which is applicable to any types of static pattern if the pattern is regular and periodic. This is achieved by U-net which is pre-trained by CG with efficient data augmentation algorithm. In the paper, to further overcome the decoding instability, we propose a robust correspondence finding algorithm based on Markov random field (MRF) optimization. We also propose a shape refinement algorithm based on b-spline and Gaussian kernel interpolation using explicitly detected laser curves. Experiments are conducted to show the effectiveness of the proposed method using real data with strong noises and textures.
翻訳日:2023-09-27 14:02:51 公開日:2023-09-26
# セグメントフリーストリーミング機械翻訳

Segmentation-Free Streaming Machine Translation ( http://arxiv.org/abs/2309.14823v1 )

ライセンス: Link先を確認
Javier Iranzo-S\'anchez and Jorge Iranzo-S\'anchez and Adri\`a Gim\'enez and Jorge Civera and Alfons Juan(参考訳) Streaming Machine Translation (MT)は、非有界な入力テキストストリームをリアルタイムで翻訳するタスクである。 ASR(Automatic Speech Recognition)とMT(MT)システムを組み合わせた従来のカスケード手法は、転写ストリームを文のような単位に分割する中間セグメンテーションステップに依存している。 しかし、ハードセグメンテーションの組み入れはMTシステムに制約を与え、エラーの原因となる。 本稿では,セグメンテーション決定を翻訳が生成されるまで遅らせることで,非セグメンテーションソースストリームの変換を可能にするセグメンテーションフリーフレームワークを提案する。 大規模な実験は、提案されたセグメンテーションフリーフレームワークが、独立したセグメンテーションモデルを使用する競合するアプローチよりも品質とレイテンシのトレードオフが優れていることを示している。 ソフトウェア、データ、モデルは、紙が受け入れられるとリリースされる。

Streaming Machine Translation (MT) is the task of translating an unbounded input text stream in real-time. The traditional cascade approach, which combines an Automatic Speech Recognition (ASR) and an MT system, relies on an intermediate segmentation step which splits the transcription stream into sentence-like units. However, the incorporation of a hard segmentation constrains the MT system and is a source of errors. This paper proposes a Segmentation-Free framework that enables the model to translate an unsegmented source stream by delaying the segmentation decision until the translation has been generated. Extensive experiments show how the proposed Segmentation-Free framework has better quality-latency trade-off than competing approaches that use an independent segmentation model. Software, data and models will be released upon paper acceptance.
翻訳日:2023-09-27 14:02:35 公開日:2023-09-26
# OS-net: 軌道安定ニューラルネットワーク

OS-net: Orbitally Stable Neural Networks ( http://arxiv.org/abs/2309.14822v1 )

ライセンス: Link先を確認
Marieme Ngom and Carlo Graziani(参考訳) os-net (orbitally stable neural networks) は周期的動的データ専用に設計された新しいニューラルネットワークアーキテクチャである。 OS-netはニューラル正規微分方程式(NODE)の特殊な場合であり、随伴法に基づくバックプロパゲーション法を最大限に活用する。 ODE理論を用いることで、ネットワーク重みの条件を導出し、結果のダイナミクスの安定性を確保する。 我々はOS-netを適用してR\"{o}ssler と Sprott のシステムの基盤となる力学を解明し,このアプローチの有効性を実証する。

We introduce OS-net (Orbitally Stable neural NETworks), a new family of neural network architectures specifically designed for periodic dynamical data. OS-net is a special case of Neural Ordinary Differential Equations (NODEs) and takes full advantage of the adjoint method based backpropagation method. Utilizing ODE theory, we derive conditions on the network weights to ensure stability of the resulting dynamics. We demonstrate the efficacy of our approach by applying OS-net to discover the dynamics underlying the R\"{o}ssler and Sprott's systems, two dynamical systems known for their period doubling attractors and chaotic behavior.
翻訳日:2023-09-27 14:02:20 公開日:2023-09-26
# 最新の統計モデルを用いた多視点からの多次元高ダイナミック物体の3次元追跡

Three-dimensional Tracking of a Large Number of High Dynamic Objects from Multiple Views using Current Statistical Model ( http://arxiv.org/abs/2309.14820v1 )

ライセンス: Link先を確認
Nianhao Xie(参考訳) 複数の視点からの複数の物体の3次元追跡は、特に研究対象の正確な軌跡を必要とする生物クラスターの挙動の研究において幅広い応用がある。 しかし、物体が互いに類似し、頻繁に操作され、多数のクラスタを持つ場合、時間空間的不確実性は大きい。 このような多視点マルチオブジェクト3次元トラッキングシナリオを念頭に,現在の統計モデルに基づくカルマン粒子フィルタ (cskpf) 法を提案する。 CSKPFアルゴリズムは、対象の状態を予測し、現在の統計モデルによりオブジェクトの状態共分散を推定し、粒子サンプリング効率を重要視し、カルマンフィルタによる測定ノイズを抑制する。 シミュレーション実験により, cskpf法が既存の定数速度ベース粒子フィルタ(cvpf)法と比較して, 追従性, 連続性, 精度を向上させることを証明した。 実実験では、CSKPF法の有効性も確認されている。

Three-dimensional tracking of multiple objects from multiple views has a wide range of applications, especially in the study of bio-cluster behavior which requires precise trajectories of research objects. However, there are significant temporal-spatial association uncertainties when the objects are similar to each other, frequently maneuver, and cluster in large numbers. Aiming at such a multi-view multi-object 3D tracking scenario, a current statistical model based Kalman particle filter (CSKPF) method is proposed following the Bayesian tracking-while-reconstruction framework. The CSKPF algorithm predicts the objects' states and estimates the objects' state covariance by the current statistical model to importance particle sampling efficiency, and suppresses the measurement noise by the Kalman filter. The simulation experiments prove that the CSKPF method can improve the tracking integrity, continuity, and precision compared with the existing constant velocity based particle filter (CVPF) method. The real experiment on fruitfly clusters also confirms the effectiveness of the CSKPF method.
翻訳日:2023-09-27 14:02:05 公開日:2023-09-26
# 相違点:整合性デコーダの特徴から学ぶ : 整合性半教師型医用画像分割法

Discrepancy Matters: Learning from Inconsistent Decoder Features for Consistent Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.14819v1 )

ライセンス: Link先を確認
Qingjie Zeng, Yutong Xie, Zilin Lu, Mengkang Lu and Yong Xia(参考訳) 半教師付き学習(SSL)は,特に容積的医用画像分割作業におけるラベル付きデータの問題を軽減するために有用であることが証明されている。 信頼度の高い擬似ラベルの探索や一貫性の正則化手法の開発に重点を置いた従来のSSL手法とは異なり,2つのデコーダが一貫した予測を生成すると,一貫性のないデコーダ機能が自然に現れることが実証された。 そこで本研究では, 擬似ラベルと一貫性正規化設定の両方において, 一貫性への学習における不一致の宝を最初に分析し, 2つのデコーダから得られた特徴レベルの不一致をエンコーダにフィードバック信号として与えて学習する, lefedと呼ばれる新しいssl法を提案する。 LeFeDの中核となる設計は、区別されたデコーダをトレーニングすることで違いを拡大し、一貫性のない情報から反復的に学習することである。 我々は3つの公開データセット上の8つの最先端(SOTA)手法に対してLeFeDを評価する。 実験によると、LeFeDは、不確実性推定や強い制約など、競争相手を圧倒し、また、半監督された医療画像セグメンテーションのための新しい最先端技術を確立する。 コードはtextcolor{cyan}{https://github.com/maxwell0027/lefed}で利用可能である。

Semi-supervised learning (SSL) has been proven beneficial for mitigating the issue of limited labeled data especially on the task of volumetric medical image segmentation. Unlike previous SSL methods which focus on exploring highly confident pseudo-labels or developing consistency regularization schemes, our empirical findings suggest that inconsistent decoder features emerge naturally when two decoders strive to generate consistent predictions. Based on the observation, we first analyze the treasure of discrepancy in learning towards consistency, under both pseudo-labeling and consistency regularization settings, and subsequently propose a novel SSL method called LeFeD, which learns the feature-level discrepancy obtained from two decoders, by feeding the discrepancy as a feedback signal to the encoder. The core design of LeFeD is to enlarge the difference by training differentiated decoders, and then learn from the inconsistent information iteratively. We evaluate LeFeD against eight state-of-the-art (SOTA) methods on three public datasets. Experiments show LeFeD surpasses competitors without any bells and whistles such as uncertainty estimation and strong constraints, as well as setting a new state-of-the-art for semi-supervised medical image segmentation. Code is available at \textcolor{cyan}{https://github.com/maxwell0027/LeFeD}
翻訳日:2023-09-27 14:01:48 公開日:2023-09-26
# 衛星画像GANの潜時空間解釈のための局所保存方向

Locality-preserving Directions for Interpreting the Latent Space of Satellite Image GANs ( http://arxiv.org/abs/2309.14883v1 )

ライセンス: Link先を確認
Georgia Kourmouli, Nikos Kostagiolas, Yannis Panagakis, Mihalis A. Nicolaou(参考訳) 本稿では,衛星画像に特有の大きな空間的・スペクトル的変動をよく捉えた,ウェーブレット型生成逆ネットワーク(gans)の潜在空間を解釈する局所性認識手法を提案する。 局所性を保存することに集中して、事前学習したGANの重量空間を分解し、衛星画像のガイド合成に使用できる高レベルの意味概念(都市化、構造密度、植物相の存在など)に対応する解釈可能な方向を復元することができる。 減次元空間における重み空間の変動性(すなわち主成分分析(pca)に基づく)を捉えることに焦点を当てた一般的な手法とは対照的に、局所性を保つことは異なる角度のベクトルにつながり、アーティファクトに対してより頑健であり、クラス情報をよりよく保存できることを示す。 定量的および定性的な例の集合により,提案手法は,衛星シーン分類におけるデータ拡張の文脈において,データ合成のためのグローバルなPCAベースのアプローチと同様に,ベースライン幾何学的拡張よりも優れていることを示す。

We present a locality-aware method for interpreting the latent space of wavelet-based Generative Adversarial Networks (GANs), that can well capture the large spatial and spectral variability that is characteristic to satellite imagery. By focusing on preserving locality, the proposed method is able to decompose the weight-space of pre-trained GANs and recover interpretable directions that correspond to high-level semantic concepts (such as urbanization, structure density, flora presence) - that can subsequently be used for guided synthesis of satellite imagery. In contrast to typically used approaches that focus on capturing the variability of the weight-space in a reduced dimensionality space (i.e., based on Principal Component Analysis, PCA), we show that preserving locality leads to vectors with different angles, that are more robust to artifacts and can better preserve class information. Via a set of quantitative and qualitative examples, we further show that the proposed approach can outperform both baseline geometric augmentations, as well as global, PCA-based approaches for data synthesis in the context of data augmentation for satellite scene classification.
翻訳日:2023-09-27 13:55:18 公開日:2023-09-26
# サブスペース学習に基づくワンクラス分類によるクレジットカード不正検出

Credit Card Fraud Detection with Subspace Learning-based One-Class Classification ( http://arxiv.org/abs/2309.14880v1 )

ライセンス: Link先を確認
Zaffar Zaffar, Fahad Sohrab, Juho Kanniainen, Moncef Gabbouj(参考訳) デジタル化が進む商業環境において、クレジットカード詐欺の拡散と高度な詐欺技術の進化は、相当な経済的損失をもたらした。 クレジットカード不正検出の自動化は、検出を加速し、応答時間を短縮し、潜在的金融損失を最小限にする有効な方法である。 しかし、この課題に対処するには、データセットの非常に不均衡な性質が複雑である。 さらに、特徴集合内の多くの次元は「次元の帰結」をもたらす。 本稿では,不均衡なデータ分布の処理に優れ,未発明の不正行為を予測・対処する能力を有する,一クラス分類(OCC)アルゴリズムを中心としたサブスペース学習アプローチについて検討する。 この研究は、現在の不正検出戦略の限界とクレジットカード不正検出の具体的な課題を調べることで、サブスペース学習に基づくOCCアルゴリズムの可能性を強調した。 これらのアルゴリズムは部分空間学習をデータ記述に統合し、OCCに最適化された低次元の部分空間に変換する。 厳密な実験と分析を通じて,提案手法は,不正行為による金銭的損失を軽減するために,クレジットカードデータの不正性と不均衡性に対処する上で有効であることを検証した。

In an increasingly digitalized commerce landscape, the proliferation of credit card fraud and the evolution of sophisticated fraudulent techniques have led to substantial financial losses. Automating credit card fraud detection is a viable way to accelerate detection, reducing response times and minimizing potential financial losses. However, addressing this challenge is complicated by the highly imbalanced nature of the datasets, where genuine transactions vastly outnumber fraudulent ones. Furthermore, the high number of dimensions within the feature set gives rise to the ``curse of dimensionality". In this paper, we investigate subspace learning-based approaches centered on One-Class Classification (OCC) algorithms, which excel in handling imbalanced data distributions and possess the capability to anticipate and counter the transactions carried out by yet-to-be-invented fraud techniques. The study highlights the potential of subspace learning-based OCC algorithms by investigating the limitations of current fraud detection strategies and the specific challenges of credit card fraud detection. These algorithms integrate subspace learning into the data description; hence, the models transform the data into a lower-dimensional subspace optimized for OCC. Through rigorous experimentation and analysis, the study validated that the proposed approach helps tackle the curse of dimensionality and the imbalanced nature of credit card data for automatic fraud detection to mitigate financial losses caused by fraudulent activities.
翻訳日:2023-09-27 13:54:54 公開日:2023-09-26
# 芸術におけるAIの説明可能な持続可能性

Explainable Sustainability for AI in the Arts ( http://arxiv.org/abs/2309.14877v1 )

ライセンス: Link先を確認
Petra J\"A\"Askel\"Ainen(参考訳) AIは、芸術的プラクティスでますます人気が高まっている。しかし、AIの環境への影響(およびその他の持続可能性の影響)について実践者に知らせるためのツールは、創造的なプラクティスよりも他の文脈に適応している。 本稿では,AIアーツのための環境持続可能性リフレクションシステムの開発を目的とした2つの実証的研究について述べるとともに,AIアーツにおける説明可能なサステナビリティについて論じ,紹介する。

AI is becoming increasingly popular in artistic practices, but the tools for informing practitioners about the environmental impact (and other sustainability implications) of AI are adapted for other contexts than creative practices -- making the tools and sustainability implications of AI not accessible for artists and creative practitioners. In this position paper, I describe two empirical studies that aim to develop environmental sustainability reflection systems for AI Arts, and discuss and introduce Explainable Sustainability in for AI Arts.
翻訳日:2023-09-27 13:54:31 公開日:2023-09-26
# AIコンプライアンスを管理するフレームワークAPPRAISE

APPRAISE: a framework for managing AI compliance ( http://arxiv.org/abs/2309.14876v1 )

ライセンス: Link先を確認
Diptish Dey and Debarati Bhaumik(参考訳) AIシステムが社会にますます影響を及ぼす中、EU AI Act(AIA)は、望ましくない効果を封じ込めようとする最初の真剣な試みである。 この法律では、監査をメカニズムとして、コンプライアンス製品をコンプライアンスを示すためのツールとして提案している。 本稿では,AIコンプライアンスを管理するためのフレームワークであるAPPRAISEを提案する。 このフレームワークは、AIシステムの革新を通じて株主価値を生み出すことと、組織プロセスを通じてコンプライアンスを管理することは、最終的に責任を負う価値をもたらすという論理に基づいている。 AIAコンプライアンス製品に準拠することで、フレームワークは運用され、従ってコンプライアンスを保護する。 さらに, 限られた範囲の2相実験を行った。 この実験は、AIシステムの技術的要素が最終的にAIAに適合する範囲を測定することを目的としている。 第1フェーズでは,調査を実施し,第2フェーズでは,いくつかの回答者とともに調査結果を検証して,詳細な洞察と根本原因を生成する。

As AI systems increasingly impact society, the EU AI Act (AIA) is the first serious attempt to contain its less desired effects. Among others the act proposes audit as a mechanism and compliance products as tools for organizations to demonstrate compliance. In this paper, a framework for managing AI compliance, APPRAISE, is proposed. The framework is built upon the rationale that driving a balance between generating shareholder value through innovation in AI systems and managing compliance through organizational processes will eventually result in value that is responsible. By adhering to AIA compliance products, the framework operationalizes and hence safeguards compliance. Furthermore, a two-phase experiment with a limited scope is presented. The experiment aims to measure the extent to which companies coordinate technical elements of AI systems to ultimately comply with the AIA. In the first phase a survey is conducted and in the second phase the survey results are validated with a couple of respondents to generate additional in-depth insights and root causes.
翻訳日:2023-09-27 13:54:22 公開日:2023-09-26
# ITEM3D:3次元モデルのための照明対応指向性テクスチャ編集

ITEM3D: Illumination-Aware Directional Texture Editing for 3D Models ( http://arxiv.org/abs/2309.14872v1 )

ライセンス: Link先を確認
Shengqi Liu, Zhuo Chen, Jingnan Gao, Yichao Yan, Wenhan Zhu, Xiaobo Li, Ke Gao, Jiangjiang Lyu, Xiaokang Yang(参考訳) テクスチャ編集は、3Dモデルの表面素材を自動的に操作できる3Dモデリングにおいて重要なタスクである。 しかし、3Dモデルの本質的な複雑さと曖昧なテキスト記述は、この課題の課題に繋がる。 そこで本稿では,テキストプロンプトに応じて自動3dオブジェクト編集を行う照明認識モデルitem3dを提案する。 拡散モデルと微分可能なレンダリングの活用により、item3dはレンダリングされた画像をテキストと3d表現の橋渡しとして、さらに異方性のテクスチャと環境マップを最適化する。 従来の手法では、絶対的な編集方向、すなわちスコア蒸留サンプリング(SDS)を最適化の目的として採用していた。 曖昧なテキストによる問題を解決するため、ソースとターゲットのテキスト間のノイズ差によって定義された最適化目標である相対的な編集方向を導入し、テキストと画像間の意味的あいまいさを解放する。 さらに,テクスチャ領域の予期せぬずれに対処するため,最適化中の方向を徐々に調整する。 質的、定量的な実験により、我々の3dは様々な3dオブジェクトの最先端のメソッドよりも優れています。 また,照明に対する明示的な制御を示すために,テキストガイドによる照明を行う。

Texture editing is a crucial task in 3D modeling that allows users to automatically manipulate the surface materials of 3D models. However, the inherent complexity of 3D models and the ambiguous text description lead to the challenge in this task. To address this challenge, we propose ITEM3D, an illumination-aware model for automatic 3D object editing according to the text prompts. Leveraging the diffusion models and the differentiable rendering, ITEM3D takes the rendered images as the bridge of text and 3D representation, and further optimizes the disentangled texture and environment map. Previous methods adopt the absolute editing direction namely score distillation sampling (SDS) as the optimization objective, which unfortunately results in the noisy appearance and text inconsistency. To solve the problem caused by the ambiguous text, we introduce a relative editing direction, an optimization objective defined by the noise difference between the source and target texts, to release the semantic ambiguity between the texts and images. Additionally, we gradually adjust the direction during optimization to further address the unexpected deviation in the texture domain. Qualitative and quantitative experiments show that our ITEM3D outperforms the state-of-the-art methods on various 3D objects. We also perform text-guided relighting to show explicit control over lighting.
翻訳日:2023-09-27 13:54:08 公開日:2023-09-26
# 純粋数学における抽象境界と仕様駆動開発

Abstraction boundaries and spec driven development in pure mathematics ( http://arxiv.org/abs/2309.14870v1 )

ライセンス: Link先を確認
Johan Commelin and Adam Topaz(参考訳) 本稿では,インタラクティブな定理証明器を用いて,抽象境界が数学研究の複雑さを和らげる上でどのように役立つかについて議論する。 ここで提示する多くのアイデアは、しばらくの間数学者によって暗黙的に使われてきたが、対話的定理証明器の使用は、これらの概念の実装にさらなる質的利益をもたらすと論じている。

In this article we discuss how abstraction boundaries can help tame complexity in mathematical research, with the help of an interactive theorem prover. While many of the ideas we present here have been used implicitly by mathematicians for some time, we argue that the use of an interactive theorem prover introduces additional qualitative benefits in the implementation of these ideas.
翻訳日:2023-09-27 13:53:45 公開日:2023-09-26
# ブラインド実世界画像品質評価のためのクロスデータセットロバスト法

Cross-Dataset-Robust Method for Blind Real-World Image Quality Assessment ( http://arxiv.org/abs/2309.14868v1 )

ライセンス: Link先を確認
Yuan Chen, Zhiliang Ma and Yang Zhao(参考訳) 多くの効果的なモデルと実世界のデータセットがブラインド画像品質評価(BIQA)のために提示されているが、最近のBIQAモデルは通常、特定のトレーニングセットに適合する傾向にある。 したがって、任意の実世界の画像の視覚的品質を正確かつ確実に測定することは依然として困難である。 本稿では,ロバストなBIQA手法を,ロバストなトレーニング戦略,大規模実世界のデータセット,強力なバックボーンという3つの側面に基づいて設計する。 まず、人気と最先端のSwin-Transformer(SwinT)に基づく多くの個別モデルが、それぞれ異なる現実世界のBIQAデータセットでトレーニングされている。 次に、これらのバイアス付きSwinTベースのモデルを用いて擬似ラベルを生成し、固定品質スコアの代わりに2つのランダム画像の相対的品質の確率を採用する。 最終クロスデータセット-ロバストモデルのトレーニングのために,1,000,000画像ペアと擬似ラベルを備えた大規模実世界画像データセットを提案する。 実験の結果,提案手法の性能は,これらのデータセット上で直接訓練されたSOTA法よりも優れており,ロバスト性や一般化の検証が可能であることがわかった。

Although many effective models and real-world datasets have been presented for blind image quality assessment (BIQA), recent BIQA models usually tend to fit specific training set. Hence, it is still difficult to accurately and robustly measure the visual quality of an arbitrary real-world image. In this paper, a robust BIQA method, is designed based on three aspects, i.e., robust training strategy, large-scale real-world dataset, and powerful backbone. First, many individual models based on popular and state-of-the-art (SOTA) Swin-Transformer (SwinT) are trained on different real-world BIQA datasets respectively. Then, these biased SwinT-based models are jointly used to generate pseudo-labels, which adopts the probability of relative quality of two random images instead of fixed quality score. A large-scale real-world image dataset with 1,000,000 image pairs and pseudo-labels is then proposed for training the final cross-dataset-robust model. Experimental results on cross-dataset tests show that the performance of the proposed method is even better than some SOTA methods that are directly trained on these datasets, thus verifying the robustness and generalization of our method.
翻訳日:2023-09-27 13:53:38 公開日:2023-09-26
# 2D Poses Aloneからの3D Poseインタラクションの教師なし再構築

Unsupervised Reconstruction of 3D Human Pose Interactions From 2D Poses Alone ( http://arxiv.org/abs/2309.14865v1 )

ライセンス: Link先を確認
Peter Hardy and Hansung Kim(参考訳) 現在の非教師なし2D-3Dヒトポーズ推定(HPE)法は、単眼画像における視点のあいまいさのため、多人数シナリオでは機能しない。 そこで本研究では,人間インタラクションの再構築に焦点をあてた2dポーズ単独による非教師付き多人数2d-3d hpeの実現可能性について検討した。 視界のあいまいさに対処するために、被験者の骨盤に対するカメラの高度角を予測することにより、先行作業に対処する。 これにより、予測されたポーズを地上面と水平に回転させ、個人間の3次元の垂直オフセットの推定値を得ることができる。 提案手法では,各被験者の2次元ポーズを独立して3次元に上げ,共有3次元座標系で組み合わせる。 ポーズは、スケールする前に予測された高度角によって回転し、オフセットされる。 これにより、ポーズの正確な3d再構築ができます。 本稿では, CHI3Dデータセットを用いて, 3つの新しい定量的指標を用いた教師なし2D-3Dポーズ推定手法を導入し, 今後の研究のベンチマークを作成する。

Current unsupervised 2D-3D human pose estimation (HPE) methods do not work in multi-person scenarios due to perspective ambiguity in monocular images. Therefore, we present one of the first studies investigating the feasibility of unsupervised multi-person 2D-3D HPE from just 2D poses alone, focusing on reconstructing human interactions. To address the issue of perspective ambiguity, we expand upon prior work by predicting the cameras' elevation angle relative to the subjects' pelvis. This allows us to rotate the predicted poses to be level with the ground plane, while obtaining an estimate for the vertical offset in 3D between individuals. Our method involves independently lifting each subject's 2D pose to 3D, before combining them in a shared 3D coordinate system. The poses are then rotated and offset by the predicted elevation angle before being scaled. This by itself enables us to retrieve an accurate 3D reconstruction of their poses. We present our results on the CHI3D dataset, introducing its use for unsupervised 2D-3D pose estimation with three new quantitative metrics, and establishing a benchmark for future research.
翻訳日:2023-09-27 13:53:17 公開日:2023-09-26
# テキストから画像へのカスタマイズ:モデル評価のためのLyCORISファインチューニング

Navigating Text-To-Image Customization:From LyCORIS Fine-Tuning to Model Evaluation ( http://arxiv.org/abs/2309.14859v1 )

ライセンス: Link先を確認
Shin-Ying Yeh, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, Yanmin Gong(参考訳) テキストから画像への生成モデルは、テキストプロンプトから高精細な画像を生成する能力に多大な注目を集めている。 中でも、安定拡散は、この急成長分野における主要なオープンソースモデルと自らを区別している。 しかし、これらのモデルの微調整の複雑さは、新しい方法論の統合から体系的な評価まで、様々な課題をもたらす。 そこで本稿では, lycoris (lora beyond conventional methods, other rank adaptation implementation for stable diffusion) [https://github.com/kohakublueleaf/lycoris] というオープンソースのライブラリを紹介する。 さらに,様々な微調整手法を体系的に評価するための徹底的な枠組みを提案する。 このフレームワークは、ハイパーパラメータ調整や、さまざまな概念カテゴリで異なるプロンプト型による評価を含む、さまざまなメトリクスとデフを複数の微調整の側面に取り入れている。 この包括的アプローチを通じて、我々の研究は微調整パラメータのニュアンス効果に関する重要な洞察を与え、最先端の研究と実践的応用のギャップを埋める。

Text-to-image generative models have garnered immense attention for their ability to produce high-fidelity images from text prompts. Among these, Stable Diffusion distinguishes itself as a leading open-source model in this fast-growing field. However, the intricacies of fine-tuning these models pose multiple challenges from new methodology integration to systematic evaluation. Addressing these issues, this paper introduces LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) [https://github.com/KohakuBlueleaf/LyCORIS], an open-source library that offers a wide selection of fine-tuning methodologies for Stable Diffusion. Furthermore, we present a thorough framework for the systematic assessment of varied fine-tuning techniques. This framework employs a diverse suite of metrics and delves into multiple facets of fine-tuning, including hyperparameter adjustments and the evaluation with different prompt types across various concept categories. Through this comprehensive approach, our work provides essential insights into the nuanced effects of fine-tuning parameters, bridging the gap between state-of-the-art research and practical application.
翻訳日:2023-09-27 13:53:00 公開日:2023-09-26
# Informative Manifold Projection を用いたクラスタ探索

Cluster Exploration using Informative Manifold Projections ( http://arxiv.org/abs/2309.14857v1 )

ライセンス: Link先を確認
Stavros Gerolymatos, Xenophon Evangelopoulos, Vladimir Gusev and John Y. Goulermas(参考訳) 次元減少(DR)は、高次元データの視覚的な探索と、2次元または3次元空間におけるクラスタ構造を明らかにするための重要なツールの1つである。 文献におけるDR手法の大部分は、実践者が検討中のデータセットに関する事前知識を考慮に入れていない。 本稿では,従来の知識の異なる構造を抽出するだけでなく,その基盤となる構造を明らかにすることを目的とした,情報埋め込み生成手法を提案する。 これを実現するために,まず,先行情報に関連付けられた構造を縮小するコントラストPCAと,得られた埋め込みにおいて有意なデータ分離を保証するクルトーシス投影探索という2つの目的を線形に組み合わせた。 本稿では,この課題を多様体最適化問題として定式化し,3種類の事前知識を考慮に入れた各種データセットを経験的に検証する。 最後に,高次元データの反復的視覚探索を行うためのフレームワークを提供する。

Dimensionality reduction (DR) is one of the key tools for the visual exploration of high-dimensional data and uncovering its cluster structure in two- or three-dimensional spaces. The vast majority of DR methods in the literature do not take into account any prior knowledge a practitioner may have regarding the dataset under consideration. We propose a novel method to generate informative embeddings which not only factor out the structure associated with different kinds of prior knowledge but also aim to reveal any remaining underlying structure. To achieve this, we employ a linear combination of two objectives: firstly, contrastive PCA that discounts the structure associated with the prior information, and secondly, kurtosis projection pursuit which ensures meaningful data separation in the obtained embeddings. We formulate this task as a manifold optimization problem and validate it empirically across a variety of datasets considering three distinct types of prior knowledge. Lastly, we provide an automated framework to perform iterative visual exploration of high-dimensional data.
翻訳日:2023-09-27 13:52:37 公開日:2023-09-26
# 生成型ai開発における障害者コミュニティ参加のための民主的プラットフォーム

A Democratic Platform for Engaging with Disabled Community in Generative AI Development ( http://arxiv.org/abs/2309.14921v1 )

ライセンス: Link先を確認
Deepak Giri, Erin Brady(参考訳) 人工知能(AI)システム、特に生成型AI技術は、私たちの社会でより重要になっています。 ChatGPTのようなツールは障害のあるコミュニティのメンバーによって使用されている。 ジェネレーティブなAIツールの影響と人気が高まり、私たちは障害のあるコミュニティにおけるそれらの関連性を調べるようになった。 設計と開発段階は、しばしばこの限界化されたグループを無視し、不正確な予測と不公平な差別に繋がった。 これは、作成と実装のさまざまなフェーズにおけるデータセット、アルゴリズム、システムのバイアスに起因する可能性がある。 本ワークショップでは,生産型AIシステムを構築しながら,障害者コミュニティを巻き込むプラットフォームを提案する。 このプラットフォームでは、障害のあるコミュニティが使用する生成AIが生成するアウトプットのバイアスに寄与する要因について、洞察を得ることを目的としています。 さらに、アウトプットの不正確性や無関係性の主な要因はどのアルゴリズム因子にあるかを理解することを期待する。 提案プラットフォームでは,さまざまな地理的・文化的背景を持つ障害者と非障害者の双方に,意思決定への民主的アプローチとして,非同期かつ遠隔的協力を求める。

Artificial Intelligence (AI) systems, especially generative AI technologies are becoming more relevant in our society. Tools like ChatGPT are being used by members of the disabled community e.g., Autistic people may use it to help compose emails. The growing impact and popularity of generative AI tools have prompted us to examine their relevance within the disabled community. The design and development phases often neglect this marginalized group, leading to inaccurate predictions and unfair discrimination directed towards them. This could result from bias in data sets, algorithms, and systems at various phases of creation and implementation. This workshop paper proposes a platform to involve the disabled community while building generative AI systems. With this platform, our aim is to gain insight into the factors that contribute to bias in the outputs generated by generative AI when used by the disabled community. Furthermore, we expect to comprehend which algorithmic factors are the main contributors to the output's incorrectness or irrelevancy. The proposed platform calls on both disabled and non-disabled people from various geographical and cultural backgrounds to collaborate asynchronously and remotely in a democratic approach to decision-making.
翻訳日:2023-09-27 13:44:28 公開日:2023-09-26
# ゲーミフィケーション教育研究・開発における倫理的課題--ウンブレラのレビューと可能性

Ethical Challenges in Gamified Education Research and Development: An Umbrella Review and Potential Directions ( http://arxiv.org/abs/2309.14918v1 )

ライセンス: Link先を確認
Ana Carolina Tom\'e Klock, Brenda Salenave Santana and Juho Hamari(参考訳) ゲーミフィケーションは、よりゲーム的な現実を促進するための技術的、経済的、文化的、社会的発展である。 この創発的な現象が、特に教育現場で私たちの日常生活に徐々に統合されていくにつれ、多くの学者や実践者は、このような教育技術の研究・開発におけるゲーミフィケーションの非倫理的影響をどう理解し緩和するかという大きな課題に直面している。 そこで本研究では,ゲーム化教育における倫理的課題を探究し,包括的レビューに基づく解決法を提案する。 二次研究の後に、パワーダイナミクスや父性主義、自発的性と機密性の欠如、認知的操作、社会的比較など、ゲーミフィケーション教育における倫理的課題に対処するための推奨事項を詳述し、提案する。 このような課題に影響を及ぼす研究・開発意思決定プロセスも精査され、ゲーミフィケーション計画、指揮、コミュニケーションにおけるその効果を緩和する潜在的な行動がさらに導入される。 そこで本章では,ゲーム化教育における文学の倫理的課題の理解と,今後の研究・開発のためのガイドラインについて述べる。

Gamification is a technological, economic, cultural, and societal development toward promoting a more game-like reality. As this emergent phenomenon has been gradually consolidated into our daily lives, especially in educational settings, many scholars and practitioners face a major challenge ahead: how to understand and mitigate the unethical impacts of gamification when researching and developing such educational technologies? Thus, this study explores ethical challenges in gamified educational applications and proposes potential solutions to address them based on an umbrella review. After analysing secondary studies, this study details and proposes recommendations on addressing some ethical challenges in gamified education, such as power dynamics and paternalism, lack of voluntarity and confidentiality, cognitive manipulation, and social comparison. Research and development decision-making processes affected by such challenges are also elaborated, and potential actions to mitigate their effects in gamification planning, conducting and communication are further introduced. Thus, this chapter provides an understanding of ethical challenges posed by the literature in gamified education and a set of guidelines for future research and development.
翻訳日:2023-09-27 13:44:11 公開日:2023-09-26
# PHRIT:Implicitテンプレートによるパラメトリックハンド表現

PHRIT: Parametric Hand Representation with Implicit Template ( http://arxiv.org/abs/2309.14916v1 )

ライセンス: Link先を確認
Zhisheng Huang, Yujin Chen, Di Kang, Jinlu Zhang, Zhigang Tu(参考訳) パラメトリックメッシュと暗黙表現の両方の利点を組み合わせた,暗黙のテンプレートを用いたパラメトリックハンドメッシュモデリングのための新しいアプローチであるphritを提案する。 本手法は, 部分形状の符号付き距離場(SDF)を用いて変形可能な手形状を表現し, 変形場を用いて変形を行う。 このモデルは、標準テンプレートを無限解像度で変形させることにより、効率的な高忠実手再構成を提供する。 さらに、完全に微分可能であり、スケルトンによって駆動され、潜在コードを形成することができるため、手モデリングで容易に使用できる。 我々は,骨格駆動の手の再構築,点雲からの形状,一視点3Dの再構築など,複数の下流作業におけるPHRITを評価し,本手法が現実的かつ没入的な手のモデリングと最先端のパフォーマンスを実現することを実証した。

We propose PHRIT, a novel approach for parametric hand mesh modeling with an implicit template that combines the advantages of both parametric meshes and implicit representations. Our method represents deformable hand shapes using signed distance fields (SDFs) with part-based shape priors, utilizing a deformation field to execute the deformation. The model offers efficient high-fidelity hand reconstruction by deforming the canonical template at infinite resolution. Additionally, it is fully differentiable and can be easily used in hand modeling since it can be driven by the skeleton and shape latent codes. We evaluate PHRIT on multiple downstream tasks, including skeleton-driven hand reconstruction, shapes from point clouds, and single-view 3D reconstruction, demonstrating that our approach achieves realistic and immersive hand modeling with state-of-the-art performance.
翻訳日:2023-09-27 13:43:48 公開日:2023-09-26
# ランダム言語モデルのロバスト性

Robustness of the Random Language Model ( http://arxiv.org/abs/2309.14913v1 )

ライセンス: Link先を確認
Fatemeh Lalegani and Eric De Giuli(参考訳) ランダム言語モデル(de giuli 2019)は、人間とコンピュータ言語の構文を定量化する、確率的文脈自由文法のアンサンブルである。 このモデルは、潜在的言語の広大な空間におけるアニーリングの一種として、最初の言語学習の簡単な図を示唆している。 最も単純な定式化では、潜在的な単語とカテゴリ間の対称性が自発的に壊れる文法構文への単一の連続的な遷移を意味する。 この図は、実世界の学習の必然的な要素である明示対称性の破れに対する頑健さを考慮して、精査される。 このシナリオはこのような対称性の破れに対して堅牢である。 構文ネットワークのクラスタリング係数に関する人的データと比較すると、観察された遷移は24歳児が通常経験するものと同等である。

The Random Language Model (De Giuli 2019) is an ensemble of stochastic context-free grammars, quantifying the syntax of human and computer languages. The model suggests a simple picture of first language learning as a type of annealing in the vast space of potential languages. In its simplest formulation, it implies a single continuous transition to grammatical syntax, at which the symmetry among potential words and categories is spontaneously broken. Here this picture is scrutinized by considering its robustness against explicit symmetry breaking, an inevitable component of learning in the real world. It is shown that the scenario is robust to such symmetry breaking. Comparison with human data on the clustering coefficient of syntax networks suggests that the observed transition is equivalent to that normally experienced by children at age 24 months.
翻訳日:2023-09-27 13:43:33 公開日:2023-09-26
# StyleGAN を用いた多種多種多様な顔の軟骨化

Face Cartoonisation For Various Poses Using StyleGAN ( http://arxiv.org/abs/2309.14908v1 )

ライセンス: Link先を確認
Kushal Jain, Ankith Varun J, Anoop Namboodiri(参考訳) 本稿では,元来のアイデンティティを保ちつつ,様々なポーズを取り入れながら,顔の漫画化を実現するための革新的なアプローチを提案する。 この分野で、データセット要求やポーズトレーニングに関連する課題を提起する条件付きgansに依存する従来の方法とは異なり、このアプローチはstyleganの表現力のある潜在性空間を活用する。 本研究では、画像からポーズ情報とアイデンティティ情報をキャプチャし、StyleGAN潜在空間内に対応する埋め込みを生成するエンコーダを導入する。 その後、この埋め込みを事前訓練された発電機に渡すことで、所望の漫画化された出力を得る。 StyleGANに基づく他の多くのアプローチは、専用で微調整されたStyleGANモデルを必要とするが、我々の方法は、現実的な顔画像を生成するように設計された既に訓練済みのStyleGANを利用することで際立っている。 目的が漫画化である場合, エンコーダがStyleGAN出力にどのように適応し, アイデンティティをよりよく保存するかを, 広範囲にわたる実験により示す。

This paper presents an innovative approach to achieve face cartoonisation while preserving the original identity and accommodating various poses. Unlike previous methods in this field that relied on conditional-GANs, which posed challenges related to dataset requirements and pose training, our approach leverages the expressive latent space of StyleGAN. We achieve this by introducing an encoder that captures both pose and identity information from images and generates a corresponding embedding within the StyleGAN latent space. By subsequently passing this embedding through a pre-trained generator, we obtain the desired cartoonised output. While many other approaches based on StyleGAN necessitate a dedicated and fine-tuned StyleGAN model, our method stands out by utilizing an already-trained StyleGAN designed to produce realistic facial images. We show by extensive experimentation how our encoder adapts the StyleGAN output to better preserve identity when the objective is cartoonisation.
翻訳日:2023-09-27 13:43:20 公開日:2023-09-26
# 大規模分散グラフを用いたノード表現学習のためのラベルデコンボリューション

Label Deconvolution for Node Representation Learning on Large-scale Attributed Graphs against Learning Bias ( http://arxiv.org/abs/2309.14907v1 )

ライセンス: Link先を確認
Zhihao Shi, Jie Wang, Fanghua Lu, Hanzhu Chen, Defu Lian, Zheng Wang, Jieping Ye, Feng Wu(参考訳) ノード表現学習 - ノードが豊富な属性(テキストやタンパク質配列など)に関連付けられている - は、多くの重要な下流タスクにおいて重要な役割を果たす。 属性とグラフ構造を同時に符号化するために、最近の研究では、事前学習されたモデルとグラフニューラルネットワーク(GNN)を統合する。 大規模グラフ上で大きなNEとGNNを共同で訓練することは、スケーラビリティの問題に悩まされるため、多くの手法がNEとGNNを個別に訓練することを提案する。 その結果、NEsのトレーニングフェーズにおいて、GNNの機能的畳み込みを考慮に入れず、共同トレーニングによる学習バイアスが顕著になる。 この課題に対処するために、GNNの逆写像に対する新しいスケーラブルな近似により学習バイアスを軽減するための効率的なラベル正規化手法であるラベルデコンボリューション(LD)を提案する。 逆マッピングは、共同学習と同等の目的関数をもたらすが、学習バイアスに対して、NEのトレーニングフェーズにGNNを効果的に組み込むことができる。 さらに, 軽度仮定下でのシジョイントトレーニングにより, ldは最適目的関数値に収束することを示す。 実験では、LDはOpen Graph Benchmarkデータセットの最先端メソッドを大幅に上回っている。

Node representation learning on attributed graphs -- whose nodes are associated with rich attributes (e.g., texts and protein sequences) -- plays a crucial role in many important downstream tasks. To encode the attributes and graph structures simultaneously, recent studies integrate pre-trained models with graph neural networks (GNNs), where pre-trained models serve as node encoders (NEs) to encode the attributes. As jointly training large NEs and GNNs on large-scale graphs suffers from severe scalability issues, many methods propose to train NEs and GNNs separately. Consequently, they do not take feature convolutions in GNNs into consideration in the training phase of NEs, leading to a significant learning bias from that by the joint training. To address this challenge, we propose an efficient label regularization technique, namely Label Deconvolution (LD), to alleviate the learning bias by a novel and highly scalable approximation to the inverse mapping of GNNs. The inverse mapping leads to an objective function that is equivalent to that by the joint training, while it can effectively incorporate GNNs in the training phase of NEs against the learning bias. More importantly, we show that LD converges to the optimal objective function values by thejoint training under mild assumptions. Experiments demonstrate LD significantly outperforms state-of-the-art methods on Open Graph Benchmark datasets.
翻訳日:2023-09-27 13:43:00 公開日:2023-09-26
# 非変異排他的コントラスト学習によるプレトレーニングフリー画像操作定位

Pre-training-free Image Manipulation Localization through Non-Mutually Exclusive Contrastive Learning ( http://arxiv.org/abs/2309.14900v1 )

ライセンス: Link先を確認
Jizhe Zhou, Xiaochen Ma, Xia Du, Ahmed Y.Alhammadi, Wentao Feng(参考訳) Deep Image Manipulation Localization (IML)モデルは、トレーニングデータ不足に悩まされており、事前トレーニングに大きく依存している。 IMLのデータ不足問題に対処するには,コントラスト学習の方が適している,と我々は主張する。 相互に排他的な正と負を作ることは、対照的な学習の前提条件である。 しかし、IMLでコントラスト学習を採用する場合、画像パッチには、改ざん、認証、輪郭パッチの3つのカテゴリがある。 改ざんパッチと正真正銘パッチは自然に排他的であるが、改ざんされたピクセルと正真正銘のピクセルの両方を含む輪郭パッチは、相互に排他的である。 これらの輪郭パッチを単純に省略すると、輪郭パッチが学習結果に決定的であるため、劇的なパフォーマンス損失が生じる。 そこで本稿では,従来のコントラスト学習を支援するために,Non-mutually exclusive Contrastive Learning (NCL) フレームワークを提案する。 nclでは,非変異的排他性に対処するために,まず2つの枝を持つピボット構造を確立し,トレーニング中に正と負の輪郭パッチの役割を常に切り換える。 そこで我々は,ロールスイッチングプロセスによる空間的腐敗を避けるために,ピボット一貫性損失を考案した。 このようにして、NCLはデータ不足に対処する自己監督的メリットを継承し、高い操作ローカライゼーション精度を保持する。 広範な実験によって、我々のnclは、事前トレーニングなしで5つのベンチマークすべてで最先端のパフォーマンスを達成でき、実際のサンプルよりも堅牢であることが確かめられた。 コードはhttps://github.com/knightzjz/ncl-iml。

Deep Image Manipulation Localization (IML) models suffer from training data insufficiency and thus heavily rely on pre-training. We argue that contrastive learning is more suitable to tackle the data insufficiency problem for IML. Crafting mutually exclusive positives and negatives is the prerequisite for contrastive learning. However, when adopting contrastive learning in IML, we encounter three categories of image patches: tampered, authentic, and contour patches. Tampered and authentic patches are naturally mutually exclusive, but contour patches containing both tampered and authentic pixels are non-mutually exclusive to them. Simply abnegating these contour patches results in a drastic performance loss since contour patches are decisive to the learning outcomes. Hence, we propose the Non-mutually exclusive Contrastive Learning (NCL) framework to rescue conventional contrastive learning from the above dilemma. In NCL, to cope with the non-mutually exclusivity, we first establish a pivot structure with dual branches to constantly switch the role of contour patches between positives and negatives while training. Then, we devise a pivot-consistent loss to avoid spatial corruption caused by the role-switching process. In this manner, NCL both inherits the self-supervised merits to address the data insufficiency and retains a high manipulation localization accuracy. Extensive experiments verify that our NCL achieves state-of-the-art performance on all five benchmarks without any pre-training and is more robust on unseen real-life samples. The code is available at: https://github.com/Knightzjz/NCL-IML.
翻訳日:2023-09-27 13:42:36 公開日:2023-09-26
# FDLS: 生産品質、制御可能、および顔認識性能の深い学習アプローチ

FDLS: A Deep Learning Approach to Production Quality, Controllable, and Retargetable Facial Performances ( http://arxiv.org/abs/2309.14897v1 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, Muhammad Ghifary, J.P. Lewis, Byungkuk Choi, Haekwang Eom(参考訳) 視覚効果は通常、現実的な合成人間の創造と、俳優のパフォーマンスをエイリアンや怪物のようなヒューマノイドキャラクターに再ターゲットすることの両方を必要とする。 エンタテインメントで要求される表現力のあるパフォーマンスを達成するには、数百のパラメータを持つ複雑なモデルを操作する必要がある。 完全なクリエイティビティコントロールでは、プロダクションの任意の段階で編集を行う自由が要求されるため、解釈不能なパラメータを持つ ‘black box'' 完全自動のソリューションの使用が禁止されている。 一方、こうした洗練されたモデルでリアルなアニメーションを作るのは困難で手間がかかる。 本稿では,これらの課題に対するWeta DigitalのソリューションであるFDLS(Facial Deep Learning Solver)について述べる。 FDLSは粗大かつ人為的なループ戦略を採用しており、解決された性能をいくつかの段階で検証し、編集することができる。 FDLSをトレーニングするために、我々はまず、生のモーションキャプチャーデータを堅牢なグラフ特徴に変換する。 第2に,細部まで進む前に,アーティストが顎通アニメーションを完成させるのが典型的であるという観察に基づいて,まず顎運動を解き,顎位置を条件とした領域ベースのネットワークを用いて微細表現を予測した。 最後に、アーティストはFDLSソリューション上の非線形微調整プロセスを任意に実行して、モーションキャプチャーされた仮想マーカーを可能な限り近付けることができる。 FDLSは、ディープラーニングソリューションの結果を改善するために必要な編集をサポートし、アクターの顔形状の小さな日々の変化を処理できる。 FDLSは、最小限のトレーニングと手作業の少ない信頼性と品質の高いパフォーマンスの解決を可能にすると同時に、異常で難しいケースで解決をガイドし、編集することを可能にする。 このシステムは数年間開発が続けられており、主要な映画で使用されている。

Visual effects commonly requires both the creation of realistic synthetic humans as well as retargeting actors' performances to humanoid characters such as aliens and monsters. Achieving the expressive performances demanded in entertainment requires manipulating complex models with hundreds of parameters. Full creative control requires the freedom to make edits at any stage of the production, which prohibits the use of a fully automatic ``black box'' solution with uninterpretable parameters. On the other hand, producing realistic animation with these sophisticated models is difficult and laborious. This paper describes FDLS (Facial Deep Learning Solver), which is Weta Digital's solution to these challenges. FDLS adopts a coarse-to-fine and human-in-the-loop strategy, allowing a solved performance to be verified and edited at several stages in the solving process. To train FDLS, we first transform the raw motion-captured data into robust graph features. Secondly, based on the observation that the artists typically finalize the jaw pass animation before proceeding to finer detail, we solve for the jaw motion first and predict fine expressions with region-based networks conditioned on the jaw position. Finally, artists can optionally invoke a non-linear finetuning process on top of the FDLS solution to follow the motion-captured virtual markers as closely as possible. FDLS supports editing if needed to improve the results of the deep learning solution and it can handle small daily changes in the actor's face shape. FDLS permits reliable and production-quality performance solving with minimal training and little or no manual effort in many cases, while also allowing the solve to be guided and edited in unusual and difficult cases. The system has been under development for several years and has been used in major movies.
翻訳日:2023-09-27 13:42:07 公開日:2023-09-26
# 運動原始組成による検証可能な学習行動:グラニュラーメディアのスクーピングへの応用

Verifiable Learned Behaviors via Motion Primitive Composition: Applications to Scooping of Granular Media ( http://arxiv.org/abs/2309.14894v1 )

ライセンス: Link先を確認
Andrew Benton, Eugen Solowjow, Prithvi Akella(参考訳) 自然言語入力から動作をリアルタイムで確実に生成できるロボット行動モデルは、システムの柔軟性の向上による産業用ロボットの採用を大幅に高速化する。 これらの取り組みを容易にするために、自然言語抽象化によって作成された学習行動が構築によって検証可能な枠組みを構築する。 動きプリミティブの最近の進歩と確率的検証を利用して,与えられた動きプリミティブ上で有向グラフを合成して振る舞いを生成する自然言語行動抽象化器を構築する。 これらの成分運動プリミティブが我々が指定した基準に従って構築されている場合、結果の挙動は確率的に検証可能である。 この検証可能な行動生成能力は,探索作業におけるシミュレーションと,粒状メディアをスクープするロボットによるハードウェアの両方において示される。

A robotic behavior model that can reliably generate behaviors from natural language inputs in real time would substantially expedite the adoption of industrial robots due to enhanced system flexibility. To facilitate these efforts, we construct a framework in which learned behaviors, created by a natural language abstractor, are verifiable by construction. Leveraging recent advancements in motion primitives and probabilistic verification, we construct a natural-language behavior abstractor that generates behaviors by synthesizing a directed graph over the provided motion primitives. If these component motion primitives are constructed according to the criteria we specify, the resulting behaviors are probabilistically verifiable. We demonstrate this verifiable behavior generation capacity in both simulation on an exploration task and on hardware with a robot scooping granular media.
翻訳日:2023-09-27 13:41:38 公開日:2023-09-26
# 分布外検出のための近距離近傍誘導法

Nearest Neighbor Guidance for Out-of-Distribution Detection ( http://arxiv.org/abs/2309.14888v1 )

ライセンス: Link先を確認
Jaewoo Park, Yoon Gyo Jung, Andrew Beng Jin Teoh(参考訳) オープンソース環境にデプロイされた機械学習モデルには、アウト・オブ・ディストリビューション(OOD)サンプルの検出が不可欠だ。 分類器ベースのスコアは、詳細な検出能力のため、OOD検出の標準的なアプローチである。 しかし,これらのスコアは,分布域から離れたOODサンプルを誤分類し,過信問題に悩まされることが多い。 この課題に対処するために、データ多様体の境界幾何学を尊重するために分類器に基づくスコアを導くNearest Neighbor Guidance (NNGuide) という手法を提案する。 NNGuideは、分類器ベースのスコアのきめ細かい機能を維持しながら、OODサンプルの過信を低減する。 我々は、画像Net OOD検出ベンチマークにおいて、IDデータが自然分布シフトを受けるシナリオを含む様々な設定で広範な実験を行う。 その結果, nnguideは, auroc, fpr95, auprの指標において, 基礎検出スコアにおいて有意な性能改善が得られ, 最先端の結果が得られた。 コードは \url{https://github.com/roomo7time/nnguide} で与えられる。

Detecting out-of-distribution (OOD) samples are crucial for machine learning models deployed in open-world environments. Classifier-based scores are a standard approach for OOD detection due to their fine-grained detection capability. However, these scores often suffer from overconfidence issues, misclassifying OOD samples distant from the in-distribution region. To address this challenge, we propose a method called Nearest Neighbor Guidance (NNGuide) that guides the classifier-based score to respect the boundary geometry of the data manifold. NNGuide reduces the overconfidence of OOD samples while preserving the fine-grained capability of the classifier-based score. We conduct extensive experiments on ImageNet OOD detection benchmarks under diverse settings, including a scenario where the ID data undergoes natural distribution shift. Our results demonstrate that NNGuide provides a significant performance improvement on the base detection scores, achieving state-of-the-art results on both AUROC, FPR95, and AUPR metrics. The code is given at \url{https://github.com/roomo7time/nnguide}.
翻訳日:2023-09-27 13:41:24 公開日:2023-09-26
# 可搬型光時計を用いた長距離時間平準化

Long-distance chronometric leveling with a transportable optical clock ( http://arxiv.org/abs/2309.14953v1 )

ライセンス: Link先を確認
J. Grotti, I. Nosske, S. B. Koller, S. Herbers, H. Denker, L. Timmen, G. Vishnyakova, G. Grosche, T. Waterholter, A. Kuhl, S. Koke, E. Benkler, M. Giunta, L. Maisenbacher, A. Matveev, S. D\"orscher, R. Schwarz, A. Al-Masoudi, T. W. H\"ansch, T. H. Udem, R. Holzwarth, C. Lisdat(参考訳) 干渉ファイバリンクを用いた2つの光格子時計の比較により, 2つの位置間の地電位差を457kmで測定し, 時間遷移周波数の重力的赤方偏移を利用した。 ^{87}$Srクロックは、時計の1つが遠隔地に移された前後に並べて比較されている。 時系列的に測定された地球電位差は3918.1(2.4)\,\mathrm{m^2 \, s^{-2}}$であり、独立した測地差は3915.88(0.30)\,\mathrm{m^2 \, s^{-2}}$である。 時間的地球電位差の不確かさは、高さが 24~\mathrm{cm}$ の不確かさと同値である。

We have measured the geopotential difference between two locations separated by 457 km by comparison of two optical lattice clocks via an interferometric fiber link, utilizing the gravitational redshift of the clock transition frequency. The $^{87}$Sr clocks have been compared side-by-side before and after one of the clocks was moved to the remote location. The chronometrically measured geopotential difference of $3918.1(2.4)\,\mathrm{m^2 \, s^{-2}}$ agrees with an independent geodetic determination of $3915.88(0.30)\,\mathrm{m^2 \, s^{-2}}$. The uncertainty of the chronometric geopotential difference is equivalent to an uncertainty of $24~\mathrm{cm}$ in height.
翻訳日:2023-09-27 13:35:41 公開日:2023-09-26
# プロトタイプベース平均教師によるオブジェクト検出のためのマルチソースドメイン適応

Multi-Source Domain Adaptation for Object Detection with Prototype-based Mean-teacher ( http://arxiv.org/abs/2309.14950v1 )

ライセンス: Link先を確認
Atif Belal, Akhil Meethal, Francisco Perdigon Romero, Marco Pedersoli, Eric Granger(参考訳) 視覚オブジェクト検出器を操作対象領域に適応させることは難しい課題であり、一般には教師なし領域適応(UDA)法を用いて達成される。 ラベル付きデータセットが複数のソースドメインから来て、別々のドメインとして扱い、マルチソースドメイン適応(MSDA)を実行すると、MSDAの最近の研究で見られるように、これらのソースドメインを混合し、UDAを実行するよりも精度と堅牢性が向上する。 既存のmsdaメソッドは、適応のためにドメイン不変およびドメイン固有パラメータ(各ソースドメイン)を学習する。 しかし、単一ソースのUDAメソッドとは異なり、ドメイン固有のパラメータを学習することで、使用するソースドメインの数に比例して大きく成長する。 本稿では,ドメイン固有サブネットの代わりにクラスプロトタイプを用いてドメイン固有情報を保存する,プロトタイプベース平均教師(PMT)と呼ばれる新しいMSDA手法を提案する。 これらのプロトタイプは対照的な損失を用いて学習され、ドメイン間で同じカテゴリを整列させ、異なるカテゴリを遠くに分離する。 プロトタイプの使用により,提案手法のパラメータサイズはソースドメイン数によって大きくは増加せず,メモリ問題が少なくなり,オーバーフィッティングが可能となった。 実験的な研究により、PMTはいくつかの困難なオブジェクト検出データセットにおいて最先端のMSDA法より優れていることが示された。

Adapting visual object detectors to operational target domains is a challenging task, commonly achieved using unsupervised domain adaptation (UDA) methods. When the labeled dataset is coming from multiple source domains, treating them as separate domains and performing a multi-source domain adaptation (MSDA) improves the accuracy and robustness over mixing these source domains and performing a UDA, as observed by recent studies in MSDA. Existing MSDA methods learn domain invariant and domain-specific parameters (for each source domain) for the adaptation. However, unlike single-source UDA methods, learning domain-specific parameters makes them grow significantly proportional to the number of source domains used. This paper proposes a novel MSDA method called Prototype-based Mean-Teacher (PMT), which uses class prototypes instead of domain-specific subnets to preserve domain-specific information. These prototypes are learned using a contrastive loss, aligning the same categories across domains and separating different categories far apart. Because of the use of prototypes, the parameter size of our method does not increase significantly with the number of source domains, thus reducing memory issues and possible overfitting. Empirical studies show PMT outperforms state-of-the-art MSDA methods on several challenging object detection datasets.
翻訳日:2023-09-27 13:35:20 公開日:2023-09-26
# 実世界のテスト時間適応に向けて:バランスの取れた正規化によるトライネット自己学習

Towards Real-World Test-Time Adaptation: Tri-Net Self-Training with Balanced Normalization ( http://arxiv.org/abs/2309.14949v1 )

ライセンス: Link先を確認
Yongyi Su, Xun Xu, Kui Jia(参考訳) テスト時間適応(Test-Time Adaptation)は、ソースドメインモデルを推論段階でデータテストに適応することを目的としている。 しかし、これらの試みはより困難な現実のシナリオで失敗する可能性がある。 既存の研究は、非I.d.データストリームと連続的なドメインシフトの下での実際のテスト時間適応を主に検討している。 本研究では,まず,既存の実世界のttaプロトコルをグローバルクラス不均衡テストセットで補完する。 すべての設定を組み合わせることで、既存のメソッドに新たな課題が生まれます。 最先端手法の失敗は、まず不均衡なテストデータに正規化層を無差別に適応させることによって生じる。 そこで我々は,この欠点を解消するために,正規バッチノルムを推論段階でスワップアウトするバランスのとれたバッチノルム層を提案する。 新しい batchnorm 層は、多数派クラスに偏らずに適応することができる。 我々は、ラベルのないデータから学習する際の自己学習(ST)の成功と、テスト時間適応にSTを適用することにさらにインスピレーションを受けています。 しかし、STだけでは、連続的なドメインシフトにおけるパフォーマンスの低下の原因となる適応を克服する傾向がある。 そこで本研究では,モデル更新を定常化することで,連続的なドメインシフトの下での自己学習を改善することを提案する。 TRIBEと呼ばれる最後のTTAモデルは、バランスの取れたバッチノーム層を持つトリネットアーキテクチャ上に構築されている。 実世界のTTA設定を表す4つのデータセット上でTRIBEを評価する。 TRIBEは、複数の評価プロトコルにおける最先端のパフォーマンスを一貫して達成する。 コードは \url{https://github.com/gorilla-lab-scut/tribe} で入手できる。

Test-Time Adaptation aims to adapt source domain model to testing data at inference stage with success demonstrated in adapting to unseen corruptions. However, these attempts may fail under more challenging real-world scenarios. Existing works mainly consider real-world test-time adaptation under non-i.i.d. data stream and continual domain shift. In this work, we first complement the existing real-world TTA protocol with a globally class imbalanced testing set. We demonstrate that combining all settings together poses new challenges to existing methods. We argue the failure of state-of-the-art methods is first caused by indiscriminately adapting normalization layers to imbalanced testing data. To remedy this shortcoming, we propose a balanced batchnorm layer to swap out the regular batchnorm at inference stage. The new batchnorm layer is capable of adapting without biasing towards majority classes. We are further inspired by the success of self-training~(ST) in learning from unlabeled data and adapt ST for test-time adaptation. However, ST alone is prone to over adaption which is responsible for the poor performance under continual domain shift. Hence, we propose to improve self-training under continual domain shift by regularizing model updates with an anchored loss. The final TTA model, termed as TRIBE, is built upon a tri-net architecture with balanced batchnorm layers. We evaluate TRIBE on four datasets representing real-world TTA settings. TRIBE consistently achieves the state-of-the-art performance across multiple evaluation protocols. The code is available at \url{https://github.com/Gorilla-Lab-SCUT/TRIBE}.
翻訳日:2023-09-27 13:34:44 公開日:2023-09-26
# 雑音の多いoracleによる量子検索

Quantum Search with Noisy Oracle ( http://arxiv.org/abs/2309.14944v1 )

ライセンス: Link先を確認
Ansis Rosmanis(参考訳) 我々は、全てのオラクルコールに対して、確率$p>0$でクエリレジスタを完全に非分極するが、それ以外は適切に機能するノイズの多いオラクルにアクセスする量子検索アルゴリズムを考える。 以前の結果は、定数$p$であっても、この設定で量子$\mathrm{o}(\sqrt{n})$-queryアルゴリズムを除外していなかった。 すべての$p\le 0.99$に対し、非構造化探索の量子ノイズクエリ複雑性は$\tilde\theta(\max\{np,\sqrt{n}\})$である。 下限の$\Omega(\max\{np,\sqrt n\})$も強調ノイズであり、オラクル呼び出し毎にエラーが発生したかどうかを示すフラグが与えられる。

We consider quantum search algorithms that have access to a noisy oracle that, for every oracle call, with probability $p>0$ completely depolarizes the query registers, while otherwise working properly. Previous results had not ruled out quantum $\mathrm{O}(\sqrt{n})$-query algorithms in this setting, even for constant $p$. We show that, for all $p\le 0.99$, the quantum noisy-query complexity of the unstructured search is $\tilde\Theta(\max\{np,\sqrt{n}\})$. The lower bound $\Omega(\max\{np,\sqrt n\})$ holds also for the dephasing noise and even when, for every oracle call, the algorithm is provided with a flag indicating whether the error has occurred.
翻訳日:2023-09-27 13:34:17 公開日:2023-09-26
# Qudit システムの SNAP-Displacement Protocol におけるパラメータトレーサビリティの検討

Investigating Parameter Trainability in the SNAP-Displacement Protocol of a Qudit system ( http://arxiv.org/abs/2309.14942v1 )

ライセンス: Link先を確認
Oluwadara Ogunkoya and Kirsten Morris and Do\~ga Murat K\"urk\c{c}\"uo\~glu(参考訳) 本研究では,量子制御のための選択数依存任意位相(SNAP)と変位ゲートの普遍性について検討する。 しかし、これらのゲートのパラメータを最適化することは難しい課題である。 本研究の目的は,SNAP-DisplacementプロトコルにおけるSNAPパラメータのトレーニングの感度を検討することである。 qudit システムにおける barren plateau 問題を引き起こす可能性のある条件を分析し,マルチキュービットシステムとの比較を行った。 パラメータ化アンサッツはブロックで構成され、各ブロックはハードウェア操作、すなわちSNAPとDisplacement gates \cite{fosel2020efficient}で構成される。 可変量子アルゴリズム(VQA)と可観測関数とゲートコスト関数を併用し,$t-$design の概念とともに \cite{mcclean2018barren} や \cite{cerezo2021cost} と同様の手法を用いる。 この分析を通じて、以下の重要な観察を行う。 (a)SNAPパラメータのトレーニング性は,コスト関数ランドスケープ内の特定の方向を優先しない。 b)ハール測度の第一モーメントと第二モーメント特性を活用することにより、ある多項式関数の期待に関する新しい補題を確立し、 c) これらの新しい補題を用いて,マルチキュービットシステムと比較して,quditシステムにおいて期待できる訓練能力の優位性を示す一般的な条件を同定した。

In this study, we explore the universality of Selective Number-dependent Arbitrary Phase (SNAP) and Displacement gates for quantum control in qudit-based systems. However, optimizing the parameters of these gates poses a challenging task. Our main focus is to investigate the sensitivity of training any of the SNAP parameters in the SNAP-Displacement protocol. We analyze conditions that could potentially lead to the Barren Plateau problem in a qudit system and draw comparisons with multi-qubit systems. The parameterized ansatz we consider consists of blocks, where each block is composed of hardware operations, namely SNAP and Displacement gates \cite{fosel2020efficient}. Applying Variational Quantum Algorithm (VQA) with observable and gate cost functions, we utilize techniques similar to those in \cite{mcclean2018barren} and \cite{cerezo2021cost} along with the concept of $t-$design. Through this analysis, we make the following key observations: (a) The trainability of a SNAP-parameter does not exhibit a preference for any particular direction within our cost function landscape, (b) By leveraging the first and second moments properties of Haar measures, we establish new lemmas concerning the expectation of certain polynomial functions, and (c) utilizing these new lemmas, we identify a general condition that indicates an expected trainability advantage in a qudit system when compared to multi-qubit systems.
翻訳日:2023-09-27 13:33:54 公開日:2023-09-26
# レーダデータを用いたクライミング航空機の学習生成モデル

Learning Generative Models for Climbing Aircraft from Radar Data ( http://arxiv.org/abs/2309.14941v1 )

ライセンス: Link先を確認
Nick Pepper and Marc Thomas(参考訳) クライミング航空機の正確な軌道予測(tp)は、航空機の操作に関する認識の不確実性の存在によって妨げられ、予測された軌道と観測された軌道の間に重大な不特定性をもたらす可能性がある。 本稿では,標準航空機データ(BADA)モデルがデータから学習した推力の関数的補正によって強化された登山用航空機の生成モデルを提案する。 この方法は、badaと比較して66.3%の誤差で到着時刻の予測、テストデータと比較して現実的な生成軌跡、最小計算コストのための信頼度境界を計算する手段の3つの特徴を提供している。

Accurate trajectory prediction (TP) for climbing aircraft is hampered by the presence of epistemic uncertainties concerning aircraft operation, which can lead to significant misspecification between predicted and observed trajectories. This paper proposes a generative model for climbing aircraft in which the standard Base of Aircraft Data (BADA) model is enriched by a functional correction to the thrust that is learned from data. The method offers three features: predictions of the arrival time with 66.3% less error when compared to BADA; generated trajectories that are realistic when compared to test data; and a means of computing confidence bounds for minimal computational cost.
翻訳日:2023-09-27 13:33:27 公開日:2023-09-26
# 一様正規化と境界オブジェクトを用いた並列多目的ハイパーパラメータ最適化

Parallel Multi-Objective Hyperparameter Optimization with Uniform Normalization and Bounded Objectives ( http://arxiv.org/abs/2309.14936v1 )

ライセンス: Link先を確認
Romain Egele, Tyler Chang, Yixuan Sun, Venkatram Vishwanath, Prasanna Balaprakash(参考訳) 機械学習(ML)メソッドは、そのパフォーマンスに大きな影響を与える、幅広い構成可能なハイパーパラメータを提供する。 精度は一般的に使用されるパフォーマンス目標であるが、多くの設定では不十分である。 正確性、信頼性、公平性、キャリブレーション、プライバシ、レイテンシ、メモリ消費といった、複数の目標に対するMLモデルの最適化が重要になっている。 そのために、ハイパーパラメータ最適化(ハイパーパラメータを体系的に最適化するアプローチ)は、1つの目的に対してすでに難しいが、複数の目的に対してさらに難しい。 さらに、客観的スケールの違い、失敗、目的における外れ値の存在は、問題をさらに困難にします。 本研究では,スカラー化における一様目的正規化と無作為重みによってこれらの問題に対処する多目的ベイズ最適化(mobo)アルゴリズムを提案する。 不要な構成(例えば、不十分な精度)の探索を避けるため、目的に制約を課すことで、アプローチの効率を向上する。 最後に、MoBOを並列化するアプローチを活用し、16倍のワーカーを使用する場合、5倍のスピードアップをもたらす。

Machine learning (ML) methods offer a wide range of configurable hyperparameters that have a significant influence on their performance. While accuracy is a commonly used performance objective, in many settings, it is not sufficient. Optimizing the ML models with respect to multiple objectives such as accuracy, confidence, fairness, calibration, privacy, latency, and memory consumption is becoming crucial. To that end, hyperparameter optimization, the approach to systematically optimize the hyperparameters, which is already challenging for a single objective, is even more challenging for multiple objectives. In addition, the differences in objective scales, the failures, and the presence of outlier values in objectives make the problem even harder. We propose a multi-objective Bayesian optimization (MoBO) algorithm that addresses these problems through uniform objective normalization and randomized weights in scalarization. We increase the efficiency of our approach by imposing constraints on the objective to avoid exploring unnecessary configurations (e.g., insufficient accuracy). Finally, we leverage an approach to parallelize the MoBO which results in a 5x speed-up when using 16x more workers.
翻訳日:2023-09-27 13:33:16 公開日:2023-09-26
# FEC:画像編集の一貫性を高める3つのファインタニングフリー手法

FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing ( http://arxiv.org/abs/2309.14934v1 )

ライセンス: Link先を確認
Songyan Chen, Jiancheng Huang(参考訳) テキスト条件画像編集は、最近目立たない可能性を秘めている非常に有用なタスクである。 実際の画像編集手法の多くは、まず画像の再構成を完了し、その後、再構成に基づいて様々な方法で編集を行う。 ほとんどの手法では再構成に DDIM Inversion を用いるが、DDIM Inversion は再構成性能の保証に失敗することが多い。 再構成の失敗に対処するために,異なる編集タイプと設定のために設計された3つのサンプリング手法からなるFECを提案する。 FECの3つの手法は、画像編集タスクにおいて2つの重要な目標を達成する。 1) 実画像のテクスチャと特徴を保存した生成結果を得るためのサンプリングなど,再現性を確保すること。 2)これらのサンプリング手法は,多くの編集手法と組み合わせることができ,編集手法の性能を大幅に向上させ,様々な編集作業を行うことができる。 さらに,我々のサンプリング手法では,拡散モデルの微調整や大規模データセットの時間的トレーニングは不要である。 したがって、コンピュータメモリと計算の使用だけでなく、時間のコストも大幅に削減できる。

Text-conditional image editing is a very useful task that has recently emerged with immeasurable potential. Most current real image editing methods first need to complete the reconstruction of the image, and then editing is carried out by various methods based on the reconstruction. Most methods use DDIM Inversion for reconstruction, however, DDIM Inversion often fails to guarantee reconstruction performance, i.e., it fails to produce results that preserve the original image content. To address the problem of reconstruction failure, we propose FEC, which consists of three sampling methods, each designed for different editing types and settings. Our three methods of FEC achieve two important goals in image editing task: 1) ensuring successful reconstruction, i.e., sampling to get a generated result that preserves the texture and features of the original real image. 2) these sampling methods can be paired with many editing methods and greatly improve the performance of these editing methods to accomplish various editing tasks. In addition, none of our sampling methods require fine-tuning of the diffusion model or time-consuming training on large-scale datasets. Hence the cost of time as well as the use of computer memory and computation can be significantly reduced.
翻訳日:2023-09-27 13:32:55 公開日:2023-09-26
# 点雲セグメンテーションにおける画像-LiDAR融合におけるデータの相違

Addressing Data Misalignment in Image-LiDAR Fusion on Point Cloud Segmentation ( http://arxiv.org/abs/2309.14932v1 )

ライセンス: Link先を確認
Wei Jong Yang, Guan Cheng Lee(参考訳) 先進的なマルチセンサー融合モデルの出現により、自律運転における知覚タスクの性能が顕著に向上した。 これらの進歩にもかかわらず、特にカメラとLiDARセンサーからのデータの統合には課題が続いている。 クライシャルな懸念は、これらの異なるセンサーからのデータの正確なアライメントである。 以上の結果から,LiDAR点の投影位置が対応する画像に誤っていることが示唆された。 さらに、融合モデルはこれらの不整合点を正確にセグメンテーションするのに苦労しているように見える。 本稿では, 核融合モデル2DPASS の nuScenes データセットと SOTA に着目して, この問題を慎重に解決し, 潜在的な解決策や改善の可能性を提供する。

With the advent of advanced multi-sensor fusion models, there has been a notable enhancement in the performance of perception tasks within in terms of autonomous driving. Despite these advancements, the challenges persist, particularly in the fusion of data from cameras and LiDAR sensors. A critial concern is the accurate alignment of data from these disparate sensors. Our observations indicate that the projected positions of LiDAR points often misalign on the corresponding image. Furthermore, fusion models appear to struggle in accurately segmenting these misaligned points. In this paper, we would like to address this problem carefully, with a specific focus on the nuScenes dataset and the SOTA of fusion models 2DPASS, and providing the possible solutions or potential improvements.
翻訳日:2023-09-27 13:32:36 公開日:2023-09-26
# 視覚言語モデルのためのノイズ耐性非教師なしアダプタ

Noise-Tolerant Unsupervised Adapter for Vision-Language Models ( http://arxiv.org/abs/2309.14928v1 )

ライセンス: Link先を確認
Eman Ali, Dayan Guan, Shijian Lu, Abdulmotaleb Elsaddik(参考訳) 大規模視覚言語モデルの最近の進歩は、様々なゼロショット画像分類タスクにおいて非常に印象的な性能を達成している。 以前の研究では、少数のラベル付きターゲットサンプルの導入による大幅な改善が示されているが、ターゲットサンプルのラベル付けが必要であり、様々な視覚認識タスクを処理しながらスケーラビリティを大幅に低下させる。 ntuaはノイズに耐性のある非教師なしアダプターで、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習できる。 NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、数発の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。 相補的なデザインが2つある。 1つ目は、擬似ラベルノイズに対処する適応キャッシュ形成であり、予測信頼度に応じてキー値対を重み付けする。 2つ目は擬似ラベル補正であり、大規模な視覚言語モデルからの知識蒸留を利用してペア値(擬似ラベル)とキャッシュ重みを補正する。 大規模な実験により、NtUAは複数の広く採用されているベンチマークにおいて、一貫して優れた性能を発揮することが示された。

Recent advances in large-scale vision-language models have achieved very impressive performance in various zero-shot image classification tasks. While prior studies have demonstrated significant improvements by introducing few-shot labelled target samples, they still require labelling of target samples, which greatly degrades their scalability while handling various visual recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that allows learning superior target models with few-shot unlabelled target samples. NtUA works as a key-value cache that formulates visual features and predicted pseudo-labels of the few-shot unlabelled target samples as key-value pairs. It consists of two complementary designs. The first is adaptive cache formation that combats pseudo-label noises by weighting the key-value pairs according to their prediction confidence. The second is pseudo-label rectification, which corrects both pair values (i.e., pseudo-labels) and cache weights by leveraging knowledge distillation from large-scale vision language models. Extensive experiments show that NtUA achieves superior performance consistently across multiple widely adopted benchmarks.
翻訳日:2023-09-27 13:32:25 公開日:2023-09-26
# 量子ニューラルネットワークにおける量子状態学習プロセスの統計的解析

Statistical Analysis of Quantum State Learning Process in Quantum Neural Networks ( http://arxiv.org/abs/2309.14980v1 )

ライセンス: Link先を確認
Hao-kai Zhang, Chenghong Zhu, Mingrui Jing, Xin Wang(参考訳) 量子ニューラルネットワーク(QNN)は、様々な分野で短期的な量子優位を追求する上で有望なフレームワークであり、多くのアプリケーションは有用なデータを符号化する量子状態を学ぶことができる。 確率分布学習の量子アナログとして、量子状態学習は理論上、実際は量子機械学習において不可欠である。 本稿では,高忠実度初期状態からでもqnnを用いて未知の量子状態を学ぶためのno-go定理を考案する。 損失値が臨界閾値よりも低い場合、局所最小値を避ける確率は量子ビット数で指数関数的に消失するが、回路深さは多項式的に増大する。 局所最小値の曲率は、QNNのパラメータに対する出力状態の感度を特徴付ける損失依存定数の時間における量子フィッシャー情報に集中する。 これらの結果は、任意の回路構造、初期化戦略、固定アンサットと適応法の両方に作用する。 理論結果を検証するために,広範な数値シミュレーションを行う。 本研究は,qnnの学習性と拡張性を改善するための適切な初期推定と適応的手法に汎用的な限界を与え,qnnにおける事前情報の役割の理解を深める。

Quantum neural networks (QNNs) have been a promising framework in pursuing near-term quantum advantage in various fields, where many applications can be viewed as learning a quantum state that encodes useful data. As a quantum analog of probability distribution learning, quantum state learning is theoretically and practically essential in quantum machine learning. In this paper, we develop a no-go theorem for learning an unknown quantum state with QNNs even starting from a high-fidelity initial state. We prove that when the loss value is lower than a critical threshold, the probability of avoiding local minima vanishes exponentially with the qubit count, while only grows polynomially with the circuit depth. The curvature of local minima is concentrated to the quantum Fisher information times a loss-dependent constant, which characterizes the sensibility of the output state with respect to parameters in QNNs. These results hold for any circuit structures, initialization strategies, and work for both fixed ansatzes and adaptive methods. Extensive numerical simulations are performed to validate our theoretical results. Our findings place generic limits on good initial guesses and adaptive methods for improving the learnability and scalability of QNNs, and deepen the understanding of prior information's role in QNNs.
翻訳日:2023-09-27 13:23:54 公開日:2023-09-26
# MoCaE: 校正専門家の混在がオブジェクト検出を大幅に改善

MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection ( http://arxiv.org/abs/2309.14976v1 )

ライセンス: Link先を確認
Kemal Oksuz, Selim Kuzucu, Tom Joy, Puneet K. Dokania(参考訳) 本研究では,異なる対象検出器を忠実に組み合わせて,個々の専門家に優れた精度のMixture of Experts(MoE)を得る,極めてシンプルで効果的な手法を提案する。 これらの専門家を、よく知られたDeep Ensembles (DEs) と同様の方法で鼻で組み合わせても、効果的なMoEは得られない。 異なる検出器の信頼度スコア分布の不一致が,故障事例の主な原因であると考えられる。 そこで本提案では,まず各検出器を目標校正関数に対して校正することを提案する。 次に、混合中の様々な検出器から全ての予測をフィルタリングして精錬する。 我々はこのアプローチをMoCaEと呼び、オブジェクト検出、インスタンスセグメンテーション、回転オブジェクト検出タスクに関する広範な実験を通してその効果を実証する。 特にMoCaEは改善する (i)COCOテストデブ上の3つの強い物体検出器の2.4ドル$\mathrm{AP}$59.0ドル$\mathrm{AP}$; (ii)難解なlong-tailed lvisデータセットのインスタンスセグメンテーションメソッドは$2.3$$$$$\mathrm{ap}$; である。 (iii)既存の全ての回転物体検出器は、DOTAデータセット上で82.62$$\mathrm{AP_{50}}$に達し、新しい最先端(SOTA)を確立した。 コードは公開されます。

We propose an extremely simple and highly effective approach to faithfully combine different object detectors to obtain a Mixture of Experts (MoE) that has a superior accuracy to the individual experts in the mixture. We find that naively combining these experts in a similar way to the well-known Deep Ensembles (DEs), does not result in an effective MoE. We identify the incompatibility between the confidence score distribution of different detectors to be the primary reason for such failure cases. Therefore, to construct the MoE, our proposal is to first calibrate each individual detector against a target calibration function. Then, filter and refine all the predictions from different detectors in the mixture. We term this approach as MoCaE and demonstrate its effectiveness through extensive experiments on object detection, instance segmentation and rotated object detection tasks. Specifically, MoCaE improves (i) three strong object detectors on COCO test-dev by $2.4$ $\mathrm{AP}$ by reaching $59.0$ $\mathrm{AP}$; (ii) instance segmentation methods on the challenging long-tailed LVIS dataset by $2.3$ $\mathrm{AP}$; and (iii) all existing rotated object detectors by reaching $82.62$ $\mathrm{AP_{50}}$ on DOTA dataset, establishing a new state-of-the-art (SOTA). Code will be made public.
翻訳日:2023-09-27 13:23:32 公開日:2023-09-26
# コード書き換えファミリによる教師なしビジュアルプログラム推論の改善

Improving Unsupervised Visual Program Inference with Code Rewriting Families ( http://arxiv.org/abs/2309.14972v1 )

ライセンス: Link先を確認
Aditya Ganeshan, R. Kenny Jones and Daniel Ritchie(参考訳) プログラムは、視覚データに魅力的な表現を与えるコンパクトさと構造を提供する。 視覚データからプログラムを推論するシステムを改善するために、コード書き換えがどのように利用できるかを検討する。 まず,教師なしブートストラップ学習のためのフレームワークであるSparse Intermittent Rewrite Injection (SIRI)を提案する。 SIRIはトレーニングプログラムのデータセットにコード書き直し操作をわずかに適用し、改善されたプログラムをトレーニングセットに注入する。 我々は、パラメータ最適化、コードプルーニング、コードグラフトといった視覚的プログラミング領域のための書き換え器群を設計する。 2dと3dの3つのシェーププログラミング言語では、リライト器のファミリーでsiriを使用することでパフォーマンスが向上していることが示されています。 最後に,siri予測の出力を改善するために,テスト時に書き直し器のファミリーを効果的に活用できることを実証する。 2Dおよび3D CSGでは、最近のドメイン特化ニューラルアーキテクチャの再構成性能より優れており、プリミティブを著しく少なくした同種のプログラムを生成する。

Programs offer compactness and structure that makes them an attractive representation for visual data. We explore how code rewriting can be used to improve systems for inferring programs from visual data. We first propose Sparse Intermittent Rewrite Injection (SIRI), a framework for unsupervised bootstrapped learning. SIRI sparsely applies code rewrite operations over a dataset of training programs, injecting the improved programs back into the training set. We design a family of rewriters for visual programming domains: parameter optimization, code pruning, and code grafting. For three shape programming languages in 2D and 3D, we show that using SIRI with our family of rewriters improves performance: better reconstructions and faster convergence rates, compared with bootstrapped learning methods that do not use rewriters or use them naively. Finally, we demonstrate that our family of rewriters can be effectively used at test time to improve the output of SIRI predictions. For 2D and 3D CSG, we outperform or match the reconstruction performance of recent domain-specific neural architectures, while producing more parsimonious programs that use significantly fewer primitives.
翻訳日:2023-09-27 13:22:47 公開日:2023-09-26
# meta-rlのリカレントハイパーネットワークは驚くほど強力

Recurrent Hypernetworks are Surprisingly Strong in Meta-RL ( http://arxiv.org/abs/2309.14970v1 )

ライセンス: Link先を確認
Jacob Beck, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。 Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。 多くの特殊なメタrl手法が提案されているが、最近の研究は、リカレントネットワークのような市販のシーケンシャルモデルと組み合わせたエンドツーエンド学習が驚くほど強力なベースラインであることを示唆している。 しかし、このような主張は支持する証拠が限られているため、特に前回の作業が正反対に確立された場合、議論を呼んでいる。 本稿では,実証的な調査を行う。 同様に、リカレントネットワークは高いパフォーマンスを達成することができるが、ハイパーネットワークの利用は、その可能性の最大化に不可欠であることを示す。 驚くべきことに、ハイパーネットワークと組み合わせると、既存の特殊メソッドよりもはるかに単純なリカレントベースラインが、評価されるすべてのメソッドの最強のパフォーマンスを達成します。

Deep reinforcement learning (RL) is notoriously impractical to deploy due to sample inefficiency. Meta-RL directly addresses this sample inefficiency by learning to perform few-shot learning when a distribution of related tasks is available for meta-training. While many specialized meta-RL methods have been proposed, recent work suggests that end-to-end learning in conjunction with an off-the-shelf sequential model, such as a recurrent network, is a surprisingly strong baseline. However, such claims have been controversial due to limited supporting evidence, particularly in the face of prior work establishing precisely the opposite. In this paper, we conduct an empirical investigation. While we likewise find that a recurrent network can achieve strong performance, we demonstrate that the use of hypernetworks is crucial to maximizing their potential. Surprisingly, when combined with hypernetworks, the recurrent baselines that are far simpler than existing specialized methods actually achieve the strongest performance of all methods evaluated.
翻訳日:2023-09-27 13:22:27 公開日:2023-09-26
# 深度マップのないホログラフィック3次元コンテンツ生成のための新しいアプローチ

A novel approach for holographic 3D content generation without depth map ( http://arxiv.org/abs/2309.14967v1 )

ライセンス: Link先を確認
Hakdong Kim, Minkyu Jee, Yurim Lee, Kyudam Choi, MinSung Yoon and Cheongwon Kim(参考訳) ホログラフィック3dコンテンツの観察には,高速フーリエ変換(fft)アルゴリズムを用いたコンピュータ生成ホログラム(cghs)を生成するためには,シーン毎のrgb色と深度マップ画像を取得する必要がある。 しかし、現実の状況では、RGB色と深度マップ画像の組み合わせは必ずしも完全には利用できない。 本稿では,RGB画像のみを用いてデジタルホログラムを合成し,RGB色と深度マップ画像が部分的に提供される環境を克服する深層学習手法を提案する。 提案手法では,RGB画像の入力のみを用いて深度マップを推定し,CGHを逐次生成する。 実験により,提案モデルで生成した体積ホログラムは,rgbカラーデータのみを提供できる状況下で,競合モデルよりも精度が高いことを実証した。

In preparation for observing holographic 3D content, acquiring a set of RGB color and depth map images per scene is necessary to generate computer-generated holograms (CGHs) when using the fast Fourier transform (FFT) algorithm. However, in real-world situations, these paired formats of RGB color and depth map images are not always fully available. We propose a deep learning-based method to synthesize the volumetric digital holograms using only the given RGB image, so that we can overcome environments where RGB color and depth map images are partially provided. The proposed method uses only the input of RGB image to estimate its depth map and then generate its CGH sequentially. Through experiments, we demonstrate that the volumetric hologram generated through our proposed model is more accurate than that of competitive models, under the situation that only RGB color data can be provided.
翻訳日:2023-09-27 13:22:08 公開日:2023-09-26
# ソーシャルメディア表現の対話的学習は、ニュースソースのファクチュアリティ検出を改善する

Interactively Learning Social Media Representations Improves News Source Factuality Detection ( http://arxiv.org/abs/2309.14966v1 )

ライセンス: Link先を確認
Nikhil Mehta and Dan Goldwasser(参考訳) ソーシャルメディアの興隆により、誤報を広め、信念を揺さぶることを目的とした偽ニュース、テキストの広汎な普及が可能となった。 フェイクニュースの迅速検出、特に新しい出来事の発生は、誤報を防ぐために重要である。 以前の研究は教師付き学習システムを使ってこの問題に取り組んできたが、偽ニュースの拡散を可能にするソーシャルメディアの風景の複雑さを自動モデリングすることは困難である。 逆に、人間にすべてのニュースを事実チェックさせることは、スケーラビリティに欠ける。 そこで本稿では,人間同士が対話して,より優れたソーシャルメディア表現の質を自動学習する手法を提案する。 実世界のイベントでは,人間同士の交流が少なくても,ニュースソースの事実性の検出性能が向上した。

The rise of social media has enabled the widespread propagation of fake news, text that is published with an intent to spread misinformation and sway beliefs. Rapidly detecting fake news, especially as new events arise, is important to prevent misinformation. While prior works have tackled this problem using supervised learning systems, automatedly modeling the complexities of the social media landscape that enables the spread of fake news is challenging. On the contrary, having humans fact check all news is not scalable. Thus, in this paper, we propose to approach this problem interactively, where humans can interact to help an automated system learn a better social media representation quality. On real world events, our experiments show performance improvements in detecting factuality of news sources, even after few human interactions.
翻訳日:2023-09-27 13:21:54 公開日:2023-09-26
# GridFormer: グリッド予測による正確なテーブル構造認識を目指して

GridFormer: Towards Accurate Table Structure Recognition via Grid Prediction ( http://arxiv.org/abs/2309.14962v1 )

ライセンス: Link先を確認
Pengyuan Lyu, Weihong Ma, Hongyi Wang, Yuechen Yu, Chengquan Zhang, Kun Yao, Yang Xue, Jingdong Wang(参考訳) すべてのテーブルはグリッドとして表現できる。 この観測に基づいて,グリッドの頂点と辺を予測し,制約のないテーブル構造を解釈する新しい手法であるGridFormerを提案する。 まず、MXNグリッドの形式でフレキシブルなテーブル表現を提案する。 この表現では、グリッドの頂点とエッジはテーブルの局所化と隣接情報を格納する。 そして,DTR型テーブル構造認識器を導入し,このグリッドの多目的情報を単一ショットで効率的に予測する。 具体的には、学習された行と列のクエリのセットが与えられると、認識者は対応する行と列の頂点とエッジ情報を直接出力する。 有線、無線、マルチマージセル、指向性、歪んだテーブルを含む5つの挑戦的ベンチマーク実験は、我々のモデルが他の方法よりも優れていることを示す。

All tables can be represented as grids. Based on this observation, we propose GridFormer, a novel approach for interpreting unconstrained table structures by predicting the vertex and edge of a grid. First, we propose a flexible table representation in the form of an MXN grid. In this representation, the vertexes and edges of the grid store the localization and adjacency information of the table. Then, we introduce a DETR-style table structure recognizer to efficiently predict this multi-objective information of the grid in a single shot. Specifically, given a set of learned row and column queries, the recognizer directly outputs the vertexes and edges information of the corresponding rows and columns. Extensive experiments on five challenging benchmarks which include wired, wireless, multi-merge-cell, oriented, and distorted tables demonstrate the competitive performance of our model over other methods.
翻訳日:2023-09-27 13:21:41 公開日:2023-09-26
# 航空機地上軌道予測のための文脈認識生成モデル

Context-Aware Generative Models for Prediction of Aircraft Ground Tracks ( http://arxiv.org/abs/2309.14957v1 )

ライセンス: Link先を確認
Nick Pepper and George De Ath and Marc Thomas and Richard Everson and Tim Dodwell(参考訳) 軌道予測(TP)は航空交通管制官(ATCO)の意思決定を支援する上で重要な役割を果たしている。 従来のtp法は決定論的で物理学に基づくもので、世界中の航空機の監視データを用いてパラメータを校正する。 これらのモデルは、パイロットやATCOの意図によらず、特に横方向の平面において観測された軌道に大きな影響を与える可能性がある。 本研究では,確率的機械学習を用いて,パイロット行動とatco意図の未知の効果から生じる認識的不確実性の影響をモデル化する横型tp生成法を提案する。 モデルは特定のセクタに特有のように訓練され、協調したエントリや出口などの局所的な手順をモデル化することができる。 1週間分の航空機の監視データからなるデータセットは、イギリスのアッパー・エアスペースの忙しい部門を通過し、モデルの訓練とテストに使用された。 具体的には, 部分的文脈で条件付き生成モデルにより制御点が決定される, 地上線路の関数的低次元表現として, 片方向線形モデルを用いた。 その結果, ベイズニューラルネットワークを用いて, ラプラス近似を用いて, セクターを流れる交通の流れをエミュレートするために, もっとも妥当な軌跡を生成できることが判明した。

Trajectory prediction (TP) plays an important role in supporting the decision-making of Air Traffic Controllers (ATCOs). Traditional TP methods are deterministic and physics-based, with parameters that are calibrated using aircraft surveillance data harvested across the world. These models are, therefore, agnostic to the intentions of the pilots and ATCOs, which can have a significant effect on the observed trajectory, particularly in the lateral plane. This work proposes a generative method for lateral TP, using probabilistic machine learning to model the effect of the epistemic uncertainty arising from the unknown effect of pilot behaviour and ATCO intentions. The models are trained to be specific to a particular sector, allowing local procedures such as coordinated entry and exit points to be modelled. A dataset comprising a week's worth of aircraft surveillance data, passing through a busy sector of the United Kingdom's upper airspace, was used to train and test the models. Specifically, a piecewise linear model was used as a functional, low-dimensional representation of the ground tracks, with its control points determined by a generative model conditioned on partial context. It was found that, of the investigated models, a Bayesian Neural Network using the Laplace approximation was able to generate the most plausible trajectories in order to emulate the flow of traffic through the sector.
翻訳日:2023-09-27 13:21:27 公開日:2023-09-26
# AI生成助粒子による単一粒子Cryo-EMの配向

Addressing preferred orientation in single-particle cryo-EM through AI-generated auxiliary particles ( http://arxiv.org/abs/2309.14954v1 )

ライセンス: Link先を確認
Hui Zhang, Dihan Zheng, Qiurong Wu, Nieng Yan, Zuoqiang Shi, Mingxu Hu and Chenglong Bao(参考訳) 単粒子クリオ-em場は、一般的な計算解を欠いた優先方向の永続的な挑戦に直面している。 上記の問題に対処するために設計されたAIベースのアプローチであるCryoPROSを紹介する。 条件付き深部生成モデルで補助粒子を生成することにより、観測粒子の配向推定における内在バイアスに対処する。 ヘマグルチニントリマーのcryo-em単粒子分析においてcryoprosを効果的に利用し,非チルトデータを用いて原子近傍の分解能構造を復元する能力を示した。 さらに、CryoPROS-MPと呼ばれる改良版はミセルの効果を含む非タイルデータを用いて膜タンパク質NaXの分解能を著しく向上させる。 古典的なアプローチと比較して、cryoprosは特別な実験技術や画像取得技術を必要としない。 最後に,モデルバイアスの低リスクとcryoprosの高ロバスト性を確立するための広範な実験を行った。

The single-particle cryo-EM field faces the persistent challenge of preferred orientation, lacking general computational solutions. We introduce cryoPROS, an AI-based approach designed to address the above issue. By generating the auxiliary particles with a conditional deep generative model, cryoPROS addresses the intrinsic bias in orientation estimation for the observed particles. We effectively employed cryoPROS in the cryo-EM single particle analysis of the hemagglutinin trimer, showing the ability to restore the near-atomic resolution structure on non-tilt data. Moreover, the enhanced version named cryoPROS-MP significantly improves the resolution of the membrane protein NaX using the no-tilted data that contains the effects of micelles. Compared to the classical approaches, cryoPROS does not need special experimental or image acquisition techniques, providing a purely computational yet effective solution for the preferred orientation problem. Finally, we conduct extensive experiments that establish the low risk of model bias and the high robustness of cryoPROS.
翻訳日:2023-09-27 13:21:05 公開日:2023-09-26
# 長期音声認識のためのコーパスとベンチマークの更新

Updated Corpora and Benchmarks for Long-Form Speech Recognition ( http://arxiv.org/abs/2309.15013v1 )

ライセンス: Link先を確認
Jennifer Drexler Fox, Desh Raj, Natalie Delworth, Quinn McNamara, Corey Miller, Mig\"uel Jett\'e(参考訳) ASRの研究の大半はコーパスを使用しており、トレーニングデータとテストデータの両方が事前に音声に分類されている。 しかし、ほとんどの実単語 ASR のユースケースでは、テスト音声はセグメント化されておらず、推論時間条件とセグメント化された発話で訓練されたモデルとのミスマッチにつながる。 本稿では, TED-Lium 3 と Gigapeech, Voxpopuli-en の3つの標準 ASR コーパスを再リリースし, 書き起こしとアライメントを改良し, 長期の ASR 研究に利用できるようにした。 これらの再構成コーパスを用いて、トランスデューサとアテンションベースのエンコーダデコーダ(AED)の列車ミスマッチ問題を解析し、AEDがこの問題により敏感であることを確認する。 最後に、これらのモデルに対する単純な長期トレーニングをベンチマークし、このドメインシフト下でのモデル堅牢性の有効性を示す。

The vast majority of ASR research uses corpora in which both the training and test data have been pre-segmented into utterances. In most real-word ASR use-cases, however, test audio is not segmented, leading to a mismatch between inference-time conditions and models trained on segmented utterances. In this paper, we re-release three standard ASR corpora - TED-LIUM 3, Gigapeech, and VoxPopuli-en - with updated transcription and alignments to enable their use for long-form ASR research. We use these reconstituted corpora to study the train-test mismatch problem for transducers and attention-based encoder-decoders (AEDs), confirming that AEDs are more susceptible to this issue. Finally, we benchmark a simple long-form training for these models, showing its efficacy for model robustness under this domain shift.
翻訳日:2023-09-27 13:15:13 公開日:2023-09-26
# パーコレーションによるpt対称性の破断

Percolation-induced PT symmetry breaking ( http://arxiv.org/abs/2309.15008v1 )

ライセンス: Link先を確認
Mengjie Yang and Ching Hua Lee(参考訳) 臨界相転移と密接に関連したパーコレーションにより,pt対称性を破ることで非エルミート系の漸近ダイナミクスを決定できる新しい方法を提案する。 その中心となるのが、新たに設計された位相誘導利得のメカニズムです。2層トポロジカルシステム内のカイラルエッジウェーブパックは、トポロジカルな制御の仕方に基づいて、非エルミート的利得や損失を経験します。 十分に広いトポロジカルな島々にとって、これは層間トンネルによる正のフィードバックによって不可逆的な成長をもたらす。 そのため、小さなトポ島を大きな島にマージするパーコレーション遷移は、実際の遷移から複雑な遷移にわたってエッジスペクトルを駆動する。 我々の発見は, キラルトポロジの3重相互作用, 誘導利得と層間トンネルによる動的影響を生かし, フィードバックシステムの制御に新たなトポロジの経路を提案する。

We propose a new avenue in which percolation, which has been much associated with critical phase transitions, can also dictate the asymptotic dynamics of non-Hermitian systems by breaking PT symmetry. Central to it is our newly-designed mechanism of topologically guided gain, where chiral edge wavepackets in a bilayer topological system experience non-Hermitian gain or loss based on how they are topologically steered. For sufficiently wide topological islands, this leads to irreversible growth due to positive feedback from inter-layer tunneling. As such, a percolation transition that merges small topo islands into larger ones also drives the edge spectrum across a real to complex transition. Our discovery showcases intriguing dynamical consequences from the triple interplay of chiral topology, directed gain and inter-layer tunneling, and suggests new routes for topology to be harnessed in the control of feedback systems.
翻訳日:2023-09-27 13:14:54 公開日:2023-09-26
# 教育用テキストからの質問生成の自動化

Automating question generation from educational text ( http://arxiv.org/abs/2309.15004v1 )

ライセンス: Link先を確認
Ayan Kumar Bhowmick and Ashish Jagmohan and Aditya Vempaty and Prasenjit Dey and Leigh Hall and Jeremy Hartman and Ravi Kokku and Hema Maheshwari(参考訳) 質問ベースの活動(QBA)の使用は教育において広く普及しており、伝統的に学習と評価プロセスの不可欠な部分を形成している。 本稿では,学校における形式的・要約的評価のための自動質問生成ツールの設計と評価を行う。 本稿では,教師の作業量を大幅に削減し,個別化学習体験を促進するツールとして,QBAの自動生成の必要性を示す100,4人の教員を対象とした専門的な調査を行う。 生成AIの最近の進歩を活用して、テキストコンテンツからマルチチョイス質問(MCQ)を自動的に生成するトランスフォーマーベースの言語モデルを用いたモジュラーフレームワークを提案する。 提案手法は,質問生成,正解予測,注意散らしの定式化の異なるモジュールを用いて,異なる言語モデルと生成手法を評価することができる。 最後に, 定量的・質的評価を行い, 異なる手法やモデルの利用におけるトレードオフを実証した。

The use of question-based activities (QBAs) is wide-spread in education, traditionally forming an integral part of the learning and assessment process. In this paper, we design and evaluate an automated question generation tool for formative and summative assessment in schools. We present an expert survey of one hundred and four teachers, demonstrating the need for automated generation of QBAs, as a tool that can significantly reduce the workload of teachers and facilitate personalized learning experiences. Leveraging the recent advancements in generative AI, we then present a modular framework employing transformer based language models for automatic generation of multiple-choice questions (MCQs) from textual content. The presented solution, with distinct modules for question generation, correct answer prediction, and distractor formulation, enables us to evaluate different language models and generation techniques. Finally, we perform an extensive quantitative and qualitative evaluation, demonstrating trade-offs in the use of different techniques and models.
翻訳日:2023-09-27 13:14:37 公開日:2023-09-26
# 線形回帰モデルにおける前方勾配降下の収束保証

Convergence guarantees for forward gradient descent in the linear regression model ( http://arxiv.org/abs/2309.15001v1 )

ライセンス: Link先を確認
Thijs Bos and Johannes Schmidt-Hieber(参考訳) 人工ニューラルネットワークと生物学的ニューラルネットワークの関係に対する新たな関心は、勾配のない手法の研究を動機付けている。 ランダムな設計による線形回帰モデルを考えると、この研究において、勾配のランダムな線形結合に基づく生物学的動機付け(重み付き)前方勾配スキームを理論的に解析する。 d がパラメータの数を表し、k がサンプル数を表すなら、この方法の平均二乗誤差は $k\gtrsim d^2\log(d)$ と $d^2\log(d)/k と収束する。 $ を確率勾配降下の次元依存 d と比較すると、追加の係数 $d\log(d)$ が生じる。

Renewed interest in the relationship between artificial and biological neural networks motivates the study of gradient-free methods. Considering the linear regression model with random design, we theoretically analyze in this work the biologically motivated (weight-perturbed) forward gradient scheme that is based on random linear combination of the gradient. If d denotes the number of parameters and k the number of samples, we prove that the mean squared error of this method converges for $k\gtrsim d^2\log(d)$ with rate $d^2\log(d)/k.$ Compared to the dimension dependence d for stochastic gradient descent, an additional factor $d\log(d)$ occurs.
翻訳日:2023-09-27 13:14:22 公開日:2023-09-26
# 集約特徴を持つオブジェクト中心オープン語彙画像検索

Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features ( http://arxiv.org/abs/2309.14999v1 )

ライセンス: Link先を確認
Hila Levi, Guy Heller, Dan Levi, Ethan Fetaya(参考訳) オープンボキャブラリのオブジェクト中心の画像検索のタスクは、オープンセットのテキストクエリによって記述された特定の対象を含む画像の検索を伴う。 大規模な画像データセットの開発が標準になるにつれて、このタスクを効率的に解くことは、重要な実践的重要性を生んでいる。 アプリケーションには、アドホックなクエリとトレーニング中のハードサンプルマイニングを使用して検索された画像のパフォーマンス分析が含まれる。 コントラストベースのオープン語彙システムの最近の進歩は目覚ましいブレークスルーをもたらし、大規模オープン語彙画像検索を容易にしている。 しかし、これらのアプローチは画像ごとに単一のグローバル埋め込みを使用し、比較的小さなオブジェクトインスタンスを含む画像を取得する能力を制限している。 あるいは、検出パイプラインからのローカル組み込みはスケーラビリティの課題に直面しているため、大規模なデータベースからの検索には適さない。 本研究では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。 提案手法では,CLIPから抽出した高密度埋め込みをコンパクトな表現に集約し,画像検索パイプラインのスケーラビリティと高密度検出手法のオブジェクト識別機能を組み合わせた。 提案手法の有効性は,3つのデータセットのグローバルな特徴的アプローチよりも有意に向上し,最大15mAPポイントの精度向上が図られている。 さらに,本手法を大規模検索フレームワークに統合し,拡張性と解釈可能性の観点から手法の利点を実証する。

The task of open-vocabulary object-centric image retrieval involves the retrieval of images containing a specified object of interest, delineated by an open-set text query. As working on large image datasets becomes standard, solving this task efficiently has gained significant practical importance. Applications include targeted performance analysis of retrieved images using ad-hoc queries and hard example mining during training. Recent advancements in contrastive-based open vocabulary systems have yielded remarkable breakthroughs, facilitating large-scale open vocabulary image retrieval. However, these approaches use a single global embedding per image, thereby constraining the system's ability to retrieve images containing relatively small object instances. Alternatively, incorporating local embeddings from detection pipelines faces scalability challenges, making it unsuitable for retrieval from large databases. In this work, we present a simple yet effective approach to object-centric open-vocabulary image retrieval. Our approach aggregates dense embeddings extracted from CLIP into a compact representation, essentially combining the scalability of image retrieval pipelines with the object identification capabilities of dense detection methods. We show the effectiveness of our scheme to the task by achieving significantly better results than global feature approaches on three datasets, increasing accuracy by up to 15 mAP points. We further integrate our scheme into a large scale retrieval framework and demonstrate our method's advantages in terms of scalability and interpretability.
翻訳日:2023-09-27 13:14:07 公開日:2023-09-26
# 実シナリオにおける歪画像のアンサンブルモデル

An Ensemble Model for Distorted Images in Real Scenarios ( http://arxiv.org/abs/2309.14998v1 )

ライセンス: Link先を確認
Boyuan Ji, Jianchang Huang, Wenzhuo Huang, Shuke He(参考訳) 画像取得条件と環境はコンピュータビジョンのハイレベルなタスクに大きく影響し、歪みのないデータセットでトレーニングされた場合、ほとんどのコンピュータビジョンアルゴリズムのパフォーマンスは制限される。 センサーやディープラーニングメソッドなどのハードウェアのアップデートであっても、現実世界のアプリケーションでは、さまざまな条件に直面しては動作しない。 本稿では、オブジェクト検出器YOLOv7を用いて、データセットCDCOCOから歪んだ画像を検出する。 データエンハンスメント、検出ボックスアンサンブル、デノイザーアンサンブル、超解像モデル、転送学習など、慎重に設計された最適化により、本モデルはCDCOCOテストセット上で優れた性能を達成する。 ノイズ検出モデルは歪んだ画像のノイズや修復が可能であり,実世界の様々なシナリオや環境において有用である。

Image acquisition conditions and environments can significantly affect high-level tasks in computer vision, and the performance of most computer vision algorithms will be limited when trained on distortion-free datasets. Even with updates in hardware such as sensors and deep learning methods, it will still not work in the face of variable conditions in real-world applications. In this paper, we apply the object detector YOLOv7 to detect distorted images from the dataset CDCOCO. Through carefully designed optimizations including data enhancement, detection box ensemble, denoiser ensemble, super-resolution models, and transfer learning, our model achieves excellent performance on the CDCOCO test set. Our denoising detection model can denoise and repair distorted images, making the model useful in a variety of real-world scenarios and environments.
翻訳日:2023-09-27 13:13:43 公開日:2023-09-26
# IAIFNet:照明対応赤外線可視画像融合ネットワーク

IAIFNet: An Illumination-Aware Infrared and Visible Image Fusion Network ( http://arxiv.org/abs/2309.14997v1 )

ライセンス: Link先を確認
Qiao Yang, Yu Zhang, Jian Zhang, Zijing Zhao, Shunli Zhang, Jinqiao Wang, Junzhe Chen(参考訳) Infrared and visible image fusion (IVIF) は、両画像の包括的な特徴を持つ融合画像を生成するために用いられる。 しかし、現在の方法は、低照度環境における照明条件をほとんど考慮せず、融合画像のターゲットは目立たないことが多い。 上記の課題に対処するため,IAIFNet という名前のイルミネーション対応赤外線・可視画像融合ネットワークを提案する。 本フレームワークでは,まず,入力画像の入射照明マップを推定する。 その後、適応微分融合モジュール (ADFM) と有向目標認識モジュール (STAM) の助けを借りて、画像融合ネットワークは、照明付赤外線と可視画像の塩分特性を視覚的品質の高い融合画像に効果的に統合する。 広範な実験結果から, 赤外線画像と可視画像を融合する5つの最先端手法に勝ることを確認した。

Infrared and visible image fusion (IVIF) is used to generate fusion images with comprehensive features of both images, which is beneficial for downstream vision tasks. However, current methods rarely consider the illumination condition in low-light environments, and the targets in the fused images are often not prominent. To address the above issues, we propose an Illumination-Aware Infrared and Visible Image Fusion Network, named as IAIFNet. In our framework, an illumination enhancement network first estimates the incident illumination maps of input images. Afterwards, with the help of proposed adaptive differential fusion module (ADFM) and salient target aware module (STAM), an image fusion network effectively integrates the salient features of the illumination-enhanced infrared and visible images into a fusion image of high visual quality. Extensive experimental results verify that our method outperforms five state-of-the-art methods of fusing infrared and visible images.
翻訳日:2023-09-27 13:13:28 公開日:2023-09-26
# セイルボート価格と特徴量と地域面積の測定モデル

Measurement Models For Sailboats Price vs. Features And Regional Areas ( http://arxiv.org/abs/2309.14994v1 )

ライセンス: Link先を確認
Jiaqi Weng, Chunlin Feng, Yihan Shao(参考訳) 本研究では,帆船の技術仕様とその価格,および地域価格の影響について検討した。 長さ,ビーム,ドラフト,変位,セイルエリア,ウォーターラインなどの特性を包含するデータセットを用いて,複数の機械学習モデルを適用し,帆船価格の予測を行った。 勾配降下モデルでは,mseおよびmaeが最も低い値を示した。 分析の結果,単船はカタマランよりも一般的に安価であり,長さ,梁,変位,帆路面積などの特定仕様は価格上昇と直接相関することが明らかとなった。 興味深いことに、低いドラフトは上場価格の上昇と関連していた。 我々はまた、地域価格決定要因を調査し、米国が平均的なヨット価格で首位となり、続いてヨーロッパ、香港、カリブ海が続いた。 最初の仮説とは対照的に、国のGDPはヨットの価格と直接の相関を示さなかった。 50%のクロスバリデーション法を用いて,実験群間で一貫した結果を得た。 我々の研究は、ヨットの価格に関する機械学習による視点を提供し、消費者が情報的な意思決定を行うのを助ける。

In this study, we investigated the relationship between sailboat technical specifications and their prices, as well as regional pricing influences. Utilizing a dataset encompassing characteristics like length, beam, draft, displacement, sail area, and waterline, we applied multiple machine learning models to predict sailboat prices. The gradient descent model demonstrated superior performance, producing the lowest MSE and MAE. Our analysis revealed that monohulled boats are generally more affordable than catamarans, and that certain specifications such as length, beam, displacement, and sail area directly correlate with higher prices. Interestingly, lower draft was associated with higher listing prices. We also explored regional price determinants and found that the United States tops the list in average sailboat prices, followed by Europe, Hong Kong, and the Caribbean. Contrary to our initial hypothesis, a country's GDP showed no direct correlation with sailboat prices. Utilizing a 50% cross-validation method, our models yielded consistent results across test groups. Our research offers a machine learning-enhanced perspective on sailboat pricing, aiding prospective buyers in making informed decisions.
翻訳日:2023-09-27 13:13:09 公開日:2023-09-26
# ロバストシーケンスディープフェイク検出

Robust Sequential DeepFake Detection ( http://arxiv.org/abs/2309.14991v1 )

ライセンス: Link先を確認
Rui Shao, Tianxing Wu, Ziwei Liu(参考訳) 近年, 顔操作技術により, 光写実的顔が容易に生成されつつあるため, これらの技術の悪用が懸念されている。 そこで,多くのディープフェイク検出手法が提案されている。 しかし、既存の方法は1段階の顔操作のみに焦点が当てられている。 容易な顔編集アプリケーションの出現に伴い、複数ステップ操作による顔成分の操作がシーケンシャルに行えるようになった。 この新たな脅威は、ディープフェイクメディアの検出と元の顔の復元の両方に不可欠な、一連の顔操作を検出することを必要とします。 この観察に動機付けられ,シーケンシャルディープフェイク操作(seq-deepfake)検出という新たな研究課題を提案する。 既存のdeepfake検出タスクとは異なり、seq-deepfake操作を検出するには、顔操作のシーケンシャルベクターを正確に予測する必要がある。 大規模な調査を支援するために,顔画像の逐次的操作ベクトルのアノテーションによる逐次的な操作を行う最初のseq-deepfakeデータセットを構築した。 この新たなデータセットに基づいて、Seq-DeepFake操作を特定の画像からシーケンスへのタスクとして検出し、簡潔で効果的なSeq-DeepFake変換器(SeqFakeFormer)を提案する。 実世界のディープフェイクデータ分布をよりよく反映するために、元のSeq-DeepFakeデータセットに様々な摂動を適用し、摂動を伴うより困難なシークエンシャルディープフェイクデータセットを構築する(Seq-DeepFake-P)。 Seq-DeepFake-Pと対向する際の画像とシーケンスのより深い相関を利用するために、Seq-DeepFakeのより堅牢なSeq-DeepFake検出のために、SeqFakeFormer++(Image-Sequence Reasoning)を備えた専用Seq-DeepFake変換器を開発した。

Since photorealistic faces can be readily generated by facial manipulation technologies nowadays, potential malicious abuse of these technologies has drawn great concerns. Numerous deepfake detection methods are thus proposed. However, existing methods only focus on detecting one-step facial manipulation. As the emergence of easy-accessible facial editing applications, people can easily manipulate facial components using multi-step operations in a sequential manner. This new threat requires us to detect a sequence of facial manipulations, which is vital for both detecting deepfake media and recovering original faces afterwards. Motivated by this observation, we emphasize the need and propose a novel research problem called Detecting Sequential DeepFake Manipulation (Seq-DeepFake). Unlike the existing deepfake detection task only demanding a binary label prediction, detecting Seq-DeepFake manipulation requires correctly predicting a sequential vector of facial manipulation operations. To support a large-scale investigation, we construct the first Seq-DeepFake dataset, where face images are manipulated sequentially with corresponding annotations of sequential facial manipulation vectors. Based on this new dataset, we cast detecting Seq-DeepFake manipulation as a specific image-to-sequence task and propose a concise yet effective Seq-DeepFake Transformer (SeqFakeFormer). To better reflect real-world deepfake data distributions, we further apply various perturbations on the original Seq-DeepFake dataset and construct the more challenging Sequential DeepFake dataset with perturbations (Seq-DeepFake-P). To exploit deeper correlation between images and sequences when facing Seq-DeepFake-P, a dedicated Seq-DeepFake Transformer with Image-Sequence Reasoning (SeqFakeFormer++) is devised, which builds stronger correspondence between image-sequence pairs for more robust Seq-DeepFake detection.
翻訳日:2023-09-27 13:12:50 公開日:2023-09-26
# 非定常強化学習におけるテンポ適応

Tempo Adaption in Non-stationary Reinforcement Learning ( http://arxiv.org/abs/2309.14989v1 )

ライセンス: Link先を確認
Hyunin Lee, Yuhao Ding, Jongmin Lee, Ming Jin, Javad Lavaei, Somayeh Sojoudi(参考訳) まず、実世界の応用を妨げる重要な要因である非定常強化学習(RL)において、エージェントと環境との間の「時間同期」の問題に取り組み、対処する。 実際には、時間変化はエピソード進行(k$)ではなく、時間変化(\mathfrak{t}$)によって起こる。 既存の作品では、エピソード$k$で、エージェントは軌道をロールアウトし、エピソード$k+1$に移行する前にポリシーを訓練する。 しかし、時間依存環境の文脈では、時のエージェント $\mathfrak{t}_k$ は軌道生成とトレーニングのために $\Delta \mathfrak{t}$ を割り当て、次に次のエピソードに $\mathfrak{t}_{k+1}=\mathfrak{t}_{k}+\Delta \mathfrak{t}$ を移動させる。 固定されたトータルエピソード(K$)にもかかわらず、エージェントは \textit{interaction times} ($\mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K$)の選択によって影響された異なる軌道を蓄積し、政策の準最適ギャップに大きな影響を及ぼす。 我々は、最適な$\{ \mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_k \} (= \{ \mathfrak{t} \}_{1:k})$を計算する、積極的な同期のテンポ(プロスト)フレームワークを提案する。 私たちの主な貢献は、ポリシートレーニング時間(エージェントテンポ)と環境変化の速さ(環境テンポ)の間の最適な$\{ \mathfrak{t} \}_{1:k}$のトレードオフを示すことです。 理論的には、この研究は環境の非定常性の度合いの関数として最適な$\{ \mathfrak{t} \}_{1:k}$ を確立し、同時に亜線形動的後悔を達成する。 各種高次元非定常環境に関する実験的評価により, ProST フレームワークは既存の手法よりも最適な $\{ \mathfrak{t} \}_{1:K}$ で高いオンラインリターンを達成することが示された。

We first raise and tackle ``time synchronization'' issue between the agent and the environment in non-stationary reinforcement learning (RL), a crucial factor hindering its real-world applications. In reality, environmental changes occur over wall-clock time ($\mathfrak{t}$) rather than episode progress ($k$), where wall-clock time signifies the actual elapsed time within the fixed duration $\mathfrak{t} \in [0, T]$. In existing works, at episode $k$, the agent rollouts a trajectory and trains a policy before transitioning to episode $k+1$. In the context of the time-desynchronized environment, however, the agent at time $\mathfrak{t}_k$ allocates $\Delta \mathfrak{t}$ for trajectory generation and training, subsequently moves to the next episode at $\mathfrak{t}_{k+1}=\mathfrak{t}_{k}+\Delta \mathfrak{t}$. Despite a fixed total episode ($K$), the agent accumulates different trajectories influenced by the choice of \textit{interaction times} ($\mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K$), significantly impacting the sub-optimality gap of policy. We propose a Proactively Synchronizing Tempo (ProST) framework that computes optimal $\{ \mathfrak{t}_1,\mathfrak{t}_2,...,\mathfrak{t}_K \} (= \{ \mathfrak{t} \}_{1:K})$. Our main contribution is that we show optimal $\{ \mathfrak{t} \}_{1:K}$ trades-off between the policy training time (agent tempo) and how fast the environment changes (environment tempo). Theoretically, this work establishes an optimal $\{ \mathfrak{t} \}_{1:K}$ as a function of the degree of the environment's non-stationarity while also achieving a sublinear dynamic regret. Our experimental evaluation on various high dimensional non-stationary environments shows that the ProST framework achieves a higher online return at optimal $\{ \mathfrak{t} \}_{1:K}$ than the existing methods.
翻訳日:2023-09-27 13:12:14 公開日:2023-09-26
# 単体タイト結合モデルにおける測定誘起相転移

Measurement-induced phase transition in a single-body tight-binding model ( http://arxiv.org/abs/2309.15034v1 )

ライセンス: Link先を確認
Tony Jin and David G. Martin(参考訳) 空間次元$d$の離散格子上で連続的に進化する単一自由量子粒子の統計的性質について検討する。 摂動的再正規化群(rg)分析を用いて、測定強度$\gamma$が臨界値$\gamma_{c}$を超えて増加するので、システムは$\textit{delocalized}$から$\textit{localized}$ phaseへ$d>2$で測定誘起相転移(mipt)を行う。 表面成長の言語では、非局在化相は$\textit{rough}$相に対応するが、局所化相は$\textit{smooth}$相に対応する。 我々は,理論と定性的かつ定量的に一致した数値解析による解析計算を支援する。

We study the statistical properties of a single free quantum particle evolving coherently on a discrete lattice in $d$ spatial dimensions where every lattice site is additionally subject to continuous measurement of the occupation number. Using perturbative renormalization group (RG) analysis, we show that the systems undergoes a Measurement-induced Phase Transition (MiPT) for $d>2$ from a $\textit{delocalized}$ to a $\textit{localized}$ phase as the measurement strength $\gamma$ is increased beyond a critical value $\gamma_{c}$. In the language of surface growth, the delocalized phase corresponds to a $\textit{rough}$ phase while the localized phase corresponds to a $\textit{smooth}$ phase. We support our analytical computations with numerical analysis which are in qualitative and quantitative agreement with the theory.
翻訳日:2023-09-27 13:04:36 公開日:2023-09-26
# SoFARI:高次元マニフォールドベース推論

SOFARI: High-Dimensional Manifold-Based Inference ( http://arxiv.org/abs/2309.15032v1 )

ライセンス: Link先を確認
Zemin Zheng, Xin Zhou, Yingying Fan, Jinchi Lv(参考訳) マルチタスク学習は,様々なタスクからの情報を活用する手法として広く用いられている。 近年,係数行列内におけるスパース特異値分解(SVD)に基づくスパルス直交因子回帰(SOFAR)フレームワークを導入し,多タスク学習を解釈可能とし,異なる層にまたがる有意義な潜在的特徴応答相関ネットワークの発見を可能にした。 しかし、スパルスSVD制約から受け継いだ直交制約のため、潜在因子行列の正確な推論は依然として困難である。 本稿では,svd制約によって課されるスティーフェル多様体構造を取り入れつつ,ニーマン近似オルトゴナリティ推論に基づく高次元多様体ベースソファー推論(sofari)と呼ばれる新しい手法を提案する。 基礎となるスティーフェル多様体構造を利用することで、SOFARIは潜在左因子ベクトルと特異値の両方に対してバイアス補正された推定器を提供し、そこで、推定可能な分散を伴う漸近平均零正規分布を楽しむことを示す。 強弱直交潜在因子を扱うソファリ変種を2種類導入し,後者は幅広い応用範囲をカバーする。 ソファリの有効性を説明し、シミュレーション例と経済予測における実データ応用により、理論結果を正当化する。

Multi-task learning is a widely used technique for harnessing information from various tasks. Recently, the sparse orthogonal factor regression (SOFAR) framework, based on the sparse singular value decomposition (SVD) within the coefficient matrix, was introduced for interpretable multi-task learning, enabling the discovery of meaningful latent feature-response association networks across different layers. However, conducting precise inference on the latent factor matrices has remained challenging due to orthogonality constraints inherited from the sparse SVD constraint. In this paper, we suggest a novel approach called high-dimensional manifold-based SOFAR inference (SOFARI), drawing on the Neyman near-orthogonality inference while incorporating the Stiefel manifold structure imposed by the SVD constraints. By leveraging the underlying Stiefel manifold structure, SOFARI provides bias-corrected estimators for both latent left factor vectors and singular values, for which we show to enjoy the asymptotic mean-zero normal distributions with estimable variances. We introduce two SOFARI variants to handle strongly and weakly orthogonal latent factors, where the latter covers a broader range of applications. We illustrate the effectiveness of SOFARI and justify our theoretical results through simulation examples and a real data application in economic forecasting.
翻訳日:2023-09-27 13:04:14 公開日:2023-09-26
# 深層学習アルゴリズムを用いた核形態計測は犬皮膚肥満細胞腫瘍の予後と相関する

Nuclear Morphometry using a Deep Learning-based Algorithm has Prognostic Relevance for Canine Cutaneous Mast Cell Tumors ( http://arxiv.org/abs/2309.15031v1 )

ライセンス: Link先を確認
Andreas Haghofer, Eda Parlak, Alexander Bartel, Taryn A. Donovan, Charles-Antoine Assenmacher, Pompei Bolfa, Michael J. Dark, Andrea Fuchs-Baumgartinger, Andrea Klang, Kathrin J\"ager, Robert Klopfleisch, Sophie Merz, Barbara Richter, F. Yvonne Schulman, Jonathan Ganz, Josef Scharinger, Marc Aubreville, Stephan M. Winkler, Matti Kiupel, Christof A. Bertram(参考訳) 核の大きさと形状の変化は多くの腫瘍の悪性度の重要な基準であるが、病理学者による分類学的推定は再現性に乏しい。 核特性の測定(モルフォメトリー)は再現性を向上させるが、手動の手法は時間を要する。 本研究では,犬の皮膚マスト細胞腫瘍96例の深層学習アルゴリズムを用いて,完全自動形態計測を行い,患者の生存状況について検討した。 アルゴリズムによる形態計測は,11名の病理組織学的評価,9名の病理組織学による12細胞の手動核形態計測,および有糸分裂率を指標とした。 腫瘍特異的生存率 (0.943: 95% CI: 0.889 - 0.996) は核領域の標準偏差 (SD) よりも高い値 (0.868, 95% CI: 0.737 - 0.991) と mitotic count (0.885, 95% CI: 0.765 - 1.00) であった。 提案したしきい値において、アルゴリズム形態計測のハザード比は18.3 (95% ci: 5.0 - 67.1)、手動形態計測 (95% ci: 10.9 \mu m^2$) 9.0 (95% ci: 6.0 - 13.4)、karyomegaly estimated 7.6 (95% ci: 5.7 - 10.1)、mitotic count 30.5 (95% ci: 7.8 - 118.0)であった。 カリオメガリー推定値の再現性はfair (\kappa$ = 0.226) であり、個々の病理学者の感度・特異性は高い。 手動形態計測(核領域SD)の再現性は良好であった(ICC = 0.654)。 本研究は, 推定値と手動測定値の限界を克服するための予測テストとして, アルゴリズムモーフォメトリの利用を支持する。

Variation in nuclear size and shape is an important criterion of malignancy for many tumor types; however, categorical estimates by pathologists have poor reproducibility. Measurements of nuclear characteristics (morphometry) can improve reproducibility, but manual methods are time consuming. In this study, we evaluated fully automated morphometry using a deep learning-based algorithm in 96 canine cutaneous mast cell tumors with information on patient survival. Algorithmic morphometry was compared with karyomegaly estimates by 11 pathologists, manual nuclear morphometry of 12 cells by 9 pathologists, and the mitotic count as a benchmark. The prognostic value of automated morphometry was high with an area under the ROC curve regarding the tumor-specific survival of 0.943 (95% CI: 0.889 - 0.996) for the standard deviation (SD) of nuclear area, which was higher than manual morphometry of all pathologists combined (0.868, 95% CI: 0.737 - 0.991) and the mitotic count (0.885, 95% CI: 0.765 - 1.00). At the proposed thresholds, the hazard ratio for algorithmic morphometry (SD of nuclear area $\geq 9.0 \mu m^2$) was 18.3 (95% CI: 5.0 - 67.1), for manual morphometry (SD of nuclear area $\geq 10.9 \mu m^2$) 9.0 (95% CI: 6.0 - 13.4), for karyomegaly estimates 7.6 (95% CI: 5.7 - 10.1), and for the mitotic count 30.5 (95% CI: 7.8 - 118.0). Inter-rater reproducibility for karyomegaly estimates was fair ($\kappa$ = 0.226) with highly variable sensitivity/specificity values for the individual pathologists. Reproducibility for manual morphometry (SD of nuclear area) was good (ICC = 0.654). This study supports the use of algorithmic morphometry as a prognostic test to overcome the limitations of estimates and manual measurements.
翻訳日:2023-09-27 13:03:48 公開日:2023-09-26
# PPOをさらに良くする:Monte-Carlo Tree Searchデコード

Making PPO even better: Value-Guided Monte-Carlo Tree Search decoding ( http://arxiv.org/abs/2309.15028v1 )

ライセンス: Link先を確認
Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi, Asli Celikyilmaz(参考訳) モンテカルロ木探索 (MCTS) のような推論時探索アルゴリズムは,PPO (Proximal Policy Optimization) のような最先端の強化学習に基づく自然言語テキストを生成する際に不要に思える。 本稿では, MCTSを上面に統合することにより, PPOから余分な距離を得ることが可能であることを実証する。 鍵となるアイデアは、ポリシーネットワークからテキストを復号する際に、部分的な出力シーケンスを評価するためのPPOトレーニングの副産物であるバリューネットワークを捨てないことである。 より具体的には、ppo-mctsと呼ばれる新しい値誘導復号アルゴリズムを提案する。これはppoからの価値ネットワークを統合して、推論時間生成中にポリシーネットワークと密接に連携することができる。 制御テキスト生成のためのMCTSに基づく従来の手法と比較して,本手法の主な強みは,トレーニングとテストの間の部分出力のスコアリング機構の基本的なミスマッチを低減することである。 4つのテキスト生成タスクの評価により, PPO-MCTS は PPO ポリシーのみを使用する標準的な方法に比べて, 生成テキストの優先性を大幅に向上することが示された。 この結果から,PPO の言語モデル上でも検索アルゴリズムが実現可能であること,および,探索されていない価値ネットワークの利点が示された。

Inference-time search algorithms such as Monte-Carlo Tree Search (MCTS) may seem unnecessary when generating natural language text based on state-of-the-art reinforcement learning such as Proximal Policy Optimization (PPO). In this paper, we demonstrate that it is possible to get extra mileage out of PPO by integrating MCTS on top. The key idea is not to throw out the value network, a byproduct of PPO training for evaluating partial output sequences, when decoding text out of the policy network. More concretely, we present a novel value-guided decoding algorithm called PPO-MCTS, which can integrate the value network from PPO to work closely with the policy network during inference-time generation. Compared to prior approaches based on MCTS for controlled text generation, the key strength of our approach is to reduce the fundamental mismatch of the scoring mechanisms of the partial outputs between training and test. Evaluation on four text generation tasks demonstrate that PPO-MCTS greatly improves the preferability of generated text compared to the standard practice of using only the PPO policy. Our results demonstrate the promise of search algorithms even on top of the aligned language models from PPO, and the under-explored benefit of the value network.
翻訳日:2023-09-27 13:03:03 公開日:2023-09-26
# 大規模言語モデルのアライメント: サーベイ

Large Language Model Alignment: A Survey ( http://arxiv.org/abs/2309.15025v1 )

ライセンス: Link先を確認
Tianhao Shen, Renren Jin, Yufei Huang, Chuang Liu, Weilong Dong, Zishan Guo, Xinwei Wu, Yan Liu, Deyi Xiong(参考訳) 近年、大きな言語モデル(LLM)で顕著な進歩が見られた。 このような進歩は大きな注目を集めたが、同時に様々な懸念を招いた。 これらのモデルの可能性は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生み出す可能性がある。 したがって、これらのモデルが人間の価値と一貫性のある行動を示すことを保証するために、アライメント技術を採用することが最重要となる。 この調査は、LLM向けに設計されたアライメント方法論を、この領域における既存の能力研究と合わせて広範囲に探究する試みである。 AIアライメントのレンズを採用することで、LLMを外側と内側にアライメントするための一般的な手法と創発的提案を分類する。 また,モデルの解釈可能性や,敵の攻撃に対する潜在的な脆弱性など,有意義な問題についても調査した。 LLMアライメントを評価するために,様々なベンチマークと評価手法を提案する。 LLMのアライメント研究の状況について議論した後、私たちは最終的に未来へのビジョンを立案し、先進的な研究の道を考える。 この調査への私たちの願望は、単にこの領域における研究の関心を喚起するだけではない。 また、AIアライメント研究コミュニティと研究者のギャップを埋めて、LLMを有能かつ安全なLLMの能力調査に没頭させることも考えています。

Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
翻訳日:2023-09-27 13:02:42 公開日:2023-09-26
# Synthia's Melody: オーディオにおける教師なしドメイン適応のためのベンチマークフレームワーク

Synthia's Melody: A Benchmark Framework for Unsupervised Domain Adaptation in Audio ( http://arxiv.org/abs/2309.15024v1 )

ライセンス: Link先を確認
Chia-Hsin Lin, Charles Jones, Bj\"orn W. Schuller, Harry Coppock(参考訳) 視覚と自然言語の深層学習の進歩にもかかわらず、音声の教師なし領域適応はいまだに未解明のままである。 一部では、適切なベンチマークデータセットの欠如を理由としています。 このギャップに対処するために,音楽キー,音色,ラウドネスを特徴とするユーザ指定の複合構造により,無限に多様な4秒間のメロディをシミュレート可能な,シンシアのメロディを提案する。 観測環境下で収集された既存のデータセットとは異なり、シンシアのメロディは観測されていないバイアスがなく、実験の再現性と比較可能性を保証する。 有効性を示すために,2種類の分布シフトドメインシフトとサンプル選択バイアスを生成し,これらのシフト下での音響深層学習モデルの性能を評価する。 評価の結果,Synthia のメロディは,これらのモデルの様々な分布シフトに対する感受性を検証するための頑健なテストベッドを提供することがわかった。

Despite significant advancements in deep learning for vision and natural language, unsupervised domain adaptation in audio remains relatively unexplored. We, in part, attribute this to the lack of an appropriate benchmark dataset. To address this gap, we present Synthia's melody, a novel audio data generation framework capable of simulating an infinite variety of 4-second melodies with user-specified confounding structures characterised by musical keys, timbre, and loudness. Unlike existing datasets collected under observational settings, Synthia's melody is free of unobserved biases, ensuring the reproducibility and comparability of experiments. To showcase its utility, we generate two types of distribution shifts-domain shift and sample selection bias-and evaluate the performance of acoustic deep learning models under these shifts. Our evaluations reveal that Synthia's melody provides a robust testbed for examining the susceptibility of these models to varying levels of distribution shift.
翻訳日:2023-09-27 13:02:20 公開日:2023-09-26
# IFT:ゴーストフリー高ダイナミックレンジイメージングのための画像融合変換器

IFT: Image Fusion Transformer for Ghost-free High Dynamic Range Imaging ( http://arxiv.org/abs/2309.15019v1 )

ライセンス: Link先を確認
Hailing Wang, Wei Li, Yuanyuan Xi, Jie Hu, Hanting Chen, Longyu Li and Yunhe Wang(参考訳) マルチフレームハイダイナミックレンジ(HDR)画像は、コンテンツ補完的ではあるが空間的に不整合な低ダイナミックレンジ(LDR)画像から、ゴーストフリーイメージを写実的に再構成することを目的としている。 既存のHDRアルゴリズムは、ダイナミックなシーンで大きな動きを持つLDRフレーム間の長距離依存関係をキャプチャできないため、ゴーストアーティファクトを生成する傾向にある。 この問題に対処するために、高速グローバルパッチ探索(FGPS)モジュールと、ゴーストフリーHDRイメージングのためのセルフクロスフュージョンモジュール(SCF)を提供するIFTと呼ばれる新しい画像融合変換器を提案する。 FGPSは、長距離依存モデリングのために参照フレームの各パッチに最も依存しているサポートフレームからパッチを検索し、SCFはFGPSが取得したパッチに対して、入力解像度に線形に複雑にフレーム内およびフレーム間フィーチャ融合を実行する。 フレーム間で同様のパッチを一致させることで、動的シーンで大きな動き範囲を持つオブジェクトをアライメントすることができ、効果的にアーティファクトの生成を軽減できる。 さらに、提案したFGPSとSCFは、効率的なプラグインモジュールとして、様々な深いHDRメソッドに統合することができる。 複数のベンチマーク実験により,本手法は定量的かつ定性的に,最先端の性能を達成できることが判明した。

Multi-frame high dynamic range (HDR) imaging aims to reconstruct ghost-free images with photo-realistic details from content-complementary but spatially misaligned low dynamic range (LDR) images. Existing HDR algorithms are prone to producing ghosting artifacts as their methods fail to capture long-range dependencies between LDR frames with large motion in dynamic scenes. To address this issue, we propose a novel image fusion transformer, referred to as IFT, which presents a fast global patch searching (FGPS) module followed by a self-cross fusion module (SCF) for ghost-free HDR imaging. The FGPS searches the patches from supporting frames that have the closest dependency to each patch of the reference frame for long-range dependency modeling, while the SCF conducts intra-frame and inter-frame feature fusion on the patches obtained by the FGPS with linear complexity to input resolution. By matching similar patches between frames, objects with large motion ranges in dynamic scenes can be aligned, which can effectively alleviate the generation of artifacts. In addition, the proposed FGPS and SCF can be integrated into various deep HDR methods as efficient plug-in modules. Extensive experiments on multiple benchmarks show that our method achieves state-of-the-art performance both quantitatively and qualitatively.
翻訳日:2023-09-27 13:02:00 公開日:2023-09-26
# 一方向脳-コンピュータインタフェース:視覚野のfMRI応答に自然な画像をコードするニューラルネットワーク

Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex ( http://arxiv.org/abs/2309.15018v1 )

ライセンス: Link先を確認
Ruixing Liang, Xiangyu Zhang, Qiong Li, Lai Wei, Hexin Liu, Avisha Kumar, Kelley M. Kempski Leadingham, Joshua Punnoose, Leibny Paola Garcia, Amir Manbachi(参考訳) 人工知能(AI)の大幅な進歩は、様々な領域で進歩をもたらしたが、視覚的知覚を理解する大きな可能性はまだ探索されていない。 そこで我々は,人間の脳を模倣し,神経科学的な質問をいかに育むかを示すために,視覚神経活動の出力を可視化する視覚インタフェースシステム(Visual Interface System for Imaging Output of Neural Activity)の頭字語であるVISIONを提案する。 視覚および文脈入力を用いて、このマルチモーダルモデルは、自然画像に対する脳の機能的磁気共鳴画像(fmri)スキャン応答を予測する。 visionは、視覚入力に対するfmriボクセル値として人の血行動態応答を45%の精度で予測することに成功した。 さらに、訓練されたネットワークを調査して、異なる視覚領域における表象バイアスを明らかにし、実験的に検証可能な仮説を生成し、これらの仮説を皮質機能と関連付けるための解釈可能な計量を定式化する。 モデルと評価指標の両方を用いることで、視覚野の機能解析の設計と実装に関わるコストと時間を削減できる。 我々の研究は、計算モデルの進化が視覚野の基本的な理解に光を当て、信頼性の高い脳と機械のインターフェイスへの実行可能なアプローチをもたらすことを示唆している。

While significant advancements in artificial intelligence (AI) have catalyzed progress across various domains, its full potential in understanding visual perception remains underexplored. We propose an artificial neural network dubbed VISION, an acronym for "Visual Interface System for Imaging Output of Neural activity," to mimic the human brain and show how it can foster neuroscientific inquiries. Using visual and contextual inputs, this multimodal model predicts the brain's functional magnetic resonance imaging (fMRI) scan response to natural images. VISION successfully predicts human hemodynamic responses as fMRI voxel values to visual inputs with an accuracy exceeding state-of-the-art performance by 45%. We further probe the trained networks to reveal representational biases in different visual areas, generate experimentally testable hypotheses, and formulate an interpretable metric to associate these hypotheses with cortical functions. With both a model and evaluation metric, the cost and time burdens associated with designing and implementing functional analysis on the visual cortex could be reduced. Our work suggests that the evolution of computational models may shed light on our fundamental understanding of the visual cortex and provide a viable approach toward reliable brain-machine interfaces.
翻訳日:2023-09-27 13:01:35 公開日:2023-09-26
# 法的要約を評価するための質問応答アプローチ

Question-Answering Approach to Evaluate Legal Summaries ( http://arxiv.org/abs/2309.15016v1 )

ライセンス: Link先を確認
Huihui Xu and Kevin Ashley(参考訳) rougeのような従来の評価指標は、議論的な構造を考慮せずに、参照と生成された要約の語彙重なりを比較する。 本稿では,gpt-4を用いて,主点と参照要約情報をカバーする一連の質問・回答ペアを生成する新しい法的要約評価フレームワークを提案する。 GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。 最後に、GPT-4は、参照要約と生成された要約から回答を格付けする。 GPT-4グレーティングとヒトグレーディングの相関について検討した。 以上の結果から, GPT-4を用いた質問応答手法は, 要約の質向上に有効であることが示唆された。

Traditional evaluation metrics like ROUGE compare lexical overlap between the reference and generated summaries without taking argumentative structure into account, which is important for legal summaries. In this paper, we propose a novel legal summarization evaluation framework that utilizes GPT-4 to generate a set of question-answer pairs that cover main points and information in the reference summary. GPT-4 is then used to generate answers based on the generated summary for the questions from the reference summary. Finally, GPT-4 grades the answers from the reference summary and the generated summary. We examined the correlation between GPT-4 grading with human grading. The results suggest that this question-answering approach with GPT-4 can be a useful tool for gauging the quality of the summary.
翻訳日:2023-09-27 13:01:12 公開日:2023-09-26
# ゆるやかに変動するオーバーハウザー場勾配の効率的適応ベイズ推定

Efficient adaptive Bayesian estimation of a slowly fluctuating Overhauser field gradient ( http://arxiv.org/abs/2309.15014v1 )

ライセンス: Link先を確認
Jacob Benestad, Jan A. Krzywda, Evert van Nieuwenburg, Jeroen Danon(参考訳) オーバーハウザー場の遅いゆらぎは、III-V半導体量子ドットにホストされるスピン量子ビットにおけるデコヒーレンスの重要な源である。 2重ドート単項三重項量子ビットに対する磁場勾配の影響に着目し,一連の自由誘導減衰実験により勾配の大きさを推定する2つの適応ベイズスキームを提案する。 我々は、スキームのリアルタイム実装を念頭に置いて、計算オーバーヘッドの削減に集中する。 さらに,従来の推定手法と比較して,推定精度が大幅に向上することを示す。 我々は,デファスティングの効果と勾配自体のドリフトの分析を含む。

Slow fluctuations of Overhauser fields are an important source for decoherence in spin qubits hosted in III-V semiconductor quantum dots. Focusing on the effect of the field gradient on double-dot singlet-triplet qubits, we present two adaptive Bayesian schemes to estimate the magnitude of the gradient by a series of free induction decay experiments. We concentrate on reducing the computational overhead, with a real-time implementation of the schemes in mind. We show how it is possible to achieve a significant improvement of estimation accuracy compared to more traditional estimation methods. We include an analysis of the effects of dephasing and the drift of the gradient itself.
翻訳日:2023-09-27 13:00:59 公開日:2023-09-26
# language-extended indoor slam (lexis):リアルタイム視覚シーン理解のための汎用システム

Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding ( http://arxiv.org/abs/2309.15065v1 )

ライセンス: Link先を確認
Christina Kassab, Matias Mattamala, Lintong Zhang, and Maurice Fallon(参考訳) VersatileとAdaptiveなセマンティック理解は、自律的なシステムが周囲の理解と相互作用を可能にする。 既存の固定クラスモデルは、屋内移動および補助自律システムの適応性を制限する。 本研究では,大規模言語モデル(LLM)のオープンな語彙特性を利用したリアルタイム屋内局所マッピング(SLAM)システムであるLEXISを導入し,シーン理解と位置認識のための統一的なアプローチを提案する。 このアプローチはまず、環境のトポロジカルSLAMグラフ(ビジュアル慣性オドメトリー)を構築し、グラフノードにContrastive Language-Image Pretraining (CLIP)機能を組み込む。 この表現をフレキシブルな部屋分類とセグメンテーションに使用し,部屋中心の場所認識の基礎となっている。 これにより、ループクロージャ検索は意味のある場所へ向けられる。 提案システムは,公開データ,シミュレーションデータ,実世界データ,オフィス環境,家庭環境の両方を用いて評価を行う。 様々なレイアウトと寸法の部屋をうまく分類し、最先端(SOTA)を上回っている。 位置認識および軌道推定タスクでは、SOTAと同等の性能を達成し、全て同じ事前学習モデルも活用する。 最後に、システムを計画する可能性を実証する。

Versatile and adaptive semantic understanding would enable autonomous systems to comprehend and interact with their surroundings. Existing fixed-class models limit the adaptability of indoor mobile and assistive autonomous systems. In this work, we introduce LEXIS, a real-time indoor Simultaneous Localization and Mapping (SLAM) system that harnesses the open-vocabulary nature of Large Language Models (LLMs) to create a unified approach to scene understanding and place recognition. The approach first builds a topological SLAM graph of the environment (using visual-inertial odometry) and embeds Contrastive Language-Image Pretraining (CLIP) features in the graph nodes. We use this representation for flexible room classification and segmentation, serving as a basis for room-centric place recognition. This allows loop closure searches to be directed towards semantically relevant places. Our proposed system is evaluated using both public, simulated data and real-world data, covering office and home environments. It successfully categorizes rooms with varying layouts and dimensions and outperforms the state-of-the-art (SOTA). For place recognition and trajectory estimation tasks we achieve equivalent performance to the SOTA, all also utilizing the same pre-trained model. Lastly, we demonstrate the system's potential for planning.
翻訳日:2023-09-27 12:55:09 公開日:2023-09-26
# 高非対称InAs/InP液滴エピタキシー量子ドットにおける微細構造分割キャンセル

Fine structure splitting cancellation in highly asymmetric InAs/InP droplet epitaxy quantum dots ( http://arxiv.org/abs/2309.15062v1 )

ライセンス: Link先を確認
N. R. S. van Venrooij, A. R. da Cruz, R. S. R. Gajjella, P. M. Koenraad, Craig E. Pryor and Michael E. Flatt\'e(参考訳) 単一励起子の微細構造分割(FSS)は、その縮退した基底状態多様体を一重項に分割し、非常に非対称な量子ドットでほとんど消滅する。 シミュレーションされたドットは、液滴エピタキシー成長過程を通じてエッチングピット上に出現するドットであり、これらのエッチングピットドットは、以前は小さなfssと関連づけられていた正方形(c_{4v}$)の空間対称性を破る。 構成相互作用計算は、平方対称性から離れた構造に対して、ドットの中心から特定の有限エッチングピット変位で消滅するFSSを予測する。 したがって、高度に非対称な量子ドットはいまだに無視できない微細構造分割を示し、不規則な偏光子対をオンデマンドで高忠実に生成するための新しい経路を提供することができると予測する。

We find the single exciton's fine structure splitting (FSS), which splits its degenerate ground state manifold into singlets, nearly vanishes in highly asymmetric quantum dots due to the cancellation of splitting effects with markedly different origin. The dots simulated are those that emerge on top of etch pits through the droplet epitaxy growth process; these etch pit dots break square ($C_{4v}$) spatial symmetry, which has been previously associated with small FSS. Configuration interaction calculations predict a vanishing FSS at a specific finite etch pit displacement from the center of the dot, for a structure far from square symmetry. We thus predict that highly asymmetric quantum dots may still display negligible fine structure splitting, providing new avenues for high-fidelity generation of indistinguishable, polarization entangled photon pairs on demand.
翻訳日:2023-09-27 12:54:45 公開日:2023-09-26
# QUILT: 分散量子分類器を用いた量子コンピュータ上での効果的なマルチクラス分類

QUILT: Effective Multi-Class Classification on Quantum Computers Using an Ensemble of Diverse Quantum Classifiers ( http://arxiv.org/abs/2309.15056v1 )

ライセンス: Link先を確認
Daniel Silver, Tirthak Patel, Devesh Tiwari(参考訳) 量子コンピュータは理論上、古典的コンピュータよりも大幅に加速することができるが、量子コンピューティングの近未来時代は、エラーを起こしやすい少数の量子ビットのために限られている。 Quiltは、現在のエラー発生型量子コンピュータで効果的に動作するように設計されたマルチクラス分類タスクを実行するためのフレームワークである。 量子マシンはよりノイズのないものになるにつれて、実際の量子マシンと予測されたノイズレベルで評価される。 Quiltは5ビットシステム上のMNISTデータセットで最大85%のマルチクラス分類精度を示す。

Quantum computers can theoretically have significant acceleration over classical computers; but, the near-future era of quantum computing is limited due to small number of qubits that are also error prone. Quilt is a framework for performing multi-class classification task designed to work effectively on current error-prone quantum computers. Quilt is evaluated with real quantum machines as well as with projected noise levels as quantum machines become more noise-free. Quilt demonstrates up to 85% multi-class classification accuracy with the MNIST dataset on a five-qubit system.
翻訳日:2023-09-27 12:54:27 公開日:2023-09-26
# ロボット誘導避難のためのリアルタイム位置追跡

Near Real-Time Position Tracking for Robot-Guided Evacuation ( http://arxiv.org/abs/2309.15054v1 )

ライセンス: Link先を確認
Mollik Nayyar, Alan Wagner(参考訳) ビルの避難の際には、ガイドロボットによって人的避難の迅速かつ正確な追跡を行い、避難の有効性[1],[2]を高めることができる。 本稿では,避難ロボットに適したリアルタイムに近い位置追跡ソリューションを提案する。 ポーズ検出器を用いて、まずカメラフレーム内の人間の関節をほぼリアルタイムに識別し、そのピクセルの位置を簡単なキャリブレーションプロセスで現実世界の座標に変換する。 室内実験室環境下で動作したシステムの複数の試行を行い, 地中真実と比較して精度0.55mを実現可能であることを示す。 また、このシステムは1秒あたり平均3フレーム(fps)を達成することができ、ロボットが誘導する人間の避難の研究には十分だった。 われわれのアプローチの潜在能力は単なる追跡以上のものとなり、避難中の人間の動きに積極的に反応できるように、回避運動予測の道を開いた。

During the evacuation of a building, the rapid and accurate tracking of human evacuees can be used by a guide robot to increase the effectiveness of the evacuation [1],[2]. This paper introduces a near real-time human position tracking solution tailored for evacuation robots. Using a pose detector, our system first identifies human joints in the camera frame in near real-time and then translates the position of these pixels into real-world coordinates via a simple calibration process. We run multiple trials of the system in action in an indoor lab environment and show that the system can achieve an accuracy of 0.55 meters when compared to ground truth. The system can also achieve an average of 3 frames per second (FPS) which was sufficient for our study on robot-guided human evacuation. The potential of our approach extends beyond mere tracking, paving the way for evacuee motion prediction, allowing the robot to proactively respond to human movements during an evacuation.
翻訳日:2023-09-27 12:54:18 公開日:2023-09-26
# 超低ノイズキャビティを用いた室温量子光学

Room-temperature quantum optomechanics using an ultra-low noise cavity ( http://arxiv.org/abs/2309.15051v1 )

ライセンス: Link先を確認
Guanhao Huang, Alberto Beccari, Nils J. Engelsen, Tobias J. Kippenberg(参考訳) 機械的発振器が相互作用する光場の位相と振幅の間に量子相関を生じさせる光の振舞いは、光力学の量子状態の標準的シグネチャである。 室温では、光回復力が光格子内の原子の振動運動に似た振動子剛性を制御する先駆的な実験にしか到達していない。 これには、浮遊ナノ粒子と光学式カンチレバーの両方が含まれる。 外部の光学ポテンシャルよりも材料剛性により復元力を付与する機械共振器の最近の進歩は、「ソフトクランプ」を利用して超高品質因子(q)を実現している。 しかし、そのような共振器で量子状態に入ることは、これまで光学共振器の周波数変動と熱間変調ノイズによって妨げられてきた。 ここでは, この課題を克服し, 音波駆動型膜インザミドルシステムにおいて, 室温でのオプトメカニカルスクイーズを実証する。 鏡を結晶構造でパターン化した高精細キャビティを用いて,700倍以上の共振周波数雑音を低減させる。 シリコンナノピラーで密度を変調した窒化ケイ素膜発振器を導入し, 高い熱伝導率と 1.8e8 の局部化機構を両立させた。 これらの進歩により、ハイゼンベルク極限の2.5倍の範囲内での操作が可能となり、真空の揺らぎの下でプローブ場が1.09dB縮小する。 さらに、膜発振器の長い熱的非一貫性時間(30以上の振動周期)は、マルチモードカルマンフィルタを用いて、0.97フォノンの占有で条件付き変位した運動状態を得ることができる。 我々の研究は、エンジニアリングされたマクロ振動子の量子制御を室温まで拡張する。

Ponderomotive squeezing of light, where a mechanical oscillator creates quantum correlations between the phase and amplitude of the interacting light field, is a canonical signature of the quantum regime of optomechanics. At room temperature, this has only been reached in pioneering experiments where an optical restoring force controls the oscillator stiffness, akin to the vibrational motion of atoms in an optical lattice. These include both levitated nanoparticles and optically-trapped cantilevers. Recent advances in engineered mechanical resonators, where the restoring force is provided by material rigidity rather than an external optical potential, have realized ultra-high quality factors (Q) by exploiting `soft clamping'. However entering the quantum regime with such resonators, has so far been prevented by optical cavity frequency fluctuations and thermal intermodulation noise. Here, we overcome this challenge and demonstrate optomechanical squeezing at room temperature in a phononic-engineered membrane-in-the-middle system. By using a high finesse cavity whose mirrors are patterned with phononic crystal structures, we reduce cavity frequency noise by more than 700-fold. In this ultra-low noise cavity, we introduce a silicon nitride membrane oscillator whose density is modulated by silicon nano-pillars, yielding both high thermal conductance and a localized mechanical mode with Q of 1.8e8. These advances enable operation within a factor of 2.5 of the Heisenberg limit, leading to squeezing of the probing field by 1.09 dB below the vacuum fluctuations. Moreover, the long thermal decoherence time of the membrane oscillator (more than 30 vibrational periods) allows us to obtain conditional displaced thermal states of motion with an occupation of 0.97 phonon, using a multimode Kalman filter. Our work extends quantum control of engineered macroscopic oscillators to room temperature.
翻訳日:2023-09-27 12:54:03 公開日:2023-09-26
# prologが生成モデルに出会う: ロボットアプリケーションにおける知識と計画を管理するための新しいアプローチ

When Prolog meets generative models: a new approach for managing knowledge and planning in robotic applications ( http://arxiv.org/abs/2309.15049v1 )

ライセンス: Link先を確認
Enrico Saccon, Ahmet Tikna, Davide De Martini, Edoardo Lamon, Marco Roveri, Luigi Palopoli (Department of Information Engineering and Computer Science, Universit\`a di Trento, Trento, Italy)(参考訳) 本稿では,prolog言語を用いたロボット指向の知識管理システムを提案する。 私たちのフレームワークは、次のような知識基盤の特別な組織に依存しています。 1. 大言語モデルに基づく半自動手続きを用いた自然言語テキストからの効率的な人口 2.一連の変換を通したマルチロボットシステムの時空間並列計画のバンプレス生成 3. 計画の実行可能な形式(行動木)への自動翻訳。 このフレームワークは一連のオープンソースツールでサポートされており、現実的なアプリケーションで表示されます。

In this paper, we propose a robot oriented knowledge management system based on the use of the Prolog language. Our framework hinges on a special organisation of knowledge base that enables: 1. its efficient population from natural language texts using semi-automated procedures based on Large Language Models, 2. the bumpless generation of temporal parallel plans for multi-robot systems through a sequence of transformations, 3. the automated translation of the plan into an executable formalism (the behaviour trees). The framework is supported by a set of open source tools and is shown on a realistic application.
翻訳日:2023-09-27 12:53:30 公開日:2023-09-26
# 確率比に基づくタスク予測による授業インクリメンタル学習

Class Incremental Learning via Likelihood Ratio Based Task Prediction ( http://arxiv.org/abs/2309.15048v1 )

ライセンス: Link先を確認
Haowei Lin, Yijia Shao, Weinan Qian, Ningxin Pan, Yiduo Guo, Bing Liu(参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class incremental Learning、CIL)は、一連のタスクを逐次学習する継続的ラーニングの課題である。 各タスクは、一組のユニークなクラスで構成される。 CILの重要な特徴は、各テストサンプルのテスト時にタスク識別子(またはタスクID)が提供されないことである。 各テストサンプルに対するタスクidの予測は、難しい問題である。 理論的に正当化され効果的なアプローチとして、タスクインクリメンタルラーニング(TIL)法に基づいて、タスク毎のタスク固有のモデルを共有ネットワークでトレーニングすることが挙げられる。 このアプローチにおける各タスクのモデルは、従来の分類器ではなく、アウト・オブ・ディストリビューション(OOD)検出器である。 OOD検出器は、in-task(in-distribution(IND))クラス予測とOOD検出の両方を実行することができる。 OOD検出機能は、各テストサンプルの推論中にタスクID予測のキーとなる。 しかし,従来のタスクid予測のためのood検出器を用いることは,cilで利用可能な追加情報(リプレイデータや学習タスクなど)を利用してタスクid予測をより良く原理的に設計できるため,最適ではないと主張する。 提案手法はtplr (task-id prediction based on likelihood ratio}) と呼ばれる。 TPLRは強力なCILベースラインを著しく上回る。

Class incremental learning (CIL) is a challenging setting of continual learning, which learns a series of tasks sequentially. Each task consists of a set of unique classes. The key feature of CIL is that no task identifier (or task-id) is provided at test time for each test sample. Predicting the task-id for each test sample is a challenging problem. An emerging theoretically justified and effective approach is to train a task-specific model for each task in a shared network for all tasks based on a task-incremental learning (TIL) method to deal with forgetting. The model for each task in this approach is an out-of-distribution (OOD) detector rather than a conventional classifier. The OOD detector can perform both within-task (in-distribution (IND)) class prediction and OOD detection. The OOD detection capability is the key for task-id prediction during inference for each test sample. However, this paper argues that using a traditional OOD detector for task-id prediction is sub-optimal because additional information (e.g., the replay data and the learned tasks) available in CIL can be exploited to design a better and principled method for task-id prediction. We call the new method TPLR (Task-id Prediction based on Likelihood Ratio}). TPLR markedly outperforms strong CIL baselines.
翻訳日:2023-09-27 12:53:24 公開日:2023-09-26
# EHRデータを用いた大量癌リスク予測のための生存分析と機械学習の組み合わせ

Combining Survival Analysis and Machine Learning for Mass Cancer Risk Prediction using EHR data ( http://arxiv.org/abs/2309.15039v1 )

ライセンス: Link先を確認
Petr Philonenko, Vladimir Kokh, Pavel Blinov(参考訳) 純粋に医療用がんスクリーニング法はしばしば費用がかかり、時間がかかり、大規模に応用できる。 高度な人工知能(AI)法は、がんの検出に大いに役立つが、特定のまたは深い医療データを必要とする。 これらの側面は、がんスクリーニング法の大量実施に影響する。 これらの理由から、既存のElectronic Health Records(EHR)ボリュームに基づいて、がんリスクの大量パーソナライズされた評価にAI手法を適用することは、医療にとって破壊的な変化である。 本稿ではeerrデータを用いた新しい大腸癌リスク予測法を提案する。 その他の方法の1つは、医療サービスコードの歴史とEHRからの診断を必要とせず、最低限のデータ欲求政策によって際立っている。 我々は問題を二分分類として定式化する。 このデータセットは、175人の未同定患者(癌と診断された2,861人)を含む。 ベースラインとして、リカレントニューラルネットワーク(RNN)に基づくソリューションを実装している。 本稿では,機械学習と生存分析を組み合わせた手法を提案する。これらの手法は計算量が少なく,アンサンブル(サバイバルアンサンブル)に組み込むことができ,ほとんどの医療機関で再現できる。 いくつかの研究でサバイバルアンサンブルをテストする。 まず,一次測定値(平均精度)の22.8%(ROC AUC 83.7%, F1 17.8%)と生存アンサンブルの15.1%(ROC AUC 84.9%, F1 21.4%)との有意な差を求める。 第2に、アブレーション研究中にサバイバルアンサンブルのパフォーマンスも確認された。 第3に,本手法は年齢ベースラインを大きく上回っている。 第4に, ブラインド・レトロスペクティブ・オブ・タイム実験において, 提案手法は癌患者検出に信頼性がある(選択した100名中9名)。 これらの結果は、例えば、ベストナンバー・トゥ・スクリーン(1000のスクリーニングのうち9つ)など、医療スクリーニングの見積もりを上回っている。

Purely medical cancer screening methods are often costly, time-consuming, and weakly applicable on a large scale. Advanced Artificial Intelligence (AI) methods greatly help cancer detection but require specific or deep medical data. These aspects affect the mass implementation of cancer screening methods. For these reasons, it is a disruptive change for healthcare to apply AI methods for mass personalized assessment of the cancer risk among patients based on the existing Electronic Health Records (EHR) volume. This paper presents a novel method for mass cancer risk prediction using EHR data. Among other methods, our one stands out by the minimum data greedy policy, requiring only a history of medical service codes and diagnoses from EHR. We formulate the problem as a binary classification. This dataset contains 175 441 de-identified patients (2 861 diagnosed with cancer). As a baseline, we implement a solution based on a recurrent neural network (RNN). We propose a method that combines machine learning and survival analysis since these approaches are less computationally heavy, can be combined into an ensemble (the Survival Ensemble), and can be reproduced in most medical institutions. We test the Survival Ensemble in some studies. Firstly, we obtain a significant difference between values of the primary metric (Average Precision) with 22.8% (ROC AUC 83.7%, F1 17.8%) for the Survival Ensemble versus 15.1% (ROC AUC 84.9%, F1 21.4%) for the Baseline. Secondly, the performance of the Survival Ensemble is also confirmed during the ablation study. Thirdly, our method exceeds age baselines by a significant margin. Fourthly, in the blind retrospective out-of-time experiment, the proposed method is reliable in cancer patient detection (9 out of 100 selected). Such results exceed the estimates of medical screenings, e.g., the best Number Needed to Screen (9 out of 1000 screenings).
翻訳日:2023-09-27 12:53:02 公開日:2023-09-26
# HPCR:オンライン連続学習のためのホロスティックなプロキシベースのコントラストリプレイ

HPCR: Holistic Proxy-based Contrastive Replay for Online Continual Learning ( http://arxiv.org/abs/2309.15038v1 )

ライセンス: Link先を確認
Huiwei Lin, Shanshan Feng, Baoquan Zhang, Xutao Li, Yew-soon Ong, Yunming Ye(参考訳) オンライン連続学習(OCL)は、オンラインデータストリーム上の単一パスから新しいデータを継続的に学習することを目的としている。 一般的には破滅的な忘れ物問題に苦しむ。 既存のリプレイベースメソッドは、古いデータをプロキシベースまたはコントラストベースのリプレイ方法でリプレイすることで、この問題を効果的に軽減する。 本稿では,これら2つのリプレイ手法を包括的に分析し,相補的であることを示す。 そこで本研究では,アンカーとサンプルのペアをアンカーとプロキシのペアに置き換える,プロキシベースのコントラストリプレイ(pcr)と呼ばれる新しいリプレイ方式を提案する。 PCRをベースとしたHPCR法は,3成分からなる総合的プロキシベースコントラストリプレイ法 (HPCR) という,より高度な手法をさらに発展させる。 コントラスト成分はPCRにアンカーとサンプルのペアを組み込んでおり、よりきめ細かいセマンティック情報を大きな訓練バッチで学習する。 2つ目は、温度係数が勾配に与える影響に基づいて2つの部分に分割する温度成分であり、新しい知識を学ぶために異なる値を設定する。 3つ目は、歴史的知識を維持するために学習プロセスを制約する蒸留成分である。 4つのデータセットに関する実験は、様々な最先端手法に対するhpcrの優位性を一貫して証明している。

Online continual learning (OCL) aims to continuously learn new data from a single pass over the online data stream. It generally suffers from the catastrophic forgetting issue. Existing replay-based methods effectively alleviate this issue by replaying part of old data in a proxy-based or contrastive-based replay manner. In this paper, we conduct a comprehensive analysis of these two replay manners and find they can be complementary. Inspired by this finding, we propose a novel replay-based method called proxy-based contrastive replay (PCR), which replaces anchor-to-sample pairs with anchor-to-proxy pairs in the contrastive-based loss to alleviate the phenomenon of forgetting. Based on PCR, we further develop a more advanced method named holistic proxy-based contrastive replay (HPCR), which consists of three components. The contrastive component conditionally incorporates anchor-to-sample pairs to PCR, learning more fine-grained semantic information with a large training batch. The second is a temperature component that decouples the temperature coefficient into two parts based on their impacts on the gradient and sets different values for them to learn more novel knowledge. The third is a distillation component that constrains the learning process to keep more historical knowledge. Experiments on four datasets consistently demonstrate the superiority of HPCR over various state-of-the-art methods.
翻訳日:2023-09-27 12:52:33 公開日:2023-09-26
# DMとKSEA相互作用を伴う外部磁場の存在下での異方性2量子ハイゼンベルクモデルにおける量子ステアリングとエンタングルメントと抽出

Quantum Steering vs Entanglement and Extracting Work in an Anisotropic Two-Qubit Heisenberg Model in Presence of External Magnetic Fields with DM and KSEA Interactions ( http://arxiv.org/abs/2309.15036v1 )

ライセンス: Link先を確認
Mohamed Amazioug and Mohammed Daoud(参考訳) 非均質磁場中の異方性ハイゼンベルク2量子モデルに提出した熱平衡におけるジアルシンスキー・モリヤ(dm)とカプラン・シェクマン・エンティン・ウォルマン・アハロニー(ksea)相互作用について検討した。 2つの量子ビット間のステアビリティを量子ステアリングを用いて評価する。 共起は量子絡みの証人として機能する。 抽出された作業と2つのキュービットの理想的な効率の両方を定量化する。 浴槽温度とKaplan-Shekhtman-Entin-Wohlman-Aharony結合パラメータとの関係について検討する。 2量子ハイゼンベルクXYZモデルにおける非古典的相関は熱的効果下では脆弱である。 それにもかかわらず、結果は熱効果下での量子ステアリングよりも共起が強いことを示している。 私たちは仕事の抽出が素エネルギーに匹敵することがわかった。

We examine the Dzyaloshinski-Moriya (DM) and Kaplan-Shekhtman-Entin-Wohlman-Aharony (KSEA) interactions in thermal equilibrium submitted to the anisotropic Heisenberg two-qubit model in an inhomogeneous magnetic field. The steerability between the two qubits is evaluated using quantum steering. The concurrence serves as a witness to quantum entanglement. Both the extracted work and the ideal efficiency of the two qubits are quantified. We discuss how quantum correlations behave in relation to the bath's temperature and the Kaplan-Shekhtman-Entin-Wohlman-Aharony coupling parameter. We find that the nonclassical correlations in a two-qubit Heisenberg XYZ Model are fragile under thermal effects. Nevertheless, the results indicate that the concurrence is stronger than quantum steering under thermal effects. We obtained that an extraction of work is comparable with the bare energies.
翻訳日:2023-09-27 12:52:07 公開日:2023-09-26
# NTKの修正:ニューラルネットワークの線形化から厳密な凸プログラムへ

Fixing the NTK: From Neural Network Linearizations to Exact Convex Programs ( http://arxiv.org/abs/2309.15096v1 )

ライセンス: Link先を確認
Rajat Vadiraj Dwaraknath, Tolga Ergen, Mert Pilanci(参考訳) 近年,深層ニューラルネットワークの理論解析は2つの方向に焦点を当てている。 1)ニューラルタンジェントカーネル(NTK)による無限の隠蔽層幅と無限小学習率(勾配流とも呼ばれる)の限界におけるSGDによるニューラルネットワークトレーニングの洞察、およびSGDによるニューラルネットワークトレーニング 2)ReLUネットワークのコーン拘束凸修正による正規化学習目標のグローバル最適化 後者の研究方向はまた、効率の良い非拘束凸プログラムによってグローバルに最適化可能なゲート付きreluネットワークと呼ばれるreluネットワークの代替定式化も行った。 本研究では,このゲート型reluネットワークの凸プログラムを,重み付きデータマスキング特徴マップを用いたマルチカーネル学習(mkl)モデルとして解釈し,ntkへの接続を確立する。 具体的には、学習対象に依存しないマスク重みの特定の選択に対して、このカーネルは、トレーニングデータ上のゲートされたreluネットワークのntkと等価であることを示す。 この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。 繰り返し再重み付けを用いることで、NTKによって誘導される重みを改良し、ゲートReLUネットワークの正確な凸再構成の解と等価な最適MKLカーネルを得る。 また、我々の理論を裏付ける数値シミュレーションをいくつか提供する。 さらに,結果の最適カーネルの予測誤差を群lassoの一貫性の結果から解析する。

Recently, theoretical analyses of deep neural networks have broadly focused on two directions: 1) Providing insight into neural network training by SGD in the limit of infinite hidden-layer width and infinitesimally small learning rate (also known as gradient flow) via the Neural Tangent Kernel (NTK), and 2) Globally optimizing the regularized training objective via cone-constrained convex reformulations of ReLU networks. The latter research direction also yielded an alternative formulation of the ReLU network, called a gated ReLU network, that is globally optimizable via efficient unconstrained convex programs. In this work, we interpret the convex program for this gated ReLU network as a Multiple Kernel Learning (MKL) model with a weighted data masking feature map and establish a connection to the NTK. Specifically, we show that for a particular choice of mask weights that do not depend on the learning targets, this kernel is equivalent to the NTK of the gated ReLU network on the training data. A consequence of this lack of dependence on the targets is that the NTK cannot perform better than the optimal MKL kernel on the training set. By using iterative reweighting, we improve the weights induced by the NTK to obtain the optimal MKL kernel which is equivalent to the solution of the exact convex reformulation of the gated ReLU network. We also provide several numerical simulations corroborating our theory. Additionally, we provide an analysis of the prediction error of the resulting optimal kernel via consistency results for the group lasso.
翻訳日:2023-09-27 12:45:20 公開日:2023-09-26
# 医療機器組立プロセスにおける代替手法によるシミュレーションモデルの同定

Identifying Simulation Model Through Alternative Techniques for a Medical Device Assembly Process ( http://arxiv.org/abs/2309.15094v1 )

ライセンス: Link先を確認
Fatemeh Kakavandi(参考訳) 本稿では,シミュレーションモデルを同定・近似するための2つの異なるアプローチ,特に医療機器の組み立てに不可欠なスナッププロセスの文脈について検討する。 シミュレーションモデルは、技術者に産業プロセスに関する洞察を与え、物理的組み立ての前に実験とトラブルシューティングを可能にする上で重要な役割を果たす。 しかし、その複雑さはしばしば時間を要する計算をもたらす。 この複雑さを軽減するために、Spline関数と機械学習(ML)モデルを利用する2つの異なるシミュレーションモデルを特定する方法を提案する。 私たちのゴールは、スナッププロセスを正確に表現し、多様なシナリオに対応できる適応可能なモデルを作ることです。 このようなモデルは、特にデータ可用性が制限された場合に、プロセスの理解と意思決定の支援を約束する。

This scientific paper explores two distinct approaches for identifying and approximating the simulation model, particularly in the context of the snap process crucial to medical device assembly. Simulation models play a pivotal role in providing engineers with insights into industrial processes, enabling experimentation and troubleshooting before physical assembly. However, their complexity often results in time-consuming computations. To mitigate this complexity, we present two distinct methods for identifying simulation models: one utilizing Spline functions and the other harnessing Machine Learning (ML) models. Our goal is to create adaptable models that accurately represent the snap process and can accommodate diverse scenarios. Such models hold promise for enhancing process understanding and aiding in decision-making, especially when data availability is limited.
翻訳日:2023-09-27 12:44:39 公開日:2023-09-26
# VideoDirectorGPT:LLM誘導計画による連続マルチシーン映像生成

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning ( http://arxiv.org/abs/2309.15091v1 )

ライセンス: Link先を確認
Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal(参考訳) 最近のテキスト・ツー・ビデオ(T2V)生成法は大きな進歩を遂げているが、これらの作品の多くは単一の背景を持つ1つのイベントの短いビデオクリップ(すなわちシングルシーンビデオ)を作ることに焦点を当てている。 一方,最近の大規模言語モデル (LLM) では,画像生成モデルのような下流の視覚モジュールを制御するレイアウトやプログラムを生成する能力が実証されている。 これらのLLMに埋め込まれた知識を時間的に一貫した長ビデオ生成に活用できるだろうか? 本稿では,ビデオコンテンツプランニングとグラウンドドビデオ生成にLLMの知識を利用する,一貫したマルチシーンビデオ生成のための新しいフレームワークであるVideoDirectorGPTを提案する。 具体的には、1つのテキストプロンプトが与えられた場合、まずビデオプランナのLCM(GPT-4)に、シーン記述の生成、各レイアウトのエンティティ、各シーンの背景、エンティティと背景の一貫性のグルーピングを含む「ビデオプラン」への拡張を依頼する。 次に、ビデオプランナーからのこの出力によって、ビデオジェネレータであるLayout2Vidは、空間レイアウトを明示的に制御し、画像レベルのアノテーションでのみトレーニングしながら、シーン間のエンティティ/背景の時間的一貫性を維持することができる。 実験により,ビデオDirectorGPTフレームワークは,単一シーンと多シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善し,複数シーンで映像の一貫性を保ちながら,オープンドメインの単一シーンのT2V生成におけるSOTAとの競合性能を実現した。 また,我々のフレームワークはレイアウトガイダンスの強度を動的に制御し,ユーザが提供する画像で動画を生成することができることを示した。 我々のフレームワークは、LCMの計画能力を一貫した長大なビデオ生成に統合するための今後の取り組みを刺激することを期待します。

Although recent text-to-video (T2V) generation methods have seen significant advancements, most of these works focus on producing short video clips of a single event with a single background (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules such as image generation models. This raises an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which involves generating the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities and backgrounds. Next, guided by this output from the video planner, our video generator, Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities/backgrounds across scenes, while only trained with image-level annotations. Our experiments demonstrate that VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with visual consistency across scenes, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. We also demonstrate that our framework can dynamically control the strength for layout guidance and can also generate videos with user-provided images. We hope our framework can inspire future work on better integrating the planning ability of LLMs into consistent long video generation.
翻訳日:2023-09-27 12:44:18 公開日:2023-09-26
# 時空間パターン認識装置としての単一生体ニューロン

Single Biological Neurons as Temporally Precise Spatio-Temporal Pattern Recognizers ( http://arxiv.org/abs/2309.15090v1 )

ライセンス: Link先を確認
David Beniaguev(参考訳) この博士論文は、脳内の単一ニューロンを時間的精密かつ高度に複雑な時空間パターン認識者と見なすべきという中心的な考え方に焦点を当てている。 これは、現在の多くの神経科学者が、生体ニューロンを単純で主に空間的なパターン認識者として捉えているのとは対照的である。 本論文では,上述した単一ニューロンの計算特性が,ニューロンが構成する様々な脳回路や,脳のニューロン活動によって情報がどのようにエンコードされるかに関して,広範囲にわたる影響を持つため,これが重要な区別であることを示す。 すなわち、単一ニューロンレベルでのこれらの「低いレベル」の詳細は、システム全体の分岐をかなり有している。 はじめに、我々は、有用な計算を実行し、システムの観点からこれらのコンポーネントの相互依存性を説明する神経マイクロ回路を構成する主なコンポーネントを強調する。 第1章では、神経細胞の形態的構造と生物学的性質の結果である皮質ニューロンの時空間入力-出力関係の大きな複雑さについて論じる。 第2章では,特定の時空間入力パターンに応答して,単一ニューロンが時間的に正確な出力パターンを生成できることを示す。 第3章では、現実的な皮質ニューロンの識別可能なディープネットワークアナログを用いて、入力に対するニューロンの出力の勾配を近似し、これをニューロンに非線形XOR操作を教える試みとして利用する。 第4章では、小さなマイクロ回路または全脳領域を表す多くの現実的な生物学的スパイクニューロンからなる神経ネットワークへのアイデアの拡張について解説する。

This PhD thesis is focused on the central idea that single neurons in the brain should be regarded as temporally precise and highly complex spatio-temporal pattern recognizers. This is opposed to the prevalent view of biological neurons as simple and mainly spatial pattern recognizers by most neuroscientists today. In this thesis, I will attempt to demonstrate that this is an important distinction, predominantly because the above-mentioned computational properties of single neurons have far-reaching implications with respect to the various brain circuits that neurons compose, and on how information is encoded by neuronal activity in the brain. Namely, that these particular "low-level" details at the single neuron level have substantial system-wide ramifications. In the introduction we will highlight the main components that comprise a neural microcircuit that can perform useful computations and illustrate the inter-dependence of these components from a system perspective. In chapter 1 we discuss the great complexity of the spatio-temporal input-output relationship of cortical neurons that are the result of morphological structure and biophysical properties of the neuron. In chapter 2 we demonstrate that single neurons can generate temporally precise output patterns in response to specific spatio-temporal input patterns with a very simple biologically plausible learning rule. In chapter 3, we use the differentiable deep network analog of a realistic cortical neuron as a tool to approximate the gradient of the output of the neuron with respect to its input and use this capability in an attempt to teach the neuron to perform nonlinear XOR operation. In chapter 4 we expand chapter 3 to describe extension of our ideas to neuronal networks composed of many realistic biological spiking neurons that represent either small microcircuits or entire brain regions.
翻訳日:2023-09-27 12:43:25 公開日:2023-09-26
# rankvicuna: オープンソースの大規模言語モデルによるゼロショットリストワイズドキュメントの再ランキング

RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models ( http://arxiv.org/abs/2309.15088v1 )

ライセンス: Link先を確認
Ronak Pradeep, Sahel Sharifymoghaddam, Jimmy Lin(参考訳) 研究者は、ChatGPTのような大きな言語モデル(LLM)を情報検索のコンテキストで再ランク付けするのに成功しましたが、これまではほとんどが不透明なAPIエンドポイントの背後に隠されたプロプライエタリなモデル上に構築されています。 このアプローチは再現不可能で決定的ではない実験結果をもたらし、このような不安定な基盤の上に構築される結果の妥当性を脅かす。 この重大な欠点に対処するため、ゼロショット設定で高品質なリストワイズを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。 TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。 われわれの研究が将来のLLMの再評価研究の基礎となることを願っている。 結果の再現に必要なコードはhttps://github.com/castorini/rank_llm.com/で閲覧できます。

Researchers have successfully applied large language models (LLMs) such as ChatGPT to reranking in an information retrieval context, but to date, such work has mostly been built on proprietary models hidden behind opaque API endpoints. This approach yields experimental results that are not reproducible and non-deterministic, threatening the veracity of outcomes that build on such shaky foundations. To address this significant shortcoming, we present RankVicuna, the first fully open-source LLM capable of performing high-quality listwise reranking in a zero-shot setting. Experimental results on the TREC 2019 and 2020 Deep Learning Tracks show that we can achieve effectiveness comparable to zero-shot reranking with GPT-3.5 with a much smaller 7B parameter model, although our effectiveness remains slightly behind reranking with GPT-4. We hope our work provides the foundation for future research on reranking with modern LLMs. All the code necessary to reproduce our results is available at https://github.com/castorini/rank_llm.
翻訳日:2023-09-27 12:42:59 公開日:2023-09-26
# 合成副詞アクション埋め込みによるビデオ・アドバーブ検索

Video-adverb retrieval with compositional adverb-action embeddings ( http://arxiv.org/abs/2309.15086v1 )

ライセンス: Link先を確認
Thomas Hummel, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata(参考訳) ビデオ中のアクションを記述する副詞を取得することは、きめ細かいビデオ理解に向けて重要なステップとなる。 本稿では,ビデオの埋め込みと合成副詞アクションのテキストの埋め込みを協調的に結合する,ビデオから副詞検索のためのフレームワークを提案する。 三重項損失と回帰目標からなる新たな訓練目標とともに、残差ゲーティング機構を用いて合成副詞アクションテキスト埋め込みを学習する。 提案手法は,最近の5つのベンチマークによるビデオ・アドバブ検索の最先端性能を実現する。 さらに,MSR-VTT Adverbs と ActivityNet Adverbs のデータセットのサブセット上で,ビデオ・アドバーブ検索のベンチマークを行うために,データセット分割を導入する。 提案するフレームワークは,ビデオから副詞を取り出す一般化タスクにおいて,先行するすべての作業に勝る。 コードとデータセットの分割はhttps://hummelth.github.io/ReGaDa/で確認できる。

Retrieving adverbs that describe an action in a video poses a crucial step towards fine-grained video understanding. We propose a framework for video-to-adverb retrieval (and vice versa) that aligns video embeddings with their matching compositional adverb-action text embedding in a joint embedding space. The compositional adverb-action text embedding is learned using a residual gating mechanism, along with a novel training objective consisting of triplet losses and a regression target. Our method achieves state-of-the-art performance on five recent benchmarks for video-adverb retrieval. Furthermore, we introduce dataset splits to benchmark video-adverb retrieval for unseen adverb-action compositions on subsets of the MSR-VTT Adverbs and ActivityNet Adverbs datasets. Our proposed framework outperforms all prior works for the generalisation task of retrieving adverbs from videos for unseen adverb-action compositions. Code and dataset splits are available at https://hummelth.github.io/ReGaDa/.
翻訳日:2023-09-27 12:42:39 公開日:2023-09-26
# 監視AIパイプライン

The Surveillance AI Pipeline ( http://arxiv.org/abs/2309.15084v1 )

ライセンス: Link先を確認
Pratyusha Ria Kalluri, William Agnew, Myra Cheng, Kentrell Owens, Luca Soldaini, Abeba Birhane(参考訳) AIの研究、特にコンピュータビジョンは、大量監視と密接に結びついている、という声が急速に増えている。 しかし、コンピュータビジョン研究から監視への直接的な道はあいまいで、評価が難しいままである。 この研究は、Surveillance AIパイプラインを明らかにする。 コンピュータビジョンの研究論文と下流の特許(20,000以上の文書)を30年間取得し、質的かつ定量的な分析を行う。 この分析は、監視aiパイプラインの性質と範囲、その制度的ルーツと進化、そして現在進行中の難読化パターンを明らかにする。 まず、コンピュータビジョン論文と下流特許の詳細な内容分析を行い、重要な特徴を特定し、定量化し、しばしば微妙に表現された監視形態が現れる。 この分析に基づいて,人的データの一般的なターゲティング,データ転送の実践,制度データ利用を特徴付けるサーベイランスAIのトポロジーを提案する。 コンピュータービジョンと監視の密接な関係の証拠が見つかっている。 注釈付きコンピュータビジョンの論文や特許の大多数(68%)は、その技術を自己報告することで、人体や身体の部分に関するデータ抽出を可能にし、さらに90%(90%)は、人間全般に関するデータ抽出を可能にしている。

A rapidly growing number of voices have argued that AI research, and computer vision in particular, is closely tied to mass surveillance. Yet the direct path from computer vision research to surveillance has remained obscured and difficult to assess. This study reveals the Surveillance AI pipeline. We obtain three decades of computer vision research papers and downstream patents (more than 20,000 documents) and present a rich qualitative and quantitative analysis. This analysis exposes the nature and extent of the Surveillance AI pipeline, its institutional roots and evolution, and ongoing patterns of obfuscation. We first perform an in-depth content analysis of computer vision papers and downstream patents, identifying and quantifying key features and the many, often subtly expressed, forms of surveillance that appear. On the basis of this analysis, we present a topology of Surveillance AI that characterizes the prevalent targeting of human data, practices of data transferal, and institutional data use. We find stark evidence of close ties between computer vision and surveillance. The majority (68%) of annotated computer vision papers and patents self-report their technology enables data extraction about human bodies and body parts and even more (90%) enable data extraction about humans in general.
翻訳日:2023-09-27 12:42:20 公開日:2023-09-26
# RPEFlow:RGB-PointCloud-Eventのマルチモーダル融合による共同光流とシーンフロー推定

RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical Flow and Scene Flow Estimation ( http://arxiv.org/abs/2309.15082v1 )

ライセンス: Link先を確認
Zhexiong Wan, Yuxin Mao, Jing Zhang, Yuchao Dai(参考訳) 近年,RGB画像と点雲融合法を併用して2次元光学的流れと3次元シーンフローを同時推定する手法が提案されている。 しかし、従来のRGBカメラとLiDARセンサーの両方がフレームベースのデータ取得機構を採用しているため、特に高ダイナミックなシーンにおいて、その性能は一定の低いサンプリングレートによって制限される。 対照的に、イベントカメラは、非常に高時間分解能で強度変化を非同期に捉え、観察されたシーンの相補的な動的情報を提供する。 本稿では,多段階マルチモーダル融合モデルであるrpeflowを用いて,光流とシーンフローの同時推定にrgb画像,点雲,イベントを組み込む。 まず、2d分枝と3d分枝の内部クロスモーダル相関を暗黙的に探究するクロスアテンション機構を備えたアテンション融合モジュールを提案する。 第2に、効果的なマルチモーダル特徴学習のための3つのモーダルの補完情報を明示的にモデル化するための相互情報正規化項を導入する。 また、さらなる研究を提唱する新しい合成データセットも提供します。 合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。 コードとデータセットはhttps://npucvr.github.io/RPEFlowで入手できる。

Recently, the RGB images and point clouds fusion methods have been proposed to jointly estimate 2D optical flow and 3D scene flow. However, as both conventional RGB cameras and LiDAR sensors adopt a frame-based data acquisition mechanism, their performance is limited by the fixed low sampling rates, especially in highly-dynamic scenes. By contrast, the event camera can asynchronously capture the intensity changes with a very high temporal resolution, providing complementary dynamic information of the observed scenes. In this paper, we incorporate RGB images, Point clouds and Events for joint optical flow and scene flow estimation with our proposed multi-stage multimodal fusion model, RPEFlow. First, we present an attention fusion module with a cross-attention mechanism to implicitly explore the internal cross-modal correlation for 2D and 3D branches, respectively. Second, we introduce a mutual information regularization term to explicitly model the complementary information of three modalities for effective multimodal feature learning. We also contribute a new synthetic dataset to advocate further research. Experiments on both synthetic and real datasets show that our model outperforms the existing state-of-the-art by a wide margin. Code and dataset is available at https://npucvr.github.io/RPEFlow.
翻訳日:2023-09-27 12:41:59 公開日:2023-09-26
# ニューラルネットワーク分類器の余剰リスク収束率について

On Excess Risk Convergence Rates of Neural Network Classifiers ( http://arxiv.org/abs/2309.15075v1 )

ライセンス: Link先を確認
Hyunouk Ko, Namjoon Suh, and Xiaoming Huo(参考訳) パターン認識や分類問題におけるニューラルネットワークの成功は、ニューラルネットワークがSVMやブースティング分類器など、他の古典的な分類器とは異なる品質を持っていることを示唆している。 本稿では, ニューラルネットワークを用いた2値分類におけるプラグイン分類器の性能を, 余剰リスクによって測定した。 第1に、近似される関数クラスは、バロン関数を適切な部分集合として含むが、第2に、構築されたニューラルネットワーク分類器は、勾配降下に基づく数値最適化が容易に適用できるように、$0〜$$の損失の代わりにサロゲート損失の最小化である。 私たちが考える関数のクラスは、最適速度が$n^{-\frac{1}{3}}$よりは速くならないと非常に大きいが、次元自由率が可能であり、ニューラルネットワークの近似力を利用することができる。 特に、ニューラルネットワークの推定と近似特性を分析して、過剰なリスクに対する次元自由で均一な収束率を得る。 最後に、得られたレートが対数係数まで最適であることを示すとともに、最小値下限は、このレジームにおけるマージン仮定の効果を示す。

The recent success of neural networks in pattern recognition and classification problems suggests that neural networks possess qualities distinct from other more classical classifiers such as SVMs or boosting classifiers. This paper studies the performance of plug-in classifiers based on neural networks in a binary classification setting as measured by their excess risks. Compared to the typical settings imposed in the literature, we consider a more general scenario that resembles actual practice in two respects: first, the function class to be approximated includes the Barron functions as a proper subset, and second, the neural network classifier constructed is the minimizer of a surrogate loss instead of the $0$-$1$ loss so that gradient descent-based numerical optimizations can be easily applied. While the class of functions we consider is quite large that optimal rates cannot be faster than $n^{-\frac{1}{3}}$, it is a regime in which dimension-free rates are possible and approximation power of neural networks can be taken advantage of. In particular, we analyze the estimation and approximation properties of neural networks to obtain a dimension-free, uniform rate of convergence for the excess risk. Finally, we show that the rate obtained is in fact minimax optimal up to a logarithmic factor, and the minimax lower bound shows the effect of the margin assumption in this regime.
翻訳日:2023-09-27 12:41:37 公開日:2023-09-26
# タッチによる視覚シーンの生成

Generating Visual Scenes from Touch ( http://arxiv.org/abs/2309.15117v1 )

ライセンス: Link先を確認
Fengyu Yang, Jiacheng Zhang, Andrew Owens(参考訳) 新たな仕事のラインは、タッチから妥当な画像を生成することを目指しています。 しかし、既存のアプローチでは、ビジュオ・タクティル合成問題の狭い側面にのみ取り組み、他の領域におけるクロスモーダル合成法の品質は著しく遅れている。 触覚信号から画像を合成するためのモデル(およびその逆)を作成するために、潜伏拡散の最近の進歩を描き、多くの振動触覚合成タスクに適用する。 このモデルを用いて,触覚駆動型スタイリゼーション問題,すなわち触覚信号にマッチする画像を操作することに対する先行研究を著しく上回り,シーンに関する追加情報なしでタッチから画像を生成するのに成功したのは初めてである。 また,本モデルを用いて2つの新しい合成問題に対処し,触覚センサや手を持たない画像を生成し,その反射と触覚から画像の陰影を推定する。

An emerging line of work has sought to generate plausible imagery from touch. Existing approaches, however, tackle only narrow aspects of the visuo-tactile synthesis problem, and lag significantly behind the quality of cross-modal synthesis methods in other domains. We draw on recent advances in latent diffusion to create a model for synthesizing images from tactile signals (and vice versa) and apply it to a number of visuo-tactile synthesis tasks. Using this model, we significantly outperform prior work on the tactile-driven stylization problem, i.e., manipulating an image to match a touch signal, and we are the first to successfully generate images from touch without additional sources of information about the scene. We also successfully use our model to address two novel synthesis problems: generating images that do not contain the touch sensor or the hand holding it, and estimating an image's shading from its reflectance and touch.
翻訳日:2023-09-27 12:35:08 公開日:2023-09-26
# InternLM-XComposer:高度なテキストイメージ理解と構成のための視覚言語大モデル

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition ( http://arxiv.org/abs/2309.15112v1 )

ライセンス: Link先を確認
Pan Zhang, Xiaoyi Dong Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang(参考訳) InternLM-XComposerは、高度な画像テキスト理解と合成を可能にする視覚言語大モデルである。 私たちのモデルの革新的な性質は、3つの魅力的な性質によって強調される。 1)Interleaved Text- Image composition: InternLM-XComposerは、画像をシームレスに統合し、より魅力的で没入的な読書体験を提供するコヒーレントで文脈的な記事を生成することができる。 タイトルを提供すれば、システムは対応する原稿を生成します。 画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。 2) リッチ多言語知識の理解: テキストイメージの理解は,多言語多言語概念の訓練によって強化され,戦略を慎重に構築し,視覚的内容の理解を深める。 3)最先端性能:我々のモデルは、MME Benchmark, MMBench, MMBench-CN, Seed-Bench, CCBench(中国文化ベンチマーク)など、ビジョンベースモデルの様々な主要なベンチマークにおいて、常に最先端の結果を達成する。 集合的に、InternLM-XComposerは高度なテキストイメージの理解と構成をシームレスにブレンドし、視覚と言語間の相互作用を革新し、新たな洞察と機会を提供する。 7Bパラメータを持つInternLM-XComposerモデルはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

We propose InternLM-XComposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovative nature of our model is highlighted by three appealing properties: 1) Interleaved Text-Image Composition: InternLM-XComposer can effortlessly generate coherent and contextual articles that seamlessly integrate images, providing a more engaging and immersive reading experience. Simply provide a title, and our system will generate the corresponding manuscript. It can intelligently identify the areas in the text where images would enhance the content and automatically insert the most appropriate visual candidates. 2) Comprehension with Rich Multilingual Knowledge: The text-image comprehension is empowered by training on extensive multi-modal multilingual concepts with carefully crafted strategies, resulting in a deep understanding of visual content. 3) State-of-the-art Performance: Our model consistently achieves state-of-the-art results across various mainstream benchmarks for vision-language foundational models, including MME Benchmark, MMBench, MMBench-CN, Seed-Bench, and CCBench (Chinese Cultural Benchmark). Collectively, InternLM-XComposer seamlessly blends advanced text-image comprehension and composition, revolutionizing vision-language interaction and offering new insights and opportunities. The InternLM-XComposer models with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2023-09-27 12:34:53 公開日:2023-09-26
# SGDは、ほぼ最適サンプル複素数を持つ2層ニューラルネットワークにおけるチューンの特徴を見いだす:XOR問題におけるケーススタディ

SGD Finds then Tunes Features in Two-Layer Neural Networks with near-Optimal Sample Complexity: A Case Study in the XOR problem ( http://arxiv.org/abs/2309.15111v1 )

ライセンス: Link先を確認
Margalit Glasgow(参考訳) 本研究では,二次基底真理関数によって分離されたデータを持つ2層ニューラルネットワーク上でのミニバッチ確率勾配降下(sgd)の最適化過程について検討する。 二次的な ``xor'' 関数 $y = -x_ix_j$ でラベル付けされた$d$-dimensional boolean hypercube から引き出されたデータがあれば、$d \:\text{polylog}(d)$ のサンプルで人口エラー $o(1)$ にトレーニングすることができる。 本研究では,ロジスティック損失に対する標準ミニバッチsgdによるreluアクティベーションを用いて,二層神経ネットワークの両層を同時にトレーニングする。 私たちの知る限りでは、この研究は標準ニューラルネットワーク上の等方性データのxor関数を標準トレーニングで効率的に学習するために、最初に$\tilde{o}(d)$のサンプル複雑性を与える。 我々の主な手法は、ネットワークが小さく、多くのニューロンが独立して機能を見つけるために進化する$\textit{signal-finding}$フェーズと、SGDが機能を維持しバランスをとる$\textit{signal-heavy}$フェーズである。 我々は,2層目の重みの同時成長によって,2層目の重みが増幅されるため,少数のニューロンだけが特徴を学習するのに十分であることを示すために,重みの同時訓練を利用する。

In this work, we consider the optimization process of minibatch stochastic gradient descent (SGD) on a 2-layer neural network with data separated by a quadratic ground truth function. We prove that with data drawn from the $d$-dimensional Boolean hypercube labeled by the quadratic ``XOR'' function $y = -x_ix_j$, it is possible to train to a population error $o(1)$ with $d \:\text{polylog}(d)$ samples. Our result considers simultaneously training both layers of the two-layer-neural network with ReLU activations via standard minibatch SGD on the logistic loss. To our knowledge, this work is the first to give a sample complexity of $\tilde{O}(d)$ for efficiently learning the XOR function on isotropic data on a standard neural network with standard training. Our main technique is showing that the network evolves in two phases: a $\textit{signal-finding}$ phase where the network is small and many of the neurons evolve independently to find features, and a $\textit{signal-heavy}$ phase, where SGD maintains and balances the features. We leverage the simultaneous training of the layers to show that it is sufficient for only a small fraction of the neurons to learn features, since those neurons will be amplified by the simultaneous growth of their second layer weights.
翻訳日:2023-09-27 12:34:25 公開日:2023-09-26
# Doduo:教師なしセマンティック・アウェアフローから視覚対応を学習する

Doduo: Learning Dense Visual Correspondence from Unsupervised Semantic-Aware Flow ( http://arxiv.org/abs/2309.15110v1 )

ライセンス: Link先を確認
Zhenyu Jiang, Hanwen Jiang, Yuke Zhu(参考訳) 繊細な視覚対応はロボット知覚において重要な役割を果たす。 本研究は、動的シーンをキャプチャする2つの画像間の密接な対応を確立することに焦点を当てている。 そこで,本研究では,実写画像や映像から全体密接な視覚対応を学習するために,基礎的真理の監督を伴わずにdoduoを導入する。 一対の画像が与えられると、一方の画像内の各画素の変位を他方の画像の対応する画素に符号化する密集した流れ場を推定する。 doduoは、フローベースのワーピングを使用して、トレーニングの監督信号を取得する。 自己教師付きフロートレーニングにセマンティクスプリエントを組み込むことで、doduoはシーンの動的変化にロバストな正確な密接な対応を生成する。 既存の自己教師型対応学習ベースラインよりも、ポイントレベルの対応推定において優れたパフォーマンスを示す。 また,doduoを調音推定とゼロショット目標条件操作に適用し,ロボット工学における実用的応用を概説した。 コードと追加の可視化はhttps://ut-austin-rpl.github.io/doduoで利用可能である。

Dense visual correspondence plays a vital role in robotic perception. This work focuses on establishing the dense correspondence between a pair of images that captures dynamic scenes undergoing substantial transformations. We introduce Doduo to learn general dense visual correspondence from in-the-wild images and videos without ground truth supervision. Given a pair of images, it estimates the dense flow field encoding the displacement of each pixel in one image to its corresponding pixel in the other image. Doduo uses flow-based warping to acquire supervisory signals for the training. Incorporating semantic priors with self-supervised flow training, Doduo produces accurate dense correspondence robust to the dynamic changes of the scenes. Trained on an in-the-wild video dataset, Doduo illustrates superior performance on point-level correspondence estimation over existing self-supervised correspondence learning baselines. We also apply Doduo to articulation estimation and zero-shot goal-conditioned manipulation, underlining its practical applications in robotics. Code and additional visualizations are available at https://ut-austin-rpl.github.io/Doduo
翻訳日:2023-09-27 12:33:56 公開日:2023-09-26
# distillbev:クロスモーダル知識蒸留によるマルチカメラ3d物体検出の促進

DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation ( http://arxiv.org/abs/2309.15109v1 )

ライセンス: Link先を確認
Zeyu Wang, Dingwen Li, Chenxu Luo, Cihang Xie, Xiaodong Yang(参考訳) 自律走行車産業における大量生産に費用対効果があるため, マルチカメラバードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。 しかし、マルチカメラのbevとlidarベースの3dオブジェクト検出には、異なるパフォーマンスギャップがある。 一つの重要な理由は、lidarが正確な深度やその他の幾何学的測定を捉えているのに対して、そのような3d情報を単なる画像入力から推測するのは困難である。 本研究では,マルチカメラのBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。 本研究では,教師から重要な特徴を学ぶことに集中するよう学生に強制する効果的なバランス戦略を提案し,時間融合による多層レイヤーへの知識伝達を一般化する。 マルチカメラBEVの複数の代表モデルについて広範な評価を行う。 実験の結果,本手法は学生モデルよりも大幅に改善され,一般的なベンチマーク nuScenes における最先端のパフォーマンスが向上することがわかった。

3D perception based on the representations learned from multi-camera bird's-eye-view (BEV) is trending as cameras are cost-effective for mass production in autonomous driving industry. However, there exists a distinct performance gap between multi-camera BEV and LiDAR based 3D object detection. One key reason is that LiDAR captures accurate depth and other geometry measurements, while it is notoriously challenging to infer such 3D information from merely image input. In this work, we propose to boost the representation learning of a multi-camera BEV based student detector by training it to imitate the features of a well-trained LiDAR based teacher detector. We propose effective balancing strategy to enforce the student to focus on learning the crucial features from the teacher, and generalize knowledge transfer to multi-scale layers with temporal fusion. We conduct extensive evaluations on multiple representative models of multi-camera BEV. Experiments reveal that our approach renders significant improvement over the student models, leading to the state-of-the-art performance on the popular benchmark nuScenes.
翻訳日:2023-09-27 12:33:39 公開日:2023-09-26
# 4つのミンコフスキー真空状態からのAdS$_3$真空状態

AdS$_3$ Vacuum State from Four Minkowski Vacuum States ( http://arxiv.org/abs/2309.15107v1 )

ライセンス: Link先を確認
Lucas Kocia Kovalsky(参考訳) 4つの特定の 1{+}2$ minkowski の真空状態のテンソル積は、パリティや時間反転対称性のないすべての非零スカラー曲率からなる3次元反ド・ジッター時空の無限集合に対する自己整合真空状態である。

We show that a tensor product of four specific $1{+}2$ Minkowski vacuum states is a self-consistent vacuum state for an infinite set of three-dimensional anti-de Sitter spacetimes, which consist of all non-zero scalar curvatures without parity or time-reversal symmetry.
翻訳日:2023-09-27 12:33:21 公開日:2023-09-26
# LAVIE: Cascaded Latent Diffusion Modelを用いた高品質ビデオ生成

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models ( http://arxiv.org/abs/2309.15103v1 )

ライセンス: Link先を確認
Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu(参考訳) 本研究の目的は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ(T2V)生成モデルを学習することである。 同時に行うことが非常に望ましいが難しいタスクである。 a) 映像的かつ時間的にコヒーレントな映像の合成を実現すること b)事前訓練されたt2iモデルの強い創造性を維持すること。 そこで本稿では,ベースt2vモデル,時間的補間モデル,ビデオ超解像モデルからなる,カスケードされたビデオ潜在拡散モデルで動作する統合ビデオ生成フレームワークlavieを提案する。 私たちの重要な洞察は2つあります。 1) ビデオデータに内在する時間的相関関係を, 簡易な時間的自己注意と回転的位置エンコーディングの併用により適切に捉えることを明らかにする。 2) 高品質で創造的な結果を生み出す上で, 共同映像調整のプロセスが重要な役割を担っていることを検証する。 LaVieの性能向上のために,品質,多様性,美的魅力を優先する2500万のテキストビデオペアからなる,Vimeo25Mという,包括的で多様なビデオデータセットをコントリビュートした。 大規模な実験により、LaVieは定量的にも定性的にも最先端のパフォーマンスを達成することを示した。 さらに,様々な長期ビデオ生成およびパーソナライズされたビデオ合成アプリケーションにおいて,事前学習したLaVieモデルの汎用性を示す。

This work aims to learn a high-quality text-to-video (T2V) generative model by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a highly desirable yet challenging task to simultaneously a) accomplish the synthesis of visually realistic and temporally coherent videos while b) preserving the strong creative generation nature of the pre-trained T2I model. To this end, we propose LaVie, an integrated video generation framework that operates on cascaded video latent diffusion models, comprising a base T2V model, a temporal interpolation model, and a video super-resolution model. Our key insights are two-fold: 1) We reveal that the incorporation of simple temporal self-attentions, coupled with rotary positional encoding, adequately captures the temporal correlations inherent in video data. 2) Additionally, we validate that the process of joint image-video fine-tuning plays a pivotal role in producing high-quality and creative outcomes. To enhance the performance of LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M, consisting of 25 million text-video pairs that prioritize quality, diversity, and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves state-of-the-art performance both quantitatively and qualitatively. Furthermore, we showcase the versatility of pre-trained LaVie models in various long video generation and personalized video synthesis applications.
翻訳日:2023-09-27 12:33:14 公開日:2023-09-26
# SuperGaN:NbTiN/GaN/NbTiNトンネル接合の合成

SuperGaN: Synthesis of NbTiN/GaN/NbTiN Tunnel Junctions ( http://arxiv.org/abs/2309.15100v1 )

ライセンス: Link先を確認
Michael Cyberey, Scott Hinton, Christopher Moore, Robert M. Weikle, Arthur Lichtenberger(参考訳) Nbベースの回路は量子制限光子検出器、低ノイズパラメトリック増幅器、超伝導デジタル論理回路、量子コンピューティングのための低損失回路に広く応用されている。 超伝導絶縁超導体(sis)接合材料における最新の技術動向は、al-oxideまたはalnトンネルバリアを用いたnb電極のマグネトロンスパッタリングに基づくガービッチ三層プロセスである。 しかし、現在の Nb ベースの回路の制限は、Nb の 670 GHz のギャップ周波数以上で動作する THz 回路の低損失動作と、宇宙ベースのような厳格な電力予算を持つプロジェクトの高温動作である。 NbTiNは代替の高エネルギーギャップ材料であり,第1次NbTiN/AlN/NbTiN超伝導超伝導超伝導(SIS)接合とエピタキシャル成長したAlNトンネルバリアについて報告した。 熱酸化やプラズマ窒化と比較して直接成長したトンネル障壁の欠点は、基板間のバリア厚と均一性の制御であり、電流密度(Jc)の変動をもたらす。 障壁高さが小さい半導体バリアは、所定のJcに対してより厚いトンネルバリアを可能にする。 GaNはAlNに似た閉じたウルツ石結晶構造を持つ代替半導体材料であり、反応バイアスターゲットイオンビーム堆積(RBTIBD)技術を用いてトンネルバリアとしてエピタキシャルに成長することができる。 本研究は, SIS I(V) 特性の低い高品質NbTiN/GaN/NbTiNヘテロ接合の予備的な結果を示す。

Nb-based circuits have broad applications in quantum-limited photon detectors, low-noise parametric amplifiers, superconducting digital logic circuits, and low-loss circuits for quantum computing. The current state-of-the-art approach for superconductor-insulator-superconductor (SIS) junction material is the Gurvitch trilayer process based on magnetron sputtering of Nb electrodes with Al-Oxide or AlN tunnel barriers grown on an Al overlayer. However, a current limitation of elemental Nb-based circuits is the low-loss operation of THz circuits operating above the 670 GHz gap frequency of Nb and operation at higher temperatures for projects with a strict power budget, such as space-based applications. NbTiN is an alternative higher energy gap material and we have previously reported on the first NbTiN/AlN/NbTiN superconducting-insulating-superconducting (SIS) junctions with an epitaxially grown AlN tunnel barrier. One drawback of a directly grown tunnel barrier compared to thermal oxidation or plasma nitridation is control of the barrier thickness and uniformity across a substrate, leading to variations in current density (Jc). Semiconductor barriers with smaller barrier heights enable thicker tunnel barriers for a given Jc. GaN is an alternative semiconductor material with a closed-packed Wurtzite crystal structure similar to AlN and it can be epitaxially grown as a tunnel barrier using the Reactive Bias Target Ion Beam Deposition (RBTIBD) technique. This work presents the preliminary results of the first reported high-quality NbTiN/GaN/NbTiN heterojunctions with underdamped SIS I(V) characteristics.
翻訳日:2023-09-27 12:32:52 公開日:2023-09-26
# 注意:言語モデルの事実的誤りに対する制約満足レンズ

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models ( http://arxiv.org/abs/2309.15098v1 )

ライセンス: Link先を確認
Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi(参考訳) 本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。 本稿では,制約満足度問題(Constraint Satisfaction Problems)としてファクトクエリをモデル化し,モデルが事実制約と内部的にどのように相互作用するかを検討する。 具体的には,制約トークンに対するモデルの注意と,その応答の事実的正確性との間に強い正の関係を見出した。 4万以上のプロンプトを持つ11のデータセットからなるキュレートされたスイートにおいて、全スケール(7B, 13B, 70B)にわたるLlama-2ファミリーによる事実エラーを予測するタスクについて検討した。 本稿では,制約満足度と実ミスを予測し,早期の誤り識別を可能にする自己注意パターン探索手法SAT Probeを提案する。 このアプローチと知見は, LLMにおける現実性の機械的理解が信頼性を高めることを示す。

We investigate the internal behavior of Transformer-based Large Language Models (LLMs) when they generate factually incorrect text. We propose modeling factual queries as Constraint Satisfaction Problems and use this framework to investigate how the model interacts internally with factual constraints. Specifically, we discover a strong positive relation between the model's attention to constraint tokens and the factual accuracy of its responses. In our curated suite of 11 datasets with over 40,000 prompts, we study the task of predicting factual errors with the Llama-2 family across all scales (7B, 13B, 70B). We propose SAT Probe, a method probing self-attention patterns, that can predict constraint satisfaction and factual errors, and allows early error identification. The approach and findings demonstrate how using the mechanistic understanding of factuality in LLMs can enhance reliability.
翻訳日:2023-09-27 12:32:21 公開日:2023-09-26
# ケーススタディ:非拘束実地画像のアンサンブル決定に基づくアノテーション

Case Study: Ensemble Decision-Based Annotation of Unconstrained Real Estate Images ( http://arxiv.org/abs/2309.15097v1 )

ライセンス: Link先を確認
Miroslav Despotovic, Zedong Zhang, Eric Stumpe and Matthias Zeppelzauer(参考訳) 簡単な反復規則に基づく半教師付き学習を用いて、不動産画像に注釈をつけるための概念実証について述べる。 本研究では,個々の画像クラスのコンテンツ特性と一意性,および実用的実装に必要な要件について重要な知見を得た。

We describe a proof-of-concept for annotating real estate images using simple iterative rule-based semi-supervised learning. In this study, we have gained important insights into the content characteristics and uniqueness of individual image classes as well as essential requirements for a practical implementation.
翻訳日:2023-09-27 12:32:04 公開日:2023-09-26
# 勧告基礎モデルの項目IDの索引付け方法

How to Index Item IDs for Recommendation Foundation Models ( http://arxiv.org/abs/2305.06569v6 )

ライセンス: Link先を確認
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。 従来のレコメンデーションモデルのように各候補項目のランキングスコアを計算するのではなく、アイテムを直接生成する生成レコメンデーションを可能にし、マルチステージフィルタリングからシングルステージフィルタリングまでのレコメンデーションパイプラインを簡素化する。 LLM互換アイテムIDを作成して、推奨基礎モデルに欠かせない、過度に長いテキストや、どの項目を推薦するかを決める際に、幻覚的なレコメンデーションが発生するのを避ける。 本研究では,P5 をバックボーン LLM の例として,レコメンデーション基礎モデルの項目 ID 生成とインデックス化の問題を系統的に検討する。 項目インデクシングの重要性を強調するため,まず,ランダムインデクシング,タイトルインデクシング,独立インデクシングなど,いくつかの自明な項目インデクシング手法の問題について論じる。 次に,シーケンシャルインデクシング,協調インデクシング,セマンティック(コンテンツベース)インデクシング,ハイブリッドインデクシングという,シンプルかつ効果的な4つのソリューションを提案する。 本研究は, LLMに基づくレコメンデーションにおける項目索引付け手法の有意な影響を強調し, 提案手法の有効性を実世界のデータセットで検証した。 この研究はまた、言語モデリングとインデックス化のような従来のir原則の最近の進歩が、学習と推論の改善にどのように役立つかを実証している。 ソースコードとデータはhttps://github.com/Wenyueh/LLM-RecSys-IDで公開されている。

Recommendation foundation model utilizes large language models (LLM) for recommendation by converting recommendation tasks into natural language tasks. It enables generative recommendation which directly generates the item(s) to recommend rather than calculating a ranking score for each and every candidate item as in traditional recommendation models, simplifying the recommendation pipeline from multi-stage filtering to single-stage filtering. To avoid generating excessively long text and hallucinated recommendations when deciding which item(s) to recommend, creating LLM-compatible item IDs to uniquely identify each item is essential for recommendation foundation models. In this study, we systematically examine the item ID creation and indexing problem for recommendation foundation models, using P5 as an example of the backbone LLM. To emphasize the importance of item indexing, we first discuss the issues of several trivial item indexing methods, such as random indexing, title indexing, and independent indexing. We then propose four simple yet effective solutions, including sequential indexing, collaborative indexing, semantic (content-based) indexing, and hybrid indexing. Our study highlights the significant influence of item indexing methods on the performance of LLM-based recommendation, and our results on real-world datasets validate the effectiveness of our proposed solutions. The research also demonstrates how recent advances on language modeling and traditional IR principles such as indexing can help each other for better learning and inference. Source code and data are available at https://github.com/Wenyueh/LLM-RecSys-ID.
翻訳日:2023-09-27 10:47:40 公開日:2023-09-26
# 置換同変神経機能

Permutation Equivariant Neural Functionals ( http://arxiv.org/abs/2302.14040v3 )

ライセンス: Link先を確認
Allan Zhou, Kaien Yang, Kaylee Burns, Adriano Cardace, Yiding Jiang, Samuel Sokota, J. Zico Kolter, Chelsea Finn(参考訳) 本研究は,神経機能ネットワーク(nfns)と呼ばれる他のニューラルネットワークの重みや勾配を処理可能なニューラルネットワークの設計を研究する。 学習された最適化、暗黙のニューラルネットワーク表現の処理、ネットワーク編集、ポリシー評価など、幅広い潜在的なアプリケーションにもかかわらず、他のネットワークの重み付けを処理する効果的なアーキテクチャを設計するための統一的な原則は少ない。 特に,隠れた層ニューロンは固有順序を持たないため,ディープフィードフォワードネットワークの重みに生じる置換対称性に注目して,対称性のレンズを通して神経機能設計にアプローチする。 これらの対称性をインダクティブバイアスとしてエンコードした、置換同変ニューラル汎関数を構築するためのフレームワークを提案する。 このフレームワークの主要なビルディングブロックは、適切なパラメータ共有スキームによって置換同変を制約するNF-Layers(神経機能層)である。 本実験では,mlpとcnnの重みを処理し,分類器の一般化予測,初期化のための「勝利チケット」スパルシティマスクの作成,暗黙的神経表現(inrs)の分類・編集といったタスクにおいて,置換同変ニューラル関数が有効であることを見出した。 さらに、モデルと実験用のコードもhttps://github.com/allanyangzhou/nfnで提供しています。

This work studies the design of neural networks that can process the weights or gradients of other neural networks, which we refer to as neural functional networks (NFNs). Despite a wide range of potential applications, including learned optimization, processing implicit neural representations, network editing, and policy evaluation, there are few unifying principles for designing effective architectures that process the weights of other networks. We approach the design of neural functionals through the lens of symmetry, in particular by focusing on the permutation symmetries that arise in the weights of deep feedforward networks because hidden layer neurons have no inherent order. We introduce a framework for building permutation equivariant neural functionals, whose architectures encode these symmetries as an inductive bias. The key building blocks of this framework are NF-Layers (neural functional layers) that we constrain to be permutation equivariant through an appropriate parameter sharing scheme. In our experiments, we find that permutation equivariant neural functionals are effective on a diverse set of tasks that require processing the weights of MLPs and CNNs, such as predicting classifier generalization, producing "winning ticket" sparsity masks for initializations, and classifying or editing implicit neural representations (INRs). In addition, we provide code for our models and experiments at https://github.com/AllanYangZhou/nfn.
翻訳日:2023-09-27 10:47:11 公開日:2023-09-26
# d次元ベル状態を用いた単一状態多人数半量子秘密共有

Single-state multiparty semiquantum secret sharing with d-dimensional Bell states ( http://arxiv.org/abs/2209.11391v3 )

ライセンス: Link先を確認
Ying Chen, Zhi-Gang Gan, Tian-Yu Ye(参考訳) D次元ベル状態を持つ単一状態多人数秘密共有(MSQSS)方式が提案され、全ての受信機が協調して動作する場合にのみ送信者の秘密鍵を復元できるという目標を達成することができる。 このプロトコルは、外部攻撃と参加者攻撃の両方に対して安全であることが検証される。 このプロトコルは、D次元システムに適応し、1種類のD次元ベル状態のみを初期量子資源として使用し、量子エンタングルメントスワッピングもユニタリ演算も必要としない。

A single-state multiparty semiquantum secret sharing (MSQSS) scheme with d-dimensional Bell states is proposed, which can accomplish the goal that only when all receivers work together can they restore the sender's secret key. This protocol is validated to be secure against both the outside attack and the participant attack. This protocol is adaptive for the d-dimensional system, only employs one kind of d-dimensional Bell states as initial quantum resource and needs neither quantum entanglement swapping nor unitary operations.
翻訳日:2023-09-27 10:46:46 公開日:2023-09-26
# 大規模ハイパーパラメータ最適化のための非同期分散ベイズ最適化

Asynchronous Decentralized Bayesian Optimization for Large Scale Hyperparameter Optimization ( http://arxiv.org/abs/2207.00479v4 )

ライセンス: Link先を確認
Romain Egele, Isabelle Guyon, Venkatram Vishwanath, Prasanna Balaprakash(参考訳) ベイズ最適化(bayesian optimization、bo)は、ディープニューラルネットワーク(dnn)のハイパーパラメータ最適化において、各モデルのトレーニングに数分から数時間を要す有望なアプローチである。 BOでは、パラメータ構成と精度などの性能の関係を学習するために、計算的に安価な代理モデルを用いる。 並列boメソッドは、複数のハイパーパラメータの設定を同時に評価するために、シングルマネージャ/マルチプルワーカー戦略を採用することが多い。 かなりのハイパーパラメータ評価時間にもかかわらず、このような集中型スキームのオーバーヘッドは、これらの方法が多数のワーカーにスケールすることを妨げている。 我々は、各ワーカがシーケンシャルなboを実行し、その結果を共有ストレージを通じて非同期に通信する非同期分散boを提案する。 提案手法は,1,920人の並列作業者(ポーラリス・スーパーコンピュータのフル生産キュー)に対する作業者の利用率の95%以上で計算効率を損なうことなくスケールし,モデルの精度の向上と,exascale computing project によるろうそくベンチマークの収束率の向上を実証する。

Bayesian optimization (BO) is a promising approach for hyperparameter optimization of deep neural networks (DNNs), where each model training can take minutes to hours. In BO, a computationally cheap surrogate model is employed to learn the relationship between parameter configurations and their performance such as accuracy. Parallel BO methods often adopt single manager/multiple workers strategies to evaluate multiple hyperparameter configurations simultaneously. Despite significant hyperparameter evaluation time, the overhead in such centralized schemes prevents these methods to scale on a large number of workers. We present an asynchronous-decentralized BO, wherein each worker runs a sequential BO and asynchronously communicates its results through shared storage. We scale our method without loss of computational efficiency with above 95% of worker's utilization to 1,920 parallel workers (full production queue of the Polaris supercomputer) and demonstrate improvement in model accuracy as well as faster convergence on the CANDLE benchmark from the Exascale computing project.
翻訳日:2023-09-27 10:46:36 公開日:2023-09-26
# 2平面X線と3次元形状再構成のためのベンチマークエンコーダデコーダアーキテクチャ

Benchmarking Encoder-Decoder Architectures for Biplanar X-ray to 3D Shape Reconstruction ( http://arxiv.org/abs/2309.13587v2 )

ライセンス: Link先を確認
Mahesh Shakya, Bishesh Khanal(参考訳) 2枚の直交(双平面)X線画像から3次元骨形状を復元するための様々な深層学習モデルが提案されている。 しかし、異なる解剖学、コホート、(しばしばプライベートに保持された)データセット上で評価されるため、これらのモデルが互いにどのように比較されるかは不明である。 さらに,2次元3次元骨形状再構成における臨床パラメータ推定におけるダイススコアなどの画像ベースセグメンテーション指標が及ぼす影響はよく分かっていない。 本稿では, 骨折骨の再建, インプラント付き骨, 人口移動に対する頑健性, 臨床パラメータ推定における誤差など, 実際の臨床シナリオに関連する課題を評価するためのベンチマークフレームワークを提案する。 当社のオープンソースプラットフォームは,8モデル(実装のほとんどが公開されていない)のリファレンス実装,6つの公開データセットの収集と前処理が容易なapi,自動臨床パラメータとランドマーク抽出メソッドの実装を提供します。 本研究では,4つの解剖学的画像からなる6つの公開データセットを用いて,均等な足場における8つの2D-3Dモデルの評価を行った。 以上の結果から,全解剖学やデータセットにおいて,全空間的関係を捉えた注意に基づく手法は良好に機能する傾向にあり,臨床関連サブグループのパフォーマンスは,分散報告を伴わずに過大評価される可能性があり,リブは大腿骨,股関節,脊椎に比べて実質的に再構築が困難であり,diceスコアの改善は必ずしも臨床関連パラメータの自動推定に対応する改善をもたらすとは限らない。

Various deep learning models have been proposed for 3D bone shape reconstruction from two orthogonal (biplanar) X-ray images. However, it is unclear how these models compare against each other since they are evaluated on different anatomy, cohort and (often privately held) datasets. Moreover, the impact of the commonly optimized image-based segmentation metrics such as dice score on the estimation of clinical parameters relevant in 2D-3D bone shape reconstruction is not well known. To move closer toward clinical translation, we propose a benchmarking framework that evaluates tasks relevant to real-world clinical scenarios, including reconstruction of fractured bones, bones with implants, robustness to population shift, and error in estimating clinical parameters. Our open-source platform provides reference implementations of 8 models (many of whose implementations were not publicly available), APIs to easily collect and preprocess 6 public datasets, and the implementation of automatic clinical parameter and landmark extraction methods. We present an extensive evaluation of 8 2D-3D models on equal footing using 6 public datasets comprising images for four different anatomies. Our results show that attention-based methods that capture global spatial relationships tend to perform better across all anatomies and datasets; performance on clinically relevant subgroups may be overestimated without disaggregated reporting; ribs are substantially more difficult to reconstruct compared to femur, hip and spine; and the dice score improvement does not always bring a corresponding improvement in the automatic estimation of clinically relevant parameters.
翻訳日:2023-09-27 10:44:15 公開日:2023-09-26
# 確率的重み付け:量子化のためのニューラルネットワークの重み付け不確かさの大規模トレーニング

Probabilistic Weight Fixing: Large-scale training of neural network weight uncertainties for quantization ( http://arxiv.org/abs/2309.13575v2 )

ライセンス: Link先を確認
Christopher Subia-Waud and Srinandan Dasmahapatra(参考訳) 重み共有量子化は、重みを限られた値に制限することで、大きなニューラルネットワークの推論におけるエネルギー支出を減らす技術として登場した。 しかし、既存の量共有量子化法はしばしば、ユニークな役割の重み位置の作用を無視した値のみに基づく重みの扱いについて仮定する。 本稿では,ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと,どの重みがどのクラスタ中心に移動できるか,それぞれの位置固有の学習不確実性分布に基づいてどの程度に移動できるかを同定する変動緩和手法を提案する。 複雑なデータセットとモデルの組み合わせでBNNを訓練できる新しい初期化設定と正規化項を導入する。 確率分布から得られた重み値の柔軟性を利用して、雑音耐性と下流圧縮性を高める。 反復クラスタリング手法は,resnetモデルとより複雑なtransformerベースのアーキテクチャの両方において,最先端の手法と比較して高い圧縮性と高い精度を示す。 特に,DeiT-Tinyを用いたImageNetでは,現状の量子化手法であるtop-1精度を1.6%向上させ,500万以上の重みを296個のユニークな値で表している。

Weight-sharing quantization has emerged as a technique to reduce energy expenditure during inference in large neural networks by constraining their weights to a limited set of values. However, existing methods for weight-sharing quantization often make assumptions about the treatment of weights based on value alone that neglect the unique role weight position plays. This paper proposes a probabilistic framework based on Bayesian neural networks (BNNs) and a variational relaxation to identify which weights can be moved to which cluster centre and to what degree based on their individual position-specific learned uncertainty distributions. We introduce a new initialisation setting and a regularisation term which allow for the training of BNNs under complex dataset-model combinations. By leveraging the flexibility of weight values captured through a probability distribution, we enhance noise resilience and downstream compressibility. Our iterative clustering procedure demonstrates superior compressibility and higher accuracy compared to state-of-the-art methods on both ResNet models and the more complex transformer-based architectures. In particular, our method outperforms the state-of-the-art quantization method top-1 accuracy by 1.6% on ImageNet using DeiT-Tiny, with its 5 million+ weights now represented by only 296 unique values.
翻訳日:2023-09-27 10:43:48 公開日:2023-09-26
# 皮下アバター再建のためのグローバル関連3dデカップリングトランス

Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction ( http://arxiv.org/abs/2309.13524v2 )

ライセンス: Link先を確認
Zechuan Zhang, Li Sun, Zongxin Yang, Ling Chen, Yi Yang(参考訳) 3d服を着た人間のアバターを1枚の画像から再構築することは、特に複雑なポーズやゆるい衣服に遭遇する場合、難しい課題である。 現在のメソッドは性能に制限があり、主に不十分な2d画像特徴と一貫性のないクエリメソッドに依存する。 そこで我々は, モノクロ画像から人間のアバターを再構成する新しいトランスアーキテクチャであるGTA(Global-correlated 3D-decoupling Transformer for clothed Avatar reconstruction)を提案する。 提案手法は,グローバルな関連画像特徴をキャプチャするエンコーダとしてビジョントランスフォーマーモデルを活用することで,トランスフォーマアーキテクチャを活用する。 その後,3次元分離デコーダは,学習可能な埋め込みをクロスプレーン生成のためのクエリとして使用し,トライプレーン機能を分離するためにクロスアテンションを用いています。 本稿では,三面体3次元特徴と人体との融合を効果的に促進するために,空間的局所化と人体的事前知識の利点を活かし,空間的問合せと先行的問合せを組み合わせたハイブリッド事前融合戦略を提案する。 CAPEとTHuman2.0データセットの総合的な実験により、我々の手法は、幾何学的およびテクスチャ的再構築における最先端のアプローチよりも優れており、挑戦的なポーズやゆるい衣服に対して高い堅牢性を示し、高分解能なテクスチャを生成する。 コードはhttps://github.com/River-Zhang/GTAで入手できる。

Reconstructing 3D clothed human avatars from single images is a challenging task, especially when encountering complex poses and loose clothing. Current methods exhibit limitations in performance, largely attributable to their dependence on insufficient 2D image features and inconsistent query methods. Owing to this, we present the Global-correlated 3D-decoupling Transformer for clothed Avatar reconstruction (GTA), a novel transformer-based architecture that reconstructs clothed human avatars from monocular images. Our approach leverages transformer architectures by utilizing a Vision Transformer model as an encoder for capturing global-correlated image features. Subsequently, our innovative 3D-decoupling decoder employs cross-attention to decouple tri-plane features, using learnable embeddings as queries for cross-plane generation. To effectively enhance feature fusion with the tri-plane 3D feature and human body prior, we propose a hybrid prior fusion strategy combining spatial and prior-enhanced queries, leveraging the benefits of spatial localization and human body prior knowledge. Comprehensive experiments on CAPE and THuman2.0 datasets illustrate that our method outperforms state-of-the-art approaches in both geometry and texture reconstruction, exhibiting high robustness to challenging poses and loose clothing, and producing higher-resolution textures. Codes will be available at https://github.com/River-Zhang/GTA.
翻訳日:2023-09-27 10:43:19 公開日:2023-09-26
# blastnet 2.0データを用いた3次元ボリューム分解能のベンチマークスケーリング挙動

Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data ( http://arxiv.org/abs/2309.13457v2 )

ライセンス: Link先を確認
Wai Tong Chung, Bassem Akoush, Pushan Sharma, Alex Tamkin, Ki Sung Jung, Jacqueline H. Chen, Jack Guo, Davy Brouzet, Mohsen Talei, Bruno Savard, Alexei Y. Poludnenko, Matthias Ihme(参考訳) 圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。 本稿では,34個の高忠実度直接数値シミュレーションから得られた744個のフルドメインサンプルを含む2.2tbのネットワーク・オブ・データセットである blastnet 2.0 について述べる。 このデータを用いて,3次元超解像のための5つのディープラーニングアプローチの49種類のバリエーションをベンチマークし,科学画像,シミュレーション,乱流モデル,コンピュータビジョンの応用に応用できることを示した。 これらのモデルを用いてニューラルスケーリング分析を行い、2つの科学的ML技術を含む異なる機械学習(ML)アプローチの性能を調べる。 私たちはそれを証明します (i)予測性能はモデルのサイズとコストでスケールできる。 (ii)建築は、特に小型モデルにおいて著しく重要であり、 (iii)モデルサイズが大きくなると、物理学的損失の利点が持続する。 本研究の結果は3次元超解像モデル,特に乱流モデルの設計に役立つ知見を提供するとともに,幅広い流れ物理応用のためのML手法の育成が期待されている。 このデータは、https://blastnet.github.ioで統合されたダウンロードリンクとブラウジングツールで公開されている。

Analysis of compressible turbulent flows is essential for applications related to propulsion, energy generation, and the environment. Here, we present BLASTNet 2.0, a 2.2 TB network-of-datasets containing 744 full-domain samples from 34 high-fidelity direct numerical simulations, which addresses the current limited availability of 3D high-fidelity reacting and non-reacting compressible turbulent flow simulation data. With this data, we benchmark a total of 49 variations of five deep learning approaches for 3D super-resolution - which can be applied for improving scientific imaging, simulations, turbulence models, as well as in computer vision applications. We perform neural scaling analysis on these models to examine the performance of different machine learning (ML) approaches, including two scientific ML techniques. We demonstrate that (i) predictive performance can scale with model size and cost, (ii) architecture matters significantly, especially for smaller models, and (iii) the benefits of physics-based losses can persist with increasing model size. The outcomes of this benchmark study are anticipated to offer insights that can aid the design of 3D super-resolution models, especially for turbulence models, while this data is expected to foster ML methods for a broad range of flow physics applications. This data is publicly available with download links and browsing tools consolidated at https://blastnet.github.io.
翻訳日:2023-09-27 10:42:52 公開日:2023-09-26
# Real3D-AD: ポイントクラウド異常検出のデータセット

Real3D-AD: A Dataset of Point Cloud Anomaly Detection ( http://arxiv.org/abs/2309.13226v2 )

ライセンス: Link先を確認
Jiaqi Liu, Guoyang Xie, Ruitao Chen, Xinpeng Li, Jinbao Wang, Yong Liu, Chengjie Wang, Feng Zheng(参考訳) 高精度点雲異常検出は、加工および精密製造の欠陥を特定するための金の標準である。 この分野の方法論的な進歩にもかかわらず、データセットの不足と体系的なベンチマークの欠如は、その開発を妨げる。 real3d-adは,この分野の制約に対処し,高精度なクラウド異常検出データセットである。 1,254個の高解像度3dアイテムがそれぞれ4万点から数百万点まで、real3d-adは、これまでで最大の高精度3d産業用異常検出用データセットである。 Real3D-ADは、ポイントクラウド解像度(0.0010mm-0.0015mm)、360度カバレッジ、完璧なプロトタイプに関する既存の3D異常検出データセットを上回る。 さらに,real3d-adの総合ベンチマークを行い,高精度点雲異常検出のためのベースライン手法の欠如を明らかにした。 そこで,我々はreg3d-adを提案する。reg3d-adは,局所表現とグローバル表現を保存する新しい特徴記憶バンクを組み込んだ,登録に基づく3次元異常検出手法である。 Real3D-ADデータセットに関する大規模な実験は、Reg3D-ADの有効性を強調している。 再現性とアクセシビリティのために、Real3D-ADデータセット、ベンチマークソースコード、Reg3D-ADをウェブサイトで提供します。

High-precision point cloud anomaly detection is the gold standard for identifying the defects of advancing machining and precision manufacturing. Despite some methodological advances in this area, the scarcity of datasets and the lack of a systematic benchmark hinder its development. We introduce Real3D-AD, a challenging high-precision point cloud anomaly detection dataset, addressing the limitations in the field. With 1,254 high-resolution 3D items from forty thousand to millions of points for each item, Real3D-AD is the largest dataset for high-precision 3D industrial anomaly detection to date. Real3D-AD surpasses existing 3D anomaly detection datasets available regarding point cloud resolution (0.0010mm-0.0015mm), 360 degree coverage and perfect prototype. Additionally, we present a comprehensive benchmark for Real3D-AD, revealing the absence of baseline methods for high-precision point cloud anomaly detection. To address this, we propose Reg3D-AD, a registration-based 3D anomaly detection method incorporating a novel feature memory bank that preserves local and global representations. Extensive experiments on the Real3D-AD dataset highlight the effectiveness of Reg3D-AD. For reproducibility and accessibility, we provide the Real3D-AD dataset, benchmark source code, and Reg3D-AD on our website:https://github.com/M-3LAB/Real3D-AD.
翻訳日:2023-09-27 10:42:32 公開日:2023-09-26
# 光学ラマン格子における非アベリア力学ゲージ場とトポロジカル超流動

Non-Abelian dynamical gauge field and topological superfluids in optical Raman lattice ( http://arxiv.org/abs/2309.12923v2 )

ライセンス: Link先を確認
Xin-Chi Zhou, Tian-Hua Yang, Zhi-Yuan Wang and Xiong-Jun Liu(参考訳) 超低温フェルミオンの非可換動的ゲージ場を実現するための実験的スキームを提案し,位相超流動の新しいペアリング機構を導出する。 動的ゲージ場は、2次元(2次元)光学ラマン格子の強いゼーマン分割とハバード相互作用の間の非自明な相互作用効果から生じる。 スピンフリップ遷移は大きなゼーマンデチューニングによって禁止されるが、ゼーマン分裂がハバード相互作用によって補償されるときに復元される。 このスキームにより、局所状態の設定に依存するディラック型相関2次元スピン軌道相互作用に繋がる動的非可換ゲージ場を生成することができる。 2次元力学ゲージ場によって駆動される新しい対のトポロジカル超流動に到達し,解析的および数値的結果を得た。 我々の研究は非可換力学ゲージ場をエミュレートするドアを開く可能性があり、位相位相相と実験的実現可能性との相関が考えられる。

We propose an experimental scheme to realize non-Abelian dynamical gauge field for ultracold fermions, which induces a novel pairing mechanism of topological superfluidity. The dynamical gauge fields arise from nontrivial interplay effect between the strong Zeeman splitting and Hubbard interaction in a two-dimensional (2D) optical Raman lattice. The spin-flip transitions are forbidden by the large Zeeman detuning, but are restored when the Zeeman splitting is compensated by Hubbard interaction. This scheme allows to generate a dynamical non-Abelian gauge field that leads to a Dirac type correlated 2D spin-orbit interaction depending on local state configurations. The topological superfluid from a novel pairing driven by 2D dynamical gauge fields is reached, with analytic and numerical results being obtained. Our work may open up a door to emulate non-Abelian dynamical gauge fields and correlated topological phases with experimental feasibility.
翻訳日:2023-09-27 10:42:04 公開日:2023-09-26
# 繰り返し発生する時間的リビジョングラフネットワーク

Recurrent Temporal Revision Graph Networks ( http://arxiv.org/abs/2309.12694v2 )

ライセンス: Link先を確認
Yizhou Chen, Anxiang Zeng, Guangda Huzhang, Qingtao Yu, Kerui Zhang, Cao Yuanpeng, Kangle Wu, Han Yu, Zhiming Zhou(参考訳) 時間グラフは静的グラフよりも多くの実世界のシナリオの正確なモデリングを提供する。 しかし、時間グラフのためのグラフネットワークの重要なビルディングブロックであるnearby aggregateは、現在静的グラフから簡単に拡張されている。 このような集約中にすべての歴史的な隣人を巻き込む場合、計算コストがかかる。 実際には、通常は最新の隣人のごく一部しか関与していない。 しかし、このようなサブサンプリングは、不完全で偏った隣の情報を導く。 この制限に対処するために,ノード単位の隠れ状態を持つリカレントニューラルネットワークを用いて,各ノードのすべての履歴隣人からの情報を統合して,完全な隣接情報を取得する,時間的隣人集約のための新しいフレームワークを提案する。 提案するフレームワークの優れた理論的表現性および実世界のアプリケーションにおける最先端性能を示す。 特に、2層モデル上の既存のメソッドよりも、現実のEコマースデータセットにおける平均精度が9.6%向上している。

Temporal graphs offer more accurate modeling of many real-world scenarios than static graphs. However, neighbor aggregation, a critical building block of graph networks, for temporal graphs, is currently straightforwardly extended from that of static graphs. It can be computationally expensive when involving all historical neighbors during such aggregation. In practice, typically only a subset of the most recent neighbors are involved. However, such subsampling leads to incomplete and biased neighbor information. To address this limitation, we propose a novel framework for temporal neighbor aggregation that uses the recurrent neural network with node-wise hidden states to integrate information from all historical neighbors for each node to acquire the complete neighbor information. We demonstrate the superior theoretical expressiveness of the proposed framework as well as its state-of-the-art performance in real-world applications. Notably, it achieves a significant +9.6% improvement on averaged precision in a real-world Ecommerce dataset over existing methods on 2-layer models.
翻訳日:2023-09-27 10:41:49 公開日:2023-09-26
# 将来の資産価値と投資ユニバースの自動削減を用いたポートフォリオ最適化のための量子コンピューティングシステム

A Quantum Computing-based System for Portfolio Optimization using Future Asset Values and Automatic Reduction of the Investment Universe ( http://arxiv.org/abs/2309.12627v2 )

ライセンス: Link先を確認
Eneko Osaba, Guillaume Gelabert, Esther Villar-Rodriguez, Ant\'on Asla and Izaskun Oregi(参考訳) 量的金融の最も注目されている問題の1つはポートフォリオ最適化の問題である。 その解法については、量子コンピューティングに関連するものは近年特に多作であるなど、様々な技術を用いてこの問題にアプローチされている。 本研究では,将来的な資産価値と自動宇宙還元(q4futurepop)を備えたポートフォリオ最適化のための量子コンピューティングベースのシステムを提案する。 一 開発済みのツールは、歴史的価値ではなく、将来の資産の予測を扱うためにモデル化され、かつ ii)Q4FuturePOPは、問題の複雑さを知的に低減するために考案された自動宇宙還元モジュールを含む。 また、Q4FuturePOPのプロトタイプバージョンを構成する異なるモジュールの予備性能に関する簡単な議論も紹介する。

One of the problems in quantitative finance that has received the most attention is the portfolio optimization problem. Regarding its solving, this problem has been approached using different techniques, with those related to quantum computing being especially prolific in recent years. In this study, we present a system called Quantum Computing-based System for Portfolio Optimization with Future Asset Values and Automatic Universe Reduction (Q4FuturePOP), which deals with the Portfolio Optimization Problem considering the following innovations: i) the developed tool is modeled for working with future prediction of assets, instead of historical values; and ii) Q4FuturePOP includes an automatic universe reduction module, which is conceived to intelligently reduce the complexity of the problem. We also introduce a brief discussion about the preliminary performance of the different modules that compose the prototypical version of Q4FuturePOP.
翻訳日:2023-09-27 10:41:36 公開日:2023-09-26
# chitnet:赤外線と可視画像融合のための調和型情報転送ネットワーク

CHITNet: A Complementary to Harmonious Information Transfer Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2309.06118v4 )

ライセンス: Link先を確認
Yafei Zhang, Keying Du, Huafeng Li, Zhengtao Yu, Yu Liu(参考訳) 現在の赤外線および可視画像融合法(IVIF)は、相補的な特徴を発掘し、複雑な融合戦略を設計するのに非常に困難である。 この目的のために、ボックス外でIVIFを再考し、調和した情報伝達ネットワーク(CHITNet)を補完することを提案する。 相補的情報を調和したものに合理的に転送し、2つのモダリティから相補的特徴の両方を統合する。 具体的には、ivifにおける補完情報を巧みに集約するために、2つのモダリティから特徴を相互に表現する相互情報転送(mit)モジュールを設計、補完情報を概ね調和情報に変換する。 そして、ソース画像(HIASSI)モジュールによって管理される調和情報取得を考案し、MIT以降の調和情報伝達の補間をさらに確実にする。 また,ソース画像のエッジ構造情報を融合結果に転送可能であることを保証する構造情報保存(sip)モジュールを提案する。 さらに,MIT,HIASSI,SIPの連携を促進するために,相互促進訓練パラダイム(MPTP)が採用されている。 このようにして,提案手法は,高い品質の融合画像を生成することができる。 広範に実験した結果,視覚品質と定量的評価の観点から,最先端アルゴリズムよりもキトネットが優れていることが示された。

Current infrared and visible image fusion (IVIF) methods go to great lengths to excavate complementary features and design complex fusion strategies, which is extremely challenging. To this end, we rethink the IVIF outside the box, proposing a complementary to harmonious information transfer network (CHITNet). It reasonably transfers complementary information into harmonious one, which integrates both the shared and complementary features from two modalities. Specifically, to skillfully sidestep aggregating complementary information in IVIF, we design a mutual information transfer (MIT) module to mutually represent features from two modalities, roughly transferring complementary information into harmonious one. Then, a harmonious information acquisition supervised by source image (HIASSI) module is devised to further ensure the complementary to harmonious information transfer after MIT. Meanwhile, we also propose a structure information preservation (SIP) module to guarantee that the edge structure information of the source images can be transferred to the fusion results. Moreover, a mutual promotion training paradigm (MPTP) with interaction loss is adopted to facilitate better collaboration among MIT, HIASSI and SIP. In this way, the proposed method is able to generate fused images with higher qualities. Extensive experimental results demonstrate the superiority of our CHITNet over state-of-the-art algorithms in terms of visual quality and quantitative evaluations.
翻訳日:2023-09-27 10:41:23 公開日:2023-09-26
# ニューラルネットワークのスパイクを簡単から難易度に学習する

Learning Spiking Neural Network from Easy to Hard task ( http://arxiv.org/abs/2309.04737v3 )

ライセンス: Link先を確認
Lingling Tang, Jiangtao Hu, Hua Yu, Surui Liu, Jielei Chu(参考訳) 小さくてシンプルな概念から始まり、徐々に複雑で難しい概念を導入することは、人間の学習の自然なプロセスです。 スパイキングニューラルネットワーク(SNN)は、人間が情報を処理する方法を模倣することを目的としているが、現在のSNNモデルは、すべてのサンプルを平等に扱う。 そこで本研究では,SNNにCurriculum Learning(CL)を導入したCL-SNNモデルを提案する。 clは、より難しいデータを導入する前にモデルに簡単なデータを提示し、人間の学習プロセスを模倣するトレーニング戦略である。 信頼性を意識した損失を使用して、異なる難易度でサンプルを測定し、処理します。 異なるサンプルの信頼性を学習することで、難しいサンプルのパラメータ最適化への寄与を自動で減少させる。 静的画像データセットMNIST, Fashion-MNIST, CIFAR10およびニューロモルフィックデータセットN-MNIST, CIFAR10-DVS, DVS-Gestureについて実験を行った。 結果は有望だ。 我々の知る限り、CLを導入することでSNNの生物学的妥当性を高めるための最初の提案である。

Starting with small and simple concepts, and gradually introducing complex and difficult concepts is the natural process of human learning. Spiking Neural Networks (SNNs) aim to mimic the way humans process information, but current SNNs models treat all samples equally, which does not align with the principles of human learning and overlooks the biological plausibility of SNNs. To address this, we propose a CL-SNN model that introduces Curriculum Learning(CL) into SNNs, making SNNs learn more like humans and providing higher biological interpretability. CL is a training strategy that advocates presenting easier data to models before gradually introducing more challenging data, mimicking the human learning process. We use a confidence-aware loss to measure and process the samples with different difficulty levels. By learning the confidence of different samples, the model reduces the contribution of difficult samples to parameter optimization automatically. We conducted experiments on static image datasets MNIST, Fashion-MNIST, CIFAR10, and neuromorphic datasets N-MNIST, CIFAR10-DVS, DVS-Gesture. The results are promising. To our best knowledge, this is the first proposal to enhance the biologically plausibility of SNNs by introducing CL.
翻訳日:2023-09-27 10:41:01 公開日:2023-09-26
# 動的アンサンブル選択法を改善するポスト選択アルゴリズム

A post-selection algorithm for improving dynamic ensemble selection methods ( http://arxiv.org/abs/2309.14307v2 )

ライセンス: Link先を確認
Paulo R.G. Cordeiro, George D.C. Cavalcanti and Rafael M.O. Cruz(参考訳) Dynamic Ensemble Selection (DES)は、Multiple Classifier Systems(MCS)アプローチであり、選択フェーズ中に各クエリサンプルのアンサンブルを選択することを目的としている。 いくつかのDESアプローチの提案にもかかわらず、特定のDESテクニックは異なる問題に最適な選択ではない。 したがって、クエリインスタンス毎に最適なdesアプローチを選択することで、より良い精度が得られると仮定する。 そこで本研究では,複数のdes手法により選択されたアンサンブルを評価するps-des(post-selection dynamic ensemble selection)手法を提案する。 実験結果から,PS-DESは個々のDES技術よりも精度が高いことがわかった。 PS-DESソースコードはGitHubリポジトリで入手できる

Dynamic Ensemble Selection (DES) is a Multiple Classifier Systems (MCS) approach that aims to select an ensemble for each query sample during the selection phase. Even with the proposal of several DES approaches, no particular DES technique is the best choice for different problems. Thus, we hypothesize that selecting the best DES approach per query instance can lead to better accuracy. To evaluate this idea, we introduce the Post-Selection Dynamic Ensemble Selection (PS-DES) approach, a post-selection scheme that evaluates ensembles selected by several DES techniques using different metrics. Experimental results show that using accuracy as a metric to select the ensembles, PS-DES performs better than individual DES techniques. PS-DES source code is available in a GitHub repository
翻訳日:2023-09-27 10:33:09 公開日:2023-09-26
# species196: きめ細かな種認識のための100万個の半教師付きデータセット

Species196: A One-Million Semi-supervised Dataset for Fine-grained Species Recognition ( http://arxiv.org/abs/2309.14183v2 )

ライセンス: Link先を確認
Wei He, Kai Han, Ying Nie, Chengcheng Wang, Yunhe Wang(参考訳) 基礎視覚モデルの開発は、一般的な視覚認識を高いレベルに押し上げたが、侵入種分類のような特殊な領域におけるきめ細かい認識にはうまく対応できない。 外来種の同定と管理は、社会的・生態学的価値が強い。 現在、ほとんどの侵入種データセットは規模が限られており、限られた範囲の種をカバーしており、深層学習に基づく侵略バイオメトリックスシステムの開発を制限している。 この領域のギャップを埋めるために,196カテゴリーの侵入種からなる大規模半教師付きデータセットである species196 を導入した。 専門家レベルの正確な注釈種196-l、侵入種種196-uのラベルなし画像1.2mの19k以上の画像を収集する。 データセットは、既存のモデルとアルゴリズムをベンチマークするための4つの実験的な設定、すなわち、教師付き学習、半教師付き学習、自己教師付き事前学習、大規模マルチモーダルモデルのゼロショット推論能力を提供する。 これら4つの学習パラダイムの今後の研究を促進するために,提案したデータセットの代表的な手法を実証研究する。 データセットはhttps://species-dataset.github.io/で公開されている。

The development of foundation vision models has pushed the general visual recognition to a high level, but cannot well address the fine-grained recognition in specialized domain such as invasive species classification. Identifying and managing invasive species has strong social and ecological value. Currently, most invasive species datasets are limited in scale and cover a narrow range of species, which restricts the development of deep-learning based invasion biometrics systems. To fill the gap of this area, we introduced Species196, a large-scale semi-supervised dataset of 196-category invasive species. It collects over 19K images with expert-level accurate annotations Species196-L, and 1.2M unlabeled images of invasive species Species196-U. The dataset provides four experimental settings for benchmarking the existing models and algorithms, namely, supervised learning, semi-supervised learning, self-supervised pretraining and zero-shot inference ability of large multi-modal models. To facilitate future research on these four learning paradigms, we conduct an empirical study of the representative methods on the introduced dataset. The dataset is publicly available at https://species-dataset.github.io/.
翻訳日:2023-09-27 10:32:53 公開日:2023-09-26
# asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v2 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang(参考訳) ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。 最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。 本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。 さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。 さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 この手法はNYUv2およびSUNRGBDデータセットで評価され、AsymFormerはNYUv2では52.0% mIoU、SUNRGBDでは49.1% mIoUの競争結果を示した。 特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。 これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational efficiency and precision. In this work, we propose AsymFormer, a novel network for real-time RGB-D semantic segmentation, which targets the minimization of superfluous parameters by optimizing the distribution of computational resources and introduces an asymmetrical backbone to allow for the effective fusion of multimodal features. Furthermore, we explore techniques to bolster network accuracy by redefining feature selection and extracting multi-modal self-similarity features without a substantial increase in the parameter count, thereby ensuring real-time execution on robotic platforms. Additionally, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. This method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer demonstrating competitive results with 52.0% mIoU on NYUv2 and 49.1% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after implementing mixed precision quantization, it attains an impressive inference speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal methods, thereby demonstrating that AsymFormer can strike a balance between high accuracy and efficiency for RGB-D semantic segmentation.
翻訳日:2023-09-27 10:32:35 公開日:2023-09-26
# ASR音声エンコーダと大言語モデルとの接続

Connecting Speech Encoder and Large Language Model for ASR ( http://arxiv.org/abs/2309.13963v2 )

ライセンス: Link先を確認
Wenyi Yu and Changli Tang and Guangzhi Sun and Xianzhao Chen and Tian Tan and Wei Li and Lu Lu and Zejun Ma and Chao Zhang(参考訳) 大規模言語モデル(LLM)の印象的な能力と汎用性は、音声認識(ASR)において注目を集めており、音声エンコーダとLLMを接続して統合されたASRモデルを構築しようとする先駆的な研究がいくつかある。 本稿では,完全連結層,マルチヘッドクロスアテンション,Q-Formerを含むコネクタとしてよく使用される3つの構造について比較検討する。 Whisperモデルシリーズの音声エンコーダと,モデルサイズが異なるVicunaモデルシリーズのLLMについて検討した。 一般的なLibriSpeech、Common Voice、GigaSpeechのデータセットで実験を行い、Q-Formers を用いた LLM は、他のコネクタ構造を持つ LLM よりも一貫した、相当なワードエラー率 (WER) を減少させることを示した。 Q-FormerベースのLLMはドメイン外のデータセットによく応用でき、WhisperベースラインのASRモデルに対する相対的なWER削減は、Switchboardのドメイン内トレーニングデータを使用しないEval2000テストセットで達成されている。 さらに、LLMがエンコーダの制限時間を超える音声セグメントを認識できるように、新しいセグメントレベルのQ-Formerを提案し、90秒長の音声データ上での他のコネクタ構造よりも17%のWER削減を実現した。

The impressive capability and versatility of large language models (LLMs) have aroused increasing attention in automatic speech recognition (ASR), with several pioneering studies attempting to build integrated ASR models by connecting a speech encoder with an LLM. This paper presents a comparative study of three commonly used structures as connectors, including fully connected layers, multi-head cross-attention, and Q-Former. Speech encoders from the Whisper model series as well as LLMs from the Vicuna model series with different model sizes were studied. Experiments were performed on the commonly used LibriSpeech, Common Voice, and GigaSpeech datasets, where the LLMs with Q-Formers demonstrated consistent and considerable word error rate (WER) reductions over LLMs with other connector structures. Q-Former-based LLMs can generalise well to out-of-domain datasets, where 12% relative WER reductions over the Whisper baseline ASR model were achieved on the Eval2000 test set without using any in-domain training data from Switchboard. Moreover, a novel segment-level Q-Former is proposed to enable LLMs to recognise speech segments with a duration exceeding the limitation of the encoders, which results in 17% relative WER reductions over other connector structures on 90-second-long speech data.
翻訳日:2023-09-27 10:32:00 公開日:2023-09-26
# 擬似ラベル選択は決定問題である

Pseudo Label Selection is a Decision Problem ( http://arxiv.org/abs/2309.13926v2 )

ライセンス: Link先を確認
Julian Rodemann(参考訳) 擬似ラベルは半教師付き学習に対する単純かつ効果的なアプローチである。 擬似ラベル付きデータの選定を導く基準が必要である。 後者は擬似ラベルの一般化性能に重大な影響を与えることが示されている。 このような基準がいくつか存在し、実際にうまく機能することが証明された。 しかし、その性能はラベル付きデータに適合する初期モデルに依存することが多い。 早期のオーバーフィッティングは、自信過剰だが誤った予測を持つインスタンスを選択することで最終モデルに伝播することができる。 近年の2つの研究で,疑似ラベル選択 (pls) が決定理論に自然に組み込まれることを実証した。 BPLSは、確認バイアスの問題を緩和するPLSのためのベイズ的フレームワークである。 その中心にある新しい選択基準は、擬似サンプルとラベル付きデータの後方予測に関する解析的近似である。 この選択基準は、この「擬似後続予測」のベイズ最適性を証明することによって導かれる。 シミュレーションおよび実世界データを用いた一般化線形・非パラメトリック一般化加法モデルとベイズニューラルネットワークに対するbplの評価を行った。 データに直面すると過度に適合し、確認バイアスの高い場合、BPLSは従来のPLS法より優れている。 さらに、決定論的埋め込みにより、PSSを関連するモデリング仮定に向けてより堅牢にすることができる。 この目的を達成するために,多目的ユーティリティ関数を導入する。 モデル選択, 誤りの蓄積, 共変量シフトの3つの例を探索し, 異なる不確実性の源を説明するために, 後者を構築できることを実証した。

Pseudo-Labeling is a simple and effective approach to semi-supervised learning. It requires criteria that guide the selection of pseudo-labeled data. The latter have been shown to crucially affect pseudo-labeling's generalization performance. Several such criteria exist and were proven to work reasonably well in practice. However, their performance often depends on the initial model fit on labeled data. Early overfitting can be propagated to the final model by choosing instances with overconfident but wrong predictions, often called confirmation bias. In two recent works, we demonstrate that pseudo-label selection (PLS) can be naturally embedded into decision theory. This paves the way for BPLS, a Bayesian framework for PLS that mitigates the issue of confirmation bias. At its heart is a novel selection criterion: an analytical approximation of the posterior predictive of pseudo-samples and labeled data. We derive this selection criterion by proving Bayes-optimality of this "pseudo posterior predictive". We empirically assess BPLS for generalized linear, non-parametric generalized additive models and Bayesian neural networks on simulated and real-world data. When faced with data prone to overfitting and thus a high chance of confirmation bias, BPLS outperforms traditional PLS methods. The decision-theoretic embedding further allows us to render PLS more robust towards the involved modeling assumptions. To achieve this goal, we introduce a multi-objective utility function. We demonstrate that the latter can be constructed to account for different sources of uncertainty and explore three examples: model selection, accumulation of errors and covariate shift.
翻訳日:2023-09-27 10:31:32 公開日:2023-09-26
# Bitstream-Corruptedビデオリカバリ:新しいベンチマークデータセットと方法

Bitstream-Corrupted Video Recovery: A Novel Benchmark Dataset and Method ( http://arxiv.org/abs/2309.13890v2 )

ライセンス: Link先を確認
Tianyi Liu and Kejun Wu and Yi Wang and Wenyang Liu and Kim-Hui Yap and Lap-Pui Chau(参考訳) 過去10年間、ビデオインペインティング、コンプリート、エラー隠蔽といった専門技術によって、ビデオのリカバリは大きな進歩を遂げてきた。 しかし、通常は手動設計のエラーマスクによって不足したコンテンツをシミュレートし、ビデオ通信(テレプレゼンス、ライブストリーミング、インターネットビデオなど)やマルチメディアの法医学における現実的なビデオ損失を補うことができない。 そこで本研究では,ビットストリーム崩壊ビデオ(BSCV)ベンチマークを導入する。このベンチマークは,28,000本以上のビデオクリップを備えた最初のベンチマークデータセットであり,実世界ではビットストリーム崩壊ビデオリカバリに使用できる。 BSCVはコレクションです 1)ビデオビットストリームのための3パラメータ汚損モデルの提案 2)豊富なエラーパターン、複数の汚職レベル、柔軟なデータセットブランチを含む大規模データセット。 3) ビデオリカバリフレームワークのプラグインモジュールで,ベンチマークとして機能する。 我々は,BSCVデータセット上の最先端ビデオ塗装手法を評価し,既存のアプローチの限界と,ビットストリームの破損したビデオ復元問題の解決におけるフレームワークの利点を実証した。 ベンチマークとデータセットはhttps://github.com/LIUTIGHE/BSCV-Datasetで公開されている。

The past decade has witnessed great strides in video recovery by specialist technologies, like video inpainting, completion, and error concealment. However, they typically simulate the missing content by manual-designed error masks, thus failing to fill in the realistic video loss in video communication (e.g., telepresence, live streaming, and internet video) and multimedia forensics. To address this, we introduce the bitstream-corrupted video (BSCV) benchmark, the first benchmark dataset with more than 28,000 video clips, which can be used for bitstream-corrupted video recovery in the real world. The BSCV is a collection of 1) a proposed three-parameter corruption model for video bitstream, 2) a large-scale dataset containing rich error patterns, multiple corruption levels, and flexible dataset branches, and 3) a plug-and-play module in video recovery framework that serves as a benchmark. We evaluate state-of-the-art video inpainting methods on the BSCV dataset, demonstrating existing approaches' limitations and our framework's advantages in solving the bitstream-corrupted video recovery problem. The benchmark and dataset are released at https://github.com/LIUTIGHE/BSCV-Dataset.
翻訳日:2023-09-27 10:31:11 公開日:2023-09-26
# 床計画自動生成のためのレイアウトグラフ付きスキップ接続ニューラルネットワーク

Skip-Connected Neural Networks with Layout Graphs for Floor Plan Auto-Generation ( http://arxiv.org/abs/2309.13881v2 )

ライセンス: Link先を確認
Yuntae Jeon, Dai Quoc Tran, Seunghee Park(参考訳) AIとコンピュータビジョン技術の出現により、自動化された効率的なフロアプラン設計の探求が勢いを増している。 本稿では,レイアウトグラフを統合したスキップ接続型ニューラルネットワークを用いた新しい手法を提案する。 スキップ接続層はマルチスケールフロアプラン情報をキャプチャし、GNNを用いたエンコーダデコーダネットワークは画素レベルの確率ベースの生成を容易にする。 MSDデータセットで検証し,第1回CVAADワークショップで93.9mIoUのスコアを得た。 コードと事前訓練されたモデルはhttps://github.com/yuntaeJ/SkipNet-FloorPlanGeで公開されている。

With the advent of AI and computer vision techniques, the quest for automated and efficient floor plan designs has gained momentum. This paper presents a novel approach using skip-connected neural networks integrated with layout graphs. The skip-connected layers capture multi-scale floor plan information, and the encoder-decoder networks with GNN facilitate pixel-level probability-based generation. Validated on the MSD dataset, our approach achieved a 93.9 mIoU score in the 1st CVAAD workshop challenge. Code and pre-trained models are publicly available at https://github.com/yuntaeJ/SkipNet-FloorPlanGe.
翻訳日:2023-09-27 10:30:50 公開日:2023-09-26
# 現代量子化高効率ニューラルネットワークの校正について

On Calibration of Modern Quantized Efficient Neural Networks ( http://arxiv.org/abs/2309.13866v2 )

ライセンス: Link先を確認
Joey Kuang, Alexander Wong(参考訳) 本稿では,ShuffleNetv2,GhostNet-VGG,MobileOneの3つのアーキテクチャと,CIFAR-100とPathMNISTの2つのデータセットのキャリブレーション特性について検討する。 キャリブレーションの質は, 量子化品質を追跡するために観測され, 精度が低いほど性能が悪化し, より低いキャリブレーションと類似した相関が観察された。 これは4ビットのアクティベーションでは特に顕著である。 GhostNet-VGGは、低い精度で全体的なパフォーマンス低下に対して最も堅牢であることが示されている。 温度スケーリングは量子化ネットワークのキャリブレーションエラーを改善できるが、いくつかの注意点がある。 これらの予備的な洞察が、より説明可能で信頼性の高いEdgeMLの機会に繋がることを期待しています。

We explore calibration properties at various precisions for three architectures: ShuffleNetv2, GhostNet-VGG, and MobileOne; and two datasets: CIFAR-100 and PathMNIST. The quality of calibration is observed to track the quantization quality; it is well-documented that performance worsens with lower precision, and we observe a similar correlation with poorer calibration. This becomes especially egregious at 4-bit activation regime. GhostNet-VGG is shown to be the most robust to overall performance drop at lower precision. We find that temperature scaling can improve calibration error for quantized networks, with some caveats. We hope that these preliminary insights can lead to more opportunities for explainable and reliable EdgeML.
翻訳日:2023-09-27 10:30:40 公開日:2023-09-26
# ICU受信予測のための説明可能な機械学習

Explainable Machine Learning for ICU Readmission Prediction ( http://arxiv.org/abs/2309.13781v2 )

ライセンス: Link先を確認
Alex G. C. de S\'a, Daniel Gould, Anna Fedyukova, Mitchell Nicholas, Lucy Dockrell, Calvin Fletcher, David Pilcher, Daniel Capurro, David Ascher, Khaled El-Khawas, Douglas E. V. Pires(参考訳) 集中治療ユニット(ICU)は複雑な病院環境を含み、臨床医による決定は患者の生活に高いリスクをもたらす。 その後、p合併症を減らすために包括的治療経路をたどらなければならない。 この環境における不確かで競合し、計画されていない側面は、ケアパスを均一に実施することの難しさを増大させる。 寛解は、短期間でicuに再入院した患者が死亡率が高く、資源利用率が高い場合に発生する、この経路の難しさに寄与する。 いくつかの研究は患者の医療情報を通じて寛解を予測しようとした。 読み出しを予測しながらある程度成功したが、これらの作品は読み出し予測を適切に評価、特徴付け、理解していない。 本研究は,多心性データベース(eICUコホートが166,355人,200,859人,6,021人)上で患者寛解をモデル化し,単心性(MIMIC IVコホートが382,278人,523,740人,5,984人)と多心性設定で検証する,標準化された説明可能な機械学習パイプラインを提案する。 我々の機械学習パイプラインは、ランダムフォレスト分類モデルを用いて、受信機動作特性曲線(AUC)の面積を最大0.7まで予測し、全体的な校正と検証セットの整合性を実現した。 構築されたモデルによって提供される説明から、主にバイタルサインや血液検査(例えば、アルブミン、血液尿素窒素、ヘモグロビン濃度)、人口動態(例えば、年齢、入場高さと体重)、ICU関連変数(例えば、単位型)に関する、洞察に富んだ結論を導出することができる。 これらの知見は、ICU患者を退院させながら、臨床医の意思決定において貴重な情報源を提供する。

The intensive care unit (ICU) comprises a complex hospital environment, where decisions made by clinicians have a high level of risk for the patients' lives. A comprehensive care pathway must then be followed to reduce p complications. Uncertain, competing and unplanned aspects within this environment increase the difficulty in uniformly implementing the care pathway. Readmission contributes to this pathway's difficulty, occurring when patients are admitted again to the ICU in a short timeframe, resulting in high mortality rates and high resource utilisation. Several works have tried to predict readmission through patients' medical information. Although they have some level of success while predicting readmission, those works do not properly assess, characterise and understand readmission prediction. This work proposes a standardised and explainable machine learning pipeline to model patient readmission on a multicentric database (i.e., the eICU cohort with 166,355 patients, 200,859 admissions and 6,021 readmissions) while validating it on monocentric (i.e., the MIMIC IV cohort with 382,278 patients, 523,740 admissions and 5,984 readmissions) and multicentric settings. Our machine learning pipeline achieved predictive performance in terms of the area of the receiver operating characteristic curve (AUC) up to 0.7 with a Random Forest classification model, yielding an overall good calibration and consistency on validation sets. From explanations provided by the constructed models, we could also derive a set of insightful conclusions, primarily on variables related to vital signs and blood tests (e.g., albumin, blood urea nitrogen and hemoglobin levels), demographics (e.g., age, and admission height and weight), and ICU-associated variables (e.g., unit type). These insights provide an invaluable source of information during clinicians' decision-making while discharging ICU patients.
翻訳日:2023-09-27 10:30:26 公開日:2023-09-26
# カメラキャプチャ画像における超高分解能SOTAのアート復元への適応

Adaptation of the super resolution SOTA for Art Restoration in camera capture images ( http://arxiv.org/abs/2309.13655v2 )

ライセンス: Link先を確認
Sandeep Nagar(参考訳) 文化遺産の保存が重要視されている。 美術修復の分野では、劣化した美術品のイメージを効果的に復元できるコンピュータビジョンモデルの開発は困難だったが、現在では優れたコンピュータビジョンが実現されている。 伝統的な修復法はしばしば時間がかかり、幅広い専門知識を必要とする。 この研究の目的は、劣化したアートワークの強化と再構築が可能なコンピュータビジョンモデルに基づく自動ソリューションの設計と、元の特性とアーティファクトを維持しながら、視覚品質の向上である。 このモデルは、ノイズ、ボケ、スクラッチ、フェーディング、その他の一般的なタイプの劣化など、さまざまな種類の劣化タイプを扱わなければならない。 我々は、拡散モデル(DM)に基づく画像超解像の現況に適応し、画像復元のための微調整を行う。 以上の結果から,分解の異なる複数のモデルを微調整する代わりに,超解像を微調整することがわかった。 堅牢にするために、複数のデータセットでトレーニングします。 コードリンク: https://github.com/naagar/art_restoration_dm

Preserving cultural heritage is of paramount importance. In the domain of art restoration, developing a computer vision model capable of effectively restoring deteriorated images of art pieces was difficult, but now we have a good computer vision state-of-art. Traditional restoration methods are often time-consuming and require extensive expertise. The aim of this work is to design an automated solution based on computer vision models that can enhance and reconstruct degraded artworks, improving their visual quality while preserving their original characteristics and artifacts. The model should handle a diverse range of deterioration types, including but not limited to noise, blur, scratches, fading, and other common forms of degradation. We adapt the current state-of-art for the image super-resolution based on the Diffusion Model (DM) and fine-tune it for Image art restoration. Our results show that instead of fine-tunning multiple different models for different kinds of degradation, fine-tuning one super-resolution. We train it on multiple datasets to make it robust. code link: https://github.com/Naagar/art_restoration_DM
翻訳日:2023-09-27 10:29:51 公開日:2023-09-26